<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      別卷推理了!當前大模型 STEM 短板在視覺感知,代碼才是破局關鍵

      0
      分享至



      本篇論文已被CVPR2026接收,第一作者官同坤來自上海交通大學人工智能研究院博士生,導師是沈為教授和楊小康教授。

      當多模態大語言模型(MLLMs)在面對科學、技術、工程和數學(STEM)領域的視覺推理題時頻頻「翻車」,一個根本性的問題擺在了所有研究者面前:大模型做不出理科題,究竟是因為「腦子笨」(推理能力受限),還是因為「眼神差」(視覺感知缺陷)?

      為了回答這個問題,來自上海交通大學和 Qwen 等研究團隊通過將任務分解為兩個階段進行系統性的擴展分析:視覺感知(圖像到描述)和推理(僅基于文本描述解決問題)。他們分別擴展感知和推理能力,同時保持其中一個能力不變。結果表明,擴展感知能力始終比擴展推理能力帶來更大的性能提升。這一經驗證據揭示了一個關鍵見解:在當前階段,感知才是限制大模型 STEM 視覺推理的真正瓶頸所在。

      基于這一深刻洞見,該團隊提出了一種全新的范式——CodePercept(代碼驅動的視覺感知),并成功被計算機視覺頂級會議CVPR 2026接收。



      • 開源地址
      • https://github.com/TongkunGuan/Qwen-CodePercept
      • 論文標題:CodePercept: Code-Grounded Visual STEM Perception for MLLMs
      • 論文鏈接
      • https://arxiv.org/abs/2603.10757



      核心洞見:打破自然語言的

      「描述性失語」,用代碼重塑感知

      近年來,隨著 RL(強化學習)的爆發,研究者們試圖通過復雜獎勵機制提升大模型在 STEM 領域的跨模態推理能力。但研究團隊將 STEM 視覺推理任務解耦為「感知(圖像到描述)」和「推理(僅基于描述進行解答)」兩個階段后發現:擴展感知能力帶來的性能提升,始終優于擴展推理能力。

      既然「感知」是最大短板,那該如何評估并提升它?

      痛點一:自然語言描述存在幻覺以及「描述性失語」

      直覺上,用強大的閉源大模型生成圖像描述(Caption)進行知識蒸餾是個好辦法。但團隊指出了自然語言在 STEM 領域的致命缺陷——「描述性失語」。復雜的空間幾何關系、精準的數值坐標、多面體中錯綜復雜的輔助線,根本無法僅憑自然語言來準確、完整地刻畫,且極易產生幻覺。



      解決方案:面對這一痛點,研究團隊提出將可執行的 Python 代碼作為強大的視覺感知媒介,并從兩個維度進行了范式重構。他們提出代碼作為一種強大的媒介,通過兩項基于代碼的任務顯著增強 MLLM 的視覺感知能力:

      1)代碼驅動的描述生成(Code-Grounded Caption Generation):基于代碼的圖像描述生成,利用可執行代碼作為生成圖像描述的真實標簽,有效消除 AI 生成的描述錯誤(圖像 + Code -> Caption);

      2)STEM 圖像到代碼轉錄(STEM Image-to-Code Translation):直接訓練模型生成可執行的重建代碼,消除自然語言描述固有的歧義(圖像 -> Code)。

      痛點二:現有評估體系無法剝離「感知」與「推理」

      現有的基準測試(如 MathVista、MathVerse 和 MathVision)通過最終任務問題解決準確率來評估 MLLM 的能力,這結合了 STEM 領域的感知理解和推理能力。當模型失敗時,我們無法確定失敗是源于感知缺陷還是推理能力不足。雖然最近的研究采用了兩階段評估范式(先進行圖像描述,再進行 LLM 求解)來分離 MLLM 的感知能力,但該指標僅反映了模型理解問題相關信息的能力,而非全面的視覺感知能力。為了彌補這一不足,我們提出了一種確定性且可驗證的范式,該范式要求模型生成能夠忠實再現原始圖像的可執行 Python 代碼。只有通過完整且準確的視覺理解,模型才能成功地、高保真地再現原始圖像。

      解決方案:面對這一痛點,研究團隊認為,要求 MLLM 生成用于圖像重建的可執行 Python 代碼,能夠最嚴格地驗證其感知能力。這一原理簡單而強大:只有當模型完全理解視覺信息時,才能實現精確的圖像再現。

      基于此原理,他們推出了 STEM2Code-Eval:一個包含 1000 張圖像的手動標注基準測試,旨在檢驗模型生成用于圖像重建的可執行 Python 代碼的能力,從而對視覺感知能力進行確定性和可驗證的評估。



      數據基石:百萬級三元組數據集 ICC-1M

      為了讓代碼成為感知的有效媒介,研究團隊構建了ICC-1M 數據集,包含 100 萬個高質量的圖像-描述-代碼(Image-Caption-Code)三元組。該數據集通過三大創新流水線合成:

      • 圖像復現(Image Reproduction):將現有 STEM 圖像精準轉化為可執行的 Python 代碼。

      • 圖像多樣化(Image Diversity):提取種子圖像的核心 STEM 原理,并在不同的視覺語境中重新實例化,確保生成極其豐富的新穎圖像。

      • 立體幾何合成(Solid Geometry Synthesis):專門針對當前多模態大模型在立體幾何空間關系上的短板,開發了基于模板的立體幾何代碼生成流水線。

      所有數據均需通過嚴苛的三階段統一質量控制(圖像質量、代碼質量、圖碼一致性驗證),確保訓練信號的絕對精準。

      訓練雙引擎:兩項「代碼驅動」學習任務

      基于 ICC-1M 數據集,CodePercept 提出了兩項開創性的訓練任務,系統性提升感知能力:

      1、代碼驅動的描述生成(Code-Grounded Caption Generation):將可執行代碼視為圖像描述的「絕對真理」,利用代碼分析中的確鑿事實(如坐標、數量)進行重寫,徹底消除了傳統視覺語言模型固有的數字和幾何幻覺。

      2、STEM 圖像到代碼轉錄(STEM Image-to-Code Translation):直接引導大模型生成包含詳細注釋的「解釋性重建代碼」,這不僅消除了自然語言描述的模糊性,還迫使模型深刻理解「觀測特征」與「代碼片段」之間的內在映射法則。

      在訓練策略上,團隊采用了兩階段學習法:

      1、第一階段:SFT(監督微調,CodePercept-S1)。Code 本質上是一種格式化的 Caption,所以聯合優化 Image2Caption 與 Image2Code 任務,使模型建立強大的感知能力;

      2、第二階段:強化學習(CodePercept-R1)。鑒于代碼生成的容錯率極低,團隊引入了 GRPO 強化學習專屬優化代碼生成。模型不僅需要拿到「格式獎勵(語法正確)」,還要通過更嚴苛的「內容執行獎勵」與「圖碼相似度獎勵」,在不斷的自我試錯中實現能力的指數級躍遷。

      硬核評測與驚艷結果

      傳統評測往往用「解題正確率」來衡量感知,這不僅存在誤差,還容易遺漏未考查的視覺細節。為此,研究團隊推出了STEM2Code-Eval Benchmark。這是一個包含 1000 張經過人工精校圖像的評測基準,它要求模型直接生成 Python 代碼來 100% 還原原始圖像,提供最確定、最可驗證的視覺感知評估底線。

      基于 Qwen3-VL 架構的實驗結果令人震撼:

      • 解題端(Captioner-Solver)表現:在同樣的推理求解器下,CodePercept-8B-S1 竟然超越了比其大得多的開源巨頭 Qwen2.5-VL-72B(優勢達 6.2%),甚至逼近了 Claude-Opus 4.1-Thinking 和 GPT5-Thinking 等閉源前沿模型的水平。



      • 視覺重構(STEM2Code-Eval)表現:在純粹考查感知的圖像還原任務中,經過強化學習優化的 CodePercept-8B-R1 斬獲了 63.56 分的佳績(較基座提升 3.92 分),全面碾壓了 Seed 1.6-Vision 和 Qwen3-VL-Plus 等超大參數規模的旗艦模型。



      結語

      CodePercept 的出現不僅僅是一個新模型的誕生,它更宣告了多模態大模型在解決復雜科學問題時的一條新航線:只有給大模型裝上基于代碼邏輯的「火眼金睛」,真正的復雜推理之門才會被徹底叩開。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      當年喊出“不是你撞的,干嘛去扶”的法官,17年后,過的咋樣了?

      當年喊出“不是你撞的,干嘛去扶”的法官,17年后,過的咋樣了?

      天天熱點見聞
      2026-05-11 04:47:11
      外國記者提問樊振東能否回歸,國乒工作人員:這不是一個問題

      外國記者提問樊振東能否回歸,國乒工作人員:這不是一個問題

      懂球帝
      2026-05-11 17:07:41
      不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

      不歡迎中國人的7個國家,不待見寫在臉上,中國游客仍蜂擁而至

      史行途
      2026-04-20 00:15:27
      價格大跳水!山姆排長隊,一上架遭搶購!番禺有商戶一天賣了幾百個,網友:猝不及防

      價格大跳水!山姆排長隊,一上架遭搶購!番禺有商戶一天賣了幾百個,網友:猝不及防

      番禺臺
      2026-05-11 17:55:38
      中國賽車+中國車手再奪世界冠軍!吉利星瑞TCR首戰即奪冠

      中國賽車+中國車手再奪世界冠軍!吉利星瑞TCR首戰即奪冠

      揚子晚報
      2026-05-10 21:25:15
      為什么一定要用傷病纏身的梁靖崑?日本攝影師一句話戳穿真相!

      為什么一定要用傷病纏身的梁靖崑?日本攝影師一句話戳穿真相!

      石辰搞笑日常
      2026-05-11 12:28:09
      是誰在偷換了世界杯轉播權之爭的邏輯?

      是誰在偷換了世界杯轉播權之爭的邏輯?

      魯先生的筆
      2026-05-10 21:12:47
      10年后,小米再次淪為Others

      10年后,小米再次淪為Others

      數智研究社
      2026-05-11 08:00:17
      多地市委書記調整

      多地市委書記調整

      上海法治聲音
      2026-05-11 15:46:11
      “專坑中國”,世界杯這回撞墻了

      “專坑中國”,世界杯這回撞墻了

      南風窗
      2026-05-11 14:11:47
      不跟風、不冒進,合資車企憑什么跑贏轉型馬拉松?

      不跟風、不冒進,合資車企憑什么跑贏轉型馬拉松?

      源Auto
      2025-12-03 17:36:48
      張本智和回應遭梁靖崑逆轉:一切都怪我,留下了太多遺憾,金牌依然遙不可及,回家好好訓練變更強

      張本智和回應遭梁靖崑逆轉:一切都怪我,留下了太多遺憾,金牌依然遙不可及,回家好好訓練變更強

      魯中晨報
      2026-05-11 10:18:08
      漲麻了,幸虧沒買房

      漲麻了,幸虧沒買房

      曹多魚的財經世界
      2026-05-11 12:42:52
      OPPO母親節文案翻車,原來是武大余思月寫的

      OPPO母親節文案翻車,原來是武大余思月寫的

      大張的自留地
      2026-05-11 09:32:12
      紫牛頭條|兒子車禍受傷生存希望不足0.1%仍絕不放棄!這位母親生死守護已620天

      紫牛頭條|兒子車禍受傷生存希望不足0.1%仍絕不放棄!這位母親生死守護已620天

      揚子晚報
      2026-05-10 20:20:42
      有“菩薩”護體的人,身上這3處往往“高人一等”,不是迷信

      有“菩薩”護體的人,身上這3處往往“高人一等”,不是迷信

      金沛的國學筆記
      2026-05-08 20:42:59
      快訊!魯比奧被攔國門!中方底線絕不退讓!

      快訊!魯比奧被攔國門!中方底線絕不退讓!

      達文西看世界
      2026-05-11 12:22:44
      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      中國政府獎學金留學人員抵達平壤,正式開啟在朝留學生活

      大風新聞
      2026-05-11 08:36:09
      官方通報“廣西梧州一公交車墜翻”

      官方通報“廣西梧州一公交車墜翻”

      界面新聞
      2026-05-11 17:48:07
      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      女子碩士入學清華后參與智力測驗,僅得25分,回應:無論是學習、工作、創業,我都沒有遇到困難,但我居然智力中下

      揚子晚報
      2026-05-11 07:48:21
      2026-05-11 18:19:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12970文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      吳宜澤:能進攻時我從來不會防守 為此付出過很多代價

      頭條要聞

      吳宜澤:能進攻時我從來不會防守 為此付出過很多代價

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      游戲
      旅游
      家居
      藝術
      數碼

      《GTA6》雙平臺畫質引熱議!評論區玩家已吵翻

      旅游要聞

      南京人的“莫奈花園”如期上線,燕雀湖睡蓮盛放美成童話

      家居要聞

      多元生活 此處無聲

      藝術要聞

      陸抑非寫竹,筆力遒勁

      數碼要聞

      羅技“超便攜”無線鼠標曝光:無物理滾輪,支持對折

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一本一久本久a久久精品综合| 岛国av无码| 天堂久久蜜桃一区二区三区| 福利视频导航网站| 男女激情一区二区三区| 亚洲最大成人综合网| 亚洲精品国偷自产在线99人热| 国产精品久久久久久亚洲毛片| 精品人妻国产| 亚洲一区二区三区四区| 2020国产欧洲精品网站| 日韩在线一区二区不卡| 欧美成人毛片一级A片| 亚洲国产日韩一区三区| 探花AV| 亚洲草原天堂| 欧美性大战久久久久久久蜜桃| 纯肉高h啪动漫| 狠狠色狠狠色综合日日不卡| 丁香五香天堂网| 国产黑丝视频在线观看| 一本av高清一区二区三区| 蜜桃一区二区三区免费看| 亚洲日韩第2页| 男女动态无遮挡动态图| 成人国产精品日本在线观看| 极品蜜臀黄色在线观看| 国产精品成| 亚洲中文字幕精品一区二区三区| 成人视频网| 久久精品国产在热久久2019| 日韩色色网| 久久人人97超碰人人澡爱香蕉| AV视屏| 国产成人综合在线观看不卡 | 狠狠色综合一区二区| 久久精品国产99久久六动漫| 伊人久久大香线蕉网av| 国产成人综合亚洲| 无码精品a∨动漫在线观看| 亚洲自拍成人|