<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Monet:賦予多模態大模型如人類一般的抽象視覺思考能力

      0
      分享至



      “Think with images”范式,即通過工具調用或代碼生成等方法來在思考過程的中間步引入輔助圖像(如裁剪、標定、作輔助線等),已經成為增強多模態大語言模型(MLLMs)視覺推理能力的重要范式。這類方案雖然取得了不錯的效果,但其對外部工具的依賴性也導致了幾個局限性:

      • 訓練和推理復雜度高:訓練時模型需要額外地學習各種工具和函數接口的使用方式,引入了額外的訓練難度;同時,多輪的交互式推理增加了推理延遲。
      • 操作類型受限:模型的能力受限于工具類型,難以泛化到簡單工具無法應對的復雜任務上。
      • 難以擴展為通用能力:每增加一類工具,就要重新標注數據、設計接口,模型更像“工具調度中心”,而不是在真正“理解和想象”。

      Monet實現了一種訓練MLLM直接在連續的隱空間思考的 Think with image 方法,不再依賴外部工具或代碼,而是通過生成連續的“隱式視覺嵌入”(latent visual embeddings),像人一樣在腦海中“打草稿、畫草圖、做空間想象”,再給出答案,從而將視覺思考能力真正內化。團隊核心成員包括北京大學博士生王啟迅、史陽以及來自Amazon AGI SF Lab的王一飛。指導老師包括來自快手可靈團隊的張遠行和北京大學的英向華、王奕森。該工作已被 CVPR 2026 錄用。



      • 論文標題:Monet: Reasoning in Latent Visual Space Beyond Images and Language
      • 論文鏈接:https://arxiv.org/abs/2511.21395
      • 代碼鏈接:https://github.com/NOVAglow646/Monet
      • 模型鏈接:https://huggingface.co/NOVAglow646/Monet-7B
      • 數據集鏈接:https://huggingface.co/datasets/NOVAglow646/Monet-SFT-125K

      訓練多模態模型進行隱式視覺推理的挑戰

      多模態模型的隱式推理的訓練存在兩大難點:

      一、隱式嵌入(latent embedding)的監督信號難以獲取。一種直觀的思路是直接對齊模型生成的隱式嵌入(即模型最后一層的表示)和中間步輔助圖像的表示,來讓隱式嵌入編碼輔助圖像信息(如近期的幾項工作[1-2])。然而,輔助圖像的token數量往往成百上千,直接對齊會引入高昂的計算和存儲開銷,因此現有工作選擇壓縮圖像token為10個左右,或只取關鍵區域的少數token進行對齊。這進一步導致了細粒度視覺信息丟失、只能編碼裁剪區域的視覺信息而無法編碼全圖操作的信息。

      二、隱式嵌入難以被真正優化。監督微調(SFT)過程中,常規的“預測下一個詞”(next-token-prediction)的目標很容易通過“記住”訓練數據實現,從而繞過對隱式嵌入的優化;此外,強化學習(RL)過程中,常規的GRPO只能在文本token上計算損失,導致了獎勵信號難以直接施加到隱式嵌入上。

      方法概覽:

      監督微調 + 強化學習激發隱式視覺推理能力

      為了讓模型學會在隱空間進行視覺思考,作者提出了一個監督微調(SFT)+強化學習(RL)的訓練框架,以Qwen2.5-VL-7B為基模型進行訓練。訓練后的模型Monet-7B能在推理過程中自主決定何時啟動隱式思考,并生成一個特殊標記(如“

      ”),此后輸出的若干向量,不再對應可讀文字,而是被視作一段隱式的視覺嵌入插入思維鏈中。當隱式嵌入達到預設的長度后,將回到語言推理模式。上述過程可在一次推理中交替進行。



      圖1左圖:Monet的推理過程示意。右圖:Monet的三階段SFT和RL(VLPO為作者提出的全新強化學習算法)過程示意。

      SFT數據集構建:Monet-SFT-125K

      雖然目前已有不少公開的圖文交錯的思維鏈數據集[3-6],但它們存在如下的局限性:

      1.某些輔助圖像缺乏必要性:問題簡單,不用輔助圖像就能做對;

      2.某些輔助圖像不準確:比如裁剪區域與答案無關;

      3.缺少對于真正有價值的token的標注:比如與答案最相關的少數關鍵token等。

      為了解決上述缺陷,作者提出了一個多階段的數據集校正流程。如下圖所示,從現有的圖文交錯CoT第一階段選出在只給出問題和輸入圖像時Qwen2.5-VL-7B回答錯誤的樣本以保證使用輔助圖像的必要性;

      第二階段在第一輪得到的樣本中,篩選出僅給出問題和輔助圖像(沒有問題圖像)時較強模型(Qwen2.5-VL-72B)能回答對的樣本,以確保輔助圖像的準確性;

      第三階段,使用了閉源模型將對應于輔助圖像中的關鍵視覺信息的文本token標注出來,以作為后續訓練的監督信號。

      最終得到的Monet-SFT-125K包含多種類型的視覺操作(裁剪、標定、做輔助線、生成新的視覺狀態)和任務(以真實世界、圖表、OCR任務為主)。



      圖2Monet-SFT-125K數據集的構建流程

      監督微調:

      讓模型自主將輔助圖像中的有價值信息編碼進隱式嵌入

      SFT分成三個階段。

      SFT第一階段:預熱。先在構建的Monet-SFT-125K上進行預熱(warm-up)微調,這一步是為了讓模型適應圖文交錯的推理模式。若沒有這一過程,模型將容易忽略思維鏈中間的輔助圖像,如圖3所示。該步獲取的模型權重將用于后續階段。



      圖3 預熱微調過程中模型對于訓練數據中對應于關鍵觀察的token的預測準確性。藍色:給出輔助圖像?;疑摼€:移除輔助圖像。綠色:二者準確率差值。隨著預熱的進行,使用輔助圖像相比不使用時準確率的提升越來越大,說明模型逐步學會利用中間步圖像。

      SFT第二階段:獲取高質量的隱式嵌入。這一階段是為了獲取產生高質量的隱式嵌入來作為第三階段的對齊目標。為了避免直接對齊隱式嵌入和輔助圖像嵌入所帶來的高額開銷,作者提出了使用兩種監督信號來指導隱式嵌入的生成。首先,為了使隱式嵌入能發揮與輔助圖像相似的效果,作者提出對齊給定輔助圖像和給定隱式嵌入時后續關鍵token的模型中間層表示(分別對應于圖4中的“Teacher CoT”和“Student CoT”),即,采用如下的對齊損失:





      另外,為了使對齊損失確確實實是通過調整隱式嵌入而不是被“走捷徑”優化的,作者提出讓對齊損失的梯度僅能通過隱式嵌入流向模型參數。實現細節可見原文。





      圖4 SFT第二階段示意。包含對齊損失和next-token-prediction損失兩部分。其中Teacher CoT為包含輔助圖像的圖文交錯CoT;Student CoT中輔助圖像后為生成的隱式嵌入,且輔助圖像能且僅能被隱式嵌入可見。

      SFT第三階段:讓模型學會“從零開始”隱式思考。由于上一階段隱式嵌入的產生是在隱式嵌入直接可見輔助圖像的情況下的,這與實際應用時存在差異。

      為此,在第三階段中,作者將第二階段訓練后模型產生的高質量隱式嵌入作為目標,讓模型在不可見輔助圖像情況時產生的隱式嵌入與之對齊,如圖5所示。

      同時這一階段仍包含next-token-prediction損失,以讓隱式嵌入幫助后續推理。



      圖5 SFT第三階段示意。這一階段的目標為對齊無輔助圖像時產生的隱式嵌入和來自第二階段的高質量目標隱式嵌入。VLPO:專為隱式思考設計的強化學習



      為此,作者提出了VLPO(Visual-latent policy optimization),通過估計隱式嵌入的生成概率來將其納入損失函數的計算之中。







      Monet帶來了分布內和分布外視覺推理能力的提升



      圖6 分布內的感知和推理任務上的性能(真實世界、圖表、OCR任務)



      圖7 分布外視覺推理任務上的性能(抽象視覺推理任務)

      主要結果:作者在分布內任務(真實世界、圖表、OCR)和分布外任務(抽象視覺推理)上測試了Monet-7B。

      結果如圖6和圖7所示,Monet超過了SFT、SFT+GRPO以及現有的think with images和隱式視覺推理的基線。相比基模型,在分布內和分布外任務分別取得了3%~9.75%和2.31%的提升。



      圖8 消融實驗。“Latent-only” BP為SFT階段二中讓對齊損失的梯度僅流向隱式嵌入的設計;“auxiliary img”為SFT階段二中在student COT中引入輔助圖像的操作。

      消融實驗:作者通過全面的消融實驗驗證了SFT階段各組件的必要性,以及提出的VLPO在SFT模型(Monet-SFT)基礎上帶來的進一步提升。

      值得注意的是,在Monet-SFT基礎上進一步進行GRPO并不能帶來穩定的提升,印證了GRPO的局限性。

      探究隱式嵌入數量對性能的影響



      圖9 橫軸:測試時隱式嵌入數量。縱軸:測試準確率。三條綠色線為Monet-SFT模型,訓練時隱式嵌入數量分別為8、10、12;藍色為SFT(K=8)+VLPO(K=10);粉色為SFT(K=8)+GRPO.

      作者探究了不同的訓練時和測試時隱式嵌入數量K對性能的影響。核心觀察總結如下:

      • 對于分布內任務,使用隱式思考確實相比純文本思考能帶來提升;對于分布外任務,只有經過VLPO訓練的模型的隱式思考能相比純文本帶來額外提升。
      • 對于分布內任務,Monet-SFT模型展現出了測試時的縮放定律(test-time scaling law):測試時隨著隱式嵌入數量(甚至遠超訓練時所見到的長度)增加性能上升;對于分布外任務,只有VLPO展現出了這一趨勢;
      • GRPO主要提升非隱式思考的性能(測試時latent size=0),而對于隱式思考(測試時latent size>0)提升不明顯。

      更多細節請參考原文。

      參考文獻:

      [1] Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, and Chuang Gan. Machine mental imagery: Empower multimodal reasoning with latent visual tokens. arXiv preprint arXiv:2506.17218, 2025.

      [2] Bangzheng Li, Ximeng Sun, Jiang Liu, Ze Wang, Jialian Wu, Xiaodong Yu, Hao Chen, Emad Barsoum, Muhao Chen, and Zicheng Liu. Latent visual reasoning. arXiv preprint arXiv:2509.24251, 2025.

      [3] Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, and Hongsheng Li. Visual cot: Unleashing chain-of-thought reasoning in multi-modal language models. CoRR, 2024

      [4] Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, et al. Zebra-cot: A dataset for interleaved vision language reasoning. arXiv preprint arXiv:2507.16746, 2025.

      [5] Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, and Cha Zhang. Refocus: Visual editing as a chain of thought for structured image understanding. In ICML, 2025

      [6] Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, et al. Cogcom: A visual language model with chain-ofmanipulations reasoning. In ICLR, 2025.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      血色檔案:決命臨津江,朝鮮戰爭最悲壯一戰,志愿軍5個師戰死

      血色檔案:決命臨津江,朝鮮戰爭最悲壯一戰,志愿軍5個師戰死

      史政先鋒
      2026-05-05 12:56:52
      姆巴佩與皇馬教練組成員激烈沖突,因訓練中被判罰越位……

      姆巴佩與皇馬教練組成員激烈沖突,因訓練中被判罰越位……

      懂個球
      2026-05-05 23:29:25
      確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

      確定!正式官宣加盟,空降達拉斯啊,弗拉格終于有救了?

      球童無忌
      2026-05-05 13:40:30
      不是文班 不是??怂梗●R刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      不是文班 不是??怂?!馬刺爆冷輸球揪出水貨 33歲老將今夏恐退役

      籃球圈里的那些事
      2026-05-05 17:15:20
      特朗普訪華10天倒計時?74位美議員聯名上書總統,阻止中國做這事

      特朗普訪華10天倒計時?74位美議員聯名上書總統,阻止中國做這事

      芳芳歷史燴
      2026-05-05 23:57:35
      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因為這兩件事

      任何一個男人到了六十歲后,只要還對異性懷有欣賞與追求,往往因為這兩件事

      心理觀察局
      2026-05-04 08:51:11
      別吹完美適配!倫納德加盟熱火暗藏玄機,3隱患2爆點定成敗!

      別吹完美適配!倫納德加盟熱火暗藏玄機,3隱患2爆點定成敗!

      田先生籃球
      2026-05-04 22:23:45
      吳宜澤父親朋友圈曝光:連續10年記錄兒子奪冠歷程,曾賣掉房子陪孩子打球,決賽前為他整理衣冠,賽后向球迷連聲道謝

      吳宜澤父親朋友圈曝光:連續10年記錄兒子奪冠歷程,曾賣掉房子陪孩子打球,決賽前為他整理衣冠,賽后向球迷連聲道謝

      極目新聞
      2026-05-05 13:02:11
      “有7000多名哥倫比亞人在烏克蘭前線作戰”,哥倫比亞總統:我們不想輸出死亡,參與他國沖突的雇傭兵違法

      “有7000多名哥倫比亞人在烏克蘭前線作戰”,哥倫比亞總統:我們不想輸出死亡,參與他國沖突的雇傭兵違法

      大象新聞
      2026-05-05 17:46:04
      為何只有中國人打仗講究戰術,而外國靠正面硬剛?其實道理很簡單

      為何只有中國人打仗講究戰術,而外國靠正面硬剛?其實道理很簡單

      掠影后有感
      2026-05-05 08:47:11
      不敢信!江蘇村民差點鏟除的雜草,竟是當地首現的“國寶”大群落

      不敢信!江蘇村民差點鏟除的雜草,竟是當地首現的“國寶”大群落

      另子維愛讀史
      2026-05-05 09:59:37
      余意怒撕陳昊宇私會男友,無錘就刪帖,工作室硬剛不留情面

      余意怒撕陳昊宇私會男友,無錘就刪帖,工作室硬剛不留情面

      玲兒愛唱歌
      2026-05-05 19:15:19
      小楊哥一家四口罕現身!懶理大徒弟小黃背刺,二二因勞累被推著走

      小楊哥一家四口罕現身!懶理大徒弟小黃背刺,二二因勞累被推著走

      裕豐娛間說
      2026-05-05 10:25:42
      上海第三富豪家族套現121億,父子拋售本人堅守15年

      上海第三富豪家族套現121億,父子拋售本人堅守15年

      安之若憟
      2026-05-04 11:40:39
      嫁進王室7年,蘇提達終于戴上王冠了,富貴優雅不輸曾經的詩麗吉

      嫁進王室7年,蘇提達終于戴上王冠了,富貴優雅不輸曾經的詩麗吉

      小書生吃瓜
      2026-05-05 20:15:32
      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

      靠譜電影君
      2026-05-05 10:40:44
      五一跑了1000公里電車!勸想買電車的人,這5件事千萬別忽視

      五一跑了1000公里電車!勸想買電車的人,這5件事千萬別忽視

      侃故事的阿慶
      2026-05-04 05:33:52
      饅頭立大功!研究發現:糖尿病患者常吃饅頭,或能降低7類并發癥

      饅頭立大功!研究發現:糖尿病患者常吃饅頭,或能降低7類并發癥

      阿兵科普
      2026-05-04 18:15:59
      深圳樓市爆了?

      深圳樓市爆了?

      睿見投資
      2026-05-05 18:30:03
      斯諾克世錦賽中國“00后”選手吳宜澤奪冠,多家上市公司受益,金利來提前押寶成功

      斯諾克世錦賽中國“00后”選手吳宜澤奪冠,多家上市公司受益,金利來提前押寶成功

      紅星資本局
      2026-05-05 19:04:42
      2026-05-06 00:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12919文章數 142642關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      家居
      手機
      藝術
      游戲
      公開課

      家居要聞

      靈動實用 生活藝術場

      手機要聞

      三星Galaxy Z Flip8?細節曝光,價格微漲

      藝術要聞

      有多少人知道,它曾是亞洲第一高樓?

      全新類魂3A美女角色盔甲太性感!外媒銳評像劣質手游

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 蜜臂av| 国产在线极品美女酒店| 日韩熟女91AV大片 | 亚洲在线一区二区| 色吊丝av中文字幕| 少妇私密会所按摩到高潮呻吟| 亚洲国产精品成人一区二区在线| 丰满无码人妻热妇无码区| 精品国产乱码久久久久APP下载| av在线观看免费播放| 国产乱色国产精品免费视频| 亚洲国产亚洲综合在线尤物| 国产精品婷婷色色| 99久久亚洲综合精品成人网| 成人精品久久一区二区三区| 久操影视| 将乐县| 国产在线精品一区二区在线观看 | 久久夜色精品国产噜噜亚洲SV| 99久久亚洲综合精品成人| 91在线精品视频| 亚洲AV无码成人精品区欧洲| 久久99精品久久久久久久久久| 国产精品天天看天天狠| 欧美丝袜你懂的| 人妻少妇一区二区三区| 亚洲一欧洲中文字幕在线| 国产永久免费高清在线观看| 不卡乱辈伦在线看中文字幕| 中文字幕av无码免费一区| 伊人网视频在线观看| 国产精品一区二区 尿失禁| 免费看亚洲一区二区三区| 99re在线精品视频免费| 成人午夜在线观看日韩| 在线日韩欧美一区二区三区| 少妇人妻偷人偷人精品| 91视频99re| 国产最大成人亚洲精品| 成人三级小说| 多人乱p视频在线免费观看|