<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      多模態推理新范式ThinkMorph ,文字與圖像在統一架構共同演化

      0
      分享至



      NUS、ZJU、UW、Stanford、CUHK 聯合提出「ThinkMorph」,主張讓文字與圖像在統一架構里「原生協作」、「共同演化」,而不是像當下大多數多模態模型那樣,看完圖像就閉上眼睛,后續完全靠文字鏈條推進。僅用 2.4 萬條數據微調 7B 統一模型,視覺推理平均提升34.74%,多項任務比肩甚至超越GPT-4o和Gemini 2.5 Flash。更重要的是,模型涌現出未被訓練覆蓋的視覺操作能力與自主模式切換,顯示出多模態推理走向「原生智能」或許正在跨過第一道門檻。



      • 論文標題:ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning
      • 論文(arXiv): https://arxiv.org/abs/2510.27492
      • 代碼:https://github.com/ThinkMorph/ThinkMorph
      • 主頁(全開源):https://thinkmorph.github.io/

      為什么需要「原生」多模態推理?

      人類解決復雜問題時,「視覺思維」和「邏輯思維」是無縫切換的:看到一道幾何題,我們會在腦中構建空間圖景,同時用邏輯推演約束條件;走迷宮時,我們一邊在視覺上追蹤路徑,一邊在語言層面排除死胡同。兩種思維模態彼此交織、互相推進,這是人類認知的基本方式。



      圖 1:人類認知中視覺與語言思維的自然協同

      然而,當前主流的多模態大模型并非如此。圖像只在輸入階段被 “看見” 一次,之后無論是思維鏈還是強化學習,提升的都是語言層面的推理。換言之,模型「看了一眼」之后就閉上了眼睛,純靠文字完成后續所有思考。

      一種思路是調用外部視覺工具來間接彌補,但天花板有限。ThinkMorph 走的是更徹底的路:「原生多模態推理(Unified Multimodal Reasoning)」:模型可以在推理的任何階段自主生成中間圖像來輔助思考,再用文字分析圖像、推進邏輯,形成交替演進的推理鏈。整個過程在同一個統一模型中完成,不依賴任何外部工具或多階段流水線。



      圖 2:工具增強 vs 原生多模態推理

      這與人類的認知方式高度一致:我們解決視覺問題時,也是在「看」和「想」之間自然切換,而不是看一眼就閉上眼睛純靠語言推演。ThinkMorph 讓模型第一次具備了這種能力。

      核心設計:互補而非同構

      ThinkMorph 的核心理念:文字與圖像在推理中應提供互補信息,共同演化,而非同構復制。



      圖 3:文字與圖像互補協作,逐步推進推理過程

      文字負責抽象分析和邏輯驗證(「這塊碎片左側有棕色紋理,應在第三行第一列」),圖像負責空間可視化和細節呈現(生成重排后的拼圖效果圖、標注邊界框、繪制路徑),兩者互相推動,逐步逼近答案。



      圖 4:四類視覺推理任務的交錯推理實現

      基于統一多模態模型Bagel-7B,研究團隊構建了約24K條高質量交錯推理訓練數據,覆蓋四類視覺推理任務



      圖 5:四類視覺推理訓練任務

      原生多模態推理有多強,又能走多遠?

      在同一個基座模型上,研究團隊分別微調了純文字、純視覺和交錯「三種推理模式」進行對比。結果很清晰:交錯推理在視覺密集型任務上全面領先。文字與圖像在推理中確實能互補協作,而非簡單相加。



      圖 6:三種推理模式的性能對比

      更關鍵的是「泛化能力」。在全部 24K 數據聯合訓練后,ThinkMorph 在9 個基準上相比基礎模型平均提升 20.74%,其中包括多個從未見過的域外任務。盡管只有 7B 參數,它已可以與大規模模型比肩:在 BLINK-J 上超越 Qwen2.5-VL-72B 超過 10 個百分點,在 SAT 空間推理上領先 GPT-4o 24.67 個百分點,在 MMVP 上匹配 Gemini 2.5 Flash。

      這不只是規模的勝利,而是訓練策略的勝利:交錯推理讓生成與理解相互強化,用更少的數據撬動了更強的視覺推理能力。



      圖 7:ThinkMorph 在 9 個基準上的泛化表現

      不止于性能:原生多模態推理的潛力遠超想象

      如果 ThinkMorph 只是「性能更好」,它可能只是又一篇刷榜論文。但比數字更重要的,是這個初步探索中涌現出的一系列積極信號。它們暗示:原生多模態推理的潛力,我們才剛剛觸及冰山一角。



      圖 8:三個涌現信號概覽

      信號一:未見視覺操作 —— 模型自主習得了 8 種新技能

      訓練數據中只包含四類基礎視覺操作(拼圖可視化、路徑繪制、邊界框標注、區域高亮),但測試時模型自發展現了 8 種從未見過的操作如放大(zoom-in)、圖像修復(inpainting)等。



      圖 9:模型涌現的未見視覺操作示例

      最典型的例子:面對「這個燈籠椒是紅色還是黃色?」這個問題,模型自動生成了一張放大圖來辨認顏色的細微差異,完全模仿了人類湊近觀察的認知策略,而這種操作在訓練數據中從未出現。在某些基準上,這類涌現操作占到了所有視覺生成的10% 以上。

      研究團隊分析了其來源機制:預訓練賦予了原始的視覺操作能力,而交錯推理微調激活了這些能力在推理場景中的目的性運用。

      信號二:自主模式切換 ——「這道題不需要視覺輔助」

      盡管只用交錯推理數據訓練,模型在5.3%的測試案例中「自主切換」為純文字推理。這不是隨機行為:在切換的樣本上準確率達到81.25%,比堅持交錯推理高出 7.29 個百分點。

      模型學會了判斷「這道題需不需要視覺輔助」,像人類一樣靈活協調語言和視覺,而非機械執行固定流程。



      圖 10:自主模式切換案例與統計

      信號三:協同解空間探索 —— 多樣性驅動更好的測試時擴展

      在 Best-of-N 采樣下,交錯推理一致優于單模態推理,且分布偏移越大優勢越明顯。在最具挑戰的 BLINK-J 上,交錯推理從 65.33% 提升到 73.33%(+8.0%),而純視覺推理反而下降 2.0%。

      原因在于:單模態推理鏈局限于單一表示空間,而交錯推理同時在文字和圖像空間中探索,天然產生更「多樣化」的推理軌跡,覆蓋更廣的解空間。



      圖 11:Best-of-N 測試時擴展對比

      涌現屬性的進一步驗證

      上述三個涌現信號是否只是個別任務上的偶然?在更廣泛的域外基準上,研究團隊進一步驗證了它們的穩健性。

      測試時擴展的表現因任務類型而異:在推理密集型任務(如 VStar)上,性能隨采樣數 N 單調提升(+5.89%@N=8);而在感知主導型任務(如 BLINK-J)上呈現 U 形曲線,需要更大的采樣量才能逃離局部最優。



      圖 12:不同任務類型的測試時擴展趨勢

      此外,當模型被允許在不同推理模式間靈活切換時,模式多樣性本身進一步放大了測試時擴展的收益,為未來更高效的多模態擴展提供了方向。



      圖 13:模式多樣性對測試時擴展的增益

      邊界在哪里?

      ThinkMorph 同時討論了這種推理方式的邊界條件。在圖表分析中,關鍵信息本身就是文字(標簽、數值),純文字推理反而略優(+1.88%);但在需要精確視覺定位的任務上(如 MMVP),交錯推理優勢明顯(+6.33%)。簡單說:需要持續「看」的任務,交錯推理最優;一眼就能提取關鍵信息的任務,文字推理更高效。



      圖 14:交錯推理的邊界條件分析

      總結:原生多模態推理的未來

      ThinkMorph 仍是「原生多模態推理」的一場初步探索,但它已經證明,文字與圖像一旦在統一架構中共同演化,就會涌現出訓練數據從未覆蓋的新能力,并學會自主判斷何時該看、何時該想。

      如果說當下的推理增強是在語言空間里把推理擰到極致,而 ThinkMorph 暗示下一次范式級突破可能不在更長的文本鏈條里,而在視覺與語言「交錯協作」的原生推理里。跨過第一道門檻之后,等待被釋放的是一種構建智能的全新默認方式。讓多模態成為默認的思考方式,而這才剛剛開始。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      全球沒對手?美專家曾言:如果動真格,全球聯合起來也打不過!

      全球沒對手?美專家曾言:如果動真格,全球聯合起來也打不過!

      春序娛樂
      2026-05-10 12:46:33
      從“傅媽”到清冷姐姐,傅首爾減肥后大變,她的面相討論重新定義

      從“傅媽”到清冷姐姐,傅首爾減肥后大變,她的面相討論重新定義

      楓塵余往逝
      2026-05-10 11:27:13
      廣西男子展示蝸牛湯?湯面有很多漂浮物,嚇得廣西網友想脫離省籍

      廣西男子展示蝸牛湯?湯面有很多漂浮物,嚇得廣西網友想脫離省籍

      貍貓之一的動物圈
      2026-05-09 09:16:48
      77歲港星在東莞租房養老,35平米月租1300,無兒無女靠老本度日

      77歲港星在東莞租房養老,35平米月租1300,無兒無女靠老本度日

      喜歡歷史的阿繁
      2026-05-10 00:04:45
      歐爾班剛下臺,匈牙利立刻驅逐俄間諜,16年親俄路線開始清算

      歐爾班剛下臺,匈牙利立刻驅逐俄間諜,16年親俄路線開始清算

      桂系007
      2026-05-08 22:26:27
      1986年的運10下馬案,位列中國30年重大間諜案首位,真相令人扼腕

      1986年的運10下馬案,位列中國30年重大間諜案首位,真相令人扼腕

      干史人
      2026-01-12 22:07:50
      “漢坦病毒”來襲,醫生提醒:寧可每天看電視,也不要出門做7事

      “漢坦病毒”來襲,醫生提醒:寧可每天看電視,也不要出門做7事

      普陀動物世界
      2026-05-09 05:16:15
      主動給特朗普送上稀土資源?這國家轉頭撂下一句話,出乎中方意料

      主動給特朗普送上稀土資源?這國家轉頭撂下一句話,出乎中方意料

      通鑒史智
      2026-05-10 14:33:05
      重磅!無錫或將誕生全新主城,這個板塊成最大贏家!

      重磅!無錫或將誕生全新主城,這個板塊成最大贏家!

      靚仔情感
      2026-05-10 15:23:58
      男子曬兩任老婆做的菜,問這說明什么,網友:證明前妻能陪你吃苦

      男子曬兩任老婆做的菜,問這說明什么,網友:證明前妻能陪你吃苦

      丫頭舫
      2026-04-22 21:55:06
      廣東男籃險勝北京首鋼,媒體專家討論,楊鳴點評一針見血

      廣東男籃險勝北京首鋼,媒體專家討論,楊鳴點評一針見血

      劉笤說體壇
      2026-05-10 05:43:22
      “一家人湊不出一個高中生”,90后女子喜當奶,被嘲:牛馬生牛馬

      “一家人湊不出一個高中生”,90后女子喜當奶,被嘲:牛馬生牛馬

      番外行
      2026-04-08 09:14:11
      《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

      《陳翔六點半》人走茶涼,賺不到錢球球退出,根本原因早就注定了

      汪巗的創業之路
      2026-05-06 12:26:17
      曝皇家馬德里已經與曼城后防大將經紀人取得聯系

      曝皇家馬德里已經與曼城后防大將經紀人取得聯系

      本澤體育
      2026-05-10 12:31:30
      雷霆大勝湖人3比0拿到賽點,詹姆斯正負值最低,這兩點才是敗因

      雷霆大勝湖人3比0拿到賽點,詹姆斯正負值最低,這兩點才是敗因

      姜大叔侃球
      2026-05-10 11:22:05
      請山西省忻州市委查一下,這位副局長是誰

      請山西省忻州市委查一下,這位副局長是誰

      微言微評
      2026-05-10 13:36:54
      用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

      用所謂的“基本盤”嘲諷人民群眾,只能是搬起石頭,砸自己的腳!

      讓心靈得以棲息
      2026-05-08 11:19:31
      美國郁悶到了極點,為什么別人都不還手,中國老是還手呢?

      美國郁悶到了極點,為什么別人都不還手,中國老是還手呢?

      混沌錄
      2026-05-06 18:04:25
      脾臟破裂+韌帶撕裂!胡金秋帶傷拼到嘔吐,全網噴他良心不會痛嗎?

      脾臟破裂+韌帶撕裂!胡金秋帶傷拼到嘔吐,全網噴他良心不會痛嗎?

      星Xin辰大海
      2026-05-10 13:38:58
      “缺算力成共識、所有實驗室都忌憚字節跳動、極度敬重DeepSeek”,10天走訪中國頂尖AI實驗室后,美國研究者的最新觀察

      “缺算力成共識、所有實驗室都忌憚字節跳動、極度敬重DeepSeek”,10天走訪中國頂尖AI實驗室后,美國研究者的最新觀察

      CSDN
      2026-05-09 18:13:31
      2026-05-10 16:11:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142647關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      七旬鄰居凌晨爬窗入室無刑責 上海男子全家被逼搬離

      頭條要聞

      七旬鄰居凌晨爬窗入室無刑責 上海男子全家被逼搬離

      體育要聞

      詹姆斯生涯第6次0-3困境:今年會被橫掃嗎

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      本地
      藝術
      數碼
      旅游
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術要聞

      毛主席83歲時寫給華國鋒的6字真相令人震驚!

      數碼要聞

      索泰推出首款RTX 5070 AMP白色版顯卡

      旅游要聞

      巴西對華免簽利好南美長線游;三星停止在中國市場銷售所有家電產品|封面科技·周報

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 松下纱荣子被c到高潮下不了床| 成人小说亚洲一区二区三区| 久久综合干| 色综合久久天天综线观看| 亚洲成a人片77777kkkkk| 亚洲色宗合| 人妻av天堂一区二区| 岛国AV免费| P尤物久久99国产综合精品| 久久婷婷五月综合色和啪| http://m.hzhuiwan.cn/| 亚洲精品久久久久久久蜜桃臀 | 国产成人精品2021欧美日韩| aⅴ色综合久久天堂av色综合| 天堂av在线免费观看| 2020最新无码国产在线观看| 欧美成人WWW在线观看| 忘忧草www日本韩国| 国产自拍在线一区二区三区| 伊人免费| 国产精品久久久久野外| av精选在线观看精品| 国产午夜无码精品免费看动漫| 亚洲精品久久一区二区三区四区| 欧美人成精品网站播放| 国产精品久久久久久久白晢女i| 日韩熟女精品一区二区三区| 久久网伊| 亚洲国产综合精品中文字幕| 国内精自视频品线一二区| 色综合久久久久综合99| 久久久无码精品亚洲日韩蜜桃| 秋霞午夜无码鲁丝片午夜精品| 色中色资源站手机在线观看| 国产福利一区二区在线精品| 日本中文一二区有码在线| 无码人妻精品一区二区在线视频| 色综合中文字幕色综合激情| 国产久免费热视频在线观看| 国产麻豆成人传媒免费观看| 天天色天天拍天天操|