網易首頁 > 網易號 > 正文申請入駐

CVPR 2026 多模態視覺智能全景梳理：從感知到推理的范式重寫

2026-04-27 21:17:31　來源: AI科技評論

廣東舉報

分享至

視覺智能：從單一感知能力，擴展為融合感知、認知與行動的一體化智能形態。

作者丨鄭佳美

編輯丨岑峰

如果回看過去十年的計算機視覺發展，其主線其實非常清晰：從早期以 ImageNet classification 為代表的“識別范式”，到以檢測、分割為核心的“結構理解”，再到擴散模型推動的“生成范式”，視覺研究始終圍繞一個核心目標展開——讓機器更準確地“看見世界”。

然而，這一路徑在近兩年開始出現明顯的邊界：當模型已經可以在靜態圖像上達到接近甚至超過人類的感知水平時，“看得更準”本身，正在變成一個邊際收益遞減的問題。

在這樣的背景下，在 CVPR 2026 中的一些相關工作所呈現出的，不再只是性能曲線的繼續上揚，而是一種更深層的范式轉向：視覺不再被視為終點，而被重新定位為一種中介能力，它服務于更高層的目標，例如推理、決策與交互。

這種變化直接體現在多個層面：一方面，越來越多工作開始質疑以語言為中心的推理路徑，嘗試讓模型在視覺或潛在空間中直接完成結構推理；另一方面，研究者也在反思現有評測體系與數據構建方式，因為如果評價標準本身存在偏差，那么所謂的“進步”很可能只是對 benchmark 的過擬合。

更重要的是，這一屆論文并不是在單一方向上推進，而是呈現出一種系統性重構的跡象：推理機制上，從“始終推理”走向“按需推理”，從顯式鏈式推理走向隱式表示推理。

評測層面，從選擇題式的便捷評估走向更接近真實能力的開放式驗證；模型形態上，從單一任務模型演進為支持圖像、視頻與定位的一體化多模態系統；而在數據層面，則從零散數據集走向規模化、結構化且任務驅動的數據基礎設施。

這些變化背后隱含著一個更深的共識正在形成：視覺智能的瓶頸，已經不再只是模型能力本身，而是“推理方式、評測范式、系統形態與數據供給”之間的協同問題。

基于這樣的整體趨勢，AI 科技評論對本屆具有代表性的工作進行了系統梳理，從推理機制的重構、評測范式的反思、模型系統的演進以及數據基礎設施的升級四個關鍵維度出發，選取了一系列具有標志性意義的論文，試圖還原這一輪視覺智能范式轉變的核心脈絡。

推理，可能一直用錯了

如果說過去的多模態研究默認一種路徑——無論任務難易，模型都應該通過 Chain-of-Thought 展開逐步推理，那么由 Meta AI、KAUST 以及普林斯頓大學共同提出的《 VideoAutoThink: Video Auto Reasoning via Thinking Once, Answering Twice》實際上是在動搖這個前提本身。

在視頻理解任務中，主流方法往往依賴顯式推理來提升性能，但作者通過實驗觀察到一個并不直觀的現象：對于經過強化學習優化的視頻模型，直接回答在不少情況下已經可以達到，甚至超過帶推理的結果。這意味著問題并不在于模型缺乏推理能力，而在于“每一次都推理”本身可能是低效甚至冗余的。

基于這一點，論文提出了 VideoAuto-R1 框架，與其說是在增強推理，不如說是在重新調度推理。模型在訓練階段采用一種“Thinking Once, Answering Twice”的機制：先生成一個初始答案，再進行推理得到修正后的答案，并同時對這兩個輸出進行監督學習，使模型既具備快速響應能力，又具備在必要時進行深入推理的能力。

而在推理階段，模型不會固定執行推理流程，而是根據初始答案的置信度動態決策——如果問題簡單，則直接輸出結果；如果問題復雜，才觸發后續推理。

這種設計把“是否推理”從一個人為設定的流程，轉變為模型自身可以學習的決策變量。實驗結果進一步說明，這種按需推理的方式不僅沒有損失性能，反而在保持當前最優水平的同時，將平均輸出長度減少約 3.3 倍。

同時也揭示出一個更細粒度的規律：在感知類任務中，推理的作用相對有限，而在真正需要復雜邏輯的任務中，推理才顯得關鍵。

論文鏈接：https://arxiv.org/pdf/2601.05175v2

這篇論文的亮點主要體現在三個方面。首先，它提出了一種“按需推理”的新范式，使模型不再固定執行復雜推理流程，從而顯著提高效率。

其次，通過“雙答案訓練機制”，模型在保持高性能的同時減少不必要的推理開銷，在實驗中將平均輸出長度減少約 3.3 倍，同時仍達到當前最優水平。

最后，論文揭示了一個重要現象，即推理并不是在所有任務中都必要，在感知類任務中使用較少，而在復雜推理任務中才更有價值，這為后續多模態模型設計提供了重要啟發。

總體來看，這篇論文的核心貢獻是提出了一種“按需觸發推理”的視頻理解框架，使多模態模型在保證性能的同時顯著提升效率，從而推動視頻理解從“始終推理”向“自適應推理”轉變。

如果說 VideoAuto-R1 是在回答“推理是否必須發生”，那么由加州大學伯克利分校、Xero 以及 MIT-IBM Watson AI Lab 共同提出的《Latent Visual Reasoning》則是在追問另一個更隱蔽的問題——即便發生了推理，它是否一定要以語言為中介。

當前多模態模型雖然能夠處理視覺輸入，但其內部推理過程依然高度依賴語言表示，這在處理拼圖、空間對應關系、幾何結構等任務時會遇到表達瓶頸，因為這些結構本身很難被線性的文本步驟充分刻畫。

同時，已有方法往往依賴人工設計的中間監督信號（例如邊界框或裁剪區域），不僅標注成本高，也限制了模型學習更靈活的視覺表示能力。

在這種背景下，LIVR（Latent Implicit Visual Reasoning）提出了一種不同路徑：與其顯式構造推理步驟，不如讓模型在潛在空間中自行形成推理結構。

具體來說，方法在輸入中引入一組 latent visual tokens，并通過一種“視覺瓶頸機制”強制模型在預測答案時只能通過這些 token 獲取視覺信息，而不能直接訪問原始圖像特征。這種限制實際上迫使模型將關鍵信息壓縮并編碼進這些潛在表示中，從而在 latent 空間中完成信息組織與推理。

訓練過程分為兩個階段：首先學習 latent token 如何承載視覺信息，其次恢復完整結構進行聯合優化。最終得到的不是一條可讀的推理鏈，而是一種隱式的、內嵌在表示中的推理過程。這種方式不依賴顯式中間監督，卻在多個視覺任務和不同模型架構上都帶來了穩定性能提升，說明這種“去語言化”的推理機制具備較強的泛化能力。

論文地址：https://arxiv.org/pdf/2512.21218

這篇論文的亮點主要體現在三個方面。首先，它提出了一種不依賴顯式監督的視覺推理方式，模型可以自動學習中間表示，而不需要人工設計推理步驟。

其次，它將推理從“文本鏈式推理”擴展到“潛在空間推理”，使模型能夠更自然地表達復雜視覺結構。最后，該方法具有很強的通用性，在多個視覺任務和多模型上都能穩定提升性能，說明這種隱式視覺推理機制具有良好的泛化能力。

總體來看，這篇論文的核心貢獻是提出了一種基于潛在 token 的隱式視覺推理框架，使多模態模型從依賴語言進行推理，轉向在內部表示中進行更高效、更靈活的視覺推理。

而麻省理工學院（MIT）的研究論文《ARC Is a Vision Problem!》則更進一步，直接打破了問題本身的建模方式。ARC（抽象推理基準）長期以來被視為語言推理任務，大量方法依賴大語言模型進行規則歸納與解釋，但這篇論文指出，這種處理方式可能從一開始就偏離了問題本質。

與其說 ARC 是一個需要語言推理的問題，不如說它是一個典型的視覺結構變換問題，其核心在于空間關系、對稱性以及幾何規律，而非語言邏輯。

論文地址：https://arxiv.org/pdf/2511.14761v1

基于這一重新定義，研究將 ARC 建模為一個圖像到圖像的映射任務：首先將原始網格嵌入到一個“畫布（canvas）”中，使其可以像自然圖像一樣被處理；隨后直接使用標準視覺模型（例如 Vision Transformer）學習從輸入到輸出的空間變換規則。

在推理階段，方法進一步引入測試時訓練（test-time training），使模型能夠在看到少量示例后進行快速適應，從而實現跨任務泛化。

值得注意的是，這種方法并不依賴大規模預訓練數據，但依然能夠在 ARC 上取得接近人類水平的性能，同時顯著縮小與大型語言模型之間的差距。其背后依賴的是視覺模型天然具備的歸納偏置，例如空間局部性、平移不變性和尺度不變性，這些特性使模型能夠更自然地學習抽象規則，并在少樣本場景中展現出更強的泛化能力。

總體來看，這篇論文的核心貢獻是將 ARC 問題從“語言推理”重新定義為“視覺建模問題”，并證明基于視覺的方法可以有效學習抽象規則，從而為通用推理模型提供了一種新的方向。

把這幾項工作放在一起看，會發現它們并不是簡單地提升模型能力，而是在逐步拆解“推理”這一概念本身：如果說過去的路徑是默認所有問題都需要通過語言展開推理，那么現在的趨勢更像是在重新分工，有些問題本質上是感知問題，可以直接回答。

有些推理可以在潛在表示中完成，而不需要顯式展開；還有一些任務甚至需要先被重新定義，才能找到更合適的建模方式。也正是在這種不斷打破既有假設、并建立新范式的過程中，多模態模型開始從“始終推理”的范式，轉向一種更具適應性的“按需與多形態推理”。

評測，正在誤導一切

如果說現有視覺語言模型的評測大多還停留在“看懂了什么”這一層，那么由清華大學電機工程系、清華大學深圳國際研究生院、清華大學交叉信息研究院與理想汽車共同提出的《VS-Bench: Evaluating VLMs for Strategic Abilities in Multi-Agent Environments》，則把問題推進到了更接近真實世界的一步：模型不僅要看懂環境，還要在多個智能體共同參與的場景中理解合作、競爭與策略選擇。

現實任務往往不是單一主體面對靜態圖像，而是多個智能體在同一環境中相互影響，既可能合作，也可能競爭，還可能處在混合動機之下；但已有基準大多局限于單智能體或純文本環境，很難真正衡量 VLM 在復雜交互場景中的策略能力。

基于這個缺口，論文提出了VS-Bench（Visual Strategic Benchmark），構建了一個多模態、多智能體的統一評測環境，其中包含 10 個視覺驅動的交互場景，覆蓋合作、競爭以及混合動機等任務類型。

論文地址：https://arxiv.org/pdf/2506.02387v3

更重要的是，它沒有只看最終答對與否，而是把模型能力拆成三個層次來評估：首先是感知能力，也就是能否識別環境元素；其次是策略推理能力，即能否預測下一步行動；最后是決策能力，也就是模型在整體任務中的實際表現。

這樣的拆分讓評測結果不再只是一個分數，而能進一步看出模型到底是“沒看懂”，還是“看懂了但不會推理”，又或者是“能推理但決策不穩”。

實驗中，作者測試了多個主流視覺語言模型，結果顯示這些模型雖然在感知層面已經表現較強，但在策略推理和決策上仍然存在明顯差距。也就是說，它們很多時候是“看得懂環境”，卻還沒有真正具備在復雜交互中做出好決策的能力。

這篇工作的價值也正在這里：它首次建立了一個面向多智能體與多模態場景的統一評測框架，彌補了現有基準在復雜交互任務上的空缺；同時又通過感知、推理、決策三層拆解，讓 VLM 的能力分析更細致、更可解釋。

與其說它只是增加了一個新 benchmark，不如說它把視覺語言模型的評估范圍，從單一圖像理解擴展到了策略推理與交互決策，從而為后續研究明確指出了一個關鍵短板：當前模型已經越來越會“看”，但還遠沒有真正學會在多智能體環境中“謀”。

相比之下中國科學院自動化研究所、中國科學院大學人工智能學院、智源 FlagEval 團隊、北京航空航天大學、北京大學、浙江大學共同提出的《Beyond Multiple Choice: Verifiable OpenQA for Robust Vision-Language RFT》，則把目光轉向了另一個更基礎、卻同樣影響深遠的問題：我們現在用來訓練和評估多模態模型的題目形式，本身是否可靠。

當前大量視覺問答基準采用多項選擇問答（MCQA），這種形式確實方便自動評測，但論文指出，選項本身常常會泄露額外信息，使模型即使沒有真正理解圖像和問題，也能通過排除法、選項偏差或猜測模式拿到較高分數。換句話說，模型分數看起來變高了，但真實能力可能被系統性高估。

為了解決這個問題，論文提出了ReVeL（Rewrite and Verify by LLM）框架，試圖打破對選擇題形式的依賴，建立一種“可驗證開放問答”的新范式。

論文地址：https://arxiv.org/pdf/2511.17405v2

它的核心做法并不是簡單刪除選項，而是根據不同問題類型設計對應的重寫策略和驗證機制，把原本依賴選項的信息重新組織成開放式問答形式，同時保留自動驗證答案的能力。這樣一來，模型在回答時不能再借助選項進行投機性推理，而必須真正基于視覺內容和問題語義生成答案。

在訓練階段，作者進一步利用這些轉換后的數據對視覺語言模型進行強化微調，使訓練信號更加接近真實開放場景，也降低了 MCQA 選項偏差帶來的干擾。

這篇論文最關鍵的貢獻，是把一個長期被默認接受的評測形式重新問題化了。作者不僅指出 MCQA 存在“虛高”風險，還通過實驗量化了這種偏差，發現分數可能被高估多達約 20 個百分點。

在此基礎上，ReVeL 又提供了一條從“選擇題評測”走向“可驗證開放問答”的路徑。它既保留了自動評測的可操作性，又迫使模型擺脫對選項線索的依賴，從而提升開放問答能力、數據效率和訓練穩健性。

與其說這項工作只是換了一種題型，不如說它在打破多模態評測中“方便評估等于有效評估”的慣性，并建立起一種更接近真實應用的訓練與評估方式。

把這兩篇放在一起看，會發現它們都在推動視覺語言模型評測從“表面正確”走向“能力真實”。VS-Bench追問的是：模型能否在多智能體環境中完成策略推理與決策；ReVeL追問的是：模型看似答對時，是否真的理解了問題，而不是被選項提示帶著走。

前者把評估場景從單一理解擴展到復雜交互，后者把評估形式從多項選擇推進到可驗證開放問答。它們共同指向的是同一個趨勢：未來的多模態模型不能只在靜態、封閉、容易打分的任務上取得高分，而必須在更開放、更動態、更接近真實世界的任務中證明自己的理解、推理和決策能力。

不是小修小補，而是整體重建

與不少已經具備圖像理解能力的開源視覺語言模型相比，由 Allen Institute for AI 和華盛頓大學共同提出的《Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding》則把關注點進一步延伸到了兩個更關鍵的方向：一是視頻理解能力，二是語言與視覺之間的精細對齊。

當前主流開源 VLM 雖然在單張圖像理解上已經取得不錯效果，但在處理視頻這種時序信息更復雜的輸入時仍然能力有限，同時在將語言描述精確對應到具體視覺區域方面也存在明顯不足。

論文地址：https://arxiv.org/pdf/2601.10611v4

更深一層的問題在于“開源”的不徹底：不少模型僅開放部分權重，訓練數據、數據來源或訓練流程并不透明，甚至依賴閉源模型蒸餾，這使得結果難以復現，也限制了后續研究的可持續發展。

Molmo2 的切入點正是同時回應這兩個問題。它不僅擴展了輸入形式，從單圖、多圖進一步覆蓋到視頻，還在模型中引入了 grounding 能力，使模型能夠將語言中的描述精確映射到圖像或視頻中的具體區域。

這樣一來，模型不再只是回答“看到了什么”，而是能夠進一步回答“具體在哪里”，在理解與定位之間建立更緊密的聯系。

在方法之外，這篇論文的亮點同樣矚目。首先，它提供了一個完全開源的視覺語言模型體系，不僅開放模型，還開放數據和訓練流程，這在當前多模態領域中較為少見。

其次，它將能力從圖像擴展到視頻，并且加入了精細的定位能力，使模型不僅能“看懂”，還可以“指出具體位置”。最后，該工作在開放性和性能之間取得了平衡，為后續研究提供了一個可直接使用和擴展的基礎模型框架。

總體來看，這篇論文的核心貢獻是構建了一套完全開放、支持視頻理解與定位能力的視覺語言模型體系，使多模態模型從“只理解圖像”進一步發展為“能夠理解視頻并進行精細對齊”的統一框架。

不是缺模型，而是缺數據

而由蘋果公司提出的《Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing》，則是把焦點放在文本驅動圖像編輯里一個基礎但長期缺口明顯的問題上：模型想要根據自然語言指令修改圖像，離不開大規模、高質量、開放且貼近真實場景的數據，但現有數據集往往要么規模有限，要么主要依賴合成圖像，難以覆蓋真實圖像中的復雜內容、多樣物體關系和開放場景變化。

Pico-Banana-400K正是圍繞這一數據瓶頸構建的。論文基于來自OpenImages的真實圖像，利用多模態模型自動生成編輯指令和對應編輯結果，從而形成大規模的“圖像 - 指令 - 編輯結果”三元組數據集。

論文地址：https://arxiv.org/pdf/2510.19808v1

它并不只是簡單堆數據，而是在構建過程中引入細粒度編輯分類體系和多模態模型評分機制，用來同時保證兩件事：編輯結果要符合指令，修改后又要盡可能保持原始圖像內容的一致性。

更進一步，這個數據集的設計也沒有停留在單步編輯。除了基礎的單輪“給一張圖、按一句話編輯”之外，它還包含多輪編輯數據、偏好數據以及長短指令對，因而可以支持更復雜的推理、規劃和對齊研究。

也就是說，Pico-Banana-400K 不只是為圖像編輯模型補充訓練樣本，而是在嘗試把文本驅動圖像編輯從一次性操作，推進到更接近真實使用場景的連續編輯、偏好對齊和指令理解。

這篇工作的價值主要在于，它以 40 萬級別的高質量真實圖像編輯數據，填補了 instruction-based image editing 領域長期缺少開放大規模數據的空白，同時又通過系統化的數據構建流程，在規模、質量和多樣性之間取得平衡。

它打破了以往圖像編輯數據過小、過合成、任務形式單一的限制，建立起一個更標準化的基礎設施，為后續文本驅動圖像編輯模型的訓練、評測和對齊提供了更扎實的起點。

這次去 CVPR 現場，一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么：把你最關注的10個大會報告，每頁PPT都拍下來

你能獲得什么？

認識大牛：你將可以進入CVPR名師博士社群；

錢多活少：提供豐厚獎金，任務量精簡；

聽會自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR，想邊聽會邊賺錢，還能順便為AI學術社區做貢獻、認識更多大牛，歡迎聯系我們：[添加微信號:MS_Yahei]

【限額5位，先到先得】

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.