![]()
本文的共同第一作者王禹博,張鈞天分別為復旦大學和中國人民大學高瓴人工智能學院的碩士研究生,主要研究方向為多模態大模型和 Reasoning 等,預計 2027 年 6 月畢業,如有多模態大模型 / Reasoning 相關的優質發展機會,歡迎大家聯系: yubowang25@m.fudan.edu.cn , zhangjuntian@ruc.edu.cn。通訊作者是劉雨涵,目前在 MBZUAI 擔任研究員,研究方向為多模態大模型,Agent 和 Misinformation 等。
近年來,隨著思維鏈(Chain-of-Thought)技術的普及,多模態大模型(VLMs)的多步推理能力得到了顯著提升。然而,這種依賴顯式文本的推理路徑正面臨著一個嚴重的 “信息帶寬瓶頸”:在離散的文本分詞過程中,連續且豐富的視覺細節往往會被大量丟失。
為了解決這一痛點,由 MBZUAI、復旦大學、中國人民大學高瓴人工智能學院以及哈佛大學聯合組成的研究團隊,提出了一種名為Laser的全新隱式視覺推理范式。該研究從認知心理學中汲取靈感,引入了 “Forest-before-Trees” 的認知機制,通過動態窗口對齊學習(DWAL),首次實現了在隱空間中維持視覺特征的 “概率疊加” 狀態。
研究實驗結果顯示,Laser 不僅在 6 個主流基準測試中刷新了隱式推理的 SOTA 紀錄,更以極致的效率將推理 Token 消耗大幅降低了 97% 以上。這一工作為構建更原生、更高效的多模態智能提供了全新的視角。目前,該論文已被 ACL 2026 Main Conference 正式接收。
- 論文標題: Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
- 論文鏈接: https://arxiv.org/pdf/2601.06803
- 代碼倉庫: https://github.com/ybb6/laser
- 數據集鏈接:https://huggingface.co/datasets/wybb/Laser-ScanPath
![]()
1. 傳統隱式推理的困境:過早的語義坍縮
如前文所述,純文本的思維鏈在多模態大模型中不僅面臨著視覺細節丟失的 “信息帶寬瓶頸”,還存在另一個隱患:語言先驗(Language Priors)的干擾。在生成冗長文本推理的過程中,模型往往會過度依賴固有的語言邏輯,從而產生幻覺或忽視了圖像本身傳遞的視覺信息。
為了繞開顯式文本帶來的這些局限,學界近期開始探索將推理過程轉移到高維空間的 “隱式推理(Latent Space Reasoning)”。但現有的隱式推理方法大多依然沿用傳統大語言模型的自回歸框架。它們在隱空間中強迫模型進行嚴格的逐點映射 —— 即在每一步推理中,都要求模型去精準預測緊接著的下一個具體概念或視覺特征。
研究團隊指出,這種逐點映射與人類真實的視覺感知規律背道而馳。人類在觀察復雜圖像時,往往遵循 “Forest-before-Trees” 的層級性原則,即先建立對整體畫面的宏觀語義把控,再逐步聚焦于局部的特定細節。如果強迫模型在尚未完全掌握全局上下文之時,就 “過早地發生語義坍縮”,將其隱狀態死死鎖定在某個具體的局部概念上,就會引發嚴重的 “管中窺豹” 效應,使模型難以捕捉更復雜的視覺邏輯關系。
然而,打破這種逐點約束也面臨著巨大的技術鴻溝:如果放任隱狀態保持模糊的未坍縮狀態,在缺乏外部強監督信號的情況下,模型極易迷失方向,導致隱空間發散為毫無意義的高熵噪聲。如何在探索全局的概率疊加與精準聚焦的答案收斂之間找到平衡,成為了阻礙隱式推理發展的一大難題,而這也正是 Laser 范式要攻克的核心目標。
![]()
2. Laser 核心機制:動態窗口對齊與隱式疊加
基于上述洞察,研究團隊提出了Laser(Latent Superposition for Effective Visual Reasoning)。其核心創新在于放棄逐點預測,轉而采用動態窗口對齊學習(Dynamic Windowed Alignment Learning, DWAL)。
- 動態語義窗口: Laser 不再只預測緊接著的下一個詞,而是讓當前的隱狀態與一個包含未來潛在語義的動態有效窗口進行對齊。
- 認知流的過渡: 隨著推理過程的推進,語義窗口會自然縮小,從而強制模型完成從全局探索到局部精準定位的漸進式過渡。這種機制使得隱狀態能夠維持一種 “概率疊加” 狀態,在編碼高層全局語義的同時,將具體細節保留在潛在狀態中。
- 自修正與熵正則化干預: 為了在缺乏外部強監督的情況下穩定這種無約束的學習過程,團隊設計了自修正疊加機制(Self-Refined Superposition)來構建穩定的軟目標。同時,研究引入了熵正則化干預(Entropy-Regularized Intervention),當模型不確定性較高時動態注入硬性引導,而在模型掌握全局上下文時恢復軟疊加,形成一種隱式的課程學習。
![]()
3. 數據基石:ScanPath 認知軌跡
為了支撐 Laser 的隱式對齊訓練,研究團隊摒棄了依賴顯式邊界框(Bounding Boxes)等視覺 COT 的強監督手段,選擇通過隱式潛空間對齊來橋接感知與語言。為此研究團隊專門構建了包含約 27 萬樣本的 ScanPath 數據集,為動態窗口對齊(DWAL)提供完美契合 “Forest-before-Trees” 規律的訓練載體。團隊將 GPT-4o 設定為 “視覺認知引擎” ,基于全局優先假設(Global Precedence Hypothesis)對合成數據施加了極其嚴格的生成約束:
- 嚴格的 “全局到局部” 掃描邏輯:要求序列必須從最寬泛的全局錨點起步,逐步將焦點縮小到相關主體,并最終落腳于解答查詢所需的關鍵視覺證據上。
- 演繹軌跡而非靜態描述:這一特定的結構確保了數據呈現的是動態的視覺演繹軌跡,而不是對圖像表面元素的靜態描述。
- 原子化與去語法化:為了提煉出高密度的 “語義錨點”,生成內容被要求必須是原子級別的特定視覺概念,并強制剔除所有的語法修飾詞(如 is, the, a 等停用詞)。
在這些嚴苛的要求下,ScanPath 成功將視覺推理過程解構成了一系列離散的語義節點,并在人工評估中取得了 91.5% 的邏輯有效率。這份認知掃描路徑數據,為后續模型在隱空間中維持概率疊加提供了最核心的監督目標。
4. 具體方法
動態語義窗口(Dynamic Semantic Windows)
![]()
![]()
![]()
自修正的隱式疊加(Self-Refined Superposition)
![]()
![]()
![]()
在傳統的自回歸訓練中,損失函數強制要求模型在這一步必須 100% 預測唯一的下一個詞,這正是導致隱狀態發生 “過早語義坍縮” 的罪魁禍首。
![]()
![]()
熵正則化干預(Entropy-Regularized Intervention)
![]()
![]()
![]()
![]()
![]()
總體優化目標(Optimization Objective)
整合以上機制,對于隱式推理鏈,DWAL 損失負責將隱式軌跡與動態語義窗口對齊:
![]()
![]()
5. 實驗結果:以極低算力刷新 SOTA,兼具可解釋性
研究團隊在 6 個極具挑戰性的視覺基準測試上對 Laser 進行了全面評估。結果表明,Laser 兼顧顯式思維鏈的推理深度和隱式推理的高效推理速度。
![]()
卓越的推理性能
Laser 在隱式推理方法中確立了新的最優性能(SOTA)。與隱式推理基線模型相比,Laser 的平均性能提升了 5.03%。特別是在測試視覺錯覺和幻覺的 HallusionBench 以及感知基準 BLINK 上,Laser 分別取得了 11.36% 和 6.21% 的漲幅。
高效的推理效率
![]()
尤為值得一提的是,Laser 在取得性能突破的同時,展現出了極高的運行效率。通過將推理過程從離散文本空間轉移到緊湊的隱空間,Laser 成功將推理 Token 的消耗減少了 97% 以上。在 BLINK 基準測試中,其平均 Token 消耗量銳減至僅 6.0 個,遠遠低于顯式推理方法。
破局隱式推理的 “黑盒化”
![]()
與傳統隱式推理模型中難以解讀的連續向量不同,Laser 成功保留了高度的可解釋性。得益于其訓練過程中維護語義疊加態的窗口對齊機制,Laser 的隱狀態可以直接通過語言模型的詞表頭進行投影解碼,從而讓研究人員能夠直觀地可視化出大模型的內部 “認知軌跡”。
6. 消融實驗:探索 Laser 的內在機制
為了驗證 Laser 各個核心組件的實際貢獻,研究團隊在論文中進行了詳盡的消融實驗。結果表明,Laser 的良好表現主要歸功于隱式對齊框架的設計,以及對干預機制的精準把控。
6.1 探究 Laser 為何有效:概率疊加與動態窗口
團隊首先對動態窗口對齊學習(DWAL)的核心要素概率疊加和動態窗口進行了消融實驗。
![]()
- 概率疊加防止語義坍縮: 當移除 DWAL 目標,使模型退化為標準的 “預測下一個詞” 模式時,模型在細粒度感知基準(如 MMVP 和 BLINK)上的性能出現了顯著下降。這表明,在推理過程中維持概率疊加態,對于防止模型過早丟失視覺細節、避免語義坍縮至關重要。
- 動態窗口構建認知層級: 進一步的實驗發現,如果取消動態窗口的縮減機制(即使用固定窗口),模型在復雜邏輯推理任務(如 MMStar)上的表現會明顯受損。這印證了動態窗口是實現 “Forest-before-Trees” 機制的關鍵:通過逐步縮小語義范圍,強制模型先捕捉全局上下文,再聚焦局部細節。
6.2 熵干預的控制:觸發干預的黃金比例
在隱空間中,模型什么時候該自由探索,什么時候該被強制糾偏?這就需要通過熵正則化干預機制中的閾值 η 來控制。實驗對不同的熵閾值進行了對比,發現 η=0.6 是最佳的平衡點,此時強制干預的觸發比例約為 10%。
- 這個比例意味著,系統大約每 10 個 Token 會進行一次硬性糾偏。如果門檻設定過低(例如 η=0.5,觸發比例升至 18%,過于頻繁的干預會像傳統的強監督一樣,限制模型在隱空間中的探索自由,導致邏輯推理(如 MMStar)性能下降。
- 反之,如果門檻設定過高(例如 η=0.8 或 1.0,觸發比例低于 2.5%),系統幾乎不介入,模型在遇到困惑時就缺乏必要的引導信號,從而影響整體訓練效果。
恰好在維持認知靈活性與確保視覺準確性之間找到了最優解。
結語
Laser 的提出,為大語言模型的視覺推理指明了一條兼顧 “高效” 與 “深思” 的新道路。研究團隊期待這項工作能夠鼓勵多模態大模型的研究范式,從傳統的顯式文本預測,走向更符合直覺的連續隱式視覺推理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.