<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      告別冗長思維鏈!Laser用「概率疊加」重塑多模態大模型隱式推理

      0
      分享至



      本文的共同第一作者王禹博,張鈞天分別為復旦大學和中國人民大學高瓴人工智能學院的碩士研究生,主要研究方向為多模態大模型和 Reasoning 等,預計 2027 年 6 月畢業,如有多模態大模型 / Reasoning 相關的優質發展機會,歡迎大家聯系: yubowang25@m.fudan.edu.cn , zhangjuntian@ruc.edu.cn。通訊作者是劉雨涵,目前在 MBZUAI 擔任研究員,研究方向為多模態大模型,Agent 和 Misinformation 等。

      近年來,隨著思維鏈(Chain-of-Thought)技術的普及,多模態大模型(VLMs)的多步推理能力得到了顯著提升。然而,這種依賴顯式文本的推理路徑正面臨著一個嚴重的 “信息帶寬瓶頸”:在離散的文本分詞過程中,連續且豐富的視覺細節往往會被大量丟失。

      為了解決這一痛點,由 MBZUAI、復旦大學、中國人民大學高瓴人工智能學院以及哈佛大學聯合組成的研究團隊,提出了一種名為Laser的全新隱式視覺推理范式。該研究從認知心理學中汲取靈感,引入了 “Forest-before-Trees” 的認知機制,通過動態窗口對齊學習(DWAL),首次實現了在隱空間中維持視覺特征的 “概率疊加” 狀態。

      研究實驗結果顯示,Laser 不僅在 6 個主流基準測試中刷新了隱式推理的 SOTA 紀錄,更以極致的效率將推理 Token 消耗大幅降低了 97% 以上。這一工作為構建更原生、更高效的多模態智能提供了全新的視角。目前,該論文已被 ACL 2026 Main Conference 正式接收。

      • 論文標題: Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
      • 論文鏈接: https://arxiv.org/pdf/2601.06803
      • 代碼倉庫: https://github.com/ybb6/laser
      • 數據集鏈接:https://huggingface.co/datasets/wybb/Laser-ScanPath



      1. 傳統隱式推理的困境:過早的語義坍縮

      如前文所述,純文本的思維鏈在多模態大模型中不僅面臨著視覺細節丟失的 “信息帶寬瓶頸”,還存在另一個隱患:語言先驗(Language Priors)的干擾。在生成冗長文本推理的過程中,模型往往會過度依賴固有的語言邏輯,從而產生幻覺或忽視了圖像本身傳遞的視覺信息。

      為了繞開顯式文本帶來的這些局限,學界近期開始探索將推理過程轉移到高維空間的 “隱式推理(Latent Space Reasoning)”。但現有的隱式推理方法大多依然沿用傳統大語言模型的自回歸框架。它們在隱空間中強迫模型進行嚴格的逐點映射 —— 即在每一步推理中,都要求模型去精準預測緊接著的下一個具體概念或視覺特征。

      研究團隊指出,這種逐點映射與人類真實的視覺感知規律背道而馳。人類在觀察復雜圖像時,往往遵循 “Forest-before-Trees” 的層級性原則,即先建立對整體畫面的宏觀語義把控,再逐步聚焦于局部的特定細節。如果強迫模型在尚未完全掌握全局上下文之時,就 “過早地發生語義坍縮”,將其隱狀態死死鎖定在某個具體的局部概念上,就會引發嚴重的 “管中窺豹” 效應,使模型難以捕捉更復雜的視覺邏輯關系。

      然而,打破這種逐點約束也面臨著巨大的技術鴻溝:如果放任隱狀態保持模糊的未坍縮狀態,在缺乏外部強監督信號的情況下,模型極易迷失方向,導致隱空間發散為毫無意義的高熵噪聲。如何在探索全局的概率疊加與精準聚焦的答案收斂之間找到平衡,成為了阻礙隱式推理發展的一大難題,而這也正是 Laser 范式要攻克的核心目標。



      2. Laser 核心機制:動態窗口對齊與隱式疊加

      基于上述洞察,研究團隊提出了Laser(Latent Superposition for Effective Visual Reasoning)。其核心創新在于放棄逐點預測,轉而采用動態窗口對齊學習(Dynamic Windowed Alignment Learning, DWAL)

      • 動態語義窗口: Laser 不再只預測緊接著的下一個詞,而是讓當前的隱狀態與一個包含未來潛在語義的動態有效窗口進行對齊。
      • 認知流的過渡: 隨著推理過程的推進,語義窗口會自然縮小,從而強制模型完成從全局探索到局部精準定位的漸進式過渡。這種機制使得隱狀態能夠維持一種 “概率疊加” 狀態,在編碼高層全局語義的同時,將具體細節保留在潛在狀態中。
      • 自修正與熵正則化干預: 為了在缺乏外部強監督的情況下穩定這種無約束的學習過程,團隊設計了自修正疊加機制(Self-Refined Superposition)來構建穩定的軟目標。同時,研究引入了熵正則化干預(Entropy-Regularized Intervention),當模型不確定性較高時動態注入硬性引導,而在模型掌握全局上下文時恢復軟疊加,形成一種隱式的課程學習。



      3. 數據基石:ScanPath 認知軌跡

      為了支撐 Laser 的隱式對齊訓練,研究團隊摒棄了依賴顯式邊界框(Bounding Boxes)等視覺 COT 的強監督手段,選擇通過隱式潛空間對齊來橋接感知與語言。為此研究團隊專門構建了包含約 27 萬樣本的 ScanPath 數據集,為動態窗口對齊(DWAL)提供完美契合 “Forest-before-Trees” 規律的訓練載體。團隊將 GPT-4o 設定為 “視覺認知引擎” ,基于全局優先假設(Global Precedence Hypothesis)對合成數據施加了極其嚴格的生成約束:

      • 嚴格的 “全局到局部” 掃描邏輯:要求序列必須從最寬泛的全局錨點起步,逐步將焦點縮小到相關主體,并最終落腳于解答查詢所需的關鍵視覺證據上。
      • 演繹軌跡而非靜態描述:這一特定的結構確保了數據呈現的是動態的視覺演繹軌跡,而不是對圖像表面元素的靜態描述。
      • 原子化與去語法化:為了提煉出高密度的 “語義錨點”,生成內容被要求必須是原子級別的特定視覺概念,并強制剔除所有的語法修飾詞(如 is, the, a 等停用詞)。

      在這些嚴苛的要求下,ScanPath 成功將視覺推理過程解構成了一系列離散的語義節點,并在人工評估中取得了 91.5% 的邏輯有效率。這份認知掃描路徑數據,為后續模型在隱空間中維持概率疊加提供了最核心的監督目標。

      4. 具體方法

      動態語義窗口(Dynamic Semantic Windows)







      自修正的隱式疊加(Self-Refined Superposition)







      在傳統的自回歸訓練中,損失函數強制要求模型在這一步必須 100% 預測唯一的下一個詞,這正是導致隱狀態發生 “過早語義坍縮” 的罪魁禍首。





      熵正則化干預(Entropy-Regularized Intervention)











      總體優化目標(Optimization Objective)

      整合以上機制,對于隱式推理鏈,DWAL 損失負責將隱式軌跡與動態語義窗口對齊:





      5. 實驗結果:以極低算力刷新 SOTA,兼具可解釋性

      研究團隊在 6 個極具挑戰性的視覺基準測試上對 Laser 進行了全面評估。結果表明,Laser 兼顧顯式思維鏈的推理深度和隱式推理的高效推理速度。



      卓越的推理性能

      Laser 在隱式推理方法中確立了新的最優性能(SOTA)。與隱式推理基線模型相比,Laser 的平均性能提升了 5.03%。特別是在測試視覺錯覺和幻覺的 HallusionBench 以及感知基準 BLINK 上,Laser 分別取得了 11.36% 和 6.21% 的漲幅。

      高效的推理效率



      尤為值得一提的是,Laser 在取得性能突破的同時,展現出了極高的運行效率。通過將推理過程從離散文本空間轉移到緊湊的隱空間,Laser 成功將推理 Token 的消耗減少了 97% 以上。在 BLINK 基準測試中,其平均 Token 消耗量銳減至僅 6.0 個,遠遠低于顯式推理方法。

      破局隱式推理的 “黑盒化”



      與傳統隱式推理模型中難以解讀的連續向量不同,Laser 成功保留了高度的可解釋性。得益于其訓練過程中維護語義疊加態的窗口對齊機制,Laser 的隱狀態可以直接通過語言模型的詞表頭進行投影解碼,從而讓研究人員能夠直觀地可視化出大模型的內部 “認知軌跡”。

      6. 消融實驗:探索 Laser 的內在機制

      為了驗證 Laser 各個核心組件的實際貢獻,研究團隊在論文中進行了詳盡的消融實驗。結果表明,Laser 的良好表現主要歸功于隱式對齊框架的設計,以及對干預機制的精準把控。

      6.1 探究 Laser 為何有效:概率疊加與動態窗口

      團隊首先對動態窗口對齊學習(DWAL)的核心要素概率疊加和動態窗口進行了消融實驗。



      • 概率疊加防止語義坍縮: 當移除 DWAL 目標,使模型退化為標準的 “預測下一個詞” 模式時,模型在細粒度感知基準(如 MMVP 和 BLINK)上的性能出現了顯著下降。這表明,在推理過程中維持概率疊加態,對于防止模型過早丟失視覺細節、避免語義坍縮至關重要。
      • 動態窗口構建認知層級: 進一步的實驗發現,如果取消動態窗口的縮減機制(即使用固定窗口),模型在復雜邏輯推理任務(如 MMStar)上的表現會明顯受損。這印證了動態窗口是實現 “Forest-before-Trees” 機制的關鍵:通過逐步縮小語義范圍,強制模型先捕捉全局上下文,再聚焦局部細節。

      6.2 熵干預的控制:觸發干預的黃金比例

      在隱空間中,模型什么時候該自由探索,什么時候該被強制糾偏?這就需要通過熵正則化干預機制中的閾值 η 來控制。實驗對不同的熵閾值進行了對比,發現 η=0.6 是最佳的平衡點,此時強制干預的觸發比例約為 10%。

      • 這個比例意味著,系統大約每 10 個 Token 會進行一次硬性糾偏。如果門檻設定過低(例如 η=0.5,觸發比例升至 18%,過于頻繁的干預會像傳統的強監督一樣,限制模型在隱空間中的探索自由,導致邏輯推理(如 MMStar)性能下降。
      • 反之,如果門檻設定過高(例如 η=0.8 或 1.0,觸發比例低于 2.5%),系統幾乎不介入,模型在遇到困惑時就缺乏必要的引導信號,從而影響整體訓練效果。

      恰好在維持認知靈活性與確保視覺準確性之間找到了最優解。

      結語

      Laser 的提出,為大語言模型的視覺推理指明了一條兼顧 “高效” 與 “深思” 的新道路。研究團隊期待這項工作能夠鼓勵多模態大模型的研究范式,從傳統的顯式文本預測,走向更符合直覺的連續隱式視覺推理。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我40歲才清楚:為什么買榴蓮時,老板總要幫著剝殼?里面套路深

      我40歲才清楚:為什么買榴蓮時,老板總要幫著剝殼?里面套路深

      卡西莫多的故事
      2025-12-08 10:29:05
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      武漢三鎮換帥如翻書!鄧卓翔又要來背鍋,他能拯救這座城嗎?

      武漢三鎮換帥如翻書!鄧卓翔又要來背鍋,他能拯救這座城嗎?

      落夜足球
      2026-05-08 16:32:38
      余承東在華為權力排名

      余承東在華為權力排名

      生活新鮮市
      2026-04-27 18:30:53
      有人說:打麻將和性生活是縣城的底色?

      有人說:打麻將和性生活是縣城的底色?

      燈錦年
      2026-04-21 12:32:46
      小米手機大跌!出貨量下滑19%,汽車業務是「罪魁禍首」?

      小米手機大跌!出貨量下滑19%,汽車業務是「罪魁禍首」?

      雷科技
      2026-05-06 21:29:31
      昆明機場T2航站樓現場:機器人貼磚,月薪過萬的新工種出現了?

      昆明機場T2航站樓現場:機器人貼磚,月薪過萬的新工種出現了?

      智慧生活筆記
      2026-05-08 03:45:09
      日本等了一天一夜,還是見不到中方,高市早苗決心派百人團訪華

      日本等了一天一夜,還是見不到中方,高市早苗決心派百人團訪華

      芳芳歷史燴
      2026-05-08 16:09:11
      全國1.6億人停繳靈活就業社保,問題出在哪?

      全國1.6億人停繳靈活就業社保,問題出在哪?

      老特有話說
      2026-05-08 14:38:12
      醫生:糖尿病最危險信號,不是渾身無力,而是頻繁出現這5個異常

      醫生:糖尿病最危險信號,不是渾身無力,而是頻繁出現這5個異常

      今日養生之道
      2026-05-08 13:17:06
      小馬云成年后首播,直播間打賞刷屏!他開始吵著“要找老婆”...

      小馬云成年后首播,直播間打賞刷屏!他開始吵著“要找老婆”...

      品牌新
      2026-05-08 16:22:12
      比亞迪取消員工園區免費充電

      比亞迪取消員工園區免費充電

      鞭牛士
      2026-05-06 13:44:04
      海峽突發激烈沖突!美軍無故掃射海面,伊朗快艇全程冷靜對峙

      海峽突發激烈沖突!美軍無故掃射海面,伊朗快艇全程冷靜對峙

      黑鷹觀軍事
      2026-05-08 16:08:56
      蘋果新品上架,5月8日,正式開售

      蘋果新品上架,5月8日,正式開售

      科技堡壘
      2026-05-06 12:16:23
      成都一河道現廢舊注射器,當地:注射器系用于控糖減重,已清理

      成都一河道現廢舊注射器,當地:注射器系用于控糖減重,已清理

      新京報
      2026-05-08 16:40:05
      上海成為2028年奧運會資格系列賽舉辦城市,國際奧委會主席考文垂發來賀電

      上海成為2028年奧運會資格系列賽舉辦城市,國際奧委會主席考文垂發來賀電

      上觀新聞
      2026-05-08 04:24:13
      岳陽摩托車飆車后續,現場慘不忍睹2老人當場死亡,肇事者是慣犯

      岳陽摩托車飆車后續,現場慘不忍睹2老人當場死亡,肇事者是慣犯

      觀察鑒娛
      2026-05-07 09:50:00
      亨得利希望2029年世錦賽留在謝菲爾德!特魯姆普:找不到任何理由

      亨得利希望2029年世錦賽留在謝菲爾德!特魯姆普:找不到任何理由

      世界體壇觀察家
      2026-05-08 08:12:17
      自民黨高層訪華受挫后,高市打算親自訪華,中方態度早已明確

      自民黨高層訪華受挫后,高市打算親自訪華,中方態度早已明確

      面包夾知識
      2026-05-08 15:48:14
      求救也晚了,伊朗宣布對美艦開火,話音剛落,土耳其亮出洲際導彈

      求救也晚了,伊朗宣布對美艦開火,話音剛落,土耳其亮出洲際導彈

      光輝與陰暗
      2026-05-07 15:23:40
      2026-05-08 17:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12946文章數 142646關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      沙特翻臉突然對美軍關閉領空 特朗普連忙打電話都沒用

      頭條要聞

      沙特翻臉突然對美軍關閉領空 特朗普連忙打電話都沒用

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      智能雙艙大五座SUV 樂道L80將于5月15日正式上市

      態度原創

      時尚
      教育
      手機
      房產
      健康

      海魂衫搭配白色,更解暑!

      教育要聞

      高考倒計時一個月,南京航空航天大學校長邀約全國高考學子

      手機要聞

      某廠驍龍2nm新機配置全曝光:2nm+2億像素,或為榮耀Magic 9系列

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      干細胞治燒燙傷能用了么?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91在线国内在线播放老师| 永久免费无码av网站在线观看| 无码一区中文字幕| 国产精品69毛片高清亚洲 | 无码人妻精品一区二区三区温州| 裸体丰满白嫩大尺度尤物| 国产精品99精品无码视频亚瑟| 国产麻豆福利av在线播放| 午夜国人精品av免费看| 久久精品国产高潮国产夫妻| 国产中文三级全黄| 国产精品尤物乱码一区二区| 天天综合成人| 久久婷五月最新中文字幕| 亚洲欧美日本韩国综合在线观看| 欧美午夜成人片在线观看| 国产精品不卡一区二区在线| 天堂偷拍| 亚洲色婷婷一区二区三区| 午夜一区二区三区av| 国产99在线a视频| 伊伊色妹子在线视频| 免费无码又爽又刺激高潮虎虎视频 | 久久精品无码中文字幕| 亚洲综合性| 东京热一精品无码av| 亚洲欧美电影在线一区二区| 欧美不卡精品中文字幕日韩 | 成A人片亚洲日本久久| av片网站| 先锋影音av资源在线播放| 久久国产精品老人性| 手机看片1024久久精品你懂的| 99re6久精品国产首页| 开心婷婷五月激情综合社区| 国产免费高清69式视频在线观看 | 日本国产欧美色综合| 精品亚洲国产成人av| 人妻无码ΑV中文字幕久久琪琪布 国产乱人伦AV在线麻豆A | a片无码高清免费视频播放| 亚洲成a人片在线观看的电影|