機(jī)器之心發(fā)布
近日,Meta AI 與香港中文大學(xué)顛覆性提出了一種全新的視覺(jué)推理范式 ATLAS,不用外部工具,不顯式生成中間圖像,沒(méi)有視覺(jué)監(jiān)督信號(hào),只用一個(gè)離散 word,首次顛覆性地代替 Agentic 和 Latent Visual Reasoning
![]()
- Paper Link: https://arxiv.org/pdf/2605.15198
- Project Page: https://atlas-oneword.github.io
- Code: https://github.com/ZiyuGuo99/ATLAS
第一作者是香港中文大學(xué)的博士生,本科畢業(yè)于北京大學(xué)計(jì)算機(jī)系,曾在 Google DeepMind Veo、Meta AI、Amazon AWS AI Lab、Roblox、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)實(shí)習(xí),研究多模態(tài)大模型和生成理解統(tǒng)一,一作代表作有 Image-CoT、Think-while-Generate、MME-CoF、Point-LLM、PointCLIP 等,主頁(yè) https://ziyuguo99.github.io/。
![]()
TL;DR:
- 面對(duì)復(fù)雜的視覺(jué)推理任務(wù),Unified Models、Agentic Visual Reasoning 和 Latent Visual Reasoning 往往被視為幾條不同路線:Unified Models 依賴(lài)顯式生成中間視覺(jué)狀態(tài),直觀但開(kāi)銷(xiāo)高,訓(xùn)練復(fù)雜;Agentic 方法依賴(lài)外部工具或執(zhí)行器,可解釋但流程重,且需要額外的中間監(jiān)督;Latent 方法依賴(lài)模型內(nèi)部表示,形式輕量,但往往需要額外結(jié)構(gòu)設(shè)計(jì)或特殊訓(xùn)練機(jī)制,可擴(kuò)展性和泛化性差,還需要額外的過(guò)程監(jiān)督。ATLAS 試圖打破這些范式,一個(gè)簡(jiǎn)單的離散 Token (Functional Token)可以同時(shí)承擔(dān)幾種核心角色:作為 Agentic Operation,它高效地告訴我們模型正在執(zhí)行什么視覺(jué)操作;作為 Latent Visual Reasoning Unit,它又能在模型內(nèi)部高效參與推理,不需要中間圖像生成,且可擴(kuò)展性和泛化性強(qiáng),可以很輕易的擴(kuò)展到大規(guī)模訓(xùn)練和泛化到眾多領(lǐng)域任務(wù)。One Word is Enough for Both 的真正含義是一個(gè) word,既是操作,也是思考。
- Agentic 和 Latent Visual Reasoning 并不矛盾,一個(gè)離散 Token 既可以代表完整且可解釋的視覺(jué)動(dòng)作語(yǔ)義,也可以是模型內(nèi)部的 Latent Visual Reasoning Unit。
- 稀疏的 Functional Token 需要專(zhuān)門(mén)優(yōu)化。Funtional Token 雖少,但往往是視覺(jué)推理中的關(guān)鍵節(jié)點(diǎn)。LA-GRPO 通過(guò) Token-level Anchor,讓模型更高效地學(xué)習(xí)這些關(guān)鍵視覺(jué)操作。
01 高效統(tǒng)一 Agentic 和 Latent Visual Reasoning
當(dāng)大模型面對(duì)一道復(fù)雜的視覺(jué)推理題時(shí),它到底應(yīng)該怎么想?
一種直觀做法是讓模型顯式生成中間圖像或視覺(jué)狀態(tài)(Unified Models),再基于這些中間結(jié)果繼續(xù)推理。這種方式過(guò)程清楚,但往往需要反復(fù)解碼和再編碼視覺(jué)內(nèi)容,帶來(lái)較高的計(jì)算開(kāi)銷(xiāo),也讓訓(xùn)練和架構(gòu)設(shè)計(jì)變得更加復(fù)雜,需要額外的視覺(jué)監(jiān)督,且通用性較差。還有一類(lèi)方法(Agentic Visual Reasoning)則把視覺(jué)推理做得更加外顯:模型通過(guò)代碼、工具調(diào)用或外部執(zhí)行器來(lái)完成畫(huà)線、標(biāo)注、裁剪、放大等視覺(jué)操作。
這類(lèi) Agentic Visual Reasoning 具有較好的可解釋性,但引入了額外的工具執(zhí)行延遲,常常需要冗長(zhǎng)的操作調(diào)用描述,且同樣需要額外的執(zhí)行過(guò)程監(jiān)督。
而 Latent Visual Reasoning 試圖把中間推理壓縮到模型內(nèi)部表示中,避免顯式生成圖像或調(diào)用外部工具。它更加輕量,也能表達(dá)更高維的信息,但中間過(guò)程往往不夠可控,同樣需要對(duì) Latent 做額外的視覺(jué)監(jiān)督,且可擴(kuò)展性、可解釋性與泛化性也較差,難以大規(guī)模訓(xùn)練和泛化。
是否有一種方法,既能像 Agent 一樣擁有明確的視覺(jué)操作,在保證和 Latent Visual Reasoning 一樣輕量、高效的基礎(chǔ)上,又可擴(kuò)展到大規(guī)模訓(xùn)練和泛化到眾多領(lǐng)域任務(wù),同時(shí)避免顯式生成中間視覺(jué)狀態(tài)帶來(lái)的高成本?
Meta AI 與香港中文大學(xué)提出了一種全新的視覺(jué)推理范式ATLAS,核心想法非常直觀:只用一個(gè) word,首次將 Agentic 和 Latent Visual Reasoning 統(tǒng)一起來(lái)。
![]()
主流視覺(jué)推理范式對(duì)比
02 為什么一個(gè) Token 就夠了
Unified Models 像是邊想邊重新畫(huà)一張圖,Agentic 方法像是拿出一套工具箱,Latent 方法像是閉著眼在腦中想,ATLAS 更像是給模型學(xué)會(huì)了一組視覺(jué)動(dòng)作暗號(hào)。模型只需要生成離散的 Funtional Token,就可以在內(nèi)部表示中觸發(fā)相應(yīng)的視覺(jué)操作。
這些 Token 看起來(lái)只是普通詞表中的一個(gè) Token,但它們承擔(dān)的角色并不普通:它們既是 Agentic Operation,又是 Latent Visual Reasoning。
![]()
ATLAS 用一個(gè) Token 同時(shí)連接了兩件事:一方面,它像 Agentic Reasoning 一樣明確表示模型想執(zhí)行某種視覺(jué)操作;另一方面,它又完全存在于模型內(nèi)部,不依賴(lài)外部工具或顯式圖像生成,因此保持了 Latent Visual Reasoning 的高效性。
這些 Token 不需要額外的視覺(jué)監(jiān)督,也不需要改變模型架構(gòu),就像普通詞一樣,通過(guò) Next-Token Prediction 被模型生成;但一旦出現(xiàn)在推理鏈中,它們就不只是文本,還是模型內(nèi)部的視覺(jué)操作錨點(diǎn)。
![]()
ATLAS:把視覺(jué)操作表示為標(biāo)準(zhǔn)自回歸序列中的 Funtional Tokens
03 如何讓模型真正學(xué)會(huì)使用 Funtional Tokens
視覺(jué)推理中的很多中間步驟,并不一定真的需要生成一張完整圖片。
做幾何題時(shí),人類(lèi)腦中可能只是補(bǔ)一條線;做區(qū)域判斷時(shí),可能只是看一下左上角;做計(jì)數(shù)題時(shí),可能只是給每個(gè)物體打個(gè)標(biāo)記。這些動(dòng)作很重要,但它們本身并不需要用大量 Token 或完整圖像來(lái)表示。
ATLAS 的關(guān)鍵洞察是:很多視覺(jué)推理操作可以被壓縮成一個(gè)高層語(yǔ)義動(dòng)作,而這個(gè)動(dòng)作可以由一個(gè)離散 Token 表達(dá)。因此,ATLAS 不再讓模型輸出冗長(zhǎng)代碼、調(diào)用外部工具,或者生成昂貴的中間視覺(jué)結(jié)果,而是讓模型在文本推理過(guò)程中自然插入 Funtional Token。這種設(shè)計(jì)讓視覺(jué)推理過(guò)程變得更加緊湊,也更接近人類(lèi)在腦中進(jìn)行視覺(jué)操作的方式。
為了讓模型真正學(xué)會(huì)使用這些 Funtional Tokens,研究團(tuán)隊(duì)采用了 SFT + RL 兩階段訓(xùn)練流程:
第一階段:SFT 讓模型學(xué)會(huì)什么時(shí)候該用視覺(jué)動(dòng)作
研究團(tuán)隊(duì)構(gòu)建了 ATLAS-178K 數(shù)據(jù)集,覆蓋 40 多種視覺(jué)推理任務(wù),并將復(fù)雜視覺(jué)操作映射為統(tǒng)一的 Funtional Token 表達(dá)。
在監(jiān)督微調(diào)階段,模型學(xué)習(xí)的不只是最終答案,而是包含 Funtional Tokens 的推理軌跡。這一步類(lèi)似于示范教學(xué):遇到畫(huà)線,可能需要 <|Line|>;遇到空間區(qū)域操作,可能需要 <|Shape|>;遇到方向關(guān)系,可能需要 <|Arrow|>;遇到標(biāo)注,可能需要 <|Text|>。
第二階段:RL 讓模型學(xué)會(huì)用得對(duì),而不是亂用
僅僅讓模型學(xué)會(huì)生成 Funtional Token 還不夠。因?yàn)槿绻?jiǎng)勵(lì)設(shè)計(jì)不當(dāng),模型很容易走向另一個(gè)極端:為了拿獎(jiǎng)勵(lì)而瘋狂堆 Token。比如本來(lái)只需要一條輔助線,它卻連續(xù)輸出十幾個(gè)視覺(jué)動(dòng)作 Token,看起來(lái)很努力,但實(shí)際并沒(méi)有幫助解題。
為了解決這個(gè)問(wèn)題,ATLAS 在強(qiáng)化學(xué)習(xí)階段設(shè)計(jì)了專(zhuān)門(mén)的 Reward:既獎(jiǎng)勵(lì)答對(duì)問(wèn)題,也獎(jiǎng)勵(lì)合理使用 Funtional Token;同時(shí)懲罰過(guò)長(zhǎng)輸出和 Token Spam,避免模型為了刷獎(jiǎng)勵(lì)而濫用視覺(jué)動(dòng)作。這使得模型不再是簡(jiǎn)單地多用 Token,而是學(xué)會(huì)在真正需要視覺(jué)操作時(shí)使用 Token。
04 LA-GRPO:解決 Gradient Dilution 問(wèn)題
ATLAS 中還有一個(gè)關(guān)鍵技術(shù)點(diǎn):Latent-Anchored GRPO,簡(jiǎn)稱(chēng) LA-GRPO。問(wèn)題來(lái)自 Funtional Token 的稀疏性。在一整段視覺(jué)推理輸出中,絕大多數(shù) Token 仍然是普通文本,F(xiàn)untional Token 只占很小比例。
普通 GRPO 使用 Sequence-level Reward,雖然能整體優(yōu)化模型,但對(duì)于這些極少數(shù)關(guān)鍵 Token 來(lái)說(shuō),梯度信號(hào)很容易被大量普通文本 Token 稀釋?zhuān)@就是論文中提到的 Gradient Dilution 問(wèn)題。
ATLAS 的解決方式是:在 GRPO 的基礎(chǔ)上,額外對(duì) Funtional Token 位置進(jìn)行 Token-level Anchor。如果某條推理軌跡最終答對(duì)了,并且其中某個(gè) Funtional Token 起到了關(guān)鍵作用,那么 LA-GRPO 會(huì)更直接地強(qiáng)化這個(gè) Token 的生成概率。這就像在訓(xùn)練中告訴模型:不是所有詞都一樣重要。真正觸發(fā)視覺(jué)操作的那個(gè) word,需要被更精準(zhǔn)地學(xué)習(xí)。
![]()
LA-GRPO:針對(duì)稀疏 Funtional Tokens 增強(qiáng)梯度更新,緩解 Gradient Dilution
05 一個(gè) word 帶來(lái)高效強(qiáng)視覺(jué)推理能力
定量和定性實(shí)驗(yàn)分析
研究團(tuán)隊(duì)在多個(gè)視覺(jué)推理基準(zhǔn)上驗(yàn)證了 ATLAS 的效果。實(shí)驗(yàn)結(jié)果顯示,ATLAS 在多個(gè)具有挑戰(zhàn)性的視覺(jué)推理任務(wù)上取得了有競(jìng)爭(zhēng)力的表現(xiàn)。尤其是在復(fù)雜幾何推理、空間關(guān)系、多視角理解、計(jì)數(shù)和細(xì)粒度視覺(jué)判斷等任務(wù)中,F(xiàn)untional Token 能幫助模型更有效地組織視覺(jué)推理過(guò)程,同時(shí)非常高效。
![]()
ATLAS 基準(zhǔn)測(cè)試結(jié)果
更重要的是,ATLAS 的提升并不是通過(guò)更復(fù)雜的外部系統(tǒng)換來(lái)的。它不需要額外工具執(zhí)行,不需要顯式生成中間圖像,也不需要破壞標(biāo)準(zhǔn)自回歸訓(xùn)練流程。Funtional Token 仍然只是詞表中的普通 Token,可以自然兼容現(xiàn)有的 SFT 和 RL 訓(xùn)練框架,可高效擴(kuò)展至大規(guī)模訓(xùn)練。
![]()
ATLAS 效率分析
![]()
ATLAS 定性樣例:Funtional Tokens 幫助模型定位、過(guò)濾和標(biāo)注視覺(jué)證據(jù)
模型真的在看這些 Token 嗎?
一個(gè)自然的問(wèn)題是:這些 Funtional Token 只是特殊符號(hào),還是模型真的學(xué)會(huì)了對(duì)應(yīng)的視覺(jué)操作?
為此,研究團(tuán)隊(duì)進(jìn)一步分析了模型在生成 Funtional Token 時(shí)的注意力模式。結(jié)果顯示,當(dāng)模型生成 <|Shape|> 時(shí),注意力往往會(huì)聚焦到需要標(biāo)記的目標(biāo)區(qū)域;當(dāng)模型生成 <|Line|> 時(shí),注意力會(huì)集中在幾何結(jié)構(gòu)或需要連接的關(guān)鍵點(diǎn)附近;當(dāng)模型生成 <|Text|> 時(shí),模型更傾向于關(guān)注需要編號(hào)、標(biāo)注或區(qū)分的對(duì)象。
這說(shuō)明 Funtional Token 不只是簡(jiǎn)單的 Token 標(biāo)記,而是讓這種視覺(jué)操作在模型內(nèi)部表示的推理過(guò)程中真正發(fā)揮作用。
![]()
![]()
Funtional Token 的 Attention Analysis:不同 Token 關(guān)注不同操作的相關(guān)區(qū)域
ATLAS 的意義更在于它提出了一種新的視覺(jué)推理范式。從更長(zhǎng)遠(yuǎn)的角度看,ATLAS 為多模態(tài)模型提供了一種新的能力接口:并非讓模型不斷調(diào)用外部工具,也不是讓模型完全黑盒地在隱空間中思考,無(wú)需每一步都生成昂貴的中間圖像,而是讓它學(xué)會(huì)一套簡(jiǎn)潔的視覺(jué)動(dòng)作語(yǔ)言。
當(dāng)模型能夠用一個(gè) word 完成視覺(jué)操作,在保證可擴(kuò)展性、泛化性、可解釋性的同時(shí),避免冗長(zhǎng)的推理過(guò)程和額外的中間監(jiān)督,實(shí)現(xiàn)最簡(jiǎn)潔高效的推理預(yù)測(cè)。
One word is enough for both.
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.