網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Meta華人發(fā)布ATLAS，一個(gè)詞搞定可泛化的視覺(jué)推理！

2026-05-22 10:14:43　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心發(fā)布

近日，Meta AI 與香港中文大學(xué)顛覆性提出了一種全新的視覺(jué)推理范式 ATLAS，不用外部工具，不顯式生成中間圖像，沒(méi)有視覺(jué)監(jiān)督信號(hào)，只用一個(gè)離散 word，首次顛覆性地代替 Agentic 和 Latent Visual Reasoning

Paper Link: https://arxiv.org/pdf/2605.15198
Project Page: https://atlas-oneword.github.io
Code: https://github.com/ZiyuGuo99/ATLAS

第一作者是香港中文大學(xué)的博士生，本科畢業(yè)于北京大學(xué)計(jì)算機(jī)系，曾在 Google DeepMind Veo、Meta AI、Amazon AWS AI Lab、Roblox、上海人工智能實(shí)驗(yàn)室等機(jī)構(gòu)實(shí)習(xí)，研究多模態(tài)大模型和生成理解統(tǒng)一，一作代表作有 Image-CoT、Think-while-Generate、MME-CoF、Point-LLM、PointCLIP 等，主頁(yè) https://ziyuguo99.github.io/。

TL；DR：

面對(duì)復(fù)雜的視覺(jué)推理任務(wù)，Unified Models、Agentic Visual Reasoning 和 Latent Visual Reasoning 往往被視為幾條不同路線：Unified Models 依賴(lài)顯式生成中間視覺(jué)狀態(tài)，直觀但開(kāi)銷(xiāo)高，訓(xùn)練復(fù)雜；Agentic 方法依賴(lài)外部工具或執(zhí)行器，可解釋但流程重，且需要額外的中間監(jiān)督；Latent 方法依賴(lài)模型內(nèi)部表示，形式輕量，但往往需要額外結(jié)構(gòu)設(shè)計(jì)或特殊訓(xùn)練機(jī)制，可擴(kuò)展性和泛化性差，還需要額外的過(guò)程監(jiān)督。ATLAS 試圖打破這些范式，一個(gè)簡(jiǎn)單的離散 Token （Functional Token）可以同時(shí)承擔(dān)幾種核心角色：作為 Agentic Operation，它高效地告訴我們模型正在執(zhí)行什么視覺(jué)操作；作為 Latent Visual Reasoning Unit，它又能在模型內(nèi)部高效參與推理，不需要中間圖像生成，且可擴(kuò)展性和泛化性強(qiáng)，可以很輕易的擴(kuò)展到大規(guī)模訓(xùn)練和泛化到眾多領(lǐng)域任務(wù)。One Word is Enough for Both 的真正含義是一個(gè) word，既是操作，也是思考。
Agentic 和 Latent Visual Reasoning 并不矛盾，一個(gè)離散 Token 既可以代表完整且可解釋的視覺(jué)動(dòng)作語(yǔ)義，也可以是模型內(nèi)部的 Latent Visual Reasoning Unit。
稀疏的 Functional Token 需要專(zhuān)門(mén)優(yōu)化。Funtional Token 雖少，但往往是視覺(jué)推理中的關(guān)鍵節(jié)點(diǎn)。LA-GRPO 通過(guò) Token-level Anchor，讓模型更高效地學(xué)習(xí)這些關(guān)鍵視覺(jué)操作。

01 高效統(tǒng)一 Agentic 和 Latent Visual Reasoning

當(dāng)大模型面對(duì)一道復(fù)雜的視覺(jué)推理題時(shí)，它到底應(yīng)該怎么想？

一種直觀做法是讓模型顯式生成中間圖像或視覺(jué)狀態(tài)（Unified Models），再基于這些中間結(jié)果繼續(xù)推理。這種方式過(guò)程清楚，但往往需要反復(fù)解碼和再編碼視覺(jué)內(nèi)容，帶來(lái)較高的計(jì)算開(kāi)銷(xiāo)，也讓訓(xùn)練和架構(gòu)設(shè)計(jì)變得更加復(fù)雜，需要額外的視覺(jué)監(jiān)督，且通用性較差。還有一類(lèi)方法（Agentic Visual Reasoning）則把視覺(jué)推理做得更加外顯：模型通過(guò)代碼、工具調(diào)用或外部執(zhí)行器來(lái)完成畫(huà)線、標(biāo)注、裁剪、放大等視覺(jué)操作。

這類(lèi) Agentic Visual Reasoning 具有較好的可解釋性，但引入了額外的工具執(zhí)行延遲，常常需要冗長(zhǎng)的操作調(diào)用描述，且同樣需要額外的執(zhí)行過(guò)程監(jiān)督。

而 Latent Visual Reasoning 試圖把中間推理壓縮到模型內(nèi)部表示中，避免顯式生成圖像或調(diào)用外部工具。它更加輕量，也能表達(dá)更高維的信息，但中間過(guò)程往往不夠可控，同樣需要對(duì) Latent 做額外的視覺(jué)監(jiān)督，且可擴(kuò)展性、可解釋性與泛化性也較差，難以大規(guī)模訓(xùn)練和泛化。

是否有一種方法，既能像 Agent 一樣擁有明確的視覺(jué)操作，在保證和 Latent Visual Reasoning 一樣輕量、高效的基礎(chǔ)上，又可擴(kuò)展到大規(guī)模訓(xùn)練和泛化到眾多領(lǐng)域任務(wù)，同時(shí)避免顯式生成中間視覺(jué)狀態(tài)帶來(lái)的高成本？

Meta AI 與香港中文大學(xué)提出了一種全新的視覺(jué)推理范式ATLAS，核心想法非常直觀：只用一個(gè) word，首次將 Agentic 和 Latent Visual Reasoning 統(tǒng)一起來(lái)。

主流視覺(jué)推理范式對(duì)比

02 為什么一個(gè) Token 就夠了

Unified Models 像是邊想邊重新畫(huà)一張圖，Agentic 方法像是拿出一套工具箱，Latent 方法像是閉著眼在腦中想，ATLAS 更像是給模型學(xué)會(huì)了一組視覺(jué)動(dòng)作暗號(hào)。模型只需要生成離散的 Funtional Token，就可以在內(nèi)部表示中觸發(fā)相應(yīng)的視覺(jué)操作。

這些 Token 看起來(lái)只是普通詞表中的一個(gè) Token，但它們承擔(dān)的角色并不普通：它們既是 Agentic Operation，又是 Latent Visual Reasoning。

ATLAS 用一個(gè) Token 同時(shí)連接了兩件事：一方面，它像 Agentic Reasoning 一樣明確表示模型想執(zhí)行某種視覺(jué)操作；另一方面，它又完全存在于模型內(nèi)部，不依賴(lài)外部工具或顯式圖像生成，因此保持了 Latent Visual Reasoning 的高效性。

這些 Token 不需要額外的視覺(jué)監(jiān)督，也不需要改變模型架構(gòu)，就像普通詞一樣，通過(guò) Next-Token Prediction 被模型生成；但一旦出現(xiàn)在推理鏈中，它們就不只是文本，還是模型內(nèi)部的視覺(jué)操作錨點(diǎn)。

ATLAS：把視覺(jué)操作表示為標(biāo)準(zhǔn)自回歸序列中的 Funtional Tokens

03 如何讓模型真正學(xué)會(huì)使用 Funtional Tokens

視覺(jué)推理中的很多中間步驟，并不一定真的需要生成一張完整圖片。

做幾何題時(shí)，人類(lèi)腦中可能只是補(bǔ)一條線；做區(qū)域判斷時(shí)，可能只是看一下左上角；做計(jì)數(shù)題時(shí)，可能只是給每個(gè)物體打個(gè)標(biāo)記。這些動(dòng)作很重要，但它們本身并不需要用大量 Token 或完整圖像來(lái)表示。

ATLAS 的關(guān)鍵洞察是：很多視覺(jué)推理操作可以被壓縮成一個(gè)高層語(yǔ)義動(dòng)作，而這個(gè)動(dòng)作可以由一個(gè)離散 Token 表達(dá)。因此，ATLAS 不再讓模型輸出冗長(zhǎng)代碼、調(diào)用外部工具，或者生成昂貴的中間視覺(jué)結(jié)果，而是讓模型在文本推理過(guò)程中自然插入 Funtional Token。這種設(shè)計(jì)讓視覺(jué)推理過(guò)程變得更加緊湊，也更接近人類(lèi)在腦中進(jìn)行視覺(jué)操作的方式。

為了讓模型真正學(xué)會(huì)使用這些 Funtional Tokens，研究團(tuán)隊(duì)采用了 SFT + RL 兩階段訓(xùn)練流程：

第一階段：SFT 讓模型學(xué)會(huì)什么時(shí)候該用視覺(jué)動(dòng)作

研究團(tuán)隊(duì)構(gòu)建了 ATLAS-178K 數(shù)據(jù)集，覆蓋 40 多種視覺(jué)推理任務(wù)，并將復(fù)雜視覺(jué)操作映射為統(tǒng)一的 Funtional Token 表達(dá)。

第二階段：RL 讓模型學(xué)會(huì)用得對(duì)，而不是亂用

僅僅讓模型學(xué)會(huì)生成 Funtional Token 還不夠。因?yàn)槿绻?jiǎng)勵(lì)設(shè)計(jì)不當(dāng)，模型很容易走向另一個(gè)極端：為了拿獎(jiǎng)勵(lì)而瘋狂堆 Token。比如本來(lái)只需要一條輔助線，它卻連續(xù)輸出十幾個(gè)視覺(jué)動(dòng)作 Token，看起來(lái)很努力，但實(shí)際并沒(méi)有幫助解題。

為了解決這個(gè)問(wèn)題，ATLAS 在強(qiáng)化學(xué)習(xí)階段設(shè)計(jì)了專(zhuān)門(mén)的 Reward：既獎(jiǎng)勵(lì)答對(duì)問(wèn)題，也獎(jiǎng)勵(lì)合理使用 Funtional Token；同時(shí)懲罰過(guò)長(zhǎng)輸出和 Token Spam，避免模型為了刷獎(jiǎng)勵(lì)而濫用視覺(jué)動(dòng)作。這使得模型不再是簡(jiǎn)單地多用 Token，而是學(xué)會(huì)在真正需要視覺(jué)操作時(shí)使用 Token。

04 LA-GRPO：解決 Gradient Dilution 問(wèn)題

ATLAS 中還有一個(gè)關(guān)鍵技術(shù)點(diǎn)：Latent-Anchored GRPO，簡(jiǎn)稱(chēng) LA-GRPO。問(wèn)題來(lái)自 Funtional Token 的稀疏性。在一整段視覺(jué)推理輸出中，絕大多數(shù) Token 仍然是普通文本，F(xiàn)untional Token 只占很小比例。

普通 GRPO 使用 Sequence-level Reward，雖然能整體優(yōu)化模型，但對(duì)于這些極少數(shù)關(guān)鍵 Token 來(lái)說(shuō)，梯度信號(hào)很容易被大量普通文本 Token 稀釋?zhuān)@就是論文中提到的 Gradient Dilution 問(wèn)題。

ATLAS 的解決方式是：在 GRPO 的基礎(chǔ)上，額外對(duì) Funtional Token 位置進(jìn)行 Token-level Anchor。如果某條推理軌跡最終答對(duì)了，并且其中某個(gè) Funtional Token 起到了關(guān)鍵作用，那么 LA-GRPO 會(huì)更直接地強(qiáng)化這個(gè) Token 的生成概率。這就像在訓(xùn)練中告訴模型：不是所有詞都一樣重要。真正觸發(fā)視覺(jué)操作的那個(gè) word，需要被更精準(zhǔn)地學(xué)習(xí)。

LA-GRPO：針對(duì)稀疏 Funtional Tokens 增強(qiáng)梯度更新，緩解 Gradient Dilution

05 一個(gè) word 帶來(lái)高效強(qiáng)視覺(jué)推理能力

定量和定性實(shí)驗(yàn)分析

研究團(tuán)隊(duì)在多個(gè)視覺(jué)推理基準(zhǔn)上驗(yàn)證了 ATLAS 的效果。實(shí)驗(yàn)結(jié)果顯示，ATLAS 在多個(gè)具有挑戰(zhàn)性的視覺(jué)推理任務(wù)上取得了有競(jìng)爭(zhēng)力的表現(xiàn)。尤其是在復(fù)雜幾何推理、空間關(guān)系、多視角理解、計(jì)數(shù)和細(xì)粒度視覺(jué)判斷等任務(wù)中，F(xiàn)untional Token 能幫助模型更有效地組織視覺(jué)推理過(guò)程，同時(shí)非常高效。

ATLAS 基準(zhǔn)測(cè)試結(jié)果

更重要的是，ATLAS 的提升并不是通過(guò)更復(fù)雜的外部系統(tǒng)換來(lái)的。它不需要額外工具執(zhí)行，不需要顯式生成中間圖像，也不需要破壞標(biāo)準(zhǔn)自回歸訓(xùn)練流程。Funtional Token 仍然只是詞表中的普通 Token，可以自然兼容現(xiàn)有的 SFT 和 RL 訓(xùn)練框架，可高效擴(kuò)展至大規(guī)模訓(xùn)練。

ATLAS 效率分析

ATLAS 定性樣例：Funtional Tokens 幫助模型定位、過(guò)濾和標(biāo)注視覺(jué)證據(jù)

模型真的在看這些 Token 嗎？

一個(gè)自然的問(wèn)題是：這些 Funtional Token 只是特殊符號(hào)，還是模型真的學(xué)會(huì)了對(duì)應(yīng)的視覺(jué)操作？

為此，研究團(tuán)隊(duì)進(jìn)一步分析了模型在生成 Funtional Token 時(shí)的注意力模式。結(jié)果顯示，當(dāng)模型生成 <|Shape|> 時(shí)，注意力往往會(huì)聚焦到需要標(biāo)記的目標(biāo)區(qū)域；當(dāng)模型生成 <|Line|> 時(shí)，注意力會(huì)集中在幾何結(jié)構(gòu)或需要連接的關(guān)鍵點(diǎn)附近；當(dāng)模型生成 <|Text|> 時(shí)，模型更傾向于關(guān)注需要編號(hào)、標(biāo)注或區(qū)分的對(duì)象。

這說(shuō)明 Funtional Token 不只是簡(jiǎn)單的 Token 標(biāo)記，而是讓這種視覺(jué)操作在模型內(nèi)部表示的推理過(guò)程中真正發(fā)揮作用。

Funtional Token 的 Attention Analysis：不同 Token 關(guān)注不同操作的相關(guān)區(qū)域

ATLAS 的意義更在于它提出了一種新的視覺(jué)推理范式。從更長(zhǎng)遠(yuǎn)的角度看，ATLAS 為多模態(tài)模型提供了一種新的能力接口：并非讓模型不斷調(diào)用外部工具，也不是讓模型完全黑盒地在隱空間中思考，無(wú)需每一步都生成昂貴的中間圖像，而是讓它學(xué)會(huì)一套簡(jiǎn)潔的視覺(jué)動(dòng)作語(yǔ)言。

當(dāng)模型能夠用一個(gè) word 完成視覺(jué)操作，在保證可擴(kuò)展性、泛化性、可解釋性的同時(shí)，避免冗長(zhǎng)的推理過(guò)程和額外的中間監(jiān)督，實(shí)現(xiàn)最簡(jiǎn)潔高效的推理預(yù)測(cè)。

One word is enough for both.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.