允中 發自 凹非寺
量子位 | 公眾號 QbitAI
當前視頻世界模型在單智能體設定下已經走得相對成熟。
但多智能體場景——多個玩家共享同一個演化世界,在架構層面一直缺乏系統性的解決方案。
問題不在于算力不夠,而在于現有的位置編碼和注意力機制,從設計上就沒有為多個主體預留接口。
近日,NVIDIA聯合清華大學、多倫多大學和Vector Institute發布Gamma-World(γ-World),從RoPE擴展和注意力拓撲兩個底層組件入手,給出了一套系統性的答案。
論文標題:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
![]()
為什么多智能體世界建模是一個困難問題
現有視頻世界模型幾乎都建立在單智能體假設之上:
給定一個玩家的動作序列,預測該視角下的未來觀測。
多智能體設定從根本上改變了這個問題的性質——模型不再只需預測「這個智能體接下來看到什么」,而是需要同時回答:
玩家A的移動應當在玩家B的視野中如何呈現?兩名玩家同時操作同一個物體,狀態應當如何演化?
這不是「生成N段獨立視頻」的問題,而是「生成N個耦合視角對同一個演化世界的不同投影」。
在技術層面,這意味著模型必須同時維護三重一致性:
- 時間一致性:畫面在時序上連貫;
- 跨視角一致性:A在B視野中的呈現與A自身軌跡吻合;
- 交互一致性:多個智能體對共享環境的操作在所有視角中產生一致的狀態變化。
單智能體框架在設計上只保證了時間一致性,后兩者從未被納入考量——
這是架構層面的結構性缺失,無法通過增加數據量或模型規模來彌補。
在Gamma-World之前,這個方向并非沒有人嘗試。
Solaris已經在雙人Minecraft上取得了不錯的結果,但它暴露出的兩個結構性問題,恰恰說明了為什么將單智能體框架直接「擴展」到多智能體,是一條走不通的路。
其一,身份編碼破壞了對稱性
Solaris為每個玩家分配固定的可學習槽位身份向量,實質上將「1號槽」和「2號槽」學成了兩種不同的角色類型。
在真實的多智能體世界中,能力相同的玩家本質上可互換,這種對稱性的缺失使模型學到的是「特定角色的交互模式」,而非「多個平等主體共享世界的規律」,泛化性從根本上受限,且一旦需要支持新的玩家數就必須重新訓練。
其二,全連接注意力存在擴展性天花板
讓所有玩家的token兩兩直接交互,計算成本隨玩家數量平方增長——
從2人擴展到8人,計算量從477.8G增至7.6T,增長約16倍。
這是算法復雜度決定的天花板,無法通過工程優化解決。
兩個問題指向同一個結論:多智能體世界模型需要的不是修補,而是對兩個核心組件的重新設計。
有關如何表示智能體身份,以及如何設計跨智能體通信。
核心設計一:Simplex Rotary Agent Encoding,讓玩家「身份等距、地位平等」
這個設計要解決的核心矛盾是:
如何讓模型既能區分不同的玩家,又不讓任何玩家在表示上比其他玩家「更特殊」。
視頻Transformer用RoPE(旋轉位置編碼)來表達位置關系——給每個信息片段分配一個旋轉角度,兩個片段之間的位置差異通過旋轉角度的差來表達。
標準視頻RoPE編碼三個軸:時間、高度、寬度。
Gamma-World加了第四個軸——玩家軸,在不改變原有時空編碼的前提下,為智能體身份單獨留出一個維度。
軸加起來容易,難的是這個玩家軸上的編碼怎么設計。
直接編號行不通。
給玩家按序號分配角度,會導致不同玩家對之間的旋轉距離不等:1號和2號差1,1號和3號差2。
「1號與2號的關系」和「1號與3號的關系」在表示空間中并不等距,盡管物理上完全等價。置換對稱性被編碼方式本身直接破壞。
可學習的槽位嵌入也不行。
每個座位綁定一個固定的可訓練向量,模型被鎖死在訓練時的玩家數量上,無法擴展,這正是Solaris的核心局限。
正單純形:所有玩家天然等距
Gamma-World的解法很優雅:把所有玩家放在一個正單純形(regular simplex)的頂點上。
什么意思?
想象一個正三角形,所有頂點之間的距離完全相等,沒有哪個頂點更特殊。
- 2個玩家 → 線段的兩端
- 3個玩家 → 等邊三角形的三個頂點
- 4個玩家 → 正四面體的四個頂點
無論哪兩個玩家,他們在旋轉角空間里的距離完全一樣。模型看到任意兩個玩家,他們之間的幾何關系是對稱的,誰也不比誰特殊。
![]()
這個編碼不需要任何可學習的參數
訓練時,活躍玩家被隨機分配到頂點池里的不同位置,模型只能靠幾何坐標來認人。
推理時想支持更多玩家,從同一個頂點池里多取幾個頂點就行,架構不用改,也不用重新訓練
這也是Gamma-World能做到「雙人數據訓練、四人場景直接跑通」的根本原因。
![]()
核心設計二:Sparse Hub Attention,從「全連接」到「樞紐廣播」
跨智能體通信是多智能體世界模型繞不過去的需求,但以往方案的做法代價過高——
讓所有玩家的所有token兩兩直接交互,計算成本隨玩家數量平方增長:從2人擴展到8人,計算量從477.8G漲至7.6T,增長約16倍。
這是算法復雜度決定的天花板,無法通過工程優化解決。
問題的根源在于一個錯誤的假設:每個token級別的細節都需要在所有玩家之間直接傳遞。
事實上,玩家A放下方塊,玩家B需要感知的只是「世界里出現了一個方塊」——這是一個緊湊的世界狀態變化,而非A的全部視覺細節。
但玩家之間真的需要「直接說話」嗎?
全連接注意力隱含了一個假設:每個token級別的細節都需要在所有玩家之間直接傳遞。而這個假設在絕大多數場景下是錯誤的。
Gamma-World引入一組可學習的hub token(樞紐token),構成輪輻式拓撲:
- 每個智能體只與自身歷史及hub token交互;
- hub token匯聚所有智能體的信息壓縮為共享狀態摘要,再廣播回各智能體流;
- 不同智能體之間的直接注意力被完全屏蔽,信息經由兩跳傳遞:智能體→hub→智能體
這一結構將計算成本從平方復雜度壓至線性復雜度。
![]()
△Sparse Hub Attention(藍線)vs Dense Attention(紅線),隨玩家數量增加FLOPs差距接近8倍
值得強調的是,稀疏樞紐注意力不只是節省了算力,它本身也是一個更合理的歸納偏置——在架構層面顯式編碼了「跨智能體信息應經過共享世界狀態瓶頸」這一先驗,而非期待模型從數據中隱式學習。
推理時通過獨立的KV cache保留稀疏通信拓撲,最終實現24 FPS實時動作響應推演
方法總覽
![]()
(注:方法總覽,左側為同步多智能體輸入,中間為Tokenization,右側為Causal Multi-Agent DiT,下方分別展示Simplex Rotary Agent Encoding和Sparse Hub Attention的示意圖)
整體架構輸入同步的多智能體觀測和動作序列,用共享的視覺編碼器和動作編碼器對每個玩家流分別tokenize,再通過帶稀疏樞紐注意力的因果多智能體DiT生成未來多路rollout。
推理時使用KV cache實現流式生成,每個玩家流和樞紐各維護獨立緩存。
核心設計三:三階段蒸餾,從「看得全」到「跑得快」
生成質量和推理實時性在擴散模型里天然是一對矛盾:雙向模型質量最高但無法流式推理,因果模型支持實時生成但質量下降。
Gamma-World用三階段訓練在兩者之間架橋。
第一階段:訓練雙向教師。
教師模型可訪問完整序列(包括未來幀),提供最高質量的生成分布,僅用于訓練階段,不參與推理。
第二階段:訓練因果學生。
學生模型只能看到當前及過去的幀,結合稀疏樞紐注意力適配流式推理。
關鍵在于將學生完整訓練為多步擴散模型,而非僅作為蒸餾熱身——蒸餾之前學生已能產生合理的推演結果,為下一階段提供穩定起點。
第三階段:條件Self-Forcing蒸餾。
以因果學生為起點、雙向教師為目標,通過分布匹配蒸餾(DMD)將多步采樣壓縮為4步采樣
蒸餾在自回歸self-rollout下進行,訓練分布與推理分布對齊,有效緩解誤差累積。
全程保留初始幀與逐智能體動作序列作為條件信號,確保壓縮后的模型動作可控性不退化,最終實現24 FPS流式推演
實驗結果
1、全面超越現有最強
在多人Minecraft環境的五類場景中,對比幀拼接方案和目前最強的多智能體世界模型Solaris,Gamma-World在記憶、空間定位、移動、建造、跨視角一致性五個場景全面領先,關鍵指標FVD(視頻生成質量的評估指標)平均降幅超過40%。
2、消融:每一步設計都有實際效果
消融結果說明從「學習槽位身份」換成「單純形編碼」,FVD從256.3降至228.5,沒有增加任何參數,僅通過改變編碼方式就帶來了整個消融中最大的單步增益
這個結果的意義不只是「單純形編碼更好」,而是證明了一件更根本的事:
在架構中顯式編碼置換對稱性約束,比讓模型從數據中隱式學習這種結構,在樣本效率和最終性能上都有顯著優勢
對稱性是一個先驗知識,把先驗知識編進架構比讓模型自己去發現,本來就更有效率——消融實驗用數字驗證了這一點。
3、雙人訓練,四人直接跑通
![]()
△零樣本四人泛化,模型僅用雙人數據訓練,推理時直接生成四路同步視角
模型僅在雙人數據上訓練,推理時從頂點池中啟用兩個新頂點,直接生成四路同步視角,無需修改任何架構參數,四路畫面維持共享世界狀態的一致性。
這個結果直接驗證了單純形編碼的核心設計目標:泛化到任意玩家數,不需要見過那個玩家數的訓練數據。
無論是Solaris、Enigma Labs的Multiverse還是Odyssey的Agora-1,這些工作都證明了多智能體世界模型可以做,但同時都缺乏這樣的拓展泛化能力。
4、兩種典型任務的定性展示
![]()
△兩智能體交互示例——兩路視角保持同步,Agent 1的行為在Agent 2的視角中被正確反映
在「放置與挖掘」任務中,兩路視角實時同步,一方的操作在另一方畫面中得到正確反映。
在「建造塔樓」任務中,雙方協同搭建的方塊在各自視角里位置一致,共享世界狀態完整維護。
當玩家暫時移出對方視野時,模型仍能維持正確的空間定位——這說明模型追蹤的是共享的潛在世界狀態,而非獨立生成各路視頻后拼在一起。
5、從游戲到真實機器人
![]()
△從游戲agent到真實雙臂機器人協同,模型生成保持協同運動的未來幀
研究團隊將Gamma-World應用于RealOmin-Open數據集的真實雙臂機器人協同任務,以左右兩條機械臂分別作為獨立智能體。
生成的未來幀保持了雙臂的協同運動與空間布局,同一套框架從Minecraft多人場景直接遷移至真實物理操作,無需額外適配。
這一結果驗證了多智能體世界模型框架本身的通用性,而非針對特定場景的專項方案。
這也讓人忍不住往更遠處想:現實世界中幾乎所有有價值的場景,本質上都是多個主體在共享環境中協作或博弈——手術室里的多臂協同、工廠產線上的多機器人調度、自動駕駛中的多車交互。
如果一套統一的多智能體世界模型框架能夠覆蓋這些場景,它所代表的就不只是仿真能力的提升,而是為整個Physical AI領域提供了一個全新的數據生產和策略訓練基礎設施。
小結
Gamma-World的三項核心設計,單純形旋轉智能體編碼、稀疏樞紐注意力、條件師生蒸餾,分別對應多智能體世界建模中三個長期懸而未決的問題:
身份的對稱表示、交互的高效建模、質量與實時性的同時兼顧。
每一項都不是修補,而是在確認原有路徑走不通之后,從更底層的建模原則重新給出的答案。
三項設計背后有一個共同的方法論:將對問題結構的理解直接編碼進架構,而非期待模型從數據中自行發現。
一個真正理解多智能體世界的模型,應當在結構上就是對稱的,而不是見過足夠多的數據之后,碰巧學出了近似對稱的行為。
前者是理解,后者只是擬合。
Gamma-World零樣本泛化到四人場景的結果,正是對這一判斷最直接的實驗驗證。
這一方法論也指向一個更大的可能性:當多智能體世界模型的生成質量足以忠實還原真實物理規律,訓練數據的采集方式本身就會發生根本性轉變——
從依賴真實場景的物理采集,轉向由神經網絡驅動的大規模模擬生成
受限于人力、空間和時間的數據瓶頸,將有可能被無限可擴展的神經仿真所替代。
從方塊世界到機械臂,Gamma-World邁出的是驗證性的第一步。
真正的世界模型,學會的不該只是「畫面」,而是「規則」。
論文:Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
機構:NVIDIA/清華大學/多倫多大學/Vector Institute
項目主頁:https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub:https://github.com/nv-tlabs/Gamma-World
Huggingface: https://huggingface.co/papers/2605.28816
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.