網易首頁 > 網易號 > 正文申請入駐

英偉達提出Gamma-World：世界模型從「一個人玩」到「多人共處」

2026-05-30 11:16:51　來源: 量子位

北京舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

當前視頻世界模型在單智能體設定下已經走得相對成熟。

但多智能體場景——多個玩家共享同一個演化世界，在架構層面一直缺乏系統性的解決方案。

問題不在于算力不夠，而在于現有的位置編碼和注意力機制，從設計上就沒有為多個主體預留接口。

近日，NVIDIA聯合清華大學、多倫多大學和Vector Institute發布Gamma-World（γ-World），從RoPE擴展和注意力拓撲兩個底層組件入手，給出了一套系統性的答案。

論文標題：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

為什么多智能體世界建模是一個困難問題

現有視頻世界模型幾乎都建立在單智能體假設之上：

給定一個玩家的動作序列，預測該視角下的未來觀測。

多智能體設定從根本上改變了這個問題的性質——模型不再只需預測「這個智能體接下來看到什么」，而是需要同時回答：

玩家A的移動應當在玩家B的視野中如何呈現？兩名玩家同時操作同一個物體，狀態應當如何演化？

這不是「生成N段獨立視頻」的問題，而是「生成N個耦合視角對同一個演化世界的不同投影」。

在技術層面，這意味著模型必須同時維護三重一致性：

時間一致性：畫面在時序上連貫；
跨視角一致性：A在B視野中的呈現與A自身軌跡吻合；
交互一致性：多個智能體對共享環境的操作在所有視角中產生一致的狀態變化。

單智能體框架在設計上只保證了時間一致性，后兩者從未被納入考量——

這是架構層面的結構性缺失，無法通過增加數據量或模型規模來彌補。

在Gamma-World之前，這個方向并非沒有人嘗試。

Solaris已經在雙人Minecraft上取得了不錯的結果，但它暴露出的兩個結構性問題，恰恰說明了為什么將單智能體框架直接「擴展」到多智能體，是一條走不通的路。

其一，身份編碼破壞了對稱性

Solaris為每個玩家分配固定的可學習槽位身份向量，實質上將「1號槽」和「2號槽」學成了兩種不同的角色類型。

在真實的多智能體世界中，能力相同的玩家本質上可互換，這種對稱性的缺失使模型學到的是「特定角色的交互模式」，而非「多個平等主體共享世界的規律」，泛化性從根本上受限，且一旦需要支持新的玩家數就必須重新訓練。

其二，全連接注意力存在擴展性天花板

讓所有玩家的token兩兩直接交互，計算成本隨玩家數量平方增長——

從2人擴展到8人，計算量從477.8G增至7.6T，增長約16倍。

這是算法復雜度決定的天花板，無法通過工程優化解決。

兩個問題指向同一個結論：多智能體世界模型需要的不是修補，而是對兩個核心組件的重新設計。

有關如何表示智能體身份，以及如何設計跨智能體通信。

核心設計一：Simplex Rotary Agent Encoding，讓玩家「身份等距、地位平等」

這個設計要解決的核心矛盾是：

如何讓模型既能區分不同的玩家，又不讓任何玩家在表示上比其他玩家「更特殊」。

視頻Transformer用RoPE（旋轉位置編碼）來表達位置關系——給每個信息片段分配一個旋轉角度，兩個片段之間的位置差異通過旋轉角度的差來表達。

標準視頻RoPE編碼三個軸：時間、高度、寬度。

Gamma-World加了第四個軸——玩家軸，在不改變原有時空編碼的前提下，為智能體身份單獨留出一個維度。

軸加起來容易，難的是這個玩家軸上的編碼怎么設計。

直接編號行不通。

給玩家按序號分配角度，會導致不同玩家對之間的旋轉距離不等：1號和2號差1，1號和3號差2。

「1號與2號的關系」和「1號與3號的關系」在表示空間中并不等距，盡管物理上完全等價。置換對稱性被編碼方式本身直接破壞。

可學習的槽位嵌入也不行。

每個座位綁定一個固定的可訓練向量，模型被鎖死在訓練時的玩家數量上，無法擴展，這正是Solaris的核心局限。

正單純形：所有玩家天然等距

Gamma-World的解法很優雅：把所有玩家放在一個正單純形（regular simplex）的頂點上。

什么意思？

想象一個正三角形，所有頂點之間的距離完全相等，沒有哪個頂點更特殊。

2個玩家 → 線段的兩端
3個玩家 → 等邊三角形的三個頂點
4個玩家 → 正四面體的四個頂點

無論哪兩個玩家，他們在旋轉角空間里的距離完全一樣。模型看到任意兩個玩家，他們之間的幾何關系是對稱的，誰也不比誰特殊。

這個編碼不需要任何可學習的參數

訓練時，活躍玩家被隨機分配到頂點池里的不同位置，模型只能靠幾何坐標來認人。

推理時想支持更多玩家，從同一個頂點池里多取幾個頂點就行，架構不用改，也不用重新訓練

這也是Gamma-World能做到「雙人數據訓練、四人場景直接跑通」的根本原因。

核心設計二：Sparse Hub Attention，從「全連接」到「樞紐廣播」

跨智能體通信是多智能體世界模型繞不過去的需求，但以往方案的做法代價過高——

讓所有玩家的所有token兩兩直接交互，計算成本隨玩家數量平方增長：從2人擴展到8人，計算量從477.8G漲至7.6T，增長約16倍。

這是算法復雜度決定的天花板，無法通過工程優化解決。

問題的根源在于一個錯誤的假設：每個token級別的細節都需要在所有玩家之間直接傳遞。

事實上，玩家A放下方塊，玩家B需要感知的只是「世界里出現了一個方塊」——這是一個緊湊的世界狀態變化，而非A的全部視覺細節。

但玩家之間真的需要「直接說話」嗎？

全連接注意力隱含了一個假設：每個token級別的細節都需要在所有玩家之間直接傳遞。而這個假設在絕大多數場景下是錯誤的。

Gamma-World引入一組可學習的hub token（樞紐token），構成輪輻式拓撲：

每個智能體只與自身歷史及hub token交互；
hub token匯聚所有智能體的信息壓縮為共享狀態摘要，再廣播回各智能體流；
不同智能體之間的直接注意力被完全屏蔽，信息經由兩跳傳遞：智能體→hub→智能體

這一結構將計算成本從平方復雜度壓至線性復雜度。

△Sparse Hub Attention（藍線）vs Dense Attention（紅線），隨玩家數量增加FLOPs差距接近8倍

值得強調的是，稀疏樞紐注意力不只是節省了算力，它本身也是一個更合理的歸納偏置——在架構層面顯式編碼了「跨智能體信息應經過共享世界狀態瓶頸」這一先驗，而非期待模型從數據中隱式學習。

推理時通過獨立的KV cache保留稀疏通信拓撲，最終實現24 FPS實時動作響應推演

方法總覽

（注：方法總覽，左側為同步多智能體輸入，中間為Tokenization，右側為Causal Multi-Agent DiT，下方分別展示Simplex Rotary Agent Encoding和Sparse Hub Attention的示意圖）

整體架構輸入同步的多智能體觀測和動作序列，用共享的視覺編碼器和動作編碼器對每個玩家流分別tokenize，再通過帶稀疏樞紐注意力的因果多智能體DiT生成未來多路rollout。

推理時使用KV cache實現流式生成，每個玩家流和樞紐各維護獨立緩存。

核心設計三：三階段蒸餾，從「看得全」到「跑得快」

生成質量和推理實時性在擴散模型里天然是一對矛盾：雙向模型質量最高但無法流式推理，因果模型支持實時生成但質量下降。

Gamma-World用三階段訓練在兩者之間架橋。

第一階段：訓練雙向教師。

教師模型可訪問完整序列（包括未來幀），提供最高質量的生成分布，僅用于訓練階段，不參與推理。

第二階段：訓練因果學生。

學生模型只能看到當前及過去的幀，結合稀疏樞紐注意力適配流式推理。

關鍵在于將學生完整訓練為多步擴散模型，而非僅作為蒸餾熱身——蒸餾之前學生已能產生合理的推演結果，為下一階段提供穩定起點。

第三階段：條件Self-Forcing蒸餾。

以因果學生為起點、雙向教師為目標，通過分布匹配蒸餾（DMD）將多步采樣壓縮為4步采樣

蒸餾在自回歸self-rollout下進行，訓練分布與推理分布對齊，有效緩解誤差累積。

全程保留初始幀與逐智能體動作序列作為條件信號，確保壓縮后的模型動作可控性不退化，最終實現24 FPS流式推演

實驗結果

1、全面超越現有最強

在多人Minecraft環境的五類場景中，對比幀拼接方案和目前最強的多智能體世界模型Solaris，Gamma-World在記憶、空間定位、移動、建造、跨視角一致性五個場景全面領先，關鍵指標FVD（視頻生成質量的評估指標）平均降幅超過40%。

2、消融：每一步設計都有實際效果

消融結果說明從「學習槽位身份」換成「單純形編碼」，FVD從256.3降至228.5，沒有增加任何參數，僅通過改變編碼方式就帶來了整個消融中最大的單步增益

這個結果的意義不只是「單純形編碼更好」，而是證明了一件更根本的事：

在架構中顯式編碼置換對稱性約束，比讓模型從數據中隱式學習這種結構，在樣本效率和最終性能上都有顯著優勢

對稱性是一個先驗知識，把先驗知識編進架構比讓模型自己去發現，本來就更有效率——消融實驗用數字驗證了這一點。

3、雙人訓練，四人直接跑通

△零樣本四人泛化，模型僅用雙人數據訓練，推理時直接生成四路同步視角

模型僅在雙人數據上訓練，推理時從頂點池中啟用兩個新頂點，直接生成四路同步視角，無需修改任何架構參數，四路畫面維持共享世界狀態的一致性。

這個結果直接驗證了單純形編碼的核心設計目標：泛化到任意玩家數，不需要見過那個玩家數的訓練數據。

無論是Solaris、Enigma Labs的Multiverse還是Odyssey的Agora-1，這些工作都證明了多智能體世界模型可以做，但同時都缺乏這樣的拓展泛化能力。

4、兩種典型任務的定性展示

△兩智能體交互示例——兩路視角保持同步，Agent 1的行為在Agent 2的視角中被正確反映

在「放置與挖掘」任務中，兩路視角實時同步，一方的操作在另一方畫面中得到正確反映。

在「建造塔樓」任務中，雙方協同搭建的方塊在各自視角里位置一致，共享世界狀態完整維護。

當玩家暫時移出對方視野時，模型仍能維持正確的空間定位——這說明模型追蹤的是共享的潛在世界狀態，而非獨立生成各路視頻后拼在一起。

5、從游戲到真實機器人

△從游戲agent到真實雙臂機器人協同，模型生成保持協同運動的未來幀

研究團隊將Gamma-World應用于RealOmin-Open數據集的真實雙臂機器人協同任務，以左右兩條機械臂分別作為獨立智能體。

生成的未來幀保持了雙臂的協同運動與空間布局，同一套框架從Minecraft多人場景直接遷移至真實物理操作，無需額外適配。

這一結果驗證了多智能體世界模型框架本身的通用性，而非針對特定場景的專項方案。

這也讓人忍不住往更遠處想：現實世界中幾乎所有有價值的場景，本質上都是多個主體在共享環境中協作或博弈——手術室里的多臂協同、工廠產線上的多機器人調度、自動駕駛中的多車交互。

如果一套統一的多智能體世界模型框架能夠覆蓋這些場景，它所代表的就不只是仿真能力的提升，而是為整個Physical AI領域提供了一個全新的數據生產和策略訓練基礎設施。

小結

Gamma-World的三項核心設計，單純形旋轉智能體編碼、稀疏樞紐注意力、條件師生蒸餾，分別對應多智能體世界建模中三個長期懸而未決的問題：

身份的對稱表示、交互的高效建模、質量與實時性的同時兼顧。

每一項都不是修補，而是在確認原有路徑走不通之后，從更底層的建模原則重新給出的答案。

三項設計背后有一個共同的方法論：將對問題結構的理解直接編碼進架構，而非期待模型從數據中自行發現。

一個真正理解多智能體世界的模型，應當在結構上就是對稱的，而不是見過足夠多的數據之后，碰巧學出了近似對稱的行為。

前者是理解，后者只是擬合。

Gamma-World零樣本泛化到四人場景的結果，正是對這一判斷最直接的實驗驗證。

這一方法論也指向一個更大的可能性：當多智能體世界模型的生成質量足以忠實還原真實物理規律，訓練數據的采集方式本身就會發生根本性轉變——

從依賴真實場景的物理采集，轉向由神經網絡驅動的大規模模擬生成

受限于人力、空間和時間的數據瓶頸，將有可能被無限可擴展的神經仿真所替代。

從方塊世界到機械臂，Gamma-World邁出的是驗證性的第一步。

真正的世界模型，學會的不該只是「畫面」，而是「規則」。

論文：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players
機構：NVIDIA/清華大學/多倫多大學/Vector Institute
項目主頁：https://research.nvidia.com/labs/sil/projects/gamma-world/
GitHub：https://github.com/nv-tlabs/Gamma-World
Huggingface: https://huggingface.co/papers/2605.28816

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.