![]()
![]()
編輯:前沿在線 編輯部
2025 年,智元發布了行業首個世界模型開源平臺 Genie?Envisioner。彼時,我們的目標是讓機器人 “理解世界”—— 通過視覺、語言與動作的統一建模,讓機器感知環境、讀懂指令、做出反應。而今天,一次更深刻的進化正在發生:我們不再滿足于讓機器人理解世界,而是要讓它在世界中學習、成長、進化。哪怕這個世界,并非真實存在,而是由模型構建。
在智元的技術路徑里,世界模型一直沿著兩條主線生長:一條是世界動作模型(World Action Model),專注于動作表征的深度建模;另一條是世界模擬器(World Simulator),負責打造一個可交互、可推演、可訓練的完整環境。從 “世界動作模型” 到 “世界模擬器”,世界模型正在完成一次本質升級:從描述世界,進化為成為世界。
當這個由模型構建的世界足夠真實、足夠穩定、足夠高效,能像現實一樣響應機器人的每一個動作,機器人就可以在模型世界里完成大規模訓練、試錯、迭代,大幅降低真實世界的試錯成本。這是從 “世界的表征” 走向 “世界本身” 的關鍵一步。
沿著這條路徑持續探索。智元AI發布周Day4,我們正式帶來世界模型的全新成果:Genie Envisioner World Simulator 2.0(GE?Sim 2.0),一個真正可訓練、可交互、可決策的可操作世界,一個屬于具身智能的物理進化引擎。
項目主頁:https://ge-sim-v2.github.io/
![]()
雙向進化:World Action Model 與World Simulator
回到問題的起點。機器人面對的世界是連續變化的,動作不僅是輸出,更是影響環境演化的核心變量。
因此,在傳統世界模型僅建模“狀態”(state)的基礎上,智元提出并推進了世界動作模型(WAM)的方向,其關注的核心問題是:如何讓世界模型理解“動作”這一變量。機器人做了什么動作?動作如何改變世界?世界又如何反饋給策略?我們將“狀態—動作—狀態演化”作為統一建模對象,使世界模型能夠成為策略學習與動作生成的基礎表示層。
圍繞這一方向,我們始終在展開探索。首先構建了EnerVerse,將具身場景拓展為可計算的 4D 世界模型;而后推出Genie Envisioner Act(GE-Act),實現從世界的表征能力(world representation) 到動作軌跡的生成;并通過Act2Goal,讓機器人實現目標驅動的長程控制。這些探索,使得世界模型首次具備了承載動作策略的能力。
但在真實應用中,我們逐漸發現,僅僅引入底層的動作建模(WAM),依然不足以支撐一個完整的機器人系統。策略訓練仍然高度依賴真實環境,評估成本高昂且效率有限,高質量數據的獲取與擴展始終是關鍵瓶頸。
我們意識到,真正的突破,不止在于強化世界模型的表征能力(representation),更在于世界模擬器(simulator)的能力。換句話說,世界模型不只是描述世界,而是要成為一個可以被使用、被交互、被訓練的世界本身。如果一個足夠高質量的世界模型被構建,那么在這個生成的世界中行動的策略也可以被更有效地訓練。
![]()
![]()
從動作模型到模擬器:讓世界可以被“運行”
基于此,我們在強化世界動作模型(WAM) 建模能力的同時,同步推動世界模型走向可交互的模擬器能力(World Simulator)。
通過EnerVerse-AC,引入 action-conditioned world modeling,使模型能夠基于動作進行未來推演;
通過Genie Envisioner Sim(GE-Sim 1.0),構建可用于策略閉環評估的神經模擬器;
并通過EWMBench,從場景一致性、動作正確性與語義對齊等多個維度,對 world model 的模擬能力進行系統評估。
更重要的是,一套全新的數據與訓練范式也隨之建立。在Fidelity-Aware Data Composition 中,真實數據與生成數據被精細組合,使策略訓練既具備真實性,又擁有更強的泛化能力;而后我們提出Real2Edit2Real 流程,真實數據不再只是被動采集,而是成為可被模型擴展與編輯的基礎,從而顯著提升數據規模與多樣性。
至此,世界模型完成了一次本質躍遷——從表征模型,演進為具備環境級能力的系統基礎設施。
![]()
![]()
Genie Envisioner 2.0:具身智能的物理進化引擎
在這一系列演進之上,Genie Envisioner World Simulator 2.0 (GE-Sim 2.0)正式發布。它不再只是一個生成模型,而是一個可以被使用的系統——一個真正意義上的“可操作世界”。
![]()
世界,開始由動作驅動
GE Sim 2.0 能夠嚴格響應機器人動作信號,生成高保真的環境變化,并嚴格遵循物理與語義邏輯。世界不再是被想象的、無法被干預的,而是被行動不斷推進的過程。
時間,被拉長為完整任務
模型支持分鐘級長時序穩定推演,從零散視頻片段,走向完整任務過程的連續生成。
空間,被統一為具身體驗
多視角視覺、跨視角3D一致性與機器人本體狀態(proprioception)被統一建模。進一步讓機器人面對的不再是“畫面”,而是一個完整、可交互的具身世界。
模型,開始擁有“判斷能力”
內置激勵模型(General Reward Model),使模型首次具備自評估能力。它可以基于文本對生成狀態自動評估與優化,無需人工激勵的訓練,可以完成強化學習(RL in World Model)。這意味著,訓練閉環第一次真正被內嵌進模型世界本身。
系統,從離線走向實時
隨著推理效率的提升,GE 2-Sim 已經可以接近實時運行,支持 Eval in WM、RL in WM、以及Teleoperation in WM都可以直接在模型世界中完成。世界模型不再是一個離線工具,而是一個可以實時交互的系統環境。
![]()
范式躍遷:當模型成為世界
當這一切能力匯聚,具身智能迎來了一次真正的范式革新——它不再只是 “用模型理解世界”,而是真正走進 “模型世界”,在其中自主學習、自主決策、自主成長。一方面,世界動作模型(WAM)與視覺 - 語言 - 動作模型(VLA)深度融合,讓機器人的策略徹底升級:從被動響應環境的 “反應式控制”,變成能預判未來、規劃全局的 “生成式決策”;另一方面,世界模擬器(World Simulator)搭建起一個無限延伸的虛擬訓練場,讓機器人可以在這里大規模試錯、反復優化,不再被真實數據的稀缺性束縛,其能力上限,從此由模擬的真實度與高效性決定。
當這兩條路徑交匯,機器人不再是機械復現人類經驗的 “執行者”,而是能在模型世界中不斷探索、修正、突破的 “學習者”—— 它的能力邊界,正被重新定義,而這正是Genie Envisioner 2.0為具身智能鋪就的未來方向。
具身智能的長遠未來,在于擁有自主學習與持續進化的能力,這份進化,既來自對真實世界的觀察與沉淀,更來自模型世界里無限的推演、試錯與成長可能。當模型成為可交互、可訓練、可進化的完整世界,現實就不再是機器人唯一的訓練場。
我們希望這一技術升級能成為具身智能發展史上的重要基礎設施 —— 推動機器人徹底跳出 “復現經驗” 的局限,真正走向自主探索、持續進化的新階段,為具身智能通往 AGI 的長遠征程,構建關鍵的能力基石。
![]()
前沿動態前沿大會
前沿人物
點「在看」,給前前加雞腿
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.