網易首頁 > 網易號 > 正文申請入駐

智元發布Genie Envisioner 2.0，讓機器人在“模型世界”中學習與進化 | 前沿在線

2026-04-22 22:43:03　來源: 前沿在線

北京舉報

分享至

編輯：前沿在線編輯部

2025 年，智元發布了行業首個世界模型開源平臺 Genie?Envisioner。彼時，我們的目標是讓機器人 “理解世界”—— 通過視覺、語言與動作的統一建模，讓機器感知環境、讀懂指令、做出反應。而今天，一次更深刻的進化正在發生：我們不再滿足于讓機器人理解世界，而是要讓它在世界中學習、成長、進化。哪怕這個世界，并非真實存在，而是由模型構建。

在智元的技術路徑里，世界模型一直沿著兩條主線生長：一條是世界動作模型（World Action Model），專注于動作表征的深度建模；另一條是世界模擬器（World Simulator），負責打造一個可交互、可推演、可訓練的完整環境。從 “世界動作模型” 到 “世界模擬器”，世界模型正在完成一次本質升級：從描述世界，進化為成為世界。

當這個由模型構建的世界足夠真實、足夠穩定、足夠高效，能像現實一樣響應機器人的每一個動作，機器人就可以在模型世界里完成大規模訓練、試錯、迭代，大幅降低真實世界的試錯成本。這是從 “世界的表征” 走向 “世界本身” 的關鍵一步。

沿著這條路徑持續探索。智元AI發布周Day4，我們正式帶來世界模型的全新成果：Genie Envisioner World Simulator 2.0（GE?Sim 2.0），一個真正可訓練、可交互、可決策的可操作世界，一個屬于具身智能的物理進化引擎。

項目主頁：https://ge-sim-v2.github.io/

雙向進化：World Action Model 與World Simulator

回到問題的起點。機器人面對的世界是連續變化的，動作不僅是輸出，更是影響環境演化的核心變量。

因此，在傳統世界模型僅建模“狀態”（state）的基礎上，智元提出并推進了世界動作模型（WAM）的方向，其關注的核心問題是：如何讓世界模型理解“動作”這一變量。機器人做了什么動作？動作如何改變世界？世界又如何反饋給策略？我們將“狀態—動作—狀態演化”作為統一建模對象，使世界模型能夠成為策略學習與動作生成的基礎表示層。

圍繞這一方向，我們始終在展開探索。首先構建了EnerVerse，將具身場景拓展為可計算的 4D 世界模型；而后推出Genie Envisioner Act（GE-Act），實現從世界的表征能力（world representation）到動作軌跡的生成；并通過Act2Goal，讓機器人實現目標驅動的長程控制。這些探索，使得世界模型首次具備了承載動作策略的能力。

但在真實應用中，我們逐漸發現，僅僅引入底層的動作建模（WAM），依然不足以支撐一個完整的機器人系統。策略訓練仍然高度依賴真實環境，評估成本高昂且效率有限，高質量數據的獲取與擴展始終是關鍵瓶頸。

我們意識到，真正的突破，不止在于強化世界模型的表征能力（representation)，更在于世界模擬器(simulator)的能力。換句話說，世界模型不只是描述世界，而是要成為一個可以被使用、被交互、被訓練的世界本身。如果一個足夠高質量的世界模型被構建，那么在這個生成的世界中行動的策略也可以被更有效地訓練。

從動作模型到模擬器：讓世界可以被“運行”

基于此，我們在強化世界動作模型（WAM）建模能力的同時，同步推動世界模型走向可交互的模擬器能力（World Simulator）。

通過EnerVerse-AC，引入 action-conditioned world modeling，使模型能夠基于動作進行未來推演；
通過Genie Envisioner Sim（GE-Sim 1.0），構建可用于策略閉環評估的神經模擬器；
并通過EWMBench，從場景一致性、動作正確性與語義對齊等多個維度，對 world model 的模擬能力進行系統評估。

更重要的是，一套全新的數據與訓練范式也隨之建立。在Fidelity-Aware Data Composition 中，真實數據與生成數據被精細組合，使策略訓練既具備真實性，又擁有更強的泛化能力；而后我們提出Real2Edit2Real 流程，真實數據不再只是被動采集，而是成為可被模型擴展與編輯的基礎，從而顯著提升數據規模與多樣性。

至此，世界模型完成了一次本質躍遷——從表征模型，演進為具備環境級能力的系統基礎設施。

Genie Envisioner 2.0：具身智能的物理進化引擎

在這一系列演進之上，Genie Envisioner World Simulator 2.0 (GE-Sim 2.0)正式發布。它不再只是一個生成模型，而是一個可以被使用的系統——一個真正意義上的“可操作世界”。

世界，開始由動作驅動

GE Sim 2.0 能夠嚴格響應機器人動作信號，生成高保真的環境變化，并嚴格遵循物理與語義邏輯。世界不再是被想象的、無法被干預的，而是被行動不斷推進的過程。

時間，被拉長為完整任務

模型支持分鐘級長時序穩定推演，從零散視頻片段，走向完整任務過程的連續生成。

空間，被統一為具身體驗

多視角視覺、跨視角3D一致性與機器人本體狀態（proprioception）被統一建模。進一步讓機器人面對的不再是“畫面”，而是一個完整、可交互的具身世界。

模型，開始擁有“判斷能力”

內置激勵模型（General Reward Model），使模型首次具備自評估能力。它可以基于文本對生成狀態自動評估與優化，無需人工激勵的訓練，可以完成強化學習（RL in World Model）。這意味著，訓練閉環第一次真正被內嵌進模型世界本身。

系統，從離線走向實時

隨著推理效率的提升，GE 2-Sim 已經可以接近實時運行，支持 Eval in WM、RL in WM、以及Teleoperation in WM都可以直接在模型世界中完成。世界模型不再是一個離線工具，而是一個可以實時交互的系統環境。

范式躍遷：當模型成為世界

當這一切能力匯聚，具身智能迎來了一次真正的范式革新——它不再只是 “用模型理解世界”，而是真正走進 “模型世界”，在其中自主學習、自主決策、自主成長。一方面，世界動作模型（WAM）與視覺 - 語言 - 動作模型（VLA）深度融合，讓機器人的策略徹底升級：從被動響應環境的 “反應式控制”，變成能預判未來、規劃全局的 “生成式決策”；另一方面，世界模擬器（World Simulator）搭建起一個無限延伸的虛擬訓練場，讓機器人可以在這里大規模試錯、反復優化，不再被真實數據的稀缺性束縛，其能力上限，從此由模擬的真實度與高效性決定。

當這兩條路徑交匯，機器人不再是機械復現人類經驗的 “執行者”，而是能在模型世界中不斷探索、修正、突破的 “學習者”—— 它的能力邊界，正被重新定義，而這正是Genie Envisioner 2.0為具身智能鋪就的未來方向。

具身智能的長遠未來，在于擁有自主學習與持續進化的能力，這份進化，既來自對真實世界的觀察與沉淀，更來自模型世界里無限的推演、試錯與成長可能。當模型成為可交互、可訓練、可進化的完整世界，現實就不再是機器人唯一的訓練場。

我們希望這一技術升級能成為具身智能發展史上的重要基礎設施 —— 推動機器人徹底跳出 “復現經驗” 的局限，真正走向自主探索、持續進化的新階段，為具身智能通往 AGI 的長遠征程，構建關鍵的能力基石。

前沿動態前沿大會
前沿人物

點「在看」，給前前加雞腿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.