網易首頁 > 網易號 > 正文申請入駐

清華打造"世界模型考場"：一套系統讓AI導航員接受全方位駕考

2026-05-11 17:08:26　來源: 科技行者

天津舉報

分享至

這項由清華大學主導、聯合東北大學與華南理工大學共同完成的研究，發表于2026年第43屆國際機器學習大會（ICML 2026），地點為韓國首爾，收錄于PMLR第306卷。感興趣的讀者可以通過論文編號arXiv:2605.03941查閱完整原文。

**一個古老的問題：機器如何真正"理解"世界？**

有沒有想過，當你開車從家出發去超市，你的大腦其實在做一件相當了不起的事情：它不僅要處理眼前的畫面，還要根據你踩油門、打方向盤的動作，預測下一秒世界會變成什么樣子。向左打方向盤，視野就會偏右；踩下剎車，前方的景物就會緩慢停止迫近。這種"我做了什么動作，世界會怎么變"的預測能力，正是人類導航、駕駛、乃至日常行走的核心依賴。

把這種能力賦予機器，就是"世界模型"研究的終極目標。世界模型不是普通的視頻播放器，它更像一個可以互動的模擬世界：你給它一張初始畫面，然后輸入一系列動作指令，它就能生成你從該視角出發、按照那些動作移動后所看到的連續視頻畫面。如果它做得足夠好，這個模擬世界就可以用來訓練自動駕駛系統、培養機器人導航能力，甚至成為游戲引擎的替代品。

然而，研究這個領域的科學家們面臨一個棘手的困境：沒有一套公認的"考場"來檢驗世界模型的真實水平。這就好比全國各地的駕校都有自己的培訓方式，有人用模擬器練習，有人在空曠停車場繞圈，有人在真實道路上跑，但到了最后，誰也說不清楚這些學員放到同一條復雜山路上，究竟誰開得更好。正是為了解決這個"沒有統一考場"的問題，清華大學等機構的研究團隊構建了一套名為**iWorld-Bench**的綜合評測系統，并同步建立了一個包含33萬條高質量視頻片段的訓練數據集，公開了包含4900個測試樣本的評測基準，還搭建了一個公開排行榜供全球研究者提交和對比成績。

**一、現有"考場"到底差在哪里**

在iWorld-Bench出現之前，研究界已經有一些評測方案，但它們存在三個明顯的短板，用駕考類比來說，就是"考題太單一、評分標準不統一、最難的科目根本沒考"。

第一個問題是場景太單調。現有評測數據集往往來自單一來源，視角幾乎清一色是行人視角，就好比駕考只考平路直行，完全不考山路、高速、雨天夜間等復雜工況。真實世界里的觀察視角其實非常多元：無人機俯瞰城市、地面機器人穿梭倉庫、第一人稱步行探索室內空間、自動駕駛車輛在公路上奔跑——這些完全不同的視角對世界模型提出了截然不同的挑戰，卻被現有評測一并忽略。

第二個問題是"動作語言"不統一。不同的世界模型接受不同類型的控制指令。有些模型聽得懂自然語言，你對它說"向左轉"它就能生成對應畫面；有些模型接受的是鍵盤按鍵信號，W代表前進、A代表左移；還有一些更精密的模型，接受的是攝像機內外參數矩陣，就像給一臺專業攝影機精確設定焦距和位置坐標。這三類"動作語言"完全不同，直接拿來對比就好比讓一個只懂中文命令的司機和一個只懂英文命令的司機跑同一段賽程，然后比較圈速，結果根本沒有可比性。

第三個問題是"難科目"缺席。現有評測大多只考查視頻生成的視覺質量，就像只看駕駛員開出去的車好不好看，卻不考查能不能按照規定路線走、也不考查司機的方向感和記憶力。特別是"記憶能力"這個關鍵維度——一個優秀的世界模型應該能記住它"走過的路"，在執行"前進再后退"這類來回動作后，回到的畫面應該和出發時的初始畫面保持一致。然而這種循環閉合能力在此前幾乎沒有被任何評測體系認真檢驗過。

**二、建造考場的第一步：準備一個多樣化的練習場**

建設iWorld-Bench的第一項大工程，是構建一個足夠豐富的數據基礎——就像建駕校首先要有各種路況的練習場地。

研究團隊兵分兩路，同時開展數據收集工作。第一路是"整理舊檔案"：他們系統梳理了12個已有的高質量公開數據集，這些數據集原本各自服務于不同目的。其中有傳統自動駕駛數據集，比如在德國卡爾斯魯厄市街道上采集的KITTI數據集，以及Waymo和nuScenes這兩個用于自動駕駛研究的大型數據集；有專門為三維場景重建設計的數據集，比如RealEstate-10K，它來自約8萬段YouTube視頻，為每一幀畫面都標注了攝像機的精確位置和朝向；有機器人巡檢數據集，比如密歇根大學校園里采集的NCLT數據集和TartanGround數據集；有無人機視角的數據集，比如TartanAir-V2；還有最新的世界模型專用數據集SpatialVid，規模高達18萬段視頻。

這12個數據集共同提供了超過23萬段視頻片段，但麻煩在于它們"說的語言"各不相同——坐標系統不統一，攝像機參數的表示方式也五花八門，有的用四元數表示旋轉，有的用六自由度向量，有的用標準變換矩陣。研究團隊花費了大量精力，將這些異構數據全部統一轉換到同一個標準格式下，就像把不同國家的駕照全部換算成同一套規則體系。

第二路是"建設新賽場"：研究團隊選取了4個戶外城市仿真模擬器，在18個高質量虛擬場景中自動采集數據。他們在這18個場景里手動選定了450個高質量觀測點，然后根據預定義的動作空間設計了自動化采集程序，最終生成了10萬段1080P高清戶外視頻。為了保證數據質量，他們還設計了一套兩階段過濾流程：第一階段在單幀層面檢測異常——如果某幀畫面突然過曝或出現顏色突變，就將其標記為異常幀；第二階段在時序層面用統計方法剔除質量不穩定的片段，最終保留時間上連貫、視覺上穩定的高質量序列。

兩路數據匯合后，總量達到了33萬段視頻片段。這個數據集覆蓋了四種主要觀察視角：無人地面車輛視角、無人機俯瞰視角、人類行走第一人稱視角以及機器人視角。環境條件方面，戶外涵蓋9種天氣狀況，包括晴天、陰天、雨天、雨夜、雪天、雪夜、多云、部分多云和霧天；室內則涵蓋5種光照條件，包括熒光燈、自然采光、昏暗燈光、暖光和人工照明。

數據集建好之后，還需要給每段視頻貼上標簽，方便后續檢索和任務設計。研究團隊調用了GPT-4o這個大型語言與視覺理解模型，為每段視頻自動生成包含室內外判斷、場景描述、場景類別標簽、天氣或光照條件以及可見實體列表等字段的結構化注釋。這一過程共處理了33萬段視頻，消耗了1.19億個輸入詞元和2186萬個輸出詞元，花費約518美元。

為了防止單一模型的偏差，團隊還引入了三個來自不同家族的驗證模型——Gemini 3.0 Flash、Qwen-VL-Max和Kimi-K2.5——對每條注釋獨立進行二元判斷。只要三個模型的意見不完全一致，該條注釋就會被標記為需要人工復核。最終，共有約6.14萬段視頻（占總量的18.6%）進入人工復核流程，10名志愿者耗費約1200人時完成審核，其中只有約3897段（約1.2%）需要實際修改。這套嚴格的多模型加人工驗證機制，保證了數據標注的高可信度。

**三、統一"考題語言"：動作生成框架**

數據準備就緒之后，iWorld-Bench面臨的最核心挑戰來了：如何讓接受不同類型控制指令的世界模型站上同一個考場？

研究團隊的解決方案是構建一個"動作生成框架"，其核心思想可以用"建立一本萬能翻譯詞典"來理解。他們首先徹底梳理了第一人稱視角下所有可能發生的基本動作，將其分為兩大類：平移運動和旋轉運動。平移運動是攝像機在空間中的位置變化，包括靜止不動、向前、向后、向左、向右、向上、向下，以及它們兩兩或三三組合形成的復合動作，共27種，每種分配一個唯一的平移ID，編號從0到26。旋轉運動是攝像機朝向的變化，包括鏡頭向上仰、向下俯、向右轉、向左轉、順時針翻轉、逆時針翻轉，以及各種組合，同樣共27種，分配旋轉ID 0到26。平移和旋轉的全部組合構成了一個包含729種動作的完整運動空間。

這個系統還為每種動作標注了"難度系數"，難度值D的取值范圍是1到6。單一參數變化的動作難度為1，兩個參數同時變化的難度為2，以此類推，難度值等于同時變化的自由度數目之和。完全靜止的狀態也被定義為難度1，納入動作空間之中。此外，系統還為每種動作標注了"有效性"——根據采集數據中各動作的出現頻率，將常見動作標記為有效（V=1），將罕見或異常動作標記為無效（V=0）。

由于部分世界模型不支持上下平移或攝像機滾轉等特殊運動，研究團隊聚焦于目前各類世界模型普遍支持的平移9種和旋轉9種，共81種基礎動作，建立了一個統一編碼映射詞典。這個詞典的神奇之處在于，它能夠將同一個動作同時表示為三種不同的"語言"：攝像機內外參數矩陣（供精密攝像機控制型模型使用）、one-hot獨熱編碼鍵值（供鍵盤輸入型模型使用）以及自然語言文本描述（供文字指令型模型使用）。這樣，無論被測模型接受什么類型的輸入，評測系統都能將同一個動作翻譯成對應的語言，實現真正公平的橫向對比。這個框架還具備良好的可擴展性，未來如果出現新的輸入模態，只需在詞典中增加對應的翻譯條目即可。

**四、六種考題，全面檢驗"駕駛能力"**

有了統一的動作語言，研究團隊從33萬段視頻中精心挑選了2100段高質量視頻作為評測集，并據此設計了六種類型的考題，總計4900個評測任務。

前四種考題統稱"動作控制"系列，按難度分為四個級別。難度一考查最基礎的單自由度動作，包括靜止、前進、后退、左移、右移、鏡頭上仰、鏡頭下俯、鏡頭右轉、鏡頭左轉這9種基本動作，共設計1000個任務。難度二考查雙自由度組合動作，涵蓋24種不同的兩維度同時變化組合，例如向前同時鏡頭右轉，共設計1000個任務。難度三進入三自由度領域，覆蓋32種組合，例如向前向左同時鏡頭右轉，共1000個任務。難度四挑戰四自由度復雜動作，覆蓋16種組合，共1000個任務。這四個級別的總計4000個任務，專門用于考驗世界模型"聽指令行事"的精準程度。

第五種考題叫做"記憶能力"測試，這是整個評測體系中最有創意的設計。研究團隊設計了一系列"來回動作"路徑：讓模型先向前走一段，然后向后退同樣的距離，理論上應該回到起點；或者先讓鏡頭向右轉，然后再向左轉回來，理論上應該恢復到初始朝向。如果世界模型真的理解了空間結構并且具備某種"記憶"，那么它生成的視頻在"來回"之后應該能回到接近初始幀的視覺狀態。反之，如果模型只是在盲目生成幀，就會在返回路徑上產生明顯的視覺不一致。記憶能力任務共設計200個，覆蓋前進后退、后退前進、左移右移、右移左移、鏡頭上仰后下俯、鏡頭下俯后上仰、鏡頭左轉后右轉、鏡頭右轉后左轉、上升后下降、下降后上升等10種對稱動作配對。

第六種考題叫做"攝像機跟隨"測試，專門針對那些能夠接受精確攝像機內外參數輸入的高精度控制模型。研究團隊從采集數據中整理出700個真實的攝像機軌跡文件，直接用這些精確的參數序列驅動模型生成視頻，然后考察模型對真實軌跡的跟隨精度。這個測試只有接受內外參控制的7個模型才會參加，對其他類型的模型不適用。

**五、九把尺子，測量"駕駛水平"的不同維度**

光有考題還不夠，還需要一套客觀的評分標準。iWorld-Bench設計了9個評測指標，分屬三個維度，就像從視覺效果、路線精準度和方向記憶三個角度為考生打分。

視覺質量維度包含四個指標。第一個是圖像質量，使用一個專為多分辨率圖像設計的質量評估模型MUSIQ對生成視頻的每一幀打分，然后取平均值，衡量畫面是否存在過曝、模糊、噪點等基本視覺缺陷。第二個是亮度一致性，將每幀畫面的像素灰度分為暗、中、亮三級，構建一個三維亮度分布向量，然后計算視頻中每一幀與初始幀之間的相似度，衡量畫面亮度是否在整個視頻過程中保持穩定，防止出現忽明忽暗的不自然閃爍。第三個是色溫約束，在HSV色彩空間中分析畫面的色調成分，將色調譜劃分為7個區間，計算整段視頻相對于初始幀的加權色調相似度，用于判斷場景的整體色彩氛圍是否保持一致，防止出現"室內暖光突然變成戶外冷光"這類不合邏輯的色彩漂移。第四個是清晰度保持，使用一種叫做Tenengrad的方法分別計算畫面水平和垂直方向上的邊緣梯度強度，構建一個二維清晰度向量，然后引入一個"噪聲感知熔斷機制"：當檢測到畫面中存在持續高噪聲時，系統會自動切換評分邏輯，對高頻噪聲偽裝成的"清晰感"加以懲罰，確保指標真正反映畫面細節的真實穩定性。

軌跡跟隨維度包含三個指標。運動平滑度采用一種巧妙的間接測量方法：刪除生成視頻中所有奇數幀，然后用視頻插值模型重建這些被刪除的幀，接著計算重建幀與原始幀之間的感知相似度（LPIPS）、結構相似度（SSIM）和像素均方誤差（MSE）。如果視頻運動本來就很流暢，插值重建應該非常準確；如果視頻存在抖動或跳變，插值結果就會偏差很大。軌跡精準度則使用一個名為ViPE的視頻姿態估計工具，從生成的視頻中提取攝像機的運動軌跡，然后在運動切線空間中計算這條軌跡與原始指令序列的方向匹配程度，量化模型"按指令走"的精準度。軌跡容忍度專為擁有真實攝像機軌跡地面真值的攝像機跟隨任務設計，同樣使用ViPE提取生成軌跡，但這次對比的基準是精確的真實軌跡而非模糊的文字指令，因此能更純粹地衡量模型在理想控制條件下的物理執行精度。

記憶能力維度包含兩個指標。記憶對稱性從像素層面評估來回動作的閉環效果：對于一段"先去后回"的視頻，將前半段第t幀與后半段對稱位置的第T-t+1幀進行像素級對比，計算均方誤差后轉換為相似度分數，并賦予距離視頻中點越遠的對稱幀對更高的權重，因為越接近視頻起末的幀更能直接反映記憶閉合的質量。軌跡對齊則從運動方向層面評估對稱性：計算來回路徑上對稱位置的瞬時位移向量，理想情況下"去程"第t幀的位移方向與"回程"對應幀的位移方向應該正好相反，通過計算兩者的鏡像相似度來評估模型維持三維空間拓撲一致性的能力。

**六、十四個選手登臺，一場全面的"世界模型駕考"**

評測體系建立完成后，研究團隊邀請了14個代表性世界模型參加這場大規模評測，所有模型均在英偉達A800 GPU上運行推理。

參賽選手按控制方式分為三組。第一組是文字指令控制組，包含5個模型：英偉達的Cosmos-predict2.5、騰訊的HunyuanVideo-1.5、阿里的WAN 2.2、智譜的CogVideoX-5B-I2V，以及YUME 1.5。這類模型本質上是視頻生成模型，通過文字描述來引導畫面變化，相當于你用自然語言告訴司機"往前開一段然后向右轉"。第二組是獨熱編碼控制組，包含2個模型：Matrix-Game 2.0和HY-World 1.5，它們接受的是按鍵信號，更像是通過鍵盤直接操控的電子游戲。第三組是攝像機參數精密控制組，包含7個模型：CameraCtrl、MotionCtrl、CamI2V、RealCam-I2V、VideoX-Fun-WAN、AC3D以及ASTRA，這類模型接受攝像機內外參數矩陣，控制精度最高但技術門檻也最高。

**動作控制與記憶能力**部分的評測結果相當豐富，揭示了三類模型各自鮮明的特點。

在所有14個模型中，綜合得分最高的是HY-World 1.5，平均得分0.7873，在記憶能力和軌跡跟隨兩個維度都表現出色。這說明鍵盤離散信號控制方式在保證交互精準度方面具有明顯優勢——與文字控制的CogVideoX-I2V相比，后者的軌跡精準度只有0.5950，而HY-World 1.5高達0.7472，差距相當顯著。這可以理解為：用模糊的自然語言"向左走一點"來控制模型，遠不如直接按下"A鍵0.5秒"來得精準。

文字控制組的模型展現出有趣的"揚長避短"特征。CogVideoX-I2V在亮度一致性上拿到了0.8988的高分，這是所有模型中最高的，說明這類模型在保持視覺質量方面經過了高度優化。但代價是軌跡跟隨能力較弱，反映出"視覺生成"和"動作服從"這兩個目標之間存在一種內在張力——模型在訓練時更傾向于學會生成漂亮的畫面，而不是精確執行運動指令。

攝像機參數控制組中，VideoX-Fun-WAN綜合表現最為均衡，AC3D在記憶對稱性上一枝獨秀，得分高達0.9068，說明其架構在維持長時間序列的空間拓撲一致性方面有獨特優勢。相比之下，早期模型CameraCtrl和MotionCtrl在各項指標上全面落后于新一代模型，印證了該領域近幾年的快速進步。

一個耐人尋味的觀察出現在基礎模型與其微調版本的對比中。AC3D是從CogVideoX-I2V微調來的，HY-World 1.5是從HunyuanVideo-1.5微調來的。微調后的版本在軌跡跟隨能力上都有了顯著提升，但在視覺生成質量上略有下滑。這清楚地揭示了當前世界模型訓練中的一個核心矛盾：專注于動作跟隨的訓練數據會增強可控性，但可能會消耗掉模型原本學到的視覺生成能力。如何在兩者之間找到平衡，是未來研究的重要方向。

**攝像機跟隨任務**的評測結果則進一步區分了精密控制組內部各模型的差距。AC3D在這一任務中全面領先，軌跡容忍度達到0.9091，亮度一致性0.8927，運動平滑度0.9919，全部位居榜首。這說明它的架構最善于將精確的攝像機參數轉化為邏輯連貫的視覺序列。ASTRA的表現則令人有些意外，軌跡容忍度只有0.4286，是參賽模型中最低的，相比之下RealCam-I2V雖然圖像質量得分最高（0.5889），但軌跡容忍度也只有0.7480，再次印證了視覺質量與動作可控性是兩個相對獨立的評測維度，模型在一個維度上的優秀并不能自動保證另一個維度上的優秀。

為了驗證這9個自動指標是否真的反映了人類的真實感受，研究團隊還開展了一項人類偏好驗證實驗。12名標注人員對14個模型生成的視頻進行了打分，每人對16個難度均勻分布的標準任務評分，總計收集了2688個評分數據點。統計分析顯示，自動指標綜合排名與人類偏好排名之間的斯皮爾曼等級相關系數為0.8053（對應統計顯著性p值遠低于0.05的閾值），說明兩者高度一致。在14個模型中，排名差距超過5位的只有AC3D一個案例（客觀排名第4，人類偏好排名第9），原因分析表明AC3D極強的運動平滑度和記憶對稱性確實符合指標要求，但其偏低的圖像質量（0.4573，接近所有模型最低值）讓人類觀看者感受到明顯的視覺不適，說明人類在整體評價時對視覺質感的權重比對軌跡精準度更高。

說到底，iWorld-Bench做的事情，是為一個快速發展卻缺乏統一標準的技術領域立下了一塊重要的基準石。它的數據集夠大夠多樣（33萬段視頻，覆蓋4種視角、9種天氣、5種光照），它的評測框架夠公平夠全面（81種基礎動作的統一編碼、6類任務、9個指標），它找出的問題也夠深刻夠實際：世界模型在視覺生成和動作服從之間存在難以調和的矛盾，現有模型的空間記憶能力普遍有限，早期模型已經全面落后而新一代模型還沒有達到人類期望的成熟度。

對于普通人來說，這些結論的意義在于：那些未來可能駕駛你出行的自動駕駛系統、那些可能在你家里幫你遞東西的家用機器人，它們的"大腦"還沒有真正準備好。它們可以生成漂亮的畫面，卻未必知道自己走了多遠；它們可以跟隨簡單的指令，卻往往忘記了自己從哪里出發。通過這套評測系統，研究界現在終于有了一把公認的尺子，可以清楚地看到差距在哪里，并朝著更可靠的方向努力。對這個話題感興趣的讀者，可以通過arXiv編號2605.03941找到原始論文，或者訪問iWorld-Bench.com查看持續更新的模型排行榜。

Q&A

Q1：iWorld-Bench評測的"世界模型"和普通視頻生成AI有什么本質區別？

A：普通視頻生成AI主要根據文字描述生成視頻，是單向輸出。而iWorld-Bench評測的世界模型是可互動的：你給它一張初始圖像加上一系列動作指令（比如"向前走然后向左轉"），它要生成你真實按照那些動作移動后會看到的連續畫面，類似一個可以實時響應操作的虛擬現實環境。這種雙向交互能力是世界模型的核心特征，也是iWorld-Bench重點考查的能力。

Q2：iWorld-Bench的記憶能力測試具體是怎么做的？

A：記憶能力測試的核心設計是"來回動作"路徑，共10種對稱動作配對，共200個任務。例如讓模型先向前運動一段距離，然后向后退相同距離，理論上應該回到起點附近的視覺狀態。評測時會比較"去程"和"回程"上對稱時刻的畫面是否一致（記憶對稱性指標），以及兩段路徑上的運動方向是否互為鏡像（軌跡對齊指標）。如果模型缺乏空間記憶，返回路徑上的畫面就會和出發時明顯不同。

Q3：iWorld-Bench評測中表現最好的世界模型是哪個，差距大嗎？

A：在動作控制與記憶能力綜合評測中，HY-World 1.5排名第一，平均分0.7873；排名最后的是MotionCtrl，平均分0.5486。差距約0.24分，折合百分比約22個百分點。在專門針對攝像機參數精密控制的跟隨任務中，AC3D表現最佳，其軌跡容忍度0.9091與墊底的ASTRA（0.4286）之間差距超過47個百分點，說明不同模型在精密控制能力上的分化非常顯著。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.