![]()
AI 真的理解世界嗎?
當一個杯子從桌面掉落,大語言模型可以告訴你 “它會碎”,卻無法推演這個過程:它如何下落?碎片如何飛散?液體如何濺開?
這揭示了一個關鍵問題:語言只是對世界的抽象描述,它可以表達結果,卻無法刻畫過程。真實世界并不是符號組成的,而是連續變化的物理系統。
相比之下,視覺直接記錄了世界的演化 —— 物體的結構、運動以及背后的因果關系,都體現在視覺信號中。這使得視覺成為 AI 學習世界變化最直接、最完整的信息來源。
![]()
圖 1:語言只能對事件結果進行抽象概括,而視覺才能呈現世界變化的連續過程。
這也是為什么越來越多研究者如 Yann LeCun,Fei-Fei Li 等開始重新思考:如果世界模型是通向通用智能的關鍵,那么它的起點不應該是語言,而應該是視覺。
人類理解世界,不只是 “說出結論”,而是 “看見變化”。視覺世界模型的目標,正是讓 AI 通過視覺學習世界的運行規律,并據此推演未來。
為了理清視覺與世界模型之間的深層聯系,并為該領域的未來研究提供一張清晰的脈絡圖,北京交通大學靳瀟杰、魏云超、趙耀等學者聯合新加坡國立大學、騰訊、字節等國內外研究機構知名學者,發布了首篇視覺世界模型長篇綜述:From Seeing to Knowing the World: A Survey of Vision World Models。
這項工作提出了一次關鍵的概念轉變:視覺不應僅僅被視為一種輸入模態,而應成為塑造世界模型表征方式、學習機制以及評估體系的核心驅動力。 在這一 “以視覺為中心” 的視角下,研究團隊不僅首次系統性定義了視覺世界模型,還構建了一個貫通 “表征 - 學習 - 模擬” 的統一分析框架,在同一框架下重組四大技術路線、厘清評測體系,并進一步提出面向下一代世界模型的關鍵研究方向。調研的最新進展截止至 2026 年 4 月 1 日。
![]()
- 論文標題: From Seeing to Knowing the World: A Survey of Vision World Models
- 項目主頁:https://aiworldlab.github.io/survey/
- 論文鏈接:https://aiworldlab.github.io/survey/preprint.pdf
- 代碼 / 資源整理:https://github.com/AIWorldLab/Awesome-Vision-World-Model
1. 為什么現在需要一篇視覺世界模型綜述?
世界模型已經成為當前 AI 研究中最受關注的話題之一,該方向的發展跨視頻生成、表征學習、具身智能、自動駕駛等多個研究社區。這些路線普遍開始依賴視覺信號,但在多數范式中,視覺仍更多被視為一種觀測輸入:視頻生成方法更關注未來內容的視覺逼真度與時空一致性,表征預測方法強調在潛在空間中捕捉世界演化的預測結構,而狀態轉移和具身智能相關方法則更重視基于緊湊狀態進行長時程推演與決策支持。
![]()
圖 2:視覺世界模型研究技術路線。上半部分梳理主流模型架構,下半部分歸納不同領域中的數據集與評測基準。
雖然這些路線都在嘗試回答 “AI 如何從視覺中建立對世界變化的內部模型” 這一核心問題,但它們長期沿著各自的范式獨立發展,存在定義不統一、分類彼此割裂、評測標準難以對齊等問題。
也正因如此,當前迫切需要一篇真正以視覺為中心、能夠在統一框架下重新組織這一領域的系統綜述。相比于單純匯總已有工作,這篇綜述更重要的地方在于提出了一次關鍵的視角轉換:視覺不應僅僅被視為世界模型的輸入模態,而應成為定義模型如何表征世界、學習規律與評估能力的核心出發點。
2. 視覺世界模型統一框架
團隊首先給出了 VWM 簡潔且明確的定義:視覺世界模型能夠從視覺數據中學習世界知識,并基于交互條件生成未來世界狀態。
并將 VWM 的研究統一為一個框架內的三個核心組件:
- 視覺編碼 (Vision Encoding): 如何將各類原始視覺信號(圖像、視頻、點云、光流信息等)轉化為利于建模世界變化的表征。
- 知識學習 (Knowledge Learning): 模型需要從視覺中到底學到了什么?我們將其歸納為三個遞進的層次:時空連貫性(Spatio-temporal Coherence)、物理動力學(Physical Dynamics)以及因果機制(Causal Mechanisms)。具體而言,時空連貫性要求物體在空間與時間上的持續性,其位置和形態變化保持連貫;物理動力學為物體在重力、接觸、運動等物理約束下的變化規律,保證未來演化的物理合理性;而因果機制則表示動作、事件與結果之間的因果關系,使模型能夠理解 “做什么會導致什么”。
- 可控模擬 (Controllable Simulation): 基于學到的知識,模型在交互條件(如機器人動作、文本指令)的引導下,對未來的潛在狀態進行推演。
![]()
圖 3:視覺世界模型統一框架。從視覺編碼、知識學習到可控模擬,系統刻畫 VWM 如何從觀測中學習世界規律,并在交互條件下推演未來,實現閉環模擬。
這個框架的重要性在于,它第一次比較系統地回答了:一個視覺世界模型到底應該學什么,靠什么學,又該如何被控制和評估。
3. 當前視覺世界模型,主要分成哪幾條技術路線?
依據上述統一框架,現有方法可被歸納成四大代表性范式,包含七種子范式。研究團隊不再把這些路線割裂開,而是放到同一套框架下進行比較。
![]()
圖 4:視覺世界模型方法架構圖。每類范式上半部分展示模型架構,下半部分給出其如何實現視覺編碼、知識學習和可控模擬的過程。
1. 序列生成(Sequential Generation)
通常會把圖像或視頻轉成 token 序列,然后像語言模型一樣一步一步預測未來。它的優勢是可擴展性強、適合長上下文,缺陷是長時預測易出現誤差累積和漂移,對精細幾何、物理交互的模擬效果有限。子范式包括基于視覺自回歸的世界模型(visual autoregressive model),以及與大語言模型對齊的多模態自回歸世界模型(MLLM-guided multimodal autoregressive model)。
![]()
圖 5:視覺自回歸視覺世界模型代表方法總覽。每個方法分析其視覺編碼器、所學習的世界知識、交互輸入和模擬輸出類型。
2. 擴散生成(Diffusion-based Generation)
通常在連續潛空間中通過迭代去噪生成未來。在視覺質量上更強,也更適合生成連貫、逼真的未來片段,但代價是推理開銷更大。子范式包括經典的潛空間擴散世界模型(latent diffusion)和當前的主流思路自回歸擴散世界模型(Autoregressive Diffusion)。
![]()
圖 6:擴散生成視覺世界模型代表方法總覽。
3. 表征預測(Embedding Prediction)
不執著于生成完整視頻,而是直接預測未來的 embedding。這樣的好處是能把重點放在 “學規律” 而不是 “畫細節” 上,更適合規劃、推理和效率優先的場景。但其缺點是可解釋性相對較弱。該范式的典型代表是 JEPA 系列。
4. 狀態轉移(State Transition)
將視覺輸入壓縮為緊湊的隱狀態,通過遞歸狀態轉移建模世界隨時間的演化。該類范式在潛空間 rollout 高效,遞歸狀態能夠持續保留歷史信息,是早期世界模型的主流思路。子范式包括經典的狀態空間世界模型(State Space Modeling)和具有組合泛化能力的基于對象的世界模型(Object-centric Modeling)。
4. 評估指標與基準:視覺世界模型怎么評?用什么評?
如果說前面的章節回答的是視覺世界模型是如何設計的,那么評測部分回答的就是另一個更關鍵的問題:什么樣的視覺世界模型才算得上好?
![]()
圖 7:視覺世界模型評估體系概覽。包含三類評估指標和兩組數據集與基準分析。
首先是怎么評。團隊給出的答案很明確:僅僅生成出清晰、逼真的畫面還遠遠不夠。一個可靠的視覺世界模型,至少要同時滿足三層要求:看起來真實、演化過程合理、并且能夠真正支持任務決策。 基于這一判斷,團隊將現有評估指標統一整理為三大類:
- 視覺質量(Visual Quality):生成的畫面或視頻是否清晰、流暢、逼真。
- 物理合理性(Physical Plausibility):模型是否遵循客觀物理規律。例如,預測的運動軌跡是否符合運動學?3D 空間結構是否會憑空坍塌?多視角下的一致性如何?
- 任務表現(Task Performance):模型能否支持下游任務的成功。例如,能否幫機器人提升抓取成功率?能否讓自動駕駛車輛安全避障?
![]()
圖 8:三類評估指標總覽。
接下來是用什么評。如何測試這些能力呢?團隊系統梳理了視覺世界模型常用的數據集和基準,并把它們分成兩大組:基礎世界建模(Foundational World Modeling)和針對特定領域的世界建模(Domain-specific World Modeling)。
基礎世界建模旨在考察模型對通用物理世界法則的掌握程度,不局限于特定任務:
- 通用世界預測與模擬(General World Prediction and Simulation),這部分更強調長時程預測、可控生成和一般性的世界理解能力;
- 物理與因果基準(Physics and Causality Benchmark),關注的不是畫面是否逼真,而是模型是否真正遵守物理約束、能否區分合理與不合理事件,以及是否具備一定的反事實和因果判斷能力。
![]()
圖 9:基礎世界建模數據集與基準總覽。
針對特定領域的世界建模則關注模型在具體應用場景中的實際表現:
- 具身智能與機器人(Embodied AI and Robotics):關注模型是否能夠支持機器人在真實或仿真環境中完成操作任務;
- 自動駕駛(Autonomous Driving):需要模型具備強感知能力,也要求它能夠在交互和控制條件下穩定推演交通場景;
- 交互環境與游戲(Interactive Environments and Gaming):測試重點是模型能否作為 “神經渲染引擎”,在玩家輸入各種離散控制信號時,實時反饋出正確、一致的游戲畫面。
![]()
圖 10:針對特定領域的世界建模數據集與基準總覽。
5. 下一代世界模型,何去何從?
盡管目前的 VWM 已經能生成令人驚艷的視覺畫面,但只要遇到復雜的物理交互、罕見的邊緣場景或是需要嚴謹因果推理的任務,它們往往產生違背常理的幻覺。
從 “生成逼真畫面” 走向 “支撐 AGI 的基礎設施”,下一代世界模型路在何方?團隊在綜述中指出了三個至關重要的突破口:3R 路線圖(Re-grounding, Re-evaluation, Re-scaling)。
![]()
圖 11:下一代世界模型核心挑戰與未來方向。
1. 夯實知識基礎(Re-grounding):走出簡單的物理模擬和畫面生成,去面對真實世界的復雜性。
- 拓寬知識邊界: 真實世界并不只由簡單的牛頓運動和剛體碰撞構成。除了重力、接觸、運動等基礎物理規律,還存在柔性材料形變、復雜摩擦、流體運動等更高階的物理過程;與此同時,現實環境中的世界演化還常常受到社會規范、行為約定和人類意圖的影響(例如:救護車闖紅燈)。模型必須學會理解這些超越純粹物理的社會因果關系。
- 架構升級: 純神經網絡在面對分布外數據時極其脆弱。因此,新的架構設計必須引入更強的歸納偏置與約束機制:一方面需要強化幾何感知能力(Geometry-aware Modeling)。讓模型不僅生成 2D 像素,更能在底層維持 3D 空間的一致性;另一方面需要顯式地建模物理規律與因果先驗。例如,可以引入神經符號混合架構(Neuro-symbolic),將嚴格的物理引擎或因果邏輯融入神經網絡,用顯式的規則約束隱式的生成。
2. 重構評估體系(Re-evaluation):用實戰和反事實檢驗真偽。
- 裁判模型與實戰評估: 訓練專門的裁判模型(Judge Models)來評估生成結果的物理規律。進一步地把 VWM 塞進機器人的大腦里去執行任務。如果在模擬規劃中機械臂抓取失敗了,那這就是模型物理理解存在缺陷的最鐵證。
- 反事實推理測試: 真正的懂因果,意味著能回答 What-if 問題。比如,給模型同樣的 “種下一粒種子” 的初始畫面,條件 A 是干旱,條件 B 是澆水,模型必須能推演出截然不同的生長結局。
3. 重塑 Scaling Law(Re-scaling):邁向更通用的世界模型。
- 預訓練縮放(Pretraining Scaling): 在預訓練階段,我們需要更高效的時空 Encoder 和統一的建模接口,用海量的、包含復雜因果的交互數據,訓練出跨領域的通用視覺世界模型。
- 推理時縮放(Inference-time Scaling): 未來的視覺世界模型在生成一段未來演化之前,不應該是一次性盲目吐出畫面,而是應該在內部進行思考,提出多種可能的結果、檢查是否違背物理約束、在內心進行試錯和修正,然后再給出最合理的推演結果。
大語言模型構建的知識,本質上是對人類文本經驗的概率總結;而真實世界的運轉,遵循的是連續的物理法則與因果鏈條。視覺世界模型的使命,正是打破符號的局限,直擊物理現實的演化規律。
從 “基于語義關聯得出結論” 到 “基于世界常識模擬未來”,這不僅是世界模型研究的一次范式推進,也可能是 AI 走向更強預測、交互與決策能力的關鍵一步。
完整文獻整理與歸納、詳細架構對比與技術路線圖,歡迎前往我們的論文與項目主頁詳細閱讀!
作者介紹
余蕭
![]()
北京交通大學計算機學院博士生。獲得國家獎學金兩次,發表 CCF-A 類論文一篇,曾參與 VideoWorld 2 項目。研究方向為視覺世界模型,遵循物理與因果規律的世界模型等。
靳瀟杰
![]()
北京交通大學計算機學院教授 / 博導,國家高層次青年人才,曾任字節跳動美國研究院創始成員和技術負責人。研究方向為多模態智能、世界模型、高效深度學習等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.