網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

李飛飛：當(dāng)視頻生成、NVIDIA都自稱世界模型，我們需要一個(gè)分類法

2026-06-04 11:09:34　來源: DeepTech深科技

北京舉報(bào)

分享至

“世界模型”大概是 2025 年以來 AI 領(lǐng)域里最熱也最混亂的概念。Sora出來的時(shí)候，OpenAI 管它叫世界模擬器；Genie 讓你在生成的畫面里走來走去，也叫世界模型；機(jī)器人公司說自己在做世界模型，NVIDIA 說 Omniverse 是世界模型的基礎(chǔ)設(shè)施，連游戲引擎也被拉進(jìn)了這個(gè)敘事。大家都在用同一個(gè)詞，但各自說的又完全不是同一件事。

今天，李飛飛在個(gè)人 Substack 發(fā)表了一篇新文章，對(duì)這一概念進(jìn)行了厘清。她首先回到強(qiáng)化學(xué)習(xí)教科書里那個(gè)最經(jīng)典的圖（POMDP 閉環(huán)：智能體→動(dòng)作→狀態(tài)→觀測→智能體），然后指出：現(xiàn)在被叫做“世界模型”的東西，其實(shí)是這個(gè)閉環(huán)的三種不同投影。輸出像素（觀測）的是渲染器，輸出狀態(tài)的是模擬器，輸出動(dòng)作的是規(guī)劃器。分類標(biāo)準(zhǔn)非常簡潔，就看你輸出的是閉環(huán)里的哪個(gè)部分。

(來源：《麻省理工科技評(píng)論》)

她判斷，三者之中，渲染器商業(yè)化最成熟但有天花板（好看不等于物理正確），規(guī)劃器最令人興奮但離真實(shí)部署最遠(yuǎn)（實(shí)驗(yàn)室演示和實(shí)際可用之間的鴻溝依然巨大），而模擬器是被嚴(yán)重低估的關(guān)鍵樞紐。因?yàn)槟M器工作在幾何、物理和動(dòng)力學(xué)的層面上，既能向上投射為像素供人類消費(fèi)，也能向下推導(dǎo)出動(dòng)作后果供機(jī)器人使用。掌握了模擬，就同時(shí)擁有了渲染和規(guī)劃的基礎(chǔ)；反過來則不行。

這篇文章當(dāng)然也是 World Labs 的產(chǎn)品宣言。他們的 Marble 已經(jīng)在同時(shí)輸出高斯?jié)姙R和碰撞網(wǎng)格，試圖把渲染器和模擬器統(tǒng)一到一個(gè)模型里。文章末尾描繪的終局是一個(gè)統(tǒng)一的世界基礎(chǔ)模型，能根據(jù)下游需求在渲染、模擬和規(guī)劃之間自由切換。這個(gè)愿景是否能實(shí)現(xiàn)另說，但作為一個(gè)分析框架，渲染器/模擬器/規(guī)劃器的三分法也許確實(shí)有助于穿透當(dāng)前"世界模型"概念的一部分噪音。

全文譯出如下。

“世界是所有發(fā)生的事情的總和。”

——維特根斯坦，《邏輯哲學(xué)論》，1921

世界不是由文字構(gòu)成的。

在早先的一篇文章中，我們提出空間智能是 AI 的下一個(gè)前沿，而世界模型是通向它的路徑。在此，World Labs 團(tuán)隊(duì)和我想再深入一層：在如今被冠以“世界模型”之名的眾多事物中，哪些功能模塊真正構(gòu)成了這種能力？它們各自的用途又是什么？

語言模型賦予了機(jī)器對(duì)概念、詞匯和推理的強(qiáng)大掌控力，但物理世界，無論虛擬還是真實(shí)，運(yùn)行在完全不同的基底之上。語言模型學(xué)習(xí)的是文本的統(tǒng)計(jì)結(jié)構(gòu)，世界模型學(xué)習(xí)的是空間與時(shí)間的統(tǒng)計(jì)結(jié)構(gòu)：光如何落在一個(gè)表面上，一座花園從一個(gè)從未被相機(jī)捕捉過的角度看起來是什么樣子，物體如何響應(yīng)力并遵循物理定律。

這使得“世界模型”成了當(dāng)下 AI 領(lǐng)域最重要、同時(shí)也最被濫用的術(shù)語之一。計(jì)算機(jī)視覺、機(jī)器人學(xué)、強(qiáng)化學(xué)習(xí)和生成式 AI 都聲稱自己在構(gòu)建世界模型，但各自指的是截然不同的東西。一個(gè)能生成華麗但物理上不可能的火焰的視頻模型，一個(gè)即興生成可玩游戲的語言模型，一個(gè)忠實(shí)模擬燃燒過程的物理引擎，它們都被叫作同一個(gè)名字。

古希臘人從來無法就世界由什么構(gòu)成達(dá)成一致，不管是火、水還是不可分割的原子，因?yàn)?世界"從來就不是單一的東西。它始終是某個(gè)思想家為了推理某種總體性而使用的替代詞。AI 繼承了同樣的問題，而且恰好發(fā)生在這個(gè)領(lǐng)域最需要精確性的時(shí)刻。

分類法背后的閉環(huán)

要厘清這種混亂，可以從一張比上述所有技術(shù)都更古老的圖開始。所有強(qiáng)化學(xué)習(xí)教材，包括經(jīng)典的 Sutton 和 Barto，幾十年來一直使用同一幅圖的變體來描述智能體如何與世界交互。這幅圖的正式名稱是部分可觀測馬爾可夫決策過程（POMDP），而“世界模型”這個(gè)術(shù)語最初的定義就屬于這一傳統(tǒng)。

一個(gè)智能體（可以是人、機(jī)器人或軟件系統(tǒng)）執(zhí)行動(dòng)作。這些動(dòng)作改變世界的狀態(tài)。但智能體永遠(yuǎn)無法直接看到狀態(tài)本身，它所接收到的是觀測：落在視網(wǎng)膜上的光子、傳感器的讀數(shù)、視頻幀中的像素。新的觀測引導(dǎo)新的動(dòng)作，循環(huán)往復(fù)。

“狀態(tài)”這個(gè)詞需要拆開來看，因?yàn)樵诓煌I(lǐng)域中它的含義會(huì)發(fā)生偏移。這里說的不是化學(xué)家的狀態(tài)，不是固態(tài)、液態(tài)和氣態(tài)的區(qū)別。這里是物理學(xué)家和機(jī)器人學(xué)家的狀態(tài)：對(duì)世界在某一時(shí)刻所發(fā)生的一切的完整描述，包括每一個(gè)物體、每一個(gè)位置、每一個(gè)速度、每一種屬性。狀態(tài)是世界的底層現(xiàn)實(shí)，原則上是完備的，但對(duì)于身處其中的任何智能體來說永遠(yuǎn)不可直接觀測。觀測是智能體對(duì)這一現(xiàn)實(shí)的局部視角。動(dòng)作則是智能體據(jù)此做出的回應(yīng)。

這個(gè)閉環(huán)（智能體→動(dòng)作→狀態(tài)→觀測→智能體）正是賦予“世界模型”這個(gè)術(shù)語其技術(shù)含義的結(jié)構(gòu)。這個(gè)短語本身更加古老，可以追溯到 Kenneth Craik 在 1943 年的提議，他認(rèn)為心智通過運(yùn)行現(xiàn)實(shí)的“小比例模型”來進(jìn)行推理，而到了 1980 年代末和 1990 年代初，這一概念被引入了神經(jīng)網(wǎng)絡(luò)領(lǐng)域。這個(gè)閉環(huán)同樣解釋了人們今天使用這個(gè)術(shù)語時(shí)的含義。現(xiàn)在被稱為世界模型的各種東西，實(shí)際上是同一個(gè)閉環(huán)的不同投影，每一種輸出的是閉環(huán)中不同的組成部分。

世界模型的三種功能

第一種世界模型是渲染器。渲染器輸出的是觀測，具體來說是面向人眼的像素，而最重要的品質(zhì)指標(biāo)是視覺保真度。一個(gè)將文本提示轉(zhuǎn)化為電影級(jí)航拍鏡頭的視頻模型就是渲染器；像 Google的Genie 3 或 World Labs 自己的 RTFM 這樣的交互式系統(tǒng)也是渲染器，它們根據(jù)用戶輸入實(shí)時(shí)生成畫面。這類模型不具備對(duì)三維結(jié)構(gòu)的顯式理解。它生成的是觀看者會(huì)看到的畫面，而不是事物本身的樣子。航拍鏡頭里的建筑從空中看也許完美無瑕，但試著在下面的城市中穿行，它們就會(huì)崩塌。

第二種是模擬器。模擬器輸出的是狀態(tài)：一種在幾何、物理或動(dòng)力學(xué)上忠實(shí)的世界表征，人類和計(jì)算機(jī)程序都能在其上進(jìn)行計(jì)算和交互。渲染器的契約是純視覺的，而模擬器的契約是結(jié)構(gòu)性的，它要求幾何經(jīng)得起檢驗(yàn)，物理遵循牛頓定律，動(dòng)力學(xué)的行為符合物理法則的預(yù)期。模擬器同時(shí)服務(wù)兩類用戶。建筑師、設(shè)計(jì)師、電影人、游戲開發(fā)者等專業(yè)人士需要超越視覺可信度的準(zhǔn)確性。強(qiáng)化學(xué)習(xí)智能體、機(jī)器人控制器、自動(dòng)駕駛車輛等計(jì)算機(jī)程序則把模擬器當(dāng)作訓(xùn)練場，在其中大規(guī)模地與世界交互，測試那些在現(xiàn)實(shí)中要么危險(xiǎn)、要么昂貴、要么根本不可能執(zhí)行的場景。

第三種是規(guī)劃器。規(guī)劃器輸出的是動(dòng)作。給定一個(gè)觀測和一個(gè)目標(biāo)，規(guī)劃器回答的問題是：智能體下一步該做什么。在很多意義上，規(guī)劃器是渲染器的逆過程。渲染器以動(dòng)作為輸入、產(chǎn)出觀測，規(guī)劃器以觀測為輸入、產(chǎn)出動(dòng)作，從而閉合了感知-行動(dòng)回路。視覺-語言-動(dòng)作模型（VLA）、基于模型的系統(tǒng)，以及新一波的世界動(dòng)作模型（World Action Models），都是規(guī)劃器的不同嘗試：讓系統(tǒng)能夠在非結(jié)構(gòu)化的世界中決定機(jī)器人應(yīng)該做什么。

以上三個(gè)類別涵蓋了當(dāng)前實(shí)際在落地的大部分工作，而它們之間的區(qū)分在實(shí)踐中很有用。但這三個(gè)類別并非從根本上彼此割裂。它們共享同一套關(guān)于世界如何運(yùn)作的底層知識(shí)：幾何、物理、動(dòng)力學(xué)。一個(gè)能從任意角度渲染一只杯子的模型，原則上也應(yīng)該能模擬杯子被推動(dòng)后會(huì)發(fā)生什么，并規(guī)劃一只手去把它拿起來。越來越多最有意思的研究，正在有意地模糊這三者之間的邊界。

圖丨三種世界模型（來源：Substack）

為什么模擬是關(guān)鍵樞紐

在三個(gè)類別中，模擬器受到的公眾關(guān)注最少，卻是三者中最重要的。這篇文章想糾正這種不對(duì)稱。

渲染器是目前商業(yè)化程度最高的。大量圖像或文本轉(zhuǎn)視頻產(chǎn)品正在消費(fèi)和企業(yè)市場快速擴(kuò)張。Google 的 Nano Banana 模型將渲染器級(jí)別的圖像生成能力送到了可能數(shù)以億計(jì)的用戶手中。技術(shù)是實(shí)在的，市場也是實(shí)在的。然而渲染器優(yōu)化的目標(biāo)是視覺可信度而非物理準(zhǔn)確性，這個(gè)天花板很重要。它們的輸出很漂亮，但你不能用它們來設(shè)計(jì)一座建筑或訓(xùn)練一個(gè)機(jī)器人。

規(guī)劃器是最令人興奮也最不成熟的，它與快速演進(jìn)的機(jī)器人學(xué)習(xí)領(lǐng)域密切相關(guān)。過去兩年里，這個(gè)領(lǐng)域產(chǎn)出了不少在視頻里看起來令人印象深刻的機(jī)器人演示，但我們需要坦誠地面對(duì)這些演示究竟展示了什么。幾乎所有演示都局限于高度受限的實(shí)驗(yàn)室環(huán)境，物體種類有限，任務(wù)時(shí)長很短。沒有一個(gè)經(jīng)受過真實(shí)世界部署所要求的復(fù)雜度、多樣性和持續(xù)時(shí)長的驗(yàn)證。從一段精彩的演示視頻到一個(gè)能在廚房、倉庫或手術(shù)室中可靠工作的機(jī)器人，中間的鴻溝依然巨大。

盡管如此，商業(yè)上的押注規(guī)模仍然可觀。一波資金充裕的新進(jìn)入者正在爭相推出通用規(guī)劃系統(tǒng)，而大型基礎(chǔ)設(shè)施玩家則在將規(guī)劃能力架設(shè)在更廣泛的模擬堆棧之上。

模擬是連接兩者的橋梁。如果說語言是對(duì)世界的抽象，像素是對(duì)世界的投影，那么幾何、物理和動(dòng)力學(xué)就是世界本身。模擬器必須在這個(gè)層面上工作：它是結(jié)構(gòu)性的骨架，視覺表現(xiàn)（供渲染器使用）和動(dòng)作后果（供規(guī)劃器使用）都可以從中推導(dǎo)出來。

一個(gè)掌握了模擬的模型，能夠?qū)⑺睦斫馔渡錇楣┤祟愊M(fèi)的像素，也能投射為供具身智能體使用的動(dòng)作預(yù)測。而一個(gè)只掌握了渲染或只掌握了規(guī)劃的模型，兩者都做不到。這里的商業(yè)空間極其廣闊。僅 NVIDIA 的 Omniverse一項(xiàng)，其目標(biāo)市場規(guī)模據(jù)該公司估計(jì)就超過萬億美元，涵蓋工廠、倉庫、供應(yīng)鏈和數(shù)字孿生。機(jī)器人訓(xùn)練、自動(dòng)駕駛測試、建筑可視化、工程設(shè)計(jì)、藥物發(fā)現(xiàn)，全都依賴于某種形態(tài)的模擬。

這個(gè)領(lǐng)域最困難的開放性問題也集中在這里。帶有顯式幾何、材質(zhì)屬性和物理標(biāo)注的三維數(shù)據(jù)，比渲染器訓(xùn)練所用的互聯(lián)網(wǎng)視頻稀缺了幾個(gè)數(shù)量級(jí)。sim-to-real 差距（模擬中的物體行為與真實(shí)世界中的行為之間的差異）仍然存在。生成式模擬器在此基礎(chǔ)上還引入了新的風(fēng)險(xiǎn)：AI 生成的幾何體可能看起來正確，但實(shí)際上包含自相交或錯(cuò)誤比例的問題，導(dǎo)致物理模擬產(chǎn)生荒謬的結(jié)果。大規(guī)模的多物理模擬（剛體、可變形物體、流體、布料全部同時(shí)交互）的計(jì)算成本仍然比單一領(lǐng)域的模擬高出幾個(gè)數(shù)量級(jí)。

在 World Labs，Marble 是我們?cè)谶@個(gè)方向上的第一步。它接受多模態(tài)輸入（文本、圖像、視頻或空間草圖），生成可探索的 3D 環(huán)境，同時(shí)輸出用于視覺探索的高斯?jié)姙R（Gaussian splats）和供物理引擎操作的碰撞網(wǎng)格。但Marble只是一段漫長弧線的第一章。隨著渲染、模擬和規(guī)劃之間的界限開始消融，整個(gè)領(lǐng)域都在書寫這個(gè)故事。

邊界正在消融，以及接下來會(huì)發(fā)生什么

當(dāng)前這個(gè)領(lǐng)域最重要的趨勢是，三個(gè)類別正在開始融合。背后的共識(shí)是：渲染一個(gè)世界、模擬它、在其中行動(dòng)，所需要的知識(shí)在很大程度上是相同的。沿用前面的例子，一個(gè)真正理解杯子如何放在桌上的模型（它的幾何形狀、材質(zhì)屬性、對(duì)力的響應(yīng)等等），應(yīng)該能夠從任意角度渲染這只杯子，模擬杯子被推動(dòng)后會(huì)發(fā)生什么，并規(guī)劃一只手去拿起它。三個(gè)類別是同一種底層理解的三種投影。

比如，最近已有少量但在增長中的工作來自不同的機(jī)器人實(shí)驗(yàn)室，它們展示了一種至少在概念上成立的可能性：一個(gè)預(yù)訓(xùn)練的視頻渲染器可以作為聯(lián)合世界預(yù)測和動(dòng)作預(yù)測的骨干網(wǎng)絡(luò)，讓單一模型同時(shí)想象“會(huì)發(fā)生什么”和“該做什么”，從而在渲染器和規(guī)劃器之間架起橋梁。World Labs 的 Marble 已經(jīng)能從單一模型同時(shí)輸出高斯?jié)姙R和碰撞網(wǎng)格，消解了渲染器與模擬器之間的邊界。每一個(gè)層面都在從被動(dòng)輸出轉(zhuǎn)向交互式系統(tǒng)：渲染器變得可以響應(yīng)動(dòng)作條件，模擬器生成的世界變得更加可控和可編輯，規(guī)劃器開始進(jìn)行審慎推理而不僅僅是做出反應(yīng)。

邏輯上的終點(diǎn)是一個(gè)統(tǒng)一的世界模型：一個(gè)基礎(chǔ)模型，能夠渲染照片級(jí)真實(shí)的視圖、生成物理上準(zhǔn)確的結(jié)構(gòu)、規(guī)劃動(dòng)作序列，并根據(jù)下游使用者的需求在不同輸出模態(tài)之間切換。我們?nèi)詫⒚鎸?duì)一系列嚴(yán)峻的挑戰(zhàn)。數(shù)據(jù)格局極不均衡，渲染器坐擁海量互聯(lián)網(wǎng)視頻，而模擬器和規(guī)劃器則面臨3D資產(chǎn)和機(jī)器人示范數(shù)據(jù)的嚴(yán)重匱乏。針對(duì)視覺美感的優(yōu)化可能會(huì)犧牲機(jī)器人或高保真模擬所需的精度。在單一架構(gòu)內(nèi)調(diào)和這些張力，是當(dāng)今世界模型研究的核心開放問題，也是 World Labs 在持續(xù)演進(jìn) Marble 的過程中致力于解決的。

（來源：Substack）

但大方向已經(jīng)很清楚。從 1980 年代末至今，這個(gè)領(lǐng)域押的始終是同一個(gè)賭注：只要世界模型足夠豐富，智能體看見世界、構(gòu)建世界、在其中行動(dòng)所需的東西就全在里面了。這個(gè)賭注如今正在驅(qū)動(dòng)一整代人的研究。而真正給它加上砝碼的，是已經(jīng)在發(fā)生的融合：渲染、模擬、規(guī)劃三條線，每條都已經(jīng)各自撐起價(jià)值數(shù)十億美元的產(chǎn)業(yè)，它們起初是獨(dú)立的研究方向，現(xiàn)在開始匯到一起。當(dāng)邊界消失，三者合流將重新定義一件更大的事：機(jī)器智能與它所棲居的物理世界之間的關(guān)系，也就是空間智能的長遠(yuǎn)走向。

語言給了機(jī)器一種談?wù)撨@個(gè)世界的方式。世界模型，則是機(jī)器最終得以理解、想象、推理并與之交互的途徑。

參考資料：

1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models

注：首圖由 AI 輔助生成

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.