![]()
“世界模型”大概是 2025 年以來 AI 領(lǐng)域里最熱也最混亂的概念。Sora出來的時(shí)候,OpenAI 管它叫世界模擬器;Genie 讓你在生成的畫面里走來走去,也叫世界模型;機(jī)器人公司說自己在做世界模型,NVIDIA 說 Omniverse 是世界模型的基礎(chǔ)設(shè)施,連游戲引擎也被拉進(jìn)了這個(gè)敘事。大家都在用同一個(gè)詞,但各自說的又完全不是同一件事。
今天,李飛飛在個(gè)人 Substack 發(fā)表了一篇新文章,對(duì)這一概念進(jìn)行了厘清。她首先回到強(qiáng)化學(xué)習(xí)教科書里那個(gè)最經(jīng)典的圖(POMDP 閉環(huán):智能體→動(dòng)作→狀態(tài)→觀測→智能體),然后指出:現(xiàn)在被叫做“世界模型”的東西,其實(shí)是這個(gè)閉環(huán)的三種不同投影。輸出像素(觀測)的是渲染器,輸出狀態(tài)的是模擬器,輸出動(dòng)作的是規(guī)劃器。分類標(biāo)準(zhǔn)非常簡潔,就看你輸出的是閉環(huán)里的哪個(gè)部分。
![]()
(來源:《麻省理工科技評(píng)論》)
她判斷,三者之中,渲染器商業(yè)化最成熟但有天花板(好看不等于物理正確),規(guī)劃器最令人興奮但離真實(shí)部署最遠(yuǎn)(實(shí)驗(yàn)室演示和實(shí)際可用之間的鴻溝依然巨大),而模擬器是被嚴(yán)重低估的關(guān)鍵樞紐。因?yàn)槟M器工作在幾何、物理和動(dòng)力學(xué)的層面上,既能向上投射為像素供人類消費(fèi),也能向下推導(dǎo)出動(dòng)作后果供機(jī)器人使用。掌握了模擬,就同時(shí)擁有了渲染和規(guī)劃的基礎(chǔ);反過來則不行。
這篇文章當(dāng)然也是 World Labs 的產(chǎn)品宣言。他們的 Marble 已經(jīng)在同時(shí)輸出高斯?jié)姙R和碰撞網(wǎng)格,試圖把渲染器和模擬器統(tǒng)一到一個(gè)模型里。文章末尾描繪的終局是一個(gè)統(tǒng)一的世界基礎(chǔ)模型,能根據(jù)下游需求在渲染、模擬和規(guī)劃之間自由切換。這個(gè)愿景是否能實(shí)現(xiàn)另說,但作為一個(gè)分析框架,渲染器/模擬器/規(guī)劃器的三分法也許確實(shí)有助于穿透當(dāng)前"世界模型"概念的一部分噪音。
全文譯出如下。
“世界是所有發(fā)生的事情的總和。”
——維特根斯坦,《邏輯哲學(xué)論》,1921
世界不是由文字構(gòu)成的。
在早先的一篇文章中,我們提出空間智能是 AI 的下一個(gè)前沿,而世界模型是通向它的路徑。在此,World Labs 團(tuán)隊(duì)和我想再深入一層:在如今被冠以“世界模型”之名的眾多事物中,哪些功能模塊真正構(gòu)成了這種能力?它們各自的用途又是什么?
語言模型賦予了機(jī)器對(duì)概念、詞匯和推理的強(qiáng)大掌控力,但物理世界,無論虛擬還是真實(shí),運(yùn)行在完全不同的基底之上。語言模型學(xué)習(xí)的是文本的統(tǒng)計(jì)結(jié)構(gòu),世界模型學(xué)習(xí)的是空間與時(shí)間的統(tǒng)計(jì)結(jié)構(gòu):光如何落在一個(gè)表面上,一座花園從一個(gè)從未被相機(jī)捕捉過的角度看起來是什么樣子,物體如何響應(yīng)力并遵循物理定律。
這使得“世界模型”成了當(dāng)下 AI 領(lǐng)域最重要、同時(shí)也最被濫用的術(shù)語之一。計(jì)算機(jī)視覺、機(jī)器人學(xué)、強(qiáng)化學(xué)習(xí)和生成式 AI 都聲稱自己在構(gòu)建世界模型,但各自指的是截然不同的東西。一個(gè)能生成華麗但物理上不可能的火焰的視頻模型,一個(gè)即興生成可玩游戲的語言模型,一個(gè)忠實(shí)模擬燃燒過程的物理引擎,它們都被叫作同一個(gè)名字。
古希臘人從來無法就世界由什么構(gòu)成達(dá)成一致,不管是火、水還是不可分割的原子,因?yàn)?世界"從來就不是單一的東西。它始終是某個(gè)思想家為了推理某種總體性而使用的替代詞。AI 繼承了同樣的問題,而且恰好發(fā)生在這個(gè)領(lǐng)域最需要精確性的時(shí)刻。
分類法背后的閉環(huán)
要厘清這種混亂,可以從一張比上述所有技術(shù)都更古老的圖開始。所有強(qiáng)化學(xué)習(xí)教材,包括經(jīng)典的 Sutton 和 Barto,幾十年來一直使用同一幅圖的變體來描述智能體如何與世界交互。這幅圖的正式名稱是部分可觀測馬爾可夫決策過程(POMDP),而“世界模型”這個(gè)術(shù)語最初的定義就屬于這一傳統(tǒng)。
一個(gè)智能體(可以是人、機(jī)器人或軟件系統(tǒng))執(zhí)行動(dòng)作。這些動(dòng)作改變世界的狀態(tài)。但智能體永遠(yuǎn)無法直接看到狀態(tài)本身,它所接收到的是觀測:落在視網(wǎng)膜上的光子、傳感器的讀數(shù)、視頻幀中的像素。新的觀測引導(dǎo)新的動(dòng)作,循環(huán)往復(fù)。
“狀態(tài)”這個(gè)詞需要拆開來看,因?yàn)樵诓煌I(lǐng)域中它的含義會(huì)發(fā)生偏移。這里說的不是化學(xué)家的狀態(tài),不是固態(tài)、液態(tài)和氣態(tài)的區(qū)別。這里是物理學(xué)家和機(jī)器人學(xué)家的狀態(tài):對(duì)世界在某一時(shí)刻所發(fā)生的一切的完整描述,包括每一個(gè)物體、每一個(gè)位置、每一個(gè)速度、每一種屬性。狀態(tài)是世界的底層現(xiàn)實(shí),原則上是完備的,但對(duì)于身處其中的任何智能體來說永遠(yuǎn)不可直接觀測。觀測是智能體對(duì)這一現(xiàn)實(shí)的局部視角。動(dòng)作則是智能體據(jù)此做出的回應(yīng)。
這個(gè)閉環(huán)(智能體→動(dòng)作→狀態(tài)→觀測→智能體)正是賦予“世界模型”這個(gè)術(shù)語其技術(shù)含義的結(jié)構(gòu)。這個(gè)短語本身更加古老,可以追溯到 Kenneth Craik 在 1943 年的提議,他認(rèn)為心智通過運(yùn)行現(xiàn)實(shí)的“小比例模型”來進(jìn)行推理,而到了 1980 年代末和 1990 年代初,這一概念被引入了神經(jīng)網(wǎng)絡(luò)領(lǐng)域。這個(gè)閉環(huán)同樣解釋了人們今天使用這個(gè)術(shù)語時(shí)的含義。現(xiàn)在被稱為世界模型的各種東西,實(shí)際上是同一個(gè)閉環(huán)的不同投影,每一種輸出的是閉環(huán)中不同的組成部分。
世界模型的三種功能
第一種世界模型是渲染器。渲染器輸出的是觀測,具體來說是面向人眼的像素,而最重要的品質(zhì)指標(biāo)是視覺保真度。一個(gè)將文本提示轉(zhuǎn)化為電影級(jí)航拍鏡頭的視頻模型就是渲染器;像 Google的Genie 3 或 World Labs 自己的 RTFM 這樣的交互式系統(tǒng)也是渲染器,它們根據(jù)用戶輸入實(shí)時(shí)生成畫面。這類模型不具備對(duì)三維結(jié)構(gòu)的顯式理解。它生成的是觀看者會(huì)看到的畫面,而不是事物本身的樣子。航拍鏡頭里的建筑從空中看也許完美無瑕,但試著在下面的城市中穿行,它們就會(huì)崩塌。
第二種是模擬器。模擬器輸出的是狀態(tài):一種在幾何、物理或動(dòng)力學(xué)上忠實(shí)的世界表征,人類和計(jì)算機(jī)程序都能在其上進(jìn)行計(jì)算和交互。渲染器的契約是純視覺的,而模擬器的契約是結(jié)構(gòu)性的,它要求幾何經(jīng)得起檢驗(yàn),物理遵循牛頓定律,動(dòng)力學(xué)的行為符合物理法則的預(yù)期。模擬器同時(shí)服務(wù)兩類用戶。建筑師、設(shè)計(jì)師、電影人、游戲開發(fā)者等專業(yè)人士需要超越視覺可信度的準(zhǔn)確性。強(qiáng)化學(xué)習(xí)智能體、機(jī)器人控制器、自動(dòng)駕駛車輛等計(jì)算機(jī)程序則把模擬器當(dāng)作訓(xùn)練場,在其中大規(guī)模地與世界交互,測試那些在現(xiàn)實(shí)中要么危險(xiǎn)、要么昂貴、要么根本不可能執(zhí)行的場景。
第三種是規(guī)劃器。規(guī)劃器輸出的是動(dòng)作。給定一個(gè)觀測和一個(gè)目標(biāo),規(guī)劃器回答的問題是:智能體下一步該做什么。在很多意義上,規(guī)劃器是渲染器的逆過程。渲染器以動(dòng)作為輸入、產(chǎn)出觀測,規(guī)劃器以觀測為輸入、產(chǎn)出動(dòng)作,從而閉合了感知-行動(dòng)回路。視覺-語言-動(dòng)作模型(VLA)、基于模型的系統(tǒng),以及新一波的世界動(dòng)作模型(World Action Models),都是規(guī)劃器的不同嘗試:讓系統(tǒng)能夠在非結(jié)構(gòu)化的世界中決定機(jī)器人應(yīng)該做什么。
以上三個(gè)類別涵蓋了當(dāng)前實(shí)際在落地的大部分工作,而它們之間的區(qū)分在實(shí)踐中很有用。但這三個(gè)類別并非從根本上彼此割裂。它們共享同一套關(guān)于世界如何運(yùn)作的底層知識(shí):幾何、物理、動(dòng)力學(xué)。一個(gè)能從任意角度渲染一只杯子的模型,原則上也應(yīng)該能模擬杯子被推動(dòng)后會(huì)發(fā)生什么,并規(guī)劃一只手去把它拿起來。越來越多最有意思的研究,正在有意地模糊這三者之間的邊界。
![]()
圖丨三種世界模型(來源:Substack)
為什么模擬是關(guān)鍵樞紐
在三個(gè)類別中,模擬器受到的公眾關(guān)注最少,卻是三者中最重要的。這篇文章想糾正這種不對(duì)稱。
渲染器是目前商業(yè)化程度最高的。大量圖像或文本轉(zhuǎn)視頻產(chǎn)品正在消費(fèi)和企業(yè)市場快速擴(kuò)張。Google 的 Nano Banana 模型將渲染器級(jí)別的圖像生成能力送到了可能數(shù)以億計(jì)的用戶手中。技術(shù)是實(shí)在的,市場也是實(shí)在的。然而渲染器優(yōu)化的目標(biāo)是視覺可信度而非物理準(zhǔn)確性,這個(gè)天花板很重要。它們的輸出很漂亮,但你不能用它們來設(shè)計(jì)一座建筑或訓(xùn)練一個(gè)機(jī)器人。
規(guī)劃器是最令人興奮也最不成熟的,它與快速演進(jìn)的機(jī)器人學(xué)習(xí)領(lǐng)域密切相關(guān)。過去兩年里,這個(gè)領(lǐng)域產(chǎn)出了不少在視頻里看起來令人印象深刻的機(jī)器人演示,但我們需要坦誠地面對(duì)這些演示究竟展示了什么。幾乎所有演示都局限于高度受限的實(shí)驗(yàn)室環(huán)境,物體種類有限,任務(wù)時(shí)長很短。沒有一個(gè)經(jīng)受過真實(shí)世界部署所要求的復(fù)雜度、多樣性和持續(xù)時(shí)長的驗(yàn)證。從一段精彩的演示視頻到一個(gè)能在廚房、倉庫或手術(shù)室中可靠工作的機(jī)器人,中間的鴻溝依然巨大。
盡管如此,商業(yè)上的押注規(guī)模仍然可觀。一波資金充裕的新進(jìn)入者正在爭相推出通用規(guī)劃系統(tǒng),而大型基礎(chǔ)設(shè)施玩家則在將規(guī)劃能力架設(shè)在更廣泛的模擬堆棧之上。
模擬是連接兩者的橋梁。如果說語言是對(duì)世界的抽象,像素是對(duì)世界的投影,那么幾何、物理和動(dòng)力學(xué)就是世界本身。模擬器必須在這個(gè)層面上工作:它是結(jié)構(gòu)性的骨架,視覺表現(xiàn)(供渲染器使用)和動(dòng)作后果(供規(guī)劃器使用)都可以從中推導(dǎo)出來。
一個(gè)掌握了模擬的模型,能夠?qū)⑺睦斫馔渡錇楣┤祟愊M(fèi)的像素,也能投射為供具身智能體使用的動(dòng)作預(yù)測。而一個(gè)只掌握了渲染或只掌握了規(guī)劃的模型,兩者都做不到。這里的商業(yè)空間極其廣闊。僅 NVIDIA 的 Omniverse一 項(xiàng),其目標(biāo)市場規(guī)模據(jù)該公司估計(jì)就超過萬億美元,涵蓋工廠、倉庫、供應(yīng)鏈和數(shù)字孿生。機(jī)器人訓(xùn)練、自動(dòng)駕駛測試、建筑可視化、工程設(shè)計(jì)、藥物發(fā)現(xiàn),全都依賴于某種形態(tài)的模擬。
這個(gè)領(lǐng)域最困難的開放性問題也集中在這里。帶有顯式幾何、材質(zhì)屬性和物理標(biāo)注的三維數(shù)據(jù),比渲染器訓(xùn)練所用的互聯(lián)網(wǎng)視頻稀缺了幾個(gè)數(shù)量級(jí)。sim-to-real 差距(模擬中的物體行為與真實(shí)世界中的行為之間的差異)仍然存在。生成式模擬器在此基礎(chǔ)上還引入了新的風(fēng)險(xiǎn):AI 生成的幾何體可能看起來正確,但實(shí)際上包含自相交或錯(cuò)誤比例的問題,導(dǎo)致物理模擬產(chǎn)生荒謬的結(jié)果。大規(guī)模的多物理模擬(剛體、可變形物體、流體、布料全部同時(shí)交互)的計(jì)算成本仍然比單一領(lǐng)域的模擬高出幾個(gè)數(shù)量級(jí)。
在 World Labs,Marble 是我們?cè)谶@個(gè)方向上的第一步。它接受多模態(tài)輸入(文本、圖像、視頻或空間草圖),生成可探索的 3D 環(huán)境,同時(shí)輸出用于視覺探索的高斯?jié)姙R(Gaussian splats)和供物理引擎操作的碰撞網(wǎng)格。但Marble只是一段漫長弧線的第一章。隨著渲染、模擬和規(guī)劃之間的界限開始消融,整個(gè)領(lǐng)域都在書寫這個(gè)故事。
邊界正在消融,以及接下來會(huì)發(fā)生什么
當(dāng)前這個(gè)領(lǐng)域最重要的趨勢是,三個(gè)類別正在開始融合。背后的共識(shí)是:渲染一個(gè)世界、模擬它、在其中行動(dòng),所需要的知識(shí)在很大程度上是相同的。沿用前面的例子,一個(gè)真正理解杯子如何放在桌上的模型(它的幾何形狀、材質(zhì)屬性、對(duì)力的響應(yīng)等等),應(yīng)該能夠從任意角度渲染這只杯子,模擬杯子被推動(dòng)后會(huì)發(fā)生什么,并規(guī)劃一只手去拿起它。三個(gè)類別是同一種底層理解的三種投影。
比如,最近已有少量但在增長中的工作來自不同的機(jī)器人實(shí)驗(yàn)室,它們展示了一種至少在概念上成立的可能性:一個(gè)預(yù)訓(xùn)練的視頻渲染器可以作為聯(lián)合世界預(yù)測和動(dòng)作預(yù)測的骨干網(wǎng)絡(luò),讓單一模型同時(shí)想象“會(huì)發(fā)生什么”和“該做什么”,從而在渲染器和規(guī)劃器之間架起橋梁。World Labs 的 Marble 已經(jīng)能從單一模型同時(shí)輸出高斯?jié)姙R和碰撞網(wǎng)格,消解了渲染器與模擬器之間的邊界。每一個(gè)層面都在從被動(dòng)輸出轉(zhuǎn)向交互式系統(tǒng):渲染器變得可以響應(yīng)動(dòng)作條件,模擬器生成的世界變得更加可控和可編輯,規(guī)劃器開始進(jìn)行審慎推理而不僅僅是做出反應(yīng)。
邏輯上的終點(diǎn)是一個(gè)統(tǒng)一的世界模型:一個(gè)基礎(chǔ)模型,能夠渲染照片級(jí)真實(shí)的視圖、生成物理上準(zhǔn)確的結(jié)構(gòu)、規(guī)劃動(dòng)作序列,并根據(jù)下游使用者的需求在不同輸出模態(tài)之間切換。我們?nèi)詫⒚鎸?duì)一系列嚴(yán)峻的挑戰(zhàn)。數(shù)據(jù)格局極不均衡,渲染器坐擁海量互聯(lián)網(wǎng)視頻,而模擬器和規(guī)劃器則面臨3D資產(chǎn)和機(jī)器人示范數(shù)據(jù)的嚴(yán)重匱乏。針對(duì)視覺美感的優(yōu)化可能會(huì)犧牲機(jī)器人或高保真模擬所需的精度。在單一架構(gòu)內(nèi)調(diào)和這些張力,是當(dāng)今世界模型研究的核心開放問題,也是 World Labs 在持續(xù)演進(jìn) Marble 的過程中致力于解決的。
![]()
(來源:Substack)
但大方向已經(jīng)很清楚。從 1980 年代末至今,這個(gè)領(lǐng)域押的始終是同一個(gè)賭注:只要世界模型足夠豐富,智能體看見世界、構(gòu)建世界、在其中行動(dòng)所需的東西就全在里面了。這個(gè)賭注如今正在驅(qū)動(dòng)一整代人的研究。而真正給它加上砝碼的,是已經(jīng)在發(fā)生的融合:渲染、模擬、規(guī)劃三條線,每條都已經(jīng)各自撐起價(jià)值數(shù)十億美元的產(chǎn)業(yè),它們起初是獨(dú)立的研究方向,現(xiàn)在開始匯到一起。當(dāng)邊界消失,三者合流將重新定義一件更大的事:機(jī)器智能與它所棲居的物理世界之間的關(guān)系,也就是空間智能的長遠(yuǎn)走向。
語言給了機(jī)器一種談?wù)撨@個(gè)世界的方式。世界模型,則是機(jī)器最終得以理解、想象、推理并與之交互的途徑。
參考資料:
1.https://drfeifei.substack.com/p/a-functional-taxonomy-of-world-models
注:首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.