![]()
編輯 | 陳陳
過(guò)去一年,世界模型成了 AI 圈最熱的詞之一。
越來(lái)越多機(jī)構(gòu)開(kāi)始宣稱自家模型能夠模擬世界,用戶輸入一句話,模型就能生成一段連續(xù)視頻;給定一個(gè)動(dòng)作或鏡頭,畫(huà)面里的人物、場(chǎng)景和物體也能隨之運(yùn)動(dòng)。在很多人看來(lái),AI 似乎已經(jīng)具備了某種創(chuàng)造世界的能力。
但仔細(xì)想想,生成一段看起來(lái)連貫的視頻,真的等于構(gòu)建了一個(gè)世界嗎?
今天很多所謂世界模型,本質(zhì)上仍然更接近視頻預(yù)測(cè)器。它們擅長(zhǎng)根據(jù)歷史畫(huà)面推測(cè)下一幀,根據(jù)輸入動(dòng)作生成一小段視覺(jué)結(jié)果,但世界狀態(tài)本身并沒(méi)有被獨(dú)立維護(hù)。換句話說(shuō),模型看到的是一串像素,而不是一個(gè)可以長(zhǎng)期存在、被多人同時(shí)進(jìn)入、可以被動(dòng)作持續(xù)改變的世界。
這就帶來(lái)一個(gè)根本性局限:當(dāng)一個(gè)物體離開(kāi)鏡頭,它在模型內(nèi)部是否還存在?當(dāng)用戶轉(zhuǎn)身再回來(lái),場(chǎng)景是否還能保持一致?當(dāng)多個(gè)玩家從不同視角進(jìn)入同一個(gè)空間,他們看到的是否真的是同一個(gè)世界……
如果這些問(wèn)題不能解決,這些所謂的世界模型,仍然只是像世界的視頻,而不是真正的世界。
正是在這一判斷之上,全球領(lǐng)先的通用人工智能公司 VAST,給出了一條在架構(gòu)層面與主流不同的技術(shù)路線。
不同于業(yè)內(nèi)常見(jiàn)的動(dòng)作條件視頻生成,也不同于靜態(tài) 3D 場(chǎng)景生成,Project Eden選擇了一條更底層的技術(shù)路線:將世界的狀態(tài)推演與視覺(jué)呈現(xiàn)進(jìn)行原生解耦。它不是讓模型繼續(xù)在像素層面預(yù)測(cè)下一幀,而是先維護(hù)一個(gè)可持續(xù)演化的底層世界狀態(tài),再根據(jù)用戶視角、動(dòng)作和交互需求,把這個(gè)世界渲染成具體畫(huà)面。
這一突破使它成為全球首個(gè)允許對(duì)世界狀態(tài)進(jìn)行自主維護(hù)與確定性控制的世界模型,并自然解鎖了環(huán)境長(zhǎng)程持久、場(chǎng)景自由復(fù)用、多人并發(fā)交互等顛覆性能力。
我們先看幾個(gè) demo,直觀感受一下。
下面這個(gè)視頻不僅完美理解了「暴雨、巨浪與直升機(jī)交互」的復(fù)雜物理規(guī)律,用戶還能通過(guò)屏幕上的虛擬按鍵,實(shí)時(shí)、連續(xù)且穩(wěn)定地預(yù)測(cè)并生成下一幀的 3D 時(shí)空狀態(tài)。
![]()
這段賽車 Demo 同樣驚艷,Project Eden 用第一人稱視角呈現(xiàn)了一場(chǎng)極其絲滑的 AI 賽車體驗(yàn):玩家實(shí)時(shí)操控,世界實(shí)時(shí)響應(yīng),賽道、速度感和鏡頭運(yùn)動(dòng)連續(xù)銜接,把「生成式世界」里的速度與激情展現(xiàn)得非常直觀。
![]()
而在這個(gè)視頻里,生成的畫(huà)面完美融合了人物動(dòng)畫(huà)、剛體(木船)以及流體(水面)之間的交互,展現(xiàn)了 Project Eden 在構(gòu)建高沉浸感、可交互虛擬世界方面的恐怖潛力。
![]()
在發(fā)布最新技術(shù)的同時(shí),VAST 在融資方面也迎來(lái)好消息,該公司宣布完成 A + 及 A++ 兩輪融資,合計(jì)近 2 億美元。這是 VAST 繼今年 3 月融資后,時(shí)隔兩月再度獲得資本加持。
世界模型不能只是「會(huì)動(dòng)的視頻」
要理解 Project Eden 的獨(dú)特性,我們首先需要看清當(dāng)前行業(yè)的主流路徑及其內(nèi)在局限。當(dāng)下被廣泛冠以世界模型之名的技術(shù)方案,大致可以分為兩類。
第一類是動(dòng)作條件視頻生成。
這類模型通常根據(jù)文本、圖像、動(dòng)作指令或相機(jī)軌跡,生成一段連續(xù)視頻。優(yōu)勢(shì)是視覺(jué)效果直觀,生成結(jié)果容易被用戶理解,也能快速展示出一定的交互感。
但問(wèn)題在于,這類模型本質(zhì)上仍然是對(duì) 2D 像素軌跡的預(yù)測(cè)。世界中發(fā)生了什么、物體在哪里、狀態(tài)如何變化,這些信息往往被隱式壓縮在最近幾幀畫(huà)面里。
一旦物體離開(kāi)相機(jī)視野,模型并沒(méi)有一個(gè)獨(dú)立的「世界狀態(tài)」去保存它。等鏡頭重新轉(zhuǎn)回來(lái)時(shí),模型只能根據(jù)歷史上下文重新生成,或者說(shuō)重新「幻想」這個(gè)物體應(yīng)該是什么樣子、在哪里、處于什么狀態(tài)。
這也是為什么很多視頻生成模型在短時(shí)間內(nèi)看起來(lái)很連貫,但一旦拉長(zhǎng)時(shí)間、切換視角,或者引入復(fù)雜交互,就容易出現(xiàn)物體消失、結(jié)構(gòu)變形、前后邏輯不一致等問(wèn)題。
第二類是靜態(tài) 3D 場(chǎng)景生成。
這類模型能夠生成可供游覽的三維空間,相比單目視頻生成,它們確實(shí)更接近「空間」本身。但如果只有一個(gè)靜態(tài)空間,而沒(méi)有時(shí)間維度、物理邏輯和狀態(tài)轉(zhuǎn)移機(jī)制,也很難稱之為真正的世界模型。
一個(gè)真正有用的世界,不只是能被看見(jiàn),還應(yīng)該能被改變、持續(xù)運(yùn)行、支持多個(gè)用戶或多個(gè)智能體同時(shí)進(jìn)入。
因此,VAST 對(duì)世界模型的判斷很明確:一套合格的通用世界模型,至少要同時(shí)解決兩個(gè)核心問(wèn)題。
- 第一,世界當(dāng)下的客觀狀態(tài)是什么;
- 第二,這個(gè)狀態(tài)如何隨著動(dòng)作、時(shí)間和交互持續(xù)演化。
只有同時(shí)具備這兩點(diǎn),世界模型才可能從「生成一段內(nèi)容」走向「生成一個(gè)可交互環(huán)境」。
Project Eden:一次架構(gòu)級(jí)的重新定義
Project Eden 最關(guān)鍵的架構(gòu)選擇,是將底層狀態(tài)推演與視覺(jué)呈現(xiàn)進(jìn)行原生解耦。
在傳統(tǒng)視頻生成模型中,狀態(tài)和畫(huà)面是高度耦合的。模型看到的是像素,預(yù)測(cè)的也是像素。世界中有什么、物體如何變化、用戶動(dòng)作產(chǎn)生了什么影響,這些都隱含在視頻幀序列里。
Project Eden 的思路則不同:他們不是把空間、事件、視角和視覺(jué)外觀全部塞進(jìn)像素歷史里,而是把「世界本身」和「世界看起來(lái)的樣子」進(jìn)行了分拆。
第一層是結(jié)構(gòu)化狀態(tài)層,也就是這套系統(tǒng)的真正地基。
該層是一個(gè)跨時(shí)間持續(xù)存在、可以進(jìn)行動(dòng)作更新、可被任意相機(jī)位置查詢的全局結(jié)構(gòu)化表征。它并非龐大的 4D 點(diǎn)云(那會(huì)帶來(lái)不可接受的計(jì)算成本),而是一種緊湊的、兼顧效率與語(yǔ)義豐富性的隱式表征。這一層負(fù)責(zé)回答「世界里有什么、發(fā)生了什么」,它是世界的客觀基底,獨(dú)立于任何觀察者的視角而存在。
第二層是條件接口層,作為狀態(tài)與渲染之間的轉(zhuǎn)換樞紐。
這一層的功能是將底層的全局世界狀態(tài),按照特定相機(jī)位置和觀察視角,轉(zhuǎn)化為適合生成任務(wù)使用的局部條件約束,包括語(yǔ)義信息、幾何線索、局部事件變化等中間表征。所有視角的渲染都從同一個(gè)底層狀態(tài)中提取條件,這從物理機(jī)制上保證了多視角之間的一致性:不同玩家看到的是同一個(gè)世界的不同窗口,而非各自獨(dú)立的像素歷史。
第三層是生成式渲染層,在底層狀態(tài)與中間約束的雙重指引下,負(fù)責(zé)生成精細(xì)化的視覺(jué)畫(huà)面。
最上層的渲染模型不再需要承擔(dān)猜測(cè)畫(huà)面結(jié)構(gòu)的責(zé)任,因?yàn)榻Y(jié)構(gòu)信息已經(jīng)由底層狀態(tài)提供。渲染器專注于自己真正擅長(zhǎng)的部分:在給定結(jié)構(gòu)約束的前提下,補(bǔ)全紋理、光照、材質(zhì)和高頻的局部動(dòng)態(tài)細(xì)節(jié),生成高保真的視覺(jué)畫(huà)面。
這三層架構(gòu)改變了世界模型的基本組織方式。狀態(tài)不再依附于畫(huà)面,而是作為一個(gè)穩(wěn)定、可查詢、可演化的底座獨(dú)立存在;渲染也不再承擔(dān)全部邏輯推演,而是根據(jù)當(dāng)前狀態(tài)、視角和動(dòng)作條件按需生成畫(huà)面。
因此,Project Eden 不是在傳統(tǒng)視頻生成路徑上繼續(xù)預(yù)測(cè)下一幀,而是把問(wèn)題改寫(xiě)為:先推演世界下一刻的狀態(tài),再?gòu)倪@個(gè)狀態(tài)中生成用戶此刻看到的畫(huà)面。前者更像視頻續(xù)寫(xiě),后者才真正接近世界模擬。
解鎖三種系統(tǒng)級(jí)能力:持久化、可復(fù)用、原生多智能體并發(fā)
架構(gòu)的不同,最終體現(xiàn)在能力邊界的本質(zhì)差異上。Project Eden 的三層解耦架構(gòu),自然解鎖了一系列傳統(tǒng)視頻生成方案無(wú)法觸及的系統(tǒng)級(jí)能力。
![]()
Project Eden 生成的多角色協(xié)同場(chǎng)景
環(huán)境長(zhǎng)程持久化,是其中最直觀、也最顛覆性的一項(xiàng)
在 Project Eden 中,物體離開(kāi)相機(jī)視野,并不意味著它從世界中消失。它依然存在于底層狀態(tài)里,并繼續(xù)按照世界邏輯運(yùn)轉(zhuǎn)。當(dāng)用戶轉(zhuǎn)身、離開(kāi)、再回來(lái)時(shí),系統(tǒng)查詢的是同一個(gè)底層世界狀態(tài)(比如當(dāng)玩家轉(zhuǎn)身離開(kāi),再轉(zhuǎn)回來(lái),那棵樹(shù)還在那里),而不是根據(jù)歷史視頻幀重新生成一個(gè)相似畫(huà)面。
這意味著,世界可以擁有真正意義上的長(zhǎng)程記憶。用戶不再只是觀看一段一次性的生成視頻,而是進(jìn)入一個(gè)會(huì)持續(xù)存在的環(huán)境。
場(chǎng)景自由復(fù)用與確定性控制,是第二項(xiàng)核心能力
傳統(tǒng)視頻生成是一次性的時(shí)間線:生成過(guò)了,歷史就固定了,無(wú)法回退和分支。但在解耦架構(gòu)中,底層狀態(tài)是可以被讀寫(xiě)和干預(yù)的。用戶在場(chǎng)景中進(jìn)行的破壞、建造、改變,被真實(shí)寫(xiě)入底層狀態(tài);后續(xù)進(jìn)入同一場(chǎng)景的其他用戶,會(huì)看到完全一致的世界狀態(tài)。這不再是每次生成一段新視頻,而是所有人共享同一個(gè)持續(xù)演化的世界。
例如,一個(gè)用戶在場(chǎng)景中破壞了某個(gè)物體、移動(dòng)了某個(gè)建筑、改變了某片區(qū)域的狀態(tài),這些變化會(huì)真實(shí)留存在世界里。后續(xù)進(jìn)入同一場(chǎng)景的其他用戶,也能看到一致的結(jié)果。
這也讓生成內(nèi)容從一次性視頻,變成了可復(fù)用、可編輯、可持續(xù)運(yùn)營(yíng)的互動(dòng)空間。
第三是原生多人和多智能體并發(fā)交互
對(duì)于傳統(tǒng)視頻世界模型來(lái)說(shuō),多玩家是一個(gè)非常困難的問(wèn)題。因?yàn)槊總€(gè)玩家都有自己的視角、動(dòng)作和畫(huà)面歷史,如果每一路都依賴單獨(dú)的視頻上下文來(lái)生成,算力成本和一致性維護(hù)都會(huì)迅速失控。
在解耦架構(gòu)中,底層狀態(tài)只有一份,被所有智能體共享;渲染層根據(jù)各自的位置和視角獨(dú)立生成畫(huà)面,計(jì)算成本從指數(shù)級(jí)變?yōu)榫€性級(jí)。當(dāng) N 個(gè)玩家同時(shí)在線,系統(tǒng)只需維護(hù)一個(gè)底層狀態(tài)和 N 路渲染,而不是 N 套完全獨(dú)立的生成系統(tǒng)。這不只是性能優(yōu)化,更是商業(yè)上大規(guī)模落地的先決條件。
數(shù)據(jù)策略:3D 生成真正難啃的硬骨頭
Project Eden 背后的數(shù)據(jù)構(gòu)建邏輯,同樣值得深究。
VAST 提出了一套原創(chuàng)的分層數(shù)據(jù)策略,其核心是雙態(tài)對(duì)齊數(shù)據(jù)的概念:只有底層推演態(tài)(隱式結(jié)構(gòu)與邏輯)與視覺(jué)渲染態(tài)(高保真視頻畫(huà)面)完美對(duì)齊的數(shù)據(jù),才是訓(xùn)練世界模型真正的原生數(shù)據(jù)。
為此,VAST 在數(shù)據(jù)端部署了兩層策略,L1 為海量互聯(lián)網(wǎng)視頻自標(biāo)注,L2 為引擎合成數(shù)據(jù)。
在第一層,VAST 依托自身長(zhǎng)期積累的 3D 基礎(chǔ)模型能力,對(duì)海量無(wú)標(biāo)注互聯(lián)網(wǎng) 2D 視頻進(jìn)行反向解構(gòu),提取深度、相機(jī)位姿與幾何軌跡,將單態(tài)視頻提煉為雙態(tài)數(shù)據(jù)。這一方式充分利用了互聯(lián)網(wǎng)視頻的多樣性,賦予模型對(duì)各類真實(shí)世界環(huán)境的強(qiáng)泛化能力。
在第二層,VAST 利用游戲引擎天然具備雙態(tài)運(yùn)行特征的優(yōu)勢(shì),低成本批量生成帶有絕對(duì)精準(zhǔn) 3D 狀態(tài)標(biāo)注、動(dòng)作指令以及環(huán)境變化的配對(duì)數(shù)據(jù),確保模型學(xué)到嚴(yán)密的物理演變與控制邏輯。
這種「互聯(lián)網(wǎng)數(shù)據(jù)泛化 + 引擎數(shù)據(jù)精準(zhǔn)化」的組合,在覆蓋廣度與邏輯精度之間取得了很好的平衡,既不放棄對(duì)真實(shí)世界分布的學(xué)習(xí),也不依賴單一的合成數(shù)據(jù)來(lái)支撐物理邏輯。
不止內(nèi)容生成:Project Eden 的更大想象空間
Project Eden 指向的,并不只是一個(gè)更強(qiáng)的 3D 生成工具,而是下一代互動(dòng)內(nèi)容的底層基礎(chǔ)設(shè)施。
過(guò)去,3D 內(nèi)容生產(chǎn)的門檻非常高。一個(gè)可玩、可交互、可多人進(jìn)入的世界,通常需要美術(shù)、建模、動(dòng)畫(huà)、關(guān)卡設(shè)計(jì)、物理引擎、網(wǎng)絡(luò)同步等復(fù)雜流程。生成式 AI 已經(jīng)顯著降低了 3D 資產(chǎn)生成的門檻,但單個(gè)模型、單個(gè)場(chǎng)景、單段動(dòng)畫(huà),都還不是一個(gè)真正可運(yùn)行的世界。
VAST 真正想解決的,是這些內(nèi)容如何被組織進(jìn)一個(gè)穩(wěn)定、持續(xù)、可交互的世界系統(tǒng)之中。
這也意味著,Project Eden 面向的不只是專業(yè)游戲開(kāi)發(fā)者。它可以服務(wù)普通創(chuàng)作者、虛擬內(nèi)容社區(qū)、社交空間、AI 原生游戲,以及未來(lái)大量由自然語(yǔ)言驅(qū)動(dòng)的互動(dòng)內(nèi)容生產(chǎn)需求。
但從更長(zhǎng)遠(yuǎn)的角度看,Project Eden 的潛力可能不止于內(nèi)容消費(fèi)。
因?yàn)樗S護(hù)的是一個(gè)穩(wěn)定的底層世界狀態(tài),而不是一次性生成的視頻畫(huà)面,這使它天然適合作為通用人工智能的世界底座。對(duì)于智能體來(lái)說(shuō),關(guān)鍵從來(lái)不只是看到逼真的畫(huà)面,而是環(huán)境能否按照一致的規(guī)則響應(yīng)動(dòng)作、保留變化并持續(xù)演化。
因此,Project Eden 的價(jià)值不只是把 3D 生成推進(jìn)到交互內(nèi)容階段,更在于為世界規(guī)則學(xué)習(xí)、仿真模擬、具身智能、多智能體協(xié)同研究提供一個(gè)可持續(xù)運(yùn)行的環(huán)境。相比純視頻模型,它更接近一個(gè)可以被反復(fù)進(jìn)入、持續(xù)實(shí)驗(yàn)、不斷積累交互經(jīng)驗(yàn)的世界底座。
從這個(gè)意義上說(shuō),VAST 要做的不是再造一個(gè)視頻生成模型,而是試圖搭建下一代互動(dòng)內(nèi)容和通用人工智能共同需要的基礎(chǔ)設(shè)施:一個(gè)穩(wěn)定、有狀態(tài)、可演化、可被智能體長(zhǎng)期訓(xùn)練和探索的生成式世界。
結(jié)語(yǔ)
VAST 是一家全球領(lǐng)先的通用人工智能公司,其愿景是讓所有人都能自由創(chuàng)作、沉浸式體驗(yàn)可交互的世界
在此之前,VAST 已經(jīng)通過(guò) Tripo 系列 3D 大模型,在 AI 3D 生成領(lǐng)域建立了較強(qiáng)的技術(shù)積累。其中,Tripo P1.0 能夠在 2 秒內(nèi)生成專業(yè)建模師級(jí)別的 3D 模型,生成速度較市面主流方案提升百倍以上;Tripo H3.1 則在模型精度、結(jié)構(gòu)完整性和貼圖質(zhì)量上持續(xù)保持行業(yè)領(lǐng)先。旗下平臺(tái) Tripo Studio 已聚集超過(guò) 2000 萬(wàn)創(chuàng)作者,累計(jì)生成近 1 億個(gè) 3D 模型。
![]()
Tripo P1.0 生成效果
近期,VAST 又在 Tripo Studio 上線了兩項(xiàng)新能力。
其中,Tripo 8K 貼圖算法進(jìn)一步提升了 3D 資產(chǎn)的細(xì)節(jié)表現(xiàn),貼圖精度已經(jīng)突破人眼分辨極限,即便在近距離特寫(xiě)下,模型表面的紋理、材質(zhì)和細(xì)節(jié)也能保持足夠真實(shí)。
![]()
Segmentation V2 智能部件拆分,則讓 3D 資產(chǎn)具備了更精細(xì)的結(jié)構(gòu)拆解能力:
![]()
在 3D 資產(chǎn)生成上打下基礎(chǔ)之后,VAST 進(jìn)一步把能力邊界從「生成一個(gè)模型」推向「生成一個(gè)可運(yùn)行的世界」。
如果說(shuō) Tripo 讓更多人能夠低門檻生成 3D 內(nèi)容,Project Eden 則是讓這些內(nèi)容真正「活」在一個(gè)可持續(xù)運(yùn)行的世界里。世界模型的競(jìng)爭(zhēng),也由此從「誰(shuí)更會(huì)生成」走向「誰(shuí)更能維護(hù)一個(gè)世界」。
當(dāng)然,通往真正通用的世界模擬器還很長(zhǎng),Project Eden 目前更像是確立了一條重要的技術(shù)路徑:世界模型的未來(lái),不只是讓 AI 更會(huì)畫(huà)世界,而是讓 AI 開(kāi)始學(xué)會(huì)維護(hù)一個(gè)世界。
當(dāng)世界模型生成的內(nèi)容不再只是畫(huà)面,而成為一個(gè)可以持續(xù)存在、被反復(fù)進(jìn)入、還能被改變的系統(tǒng),AI 內(nèi)容生成、游戲、空間計(jì)算、機(jī)器人訓(xùn)練和智能體平臺(tái)之間的邊界,也會(huì)隨之被重新打開(kāi)。
視頻鏈接:https://mp.weixin.qq.com/s/IbPKD5nxP6f7y4tOblX3xw
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.