網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

世界模型第一次有了「存檔」！VAST發(fā)布Project Eden

2026-06-01 17:32:17　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

編輯 | 陳陳

過(guò)去一年，世界模型成了 AI 圈最熱的詞之一。

越來(lái)越多機(jī)構(gòu)開(kāi)始宣稱自家模型能夠模擬世界，用戶輸入一句話，模型就能生成一段連續(xù)視頻；給定一個(gè)動(dòng)作或鏡頭，畫(huà)面里的人物、場(chǎng)景和物體也能隨之運(yùn)動(dòng)。在很多人看來(lái)，AI 似乎已經(jīng)具備了某種創(chuàng)造世界的能力。

但仔細(xì)想想，生成一段看起來(lái)連貫的視頻，真的等于構(gòu)建了一個(gè)世界嗎？

今天很多所謂世界模型，本質(zhì)上仍然更接近視頻預(yù)測(cè)器。它們擅長(zhǎng)根據(jù)歷史畫(huà)面推測(cè)下一幀，根據(jù)輸入動(dòng)作生成一小段視覺(jué)結(jié)果，但世界狀態(tài)本身并沒(méi)有被獨(dú)立維護(hù)。換句話說(shuō)，模型看到的是一串像素，而不是一個(gè)可以長(zhǎng)期存在、被多人同時(shí)進(jìn)入、可以被動(dòng)作持續(xù)改變的世界。

這就帶來(lái)一個(gè)根本性局限：當(dāng)一個(gè)物體離開(kāi)鏡頭，它在模型內(nèi)部是否還存在？當(dāng)用戶轉(zhuǎn)身再回來(lái)，場(chǎng)景是否還能保持一致？當(dāng)多個(gè)玩家從不同視角進(jìn)入同一個(gè)空間，他們看到的是否真的是同一個(gè)世界……

如果這些問(wèn)題不能解決，這些所謂的世界模型，仍然只是像世界的視頻，而不是真正的世界。

正是在這一判斷之上，全球領(lǐng)先的通用人工智能公司 VAST，給出了一條在架構(gòu)層面與主流不同的技術(shù)路線。

不同于業(yè)內(nèi)常見(jiàn)的動(dòng)作條件視頻生成，也不同于靜態(tài) 3D 場(chǎng)景生成，Project Eden選擇了一條更底層的技術(shù)路線：將世界的狀態(tài)推演與視覺(jué)呈現(xiàn)進(jìn)行原生解耦。它不是讓模型繼續(xù)在像素層面預(yù)測(cè)下一幀，而是先維護(hù)一個(gè)可持續(xù)演化的底層世界狀態(tài)，再根據(jù)用戶視角、動(dòng)作和交互需求，把這個(gè)世界渲染成具體畫(huà)面。

這一突破使它成為全球首個(gè)允許對(duì)世界狀態(tài)進(jìn)行自主維護(hù)與確定性控制的世界模型，并自然解鎖了環(huán)境長(zhǎng)程持久、場(chǎng)景自由復(fù)用、多人并發(fā)交互等顛覆性能力。

我們先看幾個(gè) demo，直觀感受一下。

下面這個(gè)視頻不僅完美理解了「暴雨、巨浪與直升機(jī)交互」的復(fù)雜物理規(guī)律，用戶還能通過(guò)屏幕上的虛擬按鍵，實(shí)時(shí)、連續(xù)且穩(wěn)定地預(yù)測(cè)并生成下一幀的 3D 時(shí)空狀態(tài)。

這段賽車 Demo 同樣驚艷，Project Eden 用第一人稱視角呈現(xiàn)了一場(chǎng)極其絲滑的 AI 賽車體驗(yàn)：玩家實(shí)時(shí)操控，世界實(shí)時(shí)響應(yīng)，賽道、速度感和鏡頭運(yùn)動(dòng)連續(xù)銜接，把「生成式世界」里的速度與激情展現(xiàn)得非常直觀。

而在這個(gè)視頻里，生成的畫(huà)面完美融合了人物動(dòng)畫(huà)、剛體（木船）以及流體（水面）之間的交互，展現(xiàn)了 Project Eden 在構(gòu)建高沉浸感、可交互虛擬世界方面的恐怖潛力。

在發(fā)布最新技術(shù)的同時(shí)，VAST 在融資方面也迎來(lái)好消息，該公司宣布完成 A + 及 A++ 兩輪融資，合計(jì)近 2 億美元。這是 VAST 繼今年 3 月融資后，時(shí)隔兩月再度獲得資本加持。

世界模型不能只是「會(huì)動(dòng)的視頻」

要理解 Project Eden 的獨(dú)特性，我們首先需要看清當(dāng)前行業(yè)的主流路徑及其內(nèi)在局限。當(dāng)下被廣泛冠以世界模型之名的技術(shù)方案，大致可以分為兩類。

第一類是動(dòng)作條件視頻生成。

這類模型通常根據(jù)文本、圖像、動(dòng)作指令或相機(jī)軌跡，生成一段連續(xù)視頻。優(yōu)勢(shì)是視覺(jué)效果直觀，生成結(jié)果容易被用戶理解，也能快速展示出一定的交互感。

但問(wèn)題在于，這類模型本質(zhì)上仍然是對(duì) 2D 像素軌跡的預(yù)測(cè)。世界中發(fā)生了什么、物體在哪里、狀態(tài)如何變化，這些信息往往被隱式壓縮在最近幾幀畫(huà)面里。

一旦物體離開(kāi)相機(jī)視野，模型并沒(méi)有一個(gè)獨(dú)立的「世界狀態(tài)」去保存它。等鏡頭重新轉(zhuǎn)回來(lái)時(shí)，模型只能根據(jù)歷史上下文重新生成，或者說(shuō)重新「幻想」這個(gè)物體應(yīng)該是什么樣子、在哪里、處于什么狀態(tài)。

這也是為什么很多視頻生成模型在短時(shí)間內(nèi)看起來(lái)很連貫，但一旦拉長(zhǎng)時(shí)間、切換視角，或者引入復(fù)雜交互，就容易出現(xiàn)物體消失、結(jié)構(gòu)變形、前后邏輯不一致等問(wèn)題。

第二類是靜態(tài) 3D 場(chǎng)景生成。

這類模型能夠生成可供游覽的三維空間，相比單目視頻生成，它們確實(shí)更接近「空間」本身。但如果只有一個(gè)靜態(tài)空間，而沒(méi)有時(shí)間維度、物理邏輯和狀態(tài)轉(zhuǎn)移機(jī)制，也很難稱之為真正的世界模型。

一個(gè)真正有用的世界，不只是能被看見(jiàn)，還應(yīng)該能被改變、持續(xù)運(yùn)行、支持多個(gè)用戶或多個(gè)智能體同時(shí)進(jìn)入。

因此，VAST 對(duì)世界模型的判斷很明確：一套合格的通用世界模型，至少要同時(shí)解決兩個(gè)核心問(wèn)題。

第一，世界當(dāng)下的客觀狀態(tài)是什么；
第二，這個(gè)狀態(tài)如何隨著動(dòng)作、時(shí)間和交互持續(xù)演化。

只有同時(shí)具備這兩點(diǎn)，世界模型才可能從「生成一段內(nèi)容」走向「生成一個(gè)可交互環(huán)境」。

Project Eden：一次架構(gòu)級(jí)的重新定義

Project Eden 最關(guān)鍵的架構(gòu)選擇，是將底層狀態(tài)推演與視覺(jué)呈現(xiàn)進(jìn)行原生解耦。

在傳統(tǒng)視頻生成模型中，狀態(tài)和畫(huà)面是高度耦合的。模型看到的是像素，預(yù)測(cè)的也是像素。世界中有什么、物體如何變化、用戶動(dòng)作產(chǎn)生了什么影響，這些都隱含在視頻幀序列里。

Project Eden 的思路則不同：他們不是把空間、事件、視角和視覺(jué)外觀全部塞進(jìn)像素歷史里，而是把「世界本身」和「世界看起來(lái)的樣子」進(jìn)行了分拆。

第一層是結(jié)構(gòu)化狀態(tài)層，也就是這套系統(tǒng)的真正地基。

該層是一個(gè)跨時(shí)間持續(xù)存在、可以進(jìn)行動(dòng)作更新、可被任意相機(jī)位置查詢的全局結(jié)構(gòu)化表征。它并非龐大的 4D 點(diǎn)云（那會(huì)帶來(lái)不可接受的計(jì)算成本），而是一種緊湊的、兼顧效率與語(yǔ)義豐富性的隱式表征。這一層負(fù)責(zé)回答「世界里有什么、發(fā)生了什么」，它是世界的客觀基底，獨(dú)立于任何觀察者的視角而存在。

第二層是條件接口層，作為狀態(tài)與渲染之間的轉(zhuǎn)換樞紐。

這一層的功能是將底層的全局世界狀態(tài)，按照特定相機(jī)位置和觀察視角，轉(zhuǎn)化為適合生成任務(wù)使用的局部條件約束，包括語(yǔ)義信息、幾何線索、局部事件變化等中間表征。所有視角的渲染都從同一個(gè)底層狀態(tài)中提取條件，這從物理機(jī)制上保證了多視角之間的一致性：不同玩家看到的是同一個(gè)世界的不同窗口，而非各自獨(dú)立的像素歷史。

第三層是生成式渲染層，在底層狀態(tài)與中間約束的雙重指引下，負(fù)責(zé)生成精細(xì)化的視覺(jué)畫(huà)面。

最上層的渲染模型不再需要承擔(dān)猜測(cè)畫(huà)面結(jié)構(gòu)的責(zé)任，因?yàn)榻Y(jié)構(gòu)信息已經(jīng)由底層狀態(tài)提供。渲染器專注于自己真正擅長(zhǎng)的部分：在給定結(jié)構(gòu)約束的前提下，補(bǔ)全紋理、光照、材質(zhì)和高頻的局部動(dòng)態(tài)細(xì)節(jié)，生成高保真的視覺(jué)畫(huà)面。

這三層架構(gòu)改變了世界模型的基本組織方式。狀態(tài)不再依附于畫(huà)面，而是作為一個(gè)穩(wěn)定、可查詢、可演化的底座獨(dú)立存在；渲染也不再承擔(dān)全部邏輯推演，而是根據(jù)當(dāng)前狀態(tài)、視角和動(dòng)作條件按需生成畫(huà)面。

因此，Project Eden 不是在傳統(tǒng)視頻生成路徑上繼續(xù)預(yù)測(cè)下一幀，而是把問(wèn)題改寫(xiě)為：先推演世界下一刻的狀態(tài)，再?gòu)倪@個(gè)狀態(tài)中生成用戶此刻看到的畫(huà)面。前者更像視頻續(xù)寫(xiě)，后者才真正接近世界模擬。

解鎖三種系統(tǒng)級(jí)能力：持久化、可復(fù)用、原生多智能體并發(fā)

架構(gòu)的不同，最終體現(xiàn)在能力邊界的本質(zhì)差異上。Project Eden 的三層解耦架構(gòu)，自然解鎖了一系列傳統(tǒng)視頻生成方案無(wú)法觸及的系統(tǒng)級(jí)能力。

Project Eden 生成的多角色協(xié)同場(chǎng)景

環(huán)境長(zhǎng)程持久化，是其中最直觀、也最顛覆性的一項(xiàng)

在 Project Eden 中，物體離開(kāi)相機(jī)視野，并不意味著它從世界中消失。它依然存在于底層狀態(tài)里，并繼續(xù)按照世界邏輯運(yùn)轉(zhuǎn)。當(dāng)用戶轉(zhuǎn)身、離開(kāi)、再回來(lái)時(shí)，系統(tǒng)查詢的是同一個(gè)底層世界狀態(tài)（比如當(dāng)玩家轉(zhuǎn)身離開(kāi)，再轉(zhuǎn)回來(lái)，那棵樹(shù)還在那里），而不是根據(jù)歷史視頻幀重新生成一個(gè)相似畫(huà)面。

這意味著，世界可以擁有真正意義上的長(zhǎng)程記憶。用戶不再只是觀看一段一次性的生成視頻，而是進(jìn)入一個(gè)會(huì)持續(xù)存在的環(huán)境。

場(chǎng)景自由復(fù)用與確定性控制，是第二項(xiàng)核心能力

傳統(tǒng)視頻生成是一次性的時(shí)間線：生成過(guò)了，歷史就固定了，無(wú)法回退和分支。但在解耦架構(gòu)中，底層狀態(tài)是可以被讀寫(xiě)和干預(yù)的。用戶在場(chǎng)景中進(jìn)行的破壞、建造、改變，被真實(shí)寫(xiě)入底層狀態(tài)；后續(xù)進(jìn)入同一場(chǎng)景的其他用戶，會(huì)看到完全一致的世界狀態(tài)。這不再是每次生成一段新視頻，而是所有人共享同一個(gè)持續(xù)演化的世界。

例如，一個(gè)用戶在場(chǎng)景中破壞了某個(gè)物體、移動(dòng)了某個(gè)建筑、改變了某片區(qū)域的狀態(tài)，這些變化會(huì)真實(shí)留存在世界里。后續(xù)進(jìn)入同一場(chǎng)景的其他用戶，也能看到一致的結(jié)果。

這也讓生成內(nèi)容從一次性視頻，變成了可復(fù)用、可編輯、可持續(xù)運(yùn)營(yíng)的互動(dòng)空間。

第三是原生多人和多智能體并發(fā)交互

對(duì)于傳統(tǒng)視頻世界模型來(lái)說(shuō)，多玩家是一個(gè)非常困難的問(wèn)題。因?yàn)槊總€(gè)玩家都有自己的視角、動(dòng)作和畫(huà)面歷史，如果每一路都依賴單獨(dú)的視頻上下文來(lái)生成，算力成本和一致性維護(hù)都會(huì)迅速失控。

在解耦架構(gòu)中，底層狀態(tài)只有一份，被所有智能體共享；渲染層根據(jù)各自的位置和視角獨(dú)立生成畫(huà)面，計(jì)算成本從指數(shù)級(jí)變?yōu)榫€性級(jí)。當(dāng) N 個(gè)玩家同時(shí)在線，系統(tǒng)只需維護(hù)一個(gè)底層狀態(tài)和 N 路渲染，而不是 N 套完全獨(dú)立的生成系統(tǒng)。這不只是性能優(yōu)化，更是商業(yè)上大規(guī)模落地的先決條件。

數(shù)據(jù)策略：3D 生成真正難啃的硬骨頭

Project Eden 背后的數(shù)據(jù)構(gòu)建邏輯，同樣值得深究。

VAST 提出了一套原創(chuàng)的分層數(shù)據(jù)策略，其核心是雙態(tài)對(duì)齊數(shù)據(jù)的概念：只有底層推演態(tài)（隱式結(jié)構(gòu)與邏輯）與視覺(jué)渲染態(tài)（高保真視頻畫(huà)面）完美對(duì)齊的數(shù)據(jù)，才是訓(xùn)練世界模型真正的原生數(shù)據(jù)。

為此，VAST 在數(shù)據(jù)端部署了兩層策略，L1 為海量互聯(lián)網(wǎng)視頻自標(biāo)注，L2 為引擎合成數(shù)據(jù)。

在第一層，VAST 依托自身長(zhǎng)期積累的 3D 基礎(chǔ)模型能力，對(duì)海量無(wú)標(biāo)注互聯(lián)網(wǎng) 2D 視頻進(jìn)行反向解構(gòu)，提取深度、相機(jī)位姿與幾何軌跡，將單態(tài)視頻提煉為雙態(tài)數(shù)據(jù)。這一方式充分利用了互聯(lián)網(wǎng)視頻的多樣性，賦予模型對(duì)各類真實(shí)世界環(huán)境的強(qiáng)泛化能力。

在第二層，VAST 利用游戲引擎天然具備雙態(tài)運(yùn)行特征的優(yōu)勢(shì)，低成本批量生成帶有絕對(duì)精準(zhǔn) 3D 狀態(tài)標(biāo)注、動(dòng)作指令以及環(huán)境變化的配對(duì)數(shù)據(jù)，確保模型學(xué)到嚴(yán)密的物理演變與控制邏輯。

這種「互聯(lián)網(wǎng)數(shù)據(jù)泛化 + 引擎數(shù)據(jù)精準(zhǔn)化」的組合，在覆蓋廣度與邏輯精度之間取得了很好的平衡，既不放棄對(duì)真實(shí)世界分布的學(xué)習(xí)，也不依賴單一的合成數(shù)據(jù)來(lái)支撐物理邏輯。

不止內(nèi)容生成：Project Eden 的更大想象空間

Project Eden 指向的，并不只是一個(gè)更強(qiáng)的 3D 生成工具，而是下一代互動(dòng)內(nèi)容的底層基礎(chǔ)設(shè)施。

過(guò)去，3D 內(nèi)容生產(chǎn)的門檻非常高。一個(gè)可玩、可交互、可多人進(jìn)入的世界，通常需要美術(shù)、建模、動(dòng)畫(huà)、關(guān)卡設(shè)計(jì)、物理引擎、網(wǎng)絡(luò)同步等復(fù)雜流程。生成式 AI 已經(jīng)顯著降低了 3D 資產(chǎn)生成的門檻，但單個(gè)模型、單個(gè)場(chǎng)景、單段動(dòng)畫(huà)，都還不是一個(gè)真正可運(yùn)行的世界。

VAST 真正想解決的，是這些內(nèi)容如何被組織進(jìn)一個(gè)穩(wěn)定、持續(xù)、可交互的世界系統(tǒng)之中。

這也意味著，Project Eden 面向的不只是專業(yè)游戲開(kāi)發(fā)者。它可以服務(wù)普通創(chuàng)作者、虛擬內(nèi)容社區(qū)、社交空間、AI 原生游戲，以及未來(lái)大量由自然語(yǔ)言驅(qū)動(dòng)的互動(dòng)內(nèi)容生產(chǎn)需求。

但從更長(zhǎng)遠(yuǎn)的角度看，Project Eden 的潛力可能不止于內(nèi)容消費(fèi)。

因?yàn)樗S護(hù)的是一個(gè)穩(wěn)定的底層世界狀態(tài)，而不是一次性生成的視頻畫(huà)面，這使它天然適合作為通用人工智能的世界底座。對(duì)于智能體來(lái)說(shuō)，關(guān)鍵從來(lái)不只是看到逼真的畫(huà)面，而是環(huán)境能否按照一致的規(guī)則響應(yīng)動(dòng)作、保留變化并持續(xù)演化。

因此，Project Eden 的價(jià)值不只是把 3D 生成推進(jìn)到交互內(nèi)容階段，更在于為世界規(guī)則學(xué)習(xí)、仿真模擬、具身智能、多智能體協(xié)同研究提供一個(gè)可持續(xù)運(yùn)行的環(huán)境。相比純視頻模型，它更接近一個(gè)可以被反復(fù)進(jìn)入、持續(xù)實(shí)驗(yàn)、不斷積累交互經(jīng)驗(yàn)的世界底座。

從這個(gè)意義上說(shuō)，VAST 要做的不是再造一個(gè)視頻生成模型，而是試圖搭建下一代互動(dòng)內(nèi)容和通用人工智能共同需要的基礎(chǔ)設(shè)施：一個(gè)穩(wěn)定、有狀態(tài)、可演化、可被智能體長(zhǎng)期訓(xùn)練和探索的生成式世界。

結(jié)語(yǔ)

VAST 是一家全球領(lǐng)先的通用人工智能公司，其愿景是讓所有人都能自由創(chuàng)作、沉浸式體驗(yàn)可交互的世界

在此之前，VAST 已經(jīng)通過(guò) Tripo 系列 3D 大模型，在 AI 3D 生成領(lǐng)域建立了較強(qiáng)的技術(shù)積累。其中，Tripo P1.0 能夠在 2 秒內(nèi)生成專業(yè)建模師級(jí)別的 3D 模型，生成速度較市面主流方案提升百倍以上；Tripo H3.1 則在模型精度、結(jié)構(gòu)完整性和貼圖質(zhì)量上持續(xù)保持行業(yè)領(lǐng)先。旗下平臺(tái) Tripo Studio 已聚集超過(guò) 2000 萬(wàn)創(chuàng)作者，累計(jì)生成近 1 億個(gè) 3D 模型。

Tripo P1.0 生成效果

近期，VAST 又在 Tripo Studio 上線了兩項(xiàng)新能力。

其中，Tripo 8K 貼圖算法進(jìn)一步提升了 3D 資產(chǎn)的細(xì)節(jié)表現(xiàn)，貼圖精度已經(jīng)突破人眼分辨極限，即便在近距離特寫(xiě)下，模型表面的紋理、材質(zhì)和細(xì)節(jié)也能保持足夠真實(shí)。

Segmentation V2 智能部件拆分，則讓 3D 資產(chǎn)具備了更精細(xì)的結(jié)構(gòu)拆解能力：

在 3D 資產(chǎn)生成上打下基礎(chǔ)之后，VAST 進(jìn)一步把能力邊界從「生成一個(gè)模型」推向「生成一個(gè)可運(yùn)行的世界」。

如果說(shuō) Tripo 讓更多人能夠低門檻生成 3D 內(nèi)容，Project Eden 則是讓這些內(nèi)容真正「活」在一個(gè)可持續(xù)運(yùn)行的世界里。世界模型的競(jìng)爭(zhēng)，也由此從「誰(shuí)更會(huì)生成」走向「誰(shuí)更能維護(hù)一個(gè)世界」。

當(dāng)然，通往真正通用的世界模擬器還很長(zhǎng)，Project Eden 目前更像是確立了一條重要的技術(shù)路徑：世界模型的未來(lái)，不只是讓 AI 更會(huì)畫(huà)世界，而是讓 AI 開(kāi)始學(xué)會(huì)維護(hù)一個(gè)世界。

當(dāng)世界模型生成的內(nèi)容不再只是畫(huà)面，而成為一個(gè)可以持續(xù)存在、被反復(fù)進(jìn)入、還能被改變的系統(tǒng)，AI 內(nèi)容生成、游戲、空間計(jì)算、機(jī)器人訓(xùn)練和智能體平臺(tái)之間的邊界，也會(huì)隨之被重新打開(kāi)。

視頻鏈接：https://mp.weixin.qq.com/s/IbPKD5nxP6f7y4tOblX3xw

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.