網易首頁 > 網易科技 > 網易科技 > 正文

VAST斬獲近2億美元A輪系列融資，首席科學家解讀新發布世界模型

2026-06-01 17:14:18　來源: 態℃

北京舉報

分享至

出品｜網易科技《態度AGI》欄目

作者｜丁廣勝

“世界模型”這個詞越來越高頻地出現在AI敘事里。

OpenAI、Google等主張用視頻生成來模擬世界；李飛飛則提出空間智能（Spatial Intelligence）的概念，核心是讓AI真正理解三維空間關系；還有楊立昆長期主張的JEPA路線，核心是學習世界的內部狀態。

還有自動駕駛、機器人、視頻生成公司都給自己貼上“世界模型”的標簽，這個概念正在迅速升溫，也不可避免地變得模糊。

在VAST首席科學家曹炎培看來，世界模型不應該只是視頻生成的高級說法，也不應該停留在研究論文或概念包裝里。對于VAST而言，世界模型要解決的是一個更具體的問題：如何讓每個人都能親手創造、自由探索無數個可交互的世界。

“我們是為下一代互動內容生態和通用人工智能打造專屬世界底座，來構筑最底層的造萬物和造世界的能力，也即創造世界的引擎。”曹炎培說。

截至目前，VAST已經積累了網易、騰訊、索尼、拓竹等大批頭部客戶，其一站式 AI 3D 工作臺Tripo Studio和Tripo系列模型正在貢獻充沛的現金流，Tripo Studio平臺已聚集超過2000萬創作者。

而就在剛剛，VAST官宣斬獲A+及A++兩輪融資，合計近2億美元。本輪融資由渶策資本、國壽長三角科創基金領投，深圳市人工智能終端產業基金（產業方為全球頭部終端廠商榮耀）、知名產業戰投、上海半導體產投等產業投資方，深創投、元生資本、沃賦創投與方廣資本等一線財務資本聯合投資；同時，春華創投、靖亞資本、BV百度風投、東方嘉富等老股東亦持續超額追投。這是 VAST 繼今年3月融資后，時隔兩月再度獲得資本加持。

1、“造萬物”和“造世界”

一同官宣的還有VAST 全新的世界模型項目Project Eden。

區別于業內“動作條件視頻生成”與“靜態3D 場景生成”等常規路徑，Project Eden 創造性地將底層狀態推演與視覺呈現進行了原生解耦。這一突破使它成為全球首個允許對世界狀態進行自主維護與確定性控制的世界模型，并自然解鎖了環境長程持久、場景自由復用、多人并發交互等顛覆性能力。

據介紹，Project Eden 旨在成為下一代低門檻交互式內容創作的底層引擎，同時能夠為具身智能等智能體提供具備高邏輯一致性的訓練與評測環境。

在我們與曹炎培的對話中，他把VAST的能力拆成兩層：第一層是“造萬物”，第二層是“造世界”。

所謂“造萬物”，對應的是AI 3D資產生成。曹炎培以傳統游戲開發舉例。過去，游戲里的3D資產、關卡和道具，大多需要提前制作好，并打包進游戲包體中。即便是《俠盜獵車手》（GTA）這樣的開放世界游戲，能夠給玩家巨大空間感，本質上仍是一個預設內容足夠龐大的封閉體驗。

而如果用戶能夠隨時生成自己想要的模型和物體，并且這些資產天然兼容游戲或圖形管線，那么交互內容和游戲行業的設計范式就可能被改變。曹炎培提到，VAST的Tripo P1.0生成出來的模型，是“天然和游戲或者說圖形管線兼容的”。這意味著，未來游戲里的環境和交互對象不一定都要預設，玩家或Agent可以根據實時進程瞬間構造新的關卡、角色和道具。

但“造萬物”還不夠。

在曹炎培看來，真正海量的交互，需要建立在一個有動態、有推演、有機制的環境里。這就進入了第二層能力：造世界。

這正是VAST做世界模型的原因。靜態資產解決的是“世界里有什么”，但世界模型要解決的是“這個世界如何變化”。在一個真正可交互的世界中，物體要能夠發生碰撞、角色要能夠行動、環境要能夠演化，多名玩家也要能夠在同一空間中實時交互。

曹炎培認為，“造萬物”和“造世界”結合之后，玩家和創作者的邊界會被模糊。過去，玩家體驗的是預設的固定內容；未來，用戶可以實時生成、實時交互，甚至直接創造自己的世界。

這也是為什么曹炎培會把AI 3D、世界模型和AI Coding放在同一個框架里理解。在他看來，這三者不是孤立工具，而是通向UGC交互世界的“技術三角”。

AI 3D解決的是資產和狀態，回答“世界里有什么”；世界模型解決的是演化和動力學，回答“世界如何變化”；AI Coding解決的是高層邏輯和游戲規則，回答“這個世界運行的規則是什么”。

換句話說，在這個三角里，AI 3D生成精準幾何體、物理邊界和初始場景結構；世界模型推演碰撞、破碎、運動和狀態變化；AI Coding則把自然語言中的設定轉化成秩序。

2、世界模型的關鍵是“狀態演化”和“視覺呈現”解耦

據網易科技《態度》了解，VAST早已將世界模型提到公司長期戰略的高度，是更長期、更深層的技術方向。

深扒VAST的世界模型路線，曹炎培總結道，“底層狀態的演化推演和最終視覺呈現原生解耦。”這也是VAST與其他世界模型路線差異的關鍵，是Day one開始就考慮的事。

當然，曹炎培并不否認，Google、OpenAI等的世界模型，和VAST在底層目標上有共振。它們都試圖讓模型具備推演未來世界和構建世界的能力。但VAST的出發點更加具體：目標是讓每個人都能親手創造、自由探索無數個可交互的世界。這決定了VAST從第一天起就必須考慮幾個約束：環境長程記憶、多人與智能體并發交互、在工程上能夠低成本且可規模化落地。

曹炎培舉例說，一個生成出來的世界應該一直存在那里。用戶今天進入，明天重新打開電腦，還能回到同一個世界，繼續體驗它。這就要求模型維護某種穩定的世界狀態，而不只是生成一段看起來連續的視頻。

在曹炎培看來，Genie這類模型可以被理解為一種“暴力”的單體視頻模型。它把空間、世界、交互、視角和最終外觀呈現，全部壓縮到像素或視頻空間中，用“一鏡到底”的方式探索世界。

問題在于，當鏡頭離開世界的某個角落時，模型并不知道那里發生了什么。鏡頭再回去，物體可能消失、不一致，或者發生變化。原因是這類模型沒有真正維護一個“世界狀態”。

曹炎培認為，這種機制更像是“幻想”。模型依賴海量視頻數據中學到的分布匹配，生成看起來合理的畫面，但并不真正知道某個物體在離開鏡頭之后是否還存在、位置是否改變、狀態是否演化。因此，單目視頻生成模型很難支持真正的環境持久化，也很難支持多玩家或多智能體共同進入同一環境交互。

“從原理上就注定了這種單目的視頻生成模型很難，甚至暴論一點，永遠沒有辦法實現真正的環境持久化，沒有辦法真正地支持多人或多智能體共同地對一個環境交互。”曹炎培說。

這也是VAST為什么選擇“狀態演化”和“視覺呈現”解耦。在這一路線中，模型首先要維護一個底層狀態。這個狀態不一定必須是顯式3D，也可以是隱式或抽象的，但它必須描述整個世界里有什么東西、它們在什么位置、它們之間如何交互。之后，再由另一個模型在特定視角和條件下，把這個狀態呈現成精美畫面。曹炎培表示，這種解耦設計，才有可能支撐多人互動、長期記憶、場景復用等交互內容所必需的能力。

所以，一套合格的通用世界模型，必須同時解決兩大核心命題，第一是定義世界當下的客觀狀態（State），第二是驅動世界持續自主演化（Transition）。據介紹，Project Eden世界模型正是解決這些問題而生。它有三大核心功能，環境長程持久、場景自由復用、多人交互并發。

不過，曹炎培也承認，世界模型的技術路線還沒有完全收斂。VAST也在同清華大學、香港大學等科研院所合力進行科研攻關，已發表多篇論文并獲行業認可。在他看來，目前整個行業仍處于深度探索階段。

即便如此，曹炎培依然認為，世界模型有可能帶來堪比ChatGPT的“aha moment”。某種意義上，世界模型需要通過一個“等效的圖靈測試”：人無法分辨某個下一時刻狀態究竟來自真實世界，還是由模型生成。一旦做到這一點，世界模型就會迎來真正的爆發。

3、面對競爭，跳出局部最優，最底層架構思考模型的上限

在競爭層面，曹炎培認為，VAST與通用大模型公司的關系更多是互補。OpenAI、Google等通用大模型在切入3D時，往往通過生成代碼間接實現，把3D當作語言的副產品。語言模型擅長理解用戶意圖和宏觀語義推理，但很難精確處理幾百萬個頂點、面片連接、局部褶皺等復雜幾何問題。

“這些語言大模型是用來理解用戶意圖的，可以說是高層代碼，但是我們提供的是底層3D形態，世界的演變，還有這些畫面呈現的接口，”曹炎培說，“我們當然也有可能走出一條新的通用智能路線。”

而與大廠內部3D團隊相比，曹炎培認為，VAST沒有歷史包袱。大廠團隊往往被現有業務牽引，需要適配陳舊管線和具體項目KPI，容易陷入局部最優。VAST作為獨立第三方，可以從第一性原理出發，重新定義未來3D生成、世界模型及其所帶來的工業標準，也因此在更早的時候就積累了絕對領先的3D和世界模型數據優勢。

那大廠的算力優勢呢？曹炎培坦言，算力只能決定下限，底層的架構能力和底層思考的knowhow和mindset才決定上限。

起碼目前，在目之所及范圍內，曹炎培說，VAST沒有競爭對手。