![]()
![]()
不能因為VLA有短板,就把世界模型推上神壇。
作者|王博 張麟
“So let's all take a moment of silence for our dear friend VLAs. They've served us well, rest in peace, long live World Action Models.”
這是英偉達首席研究科學家、具身自主研究團隊負責人范麟熙(Jim Fan)4月20日在紅杉AI Ascent大會上的發言,對應中文是:“讓我們為VLA默哀吧。它們曾經很好地服務過我們,安息吧,World Action Models萬歲。”
![]()
Jim Fan在紅杉AI Ascent大會上演講,圖片來源:Sequoia Capital Youtube賬號
這句話很快被一些媒體和博主概括成一個更鋒利也更適合傳播的判斷:VLA已死。
它之所以有傳播力,是因為它正好擊中了當下具身智能行業的焦慮。
過去兩年,VLA(vision-language-action 視覺-語言-動作)模型幾乎是機器人“大腦”的主流敘事。它把大模型時代最熟悉的能力接入機器人:視覺負責看見環境,語言負責理解任務,動作負責執行指令。對一個長期依賴示教、規則和固定工藝的機器人行業來說,VLA第一次讓人看到“通用機器人”的入口。
但也是從今年開始,業界對VLA質疑明顯變多。它能理解“把杯子拿起來”,卻未必知道杯子會不會滑;它能識別一件衣服,卻未必知道衣服被抓起后如何變形;它能聽懂“打開抽屜”,卻未必知道手、把手、阻尼、摩擦和力之間的關系。
機器人真正面對的不是文本,也不是圖像,而是會移動、反光、變形、遮擋、碰撞、失控的物理世界。
這正是Jim Fan提出World Action Model(WAM)的背景。
在他參與署名的論文《World Action Models are Zero-shot Policies》中,論文摘要說得相對克制:當前SOTA VLA擅長語義泛化,但在新環境中泛化到未見過的物理動作時存在困難;他們提出DreamZero,一個基于視頻擴散骨干的World Action Model,通過預測未來世界狀態和動作來學習物理動力學。DreamZero項目頁也稱,其在真實機器人實驗中新任務、新環境泛化上相較VLA基線取得超過2倍提升。
Jim Fan真正送別的,不是視覺、語言、動作這三種能力,而是一種傳統的VLA范式。
VLA沒有死。死的是一種過度樂觀的想象:只要把視覺語言模型接上機器人動作輸出,機器人就能自然獲得對物理世界的理解。
1.為什么會出現“VLA已死”的言論?
任何一個技術路線被宣判死亡,通常都不只是技術問題,也是一種產業情緒。
“VLA已死”之所以在今天有市場,是因為過去一年,具身智能行業對VLA的期待太高了。
VLA的邏輯很直接:機器人通過視覺觀察環境,通過語言理解人類指令,再把理解轉化為動作輸出。這條路線天然繼承了大模型時代的信仰。
影身智能創始人閔偉認為:“將VLA應用在機器人身上,這種想法源于大語言模型時代的思維慣性。”
大語言模型證明了,海量數據和大規模預訓練可以涌現出強大的語言理解和推理能力。視覺語言模型進一步證明,模型不只可以處理文本,也可以理解圖像和視頻。到了機器人這里,一個自然的想法就是:既然模型能看懂,也能聽懂,那它為什么不能動起來?
這也是VLA迅速流行的原因。
它給機器人行業提供了一套簡單、統一、易于講述的“大腦范式”:過去的機器人是執行機器,VLA之后的機器人開始具備任務理解能力。
從產業實踐看,優必選Walker S2、智平方AlphaBot 2、銀河通用Galbot等,都在不同程度上搭載或強調VLA模型;智平方曾推出GOVLA 0.5,并試圖在VLA框架下引入全域感知、全身控制和統一決策;宇樹科技也在2026年1月開源發布UnifoLM-VLA-0模型,用于復雜操作任務。
這些案例說明,VLA確實推動了機器人從“固定動作執行”向“開放任務理解”邁了一步。
但問題在于,行業很快發現:理解任務,不等于理解物理世界。
機器人不是只要知道“杯子是什么”“人要我拿杯子”就夠了。它還要知道杯子的重量、摩擦、重心、材質,手指從哪個角度接近,抓握力度多大,拿起過程中液體是否會晃動,放下時桌面是否平整。
2026年3月,科技博客Not Boring的作者Packy McCormick與General Intuition CEO Pim De Witte聯合發表了一篇約三萬字的長文,名為《World Models: Computing the Uncomputable》。在這篇文章中,作者假設了一個簡單的場景:
試著僅用文字來描述拍手。雙手在空間中的相對位置、以皮秒為單位的變化、接觸點、聲音、雙手靠近和分開時的樣子、手掌如何擠壓對方、兩掌之間的空氣發生了什么?你拍手時視野中看到了什么?你的手臂是怎么彎曲來配合拍手的?你袖子上的布料有什么反應?背景中在發生什么?你旁邊的人注意到你在拍手了嗎?他們有什么反應?
很顯然,任何一個人都做不到用語言來描述這個場景。
小鵬集團董事長何小鵬也發表過類似的觀點,他曾表示:“一段1200多字的文字描述,也無法精準地‘翻譯’一個十幾秒視頻。”
而這種由于語言轉譯造成的精度缺失,以及VLA模型“靠推理得出空間幾何規律和物理定律”的底層運行邏輯,極易讓機器人的抓握誤差增加,任何一個物理的狀態變化,比如光線折射、物理變形都會嚴重影響VLA模型的動作輸出。
而這些問題造成的后果,就是業內詬病的泛化性不足。
流形空間創始人兼CEO武偉告訴「甲子光年」,VLA本質是將高維度的視頻域降維到語言域,將視頻與文本指令對齊,再通過大量的機器人經驗數據(如軌跡數據、動作數據)進行對齊和訓練,讓機器能夠讀懂語言指令,并基于模仿學習高效、可靠地完成具體任務。其范式本質是基于已有VLM基座模型在做“機器翻譯”任務的“后訓練”。
他認為,這種訓練方式會造成兩個弊端。
一方面,VLA模型在訓練時與特定的機器人本體強綁定。換一個機器人形態,例如從人形機器人換成四足機器狗,甚至是換一種機器人本體構型,模型就需要大量后訓練數據重新適配,部署成本高昂。
另一方面,VLA模型只是“知其然”,但“不知其所以然”。其本質是通過大量模仿學習到某種經驗,并在需要的時候將經驗復刻出來。它只能執行它見過的動作,當遇到訓練數據中從未出現過的、需要推理和規劃的新穎場景(即長尾問題中的長尾),它會束手無策,它無法預測一個動作的連鎖反應。
這些問題不是語義問題,而是物理問題,這也是傳統VLA模型路線的短板。
2.被誤讀的VLA
![]()
圖片來源:AI生成
“VLA已死”這句話太鋒利,也太容易被誤讀。
如果把它理解成“機器人不再需要視覺、語言和動作模型”,這是錯誤的。
雖然Jim Fan讓“VLA安息”,但即使是英偉達自己,也并沒有真正放棄VLA。英偉達Cosmos官方資料顯示,Cosmos Predict可以生成面向physical AI任務的預測視頻世界,并可用于后訓練、閉環策略和機器人中心仿真;同時,英偉達也仍在用Cosmos等世界基礎模型為GR00T等機器人模型生成訓練數據。
這說明英偉達的真實路線不是“拋棄VLA”,而是把VLA、世界模型、合成數據、仿真、真實機器人數據和低層控制重新組合。
換句話說,VLA正在被重新定位。
傳統VLA的問題是它很容易被簡化成:視覺/語言輸入 → 動作輸出。這種架構的最大優勢是語義泛化。它能利用互聯網規模的視覺語言知識,讓機器人理解更多物體、更多指令、更多任務關系。
但它的短板也很明顯:它對物理過程的建模不夠顯式。它擅長回答“這是什么”“我要做什么”,卻不一定擅長回答“我這樣做之后,世界會發生什么”。
Jim Fan批評的正是這種重心錯配:過去的VLA把大量能力放在語言和知識理解上,卻把連續動作、接觸動力學、狀態變化這些機器人最困難的問題,壓縮成了一個動作頭(action head)。
所以,更準確的判斷應該是:傳統VLA范式正在被挑戰,但VLA能力本身并沒有失效。
VLA仍然是機器人理解任務的重要接口。沒有VLA,機器人很難擺脫固定程序和封閉指令;但只有VLA,機器人也很難真正進入復雜物理世界。
這就是“VLA已死”最應該被校正的地方。
VLA不是死了,而是不夠了。
3.世界模型不是終局
2026年3月,AMI Labs CEO Alexandre LeBrun公開表示:“我預測世界模型將成為下一個流行詞。六個月后,每家公司都會自稱世界模型公司來融資。”
這或許可以成為如今世界模型熱潮中一個鮮明的注腳,甚至有人表態,世界模型會全面取代VLA。
VLA和世界模型并不是同一層東西。
VLA更接近一個行動策略模型。它回答的是:我現在該做什么?
世界模型更接近一個環境預測模型。它回答的是:如果我這樣做,世界會怎樣?
這兩個問題看似接近,實際差別很大。
一個VLA系統接收到圖像和語言指令后,通常要輸出機器人動作,比如機械臂移動、夾爪開合、手指軌跡、身體姿態調整。它的核心是把“觀察”和“指令”映射成“行動”。
而世界模型關心的是狀態變化。它不是直接問機器人下一步怎么動,而是預測:在當前狀態下,如果執行某個動作,下一時刻的世界會變成什么樣。
還是以前文提到的拍手為例。對人類來說,拍手是極其簡單的動作;但如果用語言完整描述它,就會涉及雙手空間位置、接近速度、接觸點、壓力、聲音、空氣擾動、手臂彎曲、衣物褶皺、周圍環境反饋等大量連續變化。
VLA可以把“拍手”理解為一個任務,但世界模型試圖理解的是:兩只手在運動中會如何接近、接觸、反彈,聲音如何產生,動作完成后狀態如何變化。
因此,VLA和世界模型的區別可以壓縮成一句話:VLA讓機器人理解任務,世界模型讓機器人預判后果。
這也是為什么世界模型會變得重要。
世界模型在產業里至少有三種用途:
第一,作為數據生成器,補充昂貴的真實機器人數據。
第二,作為仿真訓練場,降低真實試錯成本。
第三,作為預測模塊,幫助機器人在行動前評估未來狀態。
Jim Fan提出的WAM,則更進一步:不是把世界模型放在外面做訓練場,而是讓模型同時預測未來世界狀態和機器人動作,把“世界預測”和“動作生成”放進同一套架構里。DreamZero論文也把這一點作為區別于傳統VLA的核心:WAM通過視頻作為世界演化的稠密表征,聯合建模視頻與動作。
但反過來,世界模型也不能被神化。
今天行業里最大的問題之一,是幾乎所有人都可以說自己在做世界模型。
據不完全統計,目前中國市場上有超過30家公司在不同程度上宣稱自己是世界模型或擁有世界模型屬性:做視頻生成的,可以說自己在生成世界;做仿真的,可以說自己在構建世界;做自動駕駛模擬器的,可以說自己在預測世界;做機器人訓練數據的,也可以說自己在建模世界。
結果是,世界模型正在從一個技術方向,變成一個筐,什么都能往里裝。
其實,世界模型在學術界和產業界都還存在定義爭議:有人認為世界模型必須包含對潛在狀態的精確預測和物理因果理解,而不是模擬一種可能出現的視覺結果;也有人認為通過像素級視頻預測,同樣能讓模型學會物理規律。
一位AI從業者告訴「甲子光年」:“現在來說,世界模型沒有一個標準的定義。市場上有很多流派,有的流派認為做視頻生成也算世界模型,有的則不這么認為,每個流派也都有一個大佬在后面撐腰。”
這正是今天行業討論世界模型時最需要警惕的地方。
對機器人來說,一個世界模型是否有價值,不取決于它生成的視頻多真實,而取決于它能否進入真實任務閉環:
它預測的狀態是否符合物理規律?
它生成的數據能否提升真實機器人表現?
它能否幫助機器人減少試錯?
它能否處理接觸、摩擦、遮擋、柔性物體和長程任務?
它能否和機器人控制系統穩定耦合?
如果不能回答這些問題,世界模型就只是更高級的視頻生成,而不是具身智能的基礎設施。
更重要的是,世界模型本身也有幻覺風險。在視頻生成里,物體穿模、反重力、邊界模糊、狀態不一致,可能只是畫面瑕疵;但在機器人訓練里,這些錯誤會變成錯誤的物理經驗。
一個看起來合理但物理上錯誤的世界,對機器人來說可能比沒有世界模型更危險。
所以,不能因為VLA有短板,就把世界模型推上神壇。世界模型補的是“物理預判”這塊短板,但它還必須接受真實世界校驗。
這也是為什么,大量機器人公司依然在采集遙操數據、真機數據、工廠數據和客戶現場數據。仿真可以加速訓練,但真實世界仍然是最后的裁判。
4.比流行詞更重要的事情
把VLA和世界模型放在一起討論,最容易犯的錯誤,是把它們理解成替代關系。
舊路線叫VLA,新路線叫世界模型。VLA過時了,世界模型上位了。這種敘事很爽,但不準確。
更接近現實的情況是,機器人系統正在從單一模型敘事,走向分層架構敘事。
「甲子光年」認為,一個真正可用的機器人,至少需要四層能力。
第一層是任務理解。它要知道人要它做什么,目標物體在哪里,任務成功的標準是什么。這里VLA仍然有價值。
第二層是狀態預測。它要知道如果自己采取某個動作,物體、環境、人和自身會如何變化。這里世界模型或者WAM會發揮更大作用。
第三層是運動控制。它要把高層意圖變成連續、穩定、可執行的身體動作,包括軌跡規劃、力控、避障、平衡和異常恢復。
第四層是數據閉環。它要從每一次成功和失敗中回收數據,判斷是識別錯了、預測錯了、控制錯了,還是場景本身超出了能力邊界。
這四層能力,沒有任何一層能單獨構成“通用機器人”。
VLA解決不了全部問題,世界模型也解決不了全部問題。VLA更像任務入口,世界模型更像物理預測器,控制系統是執行器,真實數據是校準器。
「甲子光年」了解到,一些團隊會將世界模型作為一個VLA模型的數據生成器和仿真訓練平臺,用世界模型合成的數據投喂給VLA,或者直接讓VLA模型在一個世界模型中進行訓練,以增強其動作精度和泛化能力。
此外,部分前沿團隊也在嘗試將世界模型能力直接注入VLA架構。
比如智平方的GOVLA 1.0(Video2Act)大模型,雖然整體架構仍是VLA模型,但其明確表示嵌入了世界模型,并且引入了快慢系統的概念,世界模型就運行在慢系統中,完成任務拆解、邏輯推理、行動預測等工作。
智平方創始人郭彥東告訴「甲子光年」:“VLA在具身智能產品上,是一個具有‘終局感’的架構范式。”同時他還表示:“把世界模型用來增強VLA,和把世界模型融入VLA,是不同的兩個范式。我們認為把世界模型融入到VLA里面,讓VLA具備更強的泛化能力,是VLA變得更強的必由之路。”
一些更前沿的學術研究,也在試圖讓VLA和世界模型共享輸入信息的表征,并且共同完成動作輸出決策,當然這種技術路徑目前還很初期。
“VLA已死”是一個好標題,但不是一個好結論。
它的價值在于提醒行業:不要再把大語言模型的成功經驗簡單套到機器人身上。機器人不是ChatGPT套一個機械臂,也不是VLM后面接一個動作頭。真實世界的連續性、物理性和不可逆性,決定了機器人必須學習動作如何改變世界。
VLA真正需要的不是葬禮,而是進化;世界模型真正需要的也不是造神,而是落地。
具身智能行業其實并不需要看下一個流行詞是什么,大家的關注點更應放在誰能把任務理解、世界預測、運動控制和真實數據閉環變成一個可部署的系統。
到那一天,VLA也好,世界模型也好,都不會再是文章標題里的爭議詞。
它們會變成機器人真正干活時,身體里不再被單獨提起的基礎能力。
(封面圖來源:AI生成)
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.