作者 | 邱曉芬
編輯 | 袁斯來
過去半年,國內具身智能賽道經歷了一場靜悄悄的重心轉移:聚光燈從硬件本體的“自由度競賽”,逐漸移向決定機器人智能上限的深水區。
只是,當行業反復討論“機器人能否通過暴力堆數據復刻大語言模型 ScalingLaw”時,上海創智學院副教授、智元機器人首席科學家羅劍嵐,給出了一個并不隨大流的判斷:具身智能不能簡單照搬大語言模型的發展路徑。
羅劍嵐的表達風格極具辨識度。他習慣在中英文專業術語之間快速切換,邏輯推進密集,很少給出模糊的折中答案。
相比停留在“數據、模型、Infra哪個更重要”的單點爭論上,他更傾向于直接指出問題本身:當前具身智能的核心矛盾,不是某一個環節的單獨突破,而是這些環節能否在真實部署中形成閉環。
這種判斷來自他橫跨學術研究與產業落地的經歷。作為曾經的伯克利博士,他師從具身智能領域奠基性人物Sergey Levine(謝爾蓋·列文)。畢業后,他曾任Google X與DeepMind研究科學家,14個月前,他回國并加入創智學院和「智元機器人」。
在他看來,目前行業里相當一部分所謂“具身基礎模型”的訓練方式,并不是真正意義上的預訓練,更接近中訓練(Mid-training)或微調(Fine-tuning)。
原因也很現實:當前高質量真機交互數據仍然稀缺,尤其是覆蓋多場景、多任務、多本體,并且包含失敗、糾錯和長尾交互的數據,遠不足以支撐類似大語言模型那樣的大規模預訓練。
這也造成了一個現象:在真機交互數據不足的階段,行業里不少團隊會選擇在已有開源模型底座之上,疊加高質量遙操數據,在特定任務上進行對齊或微調。
這種路徑在短期內可以快速提升實驗室任務表現,但它并不等同于真正意義上的具身基礎模型預訓練。模型在離線數據上的Loss(損失)曲線變好,更多說明它更好地擬合了已有數據;至于能否遷移到新的物理場景、處理長尾擾動和失敗恢復,仍需要通過真實部署來驗證。
(作者注:Loss是“模型每次猜錯了多少的分數”,Loss曲線就是把這分數按時間畫出來。Loss曲線往下走,通常表明模型在訓練數據上擬合得更好;但在機器人領域,它并不必然等同于真實場景中的部署成功率提升。)
也正因此,羅劍嵐認為,具身智能不能盲目照搬GPT式的Scaling Law。
具體而言,在大語言模型中,預訓練Loss與模型能力之間存在相對穩定、可預測的統計關系。
但在機器人領域,離線Loss下降并不必然對應真實部署成功率提升——機器人面對的是開放物理世界,涉及接觸、擾動、長尾場景、硬件差異和任務反饋,模型“記住”了數據,并不代表它能真正“駕馭”現實。
因此,具身智能真正的突破不只是堆參數或堆數據,而是應該部署一個閉環——直到機器人部署規模擴大后,新場景適配成本能夠持續下降,數據回流能夠穩定提升模型能力,這才是物理世界中的“Scaling Law時刻”。
在這一邏輯框架下,回國后羅劍嵐,核心任務正是構建一個可規模化演進的具身智能閉環。
他將這一年的工作重點凝練為三個技術支點:
首先是SOP(可擴展在線后訓練)。SOP面向的是大規模機器人在線后訓練所需的基礎設施問題,包括低延遲數據回流、云端計算、訓練調度和模型更新。它的價值不只是一個算法模塊,而是驗證機器人數據能否從部署現場高效進入訓練閉環。
其次是LWD(部署中學習)。它試圖打破過去“訓練—部署”的割裂狀態,讓機器人不再是出廠即定型的產品,而是在便利店、商超等真實場景中持續進化的系統。當機器人遇到未見過的貨架形態、商品擺放或操作擾動時,系統能夠通過真實交互不斷積累數據,并將這些經驗轉化為后續模型改進。
最后是近期由上海創智學院和「智元機器人」聯合發布的τ0-WM世界模型。
τ0-WM并不把視頻生成當作最終目的,而是把視頻預測作為學習物理動力學、評估動作后果的一種手段。更具體地說,它希望成為一個動作條件的物理推演器:在機器人真正執行動作之前,先在模型內部比較不同候選動作可能帶來的未來結果,從而幫助系統選擇更可靠的動作。
舉個例子,面對桌邊的雞蛋,普通VLA可能直接輸出抓取動作;而動作條件世界模型可以先比較幾條候選軌跡的未來后果,避免選擇會把雞蛋掃落桌面的動作。
在羅劍嵐看來,接下來具身智能真正的決勝點,不是硬件,更不是數據、模型、Infra單點能力的強弱,而是它們能不能彼此形成閉環——這就像是木桶的不同木板,任何一個關鍵環節短板過短,系統能力都難以真正釋放。
“誰能率先在便利店、商超、倉儲等半結構化場景中,跑通‘部署—數據—迭代’的數據飛輪,誰就真正具備了大規模商業化的可能性”,他表示。
而關鍵的時間節點,或許正是未來的12到18個月。
近期,硬氪與羅劍嵐聊了聊。以下是采訪實錄,略經摘編。
真正的具身預訓練,門檻比想象中更高
硬氪:你為什么認為現在國內具身智能行業里,真正做基礎模型訓練的團隊很少?
羅劍嵐:類比大語言模型的發展階段,我覺得現在機器人領域有能力做具身基礎模型預訓練的團隊很少,大家做的更多是fine-tuning(微調)或“中訓練”(Mid-training)。
甚至很多中訓練也不算夯實。現在行業里很多所謂“機器人基礎模型”,更接近在已有開源底座上的任務適配或中訓練,還沒有真正進入大規模、異構、真實交互數據驅動的預訓練階段。
行業里甚至有一個半開玩笑的說法:“paper上,PI(Physical Intelligence)從來沒贏過;現實里,PI從來沒輸過。”
這句話背后反映的其實是一個問題:機器人模型不能只看論文指標,最終還是要看真實世界里的部署效果。
回顧LLM的路徑,預訓練模型本身的輸出其實充滿噪聲,需要通過中訓練進行高質量對齊,再通過后訓練進一步激活特定能力。
真正的機器人基礎模型預訓練,也應該像LLM一樣,吸納極其廣泛、甚至包含噪聲的數據。只不過機器人領域的數據不是靜態文本,而是真實世界中的交互、失敗、糾錯、恢復和長尾場景。
硬氪:預訓練、中訓練、后訓練,在數據和架構上有什么區別?
羅劍嵐:這是訓練的三個階段,核心差異是數據和訓練算法。
預訓練是用極廣泛的數據訓練模型,什么數據類型都覆蓋一點;
中訓練是用高質量的機器人遙操示范數據,對齊任務需求;
后訓練是針對特定能力做優化,比如大語言模型中的推理能力,往往需要通過后訓練、強化學習或高質量任務數據進一步激活和對齊。
硬氪:那接下來國內公司在補齊預訓練和后訓練時,可能會遇到什么挑戰?
羅劍嵐:核心是數據,還有真實場景部署的問題。整套系統從數據到Infra到模型,是環環相扣的,沒有哪一個是絕對更重要的,這個是木桶效應。
我認為,真實世界的數據必須作為底座。這就像不同年齡讀同一本書:3歲看不懂,20歲能理解情節,40歲能看到人性。
如果基礎模型越強,吸收異構數據、遷移到新任務的效率就會顯著提高;但是如果沒有真實數據打底,單純依賴仿真或視頻數據,模型的上限會被限制住。
硬氪:現在很多公司都在說機器人的“GPT時刻”。你認為大概要堆到什么量級的數據,才能真正實現泛化?
羅劍嵐:我反對盲目對標GPT式的Scaling Law。
如果限定在高質量、真實交互、可用于閉環部署的機器人數據上,當前行業的數據規模仍然遠遠不足。很多所謂“百萬級”“千萬級”的數據說法,背后口徑并不統一:有的是視頻,有的是軌跡,有的是仿真,有的是遙操,有的是單一任務重復采集。機器人數據到底怎樣計量,行業本身還沒有完全收斂。
大語言模型的Scaling Law建立在預訓練Loss與模型能力之間相對穩定、可預測的統計關系上;但這一規律在具身智能領域并不自動成立。
機器人的訓練Loss下降,僅代表模型更好地擬合了靜態數據,并不等同于其在物理世界中的部署成功率提升。物理交互的復雜性意味著,模型“記住”了數據,并不代表它能“駕馭”現實。
因此,具身智能的金標準,絕非數據規模或Loss值,而是真實場景的部署效能。真正的突破點在于,當我們觀察到隨著部署臺數增加,新場景適配成本持續下降,模型迭代效率持續提升——這才是數據飛輪開始轉動的臨界點。
遺憾的是,學界與業界至今無法精確計算這一臨界點對應的數據量級。
機器人需要一個閉環
硬氪:你在一年多以前回國,觀察下來,國內外具身智能機器人業態最大的差別是什么?
羅劍嵐:機器人是一個全棧系統,需要硬件、模型、智能,也需要靠真實部署形成數據閉環,不能等某一項技術完全收斂之后再做另一項。
國內的優勢是產業鏈、供應鏈、工程能力和人才密度。現在全球都還沒真正突破的是機器人的“大腦”。我們應該把這些優勢結合起來,快速跑通閉環,發揮好國內原有的硬件、場景和部署優勢,而不是只卷本體。
硬氪:你回國之后做了很多工作,比如LWD、SOP,還有前段時間發布的世界模型。這些研究成果各自的作用是什么?這個完整閉環主要由哪幾個部分組成?
羅劍嵐:從底層往上捋,最底層是大量部署在真實場景中的機器人硬件,也就是Fleet learning(機器人集群協同學習)。你首先要有一支足夠規模的機器人“艦隊”。
再往上是基礎設施層,包括云端實時計算、數據回流、通信、訓練加速、推理加速這些軟硬件云一體的Infra。我們之前發布的SOP,其實就是這個Infra的概念驗證,證明這套鏈路可以跑通。
再往上是算法層,包括兩部分:一部分是預訓練,另一部分是后訓練。我們幾個月前發布的LWD,解決的就是機器人后訓練、自我進化的問題。后面我們也會繼續推進自己的預訓練基礎模型。
我們整體閉環的邏輯是:真實部署不是訓練的終點,而是智能繼續演化的起點。它可以形成一個正向飛輪:部署更多機器人,產生更多數據,訓練出更好的模型,然后部署更多機器人。
硬氪:理想中的數據飛輪效果是什么樣的?
羅劍嵐:就是越部署越強的正向循環:模型變強,部署更多機器人;部署更多機器人,回流更多數據;回流更多數據,再訓練出更強的模型。
比如,在便利店、商超這類半結構化場景中,部署前20家的時候,可能需要收集大量交互數據;但隨著部署數量增加,新場景適配成本會顯著下降。理想情況下,部署到第100家時,新場景適配所需的數據量會變得很少,甚至接近開箱即用。
硬氪:打通這個閉環的意義是什么?
羅劍嵐:現在的硬件雖然還不完美,但對于構建特定任務的閉環來說,硬件已經基本夠用,并未成為核心瓶頸。真正的短板在于數據閉環——也就是從模型、數據到整個鏈路的持續迭代能力。
目前全球有遠見的CEO都在關注具身智能,大家都在等那個“第一個信號”出現。一旦有人在半開放場景中跑通商業閉環,證明數據飛輪能轉起來,資本和產業資源就會迅速向這個方向集中。
這正是創業公司的機會。大廠們受制于OKR和既有護城河,轉身相對緩慢;創業公司的優勢在于速度。我們不需要顛覆所有場景。
未來12到18個月,如果有團隊能在便利店、商超、倉儲等半結構化場景中率先跑通“部署—數據—迭代”的正向循環,它就會建立非常強的先發優勢。
世界模型不是生成視頻,而是預測動作后果
硬氪:現在世界模型很熱,你對此的理解是什么?
羅劍嵐:這個話題每兩年就會被拿出來討論一次,從2017、2018年就開始了。之前主要是技術圈內部討論,現在AI的社會關注度很高,所以世界模型也出圈了。
對于世界模型,我更關注的是action-conditioned predictive model,也就是動作條件的預測模型,或者可以理解成前向動力學模型——在給定當前狀態和動作的條件下,預測執行這個動作后的未來狀態、獎勵或者其他utility的變化。它的核心,是能在不真正執行動作的情況下,評估動作對未來世界狀態的影響。
舉個例子,早上煮雞蛋,我腦子里會預判,用小火煮要很久,不如用大火。這個過程并不需要我真的先把每個動作執行一遍,而是在腦子里判斷方案好壞。
硬氪:為什么現在世界模型的技術路線這么不收斂?
羅劍嵐:現在世界模型最大的問題是定義過寬。很多人口中的世界模型,其實更接近video prediction model,也就是預測畫面會怎么變化。但機器人真正需要的,不只是未來畫面,而是動作會如何改變后續世界狀態。有了這個,才能做規劃和動作評估。
如果一個模型只是生成未來畫面,卻不能用來評估動作對世界狀態的影響,那它對機器人決策的價值就很有限。對我來說,更重要的是action-conditioned predictive model:給定當前狀態和候選動作,預測這個動作會把世界帶到什么狀態。
現在很多純做世界模型的公司,是把世界模型當作最終目標。但對我來說,世界模型是實現預訓練目標的工具,兩者邏輯是反的。
硬氪:那你們借用世界模型這個工具,希望實現什么目標?
羅劍嵐:目標就是預測動力學,能在不執行動作的情況下評估動作好壞,提升規劃準確性,讓整體系統效果變好。
硬氪:最近行業里有聲音說VLA已死,你怎么看?在世界模型價值得到關注之后,兩者之間的協同是什么樣的?
羅劍嵐:VLA里面,V是Vision(視覺),L是Language(語言),A是Action(動作)。其中,視覺與動作的必要性已經形成共識,核心爭議在于語言是否必需。
我認為,語言不可或缺。它是復雜任務拆解、長程推理與上下文銜接最自然的接口,VLM是當前處理這類高層規劃的最優載體。
當前VLA將一切對齊到語言空間,采用“離散預訓練+連續動作頭”的模式,或許并非終局;但我認為,直接斷言“VLA已死”過于極端。機器人作為復雜決策系統,既需要底層動作精度,也需要高層規劃能力。
現階段數據量還遠不足以否定VLA的價值。雖然世界模型在時序動力學建模和動作預測上有優勢,但在language grounding(語言錨定)和復雜邏輯處理上仍有短板。例如“煮雞蛋”這類長程任務,世界模型本身尚難完成完整的多步拆解與執行。
未來真正的突破在于VLA與世界模型的融合:用VLA處理語言驅動的宏觀規劃,用世界模型保障物理執行的精準度。
硬氪:所以你認為,并不需要那么多數據,也能實現泛化?
羅劍嵐:數據重要,和需要多少數據,是兩回事。
現在行業里有一個假設是:“數據不夠所以不work,所以需要更多數據。”但也有另一種可能——
比如,全球有1億個家庭,或許我們并不需要收集8000萬個家庭的數據,才能泛化到剩下的2000萬個家庭;可能只需要1萬個家庭的數據,再結合其他方法,就能泛化到剩下的9000多萬個家庭。
現在沒人能證明哪種假設是對的,只能一邊做一邊驗證。做科研就是要不斷提出假設,以最小成本試錯,找到梯度下降的方向,而不是憑空臆想結論。
硬氪:現在在數據側,第一視角這類數據也很火。這是過渡方案,還是長期重要的組成部分?
羅劍嵐:要看底座模型是什么。
如果基礎模型不是從0開始訓練,而是基于現有的VLM、video model,那這些模型已經吸收了這類數據的特征,所以第一視角數據是有用的;但如果從0開始訓練具身基礎模型,核心還是真機部署數據。
現在因為機器人領域處于數據荒漠階段,有任何數據都會比沒有數據好。但在小數據規模前提下得出的結論,到大數據階段很可能不成立。
這就像自動駕駛初期,大家會討論仿真數據、Google街景、行車記錄儀數據等各種替代數據來源。那時候沒人能拿到足夠多的真車數據,所以這些數據都有價值。但當真實車輛數據多到要專門建設大規模存儲和處理基礎設施時,其他替代數據的相對重要性就會被重新評估。
現在機器人領域的情況,和當年自動駕駛初期很像。大家都在提各種替代數據方案,本質是因為真機數據還不夠。等真機部署數據足夠多之后,這些方案的價值也會被重新評估。
首頁圖源|企業供圖
排版|范馨雅
![]()
歡迎交流
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.