網易首頁 > 網易號 > 正文申請入駐

硬氪專訪 | 羅劍嵐：機器人真正的Scaling Law，發生在真實部署閉環里

2026-06-17 14:23:14　來源: 36氪

北京舉報

分享至

作者 | 邱曉芬

編輯 | 袁斯來

過去半年，國內具身智能賽道經歷了一場靜悄悄的重心轉移：聚光燈從硬件本體的“自由度競賽”，逐漸移向決定機器人智能上限的深水區。

只是，當行業反復討論“機器人能否通過暴力堆數據復刻大語言模型 ScalingLaw”時，上海創智學院副教授、智元機器人首席科學家羅劍嵐，給出了一個并不隨大流的判斷：具身智能不能簡單照搬大語言模型的發展路徑。

羅劍嵐的表達風格極具辨識度。他習慣在中英文專業術語之間快速切換，邏輯推進密集，很少給出模糊的折中答案。

相比停留在“數據、模型、Infra哪個更重要”的單點爭論上，他更傾向于直接指出問題本身：當前具身智能的核心矛盾，不是某一個環節的單獨突破，而是這些環節能否在真實部署中形成閉環。

這種判斷來自他橫跨學術研究與產業落地的經歷。作為曾經的伯克利博士，他師從具身智能領域奠基性人物Sergey Levine（謝爾蓋·列文）。畢業后，他曾任Google X與DeepMind研究科學家，14個月前，他回國并加入創智學院和「智元機器人」。

在他看來，目前行業里相當一部分所謂“具身基礎模型”的訓練方式，并不是真正意義上的預訓練，更接近中訓練（Mid-training）或微調（Fine-tuning）。

原因也很現實：當前高質量真機交互數據仍然稀缺，尤其是覆蓋多場景、多任務、多本體，并且包含失敗、糾錯和長尾交互的數據，遠不足以支撐類似大語言模型那樣的大規模預訓練。

這也造成了一個現象：在真機交互數據不足的階段，行業里不少團隊會選擇在已有開源模型底座之上，疊加高質量遙操數據，在特定任務上進行對齊或微調。

這種路徑在短期內可以快速提升實驗室任務表現，但它并不等同于真正意義上的具身基礎模型預訓練。模型在離線數據上的Loss（損失）曲線變好，更多說明它更好地擬合了已有數據；至于能否遷移到新的物理場景、處理長尾擾動和失敗恢復，仍需要通過真實部署來驗證。

（作者注：Loss是“模型每次猜錯了多少的分數”，Loss曲線就是把這分數按時間畫出來。Loss曲線往下走，通常表明模型在訓練數據上擬合得更好；但在機器人領域，它并不必然等同于真實場景中的部署成功率提升。）

也正因此，羅劍嵐認為，具身智能不能盲目照搬GPT式的Scaling Law。

具體而言，在大語言模型中，預訓練Loss與模型能力之間存在相對穩定、可預測的統計關系。

但在機器人領域，離線Loss下降并不必然對應真實部署成功率提升——機器人面對的是開放物理世界，涉及接觸、擾動、長尾場景、硬件差異和任務反饋，模型“記住”了數據，并不代表它能真正“駕馭”現實。

因此，具身智能真正的突破不只是堆參數或堆數據，而是應該部署一個閉環——直到機器人部署規模擴大后，新場景適配成本能夠持續下降，數據回流能夠穩定提升模型能力，這才是物理世界中的“Scaling Law時刻”。

在這一邏輯框架下，回國后羅劍嵐，核心任務正是構建一個可規模化演進的具身智能閉環。

他將這一年的工作重點凝練為三個技術支點：

首先是SOP（可擴展在線后訓練）。SOP面向的是大規模機器人在線后訓練所需的基礎設施問題，包括低延遲數據回流、云端計算、訓練調度和模型更新。它的價值不只是一個算法模塊，而是驗證機器人數據能否從部署現場高效進入訓練閉環。

其次是LWD（部署中學習）。它試圖打破過去“訓練—部署”的割裂狀態，讓機器人不再是出廠即定型的產品，而是在便利店、商超等真實場景中持續進化的系統。當機器人遇到未見過的貨架形態、商品擺放或操作擾動時，系統能夠通過真實交互不斷積累數據，并將這些經驗轉化為后續模型改進。

最后是近期由上海創智學院和「智元機器人」聯合發布的τ0-WM世界模型。

τ0-WM并不把視頻生成當作最終目的，而是把視頻預測作為學習物理動力學、評估動作后果的一種手段。更具體地說，它希望成為一個動作條件的物理推演器：在機器人真正執行動作之前，先在模型內部比較不同候選動作可能帶來的未來結果，從而幫助系統選擇更可靠的動作。

舉個例子，面對桌邊的雞蛋，普通VLA可能直接輸出抓取動作；而動作條件世界模型可以先比較幾條候選軌跡的未來后果，避免選擇會把雞蛋掃落桌面的動作。

在羅劍嵐看來，接下來具身智能真正的決勝點，不是硬件，更不是數據、模型、Infra單點能力的強弱，而是它們能不能彼此形成閉環——這就像是木桶的不同木板，任何一個關鍵環節短板過短，系統能力都難以真正釋放。

“誰能率先在便利店、商超、倉儲等半結構化場景中，跑通‘部署—數據—迭代’的數據飛輪，誰就真正具備了大規模商業化的可能性”，他表示。

而關鍵的時間節點，或許正是未來的12到18個月。

近期，硬氪與羅劍嵐聊了聊。以下是采訪實錄，略經摘編。

真正的具身預訓練，門檻比想象中更高

硬氪：你為什么認為現在國內具身智能行業里，真正做基礎模型訓練的團隊很少？

羅劍嵐：類比大語言模型的發展階段，我覺得現在機器人領域有能力做具身基礎模型預訓練的團隊很少，大家做的更多是fine-tuning（微調）或“中訓練”（Mid-training）。

甚至很多中訓練也不算夯實。現在行業里很多所謂“機器人基礎模型”，更接近在已有開源底座上的任務適配或中訓練，還沒有真正進入大規模、異構、真實交互數據驅動的預訓練階段。

行業里甚至有一個半開玩笑的說法：“paper上，PI（Physical Intelligence）從來沒贏過；現實里，PI從來沒輸過。”

這句話背后反映的其實是一個問題：機器人模型不能只看論文指標，最終還是要看真實世界里的部署效果。

回顧LLM的路徑，預訓練模型本身的輸出其實充滿噪聲，需要通過中訓練進行高質量對齊，再通過后訓練進一步激活特定能力。

真正的機器人基礎模型預訓練，也應該像LLM一樣，吸納極其廣泛、甚至包含噪聲的數據。只不過機器人領域的數據不是靜態文本，而是真實世界中的交互、失敗、糾錯、恢復和長尾場景。

硬氪：預訓練、中訓練、后訓練，在數據和架構上有什么區別？

羅劍嵐：這是訓練的三個階段，核心差異是數據和訓練算法。

預訓練是用極廣泛的數據訓練模型，什么數據類型都覆蓋一點；

中訓練是用高質量的機器人遙操示范數據，對齊任務需求；

后訓練是針對特定能力做優化，比如大語言模型中的推理能力，往往需要通過后訓練、強化學習或高質量任務數據進一步激活和對齊。

硬氪：那接下來國內公司在補齊預訓練和后訓練時，可能會遇到什么挑戰？

羅劍嵐：核心是數據，還有真實場景部署的問題。整套系統從數據到Infra到模型，是環環相扣的，沒有哪一個是絕對更重要的，這個是木桶效應。

我認為，真實世界的數據必須作為底座。這就像不同年齡讀同一本書：3歲看不懂，20歲能理解情節，40歲能看到人性。

如果基礎模型越強，吸收異構數據、遷移到新任務的效率就會顯著提高；但是如果沒有真實數據打底，單純依賴仿真或視頻數據，模型的上限會被限制住。

硬氪：現在很多公司都在說機器人的“GPT時刻”。你認為大概要堆到什么量級的數據，才能真正實現泛化？

羅劍嵐：我反對盲目對標GPT式的Scaling Law。

如果限定在高質量、真實交互、可用于閉環部署的機器人數據上，當前行業的數據規模仍然遠遠不足。很多所謂“百萬級”“千萬級”的數據說法，背后口徑并不統一：有的是視頻，有的是軌跡，有的是仿真，有的是遙操，有的是單一任務重復采集。機器人數據到底怎樣計量，行業本身還沒有完全收斂。

大語言模型的Scaling Law建立在預訓練Loss與模型能力之間相對穩定、可預測的統計關系上；但這一規律在具身智能領域并不自動成立。

機器人的訓練Loss下降，僅代表模型更好地擬合了靜態數據，并不等同于其在物理世界中的部署成功率提升。物理交互的復雜性意味著，模型“記住”了數據，并不代表它能“駕馭”現實。

因此，具身智能的金標準，絕非數據規模或Loss值，而是真實場景的部署效能。真正的突破點在于，當我們觀察到隨著部署臺數增加，新場景適配成本持續下降，模型迭代效率持續提升——這才是數據飛輪開始轉動的臨界點。

遺憾的是，學界與業界至今無法精確計算這一臨界點對應的數據量級。

機器人需要一個閉環

硬氪：你在一年多以前回國，觀察下來，國內外具身智能機器人業態最大的差別是什么？

羅劍嵐：機器人是一個全棧系統，需要硬件、模型、智能，也需要靠真實部署形成數據閉環，不能等某一項技術完全收斂之后再做另一項。

國內的優勢是產業鏈、供應鏈、工程能力和人才密度。現在全球都還沒真正突破的是機器人的“大腦”。我們應該把這些優勢結合起來，快速跑通閉環，發揮好國內原有的硬件、場景和部署優勢，而不是只卷本體。

硬氪：你回國之后做了很多工作，比如LWD、SOP，還有前段時間發布的世界模型。這些研究成果各自的作用是什么？這個完整閉環主要由哪幾個部分組成？

羅劍嵐：從底層往上捋，最底層是大量部署在真實場景中的機器人硬件，也就是Fleet learning（機器人集群協同學習）。你首先要有一支足夠規模的機器人“艦隊”。

再往上是基礎設施層，包括云端實時計算、數據回流、通信、訓練加速、推理加速這些軟硬件云一體的Infra。我們之前發布的SOP，其實就是這個Infra的概念驗證，證明這套鏈路可以跑通。

再往上是算法層，包括兩部分：一部分是預訓練，另一部分是后訓練。我們幾個月前發布的LWD，解決的就是機器人后訓練、自我進化的問題。后面我們也會繼續推進自己的預訓練基礎模型。

我們整體閉環的邏輯是：真實部署不是訓練的終點，而是智能繼續演化的起點。它可以形成一個正向飛輪：部署更多機器人，產生更多數據，訓練出更好的模型，然后部署更多機器人。

硬氪：理想中的數據飛輪效果是什么樣的？

羅劍嵐：就是越部署越強的正向循環：模型變強，部署更多機器人；部署更多機器人，回流更多數據；回流更多數據，再訓練出更強的模型。

比如，在便利店、商超這類半結構化場景中，部署前20家的時候，可能需要收集大量交互數據；但隨著部署數量增加，新場景適配成本會顯著下降。理想情況下，部署到第100家時，新場景適配所需的數據量會變得很少，甚至接近開箱即用。

硬氪：打通這個閉環的意義是什么？

羅劍嵐：現在的硬件雖然還不完美，但對于構建特定任務的閉環來說，硬件已經基本夠用，并未成為核心瓶頸。真正的短板在于數據閉環——也就是從模型、數據到整個鏈路的持續迭代能力。

目前全球有遠見的CEO都在關注具身智能，大家都在等那個“第一個信號”出現。一旦有人在半開放場景中跑通商業閉環，證明數據飛輪能轉起來，資本和產業資源就會迅速向這個方向集中。

這正是創業公司的機會。大廠們受制于OKR和既有護城河，轉身相對緩慢；創業公司的優勢在于速度。我們不需要顛覆所有場景。

未來12到18個月，如果有團隊能在便利店、商超、倉儲等半結構化場景中率先跑通“部署—數據—迭代”的正向循環，它就會建立非常強的先發優勢。

世界模型不是生成視頻，而是預測動作后果

硬氪：現在世界模型很熱，你對此的理解是什么？

羅劍嵐：這個話題每兩年就會被拿出來討論一次，從2017、2018年就開始了。之前主要是技術圈內部討論，現在AI的社會關注度很高，所以世界模型也出圈了。

對于世界模型，我更關注的是action-conditioned predictive model，也就是動作條件的預測模型，或者可以理解成前向動力學模型——在給定當前狀態和動作的條件下，預測執行這個動作后的未來狀態、獎勵或者其他utility的變化。它的核心，是能在不真正執行動作的情況下，評估動作對未來世界狀態的影響。

舉個例子，早上煮雞蛋，我腦子里會預判，用小火煮要很久，不如用大火。這個過程并不需要我真的先把每個動作執行一遍，而是在腦子里判斷方案好壞。

硬氪：為什么現在世界模型的技術路線這么不收斂？

羅劍嵐：現在世界模型最大的問題是定義過寬。很多人口中的世界模型，其實更接近video prediction model，也就是預測畫面會怎么變化。但機器人真正需要的，不只是未來畫面，而是動作會如何改變后續世界狀態。有了這個，才能做規劃和動作評估。

如果一個模型只是生成未來畫面，卻不能用來評估動作對世界狀態的影響，那它對機器人決策的價值就很有限。對我來說，更重要的是action-conditioned predictive model：給定當前狀態和候選動作，預測這個動作會把世界帶到什么狀態。

現在很多純做世界模型的公司，是把世界模型當作最終目標。但對我來說，世界模型是實現預訓練目標的工具，兩者邏輯是反的。

硬氪：那你們借用世界模型這個工具，希望實現什么目標？

羅劍嵐：目標就是預測動力學，能在不執行動作的情況下評估動作好壞，提升規劃準確性，讓整體系統效果變好。

硬氪：最近行業里有聲音說VLA已死，你怎么看？在世界模型價值得到關注之后，兩者之間的協同是什么樣的？

羅劍嵐：VLA里面，V是Vision（視覺），L是Language（語言），A是Action（動作）。其中，視覺與動作的必要性已經形成共識，核心爭議在于語言是否必需。

我認為，語言不可或缺。它是復雜任務拆解、長程推理與上下文銜接最自然的接口，VLM是當前處理這類高層規劃的最優載體。

當前VLA將一切對齊到語言空間，采用“離散預訓練+連續動作頭”的模式，或許并非終局；但我認為，直接斷言“VLA已死”過于極端。機器人作為復雜決策系統，既需要底層動作精度，也需要高層規劃能力。

現階段數據量還遠不足以否定VLA的價值。雖然世界模型在時序動力學建模和動作預測上有優勢，但在language grounding（語言錨定）和復雜邏輯處理上仍有短板。例如“煮雞蛋”這類長程任務，世界模型本身尚難完成完整的多步拆解與執行。

未來真正的突破在于VLA與世界模型的融合：用VLA處理語言驅動的宏觀規劃，用世界模型保障物理執行的精準度。

硬氪：所以你認為，并不需要那么多數據，也能實現泛化？

羅劍嵐：數據重要，和需要多少數據，是兩回事。

現在行業里有一個假設是：“數據不夠所以不work，所以需要更多數據。”但也有另一種可能——

比如，全球有1億個家庭，或許我們并不需要收集8000萬個家庭的數據，才能泛化到剩下的2000萬個家庭；可能只需要1萬個家庭的數據，再結合其他方法，就能泛化到剩下的9000多萬個家庭。

現在沒人能證明哪種假設是對的，只能一邊做一邊驗證。做科研就是要不斷提出假設，以最小成本試錯，找到梯度下降的方向，而不是憑空臆想結論。

硬氪：現在在數據側，第一視角這類數據也很火。這是過渡方案，還是長期重要的組成部分？

羅劍嵐：要看底座模型是什么。

如果基礎模型不是從0開始訓練，而是基于現有的VLM、video model，那這些模型已經吸收了這類數據的特征，所以第一視角數據是有用的；但如果從0開始訓練具身基礎模型，核心還是真機部署數據。

現在因為機器人領域處于數據荒漠階段，有任何數據都會比沒有數據好。但在小數據規模前提下得出的結論，到大數據階段很可能不成立。

這就像自動駕駛初期，大家會討論仿真數據、Google街景、行車記錄儀數據等各種替代數據來源。那時候沒人能拿到足夠多的真車數據，所以這些數據都有價值。但當真實車輛數據多到要專門建設大規模存儲和處理基礎設施時，其他替代數據的相對重要性就會被重新評估。

現在機器人領域的情況，和當年自動駕駛初期很像。大家都在提各種替代數據方案，本質是因為真機數據還不夠。等真機部署數據足夠多之后，這些方案的價值也會被重新評估。

首頁圖源｜企業供圖

排版｜范馨雅

歡迎交流

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.