網易首頁 > 網易號 > 正文申請入駐

一個大腦控制所有機器人，真的可能嗎？特斯拉、Skild AI、Agility 激辯人形機器人的量產路線｜GTC 2026

2026-03-18 15:52:35　來源: AI科技大本營

北京舉報

分享至

人形機器人終于要出實驗室了，但真正的戰爭才剛開始。

責編 | 王啟隆

出品丨AI 科技大本營（ID：rgznai100）

黃仁勛這兩年的，幾乎每次都會把機器人和 Physical AI 拉出來講一遍。過去大家聽這些內容，總還有點“未來已來但還沒落地”的距離感：模型很強，仿真很熱鬧，視頻也很驚艷，但機器人到底什么時候才能真正離開實驗室，進入工廠、倉庫、家庭和各種復雜現場，始終還是個懸而未決的問題。

到了 GTC 2026，這件事的氣氛明顯變了。

今年英偉達安排的這場圓桌，題目就很直接：《From Concept to Production: Humanoid Robotics at Scale》。翻成大白話就是，人形機器人這件事，討論重點已經不是“能不能做出來”，而是“怎么把它真正做成產品、鋪到現實世界里去”。

這場對話請來的也都不是來聊概念的人。主持人是英偉達機器人與邊緣計算生態負責人 Amit Goel；嘉賓則包括特斯拉 AI 軟件副總裁 Ashok Elluswamy、Hexagon Robotics CEO Arnaud Robert、Agility CTO Pras Velagapudi、Skild AI 聯合創始人兼 CEO Deepak Pathak，以及斯坦福助理教授、Physical Intelligence 聯合創始人 Chelsea Finn。

幾家公司路線各不相同，但都已經踩進了同一個現實問題：機器人不是缺一個漂亮 demo，而是缺一整套能穿過數據稀缺、仿真誤差、控制延遲、安全約束和部署成本的量產方法。

也正因為如此，這場圓桌的有趣之處，并不在于誰又展示了一個更像人的機器人，而在于這些一線公司第一次相對坦率地把分歧擺到了臺面上。

比如，真實世界數據到底是不是唯一答案？仿真在今天到底是訓練主力，還是主要用于測試和驗證？一個通用大腦控制多種機器人，這件事究竟是在發生，還是仍然只是一個迷人的口號？再往下走，端到端模型、分層架構、世界模型、控制系統、Agent 式編排，到底哪條路線更有可能先把機器人送進真實生產環境？

特斯拉給出的答案，顯然更接近它在自動駕駛上走過的那條路：端到端、統一模型、視頻輸入、實時控制，所有層級的信息最好都在同一個決策系統里完成。Skild AI和Physical Intelligence則更強調“通用大腦”的可能性，希望通過跨具身數據、仿真、人類視頻和大規模預訓練，把不同機器人平臺納入同一個學習框架。Agility和Hexagon的說法則更務實：到了真實部署階段，模塊化、分層控制、工程技能、環境建模和 orchestration 平臺，往往比一個抽象意義上的“萬能大腦”更重要。

說白了，機器人行業現在已經走到這樣一個階段：最難的問題不再只是“讓機器人動起來”，而是“讓它穩定地、可靠地、持續地干活”。

下面，就讓我們回到這場 GTC 2026 的圓桌現場，看看這些站在量產前線的人，究竟是怎么談數據、仿真、模型、控制和人形機器人的未來的。

從實驗室到現實世界，人形機器人終于走到量產門口

Amit Goel：歡迎大家來到 GTC，也感謝各位參加今天這場圓桌。

很難相信，過去十年我們每次來到 GTC，談機器人時幾乎總繞不開那幾件事：怎么訓練能夠具身化的多模態 AI 模型；怎么用仿真彌合數字世界和現實世界之間的鴻溝；怎么把 AI 推理真正跑在邊緣端，讓機器人變得可行。

但現在，一切都變了。

今天我們已經不再只是討論這些問題本身。我們走到了一個臨界點：機器人正在離開實驗室，進入那個混亂、復雜、充滿不確定性的物理世界。

所以今天我特別榮幸，能夠邀請到這樣一組嘉賓。他們可以說正是這場變革的架構師。從實驗室走向現實世界絕不會輕松，但臺上的各位，正在親手把這件事一步步變成現實。

那我們就直接開始吧。先請各位簡單介紹一下自己。Pras，要不先從你開始？

Pras Velagapudi：好的。我是 Agility Robotics 的 CTO Pras Velagapudi。

在 Agility，我們做的是 Digit——一款為工作而生的人形機器人。當然，如果按 Jensen 今天 keynote 里的說法，它 apparently 也會打鼓。

現在，Digit 已經部署在不少真實場景里了，包括 Amazon、GXO、Schaeffler。最近我們也剛剛宣布和 Toyota 合作。它們已經出現在物流設施和制造現場里，開始承擔大宗物料搬運這類工作。

所以對我們來說，現在最讓人興奮的一點是：機器人——尤其是人形機器人——終于不再只是“未來可能做到什么”的想象，而是已經進入真實世界，開始被按現實標準來評估：它到底已經能做什么。

我們的下一步，是把下一代機器人做出來，并把完整的協作安全能力也放進去。這樣一來，人類和機器人就不需要再被物理隔開，而是能在同一個空間里直接協同工作。

Amit Goel：太好了。Ashok？

Ashok Elluswamy：謝謝，Pras。大家好，我是 Ashok Elluswamy，負責特斯拉的 AI 團隊。

在特斯拉，我們正在構建的是一種我們稱之為Physical AGI的系統。在這個設想里，同一個模型既可以駕駛汽車，也可以驅動人形機器人，甚至還能操作電腦。

它本質上是一套端到端系統：輸入是視頻，輸出是實時控制動作。

特斯拉的自動駕駛軟件已經正式交付很多年了。而從今年開始，我們也已經在美國部分地區運行起了無人監督的車隊。

對我們來說，Optimus 其實就是這套能力非常自然的一次延伸。因為自動駕駛本來就要求你從多路攝像頭輸入里理解世界，再輸出可以實時執行的動作，而且這些動作必須足夠準確、足夠可擴展——因為一旦出錯，后果可能就是災難性的。

這套安全文化，其實也會很自然地遷移到 Optimus 上。

等會兒我們可以繼續展開聊，但我確實非常期待這件事繼續往前走：同樣的 Physical AGI，落在不同具身形態里，在車上工作，也在機器人身上工作。

Amit Goel：太棒了。Chelsea。

Chelsea Finn：大家好，我是斯坦福大學助理教授 Chelsea Finn，同時也是 Physical Intelligence 的聯合創始人。

在 Physical Intelligence，我們相信，機器人之所以還沒真正進入我們的日常生活，最大的瓶頸其實不是“身體”，而是“智能”。

我們想做的是一個“大腦”，或者說一個模型：它能夠控制任何機器人，去完成任何任務。

我們覺得，與其圍繞一個個具體應用逐點突破，不如直接去做這種通用能力。某種意義上，這條路反而可能更直接，也更容易真正走通。

和 Ashok 剛才提到的方向有些相似，我們也非常關心如何把這種能力推廣到不同的機器人平臺上。因為我們相信，未來不會只有一種機器人形態，而是會有大量不同的具身形式共存。

真正重要的，是把這些機器人在不同環境中積累下來的數據和經驗匯到一起，再反過來提升所有機器人的智能。

Amit Goel：Arnaud。

Arnaud Robert：大家好，我是 Hexagon Robotics 的 Arnaud Robert。

在 Hexagon Robotics，我們做的是一種多用途的人形機器人。除了操作能力之外，它還能做巡檢、reality capture 這類任務。

它背后依賴的是一整套非常復雜的傳感器系統，我想這也會是今天討論里一個挺有意思的話題。

我們的第一款產品 Aeon 在 2025 年 6 月發布，目前已經和 Schaeffler、Pilatus——一家高端飛機制造商——以及 BMW 展開了試點合作。

Amit Goel：Deepak。

Deepak Pathak：大家好，我是 Skild AI 的聯合創始人兼 CEO Deepak Pathak，同時也是卡內基梅隆大學的教授。

在 Skild，我們做的是機器人的通用大腦。

任何機器人，任何任務，一個大腦。再說一遍：任何機器人，任何任務，一個大腦。

無論是家用場景里的人形機器人，工廠流水線上的機械臂，還是在社區里送包裹的四足機器人，我們都希望用同一個底層大腦去驅動它們。

我們之所以一定要走得這么“通用”，原因其實很簡單：機器人本質上是個數據問題。

和語言、視覺不同，機器人領域根本沒有現成的大規模數據，足夠用來訓練這類模型。所以我們必須跨具身、跨任務、跨場景，把數據飛輪真正轉起來。

只要任何一種具身形態，在任何一個應用里，做出了任何一個動作，這份數據理論上都應該能反過來提升后臺那個通用大腦。

某種程度上，這和特斯拉當年做自動駕駛有點像，所以我們也很受啟發。但機器人其實更難，因為你得把這件事推廣到完全不同的場景、完全不同的系統里，才有可能真正做出規模。

這就是我們在努力的方向。

真實數據、遠程操作、人類視頻，機器人究竟該靠什么喂大

Amit Goel：好，進入今天的第一個核心話題：數據。

正如 Deepak 剛才說的，到了這個階段，大家其實已經越來越相信，只要數據足夠，模型就能學到很多東西。但 Physical AI 和機器人一直有個繞不過去的難題：這些數據到底從哪來？

臺上的各家公司，也都在用非常不同的方法收集訓練數據。所以我想先從 Pras 開始。

你們已經在客戶現場部署機器人一段時間了。那么，對 Agility 來說，真實世界里最有價值的數據采集策略是什么？還有，在遠程操作和機器人自主采集之間，你們是怎么權衡的？

Pras Velagapudi：這個問題挺有意思。因為一旦你真的進了客戶現場，就會發現，很多你以為理所當然的數據，其實并沒有那么容易拿到。

尤其是在有大量合規要求的環境里，更是如此。

我覺得可以把機器人數據大致想成一個“金字塔”。

最頂層，是你直接遠程操作機器人，讓它在真實環境里完成任務，也就是你親自控制機器人去做事。再往下一層，比如你可以用某種代理設備去模仿機器人的動作，采集這類數據。再往下，是人類第一視角數據，比如一個人戴著 egocentric camera 去完成任務。再下面，可能就是更一般意義上的視頻數據，或者被動采集的數據。

之所以說它是個金字塔，是因為越往上，數據越貴、越難拿，但往往也越貼近你真正想解決的問題；越往下，數據量越大、越容易收集，但和最終任務之間的距離也更遠。

而一旦你進入客戶環境，金字塔最頂層的數據反而往往最難拿。因為這意味著你必須進入非常具體的生產環境里去采集數據，而且還得確保這些數據經過匿名化、脫敏，滿足各種合規要求。

所以我們的實際做法是：頂層數據會用，但會盡量克制，只把它用在那些特別關鍵、特別具體的任務上。

與此同時，我們會盡可能利用已經預訓練好的模型，把其他機構在“金字塔下層”積累的數據當成起點，再往上疊。

至于我們從機器人本身采回來的數據，很多時候其實更偏“運營數據”，而不是完整的、可直接訓練的任務數據。再加上在客戶現場，你往往只能拿到部分可觀測的信息，因為這里面還牽扯到 GDPR 之類的隱私和監管問題——畢竟，說到底，你不能把一個會走路的監控系統隨便丟進某個設施里。

所以這件事更像是一種混合策略，而且我們現在也還在不斷迭代，尤其是在數據湖這件事上。

Amit Goel：也就是說，部署本身并不天然等于“拿到了有用的數據”，對吧？你還是得把整個鏈條都搭起來。

Pras Velagapudi：對，部署只是第一步。

更重要的是你得把這些數據整理對、篩選對。因為要拿到“大量數據”其實不難，難的是別拿回來一大堆對你完全沒用的數據。

Amit Goel：Chelsea，你們 Physical Intelligence 一直在做通用機器人，數據路線跟別家也不太一樣。你們搭了很多 leader-follower 風格的機械臂系統，還在 Airbnb 這類真實場景里收數據。

所以我也很想聽聽：你們是怎么靠數據策略去跨不同具身形態、跨不同任務做泛化的？

Chelsea Finn：我覺得，其他 AI 領域過去這些年的進展，其實已經給了我們一個很清楚的啟發：

真正最有效的數據，通常還是那些最接近你部署分布的真實數據。

所以從這個角度看，Pras 剛才講的那個“數據金字塔”，雖然不是他原創的，但我覺得它某種程度上是有點誤導性的。說得直白一點，它有點像營養學里的食物金字塔——聽起來很合理，但不一定真是最優答案。

因為對我們來說，真正想要的是大量真實機器人在真實世界里的數據。只有這樣，你才能覆蓋那些機器人未來真正會遇到的場景。

所以我們押注的方向，就是盡可能在真實世界、用真實機器人，大規模收真實數據。

最近我們在一些研究里也發現了一件很有意思的事：如果你已經有了來自多種機器人具身形態的大量數據，那么你從人類視頻里學到的遷移效果，反而會更好。

這件事一開始聽起來有點反直覺。很多人原本以為，只要把人類視頻盡量對齊到人形機器人，遷移效果應該就最好。

但我們現在看到的情況更像是：當你的機器人數據本身足夠多樣時，模型更容易把“人類數據”和“機器人數據”之間的點連起來。

換句話說，具身形態越豐富，模型越能理解不同身體、不同動作方式之間的映射關系，也就越能真正吃下人類視頻這些看起來“離任務更遠”的數據源。

所以我們不是只用機器人真實數據，我們也會把其他數據源一起納進來，尤其是網絡數據、人類視頻等等。目標是訓練出一個真正有泛化能力的模型：它能跨具身形態、跨環境、跨任務工作。

Amit Goel：這點很有意思。也就是說，來自不同機器人形態的數據，反而會提升模型理解人類數據的能力。

這確實挺讓人興奮的。

Amit Goel：Ashok，特斯拉這邊在 Full Self-Driving 上已經積累了幾百萬英里的經驗。那這套自動駕駛里學到的東西，具體是怎么影響你們 Optimus 的數據策略的？

Ashok Elluswamy：影響非常大。

說到底，數據本來就是特斯拉自動駕駛項目最核心的優勢之一。我們基本上每天都在圍著數據轉：怎么管理數據流、什么數據真正有價值、什么數據只是噪聲。

因為大家都知道，不是所有數據都一樣有用。

比如做自動駕駛時，你希望車學會的是“像一個專業司機那樣開車”，而不是像賽車手那樣開，或者像那種把開車當刺激項目的人那樣去開。

這套經驗，放到人形機器人上其實也完全成立。

我們現在已經非常清楚，什么樣的數據會真正讓系統變好，需要多少數據，哪些數據值得收，哪些數據只是看上去很多但其實沒什么訓練價值。這些東西都可以相當直接地遷移到人形機器人上。

當然，汽車和機器人的現實情況還是不一樣。汽車這邊我們已經有一個非常巨大的車隊，隨時都能提取數據。問題反而是，里面絕大多數都是“無聊數據”，并不一定真的有用。

所以關鍵不是“你有沒有海量數據”，而是你能不能準確找到那些真正有學習價值的數據。

一旦你知道該找什么，事情就會變得完全不一樣。因為這時候，你需要的數據量未必有想象中那么夸張，沒必要把整個車隊產出的所有數據都喂進去。

比如說，整個車隊一天輕輕松松就能產出相當于500 年駕駛經驗的數據量。任何一個人類司機都不可能親眼見過這么多數據，我們訓練模型時也根本不會把這些全都用上。

真正拿來訓練的，只是其中很小的一部分。但因為我們已經把數據篩選、抽取、標注這套方法論摸得很清楚，所以它能非常順滑地遷移到人形機器人上。

再說回人形機器人本身。因為我們做的就是 humanoid，而不是別的形態，這件事本身就讓“向人學”變得簡單很多。

很多動作，你只要讓機器人看著人怎么做，再去模仿，起點就已經很高了。而且特斯拉本身還有工廠，里面有幾十萬員工每天都在做各種復雜的物理任務，制造汽車、操作設備、完成一整套工業流程。

這本身就是一個非常重要的 bootstrap。再加上從其他人類視頻、各種攝像頭、互聯網視頻數據集中繼續學習，這些都會成為非常豐富的數據來源。

當然，最后真正關鍵的還是：你到底怎么用這些數據。

你在這些數據上監督什么？這些監督信號是不是真的對最終任務有幫助？你的評估體系怎么設計？

我覺得這些問題，比“原始數據總量到底有多大”更重要。

Amit Goel：所以你們在 Full Self-Driving 上建立起來的不只是數據本身，還有整條 data pipeline 和先驗判斷，這些都會直接幫助 Optimus。

Ashok Elluswamy：對，完全是這樣。

原始數據本身當然有用。但更有價值的，其實是我們已經建立起來的那整套方法：怎么過濾數據，怎么判斷哪些數據是“好數據”，哪些是“壞數據”。這套東西，對 Optimus 幫助非常大。

Amit Goel：Arnaud，Hexagon 很長一段時間都在做現實世界的數據采集，本身就在創造和積累數據。你們的 reality capture 和激光掃描技術，能拿到精度非常高的環境信息。

所以我很好奇，這件事具體是怎么改變你們訓練機器人 AI 的方式的？

Arnaud Robert：我覺得前面提到的這個“數據金字塔”，某種程度上確實是大家都在追求的方向：每一層都盡可能拿到更多數據，而且每一層都盡可能把數據整理得更好。

但我們在現實環境里做機器人時，一個特別深的感受是：光理解任務本身還不夠，你還得理解任務所處的整個環境。

所以我們不僅把 reality capture 傳感器裝在機器人身上，也會把 Hexagon 的環境采集技術部署在機器人外部。

對我們來說，一旦要記錄一個任務，就不能只記錄“機器人怎么做這個任務”，而是要盡量把它所處環境的完整 360 度上下文也一起記錄下來。

因為我們發現，這些環境信息本身，往往非常關鍵。

舉個例子，某些設備可能會產生光干擾。如果你能在環境數據里識別出這一點，你就會知道這只是干擾項，應該從訓練里剔掉，而不是把它誤當成任務本身的一部分。

再比如，Aeon 是一臺機動性很強的機器人，它是帶輪子的。當它在工廠里做掃描檢測時，現場會發生很多變化：可能有人從它面前走過，可能同一個零件這次擺得稍微偏一點，下次又換了個位置。

這些東西如果你不理解，就很難真正判斷什么才是“任務本身”，什么只是環境噪聲，什么又是必須納入訓練、否則任務根本沒法穩定完成的部分。

所以我們現在確實花了很多精力在這件事上：不是只采“動作數據”，而是盡量把任務和環境一起建模。

Amit Goel：太好了。

Amit Goel：Deepak，你一直在強調機器人領域最大的難題就是數據稀缺。Skild 也提到過會大量使用人類視頻、遠程操作以及仿真。

但你們做的是一個通用模型，要覆蓋不同任務、不同具身形態、不同環境。在這種目標下，你們怎么處理數據規模和數據多樣性的限制？

Deepak Pathak：這是個很好的問題。

我覺得首先可以回頭看看，過去十年 AI 到底給了我們什么教訓。

在我看來，真正重要的其實就兩條。

第一條，是你得有你真正關心的數據。比如做語言模型，你就得有語言數據。你不可能拿一堆非語言數據，最后神奇地學出語言能力。

第二條，而且我覺得更重要的一條，是規模。

哪怕是 GPT-3，之所以成為 GPT-3，也不是因為有某種神秘魔法，而是因為它跨過了一個數量級門檻：30 萬億到 100 萬億 token的量級。那已經是數十萬億、上百億億級別的樣本規模了。

所以我當然同意在座各位說的，真實世界數據非常重要。但我覺得很多人會忽略另一件事：規模同樣重要，而且是壓倒性的重要。

再舉一個已經成功的例子，就是特斯拉自動駕駛。你們用的就是現實里的駕駛數據，這當然是真實數據。但它之所以能起飛，還有一個前提：你們先賣出了足夠多的車，先擁有了那個規模。

所以，對機器人來說，真正的問題不是“真實數據重不重要”——這件事根本沒有爭議。問題是：我們怎么走到那一步？

因為機器人現在其實卡在一個很典型的“雞生蛋、蛋生雞”困境里。你想拿到大規模真實世界數據，前提是機器人已經能在外面干活了；可你想讓機器人先部署出去干活，又需要先有足夠數據把它練出來。

所以在我們這里，我們會把 pre-training 和 post-training 明確拆開來想。

在 pre-training 階段，我們很清楚現在還拿不到足夠規模的真實機器人數據。那能不能從別的來源先借力？

我們現在主要用兩種來源：人類視頻和仿真。

人類視頻里，人是在行動的，所以你能從中學到動作和運動。但它的問題是，它不給你不同具身形態的多樣性。

或者換個說法，它不能直接告訴你：當身體結構不同時，你該怎么把看到的動作映射回自己身上。

比如一個小孩看大人動作時，兩者身體比例其實完全不一樣。但小孩照樣能通過觀察大人、再自己不斷嘗試和練習，慢慢學會。

我們認為，這中間缺的那一層知識，可以由仿真來補。

所以我們會把人類視頻和仿真一起用，先預訓練出一個通用模型，然后再用遠程操作或者真實世界數據去做 fine-tuning。

某種意義上，這和 Chelsea 剛才說的有點像，只是方向稍微反過來。她強調的是有了豐富機器人數據之后，人類數據會更好用；而我們更強調的是，在真實世界規模還沒起來之前，得先靠人類視頻和仿真把“規模”和“多樣性”這兩件事補上。

這樣做的目的，是讓我們能更快把模型部署到更多具身形態和更多場景里。而一旦部署出去，那個通用大腦就會繼續因為真實世界數據而變得更強。

Amit Goel：聽大家這么一輪講下來，我感覺我們大概很快就會把機器人領域的數據缺口補上了：現實世界數據、遠程操作、環境掃描、實際部署、再加上仿真，大家正在把這些東西一層層拼起來。

仿真越來越強了，但它仍然不是現實世界

Amit Goel：這也正好引出今天的第二個主題。

我們現在已經看到越來越多關于數據生成、仿真、策略評估和測試的新方法在出現。所以我想接著問問各位：在你們構建通用智能的路線里，仿真到底扮演什么角色？

Ashok，先從你開始吧。你們最近發布了 Digital Dreams 的工作。能不能具體講講，在你看來，那種基于神經網絡的物理引擎、用來生成 Optimus 合成訓練數據的方法，和 Isaac Lab、MuJoCo、Newton 這類傳統物理仿真相比，到底有什么不同？

Ashok Elluswamy：我覺得，我們其實會針對不同目的使用不同類型的仿真器。

在自動駕駛這邊，問題相對簡單一些。因為現實里已經有數百萬輛車在路上跑，而且還有人類駕駛產生的精確控制數據可以直接拿來學。

但人形機器人不是這樣。你沒有一個現成的外骨骼系統，可以讓人類無縫鉆進去，然后完整、準確地把整套狀態和控制都映射出來。那件事既笨重又麻煩，而且很難精確對齊到現實世界。

所以在機器人這邊，我們的思路通常是：先從人類做過的動作出發，再從那個初始狀態向外模擬，看看“如果從這里開始，接下來還可能發生什么”。

也就是說，你需要一種可控的仿真器——你輸入動作，世界會按這個動作向前演化。但這里真正重要的是：這個仿真器必須在物理上足夠準確。

特別是那些基于神經網絡的仿真器，它們很容易出現一個問題：如果你只在“好結果”的數據上訓練它，它最后幾乎總會想象出“好結果”。不管你輸入什么動作，它都傾向于告訴你，一切都會順利發生。

但現實世界不是這樣的。所以你必須確保仿真真的貼近現實，而不是自己越跑越嗨，最后無論什么動作都給你一個樂觀結局。

這也是為什么擁有一批真實世界里的機器人非常重要。只有當你有足夠多機器人在現實里真正去練習任務，你才能不斷拿這些數據回來，把仿真重新錨定在現實上，把 sim gap 慢慢補起來。

否則的話，仿真器就可能徹底失控，告訴你“這也行，那也行”，但真到了現實里，機器人卻一腳踩進壞狀態里出不來。

所以對我們來說，真實車隊和真實機器人 fleet 的價值，不只是直接產數據，也是在不斷給仿真兜底，讓它別脫離現實。

Amit Goel：很好。

Amit Goel：Chelsea，你們非常強調真實世界數據。那在這種前提下，仿真在 Physical Intelligence 的體系里到底扮演什么角色？你們會怎么用它，來把模型真正帶到現實世界里？

Chelsea Finn：說實話，我們對仿真的使用，可能比很多人想象中要少。

也正因為我們把重心放在真實數據上，所以仿真并不是我們主要的數據來源。但它在別的地方依然非常有價值。

比如系統測試、策略評估、驗證不同算法思路，這些場景里仿真都很好用。尤其是評估，我覺得這是仿真最有潛力、也最重要的用途之一。

因為隨著策略越來越通用，你就必須在越來越多樣的場景里去測試它。而如果每一次測試都要在現實世界里完成，成本會越來越高，難度也會越來越大。

所以在我看來，仿真最令人興奮的地方之一，就是它能讓你把很多分布外環境、很多復雜邊界條件，先在數字世界里過一遍，而不必每次都真的把機器人推進現實環境去試錯。

Amit Goel：也就是說，仿真更像是你們探索那些分布外環境、驗證多樣場景的一塊測試場，而不是訓練主戰場。

Amit Goel：Deepak，你們一直在同時使用多種模態的數據。那在 Skild 這邊，你們有沒有摸索出一個比較清楚的平衡點：到底什么情況下該更多依賴合成數據，什么情況下該更多依賴真實世界數據？

還有，這個比例會不會隨著任務不同而變化？比如走路和操作任務，粗顆粒操作和高靈巧度操作，這些場景的“配方”是不是其實完全不同？

Deepak Pathak：對，這個問題非常關鍵。

我覺得，首先還是要先問清楚：我們現在談的是 pre-training，還是 post-training？因為這兩個階段對仿真的需求完全不一樣。

比如在 post-training 里，仿真當然是更理想的。如果一項任務能直接靠仿真完成微調，那當然最好，因為你就不用真的跑到現實世界里一遍一遍收數據。

我們這次在英偉達展臺上就有一個 live demo，機器人在組裝 GPU 服務器。這是一個非常復雜的任務。我們既可以用真實數據做 fine-tuning，也可以在某些情況下，幾乎只用仿真數據把它做出來。

但問題在于，仿真也有它的邊界。最大的限制，通常出現在那些特別復雜、特別難建模的資產和環境上。

我過去八年一直在用 NVIDIA Isaac、Isaac Gym，甚至更早期的東西。它們確實在不斷進步，幾乎每過幾個月你都會感覺 fidelity 和效率都在提高。

但要把所有東西都同時模擬得足夠真實、又足夠快，直到今天依然很難。一旦這個條件達不到，現實世界數據就沒有替代品。

所以我們的原則大概是這樣：如果能用仿真，我們一定會混合用仿真。無論最終應用是什么，仿真數據我們都會加進去。

但在 pre-training 階段，仿真的重要性還要更高，因為那個階段的核心任務是拿經驗、拿規模。而這兩件事，仿真最擅長。

像 locomotion 和 mobility 這類任務，在我們這里幾乎完全是仿真主導，真實數據很少，甚至幾乎沒有。但一旦到了 manipulation，尤其是跟復雜資產、精細交互相關的操作任務，真實世界數據的重要性就會明顯上升。

當然，隨著仿真能力不斷提升，這個比例也在變化。我們每天都能看到它變得更有幫助一些。

所以答案其實不是一個固定比例，而是要看任務類型，也要看你現在處在訓練流程的哪一個階段。pre-training 是一種思路，post-training 又是另一種思路。

Amit Goel：你剛才提到一個問題：傳統仿真器在 fidelity 上仍然不夠。而現在又出現了神經仿真這一類東西，也就是從現實世界里學出一個世界基礎模型，比如我們在做的 Cosmos。

這會不會幫助你們緩解“仿真不夠真實”這個問題？

Deepak Pathak：會，但要分開看。

我覺得這里面其實有兩種“真實感”。

第一種，是物理層面的真實感。比如某個復雜物體會不會彎、會不會變形、接觸時到底怎么受力，這些都屬于物理 realism。

第二種，是感知層面的真實感。也就是你看到的畫面、紋理、光照、視覺輸入，像不像現實世界。

如果說感知這件事，我覺得因為有了 Cosmos 這類模型，這個 gap 已經快被補上了。至少在 perception 這一層，進展非常明顯，也非常有幫助。

但如果說到物理這一層，我覺得我們還在路上。這部分仍然有很多工作要做。

實際上，我們現在也在和英偉達一起合作，去寫新的 solver，希望把一些東西模擬得更快、更準。所以我會說：感知這邊，神經仿真已經非常有用了；物理這邊，還遠沒有結束。

Amit Goel：Arnaud，你們手里有客戶環境最精確的數字孿生，這意味著你們本來就能在非常真實的環境副本里做大量學習和仿真。

能不能具體講講，你們是怎么把 digital twin 納入仿真策略里的？

Arnaud Robert：可以。

其實除了你剛才說的那些用途之外，我們自己最看重的，主要有兩件事。

第一件事，就是大家都在說的sim-to-real gap。仿真當然越來越好了，但 gap 依然存在。

而要解決這個 gap，唯一的方法其實不是假裝它不存在，而是先把它測出來。這正是數字孿生特別有價值的地方。

因為你可以非常清楚地看到：理論上，它本來應該做到 A；現實里，它最后只做到了 A'。

而且這里不只是機器人自身的數據，還包括環境數據。很多時候，真正把 gap 拉開的，不一定是機器人本體，而是環境里的某個變量。

所以我們現在其實已經建立起了一個完整的反饋閉環：先在仿真里做，再到現實里執行，再把現實中實際發生了什么捕捉回來，再把這些信息反饋給仿真器，讓它不斷逼近現實。

當然，這個 gap 永遠不會真的歸零。但你可以讓它越來越小。

聽起來很簡單，實際上這件事一點都不簡單。因為這里面有數百萬個參數，你得不斷判斷，到底哪些參數才是真正重要的，哪些只是噪聲。

但這項工作非常有意思。

第二件事，是我們發現仿真還有一個很容易被低估的價值：它不僅是機器人的訓練工具，也是工程師的思維校正器。

因為工程師做仿真時，往往會不自覺帶著一種“我早就知道答案應該是什么”的預設。但仿真有時會逼你接受一個完全不在直覺里的答案。

舉個例子。Aeon 是帶輪子的，不是純足式。所以我們之前在想，怎么教它上樓梯。

當時工程師們最自然的想法都是：先把輪子鎖住，然后再去優化腿部電機的動作，讓它一步一步爬上去。這很符合人的直覺。

但后來有個工程師更激進一點，他說：如果我們不鎖輪子，會怎樣？

結果一跑強化學習，發現最優策略根本不是“停住輪子再爬樓”，而是讓輪子始終保持低速滾動，不要歸零，用它的慣性帶著整個身體上樓。

也就是說，對一個帶輪的人形機器人來說，最好的上樓方式，并不是模仿人類的“停—抬—踩”，而是利用連續運動的慣性。

這件事很有意思。它提醒我們，仿真還有一個作用，就是逼工程團隊跳出那些“理所當然”的答案，去發現一些完全不在傳統工程直覺里的解法。

Amit Goel：所以那個行為，是強化學習策略自己找到的？

Arnaud Robert：對，完全是。

我們讓強化學習策略在不同仿真參數下探索，而這些參數設置本身也故意做了變化。結果就是，它一下子把整個“解空間”打開了。

Amit Goel：你剛才其實點出了一個很重要的東西：要真正補齊 sim-to-real gap，背后其實需要一個 real-to-sim 的飛輪。也就是當機器人部署出去之后，你能把現實里的數據重新拉回仿真，通過神經重建也好、別的方法也好，把現實重新建出來，再接著訓練。

Pras，你們已經在外面部署了不少機器人。那在這種情況下，你們是怎么驗證模型的？尤其是你們也做過在合成環境中訓練策略的工作。面對倉庫里那些不可預測的條件，你們到底是怎么把它們建模進去的？

Pras Velagapudi：這個問題其實很大程度上取決于，你現在訓練的是哪一層能力。

如果拿 Digit 來說，它本身就是一套分層模型。最上面是 task space reasoning，中間是 skill space reasoning，最下面是 control space reasoning。

真正最適合用仿真去做強化學習的，主要還是控制層。這一層的時間尺度非常短，而且它依賴的是一個相對簡化、但足夠關鍵的環境模型。

比如說，Digit 在維持平衡這件事上，并不一定需要極高精度的視覺。但它必須非常了解接觸物理，必須知道地面、身體、障礙物之間到底發生了什么接觸關系。

所以我們在這一層最關注的，其實是：現實環境里的情況，是否落在我們訓練時做過 domain randomization 的范圍之內。

這件事我們確實踩過坑。

一個特別典型的例子是：有些倉庫地面非常臟，灰塵很多。結果它的摩擦系數會和你實驗室里那種干凈漂亮的環氧地坪完全不一樣。

于是有一次我們把 Digit 拉到現場，一上去，砰，就出問題了。效果不太理想。

但這類問題的好處是，一旦你知道它在哪，修起來反而很快。你只要把這個變量加進仿真里，修改地面參數，把它納入 domain randomization，就能把這類情況覆蓋進去。

接下來你甚至還能專門做 slip test，去測不同地面的打滑特性，把這些數據系統化，最后訓練出一個對各種表面、各種紋理、各種外力干擾都更魯棒的控制器。

所以我們的思路其實就是同時看兩件事：

一件是sim-to-real gap。如果你在 Isaac 里把機器人和環境都建得足夠準，確實可以做到某種程度上的 zero-shot sim-to-real transfer。

另一件是real-to-sim gap。也就是你真的去了客戶現場之后，要去看執行偏差到底發生在哪，再反過來把這些偏差補進你的參數化仿真和 domain randomization 里。

所以基本上，每去一個新場地，我們都在做同一件事：檢查這個現場，是否還落在我們原來訓練過的仿真分布范圍之內。

一個大腦控制所有機器人，還是分層架構更靠譜

Amit Goel：這也正好把我們帶到了今天的下一個主題：模型架構，以及所謂“機器人大腦”的問題。

現在大家的路線差異已經越來越明顯了。比如 Skild 更像是在做一個單模型、端到端、盡量覆蓋一切的系統；而 Pras 剛才講的則明顯是一套三層推理模型。

所以 Chelsea，我想先從你開始。能不能講講你們這個通用機器人基礎模型是怎么訓練的？它的架構是什么樣？分層是怎么做的？你們最近也在分享一些關于 memory 的工作，能不能一并講講：到底什么樣的模型架構，更可能成為機器人的“大腦”？

Chelsea Finn：我們這幾年確實學到了很多東西，不過要短時間內講清楚也不太容易。

既然你提到 hierarchy，那我就先從這件事說起。對我們來說，分層大概解決了兩類問題。

第一類很自然，就是如果你想讓機器人持續工作很長時間，并且真的能去規劃一連串動作，那你幾乎一定得把大任務拆小。

比如“打掃廚房”、“做咖啡”、“組裝某個東西”這種任務，機器人如果想完成，最好先把它分解成一系列更小的步驟，再在每個步驟里決定具體動作。

這件事對我們特別重要。也正因為有這種分層架構，我們現在已經能讓機器人完成一些最長接近15 分鐘的任務，而且中間會跨越很多不同步驟。

分層帶來的第二個好處，我覺得反而更容易被低估。它讓你可以在一個更高的抽象層上，對機器人進行監督和教學。

比如你不用總是給它完整的 teleoperation 數據，手把手教它“每一步怎么動”。你完全可以在更高層告訴它：

“現在你不該這樣做，你應該先拿起海綿。” 或者“你應該往右邊再挪一點。”

這種監督方式有幾個好處。第一，如果現場沒有人，這種更高層的指導也更容易遠程提供。第二，它實際上是在教機器人如何改進自己的高層抽象。第三，在很多情況下，它比繼續補大量 teleoperation 數據更高效。

還有最后一點，我也想提一下。雖然我們說它是 hierarchy，但你完全可以把這個 hierarchy 重新折疊進一個單一模型里。

從某種意義上說，這和 chain-of-thought 很像：模型先在內部想清楚接下來應該做哪幾個步驟，再用這些步驟去約束自己的動作預測。

也就是說，它最后仍然可以是一個單模型。而且我們發現，當你把這種分層思考壓進一個單模型里時，底層 policy 本身往往也會變得更強。

Amit Goel：很有意思。那 hierarchy 這件事，會不會也改變你們對安全性的理解？因為當機器人可以在內部 roll out 不同方案時，這會不會天然對安全更有幫助？

Chelsea Finn：我不確定 hierarchy 本身是不是直接提升安全性的關鍵。

我們的經驗是，真正的安全機制其實應該放在整個技術棧的每一層。但很多最硬的安全約束，最終還是得放在最底層。因為只有在那里，你才能真正保證系統會按你預期的方式運行。

當然，能夠在更高層抽象上進行干預，這一點非常有價值。比如在我們的一些學術研究里，我們把類似架構用在手術機器人上。這樣醫生在必要的時候，就不一定非得重新接管機器人本體，也可以直接通過語言層面的指令去介入。

Amit Goel：Deepak，你們一直在做一個你稱之為 embodied brain 的系統。那從架構角度看，基礎模型到底是怎么讓“同一個模型控制不同機器人形態”這件事成立的？

也就是說，如果你不是沿著一臺機器人、一類任務一路往下做垂直優化，而是要同時解決不同具身形態的問題，這會怎么改變整個模型架構？

Deepak Pathak：我覺得，這恰恰是我們大量使用仿真的地方。

我們說它是 embodied brain，但它內部其實仍然是有 hierarchy 的。因為身體的不同部分，本來就運行在不同頻率上。

比如你的大腦控制膝蓋和關節，頻率可能非常高，可能是一秒幾百次、幾千次；而你開口說話，可能一秒也就幾個詞；再往上，真正的“思考”，可能是幾秒鐘才形成一個相對完整的意圖。

所以，分層本來就是自然存在的。我們的模型里也有這種層級結構，而且低頻層會建立在高頻層之上，一層層組合起來。

但真正關鍵的是，為了讓模型跨具身形態工作，我們會確保這個 hierarchy 的每一層，都能看到來自多個 embodiment 的數據。

我們之前有一個很出圈的結果：同一個模型，真的就是字面意義上的“同一個模型”，可以同時放在一個 humanoid 上，也可以放在一個 quadruped 上。你甚至把它們的肢體配置改掉，它們也能在幾秒鐘內重新適應，然后繼續站起來、繼續走。

而背后真正發生的事，其實不是我們提前替它寫好了適配規則。恰恰相反，那些測試時用到的機器人，模型在訓練階段根本沒見過。

它真正學會的是另一件事：如果我的身體變了，我該怎么適應。

也正因為我們是大規模這么做的，最后才在機器人上看到了某種很像語言模型的東西——也就是in-context learning。

模型不再把自己理解成“我是控制 humanoid 的模型”或者“我是控制 quadruped 的模型”。它開始學會的是：我先讀自己的短期歷史，我先給所有電機一點輸入，我先感受一下我到底有幾個電機、它們是什么關系，然后我再決定下一步動作。

這種能力，以前我們幾乎只在語言模型里見過。而且語言模型里，這種能力也是在規模大到一定程度以后才涌現出來的，往往是跨過30、40 萬億 token這種門檻之后。

在我們這里，因為仿真把數據規模硬拉了上去，所以這種跨身體、多具身形態的泛化能力也真的出現了。

而一旦底層模型已經能控制多種身體，上層抽象就會容易很多。因為這時候你在更高層操作的，其實已經不再是“某個具體機器人怎么動某個具體關節”，而是更抽象的 latent space。

比如“把手臂移到這里”這件事，對流水線機械臂和對 humanoid 來說，本質上其實沒那么不同。只要底層高頻模型已經把 embodiment 這一層接管掉了，上層就可以在更抽象的空間里做推理。

Amit Goel：明白了。也就是說，你們是在 pre-training 階段先把“可能性空間”盡量鋪開，讓模型先在各種身體里學會適應。

Deepak Pathak：我說得可能有點哲學化，但在我看來，身體本身其實也是環境的一部分。

就像你面前有很多瓶子、很多桌子、很多沙發一樣，也有很多不同的身體。計算機不應該把“身體”看成一種特殊的東西，它也只是環境變量的一部分。

Amit Goel：Ashok，你以前說過一句很有名的話：神經網絡加攝像頭，效果就是特別好。在自動駕駛里，你們就是沿著這條路一路走過來的。

但機器人跟車不一樣，它會直接接觸世界，會抓東西、碰東西、受力、反饋。那這會不會改變你們構建機器人大腦的方式？跟自動駕駛比起來，有沒有根本性變化？

Ashok Elluswamy：我會說，沒有那么大。

本質上，它仍然是一套端到端模型：輸入視頻，輸出底層控制。當然，我并不是說 hierarchy 沒用。分層決策當然有價值。

但我的觀點是，這種 hierarchy 必須內生在同一個決策過程里。它不能被切成兩個互相分離的系統：一個模型只管高層決策，另一個模型只管底層控制。

因為現實世界里，很多時候你必須根據實時信息快速反應。在那種情況下，你沒法把高層和底層拆得太開。

我自己的感覺是，現在很多做人形機器人的人，其實還沒有真正見過機器人問題里的“長尾”到底有多長。做自動駕駛的人對這個問題會更敏感，因為自動駕駛的長尾是真的又長又黑，而且非常難解。

一旦你真的面對這種長尾，你就會知道，很多決策是不能被拆成松散、分離的幾個部分來做的。你必須在相對高的幀率下，同時做高層規劃和底層動作決策，而且它們要在同一個系統里共同完成。

所以我們給 Optimus 設計架構時，基本也是沿著這個思路來的。它當然內部有層次，但這些層次都在同一個模型里跑，彼此共享信息，而且從延遲角度看，整個決策鏈條也是一起被建模的。

這也是為什么我覺得，這套架構會很自然地擴展到人形機器人上。甚至不只是人形機器人，任何機器人都一樣。

只是我們現在恰好先做的是這一種身體。

歸根到底，所有東西最后都是統一訓練的。所謂“高層決策”和“低層決策”的區分，其實更多只是開發者腦子里的區分。對模型來說，它們本質上就是 token 在流動，就是一個連續的決策空間。

你當然可以把這個旋鈕調得更細一點，或者更粗一點，但在模型內部，它其實是連續的。

Amit Goel：所以你們現在只是往這套系統里繼續加更多感知模態，而不打算改掉它的基本哲學？

Ashok Elluswamy：對，核心約束并沒有變。

你要做的無非是增加更多感知模態，再讓輸出空間覆蓋更多自由度。但底層原則沒變：你還是得實時決策。

控制信號當然有層級，但最低頻那一層絕不能太低。因為機器人的安全，不能依賴一個運行得太慢的系統。

Amit Goel：Pras，我想聽聽你的看法。因為你們的路線顯然和 Ashok 不太一樣。

Pras Velagapudi：對，我們確實會把控制器拆開。

但與此同時，我們也不是把這些模塊完全割裂開。它們仍然有很清晰的層級關系，而且是共同訓練的。

比如說，如果我們底層有一個強化學習控制器，那么當我們在它上面再疊一層 imitation learning 或 behavioral cloning 模型時，這個上層模型最好就是跟它未來要協作的那個 RL 控制器一起訓練出來的。

所以它們并不是彼此獨立的。它們之間共享 latent space，也一直在通信。

我們之所以堅持分層，主要有幾個原因。

第一，是時間尺度不同，也和模型部署的位置有關。模型越大，延遲約束越嚴，你就越不可能把所有東西都放在同一個地方運行。

有些模型必須跑在機器人本體上，也就是 edge；有些可以放得遠一點，甚至放到云端。你離機器人越遠，允許的決策延遲也就越大。

第二，是因為我們實際部署中既有 AI 學出來的技能，也有很多工程上直接寫出來的技能。

比如 docking、和 AMR 的交互、某些特定流程，這些事情未必一定要靠學習。很多時候我們完全可以把一條動作軌跡明確寫出來，告訴機器人該怎么對接、該怎么停靠。

底層控制器我們當然還會用學習模型，但在更高層，某些情況下工程化的 motion specification 反而更直接、更可靠。

而一旦把層拆出來，我們就獲得了一種很重要的能力：模塊化。

你可以在不同層之間自由混搭。比如在中間層快速插入一個手寫技能，再配上學習出來的底層控制；或者反過來，用學習的中層能力去接一個高度工程化的頂層任務流。

對真正的部署場景來說，這種模塊化非常重要。因為現實里你接的不是一個抽象任務，而是一整套系統語義、流程語義、設備語義。你必須能在這些層之間快速拼接。

Amit Goel：也就是說，分層其實也給了你們更快部署的能力，而不是非得等一個統一模型把所有東西自己學會。

Pras Velagapudi：對，就是這個意思。

Amit Goel：Arnaud，你們做的是一種對精度要求非常高的場景，這和倉儲物流那種“只要能干活”完全不是一個難度級別。

如果任務精度已經細到毫米級，那這會怎么改變你們對機器人大腦、對智能系統的理解？

Arnaud Robert：我先退一步，從我們整體怎么處理模型講起。

我們的路線可能和前面幾位又不太一樣。我們更像是走一條best-of-breed的路。

也就是說，我們會去用現成的 VLA、世界模型，看看哪些在我們的場景里表現最好，然后把它們拿來組合。而在這個過程中，我們學到了幾件非常重要的事。

第一件事，是我們其實正在做一件很像給 ChatGPT 寫 prompt 的工作。只不過不是給聊天機器人寫 prompt，而是在給機器人寫 prompt。

而且這件事比想象中難得多。

因為如果你想讓這些世界模型、VLA 模型真正按預期工作，你必須把它所需的輸入組織得非常好。如果它是語音控制，事情還簡單一點；但現實里的機器人不是只有語音，它還得同時吃進環境變化、空間信息、任務狀態、感知結果等等不同類型的輸入。

換句話說，我們做了很多所謂的 prompting engineering，只不過對象是機器人，不是 LLM。

第二件事，是 perception、planning、control 這些層雖然本來就運行在不同速度、不同層級上，但現實環境不是靜止的。環境一變，你就得重新決定：這個 prompt 還成不成立？這個模型還該不該繼續跑？要不要暫停、切換、重啟？

比如有人突然從旁邊走過去，比如工廠產線把某個工位的位置改了，哪怕只是這些變化，也會要求你在接近實時的條件下，重新組織上下文、重新調起模型。

第三件事，也就是回到你剛才問的精度問題。因為我們做的是高精度場景，所以我們最后其實不是只依賴一個模型，而是會有多個模型并行存在。

有些模型擅長高精度操作，有些模型擅長快速移動，還有一些更適合別的任務。

所以我們后來慢慢把整套系統轉向了一種更像agentic AI的思路：如果你手里有很多不同模型，你真正要解決的問題就不再是“把某個模型做得多強”，而是怎么把它們編排起來，并且在特定環境、特定任務下，始終挑出那個最合適的模型來執行。

這件事聽起來好像沒什么，其實一點都不簡單。但我們現在確實在往這個方向投很多精力。

從短期 Demo 到長期運行的 Agent，真正的考驗才剛開始

Amit Goel：好，最后我想用一個更大的問題來收尾。

過去幾個月，整個 AI 世界都因為 Agent 發生了很大變化。所以我想請每位嘉賓都談談：

當我們從短期 demo，走向那種真正能夠在現實環境里24/7 持續運行的長時 Agent 時，這會不會從根本上改變你們對模型架構、基礎設施、驗證方式、安全性，甚至商業經濟性的理解？

換句話說，當 Agent 真正進入物理世界時，什么會被改寫？

誰想先來？

Pras Velagapudi：我可以先說。

對我們來說，這件事其實和我們原來在做的方向很自然地銜接上了。因為 Digit 從來就不是一臺孤零零的機器人，它本來就是一個生態系統的一部分。

我們部署的不只是 Digit 本體。我們還有一個云平臺，去管理這些 Digit，去連接倉儲管理系統、制造執行系統，還要協調 AMR 等其他設備。

所以我們其實早就已經在搭一套 orchestration platform，負責讓 Digit 知道什么時候該去充電、什么時候該去接 AMR 的貨、什么時候該在傳送帶之間搬東西。

在這個基礎上，所謂 Agent 的到來，對我們來說更像是在原有系統之上，再多了一層 AI。它不是推翻重來，而是讓 orchestration 這層也變得更智能。

而因為我們本來就已經有一個持久運行、可持續編排的平臺在底下，所以對我們來說，這更像是：

“又一個 AI 帶來的 unlock 突然出現了，而且會讓我們更快到市場。”

Ashok Elluswamy：我覺得，前提還是機器人本身得先足夠聰明。

因為如果你真想讓它連續很多天、24/7 地跑，那它首先得具備足夠強的基礎智能。其次，安全性也必須足夠強。只有這兩點先過線了，你才有資格去談 persistent agents。

一旦這兩個條件都滿足，其實后面的事反而沒那么神秘。你只需要在上面再疊一層 agent framework，它自然就能長時間跑下去。

所以從我的角度看，關鍵不是 Agent 這個詞本身，而是：你底下那臺機器人，到底有沒有到那個閾值。

Chelsea Finn：在我看來，一個“看起來已經很好用”的模型，和一個“真能在現實部署里產生價值”的模型之間，最大差距之一，其實就是可靠性。

而長時運行的 Agent 一個特別有意思的地方就在于：它不會因為第一次失敗就結束。

它可以嘗試一次，失敗了再試一次；換一種方式再試；在部署過程中不斷調整自己。

我覺得這件事很重要。因為如果機器人真的能像這樣在現實世界里持續嘗試、持續修正，那它反而有可能跨過過去一直很難跨過去的那道門檻，真正變得“有用”。

這可能會成為機器人走向真實場景的一個關鍵 unlock。

Arnaud Robert：我接著這個往下講一點。

對我們來說，下一代能力里非常重要的一件事，其實是 AI 的peer-to-peer屬性。

假設你有很多臺 Aeon，或者很多臺 Digit，在外面一起干活。如果其中某一臺在某個任務上失敗了，但它后來找到了另一種完成任務的方法，那么你能多快把這份新經驗同步給整個機器人 fleet？

是在同一個工廠里同步？還是在全球范圍內同步？

我覺得，這種機器人之間的經驗共享、橫向傳播，會是一件非常值得看的事。

Deepak Pathak：我覺得，和 ChatGPT 那種產品不一樣。ChatGPT 一上線，一周就能有一百萬用戶。

但機器人不是這樣。機器人真正難的是最后一公里，而且這條最后一公里非常難。

我覺得首先得承認，難度是分很多維度的。

Chelsea 剛才提到了 reliability。我還想補一個維度，叫tolerance，也就是應用場景到底允許你犯多大的錯。

這件事會直接決定你該先從哪里落地。

比如，如果你做的是自動駕駛這種 safety-critical 場景，那幾乎任何失敗都很糟糕。如果你在工廠里處在整條供應鏈的瓶頸位置，那失敗也會很糟糕。但如果你只是供應鏈最后一環的一部分，也許系統能容忍你偶爾犯錯。

而這種“容錯度”本身，會直接支配機器人最后一公里怎么走。老實說，在我們真正一頭扎進這個 last-mile rabbit hole 之前，我自己都沒有把這件事想得這么清楚。

但現在看，我們至少已經知道了：如果機器人真的要進入物理世界，你就必須沿著這些約束來選場景、選路線、選節奏。

（投稿或尋求報道：zhanghy@csdn.net）

"48 小時，與 50+ 位大廠技術決策者，共探 AI 落地真路徑"

由 CSDN&奇點智能研究院聯合舉辦的「全球機器學習技術大會」正式升級為「奇點智能技術大會」。

2026 奇點智能技術大會將于 4 月 17-18 日在上海環球港凱悅酒店正式召開，大會聚焦大模型技術演進、智能體系統工程、OpenClaw 生態實踐及 AI 行業落地等十二大專題板塊，特邀來自BAT、京東、微軟、小紅書、美團等頭部企業的 50+ 位技術決策者分享實戰案例。旨在幫助技術管理者與一線 AI 落地人員規避選型風險、降低試錯成本、獲取可復用的工程方法論，真正實現 AI 技術的規模化落地與商業價值轉化。

這不僅是一場技術的盛宴，更是決策者把握 2026 AI 拐點的戰略機會。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.