網易首頁 > 網易號 > 正文申請入駐

在硅谷，中美具身公司聊了聊了4個問題的解法

2026-05-02 21:06:03　來源: 36氪

北京舉報

分享至

文｜周鑫雨

編輯｜楊軒

規模化落地，今年的具身公司都在談這個。

數字競速，不約而同出現在具身公司的產線、招股書、出貨量上——2026年4月以來，智元機器人宣布第1萬臺機器人量產下線，5000到10000，只用了三個多月；宇樹科技的IPO招股書也攤開了激進商業化的一角：2025年營收17.07億元，出貨量超過5500臺。

激進的數字背后，是“低價、高性能”的中國機器人在全球的擴張。宇樹科技創始人王興興曾在2025年世界機器人大會上提到，過去幾年，宇樹的海外營收一直占總營收的50%以上。

在這些具身玩家中，由追覓在2024年孵化的魔法原子MagicLab，是最年輕的一個。近期，它提出了一個相當激進的營收目標：2036年，要實現140億美元的營收規模。

在全球范圍內打響品牌，也讓這家公司，近期將發布會開進了硅谷。美西時間2026年4月28日，在云集Adobe、TikTok、IBM等公司的圣何塞，魔法原子發起了全球具身智能創新大會（GEIS）。

魔法原子機器人MagicBot Z1現場給張藝興表演。作者拍攝

在會上，魔法原子發布了從底層模型本體的一系列新產品：

世界模型Magic-Mix：魔法原子自研的“自主進化模型”。Magix-Mix由兩個引擎構成：讓機器人學會理解真實世界的Magic-WAM，以及可以離線生成大批量許年數據的Magic-Creator——這意味著，Mix可以在“數據生成-模型訓練-真實世界反饋-數據在生成”的閉環中持續自主迭代。

Magic-Mix架構。圖源：魔法原子

靈巧手MagicHand H01：搭載了20 DOF（自由度，人手約24-27 DOF）和44個高分辨率三維觸覺傳感器，主打工業制造、服務護理等場景的精細操作。

MagicHand H01。圖源：魔法原子

人形機器人MagicBot X1：一款身高180cm、體重70kg、全身搭載31個主動DOF、極限關節扭矩達450N·m的機器人。基于無限續航雙電系統，X1可以7*24連續作業。產品分為標準版和科研版，前者商業部署效率高、開箱即用，后者則面向高校、實驗室、開發者和產業伙伴，支持底層二次開發和外形定制。

MagicBot X1。圖源：魔法原子

在會上，Openmind、PrismaX、Chestnut Roborics等來自硅谷的具身大腦和本體公司，也出現在現場。有關大腦、本體、數據的解決方案，這些公司給出了不同的解決思路。

以下是《智能涌現》關于現場討論的整理：

用機器合成數據訓練，效果會比真實世界數據更好嗎？

高質量數據的稀缺，一直是掣肘具身模型訓練的瓶頸。當前真機數據采集一直存在成本高、周期長、場景覆蓋等問題。

機器合成數據，就是解決方案之一。然而，合成數據的局限性在于真實信息的缺失，比如摩擦系數、延遲、觸覺反饋等。這也造成業界對“sim-to-real-gap”的擔憂。

混合數據訓練，是當下中美具身智能企業提出的主流解決方案。比如，魔法原子總裁顧詩韜介紹，魔法原子日均采集約16000條數據，再通過數據合成實現1萬倍的體量擴展。她提到，由于產品迭代快、60%-70%的工序依賴人工，新能源汽車制造業，是數據采集的富礦。

判斷使用真實數據，還是機器合成數據，行業的共識是：基于具體訓練目的和應用場景。

亞馬遜前沿AI與機器人研究院科學家Haozhi Qi提到，合成數據適用于讓機器學習單一的反應基本技能，但難以讓機器獲得類似于做早餐之類的長程技能。此時，引入真實數據訓練是有必要的，因為構建一個足夠豐富的模擬環境，成本很高。

英偉達GEAR Lab高級研究科學家Zhengyi Luo則透露，團隊目前采用50%的模擬數據，用于基礎訓練；15%的動捕數據、25%的互聯網視頻數據，用于理解人類的動作；同時，訓練還會添加10%的高質量真實世界數據。他還提到，有些公司甚至會使用社交媒體上的數據，來指導機器人的本體設計。

VLA（視覺-語言-行動）是具身“大腦”最好的解決方案嗎？

由于強大的任務泛化能力，當下VLA已經成為具身模型最主流的架構范式。

但事實上，當人類用手指旋轉一個籃球時，只用依靠觸覺和本體感知，并不需要視覺——這意味著，VLA在這兩個感知系統上，存在短板。

在GEIS大會上，亞馬遜前沿AI與機器人研究院科學家Haozhi Qi認為，VLA的流行，與硬件傳感器的發展程度有關：當下，視覺傳感器趨于成熟，但觸覺傳感器還在初級開發階段。

因此，在他看來，具身系統需要通過其他感覺的輸入，來補足不太成熟的傳感系統，從而維持本體的操作。因此，通過視覺和語言補足觸覺缺陷的VLA，成了當下最好的解決方案之一。不過，未來隨著傳感器和硬件層面的發展，算法也會隨之迭代。

靈巧手的三大路線之爭：連桿、腱繩與直驅

當下，有關靈巧手設計的核心迷思是：要不要像人手？圍繞這一命題，誕生了連桿、腱繩、直驅三種設計方案。

其中，“連桿”最不像人手，但勝在成本低、易于控制；“腱繩”最像人手，可以做精細化操作，但成本高、控制難。“直驅”則是一種折中方案，將驅動單元直接集成在每個關節上，但成本不低，同時力傳導效率和熱管理上仍然面臨工程層面的挑戰。

混合架構路線，則是近期興起的靈巧手技術解決方案。Chestnut Robotics創始人、前Tesla Optimus靈巧手核心成員Evan Tao介紹，當下團隊已經選擇了混合架構路線，以可以完成精細化操作的腱繩結構為主，輔以AI控制和自主學習系統。未來的方案，“都會在靈活度和工程可靠性之間尋求平衡。”他提到。

機器人如何真正規模化落地？

在數據層，引入真實世界數據，依然被認為是讓機器人真正理解應用場景、學習復雜任務操作的關鍵。

比如，XGSynBot CEO Zizheng Li提到，他們采取的混合數據策略，依然引入了少量高質真實世界數據，控制成本的同時，也能提升模型能力和泛化水平。

在系統層，XGSynBot CEO Zizheng Li認為，機器人需要從“單一功能設備”向“多任務通用平臺”演進，比如XGSynBot的機械臂，帶有6個Quick-chage的模塊化系統，這樣做的好處是，一臺機器人可以在不同工序間靈活切換，提高落地場景的廣泛性。

最后，OpenMind創始人、斯坦福大學生物工程副教授Jan Liphardt總結：機器人進入真實世界，越早越好。

他發現，實驗室環境無法模擬所有復雜的現實場景，比如過亮的光線、泥濘潮濕的地面、生銹的門鉸鏈、多個系統同時運行的負載——這些復雜的真實場景，往往導致機器人在離開實驗室后，出現系統故障。

因此，機器人落地前，不應該僅僅待在實驗室中。Jan Liphardt建議，盡早讓機器人在家庭、學校、機場、幼兒園和其他公共場景的實際部署中，收集交互數據，持續迭代。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.