田晏林 發自 凹非寺
量子位 | 公眾號 QbitAI
現在,具身智能行業出現了一個非常明顯的變化。
全球機器人公司,開始集體「卷真機」了。
前幾天,Figure做物流分揀,直接開了一場7×24小時直播;
Physical Intelligence也在不斷嘗試讓機器人做各種家務;特斯拉的Optimus,更是被馬斯克反復叮囑要「useful work」。
整個行業越來越清楚一件事:
機器人時代,比的已經不是誰的Demo更炫,誰的機器人更會表演。
![]()
而是誰能扎進物理世界,真·干出活來。
畢竟,機器人一旦進入現實環境,問題就完全變了。
桌面會反光,地面會臟亂,物體會遮擋,動作會累積誤差。
看似簡單的擦桌子、抓包裹、放東西,背后是感知、規劃、控制和記憶能力的綜合考驗。
玩家們都在說自己是「勞動小能手」。那到底,誰最能干活?
公平起見,還得把各家模型拉到真實世界里掰掰手腕。
最新進展,全球最大規模具身智能真機評測平臺RoboChallenge Table30榜單再次更新。
結果,行業格局一下清晰了,玩家水平高下立見。
登頂的,是一家清華系明星具身機器人公司的模型——星動紀元自研具身模型Era0,以64.33%的成功率、76.34的綜合得分,拿下全球第一。
![]()
多凡爾賽一句,它不是靠某一項刷分。在總計30項任務中,星動紀元Era0有17項任務取得SOTA表現,創下榜單紀錄。
別看這些任務五花八門,說到底,考的其實是一件事:
具身大腦在物理世界持續「干活」的能力。
登頂具身智能界「最硬」榜單
RoboChallenge是行業公認的「真機高考」。
它不僅被納入ICRA 2026 Competition,也進入CVPR 2026 Workshop Competition(GigaBrain Challenge Track),獲得國際頂級機器人與計算機視覺會議的官方認可。
登頂RoboChallenge,意味著模型通過了真實世界考場。
這對具身玩家們太有吸引力了。
Physical Intelligence的π0/π0.5、微軟的CogACT、OpenVLA等全球頭部VLA模型,經常在該榜單上打得火熱。
而這一次,競爭依舊激烈。一組數據足以窺見其戰況:
![]()
參賽「選手」共22個;30個任務總共跑了1088次;總episode數量達到25627次。
這不是跑幾個Demo視頻,而是真刀真槍地連續真機測試。
其中,兩項任務尤其被行業盯著看:
- 做素食三明治(make vegetarian sandwich)
- 擦桌子(wipe the table)
因為……太難了啊!
![]()
先說做三明治。
![]()
這個任務看起來像廚房小游戲,實際上考的是長程任務規劃。
機器人不僅要知道先拿什么、后放什么,還得記住自己做到哪一步。
面包放錯順序,食材遺漏,動作循環,整個任務直接失敗。
它本質上不是考機器人會不會抓。而是在考機器人能不能像人一樣,理解完整流程。
再看擦桌子。
![]()
整個過程看似日常,但所有物品全白——用白色紙張擦白色桌子并將廢紙扔進白色垃圾桶。
這背后同時涉及:視覺識別、長程任務規劃、接觸控制、環境狀態記憶。
尤其真實世界里的桌面污漬,不是一個標準化目標。
它可能很小、隨機分布、位置變化,甚至會因為反光、陰影、遮擋,導致機器人誤判「已經擦干凈了」。
過去很長時間,這兩類任務,幾乎就是具身模型能力天花板的代名詞。
而星動紀元Era0,把這兩道公認難題一起破了。
![]()
做素食三明治,Era0成功率為20%,是Top8模型中唯一在此任務上取得非零成績的模型。
![]()
擦桌子,Era0成功率60%,也是Top8模型中唯一實現非零成績的模型。
另外,Era0還在兩個任務上直接拿下雙滿分(成功率100%,過程分也是100):
- 將開瓶器放入抽屜(put opener in drawer)
- 擰開水龍頭(turn on faucet)
![]()
這意味著Era0不是偶爾靈光一現,而是真正在不同任務、不同物體、不同交互環境下,具備了穩定執行能力。
我們看了下,榜單設置的30項任務,考察維度非常廣。
在雙臂協同、柔性物體操作、多視角感知、分類任務、長時序任務等多個靈巧操作核心維度上,Era0均位列第一。
![]()
Era0為什么能贏?
Era0霸榜背后,真正值得行業關注的,其實不是成績本身。
而是星動紀元正在押注的一條充滿想象力的技術路線。
它沒有繼續沿用傳統VLA邏輯,也不是單純堆一個World Model。
而是直接把兩者深度融合。
這件事,在行業里其實很少有人真正做成。
原因很簡單。過去兩年,VLA確實一度成為具身智能主流方案。
大家希望通過視覺+語言+動作統一建模,讓機器人像大模型一樣理解世界。但問題也越來越明顯。
首先是缺乏長程規劃。
很多機器人只能完成「下一步」。但現實任務不是單步選擇題,更像連續劇情。
機器人不僅得知道下一步干什么,還得知道自己現在處于哪個階段,后面會發生什么。
其次是幻覺。
模型可能「以為」自己完成了動作。但真實物理世界里,東西根本沒拿起來,污漬也沒擦掉。
最關鍵的,還是持續狀態理解能力不足。
![]()
△AI生成
如果你想讓機器人在物理世界持續「干活」,大腦至少得具備3層能力:
第一層:看得準、定位穩。
現實沒有標準答案,弱光、堆疊、反光都是日常。
很多模型不是不會抓,是壓根看不清。
我們不需要「一眼看懂萬物」的幻覺,只想要一個次次認對、次次定位準的靠譜執行者。
第二層:想得清、走得通。
也就是時序記憶+長程規劃。
在多步驟、有先后順序的任務里,它能不迷路、不循環,按部就班把多步驟任務走完。
第三層:控得穩、能落地。
要求真機動作穩定、泛化遷移強、學習迭代快。
注意,使用者可能不需要一招制勝的高手,動作穩、誤差小、能批量干活的扎實工程師更得人心。
![]()
△AI生成
而要實現這些,僅靠模仿學習成功的VLA是做不到的。
問題在于知其然,但不知其所以然。
比如,傳統VLA缺乏物理因果認知,只會復刻示范動作流程,無法理解動作背后的物理邏輯、空間關系與交互原理,不明白為何要這么操作。
一旦現場環境、物料姿態、作業位置出現細微變化,原有動作立刻失效,無法靈活調整。
同時,它不懂行為因果,無法預判操作風險、推演行為結果,既不能自主排查失誤,也難以舉一反三適配新場景,只能固守既定范式。
單純依靠模仿學習存在天然上限,根本滿足不了大規模落地中靈活作業、自主進化的實際需求。
引入世界模型是最好的解決方案。
因為它本質上是在讓機器人提前腦補未來,以便盡早規劃下一步動作。
從行業首個原生內嵌世界模型的機器人基礎底座PAD,到全球首個具身領域世界模型策略框架VPP,星動紀元一直沒把世界模型當成外掛。
視頻,是比語言更原生的理解物理世界的方式。
他們認為,這是所有技術路線的第一性原理。
轉折點出現在2025年1月,星動紀元第一次真正意義上,將VLA、世界模型深度融合。
UP-VLA的推出,首次提出語言推理和視覺預測可以同時對決策提供幫助。
相當于給機器人裝上了「邊干活邊腦補」的能力。
![]()
但世界模型很快又遇到一個行業級難題,真機數據太貴。
于是,星動紀元又開始了下一步研究——讓世界模型自己生成數據。
2025年10月,其聯合斯坦福Chelsea Finn團隊,推出「可控生成式世界模型」Ctrl-World。
![]()
行業第一次讓世界模型變成數據仿真器。
機器人不再完全依賴海量真機數據,也能持續提升動作精度和穩定性。
今年1月,他們又推出了「VLA策略+世界模型協同進化框架」VLAW。
核心是把此前的Ctrl-World與VLA做成雙向數據閉環,互相校準、互相增強。
VLA和世界模型,開始進入協同進化階段。
這件事很重要。
本質上,它改變了機器人學習物理世界的方式——不是讓機器人記住怎么拿杯子,而是真正理解「拿起來」這件事。
現在回過頭來看,知道Era0為啥會在復雜任務里展現出強泛化能力了吧。
這不是單一模型的勝利,而是世界模型加持下,星動紀元一整條技術路線開始成熟。
強能力支撐硬任務
除了榜單成績,Era0最值得關注的,還有它展現出的非常完整的能力結構。
很多模型會一兩項絕活。但Era0更像一個真正開始成熟的「具身執行系統」,感知、記憶、控制、執行,開始形成閉環。
而這些能力,幾乎都能直接映射到真實工作場景。
時序記憶決策:記得住、不循環
很多機器人,看起來已經很聰明了,能抓、能放、能移動。
但一旦任務步驟開始變長,問題馬上暴露。它會忘,忘記自己做到哪一步,甚至會無限循環同一個動作。
這也是為什么,長程任務一直是具身智能最難方向之一。
機器人不僅要知道下一步干什么,還得知道:我現在在哪一步?前面發生了什么?后面還剩什么?
![]()
△AI生成
Era0這次的重要突破之一,就是短程時序記憶機制
它會持續追蹤歷史動作和任務狀態。
終于,終于,機器人開始「記事」了。
這一能力,在制作素食三明治任務里尤其明顯。
這個任務看似簡單。實際上是典型的長程時序依賴任務。很多模型,做到一半就「失憶」,成功率全部為0。
只有Era0成功跑通完整流程,成為全球首個突破該任務的模型。
而這背后對應的,其實正是機器人開始具備真正的「工作記憶」。
![]()
一旦進入物流場景,這個能力會更加重要。
因為真實流水線,本身就是連續流程。包裹入庫、掃碼、分揀、裝車,每一步都存在狀態依賴。
機器人如果記不住流程,就一定會重復抓取、漏揀錯揀。
柔性物體操作:控得柔、抓得穩
柔性物體操作,一直被認為是具身智能最難啃的骨頭之一。
因為現實世界里,大量物體根本不是標準剛體。
抹布會變形,軟包會塌陷,紙張會飄動,生鮮還會滑。機器人只要力度稍微不對,結果就是掉落、損壞、散開。
而Era0通過規模化跨本體預訓練,以及更精細的夾爪控制,讓機器人能夠同時適配剛性、柔性和易碎物體。
![]()
動作平滑,低抖動。
最關鍵的是,它開始有「輕重感」了。
在碎紙清理、疊抹布等柔性任務中,Era0成功率達到43.3%,遠高于行業平均水平。
而這一能力,一旦進入物流、生鮮、商超場景,價值會立刻放大。
因為現實倉庫里,最難處理的往往不是標準紙箱,而是軟包、冷鏈、生鮮、高價值易碎品。
這些場景過去長期依賴人工,因為不敢交給機器人,就怕它太暴力。
真機執行魯棒:誤差小、可重復
最后我想聊的一個重要能力,是穩定。
很多機器人Demo,看起來都很流暢。但行業真正關心的問題,其實只有一個:它能連續跑多久?
畢竟機器人進入工廠后,面對的不是一次性表演,而是7×24小時持續作業。
動作誤差會不斷積累,軌跡抖動會持續放大。
很多機器人剛開始動作很漂亮,可跑半小時后,誤差就開始失控。
工業場景真正稀缺的,從來不是「能完成一次」,而是能不能穩定重復一萬次。
Era0這次展現出的另一項核心能力,就是極強的真機執行魯棒性。
背后依賴的是動作插值平滑,以及真機推理優化。
這一點,在傾倒薯條入盤、掃碼等高精度任務里體現得很明顯。Era0成功率達到90%-100%。
![]()
動作軌跡連續平滑,沒有明顯抖動和偏移。
這意味著,它已經不只是「會做動作」,開始具備工程級穩定性。
而這,恰恰是機器人真正進入規模化產業落地之前,最關鍵的一道門檻。
不只會比賽,更能進廠干活
具身行業現在有個很有意思的現象:全球機器人公司,都越來越會“直播”了。尤其是Figure。
這里我們不打算討論直播的含金量。畢竟物流分揀本身,并不是什么只有一家能做到的高難動作。
國內不少公司都能做。問題在于,直播場景,很多時候依然是高度可控環境。
物料規整,流程固定,工況理想。
![]()
而真正的物流現場,完全是另一回事。
紙箱、軟包、異形件混雜;光照、噪音、溫度不斷變化;設備誤差、異常工況、突發情況每天都在發生。
能在Demo里連續運行,不等于能真正進入生產系統。
行業真正稀缺的,也從來不是「會不會做演示」,而是能不能長期穩定干活。
這恰恰是星動紀元正在建立的核心優勢。
事實上,在RoboChallenge之前,星動紀元已經在多個權威真機賽事里展現過統治力。
不久前,星動紀元具身模型在權威具身世界模型測評WorldArena中,斬獲具身任務全球第一;
![]()
在全球具身靈巧操作難度頂尖的真機賽事Benjie’s Humanoid Olympic Games上,該公司還擊敗公認最強大腦PI*0.6,一舉拿下剝橘子、開鎖、翻襪子三項任務全球第一。
但比沖榜更重要的,還有落地。
很多公司還在講未來機器人會進入工廠,星動紀元已經開始交付了。
目前,星動紀元已在物流領域率先實現行業首個具身智能PMF落地。
公司已與順豐、中國郵政等企業展開深度合作,在全國5個省市的10余個物流中心,穩定承接真實分揀作業。
這甚至引起海外機器人垂直媒體Bots n Beans創始人Peter Kappes的注意。
![]()
(星動紀元)已部署。而Figure……目前尚未正式宣布任何物流合作。
具身智能行業里,有人還在證明「機器人能干活」。
有人已經開始讓機器人批量入廠干活了。
據公開信息,星動紀元在2026年Q2已開啟千臺級批量交付,同比增速達300%。
One more thing
從某種意義上,RoboChallenge這次把整個行業重新拉回了現實世界。
能不能在隨機環境里持續工作,能不能真正進入生產系統,是這次大考最重要的地方。
Era0的登頂,也同時證明了兩件事:
一是它能比賽,說明技術先進;二是它能干活,商業模式成立。
而同時做到這兩件事的具身大腦,才會是真正稀缺的下一代基礎設施。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.