網易首頁 > 網易號 > 正文申請入駐

跨本體、長任務、可預測……Motubrain雙榜登頂只是一個開始

2026-04-29 21:30:29　來源: AI科技評論

廣東舉報

分享至

機器人離落地干活又近了一步。

作者丨高景輝

編輯丨馬曉寧

“機器人都能做后空翻、跑馬拉松了，怎么還是干不了活？”

在有關具身機器人的視頻評論區，我們總能看到這樣的疑問。

的確，縱觀行業當前的大部分具身機器人，在嘗試“干活”的時候總會遇到尷尬場面：要么一次只能干一件事，一點都不“通用”；要么經常卡頓，需要人為干預；要么換了個機型，就動不了了。

這不禁令人疑惑：具身智能離真正幫我們干活，到底還有多遠？

Motubrain 雙榜登頂，

機器人干活能力有了 “合格線”

很多人把具身機器人干不了活，歸咎為模型能力不足，無法勝任各種場景的干活需求。但事實果真如此嗎？

人們想交給具身智能來干的活千千萬萬，既包含復雜的操作，也有相對簡單的動作，能切入的方向理論上很多，按照目前行業頂尖模型的能力，未必不能駕馭。

所以，不能將具身智能干活難的問題，全算在“能力”頭上。在能力之外，一個被忽視的問題是，大家對于“干活”的定義沒有統一，究竟做到什么程度才算“能干活”？評價一個機器人干活的綜合能力，又要看哪些方面的表現？

換句話說，如果不能用一張“試卷”考核機器人的干活能力，那么評判機器人的“干活”水平就將失去意義。

這種背景下，國際權威 Benchmark 榜單的參考價值被進一步放大。尤其是覆蓋不同核心能力維度的多個榜單，綜合來看能更全面地驗證模型的商用潛力。

以最近的例子來說，不久前通用世界行動模型 Motubrain，就同時登頂 WorldArena 與 RoboTwin2.0 兩大國際具身智能權威榜單。Motubrain 背后的生數科技，也漸漸浮出水面。

具體來看，WorldArena 榜單聚焦模型對真實世界的理解與預測能力，核心衡量模型對物理規律、運動變化、環境狀態的認知水平。在該榜單中，Motubrain 總體 EWM Score 達到 63.77，位列總榜第一，同時在 Motion Quality、Flow Score、Motion Smoothness 等多個核心運動維度均拿下榜首。

RoboTwin2.0 榜單則聚焦機器人的任務執行與泛化能力，衡量模型在多任務、多環境、隨機擾動下的穩定執行表現。在該榜單中，Motubrain 在 Clean 與 Randomized 兩個場景下分別取得 95.8 與 96.1 的成績，位列總榜第一，也是榜單上唯一一個在隨機環境下平均分超過 95 的模型。

過去，行業內的技術探索大多存在能力偏科。部分模型在世界建模維度表現突出，但無法轉化為穩定的執行能力；部分模型能完成固定動作，卻無法適配環境的隨機變化。極少有模型能同時在世界理解與動作執行兩個核心維度，做到行業頂尖水平。

更多地，Motubrain展現出遠高于VLA的多任務泛化性曲線和數據scaling曲線。從左圖可以看出，隨著任務數量增加，Pi-0.5成功率持續下降，而MotuBrain成功率持續上升——這說明它學到了跨任務的通用世界知識，這是 VLA 不具有的能力。

從右圖可以看出，Motubrain 的在數據量上的 Scaling Law 曲線相比其他模型更陡峭，說明其數據效率非常高，僅用少量數據就可以取得很好的結果。

此外，任務數量的 scaling law 曲線比數據量更為陡峭，說明對于 Motubrain 這種數據效率極高的模型來說，相比于增加數據量，增加任務的多樣性對成功率的提升效果更為顯著。

所以，Motubrain 雙榜同時登頂的核心價值，在于它確立了通用機器人大腦干活能力的參照系。兩大榜單的核心維度，共同構成了通用機器人大腦“能干活”的合格線，也為未來具身智能在場景落地，注入了更強的確定性。

機器人“干活”，到底需要哪些模型能力？

既然有了參照系，就不可避免地要回答一個問題：機器人落地“干活”，到底需要哪些模型能力？

這個問題其實不難回答，看看我們「人」在干活的時候需要哪些能力就知道了。

比如餐館的工作人員，一個人可能要身兼數職，包括點餐、送餐、收臺、巡場甚至后廚協助，他們所需要的，是一種“通用”能力，放在具身模型上，就是一個“大腦”接管所有崗位，這就要求機器人的大腦能實現“一腦多能”。

這對于當下的頂尖大模型來說并非難事。比如 Motubrain 在多任務場景中能夠保持穩定表現，而且隨著任務數量持續增加，模型共享到的世界知識越多，平均任務成功率反而同步提升，且任務之間不再爭奪模型容量，反而相互促進。

從生數科技發布的真機演示 Demo 可以看到，Motubrain 在“調酒”任務中，能抓取不同大小、材質的容器，并將酒一滴不撒地倒入酒杯中，也能抓取薄荷葉這類柔性物品。至少要具備這種程度的通用性，機器人才真正上得了崗。

還有，人在做家務活時需要足夠“連貫”，一次性完成所有瑣碎的動作。但很反直覺的是，家務活中對人來說簡單不過的部分，對機器人很可能是相當復雜的。

比如“倒杯水”這個簡單指令背后其實是一長串任務，包括抓取杯子、從廚房取一杯水、避開地上雜物、識別臥室門口、放在床頭柜上并且不打翻藥瓶……這中間涉及移動、抓取、避障、放置等多個動作，還夾雜環境變化。傳統做法依賴上層任務拆解、狀態機或快慢系統拼接，每一步都可能引入額外延遲和失敗風險。

但如果像 Motubrain 一樣有了“一腦貫通”能力，就能夠直接學習完整任務鏈路，無需上層規劃拼接，而且人類無需在中間反復干預，用戶體驗直線上升。畢竟，Motubrain 可以完成超過 10 個原子動作的復雜長程任務，而不是僅停留在兩三個動作的演示階段。

在生數科技發布的 Demo 中，Motubrain 演示了“插花”這一長程任務，包含多次撿花、插花的動作，以及多次拿起水壺噴水的動作，整個過程十分絲滑，像一個整體而非“分解動作”，似乎預示著“干家務”已難不倒具身模型了。

小紅書上有不少人說，希望能有一個機器人“球搭子”，在約不到人的時候陪自己打打球，這種語境下打球也可以視為一種“干活”，但對機器人模型的“預測”能力有很高要求。因為像網球這類運動，其球速往往在每小時100km以上，已超過了當前機器人的硬件能力的上限，等感知到球再揮拍已來不及，必須在人擊球時做出預測，這就依賴于世界模型的能力。

Motubrain 也確實是為數不多能實現“一腦預見”，將理解世界、預測世界和執行動作統一建模的模型。它不只是執行一步指令，而是能推演環境變化，并據此生成更合理的動作路徑，而且預測球路和驅動身體揮拍會成為同一模型下的兩種推理模式，延遲更低，決策更連貫。

當然，也有些問題是人不會遇到的，比如令無數模型廠商頭疼的“泛化”問題。人都是同一個物種，身體結構都是一樣的，基本不會出現多一個關節、少一個器官的情況。但機器人形態各異，構造無法保持一致，這就需要一種“一腦多型”的能力，讓模型能夠吸收生態內越來越豐富的異構數據。

Motubrain 的解決思路，是從一開始就面向多機器人本體。它不是為某一臺機器量身定制，而是用統一的 action 表征打通不同本體，從而適配輪式、臂式、復合式等多種形態。隨著機器人種類和場景不斷增長，模型通用性持續提升，又會進一步反哺每一類機器人的實際表現。

那么，為什么 Motubrain 可以同時具備這四種能力？

最根本的原因在于，Motubrain 是一個通用世界行動模型（WAM），其核心差異在于模型的訓練范式——通過 UniDiffuser 統一建模和調度 video 與 action 兩個連續模態。一次訓練，即可推理出五類分布：視覺-語言-動作（VLA）、世界模型、視頻生成、逆動力學、視頻-動作聯合預測。

這種大一統建模帶來的直接結果是數據吸收能力的質變。傳統 VLA 只能從特定機器人本體的完整任務軌跡數據中學習。Motubrain 可以同時利用缺少 action 模態的純視頻數據、缺少語言任務標簽的任務無關數據，以及包含 video、action、language 的完整軌跡數據。模型學到的，是任務、環境變化和動作后果之間的共享世界知識。

這也是多任務正向 scaling 的根基：任務越多，共享的世界知識越豐富，模型平均成功率隨之提升。

不過，Motubrain 并非“橫空出世”的大模型，在此之前已有深厚的鋪墊。

其實但凡對模型領域有了解的人，都能從名字猜出 Motubrain 和 Motus 之間的聯系。早在2025年12月，生數科技就開源了 Motus，比行業早兩個月提出并驗證了 World Action Models 的核心思想。

在Motus的基礎上，Motubrain完成了一次躍遷：用任意視角數量的統一建模打通不同相機配置，讓模型不再依賴固定的視覺輸入形態；用統一的 action 表征打通不同機器人本體；通過自回歸+diffusion 和語言-動作-視頻三流 MoT，讓模型可以直接完成超過 10 個原子動作的長序列任務；并且讓超大規模具身模型能夠在機器人上實現云邊端協同的實時閉環控制。

這五步跳躍，讓 Motubrain 從一個學術驗證型框架，直接切入了“干活”相關的高要求場景。

Motubrain詳細內容請見：https://www.shengshu.com/zh/motubrain

從技術驗證到產品落地，才是真正的挑戰

做出一個能干活的模型，只是具身智能落地的第一步。下一步是把這種干活能力升級為一種產品力，它的難度往往不亞于技術研發本身。

以生數科技在多模態領域的另一款產品 Vidu 為例，其全自動一鍵成片、高質量批量生產視頻的能力，廣受創作型青睞，尤其是“AI解說劇”細分賽道，Vidu 已成為不少團隊的首選。

這說明，技術上的領先優勢固然重要，但能夠把技術轉化為客戶愿意付費的產品，考驗的是公司對真實場景需求的理解、對用戶體驗的打磨，以及對商業化路徑的持續探索。而生數科技在多模態模型產品化的實操經驗，對于具身智能方向的落地具有直接的遷移價值。

從 Motubrain 的模型發布到產品落地，生數科技已經開始了前置布局。今年3月，生數科技在2026中關村論壇年會上正式發布通用世界模型戰略。公司以基座世界模型為核心底層，向上延伸出兩條清晰的業務軌道：一條基于世界生成模型，在數字空間構建視頻大模型產品 Vidu，推動數字內容的智能化生產；另一條基于世界行動模型，在物理空間構建世界模型產品 Motus，也就是 Motubrain 背后的統一平臺。兩條軌道共享同一個底層技術架構，形成數字世界與物理世界的雙向貫通。

在物理空間的產業化推進上，生數科技也已經與無界動力、星塵智能、深樸智能等具身智能企業達成戰略合作。這兩次合作讓 Motubrain 走出了“技術驗證”的范疇，形成了“模型能力—本體適配—場景落地”的完整閉環。

總之，技術突破決定有沒有，產業合作決定能不能用起來。兩者結合，才能支撐具身智能從實驗室走向真實場景的完整敘事。

最后回到本文的主題，具身智能離真正“能干活”還有多遠？

答案或許比許多人想象的要近，但也比一些人期待的更遠。

說“近”，是因為像 Motubrain 這樣能夠在世界建模和執行能力上同時站上行業最頂端的模型正在出現。雙榜第一的意義不僅僅是技術指標的領先，而是它第一次為通用機器人大腦在落地之前豎起了一把標尺——我們知道了什么樣的模型能力，至少具備了在真實場景中干活的潛力。

說“遠”，是因為從模型突破到大規模部署之間，還有大量的工程化問題和產品化工作要做。機器人不只是模型，還要適配不同本體的硬件，要適應千差萬別的物理環境，要在用戶端形成真正好用的產品體驗。這些都不是一蹴而就的事。

但至少有一點是確定的：過去幾年困擾行業的最大瓶頸——機器人大腦缺乏統一、通用的智能能力——正在被一步步突破。當行業的上限在不斷被刷新，距離機器人在物理世界幫我們干活，就不會太遠了。

2026年的具身智能行業，正在從“技術驗證”走向“規模落地”的關鍵節點上，等待那個“ChatGPT時刻”的到來。而Motubrain 的出現，可能是其中最值得關注的一個信號。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。F

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.