CVPR 2026現場,一組數據直接刷新了整個人形機器人運控領域的認知上限:引入20億幀人類行為數據,零樣本泛化成功率92.58%,在MPJPE、MPJVE等多項指標上全面超越當前最優方法SONIC。這組數字的背后,是銀河通用聯合研究團隊發布的AstraBrain-WBC 0.5——全球首個人形通用小腦GPT基座大模型。
一個模型,沒有任何預先編程,就能直接執行從未見過的新動作。在室外泥地里拿起鋤頭干活,在家庭環境中絲滑穩定地擼貓鏟屎,面對拳打腳踢保持身體魯棒,還能風度翩翩地跳起華爾茲。武術踢腿、籃球運球投籃這些高動態動作,同樣是零樣本完成,無需針對任務做任何微調。這就是人形機器人運控領域有史以來最大規模人類行為數據集所支撐的能力邊界。
![]()
AstraBrain-WBC 0.5的核心突破,在于它將GPT式預訓練引入了運動控制領域。團隊徹底拋棄了傳統的三層MLP架構,改用因果Transformer,配合時序因果建模和超大規模數據訓練。Transformer相比MLP擁有更強的可擴展性,能夠打破單一動作過擬合的困局,實現零樣本泛化追蹤全新動作。再加上訓練數據組的最近鄰檢索實現完全OOD泛化,以及諧波自編碼器與聚類重塑訓練流程,這套GPT式大規模預訓練系統呈現出幾個關鍵特征。
20億幀是什么概念?可以簡單等效于20億token,這個數字已經比肩2018年GPT-1的量級。它比此前最常用的公開數據集AMASS高出兩個數量級,是業內同類跟蹤模型訓練集的200倍以上。模型參數達到8040萬,當真機實測數據擺在面前時,結果不言自明:在四個未見舞蹈動作的跟蹤誤差對比中,AstraBrain-WBC 0.5把三層MLP的76.89%成功率遠遠甩在身后,躍升至92.58%。Scaling Law在人形運動控制領域真實存在,規模即智能的邏輯再一次得到驗證。
但這只是結果。要理解這套方案為什么能做到,需要先看清過去幾年人形機器人運動控制領域始終沒有解決的難題:敏捷、穩定、泛化三者不可兼得。有些方法能讓機器人奔跑跳躍、完成舞蹈武術動作,有些方法能讓機器人跟蹤更開放的動作輸入,但一遇到復雜舞蹈、快速接觸切換,或是金雞獨立這類平衡性動作,機器人全身大幅協調就會變得僵硬,動作精度明顯下降。要敏捷就犧牲穩定性和泛化性,要泛化動作質量就打折扣。AstraBrain-WBC 0.5正是沖著這個不可能三角去的。
論文中提出的核心思想極為清晰:把人體全身運動看作一種動作語言,用處理自然語言的方式去理解和生成它。GPT之所以能在文本領域實現通用智能,關鍵在于海量均衡的數據、因果Transformer架構的自回歸預測能力,以及從大量專家中提煉出的通用表示。這三點同樣適用于人形運動控制。團隊先采集海量人類動作數據集,再用諧波運動嵌入方法讓模型消化數據,經過專家經驗注入的Transformer訓練,最終在部署端控制住推理延遲,完成了運控大模型的完整閉環。
深扒論文細節,整套方案分為三個緊密銜接的階段。數據基建要解決的,是模型吃什么的問題。人形機器人運控數據本就稀缺,團隊沒有局限于單一來源,而是整合了AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++等多個數據集,再加上超過一千小時的高質量內部采集數據,統一重定向到宇樹G1的29自由度關節空間。但光堆數據不夠,不同動作的頻率、幅度、風格差異巨大,直接混在一起訓練模型會消化不良。團隊引入了諧波運動嵌入技術,基于動作的周期特征進行聚類,把約20億幀原始數據切分成大約300個運動簇。這一步相當于給動作數據做了一次詞性標注和句法分析,沒有它20億幀就是一鍋粥,有了它就變成了一本結構清晰的詞典。
架構改造解決的是用什么消化數據的問題。團隊徹底拋棄淺層MLP的決定不是跟風,而是有扎實的控制理論依據:在線動作跟蹤本質上是一個時序預測問題,機器人每一步決策都依賴過去的狀態和動作歷史。因果Transformer的因果注意力機制,天然適合處理這種只能看過去不能偷看未來的場景。相比MLP只能看當前幾幀的短視,Transformer可以捕捉更長的時間上下文,理解動作的連貫性和節奏感。一個舞蹈動作失敗,往往不是因為當前這一步錯了,而是三步之前的重心沒調好。Transformer的長記憶能力,讓它能夠復盤歷史,做出更連貫的決策。
雙階段訓練解決的則是怎么消化的問題。團隊沒有天真地指望一個Transformer直接硬啃20億幀數據,而是采用先分后總的策略。第一階段,為300個運動簇分別訓練約300個PPO運動專家,讓每個專家把自己那類動作學到極致。第二階段,用DAgger算法把這300個專家的經驗蒸餾到單一的AstraBrain-WBC 0.5模型中。這相當于專科會診之后再培養一個全科醫生,專家策略負責在各自領域達到性能上限,蒸餾過程負責把分散的知識整合成通用能力。三個階段環環相扣缺一不可,沒有高質量的數據基建,Transformer就是無米之炊。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.