![]()
還記得今年央視春晚上宇樹機器人的《武bot》嗎?G1和H1在快速奔跑中穿插變陣,后空翻、側(cè)踢、耍雙節(jié)棍、打醉拳……讓所有人見識了高動態(tài)、高協(xié)同的全自主集群控制技術(shù)。
![]()
這樣的技能,以后還能進化到什么程度?
答案來得很快。
3月3日,北京通用人工智能研究院(BIGAI)、宇樹科技、上海交通大學(xué)、中國科學(xué)技術(shù)大學(xué)等,聯(lián)合發(fā)布了一項重磅研究成果。他們開發(fā)出一個名為OmniXtreme的新框架,可以讓宇樹G1學(xué)會執(zhí)行各種極限動作,像是連續(xù)翻轉(zhuǎn)、極限平衡,甚至通過快速接觸切換跳霹靂舞等。
宇樹科技創(chuàng)始人兼CEO王興興也在署名作者之列。
![]()
基于統(tǒng)一策略O(shè)mniXtreme的全身極端運動控制(圖片來源于論文)
![]()
一個困擾行業(yè)多年的難題
這篇標(biāo)題為《OmniXtreme:突破高動態(tài)人形機器人控制的通用性壁壘》的論文, 一作 為Yunshen Wang和Shaohang Zhu。兩位青年學(xué)者分別來自通研院與上海交通大學(xué)、通研院與中國科學(xué)技術(shù)大學(xué)的聯(lián)合培養(yǎng)項目,同時也屬于通研院-宇樹科技具身智能與人形機器人聯(lián)合實驗室。
![]()
論文地址:https://arxiv.org/abs/2602.23843
“我們花了一整年時間深入研究通用跟蹤和極端物理行為之間的障礙。在測試了數(shù)十臺G1后,最終找到了學(xué)習(xí)和物理執(zhí)行能力方面的瓶頸。”論文的共同通訊作者、北京通用人工智能研究院具身機器人中心主任黃思遠(yuǎn)在社交媒體上透露,這是他們首次與王興興合作發(fā)表論文,“一次非常有啟發(fā)性的經(jīng)歷”。
![]()
讓通用人形機器人擁有人類水平的運動能力,是從業(yè)者們長期以來的共同追求。然而,在保持高精度動作控制的同時,實現(xiàn)運動技能的可持續(xù)拓展(generality barrier,通用性瓶頸),一直是該領(lǐng)域面臨的關(guān)鍵技術(shù)挑戰(zhàn)。
簡單來講,當(dāng)前的機器人就像一個偏科生,可以在某一單項上成為冠軍,比如精準(zhǔn)完成后空翻,卻很難成為全能型的運動健將。當(dāng)訓(xùn)練數(shù)據(jù)擴展至包含數(shù)十種風(fēng)格迥異的復(fù)雜運動時,模型性能便會急劇衰退,學(xué)習(xí)效率也大打折扣。
王興興就曾在2025年世界機器人大會上坦言,目前機器人運動控制領(lǐng)域存在RL Scaling Law(強化學(xué)習(xí)的規(guī)模效應(yīng))問題。他解釋說,現(xiàn)在的機器人在學(xué)習(xí)一項新技能時,往往需要從頭開始研究和教學(xué)。“比如我有一個新的舞蹈要去訓(xùn)練,那么每次加入新動作,都要重新訓(xùn)練”。
他希望 未來能 夠?qū)崿F(xiàn)技能的持續(xù)積累與遷移學(xué)習(xí),讓機器人在已有能力基礎(chǔ)上不斷擴展新的技能,從而大幅提升學(xué)習(xí)效率和適應(yīng)性。
![]()
從模仿學(xué)習(xí)到實戰(zhàn)打磨
的兩階段訓(xùn)練
OmniXtreme研究團隊找到的破解之法,是把訓(xùn)練過程拆成兩個階段,先讓它在訓(xùn)練場里“看”遍各種動作,再把它放到真實場地里打磨技術(shù)。
![]()
具體來說,第一階段是預(yù)訓(xùn)練,讓機器人先“博覽群書”(flow-based generative control policy,基于流的生成式控制策略)。團隊先為每一個高難度動作,比如后空翻、托馬斯全旋,訓(xùn)練一個“專家老師”,然后基于數(shù)據(jù)集聚合(Dagger)的流匹配算法,把這些分散的專家知識全部融合到一個統(tǒng)一的“基座策略”里。有了這些知識,這個基座策略就知道如何執(zhí)行各種不同類型的動作。
第二階段是后訓(xùn)練,讓機器人上“真刀真槍”(actuation-aware residual RL,驅(qū)動感知的殘差強化學(xué)習(xí))。光在電腦里學(xué)得好還不夠,畢竟真實世界有復(fù)雜的物理約束:電機有扭矩極限,有發(fā)熱問題,也有能量回沖的風(fēng)險。團隊凍結(jié)了第一階段學(xué)到的基座策略,在上面加了一個輕量級的“殘差策略”,專門負(fù)責(zé)在真實電機約束下做精細(xì)化調(diào)整。
后訓(xùn)練這一步,對于成功實現(xiàn)真實世界的遷移至關(guān)重要,團隊為此還上了一套優(yōu)化的“組合拳”。比如“激進的域隨機化”,說“人話”,就是模擬各種意外情況,讓機器人學(xué)會應(yīng)對真實世界的干擾。
此前很多人就注意到,在《武bot》節(jié)目里,多臺G1在完成空翻落地時腿腳打滑,卻能和人一樣馬上調(diào)整身形站穩(wěn),估計就是訓(xùn)練的結(jié)果。
![]()
![]()
157次試驗整體成功率91.08%
最終訓(xùn)練出的單一策略,已經(jīng)能讓宇樹G1在現(xiàn)實世界中完成24種高動態(tài)運動,157次試驗的整體成功率高達(dá)91.08%。其中,后空翻等動作成功率為96.36%,武術(shù)類為93.33%。
![]()
現(xiàn)在 登錄 項目官網(wǎng),你可以看到研究團隊發(fā)布的一系列真機演示視頻。宇樹G1成功完成的動作展示,包括:連續(xù)五個韋伯斯特空翻;長段霹靂舞表演;向后跳躍,經(jīng)手倒立姿勢旋轉(zhuǎn),下落,翻轉(zhuǎn),隨即彈起;前滾翻,后滾翻,向前爬行等。
![]()
項目官網(wǎng):https://extreme-humanoid.github.io/
這些動作不僅需要極高的動態(tài)平衡能力,還需要在毫秒級的時間內(nèi)完成全身協(xié)調(diào)。視頻中,機器人的動作流暢自然,與參考運動高度一致,展現(xiàn)出相當(dāng)不錯的運動控制能力。
為了進一步驗證是否真的解決了通用性瓶頸問題,團隊還設(shè)計了漸進式壓力測試方案。他們分別使用10個、20個和50個動作,對模型進行訓(xùn)練,并固定以前10個動作為基準(zhǔn),統(tǒng)一評估不同訓(xùn)練規(guī)模下的表現(xiàn)。
結(jié)果顯示,隨著動作多樣性的增加,傳統(tǒng)基于強化學(xué)習(xí)從頭訓(xùn)練的方法出現(xiàn)了明顯性能下降,成功率從100%逐步降至83.3%,最終 滑 到73.9%。
相比之下,OmniXtreme方法展現(xiàn)出較強的穩(wěn)定性與泛化能力,在50個動作的訓(xùn)練條件下,對前10個核心動作的跟蹤成功率仍保持在93.3%。
![]()
目前,該研究的相關(guān)論文、模型檢查點及代碼已正式開源。研究團隊還透露,未來或?qū)㈥懤m(xù)公開包括流匹配基礎(chǔ)策略訓(xùn)練與推理代碼、剩余后訓(xùn)練與推理代碼,以及C++真實部署代碼等在內(nèi)的更多資源。
這意味著,全球的研究者和開發(fā)者都可以基于OmniXtreme框架,訓(xùn)練自己的人形機器人學(xué)會各種高動態(tài)運動技能。這也將大大加速人形機器人運動控制領(lǐng)域的發(fā)展。
文 | 童蔚
VIEW MORE
@浙江的小城里藏著一座短劇超級工廠>>
@合肥的科大訊飛、北京的百度都選擇了杭州>>
@2028全球智能危機,第一塊多米諾已倒下?>>
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.