王興興聯(lián)合高校機構(gòu)發(fā)論文，機器人會武術(shù)的門檻大幅降低

2026-03-05 13:49:26　來源: 九千光年

浙江舉報

分享至

還記得今年央視春晚上宇樹機器人的《武bot》嗎？G1和H1在快速奔跑中穿插變陣，后空翻、側(cè)踢、耍雙節(jié)棍、打醉拳……讓所有人見識了高動態(tài)、高協(xié)同的全自主集群控制技術(shù)。

這樣的技能，以后還能進化到什么程度？

答案來得很快。

3月3日，北京通用人工智能研究院（BIGAI）、宇樹科技、上海交通大學(xué)、中國科學(xué)技術(shù)大學(xué)等，聯(lián)合發(fā)布了一項重磅研究成果。他們開發(fā)出一個名為OmniXtreme的新框架，可以讓宇樹G1學(xué)會執(zhí)行各種極限動作，像是連續(xù)翻轉(zhuǎn)、極限平衡，甚至通過快速接觸切換跳霹靂舞等。

宇樹科技創(chuàng)始人兼CEO王興興也在署名作者之列。

基于統(tǒng)一策略O(shè)mniXtreme的全身極端運動控制（圖片來源于論文）

一個困擾行業(yè)多年的難題

這篇標(biāo)題為《OmniXtreme：突破高動態(tài)人形機器人控制的通用性壁壘》的論文，一作為Yunshen Wang和Shaohang Zhu。兩位青年學(xué)者分別來自通研院與上海交通大學(xué)、通研院與中國科學(xué)技術(shù)大學(xué)的聯(lián)合培養(yǎng)項目，同時也屬于通研院-宇樹科技具身智能與人形機器人聯(lián)合實驗室。

論文地址：https://arxiv.org/abs/2602.23843

“我們花了一整年時間深入研究通用跟蹤和極端物理行為之間的障礙。在測試了數(shù)十臺G1后，最終找到了學(xué)習(xí)和物理執(zhí)行能力方面的瓶頸。”論文的共同通訊作者、北京通用人工智能研究院具身機器人中心主任黃思遠(yuǎn)在社交媒體上透露，這是他們首次與王興興合作發(fā)表論文，“一次非常有啟發(fā)性的經(jīng)歷”。

讓通用人形機器人擁有人類水平的運動能力，是從業(yè)者們長期以來的共同追求。然而，在保持高精度動作控制的同時，實現(xiàn)運動技能的可持續(xù)拓展（generality barrier，通用性瓶頸），一直是該領(lǐng)域面臨的關(guān)鍵技術(shù)挑戰(zhàn)。

簡單來講，當(dāng)前的機器人就像一個偏科生，可以在某一單項上成為冠軍，比如精準(zhǔn)完成后空翻，卻很難成為全能型的運動健將。當(dāng)訓(xùn)練數(shù)據(jù)擴展至包含數(shù)十種風(fēng)格迥異的復(fù)雜運動時，模型性能便會急劇衰退，學(xué)習(xí)效率也大打折扣。

王興興就曾在2025年世界機器人大會上坦言，目前機器人運動控制領(lǐng)域存在RL Scaling Law（強化學(xué)習(xí)的規(guī)模效應(yīng)）問題。他解釋說，現(xiàn)在的機器人在學(xué)習(xí)一項新技能時，往往需要從頭開始研究和教學(xué)。“比如我有一個新的舞蹈要去訓(xùn)練，那么每次加入新動作，都要重新訓(xùn)練”。

他希望未來能夠?qū)崿F(xiàn)技能的持續(xù)積累與遷移學(xué)習(xí)，讓機器人在已有能力基礎(chǔ)上不斷擴展新的技能，從而大幅提升學(xué)習(xí)效率和適應(yīng)性。

從模仿學(xué)習(xí)到實戰(zhàn)打磨

的兩階段訓(xùn)練

OmniXtreme研究團隊找到的破解之法，是把訓(xùn)練過程拆成兩個階段，先讓它在訓(xùn)練場里“看”遍各種動作，再把它放到真實場地里打磨技術(shù)。

具體來說，第一階段是預(yù)訓(xùn)練，讓機器人先“博覽群書”（flow-based generative control policy，基于流的生成式控制策略）。團隊先為每一個高難度動作，比如后空翻、托馬斯全旋，訓(xùn)練一個“專家老師”，然后基于數(shù)據(jù)集聚合（Dagger）的流匹配算法，把這些分散的專家知識全部融合到一個統(tǒng)一的“基座策略”里。有了這些知識，這個基座策略就知道如何執(zhí)行各種不同類型的動作。

第二階段是后訓(xùn)練，讓機器人上“真刀真槍”（actuation-aware residual RL，驅(qū)動感知的殘差強化學(xué)習(xí)）。光在電腦里學(xué)得好還不夠，畢竟真實世界有復(fù)雜的物理約束：電機有扭矩極限，有發(fā)熱問題，也有能量回沖的風(fēng)險。團隊凍結(jié)了第一階段學(xué)到的基座策略，在上面加了一個輕量級的“殘差策略”，專門負(fù)責(zé)在真實電機約束下做精細(xì)化調(diào)整。

后訓(xùn)練這一步，對于成功實現(xiàn)真實世界的遷移至關(guān)重要，團隊為此還上了一套優(yōu)化的“組合拳”。比如“激進的域隨機化”，說“人話”，就是模擬各種意外情況，讓機器人學(xué)會應(yīng)對真實世界的干擾。

此前很多人就注意到，在《武bot》節(jié)目里，多臺G1在完成空翻落地時腿腳打滑，卻能和人一樣馬上調(diào)整身形站穩(wěn)，估計就是訓(xùn)練的結(jié)果。

157次試驗整體成功率91.08%

最終訓(xùn)練出的單一策略，已經(jīng)能讓宇樹G1在現(xiàn)實世界中完成24種高動態(tài)運動，157次試驗的整體成功率高達(dá)91.08%。其中，后空翻等動作成功率為96.36%，武術(shù)類為93.33%。

現(xiàn)在登錄項目官網(wǎng)，你可以看到研究團隊發(fā)布的一系列真機演示視頻。宇樹G1成功完成的動作展示，包括：連續(xù)五個韋伯斯特空翻；長段霹靂舞表演；向后跳躍，經(jīng)手倒立姿勢旋轉(zhuǎn)，下落，翻轉(zhuǎn)，隨即彈起；前滾翻，后滾翻，向前爬行等。

項目官網(wǎng)：https://extreme-humanoid.github.io/

這些動作不僅需要極高的動態(tài)平衡能力，還需要在毫秒級的時間內(nèi)完成全身協(xié)調(diào)。視頻中，機器人的動作流暢自然，與參考運動高度一致，展現(xiàn)出相當(dāng)不錯的運動控制能力。

為了進一步驗證是否真的解決了通用性瓶頸問題，團隊還設(shè)計了漸進式壓力測試方案。他們分別使用10個、20個和50個動作，對模型進行訓(xùn)練，并固定以前10個動作為基準(zhǔn)，統(tǒng)一評估不同訓(xùn)練規(guī)模下的表現(xiàn)。

結(jié)果顯示，隨著動作多樣性的增加，傳統(tǒng)基于強化學(xué)習(xí)從頭訓(xùn)練的方法出現(xiàn)了明顯性能下降，成功率從100%逐步降至83.3%，最終滑到73.9%。

相比之下，OmniXtreme方法展現(xiàn)出較強的穩(wěn)定性與泛化能力，在50個動作的訓(xùn)練條件下，對前10個核心動作的跟蹤成功率仍保持在93.3%。

目前，該研究的相關(guān)論文、模型檢查點及代碼已正式開源。研究團隊還透露，未來或?qū)㈥懤m(xù)公開包括流匹配基礎(chǔ)策略訓(xùn)練與推理代碼、剩余后訓(xùn)練與推理代碼，以及C++真實部署代碼等在內(nèi)的更多資源。

這意味著，全球的研究者和開發(fā)者都可以基于OmniXtreme框架，訓(xùn)練自己的人形機器人學(xué)會各種高動態(tài)運動技能。這也將大大加速人形機器人運動控制領(lǐng)域的發(fā)展。

文 | 童蔚

VIEW MORE

@浙江的小城里藏著一座短劇超級工廠>>

@合肥的科大訊飛、北京的百度都選擇了杭州>>

@2028全球智能危機，第一塊多米諾已倒下？>>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.