ETH蘇黎世讓機器人學(xué)會"想象"：零樣本部署四足和人形機器人！

2026-05-06 20:21:36　來源: 機器人大講堂

安徽舉報

分享至

ETH蘇黎世的研究團隊訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)模擬器，讓機器人在"腦海"里預(yù)演動作，然后直接部署到真實硬件上。ANYmal D四足機器人和Unitree G1人形機器人都實現(xiàn)了零樣本遷移。

這套名為RWM（Robotic World Model）的框架，核心是讓機器人通過神經(jīng)網(wǎng)絡(luò)精確預(yù)測未來幾秒內(nèi)的運動軌跡、關(guān)節(jié)狀態(tài)、接觸力等物理量。論文展示的視頻顯示，模型預(yù)測的軌跡和真實仿真環(huán)境幾乎完全重合，誤差小到肉眼難辨。

01.

雙重自回歸機制，讓模型長期預(yù)測不再跑偏！

傳統(tǒng)世界模型有個致命問題，訓(xùn)練和測試方式不一致。訓(xùn)練時每一步都用真實數(shù)據(jù)喂給模型（teacher forcing），但測試時卻要自己預(yù)測，這種不匹配導(dǎo)致誤差像滾雪球一樣越積越大。預(yù)測一兩秒還行，時間一長就徹底崩了。

RWM的解決方案是雙重自回歸機制。訓(xùn)練時就讓模型吃自己的預(yù)測結(jié)果——先用真實觀測預(yù)測未來一步，然后把這個預(yù)測結(jié)果當(dāng)作下一步的輸入，繼續(xù)預(yù)測，一直滾動下去。這樣訓(xùn)練出來的模型，在長時間預(yù)測時不會因為小誤差而徹底崩盤。

架構(gòu)上用的是GRU（門控循環(huán)單元）而不是Transformer。GRU在自回歸訓(xùn)練時顯存占用可控，而且推理速度快。論文測試了MLP、RSSM、Transformer等多種架構(gòu)，結(jié)果顯示GRU配合自回歸訓(xùn)練的效果最穩(wěn)定。模型的輸入包括機器人的基座速度、重力向量、關(guān)節(jié)位置、速度、力矩等45維（ANYmal D）或96維（Unitree G1）的觀測數(shù)據(jù)。

還有個關(guān)鍵設(shè)計是特權(quán)信息（privileged information）。這些信息在仿真里能拿到，但真實硬件上不一定有，比如膝蓋和腳掌的接觸力、足端高度等。RWM用這些特權(quán)信息做輔助訓(xùn)練目標(biāo)，強迫模型隱式學(xué)習(xí)這些物理約束，提升長期預(yù)測的準(zhǔn)確性。

論文做了個消融實驗，測試不同歷史窗口M和預(yù)測窗口N的組合。歷史窗口M越長，模型能捕捉的動態(tài)信息越多，但超過一定長度后收益遞減。預(yù)測窗口N的影響更關(guān)鍵——訓(xùn)練時預(yù)測得越遠(yuǎn)，模型在長期預(yù)測時的表現(xiàn)就越好。代價是訓(xùn)練時間變長，因為自回歸過程必須串行計算。當(dāng)N=1（純teacher forcing）時訓(xùn)練最快，但自回歸性能最差，這直接證明了自回歸訓(xùn)練的必要性。

02.

MBPO-PPO框架在想象環(huán)境里訓(xùn)練策略！

有了靠譜的世界模型，下一步就是用它來訓(xùn)練控制策略。團隊提出的MBPO-PPO框架，本質(zhì)上是把PPO算法搬到了模型預(yù)測的"想象環(huán)境"里。

具體流程：先在真實仿真器里收集一批數(shù)據(jù)，用這些數(shù)據(jù)訓(xùn)練RWM。然后策略網(wǎng)絡(luò)在RWM預(yù)測的虛擬環(huán)境里跑PPO，不斷優(yōu)化動作選擇。每隔一段時間，再用真實仿真器驗證策略效果，收集新數(shù)據(jù)更新世界模型。這個循環(huán)往復(fù)的過程，讓策略既能高效學(xué)習(xí)，又不會因為模型誤差而學(xué)偏。

論文對比了三種方法：SHAC（基于梯度的短視野優(yōu)化）、DreamerV3和MBPO-PPO。SHAC的模型誤差一直居高不下，因為它直接通過世界模型反向傳播梯度，對模型精度要求極高。DreamerV3雖然樣本效率不錯，但在長時間預(yù)測任務(wù)上表現(xiàn)不如MBPO-PPO。

關(guān)鍵數(shù)據(jù)：在ANYmal D的速度跟蹤任務(wù)上，MBPO-PPO訓(xùn)練2000次迭代后，模型誤差降到5以下，策略獎勵穩(wěn)定在30左右。Unitree G1的任務(wù)更復(fù)雜，但10000次迭代后同樣達(dá)到了可部署的水平。訓(xùn)練硬件是單張NVIDIA RTX 4090，ANYmal D的世界模型訓(xùn)練大約需要12小時，策略訓(xùn)練需要6小時。

獎勵函數(shù)的設(shè)計也很講究。速度跟蹤任務(wù)的獎勵包括線速度跟蹤、角速度跟蹤、垂直速度懲罰、關(guān)節(jié)力矩懲罰、關(guān)節(jié)加速度懲罰、動作變化率懲罰等十幾項。每一項都有對應(yīng)的權(quán)重，這些權(quán)重是經(jīng)過大量實驗調(diào)出來的。比如線速度跟蹤的權(quán)重是1.0，垂直速度懲罰是-2.0，關(guān)節(jié)力矩懲罰是-2.5e-5。

03.

零樣本硬件部署和15個任務(wù)的泛化測試

把在RWM里訓(xùn)練的策略直接扔到真實機器人上，不做任何微調(diào)。ANYmal D是一臺重約50公斤的四足機器人，12個自由度。Unitree G1是人形機器人，29個自由度，控制難度更高。論文展示的實驗視頻顯示，兩臺機器人都能穩(wěn)定執(zhí)行速度跟蹤任務(wù)——給定前進(jìn)、轉(zhuǎn)向的速度指令，機器人能精確跟隨，誤差控制在可接受范圍內(nèi)。

團隊沒有在真實硬件上做在線學(xué)習(xí)。策略訓(xùn)練過程中，機器人平均會摔20多次。在仿真里摔無所謂，真機摔一次就是事故。而且要實現(xiàn)在線學(xué)習(xí)，還需要一個恢復(fù)策略讓機器人自己站起來，這對ANYmal D和G1這種大型平臺來說技術(shù)難度不小。

所以采用的策略是：在仿真里訓(xùn)練時，故意引入域隨機化（domain randomization），模擬真實世界的不確定性。比如隨機改變地面摩擦系數(shù)、機器人質(zhì)量、執(zhí)行器延遲等參數(shù)。這樣訓(xùn)練出來的策略，對真實環(huán)境的適應(yīng)性更強。實驗結(jié)果證明這個策略有效。ANYmal D在實驗室地面上跑了多組測試，前進(jìn)、后退、轉(zhuǎn)向都很流暢。Unitree G1的表現(xiàn)同樣穩(wěn)定。

為了驗證RWM的通用性，團隊在15個不同的機器人任務(wù)上做了測試，涵蓋操作和運動兩大類。操作任務(wù)包括：UR10和Franka機械臂的到達(dá)任務(wù)、Franka的抓取和開抽屜任務(wù)、Allegro靈巧手的物體重定位任務(wù)。運動任務(wù)更豐富：Unitree A1、Go1、Go2三款四足機器人，ANYmal B、C、D三代四足機器人，波士頓動力的Spot，雙足機器人Cassie，以及宇樹的H1和G1人形機器人。

測試指標(biāo)是自回歸預(yù)測誤差——讓模型預(yù)測未來6秒的軌跡，然后和真實仿真結(jié)果對比。RWM-AR（自回歸訓(xùn)練版本）在所有任務(wù)上的誤差都是最低的，平均誤差在2到12之間。相比之下，MLP的誤差普遍在20以上，RSSM和Transformer也都在10到30之間波動。RWM-TF（teacher forcing訓(xùn)練版本）的誤差明顯高于RWM-AR，這直接證明了自回歸訓(xùn)練的必要性。

04.

RWM框架的價值到底在哪兒？

RWM的價值不只是在幾個機器人上跑通了實驗，更重要的是它證明了一件事：不依賴領(lǐng)域知識的通用世界模型是可行的。過去很多機器人學(xué)習(xí)方法都需要精心設(shè)計狀態(tài)表示、手工調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、針對特定任務(wù)優(yōu)化算法。RWM用同一套架構(gòu)和訓(xùn)練流程，在操作和運動兩大類、15個不同任務(wù)上都取得了最優(yōu)效果。

從工程角度看，RWM的訓(xùn)練成本也在可接受范圍內(nèi)。單卡4090就能搞定，不需要大規(guī)模集群。這意味著中小型研究團隊和創(chuàng)業(yè)公司也能用上這套方法。零樣本硬件遷移的成功，給sim-to-real問題提供了一個新的解決思路。不是通過系統(tǒng)辨識去精確建模真實世界，而是通過域隨機化和魯棒的世界模型，讓策略自然具備泛化能力。

論文也坦誠討論了當(dāng)前方法的局限。最大的問題是無法在真實硬件上做在線學(xué)習(xí)——策略訓(xùn)練過程中的頻繁失敗在真機上不可接受。團隊提到，未來可能會引入不確定性感知的世界模型，讓策略在探索時更保守，避免危險動作。另一個問題是特權(quán)信息的依賴。雖然RWM在訓(xùn)練時用了接觸力、足端高度等信息，但這些信息在真實硬件上需要額外的傳感器或估計算法。未來可能會研究如何從純視覺或本體感覺信息中隱式學(xué)習(xí)這些物理量。

論文鏈接：https://arxiv.org/pdf/2501.10100

項目地址：https://sites.google.com/view/roboticworldmodel

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.