ETH蘇黎世的研究團隊訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)模擬器,讓機器人在"腦海"里預(yù)演動作,然后直接部署到真實硬件上。ANYmal D四足機器人和Unitree G1人形機器人都實現(xiàn)了零樣本遷移。
![]()
這套名為RWM(Robotic World Model)的框架,核心是讓機器人通過神經(jīng)網(wǎng)絡(luò)精確預(yù)測未來幾秒內(nèi)的運動軌跡、關(guān)節(jié)狀態(tài)、接觸力等物理量。論文展示的視頻顯示,模型預(yù)測的軌跡和真實仿真環(huán)境幾乎完全重合,誤差小到肉眼難辨。
01.
雙重自回歸機制,讓模型長期預(yù)測不再跑偏!
傳統(tǒng)世界模型有個致命問題,訓(xùn)練和測試方式不一致。訓(xùn)練時每一步都用真實數(shù)據(jù)喂給模型(teacher forcing),但測試時卻要自己預(yù)測,這種不匹配導(dǎo)致誤差像滾雪球一樣越積越大。預(yù)測一兩秒還行,時間一長就徹底崩了。
![]()
RWM的解決方案是雙重自回歸機制。訓(xùn)練時就讓模型吃自己的預(yù)測結(jié)果——先用真實觀測預(yù)測未來一步,然后把這個預(yù)測結(jié)果當(dāng)作下一步的輸入,繼續(xù)預(yù)測,一直滾動下去。這樣訓(xùn)練出來的模型,在長時間預(yù)測時不會因為小誤差而徹底崩盤。
架構(gòu)上用的是GRU(門控循環(huán)單元)而不是Transformer。GRU在自回歸訓(xùn)練時顯存占用可控,而且推理速度快。論文測試了MLP、RSSM、Transformer等多種架構(gòu),結(jié)果顯示GRU配合自回歸訓(xùn)練的效果最穩(wěn)定。模型的輸入包括機器人的基座速度、重力向量、關(guān)節(jié)位置、速度、力矩等45維(ANYmal D)或96維(Unitree G1)的觀測數(shù)據(jù)。
還有個關(guān)鍵設(shè)計是特權(quán)信息(privileged information)。這些信息在仿真里能拿到,但真實硬件上不一定有,比如膝蓋和腳掌的接觸力、足端高度等。RWM用這些特權(quán)信息做輔助訓(xùn)練目標(biāo),強迫模型隱式學(xué)習(xí)這些物理約束,提升長期預(yù)測的準(zhǔn)確性。
論文做了個消融實驗,測試不同歷史窗口M和預(yù)測窗口N的組合。歷史窗口M越長,模型能捕捉的動態(tài)信息越多,但超過一定長度后收益遞減。預(yù)測窗口N的影響更關(guān)鍵——訓(xùn)練時預(yù)測得越遠(yuǎn),模型在長期預(yù)測時的表現(xiàn)就越好。代價是訓(xùn)練時間變長,因為自回歸過程必須串行計算。當(dāng)N=1(純teacher forcing)時訓(xùn)練最快,但自回歸性能最差,這直接證明了自回歸訓(xùn)練的必要性。
02.
MBPO-PPO框架在想象環(huán)境里訓(xùn)練策略!
有了靠譜的世界模型,下一步就是用它來訓(xùn)練控制策略。團隊提出的MBPO-PPO框架,本質(zhì)上是把PPO算法搬到了模型預(yù)測的"想象環(huán)境"里。
具體流程:先在真實仿真器里收集一批數(shù)據(jù),用這些數(shù)據(jù)訓(xùn)練RWM。然后策略網(wǎng)絡(luò)在RWM預(yù)測的虛擬環(huán)境里跑PPO,不斷優(yōu)化動作選擇。每隔一段時間,再用真實仿真器驗證策略效果,收集新數(shù)據(jù)更新世界模型。這個循環(huán)往復(fù)的過程,讓策略既能高效學(xué)習(xí),又不會因為模型誤差而學(xué)偏。
論文對比了三種方法:SHAC(基于梯度的短視野優(yōu)化)、DreamerV3和MBPO-PPO。SHAC的模型誤差一直居高不下,因為它直接通過世界模型反向傳播梯度,對模型精度要求極高。DreamerV3雖然樣本效率不錯,但在長時間預(yù)測任務(wù)上表現(xiàn)不如MBPO-PPO。
![]()
關(guān)鍵數(shù)據(jù):在ANYmal D的速度跟蹤任務(wù)上,MBPO-PPO訓(xùn)練2000次迭代后,模型誤差降到5以下,策略獎勵穩(wěn)定在30左右。Unitree G1的任務(wù)更復(fù)雜,但10000次迭代后同樣達(dá)到了可部署的水平。訓(xùn)練硬件是單張NVIDIA RTX 4090,ANYmal D的世界模型訓(xùn)練大約需要12小時,策略訓(xùn)練需要6小時。
獎勵函數(shù)的設(shè)計也很講究。速度跟蹤任務(wù)的獎勵包括線速度跟蹤、角速度跟蹤、垂直速度懲罰、關(guān)節(jié)力矩懲罰、關(guān)節(jié)加速度懲罰、動作變化率懲罰等十幾項。每一項都有對應(yīng)的權(quán)重,這些權(quán)重是經(jīng)過大量實驗調(diào)出來的。比如線速度跟蹤的權(quán)重是1.0,垂直速度懲罰是-2.0,關(guān)節(jié)力矩懲罰是-2.5e-5。
03.
零樣本硬件部署和15個任務(wù)的泛化測試
把在RWM里訓(xùn)練的策略直接扔到真實機器人上,不做任何微調(diào)。ANYmal D是一臺重約50公斤的四足機器人,12個自由度。Unitree G1是人形機器人,29個自由度,控制難度更高。論文展示的實驗視頻顯示,兩臺機器人都能穩(wěn)定執(zhí)行速度跟蹤任務(wù)——給定前進(jìn)、轉(zhuǎn)向的速度指令,機器人能精確跟隨,誤差控制在可接受范圍內(nèi)。
![]()
團隊沒有在真實硬件上做在線學(xué)習(xí)。策略訓(xùn)練過程中,機器人平均會摔20多次。在仿真里摔無所謂,真機摔一次就是事故。而且要實現(xiàn)在線學(xué)習(xí),還需要一個恢復(fù)策略讓機器人自己站起來,這對ANYmal D和G1這種大型平臺來說技術(shù)難度不小。
![]()
所以采用的策略是:在仿真里訓(xùn)練時,故意引入域隨機化(domain randomization),模擬真實世界的不確定性。比如隨機改變地面摩擦系數(shù)、機器人質(zhì)量、執(zhí)行器延遲等參數(shù)。這樣訓(xùn)練出來的策略,對真實環(huán)境的適應(yīng)性更強。實驗結(jié)果證明這個策略有效。ANYmal D在實驗室地面上跑了多組測試,前進(jìn)、后退、轉(zhuǎn)向都很流暢。Unitree G1的表現(xiàn)同樣穩(wěn)定。
![]()
為了驗證RWM的通用性,團隊在15個不同的機器人任務(wù)上做了測試,涵蓋操作和運動兩大類。操作任務(wù)包括:UR10和Franka機械臂的到達(dá)任務(wù)、Franka的抓取和開抽屜任務(wù)、Allegro靈巧手的物體重定位任務(wù)。運動任務(wù)更豐富:Unitree A1、Go1、Go2三款四足機器人,ANYmal B、C、D三代四足機器人,波士頓動力的Spot,雙足機器人Cassie,以及宇樹的H1和G1人形機器人。
![]()
測試指標(biāo)是自回歸預(yù)測誤差——讓模型預(yù)測未來6秒的軌跡,然后和真實仿真結(jié)果對比。RWM-AR(自回歸訓(xùn)練版本)在所有任務(wù)上的誤差都是最低的,平均誤差在2到12之間。相比之下,MLP的誤差普遍在20以上,RSSM和Transformer也都在10到30之間波動。RWM-TF(teacher forcing訓(xùn)練版本)的誤差明顯高于RWM-AR,這直接證明了自回歸訓(xùn)練的必要性。
04.
RWM框架的價值到底在哪兒?
RWM的價值不只是在幾個機器人上跑通了實驗,更重要的是它證明了一件事:不依賴領(lǐng)域知識的通用世界模型是可行的。過去很多機器人學(xué)習(xí)方法都需要精心設(shè)計狀態(tài)表示、手工調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、針對特定任務(wù)優(yōu)化算法。RWM用同一套架構(gòu)和訓(xùn)練流程,在操作和運動兩大類、15個不同任務(wù)上都取得了最優(yōu)效果。
從工程角度看,RWM的訓(xùn)練成本也在可接受范圍內(nèi)。單卡4090就能搞定,不需要大規(guī)模集群。這意味著中小型研究團隊和創(chuàng)業(yè)公司也能用上這套方法。零樣本硬件遷移的成功,給sim-to-real問題提供了一個新的解決思路。不是通過系統(tǒng)辨識去精確建模真實世界,而是通過域隨機化和魯棒的世界模型,讓策略自然具備泛化能力。
論文也坦誠討論了當(dāng)前方法的局限。最大的問題是無法在真實硬件上做在線學(xué)習(xí)——策略訓(xùn)練過程中的頻繁失敗在真機上不可接受。團隊提到,未來可能會引入不確定性感知的世界模型,讓策略在探索時更保守,避免危險動作。另一個問題是特權(quán)信息的依賴。雖然RWM在訓(xùn)練時用了接觸力、足端高度等信息,但這些信息在真實硬件上需要額外的傳感器或估計算法。未來可能會研究如何從純視覺或本體感覺信息中隱式學(xué)習(xí)這些物理量。
論文鏈接:https://arxiv.org/pdf/2501.10100
項目地址:https://sites.google.com/view/roboticworldmodel
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.