<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      ETH蘇黎世讓機器人學(xué)會"想象":零樣本部署四足和人形機器人!

      0
      分享至

      ETH蘇黎世的研究團隊訓(xùn)練了一個神經(jīng)網(wǎng)絡(luò)模擬器,讓機器人在"腦海"里預(yù)演動作,然后直接部署到真實硬件上。ANYmal D四足機器人和Unitree G1人形機器人都實現(xiàn)了零樣本遷移。



      這套名為RWM(Robotic World Model)的框架,核心是讓機器人通過神經(jīng)網(wǎng)絡(luò)精確預(yù)測未來幾秒內(nèi)的運動軌跡、關(guān)節(jié)狀態(tài)、接觸力等物理量。論文展示的視頻顯示,模型預(yù)測的軌跡和真實仿真環(huán)境幾乎完全重合,誤差小到肉眼難辨。

      01.

      雙重自回歸機制,讓模型長期預(yù)測不再跑偏!

      傳統(tǒng)世界模型有個致命問題,訓(xùn)練和測試方式不一致。訓(xùn)練時每一步都用真實數(shù)據(jù)喂給模型(teacher forcing),但測試時卻要自己預(yù)測,這種不匹配導(dǎo)致誤差像滾雪球一樣越積越大。預(yù)測一兩秒還行,時間一長就徹底崩了。



      RWM的解決方案是雙重自回歸機制。訓(xùn)練時就讓模型吃自己的預(yù)測結(jié)果——先用真實觀測預(yù)測未來一步,然后把這個預(yù)測結(jié)果當(dāng)作下一步的輸入,繼續(xù)預(yù)測,一直滾動下去。這樣訓(xùn)練出來的模型,在長時間預(yù)測時不會因為小誤差而徹底崩盤。

      架構(gòu)上用的是GRU(門控循環(huán)單元)而不是Transformer。GRU在自回歸訓(xùn)練時顯存占用可控,而且推理速度快。論文測試了MLP、RSSM、Transformer等多種架構(gòu),結(jié)果顯示GRU配合自回歸訓(xùn)練的效果最穩(wěn)定。模型的輸入包括機器人的基座速度、重力向量、關(guān)節(jié)位置、速度、力矩等45維(ANYmal D)或96維(Unitree G1)的觀測數(shù)據(jù)。

      還有個關(guān)鍵設(shè)計是特權(quán)信息(privileged information)。這些信息在仿真里能拿到,但真實硬件上不一定有,比如膝蓋和腳掌的接觸力、足端高度等。RWM用這些特權(quán)信息做輔助訓(xùn)練目標(biāo),強迫模型隱式學(xué)習(xí)這些物理約束,提升長期預(yù)測的準(zhǔn)確性。

      論文做了個消融實驗,測試不同歷史窗口M和預(yù)測窗口N的組合。歷史窗口M越長,模型能捕捉的動態(tài)信息越多,但超過一定長度后收益遞減。預(yù)測窗口N的影響更關(guān)鍵——訓(xùn)練時預(yù)測得越遠(yuǎn),模型在長期預(yù)測時的表現(xiàn)就越好。代價是訓(xùn)練時間變長,因為自回歸過程必須串行計算。當(dāng)N=1(純teacher forcing)時訓(xùn)練最快,但自回歸性能最差,這直接證明了自回歸訓(xùn)練的必要性。

      02.

      MBPO-PPO框架在想象環(huán)境里訓(xùn)練策略!

      有了靠譜的世界模型,下一步就是用它來訓(xùn)練控制策略。團隊提出的MBPO-PPO框架,本質(zhì)上是把PPO算法搬到了模型預(yù)測的"想象環(huán)境"里。

      具體流程:先在真實仿真器里收集一批數(shù)據(jù),用這些數(shù)據(jù)訓(xùn)練RWM。然后策略網(wǎng)絡(luò)在RWM預(yù)測的虛擬環(huán)境里跑PPO,不斷優(yōu)化動作選擇。每隔一段時間,再用真實仿真器驗證策略效果,收集新數(shù)據(jù)更新世界模型。這個循環(huán)往復(fù)的過程,讓策略既能高效學(xué)習(xí),又不會因為模型誤差而學(xué)偏。

      論文對比了三種方法:SHAC(基于梯度的短視野優(yōu)化)、DreamerV3和MBPO-PPO。SHAC的模型誤差一直居高不下,因為它直接通過世界模型反向傳播梯度,對模型精度要求極高。DreamerV3雖然樣本效率不錯,但在長時間預(yù)測任務(wù)上表現(xiàn)不如MBPO-PPO。



      關(guān)鍵數(shù)據(jù):在ANYmal D的速度跟蹤任務(wù)上,MBPO-PPO訓(xùn)練2000次迭代后,模型誤差降到5以下,策略獎勵穩(wěn)定在30左右。Unitree G1的任務(wù)更復(fù)雜,但10000次迭代后同樣達(dá)到了可部署的水平。訓(xùn)練硬件是單張NVIDIA RTX 4090,ANYmal D的世界模型訓(xùn)練大約需要12小時,策略訓(xùn)練需要6小時。

      獎勵函數(shù)的設(shè)計也很講究。速度跟蹤任務(wù)的獎勵包括線速度跟蹤、角速度跟蹤、垂直速度懲罰、關(guān)節(jié)力矩懲罰、關(guān)節(jié)加速度懲罰、動作變化率懲罰等十幾項。每一項都有對應(yīng)的權(quán)重,這些權(quán)重是經(jīng)過大量實驗調(diào)出來的。比如線速度跟蹤的權(quán)重是1.0,垂直速度懲罰是-2.0,關(guān)節(jié)力矩懲罰是-2.5e-5。

      03.

      零樣本硬件部署和15個任務(wù)的泛化測試

      把在RWM里訓(xùn)練的策略直接扔到真實機器人上,不做任何微調(diào)。ANYmal D是一臺重約50公斤的四足機器人,12個自由度。Unitree G1是人形機器人,29個自由度,控制難度更高。論文展示的實驗視頻顯示,兩臺機器人都能穩(wěn)定執(zhí)行速度跟蹤任務(wù)——給定前進(jìn)、轉(zhuǎn)向的速度指令,機器人能精確跟隨,誤差控制在可接受范圍內(nèi)。



      團隊沒有在真實硬件上做在線學(xué)習(xí)。策略訓(xùn)練過程中,機器人平均會摔20多次。在仿真里摔無所謂,真機摔一次就是事故。而且要實現(xiàn)在線學(xué)習(xí),還需要一個恢復(fù)策略讓機器人自己站起來,這對ANYmal D和G1這種大型平臺來說技術(shù)難度不小。



      所以采用的策略是:在仿真里訓(xùn)練時,故意引入域隨機化(domain randomization),模擬真實世界的不確定性。比如隨機改變地面摩擦系數(shù)、機器人質(zhì)量、執(zhí)行器延遲等參數(shù)。這樣訓(xùn)練出來的策略,對真實環(huán)境的適應(yīng)性更強。實驗結(jié)果證明這個策略有效。ANYmal D在實驗室地面上跑了多組測試,前進(jìn)、后退、轉(zhuǎn)向都很流暢。Unitree G1的表現(xiàn)同樣穩(wěn)定。



      為了驗證RWM的通用性,團隊在15個不同的機器人任務(wù)上做了測試,涵蓋操作和運動兩大類。操作任務(wù)包括:UR10和Franka機械臂的到達(dá)任務(wù)、Franka的抓取和開抽屜任務(wù)、Allegro靈巧手的物體重定位任務(wù)。運動任務(wù)更豐富:Unitree A1、Go1、Go2三款四足機器人,ANYmal B、C、D三代四足機器人,波士頓動力的Spot,雙足機器人Cassie,以及宇樹的H1和G1人形機器人。



      測試指標(biāo)是自回歸預(yù)測誤差——讓模型預(yù)測未來6秒的軌跡,然后和真實仿真結(jié)果對比。RWM-AR(自回歸訓(xùn)練版本)在所有任務(wù)上的誤差都是最低的,平均誤差在2到12之間。相比之下,MLP的誤差普遍在20以上,RSSM和Transformer也都在10到30之間波動。RWM-TF(teacher forcing訓(xùn)練版本)的誤差明顯高于RWM-AR,這直接證明了自回歸訓(xùn)練的必要性。

      04.

      RWM框架的價值到底在哪兒?

      RWM的價值不只是在幾個機器人上跑通了實驗,更重要的是它證明了一件事:不依賴領(lǐng)域知識的通用世界模型是可行的。過去很多機器人學(xué)習(xí)方法都需要精心設(shè)計狀態(tài)表示、手工調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、針對特定任務(wù)優(yōu)化算法。RWM用同一套架構(gòu)和訓(xùn)練流程,在操作和運動兩大類、15個不同任務(wù)上都取得了最優(yōu)效果。

      從工程角度看,RWM的訓(xùn)練成本也在可接受范圍內(nèi)。單卡4090就能搞定,不需要大規(guī)模集群。這意味著中小型研究團隊和創(chuàng)業(yè)公司也能用上這套方法。零樣本硬件遷移的成功,給sim-to-real問題提供了一個新的解決思路。不是通過系統(tǒng)辨識去精確建模真實世界,而是通過域隨機化和魯棒的世界模型,讓策略自然具備泛化能力。

      論文也坦誠討論了當(dāng)前方法的局限。最大的問題是無法在真實硬件上做在線學(xué)習(xí)——策略訓(xùn)練過程中的頻繁失敗在真機上不可接受。團隊提到,未來可能會引入不確定性感知的世界模型,讓策略在探索時更保守,避免危險動作。另一個問題是特權(quán)信息的依賴。雖然RWM在訓(xùn)練時用了接觸力、足端高度等信息,但這些信息在真實硬件上需要額外的傳感器或估計算法。未來可能會研究如何從純視覺或本體感覺信息中隱式學(xué)習(xí)這些物理量。

      論文鏈接:https://arxiv.org/pdf/2501.10100

      項目地址:https://sites.google.com/view/roboticworldmodel

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      這才是今年最大的瓜!

      這才是今年最大的瓜!

      白淺娛樂聊
      2026-04-29 09:17:37
      女兒對快百歲父親說:爸,你活的日子太長了,我媽應(yīng)該來把你帶走

      女兒對快百歲父親說:爸,你活的日子太長了,我媽應(yīng)該來把你帶走

      烙任情感
      2026-05-14 14:29:49
      爸每年都給當(dāng)科員的二叔送豬肉,我政審被卡時,他打電話給組織部

      爸每年都給當(dāng)科員的二叔送豬肉,我政審被卡時,他打電話給組織部

      周哥一影視
      2026-05-15 15:59:09
      餓上一天,壽命延長超40%?Nature子刊:關(guān)鍵不是餓的時候燃燒脂肪,而是“吃回去”時關(guān)掉燃脂開關(guān);而大腦“感覺餓”,還能調(diào)整免疫系統(tǒng)

      餓上一天,壽命延長超40%?Nature子刊:關(guān)鍵不是餓的時候燃燒脂肪,而是“吃回去”時關(guān)掉燃脂開關(guān);而大腦“感覺餓”,還能調(diào)整免疫系統(tǒng)

      梅斯醫(yī)學(xué)
      2026-05-13 07:52:59
      男子釣魚觸碰高壓線身亡,家屬拿2.4萬補償后起訴,一審判供電公司再賠61.8萬

      男子釣魚觸碰高壓線身亡,家屬拿2.4萬補償后起訴,一審判供電公司再賠61.8萬

      紅星新聞
      2026-05-15 12:45:13
      特朗普剛到北京,臺海風(fēng)聲又緊了,中美這次真能談出個樣子嗎?

      特朗普剛到北京,臺海風(fēng)聲又緊了,中美這次真能談出個樣子嗎?

      陳意小可愛
      2026-05-15 18:17:02
      雷軍馬斯克同框,6 位大佬赴宴特朗普,為何獨缺馬云?真相扎心

      雷軍馬斯克同框,6 位大佬赴宴特朗普,為何獨缺馬云?真相扎心

      眼界看視野
      2026-05-15 10:38:19
      不用中國幫忙,特朗普信誓旦旦,魯比奧的一番話,卻露了美國底牌

      不用中國幫忙,特朗普信誓旦旦,魯比奧的一番話,卻露了美國底牌

      浪子阿邴聊體育
      2026-05-14 18:41:46
      天王嫂濾鏡徹底碎!方媛?lián)寙稳碎g引眾怒,極致利己嘴臉藏不住了

      天王嫂濾鏡徹底碎!方媛?lián)寙稳碎g引眾怒,極致利己嘴臉藏不住了

      千言娛樂記
      2026-05-14 23:30:52
      中午11時,中美磋商準(zhǔn)時開始,特朗普發(fā)現(xiàn):中國比他想象中更厲害

      中午11時,中美磋商準(zhǔn)時開始,特朗普發(fā)現(xiàn):中國比他想象中更厲害

      忠于法紀(jì)
      2026-05-15 18:23:06
      馬斯克參加晚宴被指喝懵了!毛大慶:沒有飲酒過量 扛不住時差的原因

      馬斯克參加晚宴被指喝懵了!毛大慶:沒有飲酒過量 扛不住時差的原因

      快科技
      2026-05-15 07:14:23
      名單曝光!10家中企采購英偉達(dá)H200!

      名單曝光!10家中企采購英偉達(dá)H200!

      半導(dǎo)體圈
      2026-05-14 18:18:23
      奇瑞董事長尹同躍:已為智界投入200多億專項資金,智界V9累計小訂突破4萬輛

      奇瑞董事長尹同躍:已為智界投入200多億專項資金,智界V9累計小訂突破4萬輛

      新浪財經(jīng)
      2026-05-15 15:21:10
      砸了個寂寞!特朗普最愚蠢之處,就是把中美平起平坐的真相說出來

      砸了個寂寞!特朗普最愚蠢之處,就是把中美平起平坐的真相說出來

      小嵩
      2026-03-28 18:44:22
      北京隊客戰(zhàn)上海G1裁判出爐,2外籍名哨+1本土老熟人,有好戲看了

      北京隊客戰(zhàn)上海G1裁判出爐,2外籍名哨+1本土老熟人,有好戲看了

      萌蘭聊個球
      2026-05-15 11:07:44
      無極縣一火鍋店突發(fā)重大刑案,驚悚說法大量傳播,信息公開很重要

      無極縣一火鍋店突發(fā)重大刑案,驚悚說法大量傳播,信息公開很重要

      胡侃社會百態(tài)
      2026-05-14 13:26:32
      白宮鏡頭停留5秒在解放軍,特朗普印象深刻,美民眾稱贊紀(jì)律嚴(yán)明

      白宮鏡頭停留5秒在解放軍,特朗普印象深刻,美民眾稱贊紀(jì)律嚴(yán)明

      瓦倫西亞月亮
      2026-05-15 18:21:39
      女子花143元線上買榴蓮破防,5房果開出3房“榴蓮糖”,聯(lián)系客服后退款50%,“已釋懷,這種極低概率的翻車也是新奇體驗”

      女子花143元線上買榴蓮破防,5房果開出3房“榴蓮糖”,聯(lián)系客服后退款50%,“已釋懷,這種極低概率的翻車也是新奇體驗”

      天津生活通
      2026-05-15 14:30:29
      非洲疾控中心:剛果(金)暴發(fā)埃博拉疫情

      非洲疾控中心:剛果(金)暴發(fā)埃博拉疫情

      新華社
      2026-05-15 16:52:07
      英國教授:中國崛起不可怕,可怕的是,他是一個偽裝成國家的文明

      英國教授:中國崛起不可怕,可怕的是,他是一個偽裝成國家的文明

      抽象派大師
      2026-05-03 00:24:11
      2026-05-15 18:56:49
      機器人大講堂 incentive-icons
      機器人大講堂
      立德機器人平臺,是一個集媒體品牌、智庫咨詢、投資孵化、引智招商為一體的機器人垂直領(lǐng)域服務(wù)平臺
      6563文章數(shù) 4585關(guān)注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      媒體:中美元首會晤"刷屏" 特朗普用3個詞談中美關(guān)系

      頭條要聞

      媒體:中美元首會晤"刷屏" 特朗普用3個詞談中美關(guān)系

      體育要聞

      德約科維奇買的球隊,從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經(jīng)要聞

      騰訊掉隊,馬化騰戳破真相

      汽車要聞

      高爾夫GTI刷新紐北紀(jì)錄 ID. Polo GTI迎全球首秀

      態(tài)度原創(chuàng)

      房產(chǎn)
      親子
      藝術(shù)
      手機
      家居

      房產(chǎn)要聞

      海口商業(yè)也是出息了!“友誼陽光城”,殺入北京最牛商街!

      親子要聞

      2026年越秀區(qū)公辦園搖號結(jié)果出爐!搖中率2.33:1

      藝術(shù)要聞

      敦煌挖出王羲之書法!全卷2000字清晰如新!

      手機要聞

      蘋果618全系降價 iPhone 17 Pro系列直降1000

      家居要聞

      110㎡淡而有致的生活表達(dá)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 临湘市| 亚洲激情一区二区三区在线| 深夜av免费在线观看| 久久人妻中文| 老司机久久99久久精品播放免费| 亚洲av首页在线| 国产亚洲一二三区精品| 亚洲成av人片天堂网无码| 亚洲国产精品福利片在线观看| 久久国产精品久久精品国产| 狠狠色噜噜狠狠狠777米奇小说 | 欧美视频你懂的| 亚洲最大福利视频网| 日韩有码中文字幕av| 国产男女免费完整视频| 青青热久麻豆精品视频在线观看| 起碰成人网| 中文字幕在线视频不卡一区二区| 国产激情国语对白普通话| 益日韩欧群交P片内射中文| 精品日韩人妻一区二区三区| 福利一区二区在线播放| 视色网| 日韩放荡少妇无码视频| 国产成+人综合+亚洲专区| 久色资源| 久久亚洲欧美日本精品| 91纯肉动漫| 国产欧美精品一区aⅴ影院| 日韩在线精品视频观看| 欧洲美妇乱人伦视频网站| 樱花草视频www日本韩国| 亚洲精品一区二区美女| 亚洲成av人片天堂网无码| 日韩综合网| 国产女人喷潮视频免费 | 综合久久99久久99播放| 无码吃奶揉捏奶头高潮视频| 国产涩涩视频在线观看| 精品国产1区2区3区AV| 最新久久激情综合|