<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Generalist之后,羅劍嵐團隊推出LWD,也要變革具身智能訓練范式

      0
      分享至



      編輯|澤南

      這一次,具身智能的范式算是徹底升級了。

      智元機器人的辦公室里,最近員工們一上班就能看到機器人熟練地切著水果:



      有梨有黃瓜,一通操作完了之后裝進破壁機,打成了健康飲料端上來:



      同樣一套設備也能玩轉調酒的全套流程:



      或是做工夫茶、整理商品貨架、打包鞋盒等各種任務:



      之前每臺機器人只能完成一個任務,現在基于同一個模型的機器人可以承接大量不同任務。而且,在真實世界中持續部署的過程中,它們的性能還會持續不斷地提升。



      文中視頻鏈接:https://mp.weixin.qq.com/s/Z9-QfTvW-3kRAzZT2o0-zw

      這么全面的能力是如何做到的?答案是直接在真實環境中搞大規模分布式強化學習訓練。它們使用的是全新的具身智能訓練范式:面向通用機器人策略的分布式多機強化學習(LWD)。這一套技術捅破了當前VLA的「天花板」。

      LWD

      啟動物理世界的飛輪

      最近一段時間,VLA(視覺 - 語言 - 動作)大模型出現,通過端到端的訓練范式讓機器人具備了通用泛化能力:只需要收集圖像數據,讀取人類自然語言指令,大模型就能將視覺和語言轉化為空間特征,直接輸出機械臂各個關節的角度和速度,進而完成任務。

      但在物理世界里,VLA 具身智能的表現仍然算不上可靠。在長程任務和復雜條件上,機器人頻頻翻車。工程師往往只能將失敗的案例(Corner Case)記錄下來,讓操作員針對特定情況再進行幾十次遙操作演示,重新微調模型。

      這就形成了一個折磨人的「打地鼠」模式:物理世界的不可控因素是無窮無盡的,只要遇到沒見過的「地鼠」,機器人就會停擺,只能等待人類工程師來打補丁。

      研究人員認為,改變這一現狀的核心點在于把外部提供的人工監督,改為機器人自身的交互經驗。

      LWD(Learning While Deploying,部署中學習)是一套讓通才 VLA 策略在真實世界部署中持續自主改進的可擴展強化學習系統,在業內首次實現了具身 VLA 的大規模 RL 預訓練 + 后訓練。該工作由上海創智學院和智元機器人聯合發布,創智學院導師,智元首席科學家羅劍嵐老師團隊完成。



      • 技術報告:《Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies》
      • 鏈接:https://finch-static.agibot.com/LWD/lwd-paper.pdf
      • 項目頁面:https://finch.agibot.com/research/lwd

      這是對具身智能訓練邏輯的一次重構,把機器人從執行工具變成了一個「動態的智能網絡」。此前的 AI 從出廠那一刻起就是產品智力的巔峰,面對物理世界的無盡變化時經常無所適從。LWD 打破了這種靜態,構建了一個由真實世界強化學習(RL)驅動的數據飛輪。

      想象一下特斯拉的影子模式(Shadow Mode),但 LWD 走得更深,后者是一個完全閉環的行動系統:



      LWD 被定義為集群級(fleet-scale)的離線到在線(offline-to-online)強化學習框架,用于通用 VLA(視覺 - 語言 - 動作)策略的閉環持續訓練。

      它從一個預訓練好的 VLA 模型開始,利用收集到的機器人數據,包括專家演示、歷史成功與失敗的 rollout 數據、以及人類探索邊界的「把玩」數據來進行離線強化學習預訓練。這些策略會被部署到機器人集群中,機器人在自主執行任務或由人類接管時,生成的數據會實時混合之前的離線數據,在云端持續更新策略,將進化后的更強「大腦」下發給物理集群。

      這使得每一個被部署的機器人既在執行任務,也是提供學習信號的數據源。



      LWD pipeline 與算法架構概覽。

      在羅劍嵐團隊的具身智能訓練過程中,機器人集群被投放到真實環境中執行理貨、搬運等任務。在執行過程中,機器人身上的傳感器會記錄下每一次觸碰、每一次抓取、以及物體滑落的力覺變化。這些第一手資料被不斷傳回云端,強化學習算法開始對策略進行迭代。

      數據飛輪的轉速直接由集群自身的運行規模決定,部署的機器人越多、在真實世界里運行得越久,模型吸取經驗的速度就越快

      不僅是實際部署的訓練方式,LWD 的真正靈魂在于從失敗中學習的機制。在傳統的模仿學習眼里,只有人類專家的完美演示才是有效數據,這意味著 AI 只是在「背答案」。LWD 試圖賦予機器人糾偏重試的本能,在其框架下,物理世界里所有類型的交互都能被提取出學習價值,那些搞砸的失敗軌跡也會被全盤吸收。

      這些都能教會它如何更好地在復雜的物理世界中維持穩態。

      四大維度創新

      為了讓 VLA 能夠在現實世界中持續訓練,更好地消化大規模部署的機器人集群數據,攻克超長任務的誤差累積,研究人員在 LWD 的底層架構上實現了四個維度的創新。

      首先,LWD 的核心算法組件將價值評估與策略提取分離,這對于將離線到在線強化學習應用于基于流的 VLA 策略至關重要。在價值評估方面,LWD 引入了 DIVL(分布型隱式價值學習)。傳統的強化學習需要去預測一個確切的標量分數,而 DIVL 則是用類似分類的方式擬合出一個「價值分布」,并能根據不確定性自適應調整策略。

      這種方法不僅保留了評估的準確性,也很大程度上適應了物理世界中獎勵稀疏、異構的集群經驗回放(Fleet Replay)以及離線到在線的分布偏移場景,確保了即使在任務獎勵極其稀疏、執行序列長達 3-5 分鐘的情況下,系統依然能精準識別出到底是哪一秒的動作決定了最終的成敗。

      其次,針對目前先進 VLA 模型普遍采用的復雜流匹配(Flow-matching)架構,LWD 引入QAM(伴隨匹配 Q 學習)來進行策略提取。它將價值網絡引導的動作改進轉化為沿著流軌跡的局部回歸目標,巧妙地繞過了生成模型難以直接反向傳播的阻礙,讓動作模型能高效地聽懂優化指令,無需依賴顯式的動作似然函數,還大幅降低了算力開銷,保障了策略更新的穩定性。

      第三項關鍵技術,是專為攻克「長程操作」難題設計的動態多步 TD 策略(Dynamic n-step TD Strategy)。在現實物理任務中,強化學習關注的獎勵極度稀疏。該策略會根據任務長度和訓練階段,智能調整預判未來的「步長(n)」。

      例如在離線訓練長程任務時,它會將步長拉大到 n=10,讓成功信號迅速反向傳導穿透整個動作周期;而在實機在線部署時,又會切回到 n=1。

      這就完美兼顧了信號回傳的效率,同時極大地降低了模型在線更新時的方差,確保了實機迭代的穩定。

      最后,要讓 LWD 整個數據飛輪轉動起來,還需要有一個基礎設施底座。研究人員提出了分段異步 Actor-Learner 架構。在訓練的過程中,現實世界中負責執行和采集數據的「機器人集群(Actor)」與云端集中算力更新策略的「學習器(Learner)」徹底解耦。兩邊的規模可以獨立擴容,互不干擾。前端機器人「隨緣」地異步上傳殘次或成功的軌跡數據,而后端云端通過引入中央協調器打上「快照」截斷,把前端異步的亂流,變成了同步的、全局一致的數據集進行訓練。

      這套基礎設施為整套訓練機制帶來了穩定性,前端產生的數據化為云端學習的經驗僅需 41 秒,而云端更新模型后通過發布 - 訂閱頻道推送到機器人端,中位數延遲僅需 38 秒。

      真實世界大考

      5 分鐘長程操作,超 90% 成功率

      為了驗證 LWD 的能力,這套新方法部署到了 16 臺 Agibot G1 雙臂機器人上,并在真實環境中進行了 8 項操作任務測試。

      其中最能驗出系統成色的是 4 項分鐘級長程連貫操作任務:泡功夫茶、榨果汁、調雞尾酒以及打包鞋盒。



      LWD 進行的評估任務。

      在目前大多數機器人的演示視頻中,我們看到的往往是「抓起蘋果放到籃子里」這種持續十幾秒的單一動作,對于商業落地來說,這還遠遠不夠。

      真實世界中的具身智能任務通常需要持續 3 到 5 分鐘,包含幾十個連續的物理交互子步驟。在這個漫長的過程中,誤差會像滾雪球一樣累積。泡茶的第一步抓取時偏了 1 厘米,可能導致第三步倒水時灑出,最終導致第五步完全崩潰。

      這就要求機器人不僅要動作精準,更需要擁有從中間錯誤狀態中恢復的能力,以及跨越長周期的貢獻度分配(Credit Assignment)能力。

      在長任務壓力測試下, LWD 的優勢逐漸凸顯了出來。在所有 8 項任務的綜合評分中,經過在線訓練強化的 LWD (Online) 平均成功率達到了 0.95。作為對比,傳統的純行為克隆(SFT)只有 0.76,引入了人類干預糾偏的 HG-DAgger 方案為 0.85,而業內先進的離線后訓練方案 RECAP 也止步于 0.85。



      各項任務的成功率實驗結果。可見 LWD 實現了卓越的性能,在獲得更高成功率的同時,顯著縮短了周期時間。



      八項真實世界操作任務的主要結果,涵蓋了四項雜貨補貨任務和四項長周期任務。LWD (Online) 方法取得了最佳的總平均分(0.95),在全部四項長周期任務中均獲最高分。

      在最困難的長程任務組,LWD (Online) 取得了 0.91 的平均得分,甩開了 RECAP 的 0.77 和 Dagger-SOP 的 0.73。在速度上 LWD 也有優勢,其平均循環時間比純行為克隆短了 23.75 秒。

      值得一提的是,在這項研究 652.5 小時的離線數據池中,人類專家的完美演示占 51.6%,有多達 34.8% 的內容是完全失敗的交互軌跡,包括歷史策略搞砸的 Rollout,以及人類為了幫助價值函數區分成功與失敗行為而制造的失敗數據。

      LWD 賦予了機器人在復雜物理交互中極強的穩定性與從容感,完美印證了飛輪效應的設想。

      具身智能也進入「下半場」了?

      在人工智能的大語言模型領域,整個行業正在經歷一次重要的共識轉變:算力與資源的重心,正從預訓練(Pre-train)向后訓練(Post-training)傾斜。

      去年,AI 研究領域興起了對于大模型「下半場」的討論:為什么現在的 AI 已經能在各種人類考試中超越人類,甚至拿奧賽金牌,但現實世界、經濟和 GDP 卻似乎沒有發生翻天覆地的變化?

      人們認為問題在于評估(Evaluation),我們要把真實世界的效用作為新的評估標準,設計出貼近現實世界的新任務和新范式,而不是簡單地設計更難的考卷。基于這個思路,后訓練正在得到前所未有的重視,近期的一系列基礎大模型也獲得了性能上的突破。

      后訓練正在變得越來越重要,這種思考現在也得到了真實物理世界的驗證。LWD 的出現,或許會如同大模型領域的 RLHF 一樣成為轉折點,推動新一輪的 Scale Up。

      未來的通用機器人,比拼的不再僅僅是出廠時喂了多少數據,而是在千行百業中部署后主動學習的速度。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      重磅! 澳洲華人回國流程大變化, 實施報備新政! 國內有房族影響最大

      重磅! 澳洲華人回國流程大變化, 實施報備新政! 國內有房族影響最大

      澳微Daily
      2026-05-02 13:07:26
      拒絕胡歌和霍建華示愛,最后只用15天就嫁給別人,如今過的幸福嗎

      拒絕胡歌和霍建華示愛,最后只用15天就嫁給別人,如今過的幸福嗎

      一盅情懷
      2026-04-09 15:56:14
      英偉達股價大跌,AI泡沫要破了?

      英偉達股價大跌,AI泡沫要破了?

      混知房產
      2026-05-02 07:36:07
      郭濤全家拍婚紗照,倆兒女太驚艷,兒子1米85很帥,女兒神似父親

      郭濤全家拍婚紗照,倆兒女太驚艷,兒子1米85很帥,女兒神似父親

      一娛三分地
      2026-04-29 19:14:50
      全國首位國產大飛機C919女機長順利首飛

      全國首位國產大飛機C919女機長順利首飛

      澎湃新聞
      2026-05-01 21:00:27
      2026年中央巡視組真收老百姓的信!6月23日前抓緊遞材料

      2026年中央巡視組真收老百姓的信!6月23日前抓緊遞材料

      蘭妮搞笑分享
      2026-05-02 17:40:43
      申花外援為何傷病多?引援缺乏評估,蓋伊跟腱斷裂“有跡可循”

      申花外援為何傷病多?引援缺乏評估,蓋伊跟腱斷裂“有跡可循”

      中國足球的那些事兒
      2026-05-02 19:56:11
      浙大一院救人夫妻后續來了,倆人晉升之路被扒,救人是有原因的

      浙大一院救人夫妻后續來了,倆人晉升之路被扒,救人是有原因的

      我不叫阿哏
      2026-05-01 11:04:54
      娛圈“采花高手”們的瓜!

      娛圈“采花高手”們的瓜!

      文刀萬
      2026-04-02 18:00:09
      X:羽田機場國際線人少得像開玩笑一樣

      X:羽田機場國際線人少得像開玩笑一樣

      東京新青年
      2026-05-02 16:29:45
      蔣介石為何敗給毛澤東?杜聿明總結了六條,都是血和淚的經驗!

      蔣介石為何敗給毛澤東?杜聿明總結了六條,都是血和淚的經驗!

      歷史人文2
      2026-05-01 22:50:03
      單依純鄭州公開挑釁李榮浩,穿的像馬桶刷,現場氛圍詭異,太瘋狂

      單依純鄭州公開挑釁李榮浩,穿的像馬桶刷,現場氛圍詭異,太瘋狂

      嫹筆牂牂
      2026-04-30 07:30:10
      值得嗎?杜蘭特降薪合同下賽季開始執行,2年9000萬美元

      值得嗎?杜蘭特降薪合同下賽季開始執行,2年9000萬美元

      懂球帝
      2026-05-02 13:14:49
      我是79年對越反擊戰老兵:所謂平推河內,是我們用命拼出來的假象

      我是79年對越反擊戰老兵:所謂平推河內,是我們用命拼出來的假象

      賤議你讀史
      2026-05-02 17:21:02
      韋林頓:我在中場時告訴大家我們能夠逆轉,在成都踢球很幸福

      韋林頓:我在中場時告訴大家我們能夠逆轉,在成都踢球很幸福

      懂球帝
      2026-05-02 10:04:13
      要拆隊了!掘金兩大核心或將離隊,頂級3D也難留,垃圾合同送不走

      要拆隊了!掘金兩大核心或將離隊,頂級3D也難留,垃圾合同送不走

      你的籃球頻道
      2026-05-02 07:27:53
      張雪機車兩位車手雙雙進入前十,WSBK匈牙利站排位賽出分

      張雪機車兩位車手雙雙進入前十,WSBK匈牙利站排位賽出分

      新京報
      2026-05-01 23:06:03
      數百名醫生強調:只要做過肺部CT,患者一定多加關注這7點!

      數百名醫生強調:只要做過肺部CT,患者一定多加關注這7點!

      健康科普365
      2026-05-02 10:40:22
      胖東來稱已正式起訴“驚夢人”,涉事博主回應律師函:發布信息并非不實

      胖東來稱已正式起訴“驚夢人”,涉事博主回應律師函:發布信息并非不實

      紅星資本局
      2026-05-02 14:05:07
      殺害警察連環案七年后告破,兇犯竟然一直在參與偵破

      殺害警察連環案七年后告破,兇犯竟然一直在參與偵破

      長安一孤客
      2026-04-25 13:57:32
      2026-05-02 21:39:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12902文章數 142639關注度
      往期回顧 全部

      科技要聞

      AI熱潮耗盡庫存,Mac Mini起售調高200美元

      頭條要聞

      香港兩名6旬男女碼頭長凳上做不雅行為 被人拍下傳網上

      頭條要聞

      香港兩名6旬男女碼頭長凳上做不雅行為 被人拍下傳網上

      體育要聞

      休賽期總冠軍,輪到休斯頓火箭

      娛樂要聞

      高圓圓趙又廷游三亞 牽手逛街好甜蜜

      財經要聞

      雷軍很努力 小米還是跌破了30港元大關

      汽車要聞

      新紀錄!零跑汽車4月交付達71387臺

      態度原創

      教育
      親子
      手機
      時尚
      藝術

      教育要聞

      今年高校畢業生達1270萬,十年間增幅60%

      親子要聞

      麻麻們都喜歡的兒子

      手機要聞

      行業漲價 華為反降!nova 15全系限時優惠100元 2599元起

      連衣裙還得是“法式”,性感嫵媚卻不輕浮

      藝術要聞

      色塊與筆觸的激情之旅!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产在线视频福利资源站| 国产成人精品区一区二区| 亚洲国产成人精品无码区在线观看| 91超碰在线观看免费| 日韩精品人妻av一区二区三区| 9191久久| 欧美在线观看一区二区三区| 在线亚洲综合欧美网站首页| 秋霞在线观看片无码免费不卡| 97激情| 亚色中文字幕| 亚洲国产激情一区二区三区| 狠狠色AV一区二区| yy19影院| 亚洲va久久久噜噜噜久久4399 | 国产精品福利在线观看无码卡| 久久人与动人物a级毛片| 国产精品2区| 亚洲AV无码乱码1区久久| 国产一区二区在线影院| 制服丝袜在线云霸| 天天伊人久久| 亚洲欧洲日产国码无码| 国产精品福利自产拍久久| 黄总av| 另类小说av| 深夜国产成人福利在线观看| 亚洲精品日韩精品久久| 欧美在线观看a| 成人网站中文字幕| 人妻少妇偷人精品一区| 国产精品视频一区二区噜噜| 国产一区二区亚洲一区二区三区| 亚洲18禁| 欧洲AV在线| tom影院亚洲国产日本一区| 精品国产亚洲第一区二区三区 | 亚洲不卡无码永久在线观看| 久久九九精品一区二区| 一本综合丁香日日狠狠色| 久久国产精品老人性|