<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      告別「利用率崩潰」:GIPO開啟大模型強化學習高效訓練新方法

      0
      分享至



      在現代強化學習系統(如訓練視覺語言動作模型 VLA 或大規模機器人控制策略)中,由于策略滯后(Policy Lag)導致數據 Off-policy 現象已成為難以避免的常態。無論是在數據被反復復用迭代的同步更新中,還是在采樣與訓練解耦的分布式 Actor-Learner 異步架構下,存在數據與當前策略的脫節問題。特別是在具身真機場景下,由于物理采集緩慢且高度依賴歷史數據回放,這種滯后程度更是被推向了極端。



      近期,來自樹根科技與三一集團團隊聯合提出了GIPO算法,在機器人操控及大語言 / 視覺動作模型(VLA)強化學習訓練中,GIPO 既顯著緩解了數據短缺導致的策略滯后痛點,又有效改善了 PPO 硬截斷引發的 “利用率崩潰(Utilization Collapse)” 問題。



      • GIPO 論文鏈接:https://arxiv.org/abs/2603.03955
      • 論文標題 1:GIPO: Gaussian Importance Sampling Policy Optimization
      • AcceRL 論文鏈接:https://arxiv.org/abs/2603.18464
      • 論文標題 2:AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

      GIPO :用比例看問題,而不是用絕對差值看問題

      核心公式















      對數空間對稱性:一種優雅的平衡







      平滑性與非零梯度:拯救 “死樣本”



      偏差 - 方差的 “帕累托旋鈕”









      Advantage-Aware GIPO







      理論基石:策略性能下界與有限樣本保證

      代理目標的理論下界







      有限樣本控制與穩定性

      在真實的 RL 訓練中,由于無法計算期望,只能從回放池中抽取有限的 Batch Size(假設為 N)來進行經驗估計(Empirical Estimation):













      實驗結果: 方差 - 偏差平衡性能和 7B VLA 工業落地

      方差 - 偏差平衡性能帕累托最優



      分析結果展現了 GIPO 良好的方差 - 偏差平衡性:在嚴重滯后的場景(Case A, B)中,PPO 測算出的方差竟然是 0。但這根本不是因為 PPO 穩定,而是因為其硬截斷機制將所有樣本直接判斷為 “越界”,導致100% 的樣本梯度死亡。沒有梯度,自然沒有方差,這等同于模型停止了學習。





      圖 2:2x2 網格世界中的偏差 - 方差權衡。GIPO(虛線)真正定義了帕累托前沿(Pareto Frontier),而 PPO 在高滯后場景下完全停止了學習

      工業級驗證規模

      在當前的具身智能領域,受限于高昂的物理交互成本與長視野連續控制的復雜性,能將策略優化算法直接部署到數十億參數模型上的研究并不多見。GIPO 團隊為了驗證其算法在真實世界擴展性(Scalability),投入了龐大的計算資源:模型基座使用了 7B 參數量的 OpenVLA-OFT 作為骨干網絡,整個評估過程耗費了超過10,000H200 GPU 小時,在 LIBERO 機器人多任務操作基準上,處理了超過 7.3 億次交互采樣。

      為了評估算法對策略滯后的魯棒性,研究團隊設計了兩種數據場景,通過控制采樣器(Actors)與訓練器(Trainers)的比例來人為制造不同程度的數據滯后。新鮮場景(Fresh Regime):配置 10 個采樣器對 1 個訓練器(或類似高吞吐配置),數據收集快,回放池中的樣本非常接近當前策略。陳舊場景(Stale Regime):強制降低吞吐量(例如 1 個采樣器對 1 個訓練器),導致訓練器不得不反復咀嚼回放池中陳舊的歷史數據,制造類似于真機場景的策略滯后。

      如圖 3 所示,在新鮮場景下,GIPO、PPO 與 SAPO 均能取得不錯的表現,GIPO 略占優或持平。然而,一旦切換到陳舊場景,算法之間的性能差距就會被拉開。在面對陳舊數據時,PPO 的學習曲線往往在早期就陷入停滯,最終收斂到一個較低的平均回報水平。SAPO 雖然引入了軟門控,但在處理高滯后數據時,依然表現出較大的波動和次優的樣本效率。而 GIPO 能更快逼近最優成功率,展現出很強的抗滯后能力和穩定性。



      圖 3:LIBERO 機器人套件學習曲線。在 LIBERO-Spatial 和 LIBERO-10 等復雜任務中,GIPO 的優勢被進一步放大,展現了在數十億參數 VLA 任務中實戰價值

      Metaworld 多種子實驗

      在 MetaWorld Stale(陳舊數據環境)下,團隊對比了 8 種算法配置(包含優勢感知變體),覆蓋了 10 個不同的機器人操控任務。為了消除隨機性干擾,每一個配置 5 個隨機種子,總共運行 400 個獨立的訓練實例。在統計指標 IQM(Interquartile Mean,分位數均值) 排名中,GIPO 展示出了非常大的優勢,如下面的聚合排名表所示,GIPO 系列占據了前 6 名位置,其中 GIPO (1.0, 1.0) 平均歸一化得分(0.730)甚至達到了 PPO(0.180)的 4 倍之多。





      GIPO 變體的 IQM 表現顯著高于 SAPO 與 PPO 基準。即便在策略滯后環境下,其展現出的成功率提升曲線依然保持著驚人的平滑度。同時,實驗結果有力地驗證了 “對數對稱性” 與 “優勢感知” 可以兼容,而且相得益彰。GIPO 的數學框架可以輕松嵌入非對稱邏輯,同時維持其獨有的理論穩定性上限。

      值得注意的是,GIPO 的卓越性并不局限于應對滯后的 “救場”。在策略滯后輕微的新鮮場景下,GIPO 同樣展現出了優良的性能上限。在涵蓋 10 個任務、總計 250 次獨立訓練運行的大規模 MetaWorld Fresh 實驗中,GIPO 依然保持了領先優勢。如下表所示,即便是在通用配置下,GIPO 的 IQM(分位數均值)得分依然達到了 PPO 的兩倍以上。這意味著 GIPO 不僅能處理 “舊數據”,也能更好發揮 “新數據” 的價值,顯著提升了在線 RL 的學習效率。



      大模型落地的 “穩壓器”:GIPO 助推 AcceRL 登頂 SOTA



      如何高效地進行數十億參數規模的視覺 - 語言 - 動作(VLA)模型的強化學習訓練是行業公認的難題。為此,團隊推出了AcceRL—— 首個專為 VLA 模型設計的全異步、解耦式強化學習與世界模型框架。

      AcceRL 通過物理隔離訓練、推理與采樣流,打破了傳統框架中的同步屏障,并首次引入了 “即插即用” 的可訓練世界模型,實現了驚人的200 倍(20,000%)數據效率提升,然而,這種優秀的工程性能對底層算法的穩定性提出了更高要求,這正是 GIPO 大顯身手的舞臺。



      為什么 AcceRL 選擇 GIPO?

      AcceRL 通過物理隔離設計大幅提升了系統的吞吐量。然而,這種 “全異步” 的分布式架構是一把雙刃劍:它在消除硬件閑置、實現吞吐量超線性擴展的同時,不可避免地帶來了劇烈的策略滯后(Policy Lag)。

      在 AcceRL 的非阻塞管道中,訓練與采樣獨立進行,導致回放池中充斥著陳舊的 Off-policy 數據。實驗證明,在這種滯后場景下,標準 PPO 會頻繁觸發硬截斷機制,導致大量包含關鍵修正信號的樣本梯度直接歸零,淪為毫無貢獻的 “死樣本”,阻礙訓練效率。

      GIPO 通過其標志性的平滑高斯信任權重,為 AcceRL 提供了一套具備數學保證的阻尼機制,使其能夠穩健地消化這些陳舊樣本,成為了整個框架處理異步偏差的核心優化引擎。此外 AcceRL 實現了利用世界模型想象生成強化學習訓練數據。雖然這些數據擴展了探索邊界,但也存在合成偏差。GIPO 利用對數空間對稱性,提取了這些想象數據中的改進信號,使得 “在想象中學習” 不再因梯度不穩定而崩潰。

      如下圖所示,在針對算法目標的消融實驗中,配備 GIPO 的系統表現出了驚人的學習速度。GIPO 在約 8,000 步時達到的性能水平,標準 PPO 需要耗費 60,000 步才能觸及。這意味著在相同的硬件環境下,GIPO 將樣本利用效率提升了整整 7.5 倍。



      圖 4:GIPO 和 PPO 在 AcceRL 中效果對比

      登頂 LIBERO

      在 LIBERO 的長視野(Long-horizon)操控任務中,GIPO 助力 AcceRL 展示了優秀的穩定性。相比于對早期誤差敏感的傳統監督微調(Success Rate 90.7%),AcceRL 在 GIPO 的支撐下實現了突破:在 LIBERO-Long 任務套件中,AcceRL 達成了99.1%的成功率。這種表現源于 GIPO 優異的偏差 - 方差權衡,它確保了模型在執行復雜多步動作時,能夠從輕微的擾動中恢復,維持了策略在長周期內的連續性與穩定性。

      結語:算法美學與工程力量的共振

      AcceRL 框架的成功,驗證了 GIPO 在大規模異步訓練中的底層基石作用。通過穩健地處理異策略偏差,GIPO 突破了分布式系統的穩定性瓶頸,為‘大規模 VLA + 異步 RL + 世界模型’這一架構提供了可靠的算法護航,并最終在 LIBERO 基準測試中取得了 SOTA 成績。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一棵金絲楠木價值上億!為什么樹苗才10元一棵,都沒人愿意種?

      一棵金絲楠木價值上億!為什么樹苗才10元一棵,都沒人愿意種?

      探謎未知世界
      2026-05-09 20:06:55
      知名女歌手仍未脫離危險,全力治療中!

      知名女歌手仍未脫離危險,全力治療中!

      最江陰
      2026-05-18 19:09:26
      駙馬一腳踢死康熙五公主,康熙得知后震怒,懲罰手段令人膽寒

      駙馬一腳踢死康熙五公主,康熙得知后震怒,懲罰手段令人膽寒

      卡西莫多的故事
      2025-11-19 10:57:09
      A股:大家要做好心理準備了,今天5.18,股市或將重演歷史!

      A股:大家要做好心理準備了,今天5.18,股市或將重演歷史!

      媛來這樣
      2026-05-18 10:58:44
      別拔!你的白頭發或還能重新變黑!研究發現:“逆轉開關”就在你身上

      別拔!你的白頭發或還能重新變黑!研究發現:“逆轉開關”就在你身上

      人民日報健康客戶端
      2026-05-16 16:22:06
      莫言:一輩子也就那么回事,吃得飽,穿得暖就好了,別自尋煩惱

      莫言:一輩子也就那么回事,吃得飽,穿得暖就好了,別自尋煩惱

      杏花煙雨江南的碧園
      2026-05-08 13:15:03
      輔酶Q10被禁用了?還能不能繼續吃?醫生告訴你答案

      輔酶Q10被禁用了?還能不能繼續吃?醫生告訴你答案

      侯醫生談健康
      2026-05-17 18:05:03
      1995年孫浩爆紅,贈窮小子張嘉益10萬救命錢,那時北京二環房價才幾千

      1995年孫浩爆紅,贈窮小子張嘉益10萬救命錢,那時北京二環房價才幾千

      TVB的四小花
      2026-05-17 11:18:56
      燃油車再次打折促銷,最大跌幅接近50%,老車主頻遭“背刺”

      燃油車再次打折促銷,最大跌幅接近50%,老車主頻遭“背刺”

      小談食刻美食
      2026-05-17 07:32:43
      米切爾:作為領袖我必須以身作則,戰尼克斯是惡戰可能還有搶七

      米切爾:作為領袖我必須以身作則,戰尼克斯是惡戰可能還有搶七

      懂球帝
      2026-05-18 13:53:45
      2026最扎心現實:1270 萬畢業生里,沒背景沒人脈的孩子才真的難

      2026最扎心現實:1270 萬畢業生里,沒背景沒人脈的孩子才真的難

      職場資深秘書
      2026-05-13 21:35:02
      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      生育率問題的罪魁禍首不是房價和經濟 而是你手里拿著的這樣東西

      生育率問題的罪魁禍首不是房價和經濟 而是你手里拿著的這樣東西

      新浪財經
      2026-05-17 14:34:05
      可悲!從日本救世主到滾出日本,張本智和只用了三局球!

      可悲!從日本救世主到滾出日本,張本智和只用了三局球!

      眼界縱橫
      2026-05-13 11:20:51
      中國男籃短訓營第二批裁員:齊麟段睿騏+清華雙核離隊 還剩22人

      中國男籃短訓營第二批裁員:齊麟段睿騏+清華雙核離隊 還剩22人

      醉臥浮生
      2026-05-18 18:53:24
      消息人士:巴基斯坦已將伊朗為結束戰爭而提出的修訂方案轉交給美國

      消息人士:巴基斯坦已將伊朗為結束戰爭而提出的修訂方案轉交給美國

      瀟湘晨報
      2026-05-18 17:21:12
      徐冬冬與老公尹子維在路邊吵架崩潰痛哭:去廣州塔忘帶身份證,我就是想上小蠻腰,我恨我自己;尹子維在旁緊張到磕巴,用英文安慰

      徐冬冬與老公尹子維在路邊吵架崩潰痛哭:去廣州塔忘帶身份證,我就是想上小蠻腰,我恨我自己;尹子維在旁緊張到磕巴,用英文安慰

      臺州交通廣播
      2026-05-18 16:44:08
      成功收復臺灣以后,我國可能面對三種局面,最后一種需要極力避免

      成功收復臺灣以后,我國可能面對三種局面,最后一種需要極力避免

      迷霧中的大眼睛
      2026-05-17 10:34:15
      誰能想到,天不怕地不怕的特朗普,從中國回去后居然傷感了。

      誰能想到,天不怕地不怕的特朗普,從中國回去后居然傷感了。

      葉老四
      2026-05-18 15:09:08
      華誼兄弟得罪了這個大佬

      華誼兄弟得罪了這個大佬

      藍鉆故事
      2026-05-13 15:35:51
      2026-05-18 21:27:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13027文章數 142650關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      中國女企業家與商業巨頭并肩同席 座位安排被指有深意

      頭條要聞

      中國女企業家與商業巨頭并肩同席 座位安排被指有深意

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      二排座椅能躺能轉/三排座椅能收納 零跑D99座艙玩法多樣

      態度原創

      本地
      家居
      游戲
      旅游
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      觀山隱秀 心靈沉淀

      爆料《GTA6》卻遭死亡威脅!知名爆料大神崩潰了

      旅游要聞

      綿陽夏季推出“三大主題”旅游線路 “青睞綿陽”邀您共享夏日清涼

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩淫片毛片视频免费看| 欧美超大胆裸体xx视频| 亚洲AV成人综合网久久成人| 欧洲欧美人成免费全部视频| 亚洲精品一区二区三区色| 国产成人亚洲欧美二区综合| 女人AV天堂| 中文字幕成人乱码在线电影| 无码日韩AV一区二区三区| 天天做天天爱夜夜爽导航 | 大地资源高清免费观看| 中文字幕日产人妻久久| 亚洲国产一区在线私人影院| 国产美女被遭强高潮免费一视频| 又大又硬又爽免费视频| 激情综合色综合啪啪开心| 极品人妻系列| 亚洲精品国产电影午夜在线观看| 性色AV一区二区三区夜夜嗨| 四虎精品国产永久在线观看| 国内久久人妻风流av免费| 久久国产V一级毛多内射| 日韩精品久久无码中文字幕色欲| 午夜福利视频导航| 天天艹天天干| 久久国产成人av蜜臀| jizz国产免费观看| 中文精品久久久久中文| 会东县| 国产精品乱码高清在线观看| 色亚洲无码| 亚洲av成人一区在线| 乱中年女人伦av三区| 欧美高清第6页| 久久久综合九色综合| 欲色欲色天天天www| 熟女亚洲综合精品伊人久久| av高清| 干老熟女干老穴干老女人| 久久伊人天堂视频网| 国产亚洲精品自在线亚洲情侣|