<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      圖靈獎得主Sutton:用1967年的公式,解決流式強化學習一大缺陷

      0
      分享至



      編輯|Panda

      2024 年底,一篇題為「流式深度強化學習終于跑通了」的論文(arXiv:2410.14606)在學界引發廣泛討論。作者來自阿爾伯塔大學的 Mahmood 團隊,他們花了大量篇幅描述一個令人尷尬的現實:強化學習作為一種天生應該「邊走邊學」的方法,在深度神經網絡時代卻幾乎無法做到這一點。只要去掉回放緩沖區、只要把批量大小設為 1,訓練就會崩潰。他們稱之為「流式壁壘」(stream barrier)

      那篇論文提出的 StreamX 系列算法,靠著精細調配的超參數、稀疏初始化和各種穩定化技巧,勉強越過了這堵墻。

      然而不到一年半后,同一課題組的一位成員,連同來自 Openmind 研究院的合作者,給出了一個截然不同的答案:流式壁壘的根源不是「數據不夠多」,而是「步長選錯了單位」



      • 論文標題:Intentional Updates for Streaming Reinforcement Learning
      • 論文地址:https://arxiv.org/pdf/2604.19033v1
      • 代碼庫:https://github.com/sharifnassab/Intentional_RL

      一腳油門,開出了多大的坑

      想象你正在駕車學習停車入庫。教練告訴你每次「踩油門 0.1 秒」。問題在于,同樣踩 0.1 秒,上坡、下坡、空載、滿載,車子前進的距離可能天差地別。有時候差一厘米恰好入庫,有時候差 30 厘米直接撞墻。

      傳統梯度學習的步長,做的正是這件事:它規定參數每次移動多大,但對函數輸出到底改變了多少,則完全沒有控制。在批量訓練時,成百上千個樣本的誤差平均下來,極端情況被稀釋掉了,問題并不明顯。但在「流式」環境下,每一步只有一個樣本,沒有平均可言。一旦梯度方向不穩定,更新幅度就會忽大忽小 —— 今天前進 30 厘米,明天后退 50 厘米,學習過程在劇烈震蕩中崩潰。

      這種「過沖與欠沖」(overshooting and undershooting)現象在強化學習里尤為嚴重,因為每個時間步的梯度不僅幅度各異,方向也在高速變化。

      重新定義「一步該做多少」

      來自 Openmind 研究院的 Arsalan Sharifnassab 與阿爾伯塔大學的 Mohamed Elsayed、A. Rupam Mahmood 和 Richard Sutton 等人,近日發表的論文中提出了一個換一個角度思考的方案:與其指定參數移動多少,不如直接指定函數輸出該改變多少。

      這個想法并不是憑空而來的。1967 年,日本學者 Nagumo 和 Noda 在論文《A learning method for system identification》中就在自適應濾波領域提出了「歸一化最小均方差」(NLMS)算法;本質上也是用期望的輸出變化來反推步長,而不是反過來。只不過那個算法只適用于簡單的線性場景。

      研究者們將這一思路推廣到了深度強化學習。他們稱之為「意圖更新」(Intentional Updates):每次更新之前,先明確「我希望這一步實現什么」,然后反推出應該用多大的步長。

      對于價值學習(即預測未來獎勵),他們定義的意圖是:每次更新后,當前狀態的價值預測誤差應該縮小一個固定比例 —— 例如縮小 5%,不多也不少。對于策略學習(即優化決策行為),他們定義的意圖是:當前動作的選擇概率,每一步只允許改變一個「適度」的量

      用駕車的比喻來說:這就好比司機在每次操作前先決定「我要讓車向前移動 20 厘米」,然后根據當前路況(坡度、載重)自動計算該踩多深的油門,而不是每次都踩同樣的深度聽天由命。

      圖靈獎得主與他的拼圖

      論文的署名之一,是 Richard S. Sutton——2024 年圖靈獎得主,被廣泛稱為「現代強化學習之父」。

      Sutton 在學界的地位大約相當于物理學里的費曼:他不僅提出了時間差分學習(TD learning)和策略梯度(policy gradient)這兩個現代強化學習的基礎框架,還與 Andrew Barto 合著了該領域最權威的教材《Reinforcement Learning: An Introduction》(現已出至第二版,可免費在線閱讀)。他與 Barto 于 2024 年共享圖靈獎,獎項評語是「為強化學習奠定了概念與算法基礎」。

      獲獎后,Sutton 沒有選擇退休,而是將獎金投入創立的 Openmind 研究院,專門資助那些愿意在「不受商業化壓迫的環境下探索基礎問題」的年輕研究者。這篇新論文,正是從這家非營利機構走出來的。

      而論文一作 Sharifnassab,之前剛剛在 ICML 2025 發表了 MetaOptimize 框架,研究如何在線自動調整學習率。兩個課題的關注點高度一致:如何讓步長本身變得更智能。

      算法細節:比想象中簡潔

      「意圖更新」的數學推導并不復雜,其核心公式可以用一句話描述:步長等于「期望的輸出變化量」除以「梯度方向對輸出的實際影響力」。

      在價值學習中,這個「實際影響力」就是梯度向量的范數(相當于衡量當前參數區域有多「陡」):越陡的地方步長越小,越平的地方步長越大,從而保證每次更新對價值函數的沖擊保持一致。

      在策略學習中,「期望變化量」被定義為與優勢函數成比例:當前動作比平均水平好多少,策略就往那個方向動多少 —— 通過一個跑動平均來歸一化量級,確保長期下來策略改變的幅度穩定在一個可解釋的范圍。

      研究者還將這一核心思想與兩個工程實踐結合:RMSProp 風格的對角縮放(處理不同參數維度量級差異)和資格跡(eligibility traces,幫助獎勵信號向過去時間步傳播)。

      最終形成三個完整算法:用于價值預測的Intentional TD (λ)、用于離散動作控制的Intentional Q (λ),以及用于連續控制的Intentional Policy Gradient







      實驗結果:不靠 GPU 也能打平 SAC

      論文在多個標準基準上評估了這套方法,結果令人印象深刻。

      在 MuJoCo 連續控制任務(包括 Ant、Humanoid、HalfCheetah 等復雜仿真機器人)上,新方法 Intentional AC 在流式設置下(批量大小 = 1,無回放緩沖區)的最終性能,多次接近甚至比肩 SAC—— 一個使用大批量回放緩沖區、幾乎是當前連續控制任務黃金標準的算法。而在計算量上,每次 Intentional AC 更新所需的浮點運算,只有一次 SAC 更新的約 1/140



      在 Atari 和 MinAtar 離散動作游戲上,Intentional Q-learning 的表現同樣與使用回放緩沖區的 DQN 相當,且用同一套超參數設置跑通了全部任務,無需逐個調參。





      研究者還專門驗證了「意圖」是否真的被實現了:他們測量了實際更新量與預期更新量的比值。在禁用資格跡的簡化設置下,這個比值的標準差僅為 0.016 到 0.029,99 分位數均在 1.07 以內;意味著絕大多數時候,更新確實做到了「說好要做多少就做多少」。

      此外,一組消融實驗表明,去掉 RMSProp 歸一化或者 σ 項之后,性能有所下降但仍然有競爭力,而這個「意圖縮放」本身是首要貢獻者,其他組件都是輔助。



      問題還是有的

      「意圖更新」框架在魯棒性上也展示出明顯優勢。當研究者逐一去掉 StreamX 方法所依賴的各種穩定化輔助技巧(稀疏初始化、獎勵縮放、輸入歸一化、LayerNorm)時,Intentional AC 的性能退化明顯少于原始 StreamAC,說明意圖縮放從根源上減少了對外部「拐杖」的依賴。

      但論文也坦誠了一個尚未完全解決的問題:策略學習中,步長依賴于當前采樣的動作,這會使不同動作被隱性賦予不同的「權重」,可能改變策略梯度的期望方向。在 Humanoid 和 HumanoidStandup 任務中,通過測量期望更新方向的余弦相似度,研究者發現這種偏差在關鍵學習階段接近 0.96(幾乎沒有影響);但在 Ant-v4 中,對齊度降至中位數 0.63,說明問題并非總能被忽視。

      作者指出,未來研究應當尋找對動作無關的步長選擇策略,使「意圖」在期望意義下也保持無偏。這是該方向上留給后來者的明確作業。

      結語:讓 AI 像人一樣邊做邊學

      當前主流的大模型訓練范式,依賴海量數據的批量消化:把互聯網上的文字和代碼統統喂進去,反復迭代,最終涌現出令人驚嘆的能力。這套路線已經被證明行之有效,但它從根本上是「先學后用」的:一旦訓練完成,模型就凍結了,無法從后續的每一次實際交互中持續更新。

      流式強化學習所追求的,是另一種截然不同的學習模式:不依賴海量回放,不依賴龐大 GPU 集群,每一步經歷都立刻轉化為參數更新,持續、廉價、自適應。這更接近人類和動物真實的學習方式。

      從 Elsayed 等人 2024 年「終于跑通了」的初步突破,到這篇論文提出的「意圖更新」原則,流式深度強化學習正在以令人意外的速度走向成熟。它不會取代批量訓練的大模型,但對于需要長期在線適應的機器人、邊緣設備,以及任何無法承受大規模回放緩沖區和 GPU 集群的應用場景,這條路線正變得越來越有說服力。

      步長不只是一個超參數,它是 AI 每一步「想做多少」的承諾。當這個承諾終于變得可控,學習本身就穩定了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      瀲滟晴方DAY
      2026-05-11 06:31:37
      謝霆鋒張柏芝上船當P友!?

      謝霆鋒張柏芝上船當P友!?

      八卦瘋叔
      2026-05-11 10:00:14
      ?1888 年?,慈禧第一次看見燈泡亮喊了2個字,流傳至今成口頭禪

      ?1888 年?,慈禧第一次看見燈泡亮喊了2個字,流傳至今成口頭禪

      長風文史
      2026-05-10 14:06:57
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      番外行
      2026-05-11 08:49:20
      Nice!杜蘭特點贊!勇士第一筆重磅簽約

      Nice!杜蘭特點贊!勇士第一筆重磅簽約

      籃球實戰寶典
      2026-05-10 19:42:35
      村民勞作時被2米長,5斤重的眼鏡王蛇咬傷,毒蛇蛇身被他當場斬斷,他隨即出現疼痛、頭暈、乏力等癥狀,醫院用13支抗蛇毒血清,救治3天3夜終于轉危為安

      村民勞作時被2米長,5斤重的眼鏡王蛇咬傷,毒蛇蛇身被他當場斬斷,他隨即出現疼痛、頭暈、乏力等癥狀,醫院用13支抗蛇毒血清,救治3天3夜終于轉危為安

      觀威海
      2026-05-11 14:26:03
      一艘油輪在伊朗協調下通過霍爾木茲海峽

      一艘油輪在伊朗協調下通過霍爾木茲海峽

      財聯社
      2026-05-11 13:46:07
      茅臺突然出手,推新品光瓶酒,定價156元,瞄準中產錢包

      茅臺突然出手,推新品光瓶酒,定價156元,瞄準中產錢包

      馬蹄燙嘴說美食
      2026-05-09 12:06:25
      任正非罕見出鏡:華為芯片基礎技術研究實驗室亮相《新聞聯播》

      任正非罕見出鏡:華為芯片基礎技術研究實驗室亮相《新聞聯播》

      IT之家
      2026-05-10 22:51:11
      “重達11000克拉”!外媒:緬甸發現迄今為止第二重的“罕見巨型”紅寶石

      “重達11000克拉”!外媒:緬甸發現迄今為止第二重的“罕見巨型”紅寶石

      環球網資訊
      2026-05-10 11:20:10
      國家免費電視已開通!不用繳費,動手調好就能看

      國家免費電視已開通!不用繳費,動手調好就能看

      小柱解說游戲
      2026-05-08 16:59:21
      武大用力過猛!

      武大用力過猛!

      梳子姐
      2026-05-10 21:46:30
      女子潛水遇成千上萬海狼群,網友:被襲擊10秒不到就剩骨架!

      女子潛水遇成千上萬海狼群,網友:被襲擊10秒不到就剩骨架!

      貍貓之一的動物圈
      2026-05-10 10:17:09
      特朗普訪華前,兩大鄰國突然對華出手,要切斷中國“經濟命脈”

      特朗普訪華前,兩大鄰國突然對華出手,要切斷中國“經濟命脈”

      阿訊說天下
      2026-05-11 12:18:31
      馬扎爾正式就任匈牙利總理!歐爾班何時出逃莫斯科?

      馬扎爾正式就任匈牙利總理!歐爾班何時出逃莫斯科?

      項鵬飛
      2026-05-10 21:05:09
      “云南15歲女生被男同學殺害案”最新進展:女生父母撤回抗訴申請,兇手無期徒刑判決已生效

      “云南15歲女生被男同學殺害案”最新進展:女生父母撤回抗訴申請,兇手無期徒刑判決已生效

      紅星新聞
      2026-05-10 12:20:36
      廳級干部已經成為了高危職業

      廳級干部已經成為了高危職業

      風向觀察
      2026-05-04 14:17:07
      猝死去世的人越來越多?醫生再次強調:寧可吃豬肉,也別做這3事

      猝死去世的人越來越多?醫生再次強調:寧可吃豬肉,也別做這3事

      蜉蝣說
      2026-05-11 11:50:29
      英國成伊斯蘭國家了?斯塔默宣布:穆斯林是現代英國的標志性面孔

      英國成伊斯蘭國家了?斯塔默宣布:穆斯林是現代英國的標志性面孔

      番外行
      2026-05-11 08:50:52
      為了沖10%增長,越南賭場KTV全面松綁

      為了沖10%增長,越南賭場KTV全面松綁

      鳳眼論
      2026-05-10 22:14:23
      2026-05-11 15:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12968文章數 142648關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      頭條要聞

      媒體:特朗普確定本周訪華 中美在東亞有個共同的敵人

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      本地
      游戲
      健康
      時尚
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      《生化10》克萊爾被曝回歸引熱議:你還想見到誰?

      干細胞能讓人“返老還童”嗎

      襯衫四季都能穿!簡約大方適合日常穿搭,配褲子、裙子都好看

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 特黄久久| 天天摸天天做天天添欧美| 免费夜色污私人影院在线观看| 国产色悠悠在线免费观看| 无码免费中文字幕视频| 亚洲AV噜噜狠狠网址蜜桃| 日韩美女一区二区三区视频 | 免费人成在线观看视频无码| 国产在线不卡精品网站| 在线看日韩| 一本a新久道| 成人福利国产午夜av免费不卡在线| 蜜臀久久精品亚洲一区| 中文亚洲字幕| 亚洲无码?成人| 欧美一区二区三区久久综| 亚洲日韩国产精品第一页一区 | 国产在线视频欧美亚综合| 午夜国产精品福利一二| 亚洲sm另类一区二区三区| 无码毛片aaa在线| 日韩黄色电影网站| 中文国产成人精品久久96| 亚洲成人午夜排名成人午夜| 亚洲国产成人久久一区久久| 最新亚洲国产有精品| 国产高清午夜人成在线观看,| 亚洲无人区一码二码三码| 国产国产人免费观看在线视频| 动漫精品啪啪一区二区三区| 久久丫精品国产| 国产成人精品久久一区二区| 国内精品久久久久久久97牛牛| 亚洲国产成人最新精品资源 | 一级国产在线观看高清| 午夜a福利| 国内精品伊人久久久久777| 成人免费乱码大片a毛片| 日韩无码专区| 亚洲色亚洲| 精品女同一区二区三区不卡|