網易首頁 > 網易號 > 正文申請入駐

圖靈獎得主Sutton：用1967年的公式，解決流式強化學習一大缺陷

2026-05-11 09:55:21　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

2024 年底，一篇題為「流式深度強化學習終于跑通了」的論文（arXiv:2410.14606）在學界引發廣泛討論。作者來自阿爾伯塔大學的 Mahmood 團隊，他們花了大量篇幅描述一個令人尷尬的現實：強化學習作為一種天生應該「邊走邊學」的方法，在深度神經網絡時代卻幾乎無法做到這一點。只要去掉回放緩沖區、只要把批量大小設為 1，訓練就會崩潰。他們稱之為「流式壁壘」（stream barrier）

那篇論文提出的 StreamX 系列算法，靠著精細調配的超參數、稀疏初始化和各種穩定化技巧，勉強越過了這堵墻。

然而不到一年半后，同一課題組的一位成員，連同來自 Openmind 研究院的合作者，給出了一個截然不同的答案：流式壁壘的根源不是「數據不夠多」，而是「步長選錯了單位」

論文標題：Intentional Updates for Streaming Reinforcement Learning
論文地址：https://arxiv.org/pdf/2604.19033v1
代碼庫：https://github.com/sharifnassab/Intentional_RL

一腳油門，開出了多大的坑

想象你正在駕車學習停車入庫。教練告訴你每次「踩油門 0.1 秒」。問題在于，同樣踩 0.1 秒，上坡、下坡、空載、滿載，車子前進的距離可能天差地別。有時候差一厘米恰好入庫，有時候差 30 厘米直接撞墻。

傳統梯度學習的步長，做的正是這件事：它規定參數每次移動多大，但對函數輸出到底改變了多少，則完全沒有控制。在批量訓練時，成百上千個樣本的誤差平均下來，極端情況被稀釋掉了，問題并不明顯。但在「流式」環境下，每一步只有一個樣本，沒有平均可言。一旦梯度方向不穩定，更新幅度就會忽大忽小 —— 今天前進 30 厘米，明天后退 50 厘米，學習過程在劇烈震蕩中崩潰。

這種「過沖與欠沖」（overshooting and undershooting）現象在強化學習里尤為嚴重，因為每個時間步的梯度不僅幅度各異，方向也在高速變化。

重新定義「一步該做多少」

來自 Openmind 研究院的 Arsalan Sharifnassab 與阿爾伯塔大學的 Mohamed Elsayed、A. Rupam Mahmood 和 Richard Sutton 等人，近日發表的論文中提出了一個換一個角度思考的方案：與其指定參數移動多少，不如直接指定函數輸出該改變多少。

這個想法并不是憑空而來的。1967 年，日本學者 Nagumo 和 Noda 在論文《A learning method for system identification》中就在自適應濾波領域提出了「歸一化最小均方差」（NLMS）算法；本質上也是用期望的輸出變化來反推步長，而不是反過來。只不過那個算法只適用于簡單的線性場景。

研究者們將這一思路推廣到了深度強化學習。他們稱之為「意圖更新」（Intentional Updates）：每次更新之前，先明確「我希望這一步實現什么」，然后反推出應該用多大的步長。

對于價值學習（即預測未來獎勵），他們定義的意圖是：每次更新后，當前狀態的價值預測誤差應該縮小一個固定比例 —— 例如縮小 5%，不多也不少。對于策略學習（即優化決策行為），他們定義的意圖是：當前動作的選擇概率，每一步只允許改變一個「適度」的量

用駕車的比喻來說：這就好比司機在每次操作前先決定「我要讓車向前移動 20 厘米」，然后根據當前路況（坡度、載重）自動計算該踩多深的油門，而不是每次都踩同樣的深度聽天由命。

圖靈獎得主與他的拼圖

論文的署名之一，是 Richard S. Sutton——2024 年圖靈獎得主，被廣泛稱為「現代強化學習之父」。

Sutton 在學界的地位大約相當于物理學里的費曼：他不僅提出了時間差分學習（TD learning）和策略梯度（policy gradient）這兩個現代強化學習的基礎框架，還與 Andrew Barto 合著了該領域最權威的教材《Reinforcement Learning: An Introduction》（現已出至第二版，可免費在線閱讀）。他與 Barto 于 2024 年共享圖靈獎，獎項評語是「為強化學習奠定了概念與算法基礎」。

獲獎后，Sutton 沒有選擇退休，而是將獎金投入創立的 Openmind 研究院，專門資助那些愿意在「不受商業化壓迫的環境下探索基礎問題」的年輕研究者。這篇新論文，正是從這家非營利機構走出來的。

而論文一作 Sharifnassab，之前剛剛在 ICML 2025 發表了 MetaOptimize 框架，研究如何在線自動調整學習率。兩個課題的關注點高度一致：如何讓步長本身變得更智能。

算法細節：比想象中簡潔

「意圖更新」的數學推導并不復雜，其核心公式可以用一句話描述：步長等于「期望的輸出變化量」除以「梯度方向對輸出的實際影響力」。

在價值學習中，這個「實際影響力」就是梯度向量的范數（相當于衡量當前參數區域有多「陡」）：越陡的地方步長越小，越平的地方步長越大，從而保證每次更新對價值函數的沖擊保持一致。

在策略學習中，「期望變化量」被定義為與優勢函數成比例：當前動作比平均水平好多少，策略就往那個方向動多少 —— 通過一個跑動平均來歸一化量級，確保長期下來策略改變的幅度穩定在一個可解釋的范圍。

研究者還將這一核心思想與兩個工程實踐結合：RMSProp 風格的對角縮放（處理不同參數維度量級差異）和資格跡（eligibility traces，幫助獎勵信號向過去時間步傳播）。

最終形成三個完整算法：用于價值預測的Intentional TD (λ)、用于離散動作控制的Intentional Q (λ)，以及用于連續控制的Intentional Policy Gradient

實驗結果：不靠 GPU 也能打平 SAC

論文在多個標準基準上評估了這套方法，結果令人印象深刻。

在 MuJoCo 連續控制任務（包括 Ant、Humanoid、HalfCheetah 等復雜仿真機器人）上，新方法 Intentional AC 在流式設置下（批量大小 = 1，無回放緩沖區）的最終性能，多次接近甚至比肩 SAC—— 一個使用大批量回放緩沖區、幾乎是當前連續控制任務黃金標準的算法。而在計算量上，每次 Intentional AC 更新所需的浮點運算，只有一次 SAC 更新的約 1/140

在 Atari 和 MinAtar 離散動作游戲上，Intentional Q-learning 的表現同樣與使用回放緩沖區的 DQN 相當，且用同一套超參數設置跑通了全部任務，無需逐個調參。

研究者還專門驗證了「意圖」是否真的被實現了：他們測量了實際更新量與預期更新量的比值。在禁用資格跡的簡化設置下，這個比值的標準差僅為 0.016 到 0.029，99 分位數均在 1.07 以內；意味著絕大多數時候，更新確實做到了「說好要做多少就做多少」。

此外，一組消融實驗表明，去掉 RMSProp 歸一化或者 σ 項之后，性能有所下降但仍然有競爭力，而這個「意圖縮放」本身是首要貢獻者，其他組件都是輔助。

問題還是有的

「意圖更新」框架在魯棒性上也展示出明顯優勢。當研究者逐一去掉 StreamX 方法所依賴的各種穩定化輔助技巧（稀疏初始化、獎勵縮放、輸入歸一化、LayerNorm）時，Intentional AC 的性能退化明顯少于原始 StreamAC，說明意圖縮放從根源上減少了對外部「拐杖」的依賴。

但論文也坦誠了一個尚未完全解決的問題：策略學習中，步長依賴于當前采樣的動作，這會使不同動作被隱性賦予不同的「權重」，可能改變策略梯度的期望方向。在 Humanoid 和 HumanoidStandup 任務中，通過測量期望更新方向的余弦相似度，研究者發現這種偏差在關鍵學習階段接近 0.96（幾乎沒有影響）；但在 Ant-v4 中，對齊度降至中位數 0.63，說明問題并非總能被忽視。

作者指出，未來研究應當尋找對動作無關的步長選擇策略，使「意圖」在期望意義下也保持無偏。這是該方向上留給后來者的明確作業。

結語：讓 AI 像人一樣邊做邊學

當前主流的大模型訓練范式，依賴海量數據的批量消化：把互聯網上的文字和代碼統統喂進去，反復迭代，最終涌現出令人驚嘆的能力。這套路線已經被證明行之有效，但它從根本上是「先學后用」的：一旦訓練完成，模型就凍結了，無法從后續的每一次實際交互中持續更新。

流式強化學習所追求的，是另一種截然不同的學習模式：不依賴海量回放，不依賴龐大 GPU 集群，每一步經歷都立刻轉化為參數更新，持續、廉價、自適應。這更接近人類和動物真實的學習方式。

從 Elsayed 等人 2024 年「終于跑通了」的初步突破，到這篇論文提出的「意圖更新」原則，流式深度強化學習正在以令人意外的速度走向成熟。它不會取代批量訓練的大模型，但對于需要長期在線適應的機器人、邊緣設備，以及任何無法承受大規模回放緩沖區和 GPU 集群的應用場景，這條路線正變得越來越有說服力。

步長不只是一個超參數，它是 AI 每一步「想做多少」的承諾。當這個承諾終于變得可控，學習本身就穩定了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.