網易首頁 > 網易號 > 正文申請入駐

生成式Critic重新定義LLM強化學習信用分配

2026-05-09 14:52:19　來源: 機器之心Pro

河北舉報

分享至

本文第一作者單子康是北京大學二年級在讀博士生，研究方向為大語言模型與強化學習，曾于 ICML 2025 以共同一作發表 Spotlight 論文，本工作為微軟亞洲研究院實習期間完成。本文最后一作趙立是微軟亞洲研究院高級研究員，現任微軟亞洲研究院機器學習組負責人。

強化學習（RL）已經成為大語言模型（LLM）后訓練階段最重要的技術之一。早期伴隨著 ChatGPT 的出圈，價值對齊 RL 受到廣泛關注；DeepSeek-R1 以大規模可驗證 RL 激發了模型的推理能力，引領了推理 RL 的熱潮；如今的智能體（Agent）訓練更是離不開 RL。

可以說，大模型時代的能力演進，很大程度上是 RL 范式不斷深化應用的過程。

然而，RL 有一個經典難題始終懸而未決：信用分配（credit assignment）。模型生成了一段長長的回答，最終收到一個獎勵信號。但這段回答里，哪些步驟真正做出了貢獻？哪些是冗余的，甚至引入了錯誤？信用分配不精準，訓練信號就只能保持稀疏，模型的學習效率也就因此受限。

經典 RL 算法 PPO（Proximal Policy Optimization）的解法是訓練一個價值模型（Critic），估計序列中每個 token 的價值（Value），借此將信用精確分配到每一步。然而在 LLM 的實踐中，隨著生成序列越來越長、任務越來越復雜，Critic 的訓練逐漸變得不穩定，效果也難以保證。

于是，研究者轉向更簡單的無 Value 方法例如 GRPO，利用獎勵來構造每個軌跡的優勢，廣播到每一步上，相當于將優化過程簡化為一個多臂老虎機問題。盡管訓練流程簡潔了許多，這種簡化的代價是徹底放棄了細粒度的信用分配。隨著推理鏈越來越長、Agent 任務越來越復雜，這一代價也變得越來越難以接受。

這不禁讓人重新審視一個根本問題：價值模型真的不堪一用嗎？還是我們一直沒能正確地實現它？

微軟亞洲研究院聯合北京大學的研究者，給出了答案。

論文標題：Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning
論文鏈接：https://arxiv.org/abs/2604.10701

判別式 Critic 的根本局限

傳統 Critic 是「判別式」的：輸入一個狀態，輸出一個標量作為價值估計。這一設計看似自然，卻暗藏著一個深層的架構矛盾。

研究者將兩個已知的結論結合，得出了一個頗具啟發性的推論。其一，LLM 生成過程所對應的馬爾可夫鏈的價值函數的精確建模，在計算復雜度上屬于 P-complete。其二，Transformer 單次前向傳播的表達能力上界已被證明為 TC?，一個遠弱于 P-complete 的復雜度類。

將這兩個結論結合來看，判別式 Critic 在 LLM 任務上的持續失敗或許并非偶然：價值建模本質上依賴大量順序推理，難以通過簡單的并行前向傳播實現。判別式 Critic 是在用一個表達能力受限的架構，去擬合一個理論上更復雜的函數。更關鍵的是，這一錯配無法通過規模化來彌補：更多的參數、更多的數據或更多的計算，對于表達能力層面的鴻溝并無根本幫助。

研究者通過實驗印證了這一推斷。固定一個目標價值函數，讓判別式 Critic 去擬合，其誤差與簡單的平均獎勵基線相比并無顯著優勢。更重要的是，將模型規模從 0.6B 擴展到 14B，擬合誤差幾乎沒有改善。與此同時，判別式 Critic 在不同隨機種子下表現出極大的波動，說明其表現高度依賴初始化，而非穩健地收斂。

不可擴展加上不穩定，共同指向同一個結論：判別式 Critic 的問題并非調參不當，而是架構層面的固有不足。

生成式 Critic：讓價值估計變得可推理

既然判別式架構存在本質局限，一個自然的問題是：換成生成式會怎樣？

生成式 Critic 的核心思路是：不直接輸出一個標量，而是先使用思維鏈推理，再給出價值的估計。這一思路與生成式獎勵模型有相通之處，后者已在多項工作中被驗證具有更強的魯棒性和泛化能力。從理論上看，顯式的推理鏈可以有效提升模型的表達能力，從而繞過 TC?的表達能力上界約束，為價值建模開辟新的空間。

但價值建模比獎勵建模面臨更深層的挑戰：價值是與當前策略深度綁定的。同一個中間狀態，對于能力較弱的策略而言可能價值很高，而對于能力更強的策略則已不值一提。獎勵模型無需感知策略，但價值模型必須「知道自己在評估誰」。這一挑戰在一個具體對比中體現得格外清晰：生成式獎勵模型的訓練通常以蒸餾強大的通用模型為起點，但對于價值建模而言，并不存在天然的「價值先知」可供蒸餾。

研究者發現，即便是能力極強的通用大模型例如 GPT-5，直接被用作價值模型時，其擬合誤差甚至遠不如判別式 Critic。原因正在于它對被評估的策略一無所知，無從判斷同一狀態對當前策略意味著什么。

為此，研究者引入了上下文條件注入（In-Context Conditioning）機制：在每次 Critic 推理時，將當前策略的模型規模與實時更新的滑動平均成功率一并注入上下文，使 Critic 能夠感知并基于當前策略的能力水平開展分析。消融實驗表明，這一簡單機制能夠有效降低價值估計誤差。

在訓練流程上，由于缺乏可供直接蒸餾的高質量標注，研究者設計了包含 SFT 和 RL 的兩階段價值預訓練方案。SFT 階段作為熱身，幫助模型建立以估計價值為目標的基本推理模式；RL 階段則通過真實獎勵信號對初始偏差進行矯正，將推理能力真正落地到準確的價值估計上。經過這兩階段預訓練的生成式 Critic，可以作為可靠組件進入與策略的聯合 RL 訓練。

實驗與分析

研究者將使用生成式 critic 的 PPO 命名為 GenAC，在數學推理任務上展開了實驗，并通過 6 個評測標準進行深度評測。為了比較價值函數的影響，研究者比較了使用判別式 Critic 的 VC-PPO，以及兩種主流的無 Value 方法 GRPO 和 RLOO。

GenAC 以 51.90% 的平均準確率領先所有基準方法。從訓練動態來看，價值建模本身就能帶來顯著優勢：VC-PPO 與 GenAC 在訓練早期均表現出更高的樣本效率，模型能力迅速提升，而無 Value 方法由于細粒度信用分配的缺失，早期學習相對緩慢。然而，VC-PPO 的領先優勢隨著訓練推進而逐漸收窄，最終收斂表現與無 Value 方法相差無幾；GenAC 則截然不同，不僅始終保持領先，與其他方法的差距還在訓練后期持續擴大。

是否進行價值建模影響的是早期的學習速率，而 Critic 的質量則決定訓練能走多遠。

那么，生成式與判別式 Critic 之間的差異，究竟通過什么機制傳導到最終的 RL 效果上？研究者從擬合誤差之外的角度進一步展開分析。

首先是相對排名實驗：針對相同狀態的一組候選片段，Critic 需要識別出哪個候選的價值最高。隨著候選數量增加，生成式 Critic 的排名準確率輕微下降，而判別式 Critic 則明顯退化。這意味著在區分相近候選的細微優劣時，生成式 Critic 能給出更可靠的相判斷，而優勢估計的精度正是依賴于此。

其次是分布外泛化實驗：要求 Critic 對分布外數據源的價值函數進行估計。生成式 Critic 的誤差相比判別式基線大幅下降，且分布偏移越大，兩者的差距越懸殊。這說明生成式 Critic 具有更強的泛化能力，當策略通過探索進入新狀態時，它依然能夠給出可靠的信用分配，在關鍵的探索數據上保持有效的學習。

最后是定性分析：Critic 需要通過價值估計反映思維鏈中出現的錯誤。在這個例子中，判別式 Critic 在錯誤步驟前后的價值估計沒有明顯區別，而生成式 Critic 明確指出了錯誤，并基于此給出了更低的價值估計。這種細粒度的錯誤定位能力，正是精準信用分配在單步層面的直接體現。

結語

價值模型的失敗，從來不是價值建模這一思路本身有問題，而是判別式架構的先天局限，使一個具有潛力的想法難以落地。生成式 Critic 通過引入顯式推理、策略感知和穩健的兩階段訓練，重新展示了細粒度信用分配在 LLM 強化學習中的可行性。隨著推理模型與 Agent 任務的持續推進，信用分配的質量只會變得越來越關鍵。這件事值得被認真對待，而 GenAC 展示了一條可行的路徑。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.