<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      生成式Critic重新定義LLM強化學習信用分配

      0
      分享至



      本文第一作者單子康是北京大學二年級在讀博士生,研究方向為大語言模型與強化學習,曾于 ICML 2025 以共同一作發表 Spotlight 論文,本工作為微軟亞洲研究院實習期間完成。本文最后一作趙立是微軟亞洲研究院高級研究員,現任微軟亞洲研究院機器學習組負責人。

      強化學習(RL)已經成為大語言模型(LLM)后訓練階段最重要的技術之一。早期伴隨著 ChatGPT 的出圈,價值對齊 RL 受到廣泛關注;DeepSeek-R1 以大規模可驗證 RL 激發了模型的推理能力,引領了推理 RL 的熱潮;如今的智能體(Agent)訓練更是離不開 RL。

      可以說,大模型時代的能力演進,很大程度上是 RL 范式不斷深化應用的過程。

      然而,RL 有一個經典難題始終懸而未決:信用分配(credit assignment)。模型生成了一段長長的回答,最終收到一個獎勵信號。但這段回答里,哪些步驟真正做出了貢獻?哪些是冗余的,甚至引入了錯誤?信用分配不精準,訓練信號就只能保持稀疏,模型的學習效率也就因此受限。



      經典 RL 算法 PPO(Proximal Policy Optimization)的解法是訓練一個價值模型(Critic),估計序列中每個 token 的價值(Value),借此將信用精確分配到每一步。然而在 LLM 的實踐中,隨著生成序列越來越長、任務越來越復雜,Critic 的訓練逐漸變得不穩定,效果也難以保證。

      于是,研究者轉向更簡單的無 Value 方法例如 GRPO,利用獎勵來構造每個軌跡的優勢,廣播到每一步上,相當于將優化過程簡化為一個多臂老虎機問題。盡管訓練流程簡潔了許多,這種簡化的代價是徹底放棄了細粒度的信用分配。隨著推理鏈越來越長、Agent 任務越來越復雜,這一代價也變得越來越難以接受。

      這不禁讓人重新審視一個根本問題:價值模型真的不堪一用嗎?還是我們一直沒能正確地實現它?

      微軟亞洲研究院聯合北京大學的研究者,給出了答案。



      • 論文標題:Bringing Value Models Back: Generative Critics for Value Modeling in LLM Reinforcement Learning
      • 論文鏈接:https://arxiv.org/abs/2604.10701

      判別式 Critic 的根本局限

      傳統 Critic 是「判別式」的:輸入一個狀態,輸出一個標量作為價值估計。這一設計看似自然,卻暗藏著一個深層的架構矛盾。

      研究者將兩個已知的結論結合,得出了一個頗具啟發性的推論。其一,LLM 生成過程所對應的馬爾可夫鏈的價值函數的精確建模,在計算復雜度上屬于 P-complete。其二,Transformer 單次前向傳播的表達能力上界已被證明為 TC?,一個遠弱于 P-complete 的復雜度類。

      將這兩個結論結合來看,判別式 Critic 在 LLM 任務上的持續失敗或許并非偶然:價值建模本質上依賴大量順序推理,難以通過簡單的并行前向傳播實現。判別式 Critic 是在用一個表達能力受限的架構,去擬合一個理論上更復雜的函數。更關鍵的是,這一錯配無法通過規模化來彌補:更多的參數、更多的數據或更多的計算,對于表達能力層面的鴻溝并無根本幫助。



      研究者通過實驗印證了這一推斷。固定一個目標價值函數,讓判別式 Critic 去擬合,其誤差與簡單的平均獎勵基線相比并無顯著優勢。更重要的是,將模型規模從 0.6B 擴展到 14B,擬合誤差幾乎沒有改善。與此同時,判別式 Critic 在不同隨機種子下表現出極大的波動,說明其表現高度依賴初始化,而非穩健地收斂。

      不可擴展加上不穩定,共同指向同一個結論:判別式 Critic 的問題并非調參不當,而是架構層面的固有不足。

      生成式 Critic:讓價值估計變得可推理

      既然判別式架構存在本質局限,一個自然的問題是:換成生成式會怎樣?

      生成式 Critic 的核心思路是:不直接輸出一個標量,而是先使用思維鏈推理,再給出價值的估計。這一思路與生成式獎勵模型有相通之處,后者已在多項工作中被驗證具有更強的魯棒性和泛化能力。從理論上看,顯式的推理鏈可以有效提升模型的表達能力,從而繞過 TC?的表達能力上界約束,為價值建模開辟新的空間。

      但價值建模比獎勵建模面臨更深層的挑戰:價值是與當前策略深度綁定的。同一個中間狀態,對于能力較弱的策略而言可能價值很高,而對于能力更強的策略則已不值一提。獎勵模型無需感知策略,但價值模型必須「知道自己在評估誰」。這一挑戰在一個具體對比中體現得格外清晰:生成式獎勵模型的訓練通常以蒸餾強大的通用模型為起點,但對于價值建模而言,并不存在天然的「價值先知」可供蒸餾。

      研究者發現,即便是能力極強的通用大模型例如 GPT-5,直接被用作價值模型時,其擬合誤差甚至遠不如判別式 Critic。原因正在于它對被評估的策略一無所知,無從判斷同一狀態對當前策略意味著什么。

      為此,研究者引入了上下文條件注入(In-Context Conditioning)機制:在每次 Critic 推理時,將當前策略的模型規模與實時更新的滑動平均成功率一并注入上下文,使 Critic 能夠感知并基于當前策略的能力水平開展分析。消融實驗表明,這一簡單機制能夠有效降低價值估計誤差。



      在訓練流程上,由于缺乏可供直接蒸餾的高質量標注,研究者設計了包含 SFT 和 RL 的兩階段價值預訓練方案。SFT 階段作為熱身,幫助模型建立以估計價值為目標的基本推理模式;RL 階段則通過真實獎勵信號對初始偏差進行矯正,將推理能力真正落地到準確的價值估計上。經過這兩階段預訓練的生成式 Critic,可以作為可靠組件進入與策略的聯合 RL 訓練。

      實驗與分析

      研究者將使用生成式 critic 的 PPO 命名為 GenAC,在數學推理任務上展開了實驗,并通過 6 個評測標準進行深度評測。為了比較價值函數的影響,研究者比較了使用判別式 Critic 的 VC-PPO,以及兩種主流的無 Value 方法 GRPO 和 RLOO。



      GenAC 以 51.90% 的平均準確率領先所有基準方法。從訓練動態來看,價值建模本身就能帶來顯著優勢:VC-PPO 與 GenAC 在訓練早期均表現出更高的樣本效率,模型能力迅速提升,而無 Value 方法由于細粒度信用分配的缺失,早期學習相對緩慢。然而,VC-PPO 的領先優勢隨著訓練推進而逐漸收窄,最終收斂表現與無 Value 方法相差無幾;GenAC 則截然不同,不僅始終保持領先,與其他方法的差距還在訓練后期持續擴大。

      是否進行價值建模影響的是早期的學習速率,而 Critic 的質量則決定訓練能走多遠。



      那么,生成式與判別式 Critic 之間的差異,究竟通過什么機制傳導到最終的 RL 效果上?研究者從擬合誤差之外的角度進一步展開分析。



      首先是相對排名實驗:針對相同狀態的一組候選片段,Critic 需要識別出哪個候選的價值最高。隨著候選數量增加,生成式 Critic 的排名準確率輕微下降,而判別式 Critic 則明顯退化。這意味著在區分相近候選的細微優劣時,生成式 Critic 能給出更可靠的相判斷,而優勢估計的精度正是依賴于此。

      其次是分布外泛化實驗:要求 Critic 對分布外數據源的價值函數進行估計。生成式 Critic 的誤差相比判別式基線大幅下降,且分布偏移越大,兩者的差距越懸殊。這說明生成式 Critic 具有更強的泛化能力,當策略通過探索進入新狀態時,它依然能夠給出可靠的信用分配,在關鍵的探索數據上保持有效的學習。

      最后是定性分析:Critic 需要通過價值估計反映思維鏈中出現的錯誤。在這個例子中,判別式 Critic 在錯誤步驟前后的價值估計沒有明顯區別,而生成式 Critic 明確指出了錯誤,并基于此給出了更低的價值估計。這種細粒度的錯誤定位能力,正是精準信用分配在單步層面的直接體現。



      結語

      價值模型的失敗,從來不是價值建模這一思路本身有問題,而是判別式架構的先天局限,使一個具有潛力的想法難以落地。生成式 Critic 通過引入顯式推理、策略感知和穩健的兩階段訓練,重新展示了細粒度信用分配在 LLM 強化學習中的可行性。隨著推理模型與 Agent 任務的持續推進,信用分配的質量只會變得越來越關鍵。這件事值得被認真對待,而 GenAC 展示了一條可行的路徑。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      放棄40萬鎊周薪!28歲神鋒無球可踢,一年身價狂跌5000萬歐

      放棄40萬鎊周薪!28歲神鋒無球可踢,一年身價狂跌5000萬歐

      銳評利物浦
      2026-05-08 00:30:44
      魯尼:曼聯踢得像賽季末例行公事;下賽季踢歐冠今夏得大引援

      魯尼:曼聯踢得像賽季末例行公事;下賽季踢歐冠今夏得大引援

      懂球帝
      2026-05-10 02:05:27
      果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

      果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

      秋狝春苗夢
      2026-05-09 23:46:30
      無緣16強!鄭欽文被扣325分 世界排名跌至第53 錯失法網種子席位

      無緣16強!鄭欽文被扣325分 世界排名跌至第53 錯失法網種子席位

      我愛英超
      2026-05-10 00:26:51
      41歲知名“特型演員”侯京健大婚!曝妻子身份,多次主持聯歡晚會

      41歲知名“特型演員”侯京健大婚!曝妻子身份,多次主持聯歡晚會

      裕豐娛間說
      2026-05-09 12:02:30
      茶顏悅色,裝不下去了

      茶顏悅色,裝不下去了

      中國新聞周刊
      2026-05-07 22:15:57
      上海96-68山東!2-0晉級 沒想到賽后盧偉這樣說:肯定球員的表現

      上海96-68山東!2-0晉級 沒想到賽后盧偉這樣說:肯定球員的表現

      林子說事
      2026-05-10 00:07:19
      升至37死51傷!瀏陽煙花廠爆炸:負責人創業歷程曝光,個人照流出

      升至37死51傷!瀏陽煙花廠爆炸:負責人創業歷程曝光,個人照流出

      老貓觀點
      2026-05-09 18:44:54
      馬龍為男團半決賽開球!張本智和3-1林昀儒,日本隊率先打進決賽

      馬龍為男團半決賽開球!張本智和3-1林昀儒,日本隊率先打進決賽

      乒談
      2026-05-10 01:46:26
      4年1.04億!回顧布倫森尼克斯生涯,隊史最佳簽約?

      4年1.04億!回顧布倫森尼克斯生涯,隊史最佳簽約?

      籃球實錄
      2026-05-10 00:26:37
      斷交13年的同事突然寄給我一箱臘肉,我把它送給對門鄰居,當天晚上12點,他把臘肉還回來:箱子底下有東西

      斷交13年的同事突然寄給我一箱臘肉,我把它送給對門鄰居,當天晚上12點,他把臘肉還回來:箱子底下有東西

      品讀時刻
      2026-05-03 08:52:52
      絕了!梅西接班人亞馬爾!67天姐弟戀!網友:這也太飄了!

      絕了!梅西接班人亞馬爾!67天姐弟戀!網友:這也太飄了!

      羅氏八卦
      2026-05-09 18:40:03
      90歲鐘南山院士:人類活到120歲不是夢!這6個長壽秘訣他一直堅持

      90歲鐘南山院士:人類活到120歲不是夢!這6個長壽秘訣他一直堅持

      人民日報健康客戶端
      2026-05-09 20:14:36
      剛剛爆料!東莞多家面包店疑似跑路.....

      剛剛爆料!東莞多家面包店疑似跑路.....

      東莞好生活
      2026-05-09 20:13:17
      王暖暖凌晨被120抬走:她熬過懸崖生死,卻沒躲身體里藏了6年的刀

      王暖暖凌晨被120抬走:她熬過懸崖生死,卻沒躲身體里藏了6年的刀

      小娛樂悠悠
      2026-05-09 08:17:05
      世界正在發生一個極其惡心的變化!印度最終可能會成為地球大患

      世界正在發生一個極其惡心的變化!印度最終可能會成為地球大患

      世界圈
      2026-05-04 16:42:27
      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      舉報一個查一個!耿同學舉報3位大學院長和教授,同濟院長被免職還差南開和中山

      可達鴨面面觀
      2026-05-07 13:03:19
      穆里尼奧回歸懸了!皇馬換帥突生變數,傳奇巨星公開潑冷水

      穆里尼奧回歸懸了!皇馬換帥突生變數,傳奇巨星公開潑冷水

      瀾歸序
      2026-05-10 00:42:06
      楊受成“霸占”容祖兒半生:不娶不放,到底圖什么?

      楊受成“霸占”容祖兒半生:不娶不放,到底圖什么?

      陳意小可愛
      2026-05-09 15:56:56
      布萊頓與伯恩茅斯雙雙取勝 鞏固歐戰資格爭奪形勢

      布萊頓與伯恩茅斯雙雙取勝 鞏固歐戰資格爭奪形勢

      賽場速報局
      2026-05-10 01:57:31
      2026-05-10 02:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142646關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      多地號召,公職人員帶頭繳納物業費

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      時尚
      健康
      數碼
      公開課
      軍事航空

      伊姐周六熱推:電視劇《喀什戀歌》;電視劇《低智商犯罪》......

      干細胞能讓人“返老還童”嗎

      數碼要聞

      有鴻蒙·更美的——全球首臺鴻蒙智選美的智能空調上市

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊突然再次交火 伊朗外長:戰爭準備程度是1000%

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品香港三级国产AV| 国产I熟女l国产.熟女视频| 一区二区丝袜美腿| 风韵丰满熟妇啪啪区老熟熟女| 午夜福利日本一区二区无码| 免费看A级片| 天天摸天天做天天添欧美| 久久精品国产曰本波多野结衣| 亚洲精品乱码久久久久久不卡| 丰满爆乳一区二区三区| 亚洲嫩模喷白浆在线观看| 国产成人综合亚洲欧美日韩| 国产免费一区二区视频| 最新国产精品拍自在线观看| 亚洲成人第一网站| 亚洲 日韩 欧美 成人 在线 | 欧亚美日| 国产360激情盗摄全集| 人人澡超碰碰97碰碰碰| 欧美日韩一区二区三区视频| 亚洲色成人网站www永久四虎| 亚洲AV午夜成人影院老师机影院| 双腿张开被5个男人调教电影| 国产精品久久蜜臀av| 亚洲中文字幕播放视频| 乱色熟女人妻字幕一区| 麻豆一区二区三区精品视频| 亚洲欧美中文日韩AⅤ| 亚洲av高清一区二区三| 亚洲精品在线少妇内射| 久久亚洲精品无码播放| 超清无码一区二区三区| 中文字幕久久精品波多野结 | 色伊人| 一区二区三区四区五区自拍| 国产成人自产拍免费视频| 人人玩人人添人人澡超碰| AV无码免费不卡在线观看 | av日韩在线一区二区三区| 日韩人妻精品无码制服| 亚洲欧美成人综合图区|