<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      打破推理同質化!阿里達摩院新作讓RLVR從重復采樣走向有效探索

      0
      分享至



      I2B-LPO 是一個面向 RLVR 后訓練的探索增強框架,通過改進 rollout 策略引導模型生成更多樣化的推理軌跡,將探索行為從 “重復采樣” 推進到 “在關鍵節點生成更具區分度的推理軌跡”,在多個數學基準上同時提升準確率與語義多樣性,最高分別達 5.3% 和 7.4%。該工作接收于 ACL 2026 Main,來自阿里達摩院 - 智能決策團隊。

      近年來,隨著 DeepSeek-R1 等推理模型出現,基于可驗證獎勵的強化學習(RLVR)已成為提升數學、代碼能力的重要訓練范式。其核心思想在于:對同一道題采樣多條推理路徑,并根據獎勵信號,強化正確路徑、抑制錯誤路徑。這就像讓模型對同一道題寫出多份解題草稿,再從中學習哪些思路更值得保留。

      一種直觀想法是 :如果采樣軌跡(rollout)足夠多,模型就總能探索出更多解法,獲得更有效的更新信號?然而,在實際訓練中,盲目增加采樣數量并不一定帶來更高效的探索。這背后對應著強化學習中的經典探索 - 利用困境(exploration-exploitation trade-off):模型既要利用可驗證獎勵,強化當前更容易得到正確答案的推理模式;又要保持探索能力,跳出已有模板,嘗試新的解題方向。

      當前的 rollout 采樣機制天然偏向 “利用”:模型很快收斂到少數高概率推理模板,生成的軌跡雖然措辭不同,底層邏輯卻高度同質化。這種同質化推理削弱了軌跡間的獎勵差異和優勢信號,使額外采樣也難以帶來有效更新。



      表 1: 高熵 Token 類別示例

      熵,作為衡量模型在生成下一步時不確定性的指標,天然指向探索的關鍵節點。通過系統實驗,我們發現:策略熵往往與邏輯轉折、自我糾錯等行為高度相關(如表 1 所示),是引導模型探索的有效信號。



      圖 1:RLVR 中不同探索范式的對比(a)Sequence-level 的整體正則化方法通過全局平滑 token 分布來提高熵,但容易讓模型生成冗長、重復或與解題無關的內容,形成 “高熵但低信息量” 的無效探索。(b)token-level 的概率擾動方法則只在局部高熵 token 上調整概率,往往只能帶來連接詞、同義詞或表層表達的變化,也難以突破預訓練模型已有的推理偏好來持續改變后續推理方向。

      然而,在實踐中我們發現,在高熵節點僅僅依靠 sequence-level 的整體正則化或 token-level 的概率擾動,無法持續影響后續推理軌跡的整體走向。如圖 1 所示,基于熵的強化學習方法存在以下關鍵問題:

      1. 獎勵作弊(Reward Hacking):模型為了騙取熵相關的獎勵項,故意生成無意義的發散,生成冗長、重復或與解題無關的內容。
      2. 歸納偏置(Inductive Bias):僅僅在詞層面做文章,無法打破模型的預訓練歸納偏置。

      為了解決這些問題,我們提出 I2B-LPO:在高熵節點向模型注入潛變量分支,以確保在模型在關鍵節點生成更具區分度的推理軌跡,并引入一種反饋機制,濾除冗長和無意義的推理路徑。這一方法幫助 RLVR 在有限推理資源下實現更高效的探索,進一步突破大模型的推理性能瓶頸。



      • 論文標題:I2B-LPO: Latent Policy Optimization via Iterative Information Bottleneck
      • 論文鏈接:https://arxiv.org/pdf/2601.05870
      • 開源鏈接:https://github.com/denghuilin-cyber/IIB-LPO

      01 工作概述

      本文提出一種面向 RLVR 后訓練的探索增強框架,鼓勵模型在關鍵節點生成更具區分度的推理軌跡。具體而言,I2B-LPO 通過改進 rollout 策略,使模型在有限采樣預算下獲得更有效的探索信號,顯著提升了數學推理任務中的準確率與語義多樣性。

      理論與現象分析:

      1. 高熵節點是真正的推理分叉點: 我們按 token-level entropy 對推理過程進行分組實驗,發現模型處于高熵區間時,不同解碼策略的性能差異明顯放大;而在低熵區間,這種差異并不顯著。這說明高熵位置往往對應關鍵決策點,更適合作為推理軌跡的分支位置。

      2. 推理長度不等同于有效推理: 在標準 GRPO 訓練中,我們觀察到:模型準確率較早進入平臺期,但響應長度和 4-gram 重復率仍持續上升。這表明模型可能只是在生成更長、更重復的內容,而不是產生更有效的推理。因此,有效探索不僅要生成更多路徑,也要識別真正有信息量的路徑。

      核心創新:

      I2B-LPO: 我們提出了一種面向 RLVR 后訓練的探索增強框架,結合熵驅動的推理軌跡分支和信息瓶頸自獎勵機制,在 Qwen2.5-7B 和 Qwen3-14B 模型上驗證了其有效性。

      驗證與結果:

      我們基于 GRPO 框架,在多個數學推理基準上對 I2B-LPO 進行了驗證。結果顯示,I2B-LPO 同時提升了推理準確率與語義多樣性,在保證探索多樣性的同時避免了過度冗長。

      02 具體方法



      圖 2: I2B-LPO 將 rollout 從 “隨機多采樣” 改造成 “關鍵節點分支 + 高質量路徑篩選” 的結構化探索過程,使模型既能探索不同解題方向,又能避免無效發散。

      I2B-LPO 并不替換原有 GRPO 訓練框架,而是改進其中的 rollout 生成與策略更新過程:先讓推理軌跡在關鍵位置分叉,再篩選出真正高質量的探索路徑參與更新。

      1.熵驅動潛變量分支: 對每條初始 rollout,I2B-LPO 會定位策略熵較高的 “猶豫節點”,并基于當前推理前綴采樣潛變量,通過偽自注意力機制(PSA)注入模型內部,持續影響后續生成,從而得到多條結構上更具差異的推理軌跡。

      2.信息瓶頸自獎勵: 對生成的分支軌跡,I2B-LPO 使用信息瓶頸指標進行排序和篩選,保留簡潔、高信息量、對答案真正有幫助的路徑,過濾冗長、重復或邏輯漂移的無效探索,并將高質量軌跡用于 GRPO 策略更新。

      具體流程可以概括為:初始 rollout → 高熵節點分支 → 生成候選推理軌跡 → IB 自獎勵篩選 → GRPO 策略更新

      1.熵驅動潛變量分支

      對于一條初始推理軌跡 r=(o1,…,oT),I2B-LPO 首先計算每個生成位置的策略熵:



      其中,Ht 衡量模型在第 t 步生成下一個 token 時的不確定性。熵越高,說明模型在當前位置越 “猶豫”,也更可能存在不同推理方向。

      因此,我們選擇高熵位置作為推理分叉點:



      其中,τ 表示熵的高分位閾值。隨后,I2B-LPO 基于當前推理前綴 ct? 采樣潛變量:



      這些潛變量代表不同的潛在推理方向。為了讓它們持續影響后續生成,而不是只改變某個 token 的概率,I2B-LPO 設計了偽自注意力機制(Pseudo Self-Attention, PSA)。

      具體來說,PSA 首先用潛變量調制 RMSNorm 的縮放參數:



      其中,γ(t) 是隨生成過程逐漸衰減的注入強度。這樣可以讓潛變量在推理早期提供方向引導,同時避免后期過度干擾。接著,PSA 將潛變量映射為額外的 Key 和 Value,并拼接到原始注意力中:



      最終注意力計算變為:



      直觀來說,PSA 相當于給模型加入一個 “隱含思路提示”:它持續影響后續推理軌跡,使同一條 rollout 在關鍵節點分化出多條更具區分度的路徑。

      2.信息瓶頸自獎勵

      生成多條候選軌跡后,I2B-LPO 不會直接全部用于訓練,而是利用信息瓶頸指標進行篩選。核心思想是:好的推理路徑應該既簡潔,又對最終答案有幫助。

      我們用如下分數衡量一條軌跡的質量:



      其中,I (r;a) 表示推理軌跡對最終答案的信息貢獻,I (q;r) 用于約束軌跡不要過度冗長或重復。分數越高,說明該軌跡越簡潔、有效、直擊答案。

      最終,I2B-LPO 保留 IB 分數最高的 Top-N 條軌跡:



      并將其用于 GRPO 策略更新:



      03 實驗結果

      為了驗證我們的模型在數學推理任務中的表現,我們進行了廣泛的實驗,并在多個基準數據集上進行了測試。以下是實驗部分的詳細介紹:

      訓練數據:

      訓練數據主要來自 DAPO 和 MATH。為提升訓練效率,我們過濾了過于簡單、過于困難以及容易導致超長輸出的樣本,最終保留 6,486 條 MATH 樣本和 13,583 條 DAPO 樣本用于訓練。

      Benchmarks:

      • AIME2025 / AIME2024: 美國高中數學邀請賽基準,解題步驟復雜。
      • MATH-500: 覆蓋代數、幾何、數論、概率多個主題,考驗通用數學推理能力。
      • OlympiadBench: 奧林匹克競賽級別的高難度數學基準,強調長鏈條推導和跨知識點綜合能力。
      • GSM8K: 初中水平數學應用題基準,評估基礎算術推理和自然語言問題求解。



      表 2: 不同方法的推理準確率對比



      表 3: 不同方法的推理多樣性指標對比

      表 2 和表 3 分別驗證了 I2B-LPO 在推理準確率與生成多樣性上的優勢。結果顯示,I2B-LPO 在不同模型規模和多個數學基準上均穩定提升性能,不僅答得更準,也能生成更多樣的推理路徑。



      圖 3: 不同方法下的熵分布與訓練動態對比。(a)展示不同方法下 token 概率與熵的分布關系;(b)展示訓練過程中平均熵的變化趨勢。相比 其他方法,I2B-LPO 能在訓練后期維持更穩定的熵水平。

      圖 3 用于分析 I2B-LPO 是否真正改善了模型的探索行為。如圖 3 所示,(a)散點圖中標準 GRPO 的 token 更容易集中到低熵區域,說明模型逐漸變得 “確定”,探索空間被壓縮;Entropy Regularization 雖然提高了熵,但容易出現異常高熵點,帶來無效發散。I2B-LPO 則保持了更均衡的概率 - 熵分布。(b)曲線進一步表明,I2B-LPO 能在訓練后期維持相對較高且穩定的熵水平,避免模型過早陷入單一推理模板,從而保留有效探索能力。

      圖 4. 不同難度題目下的注意力頭激活模式對比。紅色表示在高難度題目中更活躍的注意力頭,藍色表示在低難度題目中更活躍的注意力頭。

      為驗證潛變量分支是否帶來結構化推理引導 還是 隨機噪聲注入,我們可視化了注意力激活模式。如圖 4 所示,輸入層注入機制容易被深層稀釋,softmax 層注入機制則會造成分散激活;而 I2B-LPO 使用的 PSA 偽自注意力注入能夠在深層激活與難題相關的注意力頭,形成更有結構的推理激活模式。

      我們進一步分析了自獎勵機制篩除的低質量軌跡,發現低 IB 分數的軌跡主要有三類典型問題:

      • 空泛冗長: 看似在認真分析,實際包含大量 “Let me think”“It is important to note” 等無信息量鋪墊。
      • 重復循環: 反復重述題目或中間步驟,生成長度變長,但沒有新增推理信息。
      • 邏輯漂移: 表達很簡潔,但關鍵公式或推導方向出錯,對答案沒有幫助。

      相比之下,高 IB 分數的軌跡往往更短、更直接,并且每一步都服務于最終答案。這說明信息瓶頸自獎勵不僅是在懲罰 “話多”,而是在篩選真正簡潔、有效、有預測力的推理路徑。案例分析如圖 5 所示。



      圖 5. 高 IB 分數與低 IB 分數推理軌跡對比

      總結

      本研究聚焦于提升 RLVR 后訓練中的探索效率與推理質量。通過系統分析,我們發現,標準隨機 rollout 容易讓模型收斂到少數高概率推理模板,導致多條推理軌跡表面不同、底層同質,進而削弱軌跡間的獎勵差異和有效學習信號。

      基于這一發現,我們提出了探索增強框架 I2B-LPO。該方法將 RLVR 中的探索從 “重復采樣更多答案” 推進到 “在關鍵節點生成更具區分度的推理軌跡”。I2B-LPO 主要通過兩個關鍵機制實現高效探索:

      • 高熵節點分支: 在模型真正不確定的關鍵位置生成多樣化推理軌跡。
      • 信息瓶頸自獎勵: 篩選簡潔、高信息量、直擊答案的高質量路徑,過濾冗長和無效推理。

      實驗結果表明,I2B-LPO 能夠在多個數學推理基準上同時提升推理準確率與語義多樣性,在有限采樣預算下實現更高效、更可靠的 RLVR 探索。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特朗普是個什么樣的人,這篇文章分析得很透徹

      特朗普是個什么樣的人,這篇文章分析得很透徹

      我是健康專家
      2026-04-07 08:43:05
      你嫁婆家后因為啥事一舉成名過?網友:弄的沸沸揚揚人盡皆知

      你嫁婆家后因為啥事一舉成名過?網友:弄的沸沸揚揚人盡皆知

      另子維愛讀史
      2026-05-14 07:34:57
      不愧被稱為“飛行電線桿”,霹靂-17是真的大!

      不愧被稱為“飛行電線桿”,霹靂-17是真的大!

      阿龍聊軍事
      2026-05-13 09:56:21
      特朗普盛贊中國三軍儀仗隊極致整齊引爆全球關注背后訓練令人震撼

      特朗普盛贊中國三軍儀仗隊極致整齊引爆全球關注背后訓練令人震撼

      硯底沉香LIU
      2026-05-14 12:58:23
      沉默1日,大陸亮出統一底牌

      沉默1日,大陸亮出統一底牌

      一口娛樂
      2026-05-14 07:21:58
      四川雷雨、暴雨馬上到!

      四川雷雨、暴雨馬上到!

      掌上金牛
      2026-05-14 09:33:26
      初三岳父不讓我入席,我帶女兒下館子,初八妻子:爸手術你出30萬

      初三岳父不讓我入席,我帶女兒下館子,初八妻子:爸手術你出30萬

      云端小院
      2026-05-13 06:52:34
      親眼見證藏族少女天葬過程,場面真震撼,顛覆了我對生死的認知

      親眼見證藏族少女天葬過程,場面真震撼,顛覆了我對生死的認知

      古怪奇談錄
      2025-07-30 15:23:44
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      頭婚一旦散了,幸福基本就斷了

      頭婚一旦散了,幸福基本就斷了

      加油丁小文
      2026-05-11 14:54:32
      姆巴佩抨擊法國右翼政黨國民聯盟,黨主席回擊:你離開巴黎后,巴黎可又要拿歐冠了

      姆巴佩抨擊法國右翼政黨國民聯盟,黨主席回擊:你離開巴黎后,巴黎可又要拿歐冠了

      懂球帝
      2026-05-13 10:23:07
      中美談妥,貝森特握緊中方的手,新的情況發生,外資加倉中國資產

      中美談妥,貝森特握緊中方的手,新的情況發生,外資加倉中國資產

      一善一待
      2026-05-14 13:26:33
      印專家:巴基斯坦進口殲-35A,是為了修復“5.7空戰”受損的聲譽

      印專家:巴基斯坦進口殲-35A,是為了修復“5.7空戰”受損的聲譽

      愛吃醋的貓咪
      2026-05-09 20:43:55
      我國最大的“烏龍事件”:耗資3億建發電廠,卻整出來一個牧場!

      我國最大的“烏龍事件”:耗資3億建發電廠,卻整出來一個牧場!

      浩渺青史
      2026-05-04 14:16:15
      暴跌65%,中年人最愛的豪車也崩了!

      暴跌65%,中年人最愛的豪車也崩了!

      蔣東文
      2026-05-12 21:16:35
      14歲送上北野武的床,17歲拍寫真,被操控半生,年過50仍風韻猶存

      14歲送上北野武的床,17歲拍寫真,被操控半生,年過50仍風韻猶存

      飄飄然的娛樂匯
      2026-05-11 20:05:06
      81歲鼎爺終現曙光!鄧兆尊怒勸長子找工作,吳家樂避談楊思琦平反

      81歲鼎爺終現曙光!鄧兆尊怒勸長子找工作,吳家樂避談楊思琦平反

      一盅情懷
      2026-05-13 16:41:31
      毛巾少爺家族辦周年慶!李維嘉主持,痞幼到場,曝家庭關系太復雜

      毛巾少爺家族辦周年慶!李維嘉主持,痞幼到場,曝家庭關系太復雜

      裕豐娛間說
      2026-05-14 13:54:25
      港媒曝光“何太2.0”更狠辣!香港八十老漢遭遇“黃昏劫”千萬家產被算計

      港媒曝光“何太2.0”更狠辣!香港八十老漢遭遇“黃昏劫”千萬家產被算計

      新浪財經
      2026-05-12 04:55:22
      一夜情后勒索NBA雄鹿老板12.15億美元,羅某在登機回國時被捕

      一夜情后勒索NBA雄鹿老板12.15億美元,羅某在登機回國時被捕

      聽心堂
      2026-05-12 13:19:43
      2026-05-14 18:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12995文章數 142648關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      媒體:中美元首會談超2小時15分鐘 兩國關系有新定位

      頭條要聞

      媒體:中美元首會談超2小時15分鐘 兩國關系有新定位

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      習近平同美國總統特朗普會談

      汽車要聞

      新時代傳統豪華是什么樣? 上汽奧迪E7X給出了自己的答案

      態度原創

      時尚
      游戲
      本地
      數碼
      房產

      T恤+低腰闊腿褲、襯衫+低腰半裙,今年夏天最時髦的搭配,誰穿誰好看!

      索尼緊急撤回!PS5重大功能慘遭下架 原因成謎

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      酷冷至尊預熱冰神B360 TV一體式水冷散熱器:6"長方形大屏

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产初高中精品无套内谢| 亚洲一区二区人妻| 国产狂喷水潮免费网站WWW | 日本中文字幕一区二区视频| 伊人久久大香线蕉AV五月天宝贝| 风韵丰满熟妇啪啪区老老熟妇 | 狠狠综合久久久久尤物| 厨房与子乱在线观看| 日韩福利片午夜免费观着| 先锋影音av最新资源| 木兰县| 亲子乱子伦xxxx视频| 女人高潮流白浆视频| 日韩视频一区二区三区视频| 亚洲人成电影在线天堂色| 超碰人人超碰人人| 人妻丰满熟妞av无码区| 午夜av高清在线观看| 亚洲欧美日韩久久一区二区 | 91免费在线| 亚洲第一成人久久网站 | 亚洲精品麻豆一二三区| 人妻精品动漫h无码| 超碰97人人操| 亚州精品一二区| 日韩a一级欧美一级| 永久在线精品免费视频观看| 亚洲一区国色天香| 中文字幕日韩有码第一页| 激情AV在线| 久久精品免视看国产成人| 日韩大片免费观看视频播放| 国产成视频在线观看| 欧美国产精品不卡在线观看| 欧美寡妇xxxx黑人猛交| 亚洲欧美手机在线| 亚洲国产超清无码专区| 日韩精品一区二区在线视频| 中文字幕久久精品人妻| 东方四虎av在线观看| 久久精品国产亚洲AV瑜伽|