<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      DECS從源頭消除冗余思考,實(shí)現(xiàn)推理token減半且性能不降反升

      0
      分享至



      本文作者來自復(fù)旦大學(xué)、上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室。一作江書洋為復(fù)旦大學(xué)和實(shí)驗(yàn)室聯(lián)培博士生,目前是實(shí)驗(yàn)室見習(xí)研究員,師從上海交通大學(xué)人工智能學(xué)院的王鈺教授和張婭教授。

      以 DeepSeek-R1、OpenAI GPT Thinking 為代表的大型推理模型,通過長達(dá)數(shù)千 token 的「思維鏈」在各類復(fù)雜推理任務(wù)中展現(xiàn)出卓越的性能。然而,這些模型普遍存在一個(gè)核心問題,即過度思考(overthinking) :即便模型已得出正確答案,其推理過程中仍反復(fù)出現(xiàn)「wait...」「let me check...」「alternatively...」等自我修正與回溯性表達(dá),造成大量冗余計(jì)算,帶來大量無意義計(jì)算開銷。

      這一現(xiàn)象已引起學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注。一種直觀的解決策略是引入「對(duì)長推理的懲罰機(jī)制」,即在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中加入對(duì)過長推理序列的長度懲罰獎(jiǎng)勵(lì)項(xiàng),以促使模型生成更為簡潔的推理路徑。

      然而,實(shí)際操作中面臨顯著困難:若加重懲罰力度,模型傾向于省略必要的推理步驟,導(dǎo)致性能顯著下降;若減輕懲罰力度,冗余推理依舊存在,效率難以提升。因此,推理效率與性能之間難以實(shí)現(xiàn)有效平衡。

      在這篇 ICLR 2026 的 Oral 論文中,來自復(fù)旦大學(xué)、上海交通大學(xué)和上海人工智能實(shí)驗(yàn)室的研究團(tuán)隊(duì)首次從理論層面系統(tǒng)揭示了「長度懲罰」策略的根本局限性,并基于此提出了一套全新的訓(xùn)練框架 DECS,在五項(xiàng)域內(nèi)基準(zhǔn)和兩項(xiàng)域外基準(zhǔn)測試中,均實(shí)現(xiàn)了推理長度減少超過 50% 的顯著成效,同時(shí)模型準(zhǔn)確率不降反升。



      • 論文地址:https://openreview.net/forum?id=kdeiRledV6
      • 項(xiàng)目地址:https://pixas.github.io/decs-iclr26-site/

      長度懲罰為何總是「誤傷好人」?

      研究團(tuán)隊(duì)對(duì)當(dāng)前主流強(qiáng)化學(xué)習(xí)框架(如 GRPO)中的序列長度懲罰機(jī)制進(jìn)行了一次深入的理論分析,相關(guān)證明可詳見論文原文,結(jié)論揭示了兩個(gè)此前從未被系統(tǒng)性指出的致命缺陷:

      缺陷一:對(duì)高熵探索 token 的無差別攻擊。模型在推理過程中生成的「wait」「however」「alternatively」等高熵 token,本質(zhì)上是邏輯銜接的「狀態(tài)轉(zhuǎn)移」,是找到正確答案所必需的探索行為。然而序列級(jí)的長度懲罰不區(qū)分 token 類型,一條正確的長推理鏈上的所有 token 都會(huì)均勻地收到負(fù)面梯度信號(hào)。當(dāng)訓(xùn)練數(shù)據(jù)中簡單題占多數(shù)、且各題回答長度差異大時(shí),這種對(duì)高熵 token 的壓制會(huì)不斷累積,最終導(dǎo)致模型喪失探索能力,過早收斂到次優(yōu)策略。

      缺陷二:對(duì)局部冗余的「變相獎(jiǎng)勵(lì)」。團(tuán)隊(duì)引入了一個(gè)極為關(guān)鍵的概念 ——必要推理前綴(Necessary Reasoning Prefix, NRP) ,即從推理開始到首次得出正確答案所需的最短 token 序列。在 NRP 之后多出來的所有 token,本質(zhì)上都是冗余。然而,現(xiàn)有的序列級(jí)獎(jiǎng)勵(lì)機(jī)制中,一條已經(jīng)包含了 NRP 的較短回答,其 NRP 之后的冗余 token 可能仍然會(huì)收到正獎(jiǎng)勵(lì),因?yàn)檎麠l序列在組內(nèi)相對(duì)較短。這種「獎(jiǎng)勵(lì)冗余」的信號(hào)嚴(yán)重扭曲了優(yōu)化方向,讓模型學(xué)不會(huì)在該停的時(shí)候停下來。



      圖 1 序列長度懲罰的兩個(gè)副作用

      DECS:一次「解耦」如何根治過度思考

      基于上述兩個(gè)理論發(fā)現(xiàn),DECS 從兩個(gè)維度對(duì)訓(xùn)練過程進(jìn)行了精準(zhǔn)重構(gòu):

      第一步:解耦 token 級(jí)獎(jiǎng)勵(lì),精準(zhǔn)識(shí)別并懲罰冗余。

      團(tuán)隊(duì)訓(xùn)練了一個(gè)輕量級(jí)的 NRP 檢測器(judge model),用于定位推理鏈中從起始到第一個(gè)包含正確答案的「塊」之間的所有 token。一旦確定了 NRP 的邊界,DECS 就會(huì)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行「解耦」:NRP 范圍內(nèi)的必要推理 token 永遠(yuǎn)不受懲罰;而 NRP 之后出現(xiàn)的每一個(gè)冗余推理 token,都會(huì)恒定為負(fù)獎(jiǎng)勵(lì)。

      通過解耦必要 token 和冗余 token,算法確保了模型只被禁止「畫蛇添足」,而非在推理的每一步都進(jìn)行無效思考,但并不影響模型通過反思和多樣化推理推導(dǎo)得到正確答案。

      第二步:課程式批次調(diào)度,保護(hù)探索能力不受傷。

      懲罰冗余雖然直接,但也存在一個(gè)隱憂:在訓(xùn)練早期,懲罰信號(hào)可能無意中波及到那些看似冗余、實(shí)為探索的高熵 token。DECS 的做法是動(dòng)態(tài)調(diào)整訓(xùn)練 batch 中簡單題的比例:當(dāng)模型當(dāng)前的平均 NRP 占比較低(即冗余還比較多)時(shí),就少放簡單題;隨著訓(xùn)練推進(jìn)、冗余逐步減少,再逐漸提高簡單題的比重。

      這套課程數(shù)據(jù)調(diào)度策略本質(zhì)上是一個(gè)緩沖機(jī)制,在確保冗余被充分壓縮的同時(shí),給模型留出充足的探索空間,避免「一刀切」式的懲罰扼殺了推理的多樣性。



      圖 2 DECS 訓(xùn)練示意圖

      實(shí)驗(yàn)驗(yàn)證:多個(gè)數(shù)據(jù)集推理長度砍半,性能反升

      實(shí)驗(yàn)覆蓋了 DeepSeek-R1-Distill-1.5B、7B 以及 Qwen3-4B 三個(gè)主流基座模型,在 AIME2024/2025、MATH500、GPQA-Diamond、LiveCodeBench-v6 等七個(gè)數(shù)學(xué)、科學(xué)與編程基準(zhǔn)上進(jìn)行了系統(tǒng)評(píng)估。

      結(jié)果令人矚目:在 1.5B 模型上,DECS 將平均推理 token 數(shù)量削減了57.17%,而 Pass@1 準(zhǔn)確率反而提升了2.48 個(gè)百分點(diǎn);在更成熟的 7B 模型上,盡管模型本身的過度思考程度較輕,DECS 依然砍掉了49.50%的思考 token,同時(shí)帶來0.8 個(gè)百分點(diǎn)的準(zhǔn)確率增益。在與 ThinkPrune、TLMRE、LC-R1 等主流基線方法的對(duì)比中,DECS 在效率 - 性能綜合指標(biāo)(AES score)上分別以0.12 和 0.14的優(yōu)勢顯著領(lǐng)先。

      更關(guān)鍵的是跨域泛化能力:DECS 的 NRP 檢測器僅使用數(shù)學(xué)語料訓(xùn)練,但其效率優(yōu)勢卻強(qiáng)有力地遷移到了科學(xué)推理(GPQA-Diamond,56.33%token 縮減)和編程任務(wù)(LiveCodeBench-v6,33.52%token 縮減)上。

      這驗(yàn)證了一個(gè)更深層的洞見 ——過度思考是一個(gè)跨領(lǐng)域的系統(tǒng)性現(xiàn)象,而 DECS 的機(jī)制足夠本質(zhì),可以無差別地將模型從冗余推理中解放。



      表 1 DECS 性能對(duì)比

      消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了兩個(gè)核心組件的互補(bǔ)關(guān)系:去掉課程式調(diào)度,模型在壓縮推理的同時(shí)出現(xiàn)了顯著的性能退化,印證了文章中揭示的探索抑制問題;而單獨(dú)去掉解耦獎(jiǎng)勵(lì),模型仍然殘留約25%的冗余 token,佐證了序列級(jí)獎(jiǎng)勵(lì)無法消除全部冗余的結(jié)論。



      圖 3 消融實(shí)驗(yàn)對(duì)比:解耦獎(jiǎng)勵(lì)和課程調(diào)度都至關(guān)重要

      意義與啟示

      DECS 這項(xiàng)工作的核心價(jià)值,并不在于其幾乎無損的壓縮指標(biāo)本身,而在于它所提出的問題以及從理論視角證明的結(jié)論。

      當(dāng)前,業(yè)界普遍聚焦于「如何讓模型更善于思考」,卻鮮有研究從系統(tǒng)性與理論層面回答兩個(gè)更為根本的問題:「什么不值得思考?」以及「何時(shí)應(yīng)當(dāng)停止思考?」。

      DECS 通過嚴(yán)謹(jǐn)?shù)睦碚摲治雠c扎實(shí)的實(shí)驗(yàn)驗(yàn)證,證明了高效推理的真正瓶頸并非模型的能力邊界,而在于訓(xùn)練目標(biāo)的精妙設(shè)計(jì)。

      對(duì)于那些正受困于推理大模型高昂成本與延遲的部署者而言,DECS 提供了一套無需犧牲精度、完全開源的技術(shù)方案,相關(guān)代碼已開源于 GitHub。

      同時(shí),DECS 入選 ICLR 2026 Oral 的認(rèn)可也進(jìn)一步印證:要從根本上緩解「過度思考」問題,優(yōu)化必須回歸獎(jiǎng)勵(lì)函數(shù)的本質(zhì),從策略梯度的底層機(jī)制入手,在源頭消除冗余推理 token。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      特朗普訪華期間是否會(huì)討論臺(tái)灣和香港有關(guān)問題?外交部回應(yīng)

      特朗普訪華期間是否會(huì)討論臺(tái)灣和香港有關(guān)問題?外交部回應(yīng)

      澎湃新聞
      2026-05-12 15:18:26
      女子推搡哨兵后續(xù):官媒發(fā)聲,知情人爆料,恐不止坐牢這么簡單

      女子推搡哨兵后續(xù):官媒發(fā)聲,知情人爆料,恐不止坐牢這么簡單

      奇思妙想草葉君
      2026-05-12 16:29:44
      實(shí)錘了!俄媒公布俄軍真實(shí)傷亡數(shù)字,比利時(shí)向?yàn)蹩颂m提供53架F16

      實(shí)錘了!俄媒公布俄軍真實(shí)傷亡數(shù)字,比利時(shí)向?yàn)蹩颂m提供53架F16

      史政先鋒
      2026-05-10 21:05:57
      專家:女性生育力“余額”無聲流失,35歲后呈斷崖式下降

      專家:女性生育力“余額”無聲流失,35歲后呈斷崖式下降

      南方都市報(bào)
      2026-05-12 08:48:40
      OPPO余某“底褲”被扒光!知情人曝更多 難怪敢囂張恐被公司開除

      OPPO余某“底褲”被扒光!知情人曝更多 難怪敢囂張恐被公司開除

      天天熱點(diǎn)見聞
      2026-05-12 04:54:10
      新能源汽車維修遭壟斷,4400萬車主選擇權(quán)被鎖

      新能源汽車維修遭壟斷,4400萬車主選擇權(quán)被鎖

      第一財(cái)經(jīng)資訊
      2026-05-11 16:52:11
      人沒到先點(diǎn)名!特朗普還沒落地,內(nèi)塔尼亞胡竟提前對(duì)中國發(fā)出警告

      人沒到先點(diǎn)名!特朗普還沒落地,內(nèi)塔尼亞胡竟提前對(duì)中國發(fā)出警告

      小叨娛樂
      2026-05-12 13:39:10
      東契奇:無法幫助球隊(duì)讓我非常沮喪,如果可以打我100%會(huì)上場

      東契奇:無法幫助球隊(duì)讓我非常沮喪,如果可以打我100%會(huì)上場

      懂球帝
      2026-05-12 14:38:08
      劉雨鑫打卡潮汕天價(jià)海鮮!同款瀨尿蝦對(duì)標(biāo)三亞,價(jià)格真相大白

      劉雨鑫打卡潮汕天價(jià)海鮮!同款瀨尿蝦對(duì)標(biāo)三亞,價(jià)格真相大白

      行者聊官
      2026-05-11 12:23:14
      宇樹發(fā)布GD01載人變形機(jī)甲 定價(jià)390萬元起

      宇樹發(fā)布GD01載人變形機(jī)甲 定價(jià)390萬元起

      財(cái)聯(lián)社
      2026-05-12 12:27:07
      創(chuàng)隊(duì)史紀(jì)錄!亞歷山大35+8創(chuàng)系列賽最強(qiáng) 率雷霆8戰(zhàn)全勝進(jìn)西決

      創(chuàng)隊(duì)史紀(jì)錄!亞歷山大35+8創(chuàng)系列賽最強(qiáng) 率雷霆8戰(zhàn)全勝進(jìn)西決

      醉臥浮生
      2026-05-12 13:29:02
      女演員千萬別整容,看央視《主角》觀眾對(duì)秦海璐的評(píng)價(jià),就懂了

      女演員千萬別整容,看央視《主角》觀眾對(duì)秦海璐的評(píng)價(jià),就懂了

      陳述影視
      2026-05-11 23:58:30
      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      追覓CEO俞浩:聽說某知名科技新貴喜歡看美女,來,滿足你

      財(cái)聞
      2026-05-12 14:53:07
      吳君如很早就說過了,陳妍希私下就是這樣穿

      吳君如很早就說過了,陳妍希私下就是這樣穿

      八卦王者
      2026-05-10 13:24:46
      中共中央紀(jì)委辦公廳關(guān)于共產(chǎn)黨員接受異性按摩應(yīng)如何處理的答復(fù)

      中共中央紀(jì)委辦公廳關(guān)于共產(chǎn)黨員接受異性按摩應(yīng)如何處理的答復(fù)

      微法官
      2026-05-12 15:19:16
      英偉達(dá)4天漲出一個(gè)“甲骨文”!分析師:GPU需求絲毫未見放緩

      英偉達(dá)4天漲出一個(gè)“甲骨文”!分析師:GPU需求絲毫未見放緩

      財(cái)聯(lián)社
      2026-05-12 16:35:11
      丟絕平三分!里夫斯8進(jìn)球伴隨8失誤狀態(tài)奇特 湖人還給2.4億頂薪?

      丟絕平三分!里夫斯8進(jìn)球伴隨8失誤狀態(tài)奇特 湖人還給2.4億頂薪?

      顏小白的籃球夢
      2026-05-12 13:30:31
      德國這座“鹽山”高達(dá)250多米,含有2億噸鹽,它是當(dāng)?shù)氐纳鷳B(tài)災(zāi)難

      德國這座“鹽山”高達(dá)250多米,含有2億噸鹽,它是當(dāng)?shù)氐纳鷳B(tài)災(zāi)難

      怪羅
      2026-05-11 10:01:52
      內(nèi)塔尼亞胡稱“不喜歡中國向伊朗導(dǎo)彈制造提供的支持” 中方回應(yīng)

      內(nèi)塔尼亞胡稱“不喜歡中國向伊朗導(dǎo)彈制造提供的支持” 中方回應(yīng)

      財(cái)聯(lián)社
      2026-05-12 15:27:18
      南京審計(jì)大學(xué)通報(bào)男生涉嫌偷拍他人隱私:成立專項(xiàng)工作組

      南京審計(jì)大學(xué)通報(bào)男生涉嫌偷拍他人隱私:成立專項(xiàng)工作組

      界面新聞
      2026-05-12 16:25:41
      2026-05-12 17:08:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12976文章數(shù) 142648關(guān)注度
      往期回顧 全部

      科技要聞

      宇樹發(fā)布載人變形機(jī)甲,定價(jià)390萬元起

      頭條要聞

      學(xué)生建議吸煙區(qū)設(shè)板凳 高校回應(yīng):若"站不住"建議戒煙

      頭條要聞

      學(xué)生建議吸煙區(qū)設(shè)板凳 高校回應(yīng):若"站不住"建議戒煙

      體育要聞

      總是掉鏈子的“倒霉蛋”,闖進(jìn)了歐戰(zhàn)決賽

      娛樂要聞

      劉濤曬媽祖誕辰活動(dòng)照 評(píng)論區(qū)變許愿池

      財(cái)經(jīng)要聞

      黃仁勛真是被白宮徹底封殺了

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      本地
      藝術(shù)
      房產(chǎn)
      教育
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術(shù)要聞

      這位畫家的油畫美人讓人驚嘆不已!

      房產(chǎn)要聞

      50億資本布局!寧德時(shí)代,突然重倉三亞!

      教育要聞

      轉(zhuǎn)換思維,讓難題變簡單!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 在线无码中文字幕水蜜桃一区| 国产喷水1区2区3区咪咪爱av| 亚洲欧洲精品一区二区| 久爱无码精品免费视频在线观看| 日韩福利| 99久久精品国产一区二区暴力| 天天草天天草| 狠狠色狠狠色综合久久| 亚洲一区二区中文字幕| 123色情网站| 国产成人精品午夜二三区波多野 | 亚洲AVAV天堂Av在线播放| 久99久无码精品视频免费播放| 精品人妻午夜一区二区三区四区| 亚洲日本韩国欧美云霸高清| 久久国产亚洲精品无码| 精品福利一区二区在线观看| 夜夜添狠狠添高潮出水| 日本三级理论久久人妻电影 | 久久这里有精品国产电影网| 国产丰满乱子伦无码专区| 亚洲人成网站18禁止无码| 精精国产xxxx视频在线播放| 国产激情内射在线影院| 国产在线不卡精品网站| 色综合久久一区二区三区 | 成人亚欧欧美激情在线观看| 国产超碰人人| 夜夜狠狠躁日日| 中文天堂在线www| 国产精品大片中文字幕| 国产精品久久久久久成人影院 | 尤物在线观看国产精品| av激情亚洲男人的天堂| 久久激情综合狠狠爱五月| 午夜视频免费一区二区在线看| 激情无码人妻又粗又大 | 日韩欧美一区二区精品久久| 欧美色综合天天久久综合精品 | 久久精品三级| 熟女人妻精品一区二区视频|