<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      南大移動(dòng)團(tuán)隊(duì)提出TNT,破解「假裝不思考」騙獎(jiǎng)勵(lì)

      0
      分享至



      作者介紹: 南京大學(xué)智能科學(xué)與技術(shù)學(xué)院博士生甘思遠(yuǎn)為本文第一作者;南京大學(xué)高陽(yáng)教授為本文合作者;上海人工智能實(shí)驗(yàn)室孟林建青年研究員和南京大學(xué)霍靜副教授為本文通訊作者。

      以 DeepSeek-R1、OpenAI o1 為代表的大型推理模型,憑借長(zhǎng)思維鏈的「思考」能力在數(shù)學(xué)、代碼等任務(wù)上大放異彩。但思考是有代價(jià)的:冗長(zhǎng)、反復(fù)的推理過程帶來了巨大的推理開銷與延遲,這就是廣受關(guān)注的「過度思考」(Overthinking)問題。一個(gè)自然的解決思路是訓(xùn)練混合推理模型:讓模型根據(jù)問題難度,自動(dòng)決定是「深思熟慮」(thinking 模式)還是「脫口而出」(non-thinking 模式),并使用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練模型掌握這種能力。

      然而,這套看似合理的獎(jiǎng)勵(lì)設(shè)計(jì),卻埋下了一個(gè)經(jīng)典的隱患:獎(jiǎng)勵(lì)欺騙(Reward Hacking)。模型很快學(xué)會(huì)了「鉆空子」—— 表面上輸出非思考模式的格式標(biāo)記,骨子里卻照樣進(jìn)行長(zhǎng)篇思考,既靠思考拿到了正確答案,又騙取了非思考模式的額外獎(jiǎng)勵(lì)。

      為了解決這一問題,來自南京大學(xué)、上海人工智能實(shí)驗(yàn)室和中國(guó)移動(dòng)九天研究院的研究團(tuán)隊(duì)提出了Thinking-Based Non-Thinking(TNT):不依賴昂貴的 SFT,僅利用思考模式回答中「答案部分」的長(zhǎng)度信息,為每個(gè)問題動(dòng)態(tài)設(shè)定非思考模式的 token 上限,就將獎(jiǎng)勵(lì)欺騙的發(fā)生概率壓到了 10% 以下,同時(shí)在五個(gè)數(shù)學(xué)基準(zhǔn)上實(shí)現(xiàn)了準(zhǔn)確率與效率的最優(yōu)權(quán)衡。

      目前,該論文已被自然語言處理頂級(jí)會(huì)議 ACL 2026 Main Conference 接收



      • 論文鏈接:https://arxiv.org/abs/2601.04805
      • 代碼鏈接:https://github.com/SiyuanGan/Thinking-Based_Non-thinking

      背景介紹:混合推理模型與 RL 訓(xùn)練范式

      我們先來回顧一下混合推理模型的基本設(shè)定。

      給定一個(gè)以特殊 token 標(biāo)記思考結(jié)束;其后 則是最終的解答(solution)部分,只包含正確的解題步驟與答案。沿用先前工作的約定,若思考部分為空,則該回答被判定為非思考模式,否則為思考模式。在 RL 訓(xùn)練中,為了鼓勵(lì)模型在能力允許時(shí)優(yōu)先選擇高效的非思考模式,正確的非思考回答會(huì)被賦予比正確的思考回答更高的獎(jiǎng)勵(lì)。

      結(jié)尾的輸入提示,推理模型的回答最初是思考部分 —— 包含不斷探索、反思與自我驗(yàn)證的長(zhǎng)思維鏈;

      動(dòng)機(jī):一個(gè)被低估的獎(jiǎng)勵(lì)欺騙問題

      問題恰恰出在「更高的獎(jiǎng)勵(lì)」上。由于模式判定僅依賴第一個(gè) token 這種表面信號(hào),模型完全可以先輸出 偽裝成非思考模式,隨后的內(nèi)容卻照樣反復(fù)推演,甚至再次生成 終止符 —— 靠真實(shí)的思考得到正確答案,卻領(lǐng)走了非思考模式的高額獎(jiǎng)勵(lì)。



      獎(jiǎng)勵(lì)欺騙問題示例。模型生成的首個(gè) token 為 ,被分類為 non-thinking 模式,但回答內(nèi)容明顯具有 thinking 模式特征(如使用 "Wait"、"Alternatively" 等關(guān)鍵詞),構(gòu)成了典型的獎(jiǎng)勵(lì)欺騙行為。

      這一問題的嚴(yán)重性超出想象。文章實(shí)測(cè)發(fā)現(xiàn),未處理獎(jiǎng)勵(lì)欺騙的 RL 方法在 AIME24 上,被判定為「非思考模式」的回答平均 token 用量竟高達(dá) 10845,與思考模式的 11976 幾乎不相上下 —— 所謂的「非思考」已名存實(shí)亡,整個(gè)訓(xùn)練事實(shí)上已經(jīng)崩塌。

      針對(duì)該問題,現(xiàn)有方案大致有兩條路,但各有硬傷:其一是引入 SFT 來固定模型兩種模式的輸出行,但 SFT 計(jì)算開銷極其高昂;更糟的是,SFT 還會(huì)帶來顯著的性能退化,先前工作的 SFT 模型在 AIME24 上準(zhǔn)確率僅約 10%。其二是為非思考模式設(shè)定最大 token 上限,超限即視為欺騙,但現(xiàn)有工作對(duì)所有問題施加統(tǒng)一的上限,這在邏輯上是行不通的:簡(jiǎn)單問題(如「1+1 等于幾」)即便用長(zhǎng)思維鏈反復(fù)驗(yàn)證,其 token 數(shù)也可能遠(yuǎn)低于復(fù)雜 AIME 題目正常作答的長(zhǎng)度。

      方法:

      用思考模式的「答案」

      標(biāo)定非思考模式的「尺子」



      圖 1:TNT 方法概覽。

      破局的關(guān)鍵洞見相當(dāng)優(yōu)雅:思考模式回答中 之后的解答部分,本身就不含思考 —— 而這恰好就是非思考模式的定義。換言之,思考模式回答自帶一份「該問題的答案正常應(yīng)該寫多長(zhǎng)」的免費(fèi)標(biāo)尺。TNT 正是利用這一點(diǎn),為每個(gè)問題動(dòng)態(tài)設(shè)定非思考模式的 token 上限。









      整套方法基于 GRPO 進(jìn)行訓(xùn)練,無需任何 SFT,無需修改模型結(jié)構(gòu)或 tokenizer,并且與 Dr. GRPO、DAPO、GSPO 乃至經(jīng)典 PPO 等算法天然兼容,是一個(gè)即插即用的獎(jiǎng)勵(lì)層面修正。

      實(shí)驗(yàn)驗(yàn)證:準(zhǔn)確率與效率的雙贏

      文章以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 為基座模型進(jìn)行了實(shí)驗(yàn)的驗(yàn)證。

      更少的 token,更高的準(zhǔn)確率。在 1.5B 模型上,TNT 相比基座模型將平均 token 用量削減 46.2%,平均準(zhǔn)確率反而提升 4.1 個(gè)百分點(diǎn),超越全部同類方法配置。



      不同混合推理模型訓(xùn)練方法在數(shù)學(xué)基準(zhǔn)上的平均準(zhǔn)確率與 token 用量對(duì)比。



      各模型在 non-thinking 模式回答中出現(xiàn) thinking 相關(guān)動(dòng)詞的概率。

      獎(jiǎng)勵(lì)欺騙被有效遏制。文章統(tǒng)計(jì)了非思考模式回答中「Wait」、「Alternatively」等思考類動(dòng)詞的出現(xiàn)概率:未考慮該問題的 AutoThink 概率最高,采用統(tǒng)一上限的 AdaptThink 也顯著偏高,而 TNT 在所有測(cè)試集上均低于 10%,僅次于付出了高昂 SFT 代價(jià)的方法。

      模型學(xué)會(huì)了「看菜下飯」。TNT 的非思考模式占比與任務(wù)難度呈清晰的負(fù)相關(guān):在 AIME24/25 這類難題上幾乎全程思考(占比僅 1.7%/0.8%),在相對(duì)簡(jiǎn)單的 AMC23 上則有近 30% 的問題直接作答,實(shí)現(xiàn)了基于難度的自主模式選擇。

      基座越強(qiáng),優(yōu)勢(shì)越大。在 DeepScaleR-1.5B 與 7B 模型上,TNT 的 TE 分別達(dá)到 0.70 與 0.79,大幅領(lǐng)先次優(yōu)方法的 0.54 與 0.67;在 7B 上更是同時(shí)拿下最高平均準(zhǔn)確率(54.2%)與最低 token 用量。此外,TNT 在與 CoT 壓縮方法的對(duì)比中全面勝出,并在 GPQA Diamond 這一分布外基準(zhǔn)上取得最優(yōu)效果,展現(xiàn)了良好的泛化性。

      總結(jié)和展望

      總而言之,這篇論文直面了混合推理模型 RL 訓(xùn)練中一個(gè)具體而致命的失效模式,獎(jiǎng)勵(lì)欺騙,并給出了一個(gè)四兩撥千斤的解法:與其用昂貴的 SFT 去「管住」模型的輸出,或用一刀切的上限去「猜」每道題的合理長(zhǎng)度,不如讓思考模式自己的解答部分來告訴我們,這道題不思考時(shí)正常應(yīng)該寫多長(zhǎng)。由此提出的 TNT 無需 SFT、無需改動(dòng)模型結(jié)構(gòu),僅在獎(jiǎng)勵(lì)層面引入一個(gè)動(dòng)態(tài) token 上限,便在三個(gè)基座模型、五個(gè)數(shù)學(xué)基準(zhǔn)上一致地實(shí)現(xiàn)了約 50% 的 token 削減與準(zhǔn)確率提升,并將獎(jiǎng)勵(lì)欺騙概率壓制在 10% 以內(nèi)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      希特勒最離譜的一道命令,德國(guó)人默默執(zhí)行了77年,連美國(guó)都點(diǎn)贊

      希特勒最離譜的一道命令,德國(guó)人默默執(zhí)行了77年,連美國(guó)都點(diǎn)贊

      娛樂圈的嗶嗶王
      2026-06-23 11:03:17
      退休男人涌向泰國(guó):租一個(gè)老婆,買一段晚年

      退休男人涌向泰國(guó):租一個(gè)老婆,買一段晚年

      十點(diǎn)讀書
      2026-06-22 20:55:37
      “埃及失聯(lián)6天”21歲中國(guó)女孩池某瀅被判15年監(jiān)禁,其團(tuán)伙將中國(guó)同胞騙到埃及綁架囚禁,持刀威逼家屬索要7萬美元贖金

      “埃及失聯(lián)6天”21歲中國(guó)女孩池某瀅被判15年監(jiān)禁,其團(tuán)伙將中國(guó)同胞騙到埃及綁架囚禁,持刀威逼家屬索要7萬美元贖金

      鄭州交通廣播
      2026-06-23 09:28:04
      我們一般人能活多久?50后有多少人能活到80歲?

      我們一般人能活多久?50后有多少人能活到80歲?

      華人星光
      2026-06-23 12:26:45
      美國(guó)談中越戰(zhàn)爭(zhēng):解放軍傷亡大,不是因?yàn)樵杰姂?zhàn)斗力強(qiáng)實(shí)戰(zhàn)經(jīng)驗(yàn)多

      美國(guó)談中越戰(zhàn)爭(zhēng):解放軍傷亡大,不是因?yàn)樵杰姂?zhàn)斗力強(qiáng)實(shí)戰(zhàn)經(jīng)驗(yàn)多

      超喜歡我
      2026-06-17 12:24:26
      深夜在昆明被阿姨拉去住宿,推開房門后,我和陌生女孩同時(shí)臉紅了

      深夜在昆明被阿姨拉去住宿,推開房門后,我和陌生女孩同時(shí)臉紅了

      千秋文化
      2026-06-15 20:05:55
      世界杯:哥倫比亞vs剛果(金)

      世界杯:哥倫比亞vs剛果(金)

      足球賽事交流解析
      2026-06-23 11:00:07
      比亞迪官宣:6月23日,新車正式上市!

      比亞迪官宣:6月23日,新車正式上市!

      科技堡壘
      2026-06-23 10:00:46
      為何10萬白人美女定居中國(guó)?俄羅斯姑娘說出3個(gè)原因,太現(xiàn)實(shí)

      為何10萬白人美女定居中國(guó)?俄羅斯姑娘說出3個(gè)原因,太現(xiàn)實(shí)

      抽象派大師
      2026-06-23 13:42:18
      金價(jià)暴跌真相!三股力量聯(lián)合絞殺,華爾街大行緊急下調(diào)目標(biāo)價(jià)?

      金價(jià)暴跌真相!三股力量聯(lián)合絞殺,華爾街大行緊急下調(diào)目標(biāo)價(jià)?

      億通電子游戲
      2026-06-23 12:41:43
      給所有老人的忠告:永遠(yuǎn)不要在子女面前,表現(xiàn)出以下6種行為!

      給所有老人的忠告:永遠(yuǎn)不要在子女面前,表現(xiàn)出以下6種行為!

      三農(nóng)老歷
      2026-06-22 10:03:40
      兩次世界大戰(zhàn)德國(guó)毀掉了俄羅斯人的未來,也間接拯救了東亞與歐洲

      兩次世界大戰(zhàn)德國(guó)毀掉了俄羅斯人的未來,也間接拯救了東亞與歐洲

      浩渺青史
      2026-06-21 23:30:15
      突發(fā)跳水!兩大芯片巨頭大跌

      突發(fā)跳水!兩大芯片巨頭大跌

      數(shù)據(jù)寶
      2026-06-23 12:53:03
      俄媒女主持人曾言:若中國(guó)愿出兵300萬,俄軍很快就能打敗烏克蘭

      俄媒女主持人曾言:若中國(guó)愿出兵300萬,俄軍很快就能打敗烏克蘭

      南宗歷史
      2026-03-17 16:53:10
      穆里尼奧都懵了!皇馬水貨暴跌 5000 萬,豪門瘋搶他卻死賴著不走

      穆里尼奧都懵了!皇馬水貨暴跌 5000 萬,豪門瘋搶他卻死賴著不走

      瀾歸序
      2026-06-23 05:12:27
      護(hù)士逆襲坐擁,67,億家產(chǎn),一生精于算計(jì),唯獨(dú)敗給女婿竇驍

      護(hù)士逆襲坐擁,67,億家產(chǎn),一生精于算計(jì),唯獨(dú)敗給女婿竇驍

      揭秘世間萬象
      2026-06-23 02:04:43
      把顯卡塞進(jìn)制冰機(jī)后,游戲溫度跌到22°C,降幅高達(dá)六成

      把顯卡塞進(jìn)制冰機(jī)后,游戲溫度跌到22°C,降幅高達(dá)六成

      報(bào)錯(cuò)免疫體
      2026-06-23 03:04:31
      唐山街頭一幕刷屏!印度女孩獨(dú)自來華避暑,直言:中國(guó)太安全了

      唐山街頭一幕刷屏!印度女孩獨(dú)自來華避暑,直言:中國(guó)太安全了

      魔都姐姐雜談
      2026-06-23 12:49:56
      越吃陽(yáng)氣越足,建議中老年:夏至后常吃5樣,增強(qiáng)體質(zhì)少生病

      越吃陽(yáng)氣越足,建議中老年:夏至后常吃5樣,增強(qiáng)體質(zhì)少生病

      愛生活的陶哥
      2026-06-22 07:20:59
      澳大利亞主帥震驚:“中國(guó)隊(duì)竟然有這么好的大前鋒”

      澳大利亞主帥震驚:“中國(guó)隊(duì)竟然有這么好的大前鋒”

      許穩(wěn)很機(jī)智
      2026-06-22 15:09:11
      2026-06-23 14:43:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13333文章數(shù) 142677關(guān)注度
      往期回顧 全部

      科技要聞

      48名中國(guó)開發(fā)者聯(lián)名舉報(bào)蘋果

      頭條要聞

      五眼聯(lián)盟警告:西方AI優(yōu)勢(shì)或在數(shù)月內(nèi)被趕超

      頭條要聞

      五眼聯(lián)盟警告:西方AI優(yōu)勢(shì)或在數(shù)月內(nèi)被趕超

      體育要聞

      哈蘭德國(guó)家隊(duì)52場(chǎng)59球 世界杯狂刷6大紀(jì)錄

      娛樂要聞

      喜劇大師曝光肖戰(zhàn)拍戲狀態(tài)!

      財(cái)經(jīng)要聞

      智譜萬億市值,國(guó)產(chǎn)Anthropic真來了?

      汽車要聞

      華為智駕ADS限時(shí)優(yōu)惠月底結(jié)束 7月1日前下訂立省3000元

      態(tài)度原創(chuàng)

      教育
      本地
      時(shí)尚
      旅游
      公開課

      教育要聞

      如何用10本好書,重構(gòu)你的專業(yè)成長(zhǎng)之旅?

      本地新聞

      吃一次廣東龍舟飯,才懂什么是豪華盛宴

      今年夏天一定要擁有的6條絕美裙子,太好看了!

      旅游要聞

      1.24億人次出游!端午文旅觀察:龍舟經(jīng)濟(jì)、賽事經(jīng)濟(jì)站C位,“小城慢游”重構(gòu)假日消費(fèi)邏輯

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 337p亚洲日本中国大胆69| 波多野结衣三区| 国产精品国产三级国产普通| 专干老熟女A片| 国产又色又爽又黄的网站免费| 久9re热视频这里只有精品免费| 中文字幕亚洲男人的天堂网络| 国产精品老熟女一区二区| 亚洲人成色7777在线观看不卡| 国产破处视频| 忘忧草社区在线www| 国产国拍亚洲精品永久软件| av亚洲日韩| 欧美成人视频在线观看| 四虎永久精品在线视频| 黄色A片网| 欧美日韩综合在线| 肉动漫h黄动漫日本免费观看| 精选国产av精选一区二区三区| 亚洲岛国片| 国产mv在线天堂mv免费观看 | 亚洲一二三区精品美妇| 日韩A| 亚洲一人综合| 日本韩国国产精品自拍| 日本A级视频在线播放| 久久久久久久久久8888| 欧美黑人又粗又硬xxxxx喷水| 国产精品久久| 真人无码作爱免费视频| 久久精品国产亚洲AV麻| AV一区二区三区| 国产成人亚洲精品在线看| 中国丰满熟妇xXXX性| 亚洲AV午夜成人影院老师机影院| 超清无码一区二区三区| 玩弄漂亮少妇高潮白浆| 日韩精品一区二区三区中文| 国产99视频精品免费视看6| av亚洲日韩| 99热久久这里只有精品|