網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

南大移動(dòng)團(tuán)隊(duì)提出TNT，破解「假裝不思考」騙獎(jiǎng)勵(lì)

2026-06-17 18:40:39　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

作者介紹：南京大學(xué)智能科學(xué)與技術(shù)學(xué)院博士生甘思遠(yuǎn)為本文第一作者；南京大學(xué)高陽(yáng)教授為本文合作者；上海人工智能實(shí)驗(yàn)室孟林建青年研究員和南京大學(xué)霍靜副教授為本文通訊作者。

以 DeepSeek-R1、OpenAI o1 為代表的大型推理模型，憑借長(zhǎng)思維鏈的「思考」能力在數(shù)學(xué)、代碼等任務(wù)上大放異彩。但思考是有代價(jià)的：冗長(zhǎng)、反復(fù)的推理過程帶來了巨大的推理開銷與延遲，這就是廣受關(guān)注的「過度思考」（Overthinking）問題。一個(gè)自然的解決思路是訓(xùn)練混合推理模型：讓模型根據(jù)問題難度，自動(dòng)決定是「深思熟慮」（thinking 模式）還是「脫口而出」（non-thinking 模式），并使用強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練模型掌握這種能力。

然而，這套看似合理的獎(jiǎng)勵(lì)設(shè)計(jì)，卻埋下了一個(gè)經(jīng)典的隱患：獎(jiǎng)勵(lì)欺騙（Reward Hacking）。模型很快學(xué)會(huì)了「鉆空子」—— 表面上輸出非思考模式的格式標(biāo)記，骨子里卻照樣進(jìn)行長(zhǎng)篇思考，既靠思考拿到了正確答案，又騙取了非思考模式的額外獎(jiǎng)勵(lì)。

為了解決這一問題，來自南京大學(xué)、上海人工智能實(shí)驗(yàn)室和中國(guó)移動(dòng)九天研究院的研究團(tuán)隊(duì)提出了Thinking-Based Non-Thinking（TNT）：不依賴昂貴的 SFT，僅利用思考模式回答中「答案部分」的長(zhǎng)度信息，為每個(gè)問題動(dòng)態(tài)設(shè)定非思考模式的 token 上限，就將獎(jiǎng)勵(lì)欺騙的發(fā)生概率壓到了 10% 以下，同時(shí)在五個(gè)數(shù)學(xué)基準(zhǔn)上實(shí)現(xiàn)了準(zhǔn)確率與效率的最優(yōu)權(quán)衡。

目前，該論文已被自然語言處理頂級(jí)會(huì)議 ACL 2026 Main Conference 接收

論文鏈接：https://arxiv.org/abs/2601.04805
代碼鏈接：https://github.com/SiyuanGan/Thinking-Based_Non-thinking

背景介紹：混合推理模型與 RL 訓(xùn)練范式

我們先來回顧一下混合推理模型的基本設(shè)定。

給定一個(gè)以特殊 token 標(biāo)記思考結(jié)束；其后則是最終的解答（solution）部分，只包含正確的解題步驟與答案。沿用先前工作的約定，若思考部分為空，則該回答被判定為非思考模式，否則為思考模式。在 RL 訓(xùn)練中，為了鼓勵(lì)模型在能力允許時(shí)優(yōu)先選擇高效的非思考模式，正確的非思考回答會(huì)被賦予比正確的思考回答更高的獎(jiǎng)勵(lì)。

結(jié)尾的輸入提示，推理模型的回答最初是思考部分 —— 包含不斷探索、反思與自我驗(yàn)證的長(zhǎng)思維鏈；

動(dòng)機(jī)：一個(gè)被低估的獎(jiǎng)勵(lì)欺騙問題

問題恰恰出在「更高的獎(jiǎng)勵(lì)」上。由于模式判定僅依賴第一個(gè) token 這種表面信號(hào)，模型完全可以先輸出偽裝成非思考模式，隨后的內(nèi)容卻照樣反復(fù)推演，甚至再次生成終止符 —— 靠真實(shí)的思考得到正確答案，卻領(lǐng)走了非思考模式的高額獎(jiǎng)勵(lì)。

獎(jiǎng)勵(lì)欺騙問題示例。模型生成的首個(gè) token 為，被分類為 non-thinking 模式，但回答內(nèi)容明顯具有 thinking 模式特征（如使用 "Wait"、"Alternatively" 等關(guān)鍵詞），構(gòu)成了典型的獎(jiǎng)勵(lì)欺騙行為。

這一問題的嚴(yán)重性超出想象。文章實(shí)測(cè)發(fā)現(xiàn)，未處理獎(jiǎng)勵(lì)欺騙的 RL 方法在 AIME24 上，被判定為「非思考模式」的回答平均 token 用量竟高達(dá) 10845，與思考模式的 11976 幾乎不相上下 —— 所謂的「非思考」已名存實(shí)亡，整個(gè)訓(xùn)練事實(shí)上已經(jīng)崩塌。

針對(duì)該問題，現(xiàn)有方案大致有兩條路，但各有硬傷：其一是引入 SFT 來固定模型兩種模式的輸出行，但 SFT 計(jì)算開銷極其高昂；更糟的是，SFT 還會(huì)帶來顯著的性能退化，先前工作的 SFT 模型在 AIME24 上準(zhǔn)確率僅約 10%。其二是為非思考模式設(shè)定最大 token 上限，超限即視為欺騙，但現(xiàn)有工作對(duì)所有問題施加統(tǒng)一的上限，這在邏輯上是行不通的：簡(jiǎn)單問題（如「1+1 等于幾」）即便用長(zhǎng)思維鏈反復(fù)驗(yàn)證，其 token 數(shù)也可能遠(yuǎn)低于復(fù)雜 AIME 題目正常作答的長(zhǎng)度。

方法：

用思考模式的「答案」

標(biāo)定非思考模式的「尺子」

圖 1：TNT 方法概覽。

破局的關(guān)鍵洞見相當(dāng)優(yōu)雅：思考模式回答中之后的解答部分，本身就不含思考 —— 而這恰好就是非思考模式的定義。換言之，思考模式回答自帶一份「該問題的答案正常應(yīng)該寫多長(zhǎng)」的免費(fèi)標(biāo)尺。TNT 正是利用這一點(diǎn)，為每個(gè)問題動(dòng)態(tài)設(shè)定非思考模式的 token 上限。

整套方法基于 GRPO 進(jìn)行訓(xùn)練，無需任何 SFT，無需修改模型結(jié)構(gòu)或 tokenizer，并且與 Dr. GRPO、DAPO、GSPO 乃至經(jīng)典 PPO 等算法天然兼容，是一個(gè)即插即用的獎(jiǎng)勵(lì)層面修正。

實(shí)驗(yàn)驗(yàn)證：準(zhǔn)確率與效率的雙贏

文章以 DeepSeek-R1-Distill-Qwen-1.5B/7B 和 DeepScaleR-1.5B 為基座模型進(jìn)行了實(shí)驗(yàn)的驗(yàn)證。

更少的 token，更高的準(zhǔn)確率。在 1.5B 模型上，TNT 相比基座模型將平均 token 用量削減 46.2%，平均準(zhǔn)確率反而提升 4.1 個(gè)百分點(diǎn)，超越全部同類方法配置。

不同混合推理模型訓(xùn)練方法在數(shù)學(xué)基準(zhǔn)上的平均準(zhǔn)確率與 token 用量對(duì)比。

各模型在 non-thinking 模式回答中出現(xiàn) thinking 相關(guān)動(dòng)詞的概率。

獎(jiǎng)勵(lì)欺騙被有效遏制。文章統(tǒng)計(jì)了非思考模式回答中「Wait」、「Alternatively」等思考類動(dòng)詞的出現(xiàn)概率：未考慮該問題的 AutoThink 概率最高，采用統(tǒng)一上限的 AdaptThink 也顯著偏高，而 TNT 在所有測(cè)試集上均低于 10%，僅次于付出了高昂 SFT 代價(jià)的方法。

模型學(xué)會(huì)了「看菜下飯」。TNT 的非思考模式占比與任務(wù)難度呈清晰的負(fù)相關(guān)：在 AIME24/25 這類難題上幾乎全程思考（占比僅 1.7%/0.8%），在相對(duì)簡(jiǎn)單的 AMC23 上則有近 30% 的問題直接作答，實(shí)現(xiàn)了基于難度的自主模式選擇。

基座越強(qiáng)，優(yōu)勢(shì)越大。在 DeepScaleR-1.5B 與 7B 模型上，TNT 的 TE 分別達(dá)到 0.70 與 0.79，大幅領(lǐng)先次優(yōu)方法的 0.54 與 0.67；在 7B 上更是同時(shí)拿下最高平均準(zhǔn)確率（54.2%）與最低 token 用量。此外，TNT 在與 CoT 壓縮方法的對(duì)比中全面勝出，并在 GPQA Diamond 這一分布外基準(zhǔn)上取得最優(yōu)效果，展現(xiàn)了良好的泛化性。

總結(jié)和展望

總而言之，這篇論文直面了混合推理模型 RL 訓(xùn)練中一個(gè)具體而致命的失效模式，獎(jiǎng)勵(lì)欺騙，并給出了一個(gè)四兩撥千斤的解法：與其用昂貴的 SFT 去「管住」模型的輸出，或用一刀切的上限去「猜」每道題的合理長(zhǎng)度，不如讓思考模式自己的解答部分來告訴我們，這道題不思考時(shí)正常應(yīng)該寫多長(zhǎng)。由此提出的 TNT 無需 SFT、無需改動(dòng)模型結(jié)構(gòu)，僅在獎(jiǎng)勵(lì)層面引入一個(gè)動(dòng)態(tài) token 上限，便在三個(gè)基座模型、五個(gè)數(shù)學(xué)基準(zhǔn)上一致地實(shí)現(xiàn)了約 50% 的 token 削減與準(zhǔn)確率提升，并將獎(jiǎng)勵(lì)欺騙概率壓制在 10% 以內(nèi)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.