![]()
過去這兩年,大語言模型走得實(shí)在太快,尤其在那些需要復(fù)雜邏輯推理的任務(wù)上,能力已經(jīng)高到了一個(gè)我們以前不太敢想的水平。
我到現(xiàn)在還記得 ChatGPT-3.5 那個(gè)時(shí)代。那時(shí)候的 AI 頂多幫你做點(diǎn)簡(jiǎn)單數(shù)學(xué)題,寫幾行基礎(chǔ)代碼,稍微繞一點(diǎn)的問題就卡殼。沒有聯(lián)網(wǎng)搜索,更別提什么深度思考,它能回答你每一個(gè)問題,靠的全是預(yù)訓(xùn)練階段塞進(jìn)腦子里的那些“存貨”,用完了就沒了。
但現(xiàn)在不一樣了。模型開始學(xué)會(huì)自己拆問題,一步一步推,生成超長(zhǎng)的思維鏈,甚至在數(shù)學(xué)競(jìng)賽、編程挑戰(zhàn)這種硬核任務(wù)里,做出了讓人類都瞪大眼睛的成績(jī)。
不過,Scaling Law這東西,帶來了“大力出奇跡”的同時(shí),也悄悄埋了一個(gè)問題:思考過剩。
你回想一下那兩個(gè)經(jīng)典的AI笑話,就特別能說明問題:
一個(gè)是美國(guó)人拿來測(cè) AI 智商的:“Strawberry”這個(gè)單詞里有幾個(gè)字母“r”?這問題學(xué)前班小孩都能答出來。但一年前,ChatGPT 答錯(cuò)過,DeepSeek 答錯(cuò)過,豆包也答錯(cuò)過。像 R1 這種推理模型,甚至?xí)瓉砀踩ハ胧昼姡约焊约恨q論,最后慎重其事地告訴你:兩個(gè)。
![]()
等 AI 終于把這個(gè)坑填平了,中國(guó)人又出了個(gè)新題:要去 50 米外洗車,應(yīng)該開車去還是走路去?
AI 又亂了。有的秒回“走路去”,有的把時(shí)間、路程、成本全算了一遍,最后還是得出結(jié)論:“走路去”。
![]()
看到了嗎?為了讓準(zhǔn)確率再高那么一點(diǎn)點(diǎn),模型一開啟深度思考,就會(huì)長(zhǎng)出大量冗余的推理步驟。浪費(fèi)算力、抬高成本、拖慢響應(yīng),這是實(shí)實(shí)在在的問題。
而且洗車那個(gè)例子也提醒我們,想得久,不代表想得對(duì),有時(shí)候反而是因?yàn)橄胩啵约喊炎约豪@進(jìn)去了。
所以大家開始問:一個(gè)能力已經(jīng)溢出的模型,真的需要想那么久嗎?它自己知不知道,什么時(shí)候該停下來?
字節(jié)跳動(dòng)和北航最近發(fā)了篇論文,專門回答這個(gè)問題。
![]()
這篇論文名為《Does Your Reasoning Model Implicitly Know When to Stop Thinking?》,研究團(tuán)隊(duì)在這篇論文中提出了一套名為SAGE-RL的新方案,讓大模型在保持甚至提升現(xiàn)有準(zhǔn)確率的同時(shí),還能大幅減少推理環(huán)節(jié)所需的token消耗量。
01
診斷環(huán)節(jié):?jiǎn)栴}出在哪里?
對(duì)于AI企業(yè)來說,token就是最重要的資源。減少大量token的無用消耗,無異于大大節(jié)約了推理成本。
對(duì) AI 企業(yè)而言,token 即核心資源。減少大量無謂的 token 消耗,無異于大幅節(jié)約推理成本。
研究團(tuán)隊(duì)在觀察模型運(yùn)行過程后發(fā)現(xiàn),問題的關(guān)鍵出在采樣策略。在現(xiàn)有采樣范式下,模型的高效推理能力難以充分發(fā)揮。
一般來說,人們?cè)u(píng)估模型能力經(jīng)常采用的是一種名為“Pass@1”的策略,也就是只取模型生成的一次結(jié)果,看它是否能夠正確通過測(cè)試用例。
但在這種采樣模式下,我們可以從DeepSeek等模型的顯式思維鏈中明確看到:在得出正確答案后,模型通常不會(huì)立刻停止并告訴用戶答案,而是會(huì)繼續(xù)生成大量無效的驗(yàn)證或重復(fù)步驟。
我們做個(gè)測(cè)試,讓AI計(jì)算20260226的平方,并強(qiáng)調(diào)直接輸出結(jié)果,DeepSeek思考了38秒才給出了正確答案:
![]()
這還只是顯式思維鏈中截取的一部分。事實(shí)上,在這38秒的思考過程中,模型在得出正確答案后還經(jīng)過了檢查位數(shù)、檢查進(jìn)位錯(cuò)誤、檢查末位數(shù)字等多個(gè)毫無用處的驗(yàn)證環(huán)節(jié)。
事實(shí)上,這不是DeepSeek獨(dú)有的情況。根據(jù)現(xiàn)有的研究,人們已經(jīng)注意到了這個(gè)反直覺的現(xiàn)象:
思維鏈長(zhǎng)度的延伸與答案的正確性并非正相關(guān)關(guān)系,有時(shí)思維鏈更短反而準(zhǔn)確率更高。
例如,在AIME 2025基準(zhǔn)測(cè)試中,DeepSeek-R1的回復(fù)長(zhǎng)度足足是Claude 3.7 Sonnet的5倍,但準(zhǔn)確率卻相差無幾。
而對(duì)于同一個(gè)模型在同一個(gè)問題上分別生成正確和錯(cuò)誤的答案,有72%的概率是更長(zhǎng)的回復(fù)出錯(cuò)。
為了系統(tǒng)性地量化模型這種“過度思考”的現(xiàn)象,字節(jié)和北航的研究團(tuán)隊(duì)定義了一個(gè)新指標(biāo):
首次正確步驟比率(RFCS)=正確答案首次出現(xiàn)的步驟索引/總推理步驟數(shù)。
![]()
而大量統(tǒng)計(jì)數(shù)據(jù)顯示:在超過一半的樣本中,模型在得出正確答案后都生成了大量冗余的內(nèi)容。
![]()
例如,DeepSeek的1.5B輕量級(jí)模型在某些問題上只需花費(fèi)500個(gè)token即可得出正確答案,但受限于現(xiàn)有的采樣策略,它要繼續(xù)生成452個(gè)冗余token才能結(jié)束思考。
看起來,在現(xiàn)有的采樣范式下,模型并不知道自己應(yīng)該何時(shí)停止。
02
驚人發(fā)現(xiàn):模型心里有數(shù)!
然而,研究團(tuán)隊(duì)卻發(fā)現(xiàn)了一個(gè)反直覺的事實(shí):
若是擴(kuò)大采樣空間至“Pass@K”,也就是讓模型生成K個(gè)思維鏈,看其中是否有一個(gè)生成的答案能夠正確通過測(cè)試用例,結(jié)果就截然不同。
為此,論文定義了兩個(gè)指標(biāo)和一個(gè)符號(hào):
局部置信度(Next-token Probability):模型生成下一個(gè)詞的概率;
路徑置信度(Cumulative Log-Probability,即Φ):模型從頭到尾生成這條思維鏈的平均累計(jì)概率;
:思維鏈的結(jié)束標(biāo)識(shí)。
![]()
如果模型只根據(jù)局部置信度來決定是否該在下一個(gè)詞輸出“”來停止思考,它總是沒什么信心,因?yàn)槊看屋敵鱿乱粋€(gè)詞的概率都比輸出結(jié)束標(biāo)識(shí)的概率要高。
因此,思維鏈的長(zhǎng)度就這樣不斷的延伸下去。
但若是根據(jù)路徑置信度來判斷是否該停止思考,則情況完全相反:
當(dāng)模型探索出了一條非常簡(jiǎn)潔的正確思維鏈、到了該結(jié)束思考的時(shí)候,生成結(jié)束標(biāo)識(shí)的概率將超過其他詞,瞬間升至第一名,順利結(jié)束思考。
這個(gè)現(xiàn)象非常驚人:模型其實(shí)非常確定這條簡(jiǎn)潔的思維鏈?zhǔn)钦_的,而且想要立刻中止思考。
因此,模型并非不知道應(yīng)該思考到什么時(shí)候停止,而是采樣策略的短視,掩蓋了模型具備全局視野的高效推理潛力。
03
SAGE算法:實(shí)現(xiàn)高效推理
在順利找到問題根源和機(jī)制后,解決方案也就呼之欲出了。
上述研究表明,只要給予大模型足夠的采樣空間,讓其更自由地探索多種解法,它就能憑借路徑置信度準(zhǔn)確選出那條“短小精悍”的正確思維鏈。
字節(jié)與北航團(tuán)隊(duì)據(jù)此提出SAGE 算法:自我認(rèn)知引導(dǎo)的高效推理(Self-Aware Guided Efficient Reasoning)。
考慮到詞元級(jí)(Token-Level)評(píng)估的計(jì)算成本太高,對(duì)每個(gè)token都要計(jì)算概率直到生成結(jié)束符,SAGE算法使出了“降維打擊”,改為步驟級(jí)(Step-wise)探索:
對(duì)于思維鏈中的每一個(gè)步驟,SAGE算法會(huì)利用底層的隨機(jī)采樣,讓模型向外探索出多個(gè)完整的推理步驟;
而這些候選的步驟分支中,只要有一條順利地以結(jié)束標(biāo)識(shí)“”結(jié)尾,SAGE立刻降下判決:模型已經(jīng)想清楚了,可以立即停止思考。
然后,這條思維鏈路分支就會(huì)被作為高置信度結(jié)果保留。
為了更直觀地展現(xiàn)SAGE算法的有效性,研究團(tuán)隊(duì)在論文中列出了對(duì)比實(shí)驗(yàn)的結(jié)果:
![]()
讓最聰明的模型去做最難的奧數(shù)題時(shí),SAGE算法能讓模型找到更短的路徑,顯著提升解答準(zhǔn)確率的同時(shí),還避免了冗長(zhǎng)的廢話帶來的幻覺;
讓稍弱一些的模型面對(duì)較為簡(jiǎn)單的數(shù)據(jù)集(比如數(shù)字母)時(shí),題目本身就處于模型的能力范圍內(nèi),SAGE算法能讓模型在計(jì)算出正確答案后迅速停止思考,大幅提升token利用率。
這就是SAGE算法的價(jià)值:
它無需人為強(qiáng)制截?cái)嗨伎歼^程,避免了模型思維鏈的無意義延伸,將模型本就具備的“自我認(rèn)知”轉(zhuǎn)換為實(shí)際推理效率的提升。
04
SAGE-RL:發(fā)揮商業(yè)價(jià)值
SAGE算法確實(shí)非常好用,但它的實(shí)質(zhì)仍然是推理階段的一種策略。
每次推理仍然需要生成多個(gè)思維鏈路分支,算力開銷問題仍然存在。
算法終究是論文中的內(nèi)容,只有把它應(yīng)用到大模型真實(shí)的訓(xùn)練過程中,才會(huì)產(chǎn)生實(shí)際價(jià)值。
目前,對(duì)于DeepSeek等推理模型,業(yè)界最前沿的訓(xùn)練方法是以GRPO為代表的基于可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)。
用一個(gè)論文中的例子來說明標(biāo)準(zhǔn)GRPO的訓(xùn)練過程:
給模型一道題,讓模型隨機(jī)生成8個(gè)互不相同的解答,其中正確的解答將會(huì)得到獎(jiǎng)勵(lì),以此更新模型的權(quán)重。行業(yè)內(nèi)常說的“獎(jiǎng)勵(lì)模型”就是用來做這件事的。
不過,由于這8個(gè)解答都是通過標(biāo)準(zhǔn)的隨機(jī)采樣而產(chǎn)生的,“反復(fù)思考”的現(xiàn)象自然無法避免。最后的結(jié)果就會(huì)是:模型能夠做對(duì)題目,但也學(xué)會(huì)了說一大堆廢話。
為了讓SAGE算法投入使用,研究團(tuán)隊(duì)開始對(duì)現(xiàn)有的GRPO算法進(jìn)行替換:
同樣是生成8個(gè)解答,其中的6個(gè)使用原有的隨機(jī)采樣,剩下的2個(gè)使用SAGE算法生成。
我們已經(jīng)知道,SAGE算法給出的回答既正確,又簡(jiǎn)練,強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制雖然不知道哪兩個(gè)解答是SAGE算法生成的,卻總是會(huì)給它們打高分。
如此循環(huán)下去,SAGE算法生成的答案逐漸成為“榜樣”,模型逐步更新權(quán)重后就會(huì)一點(diǎn)點(diǎn)改正自己說廢話的毛病,思維鏈的生成模式也逐漸向SAGE算法的高效模式轉(zhuǎn)變。
這樣一來,SAGE算法就成功烙印在大模型的DNA中,成為SAGE-RL運(yùn)行機(jī)制。
最后,研究團(tuán)隊(duì)選擇了MATH-500、AIME 2025等6個(gè)極高難度的AI數(shù)學(xué)基準(zhǔn)測(cè)試來評(píng)估SAGE-RL的效果:
現(xiàn)有的一些縮減推理長(zhǎng)度的算法為了壓縮token消耗量會(huì)降低模型回答的準(zhǔn)確率。
而基于GRPO的SAGE-RL卻能實(shí)現(xiàn)“降本增效”。
![]()
研究團(tuán)隊(duì)在7B級(jí)別模型的測(cè)試中發(fā)現(xiàn),加入SAGE能將模型的平均回復(fù)長(zhǎng)度從3219個(gè)token壓縮至2141個(gè),大約減少了1/3的計(jì)算量。
同時(shí),模型在MATH-500上的Pass@1準(zhǔn)確率從92%提升到了93%,Token效率更是斷崖式領(lǐng)先。
而此前介紹的新定義指標(biāo):首次正確步驟比率(RFCS)也顯示,無效冗余步驟的比例大幅下降,模型終于改掉了“過度思考”的習(xí)慣,學(xué)會(huì)了“點(diǎn)到為止”。
目前,市場(chǎng)上的AI企業(yè)普遍采用API計(jì)費(fèi)模式。表面上,增加token的輸出看似能夠增加收入。
實(shí)際上,頭部AI廠商做夢(mèng)都想實(shí)現(xiàn)降低冗余token的消耗。能讓服務(wù)器接收更多的并發(fā)請(qǐng)求獲得的利潤(rùn),遠(yuǎn)比讓單個(gè)請(qǐng)求多說幾句廢話要多。
在AI智能代理投入實(shí)際工作流的今天,延遲已經(jīng)成為產(chǎn)品的“斬殺線”,響應(yīng)速度慢的模型無法實(shí)時(shí)滿足用戶的需求,必然會(huì)被用戶無情地拋棄。
DeepSeek在一年前震驚硅谷,不僅是因?yàn)殚_源了強(qiáng)大的技術(shù)和先進(jìn)的算法,更是因?yàn)樗麄?strong>把推理成本打到了不可思議的低價(jià)。
現(xiàn)有的模型若是無法改變生成答案時(shí)伴隨大量冗余token的現(xiàn)狀,API的綜合成本就永遠(yuǎn)降不下來。
而掌握了類似SAGE這種高效推理技術(shù)的廠商,就可以憑借極少的算力達(dá)到相同甚至更高的準(zhǔn)確率。在頂尖模型提升智能程度的邊際收益銳減的情況下,這正是降價(jià)打價(jià)格戰(zhàn)的底氣。
以后,大模型也無需再靠長(zhǎng)篇大論證明自己。最高級(jí)的智能,其實(shí)就藏在那個(gè)恰到好處的“”中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.