![]()
這項(xiàng)由加利福尼亞大學(xué)洛杉磯分校與亞馬遜公司聯(lián)合開(kāi)展的研究,發(fā)表于2026年第43屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)(ICML 2026),會(huì)議地點(diǎn)為韓國(guó)首爾,收錄于PMLR 306論文集。論文編號(hào)為arXiv:2605.02178,有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。
研究概要:一個(gè)越想越亂的AI,和一群決心幫它"冷靜下來(lái)"的研究者
假設(shè)你在網(wǎng)上購(gòu)物,雇了一個(gè)助手幫你找一件特定的紅色棉質(zhì)女款襯衫,價(jià)格低于40美元。你滿心期待地等著它給你一個(gè)答案,結(jié)果發(fā)現(xiàn)它開(kāi)始滔滔不絕地自言自語(yǔ)——反復(fù)核對(duì)面料是不是純棉、顏色是不是正紅、尺碼有沒(méi)有XL……說(shuō)了足足500個(gè)字之后,話還沒(méi)說(shuō)完,時(shí)間已經(jīng)到了,助手根本沒(méi)來(lái)得及告訴你要點(diǎn)哪個(gè)按鈕。這還不算完,下一輪它又從頭重復(fù)同樣的廢話,在同一個(gè)錯(cuò)誤路上打轉(zhuǎn)。
這個(gè)荒誕的場(chǎng)景,其實(shí)正是當(dāng)今最先進(jìn)的AI助手在完成復(fù)雜任務(wù)時(shí)頻繁上演的真實(shí)困境。研究團(tuán)隊(duì)將這種行為稱為"猶豫"——AI不是在認(rèn)真解決問(wèn)題,而是在無(wú)休止地自我糾結(jié),既無(wú)法減少不確定性,也無(wú)法推進(jìn)任務(wù)進(jìn)展。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一套名為T?PO(Token- and Turn-level Policy Optimization,即詞元與輪次雙層策略優(yōu)化)的方法。簡(jiǎn)單來(lái)說(shuō),這套方法在AI每次生成內(nèi)容時(shí),從兩個(gè)層面同時(shí)把關(guān):一是盯住每個(gè)字詞的生成質(zhì)量,當(dāng)AI開(kāi)始"廢話連篇"時(shí)及時(shí)叫停;二是在多輪對(duì)話的層面,當(dāng)AI陷入無(wú)效的重復(fù)循環(huán)時(shí),果斷重新來(lái)過(guò)。
實(shí)驗(yàn)結(jié)果相當(dāng)亮眼。在模擬網(wǎng)上購(gòu)物的WebShop測(cè)試中,T?PO讓任務(wù)成功率從73.83%一路提升到81.64%,同時(shí)大幅減少了訓(xùn)練過(guò)程中常見(jiàn)的崩潰現(xiàn)象。在模擬家務(wù)場(chǎng)景的ALFWorld測(cè)試中,T?PO比此前最佳方案提升了約8到12個(gè)百分點(diǎn)。這些數(shù)字背后,是AI助手從一個(gè)"焦慮型廢話王"蛻變?yōu)?沉著型行動(dòng)派"的過(guò)程。
一、 AI為什么會(huì)"想太多":從反復(fù)橫跳到徹底宕機(jī)
要理解這項(xiàng)研究解決的問(wèn)題,先要知道今天的AI助手是怎么工作的。
現(xiàn)代AI助手完成一個(gè)任務(wù),通常不是一問(wèn)一答那么簡(jiǎn)單,而是要經(jīng)歷多個(gè)來(lái)回:搜索一下、看看結(jié)果、點(diǎn)進(jìn)去、再看看、再?zèng)Q定下一步……就像你在網(wǎng)上購(gòu)物時(shí),從搜索到付款要經(jīng)過(guò)好幾個(gè)頁(yè)面。這種"多輪交互"的工作方式,給AI帶來(lái)了很大的挑戰(zhàn)。
其中一個(gè)核心挑戰(zhàn)叫做"信用分配"——當(dāng)任務(wù)最終失敗或成功時(shí),AI需要知道是哪一步做對(duì)了、哪一步做錯(cuò)了。可問(wèn)題在于,最終的獎(jiǎng)勵(lì)往往只在任務(wù)結(jié)束時(shí)才會(huì)給出,就像一個(gè)學(xué)生考完試才知道成績(jī),卻無(wú)法得知每道題答得怎么樣。這種稀疏的反饋信號(hào),讓AI很難從錯(cuò)誤中學(xué)習(xí)。
另一個(gè)挑戰(zhàn)來(lái)自效率與穩(wěn)定的矛盾。為了讓AI學(xué)得更快,研究人員通常會(huì)讓它同時(shí)跑很多個(gè)"練習(xí)任務(wù)",然后批量更新參數(shù)。但這意味著AI學(xué)到的新知識(shí),和它正在執(zhí)行的舊任務(wù)之間,始終存在一個(gè)時(shí)間差——用過(guò)時(shí)的自己去做任務(wù),然后用做完的結(jié)果來(lái)更新現(xiàn)在的自己,這個(gè)循環(huán)本身就容易失控。
研究團(tuán)隊(duì)通過(guò)分析大量訓(xùn)練軌跡,找到了訓(xùn)練崩潰的根本原因:AI陷入了"猶豫"。在字詞生成的層面,AI會(huì)產(chǎn)生大量信息含量極低的內(nèi)容,就像一個(gè)演講者明明已經(jīng)說(shuō)完了要點(diǎn),卻還在用各種廢話填充時(shí)間,而這些廢話會(huì)把真正有用的判斷淹沒(méi)在噪音里。在任務(wù)輪次的層面,AI有時(shí)在最初幾步就走錯(cuò)了方向,卻沒(méi)有任何機(jī)制讓它意識(shí)到這一點(diǎn),于是它一輪又一輪地重復(fù)同樣毫無(wú)意義的操作,把有限的資源全部浪費(fèi)在死胡同里。
這兩種"猶豫"疊加起來(lái),讓AI的訓(xùn)練過(guò)程變得極不穩(wěn)定——梯度爆炸(可以理解為AI更新參數(shù)時(shí)用力過(guò)猛,直接把自己改崩)和KL散度飆升(可以理解為新舊版本的AI差異變得太大,導(dǎo)致學(xué)習(xí)失控)頻繁出現(xiàn),最終讓原本應(yīng)該越來(lái)越聰明的AI反而越來(lái)越差,甚至徹底失能。
二、 給AI安裝一個(gè)"內(nèi)心溫度計(jì)":自校準(zhǔn)不確定性信號(hào)
研究團(tuán)隊(duì)的第一步,是給AI裝上一個(gè)能實(shí)時(shí)感知自身狀態(tài)的"傳感器"。
在AI生成每一個(gè)字詞時(shí),它實(shí)際上是在對(duì)整個(gè)詞匯表做概率分配——每個(gè)詞被選中的可能性有多大。這種概率分布的形態(tài),直接反映了AI當(dāng)前的"信心狀態(tài)"。當(dāng)AI非常確定下一個(gè)詞應(yīng)該是什么時(shí),概率分布會(huì)非常集中,像一座高聳的尖峰;當(dāng)AI不確定時(shí),概率會(huì)分散開(kāi)來(lái),像一片平緩的丘陵。
傳統(tǒng)上有兩種方法來(lái)衡量這種不確定性:一種叫做"香農(nóng)熵",可以理解為概率分布有多"分散";另一種叫做"置信度",直接看AI對(duì)最可能那個(gè)詞有多大把握。但兩者都有盲區(qū)。
熵的問(wèn)題在于,它對(duì)極端情況不夠敏感。由于AI的詞匯表可以多達(dá)15萬(wàn)個(gè)詞(比如Qwen3模型就有約15.2萬(wàn)個(gè)詞),即便AI的分布已經(jīng)非常集中了,熵的數(shù)值看起來(lái)依然差不多。打個(gè)比方,假設(shè)有100個(gè)人投票,99個(gè)人投給同一個(gè)候選人和50個(gè)人投給同一個(gè)候選人,從"票數(shù)是否集中"這個(gè)角度看,差異是顯著的,但如果候選人是15萬(wàn)個(gè),這種差異就會(huì)被稀釋得幾乎看不見(jiàn)。
置信度的問(wèn)題則在于它只關(guān)注"冠軍",完全忽視"亞軍"和"季軍"。兩種截然不同的概率分布,只要最高那個(gè)詞的概率相同,置信度就會(huì)完全相同——盡管這兩種分布背后AI的狀態(tài)可能大相徑庭。
為了解決這兩個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了一種"自校準(zhǔn)不確定性信號(hào)",記為Mt。它把熵和置信度分別歸一化(統(tǒng)一到同一個(gè)尺度),然后用一個(gè)可以調(diào)節(jié)的比例因子把二者融合。研究發(fā)現(xiàn),當(dāng)這個(gè)比例偏向0.4時(shí)(即熵占40%,置信度占60%),效果最好。
這個(gè)融合信號(hào)的優(yōu)勢(shì)可以從直觀圖形上看出來(lái):純熵的等高線圖在接近均勻分布的區(qū)域幾乎無(wú)法區(qū)分細(xì)微差異,純置信度對(duì)尾部概率分布完全不敏感,而融合后的Mt產(chǎn)生了非線性的等高線,能夠同時(shí)區(qū)分出頂端概率高低與尾部分布形態(tài),覆蓋了兩者各自的盲區(qū)。
這個(gè)信號(hào)的另一個(gè)重要特性是它會(huì)隨著生成過(guò)程動(dòng)態(tài)變化。研究團(tuán)隊(duì)觀察到,在AI生成一段回答的過(guò)程中,Mt的軌跡通常是先升后降——它先進(jìn)入一個(gè)高度不確定的區(qū)域(正在思考),然后逐漸穩(wěn)定下來(lái)(已經(jīng)確定方向)。而那些不確定性最高的詞,往往恰恰是最關(guān)鍵的任務(wù)相關(guān)詞,比如產(chǎn)品名稱、屬性描述符等。這個(gè)觀察為后續(xù)兩個(gè)干預(yù)機(jī)制提供了理論基礎(chǔ)。
三、 給AI的內(nèi)心獨(dú)白設(shè)一個(gè)"說(shuō)夠了就停"的開(kāi)關(guān):詞元級(jí)思維干預(yù)
有了Mt這個(gè)信號(hào),研究團(tuán)隊(duì)做的第一件事,是解決AI"想太多"的毛病。
當(dāng)AI在生成內(nèi)部推理過(guò)程(即包裹在"思考標(biāo)簽"里的那部分內(nèi)容)時(shí),它有時(shí)會(huì)一直說(shuō)下去,遠(yuǎn)遠(yuǎn)超出真正有用的部分。就像一個(gè)人解題時(shí),把有效的思路寫完了,卻還在繼續(xù)寫"我再想想……也許還有另一種可能……不對(duì),讓我再考慮一下……",這些后續(xù)的自言自語(yǔ)不僅浪費(fèi)紙,還會(huì)讓最終答案被掩蓋。
詞元級(jí)思維干預(yù)(TTI)的邏輯是這樣的:研究團(tuán)隊(duì)用一個(gè)滑動(dòng)窗口,持續(xù)監(jiān)測(cè)Mt相鄰兩步之間的變化量,記為△t。如果這個(gè)變化量在連續(xù)N步內(nèi)的平均值都低于一個(gè)閾值ε,就說(shuō)明AI的"思考"已經(jīng)在原地打轉(zhuǎn),沒(méi)有帶來(lái)新的信息增益了。此刻,系統(tǒng)會(huì)直接向AI的輸出機(jī)制注入一個(gè)強(qiáng)制指令:把接下來(lái)那個(gè)詞的概率全部集中到"結(jié)束思考"這個(gè)特殊標(biāo)記上,概率為1,讓AI立刻停止內(nèi)心獨(dú)白,進(jìn)入行動(dòng)階段。
一個(gè)自然的問(wèn)題是:為什么不在Mt達(dá)到峰值時(shí)就停?峰值代表不確定性最高,直覺(jué)上似乎在那之后生成的內(nèi)容都是多余的。但研究團(tuán)隊(duì)的分析顯示,不確定性最高的詞往往分屬兩類:一類是推理轉(zhuǎn)折詞(類似"啊,我明白了!"這種節(jié)點(diǎn)),另一類是任務(wù)關(guān)鍵詞(比如具體的產(chǎn)品名稱)。如果在峰值時(shí)就截?cái)啵芸赡軙?huì)切掉關(guān)鍵的產(chǎn)品信息。
而采用滑動(dòng)窗口均值的方式,則能有效過(guò)濾掉孤立的高不確定性詞,只在"持續(xù)穩(wěn)定低變化"時(shí)才觸發(fā)停止——這樣就保住了那些分散在句子各處的關(guān)鍵詞,同時(shí)剔除了真正的廢話尾巴。
這個(gè)機(jī)制還設(shè)有兩道保險(xiǎn):其一,每次生成中只允許觸發(fā)一次,避免反復(fù)打斷;其二,設(shè)置一個(gè)最大生成長(zhǎng)度,即使滑動(dòng)窗口條件從未觸發(fā),到了上限也會(huì)強(qiáng)制結(jié)束,確保不會(huì)無(wú)限生成。
實(shí)驗(yàn)數(shù)據(jù)顯示,去掉這個(gè)機(jī)制后,任務(wù)成功率從81.64%降至73.27%,說(shuō)明適時(shí)"打斷"AI的自說(shuō)自話,對(duì)任務(wù)完成質(zhì)量有實(shí)質(zhì)性的提升。
四、 當(dāng)AI在死路上原地轉(zhuǎn)圈:輪次級(jí)動(dòng)態(tài)重采樣
光管住AI每次說(shuō)話時(shí)的冗余內(nèi)容還不夠。更大的麻煩發(fā)生在對(duì)話輪次的層面。
以前面那個(gè)購(gòu)物場(chǎng)景為例:AI在第一輪搜索后,點(diǎn)進(jìn)了一個(gè)明顯不符合要求的產(chǎn)品,然后退回搜索頁(yè),再用完全相同的關(guān)鍵詞搜索一遍,又點(diǎn)進(jìn)同一個(gè)產(chǎn)品……在案例分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)AI的輪次3和輪次4幾乎一模一樣,做的是完全重復(fù)的無(wú)效操作,完全沒(méi)有利用上一輪的信息來(lái)調(diào)整策略。這種"原地踏步"的行為,就是輪次級(jí)的猶豫。
要在缺乏逐輪獎(jiǎng)勵(lì)信號(hào)的情況下判斷一輪對(duì)話是否有價(jià)值,是個(gè)難題。研究團(tuán)隊(duì)想到了一個(gè)巧妙的辦法:把每一輪對(duì)話的Mt信號(hào)聚合起來(lái),計(jì)算整輪的"不確定性指紋"Φk(具體計(jì)算方式是所有詞元Mt值的幾何平均,即所有Mt連乘后開(kāi)T次方根)。然后,比較相鄰兩輪的Φk是否有顯著變化,差值記為Γk。
這個(gè)邏輯背后的直覺(jué)是:如果AI真的在有效探索,每一輪面對(duì)的環(huán)境狀態(tài)不同、處理的信息不同,它的內(nèi)部不確定性結(jié)構(gòu)應(yīng)該也會(huì)相應(yīng)變化,Γk應(yīng)該比較大。但如果AI只是在重復(fù),它每輪的"不確定性指紋"會(huì)高度相似,Γk會(huì)很小。
當(dāng)Γk低于閾值η時(shí),系統(tǒng)判定這一輪是"無(wú)效探索",直接丟棄這輪生成的內(nèi)容,在相同狀態(tài)下重新生成一次。這個(gè)重生成過(guò)程會(huì)一直持續(xù),直到產(chǎn)生一個(gè)Γk足夠大的結(jié)果,或者達(dá)到重采樣預(yù)算上限為止。
移除這個(gè)機(jī)制后,實(shí)驗(yàn)中任務(wù)得分從93.84降至72.40,成功率從81.64%降至63.67%,是所有組件中影響最大的一個(gè)——這說(shuō)明輪次級(jí)的重復(fù)循環(huán)是造成訓(xùn)練低效最核心的問(wèn)題所在。
五、 其他輔助設(shè)計(jì):讓AI從一開(kāi)始就走對(duì)路
除了兩個(gè)核心干預(yù)機(jī)制,T?PO還包含幾個(gè)配套設(shè)計(jì),共同構(gòu)成完整的訓(xùn)練框架。
在訓(xùn)練啟動(dòng)階段,研究團(tuán)隊(duì)采用了一種叫做"拒絕采樣微調(diào)"(RFT)的冷啟動(dòng)策略。具體做法是先讓AI在目標(biāo)環(huán)境里自由跑一批任務(wù),只保留那些最終得分超過(guò)閾值的高質(zhì)量軌跡,然后用這些軌跡做一輪監(jiān)督學(xué)習(xí),讓AI從一開(kāi)始就有一個(gè)"基本靠譜"的行為基礎(chǔ)。實(shí)驗(yàn)證明,沒(méi)有這個(gè)冷啟動(dòng),任務(wù)分?jǐn)?shù)會(huì)從93.84降至79.28,成功率從81.64%降至61.32%。這是因?yàn)樵缙谟?xùn)練階段AI容易生成格式混亂的輸出,這些噪音會(huì)污染后續(xù)的學(xué)習(xí)過(guò)程。不過(guò)研究團(tuán)隊(duì)也發(fā)現(xiàn),RFT的輪數(shù)不能太多——超過(guò)五輪后,AI開(kāi)始把推理能力"遺忘"掉,反而不利于后續(xù)的強(qiáng)化學(xué)習(xí)。
在處理長(zhǎng)軌跡時(shí),直接把整個(gè)任務(wù)歷史塞進(jìn)AI的上下文窗口會(huì)導(dǎo)致序列極長(zhǎng)、計(jì)算量爆炸。研究團(tuán)隊(duì)因此引入了"記憶上下文窗口"機(jī)制,讓AI只保留最近P輪的歷史記錄,而不是整個(gè)任務(wù)的完整歷史。這在降低計(jì)算負(fù)擔(dān)的同時(shí),也避免了過(guò)早輪次的噪音信息干擾當(dāng)前判斷。
在獎(jiǎng)勵(lì)分配上,研究團(tuán)隊(duì)采用了時(shí)間折扣機(jī)制:越早的行動(dòng),其獎(jiǎng)勵(lì)折扣越多,越近的行動(dòng)則權(quán)重越高。這樣既能傳遞最終結(jié)果的成敗信號(hào),又能讓AI有機(jī)會(huì)從每一步的后續(xù)影響中學(xué)習(xí)。
在策略更新算法上,T?PO采用了"組內(nèi)組"優(yōu)勢(shì)估計(jì)(GiGPO)的思路:先在整個(gè)軌跡組的層面計(jì)算相對(duì)優(yōu)勢(shì),再在同一環(huán)境狀態(tài)下不同行動(dòng)之間計(jì)算細(xì)粒度優(yōu)勢(shì),最后把二者加權(quán)融合,同時(shí)用KL散度懲罰項(xiàng)約束新舊策略之間的差異不能太大,防止AI一次更新過(guò)猛把自己改壞。
六、 實(shí)戰(zhàn)考驗(yàn):在購(gòu)物、家務(wù)和問(wèn)答三個(gè)戰(zhàn)場(chǎng)上的表現(xiàn)
研究團(tuán)隊(duì)在三個(gè)性質(zhì)各異的環(huán)境中對(duì)T?PO進(jìn)行了系統(tǒng)評(píng)測(cè),用的是Qwen3-4B和Qwen3-8B兩個(gè)規(guī)模的基礎(chǔ)模型。
WebShop是一個(gè)模擬真實(shí)電商平臺(tái)的購(gòu)物環(huán)境,包含超過(guò)110萬(wàn)件商品和1.2萬(wàn)條用戶指令。AI需要搜索、瀏覽、比較,最終完成購(gòu)買。這個(gè)環(huán)境的特點(diǎn)是行動(dòng)空間龐大、任務(wù)約束復(fù)雜(顏色、尺碼、價(jià)格、材質(zhì)都要同時(shí)滿足),對(duì)細(xì)粒度決策的要求很高。在Qwen3-4B基礎(chǔ)上,T?PO達(dá)到了93.84的任務(wù)分?jǐn)?shù)和81.64%的成功率,相比此前最佳的GiGPO+DAPO組合(任務(wù)分?jǐn)?shù)86.54,成功率74.02%)有顯著提升。更重要的是,T?PO的方差極小(±0.22和±0.39),而對(duì)照組的方差動(dòng)輒±9到±10,說(shuō)明T?PO訓(xùn)練過(guò)程穩(wěn)定得多。在Qwen3-8B基礎(chǔ)上,這一趨勢(shì)同樣成立,成功率達(dá)到82.42%。
ALFWorld是一個(gè)文本家務(wù)場(chǎng)景,AI需要理解自然語(yǔ)言目標(biāo)(比如"把蘋果放進(jìn)冰箱"),在虛擬房間里一步步找到物體、執(zhí)行操作,直到目標(biāo)完成。這個(gè)環(huán)境包含3827個(gè)任務(wù)實(shí)例,分布在拾取放置、燈下檢查、清潔放置、加熱放置、冷卻放置、拾取兩個(gè)放置六大類別中。T?PO的總成功率達(dá)到90.23%,在"加熱放置"這一類別中更是高達(dá)98.33%,全面領(lǐng)先于其他方法。相比之下,即便是號(hào)稱當(dāng)時(shí)最強(qiáng)的閉源模型Claude Sonnet 4,在這個(gè)任務(wù)上的成功率也只有63.71%,而基于小模型訓(xùn)練的T?PO達(dá)到了90.23%,差距顯著。
Search QA是一個(gè)多輪搜索問(wèn)答任務(wù),包括單跳問(wèn)題(需要一步找到答案的問(wèn)題,如自然問(wèn)題NQ、TriviaQA)和多跳問(wèn)題(需要串聯(lián)多個(gè)事實(shí)推理的問(wèn)題,如HotpotQA、MuSiQue)。在單跳任務(wù)上,T?PO在NQ上得分46.13,在TriviaQA上得分64.08,穩(wěn)居前列。多跳問(wèn)題更能體現(xiàn)T?PO的優(yōu)勢(shì):在MuSiQue這個(gè)公認(rèn)最難的多跳問(wèn)答數(shù)據(jù)集上,T?PO得分16.64,而此前最好的GiGPO只有13.40,提升幅度超過(guò)24%。在七個(gè)數(shù)據(jù)集的平均分上,T?PO達(dá)到54.93,比GiGPO的52.97高出近2個(gè)點(diǎn)。
從成功軌跡的token消耗分布來(lái)看,T?PO生成的成功軌跡大多集中在較短的token區(qū)間,而對(duì)照組的成功軌跡則更多分布在高token區(qū)間——這意味著T?PO用更少的"思考量"完成了更多的成功任務(wù)。在輪次數(shù)量上,T?PO在WebShop上減少了約25%的交互輪次,在ALFWorld上也減少了約16%,這直接轉(zhuǎn)化為計(jì)算資源的節(jié)省。
七、 和其他"讓AI少說(shuō)廢話"方法的橫向比較
研究團(tuán)隊(duì)還專門和四種現(xiàn)有的"思維控制"策略做了對(duì)比,這是理解T?PO價(jià)值的重要維度。
第一種是"冗長(zhǎng)獎(jiǎng)勵(lì)"方法,它通過(guò)在獎(jiǎng)勵(lì)中加入對(duì)回答長(zhǎng)度的懲罰來(lái)鼓勵(lì)A(yù)I說(shuō)短話——答對(duì)了但說(shuō)得長(zhǎng),少給獎(jiǎng)勵(lì);答錯(cuò)了還說(shuō)得長(zhǎng),額外扣分。這個(gè)方法的邏輯直接,但問(wèn)題在于它對(duì)所有內(nèi)容一視同仁,無(wú)論是真正有用的推理還是無(wú)意義的廢話,都會(huì)因?yàn)殚L(zhǎng)度而受罰,最終任務(wù)成功率只有65.87%。
第二種是"短鏈路思維冷啟動(dòng)",用更簡(jiǎn)潔的GPT-4o示范數(shù)據(jù)來(lái)初始化AI,讓它從一開(kāi)始就學(xué)會(huì)言簡(jiǎn)意賅。這個(gè)方法對(duì)早期訓(xùn)練穩(wěn)定性確實(shí)有幫助,但它不能在強(qiáng)化學(xué)習(xí)階段動(dòng)態(tài)調(diào)整推理過(guò)程,隨著訓(xùn)練推進(jìn),AI會(huì)逐漸漂移回冗長(zhǎng)模式,成功率達(dá)到71.29%。
第三種是"硬性思維預(yù)算",直接給推理過(guò)程設(shè)一個(gè)最大token數(shù)上限。這個(gè)方法的問(wèn)題是靜態(tài)的——不管當(dāng)前任務(wù)有多難、當(dāng)前推理有多重要,一律在固定位置截?cái)啵菀自陔y題上過(guò)早終止有價(jià)值的推理,在簡(jiǎn)單題上又無(wú)法阻止無(wú)效填充,成功率79.21%。
第四種是"無(wú)效輪過(guò)濾",把包含無(wú)效或空白行動(dòng)的軌跡從訓(xùn)練數(shù)據(jù)中移除,防止退化行為污染學(xué)習(xí)。這個(gè)方法確實(shí)有效果,成功率76.20%,但它只能事后過(guò)濾,無(wú)法主動(dòng)干預(yù)生成過(guò)程中的冗余,更無(wú)法處理那些格式合法但內(nèi)容重復(fù)的輪次。
T?PO的TTI+TDS組合以93.84分/81.64%的成績(jī)大幅領(lǐng)先,核心優(yōu)勢(shì)在于它是在生成過(guò)程中實(shí)時(shí)介入,而不是依賴事后的獎(jiǎng)勵(lì)塑形或數(shù)據(jù)過(guò)濾,因此能更精準(zhǔn)地識(shí)別和切除真正的無(wú)效探索,同時(shí)保留有價(jià)值的推理內(nèi)容。
八、 訓(xùn)練穩(wěn)定性:從反復(fù)崩潰到持續(xù)向好
訓(xùn)練穩(wěn)定性是這項(xiàng)研究的核心關(guān)切之一,值得單獨(dú)拿出來(lái)說(shuō)清楚。
研究團(tuán)隊(duì)在不同隨機(jī)種子下運(yùn)行了多組實(shí)驗(yàn),用以檢驗(yàn)方法的魯棒性。結(jié)果顯示,現(xiàn)有方法(包括Vanilla GRPO和GiGPO)在某些隨機(jī)種子下表現(xiàn)尚可,但在另一些種子下會(huì)出現(xiàn)成功率先升后急劇下降的"訓(xùn)練崩潰"——這種崩潰的表征是成功率曲線突然塌陷,同時(shí)梯度范數(shù)和KL散度急劇飆升。
T?PO在三個(gè)不同隨機(jī)種子下均呈現(xiàn)出單調(diào)遞增、持續(xù)向好的成功率曲線,沒(méi)有出現(xiàn)崩潰現(xiàn)象。梯度范數(shù)和KL散度也保持在合理范圍內(nèi),說(shuō)明策略更新始終處于可控狀態(tài)。
從機(jī)制上解釋,這種穩(wěn)定性來(lái)自于T?PO對(duì)探索效率的主動(dòng)管理:通過(guò)減少無(wú)效token和無(wú)效輪次,T?PO降低了信用分配信號(hào)的噪聲水平,讓策略更新的梯度方向更加清晰可靠,避免了因噪聲過(guò)大而導(dǎo)致的參數(shù)更新失控。
說(shuō)到底,T?PO解決的是一個(gè)關(guān)于"度"的問(wèn)題。AI需要足夠深入地思考才能做出好決策,但想得太多反而會(huì)帶來(lái)反效果。這項(xiàng)研究的貢獻(xiàn)在于,它不是簡(jiǎn)單地用一把尺子限制AI說(shuō)話的長(zhǎng)度,而是真正看清楚AI在每個(gè)時(shí)刻的"內(nèi)心狀態(tài)",在它真正停止有效思考的那一刻才介入,并在整個(gè)多輪任務(wù)中持續(xù)監(jiān)控是否陷入了無(wú)效循環(huán)。
更有意思的是,這種穩(wěn)定性是從"內(nèi)部"獲得的,不需要額外的獎(jiǎng)勵(lì)模型,不需要人工標(biāo)注的過(guò)程數(shù)據(jù),只依靠AI自己生成內(nèi)容時(shí)產(chǎn)生的概率分布信號(hào)。換句話說(shuō),AI學(xué)會(huì)了用自己的"內(nèi)心溫度"來(lái)判斷自己是否還在有效工作。這對(duì)于未來(lái)構(gòu)建更可靠、更省資源的AI智能體,提供了一條頗具參考價(jià)值的路徑。
如果你對(duì)多輪強(qiáng)化學(xué)習(xí)、AI智能體訓(xùn)練或大模型推理優(yōu)化感興趣,這篇論文無(wú)疑值得深讀。可以通過(guò)arXiv編號(hào)2605.02178獲取完整論文,研究代碼也已在GitHub上公開(kāi),倉(cāng)庫(kù)名為WillDreamer/T2PO。
Q&A
Q1:T?PO中的"詞元級(jí)思維干預(yù)"是怎么判斷AI什么時(shí)候該停止推理的?
A:T?PO會(huì)在AI生成每個(gè)詞時(shí)計(jì)算一個(gè)"自校準(zhǔn)不確定性信號(hào)"Mt,這個(gè)信號(hào)融合了概率分布的分散程度(熵)和對(duì)最高概率詞的置信度。系統(tǒng)用滑動(dòng)窗口持續(xù)追蹤相鄰兩步Mt的變化量,如果連續(xù)N步內(nèi)平均變化量低于閾值ε,就說(shuō)明AI的推理已經(jīng)原地打轉(zhuǎn)、不再產(chǎn)生新信息,此時(shí)直接強(qiáng)制插入"結(jié)束思考"標(biāo)記,讓AI進(jìn)入行動(dòng)階段。這個(gè)機(jī)制只在生成了最短前綴之后才啟動(dòng),避免過(guò)早截?cái)唷?/p>
Q2:T?PO的輪次級(jí)動(dòng)態(tài)重采樣為什么不直接用任務(wù)獎(jiǎng)勵(lì)來(lái)判斷哪輪有沒(méi)有效果?
A:在多輪交互任務(wù)中,每一輪通常沒(méi)有獨(dú)立的獎(jiǎng)勵(lì)信號(hào),只有整個(gè)任務(wù)結(jié)束才會(huì)得到最終獎(jiǎng)勵(lì)。因此無(wú)法像單輪任務(wù)那樣直接用正確率過(guò)濾輪次。T?PO的解決辦法是把每輪所有詞元的不確定性信號(hào)聚合成"輪次指紋"Φk,通過(guò)比較相鄰兩輪指紋的變化量Γk來(lái)判斷當(dāng)前輪是否帶來(lái)了新的信息結(jié)構(gòu)變化,變化太小就重新生成,不依賴任何外部獎(jiǎng)勵(lì)標(biāo)注。
Q3:T?PO和直接設(shè)置一個(gè)固定的最大推理長(zhǎng)度有什么實(shí)質(zhì)區(qū)別?
A:固定最大長(zhǎng)度是靜態(tài)的,不管任務(wù)難易和推理質(zhì)量,統(tǒng)一在同一個(gè)位置截?cái)啵菀自陔y題上過(guò)早終止有價(jià)值的推理,在簡(jiǎn)單題上又無(wú)法阻止無(wú)效填充。T?PO的截?cái)鄷r(shí)機(jī)是動(dòng)態(tài)的,由AI自身的概率分布變化來(lái)決定,只在信息增益真正枯竭時(shí)才介入,因此能保留關(guān)鍵推理內(nèi)容同時(shí)剔除真正的廢話,實(shí)驗(yàn)中比固定預(yù)算方法的成功率高出約2.4個(gè)百分點(diǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.