網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

UCLA與亞馬遜突破：AI助手實(shí)現(xiàn)思維糾偏能力提升避免邏輯混亂

2026-05-08 20:05:15　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由加利福尼亞大學(xué)洛杉磯分校與亞馬遜公司聯(lián)合開(kāi)展的研究，發(fā)表于2026年第43屆國(guó)際機(jī)器學(xué)習(xí)大會(huì)（ICML 2026），會(huì)議地點(diǎn)為韓國(guó)首爾，收錄于PMLR 306論文集。論文編號(hào)為arXiv:2605.02178，有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

研究概要：一個(gè)越想越亂的AI，和一群決心幫它"冷靜下來(lái)"的研究者

假設(shè)你在網(wǎng)上購(gòu)物，雇了一個(gè)助手幫你找一件特定的紅色棉質(zhì)女款襯衫，價(jià)格低于40美元。你滿心期待地等著它給你一個(gè)答案，結(jié)果發(fā)現(xiàn)它開(kāi)始滔滔不絕地自言自語(yǔ)——反復(fù)核對(duì)面料是不是純棉、顏色是不是正紅、尺碼有沒(méi)有XL……說(shuō)了足足500個(gè)字之后，話還沒(méi)說(shuō)完，時(shí)間已經(jīng)到了，助手根本沒(méi)來(lái)得及告訴你要點(diǎn)哪個(gè)按鈕。這還不算完，下一輪它又從頭重復(fù)同樣的廢話，在同一個(gè)錯(cuò)誤路上打轉(zhuǎn)。

這個(gè)荒誕的場(chǎng)景，其實(shí)正是當(dāng)今最先進(jìn)的AI助手在完成復(fù)雜任務(wù)時(shí)頻繁上演的真實(shí)困境。研究團(tuán)隊(duì)將這種行為稱為"猶豫"——AI不是在認(rèn)真解決問(wèn)題，而是在無(wú)休止地自我糾結(jié)，既無(wú)法減少不確定性，也無(wú)法推進(jìn)任務(wù)進(jìn)展。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)提出了一套名為T?PO（Token- and Turn-level Policy Optimization，即詞元與輪次雙層策略優(yōu)化）的方法。簡(jiǎn)單來(lái)說(shuō)，這套方法在AI每次生成內(nèi)容時(shí)，從兩個(gè)層面同時(shí)把關(guān)：一是盯住每個(gè)字詞的生成質(zhì)量，當(dāng)AI開(kāi)始"廢話連篇"時(shí)及時(shí)叫停；二是在多輪對(duì)話的層面，當(dāng)AI陷入無(wú)效的重復(fù)循環(huán)時(shí)，果斷重新來(lái)過(guò)。

實(shí)驗(yàn)結(jié)果相當(dāng)亮眼。在模擬網(wǎng)上購(gòu)物的WebShop測(cè)試中，T?PO讓任務(wù)成功率從73.83%一路提升到81.64%，同時(shí)大幅減少了訓(xùn)練過(guò)程中常見(jiàn)的崩潰現(xiàn)象。在模擬家務(wù)場(chǎng)景的ALFWorld測(cè)試中，T?PO比此前最佳方案提升了約8到12個(gè)百分點(diǎn)。這些數(shù)字背后，是AI助手從一個(gè)"焦慮型廢話王"蛻變?yōu)?沉著型行動(dòng)派"的過(guò)程。

一、 AI為什么會(huì)"想太多"：從反復(fù)橫跳到徹底宕機(jī)

要理解這項(xiàng)研究解決的問(wèn)題，先要知道今天的AI助手是怎么工作的。

現(xiàn)代AI助手完成一個(gè)任務(wù)，通常不是一問(wèn)一答那么簡(jiǎn)單，而是要經(jīng)歷多個(gè)來(lái)回：搜索一下、看看結(jié)果、點(diǎn)進(jìn)去、再看看、再?zèng)Q定下一步……就像你在網(wǎng)上購(gòu)物時(shí)，從搜索到付款要經(jīng)過(guò)好幾個(gè)頁(yè)面。這種"多輪交互"的工作方式，給AI帶來(lái)了很大的挑戰(zhàn)。

其中一個(gè)核心挑戰(zhàn)叫做"信用分配"——當(dāng)任務(wù)最終失敗或成功時(shí)，AI需要知道是哪一步做對(duì)了、哪一步做錯(cuò)了。可問(wèn)題在于，最終的獎(jiǎng)勵(lì)往往只在任務(wù)結(jié)束時(shí)才會(huì)給出，就像一個(gè)學(xué)生考完試才知道成績(jī)，卻無(wú)法得知每道題答得怎么樣。這種稀疏的反饋信號(hào)，讓AI很難從錯(cuò)誤中學(xué)習(xí)。

另一個(gè)挑戰(zhàn)來(lái)自效率與穩(wěn)定的矛盾。為了讓AI學(xué)得更快，研究人員通常會(huì)讓它同時(shí)跑很多個(gè)"練習(xí)任務(wù)"，然后批量更新參數(shù)。但這意味著AI學(xué)到的新知識(shí)，和它正在執(zhí)行的舊任務(wù)之間，始終存在一個(gè)時(shí)間差——用過(guò)時(shí)的自己去做任務(wù)，然后用做完的結(jié)果來(lái)更新現(xiàn)在的自己，這個(gè)循環(huán)本身就容易失控。

研究團(tuán)隊(duì)通過(guò)分析大量訓(xùn)練軌跡，找到了訓(xùn)練崩潰的根本原因：AI陷入了"猶豫"。在字詞生成的層面，AI會(huì)產(chǎn)生大量信息含量極低的內(nèi)容，就像一個(gè)演講者明明已經(jīng)說(shuō)完了要點(diǎn)，卻還在用各種廢話填充時(shí)間，而這些廢話會(huì)把真正有用的判斷淹沒(méi)在噪音里。在任務(wù)輪次的層面，AI有時(shí)在最初幾步就走錯(cuò)了方向，卻沒(méi)有任何機(jī)制讓它意識(shí)到這一點(diǎn)，于是它一輪又一輪地重復(fù)同樣毫無(wú)意義的操作，把有限的資源全部浪費(fèi)在死胡同里。

這兩種"猶豫"疊加起來(lái)，讓AI的訓(xùn)練過(guò)程變得極不穩(wěn)定——梯度爆炸（可以理解為AI更新參數(shù)時(shí)用力過(guò)猛，直接把自己改崩）和KL散度飆升（可以理解為新舊版本的AI差異變得太大，導(dǎo)致學(xué)習(xí)失控）頻繁出現(xiàn)，最終讓原本應(yīng)該越來(lái)越聰明的AI反而越來(lái)越差，甚至徹底失能。

二、給AI安裝一個(gè)"內(nèi)心溫度計(jì)"：自校準(zhǔn)不確定性信號(hào)

研究團(tuán)隊(duì)的第一步，是給AI裝上一個(gè)能實(shí)時(shí)感知自身狀態(tài)的"傳感器"。

在AI生成每一個(gè)字詞時(shí)，它實(shí)際上是在對(duì)整個(gè)詞匯表做概率分配——每個(gè)詞被選中的可能性有多大。這種概率分布的形態(tài)，直接反映了AI當(dāng)前的"信心狀態(tài)"。當(dāng)AI非常確定下一個(gè)詞應(yīng)該是什么時(shí)，概率分布會(huì)非常集中，像一座高聳的尖峰；當(dāng)AI不確定時(shí)，概率會(huì)分散開(kāi)來(lái)，像一片平緩的丘陵。

傳統(tǒng)上有兩種方法來(lái)衡量這種不確定性：一種叫做"香農(nóng)熵"，可以理解為概率分布有多"分散"；另一種叫做"置信度"，直接看AI對(duì)最可能那個(gè)詞有多大把握。但兩者都有盲區(qū)。

熵的問(wèn)題在于，它對(duì)極端情況不夠敏感。由于AI的詞匯表可以多達(dá)15萬(wàn)個(gè)詞（比如Qwen3模型就有約15.2萬(wàn)個(gè)詞），即便AI的分布已經(jīng)非常集中了，熵的數(shù)值看起來(lái)依然差不多。打個(gè)比方，假設(shè)有100個(gè)人投票，99個(gè)人投給同一個(gè)候選人和50個(gè)人投給同一個(gè)候選人，從"票數(shù)是否集中"這個(gè)角度看，差異是顯著的，但如果候選人是15萬(wàn)個(gè)，這種差異就會(huì)被稀釋得幾乎看不見(jiàn)。

置信度的問(wèn)題則在于它只關(guān)注"冠軍"，完全忽視"亞軍"和"季軍"。兩種截然不同的概率分布，只要最高那個(gè)詞的概率相同，置信度就會(huì)完全相同——盡管這兩種分布背后AI的狀態(tài)可能大相徑庭。

為了解決這兩個(gè)問(wèn)題，研究團(tuán)隊(duì)提出了一種"自校準(zhǔn)不確定性信號(hào)"，記為Mt。它把熵和置信度分別歸一化（統(tǒng)一到同一個(gè)尺度），然后用一個(gè)可以調(diào)節(jié)的比例因子把二者融合。研究發(fā)現(xiàn)，當(dāng)這個(gè)比例偏向0.4時(shí)（即熵占40%，置信度占60%），效果最好。

這個(gè)融合信號(hào)的優(yōu)勢(shì)可以從直觀圖形上看出來(lái)：純熵的等高線圖在接近均勻分布的區(qū)域幾乎無(wú)法區(qū)分細(xì)微差異，純置信度對(duì)尾部概率分布完全不敏感，而融合后的Mt產(chǎn)生了非線性的等高線，能夠同時(shí)區(qū)分出頂端概率高低與尾部分布形態(tài)，覆蓋了兩者各自的盲區(qū)。

這個(gè)信號(hào)的另一個(gè)重要特性是它會(huì)隨著生成過(guò)程動(dòng)態(tài)變化。研究團(tuán)隊(duì)觀察到，在AI生成一段回答的過(guò)程中，Mt的軌跡通常是先升后降——它先進(jìn)入一個(gè)高度不確定的區(qū)域（正在思考），然后逐漸穩(wěn)定下來(lái)（已經(jīng)確定方向）。而那些不確定性最高的詞，往往恰恰是最關(guān)鍵的任務(wù)相關(guān)詞，比如產(chǎn)品名稱、屬性描述符等。這個(gè)觀察為后續(xù)兩個(gè)干預(yù)機(jī)制提供了理論基礎(chǔ)。

三、給AI的內(nèi)心獨(dú)白設(shè)一個(gè)"說(shuō)夠了就停"的開(kāi)關(guān)：詞元級(jí)思維干預(yù)

有了Mt這個(gè)信號(hào)，研究團(tuán)隊(duì)做的第一件事，是解決AI"想太多"的毛病。

當(dāng)AI在生成內(nèi)部推理過(guò)程（即包裹在"思考標(biāo)簽"里的那部分內(nèi)容）時(shí)，它有時(shí)會(huì)一直說(shuō)下去，遠(yuǎn)遠(yuǎn)超出真正有用的部分。就像一個(gè)人解題時(shí)，把有效的思路寫完了，卻還在繼續(xù)寫"我再想想……也許還有另一種可能……不對(duì)，讓我再考慮一下……"，這些后續(xù)的自言自語(yǔ)不僅浪費(fèi)紙，還會(huì)讓最終答案被掩蓋。

詞元級(jí)思維干預(yù)（TTI）的邏輯是這樣的：研究團(tuán)隊(duì)用一個(gè)滑動(dòng)窗口，持續(xù)監(jiān)測(cè)Mt相鄰兩步之間的變化量，記為△t。如果這個(gè)變化量在連續(xù)N步內(nèi)的平均值都低于一個(gè)閾值ε，就說(shuō)明AI的"思考"已經(jīng)在原地打轉(zhuǎn)，沒(méi)有帶來(lái)新的信息增益了。此刻，系統(tǒng)會(huì)直接向AI的輸出機(jī)制注入一個(gè)強(qiáng)制指令：把接下來(lái)那個(gè)詞的概率全部集中到"結(jié)束思考"這個(gè)特殊標(biāo)記上，概率為1，讓AI立刻停止內(nèi)心獨(dú)白，進(jìn)入行動(dòng)階段。

一個(gè)自然的問(wèn)題是：為什么不在Mt達(dá)到峰值時(shí)就停？峰值代表不確定性最高，直覺(jué)上似乎在那之后生成的內(nèi)容都是多余的。但研究團(tuán)隊(duì)的分析顯示，不確定性最高的詞往往分屬兩類：一類是推理轉(zhuǎn)折詞（類似"啊，我明白了！"這種節(jié)點(diǎn)），另一類是任務(wù)關(guān)鍵詞（比如具體的產(chǎn)品名稱）。如果在峰值時(shí)就截?cái)啵芸赡軙?huì)切掉關(guān)鍵的產(chǎn)品信息。

而采用滑動(dòng)窗口均值的方式，則能有效過(guò)濾掉孤立的高不確定性詞，只在"持續(xù)穩(wěn)定低變化"時(shí)才觸發(fā)停止——這樣就保住了那些分散在句子各處的關(guān)鍵詞，同時(shí)剔除了真正的廢話尾巴。

這個(gè)機(jī)制還設(shè)有兩道保險(xiǎn)：其一，每次生成中只允許觸發(fā)一次，避免反復(fù)打斷；其二，設(shè)置一個(gè)最大生成長(zhǎng)度，即使滑動(dòng)窗口條件從未觸發(fā)，到了上限也會(huì)強(qiáng)制結(jié)束，確保不會(huì)無(wú)限生成。

實(shí)驗(yàn)數(shù)據(jù)顯示，去掉這個(gè)機(jī)制后，任務(wù)成功率從81.64%降至73.27%，說(shuō)明適時(shí)"打斷"AI的自說(shuō)自話，對(duì)任務(wù)完成質(zhì)量有實(shí)質(zhì)性的提升。

四、當(dāng)AI在死路上原地轉(zhuǎn)圈：輪次級(jí)動(dòng)態(tài)重采樣

光管住AI每次說(shuō)話時(shí)的冗余內(nèi)容還不夠。更大的麻煩發(fā)生在對(duì)話輪次的層面。

以前面那個(gè)購(gòu)物場(chǎng)景為例：AI在第一輪搜索后，點(diǎn)進(jìn)了一個(gè)明顯不符合要求的產(chǎn)品，然后退回搜索頁(yè)，再用完全相同的關(guān)鍵詞搜索一遍，又點(diǎn)進(jìn)同一個(gè)產(chǎn)品……在案例分析中，研究團(tuán)隊(duì)發(fā)現(xiàn)AI的輪次3和輪次4幾乎一模一樣，做的是完全重復(fù)的無(wú)效操作，完全沒(méi)有利用上一輪的信息來(lái)調(diào)整策略。這種"原地踏步"的行為，就是輪次級(jí)的猶豫。

要在缺乏逐輪獎(jiǎng)勵(lì)信號(hào)的情況下判斷一輪對(duì)話是否有價(jià)值，是個(gè)難題。研究團(tuán)隊(duì)想到了一個(gè)巧妙的辦法：把每一輪對(duì)話的Mt信號(hào)聚合起來(lái)，計(jì)算整輪的"不確定性指紋"Φk（具體計(jì)算方式是所有詞元Mt值的幾何平均，即所有Mt連乘后開(kāi)T次方根）。然后，比較相鄰兩輪的Φk是否有顯著變化，差值記為Γk。

這個(gè)邏輯背后的直覺(jué)是：如果AI真的在有效探索，每一輪面對(duì)的環(huán)境狀態(tài)不同、處理的信息不同，它的內(nèi)部不確定性結(jié)構(gòu)應(yīng)該也會(huì)相應(yīng)變化，Γk應(yīng)該比較大。但如果AI只是在重復(fù)，它每輪的"不確定性指紋"會(huì)高度相似，Γk會(huì)很小。

當(dāng)Γk低于閾值η時(shí)，系統(tǒng)判定這一輪是"無(wú)效探索"，直接丟棄這輪生成的內(nèi)容，在相同狀態(tài)下重新生成一次。這個(gè)重生成過(guò)程會(huì)一直持續(xù)，直到產(chǎn)生一個(gè)Γk足夠大的結(jié)果，或者達(dá)到重采樣預(yù)算上限為止。

移除這個(gè)機(jī)制后，實(shí)驗(yàn)中任務(wù)得分從93.84降至72.40，成功率從81.64%降至63.67%，是所有組件中影響最大的一個(gè)——這說(shuō)明輪次級(jí)的重復(fù)循環(huán)是造成訓(xùn)練低效最核心的問(wèn)題所在。

五、其他輔助設(shè)計(jì)：讓AI從一開(kāi)始就走對(duì)路

除了兩個(gè)核心干預(yù)機(jī)制，T?PO還包含幾個(gè)配套設(shè)計(jì)，共同構(gòu)成完整的訓(xùn)練框架。

在訓(xùn)練啟動(dòng)階段，研究團(tuán)隊(duì)采用了一種叫做"拒絕采樣微調(diào)"（RFT）的冷啟動(dòng)策略。具體做法是先讓AI在目標(biāo)環(huán)境里自由跑一批任務(wù)，只保留那些最終得分超過(guò)閾值的高質(zhì)量軌跡，然后用這些軌跡做一輪監(jiān)督學(xué)習(xí)，讓AI從一開(kāi)始就有一個(gè)"基本靠譜"的行為基礎(chǔ)。實(shí)驗(yàn)證明，沒(méi)有這個(gè)冷啟動(dòng)，任務(wù)分?jǐn)?shù)會(huì)從93.84降至79.28，成功率從81.64%降至61.32%。這是因?yàn)樵缙谟?xùn)練階段AI容易生成格式混亂的輸出，這些噪音會(huì)污染后續(xù)的學(xué)習(xí)過(guò)程。不過(guò)研究團(tuán)隊(duì)也發(fā)現(xiàn)，RFT的輪數(shù)不能太多——超過(guò)五輪后，AI開(kāi)始把推理能力"遺忘"掉，反而不利于后續(xù)的強(qiáng)化學(xué)習(xí)。

在處理長(zhǎng)軌跡時(shí)，直接把整個(gè)任務(wù)歷史塞進(jìn)AI的上下文窗口會(huì)導(dǎo)致序列極長(zhǎng)、計(jì)算量爆炸。研究團(tuán)隊(duì)因此引入了"記憶上下文窗口"機(jī)制，讓AI只保留最近P輪的歷史記錄，而不是整個(gè)任務(wù)的完整歷史。這在降低計(jì)算負(fù)擔(dān)的同時(shí)，也避免了過(guò)早輪次的噪音信息干擾當(dāng)前判斷。

在獎(jiǎng)勵(lì)分配上，研究團(tuán)隊(duì)采用了時(shí)間折扣機(jī)制：越早的行動(dòng)，其獎(jiǎng)勵(lì)折扣越多，越近的行動(dòng)則權(quán)重越高。這樣既能傳遞最終結(jié)果的成敗信號(hào)，又能讓AI有機(jī)會(huì)從每一步的后續(xù)影響中學(xué)習(xí)。

在策略更新算法上，T?PO采用了"組內(nèi)組"優(yōu)勢(shì)估計(jì)（GiGPO）的思路：先在整個(gè)軌跡組的層面計(jì)算相對(duì)優(yōu)勢(shì)，再在同一環(huán)境狀態(tài)下不同行動(dòng)之間計(jì)算細(xì)粒度優(yōu)勢(shì)，最后把二者加權(quán)融合，同時(shí)用KL散度懲罰項(xiàng)約束新舊策略之間的差異不能太大，防止AI一次更新過(guò)猛把自己改壞。

六、實(shí)戰(zhàn)考驗(yàn)：在購(gòu)物、家務(wù)和問(wèn)答三個(gè)戰(zhàn)場(chǎng)上的表現(xiàn)

研究團(tuán)隊(duì)在三個(gè)性質(zhì)各異的環(huán)境中對(duì)T?PO進(jìn)行了系統(tǒng)評(píng)測(cè)，用的是Qwen3-4B和Qwen3-8B兩個(gè)規(guī)模的基礎(chǔ)模型。

WebShop是一個(gè)模擬真實(shí)電商平臺(tái)的購(gòu)物環(huán)境，包含超過(guò)110萬(wàn)件商品和1.2萬(wàn)條用戶指令。AI需要搜索、瀏覽、比較，最終完成購(gòu)買。這個(gè)環(huán)境的特點(diǎn)是行動(dòng)空間龐大、任務(wù)約束復(fù)雜（顏色、尺碼、價(jià)格、材質(zhì)都要同時(shí)滿足），對(duì)細(xì)粒度決策的要求很高。在Qwen3-4B基礎(chǔ)上，T?PO達(dá)到了93.84的任務(wù)分?jǐn)?shù)和81.64%的成功率，相比此前最佳的GiGPO+DAPO組合（任務(wù)分?jǐn)?shù)86.54，成功率74.02%）有顯著提升。更重要的是，T?PO的方差極小（±0.22和±0.39），而對(duì)照組的方差動(dòng)輒±9到±10，說(shuō)明T?PO訓(xùn)練過(guò)程穩(wěn)定得多。在Qwen3-8B基礎(chǔ)上，這一趨勢(shì)同樣成立，成功率達(dá)到82.42%。

ALFWorld是一個(gè)文本家務(wù)場(chǎng)景，AI需要理解自然語(yǔ)言目標(biāo)（比如"把蘋果放進(jìn)冰箱"），在虛擬房間里一步步找到物體、執(zhí)行操作，直到目標(biāo)完成。這個(gè)環(huán)境包含3827個(gè)任務(wù)實(shí)例，分布在拾取放置、燈下檢查、清潔放置、加熱放置、冷卻放置、拾取兩個(gè)放置六大類別中。T?PO的總成功率達(dá)到90.23%，在"加熱放置"這一類別中更是高達(dá)98.33%，全面領(lǐng)先于其他方法。相比之下，即便是號(hào)稱當(dāng)時(shí)最強(qiáng)的閉源模型Claude Sonnet 4，在這個(gè)任務(wù)上的成功率也只有63.71%，而基于小模型訓(xùn)練的T?PO達(dá)到了90.23%，差距顯著。

Search QA是一個(gè)多輪搜索問(wèn)答任務(wù)，包括單跳問(wèn)題（需要一步找到答案的問(wèn)題，如自然問(wèn)題NQ、TriviaQA）和多跳問(wèn)題（需要串聯(lián)多個(gè)事實(shí)推理的問(wèn)題，如HotpotQA、MuSiQue）。在單跳任務(wù)上，T?PO在NQ上得分46.13，在TriviaQA上得分64.08，穩(wěn)居前列。多跳問(wèn)題更能體現(xiàn)T?PO的優(yōu)勢(shì)：在MuSiQue這個(gè)公認(rèn)最難的多跳問(wèn)答數(shù)據(jù)集上，T?PO得分16.64，而此前最好的GiGPO只有13.40，提升幅度超過(guò)24%。在七個(gè)數(shù)據(jù)集的平均分上，T?PO達(dá)到54.93，比GiGPO的52.97高出近2個(gè)點(diǎn)。

從成功軌跡的token消耗分布來(lái)看，T?PO生成的成功軌跡大多集中在較短的token區(qū)間，而對(duì)照組的成功軌跡則更多分布在高token區(qū)間——這意味著T?PO用更少的"思考量"完成了更多的成功任務(wù)。在輪次數(shù)量上，T?PO在WebShop上減少了約25%的交互輪次，在ALFWorld上也減少了約16%，這直接轉(zhuǎn)化為計(jì)算資源的節(jié)省。

七、和其他"讓AI少說(shuō)廢話"方法的橫向比較

研究團(tuán)隊(duì)還專門和四種現(xiàn)有的"思維控制"策略做了對(duì)比，這是理解T?PO價(jià)值的重要維度。

第一種是"冗長(zhǎng)獎(jiǎng)勵(lì)"方法，它通過(guò)在獎(jiǎng)勵(lì)中加入對(duì)回答長(zhǎng)度的懲罰來(lái)鼓勵(lì)A(yù)I說(shuō)短話——答對(duì)了但說(shuō)得長(zhǎng)，少給獎(jiǎng)勵(lì)；答錯(cuò)了還說(shuō)得長(zhǎng)，額外扣分。這個(gè)方法的邏輯直接，但問(wèn)題在于它對(duì)所有內(nèi)容一視同仁，無(wú)論是真正有用的推理還是無(wú)意義的廢話，都會(huì)因?yàn)殚L(zhǎng)度而受罰，最終任務(wù)成功率只有65.87%。

第二種是"短鏈路思維冷啟動(dòng)"，用更簡(jiǎn)潔的GPT-4o示范數(shù)據(jù)來(lái)初始化AI，讓它從一開(kāi)始就學(xué)會(huì)言簡(jiǎn)意賅。這個(gè)方法對(duì)早期訓(xùn)練穩(wěn)定性確實(shí)有幫助，但它不能在強(qiáng)化學(xué)習(xí)階段動(dòng)態(tài)調(diào)整推理過(guò)程，隨著訓(xùn)練推進(jìn)，AI會(huì)逐漸漂移回冗長(zhǎng)模式，成功率達(dá)到71.29%。

第三種是"硬性思維預(yù)算"，直接給推理過(guò)程設(shè)一個(gè)最大token數(shù)上限。這個(gè)方法的問(wèn)題是靜態(tài)的——不管當(dāng)前任務(wù)有多難、當(dāng)前推理有多重要，一律在固定位置截?cái)啵菀自陔y題上過(guò)早終止有價(jià)值的推理，在簡(jiǎn)單題上又無(wú)法阻止無(wú)效填充，成功率79.21%。

第四種是"無(wú)效輪過(guò)濾"，把包含無(wú)效或空白行動(dòng)的軌跡從訓(xùn)練數(shù)據(jù)中移除，防止退化行為污染學(xué)習(xí)。這個(gè)方法確實(shí)有效果，成功率76.20%，但它只能事后過(guò)濾，無(wú)法主動(dòng)干預(yù)生成過(guò)程中的冗余，更無(wú)法處理那些格式合法但內(nèi)容重復(fù)的輪次。

T?PO的TTI+TDS組合以93.84分/81.64%的成績(jī)大幅領(lǐng)先，核心優(yōu)勢(shì)在于它是在生成過(guò)程中實(shí)時(shí)介入，而不是依賴事后的獎(jiǎng)勵(lì)塑形或數(shù)據(jù)過(guò)濾，因此能更精準(zhǔn)地識(shí)別和切除真正的無(wú)效探索，同時(shí)保留有價(jià)值的推理內(nèi)容。

八、訓(xùn)練穩(wěn)定性：從反復(fù)崩潰到持續(xù)向好

訓(xùn)練穩(wěn)定性是這項(xiàng)研究的核心關(guān)切之一，值得單獨(dú)拿出來(lái)說(shuō)清楚。

研究團(tuán)隊(duì)在不同隨機(jī)種子下運(yùn)行了多組實(shí)驗(yàn)，用以檢驗(yàn)方法的魯棒性。結(jié)果顯示，現(xiàn)有方法（包括Vanilla GRPO和GiGPO）在某些隨機(jī)種子下表現(xiàn)尚可，但在另一些種子下會(huì)出現(xiàn)成功率先升后急劇下降的"訓(xùn)練崩潰"——這種崩潰的表征是成功率曲線突然塌陷，同時(shí)梯度范數(shù)和KL散度急劇飆升。

T?PO在三個(gè)不同隨機(jī)種子下均呈現(xiàn)出單調(diào)遞增、持續(xù)向好的成功率曲線，沒(méi)有出現(xiàn)崩潰現(xiàn)象。梯度范數(shù)和KL散度也保持在合理范圍內(nèi)，說(shuō)明策略更新始終處于可控狀態(tài)。

從機(jī)制上解釋，這種穩(wěn)定性來(lái)自于T?PO對(duì)探索效率的主動(dòng)管理：通過(guò)減少無(wú)效token和無(wú)效輪次，T?PO降低了信用分配信號(hào)的噪聲水平，讓策略更新的梯度方向更加清晰可靠，避免了因噪聲過(guò)大而導(dǎo)致的參數(shù)更新失控。

說(shuō)到底，T?PO解決的是一個(gè)關(guān)于"度"的問(wèn)題。AI需要足夠深入地思考才能做出好決策，但想得太多反而會(huì)帶來(lái)反效果。這項(xiàng)研究的貢獻(xiàn)在于，它不是簡(jiǎn)單地用一把尺子限制AI說(shuō)話的長(zhǎng)度，而是真正看清楚AI在每個(gè)時(shí)刻的"內(nèi)心狀態(tài)"，在它真正停止有效思考的那一刻才介入，并在整個(gè)多輪任務(wù)中持續(xù)監(jiān)控是否陷入了無(wú)效循環(huán)。

更有意思的是，這種穩(wěn)定性是從"內(nèi)部"獲得的，不需要額外的獎(jiǎng)勵(lì)模型，不需要人工標(biāo)注的過(guò)程數(shù)據(jù)，只依靠AI自己生成內(nèi)容時(shí)產(chǎn)生的概率分布信號(hào)。換句話說(shuō)，AI學(xué)會(huì)了用自己的"內(nèi)心溫度"來(lái)判斷自己是否還在有效工作。這對(duì)于未來(lái)構(gòu)建更可靠、更省資源的AI智能體，提供了一條頗具參考價(jià)值的路徑。

如果你對(duì)多輪強(qiáng)化學(xué)習(xí)、AI智能體訓(xùn)練或大模型推理優(yōu)化感興趣，這篇論文無(wú)疑值得深讀。可以通過(guò)arXiv編號(hào)2605.02178獲取完整論文，研究代碼也已在GitHub上公開(kāi)，倉(cāng)庫(kù)名為WillDreamer/T2PO。

Q&A

Q1：T?PO中的"詞元級(jí)思維干預(yù)"是怎么判斷AI什么時(shí)候該停止推理的？

A：T?PO會(huì)在AI生成每個(gè)詞時(shí)計(jì)算一個(gè)"自校準(zhǔn)不確定性信號(hào)"Mt，這個(gè)信號(hào)融合了概率分布的分散程度（熵）和對(duì)最高概率詞的置信度。系統(tǒng)用滑動(dòng)窗口持續(xù)追蹤相鄰兩步Mt的變化量，如果連續(xù)N步內(nèi)平均變化量低于閾值ε，就說(shuō)明AI的推理已經(jīng)原地打轉(zhuǎn)、不再產(chǎn)生新信息，此時(shí)直接強(qiáng)制插入"結(jié)束思考"標(biāo)記，讓AI進(jìn)入行動(dòng)階段。這個(gè)機(jī)制只在生成了最短前綴之后才啟動(dòng)，避免過(guò)早截?cái)唷?/p>

Q2：T?PO的輪次級(jí)動(dòng)態(tài)重采樣為什么不直接用任務(wù)獎(jiǎng)勵(lì)來(lái)判斷哪輪有沒(méi)有效果？

A：在多輪交互任務(wù)中，每一輪通常沒(méi)有獨(dú)立的獎(jiǎng)勵(lì)信號(hào)，只有整個(gè)任務(wù)結(jié)束才會(huì)得到最終獎(jiǎng)勵(lì)。因此無(wú)法像單輪任務(wù)那樣直接用正確率過(guò)濾輪次。T?PO的解決辦法是把每輪所有詞元的不確定性信號(hào)聚合成"輪次指紋"Φk，通過(guò)比較相鄰兩輪指紋的變化量Γk來(lái)判斷當(dāng)前輪是否帶來(lái)了新的信息結(jié)構(gòu)變化，變化太小就重新生成，不依賴任何外部獎(jiǎng)勵(lì)標(biāo)注。

Q3：T?PO和直接設(shè)置一個(gè)固定的最大推理長(zhǎng)度有什么實(shí)質(zhì)區(qū)別？

A：固定最大長(zhǎng)度是靜態(tài)的，不管任務(wù)難易和推理質(zhì)量，統(tǒng)一在同一個(gè)位置截?cái)啵菀自陔y題上過(guò)早終止有價(jià)值的推理，在簡(jiǎn)單題上又無(wú)法阻止無(wú)效填充。T?PO的截?cái)鄷r(shí)機(jī)是動(dòng)態(tài)的，由AI自身的概率分布變化來(lái)決定，只在信息增益真正枯竭時(shí)才介入，因此能保留關(guān)鍵推理內(nèi)容同時(shí)剔除真正的廢話，實(shí)驗(yàn)中比固定預(yù)算方法的成功率高出約2.4個(gè)百分點(diǎn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.