![]()
本文作者鄒德譽(yù),香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系博士生,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)。研究方向?yàn)榇笳Z(yǔ)言模型智能體、強(qiáng)化學(xué)習(xí)與主動(dòng)推理,關(guān)注模型在信息不完備的多輪交互中如何主動(dòng)獲取、更新并利用信念。相關(guān)工作發(fā)表于 ICLR 2026 Oral 與 ICML 2026。
隨著大語(yǔ)言模型逐步從「單輪問(wèn)答」走向「真實(shí)環(huán)境中的持續(xù)交互」,LLM agents 正在被用于越來(lái)越復(fù)雜的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。這些任務(wù)和傳統(tǒng)問(wèn)答最大的不同在于:任務(wù)所需的信息往往不是一開(kāi)始就完整給出的。Agent 必須在不確定狀態(tài)下主動(dòng)采取行動(dòng),例如提問(wèn)、搜索、調(diào)用工具、檢查反饋,并在多輪交互中不斷更新自己對(duì)任務(wù)狀態(tài)的理解。
這類(lèi)能力可以概括為active reasoning:在信息不完備的環(huán)境中,agent 不只是 “回答問(wèn)題”,而是需要主動(dòng)獲取新信息,并把新信息真正整合進(jìn)后續(xù)決策和推理中。
根據(jù)過(guò)往在許多推理任務(wù)上的成功,強(qiáng)化學(xué)習(xí)似乎應(yīng)該很適合訓(xùn)練這類(lèi)能力。只要最后任務(wù)成功就給正獎(jiǎng)勵(lì),失敗就不給獎(jiǎng)勵(lì),模型不就應(yīng)該慢慢學(xué)會(huì)更好的交互策略嗎?
但事情并沒(méi)有這么簡(jiǎn)單。與此前 T3 (Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM agents | ICLR-2026 Oral)對(duì)多輪推理中belief deviation和belief-trapped trajectory的分析相呼應(yīng),香港中文大學(xué)、加州大學(xué)圣地亞哥分校、佐治亞理工學(xué)院、字節(jié)跳動(dòng)的研究者進(jìn)一步發(fā)現(xiàn)發(fā)現(xiàn),在 active reasoning 場(chǎng)景中,outcome-based RL 并不一定會(huì)自然訓(xùn)練出更善于交互的 agent。相反,模型可能進(jìn)入一種低信息量的訓(xùn)練模式:它反復(fù)執(zhí)行無(wú)效操作,過(guò)早依賴初始判斷,忽略用戶或環(huán)境返回的新證據(jù);甚至在最終 reward 有所提升時(shí),背后的行為也未必真正變得更會(huì)主動(dòng)獲取和使用信息。
如果說(shuō) T3 更關(guān)注 agent 在多輪交互中如何逐步偏離正確 belief,那么這篇論文《On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents》系統(tǒng)分析了這一現(xiàn)象背后的原因:在 active reasoning 中,agent 的表現(xiàn)同時(shí)依賴于兩個(gè)相互耦合的能力:一方面是選擇什么動(dòng)作來(lái)獲取信息,另一方面是如何把獲取到的信息整合進(jìn)后續(xù)判斷。outcome reward 很難自動(dòng)為這兩個(gè)相互依賴的環(huán)節(jié)提供清晰 credit:當(dāng)前者無(wú)法帶來(lái)有效反饋,后者就缺少可學(xué)習(xí)的證據(jù);而當(dāng)后者無(wú)法正確吸收反饋時(shí),前者的價(jià)值又很難通過(guò)最終 reward 得到正確 credit。
研究者將這種訓(xùn)練失敗機(jī)制稱(chēng)為:
Information Self-Locking,信息自鎖。
基于這一觀察,作者進(jìn)一步提出了一個(gè)簡(jiǎn)單而有效的方法:AREW(Action-Selection & Belief-Tracking Advantage Reweighting),通過(guò)輕量的方向性反饋重新分配 trajectory 內(nèi)部的 credit,從而緩解 information self-locking。
論文已被 ICML 2026 接收。
![]()
- 論文標(biāo)題:On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents
- 項(xiàng)目代碼:https://github.com/unimpor/T3
- 論文鏈接:https://arxiv.org/abs/2603.12109
引言:為什么 RL 訓(xùn)練出來(lái)的 agent 還是不會(huì)主動(dòng)推理?
在很多 LLM agent 任務(wù)中,模型并不能一開(kāi)始就看到完整答案。它必須通過(guò)多輪交互逐步逼近真實(shí)任務(wù)狀態(tài)。
比如:
- 在醫(yī)療問(wèn)診中,agent 需要主動(dòng)詢問(wèn)關(guān)鍵癥狀,而不是重復(fù)問(wèn)泛泛的問(wèn)題;
- 在用戶偏好估計(jì)中,agent 需要設(shè)計(jì)有區(qū)分度的問(wèn)題,逐步識(shí)別用戶真正的偏好;
- 在客服場(chǎng)景中,agent 需要決定什么時(shí)候發(fā)消息、什么時(shí)候調(diào)用工具、什么時(shí)候引導(dǎo)用戶完成某些操作。
這些任務(wù)有一個(gè)共同結(jié)構(gòu):agent 的表現(xiàn)同時(shí)取決于兩件事。
第一,它要知道下一步該問(wèn)什么、查什么、調(diào)用什么工具。作者稱(chēng)為Action Selection(AS)。
第二,它要能把得到的新反饋吸收進(jìn)自己的內(nèi)部理解,真正更新對(duì)任務(wù)狀態(tài)的判斷。作者稱(chēng)為Belief Tracking(BT)。
![]()
如果 AS 很弱,agent 就拿不到有用信息;如果 BT 很弱,即使拿到了有用信息,模型也不會(huì)用。
更關(guān)鍵的是,這兩者不是獨(dú)立的,而是強(qiáng)耦合的:
好的行動(dòng)只有在反饋被正確使用時(shí),才會(huì)在最終 reward 中體現(xiàn)價(jià)值;好的 belief update 又依賴于前面行動(dòng)帶來(lái)了足夠有信息量的反饋。
這就帶來(lái)了 active reasoning 中一個(gè)非常隱蔽的 credit assignment 問(wèn)題:outcome reward 只在最后出現(xiàn),它很難判斷到底是 “問(wèn)得不好”,還是 “問(wèn)到了但沒(méi)吸收好”。
論文第一頁(yè)的圖給出了這一機(jī)制的整體直覺(jué)。
![]()
圖:原文 Figure 1。Vanilla outcome RL 下,agent 可能進(jìn)入 self-locking:informative action 的價(jià)值被 weak BT 掩蓋,導(dǎo)致 credit assignment 錯(cuò)位;AREW 通過(guò) directional critiques 重新分配 trajectory 內(nèi)部 credit,使 AS 和 BT 重新對(duì)齊。
Information Self-Locking:訓(xùn)練信號(hào)被 “鎖住”
作者首先發(fā)現(xiàn)了一個(gè)反直覺(jué)現(xiàn)象。
在 outcome-based RL 中,reward 可能確實(shí)上升了,但這并不意味著模型真正學(xué)會(huì)了主動(dòng)獲取信息。為了解耦觀察這一點(diǎn),論文先在兩個(gè)可控的 active reasoning 任務(wù)中做分析:Preference Estimation 要求 agent 通過(guò)比較問(wèn)題逐步估計(jì)用戶隱藏偏好,MediQ 則要求 agent 通過(guò)問(wèn)診病人問(wèn)題逐步識(shí)別正確診斷。二者都需要 agent 一邊主動(dòng)獲取證據(jù),一邊更新對(duì)隱藏任務(wù)狀態(tài)的判斷,因此很適合用來(lái)觀察 AS 和 BT 的訓(xùn)練動(dòng)態(tài)。
論文在這兩類(lèi)任務(wù)中跟蹤了三個(gè)量:
- Final reward:最終任務(wù)表現(xiàn);
- AS proxy:agent 的行動(dòng)是否帶來(lái)有信息量的反饋;
- BT proxy:agent 是否把反饋正確吸收進(jìn) belief。
結(jié)果顯示,reward 可以做有限的上升,但 AS 和 BT 并沒(méi)有同步提升。也就是說(shuō),模型表面上變強(qiáng)了,但它并沒(méi)有真正更會(huì) “獲取信息” 和 “使用信息”。
![]()
圖:原文 Figure 2。左半部分展示訓(xùn)練過(guò)程中 reward、AS、BT 的變化:藍(lán)線表示 agent 做出有信息量行動(dòng)的比例,橙線表示 agent 是否有效吸收反饋并更新 belief,綠線表示最終任務(wù)成功率。可以看到,即使成功率隨訓(xùn)練有一些有限的上升,AS 和 BT 也可能停滯甚至退化。右半部分進(jìn)一步固定相同的 action-selection 序列:橫軸表示一條軌跡中有多少次有信息量的行動(dòng),淺藍(lán)色柱子表示這類(lèi)軌跡出現(xiàn)的頻率;藍(lán)線表示由 agent 自身 BT 處理這些反饋時(shí)的成功率,橙線表示由 stronger BT 處理相同反饋時(shí)的成功率。結(jié)果顯示,只有當(dāng) BT 足夠強(qiáng)時(shí),informative AS 才會(huì)和最終 reward 形成更強(qiáng)正相關(guān)。
這張圖的右半部分揭示了 AREW 的核心 insight:
Weak BT 會(huì)遮蓋 informative AS 的貢獻(xiàn)。
假設(shè) agent 提出了一個(gè)很有價(jià)值的問(wèn)題,環(huán)境也返回了關(guān)鍵證據(jù)。但如果模型沒(méi)有把這條證據(jù)吸收進(jìn)后續(xù)推理,最終答案仍然錯(cuò)了。此時(shí),outcome reward 會(huì)告訴 RL:“這條 trajectory 失敗了。”
問(wèn)題在于,RL 并不知道失敗的原因是 belief update 做得差,而不是 action selection 做得差。于是,那個(gè)本來(lái)很有價(jià)值的問(wèn)題也可能得不到正向 credit。
反過(guò)來(lái)也是一樣。
如果 AS 變得保守,模型總是問(wèn)一些低信息量的問(wèn)題,BT 就拿不到有價(jià)值的反饋。沒(méi)有足夠信息流,belief tracking 也很難學(xué)好。久而久之,RL 可能反而鼓勵(lì)模型依賴初始判斷或非交互式 shortcut,而不是認(rèn)真利用交互反饋(詳見(jiàn)原文 Section 2.3 observation 3 | Fig. 6a)。
這就是 information self-locking:
AS 弱導(dǎo)致 BT 沒(méi)證據(jù)可學(xué);BT 弱導(dǎo)致 AS 的價(jià)值無(wú)法被 reward 識(shí)別。二者互相限制,使模型卡在低信息量訓(xùn)練區(qū)域。
從 Sef-Locking 看 active reasoning 的訓(xùn)練瓶頸
前面提到,論文將 active reasoning 中的 agent 行為分解為兩個(gè)相互交替的過(guò)程:
- Action Selection(AS):根據(jù)當(dāng)前 belief 選擇下一步環(huán)境交互動(dòng)作,例如提問(wèn)、搜索、調(diào)用工具;
- Belief Tracking(BT):根據(jù)新反饋更新內(nèi)部任務(wù)理解,并決定后續(xù)如何行動(dòng)。
這個(gè)分解指出 active reasoning 的難點(diǎn)不只是 sparse reward,而是sparse outcome reward 下兩個(gè)能力的耦合學(xué)習(xí)失敗。
普通 outcome RL 只看到最終成敗,很難把 reward 正確分配給 trajectory 中不同的 AS 和 BT 決策。結(jié)果是:
- 如果 BT 差,好的 AS 行動(dòng)也無(wú)法轉(zhuǎn)化為高 reward;
- 如果 AS 差,BT 沒(méi)有足夠信息可以吸收;
- 如果二者都處于低水平,梯度信號(hào)會(huì)同時(shí)變?nèi)酰?/li>
- 模型可能長(zhǎng)期停留在低信息量區(qū)域,難以靠 outcome reward 自行逃離。
論文在理論部分把這個(gè)區(qū)域形式化為self-locking regime:AS informativeness 低,同時(shí) BT capability 也低。在這個(gè)區(qū)域中,outcome-gradient 對(duì) AS 和 BT 的提升信號(hào)都會(huì)被當(dāng)前能力水平限制,因此訓(xùn)練動(dòng)態(tài)很難自然逃出。
為了更直觀地解釋這一點(diǎn),論文 appendix 給出了一個(gè)二維相圖:橫軸表示 AS informativeness,縱軸表示 BT capability。
![]()
圖:原文 Figure 8。AS-BT phase space 中的 learning dynamics。左圖表示 outcome-only RL:在低 AS、低 BT 的 locking regime 內(nèi),更新方向很弱,agent 難以逃離;右圖表示 AREW:directional critiques 在 locking regime 內(nèi)引入額外更新方向,為模型創(chuàng)造逃離低信息量區(qū)域的路徑。這張圖概括了 AREW 的理論直覺(jué):作者不需要完全重寫(xiě) RL,也不需要精確 dense reward;只需要在 AS/BT 的關(guān)鍵局部決策上提供一些方向性信號(hào),就可以改變低信息量區(qū)域內(nèi)的 effective update field。
AREW:用 weak directional critiques 重新分配 trajectory 內(nèi)部 credit
既然 SeL 的核心問(wèn)題在于 outcome reward 難以在 AS 和 BT 之間提供清晰的學(xué)習(xí)信號(hào),一個(gè)直接的方案,是為每個(gè)中間決策都設(shè)計(jì)精確的 dense supervision:例如準(zhǔn)確判斷某個(gè)問(wèn)題到底貢獻(xiàn)了多少信息,或者某次 belief update 到底應(yīng)當(dāng)獲得多少中間獎(jiǎng)勵(lì)。但是,在長(zhǎng)程 agentic tasks 中,這類(lèi) calibrated intermediate reward 往往不能輕易獲得。
幸運(yùn)的是,agentic active reasoning 場(chǎng)景通常會(huì)自然暴露一些更粗粒度、但更容易獲取的方向性診斷信號(hào):例如,一個(gè) action 是否讓環(huán)境或用戶返回了新的有用證據(jù);一次 belief update 是否把新觀察朝著更接近真實(shí)任務(wù)狀態(tài)的方向吸收進(jìn)去。
AREW 的出發(fā)點(diǎn)正是利用這些uncalibrated directional signals。它并不試圖為每一步構(gòu)造精確的中間獎(jiǎng)勵(lì),也不需要訓(xùn)練額外的 dense reward model,而是把這些方向性信號(hào)作為 weak directional critiques,注入到 policy-gradient 更新中,對(duì) trajectory 內(nèi)部的 stepwise advantage 進(jìn)行重新分配。
換句話說(shuō),AREW 保留原本的 outcome reward,只是在 actor update 時(shí)把更多 credit 分配給被正向 critique 的 AS/BT 決策,并削弱被負(fù)向 critique 的決策。通過(guò)這種 reward-preserving 的 credit reallocation,AREW 在 SeL regime 中重新提供非退化的局部學(xué)習(xí)信號(hào),使 AS 和 BT 有機(jī)會(huì)共同改善并逃離低信息量訓(xùn)練區(qū)域。
在實(shí)現(xiàn)上,AREW 將一條 trajectory 中被正向 critique 的步驟集合記為 positive steps,被負(fù)向 critique 的步驟集合記為 negative steps。然后構(gòu)造一個(gè)intra-trajectory likelihood margin:增加 positive steps 的 log-probability,相對(duì)降低 negative steps 的 log-probability。
經(jīng)過(guò)推導(dǎo)(詳見(jiàn)原文 Section 4.2),最終落實(shí)到 policy gradient 上,就是一個(gè)非常輕量的 advantage reweighting:
對(duì)原本每一步的 advantage 加上一個(gè)由 critique 決定的局部修正項(xiàng)。
直觀來(lái)說(shuō),AREW 做的是:
- 不改變最終 outcome reward;
- 不改變 critic target;
- 不重寫(xiě) PPO / GRPO / GSPO 的核心框架;
- 只是在 actor update 時(shí),把 trajectory 內(nèi)部的 credit 從負(fù)向步驟重新分配給正向步驟。
這使得 AREW 具有很強(qiáng)的可集成性:它可以作為一個(gè)上層 credit assignment 修正機(jī)制,插入現(xiàn)有 outcome-based RL pipeline。
更重要的是,AREW 不要求 critique 完美。理論分析(原文 proposition 4.1)表明,只要 directional critiques 的weighted accuracy好于隨機(jī),就可以提供有用的一階改進(jìn)信號(hào)。后面的實(shí)驗(yàn)也驗(yàn)證了這一點(diǎn):即使 critique 有噪聲,AREW 仍然通常優(yōu)于 vanilla RL。
實(shí)驗(yàn)設(shè)置:4 個(gè)交互領(lǐng)域,9 個(gè) active reasoning 任務(wù) / 設(shè)置
論文在多個(gè) agentic active reasoning 場(chǎng)景中系統(tǒng)評(píng)估 AREW。
整體包括 4 個(gè)交互領(lǐng)域:
1. Preference Estimation
Agent 需要通過(guò)多輪 pairwise comparison 逐步估計(jì)用戶隱藏偏好向量。該領(lǐng)域包含 PE-G 和 PE-F 不同設(shè)置。AREW 在這里采用的 AS 信號(hào)非常直觀:如果兩部被比較的 item 在不同屬性維度上存在 trade-off,而不是一方在所有維度上都明顯占優(yōu),那么這個(gè) comparison 更可能帶來(lái)有信息量的偏好反饋;BT 信號(hào)則看 agent 更新后的偏好估計(jì)是否比上一輪更接近真實(shí)偏好向量。
2. Medical Diagnosis
在 MediQ 中,agent 需要基于 clinical vignette 和候選假設(shè),主動(dòng)詢問(wèn)病人診斷相關(guān)問(wèn)題,并逐步提高正確診斷 的 belief。AREW 的 AS 信號(hào)來(lái)自 patient feedback 是否真的提供了新的診斷信息;BT 信號(hào)則檢查模型是否根據(jù)有效反饋合理更新了不同診斷假設(shè)的置信度,例如是否讓正確假設(shè)相對(duì)其他候選更占優(yōu),或者在無(wú)信息反饋下保持 belief 不被錯(cuò)誤擾動(dòng)。
3. Troubleshooting
在 FloDial 中,agent 需要通過(guò) yes/no diagnostic questions 排查用戶問(wèn)題,并從候選解釋或解決方案中識(shí)別正確項(xiàng)。AREW 在這里把用戶反饋?zhàn)鳛檩p量方向性信號(hào):如果問(wèn)題命中了可診斷信息并得到有效 Yes/No 反饋,就說(shuō)明該 action 更有價(jià)值;如果只得到 Unknown,則說(shuō)明該問(wèn)題沒(méi)有匹配到有效診斷線索。BT 側(cè)則進(jìn)一步檢查 agent 是否在獲得有效反饋后提高了正確故障候選的置信度;如果反饋是 Unknown,則更希望 belief 保持穩(wěn)定,而不是憑空漂移。
4. Customer Service / Tool Use
在 tau2-bench-Telecom 中,agent 需要通過(guò)多輪對(duì)話和工具調(diào)用完成真實(shí)感更強(qiáng)的 telecom customer-service 任務(wù)。AREW 的設(shè)置在本文后面會(huì)被單獨(dú)提到。
在前三個(gè)領(lǐng)域中,論文評(píng)估了 7 個(gè) active reasoning tasks;在 tau2-bench 上進(jìn)一步評(píng)估 solo setting 和 standard dual-control setting,總共形成 9 個(gè)任務(wù) / 設(shè)置。所有任務(wù)都只提供終局監(jiān)督。
主要模型包括Qwen2.5-7B-Instruct和LLaMA-3.1-8B-Instruct。RL 算法包括 PPO,并進(jìn)一步擴(kuò)展到 GRPO 和 GSPO。
主結(jié)果:AREW 在幾乎所有設(shè)置下穩(wěn)定優(yōu)于 vanilla PPO
論文首先在前三個(gè)領(lǐng)域的 7 個(gè)任務(wù)上報(bào)告最終平均 outcome reward。
![]()
表:原文 Table 1。AREW 在 Preference Estimation、Medical Diagnosis、Troubleshooting 三個(gè)領(lǐng)域的 7 個(gè) agentic active reasoning tasks 上,與 direct inference 和 vanilla PPO 進(jìn)行比較。
這里,AREW-AS only表示僅使用 action-selection 側(cè)的 directional critiques 來(lái)重加權(quán)動(dòng)作決策的 advantage,而AREW-AS+BT則同時(shí)使用 action-selection 和 belief-tracking 兩側(cè)的 critiques,對(duì) “獲取信息” 和 “吸收信息” 兩個(gè)環(huán)節(jié)的 credit 進(jìn)行聯(lián)合修正。
主結(jié)果非常清晰:
在 28 個(gè) PPO 評(píng)估設(shè)置中,AREW 在 27 個(gè)設(shè)置中顯著優(yōu)于 vanilla PPO。
這些結(jié)果說(shuō)明,AREW 的收益并不是某個(gè)模型或某個(gè)數(shù)據(jù)集上的偶然現(xiàn)象,而是在不同模型族和不同 active reasoning 任務(wù)中都能穩(wěn)定發(fā)揮作用。
訓(xùn)練動(dòng)態(tài):AREW 不只是提高最終分?jǐn)?shù),也改變了學(xué)習(xí)過(guò)程
除了最終結(jié)果,論文還展示了訓(xùn)練過(guò)程中的 reward dynamics。
![]()
圖:原文 Figure 3。Qwen2.5-7B-Instruct 上,vanilla PPO、AREW-AS only、AREW-AS+BT 在 PE、MediQ、FloDial-Hard 上的 reward training dynamics。
這張圖可以看到三類(lèi)典型現(xiàn)象。
- 在一些任務(wù)中,vanilla PPO 幾乎無(wú)法持續(xù)提升 reward;而 AREW 可以明顯打破這種停滯,并持續(xù)提高 performance。
- 在一些 vanilla PPO 本來(lái)也能緩慢提升的任務(wù)中,AREW 仍然表現(xiàn)出更快的收斂速度和更高的最終 reward。
- 即使某些情況下 reward curve 看起來(lái)差距沒(méi)有那么大,AREW 也會(huì)在 AS 和 BT 行為層面帶來(lái)更清晰的改進(jìn)。也就是說(shuō),AREW 不只是 “刷高分”,而是在改變模型獲取和使用信息的方式。
AS/BT 行為分析:AREW 真的讓 agent 更會(huì)獲取和吸收信息
為了驗(yàn)證 AREW 的改進(jìn)是否來(lái)自 active reasoning 能力本身,論文進(jìn)一步分析了 AS 和 BT proxy。
![]()
圖:原文 Figure 4。AREW 對(duì) AS 和 BT capability proxies 的影響。
這張圖最值得注意的地方,不只是 AREW-AS+BT 效果最好,還有:AREW-AS only 已經(jīng)可以同時(shí)改善 AS 和 BT。
表面上看,AS-only 只對(duì) action-selection 側(cè)進(jìn)行 advantage reweighting,也就是只鼓勵(lì)模型選擇更有信息量的動(dòng)作,并沒(méi)有直接給 belief-tracking 決策額外加 credit。但實(shí)驗(yàn)結(jié)果顯示,僅僅改善信息獲取,BT 也會(huì)隨之變好。
這正好說(shuō)明 AS 和 BT 并不是兩個(gè)互相獨(dú)立的能力。更好的 AS 會(huì)改變 agent 后續(xù)看到的 observation stream:當(dāng)環(huán)境或用戶返回的反饋更有信息量,belief tracking 就更容易從這些反饋中學(xué)習(xí)和更新。換句話說(shuō),即使沒(méi)有直接優(yōu)化 BT,只要 AS 提供了更高質(zhì)量的信息流,BT 的學(xué)習(xí)條件也會(huì)被改善。
當(dāng)然,AS-only 并不能完全替代 BT-side correction。Figure 4 中,AREW-AS+BT 在多數(shù)情況下會(huì)進(jìn)一步提升 BT proxy,說(shuō)明當(dāng)模型不僅被鼓勵(lì) “獲取更有用的信息”,也被鼓勵(lì) “把這些信息正確吸收進(jìn) belief” 時(shí),AS 和 BT 更容易形成正向循環(huán)。
因此,AREW 的收益不是簡(jiǎn)單來(lái)自某個(gè)單點(diǎn)模塊的增強(qiáng),而是來(lái)自對(duì)AS-BT coupling 的干預(yù)。只修正 AS 已經(jīng)能夠帶動(dòng) BT,而同時(shí)修正 AS 和 BT 則可以更充分地打破 information self-locking。
不同 RL 算法有效性
一個(gè)自然問(wèn)題是:AREW 是否只是對(duì) PPO 有用?
論文進(jìn)一步在 GRPO 和 GSPO 上做了實(shí)驗(yàn)。結(jié)果顯示,即使使用 group-based RL variants,self-locking 仍然可能存在;僅僅增加 rollout 采樣 并不能從根本上解決 AS/BT 的耦合 credit assignment 問(wèn)題。而 AREW 在 GRPO 和 GSPO 下也能提升 final performance、AS 和 BT proxies。
![]()
圖:原文 Figure 6 (b) (c)。
真場(chǎng)景應(yīng)用 customer-service agent:tau2-bench 上的結(jié)果
除了 controlled domains,論文還在更復(fù)雜的 tau2-bench-Telecom 上評(píng)估 AREW。
tau2-bench 的挑戰(zhàn)在于,agent 不只是問(wèn)答,還需要在多輪 customer-service 場(chǎng)景中進(jìn)行工具調(diào)用、與用戶協(xié)作,并完成真實(shí)感更強(qiáng)的服務(wù)任務(wù)。
論文首先考慮no-user solo setting。在這個(gè) setting 中,Qwen2.5-7B agent 直接控制任務(wù)解決過(guò)程。AREW 使用 benchmark 自帶的信號(hào)構(gòu)造 critiques:
- 負(fù)向 critique 主要來(lái)自運(yùn)行過(guò)程中的明顯失敗,例如工具調(diào)用格式錯(cuò)誤、工具執(zhí)行失敗、重復(fù)執(zhí)行相同動(dòng)作等;
- 正向 critique 則來(lái)自任務(wù)評(píng)估器提供的進(jìn)展信號(hào),例如當(dāng)前軌跡是否新完成了某個(gè)預(yù)期動(dòng)作,或是否比上一階段更接近任務(wù)完成。
![]()
圖:原文 Figure 5。Tau2Bench-Telecom solo setting 中,AREW 提升 reward,同時(shí)顯著減少 tool execution errors;并且這種提升不是靠更長(zhǎng)回復(fù)或更多交互輪數(shù)換來(lái)的。
Figure 5 展示了一個(gè)實(shí)用結(jié)果:AREW 不只是提高 reward,還顯著減少 tool execution errors,同時(shí) response tokens 更少,interaction turns 基本可比。這說(shuō)明 AREW 的收益不是簡(jiǎn)單來(lái)自 “說(shuō)更多” 或 “多試幾輪”,而是來(lái)自更有效的 credit assignment。
論文進(jìn)一步考慮 standard dual-control setting。在這個(gè) setting 中,Qwen2.5-14B agent 需要和 GPT-4o-simulated user 協(xié)作。這里存在一個(gè)更復(fù)雜的 credit assignment 問(wèn)題:任務(wù)進(jìn)展可能來(lái)自 agent 自己正確使用工具,也可能來(lái)自 agent 引導(dǎo)用戶完成 user-side repair actions。
![]()
圖:原文 Figure 7。Tau2Bench-Telecom standard dual-control setting 中,AREW 相比 vanilla PPO 將 reward 從約 0.20 提升到約 0.50,同時(shí)減少對(duì) user-side operation shortcut 的依賴,并保持更多 assistant-side tool-use 行為。
在 vanilla PPO 中,模型容易走向一種 shortcut:更多依賴用戶側(cè)操作來(lái)完成部分任務(wù),而 assistant 自己的 tool-use 行為反而下降。這雖然能解決一部分樣本,但會(huì)使訓(xùn)練偏向最容易獲得 reward 的 progress channel,而不是 benchmark 真正希望評(píng)估的 assistant-side tool-use 能力。
AREW 則通過(guò) directional critiques 給有用的 assistant-side tool decisions 更多 credit,從而減少對(duì) user-side repair 的過(guò)度依賴,把優(yōu)化壓力合理分配到 agent 自己的有效工具使用行為上。
這個(gè)結(jié)果說(shuō)明,AREW 也可以用于更接近真實(shí) agentic application 的長(zhǎng)程工具使用環(huán)境。
Robustness:AREW 不依賴完美 critiques
AREW 使用的是 weak directional critiques,一個(gè)重要問(wèn)題是:如果 critique 有噪聲怎么辦?
論文通過(guò)隨機(jī)翻轉(zhuǎn) stepwise critiques 來(lái)評(píng)估魯棒性。
![]()
表:原文 Table 2。不同 critique perturbation ratio 下,AREW 的最終表現(xiàn)。即使 critique 被較強(qiáng)擾動(dòng),AREW 通常仍然保持與 vanilla baseline 競(jìng)爭(zhēng)甚至更好的表現(xiàn)。
結(jié)果顯示,隨著擾動(dòng)比例增加,AREW 的性能會(huì)逐漸下降,這是合理的。但在較大范圍內(nèi),AREW 仍然優(yōu)于或接近 vanilla baseline,并沒(méi)有因?yàn)?critique 不完美而崩潰。
論文 appendix 還進(jìn)一步分析了更結(jié)構(gòu)化的 critique destruction,例如只保留 AS 或 BT critique、只保留前 40% 或后 40% 的 critique、用常數(shù) label 填補(bǔ)缺失 critique 等。整體結(jié)論一致:AREW 對(duì)多種 critique 噪聲和破壞方式都具有一定魯棒性。
這也回應(yīng)了一個(gè)實(shí)際部署中的關(guān)鍵擔(dān)憂:在復(fù)雜 agentic tasks 中,我們很難得到精確的 dense supervision,但相對(duì)容易獲得一些局部方向性信號(hào)。AREW 正是為這種 supervision regime 設(shè)計(jì)的。
這項(xiàng)工作的意義與啟示
這篇工作給 RL for agentic active reasoning 中一個(gè)常見(jiàn)但容易被忽視的問(wèn)題提供了機(jī)制解釋。過(guò)去我們常說(shuō),agent 在多輪任務(wù)中表現(xiàn)不好,是因?yàn)?reward sparse、exploration hard、tool use complicated。但 AREW 指出,在 active reasoning 中還有一個(gè)更結(jié)構(gòu)性的困難:
獲取信息和使用信息是耦合學(xué)習(xí)的。Outcome reward 很難自然把這兩個(gè)能力分開(kāi) credit。
這會(huì)導(dǎo)致一種自鎖:
- BT 弱時(shí),好的 AS 行動(dòng)無(wú)法獲得應(yīng)有 credit;
- AS 弱時(shí),BT 沒(méi)有足夠證據(jù)可以學(xué)習(xí);
- 兩者一起弱時(shí),outcome-gradient 對(duì)二者的提升信號(hào)都很弱;
- 模型因此停留在低信息量 interaction pattern 中。
AREW 的思路也很直接:既然最終 reward 很難自動(dòng)分配 credit,就利用 active reasoning 中天然存在的局部診斷信號(hào),把 trajectory 內(nèi)部的 credit 重新分配給更有信息價(jià)值的決策。
這帶來(lái)幾個(gè) takeaway:
第一,active reasoning 的訓(xùn)練不能只看最終 reward。 Reward 上升不等于模型真的學(xué)會(huì)了更好地交互。我們需要關(guān)注 agent 是否更會(huì)主動(dòng)獲取信息,以及是否更會(huì)整合新證據(jù)。
第二,LLM agent 的訓(xùn)練失敗有時(shí)不是單一能力不足,而是多個(gè)能力之間的耦合失效。 AS 和 BT 單獨(dú)看都重要,但真正的問(wèn)題發(fā)生在二者互相依賴、互相 masking 的訓(xùn)練動(dòng)態(tài)中。
第三,弱監(jiān)督也可以很有用。 AREW 不要求人工標(biāo)注精確中間獎(jiǎng)勵(lì),也不需要訓(xùn)練 dense reward model。只要能判斷某些步驟大致應(yīng)該鼓勵(lì)還是抑制,就可以顯著改善 credit assignment。
第四,這類(lèi)方法可能對(duì)更復(fù)雜的 agentic systems 有啟發(fā)。在 Deep Research、coding、customer service、computer use 等任務(wù)中,agent 都需要不斷決定 “下一步獲取什么信息” 以及 “如何吸收新信息”。這正是 AS/BT coupling 最容易出現(xiàn)的地方。
歡迎查閱論文與代碼以獲取更多技術(shù)細(xì)節(jié)。
如果您覺(jué)得這篇工作有幫助,歡迎關(guān)注與引用。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.