<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      ICML 2026 | Agentic強(qiáng)化學(xué)習(xí)訓(xùn)練的信息自鎖問(wèn)題

      0
      分享至



      本文作者鄒德譽(yù),香港中文大學(xué)計(jì)算機(jī)科學(xué)與工程系博士生,本科畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué)。研究方向?yàn)榇笳Z(yǔ)言模型智能體、強(qiáng)化學(xué)習(xí)與主動(dòng)推理,關(guān)注模型在信息不完備的多輪交互中如何主動(dòng)獲取、更新并利用信念。相關(guān)工作發(fā)表于 ICLR 2026 Oral 與 ICML 2026。

      隨著大語(yǔ)言模型逐步從「單輪問(wèn)答」走向「真實(shí)環(huán)境中的持續(xù)交互」,LLM agents 正在被用于越來(lái)越復(fù)雜的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。這些任務(wù)和傳統(tǒng)問(wèn)答最大的不同在于:任務(wù)所需的信息往往不是一開(kāi)始就完整給出的。Agent 必須在不確定狀態(tài)下主動(dòng)采取行動(dòng),例如提問(wèn)、搜索、調(diào)用工具、檢查反饋,并在多輪交互中不斷更新自己對(duì)任務(wù)狀態(tài)的理解。

      這類(lèi)能力可以概括為active reasoning:在信息不完備的環(huán)境中,agent 不只是 “回答問(wèn)題”,而是需要主動(dòng)獲取新信息,并把新信息真正整合進(jìn)后續(xù)決策和推理中。

      根據(jù)過(guò)往在許多推理任務(wù)上的成功,強(qiáng)化學(xué)習(xí)似乎應(yīng)該很適合訓(xùn)練這類(lèi)能力。只要最后任務(wù)成功就給正獎(jiǎng)勵(lì),失敗就不給獎(jiǎng)勵(lì),模型不就應(yīng)該慢慢學(xué)會(huì)更好的交互策略嗎?

      但事情并沒(méi)有這么簡(jiǎn)單。與此前 T3 (Reducing Belief Deviation in Reinforcement Learning for Active Reasoning of LLM agents | ICLR-2026 Oral)對(duì)多輪推理中belief deviationbelief-trapped trajectory的分析相呼應(yīng),香港中文大學(xué)、加州大學(xué)圣地亞哥分校、佐治亞理工學(xué)院、字節(jié)跳動(dòng)的研究者進(jìn)一步發(fā)現(xiàn)發(fā)現(xiàn),在 active reasoning 場(chǎng)景中,outcome-based RL 并不一定會(huì)自然訓(xùn)練出更善于交互的 agent。相反,模型可能進(jìn)入一種低信息量的訓(xùn)練模式:它反復(fù)執(zhí)行無(wú)效操作,過(guò)早依賴初始判斷,忽略用戶或環(huán)境返回的新證據(jù);甚至在最終 reward 有所提升時(shí),背后的行為也未必真正變得更會(huì)主動(dòng)獲取和使用信息。

      如果說(shuō) T3 更關(guān)注 agent 在多輪交互中如何逐步偏離正確 belief,那么這篇論文《On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents》系統(tǒng)分析了這一現(xiàn)象背后的原因:在 active reasoning 中,agent 的表現(xiàn)同時(shí)依賴于兩個(gè)相互耦合的能力:一方面是選擇什么動(dòng)作來(lái)獲取信息,另一方面是如何把獲取到的信息整合進(jìn)后續(xù)判斷。outcome reward 很難自動(dòng)為這兩個(gè)相互依賴的環(huán)節(jié)提供清晰 credit:當(dāng)前者無(wú)法帶來(lái)有效反饋,后者就缺少可學(xué)習(xí)的證據(jù);而當(dāng)后者無(wú)法正確吸收反饋時(shí),前者的價(jià)值又很難通過(guò)最終 reward 得到正確 credit。

      研究者將這種訓(xùn)練失敗機(jī)制稱(chēng)為:

      Information Self-Locking,信息自鎖。

      基于這一觀察,作者進(jìn)一步提出了一個(gè)簡(jiǎn)單而有效的方法:AREW(Action-Selection & Belief-Tracking Advantage Reweighting),通過(guò)輕量的方向性反饋重新分配 trajectory 內(nèi)部的 credit,從而緩解 information self-locking。

      論文已被 ICML 2026 接收。



      • 論文標(biāo)題:On Information Self-Locking in Reinforcement Learning for Active Reasoning of LLM Agents
      • 項(xiàng)目代碼:https://github.com/unimpor/T3
      • 論文鏈接:https://arxiv.org/abs/2603.12109

      引言:為什么 RL 訓(xùn)練出來(lái)的 agent 還是不會(huì)主動(dòng)推理?

      在很多 LLM agent 任務(wù)中,模型并不能一開(kāi)始就看到完整答案。它必須通過(guò)多輪交互逐步逼近真實(shí)任務(wù)狀態(tài)。

      比如:

      • 在醫(yī)療問(wèn)診中,agent 需要主動(dòng)詢問(wèn)關(guān)鍵癥狀,而不是重復(fù)問(wèn)泛泛的問(wèn)題;
      • 在用戶偏好估計(jì)中,agent 需要設(shè)計(jì)有區(qū)分度的問(wèn)題,逐步識(shí)別用戶真正的偏好;
      • 在客服場(chǎng)景中,agent 需要決定什么時(shí)候發(fā)消息、什么時(shí)候調(diào)用工具、什么時(shí)候引導(dǎo)用戶完成某些操作。

      這些任務(wù)有一個(gè)共同結(jié)構(gòu):agent 的表現(xiàn)同時(shí)取決于兩件事

      第一,它要知道下一步該問(wèn)什么、查什么、調(diào)用什么工具。作者稱(chēng)為Action Selection(AS)

      第二,它要能把得到的新反饋吸收進(jìn)自己的內(nèi)部理解,真正更新對(duì)任務(wù)狀態(tài)的判斷。作者稱(chēng)為Belief Tracking(BT)



      如果 AS 很弱,agent 就拿不到有用信息;如果 BT 很弱,即使拿到了有用信息,模型也不會(huì)用。

      更關(guān)鍵的是,這兩者不是獨(dú)立的,而是強(qiáng)耦合的:

      好的行動(dòng)只有在反饋被正確使用時(shí),才會(huì)在最終 reward 中體現(xiàn)價(jià)值;好的 belief update 又依賴于前面行動(dòng)帶來(lái)了足夠有信息量的反饋。

      這就帶來(lái)了 active reasoning 中一個(gè)非常隱蔽的 credit assignment 問(wèn)題:outcome reward 只在最后出現(xiàn),它很難判斷到底是 “問(wèn)得不好”,還是 “問(wèn)到了但沒(méi)吸收好”。

      論文第一頁(yè)的圖給出了這一機(jī)制的整體直覺(jué)。



      圖:原文 Figure 1。Vanilla outcome RL 下,agent 可能進(jìn)入 self-locking:informative action 的價(jià)值被 weak BT 掩蓋,導(dǎo)致 credit assignment 錯(cuò)位;AREW 通過(guò) directional critiques 重新分配 trajectory 內(nèi)部 credit,使 AS 和 BT 重新對(duì)齊。

      Information Self-Locking:訓(xùn)練信號(hào)被 “鎖住”

      作者首先發(fā)現(xiàn)了一個(gè)反直覺(jué)現(xiàn)象。

      在 outcome-based RL 中,reward 可能確實(shí)上升了,但這并不意味著模型真正學(xué)會(huì)了主動(dòng)獲取信息。為了解耦觀察這一點(diǎn),論文先在兩個(gè)可控的 active reasoning 任務(wù)中做分析:Preference Estimation 要求 agent 通過(guò)比較問(wèn)題逐步估計(jì)用戶隱藏偏好,MediQ 則要求 agent 通過(guò)問(wèn)診病人問(wèn)題逐步識(shí)別正確診斷。二者都需要 agent 一邊主動(dòng)獲取證據(jù),一邊更新對(duì)隱藏任務(wù)狀態(tài)的判斷,因此很適合用來(lái)觀察 AS 和 BT 的訓(xùn)練動(dòng)態(tài)。

      論文在這兩類(lèi)任務(wù)中跟蹤了三個(gè)量:

      • Final reward:最終任務(wù)表現(xiàn);
      • AS proxy:agent 的行動(dòng)是否帶來(lái)有信息量的反饋;
      • BT proxy:agent 是否把反饋正確吸收進(jìn) belief。

      結(jié)果顯示,reward 可以做有限的上升,但 AS 和 BT 并沒(méi)有同步提升。也就是說(shuō),模型表面上變強(qiáng)了,但它并沒(méi)有真正更會(huì) “獲取信息” 和 “使用信息”。



      圖:原文 Figure 2。左半部分展示訓(xùn)練過(guò)程中 reward、AS、BT 的變化:藍(lán)線表示 agent 做出有信息量行動(dòng)的比例,橙線表示 agent 是否有效吸收反饋并更新 belief,綠線表示最終任務(wù)成功率。可以看到,即使成功率隨訓(xùn)練有一些有限的上升,AS 和 BT 也可能停滯甚至退化。右半部分進(jìn)一步固定相同的 action-selection 序列:橫軸表示一條軌跡中有多少次有信息量的行動(dòng),淺藍(lán)色柱子表示這類(lèi)軌跡出現(xiàn)的頻率;藍(lán)線表示由 agent 自身 BT 處理這些反饋時(shí)的成功率,橙線表示由 stronger BT 處理相同反饋時(shí)的成功率。結(jié)果顯示,只有當(dāng) BT 足夠強(qiáng)時(shí),informative AS 才會(huì)和最終 reward 形成更強(qiáng)正相關(guān)。

      這張圖的右半部分揭示了 AREW 的核心 insight:

      Weak BT 會(huì)遮蓋 informative AS 的貢獻(xiàn)。

      假設(shè) agent 提出了一個(gè)很有價(jià)值的問(wèn)題,環(huán)境也返回了關(guān)鍵證據(jù)。但如果模型沒(méi)有把這條證據(jù)吸收進(jìn)后續(xù)推理,最終答案仍然錯(cuò)了。此時(shí),outcome reward 會(huì)告訴 RL:“這條 trajectory 失敗了。”

      問(wèn)題在于,RL 并不知道失敗的原因是 belief update 做得差,而不是 action selection 做得差。于是,那個(gè)本來(lái)很有價(jià)值的問(wèn)題也可能得不到正向 credit。

      反過(guò)來(lái)也是一樣。

      如果 AS 變得保守,模型總是問(wèn)一些低信息量的問(wèn)題,BT 就拿不到有價(jià)值的反饋。沒(méi)有足夠信息流,belief tracking 也很難學(xué)好。久而久之,RL 可能反而鼓勵(lì)模型依賴初始判斷或非交互式 shortcut,而不是認(rèn)真利用交互反饋(詳見(jiàn)原文 Section 2.3 observation 3 | Fig. 6a)。

      這就是 information self-locking:

      AS 弱導(dǎo)致 BT 沒(méi)證據(jù)可學(xué);BT 弱導(dǎo)致 AS 的價(jià)值無(wú)法被 reward 識(shí)別。二者互相限制,使模型卡在低信息量訓(xùn)練區(qū)域。

      從 Sef-Locking 看 active reasoning 的訓(xùn)練瓶頸

      前面提到,論文將 active reasoning 中的 agent 行為分解為兩個(gè)相互交替的過(guò)程:

      1. Action Selection(AS):根據(jù)當(dāng)前 belief 選擇下一步環(huán)境交互動(dòng)作,例如提問(wèn)、搜索、調(diào)用工具;
      2. Belief Tracking(BT):根據(jù)新反饋更新內(nèi)部任務(wù)理解,并決定后續(xù)如何行動(dòng)。

      這個(gè)分解指出 active reasoning 的難點(diǎn)不只是 sparse reward,而是sparse outcome reward 下兩個(gè)能力的耦合學(xué)習(xí)失敗

      普通 outcome RL 只看到最終成敗,很難把 reward 正確分配給 trajectory 中不同的 AS 和 BT 決策。結(jié)果是:

      • 如果 BT 差,好的 AS 行動(dòng)也無(wú)法轉(zhuǎn)化為高 reward;
      • 如果 AS 差,BT 沒(méi)有足夠信息可以吸收;
      • 如果二者都處于低水平,梯度信號(hào)會(huì)同時(shí)變?nèi)酰?/li>
      • 模型可能長(zhǎng)期停留在低信息量區(qū)域,難以靠 outcome reward 自行逃離。

      論文在理論部分把這個(gè)區(qū)域形式化為self-locking regime:AS informativeness 低,同時(shí) BT capability 也低。在這個(gè)區(qū)域中,outcome-gradient 對(duì) AS 和 BT 的提升信號(hào)都會(huì)被當(dāng)前能力水平限制,因此訓(xùn)練動(dòng)態(tài)很難自然逃出。

      為了更直觀地解釋這一點(diǎn),論文 appendix 給出了一個(gè)二維相圖:橫軸表示 AS informativeness,縱軸表示 BT capability。



      圖:原文 Figure 8。AS-BT phase space 中的 learning dynamics。左圖表示 outcome-only RL:在低 AS、低 BT 的 locking regime 內(nèi),更新方向很弱,agent 難以逃離;右圖表示 AREW:directional critiques 在 locking regime 內(nèi)引入額外更新方向,為模型創(chuàng)造逃離低信息量區(qū)域的路徑。這張圖概括了 AREW 的理論直覺(jué):作者不需要完全重寫(xiě) RL,也不需要精確 dense reward;只需要在 AS/BT 的關(guān)鍵局部決策上提供一些方向性信號(hào),就可以改變低信息量區(qū)域內(nèi)的 effective update field。

      AREW:用 weak directional critiques 重新分配 trajectory 內(nèi)部 credit

      既然 SeL 的核心問(wèn)題在于 outcome reward 難以在 AS 和 BT 之間提供清晰的學(xué)習(xí)信號(hào),一個(gè)直接的方案,是為每個(gè)中間決策都設(shè)計(jì)精確的 dense supervision:例如準(zhǔn)確判斷某個(gè)問(wèn)題到底貢獻(xiàn)了多少信息,或者某次 belief update 到底應(yīng)當(dāng)獲得多少中間獎(jiǎng)勵(lì)。但是,在長(zhǎng)程 agentic tasks 中,這類(lèi) calibrated intermediate reward 往往不能輕易獲得。

      幸運(yùn)的是,agentic active reasoning 場(chǎng)景通常會(huì)自然暴露一些更粗粒度、但更容易獲取的方向性診斷信號(hào):例如,一個(gè) action 是否讓環(huán)境或用戶返回了新的有用證據(jù);一次 belief update 是否把新觀察朝著更接近真實(shí)任務(wù)狀態(tài)的方向吸收進(jìn)去。

      AREW 的出發(fā)點(diǎn)正是利用這些uncalibrated directional signals。它并不試圖為每一步構(gòu)造精確的中間獎(jiǎng)勵(lì),也不需要訓(xùn)練額外的 dense reward model,而是把這些方向性信號(hào)作為 weak directional critiques,注入到 policy-gradient 更新中,對(duì) trajectory 內(nèi)部的 stepwise advantage 進(jìn)行重新分配。

      換句話說(shuō),AREW 保留原本的 outcome reward,只是在 actor update 時(shí)把更多 credit 分配給被正向 critique 的 AS/BT 決策,并削弱被負(fù)向 critique 的決策。通過(guò)這種 reward-preserving 的 credit reallocation,AREW 在 SeL regime 中重新提供非退化的局部學(xué)習(xí)信號(hào),使 AS 和 BT 有機(jī)會(huì)共同改善并逃離低信息量訓(xùn)練區(qū)域。

      在實(shí)現(xiàn)上,AREW 將一條 trajectory 中被正向 critique 的步驟集合記為 positive steps,被負(fù)向 critique 的步驟集合記為 negative steps。然后構(gòu)造一個(gè)intra-trajectory likelihood margin:增加 positive steps 的 log-probability,相對(duì)降低 negative steps 的 log-probability。

      經(jīng)過(guò)推導(dǎo)(詳見(jiàn)原文 Section 4.2),最終落實(shí)到 policy gradient 上,就是一個(gè)非常輕量的 advantage reweighting:

      對(duì)原本每一步的 advantage 加上一個(gè)由 critique 決定的局部修正項(xiàng)。

      直觀來(lái)說(shuō),AREW 做的是:

      • 不改變最終 outcome reward;
      • 不改變 critic target;
      • 不重寫(xiě) PPO / GRPO / GSPO 的核心框架;
      • 只是在 actor update 時(shí),把 trajectory 內(nèi)部的 credit 從負(fù)向步驟重新分配給正向步驟。

      這使得 AREW 具有很強(qiáng)的可集成性:它可以作為一個(gè)上層 credit assignment 修正機(jī)制,插入現(xiàn)有 outcome-based RL pipeline。

      更重要的是,AREW 不要求 critique 完美。理論分析(原文 proposition 4.1)表明,只要 directional critiques 的weighted accuracy好于隨機(jī),就可以提供有用的一階改進(jìn)信號(hào)。后面的實(shí)驗(yàn)也驗(yàn)證了這一點(diǎn):即使 critique 有噪聲,AREW 仍然通常優(yōu)于 vanilla RL。

      實(shí)驗(yàn)設(shè)置:4 個(gè)交互領(lǐng)域,9 個(gè) active reasoning 任務(wù) / 設(shè)置

      論文在多個(gè) agentic active reasoning 場(chǎng)景中系統(tǒng)評(píng)估 AREW。

      整體包括 4 個(gè)交互領(lǐng)域:

      1. Preference Estimation

      Agent 需要通過(guò)多輪 pairwise comparison 逐步估計(jì)用戶隱藏偏好向量。該領(lǐng)域包含 PE-G 和 PE-F 不同設(shè)置。AREW 在這里采用的 AS 信號(hào)非常直觀:如果兩部被比較的 item 在不同屬性維度上存在 trade-off,而不是一方在所有維度上都明顯占優(yōu),那么這個(gè) comparison 更可能帶來(lái)有信息量的偏好反饋;BT 信號(hào)則看 agent 更新后的偏好估計(jì)是否比上一輪更接近真實(shí)偏好向量。

      2. Medical Diagnosis

      在 MediQ 中,agent 需要基于 clinical vignette 和候選假設(shè),主動(dòng)詢問(wèn)病人診斷相關(guān)問(wèn)題,并逐步提高正確診斷 的 belief。AREW 的 AS 信號(hào)來(lái)自 patient feedback 是否真的提供了新的診斷信息;BT 信號(hào)則檢查模型是否根據(jù)有效反饋合理更新了不同診斷假設(shè)的置信度,例如是否讓正確假設(shè)相對(duì)其他候選更占優(yōu),或者在無(wú)信息反饋下保持 belief 不被錯(cuò)誤擾動(dòng)。

      3. Troubleshooting

      在 FloDial 中,agent 需要通過(guò) yes/no diagnostic questions 排查用戶問(wèn)題,并從候選解釋或解決方案中識(shí)別正確項(xiàng)。AREW 在這里把用戶反饋?zhàn)鳛檩p量方向性信號(hào):如果問(wèn)題命中了可診斷信息并得到有效 Yes/No 反饋,就說(shuō)明該 action 更有價(jià)值;如果只得到 Unknown,則說(shuō)明該問(wèn)題沒(méi)有匹配到有效診斷線索。BT 側(cè)則進(jìn)一步檢查 agent 是否在獲得有效反饋后提高了正確故障候選的置信度;如果反饋是 Unknown,則更希望 belief 保持穩(wěn)定,而不是憑空漂移。

      4. Customer Service / Tool Use

      在 tau2-bench-Telecom 中,agent 需要通過(guò)多輪對(duì)話和工具調(diào)用完成真實(shí)感更強(qiáng)的 telecom customer-service 任務(wù)。AREW 的設(shè)置在本文后面會(huì)被單獨(dú)提到。

      在前三個(gè)領(lǐng)域中,論文評(píng)估了 7 個(gè) active reasoning tasks;在 tau2-bench 上進(jìn)一步評(píng)估 solo setting 和 standard dual-control setting,總共形成 9 個(gè)任務(wù) / 設(shè)置。所有任務(wù)都只提供終局監(jiān)督。

      主要模型包括Qwen2.5-7B-InstructLLaMA-3.1-8B-Instruct。RL 算法包括 PPO,并進(jìn)一步擴(kuò)展到 GRPO 和 GSPO。

      主結(jié)果:AREW 在幾乎所有設(shè)置下穩(wěn)定優(yōu)于 vanilla PPO

      論文首先在前三個(gè)領(lǐng)域的 7 個(gè)任務(wù)上報(bào)告最終平均 outcome reward。



      表:原文 Table 1。AREW 在 Preference Estimation、Medical Diagnosis、Troubleshooting 三個(gè)領(lǐng)域的 7 個(gè) agentic active reasoning tasks 上,與 direct inference 和 vanilla PPO 進(jìn)行比較。

      這里,AREW-AS only表示僅使用 action-selection 側(cè)的 directional critiques 來(lái)重加權(quán)動(dòng)作決策的 advantage,而AREW-AS+BT則同時(shí)使用 action-selection 和 belief-tracking 兩側(cè)的 critiques,對(duì) “獲取信息” 和 “吸收信息” 兩個(gè)環(huán)節(jié)的 credit 進(jìn)行聯(lián)合修正。

      主結(jié)果非常清晰:

      在 28 個(gè) PPO 評(píng)估設(shè)置中,AREW 在 27 個(gè)設(shè)置中顯著優(yōu)于 vanilla PPO。

      這些結(jié)果說(shuō)明,AREW 的收益并不是某個(gè)模型或某個(gè)數(shù)據(jù)集上的偶然現(xiàn)象,而是在不同模型族和不同 active reasoning 任務(wù)中都能穩(wěn)定發(fā)揮作用。

      訓(xùn)練動(dòng)態(tài):AREW 不只是提高最終分?jǐn)?shù),也改變了學(xué)習(xí)過(guò)程

      除了最終結(jié)果,論文還展示了訓(xùn)練過(guò)程中的 reward dynamics。



      圖:原文 Figure 3。Qwen2.5-7B-Instruct 上,vanilla PPO、AREW-AS only、AREW-AS+BT 在 PE、MediQ、FloDial-Hard 上的 reward training dynamics。

      這張圖可以看到三類(lèi)典型現(xiàn)象。

      • 在一些任務(wù)中,vanilla PPO 幾乎無(wú)法持續(xù)提升 reward;而 AREW 可以明顯打破這種停滯,并持續(xù)提高 performance。
      • 在一些 vanilla PPO 本來(lái)也能緩慢提升的任務(wù)中,AREW 仍然表現(xiàn)出更快的收斂速度和更高的最終 reward。
      • 即使某些情況下 reward curve 看起來(lái)差距沒(méi)有那么大,AREW 也會(huì)在 AS 和 BT 行為層面帶來(lái)更清晰的改進(jìn)。也就是說(shuō),AREW 不只是 “刷高分”,而是在改變模型獲取和使用信息的方式。

      AS/BT 行為分析:AREW 真的讓 agent 更會(huì)獲取和吸收信息

      為了驗(yàn)證 AREW 的改進(jìn)是否來(lái)自 active reasoning 能力本身,論文進(jìn)一步分析了 AS 和 BT proxy。



      圖:原文 Figure 4。AREW 對(duì) AS 和 BT capability proxies 的影響。

      這張圖最值得注意的地方,不只是 AREW-AS+BT 效果最好,還有:AREW-AS only 已經(jīng)可以同時(shí)改善 AS 和 BT

      表面上看,AS-only 只對(duì) action-selection 側(cè)進(jìn)行 advantage reweighting,也就是只鼓勵(lì)模型選擇更有信息量的動(dòng)作,并沒(méi)有直接給 belief-tracking 決策額外加 credit。但實(shí)驗(yàn)結(jié)果顯示,僅僅改善信息獲取,BT 也會(huì)隨之變好。

      這正好說(shuō)明 AS 和 BT 并不是兩個(gè)互相獨(dú)立的能力。更好的 AS 會(huì)改變 agent 后續(xù)看到的 observation stream:當(dāng)環(huán)境或用戶返回的反饋更有信息量,belief tracking 就更容易從這些反饋中學(xué)習(xí)和更新。換句話說(shuō),即使沒(méi)有直接優(yōu)化 BT,只要 AS 提供了更高質(zhì)量的信息流,BT 的學(xué)習(xí)條件也會(huì)被改善。

      當(dāng)然,AS-only 并不能完全替代 BT-side correction。Figure 4 中,AREW-AS+BT 在多數(shù)情況下會(huì)進(jìn)一步提升 BT proxy,說(shuō)明當(dāng)模型不僅被鼓勵(lì) “獲取更有用的信息”,也被鼓勵(lì) “把這些信息正確吸收進(jìn) belief” 時(shí),AS 和 BT 更容易形成正向循環(huán)。

      因此,AREW 的收益不是簡(jiǎn)單來(lái)自某個(gè)單點(diǎn)模塊的增強(qiáng),而是來(lái)自對(duì)AS-BT coupling 的干預(yù)。只修正 AS 已經(jīng)能夠帶動(dòng) BT,而同時(shí)修正 AS 和 BT 則可以更充分地打破 information self-locking。

      不同 RL 算法有效性

      一個(gè)自然問(wèn)題是:AREW 是否只是對(duì) PPO 有用?

      論文進(jìn)一步在 GRPO 和 GSPO 上做了實(shí)驗(yàn)。結(jié)果顯示,即使使用 group-based RL variants,self-locking 仍然可能存在;僅僅增加 rollout 采樣 并不能從根本上解決 AS/BT 的耦合 credit assignment 問(wèn)題。而 AREW 在 GRPO 和 GSPO 下也能提升 final performance、AS 和 BT proxies。



      圖:原文 Figure 6 (b) (c)。

      真場(chǎng)景應(yīng)用 customer-service agent:tau2-bench 上的結(jié)果

      除了 controlled domains,論文還在更復(fù)雜的 tau2-bench-Telecom 上評(píng)估 AREW。

      tau2-bench 的挑戰(zhàn)在于,agent 不只是問(wèn)答,還需要在多輪 customer-service 場(chǎng)景中進(jìn)行工具調(diào)用、與用戶協(xié)作,并完成真實(shí)感更強(qiáng)的服務(wù)任務(wù)。

      論文首先考慮no-user solo setting。在這個(gè) setting 中,Qwen2.5-7B agent 直接控制任務(wù)解決過(guò)程。AREW 使用 benchmark 自帶的信號(hào)構(gòu)造 critiques:

      • 負(fù)向 critique 主要來(lái)自運(yùn)行過(guò)程中的明顯失敗,例如工具調(diào)用格式錯(cuò)誤、工具執(zhí)行失敗、重復(fù)執(zhí)行相同動(dòng)作等;
      • 正向 critique 則來(lái)自任務(wù)評(píng)估器提供的進(jìn)展信號(hào),例如當(dāng)前軌跡是否新完成了某個(gè)預(yù)期動(dòng)作,或是否比上一階段更接近任務(wù)完成。



      圖:原文 Figure 5。Tau2Bench-Telecom solo setting 中,AREW 提升 reward,同時(shí)顯著減少 tool execution errors;并且這種提升不是靠更長(zhǎng)回復(fù)或更多交互輪數(shù)換來(lái)的。

      Figure 5 展示了一個(gè)實(shí)用結(jié)果:AREW 不只是提高 reward,還顯著減少 tool execution errors,同時(shí) response tokens 更少,interaction turns 基本可比。這說(shuō)明 AREW 的收益不是簡(jiǎn)單來(lái)自 “說(shuō)更多” 或 “多試幾輪”,而是來(lái)自更有效的 credit assignment。

      論文進(jìn)一步考慮 standard dual-control setting。在這個(gè) setting 中,Qwen2.5-14B agent 需要和 GPT-4o-simulated user 協(xié)作。這里存在一個(gè)更復(fù)雜的 credit assignment 問(wèn)題:任務(wù)進(jìn)展可能來(lái)自 agent 自己正確使用工具,也可能來(lái)自 agent 引導(dǎo)用戶完成 user-side repair actions。



      圖:原文 Figure 7。Tau2Bench-Telecom standard dual-control setting 中,AREW 相比 vanilla PPO 將 reward 從約 0.20 提升到約 0.50,同時(shí)減少對(duì) user-side operation shortcut 的依賴,并保持更多 assistant-side tool-use 行為。

      在 vanilla PPO 中,模型容易走向一種 shortcut:更多依賴用戶側(cè)操作來(lái)完成部分任務(wù),而 assistant 自己的 tool-use 行為反而下降。這雖然能解決一部分樣本,但會(huì)使訓(xùn)練偏向最容易獲得 reward 的 progress channel,而不是 benchmark 真正希望評(píng)估的 assistant-side tool-use 能力。

      AREW 則通過(guò) directional critiques 給有用的 assistant-side tool decisions 更多 credit,從而減少對(duì) user-side repair 的過(guò)度依賴,把優(yōu)化壓力合理分配到 agent 自己的有效工具使用行為上。

      這個(gè)結(jié)果說(shuō)明,AREW 也可以用于更接近真實(shí) agentic application 的長(zhǎng)程工具使用環(huán)境。

      Robustness:AREW 不依賴完美 critiques

      AREW 使用的是 weak directional critiques,一個(gè)重要問(wèn)題是:如果 critique 有噪聲怎么辦?

      論文通過(guò)隨機(jī)翻轉(zhuǎn) stepwise critiques 來(lái)評(píng)估魯棒性。



      表:原文 Table 2。不同 critique perturbation ratio 下,AREW 的最終表現(xiàn)。即使 critique 被較強(qiáng)擾動(dòng),AREW 通常仍然保持與 vanilla baseline 競(jìng)爭(zhēng)甚至更好的表現(xiàn)。

      結(jié)果顯示,隨著擾動(dòng)比例增加,AREW 的性能會(huì)逐漸下降,這是合理的。但在較大范圍內(nèi),AREW 仍然優(yōu)于或接近 vanilla baseline,并沒(méi)有因?yàn)?critique 不完美而崩潰。

      論文 appendix 還進(jìn)一步分析了更結(jié)構(gòu)化的 critique destruction,例如只保留 AS 或 BT critique、只保留前 40% 或后 40% 的 critique、用常數(shù) label 填補(bǔ)缺失 critique 等。整體結(jié)論一致:AREW 對(duì)多種 critique 噪聲和破壞方式都具有一定魯棒性。

      這也回應(yīng)了一個(gè)實(shí)際部署中的關(guān)鍵擔(dān)憂:在復(fù)雜 agentic tasks 中,我們很難得到精確的 dense supervision,但相對(duì)容易獲得一些局部方向性信號(hào)。AREW 正是為這種 supervision regime 設(shè)計(jì)的。

      這項(xiàng)工作的意義與啟示

      這篇工作給 RL for agentic active reasoning 中一個(gè)常見(jiàn)但容易被忽視的問(wèn)題提供了機(jī)制解釋。過(guò)去我們常說(shuō),agent 在多輪任務(wù)中表現(xiàn)不好,是因?yàn)?reward sparse、exploration hard、tool use complicated。但 AREW 指出,在 active reasoning 中還有一個(gè)更結(jié)構(gòu)性的困難:

      獲取信息和使用信息是耦合學(xué)習(xí)的。Outcome reward 很難自然把這兩個(gè)能力分開(kāi) credit。

      這會(huì)導(dǎo)致一種自鎖:

      • BT 弱時(shí),好的 AS 行動(dòng)無(wú)法獲得應(yīng)有 credit;
      • AS 弱時(shí),BT 沒(méi)有足夠證據(jù)可以學(xué)習(xí);
      • 兩者一起弱時(shí),outcome-gradient 對(duì)二者的提升信號(hào)都很弱;
      • 模型因此停留在低信息量 interaction pattern 中。

      AREW 的思路也很直接:既然最終 reward 很難自動(dòng)分配 credit,就利用 active reasoning 中天然存在的局部診斷信號(hào),把 trajectory 內(nèi)部的 credit 重新分配給更有信息價(jià)值的決策。

      這帶來(lái)幾個(gè) takeaway:

      第一,active reasoning 的訓(xùn)練不能只看最終 reward。 Reward 上升不等于模型真的學(xué)會(huì)了更好地交互。我們需要關(guān)注 agent 是否更會(huì)主動(dòng)獲取信息,以及是否更會(huì)整合新證據(jù)。

      第二,LLM agent 的訓(xùn)練失敗有時(shí)不是單一能力不足,而是多個(gè)能力之間的耦合失效。 AS 和 BT 單獨(dú)看都重要,但真正的問(wèn)題發(fā)生在二者互相依賴、互相 masking 的訓(xùn)練動(dòng)態(tài)中。

      第三,弱監(jiān)督也可以很有用。 AREW 不要求人工標(biāo)注精確中間獎(jiǎng)勵(lì),也不需要訓(xùn)練 dense reward model。只要能判斷某些步驟大致應(yīng)該鼓勵(lì)還是抑制,就可以顯著改善 credit assignment。

      第四,這類(lèi)方法可能對(duì)更復(fù)雜的 agentic systems 有啟發(fā)。在 Deep Research、coding、customer service、computer use 等任務(wù)中,agent 都需要不斷決定 “下一步獲取什么信息” 以及 “如何吸收新信息”。這正是 AS/BT coupling 最容易出現(xiàn)的地方。

      歡迎查閱論文與代碼以獲取更多技術(shù)細(xì)節(jié)。

      如果您覺(jué)得這篇工作有幫助,歡迎關(guān)注與引用。



      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      兩支足球隊(duì)賽場(chǎng)打架致多人受傷,警方及多部門(mén)介入調(diào)查

      兩支足球隊(duì)賽場(chǎng)打架致多人受傷,警方及多部門(mén)介入調(diào)查

      極目新聞
      2026-06-22 19:23:52
      紙尿褲全面失控!舉報(bào)人再拿重磅鐵證,真相恐不只是嬰兒生殖受損

      紙尿褲全面失控!舉報(bào)人再拿重磅鐵證,真相恐不只是嬰兒生殖受損

      冰語(yǔ)歷史
      2026-06-21 11:09:21
      烏克蘭無(wú)人機(jī)襲擊俄羅斯境內(nèi)巴士,造成人員傷亡,中方:譴責(zé)任何針對(duì)無(wú)辜平民的襲擊,呼吁當(dāng)事各方推動(dòng)局勢(shì)盡快降溫

      烏克蘭無(wú)人機(jī)襲擊俄羅斯境內(nèi)巴士,造成人員傷亡,中方:譴責(zé)任何針對(duì)無(wú)辜平民的襲擊,呼吁當(dāng)事各方推動(dòng)局勢(shì)盡快降溫

      政知新媒體
      2026-06-22 16:47:04
      江蘇連云港通報(bào):廢品收購(gòu)站經(jīng)營(yíng)者已被采取刑事拘留強(qiáng)制措施

      江蘇連云港通報(bào):廢品收購(gòu)站經(jīng)營(yíng)者已被采取刑事拘留強(qiáng)制措施

      觀察者網(wǎng)
      2026-06-22 10:47:09
      雷軍回應(yīng)小女孩吐槽沖上熱搜:他的解釋?zhuān)屓W(wǎng)觀眾匪夷所思!

      雷軍回應(yīng)小女孩吐槽沖上熱搜:他的解釋?zhuān)屓W(wǎng)觀眾匪夷所思!

      李晚書(shū)
      2026-06-22 10:46:30
      29歲女主持人因癌癥去世,確診僅幾個(gè)月,她生前申請(qǐng)做大體老師……這個(gè)病被稱(chēng)為“婦癌之王”,早期腫瘤常規(guī)婦科檢查很難發(fā)現(xiàn)

      29歲女主持人因癌癥去世,確診僅幾個(gè)月,她生前申請(qǐng)做大體老師……這個(gè)病被稱(chēng)為“婦癌之王”,早期腫瘤常規(guī)婦科檢查很難發(fā)現(xiàn)

      極目新聞
      2026-06-22 17:05:28
      娜然辱華言論曝光,霍家婚訊緊急剎車(chē),郭晶晶一句話把門(mén)堵死了

      娜然辱華言論曝光,霍家婚訊緊急剎車(chē),郭晶晶一句話把門(mén)堵死了

      往史過(guò)眼云煙
      2026-06-22 16:48:30
      菲防長(zhǎng)徹底完蛋!中方制裁不到十天,又被國(guó)內(nèi)質(zhì)疑:你是哪國(guó)防長(zhǎng)

      菲防長(zhǎng)徹底完蛋!中方制裁不到十天,又被國(guó)內(nèi)質(zhì)疑:你是哪國(guó)防長(zhǎng)

      詩(shī)里尋那個(gè)他
      2026-06-22 03:46:52
      達(dá)洛特揭秘:葡萄牙隊(duì)提前預(yù)判C羅會(huì)被黑,全隊(duì)已達(dá)成共識(shí)

      達(dá)洛特揭秘:葡萄牙隊(duì)提前預(yù)判C羅會(huì)被黑,全隊(duì)已達(dá)成共識(shí)

      賽場(chǎng)速報(bào)局
      2026-06-23 00:26:15
      高市沒(méi)想到,中國(guó)竟給了日本6噸金屬鎵:松繩子是為更好地立規(guī)矩

      高市沒(méi)想到,中國(guó)竟給了日本6噸金屬鎵:松繩子是為更好地立規(guī)矩

      流史歲月
      2026-06-22 14:10:10
      威金斯交易評(píng)級(jí)雙贏!雷霆節(jié)省6100萬(wàn)美元評(píng)A 老鷹獲優(yōu)質(zhì)側(cè)翼評(píng)A+

      威金斯交易評(píng)級(jí)雙贏!雷霆節(jié)省6100萬(wàn)美元評(píng)A 老鷹獲優(yōu)質(zhì)側(cè)翼評(píng)A+

      羅說(shuō)NBA
      2026-06-22 13:42:11
      馬云攜阿里高管下田插秧 全員挽褲光腳勞作 田間笑容燦爛

      馬云攜阿里高管下田插秧 全員挽褲光腳勞作 田間笑容燦爛

      快科技
      2026-06-22 17:56:07
      葡萄牙隊(duì)孔塞桑:我們沒(méi)義務(wù)給C羅喂球,會(huì)把球傳給位置最好的隊(duì)友,他和任何球員一樣,都是來(lái)幫助球隊(duì)的

      葡萄牙隊(duì)孔塞桑:我們沒(méi)義務(wù)給C羅喂球,會(huì)把球傳給位置最好的隊(duì)友,他和任何球員一樣,都是來(lái)幫助球隊(duì)的

      極目新聞
      2026-06-22 11:29:35
      滾出去!以色列代表聯(lián)合國(guó)會(huì)議當(dāng)場(chǎng)發(fā)飆,怒斥聯(lián)合國(guó)官員:你閉嘴

      滾出去!以色列代表聯(lián)合國(guó)會(huì)議當(dāng)場(chǎng)發(fā)飆,怒斥聯(lián)合國(guó)官員:你閉嘴

      知鑒明史
      2026-06-21 23:22:27
      抓特務(wù)票房慘淡讓馮小剛低頭:時(shí)代早變了,沒(méi)有人必須為誰(shuí)買(mǎi)單

      抓特務(wù)票房慘淡讓馮小剛低頭:時(shí)代早變了,沒(méi)有人必須為誰(shuí)買(mǎi)單

      十為先生
      2026-06-22 15:46:44
      酒吧撞見(jiàn)妻子與人擁吻,我輕拍男人肩膀:兄弟,我老婆以后歸你了

      酒吧撞見(jiàn)妻子與人擁吻,我輕拍男人肩膀:兄弟,我老婆以后歸你了

      千秋文化
      2026-06-22 19:53:19
      3-1,偉大的逆轉(zhuǎn)!世界杯歷史首勝+出線,法老軍團(tuán)創(chuàng)92年國(guó)家歷史

      3-1,偉大的逆轉(zhuǎn)!世界杯歷史首勝+出線,法老軍團(tuán)創(chuàng)92年國(guó)家歷史

      童叔不飆車(chē)
      2026-06-23 01:05:02
      特斯拉中國(guó)特價(jià)車(chē)突然開(kāi)售,直接便宜 3 萬(wàn)!

      特斯拉中國(guó)特價(jià)車(chē)突然開(kāi)售,直接便宜 3 萬(wàn)!

      XCiOS俱樂(lè)部
      2026-06-22 22:04:12
      所有人都預(yù)判日本經(jīng)濟(jì)衰退,可沒(méi)人想到,崩這么快、垮得這么徹底

      所有人都預(yù)判日本經(jīng)濟(jì)衰退,可沒(méi)人想到,崩這么快、垮得這么徹底

      臨云史策
      2026-06-22 14:08:55
      以色列國(guó)家安全部長(zhǎng):整個(gè)黎巴嫩都應(yīng)該成為以色列的游樂(lè)場(chǎng)和打擊目標(biāo),伊朗人應(yīng)該被“轟炸、轟炸、再轟炸”

      以色列國(guó)家安全部長(zhǎng):整個(gè)黎巴嫩都應(yīng)該成為以色列的游樂(lè)場(chǎng)和打擊目標(biāo),伊朗人應(yīng)該被“轟炸、轟炸、再轟炸”

      大風(fēng)新聞
      2026-06-22 13:57:23
      2026-06-23 02:32:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      13329文章數(shù) 142677關(guān)注度
      往期回顧 全部

      科技要聞

      馬云與阿里巴巴眾高管下田插秧

      頭條要聞

      媒體:中國(guó)"兩箭齊發(fā)"反制美國(guó) 不賣(mài)了也不買(mǎi)了

      頭條要聞

      媒體:中國(guó)"兩箭齊發(fā)"反制美國(guó) 不賣(mài)了也不買(mǎi)了

      體育要聞

      法國(guó)球星祝中國(guó)隊(duì)下屆世界杯取得好成績(jī)

      娛樂(lè)要聞

      陪睡陪玩是皮毛,向佐揭內(nèi)娛暗規(guī)則

      財(cái)經(jīng)要聞

      前美聯(lián)儲(chǔ)主席格林斯潘去世 享年100歲

      汽車(chē)要聞

      華為智駕ADS限時(shí)優(yōu)惠月底結(jié)束 7月1日前下訂立省3000元

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      手機(jī)
      公開(kāi)課
      軍事航空

      家居要聞

      綠意盎然 自然之境

      房產(chǎn)要聞

      一年時(shí)間,36個(gè)盤(pán)“消失”!海口樓市,罕見(jiàn)“大收縮”!

      手機(jī)要聞

      一加 16T曝光,6.3英寸超高刷小直屏

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      東風(fēng)-17發(fā)射狀態(tài)首次公開(kāi) 多車(chē)齊射場(chǎng)面硬核

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩精品卡1卡2日韩在线| 国内精品久久久久久99蜜桃| 国产精品一卡二卡三卡| 国产caonila在线观看| 2022最新国产在线不卡a| 色综合热无码热国产| 久久做受www| 99久久国产宗和精品1上映| 国产综合在线视频_亚洲日韩在线观| 亚洲激情小说| 亚洲欧美人成网站在线观看看| 精品国产成人国产在线观看| 亚洲欧洲日产国码久在线| 中文字幕日产av| 色综合久久中文综合久久激情| 在线观看网址你懂的| 1300部小u女视频在线| 国产精品ⅴ无码大片在线看| 久久国产一区二区日韩av| 亚洲无码网站| 日韩理伦片一区二区三区| 日韩人妻无码专区一| 99日本亚洲黄色三级高清网站| 日韩亚洲中文有码视频| 免费无码av片在线观看播放| 欧美丰满熟妇xxxx性ppx人交| 熟女亚洲精品| 韩国19禁无遮挡啪啪无码网站 | 精品亚洲网| 亚洲AV无码久久精品国产老人| 久久天天躁狠狠躁夜夜躁2012 | 人妻精品视频| 成人性生交大片免费看r老牛网站 中文字幕一区二区三区四区五区 久久久久久毛片免费播放 | 热久久美女精品天天吊色| 日本91视频| 国产97色在线 | 免费| 欧美性爱第三页| 国内精品久久久久激情影院| 国产真实乱XXXⅩ视频| 亚洲综合在线日韩av| 亚洲成年av天堂动漫网站|