<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      CASCADE:讓Agent在部署任務(wù)流中進行在線經(jīng)驗學(xué)習(xí)

      0
      分享至



      本文作者來自倫敦大學(xué)學(xué)院、吉林大學(xué)和倫敦國王學(xué)院。本文第一作者為吉林大學(xué)博士生郭思源,倫敦大學(xué)學(xué)院汪軍教授為論文最后作者。指導(dǎo)教師還包括倫敦國王學(xué)院杜雅麗副教授、吉林大學(xué)陳賀昌研究員與常毅教授。

      當(dāng) LLM Agent 進入真實應(yīng)用后,它面對的不再是一次性的靜態(tài)測試集,而是持續(xù)到來的任務(wù)流。

      每一次工具調(diào)用、代碼執(zhí)行、網(wǎng)頁搜索或任務(wù)完成,都會產(chǎn)生反饋:成功還是失敗?證據(jù)是否充分?工具是否選對?這些部署階段自然產(chǎn)生的信號,能否反過來幫助 Agent 變得更好?

      研究團隊的最新工作提出了部署時學(xué)習(xí)(Deployment-Time Learning,DTL),并進一步提出 CASCADE。它的核心不是簡單積累經(jīng)驗,而是讓 Agent 在在線任務(wù)流中學(xué)會選擇經(jīng)驗:面對當(dāng)前任務(wù),應(yīng)該參考過去哪一次交互,才能做出更好的決策?



      • 論文標(biāo)題:CASCADE: Case-Based Continual Adaptation for Large Language Models During Deploymen
      • 論文鏈接:https://arxiv.org/abs/2605.06702
      • 代碼倉庫:https://github.com/guosyjlu/CASCADE
      • 基準(zhǔn)測試:https://huggingface.co/datasets/guosy/DTLBench

      研究背景

      目前 Agent 經(jīng)驗學(xué)習(xí)的相關(guān)工作中,常見設(shè)定大致有兩類:

      第一類延續(xù)傳統(tǒng)機器學(xué)習(xí)范式:系統(tǒng)先在訓(xùn)練集上學(xué)習(xí),例如微調(diào)模型、優(yōu)化提示詞、構(gòu)建記憶庫或技能庫,然后在測試集上評估。

      第二類則關(guān)注運行時學(xué)習(xí),即系統(tǒng)在同一個數(shù)據(jù)集上先學(xué)習(xí)多輪,然后觀測其性能提升。

      這些設(shè)定都具有研究價值,但真實部署還包含一個重要維度:時間。在真實系統(tǒng)中,任務(wù)是按順序到來的。Agent 不能提前看到未來任務(wù),也不能隨意回到過去重做某個請求。每一步既是一次服務(wù),也是一次反饋收集;當(dāng)前選擇不僅影響當(dāng)前任務(wù)結(jié)果,也可能影響后續(xù)策略。



      因此,CASCADE 將部署時學(xué)習(xí)定義為一個在線學(xué)習(xí)問題。在第 t 步,Agent 觀察到一個查詢,生成答案或行動軌跡,環(huán)境返回成功 / 失敗的二值反饋。Agent 的目標(biāo)不再只是優(yōu)化單個任務(wù),而是提高整個部署序列上的長期成功率;等價地說,是降低在線學(xué)習(xí)中的遺憾(Regret)。這一設(shè)定更接近工業(yè)系統(tǒng)中的持續(xù)服務(wù)過程,也為評估 Agent 的部署適應(yīng)能力提供了清晰形式化。

      基于案例的部署時學(xué)習(xí):CASCADE

      在部署時學(xué)習(xí)的設(shè)定下,基座模型保持固定,不對其參數(shù)進行在線更新。學(xué)習(xí)發(fā)生在 Agent 的外圍組件中,尤其是記憶和檢索機制。CASCADE 以基于案例的推理(Case-Based Reasoning,CBR)為底層框架。當(dāng)新任務(wù)到來時,系統(tǒng)從歷史案例庫中檢索相關(guān)成功案例,將其作為上下文提供給 LLM,再根據(jù)環(huán)境反饋決定是否保留新的案例。這一流程包括四個步驟:

      1. 檢索(Retrieve):從不斷增長的案例庫中檢索候選案例;

      2. 復(fù)用(Reuse):將案例作為上下文,輔助 LLM 解決當(dāng)前查詢;

      3. 修改(Revise):生成最終答案或行動軌跡;

      4. 保存(Retain):如果環(huán)境反饋為成功,則將當(dāng)前交互保存為新的案例。

      在這個 4R 循環(huán)中,CASCADE 的關(guān)鍵在于:它將 “檢索哪個案例” 建模為上下文賭博機(Contextual Bandit)問題,從而實現(xiàn)檢索過程中的探索 - 利用權(quán)衡。在每個時間步,當(dāng)前查詢是上下文,候選案例是可選擇的動作。Agent 選擇某個案例后,LLM 基于該案例生成結(jié)果,環(huán)境返回成功或失敗反饋。檢索器隨后利用該反饋更新策略,在后續(xù)任務(wù)中更好地權(quán)衡利用與探索。



      換言之,CASCADE 學(xué)習(xí)的是一個在線檢索策略:它利用部署過程中觀察到的獎勵信號,判斷哪些案例在給定的任務(wù)中更有用。針對這一場景,本文提出了 Neural-LinLogUCB 算法。它使用 Transformer 建模查詢與案例之間的交互表示,并通過線性頭進行不確定性估計,從而適配二值反饋下的上下文賭博機學(xué)習(xí)。

      從理論上看,CASCADE 將整體遺憾分解為兩部分:

      1. 覆蓋差距:案例庫是否已經(jīng)包含足夠相關(guān)的歷史經(jīng)驗;

      2. 檢索遺憾:在已有候選案例中,檢索策略是否選中了最有用的案例。

      隨著部署過程持續(xù)進行,成功案例逐漸被保存到案例庫中,由覆蓋不足帶來的損失會降低;同時,檢索器通過二值反饋更新,逐步減少選擇錯誤案例帶來的檢索遺憾。在合理假設(shè)下,CASCADE 可以得到無遺憾學(xué)習(xí)保證。



      因此,CASCADE 不只是一個記憶模塊,而是一個面向部署任務(wù)流的原則化在線經(jīng)驗學(xué)習(xí)框架。

      部署時學(xué)習(xí)基準(zhǔn)測試:DTLBench

      為了系統(tǒng)評估部署時學(xué)習(xí)能力,論文構(gòu)建了 DTLBench。該基準(zhǔn)包含 16 個任務(wù),覆蓋醫(yī)療、法律、金融、智能運維、編程、具身決策、信息檢索等領(lǐng)域,并包含單輪任務(wù)和多輪任務(wù)。



      單輪任務(wù)包括醫(yī)療診斷、藥物推薦、科室轉(zhuǎn)診、急診分診、法律罪名預(yù)測、刑罰預(yù)測、金融意圖路由、金融情感分析、根因分析、日志故障診斷、Text-to-SQL。

      多輪任務(wù)包括經(jīng)典的 ALFWorld、ScienceWorld,以及兩個更接近真實應(yīng)用的場景:基于網(wǎng)頁的深度搜索和電子健康記錄上的復(fù)雜表格推理。

      在 DTLBench 中,每個任務(wù)都被組織為在線查詢序列。Agent 必須按順序處理樣本,只能利用已經(jīng)發(fā)生的歷史交互和反饋。這一區(qū)別使得部署步上的成功率成為核心評估指標(biāo)。

      主要實驗結(jié)果

      在 12 個單輪任務(wù)上,使用 Qwen3-32B 作為底座模型時,零樣本提示的平均成功率為 48.33%,非參數(shù)基線 NP-CBR 達到 63.76%,CASCADE 進一步提升到 66.68%。這一結(jié)果表明,案例復(fù)用本身已經(jīng)能夠帶來明顯收益;在此基礎(chǔ)上,利用在線反饋學(xué)習(xí)檢索策略,可以進一步提升部署序列上的長期表現(xiàn)。



      與基于參數(shù)更新的基線 REINFORCE+LoRA 相比,CASCADE 在 12 個單輪任務(wù)中的 9 個任務(wù)上取得更好結(jié)果,并在其余任務(wù)上表現(xiàn)接近。同時,CASCADE 不需要更新底座 LLM 參數(shù),學(xué)習(xí)過程顯存低于 4GB,適合在更輕量的部署條件下運行。



      論文還驗證了 CASCADE 對不同底座模型規(guī)模的適用性。在 Qwen3-4B、8B、14B、32B 上,CASCADE 在大多數(shù)設(shè)置中均能帶來穩(wěn)定提升。對于黑盒模型 gemini-2.0-flash,CASCADE 同樣適用,在可評估的 9 個任務(wù)上將平均成功率提升到 72.58%,高于零樣本提示的 56.58% 和 NP-CBR 的 70.68%。

      這些結(jié)果說明,部署時學(xué)習(xí)并不必須依賴對 LLM 參數(shù)的訪問。對于基于 API 服務(wù)的黑盒模型,或者不適合頻繁微調(diào)的工業(yè)系統(tǒng),CASCADE 提供了一種通過 Agent 外圍組件進行持續(xù)適應(yīng)的途徑。



      在 ALFWorld 上,CASCADE 將成功率從 NP-CBR 的 62.01% 提升到 67.43%;在 ScienceWorld 上,從 59.36% 提升到 66.84%。將 CASCADE 插入 ReAct 框架后,也能進一步提升 Agent 在多輪環(huán)境中的任務(wù)完成率。



      在基于網(wǎng)頁的深度搜索中,Agent 需要多輪調(diào)用本地 RAG 工具或?qū)崟r網(wǎng)頁搜索工具完成多跳問答。引入部署時學(xué)習(xí)后,CASCADE 在本地 RAG 和實時網(wǎng)頁搜索設(shè)置下均帶來明顯提升。



      在電子健康記錄表格推理任務(wù)中,Agent 需要通過 API 查詢數(shù)據(jù)庫并生成代碼。零樣本提示成功率為 20.75%,NP-CBR 為 44.02%,CASCADE 進一步達到 55.76%,同時減少了平均調(diào)試輪數(shù)。

      小結(jié)

      CASCADE 試圖回答一個在 LLM Agent 部署中越來越重要的問題:當(dāng)任務(wù)持續(xù)到來、反饋不斷產(chǎn)生,而底座模型參數(shù)保持固定時,Agent 如何在真實交互過程中進行學(xué)習(xí)?

      本文的核心貢獻可以概括為三點:

      1. 提出部署時學(xué)習(xí),將 LLM Agent 的部署階段形式化為無參數(shù)更新的在線經(jīng)驗學(xué)習(xí);

      2. 提出 CASCADE,通過基于案例的推理與上下文賭博機學(xué)習(xí)實現(xiàn)原則化的部署時學(xué)習(xí)框架;

      3. 構(gòu)建 DTLBench,在 16 個跨領(lǐng)域任務(wù)上評估 Agent 在在線任務(wù)序列中的長期表現(xiàn)。

      從這個角度看,CASCADE 的重點不在于重新證明 “經(jīng)驗有用”,而在于進一步提出:部署過程本身可以被建模、評測和優(yōu)化。隨著 Agent 系統(tǒng)進入更開放、更長程、更依賴工具的應(yīng)用場景,如何在真實任務(wù)流中利用反饋進行穩(wěn)定學(xué)習(xí),可能會成為大模型部署后的一個重要研究方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      25分鐘23+5三分!848萬梅里爾創(chuàng)4紀(jì)錄成奇兵 休媒:我們想要他

      25分鐘23+5三分!848萬梅里爾創(chuàng)4紀(jì)錄成奇兵 休媒:我們想要他

      顏小白的籃球夢
      2026-05-18 11:08:57
      “爛尾了?”市民質(zhì)疑:深圳少年宮改造4年多,還沒完工!官方透露試運營時間

      “爛尾了?”市民質(zhì)疑:深圳少年宮改造4年多,還沒完工!官方透露試運營時間

      南方都市報
      2026-05-18 14:34:36
      返美后,特朗普做了一個決定!

      返美后,特朗普做了一個決定!

      新動察
      2026-05-18 11:03:11
      二審判配200萬,龍哥講電車“含淚”道歉比亞迪

      二審判配200萬,龍哥講電車“含淚”道歉比亞迪

      新浪財經(jīng)
      2026-05-17 11:28:43
      沒想到,紐約時報竟這樣評價中美會晤!這,反轉(zhuǎn)太大了吧

      沒想到,紐約時報竟這樣評價中美會晤!這,反轉(zhuǎn)太大了吧

      魔都姐姐雜談
      2026-05-17 06:44:02
      踢球者:拜仁想和凱恩續(xù)約到2029年,球員若離開薪水可能翻倍

      踢球者:拜仁想和凱恩續(xù)約到2029年,球員若離開薪水可能翻倍

      懂球帝
      2026-05-18 03:16:04
      南航工程技術(shù)分公司副總經(jīng)理王錦申接受紀(jì)律審查和監(jiān)察調(diào)查

      南航工程技術(shù)分公司副總經(jīng)理王錦申接受紀(jì)律審查和監(jiān)察調(diào)查

      經(jīng)理人雜志
      2026-05-18 16:47:41
      電力利潤暴降435%,19個電力業(yè)績暴雷,僅14個高增長,別踩雷了

      電力利潤暴降435%,19個電力業(yè)績暴雷,僅14個高增長,別踩雷了

      鵬哥投研
      2026-05-18 12:31:31
      陳婉珍送別何超蕸需攙扶,何猷啟與第二任妻子現(xiàn)身,何超云帶男友

      陳婉珍送別何超蕸需攙扶,何猷啟與第二任妻子現(xiàn)身,何超云帶男友

      一盅情懷
      2026-05-18 10:57:01
      現(xiàn)在中國急需攻克的五大尖端技術(shù),一旦突破,將無懼任何國家壟斷

      現(xiàn)在中國急需攻克的五大尖端技術(shù),一旦突破,將無懼任何國家壟斷

      觸摸史跡
      2026-05-18 01:48:04
      73歲曾志偉現(xiàn)身大孤山祈福,摸千年古樹求延壽,自曝身體大不如前

      73歲曾志偉現(xiàn)身大孤山祈福,摸千年古樹求延壽,自曝身體大不如前

      橙星文娛
      2026-05-18 15:44:53
      男裝像張若昀,女裝像唐藝昕,《低智商犯罪》他火了還獲得1稱號

      男裝像張若昀,女裝像唐藝昕,《低智商犯罪》他火了還獲得1稱號

      娛君墜星河
      2026-05-17 16:22:54
      批賴清德當(dāng)局誤判“臺美關(guān)系”,國民黨呼吁綠:放棄“臺獨黨綱”

      批賴清德當(dāng)局誤判“臺美關(guān)系”,國民黨呼吁綠:放棄“臺獨黨綱”

      海峽導(dǎo)報社
      2026-05-17 17:28:04
      65歲正部級王曉東落馬:半生哲學(xué),一世權(quán)謀,終敗給權(quán)力毒酒

      65歲正部級王曉東落馬:半生哲學(xué),一世權(quán)謀,終敗給權(quán)力毒酒

      十為先生
      2026-05-18 16:23:12
      半年拉出七萬大軍授銜時毛主席卻問:是不是搞錯了?他只評了少將

      半年拉出七萬大軍授銜時毛主席卻問:是不是搞錯了?他只評了少將

      小港哎歷史
      2026-05-18 08:55:03
      北青:U17國足人員齊整求戰(zhàn)欲望強烈;要警惕澳洲力量型打法

      北青:U17國足人員齊整求戰(zhàn)欲望強烈;要警惕澳洲力量型打法

      懂球帝
      2026-05-18 14:34:58
      莫斯科自此無眠!烏克蘭大舉空襲報復(fù),大批俄羅斯軍事目標(biāo)被擊中

      莫斯科自此無眠!烏克蘭大舉空襲報復(fù),大批俄羅斯軍事目標(biāo)被擊中

      鷹眼Defence
      2026-05-18 16:50:10
      加冕“五冠王”,張雪立即要求門店漲薪,不漲就換掉你

      加冕“五冠王”,張雪立即要求門店漲薪,不漲就換掉你

      數(shù)字財經(jīng)智庫
      2026-05-18 16:38:44
      MAGA不干了:特朗普對華立場變了

      MAGA不干了:特朗普對華立場變了

      觀察者網(wǎng)
      2026-05-18 13:40:13
      全球最強軍隊!金正恩與朝鮮人民軍全體師旅長聚會

      全球最強軍隊!金正恩與朝鮮人民軍全體師旅長聚會

      IN朝鮮
      2026-05-18 12:25:49
      2026-05-18 18:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      13027文章數(shù) 142650關(guān)注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      5人在馬爾代夫洞穴潛水時身亡 3名專家將下水尋找遺體

      頭條要聞

      5人在馬爾代夫洞穴潛水時身亡 3名專家將下水尋找遺體

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現(xiàn)了

      財經(jīng)要聞

      前4月工業(yè)生產(chǎn)較快增長 失業(yè)率5.3%

      汽車要聞

      有五座有七座全系配四驅(qū) 哈弗猛龍PLUS限時售16.18萬起

      態(tài)度原創(chuàng)

      藝術(shù)
      數(shù)碼
      時尚
      游戲
      軍事航空

      藝術(shù)要聞

      嚇一跳!京東上??偛看髽峭崃??最新官方把事說清楚了

      數(shù)碼要聞

      背板能當(dāng)鏡子!影馳RTX 5070星曜LUNA OC圖賞

      夏天褲子不用多買,提前準(zhǔn)備幾條休閑的闊腿褲,百搭舒適顯瘦

      《GTA6》宣發(fā)重磅猛料!知名爆料大神發(fā)聲

      軍事要聞

      莫斯科遭一年多來最大規(guī)模無人機襲擊 3死18傷

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 欧美激情综合| 欧美日韩乱妇高清免费| jizz国产| 国产精品人妻熟女男人的天堂| 国产天堂av在线免费| 欧美性猛交xxxx免费看| 成人精品视频一区二区三区| 国产精品卡一卡二| a在线亚洲男人的天堂试看| 免费午夜无码视频在线观看| 亚洲人成电影在线播放| 久草视频观看| 超碰热| 青草青青高清影院在线观看| 亚洲色AV天天天天天天| 亚洲欧美日韩成人一区| 国内自产少妇自拍区免费| 一区二区三区人妻无码| 久久久久AV综合网成人| 夜色福利导航| 91福利视频一区二区| 亚洲蜜臀av乱码久久| 亚洲国产成人精品无码区在线观看| 亚洲AV涩涩涩成人网站在线播放| 成年男人永久免费看片| 国产L精品国产亚洲区在线观看 | 久久久久青草线综合超碰| 九九久久亚洲精品美国国内| 国产丝袜在线视频| 亚洲国产精品自产在线播放| 国产又色又爽又黄刺激视频| 成年女人毛片免费视频播放器 | 日韩人妻一区中文字幕| 久久精品国产2020| 西平县| 欧美激情在线精品一区二区| 浮妇高潮喷白浆视频| 亚洲中文字幕精品无人区| 91视频入口| av一本久道久久综合久久鬼色| 亚洲成人黄色AV|