網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中國(guó)科學(xué)技術(shù)大學(xué)打造的AI"技能圖書(shū)館"

2026-04-29 17:26:22　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)主導(dǎo)、聯(lián)合多倫多大學(xué)和悉尼大學(xué)參與的研究，以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.17308，有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

假設(shè)你雇了一位新助理，每次交給他一項(xiàng)任務(wù)，他完成之后就把經(jīng)驗(yàn)全部拋之腦后，下次面對(duì)類(lèi)似的工作還是從零開(kāi)始摸索——這樣的助理，恐怕很快就會(huì)讓人抓狂。現(xiàn)實(shí)中我們?cè)u(píng)價(jià)一位助理是否優(yōu)秀，很大程度上看他能不能把今天的經(jīng)驗(yàn)變成明天的本領(lǐng)。這道理聽(tīng)起來(lái)再樸素不過(guò)，但對(duì)于當(dāng)下的AI智能體來(lái)說(shuō)，卻是一道真實(shí)存在的難題。

這正是這項(xiàng)研究的出發(fā)點(diǎn)。研究團(tuán)隊(duì)觀察到，越來(lái)越多的AI系統(tǒng)已經(jīng)可以像人類(lèi)一樣使用工具、完成多步驟的復(fù)雜任務(wù)，例如讀取電子表格、分析文件、生成報(bào)告。這類(lèi)AI被稱(chēng)為"自主智能體"，可以把它理解為一位能在電腦前獨(dú)立工作的AI員工。為了讓這類(lèi)員工更高效，研究者們開(kāi)始給它們配備"技能包"——一套預(yù)先整理好的操作指南，告訴智能體遇到某類(lèi)問(wèn)題該怎么做。

然而問(wèn)題來(lái)了：現(xiàn)有的評(píng)測(cè)系統(tǒng)只考察智能體能不能用別人給好的技能包解決問(wèn)題，卻從未認(rèn)真追問(wèn)——這個(gè)智能體能不能自己總結(jié)出技能？遇到失敗能不能修正技能？隨著任務(wù)一個(gè)接一個(gè)完成，它的技能庫(kù)能不能真正越來(lái)越強(qiáng)？

為了回答這些問(wèn)題，研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為SKILLFLOW的測(cè)評(píng)體系，并用它對(duì)11種主流AI模型進(jìn)行了系統(tǒng)測(cè)試。他們發(fā)現(xiàn)，不同模型在"邊做邊學(xué)"這件事上的差異大得出人意料。最好的模型（Claude Opus 4.6）通過(guò)這種自我進(jìn)化，任務(wù)成功率從62.65%跳升到71.08%，提升了8.43個(gè)百分點(diǎn)。但也有模型，明明在頻繁調(diào)用技能，任務(wù)表現(xiàn)卻幾乎沒(méi)有改善，甚至出現(xiàn)了退步。這說(shuō)明，"調(diào)用技能"和"真正從技能中受益"是兩碼事。

一、一套專(zhuān)門(mén)測(cè)試"邊干邊學(xué)"能力的闖關(guān)游戲

要理解這項(xiàng)研究做了什么，可以把SKILLFLOW想象成一套特別設(shè)計(jì)的闖關(guān)游戲。游戲一共有20個(gè)關(guān)卡系列，每個(gè)系列包含8到9個(gè)關(guān)卡，總共166個(gè)關(guān)卡。關(guān)鍵的設(shè)計(jì)在于：同一個(gè)系列里的所有關(guān)卡，雖然表面上看內(nèi)容各不相同，但骨子里的操作邏輯是一模一樣的。

打個(gè)比方，系列一是"財(cái)務(wù)報(bào)表滾動(dòng)更新"，關(guān)卡一讓你處理一家餐廳的月度收支表，關(guān)卡二換成了一家醫(yī)院的賬目，關(guān)卡三又變成了一家航空公司。每次任務(wù)的具體數(shù)字和業(yè)務(wù)場(chǎng)景都不同，但每次都需要你做同樣幾件事：讀取多張來(lái)源數(shù)據(jù)、找出目標(biāo)條目、過(guò)濾掉重復(fù)和無(wú)效行、對(duì)齊各項(xiàng)調(diào)整內(nèi)容、滾動(dòng)計(jì)算余額、與對(duì)照總量比對(duì)、最后輸出匯總表格。

這個(gè)"骨子里一樣的操作邏輯"就是研究團(tuán)隊(duì)定義的核心概念——DAEF，即"領(lǐng)域無(wú)關(guān)執(zhí)行流程"?？梢园阉胂蟪梢惶?萬(wàn)能菜譜框架"：食材和口味每次都不同（具體任務(wù)內(nèi)容變化），但備菜、炒制、出鍋、裝盤(pán)的步驟順序始終如一（操作邏輯不變）。

為什么要這樣設(shè)計(jì)？因?yàn)橹挥挟?dāng)一系列任務(wù)共享同一套操作邏輯，才能真正測(cè)試智能體有沒(méi)有從前幾次任務(wù)中提煉出可復(fù)用的經(jīng)驗(yàn)——如果每個(gè)任務(wù)的邏輯都截然不同，那即便智能體學(xué)到了什么，也根本沒(méi)有機(jī)會(huì)用上。

研究團(tuán)隊(duì)覆蓋了五大領(lǐng)域：金融與經(jīng)濟(jì)學(xué)、運(yùn)營(yíng)與供應(yīng)鏈、醫(yī)療健康、治理與戰(zhàn)略，以及數(shù)據(jù)與文檔處理。每個(gè)領(lǐng)域都有幾個(gè)典型的工作流系列，例如供應(yīng)鏈補(bǔ)貨計(jì)劃、OCR數(shù)據(jù)提取、Excel加權(quán)風(fēng)險(xiǎn)評(píng)估、韓文文檔自動(dòng)化填寫(xiě)等，都是真實(shí)職場(chǎng)中會(huì)遇到的工作場(chǎng)景。

為了構(gòu)建這些任務(wù)，研究團(tuán)隊(duì)先從兩個(gè)已有的AI評(píng)測(cè)數(shù)據(jù)集里精選了64個(gè)種子任務(wù)（其中18個(gè)來(lái)自SkillsBench，46個(gè)來(lái)自GDPval），然后從這些種子任務(wù)里提煉出DAEF框架，再通過(guò)一套雙智能體的自動(dòng)擴(kuò)展流程，為每個(gè)DAEF框架生成更多變體任務(wù)。這個(gè)擴(kuò)展過(guò)程像一對(duì)編輯與審稿人：一個(gè)智能體（建筑師）負(fù)責(zé)設(shè)計(jì)新任務(wù)，另一個(gè)智能體（評(píng)審人）負(fù)責(zé)在真實(shí)運(yùn)行環(huán)境里驗(yàn)證這些任務(wù)是否合理、是否有足夠的難度梯度。當(dāng)審稿人認(rèn)可之后，任務(wù)才被納入最終的測(cè)評(píng)集，最后再經(jīng)過(guò)人工復(fù)查確保質(zhì)量。

二、智能體如何在游戲中積累自己的"技能圖書(shū)館"

SKILLFLOW的測(cè)評(píng)方式同樣別出心裁。智能體在開(kāi)始第一個(gè)關(guān)卡時(shí)，手邊什么參考資料都沒(méi)有，只能憑借自己的原始能力硬闖。闖完之后，系統(tǒng)會(huì)給它一份"錯(cuò)題反饋"：這次任務(wù)哪里做錯(cuò)了，哪些結(jié)果不達(dá)標(biāo)。

拿到這份反饋之后，智能體需要做一件額外的事——把這次的經(jīng)歷提煉成一條可以日后復(fù)用的經(jīng)驗(yàn)，以文件的形式存入自己的技能庫(kù)。下次面對(duì)關(guān)卡二時(shí)，它就可以打開(kāi)這個(gè)庫(kù)，看看之前總結(jié)的經(jīng)驗(yàn)，再結(jié)合新任務(wù)的具體要求來(lái)制定方案。完成關(guān)卡二之后，同樣拿到反饋，同樣更新技能庫(kù)——這個(gè)"做題→拿反饋→更新技能庫(kù)→做下一題"的循環(huán)，就是研究團(tuán)隊(duì)所說(shuō)的"智能體終身學(xué)習(xí)協(xié)議"。

技能的存儲(chǔ)格式被刻意設(shè)計(jì)得極為簡(jiǎn)潔：每次更新叫做一個(gè)"技能補(bǔ)丁"，包含三個(gè)部分。第一部分是一段文字說(shuō)明，總結(jié)這次學(xué)到了什么新經(jīng)驗(yàn)或修正了什么舊錯(cuò)誤。第二部分是需要新增或修改的文件內(nèi)容。第三部分是需要?jiǎng)h除的過(guò)時(shí)文件。這種設(shè)計(jì)就像版本管理系統(tǒng)一樣，每一次修改都有記錄可查，方便研究人員日后逐條審查智能體的學(xué)習(xí)軌跡。

技能文件本身的格式也有規(guī)范。每項(xiàng)技能都存放在以該技能命名的文件夾里，文件夾內(nèi)必須有一個(gè)核心說(shuō)明文件（SKILL.md），開(kāi)頭必須包含兩個(gè)字段：技能名稱(chēng)和使用場(chǎng)景描述。說(shuō)明文件里寫(xiě)的是可以直接照著執(zhí)行的操作指南，偏愛(ài)的寫(xiě)法是給出清晰的工作流程、決策規(guī)則和容易踩坑的反面案例。如果需要附上輔助腳本，放在scripts子文件夾；如果有詳細(xì)的參考文檔或API說(shuō)明，放在references子文件夾；如果有可以直接復(fù)用的模板文件，放在assets子文件夾。

值得注意的是，技能庫(kù)的更新完全由智能體自己完成，不需要人工干預(yù)，也不借助任何額外的檢索機(jī)制。技能的調(diào)用同樣是自然發(fā)生的：當(dāng)智能體在執(zhí)行任務(wù)時(shí)，如果它讀取或調(diào)用了技能庫(kù)里的文件，系統(tǒng)就會(huì)記錄這次調(diào)用，作為"技能復(fù)用率"統(tǒng)計(jì)的依據(jù)。

三、實(shí)驗(yàn)結(jié)果里藏著的冷知識(shí)：高使用率≠高收益

測(cè)試結(jié)果一出來(lái)，研究團(tuán)隊(duì)發(fā)現(xiàn)了幾件頗為出乎意料的事。

最亮眼的案例是Claude Opus 4.6。在沒(méi)有技能庫(kù)的情況下，它能完成166個(gè)任務(wù)里的104個(gè)，成功率62.65%。開(kāi)啟終身學(xué)習(xí)模式后，完成數(shù)量升至118個(gè)，成功率達(dá)到71.08%，凈增8.43個(gè)百分點(diǎn)。不僅如此，平均每次任務(wù)的費(fèi)用還從0.665美元降到了0.615美元，生成的輸出文字量也從平均每任務(wù)3000字降到了2390字——花的錢(qián)更少，做的事更多，這是最理想的結(jié)果。

排在后面的表現(xiàn)也各有特點(diǎn)。MiniMax M2.5的成功率從28.31%升到34.94%，提升了6.63個(gè)百分點(diǎn)。Claude Sonnet 4.5從49.40%升到55.42%，提升6.02個(gè)百分點(diǎn)。GPT 5.4從33.13%升到36.75%，提升3.62個(gè)百分點(diǎn)。

然而看到Kimi K2.5時(shí)，故事就變得有意思了。這個(gè)模型在終身學(xué)習(xí)模式下，有高達(dá)66.87%的任務(wù)都調(diào)用了技能庫(kù)——也就是說(shuō)，它非常積極地在使用自己積累的經(jīng)驗(yàn)。但是任務(wù)成功率只從55.42%升到56.02%，只漲了區(qū)區(qū)0.60個(gè)百分點(diǎn)。高度使用，微弱收益，技能調(diào)用率和實(shí)際收益之間出現(xiàn)了明顯的落差。

更極端的案例是幾個(gè)出現(xiàn)退步的模型。GPT 5.3 Codex的成功率從52.41%跌到46.39%，下降了6.02個(gè)百分點(diǎn)。Qwen-Coder-Next從45.18%跌到44.58%。Qwen3-Coder-480B從24.70%跌到24.10%。MiniMax M2.7從37.35%跌到36.75%。這些模型不僅沒(méi)有因?yàn)榧寄芊e累變得更強(qiáng)，反而變?nèi)趿恕?/p>

研究團(tuán)隊(duì)還做了一個(gè)對(duì)照實(shí)驗(yàn)，專(zhuān)門(mén)針對(duì)Claude Opus 4.6：讓它不積累技能庫(kù)，而是把之前所有任務(wù)的完整對(duì)話歷史都附在當(dāng)前任務(wù)前面作為參考。這種"把過(guò)去的全部經(jīng)歷原封不動(dòng)塞進(jìn)記憶"的做法，效果如何？成功率只有51.04%，比沒(méi)有任何輔助的原始狀態(tài)（62.65%）還要低11.61個(gè)百分點(diǎn)。換句話說(shuō)，把經(jīng)歷轉(zhuǎn)化為結(jié)構(gòu)化技能，遠(yuǎn)比把經(jīng)歷堆積成冗長(zhǎng)的記錄更有價(jià)值。這就好比廚師成長(zhǎng)靠的是提煉出食譜，而不是把每次下廚的全程錄像反復(fù)回看。

從領(lǐng)域分布來(lái)看，不同類(lèi)型的任務(wù)對(duì)技能進(jìn)化的反應(yīng)也不一致。數(shù)據(jù)與文檔處理類(lèi)任務(wù)從技能積累中獲益最多，而金融與經(jīng)濟(jì)學(xué)類(lèi)任務(wù)反而出現(xiàn)了更多的負(fù)向變化。這說(shuō)明技能進(jìn)化的效果并非普適，某些任務(wù)類(lèi)型天然更適合這套學(xué)習(xí)機(jī)制。

四、為什么有些模型越學(xué)越強(qiáng)，有些越學(xué)越亂

研究團(tuán)隊(duì)深入分析了背后的原因，總結(jié)出六條具體發(fā)現(xiàn)。

最核心的一條是：決定模型能否從技能進(jìn)化中獲益的關(guān)鍵，不在于它能不能寫(xiě)出技能，而在于它能不能修正錯(cuò)誤的技能。幾乎所有模型都能在完成任務(wù)后寫(xiě)出一條技能條目，這不難。難的是，當(dāng)某條技能記錄的是錯(cuò)誤的操作邏輯時(shí)，模型能不能發(fā)現(xiàn)這個(gè)錯(cuò)誤，并把技能改正確？這才是真正的分水嶺。

與此緊密相關(guān)的第二條發(fā)現(xiàn)是：一旦錯(cuò)誤的技能被寫(xiě)入庫(kù)里，它的危害會(huì)隨著任務(wù)序列向后蔓延。后續(xù)的任務(wù)會(huì)繼承這個(gè)錯(cuò)誤的邏輯，就像一個(gè)食譜寫(xiě)錯(cuò)了關(guān)鍵步驟，所有照著這份食譜做出來(lái)的菜都會(huì)出問(wèn)題。這種錯(cuò)誤傳播效應(yīng)使得早期的錯(cuò)誤技能格外危險(xiǎn)。

第三條發(fā)現(xiàn)是關(guān)于技能庫(kù)規(guī)模的反直覺(jué)規(guī)律：更小的技能庫(kù)，往往對(duì)應(yīng)更好的任務(wù)表現(xiàn)。在表現(xiàn)最好的設(shè)置里，技能庫(kù)最終平均只存有一到兩項(xiàng)技能。反而是那些表現(xiàn)欠佳的模型，技能庫(kù)里堆積了四五項(xiàng)甚至更多技能，但成功率卻沒(méi)有相應(yīng)提升。為什么會(huì)這樣？因?yàn)閺?qiáng)的模型會(huì)把多次任務(wù)中反復(fù)出現(xiàn)的操作邏輯提煉成一條高度概括的核心技能，并在每次學(xué)到新東西后對(duì)這條核心技能進(jìn)行修訂和完善。弱的模型則傾向于每次任務(wù)都單獨(dú)總結(jié)一條新技能，導(dǎo)致技能庫(kù)變得越來(lái)越龐雜，里面充斥著大量?jī)?nèi)容重疊卻各說(shuō)各話的條目。

以Qwen系列和部分MiniMax設(shè)置為例，它們的技能數(shù)量幾乎隨著任務(wù)編號(hào)單調(diào)遞增，幾乎每完成一個(gè)任務(wù)就新增一條技能。但技能數(shù)量的快速膨脹并沒(méi)有帶來(lái)成功率的相應(yīng)提升，反而讓后續(xù)任務(wù)的智能體在面對(duì)龐大技能庫(kù)時(shí)陷入某種"認(rèn)知過(guò)載"，不知道該參考哪一條，最終適得其反。

另一方面，Codex系列展示了截然不同的風(fēng)格：它傾向于把相鄰任務(wù)的變體融合進(jìn)同一條不斷演化的核心技能，而不是另立新條目。這使得它的技能庫(kù)始終保持精簡(jiǎn)。但有意思的是，這種精簡(jiǎn)的風(fēng)格并沒(méi)有轉(zhuǎn)化成和Opus系列相當(dāng)?shù)娜蝿?wù)完成率，說(shuō)明技能庫(kù)精簡(jiǎn)只是必要條件，不是充分條件。

五、一道真實(shí)任務(wù)的解題全程：智能體怎么學(xué)會(huì)處理Excel公式的坑

論文附錄里詳細(xì)展示了一個(gè)真實(shí)的任務(wù)案例，生動(dòng)地說(shuō)明了技能進(jìn)化在實(shí)際中是如何發(fā)生的，非常值得拆解來(lái)看。

任務(wù)是這樣的：在一個(gè)Excel工作簿里，Task表單有一批黃色的空白單元格需要填寫(xiě)公式。Step 1要求填寫(xiě)INDEX+MATCH組合查詢公式，數(shù)據(jù)來(lái)源在Data表單的另一個(gè)區(qū)域。Step 2要求計(jì)算六家醫(yī)院的凈患者流指標(biāo)，并統(tǒng)計(jì)各列的最小值、最大值、中位數(shù)、均值、第25和第75百分位數(shù)。Step 3要求用SUMPRODUCT函數(shù)計(jì)算加權(quán)均值。

智能體開(kāi)始時(shí)遵循了合理的流程：先讀取任務(wù)說(shuō)明，然后調(diào)用技能庫(kù)里已有的Excel公式任務(wù)技能——技能里提醒它要先讀取驗(yàn)證腳本，搞清楚驗(yàn)證程序是怎么檢查結(jié)果的。智能體照做了，發(fā)現(xiàn)驗(yàn)證腳本會(huì)用一個(gè)叫`data_only=True`的模式打開(kāi)Excel文件，在這個(gè)模式下，如果單元格只有公式字符串而沒(méi)有緩存的計(jì)算結(jié)果，讀取到的值會(huì)是空的。

這是一個(gè)經(jīng)典的陷阱：Python的openpyxl庫(kù)可以往Excel單元格里寫(xiě)入公式字符串，但它本身不會(huì)計(jì)算公式，所以寫(xiě)進(jìn)去的公式?jīng)]有配套的緩存值。如果驗(yàn)證程序用的是上述方式讀取，就會(huì)全部得到空值，任務(wù)失敗。

智能體知道了這個(gè)問(wèn)題，開(kāi)始想辦法解決。它先嘗試調(diào)用LibreOffice在后臺(tái)重新計(jì)算工作簿，但發(fā)現(xiàn)這個(gè)容器環(huán)境里沒(méi)有安裝LibreOffice。又嘗試用一個(gè)叫`formulas`的Python庫(kù)來(lái)模擬計(jì)算，但這個(gè)庫(kù)計(jì)算出來(lái)的結(jié)果同樣無(wú)法被openpyxl以`data_only=True`方式讀取。

走投無(wú)路之下，它轉(zhuǎn)向了第三條路：直接修改Excel文件內(nèi)部的XML結(jié)構(gòu)。Excel文件本質(zhì)上是一個(gè)ZIP壓縮包，里面有若干XML文件。單元格的公式存儲(chǔ)在``標(biāo)簽里，緩存值存儲(chǔ)在``標(biāo)簽里。如果手動(dòng)往每個(gè)有公式的單元格里寫(xiě)入一個(gè)``標(biāo)簽，驗(yàn)證程序就能讀到值了。

智能體開(kāi)始實(shí)施這個(gè)方案，但中途出了問(wèn)題：它分多次修改XML，每次重新打包ZIP文件時(shí)，前一次寫(xiě)入的公式字符串被覆蓋掉了，最終導(dǎo)致一部分單元格的公式消失，只剩下了緩存值。它意識(shí)到了這個(gè)問(wèn)題，診斷出根本原因是"多次XML修改導(dǎo)致公式字段被破壞"，于是果斷放棄已經(jīng)修改過(guò)的工作文件，重新從原始工作簿開(kāi)始，把所有單元格的Python計(jì)算值先全部算好，然后在一次XML操作里把所有緩存值一起寫(xiě)入，完成后運(yùn)行驗(yàn)證腳本，167個(gè)公式單元格全部既有公式又有緩存值，任務(wù)通過(guò)。

完成任務(wù)之后，智能體生成的技能補(bǔ)丁里，把這整套經(jīng)歷提煉成了一條清晰的操作指南。核心要點(diǎn)是：如果驗(yàn)證方式用`data_only=True`，那必須用XML級(jí)別的方式寫(xiě)入緩存值；所有XML修改必須在一次操作里完成，絕不能分多次；LibreOffice和formulas庫(kù)都不可靠，不要依賴它們。技能里還給出了可以直接復(fù)用的Python腳本，以及一張常見(jiàn)癥狀與對(duì)應(yīng)修復(fù)方案的對(duì)照表。這條技能后來(lái)幫助智能體在該系列的后續(xù)任務(wù)中大幅減少了試錯(cuò)次數(shù)。

六、這項(xiàng)研究和以往的AI評(píng)測(cè)有什么本質(zhì)區(qū)別

研究團(tuán)隊(duì)在論文附錄里列了一張?jiān)敿?xì)的對(duì)比表，把SKILLFLOW和幾個(gè)知名AI評(píng)測(cè)系統(tǒng)放在一起比較。Terminal-Bench和SWE-bench是兩個(gè)知名的AI任務(wù)評(píng)測(cè)平臺(tái)，它們完全不考察技能相關(guān)的維度。SkillsBench是最接近本研究出發(fā)點(diǎn)的前人工作，它確實(shí)測(cè)試了技能對(duì)任務(wù)的幫助效果，也支持智能體自己生成技能，但它不考察技能的迭代修正、技能的跨任務(wù)積累復(fù)用、技能是否真正對(duì)應(yīng)有效使用，也沒(méi)有基于交互軌跡來(lái)提煉技能。SKILLFLOW則在上述全部維度上都給出了肯定的回答。

這種系統(tǒng)性的差異，使得SKILLFLOW能夠揭示出一些以往評(píng)測(cè)從未觸碰的問(wèn)題，包括：為什么有些模型頻繁調(diào)用技能卻沒(méi)有收益、為什么技能庫(kù)的膨脹反而會(huì)傷害表現(xiàn)、為什么修正錯(cuò)誤技能的能力比生成技能的能力更重要。這些發(fā)現(xiàn)對(duì)于AI研究者理解當(dāng)前模型的瓶頸有著直接的參考價(jià)值。

歸根結(jié)底，這項(xiàng)研究告訴我們，AI智能體目前離真正意義上的"邊干邊學(xué)"還有相當(dāng)大的距離。并不是給它配上一個(gè)可以更新的技能庫(kù)就萬(wàn)事大吉，關(guān)鍵在于它有沒(méi)有能力把失敗的經(jīng)歷轉(zhuǎn)化為有價(jià)值的修正，而不僅僅是把經(jīng)歷堆積成越來(lái)越厚的檔案。

對(duì)于想要深入了解這個(gè)方向的讀者，相關(guān)代碼已經(jīng)開(kāi)源發(fā)布在GitHub平臺(tái)，可以通過(guò)論文編號(hào)arXiv:2604.17308找到完整論文和倉(cāng)庫(kù)地址。這是一個(gè)相當(dāng)年輕的研究方向，目前還有大量問(wèn)題懸而未決：如何設(shè)計(jì)更好的技能修正激勵(lì)機(jī)制、如何在不同類(lèi)型任務(wù)之間實(shí)現(xiàn)技能遷移、如何防止錯(cuò)誤技能的持續(xù)傳播……每一個(gè)問(wèn)題背后，都是AI邁向真正自主學(xué)習(xí)所必須跨越的門(mén)檻。

Q&A

Q1：SKILLFLOW基準(zhǔn)測(cè)試包含多少任務(wù)，覆蓋哪些領(lǐng)域？

A：SKILLFLOW包含166個(gè)可運(yùn)行任務(wù)，分為20個(gè)任務(wù)系列。覆蓋五大領(lǐng)域：金融與經(jīng)濟(jì)學(xué)、運(yùn)營(yíng)與供應(yīng)鏈、醫(yī)療健康與生命科學(xué)、治理與戰(zhàn)略，以及數(shù)據(jù)與文檔處理。每個(gè)系列包含8到9個(gè)任務(wù)，這些任務(wù)共享同一套底層操作邏輯，但具體的業(yè)務(wù)場(chǎng)景、文件內(nèi)容和數(shù)據(jù)格式各不相同，專(zhuān)門(mén)用于測(cè)試智能體能否從一系列相似任務(wù)中提煉出可復(fù)用的經(jīng)驗(yàn)。

Q2：Claude Opus 4.6在SKILLFLOW測(cè)試中提升了多少？

A：Claude Opus 4.6是11個(gè)被測(cè)模型中表現(xiàn)最好的。在沒(méi)有技能庫(kù)的基礎(chǔ)設(shè)置下，它的任務(wù)成功率是62.65%，完成了166個(gè)任務(wù)中的104個(gè)。開(kāi)啟終身學(xué)習(xí)模式、允許它積累和更新技能庫(kù)之后，成功率升至71.08%，完成數(shù)量升到118個(gè)，凈提升8.43個(gè)百分點(diǎn)。與此同時(shí)，平均每任務(wù)的費(fèi)用從0.665美元降至0.615美元，生成文字量也有所減少，整體效率提升明顯。

Q3：為什么有些模型技能使用率很高，任務(wù)成功率卻沒(méi)有提升？

A：這是SKILLFLOW測(cè)試中最核心的發(fā)現(xiàn)之一。以Kimi K2.5為例，它在終身學(xué)習(xí)模式下有66.87%的任務(wù)都調(diào)用了技能庫(kù)，但成功率只提升了0.60個(gè)百分點(diǎn)，幾乎沒(méi)有實(shí)質(zhì)收益。原因在于，調(diào)用技能和從技能中真正受益是兩回事。如果一個(gè)模型傾向于把每次任務(wù)都總結(jié)成一條新技能，導(dǎo)致技能庫(kù)快速膨脹、內(nèi)容重疊，又無(wú)法有效修正其中錯(cuò)誤的技能，那么高使用率只會(huì)帶來(lái)認(rèn)知負(fù)擔(dān)，而非能力提升。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.