<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      中國(guó)科學(xué)技術(shù)大學(xué)打造的AI"技能圖書(shū)館"

      0
      分享至


      這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)主導(dǎo)、聯(lián)合多倫多大學(xué)和悉尼大學(xué)參與的研究,以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.17308,有興趣深入了解的讀者可通過(guò)該編號(hào)查詢完整論文。

      假設(shè)你雇了一位新助理,每次交給他一項(xiàng)任務(wù),他完成之后就把經(jīng)驗(yàn)全部拋之腦后,下次面對(duì)類(lèi)似的工作還是從零開(kāi)始摸索——這樣的助理,恐怕很快就會(huì)讓人抓狂。現(xiàn)實(shí)中我們?cè)u(píng)價(jià)一位助理是否優(yōu)秀,很大程度上看他能不能把今天的經(jīng)驗(yàn)變成明天的本領(lǐng)。這道理聽(tīng)起來(lái)再樸素不過(guò),但對(duì)于當(dāng)下的AI智能體來(lái)說(shuō),卻是一道真實(shí)存在的難題。

      這正是這項(xiàng)研究的出發(fā)點(diǎn)。研究團(tuán)隊(duì)觀察到,越來(lái)越多的AI系統(tǒng)已經(jīng)可以像人類(lèi)一樣使用工具、完成多步驟的復(fù)雜任務(wù),例如讀取電子表格、分析文件、生成報(bào)告。這類(lèi)AI被稱(chēng)為"自主智能體",可以把它理解為一位能在電腦前獨(dú)立工作的AI員工。為了讓這類(lèi)員工更高效,研究者們開(kāi)始給它們配備"技能包"——一套預(yù)先整理好的操作指南,告訴智能體遇到某類(lèi)問(wèn)題該怎么做。

      然而問(wèn)題來(lái)了:現(xiàn)有的評(píng)測(cè)系統(tǒng)只考察智能體能不能用別人給好的技能包解決問(wèn)題,卻從未認(rèn)真追問(wèn)——這個(gè)智能體能不能自己總結(jié)出技能?遇到失敗能不能修正技能?隨著任務(wù)一個(gè)接一個(gè)完成,它的技能庫(kù)能不能真正越來(lái)越強(qiáng)?

      為了回答這些問(wèn)題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)名為SKILLFLOW的測(cè)評(píng)體系,并用它對(duì)11種主流AI模型進(jìn)行了系統(tǒng)測(cè)試。他們發(fā)現(xiàn),不同模型在"邊做邊學(xué)"這件事上的差異大得出人意料。最好的模型(Claude Opus 4.6)通過(guò)這種自我進(jìn)化,任務(wù)成功率從62.65%跳升到71.08%,提升了8.43個(gè)百分點(diǎn)。但也有模型,明明在頻繁調(diào)用技能,任務(wù)表現(xiàn)卻幾乎沒(méi)有改善,甚至出現(xiàn)了退步。這說(shuō)明,"調(diào)用技能"和"真正從技能中受益"是兩碼事。

      一、一套專(zhuān)門(mén)測(cè)試"邊干邊學(xué)"能力的闖關(guān)游戲

      要理解這項(xiàng)研究做了什么,可以把SKILLFLOW想象成一套特別設(shè)計(jì)的闖關(guān)游戲。游戲一共有20個(gè)關(guān)卡系列,每個(gè)系列包含8到9個(gè)關(guān)卡,總共166個(gè)關(guān)卡。關(guān)鍵的設(shè)計(jì)在于:同一個(gè)系列里的所有關(guān)卡,雖然表面上看內(nèi)容各不相同,但骨子里的操作邏輯是一模一樣的。

      打個(gè)比方,系列一是"財(cái)務(wù)報(bào)表滾動(dòng)更新",關(guān)卡一讓你處理一家餐廳的月度收支表,關(guān)卡二換成了一家醫(yī)院的賬目,關(guān)卡三又變成了一家航空公司。每次任務(wù)的具體數(shù)字和業(yè)務(wù)場(chǎng)景都不同,但每次都需要你做同樣幾件事:讀取多張來(lái)源數(shù)據(jù)、找出目標(biāo)條目、過(guò)濾掉重復(fù)和無(wú)效行、對(duì)齊各項(xiàng)調(diào)整內(nèi)容、滾動(dòng)計(jì)算余額、與對(duì)照總量比對(duì)、最后輸出匯總表格。

      這個(gè)"骨子里一樣的操作邏輯"就是研究團(tuán)隊(duì)定義的核心概念——DAEF,即"領(lǐng)域無(wú)關(guān)執(zhí)行流程"??梢园阉胂蟪梢惶?萬(wàn)能菜譜框架":食材和口味每次都不同(具體任務(wù)內(nèi)容變化),但備菜、炒制、出鍋、裝盤(pán)的步驟順序始終如一(操作邏輯不變)。

      為什么要這樣設(shè)計(jì)?因?yàn)橹挥挟?dāng)一系列任務(wù)共享同一套操作邏輯,才能真正測(cè)試智能體有沒(méi)有從前幾次任務(wù)中提煉出可復(fù)用的經(jīng)驗(yàn)——如果每個(gè)任務(wù)的邏輯都截然不同,那即便智能體學(xué)到了什么,也根本沒(méi)有機(jī)會(huì)用上。

      研究團(tuán)隊(duì)覆蓋了五大領(lǐng)域:金融與經(jīng)濟(jì)學(xué)、運(yùn)營(yíng)與供應(yīng)鏈、醫(yī)療健康、治理與戰(zhàn)略,以及數(shù)據(jù)與文檔處理。每個(gè)領(lǐng)域都有幾個(gè)典型的工作流系列,例如供應(yīng)鏈補(bǔ)貨計(jì)劃、OCR數(shù)據(jù)提取、Excel加權(quán)風(fēng)險(xiǎn)評(píng)估、韓文文檔自動(dòng)化填寫(xiě)等,都是真實(shí)職場(chǎng)中會(huì)遇到的工作場(chǎng)景。

      為了構(gòu)建這些任務(wù),研究團(tuán)隊(duì)先從兩個(gè)已有的AI評(píng)測(cè)數(shù)據(jù)集里精選了64個(gè)種子任務(wù)(其中18個(gè)來(lái)自SkillsBench,46個(gè)來(lái)自GDPval),然后從這些種子任務(wù)里提煉出DAEF框架,再通過(guò)一套雙智能體的自動(dòng)擴(kuò)展流程,為每個(gè)DAEF框架生成更多變體任務(wù)。這個(gè)擴(kuò)展過(guò)程像一對(duì)編輯與審稿人:一個(gè)智能體(建筑師)負(fù)責(zé)設(shè)計(jì)新任務(wù),另一個(gè)智能體(評(píng)審人)負(fù)責(zé)在真實(shí)運(yùn)行環(huán)境里驗(yàn)證這些任務(wù)是否合理、是否有足夠的難度梯度。當(dāng)審稿人認(rèn)可之后,任務(wù)才被納入最終的測(cè)評(píng)集,最后再經(jīng)過(guò)人工復(fù)查確保質(zhì)量。

      二、智能體如何在游戲中積累自己的"技能圖書(shū)館"

      SKILLFLOW的測(cè)評(píng)方式同樣別出心裁。智能體在開(kāi)始第一個(gè)關(guān)卡時(shí),手邊什么參考資料都沒(méi)有,只能憑借自己的原始能力硬闖。闖完之后,系統(tǒng)會(huì)給它一份"錯(cuò)題反饋":這次任務(wù)哪里做錯(cuò)了,哪些結(jié)果不達(dá)標(biāo)。

      拿到這份反饋之后,智能體需要做一件額外的事——把這次的經(jīng)歷提煉成一條可以日后復(fù)用的經(jīng)驗(yàn),以文件的形式存入自己的技能庫(kù)。下次面對(duì)關(guān)卡二時(shí),它就可以打開(kāi)這個(gè)庫(kù),看看之前總結(jié)的經(jīng)驗(yàn),再結(jié)合新任務(wù)的具體要求來(lái)制定方案。完成關(guān)卡二之后,同樣拿到反饋,同樣更新技能庫(kù)——這個(gè)"做題→拿反饋→更新技能庫(kù)→做下一題"的循環(huán),就是研究團(tuán)隊(duì)所說(shuō)的"智能體終身學(xué)習(xí)協(xié)議"。

      技能的存儲(chǔ)格式被刻意設(shè)計(jì)得極為簡(jiǎn)潔:每次更新叫做一個(gè)"技能補(bǔ)丁",包含三個(gè)部分。第一部分是一段文字說(shuō)明,總結(jié)這次學(xué)到了什么新經(jīng)驗(yàn)或修正了什么舊錯(cuò)誤。第二部分是需要新增或修改的文件內(nèi)容。第三部分是需要?jiǎng)h除的過(guò)時(shí)文件。這種設(shè)計(jì)就像版本管理系統(tǒng)一樣,每一次修改都有記錄可查,方便研究人員日后逐條審查智能體的學(xué)習(xí)軌跡。

      技能文件本身的格式也有規(guī)范。每項(xiàng)技能都存放在以該技能命名的文件夾里,文件夾內(nèi)必須有一個(gè)核心說(shuō)明文件(SKILL.md),開(kāi)頭必須包含兩個(gè)字段:技能名稱(chēng)和使用場(chǎng)景描述。說(shuō)明文件里寫(xiě)的是可以直接照著執(zhí)行的操作指南,偏愛(ài)的寫(xiě)法是給出清晰的工作流程、決策規(guī)則和容易踩坑的反面案例。如果需要附上輔助腳本,放在scripts子文件夾;如果有詳細(xì)的參考文檔或API說(shuō)明,放在references子文件夾;如果有可以直接復(fù)用的模板文件,放在assets子文件夾。

      值得注意的是,技能庫(kù)的更新完全由智能體自己完成,不需要人工干預(yù),也不借助任何額外的檢索機(jī)制。技能的調(diào)用同樣是自然發(fā)生的:當(dāng)智能體在執(zhí)行任務(wù)時(shí),如果它讀取或調(diào)用了技能庫(kù)里的文件,系統(tǒng)就會(huì)記錄這次調(diào)用,作為"技能復(fù)用率"統(tǒng)計(jì)的依據(jù)。

      三、實(shí)驗(yàn)結(jié)果里藏著的冷知識(shí):高使用率≠高收益

      測(cè)試結(jié)果一出來(lái),研究團(tuán)隊(duì)發(fā)現(xiàn)了幾件頗為出乎意料的事。

      最亮眼的案例是Claude Opus 4.6。在沒(méi)有技能庫(kù)的情況下,它能完成166個(gè)任務(wù)里的104個(gè),成功率62.65%。開(kāi)啟終身學(xué)習(xí)模式后,完成數(shù)量升至118個(gè),成功率達(dá)到71.08%,凈增8.43個(gè)百分點(diǎn)。不僅如此,平均每次任務(wù)的費(fèi)用還從0.665美元降到了0.615美元,生成的輸出文字量也從平均每任務(wù)3000字降到了2390字——花的錢(qián)更少,做的事更多,這是最理想的結(jié)果。

      排在后面的表現(xiàn)也各有特點(diǎn)。MiniMax M2.5的成功率從28.31%升到34.94%,提升了6.63個(gè)百分點(diǎn)。Claude Sonnet 4.5從49.40%升到55.42%,提升6.02個(gè)百分點(diǎn)。GPT 5.4從33.13%升到36.75%,提升3.62個(gè)百分點(diǎn)。

      然而看到Kimi K2.5時(shí),故事就變得有意思了。這個(gè)模型在終身學(xué)習(xí)模式下,有高達(dá)66.87%的任務(wù)都調(diào)用了技能庫(kù)——也就是說(shuō),它非常積極地在使用自己積累的經(jīng)驗(yàn)。但是任務(wù)成功率只從55.42%升到56.02%,只漲了區(qū)區(qū)0.60個(gè)百分點(diǎn)。高度使用,微弱收益,技能調(diào)用率和實(shí)際收益之間出現(xiàn)了明顯的落差。

      更極端的案例是幾個(gè)出現(xiàn)退步的模型。GPT 5.3 Codex的成功率從52.41%跌到46.39%,下降了6.02個(gè)百分點(diǎn)。Qwen-Coder-Next從45.18%跌到44.58%。Qwen3-Coder-480B從24.70%跌到24.10%。MiniMax M2.7從37.35%跌到36.75%。這些模型不僅沒(méi)有因?yàn)榧寄芊e累變得更強(qiáng),反而變?nèi)趿恕?/p>

      研究團(tuán)隊(duì)還做了一個(gè)對(duì)照實(shí)驗(yàn),專(zhuān)門(mén)針對(duì)Claude Opus 4.6:讓它不積累技能庫(kù),而是把之前所有任務(wù)的完整對(duì)話歷史都附在當(dāng)前任務(wù)前面作為參考。這種"把過(guò)去的全部經(jīng)歷原封不動(dòng)塞進(jìn)記憶"的做法,效果如何?成功率只有51.04%,比沒(méi)有任何輔助的原始狀態(tài)(62.65%)還要低11.61個(gè)百分點(diǎn)。換句話說(shuō),把經(jīng)歷轉(zhuǎn)化為結(jié)構(gòu)化技能,遠(yuǎn)比把經(jīng)歷堆積成冗長(zhǎng)的記錄更有價(jià)值。這就好比廚師成長(zhǎng)靠的是提煉出食譜,而不是把每次下廚的全程錄像反復(fù)回看。

      從領(lǐng)域分布來(lái)看,不同類(lèi)型的任務(wù)對(duì)技能進(jìn)化的反應(yīng)也不一致。數(shù)據(jù)與文檔處理類(lèi)任務(wù)從技能積累中獲益最多,而金融與經(jīng)濟(jì)學(xué)類(lèi)任務(wù)反而出現(xiàn)了更多的負(fù)向變化。這說(shuō)明技能進(jìn)化的效果并非普適,某些任務(wù)類(lèi)型天然更適合這套學(xué)習(xí)機(jī)制。

      四、為什么有些模型越學(xué)越強(qiáng),有些越學(xué)越亂

      研究團(tuán)隊(duì)深入分析了背后的原因,總結(jié)出六條具體發(fā)現(xiàn)。

      最核心的一條是:決定模型能否從技能進(jìn)化中獲益的關(guān)鍵,不在于它能不能寫(xiě)出技能,而在于它能不能修正錯(cuò)誤的技能。幾乎所有模型都能在完成任務(wù)后寫(xiě)出一條技能條目,這不難。難的是,當(dāng)某條技能記錄的是錯(cuò)誤的操作邏輯時(shí),模型能不能發(fā)現(xiàn)這個(gè)錯(cuò)誤,并把技能改正確?這才是真正的分水嶺。

      與此緊密相關(guān)的第二條發(fā)現(xiàn)是:一旦錯(cuò)誤的技能被寫(xiě)入庫(kù)里,它的危害會(huì)隨著任務(wù)序列向后蔓延。后續(xù)的任務(wù)會(huì)繼承這個(gè)錯(cuò)誤的邏輯,就像一個(gè)食譜寫(xiě)錯(cuò)了關(guān)鍵步驟,所有照著這份食譜做出來(lái)的菜都會(huì)出問(wèn)題。這種錯(cuò)誤傳播效應(yīng)使得早期的錯(cuò)誤技能格外危險(xiǎn)。

      第三條發(fā)現(xiàn)是關(guān)于技能庫(kù)規(guī)模的反直覺(jué)規(guī)律:更小的技能庫(kù),往往對(duì)應(yīng)更好的任務(wù)表現(xiàn)。在表現(xiàn)最好的設(shè)置里,技能庫(kù)最終平均只存有一到兩項(xiàng)技能。反而是那些表現(xiàn)欠佳的模型,技能庫(kù)里堆積了四五項(xiàng)甚至更多技能,但成功率卻沒(méi)有相應(yīng)提升。為什么會(huì)這樣?因?yàn)閺?qiáng)的模型會(huì)把多次任務(wù)中反復(fù)出現(xiàn)的操作邏輯提煉成一條高度概括的核心技能,并在每次學(xué)到新東西后對(duì)這條核心技能進(jìn)行修訂和完善。弱的模型則傾向于每次任務(wù)都單獨(dú)總結(jié)一條新技能,導(dǎo)致技能庫(kù)變得越來(lái)越龐雜,里面充斥著大量?jī)?nèi)容重疊卻各說(shuō)各話的條目。

      以Qwen系列和部分MiniMax設(shè)置為例,它們的技能數(shù)量幾乎隨著任務(wù)編號(hào)單調(diào)遞增,幾乎每完成一個(gè)任務(wù)就新增一條技能。但技能數(shù)量的快速膨脹并沒(méi)有帶來(lái)成功率的相應(yīng)提升,反而讓后續(xù)任務(wù)的智能體在面對(duì)龐大技能庫(kù)時(shí)陷入某種"認(rèn)知過(guò)載",不知道該參考哪一條,最終適得其反。

      另一方面,Codex系列展示了截然不同的風(fēng)格:它傾向于把相鄰任務(wù)的變體融合進(jìn)同一條不斷演化的核心技能,而不是另立新條目。這使得它的技能庫(kù)始終保持精簡(jiǎn)。但有意思的是,這種精簡(jiǎn)的風(fēng)格并沒(méi)有轉(zhuǎn)化成和Opus系列相當(dāng)?shù)娜蝿?wù)完成率,說(shuō)明技能庫(kù)精簡(jiǎn)只是必要條件,不是充分條件。

      五、一道真實(shí)任務(wù)的解題全程:智能體怎么學(xué)會(huì)處理Excel公式的坑

      論文附錄里詳細(xì)展示了一個(gè)真實(shí)的任務(wù)案例,生動(dòng)地說(shuō)明了技能進(jìn)化在實(shí)際中是如何發(fā)生的,非常值得拆解來(lái)看。

      任務(wù)是這樣的:在一個(gè)Excel工作簿里,Task表單有一批黃色的空白單元格需要填寫(xiě)公式。Step 1要求填寫(xiě)INDEX+MATCH組合查詢公式,數(shù)據(jù)來(lái)源在Data表單的另一個(gè)區(qū)域。Step 2要求計(jì)算六家醫(yī)院的凈患者流指標(biāo),并統(tǒng)計(jì)各列的最小值、最大值、中位數(shù)、均值、第25和第75百分位數(shù)。Step 3要求用SUMPRODUCT函數(shù)計(jì)算加權(quán)均值。

      智能體開(kāi)始時(shí)遵循了合理的流程:先讀取任務(wù)說(shuō)明,然后調(diào)用技能庫(kù)里已有的Excel公式任務(wù)技能——技能里提醒它要先讀取驗(yàn)證腳本,搞清楚驗(yàn)證程序是怎么檢查結(jié)果的。智能體照做了,發(fā)現(xiàn)驗(yàn)證腳本會(huì)用一個(gè)叫`data_only=True`的模式打開(kāi)Excel文件,在這個(gè)模式下,如果單元格只有公式字符串而沒(méi)有緩存的計(jì)算結(jié)果,讀取到的值會(huì)是空的。

      這是一個(gè)經(jīng)典的陷阱:Python的openpyxl庫(kù)可以往Excel單元格里寫(xiě)入公式字符串,但它本身不會(huì)計(jì)算公式,所以寫(xiě)進(jìn)去的公式?jīng)]有配套的緩存值。如果驗(yàn)證程序用的是上述方式讀取,就會(huì)全部得到空值,任務(wù)失敗。

      智能體知道了這個(gè)問(wèn)題,開(kāi)始想辦法解決。它先嘗試調(diào)用LibreOffice在后臺(tái)重新計(jì)算工作簿,但發(fā)現(xiàn)這個(gè)容器環(huán)境里沒(méi)有安裝LibreOffice。又嘗試用一個(gè)叫`formulas`的Python庫(kù)來(lái)模擬計(jì)算,但這個(gè)庫(kù)計(jì)算出來(lái)的結(jié)果同樣無(wú)法被openpyxl以`data_only=True`方式讀取。

      走投無(wú)路之下,它轉(zhuǎn)向了第三條路:直接修改Excel文件內(nèi)部的XML結(jié)構(gòu)。Excel文件本質(zhì)上是一個(gè)ZIP壓縮包,里面有若干XML文件。單元格的公式存儲(chǔ)在``標(biāo)簽里,緩存值存儲(chǔ)在``標(biāo)簽里。如果手動(dòng)往每個(gè)有公式的單元格里寫(xiě)入一個(gè)``標(biāo)簽,驗(yàn)證程序就能讀到值了。

      智能體開(kāi)始實(shí)施這個(gè)方案,但中途出了問(wèn)題:它分多次修改XML,每次重新打包ZIP文件時(shí),前一次寫(xiě)入的公式字符串被覆蓋掉了,最終導(dǎo)致一部分單元格的公式消失,只剩下了緩存值。它意識(shí)到了這個(gè)問(wèn)題,診斷出根本原因是"多次XML修改導(dǎo)致公式字段被破壞",于是果斷放棄已經(jīng)修改過(guò)的工作文件,重新從原始工作簿開(kāi)始,把所有單元格的Python計(jì)算值先全部算好,然后在一次XML操作里把所有緩存值一起寫(xiě)入,完成后運(yùn)行驗(yàn)證腳本,167個(gè)公式單元格全部既有公式又有緩存值,任務(wù)通過(guò)。

      完成任務(wù)之后,智能體生成的技能補(bǔ)丁里,把這整套經(jīng)歷提煉成了一條清晰的操作指南。核心要點(diǎn)是:如果驗(yàn)證方式用`data_only=True`,那必須用XML級(jí)別的方式寫(xiě)入緩存值;所有XML修改必須在一次操作里完成,絕不能分多次;LibreOffice和formulas庫(kù)都不可靠,不要依賴它們。技能里還給出了可以直接復(fù)用的Python腳本,以及一張常見(jiàn)癥狀與對(duì)應(yīng)修復(fù)方案的對(duì)照表。這條技能后來(lái)幫助智能體在該系列的后續(xù)任務(wù)中大幅減少了試錯(cuò)次數(shù)。

      六、這項(xiàng)研究和以往的AI評(píng)測(cè)有什么本質(zhì)區(qū)別

      研究團(tuán)隊(duì)在論文附錄里列了一張?jiān)敿?xì)的對(duì)比表,把SKILLFLOW和幾個(gè)知名AI評(píng)測(cè)系統(tǒng)放在一起比較。Terminal-Bench和SWE-bench是兩個(gè)知名的AI任務(wù)評(píng)測(cè)平臺(tái),它們完全不考察技能相關(guān)的維度。SkillsBench是最接近本研究出發(fā)點(diǎn)的前人工作,它確實(shí)測(cè)試了技能對(duì)任務(wù)的幫助效果,也支持智能體自己生成技能,但它不考察技能的迭代修正、技能的跨任務(wù)積累復(fù)用、技能是否真正對(duì)應(yīng)有效使用,也沒(méi)有基于交互軌跡來(lái)提煉技能。SKILLFLOW則在上述全部維度上都給出了肯定的回答。

      這種系統(tǒng)性的差異,使得SKILLFLOW能夠揭示出一些以往評(píng)測(cè)從未觸碰的問(wèn)題,包括:為什么有些模型頻繁調(diào)用技能卻沒(méi)有收益、為什么技能庫(kù)的膨脹反而會(huì)傷害表現(xiàn)、為什么修正錯(cuò)誤技能的能力比生成技能的能力更重要。這些發(fā)現(xiàn)對(duì)于AI研究者理解當(dāng)前模型的瓶頸有著直接的參考價(jià)值。

      歸根結(jié)底,這項(xiàng)研究告訴我們,AI智能體目前離真正意義上的"邊干邊學(xué)"還有相當(dāng)大的距離。并不是給它配上一個(gè)可以更新的技能庫(kù)就萬(wàn)事大吉,關(guān)鍵在于它有沒(méi)有能力把失敗的經(jīng)歷轉(zhuǎn)化為有價(jià)值的修正,而不僅僅是把經(jīng)歷堆積成越來(lái)越厚的檔案。

      對(duì)于想要深入了解這個(gè)方向的讀者,相關(guān)代碼已經(jīng)開(kāi)源發(fā)布在GitHub平臺(tái),可以通過(guò)論文編號(hào)arXiv:2604.17308找到完整論文和倉(cāng)庫(kù)地址。這是一個(gè)相當(dāng)年輕的研究方向,目前還有大量問(wèn)題懸而未決:如何設(shè)計(jì)更好的技能修正激勵(lì)機(jī)制、如何在不同類(lèi)型任務(wù)之間實(shí)現(xiàn)技能遷移、如何防止錯(cuò)誤技能的持續(xù)傳播……每一個(gè)問(wèn)題背后,都是AI邁向真正自主學(xué)習(xí)所必須跨越的門(mén)檻。

      Q&A

      Q1:SKILLFLOW基準(zhǔn)測(cè)試包含多少任務(wù),覆蓋哪些領(lǐng)域?

      A:SKILLFLOW包含166個(gè)可運(yùn)行任務(wù),分為20個(gè)任務(wù)系列。覆蓋五大領(lǐng)域:金融與經(jīng)濟(jì)學(xué)、運(yùn)營(yíng)與供應(yīng)鏈、醫(yī)療健康與生命科學(xué)、治理與戰(zhàn)略,以及數(shù)據(jù)與文檔處理。每個(gè)系列包含8到9個(gè)任務(wù),這些任務(wù)共享同一套底層操作邏輯,但具體的業(yè)務(wù)場(chǎng)景、文件內(nèi)容和數(shù)據(jù)格式各不相同,專(zhuān)門(mén)用于測(cè)試智能體能否從一系列相似任務(wù)中提煉出可復(fù)用的經(jīng)驗(yàn)。

      Q2:Claude Opus 4.6在SKILLFLOW測(cè)試中提升了多少?

      A:Claude Opus 4.6是11個(gè)被測(cè)模型中表現(xiàn)最好的。在沒(méi)有技能庫(kù)的基礎(chǔ)設(shè)置下,它的任務(wù)成功率是62.65%,完成了166個(gè)任務(wù)中的104個(gè)。開(kāi)啟終身學(xué)習(xí)模式、允許它積累和更新技能庫(kù)之后,成功率升至71.08%,完成數(shù)量升到118個(gè),凈提升8.43個(gè)百分點(diǎn)。與此同時(shí),平均每任務(wù)的費(fèi)用從0.665美元降至0.615美元,生成文字量也有所減少,整體效率提升明顯。

      Q3:為什么有些模型技能使用率很高,任務(wù)成功率卻沒(méi)有提升?

      A:這是SKILLFLOW測(cè)試中最核心的發(fā)現(xiàn)之一。以Kimi K2.5為例,它在終身學(xué)習(xí)模式下有66.87%的任務(wù)都調(diào)用了技能庫(kù),但成功率只提升了0.60個(gè)百分點(diǎn),幾乎沒(méi)有實(shí)質(zhì)收益。原因在于,調(diào)用技能和從技能中真正受益是兩回事。如果一個(gè)模型傾向于把每次任務(wù)都總結(jié)成一條新技能,導(dǎo)致技能庫(kù)快速膨脹、內(nèi)容重疊,又無(wú)法有效修正其中錯(cuò)誤的技能,那么高使用率只會(huì)帶來(lái)認(rèn)知負(fù)擔(dān),而非能力提升。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      賴清德惹大禍了!白宮急忙喊話大陸,特朗普怕再晚就來(lái)不及了

      賴清德惹大禍了!白宮急忙喊話大陸,特朗普怕再晚就來(lái)不及了

      絕對(duì)軍評(píng)
      2026-05-11 08:13:30
      2026開(kāi)年至今,紅果9部短劇播放破10億!榜首這部太狠了

      2026開(kāi)年至今,紅果9部短劇播放破10億!榜首這部太狠了

      TVB的四小花
      2026-05-11 20:26:04
      兩歲前兒童至少要打18針疫苗,“排苗”難題何解?

      兩歲前兒童至少要打18針疫苗,“排苗”難題何解?

      界面新聞
      2026-05-11 15:54:25
      漢坦病毒來(lái)勢(shì)洶洶,每家備好5樣?xùn)|西,守住全家健康防線

      漢坦病毒來(lái)勢(shì)洶洶,每家備好5樣?xùn)|西,守住全家健康防線

      老特有話說(shuō)
      2026-05-11 15:29:11
      日軍騎兵有多強(qiáng)?冀中騎兵團(tuán)拼光三四百人,才換來(lái)一個(gè)血的答案

      日軍騎兵有多強(qiáng)?冀中騎兵團(tuán)拼光三四百人,才換來(lái)一個(gè)血的答案

      小楊歷史
      2026-05-11 20:48:27
      特斯拉FSD入華倒計(jì)時(shí):中國(guó)智駕的鯰魚(yú),已經(jīng)游進(jìn)池塘了

      特斯拉FSD入華倒計(jì)時(shí):中國(guó)智駕的鯰魚(yú),已經(jīng)游進(jìn)池塘了

      新浪財(cái)經(jīng)
      2026-05-10 23:49:22
      “逆襲之王”梁靖崑奪冠后回復(fù)妻子打錯(cuò)字,網(wǎng)友:冠軍手速快拼音不過(guò)關(guān)

      “逆襲之王”梁靖崑奪冠后回復(fù)妻子打錯(cuò)字,網(wǎng)友:冠軍手速快拼音不過(guò)關(guān)

      現(xiàn)代快報(bào)
      2026-05-11 17:15:03
      喬·約翰遜:詹姆斯得分強(qiáng)但最強(qiáng)是組織!科比不管助攻!

      喬·約翰遜:詹姆斯得分強(qiáng)但最強(qiáng)是組織!科比不管助攻!

      歷史第一人梅西
      2026-05-10 22:31:25
      俄羅斯警告亞美尼亞若加入歐盟將招致和烏克蘭一樣的后果

      俄羅斯警告亞美尼亞若加入歐盟將招致和烏克蘭一樣的后果

      山河路口
      2026-05-10 23:28:46
      遺憾官宣!陳赫直播透露:李晨加盟五哈徹底受阻,多次協(xié)調(diào)無(wú)果

      遺憾官宣!陳赫直播透露:李晨加盟五哈徹底受阻,多次協(xié)調(diào)無(wú)果

      一盅情懷
      2026-05-10 17:29:06
      一特斯拉Model 3服役7年跑了61萬(wàn)公里后,實(shí)測(cè)續(xù)航縮水34.2%

      一特斯拉Model 3服役7年跑了61萬(wàn)公里后,實(shí)測(cè)續(xù)航縮水34.2%

      IT之家
      2026-05-10 21:38:29
      魯能本土鋒霸迎來(lái)久違爆發(fā),本輪中超送出關(guān)鍵助攻,贏得點(diǎn)贊

      魯能本土鋒霸迎來(lái)久違爆發(fā),本輪中超送出關(guān)鍵助攻,贏得點(diǎn)贊

      懂個(gè)球
      2026-05-12 00:16:34
      11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

      11年前優(yōu)衣庫(kù)男女主現(xiàn)狀曝光,他們還在一起生了兩個(gè)孩子

      半糖甜而不膩
      2026-04-06 12:09:15
      靠山倒了?特朗普警告內(nèi)塔尼亞胡:我是美國(guó)最后一位“親以總統(tǒng)”

      靠山倒了?特朗普警告內(nèi)塔尼亞胡:我是美國(guó)最后一位“親以總統(tǒng)”

      嘆為觀止易
      2026-05-11 04:39:53
      李湘瘦成了水蛇腰,臉整整小了一圈,女兒反倒胖了一圈

      李湘瘦成了水蛇腰,臉整整小了一圈,女兒反倒胖了一圈

      鄉(xiāng)野小珥
      2026-05-10 13:06:04
      這和不穿有啥區(qū)別??jī)?nèi)衣外穿,趙露思演唱會(huì)“辣眼”穿搭,被眾嘲

      這和不穿有啥區(qū)別??jī)?nèi)衣外穿,趙露思演唱會(huì)“辣眼”穿搭,被眾嘲

      以茶帶書(shū)
      2026-05-11 23:15:37
      Lisa這頭發(fā)掉光了,看來(lái)富豪的圈子也不好混

      Lisa這頭發(fā)掉光了,看來(lái)富豪的圈子也不好混

      西樓知趣雜談
      2026-05-11 21:50:42
      高市這一跪,跪得很詭異

      高市這一跪,跪得很詭異

      一網(wǎng)打盡全球焦點(diǎn)
      2026-05-11 00:19:17
      北京今起三天最高氣溫將連超30℃!但周五起連續(xù)3天有雨…

      北京今起三天最高氣溫將連超30℃!但周五起連續(xù)3天有雨…

      家住朝陽(yáng)
      2026-05-11 19:49:25
      未來(lái)三年,只干半導(dǎo)體材料!錯(cuò)過(guò)等于十年前沒(méi)買(mǎi)茅臺(tái)!非危言聳聽(tīng)

      未來(lái)三年,只干半導(dǎo)體材料!錯(cuò)過(guò)等于十年前沒(méi)買(mǎi)茅臺(tái)!非危言聳聽(tīng)

      王二哥老搞笑
      2026-05-04 08:50:19
      2026-05-12 01:32:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂(lè)要聞

      “孕婦墜崖案”王暖暖稱(chēng)被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷(xiāo)售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車(chē)要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      家居
      健康
      旅游
      教育
      數(shù)碼

      家居要聞

      多元生活 此處無(wú)聲

      干細(xì)胞能讓人“返老還童”嗎

      旅游要聞

      天壇公園5月12日景點(diǎn)暫停開(kāi)放

      教育要聞

      特朗普訪華對(duì)美國(guó)留學(xué)市場(chǎng)是利好嗎?中國(guó)留美學(xué)生規(guī)模如何變化?

      數(shù)碼要聞

      還原macOS安全性邏輯:為什么黑客越來(lái)越難攻破Mac?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美曰韩国久久| 国产美女69视频免费观看| 日韩视频第一页| 天天综合视频| 国产成人啪精品视频免费APP | 成年黄页网站大全免费无码| 人妻无码中出| 欲色aV一区二区三区人妻无码| 人妻丰满熟妇AV无码区动漫| 中文字幕亚洲精品人妻| 中文字幕日韩一二三区| 亚洲欧洲日产国产无码AV| 亚洲 日本 欧洲 欧美 视频| 亚洲中文字幕第二十三页| 人妻无码中文专区久久综合| 久久中文字幕篠田优| 欧美三级在线手机版费观看| 人妻av资源先锋影音av资源| 久久热这里只有精品66| 欧美性猛交xxxx乱大交3| 亚洲av网站| 天堂网在线.www天堂在线资源| 亚洲一区二区国产精品| 猫咪网| 免费又爽又大又高潮视频| 116美女极品a级毛片| 国产丝袜剧情演绎| 黄色综合网| 夜夜做日日做夜夜爽| 国产精品无码无在线观看| 成人国产精品中文字幕| jizzjizz黄色| 综合无码成人aⅴ视频在线观看| 男女性高爱潮免费网站| 天堂亚洲免费视频| 东京热sese| 亚洲不卡无码永久在线观看| av无码天堂| 深夜宅男福利免费在线观看| 亚洲中文字幕丝祙制服| 美女A级毛片永久地址|