![]()
這項研究來自香港中文大學、香港中文大學(深圳)、華南理工大學、廈門大學、北京大學、香港科技大學及香港大學的聯合研究團隊,以預印本形式發布于2026年4月,論文編號為arXiv:2604.28139,感興趣的讀者可通過該編號查詢原文。
**一、從"聊天機器人"到"辦事員":AI正在經歷一場身份轉變**
每個人都用過"找人幫忙"的經歷。你托朋友幫你訂個餐廳,他只要動動手指打開App就能搞定;你請同事幫你整理一份跨部門的數據報告,他得先從財務系統拿數據、再到HR系統核實人員信息、然后在本地電腦上生成文檔——這兩件事的復雜程度天差地別。
現在,AI正在經歷同樣的身份轉變。過去那種"聊兩句回答你問題"的AI,正在升級成真正幫你"完成任務"的AI助手。它們不再只是回答"北京今天天氣怎么樣",而是要真正去訂機票、發郵件、跑代碼、修文件、協調多個系統之間的數據——這就是所謂的"AI工作流代理"(workflow agent)。
但問題來了:我們怎么評判這類AI到底干得好不好?
你出門前托朋友幫你關煤氣,回來發現煤氣還開著,朋友卻跟你說"我記得關了"——這就是當前很多AI評測的困境。AI交上一份看起來漂亮的報告,但背后到底有沒有真的去查數據、有沒有真的執行操作,很多測試根本看不出來。正是為了解決這個問題,研究團隊開發了一套叫做Claw-Eval-Live的全新評測體系。
**二、AI考試出了什么問題?現有測試為何像"紙上談兵"**
要理解Claw-Eval-Live解決了什么問題,先得搞清楚現有的AI評測有哪些毛病。
現有的大多數AI代理評測,就像一套五年前編的考試題:題目在發布時精心設計,但一旦發布就再也不變了。問題是,現實世界里人們需要AI幫忙完成的任務一直在變。五年前大家最需要的可能是"幫我搜索網頁",現在最急迫的可能是"幫我在多個企業系統之間協調一次審批流程"。一套一成不變的題目,就算當初設計得再好,也會慢慢脫離現實需求——題目還在那,但考的已經不是當下最重要的能力了。
更要命的是,現有評測大多只看AI交出來的"答卷",也就是最終的文字結果,卻不管它是怎么完成任務的。用一個通俗的比喻來說:老師讓學生寫一篇數學題的解題過程,但評分時只看最終答案對不對,完全不看解題步驟——這就給了作弊的空間。AI可能寫出一篇看起來條理清晰的分析報告,但實際上它根本沒有去查相關數據庫,所有內容都是"編"出來的。這類"說得好聽但沒真干活"的問題,在AI領域被稱為"能說不能做"的差距。
Claw-Eval-Live就是專門為堵住這兩個漏洞而設計的。
**三、Claw-Eval-Live的核心設計:一套會"自我更新"的考試系統**
研究團隊把Claw-Eval-Live比作一套有兩層結構的考試體系。外層是一個動態的"需求信號層",內層是一個穩定的"快照層"。
動態層的作用是追蹤現實世界里人們最需要AI完成哪些工作。團隊使用的信號來源叫做ClawHub熱門技能榜單——可以把它理解成一個AI工具的"下載排行榜",記錄了當下最受用戶歡迎的500種AI工作技能。這份榜單會隨著時間變化:某類任務越來越多人需要,它的排名就上升;某類任務過時了,它就會下滑。
穩定層則是將某一時間點的需求信號,轉化成一批固定的、可復現的測試題目。一旦某一個版本(也叫"快照")正式發布,它的題目、評分標準就固定下來,保證所有人在同樣條件下比較AI的成績。等到需求信號發生明顯變化,團隊再更新下一個版本的快照。
這個設計就像出版年鑒:每年的年鑒內容是固定的,可以讓不同地區的人公平比較;但每年都會出新版本,追蹤最新的變化。如此一來,評測既不會因為不斷改動而無法縱向比較,又不會因為永遠不變而脫離現實。
**四、題目是怎么出的?從"排行榜信號"到"可執行任務"的五步流程**
把一份用戶下載排行榜變成一批能客觀評分的AI考題,這中間的過程相當復雜,研究團隊將其分成了五個步驟。
第一步是信號收集。團隊從ClawHub Top-500榜單里提取每一個技能條目,記錄它的功能類型和排名權重,作為"哪類任務最重要"的參考依據,但不直接把榜單條目變成考題。
第二步是模式聚類。榜單上的條目可能有很多重疊——例如"發送郵件通知"和"批量發送提醒郵件"本質上屬于同一類工作。團隊把相似的條目歸并成更穩定的"工作流模式",比如"文檔轉化類"、"跨系統協作類"、"數據分析類"、"工作空間修復類"等,形成幾個大的分類家族。
第三步是家族權重分配。根據每個分類在榜單上占據的信號總量,為每個分類計算一個權重比例,決定這個版本的考題里各類任務應該占多大比例。權重高的類型出的題多,權重低的出題少,但不會直接決定某道具體題目進不進最終考卷。
第四步是種子展開與實現。按照權重,團隊為每個分類設計若干"種子任務"——每個種子任務說明了用戶的目標是什么、需要操作哪些系統、需要留下哪些可驗證的行為痕跡、評分的邊界在哪里。然后把這些種子任務落實成可以真正運行的考題,包括任務說明、工具接口定義、預置的數據環境(稱為"fixture"),以及專門為這道題寫的評分程序。之后還要經過預篩選:只有在測試運行中能穩定跑通、在不同AI模型上產生有區分度的分數差異的題,才能留下來。
第五步是基于區分度的最終選題。經過預篩選后,團隊得到了157道候選題,但最終要從中選出105道進入正式發布版。如何選?團隊用了一種叫做"混合整數線性規劃"的數學優化方法——簡單來說,就是用一套嚴格的數學公式來決定哪些題留、哪些題去,而不是憑感覺或經驗拍板。這個優化過程同時滿足三個約束:總題目數量固定為105道;每個任務分類都必須有題目覆蓋;入選的題目組合在區分不同AI模型方面效果最大化。那些所有AI都能輕松通過、或者所有AI都必然失敗的題,一律排除,因為這類題根本區分不出好壞。
**五、考場長什么樣?兩種截然不同的"戰場"**
最終發布的105道題,按照AI需要操作的環境類型,分成兩大類戰場。
第一類叫做"服務支撐型工作流",共87道題。這類任務要求AI與一組模擬真實企業系統的受控服務進行交互——包括CRM客戶關系管理系統、財務系統、郵件系統、日歷系統、幫助臺系統、知識庫等共18個受控服務。AI需要在這些系統之間查詢數據、比對信息、做出決策,并且真正執行"寫入"操作,比如創建草稿、更新記錄、創建任務等。這類任務的核心難度在于:需要協調多個系統、保持狀態一致性、并留下可核查的操作記錄。
第二類叫做"工作空間修復",共18道題。這類任務把AI放進一個沙盒化的本地工作環境,給它一個"壞掉"的狀態——可能是某個配置文件寫錯了、某段代碼有bug、某個服務無法啟動——AI需要檢查日志、修改文件、運行命令,并且真正把問題修好。
每道題都有完整的配套資料:一個YAML格式的任務定義文件、預置好的初始數據環境、工具接口規范,以及一個專門為這道題編寫的自動評分程序。整個考試過程全程記錄,不只保存AI最后說了什么,而是保存它的每一步操作:調用了哪些工具、工具返回了什么、消耗了多少時間和token、最終系統狀態如何。
**六、怎么打分?"說了什么"和"做了什么"缺一不可**
Claw-Eval-Live的評分機制是整個系統最有特色的部分,官方把它總結為"基于規則的提取加上結構化大模型評判"。
這句話的核心含義是:評分從可驗證的證據出發,而不是把評判權完全交給另一個AI。整個評分過程有三類關鍵證據來源。
數據檢索驗證主要占總分的15到20%,驗證AI有沒有調用正確的工具、查詢正確的數據來源,這部分直接從操作日志中提取,是確定性判斷。數據準確性驗證通常占40到60%,核查AI最終給出的實體名稱、數字和結論是否與預置的標準答案一致。操作執行驗證占10到20%,通過服務審計日志或工作空間的最終狀態,確認AI是否真正完成了要求的狀態變更——比如記錄確實被更新了、文件確實被修改了、服務確實重新跑通了。
只有當這三類確定性證據無法完全覆蓋任務的所有評分維度時,才會引入大模型評判,用來處理那些無法用精確匹配來核查的語義層面——比如報告的完整性、表述的組織質量、分析的邏輯連貫性。
實操中,評分程序按任務類型分成三種模式。對于分析型任務(如賬目核對、HR審查、業務預測),確定性檢查驗證工具調用規范性、實體和數字準確性、以及必要的寫入操作,然后再由大模型評判那些無法精確核查的語義維度。對于操作型任務(如起草郵件、安排會議、工單分類),確定性驗證的比重更大,大模型僅用于評判呈現質量。對于工作空間修復任務,評分完全基于腳本驗證,執行完成后,驗證腳本直接在工作空間內重新檢查文件內容、服務健康狀態、配置完整性,修復是否成功是一個客觀的系統狀態事實,不涉及任何主觀判斷。
當需要大模型評判時,研究團隊使用GPT-5.4作為評判模型。由于GPT-5.4本身也是被測模型之一,這可能引入一定的評判偏差,團隊通過把大模型評判限制在確定性檢查無法覆蓋的語義維度、并為每次評判調用提供完整的操作記錄和專屬評分標準來降低這一風險。
**七、最終成績單:沒有一個AI能跨過70%這道坎**
研究團隊測試了13個主流前沿大模型,評分指標有兩個:通過率(完成分數達到0.80門檻的任務比例)和總體完成度(所有105道題平均得分的百分制換算)。
排名第一的是Claude Opus 4.6,通過率66.7%,總體完成度83.6分。緊隨其后的GPT-5.4通過率63.8%,總體完成度81.7分。第三、四名的Claude Sonnet 4.6和GLM-5都是61.9%的通過率,但后者總體完成度稍低(78.1分對79.9分),因此GLM-5排名第四。再往后,MiniMax M2.7拿到54.3%,而MiMo V2 Pro、Kimi K2.5和Gemini 3.1 Pro三家并列53.3%。排名末尾的Doubao Seed 2.0只有43.8%的通過率。
整個榜單呈現出一個清晰的格局:頂部和底部之間相差將近23個百分點,說明當前的AI模型在工作流能力上確實存在較大的梯度差異,不是一鍋粥。但更關鍵的信息是:即便是第一名,也只完成了三分之二的任務。這不是偶然的——它說明穩定可靠的工作流自動化對于今天的AI來說依然是一個未攻克的難題。
三家并列53.3%的模型進一步揭示了為什么通過率和總體完成度需要同時看。MiMo V2 Pro總體完成度76.9,Kimi K2.5是76.2,Gemini 3.1 Pro只有74.0——通過率相同,但總體完成度拉開了差距。換句話說,對于那些沒通過的任務,前者完成得更多一些,后者則差得更遠。這表明評測系統捕捉到了比二元通過失敗更細膩的能力差異。
**八、不同科目的成績:有的科目輕松滿分,有的科目全體掛科**
把105道題按業務類型歸成七個大組來看,各模型的表現呈現出極度不均衡的圖景。
"開發與終端"類(18道,主要是工作空間修復任務)是各模型表現最好的領域。Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6在這個大組的通過率均為100%,即便是表現最差的Doubao Seed 2.0也有72%。換句話說,本地工作空間的診斷與修復,對今天的頂級AI來說已經基本不是挑戰了。
"人力資源與人員管理"類(9道任務)則是另一個極端,可以說是整個考卷里最難的一組。沒有任何一個模型的通過率超過22.2%,多個模型在這一組的得分是0%。這些任務涉及員工入職、績效審查等需要從多個系統提取特定員工信息、并按規范完成操作的場景——AI在這里大量生產的是"看起來像模像樣但實際上缺少關鍵細節"的通用性回答,一旦用具體的證據核查,就會暴露出并沒有真正查詢正確數據的事實。
"效率與生產力"類(25道任務)是分化最大的一組,從Claude Sonnet 4.6的88%到Doubao Seed 2.0的48%,跨度超過40個百分點。這意味著這類任務在區分AI能力高低方面最有效力。
"管理與運營"類的情況也很嚴峻:在0.80的公共通過門檻下,沒有任何一個模型在這一類別里達標。業務流程自動化家族平均通過率只有12.8%。
細化到單個任務家族,表現最佳的是PRODAPP(任務量17道,平均通過率84.2%),但即便如此,最好和最差的模型之間仍有47.1個百分點的差距。HR家族平均通過率只有6.8%。在單道題層面,有幾道題成為了最強的模型區分器:月度電商對賬(ecommerce_monthly_reconcile)、首次響應時間審計(first_response_time_audit)、多文檔合并(multi_doc_merge)——這些任務的共同特點是,只要漏掉一個數據來源、或者遺漏一次關鍵操作,最終得分就會大幅下滑。
**九、服務型任務vs工作空間修復:AI真正的瓶頸在哪里**
把105道題按執行環境一分為二來看,兩類任務之間的差距觸目驚心。
在18道工作空間修復任務上,所有模型的通過率至少都有72.2%,頭部模型接近100%。但在87道服務支撐型工作流任務上,沒有任何一個模型超過59.8%——Claude Opus 4.6以59.8%領跑,GPT-5.4是56.3%,GLM-5是55.2%。
這個對比的意義相當深遠。當前的AI在有限的、固定的本地環境中修復已知問題,已經相當游刃有余。但一旦要在多個相互關聯的業務系統之間來回穿梭、協調狀態、不遺漏任何一個必要步驟,AI的能力就開始出現明顯的裂縫。真正的挑戰不是"AI會不會用終端",而是"AI能不能在跨系統的業務流程中保持狀態、不丟失關鍵證據、并按規定完成所有必要的寫入操作"。
**十、通過率相同,但差距可以很大——為什么需要兩個指標**
榜單上并列53.3%通過率的三個模型揭示了一個重要道理:通過率相同的模型,實際能力可能大不一樣。
通過率告訴你"有多少道題完全做完了",但總體完成度告訴你"在沒完全做完的題里,平均做到了幾成"。對于一個實際部署中的工作流代理來說,這兩個維度都重要——有時候你需要的是"必須完整執行某個流程",有時候你只需要"盡量多完成流程的大部分步驟",兩種場景對應的選型標準不同。
**十一、花錢多的不一定是最好的選擇——效率賬怎么算**
研究團隊還統計了每個模型完成全部105道題所消耗的資源,包括token數量、調用輪次、估算API費用和總耗時。
GPT-5.4的表現尤為突出:它在top4中消耗token最少(1.26億),速度最快(104分鐘),成本最低(約6.27美元),同時排名第二。相比之下,同樣在top4的Claude Opus 4.6需要消耗3.32億token、花費約31.61美元、耗時213分鐘,才換來略高的通過率。成本差距接近5倍,但通過率只差約3個百分點。
另一方面,DeepSeek V3.2的費用估算最低(約0.56美元),但通過率只有51.4%,與頂部模型差距明顯。MiniMax M2.7費用也極低(0.69美元),通過率達到54.3%,性價比相對突出。
這意味著,對于實際部署工作流AI的團隊來說,選型不能只看通過率排名,還需要結合具體業務類型的任務分布和可接受的成本范圍來綜合判斷。
**十二、區分度的分布:為什么有些題"無效",有些題"特別好用"**
在全部105道題中,并非每道題都同樣有價值。研究團隊把區分度定義為:13個模型在同一道題上的得分標準差。標準差越高,說明這道題越能把強模型和弱模型區分開。
統計結果顯示,105道題里有27道是"全員失敗題"(13個模型全部沒過),有19道是"全員通過題"(13個模型全部通過)。這兩組題在區分不同模型方面貢獻極小。真正有區分價值的題集中在中間地帶——有些模型通過、有些模型沒通過的那些題。
區分度最高的幾道題包括電商月度對賬、首次響應時間審計和多文檔合并,這些任務需要精確的多來源數據提取,任何一個步驟的遺漏都會導致得分驟降,因此不同能力水平的模型在這些題上會表現出明顯的分數差異。
這也是為什么團隊在選題時使用了比正式評測更寬松的預篩選門檻:如果按照正式的0.80門檻來篩,會排除掉太多只有最強模型才能通過但確實有價值的任務,導致考卷的區分效力下降。最終發布版雖然按0.80門檻打分,但選題時用了更寬松的標準,保留了足夠多的中等難度任務。
**十三、這套系統告訴了我們什么,又留下了什么問題**
歸根結底,Claw-Eval-Live傳遞的信息可以用兩句話概括:當前最好的AI工作流代理,還沒有一個能在105道代表真實企業需求的任務里通過70%;而且失敗的模式是有規律的——HR、管理和多系統協調類任務是系統性的瓶頸,不是個別失誤。
這對普通人的生活意味著什么?如果你正在使用或者考慮使用某個AI助手來幫你處理企業級的流程性工作,你需要知道它在哪些場景下靠譜、在哪些場景下還不行。用AI幫你修一個壞掉的開發環境,已經相當可靠;但用AI幫你協調一次跨部門的薪酬審查或OKR評估,恐怕還需要人工把關。
這套評測體系本身也有局限。大模型評判環節引入了GPT-5.4作為裁判,而GPT-5.4本身也是被評測對象之一,這種雙重身份可能帶來偏差,盡管團隊已經盡力將大模型評判的范圍限制在確定性檢查無法覆蓋的最小必要范圍內。此外,ClawHub熱門榜單作為需求信號來源,反映的是工具生態系統用戶的偏好,不一定完整代表所有類型組織和行業的實際需求分布。
但無論如何,這套系統提出了一個重要的方向性問題:評判AI"能不能干活",應該看它做了什么,而不只是看它說了什么。有興趣深入了解的讀者可以通過論文編號arXiv:2604.28139查閱完整的研究報告和項目主頁claw-eval-live.github.io。
Q&A
Q1:Claw-Eval-Live是如何保證評測題目不脫離真實需求的?
A:Claw-Eval-Live使用ClawHub Top-500熱門技能榜單作為需求信號來源,這是一個反映用戶當下最常使用的AI工作技能的排行榜。每次發布新版本時,團隊會重新從最新榜單出發,經過聚類、權重分配、種子展開等五個步驟,將排行榜信號轉化為可執行的測試任務。這樣,評測題目的分布會隨著用戶需求的變化而更新,而不是永遠固定在某一時間點的判斷上。
Q2:為什么Claw-Eval-Live不直接讓AI自己批改答案?
A:Claw-Eval-Live的評分設計優先使用確定性規則檢查,包括操作日志核查、數據準確性比對、服務狀態驗證等,只有在這些客觀檢查無法覆蓋的語義維度(如報告組織質量)時才引入大模型評判。這是因為如果把整個評分權交給另一個AI,評分本身就會變得不可靠——AI可能覺得另一個AI"說得很好",卻沒有發現它其實根本沒有執行任何操作。用可驗證的行為證據打分,比只看文字輸出可靠得多。
Q3:測試結果顯示AI在哪類工作上最弱?
A:根據Claw-Eval-Live當前版本的測試結果,AI在人力資源與人員管理類任務上表現最差,沒有任何模型的通過率超過22.2%,多個模型得分為零。管理與運營類任務同樣是全員難題。這些任務的共同特點是需要從多個業務系統中精確提取特定人員或流程信息,并按規定完成狀態寫入操作,而目前的AI往往生成表面上合理但實際缺少關鍵證據支撐的通用性回答。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.