當AI學會"挑剔"：中國科技大學與美團聯(lián)合團隊打造的智能審判員

2026-04-30 21:41:30　來源: 科技行者

天津舉報

分享至

這項由中國科學技術(shù)大學與美團聯(lián)合開展的研究發(fā)表于2026年4月，論文編號為arXiv:2604.18240，有興趣深入了解的讀者可通過該編號查詢完整內(nèi)容。

每天，數(shù)以億計的人在使用各種AI助手處理任務(wù)——搜索信息、操作電腦、查詢數(shù)據(jù)庫。但有一個鮮少被普通用戶察覺的問題始終困擾著AI研究者：當這些AI助手完成任務(wù)之后，我們怎么知道它們做得對不對？

這個問題聽起來簡單，卻深藏玄機。以往的解決思路大致分為兩類。一類是提前寫好規(guī)則，讓程序自動比對答案，就像用標準答案批卷。這種方式對于簡單的數(shù)學題還算湊合，但遇到"幫我查一下某個剛發(fā)布的技術(shù)報告是什么時候出版的"這類問題，提前寫好的規(guī)則就完全不夠用了，因為答案時刻在變、形式千變?nèi)f化。另一類是讓另一個AI來打分，研究者稱之為"LLM-as-a-Judge"——簡單理解就是讓一個大語言模型當裁判，讀完被測AI的回答后給出評價。這種方式靈活許多，但有個致命弱點：裁判AI自己也不上網(wǎng)、不查數(shù)據(jù)庫，它只能根據(jù)腦子里已有的知識來判斷，一旦涉及它不熟悉的最新信息或需要實際操作驗證的內(nèi)容，就會陷入"我也不確定"的尷尬境地。

正是為了突破這道瓶頸，研究團隊提出了一個更激進的想法：讓裁判AI也擁有行動力，能像真正的考官一樣親自去查資料、操作環(huán)境、驗證細節(jié)。這種新型裁判被稱為"Agent-as-a-Judge"——可以理解為"身懷十八般武藝的智能審判員"。為了系統(tǒng)評估這類審判員究竟有多好用、又有哪些短板，研究團隊從零搭建了一套專屬測試平臺，命名為AJ-Bench。這是目前已知第一個專門為"Agent-as-a-Judge"能力設(shè)計的綜合性基準測試，覆蓋搜索、數(shù)據(jù)系統(tǒng)操作和圖形界面交互三大領(lǐng)域，包含155項任務(wù)和516條人工標注的執(zhí)行軌跡。

一、裁判為什么需要"動手能力"

要理解這個研究解決的核心問題，不妨回到一個極其具體的場景。

有人向AI搜索助手提問："LongCat-Flash技術(shù)報告的最新版本具體是哪一天發(fā)布的？"助手回答："2025年8月9日。"現(xiàn)在，如何判斷這個答案是否正確？

傳統(tǒng)的LLM裁判會怎么做？它會翻翻自己的"記憶"，發(fā)現(xiàn)這個技術(shù)報告可能超出了它的訓練數(shù)據(jù)范圍，于是給出一個模棱兩可的回答："由于無法確認實際發(fā)布日期，我無法驗證這個答案是否正確。"

而配備了工具的智能審判員會怎么做？它會直接打開瀏覽器，訪問arxiv.org上對應(yīng)的論文頁面，看到頁面上清楚寫著"19 Sep 2025"，隨即給出明確結(jié)論："答案應(yīng)為2025年9月19日，被評估的回答給出的2025年8月9日與正確答案不符。"

這個對比道出了整個研究的根本動機：有些真相只有親自去查才能知道，而不是單靠腦子里的存量知識就能判斷。裁判如果只會"想"而不會"做"，在面對需要實際操作驗證的任務(wù)時就會頻頻失靈。

AI助手越來越多地被部署在需要"真實行動"的場景中——瀏覽網(wǎng)頁、操作數(shù)據(jù)庫、控制電腦桌面。相應(yīng)地，評判這些AI助手表現(xiàn)的裁判，也必須有能力深入同樣的環(huán)境，親眼看到結(jié)果，才能給出可信的判斷。

二、測試場地的精心設(shè)計

AJ-Bench的構(gòu)建過程本身就是一項相當精細的工程，值得細細道來。

研究團隊選擇了三個截然不同的領(lǐng)域作為測試場。

第一個領(lǐng)域是"搜索"，專門考察智能審判員在信息核實方面的能力。這里的任務(wù)來自兩個已有的知名數(shù)據(jù)集：Mind2Web2和WideSearch。前者側(cè)重于需要多跳推理的深度搜索，好比要先找到A才能找到B，再通過B才能確認C的那種連環(huán)查找；后者側(cè)重于廣泛收集信息，需要覆蓋面廣、來源多樣。研究團隊在篩選任務(wù)時特意排除了答案簡單、一眼就能核實的問題，也排除了購物價格、機票信息這類隨時會變化的時效性內(nèi)容，因為這兩類題目不足以真正考驗審判員的深度核實能力。

第二個領(lǐng)域是"數(shù)據(jù)系統(tǒng)"（論文中簡稱DS），考察智能審判員能否通過操作真實環(huán)境來驗證任務(wù)是否完成。具體來說，任務(wù)涉及文件系統(tǒng)管理和PostgreSQL數(shù)據(jù)庫操作，都來自另一個已有的基準測試MCPMark。文件系統(tǒng)任務(wù)可能要求AI助手重命名文件、整理目錄結(jié)構(gòu)；數(shù)據(jù)庫任務(wù)則要求修改表格、插入記錄。對于這類任務(wù)，判斷"做沒做對"的唯一可靠方式，就是審判員親自連上同一個環(huán)境，檢查文件夾里的內(nèi)容是否符合預期。

第三個領(lǐng)域是"圖形界面"（GUI），也是技術(shù)難度最高的部分。任務(wù)來自O(shè)SWorld項目，涉及在真實的計算機桌面環(huán)境中操作PowerPoint、Word、Excel三類辦公軟件。審判員需要通過截圖和界面元素樹（一種描述屏幕上所有可見控件的數(shù)據(jù)結(jié)構(gòu)）來判斷一個AI助手的操作是否達到了預期效果，比如"圖片有沒有真正被移動到幻燈片右側(cè)"或者"表格里的數(shù)據(jù)格式有沒有按要求改變"。

整個基準測試最終包含155項任務(wù)和516條執(zhí)行軌跡，每條軌跡都被標注為"成功"或"失敗"。為了讓正反案例保持平衡，研究團隊在收集軌跡時特意確保每類任務(wù)都有足夠數(shù)量的失敗案例，而不是讓數(shù)據(jù)集里全是成功完成的案例。

值得一提的是，標注質(zhì)量有嚴格保障。搜索領(lǐng)域的標注由人工團隊完成，標注人員薪酬與當?shù)厥袌鏊较喈敚粩?shù)據(jù)系統(tǒng)領(lǐng)域借助MCPMark提供的自動驗證腳本，再輔以人工復查；圖形界面領(lǐng)域則因為自動化腳本本身存在局限，完全依靠人工逐條檢查，以確保不出現(xiàn)誤標。

三、"動手型"裁判真的比"動嘴型"裁判更準嗎

帶著這套精心設(shè)計的測試平臺，研究團隊開始了大規(guī)模對比實驗。他們找來了當下最強的一批AI模型充當裁判，包括Gemini家族、Claude家族、GPT家族、Grok-4，以及若干頂級開源模型如deepseek-v3.2、kimi-k2、qwen3等。

實驗結(jié)果非常清晰：當同一個AI模型被賦予"調(diào)用工具、與環(huán)境互動"的能力之后，它的裁判準確率會顯著提升，平均F1分數(shù)提高約13個百分點。F1分數(shù)是評估分類準確性的綜合指標，滿分為100，研究中計算方式是將0到1之間的小數(shù)乘以100來展示，所以13個百分點的提升是相當可觀的進步。

以gpt-5-mini這個模型為例，不配備工具時的整體F1約為59分，配備工具后躍升至約72分；開源的deepseek-v3.2不配備工具時約為64分，配備工具后升至約77分。這種提升在三個領(lǐng)域都有體現(xiàn)，但在圖形界面領(lǐng)域尤為突出——僅在PowerPoint子類，提升幅度就高達31個百分點。這一現(xiàn)象不難理解：判斷一個辦公軟件操作是否成功，如果裁判只能看文字描述，很難判斷界面上的變化是否真的發(fā)生；但如果裁判能夠截圖查看、點擊界面元素，真相就一目了然了。

還有一個令人印象深刻的發(fā)現(xiàn)：配備了工具的"弱"模型，打分準確率可以超過不配工具的"強"模型。換句話說，工具和環(huán)境訪問能力帶來的增益，有時甚至能彌補模型本身智力水平的差距。這說明當前那些依賴純文本判斷的裁判AI，已經(jīng)遭遇了明顯的能力天花板——不是它們不夠聰明，而是僅憑閱讀文字，確實無法完成某些必須親自操作才能驗證的判斷任務(wù)。

不過，研究團隊并不回避整體表現(xiàn)仍有不足的現(xiàn)實。即便是最優(yōu)秀的配置，平均F1也只有約77分，距離滿分還有相當距離。這說明"Agent-as-a-Judge"盡管有明顯優(yōu)勢，依然面臨一系列有待解決的技術(shù)挑戰(zhàn)。

四、深思熟慮vs.快速行動：推理能力的悖論

一個直覺上很合理的推測是：裁判AI如果"想得更深、更仔細"，打分應(yīng)該會更準確。研究團隊專門檢驗了這個推測，結(jié)果卻頗為微妙。

對于gpt-5-mini，研究者對比了"低推理"、"中推理"和"高推理"三種模式下的表現(xiàn)。從低推理到中推理，性能確實有穩(wěn)定提升；但從中推理到高推理，提升就變得不穩(wěn)定，在某些子類甚至出現(xiàn)了下降。對于deepseek-v3.2，開啟"深度思考模式"后的表現(xiàn)反而略微弱于普通模式。

這個現(xiàn)象揭示了一個微妙的道理：裁判好不好，靠的是"會用工具、懂得分析工具輸出結(jié)果"，而不單純是"內(nèi)在推理能力有多強"。更強的內(nèi)在推理能力，并不直接等于更強的外部工具調(diào)用和信息整合能力。一個能做高難度數(shù)學題的人，不一定比一個邏輯能力稍弱但更熟悉操作流程的人更適合當實驗室質(zhì)檢員。

五、互動次數(shù)越多，就越準嗎

研究團隊還檢驗了另一個關(guān)鍵問題：給裁判AI更多的"探索步驟"，是否能持續(xù)改善打分質(zhì)量？

實驗結(jié)果證實，增加最大互動輪次確實能持續(xù)提升F1分數(shù)，尤其是從極少步驟（1步、2步）增加到適中步驟（4步、8步）時，提升最為顯著，這說明信息量的增加對裁判準確率幫助很大。當步驟增加到16步乃至32步時，提升仍然存在但趨于平緩，意味著額外的探索帶來的邊際收益在遞減。

不同領(lǐng)域?qū)硬襟E數(shù)量的敏感程度也不一樣。Word和PowerPoint類任務(wù)從更多交互中獲益最大，表明這類任務(wù)的狀態(tài)驗證本身就需要多次操作和確認。而文件系統(tǒng)類任務(wù)在相對少的步驟下就能達到不錯的準確率，結(jié)構(gòu)更簡單、狀態(tài)更容易一次性核實。

六、看圖還是看樹：多模態(tài)信息的兩面性

在圖形界面測試領(lǐng)域，裁判AI可以獲得兩種類型的信息：截圖（直觀地呈現(xiàn)屏幕視覺內(nèi)容）和界面元素樹（以結(jié)構(gòu)化文本的形式描述屏幕上的所有控件及其屬性）。研究團隊逐一測試了"只給截圖"、"只給元素樹"和"兩者都給"三種配置的效果。

結(jié)論出乎意料地復雜：并非在所有情況下，"兩者都給"就比單獨一種信息更好。在PowerPoint子類中，元素樹單獨使用與兩者結(jié)合的效果旗鼓相當；在Word子類中，截圖單獨使用反而取得了最好的結(jié)果；只有在Excel子類中，"兩者結(jié)合"才穩(wěn)定地優(yōu)于任何單一模態(tài)。

這個發(fā)現(xiàn)揭示了一個反直覺的現(xiàn)象：信息不是越多越好，多余的信息可能成為噪音，干擾裁判AI的判斷。截圖和元素樹攜帶的信息有時是高度重疊的，兩者同時涌入時，模型可能會在處理冗余內(nèi)容上消耗注意力，反而影響了核心判斷。換句話說，"如何喂信息給裁判"本身就是一個需要精心設(shè)計的工程問題。

七、失敗的四種姿勢

研究團隊沒有滿足于宏觀數(shù)據(jù)，他們對失敗案例進行了細粒度的分類分析，總結(jié)出裁判AI犯錯的四種典型方式。

第一種是"該動不動"——裁判AI本應(yīng)調(diào)用某個工具驗證關(guān)鍵信息，卻沒有這樣做，導致判斷依據(jù)不足，最終給出了錯誤的結(jié)論。第二種是"用錯工具"——裁判知道需要查，卻調(diào)用了不合適的工具，獲取到的信息偏離了真正需要驗證的內(nèi)容。第三種是"信息擺在眼前卻看不懂"——工具返回了正確結(jié)果，但裁判AI對這個結(jié)果的解讀出現(xiàn)了偏差，要么斷章取義，要么被旁枝末節(jié)分散了注意力，最終沒能從正確的證據(jù)中得出正確的結(jié)論。第四種是"證據(jù)正確，邏輯出錯"——裁判獲取到了準確信息，推理過程表面上也看似完整，但最終結(jié)論還是錯了，往往是因為在多種可能解釋中選擇了"寬松"而非"嚴格"的那一種，對被評估AI的行為給予了不應(yīng)有的寬容。

從分布來看，第三種和第四種是最主要的失敗來源，占了絕大多數(shù)錯誤案例。這意味著當前"Agent-as-a-Judge"系統(tǒng)最薄弱的環(huán)節(jié)，不是工具調(diào)用的技術(shù)層面，而是信息理解和邏輯推理的能力層面——拿到了線索，卻沒能正確破案。

說到底，這項研究做的事情，是給"AI的裁判"建了一個公平的考場，然后認認真真地考了一次試。考試結(jié)果喜憂參半：好消息是，讓裁判AI也能動手操作環(huán)境，確實能大幅提升它判斷他人表現(xiàn)的準確性，而且這種提升在不同的模型、不同的任務(wù)類型上都是穩(wěn)定可見的；壞消息是，即使是最優(yōu)秀的"動手型"裁判，平均分也只有77分上下，依然有超過五分之一的案例判斷失誤。

歸根結(jié)底，這項研究說明了一件關(guān)于AI評估領(lǐng)域的重要事情：隨著AI越來越多地被部署到需要真實操作的場景里，我們用來評判這些AI的方法也必須跟上節(jié)奏，不能再停留在"讀讀文字、想想打幾分"的階段。研究者們預計，未來這套框架有望被引入AI訓練過程本身，幫助模型在學習階段就獲得更精準的反饋信號，就像給學生配備了一位會親自上機操作驗證的老師，而不是只會看答案紙的改卷機器。

當然，還有很多問題值得繼續(xù)追問：如果裁判AI本身判斷失誤，誰來監(jiān)督裁判？隨著任務(wù)越來越復雜，所需的互動步驟會不會多到難以承受？不同任務(wù)對不同信息類型的偏好，能否被系統(tǒng)性地學習和利用？這些問題，或許正是該領(lǐng)域下一步研究的路標。對這個話題感興趣的讀者，可以通過arXiv:2604.18240找到完整的論文原文，深入探索其中的每一個技術(shù)細節(jié)。

Q&A

Q1：AJ-Bench測試平臺具體測試了哪些能力，為什么要選這三個領(lǐng)域？

A：AJ-Bench主要測試智能審判員在三方面的能力：通過網(wǎng)絡(luò)搜索獲取外部信息、通過操作真實環(huán)境驗證狀態(tài)變化、通過分析執(zhí)行步驟判斷流程是否正確。選擇搜索、數(shù)據(jù)系統(tǒng)和圖形界面這三個領(lǐng)域，是因為它們分別代表了當前AI助手最常見的三類實際應(yīng)用場景，且每類場景都需要裁判真正動手操作才能可靠驗證——光靠讀文字根本不夠用。

Q2：Agent-as-a-Judge比普通LLM裁判究竟強在哪里，差距有多大？

A：核心優(yōu)勢在于可以主動與外部環(huán)境交互來獲取驗證證據(jù)，而不是只依靠模型自身存儲的知識來猜測。在AJ-Bench的測試中，同一個模型獲得工具調(diào)用能力后，平均F1分數(shù)提升約13個百分點，在圖形界面類任務(wù)中提升更高達30個百分點以上。一個使用工具的"較弱"模型甚至能超過不使用工具的"更強"模型，說明工具訪問能力帶來的增益相當顯著。

Q3：Agent-as-a-Judge目前最大的失敗原因是什么？

A：根據(jù)研究團隊對失敗案例的分類分析，最常見的兩類錯誤分別是"工具輸出擺在面前卻解讀錯誤"和"證據(jù)正確但推理結(jié)論有誤"。前者表現(xiàn)為被不相關(guān)信息分散注意力或?qū)ぞ叻祷貎?nèi)容斷章取義；后者表現(xiàn)為在面對多種解釋時傾向于給出寬松判斷，對被評估AI的錯誤行為網(wǎng)開一面。工具調(diào)用技術(shù)層面的失誤反而是少數(shù)，核心瓶頸在于信息理解和邏輯推斷能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.