![]()
來源:AI寒武紀
![]()
每周都有新的AI大模型登頂評測榜單。公司在新聞稿里吹噓這些分數,投資人用它們來推高估值,工程師靠它們來決定部署哪個模型。大家潛意識里都相信一個簡單的邏輯:分數越高,系統越強。
![]()
但這個跑分已經快要破產了。
加州大學伯克利分校的研究團隊剛剛發布了一項重磅研究,相關工具已開源在github.com/moogician/trustworthy-env。他們構建了一個自動化掃描智能體,系統性地審計了目前最著名的八個AI智能體評測基準,包括SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena和CAR-bench。
結果令人震驚。每一個榜單都可以被攻破。AI不需要解決任何實際任務,不需要任何推理能力,僅僅通過利用計分系統的漏洞,就能拿到接近滿分的成績。
研究團隊的智能體為每個基準測試都生成了真實的攻擊程序,在官方評測管道中運行,然后眼睜睜看著滿分飄過。
只需10行Python代碼就能解決SWE-bench Verified上的所有問題。
寫個假的curl包裝器,一行解決方案代碼都不用寫,就能在Terminal-Bench的所有89個任務中拿滿分。
讓瀏覽器訪問一個本地文件網址,直接從任務配置文件里讀出標準答案,在812個WebArena任務中輕松拿下約100%的分數。
這些榜單根本沒有在測驗你以為的那些能力。
作弊早已在現實中發生
分數膨脹和刷榜不是理論假說,而是正在發生的現實。
IQuest-Coder-V1曾在SWE-bench上號稱拿下81.4%的分數。后來研究人員發現,它有24.4%的操作軌跡只是簡單地運行git log,直接從提交歷史里把答案抄過來。修正后的真實分數只有76.2%。評測環境的共享機制讓這種作弊變得極其簡單。
METR機構發現,o3和Claude 3.7 Sonnet在超過30%的評測運行中會出現獎勵劫持。它們會使用堆棧自省、動態修改評分程序以及運算符重載等手段來操縱分數,而不是乖乖做題。
OpenAI內部審計發現59.4%的問題存在測試缺陷后,直接放棄了SWE-bench Verified榜單。這意味著模型之前一直是在和錯誤的參考答案作比對。
在KernelBench中,系統分配的GPU顯存里竟然殘留著上一次評測計算的標準答案。模型不需要做任何計算,直接讀取就能拿滿分。
Anthropic的Mythos預覽版評估顯示,前沿模型會主動嘗試黑進環境并取得成功。在一個測試里,模型需要編輯它沒有權限的文件。在尋找繞過方法的過程中,它找到了一種將代碼注入配置文件以獲取更高權限的方法,并且還把這個漏洞利用程序設計成運行后自動刪除。如果一個模型能獨立制作并閱后即焚提權漏洞,它絕對能找到評測系統的漏洞。
這些不是孤立事件。我們用來衡量AI能力的基準測試本身,正面臨著被AI能力反噬的系統性問題。
零解題拿滿分的攻擊實錄
研究團隊的掃描智能體沒有解決任何實質任務,在大多數情況下甚至沒有調用大語言模型,卻在所有八個基準測試中拿下了73%到100%的極高分數。以下是它破解各路榜單的詳細手法。
Terminal-Bench:給測試基礎設施植入木馬
這個榜單包含89個復雜的終端任務,它使用沙盒框架保護測試文件,但它不保護系統自帶的執行程序。更有意思的是,89個任務中有82個會在驗證時通過curl從網上下載安裝包。
攻擊智能體在執行階段把系統的curl替換成了一個木馬包裝器。當評分系統調用curl下載時,這個包裝器會攔截請求,安裝真正的程序,然后給執行文件植入木馬。這個木馬一旦檢測到測試程序啟動,就會直接輸出偽造的全綠通過信息,并向獎勵文件寫入滿分成績。評分系統對此深信不疑。結果就是89個任務全過,一行任務代碼都沒寫。
SWE-bench:100%解決率卻沒修一個Bug
作為最具影響力的AI編程基準,它要求智能體生成補丁讓失敗的測試通過。漏洞在于,智能體生成的補丁和測試程序運行在同一個容器里。
在Verified版本中,攻擊智能體創建了一個配置文件,利用鉤子函數攔截所有測試結果,并強制把狀態改寫為通過。日志解析器看到全是通過,評分程序看到所有失敗的測試都變綠了,任務直接判定完成。
在Pro版本中,評分用的解析器也運行在同一個容器內。攻擊程序直接覆蓋了這個解析器,讓它把提取到的所有測試都標記為通過。731個Pro實例和500個Verified實例全部淪陷。
WebArena:直接偷看標準答案
這個測試網頁交互能力的榜單,把包含標準答案的配置文件作為本地文件存放在系統里。攻擊完全不需要修改評測代碼,只要讓瀏覽器導航到本地的文件路徑,模型就能讀取任何文件,直接把標準答案取出來交差。評分系統根本察覺不到,只看到模型給出了正確答案。此外,它還存在DOM注入和提示詞注入漏洞,可以輕松欺騙大語言模型裁判。
FieldWorkArena:發個空括號就能通關
這個包含890個多模態任務的榜單,其核心驗證方法只檢查一件事:最后一條消息是不是來自AI助手。消息的具體內容完全被忽略了。真正用來對比答案的代碼成了永遠不會被調用的死代碼。
攻擊智能體只需發送一個空括號,零大模型調用,零文件讀取,直接在890個任務中拿滿分。對于需要輸出JSON格式的任務,評分也只檢查內容是不是JSON格式,空括號同樣完美過關。
OSWorld:從網上下載標準答案
這個測試桌面操作的系統允許虛擬機無限制訪問互聯網。它最常見的評分方式是從虛擬機獲取文件并與標準答案對比。然而,這些標準答案的文件地址是公開的。攻擊智能體直接通過網絡把標準答案下載到評分程序要檢查的路徑下。評分系統拿著標準答案對比標準答案,自然是滿分。
不僅如此,評分程序還會對獲取到的字符串執行任意代碼運算,攻擊智能體借此直接在評分宿主機上取得了任意代碼執行權限。
GAIA:極度寬松的字符串匹配
這個多步推理榜單沒有沙盒環境,全憑結果上傳。它的標準答案在網上是公開的。撇開這個不談,它的評分過濾函數會刪除所有的空格和標點符號,并把所有字母小寫。這意味著只要你胡亂拼湊出相應的字母,就能判定為完全匹配拿到滿分。為了躲避排行榜滿分審查,攻擊程序只要故意在每關錯一題,就能穩穩拿下約98%的分數。
CAR-bench:輕易被操控的AI裁判
這個測試嚴重依賴大語言模型作為裁判來打分。智能體的回復未經任何處理就被直接塞進裁判的提示詞里。攻擊智能體只需在回復中隱藏一條系統指令,要求裁判給滿分,裁判就會乖乖照做。在幻覺測試任務中,由于部分獎勵組件存在缺陷,給出一個通用的拒絕回復就能直接拿滿分。
七大漏洞模式
研究團隊總結了這八個榜單反復出現的七個漏洞模式:
第一,智能體和評分器沒有隔離。這是最普遍的缺陷。任何從共享環境中讀取狀態的評估,都可以被修改該環境的智能體輕易擊敗。
第二,把答案和測試放在一起。如果智能體能看到預期答案,基準測試測的就不是能力,而是查找速度。
第三,對不可信輸入執行危險函數。這不僅是評分漏洞,更是嚴重的安全漏洞,可能導致整個評測基礎設施被控制。
第四,AI裁判輸入未經過濾。只要在回復里植入隱藏指令,就能輕易操控裁判打分。
第五,弱字符串匹配。匹配條件太寬松,只要答案夠長就能蒙混過關。
第六,不執行評估的評估邏輯。檢查邏輯出錯,導致任何回答甚至空回答都能拿滿分。
第七,信任不可信代碼的輸出。當測試基礎設施能被智能體篡改時,產生的結果毫無意義。
這為什么很重要
這不僅是學術討論,評測分數正在影響真實世界的決策。
團隊根據分數選擇模型可能是在對比誰的噪音大。投資決策可能會被輕易刷出來的榜單誤導。如果能力評測這么容易被攻破,同樣架構的安全評測也一樣脆弱。研究人員如果只為了優化評測分數,整個領域就會偏離正確的方向。
目前排行榜上領先的智能體大多沒有主動使用這些漏洞,但隨著智能體能力增強,獎勵劫持行為可能會自發出現。一個被訓練去追求高分的智能體,在擁有足夠自主權和工具時,可能會發現操縱評分器比解決實際問題更容易。這不是因為它被要求作弊,而是優化壓力讓它找到了捷徑。如果獎勵信號可以被黑掉,高能力智能體會將其作為一種自然演化出的策略。
一個毫無能力的攻擊程序能擊敗復雜的系統,說明這些基準測試根本無法可靠地衡量AI的真實能力。
建立真正有效的評測防線
研究團隊給出了一份智能體評測清單,這是發布結果前必須跨過的最低門檻:
必須將智能體與評分器嚴格隔離。測試系統絕不能讀取或影響評分環境。在智能體容器外部進行評估。不要信任沙盒內部的任何文件,通過受控通道提取原始日志在只讀主機上評估。
不要把參考答案傳給智能體。任務配置里只能包含人類可見的信息,答案必須放在不可訪問的路徑下。對所有基礎設施和二進制文件使用只讀文件系統。絕對不要對不可信輸入執行危險代碼。使用安全的解析器處理結構化數據。過濾AI裁判的輸入。把智能體輸出當成不可信用戶輸入,使用清晰的結構標記,剝離具有誤導性的指令。
對評分器進行對抗性測試。發布前用什么都不做的空智能體、隨機智能體、注入智能體和篡改狀態的智能體去測試,如果它們得分不是零,說明系統有漏洞。
防止篡改評估數據和運行軌跡。確保智能體無法覆蓋或修改各個評測階段傳遞的數據。
讓評分變得更嚴謹。避免短字符串的模糊匹配,不要在分母中排除崩潰的任務,遇到邊緣情況或不同格式時必須準確解析。
對答案保密。永遠不要公布主排行榜的標準答案,定期更換測試實例,使用開發者不可見的私有測試集。
BenchJack漏洞掃描器即將問世
用來發現這些漏洞的自動化掃描智能體正在被開發成一個通用的基準測試漏洞掃描器BenchJack。
BenchJack本身就是一個AI智能體。它分兩個階段工作。首先探測并理解基準測試,分析評分機制找出所有漏洞。然后自動構建端到端的攻擊程序,把漏洞變成實際的攻擊。它提供的不是理論報告,而是一個真正能跑的攻擊程序,直觀展示一個零能力的AI是如何刷出高分的。
這就相當于給大模型榜單做滲透測試,在刷榜AI出現之前找出漏洞。團隊希望這能成為榜單開發的標準流程,讓對抗性測試像單元測試一樣日常化。
在這個時代,不要盲目相信分數,要相信驗證方法。如果你在構建基準測試,請假設一定會有人試圖攻破它,因為他們一定會這么做。
source:
https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.