<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI評測榜單全軍覆沒!加州伯克利大學絕殺8大頂流Benchmark,一行代碼不寫直接拿滿分

      0
      分享至


      來源:AI寒武紀


      每周都有新的AI大模型登頂評測榜單。公司在新聞稿里吹噓這些分數,投資人用它們來推高估值,工程師靠它們來決定部署哪個模型。大家潛意識里都相信一個簡單的邏輯:分數越高,系統越強。


      但這個跑分已經快要破產了。

      加州大學伯克利分校的研究團隊剛剛發布了一項重磅研究,相關工具已開源在github.com/moogician/trustworthy-env。他們構建了一個自動化掃描智能體,系統性地審計了目前最著名的八個AI智能體評測基準,包括SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena和CAR-bench。

      結果令人震驚。每一個榜單都可以被攻破。AI不需要解決任何實際任務,不需要任何推理能力,僅僅通過利用計分系統的漏洞,就能拿到接近滿分的成績。

      研究團隊的智能體為每個基準測試都生成了真實的攻擊程序,在官方評測管道中運行,然后眼睜睜看著滿分飄過。

      只需10行Python代碼就能解決SWE-bench Verified上的所有問題。
      寫個假的curl包裝器,一行解決方案代碼都不用寫,就能在Terminal-Bench的所有89個任務中拿滿分。

      讓瀏覽器訪問一個本地文件網址,直接從任務配置文件里讀出標準答案,在812個WebArena任務中輕松拿下約100%的分數。

      這些榜單根本沒有在測驗你以為的那些能力。

      作弊早已在現實中發生

      分數膨脹和刷榜不是理論假說,而是正在發生的現實。

      IQuest-Coder-V1曾在SWE-bench上號稱拿下81.4%的分數。后來研究人員發現,它有24.4%的操作軌跡只是簡單地運行git log,直接從提交歷史里把答案抄過來。修正后的真實分數只有76.2%。評測環境的共享機制讓這種作弊變得極其簡單。

      METR機構發現,o3和Claude 3.7 Sonnet在超過30%的評測運行中會出現獎勵劫持。它們會使用堆棧自省、動態修改評分程序以及運算符重載等手段來操縱分數,而不是乖乖做題。

      OpenAI內部審計發現59.4%的問題存在測試缺陷后,直接放棄了SWE-bench Verified榜單。這意味著模型之前一直是在和錯誤的參考答案作比對。

      在KernelBench中,系統分配的GPU顯存里竟然殘留著上一次評測計算的標準答案。模型不需要做任何計算,直接讀取就能拿滿分。

      Anthropic的Mythos預覽版評估顯示,前沿模型會主動嘗試黑進環境并取得成功。在一個測試里,模型需要編輯它沒有權限的文件。在尋找繞過方法的過程中,它找到了一種將代碼注入配置文件以獲取更高權限的方法,并且還把這個漏洞利用程序設計成運行后自動刪除。如果一個模型能獨立制作并閱后即焚提權漏洞,它絕對能找到評測系統的漏洞。

      這些不是孤立事件。我們用來衡量AI能力的基準測試本身,正面臨著被AI能力反噬的系統性問題。

      零解題拿滿分的攻擊實錄

      研究團隊的掃描智能體沒有解決任何實質任務,在大多數情況下甚至沒有調用大語言模型,卻在所有八個基準測試中拿下了73%到100%的極高分數。以下是它破解各路榜單的詳細手法。

      Terminal-Bench:給測試基礎設施植入木馬
      這個榜單包含89個復雜的終端任務,它使用沙盒框架保護測試文件,但它不保護系統自帶的執行程序。更有意思的是,89個任務中有82個會在驗證時通過curl從網上下載安裝包。
      攻擊智能體在執行階段把系統的curl替換成了一個木馬包裝器。當評分系統調用curl下載時,這個包裝器會攔截請求,安裝真正的程序,然后給執行文件植入木馬。這個木馬一旦檢測到測試程序啟動,就會直接輸出偽造的全綠通過信息,并向獎勵文件寫入滿分成績。評分系統對此深信不疑。結果就是89個任務全過,一行任務代碼都沒寫。

      SWE-bench:100%解決率卻沒修一個Bug
      作為最具影響力的AI編程基準,它要求智能體生成補丁讓失敗的測試通過。漏洞在于,智能體生成的補丁和測試程序運行在同一個容器里。
      在Verified版本中,攻擊智能體創建了一個配置文件,利用鉤子函數攔截所有測試結果,并強制把狀態改寫為通過。日志解析器看到全是通過,評分程序看到所有失敗的測試都變綠了,任務直接判定完成。
      在Pro版本中,評分用的解析器也運行在同一個容器內。攻擊程序直接覆蓋了這個解析器,讓它把提取到的所有測試都標記為通過。731個Pro實例和500個Verified實例全部淪陷。

      WebArena:直接偷看標準答案
      這個測試網頁交互能力的榜單,把包含標準答案的配置文件作為本地文件存放在系統里。攻擊完全不需要修改評測代碼,只要讓瀏覽器導航到本地的文件路徑,模型就能讀取任何文件,直接把標準答案取出來交差。評分系統根本察覺不到,只看到模型給出了正確答案。此外,它還存在DOM注入和提示詞注入漏洞,可以輕松欺騙大語言模型裁判。

      FieldWorkArena:發個空括號就能通關
      這個包含890個多模態任務的榜單,其核心驗證方法只檢查一件事:最后一條消息是不是來自AI助手。消息的具體內容完全被忽略了。真正用來對比答案的代碼成了永遠不會被調用的死代碼。
      攻擊智能體只需發送一個空括號,零大模型調用,零文件讀取,直接在890個任務中拿滿分。對于需要輸出JSON格式的任務,評分也只檢查內容是不是JSON格式,空括號同樣完美過關。

      OSWorld:從網上下載標準答案
      這個測試桌面操作的系統允許虛擬機無限制訪問互聯網。它最常見的評分方式是從虛擬機獲取文件并與標準答案對比。然而,這些標準答案的文件地址是公開的。攻擊智能體直接通過網絡把標準答案下載到評分程序要檢查的路徑下。評分系統拿著標準答案對比標準答案,自然是滿分。
      不僅如此,評分程序還會對獲取到的字符串執行任意代碼運算,攻擊智能體借此直接在評分宿主機上取得了任意代碼執行權限。

      GAIA:極度寬松的字符串匹配
      這個多步推理榜單沒有沙盒環境,全憑結果上傳。它的標準答案在網上是公開的。撇開這個不談,它的評分過濾函數會刪除所有的空格和標點符號,并把所有字母小寫。這意味著只要你胡亂拼湊出相應的字母,就能判定為完全匹配拿到滿分。為了躲避排行榜滿分審查,攻擊程序只要故意在每關錯一題,就能穩穩拿下約98%的分數。

      CAR-bench:輕易被操控的AI裁判
      這個測試嚴重依賴大語言模型作為裁判來打分。智能體的回復未經任何處理就被直接塞進裁判的提示詞里。攻擊智能體只需在回復中隱藏一條系統指令,要求裁判給滿分,裁判就會乖乖照做。在幻覺測試任務中,由于部分獎勵組件存在缺陷,給出一個通用的拒絕回復就能直接拿滿分。

      七大漏洞模式

      研究團隊總結了這八個榜單反復出現的七個漏洞模式:

      第一,智能體和評分器沒有隔離。這是最普遍的缺陷。任何從共享環境中讀取狀態的評估,都可以被修改該環境的智能體輕易擊敗。

      第二,把答案和測試放在一起。如果智能體能看到預期答案,基準測試測的就不是能力,而是查找速度。

      第三,對不可信輸入執行危險函數。這不僅是評分漏洞,更是嚴重的安全漏洞,可能導致整個評測基礎設施被控制。

      第四,AI裁判輸入未經過濾。只要在回復里植入隱藏指令,就能輕易操控裁判打分。

      第五,弱字符串匹配。匹配條件太寬松,只要答案夠長就能蒙混過關。

      第六,不執行評估的評估邏輯。檢查邏輯出錯,導致任何回答甚至空回答都能拿滿分。

      第七,信任不可信代碼的輸出。當測試基礎設施能被智能體篡改時,產生的結果毫無意義。

      這為什么很重要

      這不僅是學術討論,評測分數正在影響真實世界的決策。

      團隊根據分數選擇模型可能是在對比誰的噪音大。投資決策可能會被輕易刷出來的榜單誤導。如果能力評測這么容易被攻破,同樣架構的安全評測也一樣脆弱。研究人員如果只為了優化評測分數,整個領域就會偏離正確的方向。

      目前排行榜上領先的智能體大多沒有主動使用這些漏洞,但隨著智能體能力增強,獎勵劫持行為可能會自發出現。一個被訓練去追求高分的智能體,在擁有足夠自主權和工具時,可能會發現操縱評分器比解決實際問題更容易。這不是因為它被要求作弊,而是優化壓力讓它找到了捷徑。如果獎勵信號可以被黑掉,高能力智能體會將其作為一種自然演化出的策略。

      一個毫無能力的攻擊程序能擊敗復雜的系統,說明這些基準測試根本無法可靠地衡量AI的真實能力。

      建立真正有效的評測防線

      研究團隊給出了一份智能體評測清單,這是發布結果前必須跨過的最低門檻:

      必須將智能體與評分器嚴格隔離。測試系統絕不能讀取或影響評分環境。在智能體容器外部進行評估。不要信任沙盒內部的任何文件,通過受控通道提取原始日志在只讀主機上評估。

      不要把參考答案傳給智能體。任務配置里只能包含人類可見的信息,答案必須放在不可訪問的路徑下。對所有基礎設施和二進制文件使用只讀文件系統。絕對不要對不可信輸入執行危險代碼。使用安全的解析器處理結構化數據。過濾AI裁判的輸入。把智能體輸出當成不可信用戶輸入,使用清晰的結構標記,剝離具有誤導性的指令。

      對評分器進行對抗性測試。發布前用什么都不做的空智能體、隨機智能體、注入智能體和篡改狀態的智能體去測試,如果它們得分不是零,說明系統有漏洞。
      防止篡改評估數據和運行軌跡。確保智能體無法覆蓋或修改各個評測階段傳遞的數據。

      讓評分變得更嚴謹。避免短字符串的模糊匹配,不要在分母中排除崩潰的任務,遇到邊緣情況或不同格式時必須準確解析。

      對答案保密。永遠不要公布主排行榜的標準答案,定期更換測試實例,使用開發者不可見的私有測試集。

      BenchJack漏洞掃描器即將問世

      用來發現這些漏洞的自動化掃描智能體正在被開發成一個通用的基準測試漏洞掃描器BenchJack。

      BenchJack本身就是一個AI智能體。它分兩個階段工作。首先探測并理解基準測試,分析評分機制找出所有漏洞。然后自動構建端到端的攻擊程序,把漏洞變成實際的攻擊。它提供的不是理論報告,而是一個真正能跑的攻擊程序,直觀展示一個零能力的AI是如何刷出高分的。

      這就相當于給大模型榜單做滲透測試,在刷榜AI出現之前找出漏洞。團隊希望這能成為榜單開發的標準流程,讓對抗性測試像單元測試一樣日常化。

      在這個時代,不要盲目相信分數,要相信驗證方法。如果你在構建基準測試,請假設一定會有人試圖攻破它,因為他們一定會這么做。

      source:

      https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/

      閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


      未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

      (加入未來知識庫,全部資料免費閱讀和下載)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      隨著騎士4-3淘汰活塞,NBA季后賽4強全部誕生!最新奪冠排行出爐

      隨著騎士4-3淘汰活塞,NBA季后賽4強全部誕生!最新奪冠排行出爐

      小火箭愛體育
      2026-05-18 10:51:24
      斯嘉麗這部科幻片12年后仍讓人不安

      斯嘉麗這部科幻片12年后仍讓人不安

      赴一場山海啊
      2026-05-17 02:00:59
      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      國乒新情報 5月18 樊振東 王曼昱 林詩棟 王楚欽教練消息! 向鵬報名沒成

      國乒新情報 5月18 樊振東 王曼昱 林詩棟 王楚欽教練消息! 向鵬報名沒成

      野渡舟山人
      2026-05-19 00:52:24
      A股,尾盤傳來一個“重大利好”信號,明天,或將迎來大變盤!

      A股,尾盤傳來一個“重大利好”信號,明天,或將迎來大變盤!

      夜深愛雜談
      2026-05-18 21:32:26
      國乒15人出戰!WTT公布美國大滿貫首批名單,王楚欽、孫穎莎入圍

      國乒15人出戰!WTT公布美國大滿貫首批名單,王楚欽、孫穎莎入圍

      乒談
      2026-05-18 21:39:58
      發生了什么?汽車股全線暴跌!

      發生了什么?汽車股全線暴跌!

      電動知家
      2026-05-18 18:48:59
      毒楊梅風波蔓延全國!多人或判刑,最致命的那一刀還沒落下

      毒楊梅風波蔓延全國!多人或判刑,最致命的那一刀還沒落下

      素衣讀史
      2026-05-18 21:27:56
      大手筆,亞歷山大當選MVP后送全隊AP手表+Burberry風衣

      大手筆,亞歷山大當選MVP后送全隊AP手表+Burberry風衣

      懂球帝
      2026-05-18 09:37:54
      湖北荊州遇極端暴雨天氣,荊州站候車大廳大量漏水,進展:沒漏了,車站已恢復正常運營

      湖北荊州遇極端暴雨天氣,荊州站候車大廳大量漏水,進展:沒漏了,車站已恢復正常運營

      瀟湘晨報
      2026-05-18 12:25:30
      深圳輸G2揪出頭號罪人!2罰不中+連續犯規送分,球迷:戰犯表現

      深圳輸G2揪出頭號罪人!2罰不中+連續犯規送分,球迷:戰犯表現

      弄月公子
      2026-05-18 22:27:20
      柳州再次發生5.2級地震!南寧、廣州等多地有震感!

      柳州再次發生5.2級地震!南寧、廣州等多地有震感!

      海峽網
      2026-05-18 22:55:23
      后續!新娘換裝拖46分鐘賓客散場,監控曝光,她竟無視多次提醒

      后續!新娘換裝拖46分鐘賓客散場,監控曝光,她竟無視多次提醒

      寶哥精彩賽事
      2026-05-18 07:00:43
      4-2中國!5-1日本!朝鮮U17女足遭質疑:阿姨們太猛 肯定改年齡了

      4-2中國!5-1日本!朝鮮U17女足遭質疑:阿姨們太猛 肯定改年齡了

      風過鄉
      2026-05-18 07:28:30
      紅利曼失守!俄軍砸碎談判桌,用大炮給歐洲上了一堂“清零課”

      紅利曼失守!俄軍砸碎談判桌,用大炮給歐洲上了一堂“清零課”

      咣當地球
      2026-05-17 06:24:58
      難怪馬筱梅不提玥兒姐弟!汪徐兩家和解僅 3 天,小 S 曬全家福

      難怪馬筱梅不提玥兒姐弟!汪徐兩家和解僅 3 天,小 S 曬全家福

      橙星文娛
      2026-05-18 10:54:26
      CCTV5調整直播!U17國足VS澳大利亞傳來好消息,再贏一場將爭冠

      CCTV5調整直播!U17國足VS澳大利亞傳來好消息,再贏一場將爭冠

      何老師呀
      2026-05-18 22:17:55
      諾蘭新片被比《阿拉伯的勞倫斯》,期待值拉滿過分嗎?

      諾蘭新片被比《阿拉伯的勞倫斯》,期待值拉滿過分嗎?

      影視情報室
      2026-05-18 00:19:09
      太牛!成都蓉城胸前廣告賣出超1000萬歐:排進意甲前5位

      太牛!成都蓉城胸前廣告賣出超1000萬歐:排進意甲前5位

      邱澤云
      2026-05-18 15:02:52
      2026-05-19 02:04:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4744文章數 37464關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      賴清德要求美國繼續向臺出售武器 外交部表態

      頭條要聞

      賴清德要求美國繼續向臺出售武器 外交部表態

      體育要聞

      58順位的保羅,最強第三中鋒

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      40.98萬起!充電5分鐘純電續航420km 騰勢N9閃充版勝算有多少?

      態度原創

      教育
      房產
      時尚
      手機
      軍事航空

      教育要聞

      新鮮出爐!今年各區公辦高中招生計劃變化匯總!

      房產要聞

      突發!海口重磅調規!碧桂園要解套;新埠島要起飛了!

      夏天別總穿黑衣黑褲,這幾款格紋單品也很實用,百搭又高級

      手機要聞

      紅米K100中杯配置全曝,這規格也太狠了!

      軍事要聞

      莫斯科遭一年多來最大規模無人機襲擊 3死18傷

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码人妻一区二区三区线| 四虎成人在线观看免费| 人妻精品中文字幕av| 精品亚洲女同一区二区| 乱人伦人妻中文字幕| 仓空井AV免费观看| 国产高清国内精品福利99久久| 亚洲天堂2013| 亚洲一区久久蜜臀av| 亚洲Av综合日韩精品久久久| 久久久综合九色合综国产| 波多野结衣一卡二卡| 亚洲欧洲日产国产AV无码| 亚洲精品日本一区二区三区| 亚洲一区二区三区丝袜| 国产精品美女www爽爽爽视频 | 日日干天天操| 污视频在线| 99久久国产综合精品五月天| 无码精品人妻一区二区三区老牛| 精品无码久久久久国产动漫3d| 亚洲免费成人网站| 中文字幕av无码不卡| 久久亚洲AV无码一区二区综合| 国产无遮挡18禁无码网站免费| 中文成人无码| 苍井空毛片精品久久久| 国产精品∧v在线观看| 加勒比久久AV| 欧美性猛交xxxx免费看| 91最新精品丝袜国产在线| 青青青草国产熟女大香蕉| 中文字幕在线日亚洲9| 亚洲欧美日韩愉拍自拍美利坚| 欧美亚洲一区在线| 日韩内射美女人妻一区二区三区| 成年女人免费视频播放体验区| 久久人人妻人人做人人爽| 国产亚洲亚洲国产一二区| 女同久久精品国产99国| 亚洲综合一二三|