<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      評測大模型何須「萬題海戰」?上交 EssenceBench:數據壓縮200倍,排名一致性達95%

      0
      分享至


      僅需50道題就能測準GSM8K?大模型評測界的“瘦身革命”來了!

      上海交通大學、阿里Qwen團隊等提出 EssenceBench——首個由粗到細、結合進化算法的評測基準壓縮框架。它不僅能剔除榜單中的“水分”,還能通過遺傳算法(GA)精選出最具代表性的“精華題”,僅用 1/200 的數據量,就能實現 95% 的排名一致性!

      就像一位經驗豐富的考官,不用讓學生做完整本五三模擬,只挑幾道關鍵大題,就能精準排好全班座次。


      論文基本信息

      論文標題:Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?

      論文鏈接:https://arxiv.org/abs/2510.10457

      Github地址:https://github.com/gszfwsb/EssenceBench

      關鍵詞:基準壓縮、大模型評測、遺傳算法、樣本冗余、排名一致性

      本文共同第一作者王少博(Shaobo Wang)為上海交通大學博士生,王聰(Cong Wang)來自上海交大 EPIC Lab, Wenjie Fu 來自復旦大學。通訊作者為其導師、上海交大助理教授張林峰。本文其他作者來自香港科技大學、上海AI Lab、智譜AI等機構。

      01


      評測大模型,跑分跑斷腿?

      模型有苦難言:“OpenCompass有上百個任務,測我一次要燒掉大約1000個GPU小時,能不能省省?”

      隨著大模型能力維度的擴張,Benchmark(評測基準)的數量和體積也急劇膨脹。傳統的全量評測存在三大痛點:

      • 貴:測一個Qwen2.5-7B-Instruct就要耗費數千萬Token;

      • 慢:迭代一個版本等評測結果要等到花兒都謝了;

      • 水:很多題目其實是“重復造輪子”,測了也白測。

      而 EssenceBench 就像評測界的“濃縮咖啡”——體積雖小,提神醒腦(效果保真)。

      02


      現象洞察:榜單“注水”有多嚴重?

      EssenceBench 首先對Open LLM Leaderboard進行了深入的“體檢”,發現樣本冗余現象普遍存在。論文定義了兩種冗余:

      文本冗余 (Text Redundancy):

      • 定義:利用 BGE-M3 等嵌入模型計算題目間的語義相似度。

      • 現象:很多題目僅僅是更換了人名、地名或微調了句式,核心語義完全一致。這種“換皮題”在榜單中大量存在。

      排名冗余 (Ranking Redundancy):

      • 定義:這是一種更隱蔽的冗余。論文計算了不同題目在所有模型上的排名之間的皮爾遜相關系數。

      • 現象:如果兩道題,所有模型的得分模式都一樣(例如:模型A、B都對,模型C、D都錯),那么它們提供的“區分度信息”就是重復的。保留兩道這樣的題,除了增加計算量,無法提供更多關于模型能力差異的信息。


      03


      方法機制:由粗到細,遺傳算法“進化”出黃金考卷

      與傳統的訓練側數據壓縮不同,訓練數據的壓縮往往基于注意力分數,梯度,EL2N分數,保證最終的性能與全集數據訓練的性能持平甚至超過。測試集壓縮往往注重模型的排名一致性,而不簡單的只進行分數重構。

      EssenceBench 將基準壓縮視為一個復雜的組合優化問題,提出了一個三階段的由粗到細 (Coarse-to-Fine)框架:

      1. 粗粒度過濾 (Coarse Filtering) —— 先把水的擠干

      榜單里充斥著“孿生題”!EssenceBench 發現主要有兩種冗余:

      • 文本冗余:題目換個說法,意思完全一樣;

      • 排名冗余:有些題大家要么都對、要么都錯,根本拉不開分差。 利用二進制得分矩陣,直接砍掉這些無效樣本。

      2. 子集搜索 (Subset Search) —— 遺傳算法登場

      如何在剩下的題目中選出最好的組合?暴力搜索是不可能的(組合數是天文數字)。EssenceBench 引入了遺傳算法 (GA)

      • 利用遺傳算法 (GA)在剩下的題目中進行“優勝劣汰”;

      • 通過交叉、變異、錦標賽選擇,尋找能最小化預測誤差(RMSE)的題目組合;

      • 訓練一個輕量級預測器(GAM),快速預判子集分數。

      3. 歸因細化 (attribution refinement) —— 歸因分析保多樣

      為了防止選出來的題太偏(比如只選了難題,忽略了基礎題),EssenceBench 引入了EBM (Explainable Boosting Machine)進行歸因分析:

      • 為了防止選出來的題太偏,利用EBM (Explainable Boosting Machine)計算樣本歸因分數;

      • 根據分數將題目分組(高貢獻、低貢獻、隨機),再次進行微觀篩選,確??季砑扔袇^分度又覆蓋全面。

      • 這種策略確保了生成的考卷既有區分度(高貢獻),又覆蓋了容易被忽視的角落(低貢獻),保證了評測的魯棒性。

      這一套組合拳打下來,既保證了分數準,又保證了排名穩!


      04


      實驗結果:效果炸裂,刷新SOTA

      1. 誤差大幅降低

      在五個主流榜單上,EssenceBench 的表現均優于 MetaBench、GraNd、PPL 等現有方法。在 GSM8K 數據集上,當子集大小為 500 時,EssenceBench 的預測誤差(RMSE)僅為 0.3769,相比 SOTA 方法 MetaBench (0.9579) 降低了 60.7%。這意味著用極少的數據就能極準地預測模型分數。


      2. 排名高度一致

      評測的核心是“比大小”。EssenceBench 在壓縮后,依然能完美保持模型間的相對排名。在 HellaSwag 上,EssenceBench(橙色)的排名波動顯著小于 MetaBench(綠色)。即便壓縮 200 倍(僅用 50 題),95% 的模型排名位移仍在 5% 以內。


      05


      案例分析:它到底剔除了什么

      EssenceBench 之所以高效,是因為它擁有一雙“火眼金睛”,能精準識別出那些看似不同、實則重復的題目。論文展示了兩個極具代表性的剔除案例:

      1. 文本冗余:換湯不換藥的“孿生題”

      在 GSM8K 數學集中,EssenceBench 發現了大量僅僅是數字或變量微調的題目:

      • 題目 A:“Zack 的儲物柜大小是 Timothy 的一半。Peter 的儲物柜大小是 Zack 的 1/4。如果 Peter 的儲物柜是 5 立方英寸,請問 Timothy 的儲物柜是多少立方英寸?

      • 題目 B:“Timothy 的儲物柜是 24 立方英寸。Zack 的儲物柜大小是 Timothy 的一半。Peter 的儲物柜大小是 Zack 的 1/4。請問 Peter 的儲物柜是多少立方英寸?

      [解析]這兩道題雖然問法相反(已知部分求整體 vs 已知整體求部分),但其核心考察的算術結構邏輯鏈條是完全一致的。對于大模型來說,只要能做對 A,大概率也能做對 B。EssenceBench 果斷剔除其中之一,避免了無效的重復測試。

      2. 排名冗余:異曲同工的“隱形重復”

      這是 EssenceBench 最“聰明”的地方——它能發現那些題面完全不同,但區分度完全一致的題目:

      • 題目 A(貨幣計算):“Axel 有 50 個銀比索和 80 個金比索。他去拜訪朋友 Anna,Anna 擁有的銀比索數量是 Axel 的兩倍,金比索比 Axel 多 40 個。請問他們兩人總共有多少比索?

      • 題目 B(考試計分):“Amy 正在參加歷史考試。她答對了 80% 的多選題,90% 的判斷題,以及 60% 的簡答題。多選題和判斷題每題 1 分,簡答題每題 5 分。如果試卷上有 10 道多選題,20 道判斷題和 5 道簡答題,請問 Amy 得了多少分?

      [解析]乍一看,一個是算錢,一個是算分,風馬牛不相及。但 EssenceBench 通過分析模型表現發現,這兩道題在模型排名上的貢獻是高度冗余的。它們都要求模型具備復雜的多步數值推理、中間變量推導以及加權求和的能力。 數據表明,能做對 A 的模型幾乎都能做對 B,做錯 A 的也幾乎都做錯 B。這意味著保留兩道題并不會改變模型的相對排名,刪掉一道,排名依然穩如泰山


      06


      泛化能力:不止老榜單,新題庫也通吃

      EssenceBench 不僅在經典榜單上強,面對MathVista(多模態)、LiveMCPBench(Agent工具調用)、GPQA(博士級難題)等8個現代高難度基準測試,同樣展現出強大的泛化能力。 例如在 GSM-Plus 對抗性數學評測中,RMSE 低至 0.010,幾乎完美復刻全量榜單表現。


      07
      核心優勢總結

      相比于 MetaBench 或傳統的基于梯度/困惑度的選擇方法,EssenceBench 的殺手锏在于:

      1. 考慮了樣本間的相互作用:不是孤立地看一道題好不好,而是看它們組合起來能不能代表整體;

      2. 搜索效率高:遺傳算法比暴力搜索或簡單啟發式更聰明地在巨大空間中尋找最優解;

      3. 關注排名一致性:評測的核心是“比大小”,EssenceBench 緊緊咬住 Rank Stability 這一關鍵指標。

      08


      啟示與未來

      EssenceBench 告訴我們,大模型評測的“摩爾定律”失效了——榜單規模的指數級增長是不可持續的。未來的評測范式將從“大數據暴力測試”轉向“小數據精準評估”。

      只要考題出得精,幾百道題足矣看穿一個千億參數模型的真實水平。從此以后,評測不再是巨頭專屬的“算力游戲”,小實驗室也能快速迭代、精準打榜!

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      CCTV5直播!京滬大戰萬眾矚目,4大內線針鋒相對,盧偉力爭開門紅

      CCTV5直播!京滬大戰萬眾矚目,4大內線針鋒相對,盧偉力爭開門紅

      老葉評球
      2026-05-14 20:05:21
      國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

      國乒美女錢天一:26歲退役,不選編制選安置費,嫁世界冠軍很幸福

      以茶帶書
      2026-05-08 15:40:11
      西方眼里解放軍一旦封鎖臺海,全世界沒人能承受這個代價

      西方眼里解放軍一旦封鎖臺海,全世界沒人能承受這個代價

      深度解析熱點
      2026-05-13 10:02:59
      海頓·潘妮蒂爾自曝18歲被迫與名人發生關系

      海頓·潘妮蒂爾自曝18歲被迫與名人發生關系

      娛圈觀察員
      2026-05-12 13:14:49
      快訊丨特朗普乘車抵達歡迎宴會現場

      快訊丨特朗普乘車抵達歡迎宴會現場

      新京報
      2026-05-14 17:55:21
      高奢版售價或超10萬元!追覓手機預計今年發布,創始人俞浩揚言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      高奢版售價或超10萬元!追覓手機預計今年發布,創始人俞浩揚言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      大風新聞
      2026-05-14 13:40:08
      皇馬隊史第一陣容:可否得到最廣泛認可?

      皇馬隊史第一陣容:可否得到最廣泛認可?

      K唐伯虎
      2026-05-14 07:44:07
      【U17女足亞洲杯】中國隊止步四強 2比4不敵朝鮮隊

      【U17女足亞洲杯】中國隊止步四強 2比4不敵朝鮮隊

      體壇周報
      2026-05-14 21:48:25
      “1035元4只皮皮蝦”事件最新進展:涉事出租車司機徐某已被開除

      “1035元4只皮皮蝦”事件最新進展:涉事出租車司機徐某已被開除

      閃電新聞
      2026-05-13 18:11:40
      得罪楊坤20年沒工作,靠張嘉益翻身,今憑《主角》殺回央視

      得罪楊坤20年沒工作,靠張嘉益翻身,今憑《主角》殺回央視

      阿廢冷眼觀察所
      2026-05-14 17:52:15
      小楊阿姨確實被邊緣化了,滿臉落寞,霖兒生日缺席帶午飯公園直播

      小楊阿姨確實被邊緣化了,滿臉落寞,霖兒生日缺席帶午飯公園直播

      老吳教育課堂
      2026-05-14 18:01:20
      不吹不黑!鄭欽文現在就是標準的二流偏下的球員,您同意嗎?

      不吹不黑!鄭欽文現在就是標準的二流偏下的球員,您同意嗎?

      搏擊江湖
      2026-05-14 18:11:12
      最神秘雇傭兵:人數維持34人,專門獵殺特種兵,美國黑水也不敢惹

      最神秘雇傭兵:人數維持34人,專門獵殺特種兵,美國黑水也不敢惹

      聞識
      2026-05-14 16:40:54
      空腹采血=滴水不沾?醫生提醒:這些錯誤千萬別犯,別搞錯了

      空腹采血=滴水不沾?醫生提醒:這些錯誤千萬別犯,別搞錯了

      全球軍事記
      2026-05-14 21:49:33
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      黯泉
      2026-05-03 20:25:37
      雷軍宴會上“追星”馬斯克,握手并自拍合影,馬斯克配合做出Wink表情

      雷軍宴會上“追星”馬斯克,握手并自拍合影,馬斯克配合做出Wink表情

      每日經濟新聞
      2026-05-14 21:28:06
      加速糖尿病惡化的原因:喝酒排第4,排第1的,很多人還在天天做

      加速糖尿病惡化的原因:喝酒排第4,排第1的,很多人還在天天做

      醫學科普匯
      2026-05-07 22:35:04
      NBA球隊老板手撕華裔女獵手:100億的仙人跳 搞砸了

      NBA球隊老板手撕華裔女獵手:100億的仙人跳 搞砸了

      慕容律師
      2026-05-13 14:15:09
      “空軍一號”轟鳴而過,解放軍巋然不動,視頻火爆外網

      “空軍一號”轟鳴而過,解放軍巋然不動,視頻火爆外網

      極目新聞
      2026-05-14 10:08:46
      2026-05-14 22:24:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      游戲
      手機
      數碼
      房產
      本地

      任天堂發布會重磅猛料!馬上就來 官方頁面曝光

      手機要聞

      vivo S60預熱開啟,超大面積一體冷雕玻璃

      數碼要聞

      小米耳夾式耳機官宣,17Max樣張公布

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产小视频a在线观看| 中国浓毛少妇毛茸茸| 国产精品福利2020久久| 九九热热| 国产一区二区三区导航| 97人妻免费公开视频| 久久国产欧美日韩精品| 亚洲欧美日韩人成在线播放| 免费无码又爽又刺激一高潮| 亚洲国产综合精品 在线 一区| 久久一级精品久熟女人妻| 欧美中文字幕在线看| 成人AV在线一区二区| 麻豆国产VA免费精品高清在线| 人妻?无码?中出| 中文字幕亚洲综合久久| 国产XX00| 5d肉蒲团之性战奶水| 国产91精品福利资源在线观看 | 亚洲精品香蕉一区二区| 日屄视频网站| 亚洲色欲色欲天天天www| 亚欧洲乱码视频一二三区| 国产精品18| 99热门精品一区二区三区无码| 国产剧情福利AV一区二区| 2020国产欧洲精品网站| 国产午夜精品理论大片| 中文字幕人妻中出制服诱惑| 欧美黑人巨大xxxxx| 午夜8888| 乱码av麻豆丝袜熟女系列| 99热这里只有精品免费播放| 91久久偷偷做嫩草影院免费看| 白人无码| 中文无码第一页| 国产精品亚洲一区二区在线观看 | 欧美日韩精品久久久免费观看 | 国产伦精品一区二区三区| 18禁黄网站免费| 亚洲欧洲日产国产av无码|