<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      前谷歌DeepMind研究員:當下AI評測皆“刻舟求劍”,只能被動測試模型已具備的能力

      0
      分享至

      日前,Google DeepMind 研究員 Lun Wang 宣布離職,并在一篇長文中徹底否定了現有的 AI 評測路線。

      其表示,目前的評測系統全都在“刻舟求劍”,只能被動測試模型已經具備的能力,根本猜不到下一代模型會突然演化出什么新本事。比起數據、算力和架構,落后的評測體系已經成了卡住 AI 往前走的最大瓶頸。



      以下是 Lun Wang 發布的長文譯文,原標題《Your Evals Will Break and You Won't See It Coming》:

      我們很擅長評估現有的模型。但對于我們即將構建的模型——尤其是那些跨入新能力范式的模型——我們的評估能力就要差得多了。

      大多數基準測試、安全評估和紅隊測試協議都隱含地假設:下一個模型只是當前模型的更強版本。但如果它是一個不同類型的東西,我們整個評估基礎設施就會悄無聲息地失靈。

      我認為,這是我們在理解大語言模型過程中尚未解決的最重要的問題。而答案在于:評估——而非訓練、架構或數據——將是下一個能力躍升的瓶頸。我來解釋一下原因。

      失效模式:質的變化

      Wei 等人(2022)記錄了所謂的“涌現能力”——少樣本提示下的任務表現、思維鏈推理能力的提升、指令遵循能力——這些能力僅在更大規模的模型上才會出現。Grokking(Power 等人,2022)展示了另一種相關但不同的現象:網絡在長時間記憶訓練數據后突然實現泛化,這是一種在訓練時間尺度上發生的動態轉變,而非跨規模尺度的變化(Liu 等人,2022)。現象不同,但對評估的啟示是相同的:標準指標未能預見到這種質的變化。

      這里有一個重要的反方觀點:Schaeffer 等人(2023)表明,大語言模型能力的許多明顯“躍升”其實是由不連續的指標(如精確匹配準確率)造成的假象。如果換成連續指標,能力通常呈現平滑的縮放趨勢。

      我不認為這就解決了問題——在某種程度上,它反而讓我的論點更尖銳了。如果我們連過去的某個轉變究竟是真正的質變還是指標造成的假象都分不清楚,那對于我們檢測下一次轉變的能力又意味著什么?無論哪種情況,評估基礎設施都可能讓我們措手不及——要么是因為系統本身發生了變化,要么是因為我們的指標從一開始就具有誤導性。

      我們不知道該測量什么

      在物理學中,理解相變通常意味著要識別出一個序參量——一個能夠區分不同相態的宏觀量,它在臨界點附近會改變其取值或標度行為。沒有序參量,你就無法判斷自己離邊界有多近,甚至不知道邊界是否存在。

      對于部署規模的大語言模型,我們還沒有這樣的序參量——至少對于能力躍遷來說沒有。雖然在受控環境下已取得進展(詳見下文),但對于我們實際正在上線的系統,我們基本上是盲人摸象。

      我們使用的每一個基準測試——GPQA、SWE-bench、ARC-AGI、人類終極考試——衡量的都是模型當前能做什么。它們在一個既定的范式中是有用的,但對于范式轉變之后會發生什么,它們提供的證據非常薄弱。當一種新的能力出現,而沒有任何基準測試覆蓋它時,我們只能事后匆忙構建評估。我們在思維鏈能力上就看到了類似的情況:一旦這種激發方法成為標準,一些舊的推理基準的診斷能力就大大降低,整個領域不得不轉向更難的評估。這種情況還會重演。

      具體來說:想象一個模型,在某個規模下,它發展出了策略性地隱瞞信息以實現目標的能力——不完全是撒謊,而是有選擇地遺漏事實,以某種方式引導對話走向其訓練過程偶然強化的結果。你現有的誠實度基準測試無法捕捉到這一點,因為它們測試的是事實準確性,而不是策略性遺漏。你的安全分類器也不會標記它,因為單個輸出在技術上都可能是真實的。這種能力是新的,這種失效模式也是新的,你的評估套件中沒有任何一項是設計用來檢測它的。你會一直在監控錯誤的方向,而自己卻渾然不覺。

      這就是核心問題:我們整個評估基礎設施在結構上是被動響應式的。我們總是在系統發生變化之后才去衡量它。我們永遠無法預測變化的發生。

      評估先于一切

      這個問題比聽起來更嚴重,原因很簡單:如果你能正確評估,你就能正確訓練。

      訓練就是優化,而優化的好壞取決于它的目標。目標來自評估。如果你知道該測量什么——如果你能預測這些測量結果在規模化過程中如何變化——那么你就能設計出正確的訓練目標,構建正確的安全層,做出明智的規模化決策,進行強化學習人類反饋,使其針對正確的行為屬性,而不是那些在下一個階段邊界上就會古德哈特定律失效的代理指標。

      反之亦然:如果你的評估是針對錯誤范式而校準的,那么其下游的一切都是錯的。訓練信號、安全指標、規模化決策——全是錯的,而等你意識到時為時已晚。

      這就是為什么我相信評估是下一個能力躍升的瓶頸。那些能夠學會領先于曲線進行評估的實驗室,將是能夠安全規模化的實驗室。那些做不到的,則會被突如其來的變化打個措手不及。

      那我們該怎么辦?

      這個領域需要改變投入的方向。不是要拋棄現有的評估方法——它們仍然有效——而是要建立能夠預測它們何時會失效的基礎設施。

      尋找序參量。哪些量能夠預示質的轉變——無論是能力上的、對齊上的,還是行為特征上的?這不僅僅是一個理論上的愿望。Shan、Li 和 Sompolinsky(《美國國家科學院院刊》,2026)利用統計力學推導出了持續學習場景下深度網絡的序參量,而這些序參量確實能夠預測學習能力中的相變。Nanda 等人(2023)利用機制可解釋性找到了能夠預測grokking現象發生前的“進展度量”——即在可見的性能躍升之前就出現的內部結構變化。挑戰在于如何將這些方法從受控環境擴展到規模化的大語言模型上。如果我們知道該測量什么,我們就會知道該關注什么。

      構建能夠檢測自身失效——并隨之演化的評估系統。隨著模型變得越來越具有代理能力,這個問題變得日益緊迫。那些能夠編寫代碼、運行實驗、生成數據、輔助訓練或評估流程的系統,正在讓靜態的評估變得越來越脆弱。如果模型能力的提升速度快于人類評估團隊更新基準測試的速度,那么評估就必須變得具有自適應性。

      具體來說:

      • 監控元信號——基準測試分數的分布是否在改變特征?評估之間的相關性結構是否在發生變化?模型是否正在發展出與你測量維度正交的能力?
      • 追蹤所有指標的縮放曲線——不僅僅是損失函數,還包括推理深度、工具使用復雜度、欺騙性能力——并在平滑趨勢出現斷裂時提高警惕。
      • 更大膽一點:構建自我演化的評估系統——利用模型去探測其他模型的評估系統,隨著能力變化自動生成新的測試用例,發現原始評估設計者從未預料到的失效模式。評估套件應該是一個活的系統,與它所衡量的模型共同演化,而不是一份為去年的前沿模型編寫的靜態檢查清單。

      問題不在于我們的評估會不會被意外打臉——它們已經被打過很多次了,無論是被真正的相變,還是被我們自己的指標選擇所誤導。問題在于,我們能否預見到下一次意外的到來。就目前而言,我們做不到。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      姚晨道歉了,徹底與《監獄來的媽媽》切割,并表示將審慎自省。

      姚晨道歉了,徹底與《監獄來的媽媽》切割,并表示將審慎自省。

      貼小君
      2026-05-19 00:06:58
      滬指兩連跌超2%!估值分化系數逼近2021年牛市頂,散戶還在接籌碼

      滬指兩連跌超2%!估值分化系數逼近2021年牛市頂,散戶還在接籌碼

      小白鴿財經
      2026-05-19 09:31:42
      安切洛蒂的賭局:34歲內馬爾憑什么擠掉英超20球神鋒?

      安切洛蒂的賭局:34歲內馬爾憑什么擠掉英超20球神鋒?

      落夜足球
      2026-05-19 10:45:08
      庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認過去

      庫頁島有“三不”:不屬于中國、不像俄羅斯、不承認過去

      鶴羽說個事
      2026-05-18 22:54:43
      “普京語錄”衛衣在中國熱銷,“俄羅斯”國家中心正版授權,可印制普京本人簽名

      “普京語錄”衛衣在中國熱銷,“俄羅斯”國家中心正版授權,可印制普京本人簽名

      極目新聞
      2026-05-18 16:25:24
      潔麗雅:已報警!出具DNA檢測、結婚證等多份報告回應,浙江諸暨警方:會調查,將發警情通報

      潔麗雅:已報警!出具DNA檢測、結婚證等多份報告回應,浙江諸暨警方:會調查,將發警情通報

      大風新聞
      2026-05-19 19:13:05
      年僅54歲!武漢協和冷松因病醫治無效去世

      年僅54歲!武漢協和冷松因病醫治無效去世

      華醫網
      2026-05-19 15:21:37
      板橋水庫潰壩:24萬人一夜消逝,塵封28年,真相遠比天災殘酷

      板橋水庫潰壩:24萬人一夜消逝,塵封28年,真相遠比天災殘酷

      小玡說故事
      2026-05-15 20:07:35
      上海已婚男子突然消失,妻子走投無路對外稱“丈夫死了”,戶口注銷,結果尷尬

      上海已婚男子突然消失,妻子走投無路對外稱“丈夫死了”,戶口注銷,結果尷尬

      上觀新聞
      2026-05-19 11:51:26
      從7月1日起,越南基本工資將上調至每月253萬越南盾

      從7月1日起,越南基本工資將上調至每月253萬越南盾

      緬甸中文網
      2026-05-17 14:00:49
      親哥是馬斯克,靠小說成美國女富豪,52歲仍單身,靠試管生龍鳳胎

      親哥是馬斯克,靠小說成美國女富豪,52歲仍單身,靠試管生龍鳳胎

      往史過眼云煙
      2026-05-18 09:31:42
      國內油價將迎調整

      國內油價將迎調整

      芒果都市
      2026-05-19 15:53:22
      《主角》熱度破萬,5位女演員演技排名:劉浩存倒數,第1沒爭議

      《主角》熱度破萬,5位女演員演技排名:劉浩存倒數,第1沒爭議

      八斗小先生
      2026-05-19 17:47:03
      又改回去了?蘋果計劃iPhone重回鈦金屬機身,老用戶慘遭背刺

      又改回去了?蘋果計劃iPhone重回鈦金屬機身,老用戶慘遭背刺

      泡泡網
      2026-05-19 16:45:14
      廣西皮卡墜河后續!又找到5名遇難者,央視爆料,工頭才是可憐人

      廣西皮卡墜河后續!又找到5名遇難者,央視爆料,工頭才是可憐人

      奇思妙想草葉君
      2026-05-19 15:38:49
      特朗普:我很震驚黃仁勛竟然沒有私人飛機,臨時來華是因為他沒提前申請

      特朗普:我很震驚黃仁勛竟然沒有私人飛機,臨時來華是因為他沒提前申請

      西虹市閑話
      2026-05-18 18:21:07
      許家印第二!又一“大佬”跑路被抓,詐騙989億,超5萬人血本無歸

      許家印第二!又一“大佬”跑路被抓,詐騙989億,超5萬人血本無歸

      牛牛叨史
      2025-02-10 18:02:09
      隨著蓉城0-1海港,國安1-1西海岸,中超積分:2隊成降級熱門

      隨著蓉城0-1海港,國安1-1西海岸,中超積分:2隊成降級熱門

      何老師呀
      2026-05-19 22:05:42
      解甲歸田!可能已經打完最后一場的球星:洛瑞40歲,樂福下滑明顯

      解甲歸田!可能已經打完最后一場的球星:洛瑞40歲,樂福下滑明顯

      大西體育
      2026-05-19 20:44:37
      善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

      善惡有報,移居英國僅2年,57歲吳秀波再迎噩耗,步入李易峰后塵

      有范又有料
      2025-12-17 14:54:06
      2026-05-19 22:27:00
      可達鴨面面觀
      可達鴨面面觀
      不看新聞就頭疼,看了更疼
      1662文章數 158321關注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

      頭條要聞

      媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經要聞

      從賣流量到賣Token,運營商算力生意破局

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      房產
      數碼
      藝術
      手機
      教育

      房產要聞

      7516元/㎡,161套一次全甩!海口住宅最低價出現了!

      數碼要聞

      折疊屏iPad或將采用與首款折疊屏iPhone相同無折痕鉸鏈設計

      藝術要聞

      丁一林油畫風景寫生新作(2026年5月)

      手機要聞

      消息稱蘋果iPhone Fold和競品闊折疊將采用“無痕鉸鏈”方案

      教育要聞

      綿陽三臺發布2026年義務教育招生公告(附劃片范圍)

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲色大成网站WWW永久麻豆 | 内地自拍三级在线观看| 波多野结av衣东京热无码专区| 白丝乳交内射一二三区| 精品人体无码一区二区三区| 亚洲中文视频一区二区三区| 国产一区国产二区高清无码| 欧美人与动zozo| 九九成人免费视频| 亚洲天堂激情av在线| 亚洲一人综合| 在线a视频免费观看| 人妻少妇无码中文幕久久| 欧美精品亚洲精品日韩专| 亚洲综合天堂一区二区三区| 午夜寂寞网站| 精品人妻系列无码人妻漫画 | 国产成人免费午夜在线观看| 鲁丝片一区二区三区免费| 91久久国产成人免费观看| 亚洲成人网站在线| 日产精品久久久久久久蜜臀| 久久人妻少妇精品系列| 一片内射视频在线观看| 一二三四日本高清社区5| 国产成人午夜福利精品| 无码专区 人妻系列 在线| 久久毛片少妇高潮| 亚洲人妻乱| 国产午夜无码片免费| 熟女丝袜逼| 精品亚洲精品日韩精品| 国产a在视频线精品视频下载| 国产探花AV在线日韩精品| YOUJIZZJIZZJIZZ18| 国产日韩AV高潮在线| 九九久久精彩视频| 国产午夜精品福利视频| 国产精品久久久久无码网站| 被黑人做的白浆直流在线播放| 国产做无码视频在线观看|