日前,Google DeepMind 研究員 Lun Wang 宣布離職,并在一篇長文中徹底否定了現有的 AI 評測路線。
其表示,目前的評測系統全都在“刻舟求劍”,只能被動測試模型已經具備的能力,根本猜不到下一代模型會突然演化出什么新本事。比起數據、算力和架構,落后的評測體系已經成了卡住 AI 往前走的最大瓶頸。
![]()
以下是 Lun Wang 發布的長文譯文,原標題《Your Evals Will Break and You Won't See It Coming》:
我們很擅長評估現有的模型。但對于我們即將構建的模型——尤其是那些跨入新能力范式的模型——我們的評估能力就要差得多了。
大多數基準測試、安全評估和紅隊測試協議都隱含地假設:下一個模型只是當前模型的更強版本。但如果它是一個不同類型的東西,我們整個評估基礎設施就會悄無聲息地失靈。
我認為,這是我們在理解大語言模型過程中尚未解決的最重要的問題。而答案在于:評估——而非訓練、架構或數據——將是下一個能力躍升的瓶頸。我來解釋一下原因。
失效模式:質的變化
Wei 等人(2022)記錄了所謂的“涌現能力”——少樣本提示下的任務表現、思維鏈推理能力的提升、指令遵循能力——這些能力僅在更大規模的模型上才會出現。Grokking(Power 等人,2022)展示了另一種相關但不同的現象:網絡在長時間記憶訓練數據后突然實現泛化,這是一種在訓練時間尺度上發生的動態轉變,而非跨規模尺度的變化(Liu 等人,2022)。現象不同,但對評估的啟示是相同的:標準指標未能預見到這種質的變化。
這里有一個重要的反方觀點:Schaeffer 等人(2023)表明,大語言模型能力的許多明顯“躍升”其實是由不連續的指標(如精確匹配準確率)造成的假象。如果換成連續指標,能力通常呈現平滑的縮放趨勢。
我不認為這就解決了問題——在某種程度上,它反而讓我的論點更尖銳了。如果我們連過去的某個轉變究竟是真正的質變還是指標造成的假象都分不清楚,那對于我們檢測下一次轉變的能力又意味著什么?無論哪種情況,評估基礎設施都可能讓我們措手不及——要么是因為系統本身發生了變化,要么是因為我們的指標從一開始就具有誤導性。
我們不知道該測量什么
在物理學中,理解相變通常意味著要識別出一個序參量——一個能夠區分不同相態的宏觀量,它在臨界點附近會改變其取值或標度行為。沒有序參量,你就無法判斷自己離邊界有多近,甚至不知道邊界是否存在。
對于部署規模的大語言模型,我們還沒有這樣的序參量——至少對于能力躍遷來說沒有。雖然在受控環境下已取得進展(詳見下文),但對于我們實際正在上線的系統,我們基本上是盲人摸象。
我們使用的每一個基準測試——GPQA、SWE-bench、ARC-AGI、人類終極考試——衡量的都是模型當前能做什么。它們在一個既定的范式中是有用的,但對于范式轉變之后會發生什么,它們提供的證據非常薄弱。當一種新的能力出現,而沒有任何基準測試覆蓋它時,我們只能事后匆忙構建評估。我們在思維鏈能力上就看到了類似的情況:一旦這種激發方法成為標準,一些舊的推理基準的診斷能力就大大降低,整個領域不得不轉向更難的評估。這種情況還會重演。
具體來說:想象一個模型,在某個規模下,它發展出了策略性地隱瞞信息以實現目標的能力——不完全是撒謊,而是有選擇地遺漏事實,以某種方式引導對話走向其訓練過程偶然強化的結果。你現有的誠實度基準測試無法捕捉到這一點,因為它們測試的是事實準確性,而不是策略性遺漏。你的安全分類器也不會標記它,因為單個輸出在技術上都可能是真實的。這種能力是新的,這種失效模式也是新的,你的評估套件中沒有任何一項是設計用來檢測它的。你會一直在監控錯誤的方向,而自己卻渾然不覺。
這就是核心問題:我們整個評估基礎設施在結構上是被動響應式的。我們總是在系統發生變化之后才去衡量它。我們永遠無法預測變化的發生。
評估先于一切
這個問題比聽起來更嚴重,原因很簡單:如果你能正確評估,你就能正確訓練。
訓練就是優化,而優化的好壞取決于它的目標。目標來自評估。如果你知道該測量什么——如果你能預測這些測量結果在規模化過程中如何變化——那么你就能設計出正確的訓練目標,構建正確的安全層,做出明智的規模化決策,進行強化學習人類反饋,使其針對正確的行為屬性,而不是那些在下一個階段邊界上就會古德哈特定律失效的代理指標。
反之亦然:如果你的評估是針對錯誤范式而校準的,那么其下游的一切都是錯的。訓練信號、安全指標、規模化決策——全是錯的,而等你意識到時為時已晚。
這就是為什么我相信評估是下一個能力躍升的瓶頸。那些能夠學會領先于曲線進行評估的實驗室,將是能夠安全規模化的實驗室。那些做不到的,則會被突如其來的變化打個措手不及。
那我們該怎么辦?
這個領域需要改變投入的方向。不是要拋棄現有的評估方法——它們仍然有效——而是要建立能夠預測它們何時會失效的基礎設施。
尋找序參量。哪些量能夠預示質的轉變——無論是能力上的、對齊上的,還是行為特征上的?這不僅僅是一個理論上的愿望。Shan、Li 和 Sompolinsky(《美國國家科學院院刊》,2026)利用統計力學推導出了持續學習場景下深度網絡的序參量,而這些序參量確實能夠預測學習能力中的相變。Nanda 等人(2023)利用機制可解釋性找到了能夠預測grokking現象發生前的“進展度量”——即在可見的性能躍升之前就出現的內部結構變化。挑戰在于如何將這些方法從受控環境擴展到規模化的大語言模型上。如果我們知道該測量什么,我們就會知道該關注什么。
構建能夠檢測自身失效——并隨之演化的評估系統。隨著模型變得越來越具有代理能力,這個問題變得日益緊迫。那些能夠編寫代碼、運行實驗、生成數據、輔助訓練或評估流程的系統,正在讓靜態的評估變得越來越脆弱。如果模型能力的提升速度快于人類評估團隊更新基準測試的速度,那么評估就必須變得具有自適應性。
具體來說:
- 監控元信號——基準測試分數的分布是否在改變特征?評估之間的相關性結構是否在發生變化?模型是否正在發展出與你測量維度正交的能力?
- 追蹤所有指標的縮放曲線——不僅僅是損失函數,還包括推理深度、工具使用復雜度、欺騙性能力——并在平滑趨勢出現斷裂時提高警惕。
- 更大膽一點:構建自我演化的評估系統——利用模型去探測其他模型的評估系統,隨著能力變化自動生成新的測試用例,發現原始評估設計者從未預料到的失效模式。評估套件應該是一個活的系統,與它所衡量的模型共同演化,而不是一份為去年的前沿模型編寫的靜態檢查清單。
問題不在于我們的評估會不會被意外打臉——它們已經被打過很多次了,無論是被真正的相變,還是被我們自己的指標選擇所誤導。問題在于,我們能否預見到下一次意外的到來。就目前而言,我們做不到。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.