網易首頁 > 網易號 > 正文申請入駐

北大斯坦福聯手打造「AI科學家」，預測精度超越人類專家

2026-02-02 13:26:52　來源: ScienceAI

河北舉報

分享至

作者丨論文團隊

編輯丨ScienceAI

如果 AI 能夠比人類更精準、更高效地發現統治 AI 系統的「牛頓定律」，那么 AI 自我進化的奇點是否已經臨近？

Scaling Laws（擴展定律）被譽為現代 AI 領域最接近「科學」的工具。從 Chinchilla 到 GPT-4，它指導研究者利用「小規模實驗」精準預測「大模型的性能」，決定了算力分配、數據配比等關鍵決策。

然而，隨著 AI 技術的演進，Scaling Law 的發現過程正變得愈發艱難。從經典的預訓練拓展到強化學習、混合專家模型（MoE），每一個新場景都需要研究人員手動進行大量的假設、擬合與試錯。

既然 AI 如此強大，為什么不讓 AI 自己去發現 Scaling Law 呢？

近日，來自北京大學、斯坦福大學、寬德投資和清華大學的研究團隊提出了一項開創性工作：Scaling Law Discovery (SLD)。這項工作不僅構建了包含 5000 多個真實實驗的基準測試 SLDBench，還提出了一種基于進化的智能體框架 SLDAgent。令人驚訝的是，這個 AI 智能體發現的 Scaling Law，在預測精度和外推能力上已經超越了人類專家。

目前，該論文已被 ICLR 2026 接收。

論文地址：https://arxiv.org/abs/2507.21184

項目主頁：https://linhaowei1.github.io/scaling_law_discovery/

HuggingFace：https://huggingface.co/collections/pkuHaowei/scaling-law-discovery

痛點：被「手動檔」卡住的 AI 科研

Scaling Law 本質上是一個經驗公式，預測模型性能（Loss、準確率等）與規模變量（模型參數量 N、數據量 D、計算量 C 等）之間的關系。

最經典的莫過于 Chinchilla 定律：

雖然公式看似簡潔，但在實際科研中，發現正確的公式往往伴隨著巨大的試錯成本。

作者團隊分享了一個真實的「血淚史」：在 2023 年進行大模型微調研究時，他們試圖用預訓練中經典的冪律（Power Law）去擬合微調性能，結果徹底失敗。他們發現微調過程存在一個明顯的「預冪律階段（pre-power phase）」，現有 Scaling Law 公式根本無法準確描述。

微調過程中觀察到的兩階段行為：預冪律階段和冪律階段。

最終，團隊不得不專門寫了一篇論文（https://arxiv.org/abs/2402.02314，發表于 ICML2024）來提出「修正后的 Scaling Law」。雖然結果很好（誤差 RMSD 從 0.036 降到了 0.007），但過程極其耗時。

這揭示了一個殘酷的現實：每一項新的 AI 技術的大規模拓展（SFT、MoE、詞表大小、并行策略等）都在呼喚新的 Scaling Law，而目前發現 Scaling Law 的這種「假設 → 擬合 → 失敗 → 重來」的人工試錯循環，已經成為制約 AI 發展的瓶頸。

SLDBench：首個 Scaling Law 發現基準

為了解決這個問題，研究團隊首先需要定義：什么叫做「做好了 Scaling Law 研究」？

為此，他們構建了 SLDBench。這不是一個普通的合成數據集，而是基于從現有文獻中收集的超過 5000 個真實的大模型訓練實驗構建的實驗數據。

SLDBench 涵蓋了從預訓練、微調到 MoE 等多種場景的任務。

SLDBench 的獨特之處在于：

1. 真實數據：智能體拿到的是真實的實驗結果，不需要自己跑昂貴的訓練。

2. 客觀評估：不僅看擬合得好不好，更看外推（Extrapolation）得準不準。即用小規模數據發現規律，預測大規模模型的效果。

3. 未知探索：即便對人類專家來說，許多任務也沒有已知的「完美公式」。SLDBench 完全模擬了真實世界中的「開放式科研」探索。

4. 高效輕量：相比于其他智能體評測任務（例如 SWEBench，MLEBench），SLDBench 不需要復雜的環境就能運行，科學發現的難度卻不亞于這些任務。

這使得 SLDBench 成為衡量 AI 是否具備「科學發現能力」的絕佳標尺。

SLDAgent：公式和優化算法的共進化

發現 Scaling Law 絕不僅僅是找出一個數學公式 f(x) 那么簡單。作者團隊指出：「發現一個公式」和「找到讓公式生效的擬合過程」同等重要。

許多漂亮的數學公式因為數值不穩定、難以擬合，在實際工程中毫無價值。

因此，該研究提出了 SLDAgent。這是一個基于進化算法（Evolutionary Algorithm）的智能體，它不是在單點優化，而是同時協同進化兩個部分：

1. 符號表達式（Expression）：即 Scaling Law 的數學形式。

2. 優化器（Optimizer）：即如何穩健地擬合該公式參數的算法代碼。

SLDAgent 的進化管線，同時搜索公式形式和擬合策略。

SLDAgent 從一個基線（如 Power Law + BFGS）出發，通過變異、交叉等操作不斷生成新的變體，并利用類似 MAP-Elites 的機制保持種群的多樣性。這種「協同優化」完美模擬了人類研究員「提出假設 → 調整擬合方法 → 驗證」的科研閉環。

實驗結果：AI 戰勝了人類

在 SLDBench 上，SLDAgent 展現出了驚人的能力。在多個任務中，AI 發現的定律在準確性和外推能力上均超越了人類此前發表的成果。

SLDAgent 在各項任務中均優于人類發現的定律。

更有趣的是 AI 贏的方式。它并不是靠堆砌復雜的公式來「過擬合」，而是經常能發現更具物理意義的簡潔形式。

案例 1：SFT 定律的物理意義

在 SFT 任務上，SLDAgent 發現的定律比人類提出的定律在量綱上更可解釋。

案例 2：自動尋找最佳超參（學習率 & Batch Size）

對于預訓練來說，如何根據模型規模選擇最佳的學習率（lr）和 Batch Size（bsz）是老大難問題。

傳統方法（來自階躍星辰：https://step-law.github.io/）可能需要跑 3000 個實驗，然后只選出 17 個「最優作為點」來擬合規律。而 SLDAgent 選擇了一條更硬核的路：直接對整個 Loss 曲面 L (N, D, lr, bsz) 建模。

一旦得到了 Loss 曲面的公式，通過求偏導并令其為零，SLDAgent 就能直接推導出最優超參數的閉式解。這不僅利用了所有實驗數據，還極大地提升了預測的魯棒性。

SLDAgent 提出的 Scaling Law 求導后得到的最優超參非常接近最優超參。

邁向 AI 科學家

這篇 ICLR 2026 的接收論文給社區帶來了一個重要的啟示：

目前的 AI Agent 評估大多集中在寫代碼或做數學題上，而 SLD（Scaling Law Discovery）提供了一個全新的視角 —— 評估 AI 進行科學研究的能力。

它要求 AI 具備符號推理能力、多場景泛化能力、長程規劃能力，以及面對真實世界嘈雜數據時的魯棒性。

正如作者在文中所言：「SLDBench 是我們將『AI 用于 AI 研究』這一概念進行程序化、基準化乃至最終自動化的初步嘗試。」

也許在不久的將來，當我們面對新的 AI 架構時，不再需要人類苦苦試錯，而是直接交給 AI 科學家，靜待它給出那個支配系統的「牛頓定律」。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.