![]()
作者丨論文團隊
編輯丨ScienceAI
如果 AI 能夠比人類更精準、更高效地發現統治 AI 系統的「牛頓定律」,那么 AI 自我進化的奇點是否已經臨近?
Scaling Laws(擴展定律)被譽為現代 AI 領域最接近「科學」的工具。從 Chinchilla 到 GPT-4,它指導研究者利用「小規模實驗」精準預測「大模型的性能」,決定了算力分配、數據配比等關鍵決策。
然而,隨著 AI 技術的演進,Scaling Law 的發現過程正變得愈發艱難。從經典的預訓練拓展到強化學習、混合專家模型(MoE),每一個新場景都需要研究人員手動進行大量的假設、擬合與試錯。
既然 AI 如此強大,為什么不讓 AI 自己去發現 Scaling Law 呢?
近日,來自北京大學、斯坦福大學、寬德投資和清華大學的研究團隊提出了一項開創性工作:Scaling Law Discovery (SLD)。這項工作不僅構建了包含 5000 多個真實實驗的基準測試 SLDBench,還提出了一種基于進化的智能體框架 SLDAgent。令人驚訝的是,這個 AI 智能體發現的 Scaling Law,在預測精度和外推能力上已經超越了人類專家。
![]()
目前,該論文已被 ICLR 2026 接收。
論文地址:https://arxiv.org/abs/2507.21184
項目主頁:https://linhaowei1.github.io/scaling_law_discovery/
HuggingFace:https://huggingface.co/collections/pkuHaowei/scaling-law-discovery
痛點:被「手動檔」卡住的 AI 科研
Scaling Law 本質上是一個經驗公式,預測模型性能(Loss、準確率等)與規模變量(模型參數量 N、數據量 D、計算量 C 等)之間的關系。
最經典的莫過于 Chinchilla 定律:
![]()
雖然公式看似簡潔,但在實際科研中,發現正確的公式往往伴隨著巨大的試錯成本。
作者團隊分享了一個真實的「血淚史」:在 2023 年進行大模型微調研究時,他們試圖用預訓練中經典的冪律(Power Law)去擬合微調性能,結果徹底失敗。他們發現微調過程存在一個明顯的「預冪律階段(pre-power phase)」,現有 Scaling Law 公式根本無法準確描述。
![]()
微調過程中觀察到的兩階段行為:預冪律階段和冪律階段。
最終,團隊不得不專門寫了一篇論文(https://arxiv.org/abs/2402.02314,發表于 ICML2024)來提出「修正后的 Scaling Law」。雖然結果很好(誤差 RMSD 從 0.036 降到了 0.007),但過程極其耗時。
![]()
這揭示了一個殘酷的現實: 每一項新的 AI 技術的大規模拓展(SFT、MoE、詞表大小、并行策略等)都在呼喚新的 Scaling Law,而目前發現 Scaling Law 的這種「假設 → 擬合 → 失敗 → 重來」的人工試錯循環,已經成為制約 AI 發展的瓶頸。
SLDBench:首個 Scaling Law 發現基準
為了解決這個問題,研究團隊首先需要定義:什么叫做「做好了 Scaling Law 研究」?
為此,他們構建了 SLDBench。這不是一個普通的合成數據集,而是基于從現有文獻中收集的超過 5000 個真實的大模型訓練實驗構建的實驗數據。
![]()
SLDBench 涵蓋了從預訓練、微調到 MoE 等多種場景的任務。
SLDBench 的獨特之處在于:
1. 真實數據:智能體拿到的是真實的實驗結果,不需要自己跑昂貴的訓練。
2. 客觀評估:不僅看擬合得好不好,更看外推(Extrapolation)得準不準。即用小規模數據發現規律,預測大規模模型的效果。
3. 未知探索:即便對人類專家來說,許多任務也沒有已知的「完美公式」。SLDBench 完全模擬了真實世界中的「開放式科研」探索。
4. 高效輕量:相比于其他智能體評測任務(例如 SWEBench,MLEBench),SLDBench 不需要復雜的環境就能運行,科學發現的難度卻不亞于這些任務。
這使得 SLDBench 成為衡量 AI 是否具備「科學發現能力」的絕佳標尺。
SLDAgent:公式和優化算法的共進化
發現 Scaling Law 絕不僅僅是找出一個數學公式 f(x) 那么簡單。作者團隊指出:「發現一個公式」和「找到讓公式生效的擬合過程」同等重要。
許多漂亮的數學公式因為數值不穩定、難以擬合,在實際工程中毫無價值。
因此,該研究提出了 SLDAgent。這是一個基于進化算法(Evolutionary Algorithm)的智能體,它不是在單點優化,而是同時協同進化兩個部分:
1. 符號表達式(Expression):即 Scaling Law 的數學形式。
2. 優化器(Optimizer):即如何穩健地擬合該公式參數的算法代碼。
![]()
SLDAgent 的進化管線,同時搜索公式形式和擬合策略。
SLDAgent 從一個基線(如 Power Law + BFGS)出發,通過變異、交叉等操作不斷生成新的變體,并利用類似 MAP-Elites 的機制保持種群的多樣性。這種「協同優化」完美模擬了人類研究員「提出假設 → 調整擬合方法 → 驗證」的科研閉環。
實驗結果:AI 戰勝了人類
在 SLDBench 上,SLDAgent 展現出了驚人的能力。在多個任務中,AI 發現的定律在準確性和外推能力上均超越了人類此前發表的成果。
![]()
SLDAgent 在各項任務中均優于人類發現的定律。
更有趣的是 AI 贏的方式。它并不是靠堆砌復雜的公式來「過擬合」,而是經常能發現更具物理意義的簡潔形式。
案例 1:SFT 定律的物理意義
![]()
![]()
在 SFT 任務上,SLDAgent 發現的定律比人類提出的定律在量綱上更可解釋。
案例 2:自動尋找最佳超參(學習率 & Batch Size)
對于預訓練來說,如何根據模型規模選擇最佳的學習率(lr)和 Batch Size(bsz)是老大難問題。
傳統方法(來自階躍星辰:https://step-law.github.io/)可能需要跑 3000 個實驗,然后只選出 17 個「最優作為點」來擬合規律。而 SLDAgent 選擇了一條更硬核的路:直接對整個 Loss 曲面 L (N, D, lr, bsz) 建模。
一旦得到了 Loss 曲面的公式,通過求偏導并令其為零,SLDAgent 就能直接推導出最優超參數的閉式解。這不僅利用了所有實驗數據,還極大地提升了預測的魯棒性。
![]()
SLDAgent 提出的 Scaling Law 求導后得到的最優超參非常接近最優超參。
邁向 AI 科學家
這篇 ICLR 2026 的接收論文給社區帶來了一個重要的啟示:
目前的 AI Agent 評估大多集中在寫代碼或做數學題上,而 SLD(Scaling Law Discovery) 提供了一個全新的視角 —— 評估 AI 進行科學研究的能力。
它要求 AI 具備符號推理能力、多場景泛化能力、長程規劃能力,以及面對真實世界嘈雜數據時的魯棒性。
正如作者在文中所言:「SLDBench 是我們將『AI 用于 AI 研究』這一概念進行程序化、基準化乃至最終自動化的初步嘗試。」
也許在不久的將來,當我們面對新的 AI 架構時,不再需要人類苦苦試錯,而是直接交給 AI 科學家,靜待它給出那個支配系統的「牛頓定律」。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.