<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      北大斯坦福聯手打造「AI科學家」,預測精度超越人類專家

      0
      分享至



      作者丨論文團隊

      編輯丨ScienceAI

      如果 AI 能夠比人類更精準、更高效地發現統治 AI 系統的「牛頓定律」,那么 AI 自我進化的奇點是否已經臨近?

      Scaling Laws(擴展定律)被譽為現代 AI 領域最接近「科學」的工具。從 Chinchilla 到 GPT-4,它指導研究者利用「小規模實驗」精準預測「大模型的性能」,決定了算力分配、數據配比等關鍵決策。

      然而,隨著 AI 技術的演進,Scaling Law 的發現過程正變得愈發艱難。從經典的預訓練拓展到強化學習、混合專家模型(MoE),每一個新場景都需要研究人員手動進行大量的假設、擬合與試錯。

      既然 AI 如此強大,為什么不讓 AI 自己去發現 Scaling Law 呢?

      近日,來自北京大學、斯坦福大學、寬德投資和清華大學的研究團隊提出了一項開創性工作:Scaling Law Discovery (SLD)。這項工作不僅構建了包含 5000 多個真實實驗的基準測試 SLDBench,還提出了一種基于進化的智能體框架 SLDAgent。令人驚訝的是,這個 AI 智能體發現的 Scaling Law,在預測精度和外推能力上已經超越了人類專家。



      目前,該論文已被 ICLR 2026 接收。

      論文地址:https://arxiv.org/abs/2507.21184

      項目主頁:https://linhaowei1.github.io/scaling_law_discovery/

      HuggingFace:https://huggingface.co/collections/pkuHaowei/scaling-law-discovery

      痛點:被「手動檔」卡住的 AI 科研

      Scaling Law 本質上是一個經驗公式,預測模型性能(Loss、準確率等)與規模變量(模型參數量 N、數據量 D、計算量 C 等)之間的關系。

      最經典的莫過于 Chinchilla 定律:



      雖然公式看似簡潔,但在實際科研中,發現正確的公式往往伴隨著巨大的試錯成本。

      作者團隊分享了一個真實的「血淚史」:在 2023 年進行大模型微調研究時,他們試圖用預訓練中經典的冪律(Power Law)去擬合微調性能,結果徹底失敗。他們發現微調過程存在一個明顯的「預冪律階段(pre-power phase)」,現有 Scaling Law 公式根本無法準確描述。



      微調過程中觀察到的兩階段行為:預冪律階段和冪律階段。

      最終,團隊不得不專門寫了一篇論文(https://arxiv.org/abs/2402.02314,發表于 ICML2024)來提出「修正后的 Scaling Law」。雖然結果很好(誤差 RMSD 從 0.036 降到了 0.007),但過程極其耗時。



      這揭示了一個殘酷的現實: 每一項新的 AI 技術的大規模拓展(SFT、MoE、詞表大小、并行策略等)都在呼喚新的 Scaling Law,而目前發現 Scaling Law 的這種「假設 → 擬合 → 失敗 → 重來」的人工試錯循環,已經成為制約 AI 發展的瓶頸。

      SLDBench:首個 Scaling Law 發現基準

      為了解決這個問題,研究團隊首先需要定義:什么叫做「做好了 Scaling Law 研究」?

      為此,他們構建了 SLDBench。這不是一個普通的合成數據集,而是基于從現有文獻中收集的超過 5000 個真實的大模型訓練實驗構建的實驗數據。



      SLDBench 涵蓋了從預訓練、微調到 MoE 等多種場景的任務。

      SLDBench 的獨特之處在于:

      1. 真實數據:智能體拿到的是真實的實驗結果,不需要自己跑昂貴的訓練。

      2. 客觀評估:不僅看擬合得好不好,更看外推(Extrapolation)得準不準。即用小規模數據發現規律,預測大規模模型的效果。

      3. 未知探索:即便對人類專家來說,許多任務也沒有已知的「完美公式」。SLDBench 完全模擬了真實世界中的「開放式科研」探索。

      4. 高效輕量:相比于其他智能體評測任務(例如 SWEBench,MLEBench),SLDBench 不需要復雜的環境就能運行,科學發現的難度卻不亞于這些任務。

      這使得 SLDBench 成為衡量 AI 是否具備「科學發現能力」的絕佳標尺。

      SLDAgent:公式和優化算法的共進化

      發現 Scaling Law 絕不僅僅是找出一個數學公式 f(x) 那么簡單。作者團隊指出:「發現一個公式」和「找到讓公式生效的擬合過程」同等重要。

      許多漂亮的數學公式因為數值不穩定、難以擬合,在實際工程中毫無價值。

      因此,該研究提出了 SLDAgent。這是一個基于進化算法(Evolutionary Algorithm)的智能體,它不是在單點優化,而是同時協同進化兩個部分:

      1. 符號表達式(Expression):即 Scaling Law 的數學形式。

      2. 優化器(Optimizer):即如何穩健地擬合該公式參數的算法代碼。



      SLDAgent 的進化管線,同時搜索公式形式和擬合策略。

      SLDAgent 從一個基線(如 Power Law + BFGS)出發,通過變異、交叉等操作不斷生成新的變體,并利用類似 MAP-Elites 的機制保持種群的多樣性。這種「協同優化」完美模擬了人類研究員「提出假設 → 調整擬合方法 → 驗證」的科研閉環。

      實驗結果:AI 戰勝了人類

      在 SLDBench 上,SLDAgent 展現出了驚人的能力。在多個任務中,AI 發現的定律在準確性和外推能力上均超越了人類此前發表的成果。



      SLDAgent 在各項任務中均優于人類發現的定律。

      更有趣的是 AI 贏的方式。它并不是靠堆砌復雜的公式來「過擬合」,而是經常能發現更具物理意義的簡潔形式。

      案例 1:SFT 定律的物理意義





      在 SFT 任務上,SLDAgent 發現的定律比人類提出的定律在量綱上更可解釋。

      案例 2:自動尋找最佳超參(學習率 & Batch Size)

      對于預訓練來說,如何根據模型規模選擇最佳的學習率(lr)和 Batch Size(bsz)是老大難問題。

      傳統方法(來自階躍星辰:https://step-law.github.io/)可能需要跑 3000 個實驗,然后只選出 17 個「最優作為點」來擬合規律。而 SLDAgent 選擇了一條更硬核的路:直接對整個 Loss 曲面 L (N, D, lr, bsz) 建模。

      一旦得到了 Loss 曲面的公式,通過求偏導并令其為零,SLDAgent 就能直接推導出最優超參數的閉式解。這不僅利用了所有實驗數據,還極大地提升了預測的魯棒性。



      SLDAgent 提出的 Scaling Law 求導后得到的最優超參非常接近最優超參。

      邁向 AI 科學家

      這篇 ICLR 2026 的接收論文給社區帶來了一個重要的啟示:

      目前的 AI Agent 評估大多集中在寫代碼或做數學題上,而 SLD(Scaling Law Discovery) 提供了一個全新的視角 —— 評估 AI 進行科學研究的能力。

      它要求 AI 具備符號推理能力、多場景泛化能力、長程規劃能力,以及面對真實世界嘈雜數據時的魯棒性。

      正如作者在文中所言:「SLDBench 是我們將『AI 用于 AI 研究』這一概念進行程序化、基準化乃至最終自動化的初步嘗試。」

      也許在不久的將來,當我們面對新的 AI 架構時,不再需要人類苦苦試錯,而是直接交給 AI 科學家,靜待它給出那個支配系統的「牛頓定律」。

      聲明:包含AI生成內容

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      普京、特朗普訪華為什么都選在夜間抵京?

      普京、特朗普訪華為什么都選在夜間抵京?

      朋筆生輝
      2026-05-20 23:16:04
      震驚!夜班護士搶救病人,家屬嫌“按得慢”直接扇耳光!醫生:不要忍,一定要報警

      震驚!夜班護士搶救病人,家屬嫌“按得慢”直接扇耳光!醫生:不要忍,一定要報警

      梅斯醫學
      2026-05-21 16:30:41
      為什么華為和蘋果的差距,越追反而越大了?背后的原因懂的人不多

      為什么華為和蘋果的差距,越追反而越大了?背后的原因懂的人不多

      世界圈
      2026-05-15 09:20:20
      1995年,49歲的特朗普來到香港,懷中抱著一位神秘女人,她是誰?

      1995年,49歲的特朗普來到香港,懷中抱著一位神秘女人,她是誰?

      文史達觀
      2025-01-26 06:45:03
      昔日超模于娜,胖到230斤!不吃主食一頓5個菜,原因讓人心疼

      昔日超模于娜,胖到230斤!不吃主食一頓5個菜,原因讓人心疼

      阿纂看事
      2026-05-21 15:01:35
      廣東人有福了!惠州將要迎來大變化,住在這兒的人真幸運!

      廣東人有福了!惠州將要迎來大變化,住在這兒的人真幸運!

      靚仔情感
      2026-05-19 18:36:04
      岳父是高管,岳母開公司,娶了乒乓冠軍的許昕,普通人抄不了作業

      岳父是高管,岳母開公司,娶了乒乓冠軍的許昕,普通人抄不了作業

      涼羽亭
      2026-05-20 21:45:05
      福登落選世界杯名單,圖赫爾做出最終決定

      福登落選世界杯名單,圖赫爾做出最終決定

      晚風知我意21
      2026-05-22 01:11:08
      第一集就全裸出鏡,女神新劇破格出演了

      第一集就全裸出鏡,女神新劇破格出演了

      來看美劇
      2026-04-27 16:21:10
      你被凌晨的炸雷驚醒了嗎?暴雨導致昆明市區多路段嚴重積水,云南連發暴雨、雷電預警,接下來的天氣情況是......

      你被凌晨的炸雷驚醒了嗎?暴雨導致昆明市區多路段嚴重積水,云南連發暴雨、雷電預警,接下來的天氣情況是......

      都市條形碼
      2026-05-21 14:26:55
      知名相機App被曝團隊解散!曾因“9.9元一套寫真”爆火,高峰期超4000人排隊等出片

      知名相機App被曝團隊解散!曾因“9.9元一套寫真”爆火,高峰期超4000人排隊等出片

      南方都市報
      2026-05-21 00:16:38
      一個男女關系鐵律:如果要想讓一個人迷戀你離不開你,下下策是投其所好,中策是舍得花錢,上上策只有兩件事

      一個男女關系鐵律:如果要想讓一個人迷戀你離不開你,下下策是投其所好,中策是舍得花錢,上上策只有兩件事

      心理觀察局
      2026-05-11 09:18:36
      毛主席題4字成絕唱。寫毛筆字,怎樣才算書法中的內行?

      毛主席題4字成絕唱。寫毛筆字,怎樣才算書法中的內行?

      書畫相約
      2026-05-18 08:00:05
      遼籃后續有人了!名宿之子和趙繼偉的小迷弟成功入選U21最佳陣容

      遼籃后續有人了!名宿之子和趙繼偉的小迷弟成功入選U21最佳陣容

      君馬體育
      2026-05-22 00:01:30
      中俄聯合聲明:美以軍事打擊伊朗違反國際法,沖突當事方應盡快重返對話談判

      中俄聯合聲明:美以軍事打擊伊朗違反國際法,沖突當事方應盡快重返對話談判

      界面新聞
      2026-05-20 23:31:53
      TVB藝人不幸確診腦癌,接受開顱手術,努力康復后再度復出

      TVB藝人不幸確診腦癌,接受開顱手術,努力康復后再度復出

      你約電影
      2026-05-21 21:08:53
      羅馬諾確認曼聯將談判4500萬歐簽亞特蘭大中場

      羅馬諾確認曼聯將談判4500萬歐簽亞特蘭大中場

      甜份超標的我
      2026-05-22 01:41:14
      我娶了2米高的俄羅斯老婆,新婚夜她列出我們之間必須遵守的約定

      我娶了2米高的俄羅斯老婆,新婚夜她列出我們之間必須遵守的約定

      千秋文化
      2026-05-16 20:29:33
      運營成本攀升、收支缺口增大,重慶璧山有軌電車擬調價

      運營成本攀升、收支缺口增大,重慶璧山有軌電車擬調價

      澎湃新聞
      2026-05-21 16:20:30
      伊朗最高領袖下令:接近武器級的鈾必須留在國內

      伊朗最高領袖下令:接近武器級的鈾必須留在國內

      新京報
      2026-05-21 18:58:07
      2026-05-22 03:23:00
      ScienceAI incentive-icons
      ScienceAI
      關注人工智能與其他前沿技術
      1307文章數 227關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      女子高空跳傘遇難 原計劃今年訂婚

      頭條要聞

      女子高空跳傘遇難 原計劃今年訂婚

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      雷軍:YU7首戰Model Y八敗兩勝 輸給全球銷冠不丟人

      態度原創

      教育
      數碼
      時尚
      房產
      手機

      教育要聞

      高考地理|氣候詳解

      數碼要聞

      精準操控不誤觸!一加Ace 6至尊版讓點擊精準如物理外掛

      今年夏天最流行的4組搭配,誰穿誰好看!

      房產要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

      手機要聞

      AYANEO Pocket AIR Mini安卓掌機Arcade Home聯名款發布,739元起

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产成人无码电影| jizzjizz亚洲| 亚洲精品入口一区二区乱| 亚洲爽图| 成人精品免费视频在线观看| 久久99久久99精品免观看动漫| 成人AV视屏| 狠狠综合久久综合88亚洲| 亚洲中文精品一区二区| 内射无套内射国产精品视频| 欧美精品一卡二卡| 挺进粗大尤物人妻中文字幕| 国产三级三级三级看三级日本| 浮妇高潮喷白浆视频| 人禽无码视频在线观看| 中文字幕制服丝袜| 一二三四中文字幕日韩乱码| 国内高清久久久久久| 欧美日韩亚洲精品综合乱在线 | 国产99青青成人A在线| 99视频偷窥在线精品国自产拍| 欧美午夜理论在线网站入口| 色爱无码A V 综合区| 素人视频亚洲十一十二区| 久久av一区二区三区| 国产成人精品无码免费看| 亚洲无码流出| 九九成人免费视频| 国产精自产拍久久久久久蜜| 国产真实乱人偷精品人妻| 亚洲AV无码乱码在线观看性色扶 | 五月亚洲| 人妻少妇偷人无码视频| 亚洲精品乱码97久久久| 国产99免费视频| 国产大全韩国亚洲一区二区三区| 亚洲天堂伊人久久a成人| 91丝袜在线| 亚洲不卡视频一区二区三区| 狠狠色噜噜狠狠狠888米奇| 99精品热在线在线观看视|