<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      多變量神經縮放定律邁向大一統:Mila聯手DeepMind提出UNSL

      0
      分享至



      機器之心編輯部

      過去的大模型 scaling law 通常回答的是:當模型參數量、數據量和訓練計算量增加后,loss 會如何下降。

      但真實訓練過程要復雜得多。模型性能不只受參數量和數據量影響,還會受到訓練步數、處理 token 數、數據是否被重復使用、batch size、學習率、初始化尺度,以及推理時計算量等因素影響。

      更麻煩的是,這些變量之間并不是簡單相加關系:某個變量可能在特定區間成為瓶頸,也可能讓性能曲線出現階段性「拐點」,甚至帶來非單調變化。比如,訓練數據太少或訓練超過一定 epoch 后可能出現過擬合;學習率或初始化權重標準差過大,也可能反過來損害性能。

      針對這些限制,來自蒙特利爾大學 Mila、Google DeepMind 的研究者提出了一種全新的函數形式,稱為統一神經縮放定律(Unified Neural Scaling Law,簡稱 UNSL),它把多變量同時變化、拐點、瓶頸、過擬合以及超參數帶來的反向作用統一納入 scaling law。

      所以,這篇論文的主張可以概括為:神經網絡的 scaling behavior 不應該只用「參數量 — 數據量 —loss」這樣的二維或三維公式描述,而應該用一個能同時處理多變量、階段性轉折、性能瓶頸、過擬合和超參數影響的統一函數形式。



      • 論文標題:Unified Neural Scaling Laws
      • 論文鏈接:https://arxiv.org/pdf/2605.26248

      論文一作 Ethan Caballero 用一段視頻,展示了「統一神經縮放定律」準確建模和外推人工神經網絡在多個變量同時變化時呈現出的多變量縮放定律。



      UNSL 的函數形式

      UNSL 的完整架構是由多個分層函數嵌套而成的,它在多維對數空間中將性能建模為一組平滑連接的超平面:



      其中 Q 定義如下:



      R 定義如下:



      K 為多變量斷裂神經縮放定律(Multivariate Broken Neural Scaling Law,MBNSL),定義如下:



      整體上可以像下面這樣理解:

      在函數形式上,UNSL 不是簡單把參數量、數據量和訓練步數塞進一個冪律公式,而是采用了一套分層結構。

      底層的 K 是多變量 broken scaling law,用來描述 log-log 空間中由多個平滑連接超平面構成的 scaling 曲面;其中的 hyperbreak 對應性能曲面中的階段性轉折。

      再往上一層,R 將整體 scaling 行為拆成非瓶頸組件和瓶頸組件,分別描述多變量共同作用下的整體趨勢,以及某一單獨變量限制最終性能的情況。瓶頸組件表示,當其他變量都足夠好時,某一個變量仍可能單獨限制性能。例如模型夠大、訓練夠久,但數據量不足,數據量就成為瓶頸;或者數據足夠多,但模型太小,參數量成為瓶頸。

      Q 則進一步引入學習率、初始化尺度等超參數可能帶來的反向作用。

      最外層公式再加入不可約性能極限、評價指標導致的壞表現極限,以及訓練超過一定 epoch 后可能出現的過擬合項。

      下圖為統一神經縮放定律(Unified Neural Scaling Law,UNSL)的示意圖,包含兩個輸入維度 x_1 和 x_2;中間圖和右側圖分別展示了它在各個輸入維度上的投影。

      在這個具體例子中,一個 UNSL 包含 3 個 hyperbreak,也就是圖中用更亮的虛線標出的橙色、黃色和綠色轉折結構。Hyperbreak 可以理解為 scaling law 中的「階段轉折」。例如一開始增加數據帶來明顯收益,過了某個區間收益下降,這個轉折就是一種 break;多變量情況下,它不再是一點,而是高維空間里的轉折面。

      其中,綠色 hyperbreak 由非瓶頸組件產生;橙色 hyperbreak 由 x_1 瓶頸組件產生;黃色 hyperbreak 由 x_2 瓶頸組件產生。



      實驗結果

      在實驗部分,研究者對比了以下幾類函數形式。

      第一類是已有 scaling law 形式,包括 CF 和 DC。CF 接近 Kaplan、Chinchilla 一類常見形式,主要描述參數量、訓練數據量或訓練 token 數與 loss 之間的關系。DC 來自 Muennighoff 等人的三變量函數形式,考慮參數量、訓練 token 數和訓練數據集大小。

      第二類是作者設計的消融版本:A1、A2、A3。它們可以理解為 UNSL 的逐步簡化版。其中 A1 去掉了 additive symmetry,A2 加入了性能下限項,A3 進一步加入部分反向作用結構;完整 UNSL 包含全部 additive symmetry、瓶頸組件、非瓶頸組件、過擬合項和超參數反向作用項。

      接下來,研究者主要做了視覺和語言兩大類實驗。

      在視覺任務中,研究者評估了下游少樣本圖像分類,包括 Birds 200、Cars 196 和 ImageNet。模型包括 ViT、MLP-Mixer 和 BiT,它們在 JFT-300M 子集上預訓練。變量包括訓練數據集大小、訓練步數,以及在三變量設置中的模型參數量。結果顯示,在下游圖像識別任務中,UNSL 在 60.87% 的任務上取得最好的外推表現,而下一個最好的 A3 是 21.74%

      在語言任務中,研究者評估了上游和下游語言表現,變量包括模型參數量、處理 token 數、訓練數據 token 數等。下游任務包括 LAMBADA 和 CSR,其中 CSR 是 HellaSwag、ARC、PIQA、WinoGrande、OpenBookQA、SIQA、BoolQ 等常識推理任務的零樣本平均錯誤率。結果顯示,在語言任務中,UNSL 在 88.89% 的任務上外推最好,而下一個最好的 A2 是 11.11%



      更細化地講,視覺部分實驗分為二變量和三變量兩類:二變量設置中同時變化的是訓練數據集大小和訓練步數,三變量設置中同時變化的是訓練數據集大小、訓練步數和模型參數量。

      在三變量視覺實驗中,UNSL 的優勢非常直接。以 Birds 和 ImageNet 為例,UNSL 都取得最低 RMSLE。尤其和 DC 相比,誤差下降非常明顯,說明只靠傳統三變量形式不足以描述視覺模型在參數量、訓練數據和訓練步數同時變化時的外推趨勢。



      語言部分實驗同時覆蓋上游語言建模表現和下游任務表現。三變量語言實驗使用 Muennighoff 等人的 scaling behavior 數據,三個同時變化的維度是 模型參數量、處理過的 token 數、訓練數據集中的 token 數。二變量語言實驗則關注模型參數量與訓練步數 / 處理 token 數的關系。

      在三變量語言實驗中,UNSL 的 RMSLE 明顯低于 A3、A2 、A1 和 DC。也就是說,在這個設置下,UNSL 的外推誤差大約只有 DC 的八分之一左右。



      二變量語言實驗也體現了類似趨勢。在下表 5 中,UNSL 在大多數任務上取得最低誤差。



      除了主文中的視覺和語言任務,論文還在附錄中給出更多場景,試圖說明 UNSL 的適用范圍更廣。UNSL 可以外推強化學習中的多變量 scaling behavior,可以處理寬度和深度同時變化的 scaling,還可以把 batch size 作為輸入變量;另外,UNSL 還被用于學習率、初始化權重標準差和訓練步數同時變化的三變量 scaling behavior。

      一系列實驗結果表明,UNSL 的優勢不在于簡單擬合歷史數據,而在于它能在多變量同時變化的情況下,更穩定地預測模型性能隨規模擴展的走勢

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      其實他才是對華敵意最深的美國總統,差一點鎖死咱們的崛起之路

      其實他才是對華敵意最深的美國總統,差一點鎖死咱們的崛起之路

      開著車去流浪
      2026-05-15 15:28:45
      心梗發作前7天,身體瘋狂發警報!這5個信號,一定要注意!

      心梗發作前7天,身體瘋狂發警報!這5個信號,一定要注意!

      健康之光
      2026-05-27 17:15:06
      小麥“割四賠五”續:博主直播翻車,事情傳到外網,牽連整個襄陽

      小麥“割四賠五”續:博主直播翻車,事情傳到外網,牽連整個襄陽

      小鋭有話說
      2026-05-27 14:17:45
      重要調整!央視直播CBA總決賽有變,上海隊動真格,廣廈要放底牌

      重要調整!央視直播CBA總決賽有變,上海隊動真格,廣廈要放底牌

      以茶帶書
      2026-05-28 15:44:53
      張蘭抱小汪寶樂開花!對比霖霖玥兒,待遇差別太明顯

      張蘭抱小汪寶樂開花!對比霖霖玥兒,待遇差別太明顯

      人間煙火記事本
      2026-05-26 21:45:30
      為什么都說今年榴蓮大降價,但你還是沒實現榴蓮自由?

      為什么都說今年榴蓮大降價,但你還是沒實現榴蓮自由?

      果殼
      2026-05-27 16:14:30
      未來狀元?克勞福德之子登頂29屆球員榜單:球風像父親+漢密爾頓

      未來狀元?克勞福德之子登頂29屆球員榜單:球風像父親+漢密爾頓

      羅說NBA
      2026-05-28 05:42:54
      阿森納歐冠看你了!英超3天后或包攬本賽季歐戰3冠 36年神跡將至

      阿森納歐冠看你了!英超3天后或包攬本賽季歐戰3冠 36年神跡將至

      我愛英超
      2026-05-28 06:32:47
      汪小菲秀幸福了,送玫瑰吃大餐,豪宅裝修曝光,難怪馬筱梅不搬家

      汪小菲秀幸福了,送玫瑰吃大餐,豪宅裝修曝光,難怪馬筱梅不搬家

      風月得自難尋
      2026-05-28 16:23:31
      誣告朱軍性騷擾的“弦子”,終于被封禁了

      誣告朱軍性騷擾的“弦子”,終于被封禁了

      韜聞
      2026-05-27 12:46:12
      加拿大國民咖啡被印度人占領?當地人歧視怒吼:滾回印度去!

      加拿大國民咖啡被印度人占領?當地人歧視怒吼:滾回印度去!

      看盡人間百態
      2026-05-27 13:30:04
      CBA總決賽G2戰又變卦了?籃協再次出手了:中國裁判將執哨吹罰!

      CBA總決賽G2戰又變卦了?籃協再次出手了:中國裁判將執哨吹罰!

      等等talk
      2026-05-28 09:07:18
      C羅年薪的7倍!吉達聯合:給梅西開出每年14億歐合同,被他拒絕了

      C羅年薪的7倍!吉達聯合:給梅西開出每年14億歐合同,被他拒絕了

      夏侯看英超
      2026-05-28 16:58:41
      超過一萬名博士辭去美國公務員,浩蕩回國,赴美留學暴跌28.6%!

      超過一萬名博士辭去美國公務員,浩蕩回國,赴美留學暴跌28.6%!

      鬼菜生活
      2026-05-27 12:03:18
      騎士可能交易米切爾?美媒曬5大潛在下家+方案:火箭可4換1搶他

      騎士可能交易米切爾?美媒曬5大潛在下家+方案:火箭可4換1搶他

      羅說NBA
      2026-05-28 06:05:44
      一婚娶演員,二婚娶主持,如今在江蘇租房住,和四個娃過田園生活

      一婚娶演員,二婚娶主持,如今在江蘇租房住,和四個娃過田園生活

      素衣讀史
      2026-05-11 20:56:03
      小S即將正式辦離婚!下體2cm男星涼了!

      小S即將正式辦離婚!下體2cm男星涼了!

      八卦瘋叔
      2026-05-28 13:16:02
      陳飛宇又爆船照?于正重組白鹿團隊!

      陳飛宇又爆船照?于正重組白鹿團隊!

      八卦瘋叔
      2026-05-28 11:42:46
      事關北京未來5年!明早10時,重磅發布會!

      事關北京未來5年!明早10時,重磅發布會!

      新京報政事兒
      2026-05-28 09:10:16
      楊某(女,38歲)、陳某(女,37歲)兩好友隱瞞已婚,與兩兄弟戀愛,在廣東落網

      楊某(女,38歲)、陳某(女,37歲)兩好友隱瞞已婚,與兩兄弟戀愛,在廣東落網

      南方都市報
      2026-05-28 12:27:20
      2026-05-28 17:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13103文章數 142653關注度
      往期回顧 全部

      科技要聞

      臺積電3納米下半年漲價15% 明年或再漲10%

      頭條要聞

      小米車主遇剮蹭提理賠遭拒還被打骨折 小米法務介入

      頭條要聞

      小米車主遇剮蹭提理賠遭拒還被打骨折 小米法務介入

      體育要聞

      如果雷霆拼圖是這水平 馬刺確實打不過

      娛樂要聞

      林俊杰七七與大哥嫂子的瓜剪不斷理還亂

      財經要聞

      長鑫科技IPO過會,市值會到幾萬億?

      汽車要聞

      限時補貼價9.28-10.98萬 MG 4X正式上市

      態度原創

      本地
      數碼
      時尚
      藝術
      公開課

      本地新聞

      用剪紙的方式,打開江蘇揚州

      數碼要聞

      雷神布局AMD Medusa Point / Medusa Point芯片AI迷你工作站

      穿真絲的女人,挺時髦!

      藝術要聞

      螞蟻新總部封頂了!大圓環到底有啥魔力

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人精品AA毛片| 亚洲国产精品500在线观看| 久久SE精品一区精品二区| 在线亚洲一区二区| 精品人妻中文字幕专区| 果冻传媒MV国产推荐视频| 好男人社区影视在线WWW| 伊在人间香蕉最新视频| 亚洲AV永久天码精品天堂DL| 欧美专区一区三区四区在线免费黄| 亚洲精品成AV无在线观看| 亚洲阿v天堂网2021| 国产精品一线二线三线区| 55夜色66夜色国产精品| 无码人妻一区二区三区四区老鸭窝| 在线免费观看亚洲天堂av| 尤物在线观看视频免费| 无套内谢少妇毛片aaaa片免费| av天堂久久天堂av| 国产XXXX| 久久被窝亚洲精品爽爽爽| 精品一卡2卡三卡4卡乱码精品视频| 日本激情网站| 狼友视频网站| 久久精品国产亚洲不AV麻豆| 久久妇女高潮喷水多| 91人人操| 精品国产人成亚洲区| 久久18| 亚洲av成人专区精品| 久久天天躁狠狠躁夜夜不卡公司| 国产高清自产拍av在线| 日本高清视频网站www| 亚洲综合无码一区二区| 亚洲精选AV| 成人精品蜜臀在线观看| 手机在线免费av网站| 中文字幕四区| 亚洲av永久无码精品水牛影视| 国产对白老熟女正在播放| 97色欧美视频在线观看|