<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      港中文新優化器Pion:在等譜流形上更新大模型

      0
      分享至



      本文作者施柯煊和李瀚軒是香港中文大學計算機科學與工程系博士生,邱澤鉅是德國馬克斯普朗克研究所博士生,溫研東是西湖大學助理教授,Simon Buchholz是德國馬克斯普朗克研究所研究員,劉威楊是香港中文大學計算機科學與工程系助理教授。

      當大語言模型不斷邁向百億乃至千億參數規模時,人們的核心關注已不再僅僅是 “如何更快收斂”,而是逐漸轉向兩個更加本質的問題:其一,是如何在訓練過程中維持穩定性;其二,是如何實現從小模型到大模型的有效超參數遷移

      具體而言,前者主要表現為訓練過程中的一系列數值與動力學失穩現象,例如注意力 logits 持續增大、激活輸出范數逐步漂移、深層網絡中損失尖峰頻繁出現,甚至最終導致數值溢出與訓練崩潰。后者則依賴于 μP(Maximal Update Parameterization)等尺度化理論,其核心思想是在寬度變化的條件下,通過對參數矩陣與更新尺度進行系統性約束,使不同規模模型之間的超參數具有可遷移性。

      圍繞這兩個問題,當前主流的工程應對方式主要集中在 “訓練穩定性補丁” 和 “尺度控制框架” 兩個方向。一類方法通過梯度裁剪、激活截斷、學習率衰減等手段,直接抑制訓練過程中的數值爆炸;另一類方法則借助歸一化或譜約束等機制,對參數或更新的尺度進行顯式控制,從而緩解訓練過程中的漂移問題。這些方法通過抑制不穩定現象的外在表現,取得了一定的成效,但是并非從優化動力學層面約束其根源

      近期,研究團隊提出了一類基于等譜流形(iso-spectral manifold)的優化器 Pion。其核心思路是在參數矩陣對應的等譜流形上進行優化,從而在根源上規避動力學失穩。這一視角為長程訓練中的尺度漂移與穩定性問題提供了一種從 “幾何約束優化動力學” 出發的替代思路。



      • 論文標題:Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation
      • 論文鏈接:https://arxiv.org/pdf/2605.12492
      • 代碼鏈接:https://github.com/Sphere-AI-Lab/pion

      加法更新的困境

      追本溯源,無論是 μP 尺度的失效亦或是是訓練頻頻失穩,傳統優化器的加法更新范式是主要原因之一。



      隨著訓練的不斷進行,無約束的加法累積同時改變了參數的長度與方向,逐漸破壞了參數矩陣的譜幾何。具體表現為奇異值譜范數被持續放大,不同特征方向的尺度越來越失衡,整體矩陣范數不斷漂移。

      這些底層的幾何變化進一步放大了網絡中的激活值,摧毀了 μP 的前向尺度前提。換句話說,許多訓練失穩與參數化崩潰現象,并不僅僅來自梯度太大,而是因為參數矩陣本身的結構在長期更新過程中逐漸失控。

      從譜保持重新理解穩定訓練



      • spectral norm 不會被無約束放大;
      • 參數矩陣整體范數更加穩定;
      • 特征空間可以持續演化,但矩陣尺度不會失控。

      但與此同時,POET 仍然依賴重參數化訓練框架,需要額外維護兩個可訓練正交矩陣,并固定原始權重矩陣。這不僅給訓練系統兼容性與跨架構適配帶來額外復雜度,也要求更加復雜的一階動量設計。

      Pion:不做重參數化,直接把 “保譜” 寫進優化器

      基于這一觀察,我們進一步提出了 Pion(POET-induced Optimizer with No Reparameterization)。與 POET 不同,Pion 不再依賴顯式重參數化,而是直接將 “譜保持更新” 寫進優化器本身。





      這里的兩個單位矩陣,本質上可以被視為 “零旋轉” 的正交變換。





      其中,兩側更新都由 Lie algebra 中的斜對稱矩陣生成,并通過矩陣指數映射回正交群。

      這一更新方式帶來了一個非常重要的性質:Pion 不再直接 “拉伸” 權重矩陣,而是在特征空間中對其進行旋轉

      由于左右兩側始終是正交變換,Pion 會嚴格保持權重矩陣的奇異值不變。換句話說,訓練過程中:

      • spectral norm 不會被無約束放大;
      • Frobenius norm 保持穩定;
      • 權重的行空間與列空間持續演化,但整體尺度不會失控。

      從幾何視角來看,傳統優化器的更新往往同時混合了:

      • 參數長度(magnitude)的變化;
      • 參數方向(direction)的變化。

      而 Pion 則將更新完全轉化為 “旋轉運動”。因此,Pion 的更新范數不再對應參數縮放,而直接刻畫了特征空間中的旋轉強度。這意味著:模型不是在無約束地放大參數,而是在穩定地旋轉特征空間。

      基于上述規則,我們進一步對加速更新的技術進行了探索,詳情見論文鏈接。我們將最后的得到的 Pion 算法總結成偽代碼(圖 1):



      圖 1:Pion 優化器算法流程。

      Pion 與 μP:譜保持優化器實現尺度遷移

      μP(Maximal Update Parametrization)具體來說要求:

      • 權重矩陣的 spectral norm 滿足固定尺度規律;
      • 參數更新量的 spectral norm 也滿足對應尺度規律。

      過去已有的 μP-compatible 優化器,大多建立在 Muon 路線之上。原因在于:Muon 的更新天然容易滿足 “更新譜條件”,因此 prior work 主要關注如何進一步修正它的權重尺度。而 Pion 剛好相反。由于 Pion 的更新始終保持權重譜結構穩定,因此:它天然滿足 μP 對 權重矩陣的 spectral norm 的尺度規律。于是問題變成:如何讓 Pion 的更新幅度也滿足 μP 的 scaling law。

      為此,我們進一步設計了 μP-compatible 的 Pion 版本,對更新中的 Lie algebra 因子進行譜歸一化控制。我們分別在 LLaMA 架構和 Qwen 架構,對不同模型寬度下驗證 learning rate transferability。如圖 2 所示,Pion 的最優學習率幾乎可以跨模型尺度直接遷移



      圖 2:Pion 與 μP。

      Pion 譜保持優化器實現穩定高效訓練

      我們從預訓練、后訓練兩個方面觀察 Pion 的訓練的穩定性。對于預訓練,除了常規的結構的訓練,我們額外增加了壓力測試:完全去除歸一化層以及超深層網絡,來測試 Pion 在極端情況下的穩定性。 對于后訓練,我們采用 SFT 和 RLVR 兩個常規 Pipeline 進行測試。

      穩定預訓練



      圖 3: 穩定性指標

      我們在 LLaMA-like 1.3B model 上進行預訓練。除了驗證損失之外,我們進一步監控了多項訓練穩定性指標(如圖 3 所示)。其中,SwiGLU 激活范數以及最大 attention logit,已經被廣泛認為是大規模預訓練中的關鍵穩定性指標。如圖所示: AdamW 的 attention logit 持續增長,同時激活范數迅速放大; Muon 雖然顯著抑制了 attention logit 的增長,但其激活值與 down-projection 相關范數仍在整個訓練過程中持續上升; 相比之下,Pion 對所有監控指標都保持了近乎平坦且穩定的演化軌跡。 這種截然不同的訓練動態,來自于 Pion 有效的譜保持特性,如圖 4 所示。



      圖 4:譜的保持。

      得益于穩定訓練以及更均勻的譜,Pion 在 zero-shot 的測試任務上,取得了更好的泛化性(圖 5):



      圖 5: Benchmark 性能。

      Normalization-free 訓練.

      為了進一步對 Pion 的訓練穩定性進行壓力測試,我們移除了一個 60M LLaMA-like 模型中的所有 normalization 層。之所以采用這一設置,是因為 normalization 長期以來都被認為是控制激活尺度、穩定梯度反向傳播的關鍵機制。因此,在缺少 normalization 的情況下,訓練會變得極其不穩定,也能夠更直接地檢驗:優化器本身,是否具備足夠的尺度控制能力。



      圖 6: Normlaization-free 訓練曲線

      實驗結果非常明顯,如圖 6 所示。在這一設置下,AdamW 與 Muon 雖然能夠在訓練初期取得一定進展,但很快便由于梯度溢出而訓練崩潰,并最終產生 NaN。相比之下,Pion 在完整的 9.6B token 訓練過程中始終保持穩定,并最終成功收斂。這一結果表明:譜保持優化在一定程度上能夠替代架構層面的尺度控制機制,為模型訓練提供一種來自優化器本身的穩定性來源

      超深層網絡結構

      為了進一步對 Pion 的穩定性進行壓力測試,我們在極端深度的 LLM 結構上開展實驗。 深層網絡通常被認為是優化穩定性的 “放大鏡”,容易引發嚴重的訓練問題,例如梯度消失以及表示坍塌等現象。在該實驗中,我們將一個 60M 規模的 LLaMA 基線模型從 8 層逐步擴展至 200 層,并在 50B tokens 的 C4 子集上進行訓練。如圖 7 所示,為了更清晰地展示訓練動態,我們通過局部 loss 軌跡的標準差均值來衡量訓練穩定性,其對應的陰影面積可視化了波動程度。



      圖 7: 深層網絡訓練

      實驗結果顯示:AdamW 出現最明顯的 loss spike,整體穩定性最差;Muon 在訓練過程中仍然存在持續的波動累積;Pion 則在整個訓練過程中保持最平滑的 loss 軌跡。對應的標準差統計結果則為:AdamW:0.0931; Muon:0.0927; Pion:0.0892。這表明在極端深度設置下,Pion 表現出最優的訓練穩定性,同時仍然能夠在中期階段實現更快的 loss 下降。

      監督微調

      在監督微調(SFT)階段,一個長期存在的問題是:模型在學習新任務時,很容易遺忘原有能力

      這本質上是一個 stability-plasticity tradeoff:

      • plasticity 太強 → 學得快,但容易 catastrophic forgetting;
      • stability 太強 → 保留舊能力,但新任務適應困難。

      我們在 Qwen2.5-1.5B 和 Llama3.2-3B 兩個基礎模型上進行了全參數微調實驗,并覆蓋:數學推理,代碼生成兩類典型任務。如圖 8 所示,Pion 在多個維度都展現出了更好的平衡能力。尤其是在代碼生成任務中,Pion 同時取得了最高的 ID(in-domain)與 OOD(out-of-domain)表現;數學微調任務中,Pion 也在保持接近最優 ID 性能的同時,更有效地維持了 OOD 泛化。



      圖 8: Pion 應用于監督微調。

      表明:Pion 不僅能更好學習目標任務,同時還能更穩定地保留原始模型能力。換句話說:Pion 的譜保持更新,不僅穩定了訓練過程,也穩定了模型知識本身。相比于傳統優化器頻繁改變參數尺度,Pion 更傾向于在已有表示空間中進行 “結構化旋轉”,因此不容易破壞預訓練階段已經形成的特征結構。

      Reinforcement Learning with Verifiable Reward



      圖 9: Pion 應用于 RLVR。

      我們進一步測試 Pion 在 RLVR(Reinforcement Learning with Verifiable Reward)中的表現。RL 往往是大模型訓練中最不穩定的階段之一,具體來說,reward variance 大;optimization noise 強;容易出現模式崩塌與訓練震蕩。最近的一些研究發現,一個非常有意思的現象是:RL 階段的參數更新,其實往往天然傾向于保留預訓練權重的譜結構。這意味著:強化學習可能本身就更偏向 “結構保持型更新”。而這與 Pion 的更新幾何幾乎天然一致。因此,我們進一步在:Qwen3-1.7B, DeepSeek-R1-Distill-Qwen-1.5B 上進行了 RLVR 實驗,并采用 GRPO 訓練框架進行數學推理強化學習。如圖 9 所示,Pion 在所有 RL 設置下都取得了最佳平均表現。與此同時,驗證集 accuracy 曲線(圖 10)也顯示:Pion 收斂更快;訓練更穩定;后期性能波動更小。



      圖 10: Pion 在 RLVR 任務上的訓練曲線。

      上述結果表明:譜保持不僅適用于預訓練,也可能是一種更適合 RL 的優化歸納偏置(inductive bias)

      結論:從 “收斂優化器” 到 “穩定優化器”

      過去很長時間里,人們默認優化器的職責只有一個:盡快降低 loss。 但隨著大模型訓練規模不斷擴大,“穩定性” 本身,正在變成優化器最核心的能力之一。而 Pion 提供了一個不同于傳統路線的方向:它不依賴大量訓練補丁,而是通過參數更新本身的幾何約束,從源頭抑制譜結構失控。因此,Pion 的意義可能不僅僅是 “一個更穩定的優化器”,更預示著:大模型優化器的下一階段,也許不只是更快下降,而是更可控、更結構化、更長期穩定

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      東山精密跌停,帶崩光模塊!都沒人管管么?

      東山精密跌停,帶崩光模塊!都沒人管管么?

      資本時差
      2026-06-01 11:21:25
      第十次1單2分!樊振東頒獎臉都笑成花兒 創7紀錄德媒評“凱撒樊”

      第十次1單2分!樊振東頒獎臉都笑成花兒 創7紀錄德媒評“凱撒樊”

      顏小白的籃球夢
      2026-06-01 08:41:58
      韓國變天!尹錫悅判無罪,樸槿惠重現江湖,李在明大勢已去?

      韓國變天!尹錫悅判無罪,樸槿惠重現江湖,李在明大勢已去?

      靚仔情感
      2026-06-01 14:31:03
      6月第一天,特朗普的打臉時刻到了,心心念念的三件事,全都黃了

      6月第一天,特朗普的打臉時刻到了,心心念念的三件事,全都黃了

      鐵錘簡科
      2026-06-01 13:45:07
      鄭麗文曾公然稱臺灣是"國家",欲何為?喊話大陸:美國讓我過去

      鄭麗文曾公然稱臺灣是"國家",欲何為?喊話大陸:美國讓我過去

      離離言幾許
      2026-06-01 22:22:32
      何猷君婚禮歡迎宴,奚夢瑤父母罕見亮相,4700萬珠寶引關注

      何猷君婚禮歡迎宴,奚夢瑤父母罕見亮相,4700萬珠寶引關注

      早起的鳥兒有飯吃
      2026-06-01 10:10:27
      “鞭笞” 的 “笞” 不要讀 tà,也不要讀 chì,丟不起那個人!

      “鞭笞” 的 “笞” 不要讀 tà,也不要讀 chì,丟不起那個人!

      未央看點
      2026-06-01 20:14:49
      寒門學霸龐眾望再傳喜訊!拿下清華頂尖獎學金,女友分手謠言剛破

      寒門學霸龐眾望再傳喜訊!拿下清華頂尖獎學金,女友分手謠言剛破

      子芫伴你成長
      2026-06-01 00:05:03
      49年,偉人得知載濤靠擺攤營生后,當即表示:小攤就不要接著擺了

      49年,偉人得知載濤靠擺攤營生后,當即表示:小攤就不要接著擺了

      明月清風閣
      2026-06-01 16:30:13
      75年毛主席82歲壽辰,長壽面卻離奇碎在鍋里,廚師哭著說:我有罪

      75年毛主席82歲壽辰,長壽面卻離奇碎在鍋里,廚師哭著說:我有罪

      春秋硯
      2026-06-01 14:25:08
      挖角俄城?曝湖人或追多位雷霆球員 多爾特與紫金軍堪稱絕配

      挖角俄城?曝湖人或追多位雷霆球員 多爾特與紫金軍堪稱絕配

      羅說NBA
      2026-06-01 06:47:08
      瑞典大滿貫海報出爐!莫雷加德C位,孫穎莎成國乒獨苗,王楚欽無緣

      瑞典大滿貫海報出爐!莫雷加德C位,孫穎莎成國乒獨苗,王楚欽無緣

      好乒乓
      2026-06-01 19:06:15
      意甲轉會風云:伊卡爾迪重回尤文,那不勒斯留人

      意甲轉會風云:伊卡爾迪重回尤文,那不勒斯留人

      賽場速報局
      2026-06-01 00:03:50
      王燦自曝肺切除手術,曾因腸易激暴瘦到79斤,杜淳始終默默守護

      王燦自曝肺切除手術,曾因腸易激暴瘦到79斤,杜淳始終默默守護

      白面書誏
      2026-06-01 17:25:05
      世界杯倒計時12天!金球獎候選人最新排名:登貝萊第2,姆巴佩第8

      世界杯倒計時12天!金球獎候選人最新排名:登貝萊第2,姆巴佩第8

      球場沒跑道
      2026-06-01 12:14:24
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      人不會無緣無故患腳氣!醫生調查發現:得腳氣,離不開這3點原因

      人不會無緣無故患腳氣!醫生調查發現:得腳氣,離不開這3點原因

      敘說醫療健康
      2026-05-31 08:00:15
      區區副廳級干部回國,17人到機場迎接,河南省委書記帶頭減排場

      區區副廳級干部回國,17人到機場迎接,河南省委書記帶頭減排場

      阿離家居
      2026-06-01 14:29:14
      為什么烏克蘭對南部和克里米亞的后勤補給打擊讓俄羅斯感到擔憂?

      為什么烏克蘭對南部和克里米亞的后勤補給打擊讓俄羅斯感到擔憂?

      山河路口
      2026-05-31 19:48:21
      香格里拉對話|現場聲音:中方代表聚焦穩定,美防長發言重實戰

      香格里拉對話|現場聲音:中方代表聚焦穩定,美防長發言重實戰

      澎湃新聞
      2026-05-31 19:32:28
      2026-06-01 23:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13139文章數 142658關注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實錄|40年來PC首次重設計!

      頭條要聞

      女孩14年后打開亡兄的QQ 相冊里藏著"最最最愛的妹妹"

      頭條要聞

      女孩14年后打開亡兄的QQ 相冊里藏著"最最最愛的妹妹"

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢瑤婚禮現場圖!一雙兒女當花童

      財經要聞

      宇樹過會,杭州贏麻了

      汽車要聞

      奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創新高

      態度原創

      親子
      藝術
      本地
      公開課
      軍事航空

      親子要聞

      為什么說小孩子說一些奇奇怪怪的話,千萬不要以為是開玩笑?

      藝術要聞

      吳鎮寫竹,清清爽爽

      本地新聞

      用剪紙的方式,打開江蘇揚州

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      韓國最大軍工企業爆炸 已造成5人死亡

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲精品国产综合99久久夜夜嗨 | 国产99久久亚洲综合精品西瓜tv| 高清欧美性猛交xxxx黑人猛交| 国产三级制服丝袜| Av无码一区二区三区| WWW国产精品内射老熟女| 狠狠色综合网站久久久久久久| 精品国产成人国产在线观看| 美女露出奶头扒开尿口免费网站| 久久久久国内精品免费观看| 国产偷窥熟女高潮精品视频| 亚洲热视频这里只有精品| 精品国模| 亚洲,无码,人妻,视频| 欧美日韩精品乱国产| 国产-第1页-浮力影院| 国产精品久久久国产盗摄| 国产做a爱片久久毛片a片高清| 夜夜春视频| 久久亚洲日韩精品一区二区三区| 91久久性奴调教国产免费| 午夜国产精品福利一二| 中文字幕精品无码亚| 女自慰喷水免费观看WWW久久| 精品国产熟女一区二区三区| 加勒比无码人妻东京热| 国产做a爱免费视频在线观看| 国产精品国偷自产在线| 4hu亚洲人成人无码网www电影首页 | 国产a在视频线精品视频下载| 99久久亚洲综合国产一区| 国产综合亚洲欧美日韩在线| 亚洲永久精品免费在线| 免费无码一区无码东京热| 日欧无码| 丰满人妻在线一区二区三区| 强伦姧人妻免费无码电影| 久久精品| 青青草无码免费一二三区| 亚洲v欧美v国产v在线观看| 狠狠狠色丁香婷婷综合久久俺|