![]()
本文作者施柯煊和李瀚軒是香港中文大學計算機科學與工程系博士生,邱澤鉅是德國馬克斯普朗克研究所博士生,溫研東是西湖大學助理教授,Simon Buchholz是德國馬克斯普朗克研究所研究員,劉威楊是香港中文大學計算機科學與工程系助理教授。
當大語言模型不斷邁向百億乃至千億參數規模時,人們的核心關注已不再僅僅是 “如何更快收斂”,而是逐漸轉向兩個更加本質的問題:其一,是如何在訓練過程中維持穩定性;其二,是如何實現從小模型到大模型的有效超參數遷移
具體而言,前者主要表現為訓練過程中的一系列數值與動力學失穩現象,例如注意力 logits 持續增大、激活輸出范數逐步漂移、深層網絡中損失尖峰頻繁出現,甚至最終導致數值溢出與訓練崩潰。后者則依賴于 μP(Maximal Update Parameterization)等尺度化理論,其核心思想是在寬度變化的條件下,通過對參數矩陣與更新尺度進行系統性約束,使不同規模模型之間的超參數具有可遷移性。
圍繞這兩個問題,當前主流的工程應對方式主要集中在 “訓練穩定性補丁” 和 “尺度控制框架” 兩個方向。一類方法通過梯度裁剪、激活截斷、學習率衰減等手段,直接抑制訓練過程中的數值爆炸;另一類方法則借助歸一化或譜約束等機制,對參數或更新的尺度進行顯式控制,從而緩解訓練過程中的漂移問題。這些方法通過抑制不穩定現象的外在表現,取得了一定的成效,但是并非從優化動力學層面約束其根源
近期,研究團隊提出了一類基于等譜流形(iso-spectral manifold)的優化器 Pion。其核心思路是在參數矩陣對應的等譜流形上進行優化,從而在根源上規避動力學失穩。這一視角為長程訓練中的尺度漂移與穩定性問題提供了一種從 “幾何約束優化動力學” 出發的替代思路。
![]()
- 論文標題:Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation
- 論文鏈接:https://arxiv.org/pdf/2605.12492
- 代碼鏈接:https://github.com/Sphere-AI-Lab/pion
加法更新的困境
追本溯源,無論是 μP 尺度的失效亦或是是訓練頻頻失穩,傳統優化器的加法更新范式是主要原因之一。
![]()
隨著訓練的不斷進行,無約束的加法累積同時改變了參數的長度與方向,逐漸破壞了參數矩陣的譜幾何。具體表現為奇異值譜范數被持續放大,不同特征方向的尺度越來越失衡,整體矩陣范數不斷漂移。
這些底層的幾何變化進一步放大了網絡中的激活值,摧毀了 μP 的前向尺度前提。換句話說,許多訓練失穩與參數化崩潰現象,并不僅僅來自梯度太大,而是因為參數矩陣本身的結構在長期更新過程中逐漸失控。
從譜保持重新理解穩定訓練
![]()
- spectral norm 不會被無約束放大;
- 參數矩陣整體范數更加穩定;
- 特征空間可以持續演化,但矩陣尺度不會失控。
但與此同時,POET 仍然依賴重參數化訓練框架,需要額外維護兩個可訓練正交矩陣,并固定原始權重矩陣。這不僅給訓練系統兼容性與跨架構適配帶來額外復雜度,也要求更加復雜的一階動量設計。
Pion:不做重參數化,直接把 “保譜” 寫進優化器
基于這一觀察,我們進一步提出了 Pion(POET-induced Optimizer with No Reparameterization)。與 POET 不同,Pion 不再依賴顯式重參數化,而是直接將 “譜保持更新” 寫進優化器本身。
![]()
![]()
這里的兩個單位矩陣,本質上可以被視為 “零旋轉” 的正交變換。
![]()
![]()
其中,兩側更新都由 Lie algebra 中的斜對稱矩陣生成,并通過矩陣指數映射回正交群。
這一更新方式帶來了一個非常重要的性質:Pion 不再直接 “拉伸” 權重矩陣,而是在特征空間中對其進行旋轉
由于左右兩側始終是正交變換,Pion 會嚴格保持權重矩陣的奇異值不變。換句話說,訓練過程中:
- spectral norm 不會被無約束放大;
- Frobenius norm 保持穩定;
- 權重的行空間與列空間持續演化,但整體尺度不會失控。
從幾何視角來看,傳統優化器的更新往往同時混合了:
- 參數長度(magnitude)的變化;
- 參數方向(direction)的變化。
而 Pion 則將更新完全轉化為 “旋轉運動”。因此,Pion 的更新范數不再對應參數縮放,而直接刻畫了特征空間中的旋轉強度。這意味著:模型不是在無約束地放大參數,而是在穩定地旋轉特征空間。
基于上述規則,我們進一步對加速更新的技術進行了探索,詳情見論文鏈接。我們將最后的得到的 Pion 算法總結成偽代碼(圖 1):
![]()
圖 1:Pion 優化器算法流程。
Pion 與 μP:譜保持優化器實現尺度遷移
μP(Maximal Update Parametrization)具體來說要求:
- 權重矩陣的 spectral norm 滿足固定尺度規律;
- 參數更新量的 spectral norm 也滿足對應尺度規律。
過去已有的 μP-compatible 優化器,大多建立在 Muon 路線之上。原因在于:Muon 的更新天然容易滿足 “更新譜條件”,因此 prior work 主要關注如何進一步修正它的權重尺度。而 Pion 剛好相反。由于 Pion 的更新始終保持權重譜結構穩定,因此:它天然滿足 μP 對 權重矩陣的 spectral norm 的尺度規律。于是問題變成:如何讓 Pion 的更新幅度也滿足 μP 的 scaling law。
為此,我們進一步設計了 μP-compatible 的 Pion 版本,對更新中的 Lie algebra 因子進行譜歸一化控制。我們分別在 LLaMA 架構和 Qwen 架構,對不同模型寬度下驗證 learning rate transferability。如圖 2 所示,Pion 的最優學習率幾乎可以跨模型尺度直接遷移
![]()
圖 2:Pion 與 μP。
Pion 譜保持優化器實現穩定高效訓練
我們從預訓練、后訓練兩個方面觀察 Pion 的訓練的穩定性。對于預訓練,除了常規的結構的訓練,我們額外增加了壓力測試:完全去除歸一化層以及超深層網絡,來測試 Pion 在極端情況下的穩定性。 對于后訓練,我們采用 SFT 和 RLVR 兩個常規 Pipeline 進行測試。
穩定預訓練
![]()
圖 3: 穩定性指標
我們在 LLaMA-like 1.3B model 上進行預訓練。除了驗證損失之外,我們進一步監控了多項訓練穩定性指標(如圖 3 所示)。其中,SwiGLU 激活范數以及最大 attention logit,已經被廣泛認為是大規模預訓練中的關鍵穩定性指標。如圖所示: AdamW 的 attention logit 持續增長,同時激活范數迅速放大; Muon 雖然顯著抑制了 attention logit 的增長,但其激活值與 down-projection 相關范數仍在整個訓練過程中持續上升; 相比之下,Pion 對所有監控指標都保持了近乎平坦且穩定的演化軌跡。 這種截然不同的訓練動態,來自于 Pion 有效的譜保持特性,如圖 4 所示。
![]()
圖 4:譜的保持。
得益于穩定訓練以及更均勻的譜,Pion 在 zero-shot 的測試任務上,取得了更好的泛化性(圖 5):
![]()
圖 5: Benchmark 性能。
Normalization-free 訓練.
為了進一步對 Pion 的訓練穩定性進行壓力測試,我們移除了一個 60M LLaMA-like 模型中的所有 normalization 層。之所以采用這一設置,是因為 normalization 長期以來都被認為是控制激活尺度、穩定梯度反向傳播的關鍵機制。因此,在缺少 normalization 的情況下,訓練會變得極其不穩定,也能夠更直接地檢驗:優化器本身,是否具備足夠的尺度控制能力。
![]()
圖 6: Normlaization-free 訓練曲線
實驗結果非常明顯,如圖 6 所示。在這一設置下,AdamW 與 Muon 雖然能夠在訓練初期取得一定進展,但很快便由于梯度溢出而訓練崩潰,并最終產生 NaN。相比之下,Pion 在完整的 9.6B token 訓練過程中始終保持穩定,并最終成功收斂。這一結果表明:譜保持優化在一定程度上能夠替代架構層面的尺度控制機制,為模型訓練提供一種來自優化器本身的穩定性來源
超深層網絡結構
為了進一步對 Pion 的穩定性進行壓力測試,我們在極端深度的 LLM 結構上開展實驗。 深層網絡通常被認為是優化穩定性的 “放大鏡”,容易引發嚴重的訓練問題,例如梯度消失以及表示坍塌等現象。在該實驗中,我們將一個 60M 規模的 LLaMA 基線模型從 8 層逐步擴展至 200 層,并在 50B tokens 的 C4 子集上進行訓練。如圖 7 所示,為了更清晰地展示訓練動態,我們通過局部 loss 軌跡的標準差均值來衡量訓練穩定性,其對應的陰影面積可視化了波動程度。
![]()
圖 7: 深層網絡訓練
實驗結果顯示:AdamW 出現最明顯的 loss spike,整體穩定性最差;Muon 在訓練過程中仍然存在持續的波動累積;Pion 則在整個訓練過程中保持最平滑的 loss 軌跡。對應的標準差統計結果則為:AdamW:0.0931; Muon:0.0927; Pion:0.0892。這表明在極端深度設置下,Pion 表現出最優的訓練穩定性,同時仍然能夠在中期階段實現更快的 loss 下降。
監督微調
在監督微調(SFT)階段,一個長期存在的問題是:模型在學習新任務時,很容易遺忘原有能力
這本質上是一個 stability-plasticity tradeoff:
- plasticity 太強 → 學得快,但容易 catastrophic forgetting;
- stability 太強 → 保留舊能力,但新任務適應困難。
我們在 Qwen2.5-1.5B 和 Llama3.2-3B 兩個基礎模型上進行了全參數微調實驗,并覆蓋:數學推理,代碼生成兩類典型任務。如圖 8 所示,Pion 在多個維度都展現出了更好的平衡能力。尤其是在代碼生成任務中,Pion 同時取得了最高的 ID(in-domain)與 OOD(out-of-domain)表現;數學微調任務中,Pion 也在保持接近最優 ID 性能的同時,更有效地維持了 OOD 泛化。
![]()
圖 8: Pion 應用于監督微調。
表明:Pion 不僅能更好學習目標任務,同時還能更穩定地保留原始模型能力。換句話說:Pion 的譜保持更新,不僅穩定了訓練過程,也穩定了模型知識本身。相比于傳統優化器頻繁改變參數尺度,Pion 更傾向于在已有表示空間中進行 “結構化旋轉”,因此不容易破壞預訓練階段已經形成的特征結構。
Reinforcement Learning with Verifiable Reward
![]()
圖 9: Pion 應用于 RLVR。
我們進一步測試 Pion 在 RLVR(Reinforcement Learning with Verifiable Reward)中的表現。RL 往往是大模型訓練中最不穩定的階段之一,具體來說,reward variance 大;optimization noise 強;容易出現模式崩塌與訓練震蕩。最近的一些研究發現,一個非常有意思的現象是:RL 階段的參數更新,其實往往天然傾向于保留預訓練權重的譜結構。這意味著:強化學習可能本身就更偏向 “結構保持型更新”。而這與 Pion 的更新幾何幾乎天然一致。因此,我們進一步在:Qwen3-1.7B, DeepSeek-R1-Distill-Qwen-1.5B 上進行了 RLVR 實驗,并采用 GRPO 訓練框架進行數學推理強化學習。如圖 9 所示,Pion 在所有 RL 設置下都取得了最佳平均表現。與此同時,驗證集 accuracy 曲線(圖 10)也顯示:Pion 收斂更快;訓練更穩定;后期性能波動更小。
![]()
圖 10: Pion 在 RLVR 任務上的訓練曲線。
上述結果表明:譜保持不僅適用于預訓練,也可能是一種更適合 RL 的優化歸納偏置(inductive bias)
結論:從 “收斂優化器” 到 “穩定優化器”
過去很長時間里,人們默認優化器的職責只有一個:盡快降低 loss。 但隨著大模型訓練規模不斷擴大,“穩定性” 本身,正在變成優化器最核心的能力之一。而 Pion 提供了一個不同于傳統路線的方向:它不依賴大量訓練補丁,而是通過參數更新本身的幾何約束,從源頭抑制譜結構失控。因此,Pion 的意義可能不僅僅是 “一個更穩定的優化器”,更預示著:大模型優化器的下一階段,也許不只是更快下降,而是更可控、更結構化、更長期穩定
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.