<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      清華聯手千問重塑歸一化范式,讓 Transformer 回歸「深度」學習

      0
      分享至



      在十九世紀的暹羅王國曾誕生過這樣一對連體兄弟:他們分別擁有完整的四肢和獨立的大腦,但他們六十余年的人生被腰部相連著的一段不到十厘米的組織帶永遠綁定在了一起。他們的連體曾帶來無盡的束縛,直到他們離開暹羅,走上馬戲團的舞臺。十年間,兩兄弟以近乎合二為一的默契巡演歐美,獲得巨大成功。

      此后,人們曾用他們的故鄉之名,將這種連體現象稱作 Siamese Twins(暹羅雙胞胎)。后來,這一命名跨越了生物學的邊界。1993 年,Yann LeCun 將其引入神經網絡,創造了共享權重的 Siamese Network(孿生網絡),用于衡量輸入的相似性。

      時光流轉,在二十一世紀的今天,人工智能領域也有一對 “雙胞胎”——Pre-Norm(前置歸一化)和 Post-Norm(后置歸一化)。他們為解決大模型訓練穩定性而生,迅速成為 Transformer 架構中用于穩定信號流的關鍵范式。

      然而,歸一化帶來的訓練穩定性并非沒有代價,兩種歸一化范式之間似乎面臨著難以調和的權衡取舍。

      盡管近年來 Pre-Norm 被 GPT-3、LLaMA、DeepSeek、Qwen 等知名開源基座所采用,但多項研究共同指向了一個嚴峻事實:Pre-Norm 架構存在嚴重的 “深度失效” 問題 —— 大量深層參數雖在參與計算,卻無法拓展模型的表征能力,致使模型的 “有效深度” 嚴重受限。

      與之相對的,盡管從表征能力角度 Post-Norm 擁有更高潛力,但其訓練不穩定性在現代 Transformer 的預訓練范式下是毀滅性的。于是,Pre-Norm 與 Post-Norm 這一對為解決同一難題而誕生的雙胞胎,在各自追求 “穩定” 與 “深度” 的道路上分道揚鑣。

      難道穩定與深度,注定是一場無法調和的零和博弈嗎?

      近日,清華大學黃高 Leap Lab 團隊聯合千問 C 端團隊給出了一份全新的答案 —— SiameseNorm。



      • 論文標題:SiameseNorm: Breaking the Barrier to Reconciling Pre/Post-Norm
      • 論文鏈接:https://arxiv.org/abs/2602.08064

      這一創新的孿生雙流架構,巧妙地解耦了優化動力學:它并未在 Pre-Norm 與 Post-Norm 之間做二選一的取舍,而是構建了兩條參數共享的平行通路。

      在這一架構下,一條流通過 Pre-Norm 機制保證訓練的穩定性,另一條流則利用 Post-Norm 特性極大地釋放模型的表征潛力。這種設計讓每個殘差塊都能接收到來自兩種范式的組合梯度,在幾乎不增加計算開銷的前提下,實現了高學習率下的穩定訓練。這一精巧的雙流協作,恰如默契的暹羅雙胞胎,將兩種范式的對立轉化為深度融合的協同優勢。



      可以看到,SiameseNorm 可以被看做 Pre-Norm 和 Post-Norm 的耦合


      1. 困境:單主干架構的先天缺陷與范式對立

      前置還是后置?這仿佛是 Transformer 世界的 “魚與熊掌”。研究者不得不在 “訓練穩定但可能平庸” 的 Pre-Norm 與 “潛力巨大卻難以駕馭” 的 Post-Norm 之間做出艱難抉擇。更令人困擾的是,任何試圖在單主干(Single-Stream)架構 —— 即在共享同一條信息主干線的經典設計中調和二者的努力,都遭遇了數學上的根本性障礙。

      痛點 1:Pre-Norm 的 “稀釋” 與 Post-Norm 的 “畸變”

      Transformer 的設計核心在于殘差連接。然而,現有的兩種主流范式都存在致命的結構性缺陷:

      • Pre-Norm (稀釋問題):為了保證梯度暢通,Pre-Norm 保留了一條干凈的恒等路徑(Identity Path)。但這導致主干流的信號幅度隨深度巨幅增長 。到了深層,層歸一化(LN)后的輸入相對于巨大的主干流來說微乎其微,導致深層網絡的貢獻被 “稀釋”,模型實際上退化成了 “淺層” 網絡。最直觀的實驗證據來自于層剪枝(Layer Pruning)實驗:將 Pre-Norm 模型 30% 的層直接移除,在零微調的情況下,其評估指標竟幾乎沒有損失。



      • Post-Norm (畸變問題):Post-Norm 強制在殘差相加后進行歸一化,保證了表示的效率,理論上限更高。但這也意味著它在每一步都在強行 “壓縮” 信號,導致梯度的傳導被破壞,容易引發梯度消失或爆炸。

      痛點 2:兩大范式的不可兼容性

      目前的混合方案(Hybrid)試圖在兩者間尋找平衡,但論文深刻地揭示了,這兩種結構在單主干設計中本質上是互斥的:

      • 梯度的 “無損傳輸” vs. 信號的 “尺度束縛”: Pre-Norm 的穩定性依賴于保留嚴格的恒等路徑(Identity Path),這意味著必須允許信號幅度在主干中自然增長,以確保梯度能夠無損傳播。相反,Post-Norm 的高效性依賴于嚴格規范(Regulation),即在主干中通過歸一化限制信號幅度,以維持特征的表達效率 。
      • 單主干的理論極限:論文指出,在共享同一條主干路徑的前提下,在數學上不可能同時做到兩件事:既保留一條完全干凈、不受阻礙的梯度通道(Pre-Norm 的要求),又同時對主干信號強制施加嚴格的幅度約束(Post-Norm 的要求)。

      因此,任何試圖在單主干結構內強行融合兩者的嘗試(如交替使用或混合歸一化),最終都只能是一種 “妥協”:它們不僅無法兼得二者之長,反而繼承了 Post-Norm 的不穩定性,導致在高學習率下訓練崩潰。要打破這個僵局,必須從結構上進行徹底的解耦(Decoupling)。

      2. 破局:SiameseNorm 的雙流解耦之道



      兩條流擁有相同的輸入,而通過不同的 LayerNorm 位置,兩條流隨后分化。

      SiameseNorm 的核心洞察在于:我們無法在單一信號流中同時滿足 “梯度傳導” 和 “表示規范” 這兩個互斥的需求。

      因此,SiameseNorm 引入了 “孿生雙流”(Siamese)機制 :

      1. Pre-Norm 流(Y 流):負責 “穩”。它保留未歸一化的狀態,確保擁有一條干凈的梯度高速公路。

      2. Post-Norm 流(X 流):負責 “強”。它時刻保持歸一化,確保特征表示不會發生坍塌或發散。

      從圖中也可以看出,把下一半遮住,它退化成 post-norm;把上一半遮住,它退化成 pre-norm。而在訓練過程中,LayerNorm 的可學習權重可以調整兩條流的大小關系。通過將支流上的 LayerNorm 調整為 0,可以退化成現有的 Pre-Norm、Post-Norm、Mix-LN 范式。

      這一架構的核心在于高效的 “參數共享” 機制:雙流路徑并非獨立存在,而是共享殘差塊(Attention/MLP)的權重。這意味著 SiameseNorm 幾乎沒有帶來參數量與計算的增長。 為降低這種耦合結構的訓練難度,架構中進一步引入了 Normalized Input(歸一化輸入) 與 Depth-wise Scaling(深度縮放),有效解決了參數共享的雙流架構帶來的優化對齊挑戰。

      3. 硬核實測:拯救 Post-Norm,數學任務暴漲 40%

      在 1.3B 參數模型、100B/350B tokens、總計算成本超過 50,000 A100 GPU 小時的預訓練實驗中,SiameseNorm 展現了驚人的統治力:

      直面公平對比的挑戰:研究者首先在不同的學習率下對比了現有各種 Pre-Norm 和 Post-Norm/HybridNorm 變體的表現,發現兩類范式的最優學習率存在顯著差異,這揭示了一個長期被忽視的問題:超參(尤其學習率)的選擇足以改變架構對比的結論。

      換言之,過往許多研究因未能適配 Pre-Norm 的最優配置,實際上人為地壓低了基線的性能天花板,從而制造了 “性能顯著提升” 的假象。因此,一個公平的比較應該對不同方法分別做超參搜索,而這在大模型預訓練中成本極高。在本篇論文中,研究者直接沿用了主流 Pre-Norm 的訓練超參。這一策略旨在證明,SiameseNorm 無需依賴特定的參數微調,即可展現出超越基線的魯棒性與性能。

      無懼高學習率:實驗表明,當學習率激進地提升至2e-3時,傳統的 Post-Norm 及 HybridNorm 架構均出現了不可逆的訓練發散(Divergence)。相比之下,SiameseNorm 展現了卓越的優化穩定性,不僅成功收斂,其訓練 Loss 更是顯著優于 Pre-Norm 基線,實現了高達 0.41 的 PPL 收益。

      進一步的消融實驗揭示了其內在的協同增益機制:在同等實驗設置下,通過 Siamese 拓撲將 “易發散” 的 HybridNorm 流與 “基線級” 的 Pre-Norm 流(PPL 10.84)進行無任何輔助機制的直接耦合,模型取得了 10.68 的更優 PPL。這一結果有力地證明,Siamese 設計并非簡單的堆砌,而是成功實現了兩大范式的互補,從而突破了單一范式的性能天花板 。

      通用基準的全面提升與推理能力的質變:SiameseNorm 不僅在通用語言理解任務上確立了領先地位,更在邏輯推理中實現了突破。在 HellaSwag、OpenBookQA、PIQA 等涵蓋常識與知識問答的廣泛基準測試中,該模型均取得了最佳成績 。

      尤為引人注目的是,在最依賴模型有效深度的算術任務(Arithmetic)上,Pre-Norm 的準確率僅為 28.1%,而 SiameseNorm 躍升至 39.6%,相對提升高達 40.9%。這一結果有力地證明,雙流架構在保持通用能力全面領先的同時,成功喚醒了 Transformer 深層網絡的潛能,顯著修復了模型的鏈式推理能力。



      實驗結果一覽,* 表示訓練 loss 出現顯著尖峰

      4. 機制探究:各流的貢獻分析

      研究人員首先通過提取兩條流中 LayerNorm 的可學習縮放參數,計算了它們對模塊輸入的相對貢獻比例。實驗結果顯示,在絕大多數殘差塊中,兩條流均保持了顯著的權重占比。這表明網絡并未出現單側退化現象,而是有效地利用了來自兩端的隱藏表征進行聯合特征提取。



      通過 Logit Lens 技術分析,研究人員發現了一個有趣的現象:在 SiameseNorm 的最終輸出中,Post-Norm 流(X 流)占據了主導地位,其對最終預測的貢獻度顯著高于 Pre-Norm 流。

      上述現象支持了一種直觀的解釋:Pre-Norm 流主要充當了 “訓練腳手架” 的角色,負責在訓練初期保障穩定性;而一旦模型步入正軌,具有更強特征表達能力的 Post-Norm 流的潛力便被釋放出來,在形成最終決策時發揮主導作用。

      結語

      長期以來,為了 “跑得通”,我們不得不接受 Pre-Norm 對有效深度的犧牲;而 Post-Norm 雖然更具表達潛力,卻又常因不穩定而難以進入大規模預訓練的主流配置。

      SiameseNorm 給出了一個優雅的答案:不再做選擇題。它以近乎不增加成本的方式,把 Pre-Norm 的優化魯棒性與 Post-Norm 的表征潛力統一在同一個框架內。對于追求更高學習率、更深網絡、更強推理能力的大模型研發者而言,SiameseNorm 指明了一條清晰的路徑:讓 Transformer 走出 “淺層困境”,回歸原始意義上的 “深度學習”。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      越來越猖狂的早餐店“鋁包子”,我們應提高警惕,該如何辨別呢?

      越來越猖狂的早餐店“鋁包子”,我們應提高警惕,該如何辨別呢?

      心中的麥田
      2026-05-04 18:47:55
      俄副部長叛逃美國,俄軍每天最低傷亡千人,仍在組織新攻勢!

      俄副部長叛逃美國,俄軍每天最低傷亡千人,仍在組織新攻勢!

      知兵
      2026-05-04 16:06:33
      妻子和情夫私通35年,丈夫不吵不鬧不離婚,直到丈夫退休他作出反擊

      妻子和情夫私通35年,丈夫不吵不鬧不離婚,直到丈夫退休他作出反擊

      麥子情感故事
      2026-05-04 23:24:12
      奧尼爾開噴!37歲場均20+5+6!這年紀這表現還不夠?

      奧尼爾開噴!37歲場均20+5+6!這年紀這表現還不夠?

      籃球大圖
      2026-05-05 11:26:40
      以穆斯林占99%的土耳其,性交易為何合法140年?

      以穆斯林占99%的土耳其,性交易為何合法140年?

      石辰搞笑日常
      2026-05-04 08:45:17
      曝曼聯6250萬先生賽季提前結束,休養備戰世界杯!仨隊友競爭首發

      曝曼聯6250萬先生賽季提前結束,休養備戰世界杯!仨隊友競爭首發

      羅米的曼聯博客
      2026-05-05 10:00:22
      中美放下電話,不到24小時,聯合國傳來重要消息,中方身份變了

      中美放下電話,不到24小時,聯合國傳來重要消息,中方身份變了

      健身狂人
      2026-05-04 20:03:17
      斯威士蘭國王有15個老婆,為了避免女人間的爭風吃醋,買19輛豪車

      斯威士蘭國王有15個老婆,為了避免女人間的爭風吃醋,買19輛豪車

      魔都姐姐雜談
      2026-05-04 16:14:24
      7年前,那個婚前拋棄女友,賣房賣車救妹妹的山西小伙,如今怎樣

      7年前,那個婚前拋棄女友,賣房賣車救妹妹的山西小伙,如今怎樣

      李橑在北漂
      2026-05-04 09:33:44
      公安部提醒:換身份證后別急著走!這3個關鍵步驟多數人忽略

      公安部提醒:換身份證后別急著走!這3個關鍵步驟多數人忽略

      老特有話說
      2026-05-04 16:04:22
      事業沒了,婚也離了!封殺5年后趙薇罕見露面,原來她早留好退路

      事業沒了,婚也離了!封殺5年后趙薇罕見露面,原來她早留好退路

      仙味少女心
      2026-05-05 08:41:44
      伊朗媒體:美軍襲擊民用船只致5人死亡

      伊朗媒體:美軍襲擊民用船只致5人死亡

      界面新聞
      2026-05-05 09:18:08
      人到中年后,為什么很難快樂起來?網友:都是陳塘關村民罷了!

      人到中年后,為什么很難快樂起來?網友:都是陳塘關村民罷了!

      夜深愛雜談
      2026-05-05 10:24:06
      普京簽署法令將長城汽車工廠投資合同延長至2034年

      普京簽署法令將長城汽車工廠投資合同延長至2034年

      俄羅斯衛星通訊社
      2026-05-04 15:09:10
      戴手套!“72小時可奪命”,又有人中招了

      戴手套!“72小時可奪命”,又有人中招了

      番禺臺
      2026-05-04 11:37:55
      權志龍穿涉種族歧視T恤登臺!公司火速道歉

      權志龍穿涉種族歧視T恤登臺!公司火速道歉

      喜歡歷史的阿繁
      2026-05-04 20:04:49
      他若不死必是十大元帥之首?毛主席:他比我厲害十倍

      他若不死必是十大元帥之首?毛主席:他比我厲害十倍

      小豫講故事
      2026-05-04 06:00:15
      官方:東契奇因左腿筋傷勢缺席與雷霆西部半決賽G1

      官方:東契奇因左腿筋傷勢缺席與雷霆西部半決賽G1

      懂球帝
      2026-05-05 12:16:03
      瀏陽煙花廠爆炸已造成21人死亡

      瀏陽煙花廠爆炸已造成21人死亡

      上峰視點
      2026-05-05 09:16:31
      馬克龍時代將畫上句號,梅朗雄宣布競選法國總統,對華態度已曝光

      馬克龍時代將畫上句號,梅朗雄宣布競選法國總統,對華態度已曝光

      達文西看世界
      2026-05-05 09:47:35
      2026-05-05 14:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12908文章數 142642關注度
      往期回顧 全部

      科技要聞

      OpenAI/Anthropic同日被曝拉攏華爾街建合資公司

      頭條要聞

      吳宜澤18-17奪冠:1家3口"兵分兩路"10年 已押上一切

      頭條要聞

      吳宜澤18-17奪冠:1家3口"兵分兩路"10年 已押上一切

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      英皇25周年演唱會 張敬軒被救護車拉走

      財經要聞

      五一假期,中國年輕人的“首爾病”犯了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      房產
      時尚
      數碼
      家居
      游戲

      房產要聞

      五一樓市徹底明牌!塔尖人群都在重倉凱旋新世界

      參觀了設計師花7年打磨的家,太開眼了!

      數碼要聞

      蘋果正考慮與英特爾和三星合作 為其生產主要設備芯片

      家居要聞

      靈動實用 生活藝術場

      索尼大招藏不住了!PS6自研幀生成技術曝光

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美极品色午夜在线视频| 亚洲SV日韩无码久久| 日韩一区二区a片免费观看| 日韩欧洲在线高清一区| 亚洲性线免费观看视频成熟 | 东京热人妻丝袜无码AV一二三区观| av日韩一区二区三区| 亚洲欧洲另类| 成人一区二区不卡国产| 日韩乱码人妻无码中文字幕视频 | 亚洲永久一区二区三区在线| 国产丝袜打飞机免费在线| 欧美专区一区三区四区在线免费黄| 激情影院内射美女| 国产精品天天看天天狠| 中文字幕乱码中文乱码毛片| 污网站免费看| 亚洲AV无码国产精品夜色午夜| 美日韩av一区二区三区| 3p无码| 4438亚洲最大色五月激情| 欧美在线视频不卡第一页| 国产精品福利自产拍久久| 无套后入极品美女少妇| 免费观看欧美一区二区三区 | 狠狠色丁香婷婷综合久久小说| 天堂mv在线mv免费mv香蕉| 国产在线乱子伦一区二区| 日韩精品18禁一区二区| 国产成人久久久777777麻豆| 日本免费一区二区三区在线播放 | 亚洲精品中文字幕毛片| 国产综合一区二区三区麻豆| 91九色首页| 亚洲成av人片大线观看| 98国产精品永久在线观看| 成年女人永久免费观看视频| 国产成人拍国产亚洲精品| 亚洲精品国产精品国自产| 国产黑丝视频在线观看| 免费一级特黄特色大片在线观看|