<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      為什么BF16的FlashAttention會把訓練「炸掉」?清華給出機制解釋

      0
      分享至



      一句話總結:社區里困擾了多年的一個 “玄學” 現象終于被拆解清楚了:在 BF16 等低精度訓練里,FlashAttention 不是隨機出 bug,而是會在特定條件下觸發有方向的數值偏置,借助注意力中涌現的相似低秩更新方向被持續放大,最終把權重譜范數和激活推到失控,導致 loss 突然爆炸。論文還給出一個幾乎不改模型、只在 safe softmax 里做的極小修改,實測能顯著穩定訓練。



      因果鏈總覽(論文 Figure 1)



      • 標題:Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention
      • 作者:邱海權,姚權銘
      • 機構:清華大學 電子工程系
      • 投稿:ICLR 2026 Oral
      • 關鍵詞:低精度訓練,BF16,FlashAttention,數值穩定性,舍入誤差(rounding error),低秩表示(low-rank)
      • 論文鏈接:https://arxiv.org/abs/2510.04212
      • 代碼鏈接:https://github.com/ucker/why-low-precision-training-fails

      背景:低精度訓練越來越 “剛需”,但注意力比你想的更敏感

      大模型訓練的現實是:顯存和吞吐決定一切。工業界普遍在混合精度里使用 BF16/FP16,甚至把 FFN 推到 FP8,以換取更高的訓練效率。但工程實踐同樣殘酷:越接近 “極限精度”,訓練越容易出現難以解釋的不穩定。

      Flash Attention 是長上下文訓練的關鍵加速組件,幾乎成了標配。問題在于,社區長期存在一個可復現卻難以解釋的失敗案例:

      • 用 FlashAttention + BF16 訓練 GPT-2,一開始正常收斂,但在幾千 step 之后突然 loss 爆炸。
      • 你可以通過回退到標準注意力、或把關鍵計算提高到 FP32 來 “救火”,但代價是吞吐和顯存優勢沒了。

      這類問題被報告了多年(相關 issue 在多個開源項目里反復出現),卻一直缺少一條能 “從數值誤差一路解釋到 loss 爆炸” 的機制鏈。



      作者的做法很工程,且足夠 “可復現”:





      機制解釋 1:相似低秩結構,讓誤差變成 “持續推力” 而不是噪聲







      結果就是:權重更新被 “帶偏”,譜范數和激活異常增長,最終把訓練推到 loss 爆炸。





      低秩結構相似性與偏置累積(論文 Figure 4/5)

      機制解釋 2:偏置從哪來?safe softmax + BF16 舍入誤差里藏著一個 “離散觸發器”



      作者把問題追到了 FlashAttention 前向里的未歸一化輸出:



















      • 檢測一行 S 中最大值是否出現多次
      • 一旦出現 “重復最大值”,就動態調整safe softmax 的行移位常數 m,讓最大位置的指數也變成嚴格小于 1

      論文給出的實現(概念上)如下:





      實驗結果:穩定訓練不再 “突然炸”

      論文在 BF16 設置下驗證了上述分析與修復:

      • GPT-2S:使用修改后的 FlashAttention,在 AdamW 與 Muon 兩種優化器下,都能穩定訓練到 600K steps
      • GPT-2M:同樣能在 AdamW 下穩定訓練(論文展示到 100K steps)
      • 論文還提到該現象與結論在多種硬件上保持一致(包括 A100、RTX 4090、Ascend 910B)



      驗證集 loss 曲線對比(論文 Figure 7)

      更重要的啟示:別把低精度誤差當成 “零均值噪聲”

      這篇論文的價值不只在 “修了一個 bug”,更在于給出了一個可遷移的診斷范式:

      • 數值誤差未必是隨機噪聲。在特定分布與離散事件(如重復最大值、概率精確為 1)下,舍入誤差可能形成系統性偏置。
      • 模型結構會放大偏置。注意力里涌現的相似低秩更新方向,讓偏置誤差更容易 “同向疊加”。
      • 經驗修復為什么有效也能被解釋:論文討論了 attention sinks 與多最大值的關系,并給出了一個數值層面的連接;同時也指出一些穩定化技巧(如 QK normalization、Gated Attention)可能通過 “打散結構相似性” 來阻止誤差同向累積。

      作者介紹

      邱海權是清華大學在讀博士研究生,研究方向涵蓋機器學習理論、表示學習與大模型機制分析。他的研究圍繞模型表達能力、結構歸納偏置以及參數空間幾何與優化動力學之間的內在聯系展開,關注模型在不同結構約束與訓練條件下的泛化行為與可組合性問題。整體上,他強調以可分析的理論框架刻畫模型的能力邊界與機制來源,從結構與原理層面理解深度模型為何有效、何時失效。

      姚權銘,清華大學電子工程系副教授。長期致力于數據高效學習與智能體系統研究,在少樣本學習、圖學習、知識圖譜與生物醫藥智能等方向取得系統性成果。發表 Nature 子刊、TPAMI、JMLR、ICML、NeurIPS、ICLR 等論文 130 余篇,被引 1.4 萬余次。代表性工作包括抗噪學習算法 Co-teaching、小樣本學習綜述、自動化圖學習方法及新藥物相互作用預測模型。現任 TPAMI、TMLR 編委及 Neural Networks 資深編委,多次擔任 ICML、NeurIPS、ICLR 領域主席,入選 IEEE Computing Top 30、IET Fellow 等。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      世乒賽連爆大冷世界第2第5第9出局了,四強出爐:中日法德羅+省隊

      世乒賽連爆大冷世界第2第5第9出局了,四強出爐:中日法德羅+省隊

      求球不落諦
      2026-05-09 06:04:51
      26-22票通過!親華總理遭罷免,新候選人態度不一般

      26-22票通過!親華總理遭罷免,新候選人態度不一般

      悲傷逆流成河水
      2026-05-09 12:52:11
      僅退款榴蓮后續,商家向誤傷女孩道歉,店鋪銷量爆增,漲粉近5萬

      僅退款榴蓮后續,商家向誤傷女孩道歉,店鋪銷量爆增,漲粉近5萬

      夜深愛雜談
      2026-05-09 23:33:25
      卡西發文稱愿意請回阿隆索,皮克評論:那你覺得那場架誰贏了

      卡西發文稱愿意請回阿隆索,皮克評論:那你覺得那場架誰贏了

      懂球帝
      2026-05-09 06:48:09
      廣東絕殺北京收獲4大功臣!張皓嘉并非第1:他才是最大功臣

      廣東絕殺北京收獲4大功臣!張皓嘉并非第1:他才是最大功臣

      籃球快餐車
      2026-05-10 01:53:44
      沒耐心了!美國國務卿稱:如果俄烏談判再無進展,美國不想再“浪費時間”……

      沒耐心了!美國國務卿稱:如果俄烏談判再無進展,美國不想再“浪費時間”……

      王爺說圖表
      2026-05-09 18:26:59
      深度長文:為什么生物不朝著永生演化,反而執著于繁衍?

      深度長文:為什么生物不朝著永生演化,反而執著于繁衍?

      宇宙時空
      2026-05-07 17:15:49
      來了來了!馬刺邀請函!又一個中國球員能打NBA

      來了來了!馬刺邀請函!又一個中國球員能打NBA

      籃球實戰寶典
      2026-05-09 18:21:12
      鞏俐和替身合影:倆人長得幾乎一模一樣,你能分清她倆誰是誰嗎?

      鞏俐和替身合影:倆人長得幾乎一模一樣,你能分清她倆誰是誰嗎?

      鄉野小珥
      2026-05-09 17:22:51
      徐帆回應離婚僅9個月,馮小剛王志文同聚打球,與養女關系引爭議

      徐帆回應離婚僅9個月,馮小剛王志文同聚打球,與養女關系引爭議

      蹲坑看世界
      2026-05-09 19:22:54
      廣西最黑暗的歷史:南寧被越南圍城42天,5.8萬人慘遭越軍殺害

      廣西最黑暗的歷史:南寧被越南圍城42天,5.8萬人慘遭越軍殺害

      網絡易不易
      2026-05-09 12:09:41
      整治了20年,網游工作室為何屢禁不止?

      整治了20年,網游工作室為何屢禁不止?

      17173游戲網
      2026-05-09 16:06:29
      92年上海一女子花40萬買入浦東一塊地皮,18年后,市值把她驚呆了

      92年上海一女子花40萬買入浦東一塊地皮,18年后,市值把她驚呆了

      紅豆講堂
      2025-05-12 10:27:03
      再進鬼門關!王暖暖凌晨被送醫院搶救,自稱瀕臨死亡,原因曝光

      再進鬼門關!王暖暖凌晨被送醫院搶救,自稱瀕臨死亡,原因曝光

      金哥說新能源車
      2026-05-10 03:43:02
      事業沒了,婚也離了,封殺5年趙薇再次露面,原來她還有一條退路

      事業沒了,婚也離了,封殺5年趙薇再次露面,原來她還有一條退路

      臨云史策
      2026-05-09 16:25:56
      壓縮即是全部 —— 菲爾茲獎得主 Michael Freedman 給數學和 AI 的一封信

      壓縮即是全部 —— 菲爾茲獎得主 Michael Freedman 給數學和 AI 的一封信

      新浪財經
      2026-05-09 00:51:54
      張蘭飛灣灣為箖箖慶生,一句話透露孫子現狀,小S卻發文談大S和狗

      張蘭飛灣灣為箖箖慶生,一句話透露孫子現狀,小S卻發文談大S和狗

      凡知
      2026-05-09 16:44:42
      新花樣!烏搶跑48小時率先停火,接下來大俄如何接招都討不到便宜

      新花樣!烏搶跑48小時率先停火,接下來大俄如何接招都討不到便宜

      戰刃
      2026-05-06 10:39:54
      唯一幸存者!被雷劈后身上遍布雷擊紋,站友:手機救了他

      唯一幸存者!被雷劈后身上遍布雷擊紋,站友:手機救了他

      新浪財經
      2026-05-05 10:43:16
      一個奇怪現象:窮人的富養是帶孩子四處旅游,增長孩子的欲望;有錢人的富養則是教孩子看清世界的真相和規則,獲得真正的能力

      一個奇怪現象:窮人的富養是帶孩子四處旅游,增長孩子的欲望;有錢人的富養則是教孩子看清世界的真相和規則,獲得真正的能力

      譚老師地理大課堂
      2026-05-02 00:06:29
      2026-05-10 05:08:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12957文章數 142646關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      多地號召,公職人員帶頭繳納物業費

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      親子
      本地
      家居
      公開課
      軍事航空

      親子要聞

      媽媽說女兒休學一年,我教她3個笨辦法

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      菁英人居 全能豪宅

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊突然再次交火 伊朗外長:戰爭準備程度是1000%

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 综合久久无码| 亚洲AV成人片在线观看| 夜色福利站WWW国产在线视频| 亚洲中文字幕一区二区| 国产福利在线观看免费第一福利| 国产www在线观看| 国产蜜芽尤物在线一区| 边摸边吃奶边做视频男人和女人| 国产jlzzjlzz视频免费看| 久久中文字幕日韩无码视频| 免费AV网站| 久久久久国产一区二区三区| 欧美日韩综合在线| 91在线精品麻豆欧美在线| 精品人妻无码| 18禁午夜宅男成年网站| 一区二区三区久久精品国产| 狠狠色AV一区二区| 乱人伦中文无码视频在线观看| 国产一区二区三区视频免费在线 | 国产人妻人伦精品婷婷| 香蕉视频一级在线观看| 91狠狠狠| 草草线禁成18年在线视频| 国产精品hd免费观看| 国产成人小视频| 无套内谢少妇高清毛片| 欧美成人猛片aaaaaaa| 国产精品无码一二区不卡免费| 无码片久久久天堂中文字幕| 日韩黄色av一区二区三区 | 露脸国产精品自产拍在线观看| 午夜精品久久久久久久第一页 | 欧美激情肉欲高潮视频| 桑植县| 免费AV人体片在线观看| 精品人妻二区中文字幕| 成人国产精品日本在线观看| 免费观看激色视频网站| 成人深爱网| 国产欧美日韩综合精品二区|