<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      還在手寫CUDA內(nèi)核?CODA來了!LLM和新手也能讓Transformer跑出光速

      0
      分享至



      機(jī)器之心編輯部

      5 月 22 日,Tri Dao 在社交媒體上轉(zhuǎn)發(fā)了 Han Guo 的一條推文。他還寫道:「經(jīng)過一些數(shù)學(xué)重寫,結(jié)果發(fā)現(xiàn) Transformer 的所有內(nèi)容都是一系列 GEMM + epilogue(矩陣乘法加尾聲)。給定一些優(yōu)化的原語(yǔ),LLM(以及新手)就可以為所有 Transformer 操作編寫光速內(nèi)核!」



      Tri Dao 是 FlashAttention 系列的核心作者之一,而這條推文則指向了他們當(dāng)天發(fā)布的一篇論文:CODA



      • 論文標(biāo)題:CODA: Rewriting Transformer Blocks as GEMM-Epilogue Programs
      • 論文地址:https://arxiv.org/abs/2605.19269
      • 代碼地址:https://github.com/HanGuo97/coda-kernels

      這個(gè)名字,讀起來像「終曲」,念起來像「CUDA」。來自 MIT、普林斯頓、Together AI 和 Meta 的研究者,試圖用一套新的編程抽象,把 Transformer 訓(xùn)練里那些鮮少被人關(guān)注、卻持續(xù)消耗時(shí)間的「散碎計(jì)算」,系統(tǒng)性地消化掉。

      背景:訓(xùn)練大模型的「偷懶稅」

      要理解 CODA 在解決什么問題,先要明白大模型訓(xùn)練的時(shí)間都去哪了。

      在一塊英偉達(dá) H100 上訓(xùn)練一個(gè) LLaMA-3 風(fēng)格的 1B 參數(shù)模型,大部分人會(huì)直覺地認(rèn)為:時(shí)間都花在矩陣乘法和注意力計(jì)算上,畢竟那才是「真正的計(jì)算」。這個(gè)直覺大體上沒錯(cuò):矩陣乘法(GEMM)和注意力確實(shí)占據(jù)了主要算力



      但如果你打開性能分析器仔細(xì)看,會(huì)發(fā)現(xiàn)還有一批「小算子」在安靜地消耗著時(shí)間:歸一化(RMSNorm)、激活函數(shù)(SwiGLU、RoPE)、殘差加法、跨層規(guī)約……它們單個(gè)計(jì)算量不大,卻頻繁地把大型中間張量從顯存里搬進(jìn)搬出。



      這就是所謂的「內(nèi)存帶寬瓶頸」:好比一個(gè)廚藝絕頂?shù)膹N師,但每做一道菜都要把食材從遠(yuǎn)處的倉(cāng)庫(kù)搬來、用完再送回去,而不是放在手邊的臺(tái)面上。廚師的手速再快,等待搬運(yùn)的時(shí)間也是真實(shí)的浪費(fèi)。

      更糟糕的是,隨著英偉達(dá)的 FP8、FP4 等低精度格式讓矩陣計(jì)算越來越快,這些「搬運(yùn)」操作的相對(duì)成本反而在上升:矩陣乘法加速了,但張量搬進(jìn)搬出的成本并沒有同比縮短。

      論文中有一組數(shù)據(jù)很直觀:在 H100 上用 TorchTitan 訓(xùn)練 1B 參數(shù)模型時(shí),非矩陣乘法操作占據(jù)了相當(dāng)一部分的端到端運(yùn)行時(shí)間,且隨著 FP8 精度的引入,這一比例還會(huì)進(jìn)一步凸顯。

      現(xiàn)有的編程框架對(duì)此幾乎無能為力。PyTorch 把 Transformer 的計(jì)算表達(dá)成一串算子序列,算子之間有清晰的邊界。這種邊界對(duì)于自動(dòng)微分(autograd)非常友好,卻恰好阻止了跨算子的融合優(yōu)化:每一個(gè)算子邊界,往往就是一次不必要的顯存寫回。

      CODA:「尾聲」里藏著寶藏

      CODA 的出發(fā)點(diǎn)是一個(gè)樸素的觀察。

      在 GPU 上,一個(gè)高性能的矩陣乘法(GEMM)內(nèi)核在結(jié)構(gòu)上分為兩個(gè)部分:主循環(huán)(mainloop)負(fù)責(zé)核心的矩陣分塊乘加計(jì)算,尾聲(epilogue)負(fù)責(zé)在結(jié)果寫回顯存之前做一些收尾處理,比如加偏置、類型轉(zhuǎn)換、簡(jiǎn)單縮放。



      尾聲存在的意義,在于此時(shí)矩陣乘法的輸出還「活在」片上寄存器里,還沒有落地到全局顯存。這是一個(gè)短暫的黃金窗口:如果能在這個(gè)時(shí)刻多做一些計(jì)算,就可以完全省掉一次顯存寫入再讀出的往返。

      CODA 的核心洞察是:Transformer 里那些內(nèi)存密集型操作,其實(shí)很多可以被代數(shù)地重新參數(shù)化,塞進(jìn)這個(gè)「尾聲」窗口里執(zhí)行。

      這需要一點(diǎn)數(shù)學(xué)技巧。以最常見的 GEMM-RMSNorm-GEMM 模式為例:一個(gè)矩陣乘法的結(jié)果,經(jīng)過殘差加法、RMS 歸一化,然后再做另一個(gè)矩陣乘法。傳統(tǒng)做法是三個(gè)獨(dú)立算子串行執(zhí)行,中間結(jié)果兩次落地顯存。



      CODA 團(tuán)隊(duì)發(fā)現(xiàn),RMS 歸一化中的行縮放因子 r,因?yàn)槭敲啃泄蚕淼臉?biāo)量,它和后面的矩陣乘法滿足交換律:可以把 r 的應(yīng)用從「第二個(gè) GEMM 之前」推遲到「第二個(gè) GEMM 的尾聲」。推遲之后,第一個(gè) GEMM 的尾聲只需要計(jì)算局部的「分塊均方根」(partial RMS),由一個(gè)極輕量的輔助規(guī)約內(nèi)核合并,而完整的 RMSNorm 計(jì)算消失了。

      類似的重新參數(shù)化,對(duì) SwiGLU、RoPE(旋轉(zhuǎn)位置編碼)、交叉熵?fù)p失等操作同樣適用,甚至對(duì)反向傳播也成立。論文中有一個(gè)定理證明:只要前向尾聲是「分塊局部」的,反向傳播就自動(dòng)繼承相同的結(jié)構(gòu)。具體請(qǐng)?jiān)L問原論文查看。

      五種「積木」和一套「樂高語(yǔ)言」

      CODA 不是一個(gè)具體的融合內(nèi)核,而是一套編程抽象。

      它固定住經(jīng)過專家優(yōu)化的 GEMM 主循環(huán),然后在尾聲位置暴露五類可組合的基本原語(yǔ):

      • 逐元素變換(residual 加法、激活函數(shù)、RoPE)
      • 向量加載與存儲(chǔ)(廣播 RMSNorm 權(quán)重)
      • 矩陣分塊加載與存儲(chǔ)(保存中間激活供反向傳播使用)
      • 分塊規(guī)約(局部均方根、分塊 log-sum-exp)
      • 有狀態(tài)變換(在線歸一化所需的 max 和 sum-exp 統(tǒng)計(jì))

      用這五類積木,一個(gè)標(biāo)準(zhǔn) Transformer 的前向和反向傳播中、除注意力之外的幾乎全部操作都可以被覆蓋。

      更有意思的是這套抽象對(duì)「誰來寫代碼」的寬容度。論文在實(shí)驗(yàn)中評(píng)估了兩種實(shí)現(xiàn)模式:一種是人工程序員撰寫,另一種是用 Claude Code 來生成 —— 給定 CODA 的原語(yǔ)說明、若干示例和實(shí)現(xiàn)日志,由 AI 完成大部分內(nèi)核代碼,人工輕度監(jiān)督。

      兩種模式的性能表現(xiàn)均達(dá)到了較高水平。Tri Dao 在推文中說「LLM 以及新手就可以編寫光速內(nèi)核」,這正是論文實(shí)驗(yàn)結(jié)果在現(xiàn)實(shí)層面的映射。

      實(shí)驗(yàn)結(jié)果

      CODA 的基準(zhǔn)測(cè)試選擇的是較為苛刻的對(duì)手:cuBLAS 加上 torch.compile,以及專為 LLM 優(yōu)化的 Liger Kernel 和 FlashInfer。

      論文對(duì)每個(gè)內(nèi)核評(píng)估了兩種實(shí)現(xiàn):CODA (LLM)由 Claude Code 生成,研究者提供原語(yǔ)說明、若干示例和一份持續(xù)更新的實(shí)現(xiàn)技巧日志,AI 完成主體代碼,人工做輕度監(jiān)督;CODA (Human)由人工程序員獨(dú)立編寫,使用同樣的高層重參數(shù)化思路,但不依賴 CODA 原語(yǔ)集本身。兩組結(jié)果都與 cuBLAS + torch.compile、Liger Kernel、FlashInfer 等優(yōu)化庫(kù)進(jìn)行對(duì)比。

      在單算子層面,以 GEMM-RMSNorm-GEMM 這一典型模式為例,CODA 在對(duì)應(yīng) 1B、7B、70B 三個(gè)模型規(guī)模的隱藏維度下均實(shí)現(xiàn)了對(duì) cuBLAS + PyTorch 基線的超越。SwiGLU、RoPE、交叉熵等尾聲組合也有類似表現(xiàn)。

      LLM 生成的內(nèi)核在大多數(shù)基準(zhǔn)上與人工手寫版本不相上下,個(gè)別配置下甚至略有超越。這在 GPU 內(nèi)核優(yōu)化這個(gè)歷來門檻極高的領(lǐng)域,是一個(gè)頗為罕見的結(jié)論。







      反向傳播的收益尤為突出:GEMM-Residual-PartialRMS-GEMM 的反向內(nèi)核相比基線加速幅度可達(dá) 1.6 至 1.8 倍,SwiGLU 反向也有約 1.4 至 1.6 倍的提升。這個(gè)方向上,LLM 與人工實(shí)現(xiàn)的差距同樣微小。這并不奇怪:反向傳播天然涉及更多中間張量的存取,尾聲融合的收益就更大;而 CODA 的原語(yǔ)設(shè)計(jì)足夠清晰,使得 AI 模型能夠正確地完成組合。



      在完整 Transformer 層的端到端基準(zhǔn)中,CODA 的前向加速在不同規(guī)模下約為 5% 至 20%,在較大模型尺寸(對(duì)應(yīng) 70B 規(guī)模的隱藏維度)下效果更為顯著。

      數(shù)值精度方面,CODA 的重參數(shù)化調(diào)整了 RMSNorm 縮放因子的應(yīng)用時(shí)機(jī),但實(shí)驗(yàn)表明其數(shù)值誤差與 PyTorch 參考實(shí)現(xiàn)相當(dāng),在某些配置下誤差甚至更小 —— 得益于 GEMM 主循環(huán)本身具有更高精度的累加器。

      CODA 能做什么:一張速查單

      在進(jìn)入更大的視角之前,先把 CODA 的能力邊界說清楚。

      • 覆蓋范圍:標(biāo)準(zhǔn) Transformer(如 LLaMA 架構(gòu))的前向和反向傳播中,除注意力和詞嵌入之外的幾乎全部計(jì)算,包括 RMSNorm、殘差加法、SwiGLU 激活、RoPE 旋轉(zhuǎn)位置編碼、交叉熵?fù)p失,以及上述操作的反向梯度計(jì)算。
      • 加速效果:在對(duì)應(yīng) 1B 至 70B 規(guī)模的隱藏維度下,單算子層面相比 cuBLAS + torch.compile 基線有不同程度的提升,其中反向傳播收益最為顯著(部分內(nèi)核可達(dá) 1.6 倍以上);完整 Transformer 層的端到端前向加速約為 5% 至 20%,在較大模型尺寸下效果更突出。
      • 誰能用:CODA 基于 CuTeDSL(NVIDIA CUTLASS 的 Python DSL)實(shí)現(xiàn),支持人工程序員和 AI 模型兩種內(nèi)核編寫方式,且兩種方式均能達(dá)到高性能。
      • 當(dāng)前限制:目前僅支持單 GPU 場(chǎng)景,不涉及分布式訓(xùn)練;重參數(shù)化主要針對(duì)標(biāo)準(zhǔn) Transformer 架構(gòu),其他架構(gòu)的適用性有待驗(yàn)證。

      結(jié)語(yǔ)

      CODA 并非孤立的工作。它是一類思想的具體實(shí)現(xiàn):在 GPU 上,真正的優(yōu)化空間往往不在「算什么」,而在「怎么搬」。

      FlashAttention 讓注意力計(jì)算「住進(jìn)」了片上內(nèi)存,CODA 試圖讓歸一化和激活函數(shù)也「住進(jìn)去」。Triton 降低了寫自定義內(nèi)核的門檻,ThunderKittens、TileLang 等進(jìn)一步在不同層次上探索這一空間。這些工作共同指向同一個(gè)方向:把 PyTorch 算子圖的表達(dá)便利性,與接近手寫 CUDA 的執(zhí)行效率,真正統(tǒng)一在一套可編程的框架里。

      Tri Dao 推文的最后一句話值得再回味:「LLM 以及新手就可以為所有 Transformer 操作編寫光速內(nèi)核?!惯@背后有一個(gè)更深的邏輯:當(dāng)編程抽象設(shè)計(jì)得足夠好,AI 模型本身就可以參與到自身訓(xùn)練基礎(chǔ)設(shè)施的優(yōu)化中。這個(gè)循環(huán),才是 CODA 最耐人尋味的地方。

      從這個(gè)角度看,「CODA」這個(gè)名字或許另有深意。在古典音樂中,Coda 是樂曲末尾收束全篇的段落。在這里,它是 GEMM 內(nèi)核的「尾聲」—— 而寫好這段尾聲,或許正是 Transformer 訓(xùn)練系統(tǒng)效率提升的下一個(gè)重要章節(jié)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      “爸爸不接電話,媽媽不讓回家”,昨天杭州暴雨,17歲女孩情緒崩潰獨(dú)坐白馬湖橋邊,關(guān)鍵時(shí)刻,他們沖了出去……

      “爸爸不接電話,媽媽不讓回家”,昨天杭州暴雨,17歲女孩情緒崩潰獨(dú)坐白馬湖橋邊,關(guān)鍵時(shí)刻,他們沖了出去……

      都市快報(bào)橙柿互動(dòng)
      2026-05-25 18:23:51
      博主“硬剛”稻城亞丁景區(qū)“截?cái)嘟?0公里省道收費(fèi)”,多方回應(yīng)

      博主“硬剛”稻城亞丁景區(qū)“截?cái)嘟?0公里省道收費(fèi)”,多方回應(yīng)

      上游新聞
      2026-05-25 14:46:47
      高超音速導(dǎo)彈只為埋下“昂貴金屬”!空襲后的基輔:熱咖啡和婚紗

      高超音速導(dǎo)彈只為埋下“昂貴金屬”!空襲后的基輔:熱咖啡和婚紗

      鷹眼Defence
      2026-05-25 12:32:58
      未經(jīng)審批,私自賑災(zāi),河南三支救援隊(duì)造成極其惡劣的社會(huì)影響

      未經(jīng)審批,私自賑災(zāi),河南三支救援隊(duì)造成極其惡劣的社會(huì)影響

      上觀新聞
      2026-05-22 16:51:14
      “只要大陸敢打,我就敢送”,他公開宣稱

      “只要大陸敢打,我就敢送”,他公開宣稱

      安安說
      2026-05-24 15:20:17
      邢臺(tái)一別墅小區(qū)被舉報(bào)有大量違建,物業(yè)和房產(chǎn)中介表示“可以違建”,官方回應(yīng)

      邢臺(tái)一別墅小區(qū)被舉報(bào)有大量違建,物業(yè)和房產(chǎn)中介表示“可以違建”,官方回應(yīng)

      大象新聞
      2026-05-25 09:22:07
      奧萊報(bào):梅西遭遇肌肉疲勞,他有三周多的時(shí)間能用于恢復(fù)

      奧萊報(bào):梅西遭遇肌肉疲勞,他有三周多的時(shí)間能用于恢復(fù)

      懂球帝
      2026-05-25 22:24:07
      美伊框架協(xié)議“已達(dá)成95%” 伊朗稱對(duì)通過霍爾木茲海峽船只收“航行服務(wù)費(fèi)”

      美伊框架協(xié)議“已達(dá)成95%” 伊朗稱對(duì)通過霍爾木茲海峽船只收“航行服務(wù)費(fèi)”

      每日經(jīng)濟(jì)新聞
      2026-05-25 19:46:13
      半導(dǎo)體大利好!13家先進(jìn)封裝集體漲停,高盛提前埋伏5家低至40億

      半導(dǎo)體大利好!13家先進(jìn)封裝集體漲停,高盛提前埋伏5家低至40億

      長(zhǎng)風(fēng)價(jià)值掘金
      2026-05-25 20:35:03
      報(bào)復(fù)升級(jí),90枚導(dǎo)彈砸向基輔,普京這一巴掌打醒了全世界

      報(bào)復(fù)升級(jí),90枚導(dǎo)彈砸向基輔,普京這一巴掌打醒了全世界

      混沌錄
      2026-05-25 18:29:40
      洋蔥立大功!醫(yī)生發(fā)現(xiàn):洋蔥或?qū)?種慢性病有好處!可以常吃

      洋蔥立大功!醫(yī)生發(fā)現(xiàn):洋蔥或?qū)?種慢性病有好處!可以常吃

      芹姐說生活
      2026-05-25 14:19:45
      最應(yīng)被銘記的中國(guó)礦難事故:死亡數(shù)全球第一,震驚國(guó)內(nèi)外

      最應(yīng)被銘記的中國(guó)礦難事故:死亡數(shù)全球第一,震驚國(guó)內(nèi)外

      網(wǎng)易新聞出品
      2026-05-25 13:17:51
      亡國(guó)滅種,斷子絕孫?歐洲反華先鋒立陶宛,正在從地圖上消失

      亡國(guó)滅種,斷子絕孫?歐洲反華先鋒立陶宛,正在從地圖上消失

      賤議你讀史
      2026-05-23 12:07:35
      這美女也太頂了!主教練喝水好??!得看!

      這美女也太頂了!主教練喝水好??!得看!

      柚子說球
      2026-05-25 20:11:02
      沒有先進(jìn)光刻機(jī)也能造出高端芯片,華為發(fā)表的“韜(τ)定律”是什么?

      沒有先進(jìn)光刻機(jī)也能造出高端芯片,華為發(fā)表的“韜(τ)定律”是什么?

      每日經(jīng)濟(jì)新聞
      2026-05-25 13:46:09
      博主曝四川稻城亞丁,劃省道為內(nèi)部路,硬剛后自駕進(jìn)入,網(wǎng)友炸鍋

      博主曝四川稻城亞丁,劃省道為內(nèi)部路,硬剛后自駕進(jìn)入,網(wǎng)友炸鍋

      另子維愛讀史
      2026-05-25 19:19:03
      官宣:C羅出任追覓全球代言人

      官宣:C羅出任追覓全球代言人

      快科技
      2026-05-25 19:25:12
      沒想到,馬斯克回美國(guó)才幾天,竟憑一舉動(dòng)令全世界對(duì)中國(guó)刮目相看

      沒想到,馬斯克回美國(guó)才幾天,竟憑一舉動(dòng)令全世界對(duì)中國(guó)刮目相看

      觀察者海風(fēng)
      2026-05-25 03:32:41
      無緣世界杯!皇馬6500萬名將曬圖質(zhì)疑西班牙主帥:我進(jìn)西甲最佳陣

      無緣世界杯!皇馬6500萬名將曬圖質(zhì)疑西班牙主帥:我進(jìn)西甲最佳陣

      我愛英超
      2026-05-25 22:03:22
      韓國(guó)大學(xué)教授課上發(fā)表離譜言論:韓國(guó)女性十人中有八人靠性交易賺零花錢…

      韓國(guó)大學(xué)教授課上發(fā)表離譜言論:韓國(guó)女性十人中有八人靠性交易賺零花錢…

      奮斗在韓國(guó)
      2026-05-25 13:14:27
      2026-05-26 01:48:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13080文章數(shù) 142652關(guān)注度
      往期回顧 全部

      科技要聞

      華為:沒有先進(jìn)光刻機(jī)也能造出高端芯片

      頭條要聞

      伊朗媒體披露最高領(lǐng)袖就醫(yī)情況

      頭條要聞

      伊朗媒體披露最高領(lǐng)袖就醫(yī)情況

      體育要聞

      如果不好好守門,他可能早就繼承家業(yè)了

      娛樂要聞

      李晨鄭愷跑男停宣:12年元老被邊緣化

      財(cái)經(jīng)要聞

      起底煤礦“暗面”:假整改、假數(shù)據(jù)

      汽車要聞

      啟境GT7定檔5月29日預(yù)售 提供三電機(jī)版本

      態(tài)度原創(chuàng)

      親子
      教育
      時(shí)尚
      本地
      軍事航空

      親子要聞

      還有多少“兒童牙膏”在玩概念游戲? | 新京報(bào)快評(píng)

      教育要聞

      罰抄10遍被投訴,一個(gè)電話讓全班沒了作業(yè),孩子就毀這類家長(zhǎng)手里

      Bella的戛納之旅,次次“神級(jí)”表現(xiàn)

      本地新聞

      用云錦的方式,打開江蘇南京

      軍事要聞

      俄軍出動(dòng)“榛樹”導(dǎo)彈襲擊烏克蘭

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲日本国产| 国产在线观看免费观看不卡| 免费人成视频网站在线观看不卡| 亚洲激情一区二区三区在线| 国产农村老熟女国产老熟女| 欧美性爱视频网站| 99国产精品在线观看| 久久久久成人精品免费播放网站| 少妇高潮太爽了在线视频| 免费av深夜在线观看| 中文字幕人妻伦伦| 又粗又硬又黄又爽的免费视频| 日本精品视频| 亚洲欧美日韩综合一区二区| 无码人妻精品一区| 国产av剧情无码精品色午夜| 亚洲成人网在线播放 | 偷偷色噜狠狠狠狠的777米奇| 首页 - 91n| 一色道久久88加勒比一| 大色综合色综合网站| 欧美日韩精品免费一区二区三区| 176精品一区| 久久精品成人亚洲另类欧美| 精品久久人人做爽综合| 亚洲国产超清无码专区| 婷婷色综合成人成人网小说| 国精品午夜福利视频不卡| 亚洲国产第六| 风韵丰满妇啪啪区老老熟女杏吧| 青青国产线免观| 哟哟无码| 蜜臀aⅴ永久无码一区二区| 日韩中文字幕有码av| 影音先锋你懂得| 亚洲色Www永久网站| 在线观看免费av毛片| 亚洲一区精品视频在线| 精品少妇无码一区二区三批| 亚洲天堂社区| 国产精品亚洲一区二区毛片|