<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Kimi“打破Transformer架構”真相

      0
      分享至


      本周,一篇題為《Attention Residuals》的論文,將Kimi推至全球人工智能領域的聚光燈下。論文作者之一,甚至是一名年僅十七歲的高中生。xAI首席執行官埃隆·馬斯克與Google高級人工智能產品經理Shubham Saboo,亦公開發文祝賀。后者更宣稱,Kimi正在觸及Transformer架構中“長達十年無人觸碰的部分”。


      一時間,輿論場喧囂四起。諸如“打破Transformer架構”、“硅谷破防”、“改寫行業規則”等標題,迅速占據頭條。

      本文結論先行:這是一項天才般的構想,一次極其硬核的研究,但其本質并未脫離Transformer架構的基本框架。至于那些聳人聽聞的標簽,大多出自營銷號之手,缺乏事實依據。

      事實上,針對殘差連接的探索并非孤例。從2022年的DeepNorm到2024年的DenseFormer,優化這一深度神經網絡的基石,始終是業界持續發力的方向。Kimi研究團隊并非此技術路線的開辟者,卻在這條既有路徑上,貢獻了一個兼具激進性、優雅性與工程潛能的解決方案。

      01

      深層Transformer的結構性困境

      在規模化法則的驅動下,提升模型性能的路徑愈發依賴于參數與規模的擴張,神經網絡層數的激增成為必然。然而,研究團隊注意到一個關鍵現象:數據在神經網絡層間傳遞時,存在著“PreNorm稀釋問題”。PreNorm作為一種歸一化技術,因其能有效穩定訓練、加速收斂,已成為現代架構的主流選擇。

      為便于直觀理解,不妨將一個大模型比作一條由一百名程序員組成的流水線。每位程序員對應一層神經網絡,共同協作完成一個大型軟件項目。

      在傳統的標準殘差連接模式下,層與層之間的狀態更新遵循如下公式:

      當前層的輸出,等于上一層輸出與該層自身“修改部分”(即變換函數輸出)的直接相加。類比而言,每位程序員接收前一位的代碼,附上自己的修改后,傳遞給下一位。


      這種簡單累加的方式,在實踐中會引發連鎖問題。從數學視角審視,它將導致兩個互為因果的訓練困境:

      其一,早期信息被稀釋掩埋。首層神經網絡提取的原始特征——例如token的初始語義——在經歷數十層累加后,其相對權重被逐層消解,面目模糊。流水線末端的程序員,無從知曉源頭究竟起草了怎樣的底層邏輯。模型越深入,對早期低級特征的精確檢索與利用便越困難。

      其二,數值尺度膨脹與梯度失衡。殘差的持續累加,如同項目代碼庫的無休止擴充。后期加入的程序員若想使自己的改動產生可見影響,不得不添加更大量的代碼。對應到網絡,深層必須輸出數值規模更大的信號,才能在累加中占據一席之地。這一現象在正向傳播中或許尚可容忍,但在反向傳播中則潛藏危機:淺層梯度可能劇烈震蕩,深層梯度卻趨于微小,整個網絡的梯度分布極度不均,訓練極易失穩。

      因此,研究的核心命題便凝練為:如何讓處于網絡最深層的“程序員”,依然能夠清晰辨識并調用首位“程序員”所撰寫的基礎代碼?

      02

      時間維度與深度維度的對偶映射

      Kimi研究團隊的關鍵洞見,在于識別出神經網絡演進史中,時間序列處理與網絡深度構建之間存在的對偶關系。

      Transformer并非神經網絡的初始形態。約在2018年前,循環神經網絡(RNN)主導著序列建模。RNN以時序方式逐詞處理文本,將歷史信息壓縮為單一隱藏狀態向后傳遞。其后果是,后序單元只能接收一個混雜了過往信息的“壓縮包”,早期輸入極易被遺忘——這一過程,與標準殘差連接的信息傳遞機制驚人地相似。

      Transformer則憑借注意力機制,顛覆了這一范式。在自回歸解碼中,每一位置的詞元,都能直接“回望”序列中所有前置詞元,并通過加權聚焦關鍵信息。在時間維度上,注意力機制完美消解了信息壓縮與遺忘的難題。

      一個自然的類比由此浮現:能否在網絡的深度維度上,揚棄殘差連接所隱含的“RNN式思維”,轉而引入注意力機制?

      這正是Kimi論文的核心創新——注意力殘差(Attention Residuals, AttnRes)。傳統殘差累加公式被重塑為一個基于Softmax的注意力加權形式:


      新公式不再將淺層輸出簡單相加,而是為每一層配備一個“偽查詢向量”,使其能夠動態掃描之前所有層的輸出,并為那些包含關鍵信息的層賦予極高的Softmax權重。無關信息層的權重則被壓至近零。

      這套內容感知、輸入依賴的選擇機制,本質上是將Transformer的核心理念橫向遷移至殘差路徑的設計中。殘差連接由此從被動的“信息搬運”,轉變為主動的“按需檢索”,有效規避了深層信息稀釋的痼疾。

      03

      從理論構想到系統級工程

      若僅止步于此,注意力殘差仍可能囿于實驗室的理想圖景。真實的大模型工程實踐,尤其面對千億參數、分布式訓練的嚴苛環境,直接套用該機制將引發顯存與通信的“爆炸”。

      在分布式訓練普遍采用激活重算、流水線并行等技術的前提下,若強行實現跨層全連接,深層網絡將不得不跨物理GPU節點,獲取所有淺層完整的輸出張量。隨著層數L增加,跨階段數據傳輸量與顯存占用將以O(Ld)規模急劇膨脹,對算力集群構成災難性負擔。

      因此,Kimi團隊為解決工程落地而提出的分塊注意力殘差,展現出極高的實用智慧。

      為將理論付諸實踐,Kimi團隊設計了一套精妙的降維方案:

      核心思路是“分塊降維”。

      回到程序員流水線的比喻:要求末位程序員洞悉每一位前序同事的具體貢獻,意味著每位前序程序員都需保留完整的“草稿箱”——這在物理空間上是不可行的。解決方案是,將程序員劃分為N個部門。部門內部沿用標準殘差,并將多層的輸出壓縮成一個單一的“塊級表征”。部門之間則啟用注意力殘差機制,只需關注這N個塊級表征,而無需追溯每個具體層級的輸出。

      這一簡單而大膽的策略,直接將顯存與通信的復雜度從O(Ld)降至O(Nd),為理論落地掃除了最大障礙。

      其次,訓練階段的跨階段緩存設計進一步優化了通信開銷。在主流的交錯式流水線調度模式下,每個物理GPU常需處理多個計算階段。團隊為此設計了本地緩存機制,確保先前接收到的塊級表征駐留于本地顯存,從而避免跨節點重復傳輸。此舉大幅壓縮了流水線并行的通信峰值,并使跨塊通信時間可被計算過程有效掩蓋。

      最后,推理階段的雙階段計算與在線Softmax融合,緩解了內存帶寬瓶頸。推理時反復讀取大量歷史塊級表征,易導致嚴重的內存帶寬壓力。研究團隊采用雙階段策略:第一階段以批處理方式計算跨塊注意力,攤銷內存讀取成本;第二階段順序計算塊內局部注意力。兩階段結果通過在線Softmax技術無縫合并,并與RMSNorm等算子進行內核融合。

      技術細節無需贅述,但結果令人印象深刻:上述復雜的跨層注意機制疊加后,Block AttnRes帶來的額外訓練開銷幾乎可以忽略;在典型自回歸推理場景中,端到端延遲增幅低于2%。Kimi團隊在改寫大模型底層網絡拓撲的同時,實現了如此程度的優化,堪稱工程上的奇跡。

      04

      實證效果與產業意義

      最終,Kimi研究團隊將這套架構部署至一個參數規模為48B(激活3B)的小型MoE模型,并使用高達1.4萬億token的數據進行真實環境預訓練。


      規?;▌t曲線顯示:在同等算力投入下,應用Block AttnRes的模型始終獲得更低的損失值。簡單換算,該架構使模型能達到傳統基線模型需耗費1.25倍算力方可實現的性能。對于耗資動輒千萬美元級的預訓練階段而言,“白嫖”25%的算力增益,蘊含著巨大的商業價值。

      下游能力測試中,需要多步驟邏輯推理的任務獲益最為顯著:


      GPQA-Diamond提升7.5%,Math提升3.6%,HumanEval提升3.1%。這一結果在邏輯上高度自洽:數學推導與代碼生成皆要求模型具備長時間推理與信息保持能力,AttnRes的深度檢索機制恰好契合了這種“不忘初衷”的內在需求。

      月之暗面創始人楊植麟在2026年英偉達GTC大會上的公開演講,也從側面印證了這套架構的價值:“要推動大模型智能上限持續突破,必須對優化器、注意力機制和殘差連接等底層基石進行重構?!?/p>

      當然,這項技術距離真正顛覆Transformer架構或改寫行業規則,尚有顯著距離。核心工程代碼尚未完全開源,公開倉庫中僅提供偽代碼級別的演示。同時,論文中亮眼的實驗結果,全部出自月之暗面自有的模型結構與私有數據。注意力殘差能否在其他主流大模型上復現出穩定且顯著的收益,仍有待第三方獨立驗證。

      客觀而言,在深度學習領域,對底層機制進行啟發式修改的嘗試并不鮮見。但一篇論文能獲得馬斯克的“光速”點贊,本身已說明其分量。


      最準確的論斷或許是:這是一個兼顧了學術美學與工程實用性、值得全行業深入跟蹤的殘差機制新設計。它并非推翻Transformer的神話,而是為這座大廈添上了一塊關鍵的磚石。

      而月之暗面借此向世界展示:在底層架構創新的“深水區”,中國AI企業同樣有能力交出極具技術含量、堪稱世界級水準的答卷。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      跨界大瓜!特羅薩德夜店狂歡,竟與安妮海瑟薇同框?

      跨界大瓜!特羅薩德夜店狂歡,竟與安妮海瑟薇同框?

      仰臥撐FTUer
      2026-05-15 12:05:11
      曝央視已發邀請函!被批冤大頭 1.1億美元太貴?比4年前還便宜了

      曝央視已發邀請函!被批冤大頭 1.1億美元太貴?比4年前還便宜了

      風過鄉
      2026-05-15 13:13:30
      22記蓋帽!三分17中1!文班亞馬史詩級防守

      22記蓋帽!三分17中1!文班亞馬史詩級防守

      籃球教學論壇
      2026-05-14 16:42:53
      莊則棟臨終前放心不下日本妻子,眼噙淚水:你沒有醫保,沒有工資

      莊則棟臨終前放心不下日本妻子,眼噙淚水:你沒有醫保,沒有工資

      抽象派大師
      2026-05-12 20:36:26
      同學聚會上,我給初戀敬酒,她悄悄對我說:我兒子長得很像你

      同學聚會上,我給初戀敬酒,她悄悄對我說:我兒子長得很像你

      千秋文化
      2026-05-09 20:05:09
      已成功瘦了 30斤,我發現提高代謝關鍵吃法是:早餐吃夠蛋白質

      已成功瘦了 30斤,我發現提高代謝關鍵吃法是:早餐吃夠蛋白質

      新時代的兩性情感
      2026-05-15 10:08:20
      多地國央企發侮辱性工資!

      多地國央企發侮辱性工資!

      黯泉
      2026-05-14 21:32:42
      昨天還是“帝國主義走狗”,今天就在克里姆林宮喝酒

      昨天還是“帝國主義走狗”,今天就在克里姆林宮喝酒

      小院之觀
      2026-05-14 12:58:05
      “體壇神仙姐姐”,穿三角服參賽被批“暴露”,到底礙了誰的眼?

      “體壇神仙姐姐”,穿三角服參賽被批“暴露”,到底礙了誰的眼?

      健身迷
      2026-05-15 11:26:20
      特朗普突然透露:北京明確表態,不會向伊朗提供軍援

      特朗普突然透露:北京明確表態,不會向伊朗提供軍援

      桂系007
      2026-05-14 23:59:15
      國家稅務總局成都市稅務局原二級巡視員李平接受審查調查

      國家稅務總局成都市稅務局原二級巡視員李平接受審查調查

      界面新聞
      2026-05-15 15:40:24
      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      10個月建成人民大會堂,毛主席參觀時一直盯著穹頂,笑問:誰想的

      浩渺青史
      2026-05-06 16:57:17
      馬斯克背后的女人曝光!她給中國父母上的最狠的一課:做一個“自私”的媽媽!

      馬斯克背后的女人曝光!她給中國父母上的最狠的一課:做一個“自私”的媽媽!

      一刻talks丨硬科技趣思想
      2026-01-31 20:34:10
      徐子淇老的不忍直視!和李家誠一起看望楊受成,眼袋重 皮膚冒油光

      徐子淇老的不忍直視!和李家誠一起看望楊受成,眼袋重 皮膚冒油光

      草莓解說體育
      2026-05-15 10:25:38
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      局勢反轉180度,貨幣保衛戰開打,日本人馬抵華,高市死咬一句話

      局勢反轉180度,貨幣保衛戰開打,日本人馬抵華,高市死咬一句話

      南宗歷史
      2026-05-15 06:27:04
      藿香正氣水才是祛濕能手,牢記這 3 個黃金搭配,清遍全身濕氣

      藿香正氣水才是祛濕能手,牢記這 3 個黃金搭配,清遍全身濕氣

      健康之光
      2026-05-13 18:50:09
      從大疆離職,被雷軍投24億,哈工大女教授造出百億獨角獸

      從大疆離職,被雷軍投24億,哈工大女教授造出百億獨角獸

      趣文說娛
      2026-05-14 21:25:42
      為什么航母速度都在30節左右,30節換成汽車的速度是多快?

      為什么航母速度都在30節左右,30節換成汽車的速度是多快?

      吳王旅行ing
      2026-05-12 23:36:17
      趁著大半個美國高層都在北京,坐鎮白宮的萬斯“殺伐果斷”

      趁著大半個美國高層都在北京,坐鎮白宮的萬斯“殺伐果斷”

      健身狂人
      2026-05-15 01:35:03
      2026-05-15 15:56:49
      硅基星芒AI
      硅基星芒AI
      錦緞旗下人工智能研究與媒體服務平臺
      60文章數 7關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      女游客以1分錢拍下標價1980元的三亞海景房 酒店回應

      頭條要聞

      女游客以1分錢拍下標價1980元的三亞海景房 酒店回應

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      教育
      房產
      旅游
      藝術
      公開課

      教育要聞

      新華讀報|拋繡球、游泳進中考,體育改革讓學生“玩有所得”

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      旅游要聞

      天壇最佳拍照機位火了!本臺記者率先發現→

      藝術要聞

      一個北大 “反卷教授” 的意外走紅

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99久久免费精品色老| 亚洲国产成人精品女人久久久| 少妇精品亚洲一区二区成人| 99激情| 亚洲经典无码| 免费国产小视频在线观看| 最新免费视频一区二区三区| 国产久免费热视频在线观看| 色色97| 欧美一级一级做性视频| 在线91资源| 久久久2019精品视频中文字幕| 国产精品无码AV中文| 国产嫩草精品网亚洲av| 欧美黑人乱大交| 国产精品女同一区三区五区| 欧美视频亚洲| 亚洲国产欧美一区三区成人| 日本黄页网站免费大全1688| 丰满无码人妻热妇无码区| 国内不卡一区二区三区| JAPANESE精品中国少妇| 综合一区亚洲| 青草青草久热精品视频在线观看 | 亚洲AⅤ永久无码精品毛片| 久久精品成人一区二区三区| 亚洲精品午夜国产VA久久成人| 国产精品va在线观看无码不卡| 日韩综合网| 亚洲无码AV天堂| 苍井空一区二区波多野结衣AV | 精品超清无码视频在线观看| 国产成人啪一区二区| 国产玩具酱一区二区三区| 国产亚洲视频在线观看| 亚洲国产综合无码一区二区bt下| 久久精品国产精品国产精品污| 精品综合一区二区三区四区| 99久久亚洲综合精品成人网 | 亚洲黄色AV电影| 男人j进女人p免费视频直播|