<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      馬斯克驚嘆!DeepSeek和Kimi先后出手,捅破了Transformer的「潛規則」!

      0
      分享至

      晚上突然看到馬斯克發了一條推:「Impressive work from Kimi」。


      去查了下,想看看咋咋唬唬的老馬又是被啥震驚到了。

      然后,發現原來是Kimi發了篇論文


      特意幫你們去認真讀了讀被老馬夸nb的論文是怎么回事。然后我發現這篇論文的主角我居然還挺熟悉的——殘差連接。

      我的第一反應是:咦,這不是DeepSeek去年底剛動過的東西嗎?

      今年1月份的時候,我寫過一篇我迄今為止閱讀量最高的解讀DeepSeek的mHC論文的文章。核心是:DeepSeek找到了一個大家覺得不需要改的東西——殘差連接,然后改了它。


      現在Kimi也在殘差連接上動刀,而且馬斯克說impressive。我帶著困惑把論文讀了一遍。

      結論是:兩家實驗室發現了同一個問題,但解法的出發點完全不同,深度也不同。

      DeepSeek發現了什么問題,怎么解的

      先快速回顧一下DeepSeek那篇,如果已經讀過可以直接跳過這節。

      標準殘差連接長這樣:

      h_l = h_{l-1} + f_{l-1}(h_{l-1})

      每一層的輸出 = 上一層輸出 + 這一層學到的新東西。固定權重,均勻累加。2015年ResNet提出,所有大模型沿用至今。

      DeepSeek的問題意識是:固定權重是不是太死板了?每一層對之前所有層都一視同仁,合理嗎?

      他們的第一個嘗試是Hyper-Connections(HC):把殘差流從1條擴展到4條,每條的權重可學習,讓模型自己決定怎么混合信號。

      效果好,但有個致命問題:訓練不穩定。可學習的權重矩陣沒有任何約束,經過60層累乘之后,信號被放大了3000倍。實測損失曲線在訓練到一半時突然飆升。

      最終版本mHC的解法:把權重矩陣約束在「雙隨機矩陣」上——滿足每行之和=1、每列之和=1的矩陣。這個約束的數學性質保證了矩陣的譜范數≤1,多層連乘之后信號不會爆炸。訓練穩定了,性能也超過了原始殘差連接。代價只有6.7%的額外訓練時間。

      DeepSeek的解法可以用一句話總結:讓連接權重從固定變成可學習,同時用數學約束保證穩定性。

      Kimi發現了什么,為什么看起來一樣

      Kimi的論文開頭也在講殘差連接的問題。我讀到這里,真的困惑了一下——這不就是DeepSeek mHC做的事情嗎?

      但繼續往下讀,Kimi的問題定義和DeepSeek不在同一個層面。

      DeepSeek問的是:權重能不能更靈活?

      Kimi問的是:更根本的問題在哪?就算權重可以學習,整個設計里還有什么沒解決?

      他們找到了三個答案。

      第一,不能點菜。

      每一層只能看到上一層傳下來的「混合狀態」——所有前面層的輸出被攪在一起的結果。但不同類型的層需要的東西是不一樣的:有些層可能更需要早期的原始語義,有些層可能更需要最近幾層剛算出來的特征。現在它們只能吃同一份混合好的東西,沒辦法說「我要第3層的輸出」。

      mHC讓混合的方式更靈活了,但本質上每條路拿到的還是混合過的狀態,沒法回頭單獨取某一層的輸出。

      第二,信息找不回來。

      某一層學到了一個很有價值的東西,但一旦被混進累積狀態,就和其他層的輸出攪在一起了。隨著后面的層不斷疊加新輸出,這個信息越來越淡,最終被淹沒。不可逆的。

      第三,后面的層越來越難產生影響。

      想象你在一間越來越吵的房間里說話。前面的層已經積累了很大的信號,后面的層必須喊得比所有前輩加起來更大聲,才能被聽到。論文測量了這個效應:到了模型最后幾層,信號量級是最開始的十多倍。后面的層要產生同等影響,需要付出十倍以上的「音量」。


      mHC解決了訓練穩定性,但這三個根本問題還在——因為mHC的權重雖然可學習,但訓練完就固定了。不管輸入是什么,權重都一樣。

      Kimi的解法:把時間維度的方案搬到深度維度

      找到了問題,Kimi的解法來自一個很漂亮的類比。

      這三個問題——不能點菜、信息找不回來、后面的層越來越難發聲——是不是很眼熟?

      如果你了解深度學習的歷史,會發現這和2017年之前處理文本序列時遇到的問題一模一樣。

      當時用的是RNN,處理一段話時,也是把所有歷史信息壓縮進一個狀態,每一步更新。同樣信息找不回來,同樣不能選擇性地回頭看早期內容。

      2017年,《Attention Is All You Need》那篇劃時代的論文提出了Transformer,用注意力機制解決了這個問題:處理一段話時,每個位置不再只能看到上一步壓縮后的狀態,而是可以直接回頭看所有歷史位置,根據當前內容動態決定關注哪里。

      但有意思的是,《Attention Is All You Need》升級了文本處理的信息流,卻沒有動層與層之間的信息流——殘差連接依然是2015年的固定累加。

      Kimi的問題是:處理文本時,我們已經用注意力替代了「壓縮傳遞」;那層與層之間,為什么還在用「壓縮傳遞」?

      這就是AttnRes的核心洞察:把注意力機制用到層與層之間的連接上。某種意義上,這是《Attention Is All You Need》在深度方向上的續集。


      簡單說,改完之后每一層可以「回頭看」所有之前層的輸出,然后根據當前處理的內容,動態決定最需要參考哪幾層的結果。這個「回頭看」的過程就是注意力機制——和Transformer處理文本時做的事情一樣,只不過方向從「回頭看之前的文字」變成了「回頭看之前的層」。

      參數代價幾乎可以忽略:每一層只多了一個向量。

      最關鍵的一點:這個「回頭看誰」的權重不是固定的。同樣一個模型,處理不同的輸入,每一層對之前各層的關注程度是不同的——完全根據當前內容實時決定。這是和mHC最本質的區別:mHC的權重訓練完就定了,AttnRes的權重是活的。

      這讓我想到普魯斯特。《追憶似水年華》里Marcel嘗到瑪德蓮蛋糕浸在茶里的味道,童年的貢布雷整個涌上來——不是模糊的印象,而是精確的感知,繞過了所有中間的敘事鏈條。普魯斯特管這叫「非自愿記憶」:不是你主動去回憶,而是被某個感覺直接觸發,直接抵達。

      標準殘差更像正常人的有意識回憶——細節在層層傳遞中被壓縮、混合,你只能拿到一個抽象過的狀態,原來的精確感知找不回來了。AttnRes給每一層裝上了一種工程化的普魯斯特能力:被當前內容觸發,直接跳到任意前驅層的精確輸出,不經過中間的壓縮鏈。

      不過普魯斯特的非自愿記憶是不受控的,你不知道哪塊瑪德蓮蛋糕會觸發什么。AttnRes用softmax加了方向——根據當前內容,決定最需要回頭取哪一層的東西。這是普魯斯特沒有給Marcel的:有方向的精確記憶。

      兩種方案的本質差異

      把兩個方案放在一起,差異很直觀:

      DeepSeek mHC

      Kimi AttnRes

      改的是什么

      連接權重的學習方式

      信息流的結構

      權重是活的還是死的

      訓練完就固定

      每次處理不同輸入都不同

      能看到什么

      只能看到上一層的混合狀態

      可以直接看所有之前層的原始輸出

      解決了什么

      權重太死板

      不能點菜 + 后面層越來越難發聲

      論文里有一個消融實驗特別直接:如果讓模型能看到所有之前層的輸出,但權重是固定的(訓練完就不變),效果和原來幾乎一樣,沒有提升。但換成動態權重(根據當前內容實時決定),性能就明顯提升了。

      結論很清楚:光是「能回頭看」不夠,必須是「根據內容動態地回頭看」才有價值。

      Block AttnRes:工程上怎么落地

      理想狀態下,每一層都能直接回頭看所有之前層的輸出(Full AttnRes)。但對于100多層的模型,這意味著要把所有層的輸出都存著,內存吃不消。

      Kimi的工程方案是Block AttnRes:把所有層分成大約8個「塊」,塊內還是用標準殘差做累加,塊與塊之間用注意力。

      這樣需要記住的東西從「每一層的輸出」縮減到「每個塊的匯總」,內存占用大幅下降。

      性能損失多少?幾乎可以忽略。大約8個塊就能恢復絕大部分收益。而且工程代價比mHC還低——訓練額外開銷不超過4%,推理延遲增加不超過2%。

      效果怎么樣

      實驗在Kimi自家的48B參數模型上驗證。

      先說最直觀的一個數字:用同樣的算力,AttnRes達到了標準方法需要多燒25%算力才能達到的性能。換句話說,不加機器、不加數據,只改信息流的結構,就能白賺25%的算力效果。


      下游任務的提升也很顯著,尤其是推理類任務:

      • GPQA-Diamond(研究生級別的科學推理):36.9 → 44.4,提了7.5個點

      • 數學:53.5 → 57.1

      • 代碼:59.1 → 62.2

      • 中文理解(C-Eval):79.6 → 82.5

      推理任務提升最大,這說得通——多步推理需要不同層之間緊密協作,正是信息流改善受益最大的場景。

      訓練過程也更健康了。之前說的「越來越吵的房間」問題,在AttnRes下被明顯緩解:每層的信號量級不再單調遞增,而是保持在一個有界的范圍內。每一層都能得到合理的學習信號,不再出現「前面的層學得好,后面的層被淹沒」的情況。

      模型自己學到了什么

      訓練好之后,Kimi可視化了模型「回頭看」的模式——每一層到底在關注哪些前面的層。


      三個有意思的發現:

      大部分時候,還是看最近的鄰居。 標準殘差的「只看上一層」并不是完全錯的,模型自己學出來的結果也是以鄰近層為主。

      但最原始的輸入一直沒被忘掉。 即使到了模型最深的層,對最開頭輸入的注意力權重都不是零。標準殘差下這個原始輸入早就被稀釋得找不到了,AttnRes讓深層可以隨時回頭翻看它。

      模型自己發明了「捷徑」。 某些層會跳過中間,直接關注很早期的某些層。這不是人工設計的,是訓練中模型自己發現的信息通路。

      還有一個細節:模型里不同類型的層,「回頭看」的習慣明顯不同。有些層看得遠,有些層只看最近幾層。AttnRes讓它們各自找到了最適合自己的信息來源——這在標準殘差下是不可能的,因為所有層拿到的都是同一份混合狀態。

      往大了說

      兩家發現了同一個被忽視的方向,但出發點不同,解法不同,解決的東西也不完全重疊。

      mHC的核心是:讓連接權重可學習,并且穩定。但每一層拿到的信息源還是混合過的,而且權重訓練完就固定了。

      AttnRes的核心是:讓每一層可以直接回頭看所有前面層的原始輸出,根據當前內容實時決定看哪里。解決的是更根本的問題。

      論文結論里說:現在的Block AttnRes是工程折中,隨著硬件進步,最終會走向每層都能回頭看所有層的Full AttnRes。

      還有一個實驗我覺得最值得關注:Kimi測試了25種不同的模型架構配置,發現用了AttnRes之后,最優的模型設計從「寬而淺」變成了「窄而深」。之前模型不敢做太深,因為深了之后后面的層越來越難學到東西。AttnRes解決了這個問題,讓「加深度」重新變成了有效的手段。

      這不只是給現有架構加了個性能插件,而是重新開放了模型設計的一個維度。

      想想大多數團隊在做什么:更好的訓練數據、更長的上下文、更大的MoE、更聰明的推理策略。這些都有價值,但都是在「層間連接就是固定累加」這個前提下做優化。選擇回到最底層的基礎結構去找根本性突破,需要兩個條件同時滿足——技術判斷力(看出哪些「默認配置」其實可以改),和工程實力(在大規模訓練上證明它真的有效,不是玩具實驗)。這兩個條件同時具備的團隊,全球范圍內都是稀缺的。

      過去幾年大模型的架構創新主要發生在上層模塊——Attention機制的各種變體、MoE的路由策略、位置編碼的改進。殘差連接一直待在最底層,被當作「默認配置」,沒人覺得需要碰它。現在DeepSeek和Kimi先后在這里找到了突破口,說明一個趨勢:架構優化的前沿已經從上層模塊深入到了最基礎的信號傳遞結構。

      《Attention Is All You Need》當年把序列維度從遞推升級到了注意力。但那篇論文里的殘差連接——深度維度上的信息流——依然用的是2015年的固定累加。這個未完成的工作等了九年。

      馬斯克的「Impressive work」不只是一句客套。當這個級別的人公開點贊一篇基礎架構論文,釋放的信號是:深度學習的底層范式本身在發生變化,值得關注的不只是論文里的具體數字,而是它指向的方向。

      殘差連接被當作默認配置用了十年。三個月內,兩家中國實驗室先后在這個最基礎的地方找到了根本性突破。

      參考資料:

      • Attention Residuals技術報告:https://github.com/MoonshotAI/Attention-Residuals

      • DeepSeekmHC論文:https://arxiv.org/abs/2512.24880

      • Kimi Linear架構報告:https://arxiv.org/abs/2510.26692

      • Attention Is All You Need:https://arxiv.org/abs/1706.03762

      @Kimi 用我奶奶也能懂的語言解釋下這篇論文:

      大模型就像一棟100層的大樓,每一層的工人干完活,把成果交給下一層。 過去十年,傳遞方式都是「流水賬」——每一層只能看到上一層遞過來的一份混合文件,前面誰寫了什么、寫得好不好,全攪在一起了,找不回來。 Kimi做的事情是給每一層裝了一部電話。現在第100層的工人如果覺得「第3層當時算的那個數據我現在要用」,可以直接打電話回去查,不用再翻那份被改了97遍的混合文件。 而且每個工人會根據自己手頭的任務,自己決定打給誰——不是固定的,是看情況來的。 就這么一個改動,同樣的機器、同樣的數據,模型性能白賺了25%。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      觀星娛記
      2026-05-11 11:28:30
      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      九方魚論
      2026-05-11 12:47:23
      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      財聯社
      2026-05-11 11:32:14
      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      聽我說球
      2026-05-11 09:43:11
      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      今日養生之道
      2026-05-10 20:13:01
      抓了那么多貪官,錢呢?跟我們有關系嗎?

      抓了那么多貪官,錢呢?跟我們有關系嗎?

      細說職場
      2026-05-08 22:15:45
      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      小柱解說游戲
      2026-04-28 16:31:31
      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      丁丁鯉史紀
      2026-05-05 10:33:14
      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      狐貍先森講升學規劃
      2026-05-06 05:35:03
      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      桌子的生活觀
      2026-05-11 12:12:44
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      番外行
      2026-05-11 08:49:20
      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      看盡落塵花q
      2026-05-09 14:29:21
      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      瀾歸序
      2026-05-11 00:51:39
      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      妍妍教育日記
      2026-05-09 13:31:49
      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      界面新聞
      2026-05-11 12:33:18
      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      抽象派大師
      2026-05-05 15:31:50
      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      時分秒說
      2026-05-07 16:00:09
      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      拳擊時空
      2026-04-16 06:04:48
      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      老吳教育課堂
      2026-05-11 08:40:10
      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      安安說
      2026-05-10 11:18:13
      2026-05-11 13:35:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      200文章數 112關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      房產
      游戲
      家居
      數碼
      公開課

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      曝索尼正調整PS游戲地區價格!從此告別568港元?

      家居要聞

      多元生活 此處無聲

      數碼要聞

      聯想YOGA Air 14 Ultra筆記本官宣5月19日發布

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久久久久久久久直播| 国产AV永久无码精品网站| 丁香五月亚洲综合在线国内自拍 | 欧美乱妇高清无乱码免费| 伊人日韩亚洲| 69SEX久久精品国产麻豆| 中文国产不卡一区二区| 三级电影网址| 99久久精品久久久| 最新中文字幕免费观看| 国产中文字幕久久黄色片| 久久精品人人做人人爽电影蜜月| 日韩一区二区三区影片| 成人麻豆日韩在无码视频| 军人粗大的内捧猛烈进出视频| 五月丁香色综合久久4438| 亚洲激精日韩激情欧美激情精品| 国产精品av中文字幕| 从江县| A片黄色| 亚洲国产成人精品无色码| 超鹏在线视频播| 日韩精品av免费在线观看| 国产精品久久精品久久精品久久| 亚洲精品国产成人无码区在线| 博白县| 青青青草国产熟女大香蕉| 国产精品久久久久9999高清| 国产地址二永久伊甸园| 成人免费无码大片a毛片软件| 国产亚洲成av人片在线观黄桃| 欧美无人区码suv| 国产真人无遮挡免费视频| 91视频一88av| 福利姬网址| 精品亚洲国产成人av| 潘金莲高清dvd碟片| 久久久2019精品视频中文字幕| 国产麻豆精品一区二区三区6| 国产乱人伦偷精品视频AAA| 色偷偷亚洲女人天堂观看|