<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      LLM近期重大架構進化一覽:從Gemma 4到DeepSeek V4

      0
      分享至



      機器之心編輯部

      過去一段時間,很多人對大模型都有一個明顯感受:token 總是不夠用

      畢竟用戶想大模型更「聰明」更連貫,上下文窗口只會越來越大。

      而在模型背后,長上下文是相當「奢侈」的。用戶 token 消耗翻倍,其實是模型更大的 KV cache 和更高的 attention 計算成本。

      尤其是在推理模型和 Agent 逐漸成為主流后,長上下文已經從一個「宣傳亮點」,逐漸轉變?yōu)榇竽P图軜嬙O計需要正面解決的問題。

      Sebastian 精準地捕捉到,最近幾個月發(fā)布的一批 LLM,正好體現了這個趨勢。

      從 Google 的 Gemma 4,到 Poolside 的 Laguna XS.2、Zyphra 的 ZAYA1-8B,再到 DeepSeek V4,這些模型在 Transformer 內部做了各種「省錢設計」,試圖圍繞長上下文推理降低計算和存儲成本

      Sebastian 為此發(fā)布了技術博客,以下為博客鏈接與全文翻譯。



      近期 LLM 一覽。

      • 博客標題:LLM 架構的最新發(fā)展:KV 共享、mHC 與壓縮注意力
      • 博客鏈接:https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures

      Gemma 4:

      通過跨層復用 KV Tensor 縮小 KV Cache

      時間回到四月初,Google 發(fā)布了全新的開源權重模型系列 Gemma 4。整個系列大致可以分為三類:

      • 面向移動端與小型本地(嵌入式)設備(即 IoT)的 Gemma 4 E2B 與 E4B;
      • 面向高效本地推理、采用混合專家架構(MoE)的 Gemma 4 26B;
      • 以及采用 Dense 架構、追求更高模型質量與更便捷后訓練流程的 Gemma 4 31B(因為 MoE 模型通常更難進行后訓練和調優(yōu))。



      Gemma 4 架構示意圖

      Gemma 4 E2B 與 E4B 的第一個小型架構改動,是采用了「共享 KV Cache」機制:后續(xù)層會復用前面層已經計算出的 Key-Value 狀態(tài),從而降低長上下文場景下的顯存占用與計算成本。

      這種方法并不是 Gemma 4 首創(chuàng)。例如 NeurIPS 2024 的論文《Reducing Transformer Key-Value Cache Size with Cross-Layer Attention》已經提出類似思路。但 Gemma 4 是第一次將其大規(guī)模應用于主流開源架構中。

      為什么 KV Cache 如此重要?

      正如我最近幾個月不斷提到的,當前 LLM 架構設計中的一個核心主題,就是「縮小 KV Cache」。而縮小 KV Cache 的根本目的,是降低模型運行所需的顯存占用,從而支持更長的上下文窗口。這一點在推理模型和 Agent 時代尤其重要。

      舉一個經典的例子(Gemma 4 目前依然在使用):Grouped Query Attention(GQA)本身就已經通過讓多個 Query Head 共享同一組 Key-Value(KV)Head,來減少 KV Cache 的大小,如下圖所示。



      Gemma 4 的跨層 KV 共享機制

      如前所述,Gemma 4 使用了 GQA。不過,除了 GQA 中不同 Query Head 之間的 KV 共享之外,Gemma 4 還進一步在不同 Transformer Layer 之間共享 KV Projection,而不是像傳統(tǒng)做法那樣,在每一層 Attention 模塊中分別計算自己的 KV

      這種 KV 共享機制也被稱為 Cross-Layer Attention,其結構如下圖所示。



      正如架構示意圖中所提到的,Gemma 4 E2B 采用了普通 GQA 與 Sliding Window Attention 按照 4:1 的方式組合使用。(更準確地說,Gemma 4 E2B 實際使用的是 MQA,也就是 GQA 中只有一個 KV Head 的特殊情況。)

      在 GQA(或 MQA)機制下,KV 共享的方式如下:后續(xù)層不再單獨計算自己的 Key 和 Value Projection,而是直接復用最近一個、同類型且未共享層所生成的 KV Tensor。

      換句話說:Sliding Window Attention 層會復用前面某個 Sliding Window 層的 KV, Full Attention 層則會復用前面某個 Full Attention 層的 KV。

      當然,每一層仍然會計算自己的 Query Projection,因此不同層依然可以形成各自不同的 Attention Pattern;但代價最高、最占顯存的 KV Cache,則會被多個層共同復用。例如:

      • Gemma 4 E2B 一共有 35 層 Transformer Layer,但只有前 15 層會真正計算自己的 KV Projection;后面的 20 層則直接復用之前同類型層的 KV Tensor。
      • 類似地,Gemma 4 E4B 共 42 層,其中 24 層負責計算 KV,最后 18 層采用共享機制。

      這種設計到底能節(jié)省多少資源?

      由于大約有一半的 KV 在不同層之間被共享,因此 KV Cache 的整體大小也大致減少了一半。對于最小的 E2B 模型來說,在 128K 長上下文、bfloat16 精度下,可以節(jié)省約2.7GB顯存;而 E4B 在同樣條件下,則大約能夠節(jié)省6GB



      Gemma 4 E2B 類似配置中,GQA 與跨層 KV 共享帶來的 KV Cache 顯存節(jié)省效果

      當然,KV Sharing 的缺點在于,它本質上是一種對完整 Attention 計算的「近似」。更準確地說,它會削弱模型容量。

      不過,根據 Cross-Layer Attention 論文中的實驗結果,在被測試的小規(guī)模模型上,這種影響可以非常有限。

      Gemma 4 E2B / E4B:

      Per-Layer Embeddings(PLE)與「有效參數量」

      Gemma 4 的 E2B 與 E4B 版本還引入了第二種以效率為導向的設計:Per-Layer Embeddings(PLE,逐層嵌入)。這一機制與前面提到的 KV Sharing 是相互獨立的。

      KV Sharing 的目標是縮小 KV Cache,而 PLE 關注的則是參數效率(parameter efficiency):它讓小尺寸的 Gemma 4 模型能夠攜帶更多 token-specific information(與 token 相關的特征信息),但又不會讓整個 Transformer 主干像同參數量 Dense 模型那樣昂貴。

      例如,Gemma 4 E2B 與 E4B 中的「E」,代表的就是「effective」(有效參數量) 。具體來說:

      • Gemma 4 E2B 標注為 2.3B effective parameters,但如果把 embedding 參數也算進去,總參數量實際上達到 5.1B;
      • Gemma 4 E4B 的 effective parameters 為 4.5B,而包含 embedding 后則約為 8B。

      換句話說,在這些 「E」系列模型中,真正負責主要計算的 Transformer Stack,其計算規(guī)模更接近前面的較小數字;而后面的總參數量,則包含了額外的 embedding table。

      從概念上來看,PLE 的結構大致如下:



      帶有 PLE residual path 的簡化版 Gemma 4 Block。普通 Transformer Block 會先完成 Attention 與 Feed-Forward 的 residual update;隨后,生成的 hidden state 會作為 gating 信號,控制 layer-specific 的 PLE vector,并在 Block 末尾額外加入一次 projected PLE residual update。

      PLE Vector 本身是在 Transformer Block 外部提前構建的。簡單來說,它有兩個輸入來源:token ID 經過 per-layer embedding lookup; 普通 token embedding 再通過一個 linear projection,映射到同一個 PLE 空間。

      隨后,這兩部分結果會被相加、縮放,并 reshape 成一個 tensor,其中每一層都對應一個獨立 slice,而每個 Transformer Block 只會接收屬于自己的那一份。



      簡化版 PLE(Per-Layer Embeddings)構建流程

      這里有一個很重要的細節(jié):PLE 并不是給每個 Transformer Block 單獨復制一整套 embedding layer。相反,per-layer embedding lookup 只會計算一次,然后再給每一層分發(fā)一個較小的 token-specific embedding slice。

      因此,對于每個輸入 token,Gemma 4 會提前準備一個 packed PLE tensor,其中包含每一層 decoder 對應的一小段 embedding vector。

      真正進入 Transformer Block 后,Attention 與 Feed-Forward 分支仍然按正常方式運行。在完成 Feed-Forward residual update 后,當前 hidden state(圖中記作 z)會用于 gate layer-specific PLE vector。被 gate 后的 PLE vector 會重新投影回 model hidden size、做 normalization,并作為額外 residual update 加回模型中。

      一個比較直觀的理解方式是 Transformer Block 的主體結構并沒有改變,Gemma 4 只是額外在 Feed-Forward 分支后面,插入了一小段「層特定 token 向量」。這樣做能夠通過 embedding 參數與小規(guī)模 projection,提升模型的表達能力,同時避免把整個 Transformer Stack 都擴展到更大的參數規(guī)模。

      為什么要用 PLE?

      一種更直接的方法,其實是簡單縮小 Dense 模型,比如減少層數、縮小 hidden state 或縮小 Feed-Forward Network。

      這樣當然能降低顯存與延遲,但也會直接削弱模型真正負責計算的核心部分。

      而 PLE 的思路則是:讓昂貴的 Transformer Block 保持在較小的 「effective size」,同時把額外容量存儲在 per-layer embedding table 中。由于 embedding 本質上主要是 lookup-style parameter,它們遠比增加 Attention 或 FFN 權重更便宜,也更容易緩存。

      當然,目前我們還只能相信 Google 的實驗結果,認為這確實是一個有效的設計。作者也提到,未來如果能看到更多對比實驗,例如:PLE 版 Gemma 4 E2B vs 普通 2.3B Dense 模型 vs 普通 5.1B Dense 模型 。

      這樣的對比會非常有意思。

      此外,從理論上講,PLE 并不只適用于小模型。更大的模型同樣可以加入 per-layer embedding slice。但由于大模型本身已經具有足夠容量,因此這些額外 embedding 的收益可能不再明顯。而且在大模型中,我們通常已經通過 MoE 等結構,在不顯著增加計算量的前提下提升模型容量。

      Laguna XS.2:

      Layer-wise Attention Budgeting

      Laguna 是歐洲公司 Poolside 推出的首個 open-weight 模型,Poolside 主要專注于面向代碼場景的 LLM 訓練。

      不同 Layer 使用不同 Attention Budget。

      下圖中的 Laguna XS.2 架構乍一看其實相當標準。不過,有一個我沒有畫進去(或者說沒法硬塞進圖里)的細節(jié),是一個可以稱為 「Layer-wise attention budgeting」 的概念。



      Poolside 的 Laguna XS.2 架構示意圖。

      這里所謂 attention budgeting 的核心思路之一,是不再讓每個 Transformer Layer 都擁有完全相同的 Attention 預算,而是根據層的不同,動態(tài)分配不同的 Attention 成本

      Laguna XS.2 總共有 40 層,其中 30 層使用 Sliding-Window Attention,10 層使用 Global / Full Attention。

      和常見做法一樣,Sliding-Window Layer 只會關注局部窗口(這里是 512 個 token),因此 KV Cache 與 Attention 計算成本都更低;而 Global Layer 雖然更昂貴,但能夠保留對整個上下文窗口中所有信息的訪問能力。

      這種 Sliding-Window Attention 與 Global / Full Attention 混合使用的結構,并不是 Laguna XS.2 獨有的,很多其他模型(包括 Gemma 4)也采用了類似設計。

      但真正新的地方在于:Laguna XS.2 引入了「逐層不同 Query Head 數量」的設計。

      例如,在 Hugging Face 的 config.json 中,可以看到一個名為 num_attention_heads_per_layer 的配置項,這意味著不同 Layer 可以擁有不同數量的 Query Head,同時仍然保持 KV Cache 結構兼容。



      Laguna 中的逐層 Query-Head Budgeting。其中 Full Attention Layer 每個 KV Head 對應 6 個 Query Head; Sliding Window Attention Layer 每個 KV Head 對應 8 個 Query Head。

      因此,Laguna XS.2 的實際做法是:給 Sliding-Window Layer 分配更多 Query Head,給 Global Layer 分配更少 Query Head,同時將 KV Head 數固定為 8

      這才是真正意義上的 「Layer-wise Head Budgeting」。

      Laguna XS.2 是近期 open model 中最具代表性的逐層 Query-Head Budgeting 實踐之一。不過,更廣義上的「按層動態(tài)分配模型容量」這一思路,其實至少可以追溯到 Apple 在 2024 年提出的 OpenELM。

      為什么這樣設計?

      和 KV Sharing 類似,它的核心目標依然是:把 Attention Capacity 花在最值得的地方,而不是讓所有 Layer 平均分配相同預算

      具體來說,Full Attention Layer 因為需要訪問整個上下文窗口,本身計算代價就更高,因此 Laguna 會相對減少它們的 Query Head 數量;而計算成本更低的 Sliding-Window Layer,則可以擁有更多 Query Head。

      (此外,還有一個較小的實現細節(jié):Laguna 還采用了 per-head attention-output gating,這一點與 Qwen3-Next 等模型有些類似。不過由于我之前已經討論過類似機制,因此這里不再展開。)

      ZAYA1-8B:壓縮卷積注意力(CCA)

      和 Laguna 類似,ZAYA1-8B 也是一位新玩家。它由 Zyphra 開發(fā),而這次發(fā)布中一個很有意思的細節(jié)是:該模型并不是基于更常見的 NVIDIA GPU(或 Google TPU)訓練,而是使用 AMD GPU 完成訓練的。

      不過,真正關鍵的架構設計,是一種名為Compressed Convolutional Attention(CCA,壓縮卷積注意力)的機制,并且它與 Grouped-Query Attention(GQA)共同使用。

      與 MLA(Multi-head Latent Attention)這類主要把 latent representation 當作緊湊 KV Cache 格式的設計不同,CCA 會直接在壓縮后的 latent space 中完成 Attention 計算。不過這一點我們后面再詳細展開。

      (順帶一提:ZAYA1-8B 的 config.json 中實際上列出了 80 個交替出現的 layer entry,而不是傳統(tǒng)意義上的 40 個 Transformer Block。這些 layer 在結構上會在 CCA/GQA Attention 與 MoE Feed-Forward Layer 之間交替出現。不過在架構圖里,把它們簡化理解成 40 個重復的 「Attention + MoE」 Pair 會更直觀,兩種表示在概念上是等價的。)



      采用 Compressed Convolutional Attention 的 ZAYA1(8B)Transformer Block。

      正如上圖所示,ZAYA1-8B 采用了 CCA,并結合了 4:1 的 GQA 結構。這里最關鍵的一點在于:它的 Attention Block 是圍繞 CCA 構建的,而不是傳統(tǒng)的 Sliding-Window Attention。

      什么是 Compressed Convolutional Attention(CCA)?

      我認為,從整體思路上來看,CCA 與 DeepSeek 模型中的 MLA(Multi-head Latent Attention)是相近的,因為它們都在 Attention Block 中引入了壓縮后的 latent representation。不過,兩者使用 latent space 的方式并不相同。

      MLA 的核心目標,主要是通過 latent representation 來壓縮 KV Cache。在 MLA 中,KV Tensor 會以壓縮形式存儲,隨后再被投影回 Attention Head 空間,用于真正的 Attention 計算。



      普通 Multi-head Attention(MHA)與 Multi-head Latent Attention(MLA)對比。

      而 CCA 則更進一步,它不僅壓縮 K、V,還同時壓縮 Q,并且直接在壓縮后的 latent space 中完成 Attention 運算。也正因為如此,CCA 不僅能夠減少 KV Cache 的大小,還能夠降低 Prefill 階段與訓練階段的 Attention FLOPs。



      MLA 與 CCA 的結構對比。

      正如上圖所示的,在 CCA 中,壓縮后的 latent representation 會直接進入 Attention 機制,而生成出的 compressed attention vector 隨后再被 up-project 回原始空間。

      為什么叫「卷積注意力」?

      這里需要特別注意:它被稱為 「Compressed Convolutional Attention」,而不僅僅是「Compressed Attention」,是因為在 latent K 與 latent Q 上,還額外加入了 convolutional mixing(卷積混合)

      由于結構圖中空間有限,沒有把這一部分畫出來,但它本身其實并不復雜。正如 Figure 12 所暗示的,卷積混合是直接作用在壓縮后的 Q Tensor 與 K Tensor 上的。

      原因在于壓縮會讓 Q、K、V 維度變窄,從而降低計算量與緩存開銷,但與此同時,也可能削弱 Attention 的表達能力。

      而卷積則是一種相對廉價的方法,它能夠在 Q 與 K 被用于 Attention Score 計算之前,為這些壓縮后的表示補充更多局部上下文信息。

      (這里的卷積只作用于 Q 與 K,而不作用于 V。因為 Q 與 K 決定的是 Attention Score,而 V 則代表最終被加權聚合的內容。)



      Sequence-Mixing Convolution 的概念示意圖。

      除了前文中展示的 Sequence Mixing 外,CCA 還包含一個 Channel Mixing Component。不過它們在原理上較為類似,因此這里不再單獨展開。

      CCA 看起來是 Zyphra 在 ZAYA1-8B Technical Report 發(fā)布之前就已經提出的一種 Attention 機制。獨立論文《Compressed Convolutional Attention: Efficient Attention in a Compressed Latent Space》最早發(fā)表于 2025 年 10 月,并正式提出了 CCA;而 ZAYA1-8B 則將這一機制作為核心架構組件之一實際投入使用。

      CCA 是否真的比 MLA 更好?

      根據 CCA 論文中的實驗結果,在相同壓縮設置下,CCA 的表現確實優(yōu)于 MLA。



      CCA 論文中的實驗結果標注圖。

      總體來說,這部分真正有意思的地方,其實是新的 Attention 機制本身。

      當然,ZAYA1-8B 同時也采用了相當激進(也就是非常稀疏)的 MoE 結構:每個 token 只激活一個 routed expert。不過這一點相對已經比較常見。

      真正更特殊的是 CCA,它直接在壓縮 latent space 中執(zhí)行 Attention 計算,并通過對壓縮后的 Q/K 做卷積混合,來緩解壓縮 Attention 本身表達能力受限的問題。

      簡而言之,ZAYA1-8B 不只是想在 Feed-Forward Layer 上節(jié)省計算量,它甚至試圖從 Attention Mechanism 本身開始降低計算成本。

      DeepSeek V4:mHC 與壓縮注意力

      DeepSeek V4 是今年最受關注的大模型之一。有意思的是,如果按照 active-parameter share(活躍參數占比)來衡量,DeepSeek V4-Pro 同時也是參數最稀疏的 MoE 模型。

      關于 DeepSeek V4,其實有很多可以討論的內容。不過由于它已經在新聞與社區(qū)中被廣泛討論,同時為了繼續(xù)聚焦「架構層面的改動」,這里我主要關注兩個相較以往架構真正新的部分:

      • 用于擴展 Residual Path 的 mHC;
      • 用于長上下文 Attention 壓縮與稀疏化的 CSA/HCA。

      從下圖中的 DeepSeek V4 架構圖來看,整個結構似乎非常復雜。不過,一個比較有效的閱讀方式是將 Residual Path 上的改動(mHC),與 Attention Path 上的改動(CSA/HCA 與 Compressed Attention Cache)分開理解。



      DeepSeek V4-Pro 架構概覽。

      5.1 mHC:流形約束超連接

      我們先從 DeepSeek V4 中的 mHC 組件開始。

      這一設計最早來自 DeepSeek 團隊在去年(2025 年 12 月 31 日)發(fā)布的一篇研究論文《mHC: Manifold-Constrained Hyper-Connections》。不過,當時論文中的實驗只在一個 27B 規(guī)模的實驗模型上完成。而如今,我們已經在他們的旗艦模型中看到了這一機制,這也意味著,這一想法很可能已經在真實生產環(huán)境中被驗證有效。

      mHC 的核心目標,是重新設計 Transformer Block 內部的 Residual Connection。這一點其實非常新鮮,因為近年來絕大多數架構改動,通常都集中在Attention Mechanism、Normalization Layer 的放置方式與MoE 結構本身。

      mHC 本身建立在更早的 Hyper-Connections 工作之上(見 Zhu 等人 2024 年論文《Hyper-connections》),因此我們需要先簡單理解一下 Hyper-Connections。

      傳統(tǒng) Transformer 中,只有一條單獨的 Residual Stream。而 Hyper-Connections 會把它替換成:多條并行 Residual Stream,并通過可學習映射(learned mappings)在它們之間交換信息。

      Hyper-Connections 的核心思想,是「擴寬 Residual Stream」。

      可以把它理解為模型同時維護多條并行 Residual Path,并額外加入一個 Res Mapping 線性變換,在不同 Residual Stream 之間進行信息混合

      由于 Attention Layer 或 MoE Layer 本身仍然工作在普通 Hidden Size 上,因此 Hyper-Connections 還會增加:

      • Pre Mapping:把多條 Residual Stream 合并成單一 Hidden Vector;
      • Post Mapping:再把 Layer 輸出重新分發(fā)回多個 Residual Stream。



      普通 Transformer Block(上)與帶 Hyper-Connections 的 Transformer Block(下)。

      上圖主要展示了 Attention Branch 中的結構,但同樣的思想也適用于圍繞 MoE Layer 的第二條 Residual Branch。

      Hyper-Connections 的目的,是在不真正擴大 Attention 或 MoE Layer 本身寬度的情況下,讓 Residual Path 擁有更強表達能力。

      而它帶來的 FLOPs 增長其實很有限,因為這些額外映射只作用在較小的 residual-stream 維度上(例如 DeepSeek V4 中 n=4),而不是作用在巨大的 hidden dimension 上。

      在最初的 Hyper-Connections 論文中,7B OLMo MoE 模型的 FLOPs per token 從 13.36G 增加到 13.38G,幾乎沒有變化;而性能指標則獲得了穩(wěn)定但溫和的提升。

      當然,只看 FLOPs 其實有些過于簡單。因為擴寬后的 Residual State 依然需要存儲、在顯存中移動并參與混合計算。 因此,真正的額外開銷更多可能來自Memory Traffic 與 Implementation Complexity,而不僅僅是算術計算本身。

      不過考慮到 DeepSeek V4 整體都在追求效率,這看起來依然是一個值得加入的設計。



      Hyper-Connections 相較 Baseline 的性能表現。

      傳統(tǒng) Transformer 只有單一 residual stream。而 Hyper-Connections 將其擴展成多個并行 residual stream。

      此外,如圖所示:Hyper-Connections 在大約只使用一半訓練 token的情況下,就達到了 Baseline 的性能水平。

      而從普通 Hyper-Connections(HC)到 Manifold-Constrained Hyper-Connections(mHC)最關鍵的變化,在于這些 Mapping 不再是「無約束」的。

      在普通 HC 中,Res Mapping 是一個可學習矩陣,用于混合不同 Residual Stream。但當多個這樣的矩陣不斷堆疊時,信號可能會不可預測地被放大或縮小。

      而在 mHC 中,這個 Residual Mapping 會被約束到「雙隨機矩陣(doubly stochastic matrix)」流形上。也就是說:所有元素非負; 每一行之和為 1; 每一列之和為 1。

      這樣一來:Residual Mixing 會更像是一種穩(wěn)定的信息重新分配(stable redistribution),而不是不可控的信號放大或衰減。

      與此同時 Pre Mapping 與 Post Mapping 也同樣會被約束為非負且有界,從而避免在讀取與寫回擴寬 Residual State 時出現信息抵消。

      簡而言之,mHC 保留了 HC 更豐富的 Residual Mixing 能力,同時加入額外約束,使其在更大、更深的模型中能夠更穩(wěn)定地擴展。

      除此之外,多 Residual Stream 的整體思路并沒有改變,如下圖所示。



      采用 HC 與 mHC 的 Transformer Block。

      在 mHC 論文中,DeepSeek 團隊基于 27B 模型實驗表明:在使用融合優(yōu)化(fusion)、重計算(recomputation)與 pipeline scheduling 后,即使在整個 Transformer 中使用 4 條 Residual Stream(n=4),訓練時間額外開銷也僅增加約 6.7%。

      總結來說:HC/mHC 的本質,是通過把單一 Residual Stream 替換為多條相互交互的 Residual Stream,重新定義信息在 Transformer Layer 中的傳播方式。mHC 則進一步加入穩(wěn)定性約束,同時只帶來很小的計算額外開銷

      此外,它也與后面將介紹的 CSA/HCA Attention 改動形成了很好的配合。

      通過 CSA 與 HCA 實現壓縮 Attention

      DeepSeek V4 的另一項核心架構升級,發(fā)生在 Attention 部分。其背后的動機依然非常明確:在超長上下文場景下,Attention 的成本不僅來自 Attention Score 本身的計算,還來自 KV Cache 會隨著 Sequence Length 持續(xù)增長。

      DeepSeek V4 針對這一問題,引入了兩種壓縮 Attention 機制的混合設計:

      • Compressed Sparse Attention(CSA)
      • Heavily Compressed Attention(HCA)

      首先需要注意的是:DeepSeek V4 中的 CSA/HCA,與 DeepSeek V2/V3 中 MLA 風格的壓縮并不是同一種思路。

      MLA 的壓縮對象主要是「每個 token 對應的 KV 表示」,而 CSA/HCA 壓縮的則是「Sequence Dimension 本身」。

      也就是說,它們不再為每個歷史 token 都保留一個完整(或壓縮)KV Entry,而是把一組 token 匯總成更少的壓縮 KV Entry,因此整個 Cache 本身也變短了。



      MLA、CSA 與 HCA 的概念對比。

      MLA 會壓縮每個 token 的 KV Representation,但依然保留「一 token 對應一個 latent KV」。而 CSA,尤其是 HCA,則進一步減少「Sequence Entry 的數量」

      因此模型會犧牲部分 token-level 信息,以換取顯著更低的長上下文成本。

      當然,這種壓縮也存在質量上的 Trade-off:如果壓縮過強,模型能力就可能下降。

      也正因如此,DeepSeek V4 并沒有只依賴一種壓縮機制,而是:交替使用 CSA 與 HCA

      • CSA 使用較輕的壓縮率,并結合類似 DSA(DeepSeek Sparse Attention)的 Sparse Selector;
      • HCA 則采用更激進的壓縮,用于更便宜地覆蓋全局上下文;
      • 兩者都保留了一個 Local Sliding-Window Branch,用于處理最近的未壓縮 token。

      HCA 是其中更激進的版本:它會把每 128 個 token 壓縮成一個 KV Entry,然后在這些高度壓縮后的 KV 上執(zhí)行 Dense Attention。

      換句話說,CSA 保留更多細節(jié),但采用 Sparse Selection; HCA 保留更少 Entry,但因此能夠負擔 Dense Attention



      CSA 與 HCA 的對比。

      CSA 與 HCA 在某種程度上是互補的,這也是為什么 DeepSeek V4 會交替使用它們,而不是只采用其中一種。

      根據 DeepSeek V4 論文,在 1M Token Context 下,相比采用 MLA 與 DSA 的 DeepSeek V3.2:DeepSeek V4-Pro 的單 token 推理 FLOPs 僅為后者的 27%,KV Cache 大小僅為后者的 10%。

      而 DeepSeek V4-Flash 更進一步:FLOPs 降至 10%,KV Cache 降至 7%。



      DeepSeek V4 相較 DeepSeek V3.2 的 1M Context 效率數據。

      不過,我并不會簡單地把 CSA/HCA 定義為「比 MLA 更好」。CSA/HCA 本質上是一種更激進、更偏向長上下文效率的設計,而且它本身也更加復雜。

      遺憾的是,論文中并沒有提供完整的 Ablation Study。不過整體來看,論文確實展示了非常強的最終結果,例如:DeepSeek V4-Flash-Base 在多數 Base Benchmark 上超過 DeepSeek V3.2-Base; 同時擁有很強的 1M-token Retrieval 能力。

      但需要注意的是,這些結果來自整個 DeepSeek V4 完整訓練體系,包括:更好的數據、基于 Muon 的優(yōu)化、mHC、精度與存儲優(yōu)化以及訓練推理系統(tǒng)優(yōu)化;

      而不僅僅是 CSA/HCA 本身。就我個人而言,目前我更傾向于把 CSA/HCA 看作:

      一種以效率為核心的長上下文設計。它似乎能夠在大型旗艦模型中很好地保留模型質量,但并不意味著它在所有場景下都絕對優(yōu)于 MLA。

      總結

      2026 年的新一代開源 LLM,一個非常明顯的趨勢是:大家都在嘗試降低長上下文成本,但并不是簡單地通過縮小模型總參數量來實現,而是通過大量結構級優(yōu)化。

      • Gemma 4:跨層 KV 共享 + PLE
      • Laguna:分層 Attention Budget
      • ZAYA1:壓縮 latent attention
      • DeepSeek V4:mHC + CSA/HCA

      Transformer Block 仍然在持續(xù)演化,但這種變化已經變得越來越定向化。

      相比 GPT-2 時代幾十行 PyTorch 就能實現,如今的 Attention Variant,代碼復雜度可能已經增長了 10 倍。

      但這些復雜化的目的并不是增加成本,而是為了實現真正的超長上下文推理。

      但另一方面,理解這些組件本身,以及它們之間如何相互作用,也正在變得越來越困難。



      從 GPT-2(2019)到 DeepSeek V4-Pro(2026)的演化過程。

      對此,你怎么看?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      有專家說出實話:現在低價賣掉房子的人,未來都將后悔?太真實

      有專家說出實話:現在低價賣掉房子的人,未來都將后悔?太真實

      蜉蝣說
      2026-05-18 18:32:53
      1979年,越軍狙擊手,將副師長一槍打死,我軍找不出人,立馬撤離

      1979年,越軍狙擊手,將副師長一槍打死,我軍找不出人,立馬撤離

      興趣知識
      2026-05-18 00:46:47
      76歲老人為傳宗接代將流浪女撿回家生子,十年后為自己挖掘墳墓?

      76歲老人為傳宗接代將流浪女撿回家生子,十年后為自己挖掘墳墓?

      卡索
      2024-06-06 11:38:13
      面相大變?那個砸神像、睡墳場“八字命硬”的網紅,如今差別太大

      面相大變?那個砸神像、睡墳場“八字命硬”的網紅,如今差別太大

      鯨探所長
      2026-03-30 19:37:08
      匈牙利總理直播揭露歐爾班的奢華,不坐豪華防彈車,不住總理官邸

      匈牙利總理直播揭露歐爾班的奢華,不坐豪華防彈車,不住總理官邸

      夢史
      2026-05-19 08:42:28
      羅某違規(guī)用無人機航拍非法獲取大量航母高清照片,極易被用來推測航母建造進度、敏感設備參數、核心技術水平等國家秘密,直接威脅國防安全

      羅某違規(guī)用無人機航拍非法獲取大量航母高清照片,極易被用來推測航母建造進度、敏感設備參數、核心技術水平等國家秘密,直接威脅國防安全

      揚子晚報
      2026-05-19 11:04:27
      容易發(fā)胖的5種主食,餃子位列第3,第一名很多人天天都在吃

      容易發(fā)胖的5種主食,餃子位列第3,第一名很多人天天都在吃

      江江食研社
      2026-05-19 05:30:08
      大伯老炫耀兒子是公務員,我就說自己年薪60w,是他的10倍!結果大伯說:你深圳掙60w正常!但要論生活質量,肯定還是我兒子高!

      大伯老炫耀兒子是公務員,我就說自己年薪60w,是他的10倍!結果大伯說:你深圳掙60w正常!但要論生活質量,肯定還是我兒子高!

      譚老師地理大課堂
      2026-05-04 00:06:09
      馬蘇:我和孔令輝同居多年后分手,如今都沒結婚,卻只能做朋友

      馬蘇:我和孔令輝同居多年后分手,如今都沒結婚,卻只能做朋友

      漢字筆跡心理分析
      2026-05-18 08:30:18
      印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

      印度:我們每家都有電視,中國行嗎?法國:人家中國居民不用偷電

      離離言幾許
      2026-04-10 14:51:25
      鏡報:圖赫爾準備帶三名前鋒,沃特金斯有望入選

      鏡報:圖赫爾準備帶三名前鋒,沃特金斯有望入選

      懂球帝
      2026-05-19 04:45:12
      你在無意中發(fā)現別人什么秘密?網友爆料,電視劇都不敢這樣演

      你在無意中發(fā)現別人什么秘密?網友爆料,電視劇都不敢這樣演

      夜深愛雜談
      2026-03-16 22:21:03
      王毅因故缺席,印度主場兩國互撕,中方發(fā)聲:金磚依然是核心平臺

      王毅因故缺席,印度主場兩國互撕,中方發(fā)聲:金磚依然是核心平臺

      嘆知
      2026-05-19 11:48:00
      38年八路軍發(fā)現“世外桃源”,對外人格殺勿論,聶榮臻:立即剿滅

      38年八路軍發(fā)現“世外桃源”,對外人格殺勿論,聶榮臻:立即剿滅

      比利
      2026-05-17 15:05:00
      電商平臺廣為銷售的“日本叮叮”為商標,和日本無關

      電商平臺廣為銷售的“日本叮叮”為商標,和日本無關

      第一財經資訊
      2026-05-18 23:05:40
      黃仁勛在辣妹胸口簽名后,更炸裂的一幕出現了!

      黃仁勛在辣妹胸口簽名后,更炸裂的一幕出現了!

      財經三分鐘pro
      2026-05-19 10:24:57
      全職媽媽曬“豐盛早餐”,網友怒批:這不是愛,是“暈碳”!

      全職媽媽曬“豐盛早餐”,網友怒批:這不是愛,是“暈碳”!

      小羽叨叨叨
      2026-05-19 11:09:44
      尼克松問:您有什么特長?毛主席回答后,尼克松向他深深鞠了一躬

      尼克松問:您有什么特長?毛主席回答后,尼克松向他深深鞠了一躬

      潯陽咸魚
      2026-05-16 11:40:20
      兩名上海孩童離奇離世:一度被傳櫻桃核奪命,真兇藏在一墻之隔

      兩名上海孩童離奇離世:一度被傳櫻桃核奪命,真兇藏在一墻之隔

      野間中一狼
      2026-05-18 13:41:11
      陪睡只是入門!認干爹、舔手指,背地里的陰暗面完全藏不住了...

      陪睡只是入門!認干爹、舔手指,背地里的陰暗面完全藏不住了...

      芳華青年
      2026-05-18 13:07:54
      2026-05-19 14:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      13031文章數 142651關注度
      往期回顧 全部

      科技要聞

      蘋果WWDC26定檔6月9日凌晨:iOS27將亮相

      頭條要聞

      賴清德彈劾案未通過:同意票56張未達門檻 但仍創(chuàng)紀錄

      頭條要聞

      賴清德彈劾案未通過:同意票56張未達門檻 但仍創(chuàng)紀錄

      體育要聞

      58順位的保羅,最強第三中鋒

      娛樂要聞

      張雪峰42歲冥誕,學生家長自發(fā)緬懷

      財經要聞

      從賣流量到賣Token,運營商算力生意破局

      汽車要聞

      試駕與眾07:首搭CEA架構 德味操控+聰明大腦

      態(tài)度原創(chuàng)

      手機
      親子
      時尚
      公開課
      軍事航空

      手機要聞

      宋雨琦代言!OPPO Reno16系列正式亮相:3D懸浮星球工藝 配色夢幻

      親子要聞

      10歲男孩狂吃海苔致碘超標,脖子粗大確診甲狀腺結節(jié)。家長注意這幾種零食別亂吃!

      休閑闊腿褲怎么穿才美?看看這些穿搭公式,解鎖不重樣的造型

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      莫斯科遭一年多來最大規(guī)模無人機襲擊 3死18傷

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久国产精品成人影院| 日本日本熟妇中文在线视频| 国产免费一区二区不卡| 欧美啪啪视频| 九九精品在线看| 深夜精品免费在线观看| 国产欧美日韩精品一区二区三区| 国产流白浆喷水在线观看| 国产精品538一区二区在线| 欧美a在线播放| 遵化市| 狠狠?综合?精品?伊人| 国产精品无码a∨精品| 国产产无码乱码精品久久鸭| 国产精品激情自拍系列| 内射老阿姨1区2区3区4区| 天天影视色香欲综合久久| 亚洲黑人av| 狠狠色综合欧美天天| 日韩亚洲产在线观看| 婷婷99狠狠躁天天| 国产一区精品在线免费看| 亚洲一区二区精品另类| 肏屄视频在线观看| 国产美女久久久亚洲综合| 精品无套内射后入少妇| 校园春色?武侠古典?都市亚洲| 丰满无码人妻热妇无码区| 欧美成人va免费大片视频| 岛国av在线免费观看| 久久人妻乱| 1精品啪国产在线观看免费牛牛| 久久精品性无码一区二区爱爱| 久久精品免视看国产成人| 18禁精品一区二区三区| 色婷婷AV一区二区三区软件| 国产乱妇乱子视频在播放| 久久综合九色欧美综合狠狠| 免费无码在外自慰喷水| 亚洲韩欧美第25集完整版| 成年午夜免费韩国做受视频|