扒完DeepSeek-V4技術報告，我看到了異構內(nèi)存的含金量

2026-04-25 19:05:07　來源: 芯東西

北京舉報

分享至

芯東西（公眾號：aichip001）
作者程茜
編輯漠影

芯東西4月25日報道，本周五，“國產(chǎn)大模型頂流”DeepSeek-V4開源，其產(chǎn)業(yè)影響力火速蔓延：DeepSeek-V4-Pro登頂Hugging Face開源模型榜，A股和港股的AI算力板塊全線飄紅，國產(chǎn)AI芯片廠家、云巨頭、服務器廠家開啟密集適配、接入……

DeepSeek-V4兩款模型DeepSeek-V4-Pro與DeepSeek-V4-Flash，采用MoE架構，總參數(shù)規(guī)模達到1.6T（激活49B）與284B（激活13B），均支持最長百萬Token上下文。

昨日，DeepSeek還亮出核心技術底牌，正式發(fā)布新模型技術報告，全面拆解新一代架構升級內(nèi)核、深度優(yōu)化預訓練與后訓練全流程體系，公開了全套核心算法與迭代秘籍。

扒完這份報告不難發(fā)現(xiàn)，DeepSeek-V4以CSA、HCA混合注意力、異構KV Cache、FP4量化感知訓練等系統(tǒng)性創(chuàng)新，從算法根源打破“內(nèi)存墻”，讓百萬Token長上下文推理真正走向低成本、可規(guī)模化的工程落地。

算法層面的突破背后，DeepSeek-V4更是用極致壓縮架構，反向定義了下一代AI芯片必須走的硬件升級方向：通過差異化存算方案，適配不同數(shù)據(jù)在帶寬、延遲、存儲容量上的多元需求。

一、DeepSeek-V4開啟效率革命，百萬級超長上下文拉滿

DeepSeek-V4全系標配百萬Token超長上下文，其上下文長度達到上一代DeepSeek-V3.2模型的近8倍。

根據(jù)技術報告，這得益于其核心架構的幾項關鍵升級：

首先，DeepSeek-V4采用了混合注意力架構。DeepSeek結合了CSA（壓縮稀疏注意力）和HCA（高度壓縮注意力），使DeepSeek-V4-Pro在100萬Token的上下文設置下，相比DeepSeek-V3.2僅需27%的單Token推理浮點運算量，KV Cache占用量降至前代模型的10%。

更輕量的DeepSeek-V4-Flash將效率推至更高水平，其單Token浮點運算量僅為DeepSeek-V3.2的10%，KV Cache占用容量更是低至后者的7%。

這一架構升級的核心思路是，CSA先將KV Cache沿序列維度進行壓縮，再在壓縮后的條目上執(zhí)行稀疏注意力，僅關注最相關的壓縮塊。HCA則采用更大壓縮率，將每128個Token的KV信息融合為一個條目，但保持稠密注意力，兩種機制交替，底層使用CSA保持精細的局部依賴，高層使用HCA大幅壓縮遠端上下文。

▲CSA核心架構（左）、HCA核心架構（右）

其次，DeepSeek引入了mHC（流形約束超連接）以及Muon優(yōu)化器，mHC結構能在保留模型表征能力的同時提升多層網(wǎng)絡間信號傳播的穩(wěn)定性；Muon優(yōu)化器可幫助實現(xiàn)更快的收斂速度和更高的訓練穩(wěn)定性。

最后是升級版DeepSeekMoE，DeepSeek-V4保持每層384個路由專家+1個共享專家，每Token激活6個的DeepSeekMoE框架，并將初始層的密集FFN替換為Hash路由的MoE層，提升稀疏激活效率。

此外，DeepSeek-V4還設計了異構KV Cache與磁盤緩存機制：壓縮后的CSA/HCA條目存盤，滑動窗口SWA未壓縮KV支持全緩存、周期檢查點、零緩存三級策略，靈活平衡存儲與計算，實現(xiàn)共享前綴請求零重復預填充。

▲DeepSeek-V4整體架構

二、算法創(chuàng)新打破內(nèi)存墻，DeepSeek-V4倒逼AI芯片重構存算邏輯

DeepSeek-V4的技術革新背后，是萬億參數(shù)模型普遍面臨的推理效率困局。

算力是最近幾年大模型產(chǎn)業(yè)的焦點話題，從算力供給、GPU緊缺程度，再到超算集群的規(guī)模化擴張，始終是行業(yè)熱議焦點。

但伴隨大模型進入商業(yè)落地、實際部署的關鍵期，產(chǎn)業(yè)界愈發(fā)意識到，即便算力問題得到階段性緩解，系統(tǒng)層面的瓶頸并未消失，而是悄然轉移到了另一個核心環(huán)節(jié)——內(nèi)存。

伴隨大模型參數(shù)規(guī)模卷上萬億、上下文長度達到百萬，AI推理產(chǎn)生的中間過程數(shù)據(jù)體量急劇膨脹，對內(nèi)存承載上限與讀寫訪問效率形成嚴苛考驗。以英偉達H200為例，其配備141GB HBM3E顯存和4.8TB/s傳輸帶寬，但算力與內(nèi)存帶寬仍存在明顯差距。AI解碼時數(shù)據(jù)搬運速度跟不上運算節(jié)奏，大量計算單元空轉閑置，既浪費硬件性能也加劇高功耗問題。

當前場景下，GPU算力并未充分閑置，但顯存裝不下、數(shù)據(jù)傳太慢拖了后腿，會引發(fā)功耗飆升、整機部署成本大幅攀升等一系列連鎖問題。

在這樣的背景下，AI芯片的競爭邏輯正在重構：不單純比拼“運算速度”，而是延伸至內(nèi)存容量、數(shù)據(jù)吞吐、能耗控制的綜合較量。

此前不少廠商依靠堆砌高規(guī)格內(nèi)存，以硬件冗余掩蓋架構短板保障推理運行，代價是功耗與硬件成本持續(xù)走高。但這種治標不治本的方案，已無法適配長期產(chǎn)業(yè)發(fā)展。

因此，當下AI芯片廠商正面臨雙重挑戰(zhàn)：內(nèi)存墻瓶頸持續(xù)加劇，且DeepSeek-V4算法迭代提速，倒逼硬件同步進化。

正如前文所述，DeepSeek-V4通過幾項關鍵架構創(chuàng)新攻克“內(nèi)存墻”難題，真正實現(xiàn)了百萬Token長文本推理的規(guī)模化落地。但矛盾的是，當前多數(shù)AI芯片仍采用同質(zhì)化存算設計，難以適配新一代大模型的分層運行邏輯與異構數(shù)據(jù)特征。

這也意味著，這樣的AI芯片會抵消模型算法升級換來的壓縮優(yōu)勢、成本優(yōu)勢與性能增益，成為制約大模型推理效能釋放的核心瓶頸。

具體來看，DeepSeek-V4推理存在鮮明的數(shù)據(jù)異構特征：KV Cache、門控路由、注意力與共享專家參數(shù)屬于高頻低延遲的熱數(shù)據(jù)；384個全量路由專家、壓縮遠端KV、磁盤級冷存KV為低頻低時效的冷數(shù)據(jù)，僅少量專家參與激活計算。

并且模型本身已通過量化壓縮、分級緩存、冷熱分層存儲完成精細化設計，天然適配異構內(nèi)存架構，亟需硬件以差異化存算方案匹配不同數(shù)據(jù)的帶寬、延遲與容量需求。

三、冷熱數(shù)據(jù)分層+雙DRAM融合，異構內(nèi)存破局內(nèi)存墻

想要破解這一困局，從系統(tǒng)層面著手的核心思路是：讓不同類型的內(nèi)存各司其職。深耕3D內(nèi)存領域多年的微珩科技，其底層研發(fā)邏輯正與此思路一脈相承。

具體來看，針對DeepSeek-V4的異構數(shù)據(jù)訪問特性，微珩扶光芯片摒棄單一內(nèi)存堆疊設計，融合3D DRAM與2D DRAM，打造了定制化異構內(nèi)存子系統(tǒng)：

該架構的創(chuàng)新性在于，以3D堆疊DRAM替代端側LPU傳統(tǒng)片上SRAM，結合三維堆疊、混合鍵合封裝，縮短數(shù)據(jù)傳輸路徑，兼顧SRAM低時延與DRAM高密度、低成本優(yōu)勢。

基于此，其能解決SRAM容量小、面積與成本高的局限，同等芯片面積存儲大幅擴容，適配大參數(shù)模型、長上下文推理；避開HBM供應鏈與高帶寬依賴問題。再加上其存算就近互聯(lián)，權重常駐存儲、訪存更穩(wěn)定，能降低功耗與量產(chǎn)成本。

其中，3D DRAM依托TSV硅通孔垂直堆疊架構，大幅縮短數(shù)據(jù)傳輸路徑，兼具低訪問延遲、低比特功耗與超高帶寬，適配高頻熱點數(shù)據(jù)讀寫；

2D DRAM采用成熟平面布線方案，散熱表現(xiàn)優(yōu)異、容量可靈活拓展，且成本可控、供給穩(wěn)定，適配低頻冷數(shù)據(jù)存儲。

兩類內(nèi)存形成高速低耗、大容量低成本互補組合。此外，微珩科技自研的數(shù)據(jù)映射策略，還能適配DeepSeek-V4的分層調(diào)度邏輯。

對帶寬敏感的核心熱數(shù)據(jù)，微珩將KV Cache、MoE門控網(wǎng)絡、共享專家、注意力參數(shù)，以及已激活路由專家高速緩存，統(tǒng)一掛載至3D DRAM。

門控網(wǎng)絡需實時完成384個路由專家權重運算，支撐單Token動態(tài)調(diào)度；壓縮后的KV Cache解碼階段仍需逐輪高頻調(diào)取；共享專家與注意力參數(shù)為推理核心高頻組件，疊加激活專家緩存的時間局部性訪問特征，依托3D DRAM高帶寬、低延遲優(yōu)勢，保障核心鏈路高速讀寫與高效計算。

而帶寬需求較低的冷數(shù)據(jù)，則統(tǒng)一存放于2D DRAM，包含F(xiàn)P4量化全量路由專家、HCA壓縮遠端KV條目及磁盤下沉冷緩存。

模型單Token僅激活6位專家，其余全量參數(shù)長期低頻駐存，2D DRAM大容量、低成本的特性，可承載384個全量專家參數(shù)與低頻遠端數(shù)據(jù)存儲，基礎帶寬足以匹配訪問需求。

這樣通過冷熱數(shù)據(jù)分層異構部署的策略，能在控制硬件成本的前提下進一步釋放推理性能，以壓低萬億參數(shù)大模型的落地部署成本與落地門檻。

四、微珩科技用異構內(nèi)存，改寫大模型落地規(guī)則

DeepSeek-V4的問世，不僅是架構層面的創(chuàng)新，更是大模型在端側落地部署的關鍵里程碑。

桌面一體機、邊緣服務器等端側設備在部署大模型時，往往會受限于高速內(nèi)存成本高昂且容量有限。

根源在于傳統(tǒng)架構采用單一內(nèi)存方案，對所有模型參數(shù)進行同質(zhì)化存儲，這樣一來，全部署于低速內(nèi)存會限制推理性能；全部署于高速內(nèi)存會面臨容量不足的問題，都會導致大模型難以在端側落地。

而DeepSeek-V4來自算法層面的核心升級，疊加微珩扶光芯片的2D+3D異構架構，恰好形成一套完整可行的破局方案。

在算法端，DeepSeek通過CSA、HCA從算法層壓縮計算與顯存，搭配異構KV Cache做分級存儲、FP4量化壓縮參數(shù)，三者協(xié)同使得僅高頻訪問的關鍵參數(shù)駐留高速內(nèi)存，其余海量資源全部遷移至低速內(nèi)存，為端側部署掃清算力瓶頸。

在硬件端，微珩扶光芯片的2D+3D異構內(nèi)存架構具有天然優(yōu)勢，對應DeepSeek-V4的分層策略，2D DRAM承接海量路由專家和冷數(shù)據(jù)，降低硬件成本；3D DRAM保障KV Cache、門控網(wǎng)絡等核心數(shù)據(jù)高速流轉，實現(xiàn)推理效率提升。無需堆砌昂貴的HBM，端側設備即可運行萬億參數(shù)級大模型。

長期來看，這套算法與硬件一體化的解決方案或能打破超算中心對高階AI能力的壟斷，推動AI算力從高成本云端，大規(guī)模下沉至消費電子、智能硬件、邊緣終端等全域設備，真正落地端側普惠、算力平權的產(chǎn)業(yè)趨勢。

微珩科技在3D內(nèi)存方案的技術革新、商業(yè)化方面已經(jīng)有不少成果。其芯片團隊于2021年量產(chǎn)了首款3D內(nèi)存方案計算芯片，是國內(nèi)首批開展相關技術方案設計與量產(chǎn)的企業(yè)之一，近年來已先后量產(chǎn)兩代芯片，累計實現(xiàn)營收超10億元。

身處本輪技術范式迭代的關鍵周期，微珩科技已成為端側AI產(chǎn)業(yè)化落地的核心推動者。

結語：DeepSeek算法革新，正倒逼內(nèi)存產(chǎn)業(yè)升級

當大模型競爭從算法參數(shù)比拼邁入軟硬協(xié)同落地的全新周期，單一的架構優(yōu)化或是硬件堆料，都已無法支撐行業(yè)長期發(fā)展。可以預見，未來AI產(chǎn)業(yè)的核心競爭力，將可能不再局限于云端超算的極限算力，而是落腳于存算異構、分層調(diào)度、成本可控的全域部署能力。端側算力下沉、算力平權普及或將成為不可逆的產(chǎn)業(yè)趨勢。

當下，DeepSeek-V4的算法革新，正倒逼內(nèi)存架構走向精細化、差異化的分層設計。以微珩扶光芯片為代表的異構內(nèi)存方案，印證了冷熱數(shù)據(jù)分流、高低速內(nèi)存協(xié)同是突破端側瓶頸的有效路徑。這也意味著，從云端集中式算力，到云邊端分布式協(xié)同，AI產(chǎn)業(yè)正迎來一次底層架構的變革。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.