<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      扒完DeepSeek-V4技術報告,我看到了異構內(nèi)存的含金量

      0
      分享至


      芯東西(公眾號:aichip001)
      作者 程茜
      編輯 漠影

      芯東西4月25日報道,本周五,“國產(chǎn)大模型頂流”DeepSeek-V4開源,其產(chǎn)業(yè)影響力火速蔓延:DeepSeek-V4-Pro登頂Hugging Face開源模型榜,A股和港股的AI算力板塊全線飄紅,國產(chǎn)AI芯片廠家、云巨頭、服務器廠家開啟密集適配、接入……


      DeepSeek-V4兩款模型DeepSeek-V4-Pro與DeepSeek-V4-Flash,采用MoE架構,總參數(shù)規(guī)模達到1.6T(激活49B)與284B(激活13B),均支持最長百萬Token上下文。


      昨日,DeepSeek還亮出核心技術底牌,正式發(fā)布新模型技術報告,全面拆解新一代架構升級內(nèi)核、深度優(yōu)化預訓練與后訓練全流程體系,公開了全套核心算法與迭代秘籍。

      扒完這份報告不難發(fā)現(xiàn),DeepSeek-V4以CSA、HCA混合注意力、異構KV Cache、FP4量化感知訓練等系統(tǒng)性創(chuàng)新,從算法根源打破“內(nèi)存墻”,讓百萬Token長上下文推理真正走向低成本、可規(guī)模化的工程落地。

      算法層面的突破背后,DeepSeek-V4更是用極致壓縮架構,反向定義了下一代AI芯片必須走的硬件升級方向:通過差異化存算方案,適配不同數(shù)據(jù)在帶寬、延遲、存儲容量上的多元需求

      一、DeepSeek-V4開啟效率革命,百萬級超長上下文拉滿

      DeepSeek-V4全系標配百萬Token超長上下文,其上下文長度達到上一代DeepSeek-V3.2模型的近8倍

      根據(jù)技術報告,這得益于其核心架構的幾項關鍵升級:

      首先,DeepSeek-V4采用了混合注意力架構。DeepSeek結合了CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力),使DeepSeek-V4-Pro在100萬Token的上下文設置下,相比DeepSeek-V3.2僅需27%的單Token推理浮點運算量,KV Cache占用量降至前代模型的10%

      更輕量的DeepSeek-V4-Flash將效率推至更高水平,其單Token浮點運算量僅為DeepSeek-V3.2的10%,KV Cache占用容量更是低至后者的7%


      這一架構升級的核心思路是,CSA先將KV Cache沿序列維度進行壓縮,再在壓縮后的條目上執(zhí)行稀疏注意力,僅關注最相關的壓縮塊。HCA則采用更大壓縮率,將每128個Token的KV信息融合為一個條目,但保持稠密注意力,兩種機制交替,底層使用CSA保持精細的局部依賴,高層使用HCA大幅壓縮遠端上下文。


      ▲CSA核心架構(左)、HCA核心架構(右)

      其次,DeepSeek引入了mHC(流形約束超連接)以及Muon優(yōu)化器,mHC結構能在保留模型表征能力的同時提升多層網(wǎng)絡間信號傳播的穩(wěn)定性;Muon優(yōu)化器可幫助實現(xiàn)更快的收斂速度和更高的訓練穩(wěn)定性。

      最后是升級版DeepSeekMoE,DeepSeek-V4保持每層384個路由專家+1個共享專家,每Token激活6個的DeepSeekMoE框架,并將初始層的密集FFN替換為Hash路由的MoE層,提升稀疏激活效率。

      此外,DeepSeek-V4還設計了異構KV Cache與磁盤緩存機制:壓縮后的CSA/HCA條目存盤,滑動窗口SWA未壓縮KV支持全緩存、周期檢查點、零緩存三級策略,靈活平衡存儲與計算,實現(xiàn)共享前綴請求零重復預填充。


      ▲DeepSeek-V4整體架構

      二、算法創(chuàng)新打破內(nèi)存墻,DeepSeek-V4倒逼AI芯片重構存算邏輯

      DeepSeek-V4的技術革新背后,是萬億參數(shù)模型普遍面臨的推理效率困局。

      算力是最近幾年大模型產(chǎn)業(yè)的焦點話題,從算力供給、GPU緊缺程度,再到超算集群的規(guī)模化擴張,始終是行業(yè)熱議焦點。

      但伴隨大模型進入商業(yè)落地、實際部署的關鍵期,產(chǎn)業(yè)界愈發(fā)意識到,即便算力問題得到階段性緩解,系統(tǒng)層面的瓶頸并未消失,而是悄然轉移到了另一個核心環(huán)節(jié)——內(nèi)存

      伴隨大模型參數(shù)規(guī)模卷上萬億、上下文長度達到百萬,AI推理產(chǎn)生的中間過程數(shù)據(jù)體量急劇膨脹,對內(nèi)存承載上限與讀寫訪問效率形成嚴苛考驗。以英偉達H200為例,其配備141GB HBM3E顯存和4.8TB/s傳輸帶寬,但算力與內(nèi)存帶寬仍存在明顯差距。AI解碼時數(shù)據(jù)搬運速度跟不上運算節(jié)奏,大量計算單元空轉閑置,既浪費硬件性能也加劇高功耗問題。

      當前場景下,GPU算力并未充分閑置,但顯存裝不下、數(shù)據(jù)傳太慢拖了后腿,會引發(fā)功耗飆升、整機部署成本大幅攀升等一系列連鎖問題。

      在這樣的背景下,AI芯片的競爭邏輯正在重構:不單純比拼“運算速度”,而是延伸至內(nèi)存容量、數(shù)據(jù)吞吐、能耗控制的綜合較量

      此前不少廠商依靠堆砌高規(guī)格內(nèi)存,以硬件冗余掩蓋架構短板保障推理運行,代價是功耗與硬件成本持續(xù)走高。但這種治標不治本的方案,已無法適配長期產(chǎn)業(yè)發(fā)展。

      因此,當下AI芯片廠商正面臨雙重挑戰(zhàn):內(nèi)存墻瓶頸持續(xù)加劇,且DeepSeek-V4算法迭代提速,倒逼硬件同步進化

      正如前文所述,DeepSeek-V4通過幾項關鍵架構創(chuàng)新攻克“內(nèi)存墻”難題,真正實現(xiàn)了百萬Token長文本推理的規(guī)模化落地。但矛盾的是,當前多數(shù)AI芯片仍采用同質(zhì)化存算設計,難以適配新一代大模型的分層運行邏輯與異構數(shù)據(jù)特征。

      這也意味著,這樣的AI芯片會抵消模型算法升級換來的壓縮優(yōu)勢、成本優(yōu)勢與性能增益,成為制約大模型推理效能釋放的核心瓶頸。

      具體來看,DeepSeek-V4推理存在鮮明的數(shù)據(jù)異構特征:KV Cache、門控路由、注意力與共享專家參數(shù)屬于高頻低延遲的熱數(shù)據(jù);384個全量路由專家、壓縮遠端KV、磁盤級冷存KV為低頻低時效的冷數(shù)據(jù),僅少量專家參與激活計算。

      并且模型本身已通過量化壓縮、分級緩存、冷熱分層存儲完成精細化設計,天然適配異構內(nèi)存架構,亟需硬件以差異化存算方案匹配不同數(shù)據(jù)的帶寬、延遲與容量需求

      三、冷熱數(shù)據(jù)分層+雙DRAM融合,異構內(nèi)存破局內(nèi)存墻

      想要破解這一困局,從系統(tǒng)層面著手的核心思路是:讓不同類型的內(nèi)存各司其職。深耕3D內(nèi)存領域多年的微珩科技,其底層研發(fā)邏輯正與此思路一脈相承。

      具體來看,針對DeepSeek-V4的異構數(shù)據(jù)訪問特性,微珩扶光芯片摒棄單一內(nèi)存堆疊設計,融合3D DRAM與2D DRAM,打造了定制化異構內(nèi)存子系統(tǒng)

      該架構的創(chuàng)新性在于,以3D堆疊DRAM替代端側LPU傳統(tǒng)片上SRAM,結合三維堆疊、混合鍵合封裝,縮短數(shù)據(jù)傳輸路徑,兼顧SRAM低時延與DRAM高密度、低成本優(yōu)勢。

      基于此,其能解決SRAM容量小、面積與成本高的局限,同等芯片面積存儲大幅擴容,適配大參數(shù)模型、長上下文推理;避開HBM供應鏈與高帶寬依賴問題。再加上其存算就近互聯(lián),權重常駐存儲、訪存更穩(wěn)定,能降低功耗與量產(chǎn)成本。

      其中,3D DRAM依托TSV硅通孔垂直堆疊架構,大幅縮短數(shù)據(jù)傳輸路徑,兼具低訪問延遲、低比特功耗與超高帶寬,適配高頻熱點數(shù)據(jù)讀寫;

      2D DRAM采用成熟平面布線方案,散熱表現(xiàn)優(yōu)異、容量可靈活拓展,且成本可控、供給穩(wěn)定,適配低頻冷數(shù)據(jù)存儲。

      兩類內(nèi)存形成高速低耗、大容量低成本互補組合。此外,微珩科技自研的數(shù)據(jù)映射策略,還能適配DeepSeek-V4的分層調(diào)度邏輯。

      對帶寬敏感的核心熱數(shù)據(jù)微珩將KV Cache、MoE門控網(wǎng)絡、共享專家、注意力參數(shù),以及已激活路由專家高速緩存,統(tǒng)一掛載至3D DRAM。

      門控網(wǎng)絡需實時完成384個路由專家權重運算,支撐單Token動態(tài)調(diào)度;壓縮后的KV Cache解碼階段仍需逐輪高頻調(diào)取;共享專家與注意力參數(shù)為推理核心高頻組件,疊加激活專家緩存的時間局部性訪問特征,依托3D DRAM高帶寬、低延遲優(yōu)勢,保障核心鏈路高速讀寫與高效計算。

      帶寬需求較低的冷數(shù)據(jù),則統(tǒng)一存放于2D DRAM,包含F(xiàn)P4量化全量路由專家、HCA壓縮遠端KV條目及磁盤下沉冷緩存。

      模型單Token僅激活6位專家,其余全量參數(shù)長期低頻駐存,2D DRAM大容量、低成本的特性,可承載384個全量專家參數(shù)與低頻遠端數(shù)據(jù)存儲,基礎帶寬足以匹配訪問需求。

      這樣通過冷熱數(shù)據(jù)分層異構部署的策略,能在控制硬件成本的前提下進一步釋放推理性能,以壓低萬億參數(shù)大模型的落地部署成本與落地門檻。

      四、微珩科技用異構內(nèi)存,改寫大模型落地規(guī)則

      DeepSeek-V4的問世,不僅是架構層面的創(chuàng)新,更是大模型在端側落地部署的關鍵里程碑。

      桌面一體機、邊緣服務器等端側設備在部署大模型時,往往會受限于高速內(nèi)存成本高昂且容量有限。

      根源在于傳統(tǒng)架構采用單一內(nèi)存方案,對所有模型參數(shù)進行同質(zhì)化存儲,這樣一來,全部署于低速內(nèi)存會限制推理性能;全部署于高速內(nèi)存會面臨容量不足的問題,都會導致大模型難以在端側落地。

      DeepSeek-V4來自算法層面的核心升級,疊加微珩扶光芯片的2D+3D異構架構,恰好形成一套完整可行的破局方案。

      算法端,DeepSeek通過CSA、HCA從算法層壓縮計算與顯存,搭配異構KV Cache做分級存儲、FP4量化壓縮參數(shù),三者協(xié)同使得僅高頻訪問的關鍵參數(shù)駐留高速內(nèi)存,其余海量資源全部遷移至低速內(nèi)存,為端側部署掃清算力瓶頸。

      硬件端微珩扶光芯片的2D+3D異構內(nèi)存架構具有天然優(yōu)勢,對應DeepSeek-V4的分層策略,2D DRAM承接海量路由專家和冷數(shù)據(jù),降低硬件成本;3D DRAM保障KV Cache、門控網(wǎng)絡等核心數(shù)據(jù)高速流轉,實現(xiàn)推理效率提升。無需堆砌昂貴的HBM,端側設備即可運行萬億參數(shù)級大模型。

      長期來看,這套算法與硬件一體化的解決方案或能打破超算中心對高階AI能力的壟斷,推動AI算力從高成本云端,大規(guī)模下沉至消費電子、智能硬件、邊緣終端等全域設備,真正落地端側普惠、算力平權的產(chǎn)業(yè)趨勢。

      微珩科技在3D內(nèi)存方案的技術革新、商業(yè)化方面已經(jīng)有不少成果。其芯片團隊于2021年量產(chǎn)了首款3D內(nèi)存方案計算芯片,是國內(nèi)首批開展相關技術方案設計與量產(chǎn)的企業(yè)之一,近年來已先后量產(chǎn)兩代芯片,累計實現(xiàn)營收超10億元。

      身處本輪技術范式迭代的關鍵周期,微珩科技已成為端側AI產(chǎn)業(yè)化落地的核心推動者。

      結語:DeepSeek算法革新,正倒逼內(nèi)存產(chǎn)業(yè)升級

      當大模型競爭從算法參數(shù)比拼邁入軟硬協(xié)同落地的全新周期,單一的架構優(yōu)化或是硬件堆料,都已無法支撐行業(yè)長期發(fā)展。可以預見,未來AI產(chǎn)業(yè)的核心競爭力,將可能不再局限于云端超算的極限算力,而是落腳于存算異構、分層調(diào)度、成本可控的全域部署能力。端側算力下沉、算力平權普及或將成為不可逆的產(chǎn)業(yè)趨勢。

      當下,DeepSeek-V4的算法革新,正倒逼內(nèi)存架構走向精細化、差異化的分層設計。以微珩扶光芯片為代表的異構內(nèi)存方案,印證了冷熱數(shù)據(jù)分流、高低速內(nèi)存協(xié)同是突破端側瓶頸的有效路徑。這也意味著,從云端集中式算力,到云邊端分布式協(xié)同,AI產(chǎn)業(yè)正迎來一次底層架構的變革。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      盲目歌頌農(nóng)民起義的歷史作用,這既不符合客觀規(guī)律,也不是客觀事實

      盲目歌頌農(nóng)民起義的歷史作用,這既不符合客觀規(guī)律,也不是客觀事實

      飯小妹說歷史
      2026-05-13 09:47:43
      別被電視劇騙了!這才是賭王4位嬌妻的真容,貨真價實的罕見照片

      別被電視劇騙了!這才是賭王4位嬌妻的真容,貨真價實的罕見照片

      聚焦最新動態(tài)
      2026-02-12 22:29:55
      包工頭與做飯大姐相好5年,工程完工想走,誰曾想大姐竟不好惹

      包工頭與做飯大姐相好5年,工程完工想走,誰曾想大姐竟不好惹

      磊子講史
      2025-07-02 13:45:23
      英偉達股價連漲7日續(xù)刷記錄新高 總市值達5.63萬億美元

      英偉達股價連漲7日續(xù)刷記錄新高 總市值達5.63萬億美元

      財聯(lián)社
      2026-05-14 21:46:05
      網(wǎng)傳某地事業(yè)編欠薪10個月,社保斷繳已鬧上百姓呼聲!

      網(wǎng)傳某地事業(yè)編欠薪10個月,社保斷繳已鬧上百姓呼聲!

      燈錦年
      2026-05-13 19:39:30
      西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

      西伯利亞:吃不完的鹿肉,收不完的糧;砍不完的森林,挖不完的礦

      抽象派大師
      2026-05-12 20:12:00
      忍了大半年,聞泰科技終于亮劍:荷蘭政府搶走的,連本帶利賠80億

      忍了大半年,聞泰科技終于亮劍:荷蘭政府搶走的,連本帶利賠80億

      知法而形
      2026-05-14 12:02:59
      馬斯克說會談很順利,黃仁勛點贊、庫克比耶

      馬斯克說會談很順利,黃仁勛點贊、庫克比耶

      財聞
      2026-05-14 13:34:16
      迪班薩表態(tài)想留猶他,爵士選秀迎來雙贏局面

      迪班薩表態(tài)想留猶他,爵士選秀迎來雙贏局面

      體壇觀察猿
      2026-05-15 02:33:46
      何猷君奚夢瑤澳門小店用餐,與保鏢同桌吃飯,被指是豪門罕見舉動

      何猷君奚夢瑤澳門小店用餐,與保鏢同桌吃飯,被指是豪門罕見舉動

      八卦寶寶
      2026-05-15 00:59:10
      海清自曝以第一名成績考入北電,因班主任年僅二十五歲而心生懷疑

      海清自曝以第一名成績考入北電,因班主任年僅二十五歲而心生懷疑

      小邵說劇
      2026-05-14 07:49:11
      馬斯克回復“360度轉圈拍攝人民大會堂”視頻

      馬斯克回復“360度轉圈拍攝人民大會堂”視頻

      新民周刊
      2026-05-14 19:14:09
      姆巴佩:教練不讓我首發(fā)+說我是第4前鋒 球迷噓我?名人都這樣

      姆巴佩:教練不讓我首發(fā)+說我是第4前鋒 球迷噓我?名人都這樣

      風過鄉(xiāng)
      2026-05-15 06:18:07
      震驚!網(wǎng)傳一企業(yè)流動資金不足,向員工集資借款,承諾年息12%

      震驚!網(wǎng)傳一企業(yè)流動資金不足,向員工集資借款,承諾年息12%

      火山詩話
      2026-05-14 14:19:19
      宏遠速遞!杜鋒開展續(xù)約談判,徐杰拿頂薪生變,拉科正式離隊

      宏遠速遞!杜鋒開展續(xù)約談判,徐杰拿頂薪生變,拉科正式離隊

      多特體育說
      2026-05-14 23:34:18
      剛向191國發(fā)出通知,大陸轉頭放行臺當局,鄭麗文公開力挺一中

      剛向191國發(fā)出通知,大陸轉頭放行臺當局,鄭麗文公開力挺一中

      千羽解讀
      2026-05-14 10:17:47
      百億富家女留學英國,倒貼軟飯男被打致死,前雨潤總裁之女被殺案

      百億富家女留學英國,倒貼軟飯男被打致死,前雨潤總裁之女被殺案

      漢史趣聞
      2026-03-17 10:00:51
      片約不斷,卻演啥毀啥!被夸上天的《雨霖鈴》女主真該醒醒了

      片約不斷,卻演啥毀啥!被夸上天的《雨霖鈴》女主真該醒醒了

      青橘罐頭
      2026-05-14 22:10:48
      菲律賓萬萬沒想到,精心安排的"仁愛礁"破船,反倒幫了中國大忙

      菲律賓萬萬沒想到,精心安排的"仁愛礁"破船,反倒幫了中國大忙

      孤城落葉
      2026-05-14 08:39:29
      小米SU7 Ultra挖孔機蓋案一審宣判:小米夸大宣傳但不構成欺詐,退還2萬元定金

      小米SU7 Ultra挖孔機蓋案一審宣判:小米夸大宣傳但不構成欺詐,退還2萬元定金

      紅星新聞
      2026-05-13 20:49:05
      2026-05-15 07:12:49
      芯東西 incentive-icons
      芯東西
      智東西AI媒體矩陣品牌。芯東西,芯片產(chǎn)業(yè)新媒體。我們是一群追芯人,專注報道AI芯片和半導體產(chǎn)業(yè)創(chuàng)新。
      2325文章數(shù) 8156關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經(jīng)要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      旅游
      家居
      房產(chǎn)
      健康
      教育

      旅游要聞

      非洲旅游業(yè)邁向增長新階段(國際視點)

      家居要聞

      精神奢享 對話塔尖需求

      房產(chǎn)要聞

      海南樓市新政要出!擬調(diào)公積金貸款額度,最高可貸168萬!

      專家揭秘干細胞回輸?shù)陌踩L險

      教育要聞

      炸了啊:英國24所大學將面臨破產(chǎn)倒閉!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 波多野结衣一卡二卡| 久久精品农村毛片| 国产精品亚洲专区无码导航| 国产无套丰满白嫩对白| 中国AV网| 国产亚洲精品自拍视频| 亚洲天堂人妻| 亚洲尤码不卡av麻豆| 国产成人久久综合第一区| 亚洲男人的天堂视频| 美女视频黄频观看视频| 人妻少妇白浆| 亚洲欧美视频在线播放| 亚洲综合图区| 无码视频一区二区三区在线播放| 3p露脸在线播放| 大桥久未无码吹潮在线观看 | 午夜无码国产18禁| 色图综合网| 男人桶女人18禁止网站| 亚洲精品人妻中文字幕| 在线天堂最新版资源| 亚洲国产初高中生女av| 超碰123| 欧美午夜色大片在线观看免费| 亚洲成av人无码免费观看| 少妇av一区二区三区无码| 久久久久久久久国产老熟女| 亚洲av日韩av一区| 翘臀少妇被扒开屁股日出水爆乳| 99热国产这里只有精品9| 99久久免费精品色老| 国产va在| 亚洲毛多水多男女| 日韩欧美一中文字暮专区| 久久综合综合久久高清免费| jizz在线视频| 狠狠综合久久久久综合网址| 国产福利影院在线观看| 国产精品大全中文字幕| brazzers欧美巨大|