DeepSeek V4 正式發(fā)布：昇騰全面適配，AtomGit 首發(fā)上線！

2026-04-24 16:16:58　來源: AI科技大本營

北京舉報

分享至

2026 年 4 月 24 日，DeepSeek V4系列模型正式發(fā)布并同步開源。作為新一代面向Agent 與 Coding 場景深度優(yōu)化的大模型，DeepSeek V4-Pro與DeepSeek V4-Flash在能力與工程可用性上實現(xiàn)了跨越式升級，模型上下文處理長度由原有的128K顯著擴展至1M，首次增加了 KV Cache 滑窗和壓縮算法，大幅減少 Attention 計算和訪存開銷。

與此同時，昇騰超節(jié)點完成全棧適配，AtomGit 平臺首發(fā)代碼倉庫與實踐方案，第一時間向開發(fā)者開放。

DeepSeek V4：從能力提升，到工程可用

過去一年，大模型的競爭焦點一直集中在“更強能力”。而DeepSeek V4的關鍵變化在于不僅更強，而且更可落地。根據(jù)官方的介紹，此次 DeepSeek-V4 在 Agent 能力、世界知識和推理性能上均實現(xiàn)國內(nèi)與開源領域的領先。

昇騰超節(jié)點：把“能跑”變成“跑得極致”

昇騰一直同步支持 DeepSeek 系列模型，本次通過雙方芯模技術緊密協(xié)同，實現(xiàn)昇騰超節(jié)點全系列產(chǎn)品支持 DeepSeek V4 系列模型。昇騰 950 通過融合 kernel 和多流并行技術降低 Attention 計算和訪存開銷，大幅提升推理性能，結合多種量化算法，實現(xiàn)了高吞吐、低時延的 DeepSeek V4 模型推理部署。昇騰 A3 超節(jié)點系列產(chǎn)品也全面適配，同時為便于用戶快速微調，提供了基于昇騰 A3 集群的訓練參考實現(xiàn)。

昇騰 950：重新定義長文本推理性能

實現(xiàn) DeepSeek V4-Pro 20ms 和 DeepSeek V4-Flash 10ms 低時延推理

基于 DeepSeek V4-Pro 模型，在 8K 輸入場景，昇騰 950 超節(jié)點可實現(xiàn) TPOT 約 20ms 時單卡 Decode 吞吐 4700TPS。DeepSeek V4-Flash 模型，8K 長序列輸入場景下可實現(xiàn) TPOT 約 10ms 時單卡 Decode 吞吐 1600TPS（注：上述 Benchmark 數(shù)據(jù)均基于 Offine 推理模式采集，不包含 Serving 調度和框架負載均衡影響）。極低時延的實現(xiàn)源于昇騰 950 代際底層架構的三大升級：

原生精度加速：全面支持 FP8 、MXFP8、MXFP4 等數(shù)據(jù)格式，在保證模型精度的同時，可實現(xiàn)內(nèi)存占用降低 50%+，計算能力翻倍。
稀疏訪存優(yōu)化：針對 MoE 模型的離散訪存特征，通過大幅提升硬件級稀疏訪存能力，有效解決了專家路由過程中的帶寬瓶頸。
Vector 與 Cube 共享 Memory：創(chuàng)新的存儲架構設計，實現(xiàn)了向量單元（Vector）與矩陣單元（Cube）的Memory 共享，消除了大量片上數(shù)據(jù)搬運開銷，極大地降低了端到端推理時延。

除了底層架構的升級，昇騰 950 超節(jié)點從基礎器件、協(xié)議算法到光電互聯(lián)，實現(xiàn)了系統(tǒng)級的創(chuàng)新突破，支持用戶以 64 卡為步長按需擴展，可實現(xiàn) 8192 卡無收斂全互聯(lián)，提供業(yè)界最大 Scale Up 能力。

同時基于昇騰超節(jié)點架構，進一步大幅提升延遲和吞吐，同時實現(xiàn)低成本，且兼顧萬卡級別的 Scale out 集群規(guī)模。解決了長序列 4K 到 1M 序列長度范圍內(nèi)都有低延遲和高吞吐。此架構支持基于 NAND SSU 的超低成本、超大容量、高性能 KV cache 有效支撐支持長序列應用。

昇騰 A3 超節(jié)點：規(guī)模化推理的現(xiàn)實解

A3 超節(jié)點系列產(chǎn)品，實現(xiàn) DeepSeek V4-Flash 模型單卡 Decode 吞吐 2000+ TPS

Atlas 900 A3 SuperPoD 液冷超節(jié)點及 Atlas 800 A3 風冷超節(jié)點采用平等架構、全局內(nèi)存統(tǒng)一編址、點對點互聯(lián)帶寬達 784GB/s。提供 32 到 384 多種規(guī)格滿足不同業(yè)務需求，昇騰超節(jié)點是國內(nèi)唯一成熟規(guī)模商用的超節(jié)點產(chǎn)品，滿足互聯(lián)網(wǎng)、運營商、金融等行業(yè)對大模型推理超高吞吐、超大并發(fā)的極致性能需求。

基于昇騰 A3 64 卡超節(jié)點結合大 EP 模式部署，DeepSeek v4-Flash 模型，8K/1K 輸入輸出場景，基于 vLLM 推理引擎可實現(xiàn) 2000+ TPS 的單卡 Decode 吞吐，單卡吞吐持續(xù)提升。針對 DeepSeek V4-Pro 模型，昇騰 A3 同步支持推理部署，性能持續(xù)優(yōu)化中。

訓練側同步突破：不是 Demo，是可復現(xiàn)工程

昇騰同步支持并開源 DeepSeek V4 復雜 Sparse Attention + mHC 架構續(xù)訓練參考實現(xiàn)，TorchTitan-NPU 攜手 Autofuse，助力訓練輕松入圖、開箱即優(yōu)

昇騰 CANN 基于 A3 64 卡超節(jié)點正式完成 DeepSeek V4-Flash 模型續(xù)訓練（CPT）的 0-day 適配支持。通過 TorchTitan-NPU 插件與 Autofuse 自動融合技術的深度協(xié)同，實測模型吞吐量最高達到 1100 tokens/p/s，實現(xiàn)模型訓練性能開箱即優(yōu)。而這一亮眼的開箱表現(xiàn)，主要源自以下三大維度的硬核系統(tǒng)級優(yōu)化：

極簡分布式并行架構：突破傳統(tǒng)復雜的混合并行設計，采用超節(jié)點親和的大 EP + 純 FSDP 的極簡并行切分策略，以極低適配成本和通信開銷達成內(nèi)存占用最優(yōu)，實現(xiàn)易用性與性能的較好均衡
原生“入圖”與自動融合：TorchTitan-NPU 深度適配 torch.compile 機制，使能訓練入圖技術，依托 Inductor + AutoFuse（基于 Ascend C 的 Codegen 后端）實現(xiàn)端到端的 Vector 算子自動融合，為整網(wǎng)帶來高達 31.8% 的開箱即用性能收益
稀疏 Attention 高效融合算子：針對稀疏注意力等復雜結構，開發(fā) SparseAttnSharedkv、LightningIndexer 等多個高效的 NPU 融合算子，從負載均衡分核計算、內(nèi)存與計算均衡等維度協(xié)同優(yōu)化，充分釋放芯片稀疏算力

開發(fā)范式升級：PyPTO + TileLang 開源

為了解決自定義算子開發(fā)門檻高、周期長的痛點，昇騰CANN 推出了 PyPTO 編程范式。PyPTO 提供完善的 Python API，使開發(fā)者能夠以符合 Python 習慣的語法進行算子開發(fā)。

高效的算子開發(fā)：PyPTO 依托內(nèi)置高級編譯優(yōu)化，可自動完成流水編排與內(nèi)存管理，使開發(fā)者無需關注硬件細節(jié)而專注于計算流表達，實現(xiàn) DeepSeek V4 新一代模型算子開發(fā)周期可縮短至天級。
高性能Kernel自動生成：針對 Attention、Compressor、mHC 等復雜邏輯算子，PyPTO 可自動生成高度優(yōu)化的 Kernel，避免開發(fā)者手動處理繁瑣的同步與數(shù)據(jù)搬運，顯著縮短從算法驗證到部署落地的開發(fā)周期。
PTO ISA 虛擬指令集跨代兼容：PyPTO 基于 PTO 虛擬指令集（PTO ISA），實現(xiàn)了對硬件新特性的“零感適配”，針對不同代際芯片統(tǒng)一指令接口，實現(xiàn)了同一套算子代碼，在不同代際芯片上的兼容實現(xiàn)。借助畢昇編譯器的 VF（Vector Fusion）自動融合能力，可在 micro kernel 級別實現(xiàn)更優(yōu)融合。
TileLang 社區(qū)生態(tài)：TileLang-Ascend 是 TileLang 針對華為昇騰平臺深度優(yōu)化的實現(xiàn)，分別對應 Tilelang-Ascend 的 Expert 和 Developer 開發(fā)模式，提供 AscendC 基礎指令和 PTO AS 兩種對接層次，為各種編程前端語言和編譯器提供多層開放接口。DeepSeek V4 模型相關實現(xiàn)已在 TileAI 開源社區(qū)正式發(fā)布，后續(xù)將持續(xù)推進性能優(yōu)化與功能迭代。

昇騰A2、A3及950全系列產(chǎn)品適配DeepSeek v4-Flash、DeepSeek v4-Pro。

AtomGit 首發(fā)：讓開發(fā)者真正用起來

作為本次 DeepSeek V4 昇騰適配的首發(fā)平臺，AtomGit 已同步上線完整實踐體系：

模型推理優(yōu)化方案
Ascend C 融合算子實現(xiàn)
TorchTitan-NPU 訓練實踐

圍繞 DeepSeek V4 × 昇騰 × AtomGit，我們在今日 16:00 帶來主題直播，看大模型，如何真正進入生產(chǎn)環(huán)境？

AtomGit互動討論區(qū)

https://atomgit.com/org/cann/discussions/85

相關資源

DeepSeek V4 模型推理優(yōu)化實踐：https://atomgit.com/cann/cann-recipes-infer/tree/master/docs/models/deepseek-v4/deepseek_v4_inference_guide.md
DeepSeek-V4 Ascend C 融合算子優(yōu)化：https://atomgit.com/cann/cann-recipes-infer/tree/master/docs/models/deepseek-v4/deepseek_v4_ascendc_operator_guide.md
基于CANN平臺的TorchTitan-NPU + AutoFuse 極簡訓練優(yōu)化實踐：https://atomgit.com/cann/cann-recipes-train/blob/master/docs/llm_pretrain/deepseek-v4_torchtitan_npu_autofuse.md

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.