4月24日,DeepSeek正式發布并開源DeepSeek V4-Pro與DeepSeek V4-Flash兩款模型,將上下文處理長度從128K一舉擴展至1M,實現近10倍容量躍升。
華為隨即第一時間宣布昇騰超節點全系列產品全面支持該系列模型,通過芯模技術緊密協同,實現模型發布與算力適配的同步推進,為長上下文大模型的工程化落地注入強勁動力。
![]()
1、DeepSeek V4系列此次升級有多顛覆性?
DeepSeek首次引入KV Cache滑窗與壓縮算法,結合獨創混合注意力架構,使V4-Pro在1M上下文場景下單token推理FLOPs僅為V3.2的27%,KV Cache占用降至10%,大幅降低注意計算與訪存開銷。
同時通過架構創新強化Agent與Coding場景支持,V4-Pro在Agentic Coding評測中已達到開源模型最佳水平,交付質量甚至優于部分閉源競品。
2、在推理性能層面
昇騰950超節點能實現在8K輸入場景下,DeepSeek V4-Pro實現TPOT約20ms、單卡Decode吞吐4700TPS;V4-Flash更勝一籌,TPOT約10ms、單卡Decode吞吐1600TPS。
這些成績源于三大架構升級:
①原生精度加速支持FP8、MXFP8等格式,內存占用降低50%+;
②稀疏訪存優化強化硬件級帶寬能力;
③Vector與Cube共享Memory設計減少片上數據搬運,有效降低端到端時延。
![]()
昇騰A3超節點系列進一步夯實規模化部署能力,Atlas 900 A3液冷及Atlas 800 A3風冷超節點采用平等架構與全局內存統一編址,點對點互聯帶寬達784GB/s,支持32至384卡多規格配置。
在實際部署中,基于昇騰A3 64卡超節點結合大EP模式,V4-Flash在8K/1K輸入輸出場景下通過vLLM引擎可實現單卡Decode吞吐2000+TPS,充分滿足互聯網、運營商、金融等行業高并發需求。
華為云同步發力,宣布首發適配DeepSeek V4,其MaaS平臺已為開發者提供免部署、一鍵調用V4-Flash API的Tokens服務。
通過系統層、算子層和集群層的協同優化,從調度效率、計算效率和數據流轉效率三個維度保障新模型快速適配與高性能落地,金山辦公、360等企業已率先通過華為云接入新模型。
![]()
3、開發生態方面
昇騰CANN推出PyPTO編程范式,使相關算子開發周期縮短至天級,配套TileLang-Ascend在TileAI社區開源實現,加速性能優化與功能迭代。
整體來看,DeepSeek V4在模型側通過1M上下文、結構壓縮與Agent能力提升,顯著擴展應用邊界;
華為昇騰則在算力側以950與A3超節點為核心,通過10ms/20ms低時延、1600TPS/4700TPS及2000+TPS高吞吐、784GB/s大規模互聯等指標實現工程化承接。
二者同步推進,不僅讓長上下文、高性能推理、規模化部署的組合路徑更加清晰,更反映出開源模型與國產算力體系在協同演進中的加速態勢,為AI產業“去英偉達化”提供堅實技術支撐。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.