<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek V4 正式發(fā)布:昇騰全面適配,AtomGit 首發(fā)上線!

      0
      分享至


      2026 年 4 月 24 日,DeepSeek V4系列模型正式發(fā)布并同步開源。作為新一代面向Agent 與 Coding 場景深度優(yōu)化的大模型,DeepSeek V4-ProDeepSeek V4-Flash在能力與工程可用性上實現(xiàn)了跨越式升級,模型上下文處理長度由原有的128K顯著擴展至1M,首次增加了 KV Cache 滑窗和壓縮算法,大幅減少 Attention 計算和訪存開銷。

      與此同時,昇騰超節(jié)點完成全棧適配,AtomGit 平臺首發(fā)代碼倉庫與實踐方案,第一時間向開發(fā)者開放。

      DeepSeek V4:從能力提升,到工程可用

      過去一年,大模型的競爭焦點一直集中在“更強能力”。而DeepSeek V4的關鍵變化在于不僅更強,而且更可落地。根據(jù)官方的介紹,此次 DeepSeek-V4 在 Agent 能力、世界知識和推理性能上均實現(xiàn)國內(nèi)與開源領域的領先。



      昇騰超節(jié)點:把“能跑”變成“跑得極致”

      昇騰一直同步支持 DeepSeek 系列模型,本次通過雙方芯模技術緊密協(xié)同,實現(xiàn)昇騰超節(jié)點全系列產(chǎn)品支持 DeepSeek V4 系列模型。昇騰 950 通過融合 kernel 和多流并行技術降低 Attention 計算和訪存開銷,大幅提升推理性能,結合多種量化算法,實現(xiàn)了高吞吐、低時延的 DeepSeek V4 模型推理部署。昇騰 A3 超節(jié)點系列產(chǎn)品也全面適配,同時為便于用戶快速微調,提供了基于昇騰 A3 集群的訓練參考實現(xiàn)。

      昇騰 950:重新定義長文本推理性能

      實現(xiàn) DeepSeek V4-Pro 20ms 和 DeepSeek V4-Flash 10ms 低時延推理

      基于 DeepSeek V4-Pro 模型,在 8K 輸入場景,昇騰 950 超節(jié)點可實現(xiàn) TPOT 約 20ms 時單卡 Decode 吞吐 4700TPS。DeepSeek V4-Flash 模型,8K 長序列輸入場景下可實現(xiàn) TPOT 約 10ms 時單卡 Decode 吞吐 1600TPS(注:上述 Benchmark 數(shù)據(jù)均基于 Offine 推理模式采集,不包含 Serving 調度和框架負載均衡影響)。極低時延的實現(xiàn)源于昇騰 950 代際底層架構的三大升級:

      • 原生精度加速:全面支持 FP8 、MXFP8、MXFP4 等數(shù)據(jù)格式,在保證模型精度的同時,可實現(xiàn)內(nèi)存占用降低 50%+,計算能力翻倍。

      • 稀疏訪存優(yōu)化:針對 MoE 模型的離散訪存特征,通過大幅提升硬件級稀疏訪存能力,有效解決了專家路由過程中的帶寬瓶頸。

      • Vector 與 Cube 共享 Memory:創(chuàng)新的存儲架構設計,實現(xiàn)了向量單元(Vector)與矩陣單元(Cube)的Memory 共享,消除了大量片上數(shù)據(jù)搬運開銷,極大地降低了端到端推理時延。

      除了底層架構的升級,昇騰 950 超節(jié)點從基礎器件、協(xié)議算法到光電互聯(lián),實現(xiàn)了系統(tǒng)級的創(chuàng)新突破,支持用戶以 64 卡為步長按需擴展,可實現(xiàn) 8192 卡無收斂全互聯(lián),提供業(yè)界最大 Scale Up 能力。

      同時基于昇騰超節(jié)點架構,進一步大幅提升延遲和吞吐,同時實現(xiàn)低成本,且兼顧萬卡級別的 Scale out 集群規(guī)模。解決了長序列 4K 到 1M 序列長度范圍內(nèi)都有低延遲和高吞吐。此架構支持基于 NAND SSU 的超低成本、超大容量、高性能 KV cache 有效支撐支持長序列應用。

      昇騰 A3 超節(jié)點:規(guī)模化推理的現(xiàn)實解

      A3 超節(jié)點系列產(chǎn)品,實現(xiàn) DeepSeek V4-Flash 模型單卡 Decode 吞吐 2000+ TPS

      Atlas 900 A3 SuperPoD 液冷超節(jié)點及 Atlas 800 A3 風冷超節(jié)點采用平等架構、全局內(nèi)存統(tǒng)一編址、點對點互聯(lián)帶寬達 784GB/s。提供 32 到 384 多種規(guī)格滿足不同業(yè)務需求,昇騰超節(jié)點是國內(nèi)唯一成熟規(guī)模商用的超節(jié)點產(chǎn)品,滿足互聯(lián)網(wǎng)、運營商、金融等行業(yè)對大模型推理超高吞吐、超大并發(fā)的極致性能需求。

      基于昇騰 A3 64 卡超節(jié)點結合大 EP 模式部署,DeepSeek v4-Flash 模型,8K/1K 輸入輸出場景,基于 vLLM 推理引擎可實現(xiàn) 2000+ TPS 的單卡 Decode 吞吐,單卡吞吐持續(xù)提升。針對 DeepSeek V4-Pro 模型,昇騰 A3 同步支持推理部署,性能持續(xù)優(yōu)化中。

      訓練側同步突破:不是 Demo,是可復現(xiàn)工程

      昇騰同步支持并開源 DeepSeek V4 復雜 Sparse Attention + mHC 架構續(xù)訓練參考實現(xiàn),TorchTitan-NPU 攜手 Autofuse,助力訓練輕松入圖、開箱即優(yōu)

      昇騰 CANN 基于 A3 64 卡超節(jié)點正式完成 DeepSeek V4-Flash 模型續(xù)訓練(CPT)的 0-day 適配支持。通過 TorchTitan-NPU 插件與 Autofuse 自動融合技術的深度協(xié)同,實測模型吞吐量最高達到 1100 tokens/p/s,實現(xiàn)模型訓練性能開箱即優(yōu)。而這一亮眼的開箱表現(xiàn),主要源自以下三大維度的硬核系統(tǒng)級優(yōu)化:

      • 極簡分布式并行架構:突破傳統(tǒng)復雜的混合并行設計,采用超節(jié)點親和的大 EP + 純 FSDP 的極簡并行切分策略,以極低適配成本和通信開銷達成內(nèi)存占用最優(yōu),實現(xiàn)易用性與性能的較好均衡

      • 原生“入圖”與自動融合:TorchTitan-NPU 深度適配 torch.compile 機制,使能訓練入圖技術,依托 Inductor + AutoFuse(基于 Ascend C 的 Codegen 后端)實現(xiàn)端到端的 Vector 算子自動融合,為整網(wǎng)帶來高達 31.8% 的開箱即用性能收益

      • 稀疏 Attention 高效融合算子:針對稀疏注意力等復雜結構,開發(fā) SparseAttnSharedkv、LightningIndexer 等多個高效的 NPU 融合算子,從負載均衡分核計算、內(nèi)存與計算均衡等維度協(xié)同優(yōu)化,充分釋放芯片稀疏算力

      開發(fā)范式升級:PyPTO + TileLang 開源

      為了解決自定義算子開發(fā)門檻高、周期長的痛點,昇騰CANN 推出了 PyPTO 編程范式。PyPTO 提供完善的 Python API,使開發(fā)者能夠以符合 Python 習慣的語法進行算子開發(fā)。

      • 高效的算子開發(fā):PyPTO 依托內(nèi)置高級編譯優(yōu)化,可自動完成流水編排與內(nèi)存管理,使開發(fā)者無需關注硬件細節(jié)而專注于計算流表達,實現(xiàn) DeepSeek V4 新一代模型算子開發(fā)周期可縮短至天級。

      • 高性能Kernel自動生成:針對 Attention、Compressor、mHC 等復雜邏輯算子,PyPTO 可自動生成高度優(yōu)化的 Kernel,避免開發(fā)者手動處理繁瑣的同步與數(shù)據(jù)搬運,顯著縮短從算法驗證到部署落地的開發(fā)周期。

      • PTO ISA 虛擬指令集跨代兼容:PyPTO 基于 PTO 虛擬指令集(PTO ISA),實現(xiàn)了對硬件新特性的“零感適配”,針對不同代際芯片統(tǒng)一指令接口,實現(xiàn)了同一套算子代碼,在不同代際芯片上的兼容實現(xiàn)。借助畢昇編譯器的 VF(Vector Fusion) 自動融合能力,可在 micro kernel 級別實現(xiàn)更優(yōu)融合。

      • TileLang 社區(qū)生態(tài):TileLang-Ascend 是 TileLang 針對華為昇騰平臺深度優(yōu)化的實現(xiàn),分別對應 Tilelang-Ascend 的 Expert 和 Developer 開發(fā)模式,提供 AscendC 基礎指令和 PTO AS 兩種對接層次,為各種編程前端語言和編譯器提供多層開放接口。DeepSeek V4 模型相關實現(xiàn)已在 TileAI 開源社區(qū)正式發(fā)布,后續(xù)將持續(xù)推進性能優(yōu)化與功能迭代。


      昇騰A2、A3及950全系列產(chǎn)品適配DeepSeek v4-Flash、DeepSeek v4-Pro。

      AtomGit 首發(fā):讓開發(fā)者真正用起來

      作為本次 DeepSeek V4 昇騰適配的首發(fā)平臺,AtomGit 已同步上線完整實踐體系:

      • 模型推理優(yōu)化方案

      • Ascend C 融合算子實現(xiàn)

      • TorchTitan-NPU 訓練實踐


      圍繞 DeepSeek V4 × 昇騰 × AtomGit,我們在今日 16:00 帶來主題直播,看大模型,如何真正進入生產(chǎn)環(huán)境?

      AtomGit互動討論區(qū)

      https://atomgit.com/org/cann/discussions/85

      相關資源


      • DeepSeek V4 模型推理優(yōu)化實踐:https://atomgit.com/cann/cann-recipes-infer/tree/master/docs/models/deepseek-v4/deepseek_v4_inference_guide.md

      • DeepSeek-V4 Ascend C 融合算子優(yōu)化:https://atomgit.com/cann/cann-recipes-infer/tree/master/docs/models/deepseek-v4/deepseek_v4_ascendc_operator_guide.md

      • 基于CANN平臺的TorchTitan-NPU + AutoFuse 極簡訓練優(yōu)化實踐:https://atomgit.com/cann/cann-recipes-train/blob/master/docs/llm_pretrain/deepseek-v4_torchtitan_npu_autofuse.md

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      49 歲馬伊琍爆炸頭官宣新狀態(tài)!文章攜新歡亮相,兩人各自安好

      49 歲馬伊琍爆炸頭官宣新狀態(tài)!文章攜新歡亮相,兩人各自安好

      橙星文娛
      2026-05-14 10:09:49
      阿森納迷惑操作!19 歲天才剛坐穩(wěn)主力,就要被 7000萬先生擠走?

      阿森納迷惑操作!19 歲天才剛坐穩(wěn)主力,就要被 7000萬先生擠走?

      奶蓋熊本熊
      2026-05-15 01:10:37
      多地村鎮(zhèn)理發(fā)店被起訴商標侵權 “標榜”“東尼”商標使用權為何到了一家英國公司之手|紅星調查

      多地村鎮(zhèn)理發(fā)店被起訴商標侵權 “標榜”“東尼”商標使用權為何到了一家英國公司之手|紅星調查

      紅星新聞
      2026-05-14 18:01:16
      國家發(fā)改委、國家糧食和物資儲備局、財政部、交通運輸部、農(nóng)業(yè)農(nóng)村部、中國人民銀行、國家市場監(jiān)督管理總局等聯(lián)合印發(fā)重要通知

      國家發(fā)改委、國家糧食和物資儲備局、財政部、交通運輸部、農(nóng)業(yè)農(nóng)村部、中國人民銀行、國家市場監(jiān)督管理總局等聯(lián)合印發(fā)重要通知

      農(nóng)民日報
      2026-05-14 16:45:33
      特朗普來了,成都也火了

      特朗普來了,成都也火了

      城市財經(jīng)
      2026-05-14 11:36:41
      賣不動了,日系車集體退守中國

      賣不動了,日系車集體退守中國

      21世紀經(jīng)濟報道
      2026-05-13 23:28:25
      他帶了一個轟動全球的豪華天團訪華,卻唯獨把老婆留在了美國?

      他帶了一個轟動全球的豪華天團訪華,卻唯獨把老婆留在了美國?

      菁菁子衿
      2026-05-13 22:15:32
      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      全球最毒的十大垃圾食品榜單,泡面未上榜,“真兇”很多人喜歡吃

      小談食刻美食
      2026-05-14 08:01:03
      Model Y降價到24.99萬仍是智商稅?三電、空間遭國產(chǎn)車降維打擊!

      Model Y降價到24.99萬仍是智商稅?三電、空間遭國產(chǎn)車降維打擊!

      阿芒娛樂說
      2026-05-14 11:16:01
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      顧蔡衛(wèi)
      2026-05-15 02:35:49
      5月13日向太終于發(fā)聲!向佐郭碧婷分居真相,根本不是婚變

      5月13日向太終于發(fā)聲!向佐郭碧婷分居真相,根本不是婚變

      小椰的奶奶
      2026-05-14 00:14:20
      馬卡:伯納烏安保清除反弗洛倫蒂諾橫幅,現(xiàn)場仍顯緊張

      馬卡:伯納烏安保清除反弗洛倫蒂諾橫幅,現(xiàn)場仍顯緊張

      懂球帝
      2026-05-15 04:13:11
      中美會晤結束,特朗普松開中方的手,鄰國總統(tǒng):中美穩(wěn)定利好全球

      中美會晤結束,特朗普松開中方的手,鄰國總統(tǒng):中美穩(wěn)定利好全球

      鐵甲觀
      2026-05-14 17:10:40
      特朗普:美國最高法院門楣上刻著孔子雕像!

      特朗普:美國最高法院門楣上刻著孔子雕像!

      看看新聞Knews
      2026-05-14 21:28:04
      當你見過的人夠多了就會懂:越是骨子里帶著狠勁和匪氣,敢硬剛,敢擺態(tài)度,不退縮的,才是真正能成事的狠人,能翻盤,能扛事

      當你見過的人夠多了就會懂:越是骨子里帶著狠勁和匪氣,敢硬剛,敢擺態(tài)度,不退縮的,才是真正能成事的狠人,能翻盤,能扛事

      心理觀察局
      2026-05-14 09:29:14
      教你一個玄學法則:當你的孩子主動給你買衣服、買吃的,或者主動給你發(fā)紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      教你一個玄學法則:當你的孩子主動給你買衣服、買吃的,或者主動給你發(fā)紅包,不管你缺不缺錢,有多心疼孩子賺錢辛苦,你都要欣然的收下

      心理觀察局
      2026-05-13 09:18:07
      徹底涼透!偷稅網(wǎng)紅白冰復出賣慘翻車,哭訴被陷害,結局大快人心

      徹底涼透!偷稅網(wǎng)紅白冰復出賣慘翻車,哭訴被陷害,結局大快人心

      喜歡歷史的阿繁
      2026-05-15 02:54:49
      馬斯克攜幼子現(xiàn)身北京人民大會堂 外國網(wǎng)友:孩子那身新中式簡直太棒

      馬斯克攜幼子現(xiàn)身北京人民大會堂 外國網(wǎng)友:孩子那身新中式簡直太棒

      快科技
      2026-05-14 19:00:09
      哎,上海人在公共場合豪橫地用上海話聊天,似乎已經(jīng)成了一種常態(tài)

      哎,上海人在公共場合豪橫地用上海話聊天,似乎已經(jīng)成了一種常態(tài)

      上海云河
      2026-05-13 19:55:38
      川普來了也得提一杯,這曲”懂王破陣曲“絕了!

      川普來了也得提一杯,這曲”懂王破陣曲“絕了!

      談芯說科技
      2026-05-14 23:23:31
      2026-05-15 05:08:49
      AI科技大本營 incentive-icons
      AI科技大本營
      連接AI技術的創(chuàng)造者和使用者
      2691文章數(shù) 7683關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      頭條要聞

      馬斯克幼子裝扮“火”了 衣服包包都是中國造

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經(jīng)要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      家居
      藝術
      手機
      房產(chǎn)
      數(shù)碼

      家居要聞

      精神奢享 對話塔尖需求

      藝術要聞

      帕特里克鏡頭下的戴安娜:光影與情感的極致呈現(xiàn)

      手機要聞

      比上代多賣了七成!華為Pura 90系列越賣越猛,蘋果該緊張了

      房產(chǎn)要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      數(shù)碼要聞

      與“AMD+AMG”賽道相見,英特爾、邁凱倫F1車隊達成戰(zhàn)略合作

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产自偷自偷免费一区| 亚洲欧洲国产码专区在线观看| 欧美成人精品A片人妻| 国产成人一区二区三区免费观看| 亚洲天堂一区二区成人在线| 天天综合久久| www.成人人妻| 日本抽搐一进一出gif免费| 国产精品天天狠天天看| 亚洲欧洲一区二区天堂久久| 在线无码中文字幕水蜜桃一区| 壤塘县| 久久亚洲AV成人无码电影| 国产精品剧情亚洲二区| 人妻少妇精品视频专区| 色护士极品影院| 狼友视频在线免费观看| 欧美成a人片在线播放| 亚州无码人妻| 亚洲综合精品一区二区三区| 久久精品色一情一乱一伦| 无码AV午夜福利一区| 国产3P成人在线视频| 国产无遮挡又黄又爽不要vip软件| 国内精品免费久久久久电影院97| 91精品国产综合久久婷婷| 91福利国产在线在线播放| 精品婷婷色一区二区三区 | 亚洲精品动漫在线观看| 亚洲免费网站观看视频 | 国产成人无码久久久久毛片| 漂亮的保姆hd完整版免费韩国| 国产精品成人免费视频网站京东| 国产成人精品日本亚洲第一区| 精品国产亚洲一区二区三区在线观看 | 中文字字幕在线中文无码| 国产精品林美惠子在线观看| 亚洲无码色| 2021亚洲va在线va天堂va国产| 亚洲综合区| 欧美日韩人成综合在线播放|