<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek狂吞17萬億Tokens?國產AI算力,最關鍵一戰來了!

      0
      分享至


      新智元報道


      【新智元導讀】DeepSeek三模型霸占OpenRouter前十,月調用合計超17萬億tokens。Agent負載正在碾壓一切基礎設施!現在,自主創新的國產生態,正在悄悄改寫下一代AI基礎設施的入場券。

      打開OpenRouter最新的模型月榜,V4上線一個月,DeepSeek的存在感很強。

      V4 Flash月調用9.13T tokens,穩坐第1。V4 Pro也沖到了3.89T排第9。再加上V3.2的4.07T排第8,DeepSeek三個模型同時擠進前十,月調用合計超過17萬億tokens。


      應用方面,排名前兩位的Hermes Agent和OpenClaw,月調用量分別達到了10.8T和6.25T tokens。

      換句話說,如今Token消耗的絕對主力,已經從傳統的聊天機器人,徹底讓位給了會規劃、檢索、調用工具并反復驗證的Agent系統。

      它就像一個小型工作流,單次任務動輒觸發上百輪LLM調用,并伴隨數十次工具執行,再加上長記憶和自演進產生的數據,負載常常飆升至數百GB甚至TB級。


      這種以「萬億」為單位的高強度并發,正在將底層基礎設施的每一個短板都無限放大。

      同一套能力

      接住了不同的頭部模型

      而這,也呼應了幾個月前行業里流傳的一個似是而非的傳聞。

      當時DeepSeek V4的發布有所推遲,坊間便出現一種猜測,是不是因為V4在跟昇騰做底層的深度適配,拖慢了節奏?

      這甚至引發了一種錯覺,讓人以為昇騰正在成為某一家大模型廠商的「專有硬件」,不得不把大量精力耗費在特定模型的查漏補缺上。

      這恰恰是對算力底座和模型演進關系最大的一個誤解。

      DeepSeek V4之所以能在開源首日,真正做到「開箱即優」,并不是因為昇騰為了某款模型削足適履,而是因為LLM演進到今天,必然會撞上這幾堵墻。

      而昇騰,只是恰好提前在那里等它。

      放眼中國大模型的第一梯隊,就會發現一個事實,不管是智譜、MiniMax,還是這次引爆全網的DeepSeek,盡管各自的微觀算法、應用場景千差萬別,但在邁向「低精度量化、長上下文、萬億MoE」這幾個方向時,步調是一致的。

      面對整條賽道的共性需求,昇騰交出的是一套通用的答卷。

      就拿剛剛過去的4月來說,智譜GLM-5.1、MiniMax M2.7、DeepSeek V4三個頭部模型密集開源,昇騰全部做到了發布即支持。

      能做到這種覆蓋速度,唯一的解釋是,其底層的能力是高度通用的。

      頭部模型撞上「同一堵墻」

      昇騰的能力之所以能實現通用,是因為頭部模型走到了同一個路口。

      首先是MoE架構,它的好處是每次只激活一小部分專家來干活,計算效率高。但代價很明顯,專家分散在不同的卡上,每次推理都要大量卡間通信。

      上下文方面,V4兩個版本都標配百萬token。模型側已經在用混合稀疏注意力(CSA/HCA)拼命壓成本,但百萬級KVCache對基礎設施的內存壓力仍然是實打實的。

      精度方面,V4-Pro在HuggingFace上標注FP4+FP8混合精度,MoE專家參數用FP4,其他用FP8。低精度推理已經從「能不能壓縮」進入了「壓縮后是否可靠」的階段。

      通信、內存、精度,是各大頭部模型在部署時都會面臨的難題。

      而能夠系統性地解決這三件事的AI軟硬件平臺,將率先搶占下一代AI基礎設施的關鍵入口。

      萬億MoE的通信瓶頸

      一個算子打通

      MoE的關鍵在于,計算被稀疏化以后,通信變成了第一瓶頸。

      昇騰之前已經有MC2通算融合算子,在不同的并行方式下把矩陣計算和集合通信做了融合。

      然而,在EP并行模式下,現有算子仍無法實現通信與Grouped Matmul計算的完全并行,因此并未達到真正的通算融合。

      MegaMoE補上的,正是這個缺口。

      它把MoE推理中原本分開執行的五個步驟(Alltoall Dispatch、GMM1、Swiglu、GMM2、Alltoall Combine)融成一個大算子,讓通信和計算盡可能同時進行。同時支持Prefill和Decode場景。

      昇騰Atlas 800 A3上的實測數據顯示,DeepSeek V3.1和Qwen3-235B兩個模型接入MegaMoE融合算子后,Prefill場景可獲得20%到30%的性能提升,Decode場景也有10%以上的收益。

      百萬上下文

      先過內存這一關

      百萬token上下文要真正跑好,有一個繞不過去的問題。

      Prefix Cache(前綴緩存)是當前大模型推理服務中廣泛使用的優化技術。

      它通過緩存多輪對話或長文檔中重復出現的前綴部分的KVCache,讓新請求可以跳過這部分的重復計算,從而降低首token時延、提升整體吞吐。多輪對話、RAG、Agent場景都離不開它。

      但單機的Prefix Cache有一個根本局限,緩存只存在本機本地內存里。容量有限,容易被淘汰。更關鍵的是,跨機器的實例之間完全不共享,集群越大,緩存利用率反而越低。

      而多機部署、PD分離、大規模專家并行,恰恰是所有萬億級MoE模型的標準部署方式,并且都對多機間的內存共享和數據調度提出了更高要求。

      為此,昇騰提出了全新的KVCache池化方案,框架層通過KV Connector對接池化后端,去除冗余的三方轉發層。

      • 通信層引入HIXL實現零拷貝傳輸,數據搬運下沉至設備側高帶寬鏈路,NPU間點對點直連免除CPU中轉。

      • 借助MemFabric實現跨節點內存統一編址,將不同機器的物理內存融合成全局大池。

      同時,長序列還有一個更底層的壓力。

      在業界的普遍認知中,Prefill階段的計算量隨序列長度呈平方級增長,Decode階段的KVCache內存占用則隨序列長度線性增長,長序列同時帶來計算和內存的雙重瓶頸。

      對此,昇騰采用了PCP做Prefill階段的算力切分,DCP做Decode階段的KVCache內存切分,兩者配合把雙重壓力同時分攤開。

      這套方案讓Agentic場景下的Prefill性能提升4倍以上,并且不限于某一個模型,任何需要百萬級上下文的場景都能受益。

      當超長上下文逐漸變成「基本需求」,長序列的基礎設施能力,已經是開發者選擇平臺時繞不開的一道題了。

      低精量化

      難的不是壓縮是可靠

      通信和內存之外,精度是第三個繞不過去的難題。

      傳統量化方式(INT4/INT8/FP8)用全局統一縮放因子,相當于一把尺子量所有參數,碰到異常值整個縮放范圍就被拽偏了。

      在參數分布差異極大的MoE模型中,這一問題尤為致命。

      為了解決這個矛盾,行業正在向Microscaling格式(MXFP4/MXFP8)收斂。它的原理是把參數分成小組,每組用獨立縮放因子,異常值只影響本組,不拖累全局。

      但光有格式標準還不夠,關鍵是硬件和工具鏈能不能跟上。

      昇騰950系列創新性地在架構層面提供了專用的塊縮放因子計算單元和MXFP矩陣乘法加速器,從硬件層原生支撐mx格式。

      再往上,MindStudio工具支持一鍵生成MXFP4/MXFP8模型權重,開發者不需要手動處理量化細節。

      從硬件到工具鏈全部打通之后,任何想走MXFP路線的模型,在昇騰上都能快速適配。

      接得住巨浪

      就能接得住江海

      從低精量化到長序列池化再到MoE通算融合,這三個方向看似各自獨立,但背后對應的是同一個命題,Agent時代的推理基礎設施該怎么建。

      而在這個命題上,昇騰全系列產品不僅已經實現了對DeepSeek的全面支持,更讓人看到了V4背后的一條完整鏈路,從底層芯片、底層編程語言到核心算子,關鍵環節都有中國自己的方案。

      可以說,DeepSeek V4的出現,印證了中國已經可以依靠一整套自主創新的生態體系來打造頂尖大模型。

      而昇騰,正是這條生態鏈路上的算力底座,一個面向全行業的通用AI軟硬件平臺。

      Agent時代的推理負載還在膨脹,下一個萬億級模型隨時會來。這個平臺能接得住的,遠不止DeepSeek。


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      陸毅女兒被寵上天!17歲貝兒初次剝蝦愁壞,網友:這是富養天花板

      陸毅女兒被寵上天!17歲貝兒初次剝蝦愁壞,網友:這是富養天花板

      小丸子Showw
      2026-05-28 17:58:32
      中國將迎來前所未有的死亡高峰,專家給出答案:是這些因素導致的

      中國將迎來前所未有的死亡高峰,專家給出答案:是這些因素導致的

      流史歲月
      2026-05-26 16:30:06
      人民日報公布“好碳水”清單!短短4周,衰老指標竟年輕4歲,腸道菌群或是關鍵

      人民日報公布“好碳水”清單!短短4周,衰老指標竟年輕4歲,腸道菌群或是關鍵

      腸菌科普
      2026-05-28 07:03:00
      特大串通投標案,涉案金額達110億余元,22人已判刑!

      特大串通投標案,涉案金額達110億余元,22人已判刑!

      新浪財經
      2026-05-28 23:27:09
      黃仁勛披露隨特朗普訪華細節:原本不去,特朗普致電堅持讓其上飛機,“我就匆忙收拾了一下”

      黃仁勛披露隨特朗普訪華細節:原本不去,特朗普致電堅持讓其上飛機,“我就匆忙收拾了一下”

      澎湃新聞
      2026-05-29 08:24:10
      特朗普再度變臉,對中國出爾反爾,這一次中方以實際行動強勢回應

      特朗普再度變臉,對中國出爾反爾,這一次中方以實際行動強勢回應

      潮鹿逐夢
      2026-05-28 00:53:40
      盜墓界有一條"不成文規定":金銀珠寶都可拿,唯有一樣東西不能動

      盜墓界有一條"不成文規定":金銀珠寶都可拿,唯有一樣東西不能動

      賤議你讀史
      2026-05-23 17:30:03
      蘇芒的維權之舉引發爭議!有博主站臺,直言“其實她也挺無奈”

      蘇芒的維權之舉引發爭議!有博主站臺,直言“其實她也挺無奈”

      火山詩話
      2026-05-29 09:43:36
      歐冠決賽將上演巔峰對決,愛奇藝體育全媒體獨播

      歐冠決賽將上演巔峰對決,愛奇藝體育全媒體獨播

      北青網-北京青年報
      2026-05-29 12:42:08
      亞歷山大:搶七大戰會是我職業生涯至今最重要的一場比賽

      亞歷山大:搶七大戰會是我職業生涯至今最重要的一場比賽

      北青網-北京青年報
      2026-05-29 19:42:06
      斬獲三連勝,姆本扎:感謝教練組讓我們的戰術煥然一新

      斬獲三連勝,姆本扎:感謝教練組讓我們的戰術煥然一新

      懂球帝
      2026-05-29 22:09:05
      聯合國秘書長確定換人,5名候選人露出水面,王毅赴紐約定下規矩

      聯合國秘書長確定換人,5名候選人露出水面,王毅赴紐約定下規矩

      徐竦解說
      2026-05-29 04:59:32
      王楚然搞“劇組夫妻”被實錘!?

      王楚然搞“劇組夫妻”被實錘!?

      八卦瘋叔
      2026-05-28 11:28:04
      美軍指責伊朗向科威特發射導彈 伊朗稱報復打擊美軍基地

      美軍指責伊朗向科威特發射導彈 伊朗稱報復打擊美軍基地

      新京報
      2026-05-28 20:55:57
      涉嫌嚴重違紀違法,王浩被查

      涉嫌嚴重違紀違法,王浩被查

      中國基金報
      2026-05-29 13:54:11
      1969年許世友為王近山求情,毛主席打趣:放虎歸山,哪個軍區敢要

      1969年許世友為王近山求情,毛主席打趣:放虎歸山,哪個軍區敢要

      磊子講史
      2026-05-26 18:56:24
      馬英九提告后王光慈反擊來了!舉報職場霸凌,馬英九名聲跌至冰點

      馬英九提告后王光慈反擊來了!舉報職場霸凌,馬英九名聲跌至冰點

      至死不渝的愛情
      2026-05-29 21:39:37
      科技股下跌,會帶崩整個A股嗎?回顧一下2000年

      科技股下跌,會帶崩整個A股嗎?回顧一下2000年

      睿知睿見
      2026-05-28 07:36:16
      印度極端高溫,新德里都供水困難,才發現中國千里調水有多難得!

      印度極端高溫,新德里都供水困難,才發現中國千里調水有多難得!

      全城探秘
      2026-05-29 14:40:29
      天后帶著廚子天王去雙修了

      天后帶著廚子天王去雙修了

      毒舌扒姨太
      2026-05-28 22:43:40
      2026-05-29 22:52:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15337文章數 66891關注度
      往期回顧 全部

      科技要聞

      Claude Opus 4.8凌晨突發上線

      頭條要聞

      "電影演員"稱住租金30多萬/年的酒店 摔了一跤被攆走

      頭條要聞

      "電影演員"稱住租金30多萬/年的酒店 摔了一跤被攆走

      體育要聞

      即使是文班亞馬,也做不到這件事

      娛樂要聞

      奚夢瑤何猷君將于6月在法國舉行婚禮

      財經要聞

      近3個月跌超20% 黃金"猴市"下的眾生相

      汽車要聞

      900V+3.2秒破百 領克10+&領克10上市16.99萬元起

      態度原創

      旅游
      房產
      藝術
      家居
      教育

      旅游要聞

      “齊魯1號”駛向天山!山東“文化潤疆”主題旅游列車進疆第一站活動在哈密十二木卡姆非遺中心舉行

      房產要聞

      順德澐璟「澐冠」再出圈:頂階人群不是買房,是追加“傳世資產”

      藝術要聞

      吳湖帆小品冊頁

      家居要聞

      云棲 舒展如流云

      教育要聞

      青年教師為何能撐起教育“半邊天”?!海淀這所學校亮出“破局密碼”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产香蕉成人综合精品视频| 亚洲VA中文字幕无码毛片春药| 国产午夜精品免费一区二区三区| 啊┅┅快┅┅用力啊岳网站| 免费看欧美成人A片无码| 欧美日韩国产网站| 日本黄色三级片网站| 中国女人内谢69xxxx| 一进一出一爽又粗又大| 亚洲最大天堂av在线| 久久99精品久久久久久齐齐| 亚洲第1色电影。| 人妻日日爽| 爽到高潮漏水大喷视频软件| 精品少妇人妻av无码专区| 亚洲夂夂婷婷色拍ww47| 亚洲中文有码在线观看| 亚洲黄色短视频| 日韩高清不卡免费一区二区| 亚州国产成人无码人妻爽爽| 日韩欧美在线播放视频| 色国产视频| 国产一区二区不卡91| 激情在线网| 在线观看日韩亚洲综合| 欧美黑人添添高潮a片www| 亚洲三区四区| 蜜桃av一卡二卡三卡| 韩国美女av一区二区三区四区| 久久精品国产亚洲av电影| 亚洲男女羞羞无遮挡久久丫| AV资源吧首页| 456亚洲人成在线播放网站 | 国产欧美精品一区二区三区四区| 国产高清不卡免费视频| 国产地址二永久伊甸园| 99精品热在线在线观看视| 一亚洲一区二区中文字幕| 国产成人精品高清在线| 97在线观看视频免费| 无码国产偷倩在线播放|