網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek V4：中國(guó)算力，中國(guó)模型，中國(guó)節(jié)奏

2026-04-27 18:09:36　來(lái)源: 半導(dǎo)體產(chǎn)業(yè)縱橫

北京舉報(bào)

分享至

千呼萬(wàn)喚之下，DeepSeek V4終于發(fā)布了。從今年初開(kāi)始，業(yè)內(nèi)對(duì)V4的期待一直懸著，等著發(fā)布日期，等著技術(shù)報(bào)告，等著模型上線(xiàn)。4月24日，這只靴子終于落地。

DeepSeek V4正式發(fā)布，同步開(kāi)源。同一天，華為云首發(fā)適配。

這一天，有三件事值得記下來(lái)：

第一件事：AI算力終于來(lái)到了普惠時(shí)代，而且這次落地的是開(kāi)源模型。

第二件事：這次適配華為昇騰等國(guó)產(chǎn)芯片。

第三件事：金山辦公、360等企業(yè)已通過(guò)華為云接入DeepSeek新模型。模型一上線(xiàn)，應(yīng)用就已經(jīng)在跑了，這說(shuō)明云是AI落地的最佳平臺(tái)。

三件事，各有各的分量。放在一起，就是中國(guó)AI生態(tài)跨越量變、走向質(zhì)變的分水嶺。

01 華為云深度優(yōu)化首發(fā)適配

華為云首發(fā)適配了DeepSeek-V4模型。

DeepSeek V4的適配，難度比以往更高。據(jù)了解，V4這次適配最大的技術(shù)挑戰(zhàn)，來(lái)自模型架構(gòu)本身的全面創(chuàng)新。據(jù)業(yè)內(nèi)工程師表示，“Deepseek V4模型相對(duì)之前的模型創(chuàng)新非常大，在Attention模塊基本上是完全創(chuàng)新，創(chuàng)新性地引入Compressor模塊，不管是在模型適配和還是在算子適配上都需要進(jìn)行全新地開(kāi)發(fā)和調(diào)優(yōu)。”

最大的挑戰(zhàn)，來(lái)自1M長(zhǎng)上下文的適配支持。過(guò)去一年，模型的上下文窗口一直是行業(yè)競(jìng)爭(zhēng)的焦點(diǎn)。從GPT-4的32K，到Claude 3的200K，再到Google Gemini率先突破1M，百萬(wàn)級(jí)上下文窗口正在成為頭部模型的新標(biāo)配。V4的出現(xiàn)，也將數(shù)據(jù)拉到了百萬(wàn)量級(jí)。

從256K到1M，這不是簡(jiǎn)單的數(shù)字增長(zhǎng)，而是對(duì)KVCache（鍵值緩存）管理、推理平臺(tái)壓力測(cè)試、內(nèi)存調(diào)度能力的一次全面升級(jí)。面對(duì)這個(gè)挑戰(zhàn)，華為云在系統(tǒng)層、算子層和集群層做了三層協(xié)同。

第一層是系統(tǒng)層的調(diào)度優(yōu)化，PD分離調(diào)度。V4的Attention架構(gòu)引入了全新的Compressor模塊，KvCache（鍵值緩存）的管理邏輯和以往完全不同。華為云做了幾件事：一是修改vLLM的KvCache管理模塊，能夠高效分配和管理不同的KvCache Group，這是V4架構(gòu)下的新需求。二是重新設(shè)計(jì)PD分離模塊。PD指的是Prefill（預(yù)填充）和Decode（解碼）兩個(gè)階段。以往它們混在一起計(jì)算，但這兩個(gè)階段計(jì)算特性差異很大。PD分離調(diào)度的核心是：讓Prefill和Decode各自跑在適合自己的計(jì)算資源上，計(jì)算鏈路解耦、獨(dú)立伸縮、精細(xì)化調(diào)度，提高首token時(shí)延、增量時(shí)延及整體吞吐表現(xiàn)。

第二層：算子層的計(jì)算優(yōu)化，融合算子。適配V4，光靠通用算子是不夠的。V4的Compressor模塊融合了大量小算子，如果用傳統(tǒng)的原子算子逐個(gè)調(diào)用，Kernel啟動(dòng)開(kāi)銷(xiāo)會(huì)成為性能的致命瓶頸。華為云的解決方案是：融合算子，把多個(gè)小算子合并成一個(gè)“大算子”一次性執(zhí)行。特別是LI算子和Compressor算子，融合了大量小算子，大幅減少了算子的Kernel Launch開(kāi)銷(xiāo)。通過(guò)算子融合、布局優(yōu)化和訪(fǎng)存重排，提升單卡執(zhí)行效率與端到端性能。

第三層：集群層的架構(gòu)優(yōu)化，互聯(lián)存儲(chǔ)。V4的大規(guī)模部署依賴(lài)多機(jī)多卡并行，權(quán)重加載、KV Cache共享、跨節(jié)點(diǎn)通信、中間狀態(tài)傳輸，每一個(gè)環(huán)節(jié)都可能成為瓶頸。互聯(lián)存儲(chǔ)架構(gòu)解決的是帶寬、時(shí)延與一致性的瓶頸，支撐大規(guī)模并行部署下的穩(wěn)定擴(kuò)展。

通過(guò)三層優(yōu)化協(xié)同，分別從調(diào)度效率、計(jì)算效率和數(shù)據(jù)流轉(zhuǎn)效率三個(gè)維度，保障新模型快速適配與高性能落地。

還有一個(gè)細(xì)節(jié)，V4采用了FP4+FP8混合精度訓(xùn)練。在脫離英偉達(dá)生態(tài)的背景下，這套低精度混合訓(xùn)練方案大概率是基于深度定制的內(nèi)部格式實(shí)現(xiàn)的。結(jié)合近期昇騰950超節(jié)點(diǎn)不僅全面支持FP8/MXFP4，更推出了自研的高效HiF8數(shù)據(jù)格式，這從側(cè)面印證了：華為底層的算力架構(gòu)與低精度混合訓(xùn)練技術(shù)，已經(jīng)具備支撐萬(wàn)億級(jí)大模型的能力。

02 百萬(wàn)上下文，用得起

一年多前，DeepSeek-V3的發(fā)布在行業(yè)內(nèi)炸出了一片水花。

DeepSeek像一條鯰魚(yú)，把AI大模型的價(jià)格從“高高在上”拉到了“人人可用”。API調(diào)用的成本是GPT-4的百分之一，性能卻能正面硬剛，這是DeepSeek給整個(gè)行業(yè)留下最深的印象。

但過(guò)去一年，行業(yè)的牌桌變了。從AI Agent的爆發(fā)到百萬(wàn)級(jí)長(zhǎng)文本的普及，Token的消耗量正呈指數(shù)級(jí)激增。當(dāng)下的行業(yè)陷入了一個(gè)悖論：AI越來(lái)越好用，但AI也越來(lái)越貴。

因此，市場(chǎng)對(duì)V4最大的期待不僅是技術(shù)指標(biāo)的攀升，更是：百萬(wàn)級(jí)別的AI普惠，何時(shí)真正落地？

DeepSeek給出了它的回應(yīng)：從現(xiàn)在開(kāi)始，1M上下文將是DeepSeek所有官方服務(wù)的標(biāo)配。同時(shí)，在價(jià)格上繼續(xù)保持了極強(qiáng)的壓迫感， V4-Flash輸入（緩存命中）打到了0.2元/百萬(wàn)tokens，V4-Pro限時(shí)優(yōu)惠輸入（緩存命中）低至0.25元/百萬(wàn)tokens；預(yù)計(jì)下半年昇騰950批量上市后，Pro價(jià)格還會(huì)大幅下調(diào)。

這種“加量不加價(jià)”的底氣，背后是兩條技術(shù)路線(xiàn)的深度交匯。

第一條路線(xiàn)，是DeepSeek在算法層面的“精打細(xì)算”。從V3到V4，DeepSeek在MoE路線(xiàn)上越走越深。V4每層384個(gè)專(zhuān)家，每次激活6個(gè)專(zhuān)家，通過(guò)這種極其細(xì)粒度的專(zhuān)家分割和智能路由，V4在成倍擴(kuò)大模型參數(shù)、提升能力的同時(shí)，將實(shí)際激活的計(jì)算量死死按在了合理區(qū)間。簡(jiǎn)單來(lái)說(shuō)，用戶(hù)無(wú)需為模型中那些“沉睡”的參數(shù)買(mǎi)單。

第二條路線(xiàn)，則是華為云在基礎(chǔ)設(shè)施層面的算力托底。模型本身的降本只是第一步，要讓產(chǎn)業(yè)真正“用得起”，還需要云端算力的同步下沉。華為云在這里扮演了“普及者”的角色。首先，降低使用門(mén)檻。華為云MaaS平臺(tái)為開(kāi)發(fā)者提供免部署、一鍵調(diào)用V4-Flash API的服務(wù)。中小企業(yè)和開(kāi)發(fā)者不需要關(guān)心底層芯片，無(wú)需自己管理集群即可接入。其次，擴(kuò)大覆蓋范圍。當(dāng)前華為云已適配160多個(gè)行業(yè)主流大模型，無(wú)論是大規(guī)模企業(yè)還是初創(chuàng)團(tuán)隊(duì)，都能在華為云的AI基礎(chǔ)設(shè)施中找到適合的接入方式。最后，持續(xù)優(yōu)化成本。通過(guò)模型蒸餾、量化壓縮和高效推理，華為云將百萬(wàn)級(jí)上下文的使用門(mén)檻拉低到了極具商業(yè)競(jìng)爭(zhēng)力的水平，讓“用得起”這件事真正落地。

這種普惠并非簡(jiǎn)單的“降價(jià)促銷(xiāo)”，而是建立在“昇騰芯片—CANN異構(gòu)計(jì)算架構(gòu)—華為云服務(wù)”三層協(xié)同的基礎(chǔ)之上，是硬核工程能力兌現(xiàn)的結(jié)果。

當(dāng)然，國(guó)產(chǎn)算力的突圍絕非一蹴而就。據(jù)DeepSeek披露，受限于當(dāng)前高端算力的供給，目前V4-Pro的服務(wù)吞吐仍有局限。但同時(shí)也釋放了一個(gè)明確的預(yù)期：預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后，其價(jià)格仍有進(jìn)一步下調(diào)的空間。

這種算力成本的持續(xù)下探，帶來(lái)的絕不僅僅是軟件調(diào)用的狂歡，更是直接扣動(dòng)了海量智能端快速普及的扳機(jī)。當(dāng)百萬(wàn)上下文的推理成本低至幾毛錢(qián)，AI將徹底突破云端SaaS的邊界，加速向AI PC、智能汽車(chē)、具身機(jī)器人乃至龐大的IoT生態(tài)蔓延。端側(cè)設(shè)備無(wú)需再受制于昂貴的本地算力瓶頸，只要接入云端，就能隨時(shí)喚醒最聰明的“大腦”。

AI的普惠，終局就是成為像水、電一樣的基礎(chǔ)設(shè)施。水利工程的意義不是讓家家戶(hù)戶(hù)去買(mǎi)抽水機(jī)，而是擰開(kāi)水龍頭就有水；算力普惠的意義，也不在于讓每個(gè)企業(yè)都去囤積昂貴的GPU，而是通過(guò)云端按需調(diào)用。在這里，華為云的存在就如同AI時(shí)代的“硅基黑土地”。

03 這一次，中國(guó)算力起立

金山辦公、360等國(guó)民級(jí)軟件在DeepSeek V4發(fā)布同一天，就通過(guò)華為云完成了新模型的接入。

不要小看這個(gè)“Day 0”同步上線(xiàn)的動(dòng)作。在過(guò)去，大模型的發(fā)布往往是“期貨”，模型發(fā)了，應(yīng)用端要等平臺(tái)調(diào)試、等算力到位、等接口穩(wěn)定，中間有著漫長(zhǎng)的時(shí)滯。而這一次，模型一上線(xiàn)，千萬(wàn)級(jí)用戶(hù)的核心業(yè)務(wù)場(chǎng)景就已經(jīng)在上面跑了。

這印證了一個(gè)殘酷但令人振奮的產(chǎn)業(yè)現(xiàn)實(shí)：只有底層的算力基建足夠穩(wěn)固，上層的商業(yè)應(yīng)用才能跑得如此輕盈。長(zhǎng)久以來(lái)，國(guó)內(nèi)AI產(chǎn)業(yè)的發(fā)展始終懸著一把達(dá)摩克利斯之劍——對(duì)海外高端GPU生態(tài)的重度依賴(lài)。單點(diǎn)技術(shù)的突破不少見(jiàn)，但難以串聯(lián)成一條完整的商業(yè)流水線(xiàn)。

DeepSeek V4在華為云上的首發(fā)適配并規(guī)模化落地，不僅是業(yè)務(wù)的跑通，更是一場(chǎng)極其鮮明的生態(tài)躍遷：中國(guó)AI產(chǎn)業(yè)，正在實(shí)質(zhì)性地跨過(guò)CUDA的封鎖線(xiàn)，向以“華為昇騰硬件+CANN異構(gòu)計(jì)算架構(gòu)”為核心的國(guó)產(chǎn)智算生態(tài)全面遷徙。

真正意義上宣告了一個(gè)國(guó)產(chǎn)AI全棧閉環(huán)的成型。在這里，我們看到了五個(gè)層面的“握手”：芯片層，以昇騰系列為代表的國(guó)產(chǎn)算力硬件，真正扛起了高壓拉練；框架層，華為CANN計(jì)算架構(gòu)等底層軟件，完成了對(duì)復(fù)雜算子和萬(wàn)億參數(shù)調(diào)度的深度優(yōu)化；云平臺(tái)，華為云作為超級(jí)樞紐，將底層生硬的算力轉(zhuǎn)化為了靈活、可調(diào)用的服務(wù)；模型層，DeepSeek V4作為中國(guó)原生的頂尖大模型，提供了世界級(jí)的智力引擎；應(yīng)用層，金山辦公、360等頭部企業(yè)的迅速接入，補(bǔ)齊了將AI轉(zhuǎn)化為實(shí)際生產(chǎn)力的最后一塊拼圖。

“模型-芯片-服務(wù)器-云平臺(tái)-應(yīng)用”，這條完整的國(guó)產(chǎn)化鏈路首次被打通并接受了真實(shí)商業(yè)環(huán)境的檢驗(yàn)。這意味著，中國(guó)的人口紅利和海量數(shù)據(jù)，終于可以跑在中國(guó)人自己的算力網(wǎng)絡(luò)和模型架構(gòu)上。

這一次，中國(guó)算力不再是英偉達(dá)陰影下的備選方案，而是真正站上了牌桌。

04 結(jié)語(yǔ)

在DeepSeek正式發(fā)布V4的文章末尾，寫(xiě)了這樣一句話(huà)：“不誘于譽(yù)，不恐于誹，率道而行，端然正己。”這句話(huà)放在當(dāng)下的百模大戰(zhàn)中，顯得尤為克制，也尤為清醒。

“率道而行”，究竟什么是大模型時(shí)代的“道”？

其實(shí)就是回歸商業(yè)的常識(shí)，回歸技術(shù)的本源。對(duì)于DeepSeek而言，它的道是死磕算法上限，用極客精神把模型做輕、把能力做強(qiáng)；而對(duì)于華為云而言，它的道則是向下扎根，做中國(guó)AI產(chǎn)業(yè)最堅(jiān)實(shí)的底座。

把百萬(wàn)上下文的高端模型拉下神壇，讓數(shù)以萬(wàn)計(jì)的開(kāi)發(fā)者和企業(yè)能夠通過(guò)API毫無(wú)阻礙地接入，這背后需要填平無(wú)數(shù)個(gè)算子優(yōu)化的坑，扛住龐大集群調(diào)度的壓力。華為云正在做的，就是把這些最苦、最重、最底層的“臟活累活”包攬下來(lái)，將復(fù)雜留給算力平臺(tái)，將極簡(jiǎn)的普惠交還給應(yīng)用生態(tài)。

中國(guó)大模型的發(fā)展，已經(jīng)走過(guò)了盲目對(duì)標(biāo)的狂熱期，進(jìn)入了比拼基礎(chǔ)設(shè)施、比拼落地成本的深水區(qū)。

在這個(gè)深水區(qū)里，我們需要DeepSeek這樣的破局者來(lái)定義“中國(guó)模型”的上限，更需要華為云這樣的布道者來(lái)夯實(shí)“中國(guó)算力”的底盤(pán)。當(dāng)模型與算力完成如此深度的咬合，當(dāng)技術(shù)創(chuàng)新與商業(yè)化落地形成閉環(huán)，這正是屬于中國(guó)AI產(chǎn)業(yè)獨(dú)有的“中國(guó)節(jié)奏”。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.