![]()
千呼萬(wàn)喚之下,DeepSeek V4終于發(fā)布了。從今年初開(kāi)始,業(yè)內(nèi)對(duì)V4的期待一直懸著,等著發(fā)布日期,等著技術(shù)報(bào)告,等著模型上線(xiàn)。4月24日,這只靴子終于落地。
DeepSeek V4正式發(fā)布,同步開(kāi)源。同一天,華為云首發(fā)適配。
這一天,有三件事值得記下來(lái):
第一件事:AI算力終于來(lái)到了普惠時(shí)代,而且這次落地的是開(kāi)源模型。
第二件事:這次適配華為昇騰等國(guó)產(chǎn)芯片。
第三件事:金山辦公、360等企業(yè)已通過(guò)華為云接入DeepSeek新模型。模型一上線(xiàn),應(yīng)用就已經(jīng)在跑了,這說(shuō)明云是AI落地的最佳平臺(tái)。
三件事,各有各的分量。放在一起,就是中國(guó)AI生態(tài)跨越量變、走向質(zhì)變的分水嶺。
01
華為云深度優(yōu)化首發(fā)適配
華為云首發(fā)適配了DeepSeek-V4模型。
DeepSeek V4的適配,難度比以往更高。據(jù)了解,V4這次適配最大的技術(shù)挑戰(zhàn),來(lái)自模型架構(gòu)本身的全面創(chuàng)新。據(jù)業(yè)內(nèi)工程師表示,“Deepseek V4模型相對(duì)之前的模型創(chuàng)新非常大,在Attention模塊基本上是完全創(chuàng)新,創(chuàng)新性地引入Compressor模塊,不管是在模型適配和還是在算子適配上都需要進(jìn)行全新地開(kāi)發(fā)和調(diào)優(yōu)。”
最大的挑戰(zhàn),來(lái)自1M長(zhǎng)上下文的適配支持。過(guò)去一年,模型的上下文窗口一直是行業(yè)競(jìng)爭(zhēng)的焦點(diǎn)。從GPT-4的32K,到Claude 3的200K,再到Google Gemini率先突破1M,百萬(wàn)級(jí)上下文窗口正在成為頭部模型的新標(biāo)配。V4的出現(xiàn),也將數(shù)據(jù)拉到了百萬(wàn)量級(jí)。
從256K到1M,這不是簡(jiǎn)單的數(shù)字增長(zhǎng),而是對(duì)KVCache(鍵值緩存)管理、推理平臺(tái)壓力測(cè)試、內(nèi)存調(diào)度能力的一次全面升級(jí)。面對(duì)這個(gè)挑戰(zhàn),華為云在系統(tǒng)層、算子層和集群層做了三層協(xié)同。
第一層是系統(tǒng)層的調(diào)度優(yōu)化,PD分離調(diào)度。V4的Attention架構(gòu)引入了全新的Compressor模塊,KvCache(鍵值緩存)的管理邏輯和以往完全不同。華為云做了幾件事:一是修改vLLM的KvCache管理模塊,能夠高效分配和管理不同的KvCache Group,這是V4架構(gòu)下的新需求。二是重新設(shè)計(jì)PD分離模塊。PD指的是Prefill(預(yù)填充)和Decode(解碼)兩個(gè)階段。以往它們混在一起計(jì)算,但這兩個(gè)階段計(jì)算特性差異很大。PD分離調(diào)度的核心是:讓Prefill和Decode各自跑在適合自己的計(jì)算資源上,計(jì)算鏈路解耦、獨(dú)立伸縮、精細(xì)化調(diào)度,提高首token時(shí)延、增量時(shí)延及整體吞吐表現(xiàn)。
第二層:算子層的計(jì)算優(yōu)化,融合算子。適配V4,光靠通用算子是不夠的。V4的Compressor模塊融合了大量小算子,如果用傳統(tǒng)的原子算子逐個(gè)調(diào)用,Kernel啟動(dòng)開(kāi)銷(xiāo)會(huì)成為性能的致命瓶頸。華為云的解決方案是:融合算子,把多個(gè)小算子合并成一個(gè)“大算子”一次性執(zhí)行。特別是LI算子和Compressor算子,融合了大量小算子,大幅減少了算子的Kernel Launch開(kāi)銷(xiāo)。通過(guò)算子融合、布局優(yōu)化和訪(fǎng)存重排,提升單卡執(zhí)行效率與端到端性能。
第三層:集群層的架構(gòu)優(yōu)化,互聯(lián)存儲(chǔ)。V4的大規(guī)模部署依賴(lài)多機(jī)多卡并行,權(quán)重加載、KV Cache共享、跨節(jié)點(diǎn)通信、中間狀態(tài)傳輸,每一個(gè)環(huán)節(jié)都可能成為瓶頸。互聯(lián)存儲(chǔ)架構(gòu)解決的是帶寬、時(shí)延與一致性的瓶頸,支撐大規(guī)模并行部署下的穩(wěn)定擴(kuò)展。
通過(guò)三層優(yōu)化協(xié)同,分別從調(diào)度效率、計(jì)算效率和數(shù)據(jù)流轉(zhuǎn)效率三個(gè)維度,保障新模型快速適配與高性能落地。
還有一個(gè)細(xì)節(jié),V4采用了FP4+FP8混合精度訓(xùn)練。在脫離英偉達(dá)生態(tài)的背景下,這套低精度混合訓(xùn)練方案大概率是基于深度定制的內(nèi)部格式實(shí)現(xiàn)的。結(jié)合近期昇騰950超節(jié)點(diǎn)不僅全面支持FP8/MXFP4,更推出了自研的高效HiF8數(shù)據(jù)格式,這從側(cè)面印證了:華為底層的算力架構(gòu)與低精度混合訓(xùn)練技術(shù),已經(jīng)具備支撐萬(wàn)億級(jí)大模型的能力。
02
百萬(wàn)上下文,用得起
一年多前,DeepSeek-V3的發(fā)布在行業(yè)內(nèi)炸出了一片水花。
DeepSeek像一條鯰魚(yú),把AI大模型的價(jià)格從“高高在上”拉到了“人人可用”。API調(diào)用的成本是GPT-4的百分之一,性能卻能正面硬剛,這是DeepSeek給整個(gè)行業(yè)留下最深的印象。
但過(guò)去一年,行業(yè)的牌桌變了。從AI Agent的爆發(fā)到百萬(wàn)級(jí)長(zhǎng)文本的普及,Token的消耗量正呈指數(shù)級(jí)激增。當(dāng)下的行業(yè)陷入了一個(gè)悖論:AI越來(lái)越好用,但AI也越來(lái)越貴。
因此,市場(chǎng)對(duì)V4最大的期待不僅是技術(shù)指標(biāo)的攀升,更是:百萬(wàn)級(jí)別的AI普惠,何時(shí)真正落地?
DeepSeek給出了它的回應(yīng):從現(xiàn)在開(kāi)始,1M上下文將是DeepSeek所有官方服務(wù)的標(biāo)配。同時(shí),在價(jià)格上繼續(xù)保持了極強(qiáng)的壓迫感, V4-Flash輸入(緩存命中)打到了0.2元/百萬(wàn)tokens,V4-Pro限時(shí)優(yōu)惠輸入(緩存命中)低至0.25元/百萬(wàn)tokens;預(yù)計(jì)下半年昇騰950批量上市后,Pro價(jià)格還會(huì)大幅下調(diào)。
![]()
![]()
這種“加量不加價(jià)”的底氣,背后是兩條技術(shù)路線(xiàn)的深度交匯。
第一條路線(xiàn),是DeepSeek在算法層面的“精打細(xì)算”。從V3到V4,DeepSeek在MoE路線(xiàn)上越走越深。V4每層384個(gè)專(zhuān)家,每次激活6個(gè)專(zhuān)家,通過(guò)這種極其細(xì)粒度的專(zhuān)家分割和智能路由,V4在成倍擴(kuò)大模型參數(shù)、提升能力的同時(shí),將實(shí)際激活的計(jì)算量死死按在了合理區(qū)間。簡(jiǎn)單來(lái)說(shuō),用戶(hù)無(wú)需為模型中那些“沉睡”的參數(shù)買(mǎi)單。
第二條路線(xiàn),則是華為云在基礎(chǔ)設(shè)施層面的算力托底。模型本身的降本只是第一步,要讓產(chǎn)業(yè)真正“用得起”,還需要云端算力的同步下沉。華為云在這里扮演了“普及者”的角色。首先,降低使用門(mén)檻。華為云MaaS平臺(tái)為開(kāi)發(fā)者提供免部署、一鍵調(diào)用V4-Flash API的服務(wù)。中小企業(yè)和開(kāi)發(fā)者不需要關(guān)心底層芯片,無(wú)需自己管理集群即可接入。其次,擴(kuò)大覆蓋范圍。當(dāng)前華為云已適配160多個(gè)行業(yè)主流大模型,無(wú)論是大規(guī)模企業(yè)還是初創(chuàng)團(tuán)隊(duì),都能在華為云的AI基礎(chǔ)設(shè)施中找到適合的接入方式。最后,持續(xù)優(yōu)化成本。通過(guò)模型蒸餾、量化壓縮和高效推理,華為云將百萬(wàn)級(jí)上下文的使用門(mén)檻拉低到了極具商業(yè)競(jìng)爭(zhēng)力的水平,讓“用得起”這件事真正落地。
這種普惠并非簡(jiǎn)單的“降價(jià)促銷(xiāo)”,而是建立在“昇騰芯片—CANN異構(gòu)計(jì)算架構(gòu)—華為云服務(wù)”三層協(xié)同的基礎(chǔ)之上,是硬核工程能力兌現(xiàn)的結(jié)果。
當(dāng)然,國(guó)產(chǎn)算力的突圍絕非一蹴而就。據(jù)DeepSeek披露,受限于當(dāng)前高端算力的供給,目前V4-Pro的服務(wù)吞吐仍有局限。但同時(shí)也釋放了一個(gè)明確的預(yù)期:預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后,其價(jià)格仍有進(jìn)一步下調(diào)的空間。
這種算力成本的持續(xù)下探,帶來(lái)的絕不僅僅是軟件調(diào)用的狂歡,更是直接扣動(dòng)了海量智能端快速普及的扳機(jī)。當(dāng)百萬(wàn)上下文的推理成本低至幾毛錢(qián),AI將徹底突破云端SaaS的邊界,加速向AI PC、智能汽車(chē)、具身機(jī)器人乃至龐大的IoT生態(tài)蔓延。端側(cè)設(shè)備無(wú)需再受制于昂貴的本地算力瓶頸,只要接入云端,就能隨時(shí)喚醒最聰明的“大腦”。
AI的普惠,終局就是成為像水、電一樣的基礎(chǔ)設(shè)施。水利工程的意義不是讓家家戶(hù)戶(hù)去買(mǎi)抽水機(jī),而是擰開(kāi)水龍頭就有水;算力普惠的意義,也不在于讓每個(gè)企業(yè)都去囤積昂貴的GPU,而是通過(guò)云端按需調(diào)用。在這里,華為云的存在就如同AI時(shí)代的“硅基黑土地”。
03
這一次,中國(guó)算力起立
金山辦公、360等國(guó)民級(jí)軟件在DeepSeek V4發(fā)布同一天,就通過(guò)華為云完成了新模型的接入。
不要小看這個(gè)“Day 0”同步上線(xiàn)的動(dòng)作。在過(guò)去,大模型的發(fā)布往往是“期貨”,模型發(fā)了,應(yīng)用端要等平臺(tái)調(diào)試、等算力到位、等接口穩(wěn)定,中間有著漫長(zhǎng)的時(shí)滯。而這一次,模型一上線(xiàn),千萬(wàn)級(jí)用戶(hù)的核心業(yè)務(wù)場(chǎng)景就已經(jīng)在上面跑了。
這印證了一個(gè)殘酷但令人振奮的產(chǎn)業(yè)現(xiàn)實(shí):只有底層的算力基建足夠穩(wěn)固,上層的商業(yè)應(yīng)用才能跑得如此輕盈。長(zhǎng)久以來(lái),國(guó)內(nèi)AI產(chǎn)業(yè)的發(fā)展始終懸著一把達(dá)摩克利斯之劍——對(duì)海外高端GPU生態(tài)的重度依賴(lài)。單點(diǎn)技術(shù)的突破不少見(jiàn),但難以串聯(lián)成一條完整的商業(yè)流水線(xiàn)。
DeepSeek V4在華為云上的首發(fā)適配并規(guī)模化落地,不僅是業(yè)務(wù)的跑通,更是一場(chǎng)極其鮮明的生態(tài)躍遷:中國(guó)AI產(chǎn)業(yè),正在實(shí)質(zhì)性地跨過(guò)CUDA的封鎖線(xiàn),向以“華為昇騰硬件+CANN異構(gòu)計(jì)算架構(gòu)”為核心的國(guó)產(chǎn)智算生態(tài)全面遷徙。
![]()
真正意義上宣告了一個(gè)國(guó)產(chǎn)AI全棧閉環(huán)的成型。在這里,我們看到了五個(gè)層面的“握手”:芯片層,以昇騰系列為代表的國(guó)產(chǎn)算力硬件,真正扛起了高壓拉練;框架層,華為CANN計(jì)算架構(gòu)等底層軟件,完成了對(duì)復(fù)雜算子和萬(wàn)億參數(shù)調(diào)度的深度優(yōu)化;云平臺(tái),華為云作為超級(jí)樞紐,將底層生硬的算力轉(zhuǎn)化為了靈活、可調(diào)用的服務(wù);模型層,DeepSeek V4作為中國(guó)原生的頂尖大模型,提供了世界級(jí)的智力引擎;應(yīng)用層,金山辦公、360等頭部企業(yè)的迅速接入,補(bǔ)齊了將AI轉(zhuǎn)化為實(shí)際生產(chǎn)力的最后一塊拼圖。
“模型-芯片-服務(wù)器-云平臺(tái)-應(yīng)用”,這條完整的國(guó)產(chǎn)化鏈路首次被打通并接受了真實(shí)商業(yè)環(huán)境的檢驗(yàn)。這意味著,中國(guó)的人口紅利和海量數(shù)據(jù),終于可以跑在中國(guó)人自己的算力網(wǎng)絡(luò)和模型架構(gòu)上。
這一次,中國(guó)算力不再是英偉達(dá)陰影下的備選方案,而是真正站上了牌桌。
04
結(jié)語(yǔ)
在DeepSeek正式發(fā)布V4的文章末尾,寫(xiě)了這樣一句話(huà):“不誘于譽(yù),不恐于誹,率道而行,端然正己。”這句話(huà)放在當(dāng)下的百模大戰(zhàn)中,顯得尤為克制,也尤為清醒。
“率道而行”,究竟什么是大模型時(shí)代的“道”?
其實(shí)就是回歸商業(yè)的常識(shí),回歸技術(shù)的本源。對(duì)于DeepSeek而言,它的道是死磕算法上限,用極客精神把模型做輕、把能力做強(qiáng);而對(duì)于華為云而言,它的道則是向下扎根,做中國(guó)AI產(chǎn)業(yè)最堅(jiān)實(shí)的底座。
把百萬(wàn)上下文的高端模型拉下神壇,讓數(shù)以萬(wàn)計(jì)的開(kāi)發(fā)者和企業(yè)能夠通過(guò)API毫無(wú)阻礙地接入,這背后需要填平無(wú)數(shù)個(gè)算子優(yōu)化的坑,扛住龐大集群調(diào)度的壓力。華為云正在做的,就是把這些最苦、最重、最底層的“臟活累活”包攬下來(lái),將復(fù)雜留給算力平臺(tái),將極簡(jiǎn)的普惠交還給應(yīng)用生態(tài)。
中國(guó)大模型的發(fā)展,已經(jīng)走過(guò)了盲目對(duì)標(biāo)的狂熱期,進(jìn)入了比拼基礎(chǔ)設(shè)施、比拼落地成本的深水區(qū)。
在這個(gè)深水區(qū)里,我們需要DeepSeek這樣的破局者來(lái)定義“中國(guó)模型”的上限,更需要華為云這樣的布道者來(lái)夯實(shí)“中國(guó)算力”的底盤(pán)。當(dāng)模型與算力完成如此深度的咬合,當(dāng)技術(shù)創(chuàng)新與商業(yè)化落地形成閉環(huán),這正是屬于中國(guó)AI產(chǎn)業(yè)獨(dú)有的“中國(guó)節(jié)奏”。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.