![]()
作者|Hayward
原創(chuàng)首發(fā)|藍(lán)字計(jì)劃
英偉達(dá)CEO黃仁勛的噩夢成真了。
4月17 日,黃仁勛在一個采訪中罕見發(fā)飆:
主持人問他,如果美國“賣芯片給中國,中國算力增強(qiáng)了,不就是幫對手變強(qiáng)嗎?”
但老黃卻憤怒地說:“芯片又不是濃縮鈾!賣給中國怎么了?“
“如果DeepSeek這種中國頂尖大模型,以后首發(fā)跑在華為芯片上,對美國來說就是可怕的結(jié)果!”
七天之后,老黃一語成箴。
4月24日,在DeepSeek V3/R1爆火了一年多之后,在眾人的翹首期盼之下,DeepSeek終于掏出了一個大版本號更新的新模型。
但比起DeepSeek V4的性能提升,更引人注目的是另一件事:
相比英偉達(dá),DeepSeek這次選擇和華為走到了一起。
第二個華為?
按照官方的說法,這次DeepSeek V4和華為方堪稱“深度融合”,而這種融合,就體現(xiàn)在芯模協(xié)同的芯片+模型層面。
DeepSeek在V4開發(fā)過程中,專門花了幾個月時間與華為(以及寒武紀(jì))密切合作,重寫了模型底層代碼的部分模塊,從原本更依賴CUDA的技術(shù)路徑,開始向華為CANN生態(tài)做深度適配。
這打破了行業(yè)慣例——以往大模型通常優(yōu)先給英偉達(dá)/AMD提供早期訪問權(quán)限進(jìn)行優(yōu)化,而DeepSeek這次把優(yōu)先期給了國產(chǎn)芯片,確保V4在華為昇騰950系列芯片上高效運(yùn)行。
幾乎與此同時,華為計(jì)算官方明確表示,昇騰超節(jié)點(diǎn)系列產(chǎn)品已全面支持DeepSeek-V4。
![]()
通過雙方芯模技術(shù)緊密協(xié)同,實(shí)現(xiàn)了在昇騰硬件上的低時延推理。例如在8K輸入場景下,昇騰950超節(jié)點(diǎn)可實(shí)現(xiàn)V4-Pro TPOT約20ms、V4-Flash TPOT約10ms的單token解碼時延,非常出色。
正是基于這個消息,這次DeepSeek V4的發(fā)布,除了滿足吃瓜群眾等來“下一個DeepSeek R1”的樸素愿望外,還被視為中國AI產(chǎn)業(yè)鏈“從依賴到自主”的重要一步。
之所以會被賦予如此重大的意義,看看過去一年里關(guān)于DeepSeek的討論都離不開英偉達(dá)就知道了。
V3也好,R1也好,無論成本再低,性能再好,但都繞不開一個現(xiàn)實(shí):
買得到什么卡、能不能穩(wěn)定供貨、美國什么時候再加一道禁令、CUDA生態(tài)能不能繼續(xù)用,始終都在有形無形地掐著國產(chǎn)大模型的脖子。
而在今天,至少在推理端,中國大模型已經(jīng)開始突破重圍。
一個中國最頂尖的大模型,至少在推理服務(wù)上,已經(jīng)不必完全依賴英偉達(dá)的卡。
過去美國一邊卡中國的高端AI芯片,一邊又想讓英偉達(dá)繼續(xù)賣H20這種“特供殘血卡”的歷史,也一去不復(fù)返了。
性能沖擊國產(chǎn)頂尖
當(dāng)然,DeepSeek V4能讓人興奮,除了華為,還在于它確實(shí)非常能打。
從目前公開信息看,DeepSeek V4的成績,確實(shí)把DeepSeek又送回了國內(nèi)大模型的最前排。
先看基礎(chǔ)能力。
DeepSeek官方稱,V4-Pro在世界知識、數(shù)學(xué)、STEM、代碼等方向上,已經(jīng)超過當(dāng)前開源模型,并接近全球頂級閉源模型水平;V4-Flash的推理能力也接近V4-Pro,在簡單Agent任務(wù)上表現(xiàn)接近旗艦版。
![]()
![]()
另一方面,針對當(dāng)前行業(yè)大熱的Agent能力,DeepSeek V4也迎來了“史詩級”加強(qiáng)。
官方明確強(qiáng)調(diào)V4面向Agent能力做了專門優(yōu)化,已經(jīng)接入Claude Code、OpenClaw、OpenCode等主流AI Agent工具,并且正在驅(qū)動DeepSeek自己內(nèi)部的agentic coding。
然后還有上下文能力,DeepSeek V4支持100萬token上下文,并且是所有模型的默認(rèn)能力,實(shí)現(xiàn)近7.8倍提升。
有了這樣強(qiáng)大的上下文能力,新模型就能輕松支持超長上下文場景,如長文檔分析、復(fù)雜Agent任務(wù),還是為未來的AI工具實(shí)用性落地、Agent工具接入做準(zhǔn)備。
只不過,在價格方方面,這次可能就不再是DeepSeek的優(yōu)勢了。
官方價格表顯示,V4-Flash每百萬輸入token是0.14美元,每百萬輸出token是0.28美元;V4-Pro每百萬輸入token是1.74美元,每百萬輸出token是3.48美元。
緩存命中時,輸入價格還能進(jìn)一步降到0.028美元和0.145美元。
相比DeepSeek過去那種“便宜到讓同行懷疑人生”的打法,V4-Pro明顯貴了不少;但也從另一方面說明,DeepSeek不是單純靠低價沖市場了,他們也有信心,抬高價格后依然有大把人買單。
無論是從能力還是價格定位來看,DeepSeek V4顯然有著改寫市場秩序的野心。
只不過,距離 DeepSeek V4 的完全勝利,可惜還差一步。
模型訓(xùn)練,還是難題
DeepSeek V4跑在華為昇騰上,當(dāng)然是一個標(biāo)志性事件。
可它目前最確定的部分,還是推理和適配;對于真正能鼓舞士氣的“用昇騰芯片訓(xùn)練出DeepSeek V4” ,卻還沒有一個明確的答案。
根據(jù)路透社的報道,DeepSeek V4適配了華為芯片技術(shù),華為也稱昇騰超節(jié)點(diǎn)產(chǎn)品線支持V4系列模型;但DeepSeek并沒有披露訓(xùn)練這款最新模型使用了哪些處理器。
此前Reuters曾援引美國官員稱,DeepSeek最新模型使用Nvidia Blackwell訓(xùn)練。到目前為止,V4的訓(xùn)練硬件仍沒有明確答案。
另一方面,這次頻繁路面的華為昇騰950系列芯片被定位為推理專用芯片,F(xiàn)P8/FP4等低精度算力強(qiáng)勁,單卡性能在某些場景下?lián)Q可達(dá)英偉達(dá)H20的2.87倍左右,真正能用來訓(xùn)練的,實(shí)際上是今年下半年才實(shí)現(xiàn)量產(chǎn)的950DT。
所以,DeepSeek V4只能算是部分?jǐn)[脫了英偉達(dá)CUDA生態(tài)的依賴,距離“全鏈路國產(chǎn)”,還有一些距離。
不過好在,這次昇騰官方披露了一個值得注意的細(xì)節(jié):CANN已基于A3 64卡超節(jié)點(diǎn),完成DeepSeek V4-Flash模型續(xù)訓(xùn)練(CPT)的0-day適配支持,實(shí)測模型吞吐量最高達(dá)到1100 tokens/p/s。
![]()
這個細(xì)節(jié)的價值在于,盡管V4-Flash只是輕量版本,但DeepSeek V4已經(jīng)可以在國產(chǎn)算力上跑通續(xù)訓(xùn)練流程。
這意味著,國產(chǎn)算力在大模型鏈路里的角色,正在從推理部署繼續(xù)往訓(xùn)練側(cè)推進(jìn):先跑通推理,再完成續(xù)訓(xùn)練適配,最后攻克最難的完整預(yù)訓(xùn)練。
說不定到了今年下半年,昇騰950DT可以實(shí)現(xiàn)大規(guī)模出貨,我們就真的可以看到“訓(xùn)練—推理”全鏈路跑在國產(chǎn)算力上的國產(chǎn)大模型了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.