網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

DeepSeek+華為，黃仁勛：我們的噩夢來了！

2026-04-24 19:59:54　來源: 藍(lán)字計(jì)劃

廣東舉報

分享至

作者｜Hayward

原創(chuàng)首發(fā)｜藍(lán)字計(jì)劃

英偉達(dá)CEO黃仁勛的噩夢成真了。

4月17 日，黃仁勛在一個采訪中罕見發(fā)飆：

主持人問他，如果美國“賣芯片給中國，中國算力增強(qiáng)了，不就是幫對手變強(qiáng)嗎？”

但老黃卻憤怒地說：“芯片又不是濃縮鈾！賣給中國怎么了？“

“如果DeepSeek這種中國頂尖大模型，以后首發(fā)跑在華為芯片上，對美國來說就是可怕的結(jié)果！”

七天之后，老黃一語成箴。

4月24日，在DeepSeek V3/R1爆火了一年多之后，在眾人的翹首期盼之下，DeepSeek終于掏出了一個大版本號更新的新模型。

但比起DeepSeek V4的性能提升，更引人注目的是另一件事：

相比英偉達(dá)，DeepSeek這次選擇和華為走到了一起。

第二個華為？

按照官方的說法，這次DeepSeek V4和華為方堪稱“深度融合”，而這種融合，就體現(xiàn)在芯模協(xié)同的芯片+模型層面。

DeepSeek在V4開發(fā)過程中，專門花了幾個月時間與華為（以及寒武紀(jì)）密切合作，重寫了模型底層代碼的部分模塊，從原本更依賴CUDA的技術(shù)路徑，開始向華為CANN生態(tài)做深度適配。

這打破了行業(yè)慣例——以往大模型通常優(yōu)先給英偉達(dá)/AMD提供早期訪問權(quán)限進(jìn)行優(yōu)化，而DeepSeek這次把優(yōu)先期給了國產(chǎn)芯片，確保V4在華為昇騰950系列芯片上高效運(yùn)行。

幾乎與此同時，華為計(jì)算官方明確表示，昇騰超節(jié)點(diǎn)系列產(chǎn)品已全面支持DeepSeek-V4。

通過雙方芯模技術(shù)緊密協(xié)同，實(shí)現(xiàn)了在昇騰硬件上的低時延推理。例如在8K輸入場景下，昇騰950超節(jié)點(diǎn)可實(shí)現(xiàn)V4-Pro TPOT約20ms、V4-Flash TPOT約10ms的單token解碼時延，非常出色。

正是基于這個消息，這次DeepSeek V4的發(fā)布，除了滿足吃瓜群眾等來“下一個DeepSeek R1”的樸素愿望外，還被視為中國AI產(chǎn)業(yè)鏈“從依賴到自主”的重要一步。

之所以會被賦予如此重大的意義，看看過去一年里關(guān)于DeepSeek的討論都離不開英偉達(dá)就知道了。

V3也好，R1也好，無論成本再低，性能再好，但都繞不開一個現(xiàn)實(shí)：

買得到什么卡、能不能穩(wěn)定供貨、美國什么時候再加一道禁令、CUDA生態(tài)能不能繼續(xù)用，始終都在有形無形地掐著國產(chǎn)大模型的脖子。

而在今天，至少在推理端，中國大模型已經(jīng)開始突破重圍。

一個中國最頂尖的大模型，至少在推理服務(wù)上，已經(jīng)不必完全依賴英偉達(dá)的卡。

過去美國一邊卡中國的高端AI芯片，一邊又想讓英偉達(dá)繼續(xù)賣H20這種“特供殘血卡”的歷史，也一去不復(fù)返了。

性能沖擊國產(chǎn)頂尖

當(dāng)然，DeepSeek V4能讓人興奮，除了華為，還在于它確實(shí)非常能打。

從目前公開信息看，DeepSeek V4的成績，確實(shí)把DeepSeek又送回了國內(nèi)大模型的最前排。

先看基礎(chǔ)能力。

DeepSeek官方稱，V4-Pro在世界知識、數(shù)學(xué)、STEM、代碼等方向上，已經(jīng)超過當(dāng)前開源模型，并接近全球頂級閉源模型水平；V4-Flash的推理能力也接近V4-Pro，在簡單Agent任務(wù)上表現(xiàn)接近旗艦版。

另一方面，針對當(dāng)前行業(yè)大熱的Agent能力，DeepSeek V4也迎來了“史詩級”加強(qiáng)。

官方明確強(qiáng)調(diào)V4面向Agent能力做了專門優(yōu)化，已經(jīng)接入Claude Code、OpenClaw、OpenCode等主流AI Agent工具，并且正在驅(qū)動DeepSeek自己內(nèi)部的agentic coding。

然后還有上下文能力，DeepSeek V4支持100萬token上下文，并且是所有模型的默認(rèn)能力，實(shí)現(xiàn)近7.8倍提升。

有了這樣強(qiáng)大的上下文能力，新模型就能輕松支持超長上下文場景，如長文檔分析、復(fù)雜Agent任務(wù)，還是為未來的AI工具實(shí)用性落地、Agent工具接入做準(zhǔn)備。

只不過，在價格方方面，這次可能就不再是DeepSeek的優(yōu)勢了。

官方價格表顯示，V4-Flash每百萬輸入token是0.14美元，每百萬輸出token是0.28美元；V4-Pro每百萬輸入token是1.74美元，每百萬輸出token是3.48美元。

緩存命中時，輸入價格還能進(jìn)一步降到0.028美元和0.145美元。

相比DeepSeek過去那種“便宜到讓同行懷疑人生”的打法，V4-Pro明顯貴了不少；但也從另一方面說明，DeepSeek不是單純靠低價沖市場了，他們也有信心，抬高價格后依然有大把人買單。

無論是從能力還是價格定位來看，DeepSeek V4顯然有著改寫市場秩序的野心。

只不過，距離 DeepSeek V4 的完全勝利，可惜還差一步。

模型訓(xùn)練，還是難題

DeepSeek V4跑在華為昇騰上，當(dāng)然是一個標(biāo)志性事件。

可它目前最確定的部分，還是推理和適配；對于真正能鼓舞士氣的“用昇騰芯片訓(xùn)練出DeepSeek V4” ，卻還沒有一個明確的答案。

根據(jù)路透社的報道，DeepSeek V4適配了華為芯片技術(shù)，華為也稱昇騰超節(jié)點(diǎn)產(chǎn)品線支持V4系列模型；但DeepSeek并沒有披露訓(xùn)練這款最新模型使用了哪些處理器。

此前Reuters曾援引美國官員稱，DeepSeek最新模型使用Nvidia Blackwell訓(xùn)練。到目前為止，V4的訓(xùn)練硬件仍沒有明確答案。

另一方面，這次頻繁路面的華為昇騰950系列芯片被定位為推理專用芯片，F(xiàn)P8/FP4等低精度算力強(qiáng)勁，單卡性能在某些場景下?lián)Q可達(dá)英偉達(dá)H20的2.87倍左右，真正能用來訓(xùn)練的，實(shí)際上是今年下半年才實(shí)現(xiàn)量產(chǎn)的950DT。

所以，DeepSeek V4只能算是部分?jǐn)[脫了英偉達(dá)CUDA生態(tài)的依賴，距離“全鏈路國產(chǎn)”，還有一些距離。

不過好在，這次昇騰官方披露了一個值得注意的細(xì)節(jié)：CANN已基于A3 64卡超節(jié)點(diǎn)，完成DeepSeek V4-Flash模型續(xù)訓(xùn)練（CPT）的0-day適配支持，實(shí)測模型吞吐量最高達(dá)到1100 tokens/p/s。

這個細(xì)節(jié)的價值在于，盡管V4-Flash只是輕量版本，但DeepSeek V4已經(jīng)可以在國產(chǎn)算力上跑通續(xù)訓(xùn)練流程。

這意味著，國產(chǎn)算力在大模型鏈路里的角色，正在從推理部署繼續(xù)往訓(xùn)練側(cè)推進(jìn)：先跑通推理，再完成續(xù)訓(xùn)練適配，最后攻克最難的完整預(yù)訓(xùn)練。

說不定到了今年下半年，昇騰950DT可以實(shí)現(xiàn)大規(guī)模出貨，我們就真的可以看到“訓(xùn)練—推理”全鏈路跑在國產(chǎn)算力上的國產(chǎn)大模型了。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.