網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek-V4上線：使用華為芯片訓(xùn)練，性能比Gemini差3-6個(gè)月，價(jià)格優(yōu)勢(shì)明顯

2026-04-24 13:17:35　來源: 搜狐科技

北京舉報(bào)

分享至

出品｜搜狐科技

作者｜鄭松毅常博碩

編輯| 楊錦

DeepSeek V4，來了！

OpenAI GPT 5.5 前腳剛發(fā)布，DeepSeek就亮出了“真家伙”。

就在剛剛，DeepSeek-V4的預(yù)覽版本正式上線并同步開源。

據(jù)官方介紹，DeepSeek-V4擁有百萬字超長(zhǎng)上下文，在 Agent 能力、世界知識(shí)和推理性能上均實(shí)現(xiàn)國內(nèi)與開源領(lǐng)域的領(lǐng)先。模型按大小分為兩個(gè)版本：

更具產(chǎn)業(yè)里程碑意義的是，DeepSeek-V4 從模型設(shè)計(jì)之初就深度適配國產(chǎn)算力，在華為昇騰芯片生態(tài)實(shí)測(cè)跑通，成為全球首個(gè)在國產(chǎn)算力底座上完成訓(xùn)練與推理的萬億參數(shù)級(jí)模型，打破對(duì)海外芯片與框架的長(zhǎng)期依賴。

性能比肩頂級(jí)閉源模型

價(jià)格比Claude便宜21倍

官方實(shí)測(cè)數(shù)據(jù)顯示，DeepSeek-V4-Pro性能比肩頂級(jí)閉源模型。

Agent（智能體）能力方面，相比前代模型，DeepSeek-V4-Pro的能力顯著增強(qiáng)。在 Agentic Coding 評(píng)測(cè)中，V4-Pro 已達(dá)到當(dāng)前開源模型最佳水平，并在其他 Agent 相關(guān)評(píng)測(cè)中同樣表現(xiàn)優(yōu)異。

DeepSeek介紹，目前 DeepSeek-V4 已成為公司內(nèi)部員工使用的 Agentic Coding 模型，據(jù)評(píng)測(cè)反饋使用體驗(yàn)優(yōu)于 Sonnet 4.5，交付質(zhì)量接近 Opus 4.6 非思考模式，但仍與Opus 4.6 思考模式存在一定差距。

DeepSeek給出的結(jié)論相對(duì)克制。在知識(shí)與推理任務(wù)上，其性能已經(jīng)超過主流開源模型，并接近Gemini等閉源系統(tǒng)，但仍存在約3到6個(gè)月差距。在 agent和代碼任務(wù)上，其表現(xiàn)接近甚至部分超過Claude Sonnet。

此外，在數(shù)學(xué)、STEM、競(jìng)賽型代碼的測(cè)評(píng)中，DeepSeek-V4-Pro超越當(dāng)前所有已公開評(píng)測(cè)的開源模型（包括月之暗面的K2.6 Thinking、智譜GLM-5.1 Thinking等），取得了比肩世界頂級(jí)閉源模型的優(yōu)異成績(jī)。

相較之下，DeepSeek-V4-Flash主打性價(jià)比，能夠提供更加快捷、經(jīng)濟(jì)的 API 服務(wù)。在 Agent 測(cè)評(píng)中，DeepSeek-V4-Flash 在簡(jiǎn)單任務(wù)上與 DeepSeek-V4-Pro 旗鼓相當(dāng)，但在高難度任務(wù)上仍有差距。

據(jù)悉，V4-Pro 與 V4-Flash 最大上下文長(zhǎng)度為 1M，均同時(shí)支持非思考模式與思考模式，其中思考模式支持 reasoning_effort 參數(shù)設(shè)置思考強(qiáng)度（high/max）。對(duì)于復(fù)雜的 Agent 場(chǎng)景建議使用思考模式，并設(shè)置強(qiáng)度為 max。使用價(jià)格如下：

DeepSeek表示，“受限于高端算力，目前Pro的服務(wù)吞吐十分有限，預(yù)計(jì)下半年昇騰950超節(jié)點(diǎn)批量上市后，Pro的價(jià)格會(huì)大幅下調(diào)。”

再看看國際友商價(jià)格對(duì)比，可見DeepSeek的實(shí)惠：

混合架構(gòu)解決工程落地痛點(diǎn)

全面適配國產(chǎn)算力

大模型處理超長(zhǎng)文本的最大痛點(diǎn)，從來不是 “能不能裝下”，而是跑不動(dòng)、記不住、算不起。隨著傳統(tǒng)注意力機(jī)制呈平方級(jí)復(fù)雜度攀升，百萬Token場(chǎng)景下顯存與算力直接 “爆炸”，幾乎無法工程落地。

DeepSeek-V4 的發(fā)布，標(biāo)志著大模型正式走出 “參數(shù)競(jìng)賽”，進(jìn)入效率優(yōu)先下一代賽道。

從一口氣審計(jì)全量代碼庫、一次性解析千頁合同，到全程記住長(zhǎng)時(shí)間會(huì)議、串聯(lián)多輪復(fù)雜智能體任務(wù)，V4讓AI 真正具備“完整理解、長(zhǎng)期記憶、深度推理”的能力，同時(shí)把使用成本大幅下拉。

這一切得益于DeepSeek業(yè)內(nèi)首創(chuàng)“CSA （壓縮稀疏注意力） + HCA （重度壓縮注意力）”的混合架構(gòu)。用一套“分級(jí)壓縮 + 分級(jí)檢索”思路，把效率拉到極致。這一新方法顯著減少了計(jì)算復(fù)雜度，提升了長(zhǎng)上下文處理的效率。

具體來看，CSA像給長(zhǎng)文本做重點(diǎn)精讀。先把每 4 個(gè)Token壓縮成一個(gè)信息塊，再用稀疏檢索只挑最相關(guān)的內(nèi)容，既保留中段細(xì)節(jié)，又大幅削減計(jì)算量，兼顧精準(zhǔn)與效率。HCA像給長(zhǎng)文本做大綱速讀，把海量信息濃縮成框架級(jí)塊，專門負(fù)責(zé)全局邏輯。

官方數(shù)據(jù)顯示：1M Token場(chǎng)景下，V4-Pro 僅需 V3.2 的 27% 推理算力、10% KV 緩存；Flash 版更是低至 10% 算力、7% 緩存。

除了混合注意力，V4 還帶來三項(xiàng)關(guān)鍵技術(shù)革新，構(gòu)成完整效率革命：

升級(jí)傳統(tǒng)殘差連接，把信號(hào)傳播約束在穩(wěn)定流形上，深層不衰減、訓(xùn)練不炸數(shù)值。

Muon 優(yōu)化器：替代傳統(tǒng) AdamW，收斂更快、訓(xùn)練更穩(wěn)，完美適配 MoE 大模型與低精度訓(xùn)練，解決大批次長(zhǎng)上下文訓(xùn)練的抖動(dòng)難題。

全鏈路工程優(yōu)化：專家并行細(xì)粒度通信重疊、TileLang 內(nèi)核開發(fā)、FP4 量化感知訓(xùn)練、異構(gòu) KV 緩存管理，從計(jì)算、通信、存儲(chǔ)全方位降本提速，推理加速最高近2倍。

最受大家關(guān)心的，是V4這次是否成功全面適配國產(chǎn)算力？

報(bào)告指出，DeepSeek-V4在英偉達(dá) GPU 與華為昇騰 NPU 兩大硬件平臺(tái)上，對(duì)細(xì)粒度 EP 優(yōu)化方案完成了全面驗(yàn)證。相較于性能優(yōu)異的非融合基線方案，該方案在通用推理負(fù)載場(chǎng)景下可實(shí)現(xiàn)1.50~1.73 倍的加速比。

有業(yè)內(nèi)觀點(diǎn)指出，這代表已經(jīng)完成華為昇騰平臺(tái)的適配和實(shí)測(cè)落地。但目前對(duì)外開源的只有英偉達(dá)GPU版本，昇騰適配代碼未開源，屬于閉源適配優(yōu)化。

值得一提的是，寒武紀(jì)在軟硬一體生態(tài)中，已經(jīng)完成基于 vLLM 推理框架完成對(duì) 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的適配，適配代碼已開源到 GitHub 社區(qū)。

剩下的，就等DeepSeek-V4的實(shí)用表現(xiàn)了。還有DeepSeek的首輪融資最終花落誰家，也還是個(gè)謎題。

“不誘于譽(yù)，不恐于誹，率道而行，端然正己。”

DeepSeek官方在文章最后表示，他們將始終秉持長(zhǎng)期主義的原則理念，在嘗試與思考中踏實(shí)前行，努力向?qū)崿F(xiàn) AGI 的目標(biāo)不斷靠近。”

運(yùn)營編輯 |曹倩審核｜孟莎莎

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.