網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

主動“認(rèn)輸”的DeepSeek，這次到底行不行？

2026-04-25 21:14:37　來源: AIX財經(jīng)

北京舉報

分享至

實(shí)測V4長文本、代碼、推理能力。

AIX財經(jīng)（AIXcaijing）原創(chuàng)

作者| 李夢冉

編輯| 魏佳

沒有發(fā)布會，沒有倒計時，DeepSeek V4就這樣直接上線了。

這已經(jīng)是DeepSeek慣用的節(jié)奏。但這次不一樣的地方在于，他們在技術(shù)報告里主動寫下了一句話：V4的能力水平仍落后于GPT-5.4和Gemini-3.1-Pro，發(fā)展軌跡大約滯后前沿閉源模型3至6個月。

這句話放在國內(nèi)AI圈的語境里，顯得有些格格不入。大多數(shù)模型發(fā)布，標(biāo)配的是“全球領(lǐng)先”“行業(yè)第一”。DeepSeek反過來，主動劃出差距。

但如果細(xì)看這次發(fā)布的內(nèi)容，就會發(fā)現(xiàn)這并不是謙虛，V4壓根沒打算在“誰最強(qiáng)”這個問題上和GPT-5掰手腕。V4想做的，是把百萬token的超長上下文變成所有用戶的標(biāo)配，同時把價格打到競品的三分之一以下。

這篇文章我們想說清三件事：V4是什么、它能干什么，以及這次發(fā)布背后值得關(guān)注的信號是什么。

01.

V4最大變化：超長文本全系標(biāo)配

V4模型按大小分為Pro和Flash兩個版本，在官方網(wǎng)頁端和APP界面分別是專家模式和快速模式。

Pro是旗艦版，主打能力上限，對標(biāo)的是GPT-5、Gemini這類頂級閉源模型，適合對效果要求極高的復(fù)雜任務(wù)。Flash是輕量版，速度更快、價格更低，推理能力接近Pro，但世界知識儲備稍遜一些。

兩款模型都支持同一件事，也是這次發(fā)布最值得普通用戶關(guān)注的變化——百萬token的超長上下文，全系標(biāo)配，不分版本，不加價。

“上下文”這個詞聽著技術(shù)，簡言之就是“AI一次能讀多少內(nèi)容”。按照100萬token大約是75萬漢字換算，差不多把整部《三國演義》喂給V4，它都能完整理解和分析。

這源于V4采用了CSA（壓縮稀疏注意力）和HCA（重度壓縮注意力）的混合架構(gòu)。同樣處理一百萬字的內(nèi)容，V4只需要前代模型四分之一的算力和十分之一的顯存。

以前這個能力不是沒有，但價格都很貴，得單獨(dú)付費(fèi)或者升級套餐。V4把它變成了所有用戶默認(rèn)就有的基礎(chǔ)能力。對日常使用來說，感知最明顯的一點(diǎn)是：使用者不再需要把一份長報告剪來剪去分段喂給AI，整份材料可以一次性丟進(jìn)去，讓它直接處理。

此外，V4提供了三檔推理強(qiáng)度：

Non-think直出模式，AI直接給答案，適合簡單問答和日常對話，速度最快；在網(wǎng)頁和APP上關(guān)閉深度思考即可。

Think High是常規(guī)深度思考，AI會在腦子里推導(dǎo)一遍再回答，適合需要分析計算的場景；

Think Max則適合極難推理，但耗時更長，消耗的token大約是普通模式的兩倍。思考的強(qiáng)度，由模型根據(jù)問題的復(fù)雜程度自動判斷，或者使用者可以通過API參數(shù)手動指定為High或Max。

定價方面，V4延續(xù)了DeepSeek一貫的激進(jìn)風(fēng)格。

V4-Pro每百萬token輸入1元（緩存命中）或12元（緩存未命中），輸出為24元；V4-Flash為每百萬token輸入0.2元（緩存命中）或1元（緩存未命中），輸出為2元。

粗算下來，DeepSeek的定價大約是競品的三分之一甚至更低。另外，V4同時支持OpenAI和Anthropic兩種API接口格式，對開發(fā)者來說，切換只需要改一個參數(shù)，遷移成本幾乎為零。

02.

三個場景實(shí)測：長文本、寫代碼、復(fù)雜推理

在實(shí)際使用中，V4表現(xiàn)如何？我們圍繞三個高頻使用場景對其展開測試：長文本處理、代碼生成與調(diào)試和復(fù)雜推理。

場景一：長文本處理

長文本處理是V4此次核心賣點(diǎn)，我們直接選用某上市公司2025財年年度報告作為測試材料。這份年報篇幅為324頁，涵蓋財務(wù)報表、附注及股東信息等多個模塊，信息密度高、數(shù)據(jù)分散，是測試長文本理解能力的理想素材。

我們的測試問題分兩層：第一層要求提煉年報核心要點(diǎn)；第二層追問兩個藏在文檔深處的具體數(shù)據(jù)——該年度回購股份的總數(shù)量與總對價，以及管理人員酬金排名第三的具體人員與金額。這兩個問題的答案分別散落在年報第212至213頁和第311至313頁，位置偏后，必須完整閱讀文檔才能準(zhǔn)確定位。

V4響應(yīng)時間約19秒，給出的答案完全符合原報告。

此外，在追加提問短期銀行借款利率區(qū)間時，我們關(guān)閉了“深度思考”，選擇Non-think模式，V4同樣準(zhǔn)確找到年報數(shù)據(jù)，信息來源同樣精確到頁碼。

從整體表現(xiàn)來看，快速模式下V4對這份300余頁年報的處理相當(dāng)穩(wěn)定。數(shù)據(jù)定位準(zhǔn)確、跨章節(jié)關(guān)聯(lián)清晰、單位換算無誤，且在回答過程中主動識別了潛在的口徑歧義并加以說明，并沒有因?yàn)槲臋n體量大而出現(xiàn)答非所問或信息遺漏的情況。

對于需要快速從大體量文檔中提取特定數(shù)據(jù)，V4的長文本處理能力已經(jīng)達(dá)到了實(shí)際可用的水準(zhǔn)，且在快速模式下便能完成，不需要開啟深度思考來換取準(zhǔn)確性。

場景二：代碼生成與調(diào)試

這一場景我們分兩步進(jìn)行測試：

第一步，讓V4生成一段含有隱藏Bug的Python代碼，要求故意埋入2至3個常見錯誤但不提示位置；

第二步，將這段代碼重新交回V4，要求找出所有問題、修復(fù)代碼并逐一解釋原因。兩輪分別在開啟和關(guān)閉深度思考的模式下各跑一次。

開啟深度思考模式響應(yīng)時間15秒。V4在思考過程中主動梳理了代碼的所有潛在問題，最終給出了6項(xiàng)錯誤分析，超出原題預(yù)設(shè)的2至3個范圍。除了最核心的數(shù)據(jù)類型錯誤和文件未正確關(guān)閉之外，還額外識別出除零錯誤、列名不存在時的KeyError等。

關(guān)閉深度思考模式明顯更快，直接輸出結(jié)果，沒有可見的思考過程。識別出的問題同樣是文件未正確關(guān)閉、列數(shù)據(jù)類型錯誤、除零錯誤、列名不存在等，與開啟深度思考的核心結(jié)論基本一致。

對于不懂代碼的用戶來說，日常的代碼調(diào)試任務(wù)，關(guān)閉深度思考已經(jīng)足夠可用，速度也更快；如果是生產(chǎn)環(huán)境的代碼審查，或者需要考慮各種異常邊界，開啟深度思考會給出更完整的分析。

場景三：復(fù)雜推理與分析

對于復(fù)雜推理測試，我們設(shè)定為一家中高端護(hù)膚品公司的經(jīng)營困境分析：三年收入年均增長18%，但凈利潤率從12%腰斬至6%，同時面臨庫存積壓、營銷費(fèi)用失控、電商渠道落后和競爭對手低價搶市等多重壓力。

要求V4以商業(yè)顧問身份，識別核心問題、按緊迫程度列出三個優(yōu)先風(fēng)險并說明判斷依據(jù)，隨后在同一對話中追問：若公司決定優(yōu)先發(fā)力電商渠道，可能面臨哪些新風(fēng)險。

深度思考響應(yīng)用時9秒。V4在思考過程中先完成了問題拆解：將所有負(fù)面信號歸類為現(xiàn)金流威脅、盈利能力惡化、市場結(jié)構(gòu)性風(fēng)險三個維度，再依據(jù)“若不立即處理會導(dǎo)致現(xiàn)金流斷裂或持續(xù)虧損”的緊迫性標(biāo)準(zhǔn)完成排序，邏輯鏈條清晰可見。

最終它給出的三個優(yōu)先風(fēng)險依次是：庫存積壓與現(xiàn)金流風(fēng)險排第一；盈利能力持續(xù)惡化排第二，中端市場被搶占與渠道結(jié)構(gòu)性短板排第三，并均給出了充分理由。

為了驗(yàn)證連續(xù)推理能力，我們追問發(fā)力電商渠道的風(fēng)險，響應(yīng)用時僅3秒，直接在第一輪建立的背景基礎(chǔ)上繼續(xù)推導(dǎo)，V4識別出五項(xiàng)新風(fēng)險。

關(guān)閉深度思考后結(jié)果也差不多，不過結(jié)論呈現(xiàn)上更結(jié)構(gòu)化，增加了“止損時間窗口”，落地感更強(qiáng)，某種程度上比深度思考版本更像一份可以直接拿去匯報的分析文件。

這一輪測試最值得關(guān)注的有兩點(diǎn)：一是推理的連貫性。前后兩輪的分析形成了完整的邏輯鏈；二是結(jié)論的落地性。風(fēng)險分析不停留在“可能會有影響”的泛泛層面，每條都給出了具體的傳導(dǎo)路徑。

比如它指出高端產(chǎn)品依賴線下BA服務(wù)和專柜體驗(yàn)來支撐溢價，一旦在電商大力促銷，消費(fèi)者會形成“不降價就不買”的預(yù)期，進(jìn)而打擊線下門店的正價銷售能力，最終形成惡性循環(huán)。測試結(jié)果顯示出推理邏輯連貫性和縝密性。

03.

V4的真正影響力，在模型之外

DeepSeek主動說自己“落后3到6個月”，這不是謙虛。DeepSeek的牌是開源、是價格，承認(rèn)差距，反而讓這張牌打得更穩(wěn)。

一位長期關(guān)注大模型領(lǐng)域的從業(yè)者對「AIX財經(jīng)」稱，“當(dāng)一個開源模型把百萬上下文變成標(biāo)配、把API價格打到競品的三分之一，你會發(fā)現(xiàn)閉源模型的護(hù)城河其實(shí)沒有想象中那么寬。”V4最大的價值是讓用戶在成本可控的前提下，把很多以前想做但做不起的功能做出來了。

也因此，開源加低價，可能會動搖整個行業(yè)的定價邏輯。

對普通用戶和中小開發(fā)者來說，頂級推理能力的使用門檻被大幅拉低。以前要用上好模型，要么付高額訂閱，要么承受居高不下的API成本，現(xiàn)在這個壁壘被打薄了；對大廠來說，當(dāng)一個性能接近的開源模型以極低價格提供服務(wù)，閉源模型的溢價空間會被持續(xù)壓縮，而且這個壓力是長期的，不會因?yàn)橄乱粋€版本發(fā)布就消失。

此外，V4技術(shù)報告里，首次把華為昇騰和英偉達(dá)GPU并列寫進(jìn)了硬件驗(yàn)證清單。

更值得注意的是，V4選用的FP4精度格式，恰好是華為今年新發(fā)布昇騰950芯片原生支持的精度，兩者之間的適配不是巧合。DeepSeek官方表示，等下半年昇騰950超節(jié)點(diǎn)批量上市之后，V4-Pro的價格還會繼續(xù)大幅下調(diào)。

在英偉達(dá)出口管制持續(xù)收緊的背景下，這次技術(shù)協(xié)同釋放的信號很清晰：DeepSeek在主動構(gòu)建一條不依賴英偉達(dá)的算力通道。這件事的戰(zhàn)略意義，比V4本身的產(chǎn)品發(fā)布要深遠(yuǎn)得多。

上述從業(yè)者稱，昇騰這條線如果真的跑通，對整個國內(nèi)AI生態(tài)意義巨大，現(xiàn)在大家都在英偉達(dá)這根管子上排隊(duì)，一旦有一套可以平替的硬件基礎(chǔ)設(shè)施成熟起來，算力的定價權(quán)和供給穩(wěn)定性都會發(fā)生根本變化。DeepSeek愿意在技術(shù)報告里公開背書昇騰，這個動作本身就不是普通的商業(yè)合作，更像是一個方向性的表態(tài)。

下半年隨著昇騰950上量、價格進(jìn)一步下探，V4的實(shí)際影響力可能才會真正顯現(xiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.