這是蒼何的第 519 篇原創(chuàng)!
大家好,我是蒼何。
說起來,最近模型圈卷得跟瘋了一樣。
一周發(fā)了七八個新模型,光最近 24 小時就蹦出來 4 個。MiMo、HY3、GPT-5.5……好家伙,我鍵盤都沒敲熱乎,新模型又來了。
但說實話,我最期待的還是 DeepSeek V4。畢竟等了這么久。
這次 V4 預(yù)覽版一上線,我第一時間就沖進(jìn)去,前前后后砸了差不多 「4 千萬 token」 去測。
![]()
講真的,測完以后心情有點復(fù)雜。
有驚喜,也有遺憾。但最大的感受是:「DeepSeek 這波,格局不一樣了。」
當(dāng)時 Wesight 的停更,一度讓我很痛苦,我用 DeepSeek V4 進(jìn)行了迭代,現(xiàn)在他是一個可以搭載你本地 Claude Code、Codex 迭代 Agent 了。
![]()
并新增 CC 和 Codex 引擎,配合原先的 Openclaw 引擎,現(xiàn)在 Wesight 是個多引擎驅(qū)動的成熟系統(tǒng)了,你只要安裝 Wesight,其余的都一鍵配置好。
![]()
無論你的 Claude Code 配置的是什么模型,在 Wesight 中使用變得如此簡單。
![]()
我讓 Wesight 中的 Codex 給 DeepSeek V4 做了一次總結(jié),大家可以先過目一下:
![]()
兩個版本,定位很清晰
V4 分了兩個版本:
「V4-Pro」:1.6T 總參數(shù),49B 激活,1M 上下文。這是旗艦,對標(biāo)頂級閉源模型。
「V4-Flash」:284B 總參數(shù),13B 激活,同樣 1M 上下文。主打便宜和快。
![]()
我拿到 API 的第一件事,就是用長上下文測它的極限。
畢竟 DeepSeek 這次最核心的一個變化,就是 「1M 上下文直接變成標(biāo)配」。
以前 1M 上下文是高配、是噱頭,很多模型標(biāo)了但其實根本用不滿。但 V4 不一樣,它從底層架構(gòu)就圍繞長上下文設(shè)計。
架構(gòu)變化很大,不是小打小鬧
這次 V4 的架構(gòu)改動,說實話挺激進(jìn)的。
先說注意力機(jī)制。V4 搞了個 Hybrid Attention,把 CSA(Compressed Sparse Attention)和 HCA(Heavily Compressed Attention)兩種注意力層交錯著用。一個管長距離依賴,一個管超長壓縮。相當(dāng)于給模型裝了兩套眼睛,近處看得清,遠(yuǎn)處也不模糊。
![]()
優(yōu)化器也從 AdamW 換成了 「Muon」,收斂更快更穩(wěn),再加上流形約束殘差連接讓參數(shù)調(diào)度更靈活,這波架構(gòu)升級誠意很足。
這些架構(gòu)改動,我實測下來最直接的感受就是:「長文本的連貫性確實好了很多。」
我喂了一個接近 90 萬 token 的代碼庫進(jìn)去,讓它幫我做全局重構(gòu)。V3.2 干到一半就開始忘事,變量名對不上,函數(shù)引用亂飛。V4-Pro 幾乎全程在線,跨越幾十萬 token 還能記住我之前定的命名規(guī)范。
Coding 能力,有進(jìn)步
我先是做了前端審美能力的測試,還是有顯著的增強(qiáng),比如這個一句簡單提示詞生成的個人博客網(wǎng)站。
![]()
重新優(yōu)化了下 WeSight 的登錄,也是科技感拉滿。
![]()
先行者聯(lián)盟群里的楊律師同樣用 V4 做出來的應(yīng)用,效果也還不錯。
![]()
前端審美這塊,V 4 確實比 V 3.2 強(qiáng)了不少。但說實話,之前用 GLM 5.1 搞 Wesight 的時候,出來的效果也挺能打,并沒有拉開明顯差距。
不過說實話,Demo 和工程代碼是兩碼事。
前端頁面一行提示詞就能出效果。但 Wesight 涉及 Electron 構(gòu)建、多引擎調(diào)度、Node 原生模塊編譯這些,模塊間耦合度高,對模型的工程理解力要求完全不在一個量級。
在這個場景下,V 4 開始有點兜不住了。比如下面這個構(gòu)建報錯:
![]()
在構(gòu)建 electron 的時候,已經(jīng)犯過的一次錯還是會接著犯。
![]()
這里有個很明顯的對比:同樣是 Wesight 的 Electron 構(gòu)建問題,GLM 5.1 基本一輪就能定位到根因,改了就不復(fù)發(fā)。
V4 是改了犯、犯了改,同一個配置項反復(fù)橫跳。這說明差距不在語法層面,在工程上下文的追蹤深度上。
![]()
在 Wesight 的 Codex 面板,調(diào)試了好幾次,也沒修復(fù)這個 bug,始終無法回復(fù),硬是楞在那里。
![]()
調(diào)試了好幾次,也沒修復(fù)這個 bug,始終無法回復(fù),硬是楞在那里。我判斷是 V 4 在遇到自己不熟悉的錯誤時,傾向于停止行動而非嘗試替代方案,這在 Agent 場景下是個硬傷。
還有個更頭疼的:我發(fā)現(xiàn)此時長時任務(wù)跑到一半,它會自己停下。不是報錯,也不是超時,就是單純中斷不繼續(xù)了。你沒法掛后臺讓它跑,只能在旁邊盯著催。說實話,這在實際工程中有點難受。
![]()
最后沒辦法,我還是切換回 GLM 5.1 幫一次就解決好了。(畢竟剛整的 coding plan 還是很香的。)
![]()
處理好之后,去 Wesight 中使用就能看到 codex 正常回答了。
![]()
我看了下在 Code Arena 的測試中,DeepSeek V4 Pro 相較于 V3.2 進(jìn)步很大,但還次于 GLM 5.1 和 Kimi K2.6。和我的測試結(jié)果相差不大。
![]()
如果你想要國產(chǎn)模型進(jìn)行復(fù)雜的 Coding 任務(wù),當(dāng)下 DeepSeek V4 Pro 還無法達(dá)到領(lǐng)先的要求,相比較 GLM 5.1 的 Agent Coding 能力表現(xiàn)會更好些。
價格方面,我本次測試任務(wù)一共花費近 50 吧,對比 Coding Plan 來說,還是貴了。畢竟我還沒用 1 億 token 呢。
![]()
Agent 能力,進(jìn)步顯著但還有坑
DeepSeek 這次在 Agent 上下了不少功夫。
官方直接說了:V4-Pro 已經(jīng)是公司內(nèi)部默認(rèn)的編碼模型了。內(nèi)部評測反饋是,「體驗優(yōu)于 Sonnet 4.5,交付質(zhì)量接近 Opus 4.6 非思考模式」。
![]()
這個評價不低。Sonnet 4.5 和 Opus 4.6 什么水平,大家心里都有數(shù)。
我實測下來,用 V4-Pro + Claude Code 寫代碼,簡單和中等難度的任務(wù)確實很流暢。代碼生成的風(fēng)格偏實戰(zhàn),不會過度設(shè)計,這在 Agentic Coding 場景下反而是優(yōu)點。
但有幾個坑我也得說。
第一個坑:「本地 skill 調(diào)用不靈敏」。
我本地配了一些 skill 和 Cli,GLM-5.1、Kimi K 2.6 都能正常識別并調(diào)用,但 V4 有時候需要我明確提示才去調(diào),不夠主動。
![]()
我分析下來,V4 的問題不是不會調(diào) skill,是「判斷該不該調(diào)的決策不夠果斷」。同樣一個 prompt,GLM 5.1 和 Kimi 2.6 能立刻識別出「這該用那個 tool 了」,V4 會猶豫,等你再 push 一下才動。
第二個坑:「復(fù)雜約束下的理解力」。
我給項目做了 spec 約束。比如提交 GitHub 前必須過一遍 commit 自檢,這是 Wesight 開發(fā)規(guī)范里的硬要求。結(jié)果 V4 直接把自檢跳過了,代碼就往 GitHub 上推。
說實話,這個 bug 比前面的構(gòu)建報錯更致命。構(gòu)建報錯至少你能看到,修就行了。但偷偷跳過約束,你要是不盯著完全不知道它漏了哪一步。這在團(tuán)隊協(xié)作場景里基本是一票否決級的風(fēng)險。
同樣一份 spec 丟給 GLM 5.1,按 checklist 一步不落走完才提交,穩(wěn)得一匹。
這些場景在實際工程中挺常見的。V4 在這些地方的表現(xiàn),跟 Opus 4.6 還是有一定差距。
不過話說回來,這畢竟是預(yù)覽版。DeepSeek 也坦誠說了,和 Opus 4.6 思考模式存在差距。這種誠實我反而挺認(rèn)可的。
推理和知識,可圈可點
推理這塊,V4-Pro 在數(shù)學(xué)、STEM、競賽型代碼上,超越了所有已公開評測的開源模型,跟世界頂級閉源模型打平。
世界知識更是猛。在知識評測中大幅領(lǐng)先其他開源模型,只比 Gemini 3.1 Pro 稍遜一丟丟。
我用一些非常冷門的領(lǐng)域知識去測,比如某些小眾編程語言的特性、特定年份的學(xué)術(shù)論文細(xì)節(jié),V4-Pro 的準(zhǔn)確率明顯比 V3.2 高了一個檔次。
比如這個經(jīng)典的洗車問題,V4-Pro 的回答如下:
![]()
還有楊律師的這個 demo,粒子的分布、運動,ds 是用數(shù)學(xué)運算搞的,推理能力不錯。
![]()
但有一個點要注意:V4 目前「還不是多模態(tài)模型」。純文本。
雖然有傳言說內(nèi)部已經(jīng)做了多模態(tài)相關(guān)工作,但官方明確表示暫時不會放出來,可能得等到 V4.5 或者 V5.0。
寫作能力,風(fēng)格化不錯
我發(fā)現(xiàn)基于 DeepSeek V4 強(qiáng)大的上下文,配合 Obsidian 知識庫,用來寫作,效果也還不錯。
甚至,這類的文章都不需要 Rag 了,他學(xué)習(xí)語言風(fēng)格學(xué)的很不錯。和 Claude Opus 4.6 有一點點差距,但是好過 4.7 的。
如果你給的素材足夠豐富,他的仿寫風(fēng)格味道越對味。
![]()
價格,漲了但依然良心
模型
輸入
輸出
V4-Pro
12 元/百萬 token
24 元/百萬 token
V4-Flash
1 元/百萬 token
2 元/百萬 token
![]()
相比 V3 確實漲了。但反過來想,V4-Pro 參數(shù)量 1.6T,是 V3.2 的將近兩倍半。參數(shù)大了,能力上去了,價格漲一點也合理。
橫向?qū)Ρ群M猓篊laude Opus 4.7 輸入 、 輸 出 25,GPT-5.5 輸入 、 輸 出 30。國產(chǎn)模型整體依然便宜 「60%」 左右。
而且這個價格還有下行空間。據(jù)透露,下半年華為昇騰 950 超節(jié)點批量上市后,V4-Pro 的定價預(yù)計會大幅下調(diào)。
所以現(xiàn)在這個價格,更像是「產(chǎn)能不夠,先用價格控一下流量」。
最讓我感慨的,是國產(chǎn)化的決心
讀 V4 的技術(shù)報告,我發(fā)現(xiàn)一個細(xì)節(jié)。
他們引入了 「MXFP4」,在后訓(xùn)練和推理體系里用上了。這意味著可以適配國產(chǎn)卡,華為昇騰、寒武紀(jì)、壁仞都能跑,降低對 NVIDIA FP8 生態(tài)的綁定。
還有 「TileLang」。底層 kernel 不再完全靠 CUDA 寫,而是用更高層級的 DSL 描述計算,再編譯到不同硬件上。遷移成本大大降低。
「MegaMoE」 融合內(nèi)核也是專門為減少專家并行通信等待設(shè)計的,已經(jīng)在華為昇騰上跑通了。
這些操作,說白了就不是單純?yōu)榱怂瘛J潜贾屇P湍茉趪a(chǎn)硬件上真正用起來去的。
你可以說 V4 在 Agent 上還有 bug,可以說它沒有多模態(tài)有點遺憾。但你不得不承認(rèn),「在 AI 國產(chǎn)化這條路上,DeepSeek 走得比誰都扎實。」
總結(jié)一下
DeepSeek V4 不是一個讓你「臥槽牛逼」的模型。
沒有碾壓式的領(lǐng)先,沒有革命性的新功能。
但它是一個讓我「嗯,方向?qū)α恕沟哪P汀?/p>
1M 上下文標(biāo)配、Agent 能力大幅提升、推理和知識逼近頂級閉源、底層架構(gòu)全面擁抱國產(chǎn)化。每一點都在為未來鋪路。
我給 V4 的一句話評價:「V3 是 DeepSeek 的成人禮,V4 是 DeepSeek 的宣言書。」
4 千萬 token 測下來,我覺得值。
最后說一句大實話:如果你主攻復(fù)雜工程開發(fā)、重度依賴 Agent Coding,現(xiàn)階段要用國產(chǎn)模型的話, GLM 5.1 還是更穩(wěn)的選擇。但如果你做長文本分析、知識問答、風(fēng)格化寫作,V4 絕對值得一試。
你試了 DeepSeek V4 嗎?感覺跟 V3 比提升大不大?評論區(qū)聊聊。
以上,我是蒼何。如果覺得有用,點個「贊」和「在看」支持一下。
也可以轉(zhuǎn)發(fā)給在用 DeepSeek 的朋友,看看他們的體驗跟你一不一樣。
參考資料:
1、DeepSeek-V4 官方發(fā)文:
2、DeepSeek-V4 技術(shù)報告 PDF
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
3、賽博禪心公眾號:
4、卡茲克公眾號:
5、DeepSeek API 文檔:
https://api-docs.deepseek.com/zh-cn/guides/coding_agents
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.