![]()
作者 | 博雯
編輯 | Kino
這個4月大模型領域真是神仙打架。
先是4月16日發布的Claude Opus 4.7,然后是今天前后腳發布的GPT 5.5和DeepSeek V4。
在頂級閉源模型的夾擊下,萬眾矚目的DeepSeek V4還是保持了一貫的底色:開源和極致性價比。
開源模型鏈接,58頁的技術報告,全都一次性放了出來。現在登錄DeepSeek官網或App,就能用最新的DeepSeek V4。
技術報告顯示,在Agent能力,世界知識測評,還有數學、STEM、競賽型代碼等多項能力測評中,DeepSeek-V4-Pro領先一眾開源模型,性能直逼Claude Opus 4.6、GPT-5.4、Gemini-Pro-3.1等頂級閉源模型,但其輸入輸出的成本,卻比這些模型低了好幾個數量級。
![]()
那么,DeepSeek V4的實際表現究竟如何呢?我們從代碼能力、邏輯推理、長文本處理和風格化寫作這幾個核心維度,簡單進行了一番實測。
![]()
代碼能力
DeepSeek官方宣稱,目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型,而且據評測反饋,DeepSeek-V4的使用體驗優于Claude Sonnet 4.5,交付質量接近Claude Opus 4.6的非思考模式,但仍與Opus 4.6思考模式存在一定差距。
在實測中,我先讓DeepSeek V4生成一個暗黑、賽博朋克風格的介紹《GTA 6》的交互式網頁,它只思考了7秒,就寫出了一個融合了霓虹燈效果和粒子故障藝術的交互頁面,可以直接在瀏覽器中運行。
網頁的模塊化布局非常清晰,不僅視覺審美在線,而且包含了很多細膩的交互細節,比如鼠標懸停在功能卡片上時,會觸發邊框發光和上浮效果,頁面背景還有動態粒子和連線特效。
不過,在另一個更復雜的測試任務中,DeepSeek V4的表現就不那么理想了。
我讓它在一個HTML文件中構建一個高度逼真的交互式3D紙質小票,模擬紙張受到拖拽的物理效果。
首次耗時近10分鐘,卻生成了一張無法交互的空白小票。第二次雖然生成了完整小票,但視覺渲染有問題,小票不僅呈暗黑色、缺乏紙張的質感,而且是倒置的。最核心的拉扯交互效果也不正確,紙張呈現類似高彈史萊姆一樣的夸張形變,還有撕裂和穿模。
![]()
推理能力
除了寫代碼,我們也測試了幾道經典的邏輯陷阱題。比如9.9-9.11的計算題,可以看到V4雖然在思考過程中雖然幾次走入岔路,但最終還是給到了準確答案。
![]()
再來一個曾經讓無數知名AI都翻車的“洗車難題”:我家附近50米就有洗車店,請問我應該怎么去?
對于人來說,這是一個簡單到有點好笑的問題,但對于AI來說,它看到“50米”和“出行方式”,就會直接調用統計概率,然后直接輸出——短距離出行,步行是最高頻的答案。它處理的是信息,而不是現實。
但對于更新后的D老師來說,不僅瞬間就明白了問題背后的深層含義:即這是在檢測它是否理解語境,測試邏輯能力,還認為自己要給出一個幽默又合理的回答。
不知道是不是被偷偷調高了幽默值。
![]()
還有值得注意的一點是, 2026年的AI競爭已經不只是模型跑分的事了,而是看誰能更好地嵌入開發者的工作流,誰能更好用。
所以,DeepSeek-V4也專門針對Claude Code、OpenClaw、OpenCode、CodeBuddy這些主流Agent產品做了適配優化,在代碼任務、文檔生成任務等方面表現都有提升。
![]()
長文本處理與風格化寫作能力
就在一年前,百萬上下文還是只有頂尖閉源模型才玩得起的量級,普通模型要么是128k,要么也就200k。但現在,DeepSeek官方直接宣布,百萬上下文從此將成為DeepSeek所有官方服務的標配。
也就是說,現在你跟DeepSeek-V4聊一次,就算把整個《三體》三部曲都丟進去,它也能記得上下文。
我們簡單測了下,找了一本百萬字的《平凡的世界》,往里面隨機貼了一段《三體》的片段,很快,DeepSeek V4就找到了異常之處和具體內容。
![]()
再丟給它今年新榜內容節的速記,合計超過10萬字,要求它整理其中的參賽嘉賓,并從中選出一條它認為有價值的演講,最終給出一份“AI新榜”風格的稿件。
![]()
幾秒鐘之后,DeepSeek就給出了兩天全場內容節的嘉賓極其title,我們一一核對之后,發現都是正確的,而最終,DeepSeek選擇了第二天視頻號知名博主蕭大業的分享作為選題,并認為“在這樣一個技術氛圍濃厚的行業大會上,蕭老師回歸內容創作最本質的人文性和情感性,挺有反思價值的。”
說實話,文筆不錯,網上常說的那種矯揉造作的“AI味兒”,或者鑒AI時常用的“破折號、奇怪的比喻、無限糾結于細節”的情況,基本沒有出現。
![]()
不過,畢竟“AI新榜”還是以AI領域的選題為主的,于是我們指出了其選題上的問題,而且值得說道的是,在對話中,DeepSeek展現出了一種較為鮮明的立場和情緒,在我們指出后,它在思考中也展現出了相當具有辯證性的思考。
![]()
最終,DeepSeek更換了選題,選擇了傅盛的演講,并表示“對于讀者來說,這種帶著具體操作細節、成本賬目和試錯過程的案例,比行業報告上的趨勢研判更有參考意義,也更有說服力。”
這是最后的成品,同時也在這里放一篇我們在同一選題下的,大家可以自行對比:
![]()
![]()
![]()
![]()
![]()
通篇閱讀之后的感覺是,因為上下文增加,所以在輸出長文檔上的效果好了一些,在其中也展現出了一些不錯的操作思路,比如會以比較有噱頭的“受傷拄拐”開頭,也知道先說案例,再講技術。
但問題也有,比如比起自己構思一條貫通全文的主線,更傾向于以演講內容的時間線來排布內容,再比如,D老師經典的“不是……(而)是”的句式仍然很多。
![]()
為什么還不做文生圖?
因為DeepSeek屬于另一個賽道
為什么DeepSeek還是沒有文生圖功能?
這確實道出了最普通用戶的疑惑,那就是在這個AI產品加速迭代,各路文生圖、文生視頻、文生音頻的功能全都不要錢似得往上堆的情況下,為什么曾經打響了國產AI大模型熱戰第一槍的DeepSeek,卻依舊是簡簡單單,老老實實,只有一個純文字生成?
一方面確實是因為,文生圖是完全不同的架構,另一方面也是因為,DeepSeek的主賽道確實不在這里。
開源+極致性價比,這才是DeepSeek的核心競爭力。
在這次公布出來的價格上,DeepSeek延續了它當年550萬美元的極致性價比神話。兩個版本,更專業的V4-Pro百萬Token輸入12元,輸出24元,更小更便捷的V4-Flash輸入0.2元,輸出2元。
對比一下性能相似的其他頂級模型們:Claude Sonnet 4.6輸入3美元,輸出15美元;Claude Opus 4.7輸入5美元(約36元),輸出25美元(約180元);GPT-5.5 Pro輸入30美元(約216元),輸出180美元(約1296元)……
可以說,完全不是一個數量級。
![]()
而且還沒完,DeepSeek官方發布里提到,受限于高端算力,目前Pro的服務吞吐十分有限,下半年華為昇騰950超節點批量上市后,Pro的價格還會大幅下調。
在性能已經逼近頂級閉源模型的情況下,用只有零頭的價格,就能用到“接近Opus 4.6非思考模式”的性能,這對于大量中小團隊和獨立開發者的意義不言而喻。
所以,DeepSeek賣的不是“最強”,也不是“全能”,而是“開源、便宜、且仍在快速進步”。
回頭看這半年,DeepSeek的傳言不斷。從年初開始,V4的發布傳聞幾經“跳票”,到2月Anthropic指控它蒸餾Claude的技術,鬧得沸沸揚揚,再到最近融資消息傳了一個版本又一個版本,金額從100億炒到200億。
外界的劇本寫得跌宕起伏,直到今天,主角才接戲。
發布最后,DeepSeek引用了《荀子·非十二子》的一句話:"不誘于譽,不恐于誹,率道而行,端然正己。"
翻譯成人話大概是:別夸我,也別罵我,我有自己的路要走。
當然,定力值不值得鼓掌,最終還是要看產品。V4已經來了,市場會用腳投票。
歡迎分享、點贊、推薦
一起研究AI
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.