網易首頁 > 網易號 > 正文申請入駐

實測DeepSeek V4：Agent能力領先開源，3D小票翻車，但經典洗車問題終于對了

2026-04-24 20:36:30　來源: 頭號AI玩家

上海舉報

分享至

作者 | 博雯

編輯 | Kino

這個4月大模型領域真是神仙打架。

先是4月16日發布的Claude Opus 4.7，然后是今天前后腳發布的GPT 5.5和DeepSeek V4。

在頂級閉源模型的夾擊下，萬眾矚目的DeepSeek V4還是保持了一貫的底色：開源和極致性價比。

開源模型鏈接，58頁的技術報告，全都一次性放了出來。現在登錄DeepSeek官網或App，就能用最新的DeepSeek V4。

技術報告顯示，在Agent能力，世界知識測評，還有數學、STEM、競賽型代碼等多項能力測評中，DeepSeek-V4-Pro領先一眾開源模型，性能直逼Claude Opus 4.6、GPT-5.4、Gemini-Pro-3.1等頂級閉源模型，但其輸入輸出的成本，卻比這些模型低了好幾個數量級。

那么，DeepSeek V4的實際表現究竟如何呢？我們從代碼能力、邏輯推理、長文本處理和風格化寫作這幾個核心維度，簡單進行了一番實測。

代碼能力

DeepSeek官方宣稱，目前DeepSeek-V4已成為公司內部員工使用的Agentic Coding模型，而且據評測反饋，DeepSeek-V4的使用體驗優于Claude Sonnet 4.5，交付質量接近Claude Opus 4.6的非思考模式，但仍與Opus 4.6思考模式存在一定差距。

在實測中，我先讓DeepSeek V4生成一個暗黑、賽博朋克風格的介紹《GTA 6》的交互式網頁，它只思考了7秒，就寫出了一個融合了霓虹燈效果和粒子故障藝術的交互頁面，可以直接在瀏覽器中運行。

網頁的模塊化布局非常清晰，不僅視覺審美在線，而且包含了很多細膩的交互細節，比如鼠標懸停在功能卡片上時，會觸發邊框發光和上浮效果，頁面背景還有動態粒子和連線特效。

不過，在另一個更復雜的測試任務中，DeepSeek V4的表現就不那么理想了。

我讓它在一個HTML文件中構建一個高度逼真的交互式3D紙質小票，模擬紙張受到拖拽的物理效果。

首次耗時近10分鐘，卻生成了一張無法交互的空白小票。第二次雖然生成了完整小票，但視覺渲染有問題，小票不僅呈暗黑色、缺乏紙張的質感，而且是倒置的。最核心的拉扯交互效果也不正確，紙張呈現類似高彈史萊姆一樣的夸張形變，還有撕裂和穿模。

推理能力

除了寫代碼，我們也測試了幾道經典的邏輯陷阱題。比如9.9-9.11的計算題，可以看到V4雖然在思考過程中雖然幾次走入岔路，但最終還是給到了準確答案。

再來一個曾經讓無數知名AI都翻車的“洗車難題”：我家附近50米就有洗車店，請問我應該怎么去？

對于人來說，這是一個簡單到有點好笑的問題，但對于AI來說，它看到“50米”和“出行方式”，就會直接調用統計概率，然后直接輸出——短距離出行，步行是最高頻的答案。它處理的是信息，而不是現實。

但對于更新后的D老師來說，不僅瞬間就明白了問題背后的深層含義：即這是在檢測它是否理解語境，測試邏輯能力，還認為自己要給出一個幽默又合理的回答。

不知道是不是被偷偷調高了幽默值。

還有值得注意的一點是， 2026年的AI競爭已經不只是模型跑分的事了，而是看誰能更好地嵌入開發者的工作流，誰能更好用。

所以，DeepSeek-V4也專門針對Claude Code、OpenClaw、OpenCode、CodeBuddy這些主流Agent產品做了適配優化，在代碼任務、文檔生成任務等方面表現都有提升。

長文本處理與風格化寫作能力

就在一年前，百萬上下文還是只有頂尖閉源模型才玩得起的量級，普通模型要么是128k，要么也就200k。但現在，DeepSeek官方直接宣布，百萬上下文從此將成為DeepSeek所有官方服務的標配。

也就是說，現在你跟DeepSeek-V4聊一次，就算把整個《三體》三部曲都丟進去，它也能記得上下文。

我們簡單測了下，找了一本百萬字的《平凡的世界》，往里面隨機貼了一段《三體》的片段，很快，DeepSeek V4就找到了異常之處和具體內容。

再丟給它今年新榜內容節的速記，合計超過10萬字，要求它整理其中的參賽嘉賓，并從中選出一條它認為有價值的演講，最終給出一份“AI新榜”風格的稿件。

幾秒鐘之后，DeepSeek就給出了兩天全場內容節的嘉賓極其title，我們一一核對之后，發現都是正確的，而最終，DeepSeek選擇了第二天視頻號知名博主蕭大業的分享作為選題，并認為“在這樣一個技術氛圍濃厚的行業大會上，蕭老師回歸內容創作最本質的人文性和情感性，挺有反思價值的。”

說實話，文筆不錯，網上常說的那種矯揉造作的“AI味兒”，或者鑒AI時常用的“破折號、奇怪的比喻、無限糾結于細節”的情況，基本沒有出現。

不過，畢竟“AI新榜”還是以AI領域的選題為主的，于是我們指出了其選題上的問題，而且值得說道的是，在對話中，DeepSeek展現出了一種較為鮮明的立場和情緒，在我們指出后，它在思考中也展現出了相當具有辯證性的思考。

最終，DeepSeek更換了選題，選擇了傅盛的演講，并表示“對于讀者來說，這種帶著具體操作細節、成本賬目和試錯過程的案例，比行業報告上的趨勢研判更有參考意義，也更有說服力。”

這是最后的成品，同時也在這里放一篇我們在同一選題下的，大家可以自行對比：

通篇閱讀之后的感覺是，因為上下文增加，所以在輸出長文檔上的效果好了一些，在其中也展現出了一些不錯的操作思路，比如會以比較有噱頭的“受傷拄拐”開頭，也知道先說案例，再講技術。

但問題也有，比如比起自己構思一條貫通全文的主線，更傾向于以演講內容的時間線來排布內容，再比如，D老師經典的“不是……（而）是”的句式仍然很多。

為什么還不做文生圖？

因為DeepSeek屬于另一個賽道

為什么DeepSeek還是沒有文生圖功能？

這確實道出了最普通用戶的疑惑，那就是在這個AI產品加速迭代，各路文生圖、文生視頻、文生音頻的功能全都不要錢似得往上堆的情況下，為什么曾經打響了國產AI大模型熱戰第一槍的DeepSeek，卻依舊是簡簡單單，老老實實，只有一個純文字生成？

一方面確實是因為，文生圖是完全不同的架構，另一方面也是因為，DeepSeek的主賽道確實不在這里。

開源+極致性價比，這才是DeepSeek的核心競爭力。

在這次公布出來的價格上，DeepSeek延續了它當年550萬美元的極致性價比神話。兩個版本，更專業的V4-Pro百萬Token輸入12元，輸出24元，更小更便捷的V4-Flash輸入0.2元，輸出2元。

對比一下性能相似的其他頂級模型們：Claude Sonnet 4.6輸入3美元，輸出15美元；Claude Opus 4.7輸入5美元（約36元），輸出25美元（約180元）；GPT-5.5 Pro輸入30美元（約216元），輸出180美元（約1296元）……

可以說，完全不是一個數量級。

而且還沒完，DeepSeek官方發布里提到，受限于高端算力，目前Pro的服務吞吐十分有限，下半年華為昇騰950超節點批量上市后，Pro的價格還會大幅下調。

在性能已經逼近頂級閉源模型的情況下，用只有零頭的價格，就能用到“接近Opus 4.6非思考模式”的性能，這對于大量中小團隊和獨立開發者的意義不言而喻。

所以，DeepSeek賣的不是“最強”，也不是“全能”，而是“開源、便宜、且仍在快速進步”。

回頭看這半年，DeepSeek的傳言不斷。從年初開始，V4的發布傳聞幾經“跳票”，到2月Anthropic指控它蒸餾Claude的技術，鬧得沸沸揚揚，再到最近融資消息傳了一個版本又一個版本，金額從100億炒到200億。

外界的劇本寫得跌宕起伏，直到今天，主角才接戲。

發布最后，DeepSeek引用了《荀子·非十二子》的一句話："不誘于譽，不恐于誹，率道而行，端然正己。"

翻譯成人話大概是：別夸我，也別罵我，我有自己的路要走。

當然，定力值不值得鼓掌，最終還是要看產品。V4已經來了，市場會用腳投票。

歡迎分享、點贊、推薦

一起研究AI

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

不是幻覺！Claude自下指令甩鍋人類，百萬上下文淪為降智重災區

新智元 2026-05-14 13:08:29
11 跟貼 11
國產GPU首獲全球頂級推理框架「原生門票」：MUSA合入SGLang主線

機器之心Pro 2026-05-14 16:03:08
0 跟貼 0

Claude新政，拋棄最忠實的Agent用戶

新智元 2026-05-14 20:15:52
0 跟貼 0

師傅在河里打撈廢鐵，結果吸到了鋼架構柱子上，技術不到位

卡卡愛生活 2026-05-13 10:34:23
6 跟貼 6
DeepSeek專家模式預測：未來升值最快3類房子，有錢人已悄悄入手

專業聊房君 2026-05-14 09:08:30
0 跟貼 0

Codex免費兩個月！AI編程工具價格戰開打，山姆·奧特曼下場搶人

雷科技 2026-05-14 20:31:41
0 跟貼 0

智譜首破5000億！六小虎與DeepSeek千億估值競賽，誰的拳頭最硬？

智東西 2026-05-14 15:26:37
1 跟貼 1
打破AI體驗天花板，聯發科成了Agent跨端生態“鋪路人”

智東西 2026-05-14 19:11:53
0 跟貼 0

開發者薪酬悖論：誰在拿"泡沫工資"，誰又被低估？

硅嶼手記 2026-05-10 08:39:09
2 跟貼 2
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
3041 跟貼 3041
“省錢卷王”DeepSeek擬融資500億元？業內預測：算力集群與光模塊或成資金核心流向

每日經濟新聞 2026-05-14 15:53:26
0 跟貼 0
國家醫保局提醒購藥牢記“六要六不要”

醫藥養生保健報社 2026-05-13 20:31:14
0 跟貼 0
數據湖面試的四個底層模型：別急著報廠商名字

Ping值焦慮 2026-05-11 11:46:50
0 跟貼 0
醫療軟件工程師必須掌握的六大標準

爬蟲飼養員 2026-05-11 09:50:50
0 跟貼 0
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
國產GPU組了個開源局，把SGLang等核心開發者都搖來了！

量子位 2026-05-14 17:49:23
0 跟貼 0
拒絕智能手機，炮轟ChatGPT，沒有他就沒有今天的互聯網

DeepTech深科技 2025-12-26 18:07:26
35 跟貼 35
1104女間諜喬裝混入我軍內部，還偷走了重要的文件！我的特一營78

長河電影 2026-05-11 16:14:59
1 跟貼 1
最后一刻才叫上黃仁勛，是誰想要晾著他？

南風窗 2026-05-14 12:21:15
7 跟貼 7
Cyber天花板被打穿！AISI實測Mythos能力正以4.5月翻倍速沖向ASI

新智元 2026-05-14 20:15:56
0 跟貼 0
5月8日，美國防部公布首批161份UFO相關解密文件

別跟我提回憶 2026-05-14 04:04:58
0 跟貼 0
送文件撞破老板秘密，場面瞬間尷尬，我該怎么自救！

松鼠的搞笑日記 2026-05-11 10:58:54
1 跟貼 1
法國新法落地：歸還?“260萬被搶文物”有多艱難？｜重建現場

新京報動新聞 2026-05-11 01:46:32
921 跟貼 921
俄總統新聞秘書：只要美國不再把經貿合作與烏克蘭問題掛鉤，俄愿同美開展商業往來

極目新聞 2026-05-14 09:58:58
1445 跟貼 1445
實錘了！伊朗真正的＂敵人＂，根本不是美軍！中國必須高度警覺！

地球記 2026-05-13 19:14:40
1 跟貼 1
這些絕密 UFO 文件，普通人第一次能看到

富貴春天 2026-05-14 07:58:05
44 跟貼 44
大輪盤帶動彈簧往復運動，看似永動機，實則巧妙機械模型

木子奇趣 2026-05-13 10:48:00
4 跟貼 4
“小馬云”范小勤成年后直播首秀，在線人數突破7萬，禮物刷屏

星視頻 2026-05-14 15:29:30
160 跟貼 160
Agent輸出到底該用誰？卡帕西轉發：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
微軟被曝考慮收購大模型創企，SpaceX也看上了同一家

智東西 2026-05-14 20:37:16
0 跟貼 0
古巴宣布燃油儲備耗盡全國電網進入"危急狀態"

澎湃新聞 2026-05-14 19:20:31
222 跟貼 222
雨雨雨雨雨雨！北京明起6天多雨，氣溫會降嗎？

BRTV新聞 2026-05-14 14:24:33
130 跟貼 130
一只太空螃蟹教孩子學Rust：20章故事書有了雙語交互版

硅嶼手記 2026-05-12 06:56:22
0 跟貼 0
潤米招聘程序員，做AI時代的ITBP！

劉潤 2026-05-14 13:48:28
0 跟貼 0
佩林卡：任何球隊都渴望擁有詹姆斯我們只想尊重他的決定

北青網-北京青年報 2026-05-13 21:52:20
487 跟貼 487
北京之行心情不錯，國際足聯秘書長到訪工體

北京日報客戶端 2026-05-14 18:55:29
397 跟貼 397
900V高壓架構+6C麒麟電池新款極氪009值得期待嗎？

天天汽車 2026-05-13 19:39:35
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
獨家專訪｜蔡斌：排球人生路，問心無愧

澎湃新聞 2026-05-14 18:20:28
5 跟貼 5
同一PDF里藏著三種文檔，你的提取策略還在一刀切？

Ping值焦慮 2026-05-14 07:29:39
0 跟貼 0

頭號AI玩家

做內容從業者關心的AI研究

437文章數 23關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

藝術

手機

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

實測DeepSeek V4：Agent能力領先開源，3D小票翻車，但經典洗車問題終于對了

馬斯克說會談很順利 黃仁勛點贊 庫克比耶

重慶"萌感"佛頭意外走紅 雕刻者：不是文物且尚未完工

重慶"萌感"佛頭意外走紅 雕刻者：不是文物且尚未完工

爭議抽象天王山，和季后賽最穩定中鋒

何九華官宣當爸！全程不提孩子媽

李強會見美國工商界代表

雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

態度原創

南京秦淮、雨花臺、玄武、建鄴2026高考考點公布！

美國務卿魯比奧點贊中式美學，實景令人驚嘆！

vivo S60預熱開啟，超大面積一體冷雕玻璃

美以伊戰爭期間以總理密訪阿聯酋

馬斯克說會談很順利黃仁勛點贊庫克比耶

重慶"萌感"佛頭意外走紅雕刻者：不是文物且尚未完工

重慶"萌感"佛頭意外走紅雕刻者：不是文物且尚未完工

雙零重力座椅/AI智能體/調光天幕啟境GT7內飾發布