網易首頁 > 網易號 > 正文申請入駐

梁文鋒，這一次要掀桌

2026-04-27 15:20:08　來源: 南風窗

廣東舉報

分享至

今天，中國深度求索的DeepSeek-V4人工智能模型“千呼萬喚始出來”，一點沒讓人失望。

所謂“冤家路窄”。幾個小時前，OpenAI的GPT5.5剛剛發布，沒什么水花——好比開演唱會的汪峰，總是幫忙預告“別的大事發生”。

DeepSeek-V4（上）和OpenAI的GPT5.5（下）

要知道，DeepSeek的兩大撒手锏模型，2024年底發布的V3和2025年初發布的R1，以極高推理效率和極低成本，直接掀翻了大模型Scaling Law的桌子，證明“堆算力”絕不是人工智能發展的唯一路徑，導致GPU霸主英偉達一天之內市值蒸發6000億美元，創下美股史上最大單日市值損失紀錄。

如果不是后來推理需求替代了訓練需求，全球AI算力的“敘事”都得重寫，多賺錢的GPU廠商都得迎接寒冬。

一年多后的今天，DeepSeek-V4又來“掀桌”了。

這一次被“掀翻”的，又是誰呢？

掀了“模型性能桌”

今天發布的DeepSeek-V4，兩個版本。一個叫Flash，參數少點，是多快好省的日常版，沒什么大活兒就用它；一個叫Pro，專家版，參數1.6T，主打專業高性能“服務”。

畢竟其他AI模型的更新“日新月異”，而經歷了145天，DeepSeek才發布新模型V4，它到底厲害在哪里？

什么數學推理能力增強、代碼輸出能力增強、多模態短板補齊、上下文窗口百萬詞元起步、API價格更低等等，其實都不是關注的重點，它們屬于AI模型“正常”的迭代升級。

DeepSeek-V4的兩個版本，Flash版和Pro版/圖源：DeepSeek

根據官網信息，V4有3大“厲害”的技術要點，真正值得注意。

一是Engram記憶模塊。今年1月深度求索發表過創始人梁文鋒的署名論文，專門談這個技術要點。簡單說，Engram是一種條件記憶，可以區分靜態知識和主動知識，即只要能“查”的就不去“算”，節約算力。

它是要解決傳統Transformer架構里，記憶和推理混在一起的問題。以前大模型累得要死，既要用“注意力”去“檢索”知識，又得用“注意力”去推理。

而Engrame可以把那些固定的、靜態的知識存入到一個類似“字典”的查找表里，使模型能夠快速調用，就不用消耗大量算力在那“現算”了。

實際效果是相當不錯的，模型的寶貴“注意力”資源釋放了，可以專心做組合推理任務。在實驗階段，一個集成270億參數的Engram的模型，在參數和浮點運算次數同等的條件下，性能超過MoE（混合專家）模型。

DeepSeek表示，DeepSeek-V4-Pro性能比肩頂級閉源模型/圖源：DeepSeek

二是mHC，也叫流形約束超連接。梁文鋒也在署名論文里介紹過，主要是想解決極深網絡訓練不穩定的問題。

Transfomer模型就像金字塔，一層摞一層，堆疊得很深的時候，很容易出現梯度爆炸、指令消失、訓練崩潰。

這模型就好比一座500層摩天大樓，信號是一層一層傳上去的，但如果每層都漏一點信息，等到頂樓時，指令跟噪音差不多了，傳得越多錯得越多；而且地基容易壞，樓太高，下面支撐不穩定，稍微一點搖晃樓就要塌了。

mHC等于在摩天大樓里裝了一個自動穩定電梯。它有數學上的硬約束，“每一層”都有一個閥門，不管傳進來是什么信號，一律精準控制在一個固定范圍內：既不能讓信號太強給電梯增加負擔，也不會讓信號太弱以至于傳丟了。

DeepSeek-V4 和 DeepSeek-V3.2 的計算量和顯存容量隨上下文長度的變化/圖源：DeepSeek

三是CSA和HCA注意力機制創新。CSA是壓縮稀疏注意力，可以看摘要找重點；HCA是高度壓縮注意力，看大綱抓主旨。

V4把這兩種方法交錯使用，一層CSA，一層HCA，就像一個人讀書，既粗看目錄大綱，又細看了一下各章內容摘要。這兩種創新解決了大模型處理長文本的兩個短板：卡頓、爆顯存。

靠這三個集中的創新點，深度求索掀了“模型性能桌”。據深度求索公司內部評測，V4的編程體驗，比Anthropic的Claude Sonnet 4.5強，交付質量接近Opus 4.6非思考模式，比起Opus 4.6思考模式還有些差距。

前幾天Opus 4.7也上線了，編程能力是強于4.6思考模式，綜合性能全球第一。這樣看，V4的性能逼近Opus4.6，也就和“全球第一”差兩個月左右。

掀了“GPU壟斷桌”

V4還有一個突出的本領——精打細算地榨干了GPU的性能。

4月23日，也就是V4發布的前一天，深度求索發布了開源Tile Kernels模塊，使用的是TileLang語言。

TileLang是一個兼具計算機語言和編譯器前端/中端的AI算子編程語言，屬于領域特定語言（DSL），由北京大學計算機學院團隊主導開發，深度求索聯合開發，2025年在GitHub上開源。去年9月，DeepSeek的V3.2-Exp模型就使用了這個語言。

開發GPU內核，之前只能靠C++和CUDA。

CUDA是和英偉達綁定的計算平臺加編程模型，允許軟件開發者利用計算機語言，直接調用GPU中的通用計算資源。目前全球90%以上的AI算力都跑在CUDA架構上。

現在，TileLang拋開CUDA，用Python表達計算邏輯，再交給編譯器自動優化，直接改變了GPU優化的方式。

而且，TileLang可以跑在任意一種芯片上。英偉達的可以，寒武紀的可以，華為昇騰也可以——同一套邏輯能夠跨硬件執行。

TileLang-Ascend開源社區

深度求索昨天發布的Tile Kernels模塊，是利用TileLang的Python接口編寫邏輯，然后通過TileLang的編譯器，自動生成針對特定硬件優化的底層代碼。

其優化GPU的主要辦法包括：“瓷片”(Tile）式管理，把計算任務切成固定大小的矩陣，數據搬運整塊進、整塊出；還可以一邊算“這塊”，一邊搬“下一塊”，磨刀不誤砍柴工，讓GPU的計算狀態永遠滿載，利用率極大拉高。

AI芯片使用的現實情況是，很多國產芯片的紙面算力很高，但實測的有效利用率只有3到4成，而英偉達芯片有CUDA的加持，利用率輕松達到6至7成。

現在，有了處于軟件抽象層的Tile Kernels，通過Tile級的微操，國產芯片的有效算力可以真正實現與英偉達同代產品的1比1對齊。

在使用層面，中國頂級AI芯片與英偉達頂級AI芯片的差距會越來越小。

說到底，英偉達的GPU不是唯一選擇了，連英偉達的CUDA也不是非用不可了。英偉達的股價，恐怕又得往下走一走了。

掀了“美國AI牌桌”

美國放行英偉達H200已經4個月，而美國商務部長盧特尼克在4月22日表示，中國一塊也沒買。

核心原因當然有“自力更生”的因素，也因為深度求索等中國公司已經可以挑戰英偉達幾款更先進的芯片，沒有必要買它的“限定版”舊款。

美國本來的算盤是，偶爾小規模放行一下英偉達的舊款芯片，其他芯片禁售、模型禁用，對中國實行一波緊似一波的圍追堵截。

而中國芯適配中國模型，已經不算新聞了。

2025年8月DeepSeek-V3.1發布，模型推理端已經穩定支持華為昇騰910系列。今年2月，V4輕量版內測時，業內傳出其訓練和推理優先向昇騰芯片開放，暫時未向英偉達芯片開放測試權限。

DeepSeek-V4-Flash上線華為云/圖源：華為

很可能，從訓練到推理，V4全棧使用昇騰芯片。在這一過程中，深度求索和華為共同解決了一系列技術難題，如穩定性問題、片間互聯問題、軟件工具問題，因此V4花的時間也比較長。

未來，V4模型明確支持華為昇騰950。昇騰950將于今年下半年推出，面向大模型訓練和推理，是昇騰910C的升級版，據悉采用全新架構，將是當下國內唯一商用、明確支持FP4低精度推理的AI加速卡，搭載華為自研國產HBM芯片。

其次，深度求索的創新，幾乎是逆潮流而行的，和美國的路數不一樣。主流的創新，都是不斷優化模型架構，如MoE、長上下文等等；而深度求索琢磨的是GPU內核。

而越往GPU內核走，對工程能力的要求越高。特別是Tile Kernels的意義，絕不能僅視其為算子集合，它是一套性能工程。

深度求索這樣的世界頂級團隊，可以通過這一做法獲得數倍的效率提升，但其他團隊只能依賴框架優化等辦法、甚至無法判斷硬件性能瓶頸在哪里。

芯片的真正瓶頸在于人，而不是代碼。V4露了一手“能力上限”，這不是“平均能力”所能達到的。

2025年5月4日，人們在浙江省杭州市文三數字生活街區的AI黑科技市集上體驗DeepSeek的人工智能大模型/新華社發（龍巍攝）

最后，看定價，V4依然極具市場競爭力。其中，高性能版的Pro輸入價格1元/百萬Tokens，輸出價格24元/百萬Tokens。輕量版的Flash輸入價格0.2元/百萬Tokens，輸出價格2元/百萬Tokens。

看看美國競品“高聳入云”的價格：Claude Opus 4.7，輸入價格36.25元/百萬Tokens，輸出價格181.25元/百萬Tokens。今天發布的GPT5.5，輸入價格36.25元/百萬Tokens，輸出價格217.5元/百萬Tokens。

靠V3和R1，DeepSeek將訓練成本極大拉低；到了V4，推理的成本也被極大拉低。

所以，往深處說，V4的一系列創新，掀了“現有模型性能”“GPU壟斷”和“美國AI封堵”這三張牌桌，并改變了全球AI領域的競爭態勢：過去總是擔心中國AI芯片不夠“頂尖”，“落后”的壓力隨處可見。

從今而后，中國AI模型，可以毫不焦慮地跑在中國AI芯片上了。

首圖為新華社記者黃宗治攝，封面為伊一 AI制圖

作者 |榮智慧

編輯 | 向現

值班主編 | 吳擎

排版 | 菲菲

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AI有沒有泡沫，得先看GPU能用幾年

DeepTech深科技 2026-05-09 18:35:23
2 跟貼 2
天下苦CUDA久矣，又一國產方案上桌了

量子位 2026-01-30 21:59:52
6 跟貼 6

超2000億！字節被曝大手筆加碼AI算力，側重國產芯片

智東西 2026-05-09 18:31:16
0 跟貼 0

Agent-World：擴展真實世界環境，讓智能體與環境協同進化！

機器之心Pro 2026-05-06 12:40:24
0 跟貼 0
xAI工程師曬離職！11位聯創全走，馬斯克600億拉來Cursor重建

新智元 2026-05-09 18:30:34
3 跟貼 3

Claude Code之父：我們公司已沒真人寫代碼了

智東西 2026-05-09 20:46:17
4 跟貼 4

中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
39 跟貼 39
讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0

2026 AI眼鏡大戰升級！一邊等蘋果出手，一邊憋大招

智東西 2026-05-09 22:02:10
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
不上云、不租卡，如何優雅地在本地微調Qwen-VL-30B？

機器之心Pro 2026-01-13 12:57:27
0 跟貼 0
他，扛起又一個任正非時刻！

華商韜略 2026-05-09 10:32:50
4 跟貼 4
下一座AI數據中心，可能就掛在你家墻上

DeepTech深科技 2026-05-08 18:19:40
1 跟貼 1
總成本將成為智駕芯片產業競爭的核心焦點

新浪財經 2026-05-08 04:46:07
0 跟貼 0
吳新宙：短期內L3與L4兩者將并存英偉達加速推進L4普及

新浪財經 2026-05-08 14:40:50
0 跟貼 0
英偉達全面布局AI生態股權投資今年已超400億美元

財聯社 2026-05-09 21:24:15
0 跟貼 0
強強聯合，揚帆出海！為旌科技攜手光庭信息，AVP方案獲Tier1認可

愛集微 2026-05-09 19:18:41
0 跟貼 0
中國最牛“跨界”英語生，要IPO

投資家 2026-05-09 20:00:03
0 跟貼 0
從參數到外觀：汽車行業的最后一場競爭

基地邊緣BaseEdge 2026-05-08 17:48:10
1 跟貼 1
孫子兵道：一將難求與將才矩陣

陳相靈TALK 2026-05-08 19:44:33
0 跟貼 0
1億美金！英偉達AMD英特爾破天荒聯手，投給了這支團隊

新智元 2026-05-09 12:08:55
1 跟貼 1
與馬斯克合作后，Anthropic又扔出122億云大單

智東西 2026-05-09 21:17:57
0 跟貼 0
英偉達CEO黃仁勛：下一代AI基礎設施將需要大量的光學連接，銅線已無法滿足需求

每日經濟新聞 2026-05-08 14:39:17
0 跟貼 0
本輪半導體行情暗藏深意，全球AI算力共振

每日經濟新聞 2026-05-07 10:14:17
0 跟貼 0
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0
外賣小哥冒死沖進火場救火被物業收取50元“滅火器使用費”

閃電新聞 2026-05-09 09:31:06
11751 跟貼 11751
領先于Transformer！

機器之心Pro 2026-05-06 17:01:48
0 跟貼 0
這個Harness普通人可用！

機器之心Pro 2026-04-21 15:47:04
0 跟貼 0
首款1.4nm手機芯片偷跑，三星打造10核心設計

快科技 2026-05-08 00:25:36
0 跟貼 0
英偉達開源個量子AI

機器之心Pro 2026-04-15 12:05:50
0 跟貼 0
兩自媒體編造傳播芯片虛假信息遭重罰

每日經濟新聞 2026-05-09 20:17:46
0 跟貼 0
外星人真存在？美國公布首批UFO文件，畫面曝光；梁文鋒自掏200億領投DeepSeek，V4.1擬6月上新；階躍星辰將完成近25億美元融資，沖刺IPO

雷峰網 2026-05-09 08:39:25
2 跟貼 2
梁文鋒的師兄弟，集體南下深圳

21世紀經濟報道 2026-05-09 19:23:57
4 跟貼 4
體驗MG 4X，十萬左右，硬件配置挺厚道

苑叔聊車官方賬號 2026-05-06 08:00:00
0 跟貼 0
梁文鋒就是下一個任正非

子婷時間 2026-05-09 14:50:11
3 跟貼 3
關于中東地區架構與權力的轉變，賴岳謙與三妹的觀察點，值得參考

伢伢gagako 2026-05-08 00:39:06
0 跟貼 0
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
真的扛不住了，電車漲價潮來了？

買車家 2026-05-08 18:14:26
0 跟貼 0
梁文鋒30億重倉 DeepSeek 豪擲融資封神，中國 AI 徹底崛起

網易科技態度見聞 2026-05-09 17:28:07
0 跟貼 0
國安部：某手機芯片廠商相關漏洞被不法分子利用，給“秒解BL鎖”敲響警鐘，可能成為竊取數據、安裝木馬的

每日經濟新聞 2026-05-09 18:44:15
0 跟貼 0

南風窗

冷靜地思考，熱情地生活

2069文章數 124128關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

本地

房產

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

梁文鋒，這一次要掀桌

掀了“模型性能桌”

掀了“GPU壟斷桌”

掀了“美國AI牌桌”

美國政府強力下場 蘋果英特爾達成代工協議

演員文章面館大火后又開酒吧 多位明星到場母親也現身

演員文章面館大火后又開酒吧 多位明星到場母親也現身

成立128年后，這支升班馬首奪頂級聯賽冠軍

50歲趙薇臉頰凹陷滄桑得認不出！

多地號召，公職人員帶頭繳納物業費

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

有鴻蒙·更美的——全球首臺鴻蒙智選美的智能空調上市

用蘇繡的方式，打開江西婺源

低價甩賣！海口這個地標商業，無人接盤！

美伊突然再次交火 伊朗外長：戰爭準備程度是1000%

美國政府強力下場蘋果英特爾達成代工協議

演員文章面館大火后又開酒吧多位明星到場母親也現身

演員文章面館大火后又開酒吧多位明星到場母親也現身

軸距加長/智駕拉滿阿維塔07L定位大五座SUV

美伊突然再次交火伊朗外長：戰爭準備程度是1000%