這幾天,AI圈子又炸了。
![]()
DeepSeek-V4,終于來了。
說實話,這段時間行業節奏已經快到有些失真。新模型一波接一波,參數、榜單、價格、長上下文、Agent、推理強度,幾乎每隔幾天就要重排一次座次。
越是在這種密集更新里,DeepSeek的沉默就越容易被放大。
所以,V4這次上線,大家真正想知道的其實是兩件事:
第一,DeepSeek還在不在第一梯隊里。
第二,它這次到底拿出了什么新東西。
先說結論:V4不是一代靠"能力全面躍升"來定義自己的模型。
它做了一件更狠的事——把長上下文的成本結構徹底重寫了一遍。
100萬token上下文成為標配,但單token的算力消耗反而大幅下降。
![]()
兩個版本、百萬上下文、三檔推理
這次V4一共兩個版本。
![]()
V4-Pro是旗艦版,總參數1.6T,激活參數49B;V4-Flash是輕量版,總參數284B,激活參數13B。
兩者都原生支持1M上下文,同時支持非思考模式和思考模式。
每個模型又分成三檔推理強度:Non-think、Think High、Think Max。
Pro負責沖能力上限,Flash負責鋪性價比;非思考負責效率,Max負責榨干推理能力。
![]()
DeepSeek不是想把1M當成一個展示參數,而是想把它做成標準配置。
這次最狠的還是價格
在1M上下文設置下,V4-Pro的單token推理FLOPs只有V3.2的27%,KV Cache只有10%;V4-Flash更激進,分別壓到10%和7%。
![]()
雖然上下文從128K拉到了1M,理論上放大接近8倍,但單token的推理成本并沒有跟著爆炸,反而被打了下來。
V4這次真正想證明的是,長上下文不一定只能做成貴族配置,它可以被改造成可供大規模調用的基礎能力。
V4-Pro每百萬token輸入價格是1元,輸出是12元;V4-Flash每百萬token輸入0.2元,輸出2元。
![]()
便宜,而且強。
技術上動了三刀
V4最核心的技術改動在注意力層。
傳統Transformer的注意力機制里,每個token要和前面所有token算一遍相似度。上下文從10萬拉到100萬,計算量增長的不是10倍,是100倍。
V4的做法是把注意力拆成兩種,交替疊用。一種叫CSA(壓縮稀疏注意力),一種叫HCA(重壓縮注意力)。
這是DeepSeek第一次把"稀疏化"的刀動到Transformer的核心結構里。
同時動注意力、殘差、優化器三處核心結構,在DeepSeek的歷史上是第一次。
后訓練方法的切換
比架構改動更值得注意的是后訓練方法的切換。
V4換成了"分化再統一"的兩步走。
第一步,針對數學、代碼、Agent、指令跟隨等不同領域,每個領域單獨訓練一個專家模型。
第二步,用On-Policy Distillation(OPD,在策略蒸餾)把十多個領域專家"合成"回一個統一的學生模型。
通俗地講,就是把一堆尖子生的本事蒸餾進同一個人腦袋里。
Agent能力與算力現實
在Agent方向,V4做了幾處專項優化,在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平。
但V4這次發布,另一個繞不開的話題,是算力。
DeepSeek在說明里提到,受限于高端算力,當前Pro的服務吞吐仍然有限,預計下半年昇騰950超節點批量上市之后,Pro的價格還會進一步大幅下調。
![]()
它基本等于確認了兩件事:
第一,DeepSeek這次確實已經把國產算力協同放進正式路線里了。
第二,V4當前的能力釋放,還沒有完全到位,背后依然受制于算力供給。
此前有消息稱,DeepSeek正以超過100億美元估值尋求外部融資。
怎么理解這次V4?
如果說過去外界對DeepSeek的期待,是它還能不能再做出一個"便宜又強"的模型;
那么V4給出的回答是:
它不僅還在這么做,而且正在試圖把"便宜又強"這件事,進一步做成一種結構性的能力。
但至少現在,V4已經證明了一件事:
DeepSeek,還在牌桌上。
而且,它手里還有牌。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.