V3.2逼近Gemini 3，DeepSeek硬氣喊話：接下來我要堆算力了

2025-12-02 10:07:18　來源: 硅星人

北京舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

就在上周，OpenAI前首席科學(xué)家、現(xiàn)SSI CEO Ilya Sutskever在最新播客訪談中拋出一個重磅觀點(diǎn)，過去五年的“age of scaling”正在走到頭，預(yù)訓(xùn)練數(shù)據(jù)是有限的，單純用更多GPU堆更大模型，哪怕再放大100 倍，也未必能帶來質(zhì)變。所以我們又回到了以研究為核心的時代，只不過這次有了巨大的算力”，這一表態(tài)被視作對Scaling Law撞墻論的強(qiáng)力佐證。

然而僅過了幾天，12月1日，DeepSeek用V3.2和V3.2-Speciale的發(fā)布，給出了一個不同的答案。

模型發(fā)布后，DeepSeek研究員Zhibin Gou在X上發(fā)文：

“如果Gemini-3證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的可能性，DeepSeek-V3.2-Speciale則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。我們花了一年時間將DeepSeek-V3推向極限，得出的經(jīng)驗是：訓(xùn)練后的瓶頸需通過優(yōu)化方法和數(shù)據(jù)來解決，而非僅等待更好的基礎(chǔ)模型。”

他還補(bǔ)了一句：

“持續(xù)擴(kuò)大模型規(guī)模、數(shù)據(jù)量、上下文和強(qiáng)化學(xué)習(xí)。別讓那些'遭遇瓶頸'的雜音阻擋你前進(jìn)。”

這是DeepSeek團(tuán)隊少有的發(fā)聲，而這一幕頗有意味，當(dāng)行業(yè)在討論Scaling Law是否撞墻時，DeepSeek用實打?qū)嵉哪Ｐ秃霸挘胱C明Scaling沒死，只是換了戰(zhàn)場。

雖然行業(yè)普遍認(rèn)同后訓(xùn)練的重要性，但敢把相當(dāng)于預(yù)訓(xùn)練成本10%以上的算力預(yù)算砸在RL上的企業(yè)仍屬少數(shù)。DeepSeek是真正把這條路線工程化、規(guī)模化的代表。

這次發(fā)布的兩個模型正是這條路線的產(chǎn)物，V3.2定位日常主力，對標(biāo)GPT-5；Speciale定位極限推理，對標(biāo)Gemini 3.0 Pro，并拿下四枚國際競賽金牌。

技術(shù)報告Introduction部分有句話值得注意，“過去幾個月，開源社區(qū)雖然在持續(xù)進(jìn)步，但閉源模型的性能軌跡正在以更陡峭的速度加速。差距不是在收窄，而是在擴(kuò)大。”同時點(diǎn)出了當(dāng)前開源模型的三個核心短板：

過度依賴普通注意力機(jī)制導(dǎo)致長序列效率低下、后訓(xùn)練算力投入不足、Agent場景下的泛化能力差。但DeepSeek的態(tài)度很明確，問題有解，而V3.2就是他們給出的答案。

V3.2：高效主力，把自我進(jìn)化用在通用效率上

V3.2是9月發(fā)布的實驗版V3.2-Exp的正式繼任者，目標(biāo)是平衡推理能力與輸出成本。

在推理類Benchmark測試中，V3.2達(dá)到了GPT-5水平：AIME 2025數(shù)學(xué)競賽93.1%（GPT-5為94.6%），HMMT 2025二月賽92.5%（GPT-5為88.3%），LiveCodeBench代碼評測83.3%（GPT-5為84.5%）。相比Kimi-K2-Thinking，V3.2在保持相近性能的同時，輸出Token量大幅降低——嚴(yán)格的Token約束和長度懲罰讓它更省、更快、更便宜。

V3.2在架構(gòu)上的核心改動是引入了DeepSeek Sparse Attention（DSA）。這項技術(shù)在9月的V3.2-Exp中首次亮相，用稀疏注意力替代傳統(tǒng)的全量注意力，將計算復(fù)雜度從O(L2)降到O(Lk)。

V3.2-Exp上線兩個月后，DeepSeek通過多個維度確認(rèn)了DSA的有效性：標(biāo)準(zhǔn)Benchmark與V3.1-Terminus基本持平，ChatbotArena的Elo評分接近，第三方長上下文評測反而高出4分。這意味著DeepSeek在底層架構(gòu)創(chuàng)新上走對了路，稀疏注意力可以在不損失性能的前提下大幅提升效率。

V3.2還有一個重要突破，這是DeepSeek首個將“思考”與“工具調(diào)用”融合的模型。之前的推理模型（包括OpenAI的o系列）在思考模式下無法調(diào)用工具，V3.2打破了這個限制，同時支持思考模式和非思考模式的工具調(diào)用。

技術(shù)報告中篇幅最大的部分是Agent能力的訓(xùn)練方法。DeepSeek構(gòu)建了一套大規(guī)模的Agent任務(wù)合成流水線，覆蓋1800+環(huán)境和85000+復(fù)雜指令。

這套流水線的核心設(shè)計哲學(xué)是“難解答，易驗證”。以報告中的旅行規(guī)劃任務(wù)為例：復(fù)雜約束組合讓搜索空間巨大，但驗證方案是否滿足約束卻很簡單。這種特性天然適合強(qiáng)化學(xué)習(xí)，模型可以通過大量嘗試獲得明確的對錯反饋，不需要人工標(biāo)注。

效果驗證很有說服力，只用合成數(shù)據(jù)做RL的模型，在Tau2Bench、MCP-Mark等Agent基準(zhǔn)上顯著提升，而只在真實環(huán)境做RL的模型，這些指標(biāo)幾乎沒有變化。

值得注意的是，官方特別強(qiáng)調(diào)，V3.2并沒有針對這些測試集的工具進(jìn)行特殊訓(xùn)練，但在Agent評測中仍達(dá)到開源最高水平。這說明模型的泛化能力是真實的，不是靠刷榜優(yōu)化出來的。

V3.2-Speciale：極限推理，把自我驗證用在高階邏輯上

Speciale是V3.2的"長思考增強(qiáng)版"。如果說V3.2通過嚴(yán)格的Token約束來優(yōu)化效率，Speciale則反其道而行——放寬長度限制，鼓勵模型進(jìn)行更深度的推理。

技術(shù)報告中的Table 3很有意思：同樣的任務(wù)，Speciale的輸出Token量顯著高于其他模型。比如在AIME 2025上，GPT-5 High輸出13k tokens，Gemini 3.0 Pro輸出15k，而Speciale輸出23k；在Codeforces上差距更大，Speciale輸出77k tokens，是Gemini的3.5倍。

雖然Speciale的Token輸出量極大，但得益于DeepSeek的定價策略和DSA帶來的效率提升，即便算上這些額外的"思考過程"，其最終使用成本依然碾壓對手：比GPT-5便宜約25倍（$0.4 vs $10），比Gemini 3.0 Pro便宜約30倍（$12），比Claude Opus 4.5便宜約62倍（$25）。

Speciale的意義不只是“讓模型想更久”，而是驗證了一個重要的假設(shè)，對推理“過程”的監(jiān)督，能否從數(shù)學(xué)證明泛化到更廣泛的領(lǐng)域？

上周剛發(fā)布的DeepSeekMath-V2提出了“生成器-驗證器”雙模型架構(gòu)，生成器負(fù)責(zé)產(chǎn)出證明，驗證器評估證明的嚴(yán)謹(jǐn)性和完整性，驗證結(jié)果作為reward信號反饋給生成器。這套機(jī)制的關(guān)鍵創(chuàng)新在于如何保持“生成-驗證差距”，當(dāng)生成器變強(qiáng)后，驗證器也需要同步提升。DeepSeek的解決方案是動態(tài)擴(kuò)展驗證計算，用更多計算資源自動標(biāo)注“難以驗證”的證明，持續(xù)合成高難度訓(xùn)練數(shù)據(jù)，實現(xiàn)模型的可持續(xù)自我進(jìn)化。

Speciale整合了Math-V2的數(shù)據(jù)集和獎勵方法，不只追求最終答案正確，更追求推理過程的嚴(yán)謹(jǐn)性和完整性。它將這套原本用于數(shù)學(xué)定理證明的“過程監(jiān)督”，成功遷移到了代碼生成和通用邏輯任務(wù)中。這意味著“自我驗證”不是數(shù)學(xué)領(lǐng)域的特例，而是一種可泛化的能力提升范式。結(jié)果也相當(dāng)不錯：

不缺算力的DeepSeek會帶來什么？

有網(wǎng)友評論說，每篇DeepSeek論文最重要的部分永遠(yuǎn)是“結(jié)論、局限性與未來工作”部分。這次的技術(shù)報告也不例外，他們說：“首先，由于總訓(xùn)練FLOPs較少，DeepSeek-V3.2 的世界知識廣度仍落后于領(lǐng)先的閉源模型。我們計劃在后續(xù)版本中，通過擴(kuò)大預(yù)訓(xùn)練算力來彌補(bǔ)這一知識差距。”

報告中承認(rèn)，由于總訓(xùn)練 FLOPs 較少，V3.2 的世界知識廣度仍落后于 Gemini 3.0 Pro。但 DeepSeek 的選擇并不是等待一個更大的基礎(chǔ)模型，而是先把方法論打磨到極致，用一年時間，通過合成數(shù)據(jù)、自我驗證和大規(guī)模 RL，把后訓(xùn)練的上限真正跑出來。

從這次的發(fā)布也能看出這條路線的成果：

V3.2 將“自我進(jìn)化式工程”（高 RL 預(yù)算、合成數(shù)據(jù)閉環(huán)）應(yīng)用在通用效率上；
Speciale 則把過程獎勵與自我驗證機(jī)制推向高階邏輯推理。

兩者共同指向同一個方向：未來的模型不再依賴人力堆砌，而是依靠自我博弈實現(xiàn)持續(xù)演進(jìn)。

下一步就是擴(kuò)大預(yù)訓(xùn)練算力來彌補(bǔ)知識差距。這也讓人聯(lián)想，一是如果DeepSeek真把算力補(bǔ)上來，會發(fā)生什么？二是，這些新的算力資源從哪里來？

回頭看過去一年的技術(shù)路徑，Janus的多模態(tài)統(tǒng)一架構(gòu)、OCR的視覺壓縮記憶、NSA的長上下文效率、Math-V2的自我驗證……這些創(chuàng)新都是在V3這個基座上迭代出來的。

那么，一個參數(shù)更大、訓(xùn)練 FLOPs 更多的 V4，再疊加這些已經(jīng)驗證有效的方法論，會出現(xiàn)怎樣的化學(xué)反應(yīng)？

一個合理、甚至是大膽的預(yù)期是，當(dāng) V4 或 R2 到來時，我們看到的可能已經(jīng)不是傳統(tǒng)意義上的“更強(qiáng)語言模型”，而是一個能夠感知多模態(tài)環(huán)境、具備更長期記憶、并能在真實交互中持續(xù)進(jìn)化的系統(tǒng)。如今發(fā)生在合成環(huán)境中的自我博弈，未來可能會延伸到真實環(huán)境的在線學(xué)習(xí)。

而在算力上，在今天英偉達(dá)頻繁形容其中國市場份額已經(jīng)歸零的背景下，繼續(xù)scaling需要的算力資源看起來不太能夠靠H800們提供，下一代模型會用什么樣的更大的算力資源訓(xùn)練，如果這些算力缺口可以被補(bǔ)齊，完全形態(tài)的DeepSeek下一代模型會是什么樣？這些顯然更重要，也更讓人產(chǎn)生聯(lián)想。

點(diǎn)個“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.