<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      V3.2逼近Gemini 3,DeepSeek硬氣喊話:接下來我要堆算力了

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      就在上周,OpenAI前首席科學(xué)家、現(xiàn)SSI CEO Ilya Sutskever在最新播客訪談中拋出一個重磅觀點(diǎn),過去五年的“age of scaling”正在走到頭,預(yù)訓(xùn)練數(shù)據(jù)是有限的,單純用更多GPU堆更大模型,哪怕再放大100 倍,也未必能帶來質(zhì)變。所以我們又回到了以研究為核心的時代,只不過這次有了巨大的算力”,這一表態(tài)被視作對Scaling Law撞墻論的強(qiáng)力佐證。

      然而僅過了幾天,12月1日,DeepSeek用V3.2和V3.2-Speciale的發(fā)布,給出了一個不同的答案。

      模型發(fā)布后,DeepSeek研究員Zhibin Gou在X上發(fā)文:

      “如果Gemini-3證明了持續(xù)擴(kuò)展預(yù)訓(xùn)練的可能性,DeepSeek-V3.2-Speciale則證明了在大規(guī)模上下文環(huán)境中強(qiáng)化學(xué)習(xí)的可擴(kuò)展性。我們花了一年時間將DeepSeek-V3推向極限,得出的經(jīng)驗是:訓(xùn)練后的瓶頸需通過優(yōu)化方法和數(shù)據(jù)來解決,而非僅等待更好的基礎(chǔ)模型。”

      他還補(bǔ)了一句:

      “持續(xù)擴(kuò)大模型規(guī)模、數(shù)據(jù)量、上下文和強(qiáng)化學(xué)習(xí)。別讓那些'遭遇瓶頸'的雜音阻擋你前進(jìn)。”


      這是DeepSeek團(tuán)隊少有的發(fā)聲,而這一幕頗有意味,當(dāng)行業(yè)在討論Scaling Law是否撞墻時,DeepSeek用實打?qū)嵉哪P秃霸挘胱C明Scaling沒死,只是換了戰(zhàn)場。

      雖然行業(yè)普遍認(rèn)同后訓(xùn)練的重要性,但敢把相當(dāng)于預(yù)訓(xùn)練成本10%以上的算力預(yù)算砸在RL上的企業(yè)仍屬少數(shù)。DeepSeek是真正把這條路線工程化、規(guī)模化的代表。

      這次發(fā)布的兩個模型正是這條路線的產(chǎn)物,V3.2定位日常主力,對標(biāo)GPT-5;Speciale定位極限推理,對標(biāo)Gemini 3.0 Pro,并拿下四枚國際競賽金牌。


      技術(shù)報告Introduction部分有句話值得注意,“過去幾個月,開源社區(qū)雖然在持續(xù)進(jìn)步,但閉源模型的性能軌跡正在以更陡峭的速度加速。差距不是在收窄,而是在擴(kuò)大。”同時點(diǎn)出了當(dāng)前開源模型的三個核心短板:

      過度依賴普通注意力機(jī)制導(dǎo)致長序列效率低下、后訓(xùn)練算力投入不足、Agent場景下的泛化能力差。但DeepSeek的態(tài)度很明確,問題有解,而V3.2就是他們給出的答案。

      1

      V3.2:高效主力,把自我進(jìn)化用在通用效率上

      V3.2是9月發(fā)布的實驗版V3.2-Exp的正式繼任者,目標(biāo)是平衡推理能力與輸出成本。

      在推理類Benchmark測試中,V3.2達(dá)到了GPT-5水平:AIME 2025數(shù)學(xué)競賽93.1%(GPT-5為94.6%),HMMT 2025二月賽92.5%(GPT-5為88.3%),LiveCodeBench代碼評測83.3%(GPT-5為84.5%)。相比Kimi-K2-Thinking,V3.2在保持相近性能的同時,輸出Token量大幅降低——嚴(yán)格的Token約束和長度懲罰讓它更省、更快、更便宜。


      V3.2在架構(gòu)上的核心改動是引入了DeepSeek Sparse Attention(DSA)。這項技術(shù)在9月的V3.2-Exp中首次亮相,用稀疏注意力替代傳統(tǒng)的全量注意力,將計算復(fù)雜度從O(L2)降到O(Lk)。

      V3.2-Exp上線兩個月后,DeepSeek通過多個維度確認(rèn)了DSA的有效性:標(biāo)準(zhǔn)Benchmark與V3.1-Terminus基本持平,ChatbotArena的Elo評分接近,第三方長上下文評測反而高出4分。這意味著DeepSeek在底層架構(gòu)創(chuàng)新上走對了路,稀疏注意力可以在不損失性能的前提下大幅提升效率。


      V3.2還有一個重要突破,這是DeepSeek首個將“思考”與“工具調(diào)用”融合的模型。之前的推理模型(包括OpenAI的o系列)在思考模式下無法調(diào)用工具,V3.2打破了這個限制,同時支持思考模式和非思考模式的工具調(diào)用。


      技術(shù)報告中篇幅最大的部分是Agent能力的訓(xùn)練方法。DeepSeek構(gòu)建了一套大規(guī)模的Agent任務(wù)合成流水線,覆蓋1800+環(huán)境和85000+復(fù)雜指令。

      這套流水線的核心設(shè)計哲學(xué)是“難解答,易驗證”。以報告中的旅行規(guī)劃任務(wù)為例:復(fù)雜約束組合讓搜索空間巨大,但驗證方案是否滿足約束卻很簡單。這種特性天然適合強(qiáng)化學(xué)習(xí),模型可以通過大量嘗試獲得明確的對錯反饋,不需要人工標(biāo)注。


      效果驗證很有說服力,只用合成數(shù)據(jù)做RL的模型,在Tau2Bench、MCP-Mark等Agent基準(zhǔn)上顯著提升,而只在真實環(huán)境做RL的模型,這些指標(biāo)幾乎沒有變化。

      值得注意的是,官方特別強(qiáng)調(diào),V3.2并沒有針對這些測試集的工具進(jìn)行特殊訓(xùn)練,但在Agent評測中仍達(dá)到開源最高水平。這說明模型的泛化能力是真實的,不是靠刷榜優(yōu)化出來的。

      1

      V3.2-Speciale:極限推理,把自我驗證用在高階邏輯上

      Speciale是V3.2的"長思考增強(qiáng)版"。如果說V3.2通過嚴(yán)格的Token約束來優(yōu)化效率,Speciale則反其道而行——放寬長度限制,鼓勵模型進(jìn)行更深度的推理。

      技術(shù)報告中的Table 3很有意思:同樣的任務(wù),Speciale的輸出Token量顯著高于其他模型。比如在AIME 2025上,GPT-5 High輸出13k tokens,Gemini 3.0 Pro輸出15k,而Speciale輸出23k;在Codeforces上差距更大,Speciale輸出77k tokens,是Gemini的3.5倍。

      雖然Speciale的Token輸出量極大,但得益于DeepSeek的定價策略和DSA帶來的效率提升,即便算上這些額外的"思考過程",其最終使用成本依然碾壓對手:比GPT-5便宜約25倍($0.4 vs $10),比Gemini 3.0 Pro便宜約30倍($12),比Claude Opus 4.5便宜約62倍($25)。

      Speciale的意義不只是“讓模型想更久”,而是驗證了一個重要的假設(shè),對推理“過程”的監(jiān)督,能否從數(shù)學(xué)證明泛化到更廣泛的領(lǐng)域?

      上周剛發(fā)布的DeepSeekMath-V2提出了“生成器-驗證器”雙模型架構(gòu),生成器負(fù)責(zé)產(chǎn)出證明,驗證器評估證明的嚴(yán)謹(jǐn)性和完整性,驗證結(jié)果作為reward信號反饋給生成器。這套機(jī)制的關(guān)鍵創(chuàng)新在于如何保持“生成-驗證差距”,當(dāng)生成器變強(qiáng)后,驗證器也需要同步提升。DeepSeek的解決方案是動態(tài)擴(kuò)展驗證計算,用更多計算資源自動標(biāo)注“難以驗證”的證明,持續(xù)合成高難度訓(xùn)練數(shù)據(jù),實現(xiàn)模型的可持續(xù)自我進(jìn)化。

      Speciale整合了Math-V2的數(shù)據(jù)集和獎勵方法,不只追求最終答案正確,更追求推理過程的嚴(yán)謹(jǐn)性和完整性。它將這套原本用于數(shù)學(xué)定理證明的“過程監(jiān)督”,成功遷移到了代碼生成和通用邏輯任務(wù)中。 這意味著“自我驗證”不是數(shù)學(xué)領(lǐng)域的特例,而是一種可泛化的能力提升范式。結(jié)果也相當(dāng)不錯:


      1

      不缺算力的DeepSeek會帶來什么?

      有網(wǎng)友評論說,每篇DeepSeek論文最重要的部分永遠(yuǎn)是“結(jié)論、局限性與未來工作”部分。這次的技術(shù)報告也不例外,他們說:“首先,由于總訓(xùn)練FLOPs較少,DeepSeek-V3.2 的世界知識廣度仍落后于領(lǐng)先的閉源模型。我們計劃在后續(xù)版本中,通過擴(kuò)大預(yù)訓(xùn)練算力來彌補(bǔ)這一知識差距。”


      報告中承認(rèn),由于總訓(xùn)練 FLOPs 較少,V3.2 的世界知識廣度仍落后于 Gemini 3.0 Pro。但 DeepSeek 的選擇并不是等待一個更大的基礎(chǔ)模型,而是先把方法論打磨到極致,用一年時間,通過合成數(shù)據(jù)、自我驗證和大規(guī)模 RL,把后訓(xùn)練的上限真正跑出來。

      從這次的發(fā)布也能看出這條路線的成果:

      • V3.2 將“自我進(jìn)化式工程”(高 RL 預(yù)算、合成數(shù)據(jù)閉環(huán))應(yīng)用在通用效率上;

      • Speciale 則把過程獎勵與自我驗證機(jī)制推向高階邏輯推理。

      兩者共同指向同一個方向:未來的模型不再依賴人力堆砌,而是依靠自我博弈實現(xiàn)持續(xù)演進(jìn)。

      下一步就是擴(kuò)大預(yù)訓(xùn)練算力來彌補(bǔ)知識差距。這也讓人聯(lián)想,一是如果DeepSeek真把算力補(bǔ)上來,會發(fā)生什么?二是,這些新的算力資源從哪里來?

      回頭看過去一年的技術(shù)路徑,Janus的多模態(tài)統(tǒng)一架構(gòu)、OCR的視覺壓縮記憶、NSA的長上下文效率、Math-V2的自我驗證……這些創(chuàng)新都是在V3這個基座上迭代出來的。

      那么,一個參數(shù)更大、訓(xùn)練 FLOPs 更多的 V4,再疊加這些已經(jīng)驗證有效的方法論,會出現(xiàn)怎樣的化學(xué)反應(yīng)?

      一個合理、甚至是大膽的預(yù)期是,當(dāng) V4 或 R2 到來時,我們看到的可能已經(jīng)不是傳統(tǒng)意義上的“更強(qiáng)語言模型”,而是一個能夠感知多模態(tài)環(huán)境、具備更長期記憶、并能在真實交互中持續(xù)進(jìn)化的系統(tǒng)。如今發(fā)生在合成環(huán)境中的自我博弈,未來可能會延伸到真實環(huán)境的在線學(xué)習(xí)。

      而在算力上,在今天英偉達(dá)頻繁形容其中國市場份額已經(jīng)歸零的背景下,繼續(xù)scaling需要的算力資源看起來不太能夠靠H800們提供,下一代模型會用什么樣的更大的算力資源訓(xùn)練,如果這些算力缺口可以被補(bǔ)齊,完全形態(tài)的DeepSeek下一代模型會是什么樣?這些顯然更重要,也更讓人產(chǎn)生聯(lián)想。


      點(diǎn)個愛心,再走 吧

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      凈勝194分破紀(jì)錄,卻被騎士和活塞拿捏!尼克斯好日子可能到頭了

      凈勝194分破紀(jì)錄,卻被騎士和活塞拿捏!尼克斯好日子可能到頭了

      老梁體育漫談
      2026-05-12 00:03:27
      國產(chǎn)“新偉哥”!效力是西地那非8倍,副作用卻更少

      國產(chǎn)“新偉哥”!效力是西地那非8倍,副作用卻更少

      鬼菜生活
      2026-05-09 11:20:07
      提醒老年人:過了70歲,寧愿天天玩手機(jī),也不要隨便做這5件事!

      提醒老年人:過了70歲,寧愿天天玩手機(jī),也不要隨便做這5件事!

      垚垚分享健康
      2026-05-10 22:20:05
      從1-3慘敗到3-0復(fù)仇!中國足球這口惡氣,憋了整整4年

      從1-3慘敗到3-0復(fù)仇!中國足球這口惡氣,憋了整整4年

      杰絲聊古今
      2026-05-11 16:21:37
      真心感慨倪妮的長相太神奇了!
單看五官真沒一個是完美標(biāo)配

      真心感慨倪妮的長相太神奇了! 單看五官真沒一個是完美標(biāo)配

      小光侃娛樂
      2026-05-04 19:30:04
      1938年,王耀武發(fā)現(xiàn)日軍身材矮小,想出一條妙計,一夜全殲日軍

      1938年,王耀武發(fā)現(xiàn)日軍身材矮小,想出一條妙計,一夜全殲日軍

      飯小妹說歷史
      2026-05-06 09:28:08
      美股納指低開0.3% 高通、英特爾、美光科技、AMD等再次刷新歷史新高

      美股納指低開0.3% 高通、英特爾、美光科技、AMD等再次刷新歷史新高

      每日經(jīng)濟(jì)新聞
      2026-05-11 21:41:10
      普京放話,遠(yuǎn)東問題不能再拖!擱置70年,要完成斯大林的未竟之業(yè)

      普京放話,遠(yuǎn)東問題不能再拖!擱置70年,要完成斯大林的未竟之業(yè)

      朝子亥
      2026-05-11 13:40:03
      60歲李澤楷,愛江山也愛美人,終其一生也未能擺脫李嘉誠的陰影

      60歲李澤楷,愛江山也愛美人,終其一生也未能擺脫李嘉誠的陰影

      妙知
      2026-05-11 05:04:30
      中美之間似乎正在復(fù)制美日廣場協(xié)議,美元繼續(xù)升值對美國是災(zāi)難

      中美之間似乎正在復(fù)制美日廣場協(xié)議,美元繼續(xù)升值對美國是災(zāi)難

      掉了顆大白兔糖
      2026-05-05 15:18:03
      提醒!農(nóng)村房屋開始確權(quán)!按建房時間分4檔,拆遷、繼承差別很大

      提醒!農(nóng)村房屋開始確權(quán)!按建房時間分4檔,拆遷、繼承差別很大

      紅色豌豆A
      2026-05-11 10:15:48
      奔馳撞人2死6傷后續(xù):女司機(jī)正臉曝光,職業(yè)反差太大路人曝猛料

      奔馳撞人2死6傷后續(xù):女司機(jī)正臉曝光,職業(yè)反差太大路人曝猛料

      大魚簡科
      2026-05-11 16:56:45
      英軍醫(yī)跳傘空降火山島,處置疑似漢坦病毒病例

      英軍醫(yī)跳傘空降火山島,處置疑似漢坦病毒病例

      都市快報橙柿互動
      2026-05-11 18:03:21
      太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

      太可怕了!繼注射藥物、熱巴事件后,王陽再揭娛樂圈最臟的一面

      橙星文娛
      2026-04-17 13:19:56
      “野爹機(jī)”事件給所有公司敲響了警鐘

      “野爹機(jī)”事件給所有公司敲響了警鐘

      老端的觀點(diǎn)
      2026-05-11 19:32:12
      世乒賽男女團(tuán)雙奪冠,林詩棟違反規(guī)定嚇壞解說,網(wǎng)友調(diào)侃去養(yǎng)豬了

      世乒賽男女團(tuán)雙奪冠,林詩棟違反規(guī)定嚇壞解說,網(wǎng)友調(diào)侃去養(yǎng)豬了

      傲傲講歷史
      2026-05-12 02:52:46
      張柏芝沒想到,母親節(jié)這天沒有等來兒子的祝福,卻等來了真相大白

      張柏芝沒想到,母親節(jié)這天沒有等來兒子的祝福,卻等來了真相大白

      不似少年游
      2026-05-11 16:46:37
      從廣東河源走出的這4位明星,都是客家人!

      從廣東河源走出的這4位明星,都是客家人!

      TVB的四小花
      2026-05-11 15:51:25
      那個被楊潔導(dǎo)演一眼相中的15歲初中生,后來怎么就“消失”了?

      那個被楊潔導(dǎo)演一眼相中的15歲初中生,后來怎么就“消失”了?

      小椰的奶奶
      2026-04-20 11:39:42
      女足亞洲杯太殘酷了:隨著朝鮮6-0,中國3-0,4大勁旅被送回家

      女足亞洲杯太殘酷了:隨著朝鮮6-0,中國3-0,4大勁旅被送回家

      俯身沖頂
      2026-05-11 21:28:38
      2026-05-12 04:19:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個星球。
      3070文章數(shù) 10497關(guān)注度
      往期回顧 全部

      數(shù)碼要聞

      DJI ROMO P2:有了 AI 就能讓它能掃得更干凈?

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      手機(jī)
      親子
      房產(chǎn)
      旅游
      游戲

      手機(jī)要聞

      蘋果iOS/iPadOS 15.8.8正式版發(fā)布

      親子要聞

      你們都喜歡哪些科目啊?

      房產(chǎn)要聞

      產(chǎn)業(yè)賦能教育!翰林府與北師大的這場簽約,絕不那么簡單!

      旅游要聞

      打卡同色系風(fēng)景 帶火城市微旅行

      LOL第一支MSI戰(zhàn)隊出爐,TSW確定晉級季中賽!BLG已鎖定淘汰賽名額

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产乱人伦1区2区3区| 麻花传媒在线观看免费| 色花堂av资源| 亚洲成av人片天堂在线| 国产免费午夜福利在线播放| 一级做a爰片在线播放| 日本精品视频| 在线 国产 欧美 专区| 欧美大黑屄| 成人免费A级毛片无码片2022| 污视频在线观看网址| 久久精品国产亚洲AⅤ无码| 国产精品免费看久久久| 精品亚洲男人天堂av| 久久99精品久久久久| 狠狠人妻久久久久久综合蜜桃 | 日韩大香蕉| 国产黄站| 国产欧美日韩在线不卡第一页| 双乳奶水饱满少妇呻吟免费看| 大香蕉一区二区| 色伦综合网| 日韩欧美国产丝袜视频| 久久精品伊人狠狠大香网| 无码人妻品一区二区三区精99| 伊人精品一本久久综合| 2022国产无码在线| 亚洲色成人网站www永久下载| 蜜臀av国产外线| 色综合久久无码中文字幕app| 国产亚洲精品岁国产精品| 天天躁人人躁人人躁狂躁| 91含羞草www·Com| 丁香五月激情综合色婷婷| 国产精品第八页| 措美县| 日本一区二区三区精品视频| 欧美成人精品三级网站视频| 亚洲午夜爱爱香蕉片| 五月天福利导航| 深爱色情网|