<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      482天,DeepSeek V4隱藏三件事:開源六個模型,攜手華為芯片提速

      0
      分享至



      靴子落地。

      4月24日消息,距離V3時隔482天,期待已久的DeepSeek V4終于來了!

      今天上午,DeepSeek官網正式上線DeepSeek-V4接口和模型介紹,包括DeepSeek-V4-flash和DeepSeek-V4-pro兩個模型版本。



      DeepSeek-V4擁有百萬字超長上下文,在Agent能力、世界知識和推理性能上均實現國內與開源領域的領先。API服務已同步更新,通過修改model_name為deepseek-v4-pro或deepseek-v4-flash即可調用。其中,在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平。

      我也用了一下DeepSeek專家模式,但目測DeepSeek Chat官網還無法識別V4模型。



      我也通過DeepSeek論文和官網,發現三個官方賬號沒有講的事實:

      1、這次DeepSeek不止開源兩個模型,而是六個模型。

      除了Pro、Flash之外,還包括Base系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。

      2、隨著DeepSeek V4系列發布,V3系列和之前deepseek-chat系列模型API棄用。

      其中,deepseek-chat (將于 2026/07/24 棄用),deepseek-reasoner (將于 2026/07/24 棄用)。當前階段內,這兩個模型名分別指向deepseek-v4-flash 的非思考模式與思考模式。

      3、在推理和訓練算力層面,DeepSeek采用分布式訓練架構,由于強化學習(RL)下需要長尾的小批量數據,在推理層面則研發出細粒度EP(Fine-Grained EP)內核方案,并且進行開源。DeepSeek已經在英偉達GPU和華為昇騰 NPUs平臺上驗證了細粒度EP方案。

      與強大的非融合基線相比,該方案在通用推理工作負載上可實現1.50至1.73倍的加速(173%),在對延遲敏感的場景(如強化學習展開和高速智能體服務)中,加速比甚至可達1.96倍(196%)。DeepSeek已將基于 CUDA 的超大規模內核實現 MegaMoE2 開源,作為 DeepGEMM 的一個組成部分。



      換句話說,DeepSeek現在就一門心思干V4模型,而且已經將國產化AI算力當作可選項之一,形成了英偉達+昇騰兩格局,而且用一系列的技術和方案將國產算力利用率提升。

      理論上看,DeepSeek V4開源大模型很強,但核心還是在于Agent、算力成本、世界理解和推理層面。顯然,DeepSeek不是你想象的成為世界最強模型,而是最好用的模型。



      DeepSeek發六大模型:

      高性能、性價比都有

      DeepSeek首次公布兩個大的模型系列:

      一個是性能比肩頂級閉源模型的DeepSeek-V4-Pro(1.6T參數,已激活 49B);

      另一個是更快捷、高效的經濟之選的DeepSeek-V4-Flash (284B 參數,已激活 13B)。

      兩者均支持一百萬個標記的上下文長度。

      文章指出,DeepSeek-V4 開創了一種全新的注意力機制,在 token 維度進行壓縮,結合 DSA 稀疏注意力(DeepSeek Sparse Attention),實現了全球領先的長上下文能力,并且相比于傳統方法大幅降低了對計算和顯存的需求。從現在開始,1M(一百萬)上下文將是 DeepSeek 所有官方服務的標配。



      這是DeepSeek-V4系列的全新整體架構。

      1、混合注意力架構:DeepSeek設計了一種混合注意力機制,結合了壓縮稀疏注意力(CSA)和高度壓縮注意力(HCA),以顯著提高長上下文效率。在 100 萬個詞元的上下文設置下,與 DeepSeek-V3.2 相比,DeepSeek-V4-Pro 僅需27% 的單詞元推理浮點運算次數和10% 的鍵值緩存。

      2、流形約束超連接(mHC):DeepSeek引入 mHC 來加強傳統的殘差連接,增強跨層信號傳播的穩定性,同時保持模型的表達能力。

      3、Muon優化器:我們采用Muon優化器以實現更快的收斂速度和更高的訓練穩定性。

      其中,DeepSeek-V4-Pro采用1.6相較前代模型實現全面升級,Agent能力顯著提升,Agentic Coding評測位列開源模型頂尖水準,實際使用體驗優于Sonnet 4.5,交付質量接近Opus 4.6非思考模式;同時其世界知識儲備大幅領先同類開源模型,僅略次于頂級閉源模型Gemini-Pro-3.1,在數學、STEM及競賽代碼等場景下推理性能突破開源上限,整體實力可媲美全球頂尖閉源模型。



      而DeepSeek-V4-Flash是一款高效高性價比的選擇,其世界知識略弱于 V4-Pro,但推理能力相近;憑借更小的參數與激活規模,可提供更快速、低成本的API服務,簡單 Agent 任務表現與 V4-Pro 持平,僅在高難度任務上存在差距。



      當然,DeepSeek不止發了兩款模型,其公號隱藏了其他四個模型:基礎系列的DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base;兩個推理最高版本DeepSeek-V4-Pro-Max、DeepSeek-V4-Flash-Max等等。



      我算了一下,這次V4共發布六款模型,這還不包括非推理的三個版本。



      據悉,DeepSeek-V4-Pro-Max是DeepSeek-V4-Pro的最高推理模式,顯著提升了開源模型的知識能力,穩居目前最佳開源模型之列。它在編碼基準測試中取得了頂尖性能,并在推理和智能體任務方面顯著縮小了與領先的閉源模型之間的差距。

      DeepSeek-V4-Flash也有一個Max版本,在擁有更大的推理預算時,其推理性能與 Pro 版本相當,但由于其參數規模較小,在純知識任務和最復雜的智能體工作流程方面自然略遜一籌。

      總體而言,DeepSeek-V4系列保留了Transformer架構和多標記預測(MTP)模塊,同時在DeepSeek-V3的基礎上引入了若干關鍵升級。



      華為+英偉達加持,

      開源1.96倍推理加速的算力內核

      早前很多媒體報道稱,DeepSeek推遲的核心原因,在于國產化算力訓練不足。

      在論文當中,DeepSeek特別提到算力“踩坑”的問題,并且通過梳理大模型算力訓練和推理,研發了多種模塊和方案,形成V4國產化能力。

      DeepSeek提到,在DeepSeek-V4系列中,每個MoE層主要可以分解為四個階段:兩個通信受限階段,分發(Dispatch)和合并(Combine),以及兩個計算受限階段,線性層1(Linear-1)和線性層2(Linear-2)。團隊的分析顯示,在單個MoE層內,通信的總時間少于計算的總時間。因此,在將通信和計算融合為統一管道后,計算仍然是主要的瓶頸,這意味著系統可以在不降低端到端性能的情況下容忍較低的互連帶寬。



      為了進一步降低互連帶寬需求并放大重疊的好處,DeepSeek引入了一種更細粒度的專家分區方案:Fine-Grained EP。

      受到許多相關工作的啟發,DeepSeek將專家拆分并調度成波次。每個波次包含一小部分專家。一旦波次內的所有專家完成通信,計算就可以立即開始,而無需等待其他專家。在穩態下,當前波次的計算、下一個波次的令牌傳輸和已完成專家的結果發送都同時進行,這在專家之間形成了細粒度的流水線,使計算和通信在整個波次中持續進行。基于波次的調度加快了速度。在極端情況下(如強化學習(RL)的 rollout),通常也會遇到長尾小批量。

      因此,DeepSeek表示,其在 NVIDIA GPU 和華為Ascend NPU平臺上驗證了細粒度EP方案。與強大的非融合基線相比,它在通用推理工作負載上實現了 1.50-1.73 倍的加速,在對延遲敏感的場景(如 RL rollout 和高速代理服務)中最高可實現 1.96 倍的加速。

      DeepSeek已經開源了基于CUDA的Mega-Kernel,命名為 MegaMoE2,作為DeepGEMM的一個組件。

      此外,為最大限度地提高 GPU 資源利用率,并支持高優先級任務的快速硬件調配,DeepSeek還將GPU 集群,采用一種全集群范圍的搶占式任務調度器,任何正在運行的任務都可能隨時被搶占。

      而在大規模GPU集群中,硬件故障較為常見。為此,DeepSeek實現了一項可搶占且具備容錯能力的大型語言模型生成服務,以支持強化學習/OPD 的部署。 具體而言,DeepSeek為每項生成請求實施了一種基于標記粒度的預寫日志(WAL)。每當為某項請求生成新標記時,我們會立即將其追加到該請求的 WAL 中。在搶占過程中,DeepSeek會暫停推理引擎,并保存KV 緩存。

      總結,DeepSeek V4在大模型算力計算、通訊互聯、內存等方向都做了很多的工作,這確實是V4推遲發布的原因,也是V4依然能夠實現成本低廉下實現性能提升的關鍵原因。



      如今,DeepSeek-V4-Flash版本價格低至2元輸出1M tokens上下文。



      DeepSeek過去一年重要時刻點梳理如下

      2024年12月28日:發布DeepSeek V3大模型,訓練周期2個月、成本低于600萬美元,推理性能對標OpenAI o1,代碼與邏輯推理能力接近GPT-4 Turbo。

      2025年1月20日:推出R1推理優化模型(表現優于OpenAI o1)并開源多模態模型Janus-Pro。

      當日DeepSeek遭遇峰值3.2 Tbps的DDoS攻擊導致部分區域服務中斷;1月27日,DeepSeek App登頂,引發美股科技股震蕩、英偉達股價暴跌16%。

      2025年5月28日:推出DeepSeek R1-0528升級版本,參數量685B,代碼與推理能力直逼OpenAI o3、超越Claude 4,支持128K上下文長度,部署成本更低。

      2025年8月-9月:8月18日在Hugging Face開源V3.1-Base版本(128K上下文、約685B參數);8月20日-21日發布DeepSeek V3.1并完成升級,定位為“邁向Agent時代的第一步”。

      9月6日,DeepSeek調整API價格表、取消夜間優惠。

      2025年12月1日:DeepSeek發布V3.2系列模型(含標準版與高性能版),性能逼近甚至超越同類閉源模型,128K上下文場景中預填充成本降低51%、解碼速度提升62.5%,推理總成本僅為同類閉源模型1/3,其中V3.2-Speciale在數學證明賽事中獲金牌,達到人類選手第二水平。

      2026年1月20日:恰逢DeepSeek-R1開源一周年,開發者在GitHub的FlashMLA代碼庫中意外發現神秘標識符“MODEL-1”,其橫跨114個文件、出現28次,與現有V3.2模型并列引用且未沿用舊版命名規則,暗示DeepSeek將推出架構重構的新版本模型而非簡單迭代。

      2026年2月10日:野村證券發布報告,預計2月中旬推出的DeepSeek V4模型不會重現去年V3發布時引發的全球AI算力需求恐慌,指出V4核心價值在于通過底層架構創新推動AI應用商業化落地。

      2026年2月11日:DeepSeek App推送1.7.4版本更新,開啟新模型灰度測試,該版本疑似V4正式亮相前的終極灰度版。

      3月:DeepSeek更新了專家模型,并且發布了多份研究論文。

      發布稿的結尾,DeepSeek 自己引了一句話。

      「不誘于譽,不恐于誹,率道而行,端然正己。」

      這是荀子《非十二子》里的一句。字面意思是,不被贊譽誘惑,不被誹謗嚇到,按自己認定的道往前走,端正自己。放在今天這個場景里,有點意思。

      過去半年,關于V4什么時候發、是不是跳票、是不是已經被別家超越、是不是已經被 Claude 蒸餾數據搞定了之類的傳言在中文和英文AI圈來來回回跑了好幾輪。

      年初甚至還有人信誓旦旦說V4會在春節前發,結果等到了四月底。他們沒回應過一次。然后在某個周五的上午,把V4放出來,同步開源,同步上線官網和App,同步更新API,順便把內部員工已經棄用Claude的事實寫進發布稿。

      沒有路線圖,沒有直播,沒有訪談。

      率道而行這四個字,聽著像是一句口號。但如果你把過去半年 V3.2 那次「沒什么亮點」的 Exp 版本、DSA那套為V4鋪了半年的稀疏注意力、1M 上下文從王牌變成標配的這條路徑放在一起看。DeepSeek已經做到了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      韓媒:中國人怒了,砸34億贊助世界杯,卻還要花大錢買轉播權

      韓媒:中國人怒了,砸34億贊助世界杯,卻還要花大錢買轉播權

      寒律
      2026-05-14 10:38:36
      事關臺灣問題,中方說了三句重話,特朗普聞言,態度像變了一個人

      事關臺灣問題,中方說了三句重話,特朗普聞言,態度像變了一個人

      蘭亭墨未干
      2026-05-14 16:34:56
      隨著騎士加時4分險勝,NBA季后賽最新排名出爐!東部第一命懸一線

      隨著騎士加時4分險勝,NBA季后賽最新排名出爐!東部第一命懸一線

      薇說體育
      2026-05-14 11:43:28
      “性質惡劣!”新西蘭父子在海洋保護區“狂撈”486只鮑魚,企圖販賣!“被判四個月居家監禁! ”

      “性質惡劣!”新西蘭父子在海洋保護區“狂撈”486只鮑魚,企圖販賣!“被判四個月居家監禁! ”

      新西蘭天維網
      2026-05-13 13:05:51
      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      古史青云啊
      2026-05-13 09:59:29
      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      老吳教育課堂
      2026-05-14 17:43:56
      王一博回應結婚,網友:祝福。

      王一博回應結婚,網友:祝福。

      美芽
      2026-05-13 12:09:53
      錢再多有什么用?2個女兒慘死3個兒子反目,資產1250億也無人送終

      錢再多有什么用?2個女兒慘死3個兒子反目,資產1250億也無人送終

      北緯的咖啡豆
      2026-04-08 17:09:30
      江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

      江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

      書畫相約
      2026-04-14 07:21:03
      網傳某地事業編欠薪10個月,社保斷繳已鬧上百姓呼聲!

      網傳某地事業編欠薪10個月,社保斷繳已鬧上百姓呼聲!

      燈錦年
      2026-05-13 19:39:30
      浙江寶寶“九個頭旋”引熱議,兒保醫師:頭旋數量和智商、性格無直接關系

      浙江寶寶“九個頭旋”引熱議,兒保醫師:頭旋數量和智商、性格無直接關系

      上游新聞
      2026-05-14 10:33:07
      U17國足VS沙特:4231最強出擊,萬項領銜前場進攻,海歸新星沖鋒

      U17國足VS沙特:4231最強出擊,萬項領銜前場進攻,海歸新星沖鋒

      零度眼看球
      2026-05-14 06:46:02
      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      快科技
      2026-05-14 11:54:52
      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      鐵錘簡科
      2026-05-14 13:24:35
      馬斯克太興奮了!360度狂拍照,網友笑瘋了

      馬斯克太興奮了!360度狂拍照,網友笑瘋了

      李東陽朋友圈
      2026-05-14 17:58:49
      印度每年榨糖,剩下7500萬噸甘蔗渣,中國人卻用它造出了科技王炸

      印度每年榨糖,剩下7500萬噸甘蔗渣,中國人卻用它造出了科技王炸

      毒sir財經
      2026-05-12 19:34:07
      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      史不語
      2026-05-13 08:10:10
      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當閻王,殺人喂狗!

      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當閻王,殺人喂狗!

      莫地方
      2026-05-14 00:55:03
      侮辱、誹謗小米汽車 四個賬號博主一審均敗訴

      侮辱、誹謗小米汽車 四個賬號博主一審均敗訴

      閃電新聞
      2026-05-13 17:52:31
      特朗普給美國埋下一個14年大雷,現在他只能賭一把“自求多福”?

      特朗普給美國埋下一個14年大雷,現在他只能賭一把“自求多福”?

      茶韻浮生
      2026-05-14 20:29:14
      2026-05-14 21:40:49
      智能紀元AGI
      智能紀元AGI
      專注科技、科學、商業產業報道
      2315文章數 10609關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      手機
      藝術
      健康
      游戲
      本地

      手機要聞

      vivo S60預熱開啟,超大面積一體冷雕玻璃

      藝術要聞

      美國務卿魯比奧點贊中式美學,實景令人驚嘆!

      專家揭秘干細胞回輸的安全風險

      任天堂發布會重磅猛料!馬上就來 官方頁面曝光

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人精品中文字幕| 国产高清自产拍AV在线| 蜜臀AVWWW国产天堂| 人妻无码不卡中文字幕系列| 亚洲人妻系列| 中文字幕人妻精品| 日本亚洲欧洲无免费码在线| 国产精品午夜福利免费看| 中文字幕在线精品人妻| 日韩专区在线观看| 国内自拍av| 女人15毛片a级16女人水真多| 免费A级毛片无码A∨性按摩| 国产精品高清一区二区不卡| japanese无码中文字幕| av中文字幕有码| 博野县| 国产熟妇婬乱一区二区| 少妇综合网| 亚洲一区二区啊射精日韩| 91视频免费观看| 国产人妻777人伦精品hd| 欧美人伦禁忌dvd放荡欲情| 福利网导航| 国产在线高清视频无码| 国产婷婷精品av在线| 国产亚洲一二三区精品| 九龙城区| 欧洲中文字幕国产精品| 熟女av在线| 亚洲国产中文在线有精品| 亚洲欧美日韩三区| 香蕉久久av一区二区三区| 18禁成人免费无码网站| 乱人伦视频中文字幕在线| 天天躁日日摸久久久精品| 国产精品任我爽爆在线播放6080| 亚洲avav| 老司机性色福利精品视频| 91综合久久婷婷久久| 成人无码中出|