<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek V4 重磅開源!首次打通華為Ascend,也沒丟掉英偉達,百萬上下文奪回國產(chǎn)模型話語權

      0
      分享至


      作者|冬梅

      剛剛,DeepSeek 在官方公眾號發(fā)文宣布,全新系列模型 DeepSeek-V4 的預覽版本正式上線,并同步開源!

      DeepSeek-V4 擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能三大維度上均實現(xiàn)了國內與開源領域的領先。

      秉承 DeepSeek 一貫的開放精神,本次發(fā)布的模型按大小分為兩個版本,歡迎開發(fā)者、研究者和企業(yè)用戶前往體驗和下載。

      模型按大小分為兩個版本:


      • DeepSeek-V4 模型開源鏈接:

        https://huggingface.co/collections/deepseek-ai/deepseek-v4

        https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

      • DeepSeek-V4 技術報告:

        https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

      Pro 版本面向的是高性能,F(xiàn)lash 版本則主攻性價比。

      API 服務已同步更新,通過修改 model_name 為 deepseek-v4-pro 或 deepseek-v4-flash 即可調用。


      從技術報告來看,有一點特別值得注意,DeepSeek V4 并不是只在 NVIDIA 體系內做優(yōu)化,而是明確將細粒度專家并行(EP)方案同時在 NVIDIA GPU 和華為 Ascend NPU 上完成驗證,這說明其推理路徑已經(jīng)具備跨算力平臺的適配能力。但在開源層面,當前釋放的仍主要是基于 CUDA 的 MegaMoE 和 DeepGEMM,底層實現(xiàn)深度綁定 NVIDIA 工具鏈。

      另外,官方 API 頁面還提到,受限于高端算力,目前 V4-Pro 的服務吞吐仍有限,預計下半年昇騰 950 超節(jié)點批量上市后,Pro 價格會大幅下調。這意味著,DeepSeek 一邊在現(xiàn)有 CUDA 生態(tài)內持續(xù)做極致優(yōu)化,一邊也在為華為 Ascend 等多算力環(huán)境預留空間,開始嘗試把模型運行時從單一硬件依賴中解耦出來。

      DeepSeek-V4-Pro:性能比肩頂級閉源模型


      • Agent 能力大幅提高:相比前代模型,DeepSeek-V4-Pro 的 Agent 能力顯著增強。在 Agentic Coding 評測中,V4-Pro 已達到當前開源模型最佳水平,并在其他 Agent 相關評測中同樣表現(xiàn)優(yōu)異。目前 DeepSeek-V4 已成為公司內部員工使用的 Agentic Coding 模型,據(jù)評測反饋使用體驗優(yōu)于 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。

      • 豐富的世界知識:DeepSeek-V4-Pro 在世界知識測評中,大幅領先其他開源模型,僅稍遜于頂尖閉源模型 Gemini-Pro-3.1。

      • 世界頂級推理性能:在數(shù)學、STEM、競賽型代碼的測評中,DeepSeek-V4-Pro 超越當前所有已公開評測的開源模型,取得了比肩世界頂級閉源模型的優(yōu)異成績。


      DeepSeek-V4-Flash:主攻性價比

      • 相比 DeepSeek-V4-Pro,DeepSeek-V4-Flash 在世界知識儲備方面稍遜一籌,但展現(xiàn)出了接近的推理能力。而由于模型參數(shù)和激活更小,相較之下 V4-Flash 能夠提供更加快捷、經(jīng)濟的 API 服務。

      • 在 Agent 測評中,DeepSeek-V4-Flash 在簡單任務上與 DeepSeek-V4-Pro 旗鼓相當,但在高難度任務上仍有差距。


      百萬上下文已成標配

      官方公眾號文章中介紹,DeepSeek-V4 開創(chuàng)了一種全新的注意力機制,在 token 維度進行壓縮,結合 DSA 稀疏注意力(DeepSeek Sparse Attention),實現(xiàn)了全球領先的長上下文能力,并且相比于傳統(tǒng)方法大幅降低了對計算和顯存的需求。

      從現(xiàn)在開始,1M(一百萬)上下文將是 DeepSeek 所有官方服務的標配。


      DeepSeek-V4 和 DeepSeek-V3.2 的計算量和顯存容量隨上下文長度的變化

      值得注意的是,DeepSeek-V4 還針對 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 產(chǎn)品進行了適配和優(yōu)化,在代碼任務、文檔生成任務等方面表現(xiàn)均有提升。下圖為 V4-Pro 在某 Agent 框架下生成的 PPT 內頁示例:


      目前,DeepSeek API 已同步上線 V4-Pro 與 V4-Flash,支持 OpenAI ChatCompletions 接口與 Anthropic 接口。訪問新模型時,base_url 不變, model 參數(shù)需要改為 deepseek-v4-pro 或 deepseek-v4-flash。


      V4-Pro 和 V4-Flash 均提供 1M 上下文長度,并同時支持非思考模式與思考模式。后者可通過 reasoning_effort 參數(shù)調節(jié)思考強度(可選 high 或 max)。對于復雜的 Agent 類任務,建議啟用思考模式并將強度設為 max。具體調用方式及參數(shù)設置請查閱 API 文檔。

      需注意:舊接口中的 deepseek-chat 和 deepseek-reasoner 兩個模型名將于 2026 年 7 月 24 日 停止使用。過渡期內,它們分別指向 deepseek-v4-flash 的非思考模式與思考模式。

      拆解關鍵技術創(chuàng)新

      混合注意力機制

      CSA 與 HCA 是關鍵創(chuàng)新是 V4 系列最關鍵的創(chuàng)新之一。傳統(tǒng)注意力機制處理長序列時,每個 token 都需要與所有歷史 token 計算注意力,導致計算量隨序列長度平方增長。V4 設計了兩種互補的壓縮注意力架構:

      壓縮稀疏注意力(CSA):首先將每 m 個 token 的 KV 緩存壓縮為 1 個條目(m=4),然后使用 DeepSeek 稀疏注意力,每個查詢 token 僅需關注 k 個壓縮后的 KV 條目(k=512~1024),引入 Lightning Indexer(輕量索引器)高效選出重要的壓縮塊,整體將序列長度壓縮至 1/m。

      高度壓縮注意力(HCA):采用更激進的壓縮率(m'=128),將每 128 個 token 壓縮為 1 個,保持稠密注意力(不稀疏),適用于信息密度較低的場景,CSA 與 HCA 以交錯方式堆疊,兼顧效率與表達力。

      工程亮點:支持 RoPE 部分位置編碼(僅最后 64 維),維持相對位置信息;引入滑動窗口注意力分支捕獲局部依賴;采用 Attention Sink 技術讓注意力得分總和可以不為 1。

      此外,Engram 和 mHC 兩個版塊上的創(chuàng)新也同樣很關鍵。

      Engram 記憶模塊

      首先是 Engram (條件記憶模塊):這是 DeepSeek 創(chuàng)始人梁文鋒署名論文中的核心概念。它試圖解決傳統(tǒng) Transformer 架構將記憶與推理混為一談的根本問題,模型既需要用注意力去“檢索”知識,又需要用注意力去“推理”。

      工作原理是 Engram 將模型能力從連續(xù)的神經(jīng)計算轉移到確定性的哈希查找。它將那些固定的、需要記憶的模式(如實體名、固定搭配)存入一個類似“字典”的查找表中,使模型能以 O(1) 的復雜度快速調用,而無需消耗大量算力去“計算”記憶。

      實際效果:這使得模型能將寶貴的注意力資源解放出來,專注于復雜的組合與推理任務。在實驗階段,一個集成了 270 億參數(shù) Engram 的模型,在參數(shù)和浮點運算次數(shù)(FLOPs)同等的情況下,性能超過了純 MoE 模型。

      mHC 流形約束超連接

      mHC (流形約束超連接,Manifold-Constrained Hyper-Connections):這是一個旨在解決極深網(wǎng)絡訓練不穩(wěn)定性的創(chuàng)新。傳統(tǒng) Transformer 模型在堆疊到很深的時候,容易出現(xiàn)梯度爆炸或消失等信號 degradation 問題。

      通過將連接矩陣約束在雙隨機矩陣流形上,mHC 確保了信號增益在每一層都保持穩(wěn)定(約 1.6 倍),從而讓深層表示得以保留。這使訓練更深、更強的模型成為可能,將計算利用率從行業(yè)平均的約 60% 提升到了 85% 以上,同時減少了 30%+ 的原始計算依賴。

      除了核心架構的創(chuàng)新,V4 在訓練和推理工程層面也進行了大量優(yōu)化。

      Muon 優(yōu)化器:萬億參數(shù)的新訓練范式

      V4 首次在萬億參數(shù) MoE 模型上大規(guī)模采用 Muon 優(yōu)化器。

      團隊設計了一套混合 Newton-Schulz 迭代策略:前 8 步使用快速收斂系數(shù),后 2 步切換為穩(wěn)定系數(shù),在正交化精度與收斂速度間取得最優(yōu)。為解決 ZeRO 并行與 Muon 需要完整梯度矩陣的矛盾,團隊設計了混合 ZeRO 分配策略——稠密參數(shù)限制并行度并用背包算法負載均衡,MoE 專家參數(shù)獨立展平后均勻分布。進一步地,MoE 梯度在同步前以隨機舍入方式量化到 BF16,通信量減半;同時采用“all-to-all + 本地 FP32 求和”規(guī)避低精度加法器的累積誤差。

      FP4 量化:無損壓縮與推理加速

      V4 在 MoE 專家權重和 CSA 索引器的 QK 路徑上應用了 FP4 量化感知訓練。一個關鍵發(fā)現(xiàn)是:FP4 到 FP8 的解量化是無損的——因為 FP8 擁有更大的動態(tài)范圍,F(xiàn)P4 子塊的細粒度尺度信息可以被完全吸收。這使得整個量化流程可以無縫復用現(xiàn)有的 FP8 訓練框架。在推理和 RL rollout 階段,直接使用真實 FP4 權重,實現(xiàn)實時的顯存節(jié)省和計算加速。對索引器分數(shù)的 FP32→BF16 量化更是帶來了 2 倍加速,同時保持 99.7% 的召回率。

      專家并行:通信 - 計算深度融合

      MoE 模型的專家并行受限于跨節(jié)點通信。傳統(tǒng)方案中,Dispatch 和 Combine 階段是純通信瓶頸。V4 的創(chuàng)新是將專家切分為“波”——每個波包含一小部分專家。當波內專家的通信完成后,計算立即開始,無需等待其他專家。穩(wěn)態(tài)下,當前波的計算、下一波的 token 傳輸、已完成專家的結果發(fā)送三者同時進行。這一細粒度流水線在 NVIDIA GPU 和華為昇騰 NPU 上實現(xiàn) 1.5~1.73 倍加速,在 RL rollout 等高敏感場景下可達 1.96 倍。

      團隊還提出了硬件設計建議:當前每 GBps 互聯(lián)帶寬足以覆蓋 6.1 TFLOP/s 的計算需求,盲目增加帶寬會帶來收益遞減。這一洞察對未來 AI 加速器設計具有指導意義。

      確定性內核:大規(guī)模訓練的可復現(xiàn)性保障

      訓練萬億參數(shù)模型時,非確定性行為可能導致難以調試的 loss 尖峰。V4 實現(xiàn)了全面的批量不變性和確定性:任何 token 的輸出不因 batch 內位置而改變;每次運行的梯度累積順序保持一致。技術難點包括:注意力反向傳播中放棄 split-KV 方案,改用雙核策略(滿波時單 SM 處理、部分波時多 SM 協(xié)作但保證累積順序);MoE 反向傳播通過 rank 內 token 順序預處理加 rank 間 buffer 隔離解決競爭;mHC 中小矩陣乘法(輸出維度僅 24)被迫使用 split-k 時,先輸出各 split 部分再通過專用核確定性歸約。這些工程打磨使得大規(guī)模訓練的可復現(xiàn)性達到新高度。

      TileLang DSL:高性能內核的高效開發(fā)

      為支撐數(shù)百個融合核的開發(fā),V4 團隊采用 TileLang 領域特定語言,并實現(xiàn)了主機代碼生成——將數(shù)據(jù)類型、形狀約束等元數(shù)據(jù)嵌入生成的 launcher 中,運行時驗證開銷從數(shù)十微秒降至 1 微秒以下。同時集成 Z3 SMT 求解器進行形式整數(shù)分析,支持向量化優(yōu)化、屏障插入等高級編譯優(yōu)化。嚴格對齊數(shù)值精度與 CUDA 工具鏈,保證 bit 級可重現(xiàn)性。

      訓練穩(wěn)定性:預知路由與 SwiGLU 鉗位

      萬億 MoE 模型的訓練穩(wěn)定性是一大挑戰(zhàn)。V4 識別出 loss 尖峰與 MoE 層異常值的強相關性,且路由機制會加劇異常值。為此設計了預知路由:在 step t 使用歷史參數(shù)θ_{t-Δt}計算路由索引,當前參數(shù)僅做特征計算,通過管線執(zhí)行與通信重疊將額外開銷控制在 20%,且僅在尖峰發(fā)生時動態(tài)激活。

      配合 SwiGLU 鉗位(線性分量鉗位到[-10,10],門控分量上界鉗位到 10),有效消除了異常值,且不影響性能。

      框架層優(yōu)化:長上下文 RL 落地

      V4 的框架優(yōu)化覆蓋了訓練與推理全流程:

      • 上下文并行適配:兩階段通信策略解決壓縮邊界跨 rank 的問題,每個 rank 發(fā)送最后 m 個未壓縮 KV,all-gather 后融合為完整序列。

      • 張量級激活檢查點:擴展自動微分框架,支持對單個張量標注重計算,框架自動計算最小重計算子圖,釋放顯存并復用指針,開發(fā)者無需關心底層內存細節(jié)。

      • 異構 KV 緩存管理:分離狀態(tài)緩存(SWA+ 未就緒壓縮 token)和經(jīng)典 KV 緩存,支持磁盤存儲以實現(xiàn)共享前綴請求的零重復預填充。

      后訓練范式:同策略蒸餾

      V4 的后訓練采用“獨立專家訓練→同策略蒸餾”兩階段范式。首先針對數(shù)學、代碼、Agent、指令跟隨等領域獨立訓練專家模型,每個專家經(jīng)過 SFT 和 GRPO 強化學習,支持三種推理模式(Non-think/Think High/Think Max)。

      特別地,使用了生成式獎勵模型替代傳統(tǒng)標量獎勵模型,模型的 actor 與 judge 角色統(tǒng)一,將推理能力內化到評估中。

      然后通過同策略蒸餾將十多個專家融合到一個統(tǒng)一模型。采用逆向 KL 散度作為目標,并使用全詞表 logit 蒸餾(而非 token 級 KL 估計),梯度估計更穩(wěn)定。工程上,教師權重 offload 到分布式存儲,僅緩存最后一層 hidden states,訓練樣本按教師索引排序確保每個教師頭只加載一次,使得在萬億參數(shù)級別進行多教師蒸餾成為現(xiàn)實。

      不得不說,DeepSeek-V4-Pro-Max(最大推理強度模式)在多項基準上重新定義了開源模型的天花板:

      • 知識:SimpleQA-Verified 達到 57.9%,遠超前代開源模型(約 30%);

      • 編程:Codeforces Elo 3206 分,排名人類第 23,首次有開源模型在該任務上追平 GPT-5.4;

      • Agent:SWE-Verified 80.6%,接近 Claude Opus 4.6 的 80.8%;Terminal Bench 2.0 67.9%,與 GPT-5.4 的 68.5% 持平;

      • 中文任務:功能性寫作以 62.7% 的勝率優(yōu)于 Gemini 3.1 Pro,創(chuàng)意寫作在寫作質量維度達到 77.5% 勝率。

      V4-Flash-Max 則以極低成本實現(xiàn)了與 GPT-5.2 和 Gemini 3.0 Pro 相當?shù)耐评硇阅埽C明了高效架構的可行性。

      過去一年 DeepSeek 重要發(fā)布回顧

      2025 年除夕夜,當大多數(shù)用戶還沉浸在年味中時,DeepSeek 低調發(fā)布了DeepSeek-R1。沒有發(fā)布會、沒有鋪天蓋地的宣發(fā),但幾天之內,這個模型迅速在技術社區(qū)、研究圈與開發(fā)者社群中擴散開來。事后來看,R1 更像是一個信號:推理模型,開始從“研究話題”走向“工程現(xiàn)實”。

      DeepSeek 發(fā)布了在數(shù)學、代碼編寫和邏輯推理方面表現(xiàn)卓越的 DeepSeek-R1 模型。其性能直追 OpenAI o1,并能夠展示詳盡的思維鏈。該模型通過 MIT 協(xié)議開源了相關權重和代碼,不僅產(chǎn)生了深遠的技術影響,更直接重塑了全球開源與商業(yè)大模型,乃至中美大模型的技術競爭格局。

      R1 之后:持續(xù)迭代,而非“一次性爆款”。

      3 月 25 日,DeepSeek V3 模型已完成小版本升級,歡迎前往官方網(wǎng)頁、APP、小程序試用體驗(關閉深度思考),API 接口和使用方式保持不變。

      DeepSeek 反饋稱此次 DeepSeek-V3 的小版本升級,版本號為 V3-0324,主要聚焦于體驗優(yōu)化和性能提升。在官方網(wǎng)頁、App 和小程序中,用戶關閉“深度思考”功能,可獲取更快的響應速度,適合對實時性要求高的場景(如簡單問答、代碼片段生成)。

      5 月 28 日,DeepSeek R1 模型已完成小版本升級,版本為 DeepSeek-R1-0528。這款開源大模型支持 128K 超長上下文,中文能力超越 GPT-4-Turbo 登頂 SuperCLUE 榜首,代碼性能媲美頂級閉源模型。亮點包括:處理整本小說 / 超長文檔的"大海撈針"能力、MIT 開源協(xié)議支持商用、免費開放使用。適用場景涵蓋企業(yè)文檔分析、教育科研、編程輔助等。

      8 月 21 日,DeepSeek-V3.1 正式發(fā)布。本次升級包含以下主要變化:

      • 混合推理架構:一個模型同時支持思考模式與非思考模式;

      • 更高的思考效率:相比 DeepSeek-R1-0528,DeepSeek-V3.1-Think 能在更短時間內給出答案;

      • 更強的 Agent 能力:通過 Post-Training 優(yōu)化,新模型在工具使用與智能體任務中的表現(xiàn)有較大提升。

      官方 App 與網(wǎng)頁端模型已同步升級為 DeepSeek-V3.1。用戶可以通過“深度思考”按鈕,實現(xiàn)思考模式與非思考模式的自由切換。

      DeepSeek-V3.1 上下文已擴展為 128K。同時,API Beta 接口支持了 strict 模式的 Function Calling,以確保輸出的 Function 滿足 schema 定義。

      9 月 22 日,DeepSeek-V3.1 已更新至 DeepSeek-V3.1-Terminus 版本。據(jù) DeepSeek 介紹,此次更新在保持模型原有能力的基礎上,針對用戶反饋的問題進行了改進,包括:語言一致性:緩解中英文混雜、偶發(fā)異常字符等情況。在 Agent(智能體)能力方面,進一步優(yōu)化 Code Agent 與 Search Agent 的表現(xiàn),DeepSeek-V3.1-Terminus 的輸出效果相比前一版本更加穩(wěn)定。

      9 月 29 日,DeepSeek 發(fā)布 DeepSeek-V3.2-Exp 模型,這是一個實驗性(Experimental)的版本。

      作為邁向新一代架構的中間步驟,V3.2-Exp 在 V3.1-Terminus 的基礎上引入了 DeepSeek Sparse Attention(一種稀疏注意力機制),針對長文本的訓練和推理效率進行了探索性的優(yōu)化和驗證。

      DeepSeek Sparse Attention(DSA)首次實現(xiàn)了細粒度稀疏注意力機制,在幾乎不影響模型輸出效果的前提下,實現(xiàn)了長文本訓練和推理效率的大幅提升。

      12 月 1 日,DeepSeek 官方同時發(fā)布兩個正式版模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

      DeepSeek-V3.2 的目標是平衡推理能力與輸出長度,適合日常使用,例如問答場景和通用 Agent 任務場景。

      在公開的推理類 Benchmark 測試中,DeepSeek-V3.2 達到了 GPT-5 的水平,僅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的輸出長度大幅降低,顯著減少了計算開銷與用戶等待時間。

      DeepSeek-V3.2-Speciale 的目標是將開源模型的推理能力推向極致,探索模型能力的邊界。

      V3.2-Speciale 是 DeepSeek-V3.2 的長思考增強版,同時結合了 DeepSeek-Math-V2 的定理證明能力。該模型具備更好的指令跟隨、數(shù)學證明與邏輯驗證能力,在主流推理基準測試上的性能表現(xiàn)媲美 Gemini-3.0-Pro。

      V3.2-Speciale 模型成功斬獲 IMO 2025(國際數(shù)學奧林匹克)、CMO 2025(中國數(shù)學奧林匹克)、ICPC World Finals 2025(國際大學生程序設計競賽全球總決賽)及 IOI 2025(國際信息學奧林匹克)金牌。其中,ICPC 與 IOI 成績分別達到了人類選手第二名與第十名的水平。

      DeepSeek 官方表示,在高度復雜任務上,Speciale 模型大幅優(yōu)于標準版本,但消耗的 Tokens 也顯著更多,成本更高。目前,DeepSeek-V3.2-Speciale 僅供研究使用,不支持工具調用,暫未針對日常對話與寫作任務進行專項優(yōu)化。

      再然后到了 2026 年 1 月 13 日,喜歡悶聲做大事的 DeepSeek 再次發(fā)布重大技術成果,在其 GitHub 官方倉庫開源了新論文與模塊 Engram,論文題為 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”,梁文鋒再次出現(xiàn)在合著者名單中。


      與傳統(tǒng)的大模型架構相比,該方法提出了一種新的“查—算分離”機制,通過引入可擴展的查找記憶結構,在等參數(shù)、等算力條件下顯著提升模型在知識調用、推理、代碼、數(shù)學等任務上的表現(xiàn)。代碼與論文全文均已開源。

      論文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf

      代碼地址:https://github.com/deepseek-ai/Engram

      這種查和算分離的 Engram 新方法的整體架構如下圖所示:


      我們?yōu)槭裁葱枰?Engram ?

      目前主流的大語言模型架構依然基于 Transformer 和 Mixture-of-Experts(MoE)結構。MoE 是目前推進參數(shù)規(guī)模和能力擴展的關鍵技術之一,通過動態(tài)路由機制,只激活部分參數(shù)以降低計算成本,同時在任務容量方面實現(xiàn)大規(guī)模擴展。DeepSeek 自家系列模型(如 DeepSeek V2、DeepSeek V3 等)也采用了先進的 MoE 方法進行擴展訓練。

      但在這些傳統(tǒng)的 Transformer 架構(無論是 Dense 還是 MoE)中,模型的參數(shù)實際上承擔著兩種截然不同的角色:

      事實性記憶(Memorization): 存儲海量的知識事實。例如,“法國的首都是哪里?”、“世界最高的山脈是哪座”等。這類信息相對死板,更多依賴于“查表”式的檢索。

      邏輯推理與計算(Calculation): 負責復雜的邏輯鏈條、多步推理和情境理解。例如,“根據(jù)這段代碼的邏輯推導可能的 Bug”、“解析一段復雜的哲學論證”。

      目前的大語言模型傾向于將這兩者混在一起。當你試圖讓模型記住更多知識時,你不得不增加參數(shù)量。而在傳統(tǒng)的 Dense 模型中,參數(shù)量增加意味著前向傳播時的計算量(FLOPs)也會同步激增。MoE 架構雖然通過稀疏激活解決了“算力隨參數(shù)同步爆炸”的問題,但 DeepSeek 研究發(fā)現(xiàn),MoE 專家在處理“死記硬背”的任務時依然不夠高效。

      神經(jīng)網(wǎng)絡本質上是連續(xù)的數(shù)學變換,用高昂的矩陣運算去模擬簡單的“查表檢索”,本身就是一種極大的浪費。DeepSeek 的 Engram 正是為了打破這一困境——“該查表的查表,該算的算”。

      聲明:本文為 InfoQ 整理,不代表平臺觀點,未經(jīng)許可禁止轉載。

      會議推薦

      世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構,還能撐多久?

      AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構。14 個專題全面開放征稿。

      誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026,期待與你同行。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      投資31億!京東深圳總部大樓封頂

      投資31億!京東深圳總部大樓封頂

      GA環(huán)球建筑
      2026-05-09 23:30:48
      心梗去世的人越來越多!醫(yī)生再次強調:寧可打打牌,也別做這5事

      心梗去世的人越來越多!醫(yī)生再次強調:寧可打打牌,也別做這5事

      醫(yī)學原創(chuàng)故事會
      2026-05-09 00:03:23
      出貨量暴跌35%,小米手機9年來首次跌出前五

      出貨量暴跌35%,小米手機9年來首次跌出前五

      ZAKER新聞
      2026-05-08 16:26:28
      人到中年的醒悟:無論男女,只要有過一次出軌,晚年可能就剩下這兩條路可以走

      人到中年的醒悟:無論男女,只要有過一次出軌,晚年可能就剩下這兩條路可以走

      心理觀察局
      2026-05-03 09:34:08
      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

      阿訊說天下
      2026-04-18 11:52:55
      王暖暖自曝遭公司壓榨,220場直播拿命賺錢無意義

      王暖暖自曝遭公司壓榨,220場直播拿命賺錢無意義

      花漾夜雨飄雪
      2026-05-10 01:10:39
      薛慶浩撲點后失誤,申花老將當外援用 馬納法太沖動 或被追加停賽

      薛慶浩撲點后失誤,申花老將當外援用 馬納法太沖動 或被追加停賽

      替補席看球
      2026-05-09 21:59:56
      婆婆幫我?guī)Я?8年孩子,孩子上大學后,父母要來養(yǎng)老,我果斷拒絕

      婆婆幫我?guī)Я?8年孩子,孩子上大學后,父母要來養(yǎng)老,我果斷拒絕

      民間精選故事匯
      2026-05-09 20:27:12
      廣東兩個省直部門新任黨組書記到任,均為“70后”

      廣東兩個省直部門新任黨組書記到任,均為“70后”

      愛看劇的阿峰
      2026-05-09 17:24:26
      終于明白了,陳翔六點半的衰落與球球無關,是創(chuàng)始人陳翔一步錯步步錯

      終于明白了,陳翔六點半的衰落與球球無關,是創(chuàng)始人陳翔一步錯步步錯

      愛看劇的阿峰
      2026-05-08 19:56:47
      公安部:吳某某被采取刑事強制措施

      公安部:吳某某被采取刑事強制措施

      澎湃新聞
      2026-05-09 12:58:03
      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      云霄紀史觀
      2026-05-07 20:06:19
      R級片一刀未剪進院線,華納這次賭對了什么

      R級片一刀未剪進院線,華納這次賭對了什么

      全棧遛狗員
      2026-05-08 11:10:55
      云南一方丈意外身亡,整理遺物銀行卡有498萬,方丈女兒提出繼承,寺廟拒絕:出家人,這筆錢屬于寺廟!

      云南一方丈意外身亡,整理遺物銀行卡有498萬,方丈女兒提出繼承,寺廟拒絕:出家人,這筆錢屬于寺廟!

      大愛三湘
      2026-04-28 19:39:12
      3-0!3-0!孫穎莎、王曼昱淘汰日本隊可奪冠,馬琳加油聲太大吃黃牌

      3-0!3-0!孫穎莎、王曼昱淘汰日本隊可奪冠,馬琳加油聲太大吃黃牌

      曹說體育
      2026-05-09 21:51:57
      心血管科主任:動脈硬化最危險信號,不是腿涼,是頻繁出現(xiàn)2異常

      心血管科主任:動脈硬化最危險信號,不是腿涼,是頻繁出現(xiàn)2異常

      垚垚分享健康
      2026-05-03 17:20:10
      這居然是母子合影,47 歲巴西女星簡直凍齡

      這居然是母子合影,47 歲巴西女星簡直凍齡

      下水道男孩
      2026-05-07 21:16:59
      連續(xù)兩場比賽表現(xiàn)不佳,森林狼鋒線大將被馬刺完全限制住了?

      連續(xù)兩場比賽表現(xiàn)不佳,森林狼鋒線大將被馬刺完全限制住了?

      稻谷與小麥
      2026-05-10 00:05:49
      記者在橫店見到他時,他在角落吃涼透的盒飯

      記者在橫店見到他時,他在角落吃涼透的盒飯

      澎湃新聞
      2026-04-15 11:31:12
      抗議開始了,臺島爆發(fā)“入黨潮”,賴清德犯下大錯,臺灣統(tǒng)派被捕

      抗議開始了,臺島爆發(fā)“入黨潮”,賴清德犯下大錯,臺灣統(tǒng)派被捕

      老范談史
      2026-04-27 06:51:42
      2026-05-10 02:20:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區(qū)媒體
      12350文章數(shù) 51880關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協(xié)議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經(jīng)要聞

      多地號召,公職人員帶頭繳納物業(yè)費

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      家居
      時尚
      藝術
      公開課
      軍事航空

      家居要聞

      菁英人居 全能豪宅

      伊姐周六熱推:電視劇《喀什戀歌》;電視劇《低智商犯罪》......

      藝術要聞

      深圳終究失去“中國第一高樓”,華潤接手地塊!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊突然再次交火 伊朗外長:戰(zhàn)爭準備程度是1000%

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品94精品久久精品动漫| 自拍偷自拍亚洲精品播放| 制服丝袜在线云霸| 操穴AV| 色综合色综合久久综合频道| 巨臀中文字幕一区二区视频| 国产又色又爽又黄的免费软件| 国产无码高清视频不卡| 亚洲色情在线播放| 日本丰满老妇bbb| 9WW6CC视频| 欧美性爱影院| 不卡人妻音频| 亚洲精品成人福利网站| 日本内射精品一区二区视频| 91免费视频网| 日本最大色倩网站www| 亚洲一区二区精品久久蜜桃| 国产做国产爱免费视频| 91资源在线| 国产99视频精品免费专区| 一区二区三区午夜无码视频| 超碰国产精品久久国产精品99| 欧美性大战久久久久久久蜜桃| 精品九九人人做人人爱| 国产愉拍精品手机| 国产精品永久久久久久久久久| 久久久精品一区| 无码人妻一区二区三区线| 污网站免费看| 免费一区二区三区在线视频| 熟女中文网站| 亚洲精品二区在线播放| 国产短视频一区二区三区| 福利在线视频导航| 中文字幕大香视频蕉免费| 最新中文字幕AV无码专区 | 高清国产一区二区无遮挡| 无码中文av有码中文av| 先锋影音成人无码| 欧美精品人妻系列|