<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      DeepSeek V4最大的遺憾

      0
      分享至

      henry 發(fā)自 凹非寺
      量子位 | 公眾號(hào) QbitAI

      DeepSeekV4的技術(shù)報(bào)告里有mHC,有CSA,有HCA,有Muon,有FP4……

      唯獨(dú)沒(méi)有Engram

      Engram去哪了?

      這個(gè)話題一度成為網(wǎng)友們討論的熱點(diǎn)。

      Engram在今年1月由DeepSeek和北大聯(lián)合開(kāi)源,主要研究大模型的記憶與效率問(wèn)題。

      自掛上arXiv的那一刻起,圈子里圍繞它的探討就沒(méi)有停止過(guò)…



      不僅僅因?yàn)樗荲4的前奏,而是有了Engram,「?jìng)惗厥怯?guó)首都」這種事實(shí),模型不用動(dòng)用整個(gè)深層網(wǎng)絡(luò)去重新推一遍,直接查就行。

      不僅省顯存,還能釋放深層網(wǎng)絡(luò)容量,用于更高階的推理。

      正因如此,自1月初論文發(fā)表以來(lái),所有人都覺(jué)得,Engram就是V4的架構(gòu)地基,所有人都在盼。

      以至于V4發(fā)表后,大家第一時(shí)間就是command+f去論文里找Engram,可惜并沒(méi)有。



      以至于不少網(wǎng)友甚至覺(jué)得,沒(méi)有Engram,V4就是不完整的。



      沒(méi)有Engram,可能是DeepSeekV4最大的遺憾。

      不過(guò),Engram并沒(méi)有消失。隨后三篇值得注意的論文接力出現(xiàn):

      • CXL內(nèi)存池化版本:把Engram放進(jìn)多機(jī)共享的CXL內(nèi)存池,解決大模型多機(jī)部署的存儲(chǔ)問(wèn)題。
      • 無(wú)沖突熱層實(shí)驗(yàn):對(duì)Engram的多頭哈希優(yōu)化進(jìn)行了實(shí)證檢驗(yàn),證偽了一些直覺(jué)式改進(jìn)方案。
      • 視覺(jué)Tiny Engram:AutoArk團(tuán)隊(duì)把文本Engram搬到視覺(jué)模態(tài),擴(kuò)展了它的應(yīng)用邊界。

      所以,雖然V4沒(méi)有Engram,但它的理念、探索和后續(xù)應(yīng)用已經(jīng)悄然鋪開(kāi),為下一代模型打下基礎(chǔ)。

      Engram到底是什么

      把時(shí)間倒回2026年1月12日。

      那一天,DeepSeek聯(lián)合北大放出了一篇33頁(yè)的論文《ConditionalMemoryviaScalableLookup》。第一作者ChengXin,北大博士生,曾經(jīng)署名過(guò)V3。最后一位作者,梁文鋒。



      先來(lái)一句話速通版,Engram是給Transformer加的一個(gè)原生知識(shí)查表模塊。能查的別算,先查一下。

      團(tuán)隊(duì)的核心觀察是,語(yǔ)言建模其實(shí)包含兩種性質(zhì)完全不同的任務(wù),一種是需要深度動(dòng)態(tài)計(jì)算的組合推理,另一種是檢索靜態(tài)知識(shí)。

      之前的問(wèn)題在于,Transformer把這兩件事混在一起做。模型識(shí)別一個(gè)實(shí)體時(shí),得消耗好幾層注意力和前饋網(wǎng)絡(luò)逐層拼湊特征。

      論文里舉了個(gè)例子,「Diana,Princess of Wales」。模型要走6層才能把這個(gè)識(shí)別完。

      前幾層還在糾結(jié)「Wales是英國(guó)的一個(gè)地區(qū)」、「Princess of Wales是某種頭銜」這些中間狀態(tài),最后一層才反應(yīng)過(guò)來(lái)這是戴安娜王妃。

      這種「用昂貴的運(yùn)行時(shí)計(jì)算重建一個(gè)靜態(tài)查找表」的活,本來(lái)可以讓深層網(wǎng)絡(luò)去干更高階的推理。

      對(duì)此,Engram的思路相當(dāng)直接,既然經(jīng)典的N-gram模型就能用O(1)的時(shí)間復(fù)雜度捕獲這些局部依賴,那干脆把這能力直接嵌進(jìn)Transformer。

      打個(gè)比方,就像你做數(shù)學(xué)題,該用的公式不必每次從頭推一遍,翻表代進(jìn)去就行。Transformer之前沒(méi)這張表,只能每道題都從公理走起。Engram等于把這張表交到模型手里。

      具體做法是,在Transformer的第2層和第15層之間各插入一個(gè)Engram模塊。

      每個(gè)位置的輸入會(huì)觸發(fā)一次哈希查找,把當(dāng)前token和前面幾個(gè)token組成的N-gram映射到一個(gè)巨大的嵌入表里,直接取出對(duì)應(yīng)的向量。

      門(mén)控機(jī)制保證查到的內(nèi)容跟當(dāng)前上下文不匹配時(shí)自動(dòng)屏蔽。比如「張」是個(gè)常見(jiàn)姓氏,但「張仲景」三個(gè)字湊一起就是固定歷史人物實(shí)體了,門(mén)控就負(fù)責(zé)認(rèn)出這種區(qū)別。

      Engram的定位是MoE之外的另一條稀疏軸。MoE是把計(jì)算稀疏化,只激活一部分專家。Engram是把存儲(chǔ)稀疏化,只查一部分條目。兩者互補(bǔ),不沖突。



      論文最核心的一段實(shí)驗(yàn),是固定總參數(shù)和每token激活參數(shù),然后讓MoE專家和Engram記憶搶預(yù)算,得到一條U形曲線。



      純MoE不是最優(yōu)解。把大約20%-25%的稀疏參數(shù)分給Engram,模型loss達(dá)到最低點(diǎn)。

      按這個(gè)曲線指導(dǎo),團(tuán)隊(duì)把Engram擴(kuò)到27B驗(yàn)證。激活參數(shù)3.8B,訓(xùn)練262B tokens,嚴(yán)格跟MoE-27B基線對(duì)齊。

      結(jié)果知識(shí)密集型任務(wù)的提升符合預(yù)期(MMLU +3.4,CMMLU +4.0),但通用推理和代碼數(shù)學(xué)的提升超出預(yù)期(BBH +5.0,ARC-Challenge +3.7,HumanEval +3.0,MATH +2.4),長(zhǎng)上下文場(chǎng)景更夸張,Multi-Query NIAH從84.2%躍升到97.0%。



      那么,為什么記憶模塊還能反過(guò)來(lái)提升推理?

      LogitLens和CKA給出了答案,Engram-27B第5層的表征,跟MoE基線第12層的表征最相似。

      Engram把模型的早期層從「重建靜態(tài)知識(shí)」這種苦力活里解放出來(lái),這部分網(wǎng)絡(luò)深度被騰出來(lái)做更復(fù)雜的推理。Engram不是新增了一塊記憶,它還變相把網(wǎng)絡(luò)加深了。



      工程上。論文把一個(gè)1000億參數(shù)的Engram表整個(gè)甩到host DRAM,在H800上跑推理,8B-Dense的吞吐?lián)p失只有2.8%。

      靠的是Engram索引的確定性,只取決于輸入token序列,完全可以提前算,CPU異步預(yù)取跟GPU計(jì)算重疊。

      可以說(shuō),這個(gè)模塊天生就不靠HBM,只可惜如今V4來(lái)了,Engram沒(méi)來(lái)。

      沒(méi)在v4,但在其他地方

      發(fā)明者把它放在那里沒(méi)動(dòng),但路上還是有人。三個(gè)月里,至少出現(xiàn)了三個(gè)值得說(shuō)一下的工作。

      把Engram塞進(jìn)CXL內(nèi)存池

      3月10日,北大、阿里云、山東英信、人大、港大聯(lián)合發(fā)了一篇系統(tǒng)論文,《Pooling Engram Conditional Memory in Large Language Models using CXL》。



      他們沒(méi)改Engram本身,而是回答了一個(gè)更工程的問(wèn)題,如果Engram真的成了下一代標(biāo)配,內(nèi)存放哪。

      答案是CXL內(nèi)存池化。GPU HBM放計(jì)算權(quán)重,本地DRAM做二級(jí)緩存,CXL池做三級(jí)。8臺(tái)服務(wù)器共享4TB內(nèi)存池,XConn XC50256交換芯片做拓?fù)洌?12GB/s帶寬。

      整套集成進(jìn)SGLang,做了預(yù)取-計(jì)算重疊,跑下來(lái)端到端吞吐?lián)p失小于5%。Engram論文里那句「1000億嵌入表卸載DRAM」的輕描淡寫(xiě),被他們做成了27B和40B兩個(gè)規(guī)模的真實(shí)測(cè)試。

      結(jié)論很清楚,Engram這種確定性尋址、可預(yù)取的負(fù)載,幾乎是為CXL量身定做的。

      一個(gè)反直覺(jué)的實(shí)驗(yàn)

      Engram論文上線第十一天,1月23日,一個(gè)叫TaoLin的研究者,單作者,放出了《A Collision-FreeHot-Tier Extension for Engram-Style Conditional Memory》。



      他想驗(yàn)證一個(gè)看上去顯然的優(yōu)化,Engram用多頭哈希查表會(huì)有沖突,如果把高頻N-gram用Minimal Perfect Hash Function完全消除沖突,模型會(huì)不會(huì)更好。

      他設(shè)計(jì)了Engram-Nine,把記憶分成無(wú)沖突的「熱層」和保留多頭哈希的「冷層」。

      結(jié)果反直覺(jué)。在嚴(yán)格iso-parameter控制下,無(wú)沖突設(shè)計(jì)沒(méi)有穩(wěn)定提升驗(yàn)證loss。

      route-stratified評(píng)估還發(fā)現(xiàn),訓(xùn)練初期熱路徑(高頻)loss更低,但訓(xùn)練后期冷路徑反過(guò)來(lái)超過(guò)熱路徑。

      一個(gè)看上去顯然的優(yōu)化方向,被一個(gè)真做實(shí)驗(yàn)的人證偽了。

      把Engram推到視覺(jué)(AutoArk/TinyEngram)

      GitHub上一個(gè)叫AutoArk的團(tuán)隊(duì)搞了Tiny Engram。



      基于Qwen-3完整復(fù)現(xiàn)文本Engram之后,他們做了一件論文里沒(méi)做的事,把Engram搬到Stable Diffusion上。

      視覺(jué)patch經(jīng)過(guò)分層編碼,底層抓紋理,中層抓部件,高層抓風(fēng)格,然后整套丟進(jìn)哈希查表。

      跟LoRA比下來(lái),達(dá)到同等效果,Engram需要的額外參數(shù)只有LoRA的15%到30%。連續(xù)注入多個(gè)新概念時(shí),LoRA會(huì)出現(xiàn)明顯的概念退化,Engram不會(huì)。

      Engram原本是為文本設(shè)計(jì)的。AutoArk等于把這扇門(mén)撞開(kāi)了,凡是能離散化、能哈希的模態(tài),Engram都能搬。

      三個(gè)月里,Engram這條路上,發(fā)明者最沉默,跟進(jìn)者各自走了一步。

      一個(gè)團(tuán)隊(duì)替它解決多機(jī)內(nèi)存層級(jí),一個(gè)獨(dú)立研究者證偽了它一個(gè)看似顯然的優(yōu)化方向,一個(gè)開(kāi)源團(tuán)隊(duì)把它推到了視覺(jué)。



      而deepseek-ai/Engram這個(gè)倉(cāng)庫(kù),最后一次提交還停在1月14日。

      One more thing

      Engram論文的摘要結(jié)尾有一句話:

      我們認(rèn)為條件記憶將是下一代稀疏模型不可或缺的建模原語(yǔ)。



      看來(lái),這個(gè)下一代得是V5了,難不成會(huì)是V4.1?

      [1]https://arxiv.org/pdf/2601.07372

      [2]https://arxiv.org/pdf/2603.10087

      [3]https://arxiv.org/pdf/2601.16531

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      上海偶遇Angelababy!素顏帶小海綿抓娃娃,現(xiàn)場(chǎng)無(wú)人打擾太暖心

      上海偶遇Angelababy!素顏帶小海綿抓娃娃,現(xiàn)場(chǎng)無(wú)人打擾太暖心

      觀魚(yú)聽(tīng)雨
      2026-05-05 23:43:22
      我有罪,大導(dǎo)演昆汀花1萬(wàn)美金,在包房舔腳半小時(shí),直到皮膚起皺

      我有罪,大導(dǎo)演昆汀花1萬(wàn)美金,在包房舔腳半小時(shí),直到皮膚起皺

      西樓知趣雜談
      2026-04-20 08:40:47
      長(zhǎng)江后浪推前浪!寧波服裝巨頭獨(dú)女接班家業(yè),靠投資再給父親爭(zhēng)光

      長(zhǎng)江后浪推前浪!寧波服裝巨頭獨(dú)女接班家業(yè),靠投資再給父親爭(zhēng)光

      大魚(yú)簡(jiǎn)科
      2026-05-07 17:22:07
      蔚來(lái)車主為啥不愛(ài)買電池了?算完賬我悟了

      蔚來(lái)車主為啥不愛(ài)買電池了?算完賬我悟了

      劉哥談體育
      2026-05-08 03:11:33
      現(xiàn)代醫(yī)學(xué)最殘忍的行為,讓人后怕

      現(xiàn)代醫(yī)學(xué)最殘忍的行為,讓人后怕

      茶余飯好
      2026-05-05 14:50:57
      司美格魯肽的好日子到頭了?

      司美格魯肽的好日子到頭了?

      新浪財(cái)經(jīng)
      2026-05-07 09:10:57
      西媒:皇馬暫不考慮出售楚阿和巴爾韋德,仍視二人為關(guān)鍵球員

      西媒:皇馬暫不考慮出售楚阿和巴爾韋德,仍視二人為關(guān)鍵球員

      懂球帝
      2026-05-08 06:19:16
      這“主角”到底是何方神圣,竟讓張藝謀、張嘉益、劉浩存、王菲等人一起“追捧”

      這“主角”到底是何方神圣,竟讓張藝謀、張嘉益、劉浩存、王菲等人一起“追捧”

      人格志
      2026-05-07 21:24:12
      歐冠決賽開(kāi)球時(shí)間提前?切費(fèi)林:這是為了提升球迷的觀賽體驗(yàn)

      歐冠決賽開(kāi)球時(shí)間提前?切費(fèi)林:這是為了提升球迷的觀賽體驗(yàn)

      懂球帝
      2026-05-07 10:24:12
      71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

      71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

      月滿大江流
      2026-04-16 13:54:38
      金晨一紙道歉,把央視人民日?qǐng)?bào)都給驚動(dòng)了,我卻要笑死在評(píng)論區(qū)了

      金晨一紙道歉,把央視人民日?qǐng)?bào)都給驚動(dòng)了,我卻要笑死在評(píng)論區(qū)了

      娛樂(lè)故事
      2026-01-30 21:47:39
      尺度拉滿,Netflix把A片之王搬上了熒幕

      尺度拉滿,Netflix把A片之王搬上了熒幕

      來(lái)看美劇
      2026-05-06 16:54:02
      張柏芝姐姐移民加拿大15年,稱混血面孔難在香港發(fā)展,已轉(zhuǎn)行賣房

      張柏芝姐姐移民加拿大15年,稱混血面孔難在香港發(fā)展,已轉(zhuǎn)行賣房

      樹(shù)娃
      2026-05-07 10:19:51
      每天一把保健品?專家:盲目服用當(dāng)心中毒 這三類人尤其小心

      每天一把保健品?專家:盲目服用當(dāng)心中毒 這三類人尤其小心

      大象新聞
      2026-01-30 21:13:03
      賴清德竄訪團(tuán)集體向非洲王室蹲跪獻(xiàn)禮,臺(tái)網(wǎng)友諷刺其“出訪”靠“偷渡”,“參見(jiàn)”靠“下跪”

      賴清德竄訪團(tuán)集體向非洲王室蹲跪獻(xiàn)禮,臺(tái)網(wǎng)友諷刺其“出訪”靠“偷渡”,“參見(jiàn)”靠“下跪”

      極目新聞
      2026-05-07 07:33:33
      掘金名宿批老板摳門(mén):休賽期別指望有大動(dòng)作

      掘金名宿批老板摳門(mén):休賽期別指望有大動(dòng)作

      綠茵狂熱者
      2026-05-08 04:06:36
      吳宜澤奪冠后首度現(xiàn)身國(guó)內(nèi),在西安機(jī)場(chǎng)受球迷接機(jī)送花,之后還將舉行見(jiàn)面會(huì),此前他曾表示想回國(guó)吃美食、見(jiàn)朋友

      吳宜澤奪冠后首度現(xiàn)身國(guó)內(nèi),在西安機(jī)場(chǎng)受球迷接機(jī)送花,之后還將舉行見(jiàn)面會(huì),此前他曾表示想回國(guó)吃美食、見(jiàn)朋友

      極目新聞
      2026-05-07 07:12:51
      上海成為2028年奧運(yùn)會(huì)資格系列賽舉辦城市

      上海成為2028年奧運(yùn)會(huì)資格系列賽舉辦城市

      新京報(bào)
      2026-05-07 22:18:45
      一場(chǎng)1-1,讓西甲贏麻了!基本鎖定歐冠金靴+5個(gè)歐冠直通名額在望

      一場(chǎng)1-1,讓西甲贏麻了!基本鎖定歐冠金靴+5個(gè)歐冠直通名額在望

      阿晞體育
      2026-05-07 07:55:20
      女子玩“懸崖秋千”墜亡,目擊者發(fā)聲:所有人都嚇懵了,看到遇難女孩頭部撞到山崖,“連續(xù)幾天做噩夢(mèng),一直都是那個(gè)畫(huà)面”

      女子玩“懸崖秋千”墜亡,目擊者發(fā)聲:所有人都嚇懵了,看到遇難女孩頭部撞到山崖,“連續(xù)幾天做噩夢(mèng),一直都是那個(gè)畫(huà)面”

      芒果都市
      2026-05-07 10:49:42
      2026-05-08 07:20:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動(dòng)態(tài)
      12585文章數(shù) 176462關(guān)注度
      往期回顧 全部

      科技要聞

      月之暗面完成20億美元融資,估值突破200億

      頭條要聞

      伊朗武裝部隊(duì):美軍違反?;饏f(xié)議空襲伊朗 已反擊

      頭條要聞

      伊朗武裝部隊(duì):美軍違反?;饏f(xié)議空襲伊朗 已反擊

      體育要聞

      巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂(lè)要聞

      Lisa主持!寧藝卓觀看脫衣秀風(fēng)波升級(jí)

      財(cái)經(jīng)要聞

      人均年薪406萬(wàn),這家ST公司驚呆市場(chǎng)!

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      藝術(shù)
      旅游
      游戲
      親子
      公開(kāi)課

      藝術(shù)要聞

      21 歲徐悲鴻畫(huà)的 “天價(jià)仙女”,被網(wǎng)友罵 “生無(wú)可戀”

      旅游要聞

      格陵蘭島的本真(旅人心語(yǔ))

      《遠(yuǎn)星物語(yǔ)》團(tuán)隊(duì)新作《皓白初曉》登Steam EA

      親子要聞

      只祝她“母親節(jié)快樂(lè)”是不夠的

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲永久免费精网站| 亚洲一区av无码少妇电影| 亚洲天堂一区二区三区四区| 无套内谢极品少妇视频| 亚洲欧美成人| 国产午夜亚洲精品国产| 老鸭窝成人| 免费看亚洲一区二区三区| 国产精品自拍中文字幕| 午夜在线不卡| 国产成人三级在线观看视频| 成人做受120秒试看试看视频| 国产亚洲精品午夜福利| 亚在线观看免费视频入口| 久久精品99国产国产精| 国产国产+人+综| 天天爽夜夜爽8888视频精品| 亚洲成人av综合一区| 精品免费看国产一区二区| 免费AV片在线观看网址| 国产婷婷丁香五月麻豆| www.操.c| 六月丁香婷婷综合亚洲| 亚洲精品久久久久玩吗| 亚洲国产一区二区三区四| 成人拍拍拍无遮挡免费视频| 日韩AV影视| 亚洲?成人?综合?另类| 超碰福利导航| 亚洲国产日韩欧美一区二区三区| 欧美极品色午夜在线视频| 国产一区国产二区在线视频| 伊人五月综合| 亚洲国产成人久久综合电影| 亚洲无码高清免费视频亚洲| 亚洲熟妇中文字幕曰产无码| 中国av网| 欧美熟妇乱子伦XX视频| 久久精品国产九一九九九| 日韩成人无码| 亚洲欧美电影在线一区二区|