當(dāng)你在看一本小說的時(shí)候,是否會(huì)發(fā)現(xiàn)自己經(jīng)常看到后面忘了前面?當(dāng)你和朋友從早聊到晚,是否會(huì)發(fā)現(xiàn)已經(jīng)不記得最開始的話題?但最近更新的DeepSeek-V4不會(huì)忘記。
![]()
圖源:DeepSeek-V4 技術(shù)報(bào)告(參考文獻(xiàn)[3])
就在大前天,全新系列模型DeepSeek-V4堂堂上線并同步開源。這一全新版本最厲害的能力之一,就是它擁有超長的上下文窗口,可以記住并理解長達(dá)百萬字符的內(nèi)容(約等于十本《哈利·波特》)。
這意味著它可以讀完一整套學(xué)術(shù)論文集再回答你的問題,也可以記住幾十輪長對(duì)話中的每一個(gè)細(xì)節(jié),而不是一邊聊天一邊忘記前面的對(duì)話。
這聽起來理所當(dāng)然,但對(duì)人工智能來說,這其實(shí)是一個(gè)非常難的問題。今天,我們就從最基礎(chǔ)的地方講起,讓你明白DeepSeek-V4的百萬上下文到底有多厲害。
PART 01
模型是如何認(rèn)識(shí)世界的?
![]()
首先,我們需要知道AI是如何處理人類語言的。
2017 年,Google發(fā)表了一篇名為《Attention is All You Need》(注意力就是你所需要的一切)的論文。這標(biāo)題小編覺得非常歡愉啊,畢竟捏他了披頭士的名曲《All You Need Is Love》,還引得后來者爭相模仿這一標(biāo)題范式。
![]()
披頭士的《All You Need Is Love》封面 | 圖源:網(wǎng)絡(luò)
這篇論文提出了注意力機(jī)制,徹底改變了人工智能處理語言的方式。如今所有的大語言模型,包括 ChatGPT、DeepSeek,都是建立在這個(gè)機(jī)制之上的。
注意力機(jī)制的核心是:Q(Query,查詢)、K(Key,標(biāo)簽)、V(Value,含義)三個(gè)矩陣。
K(Key),可以理解為一些抽象的“概念標(biāo)簽”,比如“動(dòng)物”、“跑步”、“顏色”;
V(Value),是這些概念標(biāo)簽背后對(duì)應(yīng)的具體含義,比如“動(dòng)物”對(duì)應(yīng)的V里藏著關(guān)于貓、狗、大象的各種知識(shí)。
Q(Query),你想要查找的內(nèi)容,模型拿著這個(gè)查詢Q去和所有的標(biāo)簽K比較相似度,找到最匹配的標(biāo)簽,然后按照匹配程度,把對(duì)應(yīng)的含義V加權(quán)平均起來,得到最終的理解結(jié)果。
注意力機(jī)制的完整計(jì)算公式只有一行:
看起來很復(fù)雜,拆開來其實(shí)只有三步:
第一步:算相似度。Q·KT就是讓查詢Q和每一個(gè)標(biāo)簽K做“點(diǎn)積”——兩個(gè)大小固定的向量方向越一致,點(diǎn)積越大,說明這個(gè)標(biāo)簽K越匹配當(dāng)前的查詢Q。
第二步:歸一化概率。原始相似度分?jǐn)?shù)可能特別大或特別小,直接用來加權(quán)不穩(wěn)定,所以先除根號(hào)下dk,(dk是向量維度,開根號(hào)是為了防止數(shù)值溢出),再對(duì)其使用softmax函數(shù)。softmax本質(zhì)上是用自然常數(shù)e的指數(shù)來放大差距,再歸一化成概率。它能讓重要的東西被大幅突出,不重要的被壓得很小,模型的“注意力”因此能被聚焦。
第三步:加權(quán)求和。用第二步得到的概率分布,對(duì)所有的含義V做加權(quán)平均:權(quán)重越高的含義V,在最終結(jié)果里占比越大。這就是“注意力”的核心:讓模型把注意力集中在最相關(guān)的內(nèi)容上。
這里有一個(gè)關(guān)鍵問題:Q、K、V 從哪里來?
剛剛讀到這里的小伙伴可能會(huì)有誤解,那就是大模型是每次對(duì)話是生成一個(gè)查詢Q去查閱一個(gè)固定的標(biāo)簽含義KV表,這樣做確實(shí)理論上可行,但是得到的模型會(huì)很呆板:模型只能處理固定的內(nèi)容,一旦超出了預(yù)設(shè)KV表的范圍,它就只能兩眼一抹黑了。實(shí)際的大模型使用的是“多頭自注意力機(jī)制”,看起來好像很復(fù)雜,別急,我們一個(gè)一個(gè)來。
在自注意力機(jī)制里,Q、K、V 全部來自同一段輸入,只是各自經(jīng)過了一個(gè)不同的線性變換,相當(dāng)于從不同角度看同一件事,分別去回答如下的問題:
它自己的Q:“我想獲取什么信息?”
它自己的K:“可以通過什么來找到我?”
它自己的V:“我自己都有哪些含義?”
我們考慮一個(gè)非常簡單的例子:“很重”、“重新”兩個(gè)詞語中的“重”,雖然這兩個(gè)字都是一模一樣的,但是在自注意力機(jī)制里,模型可以做到第一個(gè)“重”的標(biāo)簽K標(biāo)記這是質(zhì)量、含義V表明這個(gè)很大,查詢Q去問這個(gè)對(duì)應(yīng)什么東西;而第二個(gè)“重”的標(biāo)簽K則和次數(shù)有關(guān),含義V表明至少是第二次,查詢Q會(huì)去問這個(gè)和什么事情相關(guān)。
我們會(huì)發(fā)現(xiàn),不同于靜態(tài)的QKV,動(dòng)態(tài)生成QKV的好處在于:模型能根據(jù)實(shí)際語境來給一個(gè)詞打上更合適的標(biāo)簽K,賦予更合適的含義V,以及做出更準(zhǔn)確的查詢Q。如此模型便可以在不同的場景中都能準(zhǔn)確理解含義、做出貼切的回答。
多頭注意力機(jī)制則著重于解答另一個(gè)問題:原版的注意力機(jī)制確實(shí)可以實(shí)現(xiàn)一個(gè)詞多個(gè)標(biāo)簽K多個(gè)含義V,但查詢Q只有一個(gè),在一些多義詞或者有歧義的場景面前多少有些不夠看了。
比如在一個(gè)經(jīng)典的“逗老外”短句“一行行行行行”中,連著出現(xiàn)了五個(gè)“行”,對(duì)于其中每一個(gè)“行”如何理解,顯然一個(gè)查詢Q是遠(yuǎn)遠(yuǎn)不夠用的,因?yàn)椤靶小庇袃蓚€(gè)讀音和兩套含義:háng(行列、行業(yè))和xíng(行走、可以),如果只有一個(gè)查詢Q,它只能問一個(gè)維度的問題,要是問到了“這個(gè)字是動(dòng)作嗎?”——答案是都不是,所有“行”最后的含義V都是一樣的,整個(gè)句子都亂套了。多頭注意力相當(dāng)于給每個(gè)詞配了多個(gè)查詢Q,每個(gè)查詢Q負(fù)責(zé)一個(gè)不同的關(guān)注角度:“這個(gè)是動(dòng)作么”、“這個(gè)是名詞么”、“這個(gè)是形容詞么”,哪怕有些查詢Q確實(shí)無法分辨,模型最終還是可以分清每一個(gè)“行”究竟是什么。
那么怎么讓模型能一次發(fā)出多次查詢Q呢?
答案也非常簡單,我們可以通過同時(shí)跑h組獨(dú)立的注意力(稱為h個(gè)" attention head注意力頭"),每個(gè)頭各自學(xué)習(xí)不同的Q、K、V矩陣,能夠從不同維度來理解同一段輸入。最后把h個(gè)頭的結(jié)果拼接起來,得到更全面的表示。這就像是同時(shí)委托了32個(gè)偵探,每人從一個(gè)不同線索探案(作案時(shí)間,作案方法,人際關(guān)系……),最后匯總成一份全面的報(bào)告。
以上就是第一代多頭注意力機(jī)制的實(shí)現(xiàn)方法,初代GPT 、BERT都用的是這套方案。但是這種方法存在一個(gè)問題,每個(gè)頭都有獨(dú)立的標(biāo)簽K、含義V,使用時(shí)必須把h份KV全部緩存在顯存里,顯存開銷隨頭數(shù)等比增加,用起來實(shí)在是太肉痛了(如果你正好讀了下一部分的內(nèi)容就會(huì)發(fā)現(xiàn),隨著模型處理文字?jǐn)?shù)量的增加,這些KV也會(huì)進(jìn)一步線性增長,吃掉你更多寶貴的顯存,這下更肉痛了!)。
所以,現(xiàn)在第二代多頭注意力機(jī)制GQA(分組查詢注意力,Grouped Query Attention)不再讓每個(gè)查詢Q都有獨(dú)立對(duì)應(yīng)的標(biāo)簽K和含義V,而是讓多個(gè)查詢Q共享同一對(duì)標(biāo)簽K和含義V。比如我們?cè)瓉碛?2個(gè)注意力頭,現(xiàn)在我們把32個(gè)查詢Q分成8組,每組4個(gè)查詢Q共用同一對(duì)KV。這樣KV的存儲(chǔ)量直接降為原來的1/4,但模型的表達(dá)能力損失不大,因?yàn)槊總€(gè)查詢Q還是獨(dú)立提問,只是查的是同一份檔案。就如同32個(gè)偵探仍然各自獨(dú)立分析問題,但情報(bào)檔案室從32份縮減為8份,每4個(gè)偵探共享一份資料。這節(jié)省了大量檔案室空間,偵探們的分析視角卻沒什么損失。GQA 被 LLaMA 2/3、Mistral、Gemma 等模型廣泛采用,是當(dāng)前工程實(shí)踐中顯存與性能平衡的主流方案。
![]()
PART 02
上下文是什么,為什么需要它?
![]()
現(xiàn)在我們有了注意力機(jī)制,可以理解單個(gè)詞了。但語言不是孤立的詞語堆砌,而是有前后聯(lián)系的句子、段落、篇章。
上下文,說白了就是“前面說過的話”。
模型處理一個(gè)新詞的時(shí)候,不僅要理解這個(gè)詞本身,還要理解它和前面所有詞的關(guān)系。新詞的查詢Q除了和自己的標(biāo)簽K比較,還要去和所有之前讀過的詞的標(biāo)簽K比較一遍。這樣,模型就能“看到”整個(gè)已讀內(nèi)容的全貌,理解前后的關(guān)聯(lián)。
舉個(gè)小學(xué)一年級(jí)語文考試?yán)锏慕?jīng)典題型:“它”在文中指代什么?模型要理解“它”,就得讓“它”的查詢Q去和前面所有詞的標(biāo)簽K做比較,看看哪個(gè)名詞的標(biāo)簽K和“它”最匹配,找到之后,就可以盡可能地繼承那個(gè)名詞的含義V,從而正確理解“它”代指的是誰。
所以,上下文越長,模型理解越深入。但上下文太長也有一些代價(jià)——
第一,存儲(chǔ)壓力大。模型必須把從對(duì)話開始的所有KV都存在顯存里。上下文越長,要存的KV越多,顯存很快就撐不住了。
第二,計(jì)算量爆炸。每個(gè)新的查詢Q都要和所有之前的標(biāo)簽K做比較。如果上下文長度是n,每處理一個(gè)新詞就要做n次比較,整個(gè)處理過程的總計(jì)算量就和n2成正比——這是個(gè)等差數(shù)列求和,幼兒園就學(xué)過,增長非常快。上下文翻倍,計(jì)算量會(huì)變成原來的四倍。
第三,重要信息被淹沒。每個(gè)查詢Q最終得到的是所有含義V的加權(quán)平均,如果上下文太長,大量不太重要的含義V會(huì)“稀釋”掉真正關(guān)鍵的信息。就像在32個(gè)偵探發(fā)現(xiàn)的100個(gè)線索里尋找真正兇手的印跡,就可能被無關(guān)線索淹沒。
![]()
PART 03
上下文壓縮
![]()
為了解決上下文過長的問題,研究者們想出了一個(gè)辦法——壓縮稀疏注意力(CSA,Compressed Sparse Attention)。老規(guī)矩,我們挨個(gè)看前面的前綴是啥意思。
首先,壓縮。把一系列前后相連的標(biāo)簽含義KV分組打包,合并成一個(gè)更緊湊的KV,丟掉沒什么用的細(xì)節(jié)。就像你讀完一章書,不用記住每一句話,只需要記住這一章大概講了什么。壓縮之后,存儲(chǔ)的KV數(shù)量大幅減少,計(jì)算量自然也降下來了。
其次,稀疏。每次新的查詢Q來了,不讓它和所有的標(biāo)簽K都比較,而是先用一個(gè)小型篩選器,挑出它認(rèn)為最重要的若干個(gè)KV,只讓這些KV參與計(jì)算。就像考試前,老師會(huì)劃重點(diǎn)一樣,我們只要復(fù)習(xí)最重要的知識(shí)點(diǎn)就好。與此同時(shí),這個(gè)篩選器通常還保留一個(gè)滑動(dòng)窗口,讓最近的一些KV更容易被選中。
利用CSA,存儲(chǔ)壓力變小了,計(jì)算量也不再隨上下文長度的平方增長,而且理論上能突出核心信息,避免重要內(nèi)容被淹沒。但它也帶來了新的問題,即注意力渙散。
首先,它會(huì)遺忘重要的事。如果上下文太長,要點(diǎn)太多,超過了篩選器的截?cái)嗌舷蓿罄m(xù)的查詢Q就永遠(yuǎn)看不到那些被排在上限之外的標(biāo)簽內(nèi)容KV了。
第二,可能出現(xiàn)前言不搭后語的現(xiàn)象。一旦超出了滑動(dòng)窗口(這個(gè)通常不會(huì)太大,一般是數(shù)百個(gè)詞),當(dāng)上下文太大時(shí),你又正好和模型進(jìn)行一段比較長的交流,那你剛剛和模型說的話就可能入不了篩選器的法眼,導(dǎo)致模型前后兩段前言不搭后語。
![]()
PART 04
DeepSeek V4 的混合注意力
![]()
說了這么多,總算能進(jìn)入我們的正題了,很激動(dòng)有木有!
本次DeepSeek-V4的核心架構(gòu)創(chuàng)新,正是把兩種不同“壓縮力度”的注意力機(jī)制混合起來用:CSA(壓縮稀疏注意力)+ HCA(重度壓縮注意力,Heavily Compressed Attention)。
CSA(壓縮稀疏注意力)是我們剛剛談到的老朋友了,在 DeepSeek-V4 中,CSA 把每32個(gè)連續(xù)的的標(biāo)簽含義KV打包壓縮成1個(gè)輸入。壓縮之后,再用一個(gè)輕量級(jí)的“閃電篩選器”從中挑出最相關(guān)的若干個(gè)KV,讓查詢Q只關(guān)注這些被選中的部分。此外,CSA 還保留了一個(gè)滑動(dòng)窗口,把最近幾個(gè)詞的原始KV原封不動(dòng)地留下來,保證模型對(duì)剛說過的話仍然有清晰的記憶。
這就像是在讀一本書時(shí),每 32 頁寫一段總結(jié)(壓縮),做題時(shí)從所有總結(jié)里找最相關(guān)的幾段(稀疏),同時(shí)把當(dāng)前翻開的那一頁原文留著隨時(shí)查(滑動(dòng)窗口)。
![]()
CSA 的核心架構(gòu),它首先對(duì)KV進(jìn)行壓縮,然后篩選最重要的一些KV,此外還會(huì)保留最近的一些原始KV。 | 圖源:DeepSeek-V4 技術(shù)報(bào)告(參考文獻(xiàn)[3])
HCA(重度壓縮注意力)則更加劍走偏鋒,它嫌棄CSA的壓縮力度還是太保守了:其把每128個(gè)相鄰的標(biāo)簽含義KV都?jí)嚎s成1個(gè)輸入,是CSA壓縮率的四倍。代價(jià)是細(xì)節(jié)損失更大,但好處是壓縮后剩下的輸入數(shù)量已經(jīng)少得可以不做稀疏篩選了,直接讓Q看到所有壓縮后的輸入,徹底避免了"篩選器漏掉重要信息"的問題。
這就像是把一整部小說的每 128 頁濃縮成一句話(高度摘要),雖然細(xì)節(jié)基本都沒了,但因?yàn)榭偨Y(jié)的數(shù)量足夠少,可以把每一條都看一遍,不會(huì)因?yàn)楹Y選器而遺漏。
![]()
HCA的核心架構(gòu),它使用了更激進(jìn)的壓縮,并且不對(duì)壓縮后的內(nèi)容進(jìn)行篩選,此外,HCA同樣保留了一個(gè)能看見最近原始KV輸入的滑動(dòng)窗口。 | 圖源:DeepSeek-V4 技術(shù)報(bào)告(參考文獻(xiàn)[3])
DeepSeek-V4在模型內(nèi)部將CSA層和HCA層交替排列,CSA層負(fù)責(zé)近中距離的精細(xì)依賴,保留更多細(xì)節(jié),帶稀疏篩選;HCA層負(fù)責(zé)超遠(yuǎn)距離的模糊記憶,極度壓縮,全量關(guān)注。兩者配合,讓模型既不會(huì)忘記剛才說的話,也不會(huì)對(duì)幾十萬字之前的內(nèi)容完全沒有印象。
在兩種技術(shù)的支持下,百萬上下文推理計(jì)算量和KV顯存占用都得到了顯著的降低。
![]()
圖源:DeepSeek-V4 技術(shù)報(bào)告(參考文獻(xiàn)[3])
其實(shí),這種混合注意力機(jī)制,和人類的記憶方式驚人地相似。短期記憶對(duì)應(yīng)CSA的滑動(dòng)窗口,就如同你剛才說的話,我記得清清楚楚;中期記憶對(duì)應(yīng)CSA的壓縮+篩選:上個(gè)月討論過某個(gè)話題,大概知道是什么,但細(xì)節(jié)記不太清了,只有印象最深的幾點(diǎn)還記得;長期記憶對(duì)應(yīng)HCA的重度壓縮:很久之前發(fā)生的事,已經(jīng)濃縮成了幾個(gè)模糊的印象,細(xì)節(jié)基本忘光,但"大概發(fā)生過什么"還是知道的。
DeepSeek-V4的混合注意力,正是在模擬這種分層的記憶機(jī)制。用工程的方式,讓機(jī)器擁有接近人類的記憶結(jié)構(gòu)。
![]()
PART 05
結(jié)語
![]()
DeepSeek-V4 憑借CSA + HCA混合注意力架構(gòu),真正實(shí)現(xiàn)了原生百萬上下文。在長上下文任務(wù)的多項(xiàng)評(píng)測中,DeepSeek V4-Pro-Max超越了 Gemini-3.1-Pro,成為目前開源模型中長上下文能力最強(qiáng)的選手。
![]()
圖源:DeepSeek-V4 技術(shù)報(bào)告(參考文獻(xiàn)[3])
當(dāng)然,再好的評(píng)測成績,也比不上大家用起來的感受。現(xiàn)在,DeepSeek-V4已經(jīng)向公眾開放,歡迎大家前去試用,感受它的厲害之處。也歡迎大家在評(píng)論區(qū)告訴小編,新版本的使用感想如何?哪里讓你驚喜,哪里又需要改善?
![]()
![]()
參考文獻(xiàn)
[1] 姚期智, 黃隆波, 等. 人工智能[M]. 北京: 清華大學(xué)出版社, 2022.
[2] DeepSeek. DeepSeek-V4 預(yù)覽版:邁入百萬上下文普惠時(shí)代[EB/OL]. (2026-04-24). https://mp.weixin.qq.com/s/8bxXqS2R8Fx5-1TLDBiEDg.
[3] DeepSeek AI. DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence[R/OL]. (2026-04-24). https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf.
編輯:小咕咕 & 花/卷
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.