網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人工智能也要考默寫？Deepseek v4:百萬上下文背不完，根本背不完！

2026-04-27 11:24:56　來源: 中科院物理所

北京舉報(bào)

分享至

當(dāng)你在看一本小說的時(shí)候，是否會(huì)發(fā)現(xiàn)自己經(jīng)常看到后面忘了前面？當(dāng)你和朋友從早聊到晚，是否會(huì)發(fā)現(xiàn)已經(jīng)不記得最開始的話題？但最近更新的DeepSeek-V4不會(huì)忘記。

圖源：DeepSeek-V4 技術(shù)報(bào)告（參考文獻(xiàn)[3]）

就在大前天，全新系列模型DeepSeek-V4堂堂上線并同步開源。這一全新版本最厲害的能力之一，就是它擁有超長的上下文窗口，可以記住并理解長達(dá)百萬字符的內(nèi)容（約等于十本《哈利·波特》）。

這意味著它可以讀完一整套學(xué)術(shù)論文集再回答你的問題，也可以記住幾十輪長對(duì)話中的每一個(gè)細(xì)節(jié)，而不是一邊聊天一邊忘記前面的對(duì)話。

這聽起來理所當(dāng)然，但對(duì)人工智能來說，這其實(shí)是一個(gè)非常難的問題。今天，我們就從最基礎(chǔ)的地方講起，讓你明白DeepSeek-V4的百萬上下文到底有多厲害。

PART 01

模型是如何認(rèn)識(shí)世界的？

首先，我們需要知道AI是如何處理人類語言的。

2017 年，Google發(fā)表了一篇名為《Attention is All You Need》（注意力就是你所需要的一切）的論文。這標(biāo)題小編覺得非常歡愉啊，畢竟捏他了披頭士的名曲《All You Need Is Love》，還引得后來者爭相模仿這一標(biāo)題范式。

披頭士的《All You Need Is Love》封面 | 圖源：網(wǎng)絡(luò)

這篇論文提出了注意力機(jī)制，徹底改變了人工智能處理語言的方式。如今所有的大語言模型，包括 ChatGPT、DeepSeek，都是建立在這個(gè)機(jī)制之上的。

注意力機(jī)制的核心是：Q（Query，查詢）、K（Key，標(biāo)簽）、V（Value，含義）三個(gè)矩陣。

K（Key），可以理解為一些抽象的“概念標(biāo)簽”，比如“動(dòng)物”、“跑步”、“顏色”；

V（Value），是這些概念標(biāo)簽背后對(duì)應(yīng)的具體含義，比如“動(dòng)物”對(duì)應(yīng)的V里藏著關(guān)于貓、狗、大象的各種知識(shí)。

Q（Query），你想要查找的內(nèi)容，模型拿著這個(gè)查詢Q去和所有的標(biāo)簽K比較相似度，找到最匹配的標(biāo)簽，然后按照匹配程度，把對(duì)應(yīng)的含義V加權(quán)平均起來，得到最終的理解結(jié)果。

注意力機(jī)制的完整計(jì)算公式只有一行：

看起來很復(fù)雜，拆開來其實(shí)只有三步：

第一步：算相似度。Q·KT就是讓查詢Q和每一個(gè)標(biāo)簽K做“點(diǎn)積”——兩個(gè)大小固定的向量方向越一致，點(diǎn)積越大，說明這個(gè)標(biāo)簽K越匹配當(dāng)前的查詢Q。

第二步：歸一化概率。原始相似度分?jǐn)?shù)可能特別大或特別小，直接用來加權(quán)不穩(wěn)定，所以先除根號(hào)下dk，（dk是向量維度，開根號(hào)是為了防止數(shù)值溢出），再對(duì)其使用softmax函數(shù)。softmax本質(zhì)上是用自然常數(shù)e的指數(shù)來放大差距，再歸一化成概率。它能讓重要的東西被大幅突出，不重要的被壓得很小，模型的“注意力”因此能被聚焦。

第三步：加權(quán)求和。用第二步得到的概率分布，對(duì)所有的含義V做加權(quán)平均：權(quán)重越高的含義V，在最終結(jié)果里占比越大。這就是“注意力”的核心：讓模型把注意力集中在最相關(guān)的內(nèi)容上。

這里有一個(gè)關(guān)鍵問題：Q、K、V 從哪里來？

剛剛讀到這里的小伙伴可能會(huì)有誤解，那就是大模型是每次對(duì)話是生成一個(gè)查詢Q去查閱一個(gè)固定的標(biāo)簽含義KV表，這樣做確實(shí)理論上可行，但是得到的模型會(huì)很呆板：模型只能處理固定的內(nèi)容，一旦超出了預(yù)設(shè)KV表的范圍，它就只能兩眼一抹黑了。實(shí)際的大模型使用的是“多頭自注意力機(jī)制”，看起來好像很復(fù)雜，別急，我們一個(gè)一個(gè)來。

在自注意力機(jī)制里，Q、K、V 全部來自同一段輸入，只是各自經(jīng)過了一個(gè)不同的線性變換，相當(dāng)于從不同角度看同一件事，分別去回答如下的問題：

它自己的Q：“我想獲取什么信息？”

它自己的K：“可以通過什么來找到我？”

它自己的V：“我自己都有哪些含義？”

我們考慮一個(gè)非常簡單的例子：“很重”、“重新”兩個(gè)詞語中的“重”，雖然這兩個(gè)字都是一模一樣的，但是在自注意力機(jī)制里，模型可以做到第一個(gè)“重”的標(biāo)簽K標(biāo)記這是質(zhì)量、含義V表明這個(gè)很大，查詢Q去問這個(gè)對(duì)應(yīng)什么東西；而第二個(gè)“重”的標(biāo)簽K則和次數(shù)有關(guān)，含義V表明至少是第二次，查詢Q會(huì)去問這個(gè)和什么事情相關(guān)。

我們會(huì)發(fā)現(xiàn)，不同于靜態(tài)的QKV，動(dòng)態(tài)生成QKV的好處在于：模型能根據(jù)實(shí)際語境來給一個(gè)詞打上更合適的標(biāo)簽K，賦予更合適的含義V，以及做出更準(zhǔn)確的查詢Q。如此模型便可以在不同的場景中都能準(zhǔn)確理解含義、做出貼切的回答。

多頭注意力機(jī)制則著重于解答另一個(gè)問題：原版的注意力機(jī)制確實(shí)可以實(shí)現(xiàn)一個(gè)詞多個(gè)標(biāo)簽K多個(gè)含義V，但查詢Q只有一個(gè)，在一些多義詞或者有歧義的場景面前多少有些不夠看了。

比如在一個(gè)經(jīng)典的“逗老外”短句“一行行行行行”中，連著出現(xiàn)了五個(gè)“行”，對(duì)于其中每一個(gè)“行”如何理解，顯然一個(gè)查詢Q是遠(yuǎn)遠(yuǎn)不夠用的，因?yàn)椤靶小庇袃蓚€(gè)讀音和兩套含義：háng（行列、行業(yè)）和xíng（行走、可以），如果只有一個(gè)查詢Q，它只能問一個(gè)維度的問題，要是問到了“這個(gè)字是動(dòng)作嗎？”——答案是都不是，所有“行”最后的含義V都是一樣的，整個(gè)句子都亂套了。多頭注意力相當(dāng)于給每個(gè)詞配了多個(gè)查詢Q，每個(gè)查詢Q負(fù)責(zé)一個(gè)不同的關(guān)注角度：“這個(gè)是動(dòng)作么”、“這個(gè)是名詞么”、“這個(gè)是形容詞么”，哪怕有些查詢Q確實(shí)無法分辨，模型最終還是可以分清每一個(gè)“行”究竟是什么。

那么怎么讓模型能一次發(fā)出多次查詢Q呢？

答案也非常簡單，我們可以通過同時(shí)跑h組獨(dú)立的注意力（稱為h個(gè)" attention head注意力頭"），每個(gè)頭各自學(xué)習(xí)不同的Q、K、V矩陣，能夠從不同維度來理解同一段輸入。最后把h個(gè)頭的結(jié)果拼接起來，得到更全面的表示。這就像是同時(shí)委托了32個(gè)偵探，每人從一個(gè)不同線索探案（作案時(shí)間，作案方法，人際關(guān)系……），最后匯總成一份全面的報(bào)告。

以上就是第一代多頭注意力機(jī)制的實(shí)現(xiàn)方法，初代GPT 、BERT都用的是這套方案。但是這種方法存在一個(gè)問題，每個(gè)頭都有獨(dú)立的標(biāo)簽K、含義V，使用時(shí)必須把h份KV全部緩存在顯存里，顯存開銷隨頭數(shù)等比增加，用起來實(shí)在是太肉痛了（如果你正好讀了下一部分的內(nèi)容就會(huì)發(fā)現(xiàn)，隨著模型處理文字?jǐn)?shù)量的增加，這些KV也會(huì)進(jìn)一步線性增長，吃掉你更多寶貴的顯存，這下更肉痛了！）。

所以，現(xiàn)在第二代多頭注意力機(jī)制GQA（分組查詢注意力，Grouped Query Attention）不再讓每個(gè)查詢Q都有獨(dú)立對(duì)應(yīng)的標(biāo)簽K和含義V，而是讓多個(gè)查詢Q共享同一對(duì)標(biāo)簽K和含義V。比如我們?cè)瓉碛?2個(gè)注意力頭，現(xiàn)在我們把32個(gè)查詢Q分成8組，每組4個(gè)查詢Q共用同一對(duì)KV。這樣KV的存儲(chǔ)量直接降為原來的1/4，但模型的表達(dá)能力損失不大，因?yàn)槊總€(gè)查詢Q還是獨(dú)立提問，只是查的是同一份檔案。就如同32個(gè)偵探仍然各自獨(dú)立分析問題，但情報(bào)檔案室從32份縮減為8份，每4個(gè)偵探共享一份資料。這節(jié)省了大量檔案室空間，偵探們的分析視角卻沒什么損失。GQA 被 LLaMA 2/3、Mistral、Gemma 等模型廣泛采用，是當(dāng)前工程實(shí)踐中顯存與性能平衡的主流方案。

PART 02

上下文是什么，為什么需要它？

現(xiàn)在我們有了注意力機(jī)制，可以理解單個(gè)詞了。但語言不是孤立的詞語堆砌，而是有前后聯(lián)系的句子、段落、篇章。

上下文，說白了就是“前面說過的話”。

模型處理一個(gè)新詞的時(shí)候，不僅要理解這個(gè)詞本身，還要理解它和前面所有詞的關(guān)系。新詞的查詢Q除了和自己的標(biāo)簽K比較，還要去和所有之前讀過的詞的標(biāo)簽K比較一遍。這樣，模型就能“看到”整個(gè)已讀內(nèi)容的全貌，理解前后的關(guān)聯(lián)。

舉個(gè)小學(xué)一年級(jí)語文考試?yán)锏慕?jīng)典題型：“它”在文中指代什么？模型要理解“它”，就得讓“它”的查詢Q去和前面所有詞的標(biāo)簽K做比較，看看哪個(gè)名詞的標(biāo)簽K和“它”最匹配，找到之后，就可以盡可能地繼承那個(gè)名詞的含義V，從而正確理解“它”代指的是誰。

所以，上下文越長，模型理解越深入。但上下文太長也有一些代價(jià)——

第一，存儲(chǔ)壓力大。模型必須把從對(duì)話開始的所有KV都存在顯存里。上下文越長，要存的KV越多，顯存很快就撐不住了。

第二，計(jì)算量爆炸。每個(gè)新的查詢Q都要和所有之前的標(biāo)簽K做比較。如果上下文長度是n，每處理一個(gè)新詞就要做n次比較，整個(gè)處理過程的總計(jì)算量就和n2成正比——這是個(gè)等差數(shù)列求和，幼兒園就學(xué)過，增長非常快。上下文翻倍，計(jì)算量會(huì)變成原來的四倍。

第三，重要信息被淹沒。每個(gè)查詢Q最終得到的是所有含義V的加權(quán)平均，如果上下文太長，大量不太重要的含義V會(huì)“稀釋”掉真正關(guān)鍵的信息。就像在32個(gè)偵探發(fā)現(xiàn)的100個(gè)線索里尋找真正兇手的印跡，就可能被無關(guān)線索淹沒。

PART 03

上下文壓縮

為了解決上下文過長的問題，研究者們想出了一個(gè)辦法——壓縮稀疏注意力（CSA，Compressed Sparse Attention）。老規(guī)矩，我們挨個(gè)看前面的前綴是啥意思。

首先，壓縮。把一系列前后相連的標(biāo)簽含義KV分組打包，合并成一個(gè)更緊湊的KV，丟掉沒什么用的細(xì)節(jié)。就像你讀完一章書，不用記住每一句話，只需要記住這一章大概講了什么。壓縮之后，存儲(chǔ)的KV數(shù)量大幅減少，計(jì)算量自然也降下來了。

其次，稀疏。每次新的查詢Q來了，不讓它和所有的標(biāo)簽K都比較，而是先用一個(gè)小型篩選器，挑出它認(rèn)為最重要的若干個(gè)KV，只讓這些KV參與計(jì)算。就像考試前，老師會(huì)劃重點(diǎn)一樣，我們只要復(fù)習(xí)最重要的知識(shí)點(diǎn)就好。與此同時(shí)，這個(gè)篩選器通常還保留一個(gè)滑動(dòng)窗口，讓最近的一些KV更容易被選中。

利用CSA，存儲(chǔ)壓力變小了，計(jì)算量也不再隨上下文長度的平方增長，而且理論上能突出核心信息，避免重要內(nèi)容被淹沒。但它也帶來了新的問題，即注意力渙散。

首先，它會(huì)遺忘重要的事。如果上下文太長，要點(diǎn)太多，超過了篩選器的截?cái)嗌舷蓿罄m(xù)的查詢Q就永遠(yuǎn)看不到那些被排在上限之外的標(biāo)簽內(nèi)容KV了。

第二，可能出現(xiàn)前言不搭后語的現(xiàn)象。一旦超出了滑動(dòng)窗口（這個(gè)通常不會(huì)太大，一般是數(shù)百個(gè)詞），當(dāng)上下文太大時(shí)，你又正好和模型進(jìn)行一段比較長的交流，那你剛剛和模型說的話就可能入不了篩選器的法眼，導(dǎo)致模型前后兩段前言不搭后語。

PART 04

DeepSeek V4 的混合注意力

說了這么多，總算能進(jìn)入我們的正題了，很激動(dòng)有木有！

本次DeepSeek-V4的核心架構(gòu)創(chuàng)新，正是把兩種不同“壓縮力度”的注意力機(jī)制混合起來用：CSA（壓縮稀疏注意力）+ HCA（重度壓縮注意力，Heavily Compressed Attention）。

CSA（壓縮稀疏注意力）是我們剛剛談到的老朋友了，在 DeepSeek-V4 中，CSA 把每32個(gè)連續(xù)的的標(biāo)簽含義KV打包壓縮成1個(gè)輸入。壓縮之后，再用一個(gè)輕量級(jí)的“閃電篩選器”從中挑出最相關(guān)的若干個(gè)KV，讓查詢Q只關(guān)注這些被選中的部分。此外，CSA 還保留了一個(gè)滑動(dòng)窗口，把最近幾個(gè)詞的原始KV原封不動(dòng)地留下來，保證模型對(duì)剛說過的話仍然有清晰的記憶。

這就像是在讀一本書時(shí)，每 32 頁寫一段總結(jié)（壓縮），做題時(shí)從所有總結(jié)里找最相關(guān)的幾段（稀疏），同時(shí)把當(dāng)前翻開的那一頁原文留著隨時(shí)查（滑動(dòng)窗口）。

CSA 的核心架構(gòu)，它首先對(duì)KV進(jìn)行壓縮，然后篩選最重要的一些KV，此外還會(huì)保留最近的一些原始KV。 | 圖源：DeepSeek-V4 技術(shù)報(bào)告（參考文獻(xiàn)[3]）

HCA（重度壓縮注意力）則更加劍走偏鋒，它嫌棄CSA的壓縮力度還是太保守了：其把每128個(gè)相鄰的標(biāo)簽含義KV都?jí)嚎s成1個(gè)輸入，是CSA壓縮率的四倍。代價(jià)是細(xì)節(jié)損失更大，但好處是壓縮后剩下的輸入數(shù)量已經(jīng)少得可以不做稀疏篩選了，直接讓Q看到所有壓縮后的輸入，徹底避免了"篩選器漏掉重要信息"的問題。

這就像是把一整部小說的每 128 頁濃縮成一句話（高度摘要），雖然細(xì)節(jié)基本都沒了，但因?yàn)榭偨Y(jié)的數(shù)量足夠少，可以把每一條都看一遍，不會(huì)因?yàn)楹Y選器而遺漏。

HCA的核心架構(gòu)，它使用了更激進(jìn)的壓縮，并且不對(duì)壓縮后的內(nèi)容進(jìn)行篩選，此外，HCA同樣保留了一個(gè)能看見最近原始KV輸入的滑動(dòng)窗口。 | 圖源：DeepSeek-V4 技術(shù)報(bào)告（參考文獻(xiàn)[3]）

DeepSeek-V4在模型內(nèi)部將CSA層和HCA層交替排列，CSA層負(fù)責(zé)近中距離的精細(xì)依賴，保留更多細(xì)節(jié)，帶稀疏篩選；HCA層負(fù)責(zé)超遠(yuǎn)距離的模糊記憶，極度壓縮，全量關(guān)注。兩者配合，讓模型既不會(huì)忘記剛才說的話，也不會(huì)對(duì)幾十萬字之前的內(nèi)容完全沒有印象。

在兩種技術(shù)的支持下，百萬上下文推理計(jì)算量和KV顯存占用都得到了顯著的降低。

圖源：DeepSeek-V4 技術(shù)報(bào)告（參考文獻(xiàn)[3]）

其實(shí)，這種混合注意力機(jī)制，和人類的記憶方式驚人地相似。短期記憶對(duì)應(yīng)CSA的滑動(dòng)窗口，就如同你剛才說的話，我記得清清楚楚；中期記憶對(duì)應(yīng)CSA的壓縮+篩選：上個(gè)月討論過某個(gè)話題，大概知道是什么，但細(xì)節(jié)記不太清了，只有印象最深的幾點(diǎn)還記得；長期記憶對(duì)應(yīng)HCA的重度壓縮：很久之前發(fā)生的事，已經(jīng)濃縮成了幾個(gè)模糊的印象，細(xì)節(jié)基本忘光，但"大概發(fā)生過什么"還是知道的。

DeepSeek-V4的混合注意力，正是在模擬這種分層的記憶機(jī)制。用工程的方式，讓機(jī)器擁有接近人類的記憶結(jié)構(gòu)。

PART 05

結(jié)語

DeepSeek-V4 憑借CSA + HCA混合注意力架構(gòu)，真正實(shí)現(xiàn)了原生百萬上下文。在長上下文任務(wù)的多項(xiàng)評(píng)測中，DeepSeek V4-Pro-Max超越了 Gemini-3.1-Pro，成為目前開源模型中長上下文能力最強(qiáng)的選手。

圖源：DeepSeek-V4 技術(shù)報(bào)告（參考文獻(xiàn)[3]）

當(dāng)然，再好的評(píng)測成績，也比不上大家用起來的感受。現(xiàn)在，DeepSeek-V4已經(jīng)向公眾開放，歡迎大家前去試用，感受它的厲害之處。也歡迎大家在評(píng)論區(qū)告訴小編，新版本的使用感想如何？哪里讓你驚喜，哪里又需要改善？

參考文獻(xiàn)

[1] 姚期智, 黃隆波, 等. 人工智能[M]. 北京: 清華大學(xué)出版社, 2022.

[2] DeepSeek. DeepSeek-V4 預(yù)覽版：邁入百萬上下文普惠時(shí)代[EB/OL]. (2026-04-24). https://mp.weixin.qq.com/s/8bxXqS2R8Fx5-1TLDBiEDg.

[3] DeepSeek AI. DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence[R/OL]. (2026-04-24). https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf.

編輯：小咕咕 & 花/卷

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.