網易首頁 > 網易號 > 正文申請入駐

AGI 新技術路線：下一代稀疏注意力機制 Monte Carlo Attention 開源

2025-11-10 09:04:38　來源: AI科技大本營

北京舉報

分享至

作者 | 超對稱技術

出品丨AI 科技大本營（ID：rgznai100）

超對稱技術公司在新版基座模型 BigBang-Proton 使用的 Monte Carlo 注意力，在二進制塊編碼（Binary Patch Encoding）技術上，用巧妙的塊間代表交流機制（Inter-Patch Delegation Mechanism），實現了線性復雜度，兼具了傳統基于 QKV 調整的稀疏注意力、狀態空間和線性注意力的優點，且規避其缺點，為宇宙尺度的建模探索有效的注意力方案。

物質世界建模的上下文長度

Monte Carlo Attention 是為了解決 BigBang-Proton 框架的理論需求而開發的，盡管實際實現面臨硬件約束。推動這一發展的基本假設包括幾個關鍵考慮因素。首先，對于自回歸預訓練，二進制塊編碼作為一種原生多模態方法，可以無縫地將所有數字數據格式轉換為標準二進制序列，從而對超長上下文長度提出了嚴格要求。

其次，理論-實驗學習范式提供了在預訓練期間跨尺度、結構和學科整合來自歷史和正在進行的科學實驗的實驗數據的潛力，這需要遠超純自然語言預訓練的上下文長度。最后，在將宇宙視為單一實體的終極場景中，如果能將所有原子（10??）的信息轉換為用于預訓練的單個序列，上下文長度能否達到宇宙尺度？

將復雜物質結構轉換為序列的 token（本文用 token 同時指代傳統的 BPE token 和二進制塊編碼中的 patch）長度估算提出了前所未有的上下文長度需求。對于包含多組學數據和細胞結構的綜合虛擬細胞整合，大約有 101? 個原子，每個原子需要 10-20 個 token 來完整表示其位置、鍵合、相互作用和動態狀態信息，總序列長度達到約 101? 個 token（1 千萬億 token）。

同樣，對于涉及格點 QCD 數據的 QCD 建模，包含 ~10? 個構型，每個構型有 10? 個格點和每個格點 ~100 個浮點值，總計 ~101? 字節的數據在考慮完整參數和理論描述表示后，轉換為約 102? 個 token。這兩種場景都要求上下文長度比當前大語言模型的能力（101?-102? token vs. 典型的 10?-10? token 限制）高出多個數量級，這需要像 Monte Carlo Attention 這樣的新型注意力機制來實現宇宙尺度科學建模和模擬的上下文長度要求。

為了在預訓練中擴展上下文窗口，主流大語言模型（如 DeepSeek V3、Qwen3、Llama3）通常采用兩階段訓練，先在小部分數據上訓一個長上下文預訓練階段，在大部分數據上訓短的上下文，將上下文長度從典型的 4096 token 擴展到 128K token。

相比之下，Monte Carlo Attention 無須分階段訓練，通過其塊間代表機制實現了理論上無限的上下文長度，從根本上改變了預訓練方法。這一突破對現有預訓練技術和硬件設計具有深遠影響。

首先，傳統的批次處理約束得到緩解，因為注意力計算可以跨批次分布，從而能夠高效處理超長序列。其次，計算復雜度從 O(L2) 降低到 O(L)，顯著減少了收斂所需的訓練步數，可能改善損失收斂率和困惑度曲線。第三，通過將上下文長度與 GPU 內存限制解耦，Monte Carlo Attention 能夠訓練比設備內存容量長多個數量級的序列。

最后，這種方法促進了專門為長序列處理設計的存內計算架構的發展。在不考慮 GPU 內存約束的情況下，該方法可以實現與完整預訓練語料庫序列長度相匹配的有效上下文長度。這一范式轉變需要開發能夠支持真正宇宙尺度序列處理的下一代硬件架構。

Monte Carlo 架構

BigBang-Proton 架構由三個核心組件構成：

Binary Patch Encoding 的 embedding 輸入 ：輸入詞匯表包含 0-255 的字節值和三個特殊 token，總大小為 259。每個輸入 token 通過 one-hot 編碼轉換為 259 維稀疏向量，其中對應 token 索引位置為 1。該 one-hot 向量通過無偏置的線性層投影到維度 D 的稠密嵌入空間，形成最終的 token 嵌入表示。
Monte Carlo Attention ：利用塊間代表機制驅動局部和全局信息交換，使上下文長度隨層數呈指數級增長，同時保持線性計算復雜度。
前饋時序卷積網絡 (TCN)：取代 Transformer 中傳統的前饋全連接網絡，以捕捉局部空間和時間模式。由于 TCN 能夠學習位置信息，因此消除了 Transformer 中使用的位置嵌入。

Monte Carlo Attention

上下文長度定義為 Transformer 單層在一次完整注意力計算中可讀取的極限，它與 Transformer 層數的深度無關。Transformer 中的直接信息流被限制在上下文長度內的 token 之間。在預訓練中，批次間的信息流依賴于共享權重，而非注意力計算。

相比之下，卷積神經網絡（CNN）的感受野隨網絡深度而擴展。超對稱團隊受此啟發，采用逐層操作來增強所有輸入嵌入之間的信息流，甚至跨越批次。Monte Carlo Attention 的關鍵創新在于每一層中的 Delegate 操作，從而實現動態的 token 重組。

圖：嵌入向量在塊之間被重組。每個塊向其他塊發送代表，并從其他塊接收代表，通過注意力計算進行信息交換。

塊間代表交流機制 Inter-Patch Delegation Mechanism

輸入嵌入被分組為特定塊大小（patch size）的塊，這與字節級語言模型（如 BLT、Megabyte、SpaceByte 和 BGPT）中在轉換為嵌入向量之前實施分塊的方法不同。受代議制政治系統的啟發，在每次逐層操作中，由 P 個字節輸入組成的每個塊會隨機（蒙特卡羅方式）或有選擇地指定一個字節作為代表 Delegate，與其他塊交換信息。在所有塊之間的 Delegate 過程之后，每個塊最多從其他塊接收 P-1 個代表，同時向其他塊發送相同數量的代表，而塊內的字節數保持不變。注意力計算在每個塊內執行，其復雜度為 O(P2)。

每個代表字節包含來自其原始塊和接收其他代表的塊的上下文信息，然后返回其原始塊進行后續的注意力計算。在圖所示的 toy model 中，為 3 個塊（紅色、藍色和綠色）設置 P=4。12 個字節的序列被重塑為一個 4×3 矩陣，然后轉置為一個 3×4 矩陣，再展平回一個 12 字節的序列。這種重組將序列 [1,2,3,4] 轉換為 [1,5,9,2]，其中字節 1 和 2 來自紅色塊，字節 5 來自藍色塊，字節 9 來自綠色塊。通過 Delegate 和重組，信息在全局范圍內流動，而計算復雜度僅取決于塊大小的平方。

下圖展示了通過逐層塊間代表操作，信息流的上下文長度如何增加。將塊大小 P 設為 32，序列長度設為 40906，則每個塊可以容納 P-1 個 Delegate 字節用于信息交換，每個 Delegate 包含 P 長度的上下文信息。

當層數深度變大時，經過 N 層后的有效上下文長度的遞歸關系為：

當 P=32 且 C(0)=0 時，可以計算不同層數的上下文長度。結果如圖所示。

圖：逐層塊間代表操作驅動信息流的上下文長度以的速度增長，其中 P 是塊大小，N 是層數。對于塊大小=32，在第一層，信息可達 992，在第二層可達 32736。

Delegate 操作可以形式化地定義為一個包含四個關鍵步驟的分層過程，這些步驟反映了實際的計算流程。首先，輸入序列被分解為個塊，每個塊包含 P 個 token：

其中表示長度為的輸入序列，是批次大小，是隱藏維度，表示分解為個塊，每個塊包含個 token，且。

其次，對每個塊應用 1×1 卷積操作以生成將被發送到其他塊的 Delegate token，并且 Delegate 映射從每個塊中選擇和分發代表性 token：

其中表示 Delegate token 組，表示從第個塊生成的 Delegate token，表示從塊中為塊選擇的代表性字節。這些 Delegate token 被置換以與原始局部塊對齊。

第三，Delegate token 被分發到其他塊，并與原始局部 token 連接，形成一個包含局部和全局信息的增強表示：

其中表示第個塊的增強上下文，表示從鄰近塊接收的 Delegate token 集。

最后，在增強表示上計算自注意力，以促進局部和全局上下文之間的信息交換。標準的自注意力機制可以描述為

其中 Q,K,V 是通過線性投影從增強表示 c 導出的查詢、鍵和值矩陣，是鍵的維度。

結合塊間代表操作，每層的注意力計算可以形式化地表示為：

其中表示第層第個塊的注意力輸出，是 Delegate 操作后第個塊的查詢、鍵和值矩陣。

最終的輸出隱藏狀態通過局部塊表示和重組后的塊表示之和計算得出，并使用殘差連接，以確保穩定的梯度傳播和信息持久性：

其中表示注意力計算和殘差連接后的第個塊的最終輸出，Linear 表示注意力計算后應用的線性變換。

塊重組變換可以表示為一個雙射映射：

每個塊內的注意力計算復雜度為：

全局信息流的復雜度為：

其中是塊的數量。

表：當 P=32 時，不同層數對應的上下文長度

表征退化、循環注意力與稀疏性

標準 Transformer 依賴于完整注意力計算，使輸入嵌入能夠在預定義的上下文長度內從其他 token 獲得表征。Monte Carlo Attention 采用塊間代表機制來實現全局表示交換，從而達到超大的有效上下文長度。

然而，這種間接的注意力計算可能導致在迭代表征傳播過程中信息退化。為了解決這一局限性，超對稱團隊引入了循環 Monte Carlo Attention，通過重復單層操作多次來實現。

標準 Transformer : Layer? → Layer? → Layer? → ...
循環 Monte Carlo Attention : Layer? N→ Layer? N→ Layer? N→ ...

前饋 TCN

替換傳統全連接前饋網絡，超對稱團隊提出了一個具有增強模式捕捉能力的時序卷積塊（TCN）。TCN 通過堆疊核大小為 K 的一維卷積來實現多尺度處理，從而提取分層的時間特征。

令表示輸入張量。TCN 對該輸入應用多層一維卷積。每一層可以表示為：

其中，表示核大小為 K 的一維卷積操作，ReLU 是逐元素應用的激活函數。這些卷積層的堆疊使網絡能夠在不同尺度上捕捉分層的時間特征。具體來說，由于連續卷積的累積效應，網絡中更深的層可以捕捉更長距離的依賴關系。

此外，所提出的 TCN 保持了局部-全局平衡，當注意力機制處理長距離依賴時，TCN 專注于細粒度的局部模式發現。這是通過在 TCN 架構中應用擴張卷積來實現的，這使得模型能夠在不顯著增加參數數量的情況下覆蓋更寬的感受野。對于擴張因子 d，卷積操作變為：

其中表示擴張因子為 d 的擴張卷積操作。

值得注意的是，由于 TCN 固有的卷積特性，BigBang-Proton 能夠直接從輸入序列中學習空間和位置信息，從而消除了傳統 Transformer 架構中通常需要的顯式位置嵌入。

最后，TCN 塊的輸出通過殘差連接與來自注意力模塊的已關注特征相結合：

其中是 TCN 最后一層的輸出，表示從注意力機制獲得的已關注特征。這種設計確保了模型能夠同時受益于注意力機制提供的全局上下文和 TCN 捕捉的細粒度局部模式，從而提升整體性能。

與稀疏注意力、狀態空間、線性注意力的比較

現有稀疏注意力與 Monte Carlo Attention 之間的根本區別在于其核心計算機制。稀疏注意力方法（比如 NSA 和 MoBA）采用基于選擇的機制，通過過濾鍵值對來降低計算復雜度，即選擇 token 子集進行注意力計算。

NSA 利用三種復雜的策略：通過塊級聚合進行 token 壓縮，通過塊級 top-n 識別進行 token 選擇，以及滑動窗口機制以保留局部上下文，從而從 N 個 token 中動態構建緊湊表示，通過選擇 top-K 子集實現。

MoBA 采用受混合專家啟發的方法，將上下文劃分為塊，并應用 top-k 門控機制進行選擇性注意力。相比之下，Monte Carlo Attention 通過塊間代表采用基于重組的機制，通過將全局上下文壓縮為代表性 token 并在塊之間交換，從而在塊之間實現間接的信息傳播，而不是在選定的 token 之間進行直接注意力。

這些核心機制的差異導致了稀疏注意力方法的關鍵劣勢。首先，稀疏注意力存在選擇偏差和信息丟失問題，未被選中的 token 被丟棄，導致忽略全局依賴和協調碎片化，而 Monte Carlo Attention 通過受控的 Delegate 機制保留了關鍵信息。

其次，稀疏注意力遇到計算瓶頸，需要在選定的 token 之間進行復雜度的計算，而 Monte Carlo Attention 通過局部 2P 注意力實現了高效的全局交換，具有更優的上下文長度復雜度。第三，由于選擇約束，稀疏注意力的上下文建模能力有限，而 Monte Carlo Attention 能夠實現指數級的上下文長度擴展。

結構化狀態空間序列模型（S4）及其后繼者（包括 RetNet、RWKV 和 Mamba）是一類將隱藏張量視為狀態空間的序列模型，S4 通過結構化線性動力系統（使用對角 A 矩陣）來高效地建模長程依賴，而 Mamba 引入了輸入依賴的參數選擇，RetNet 則結合了門控機制以增強選擇性信息傳播。Monte Carlo Attention 與狀態空間模型之間的根本區別在于其核心信息流機制。

S4 采用順序狀態傳播，信息通過線性遞推關系流動，創建了一個馬爾可夫依賴鏈，限制了每個狀態只能直接訪問前一個狀態。相比之下，Monte Carlo Attention 通過塊間代表實現直接的全局信息交換，允許任何塊通過 delegate token 重組訪問來自任何其他塊的信息。

S4 存在固有的局限性，例如由于線性時不變性導致的建模靈活性有限，由有限維狀態向量引起的信息瓶頸，通過多步傳播捕捉長程依賴的困難，以及對復雜非線性關系建模的表達能力不足。雖然 Mamba 通過輸入依賴的參數選擇解決了 S4 的一些局限性，引入了選擇性狀態空間機制（其中是動態計算的），但它仍然繼承了低秩表示的基本近似誤差，并且在狀態轉換計算期間容易受到數值不穩定的影響。

Monte Carlo Attention 通過在增強的局部-全局上下文中進行精確計算來保持完整注意力的表達能力，從而超越了這些局限性，避免了 S4 的線性時不變性約束和低秩近似相關的精度損失。這種方法能夠在保持局部精度的同時實現真正的全局上下文傳播，繞過了線性注意力模型和狀態空間近似中固有的信息瓶頸，后者為了計算效率而犧牲了表達能力。

作為 S4 模型的一種變體，傳統的線性注意力模型通過從根本上進行近似來實現計算效率，但這犧牲了信息保真度。這些方法消除了 softmax 操作，并通過核函數將查詢和鍵映射到隱藏表示，然后通過鍵和值的右乘積計算注意力，將復雜度從降低到 (其中 N 是序列長度，d 是矩陣維度)。

TransNormer 進一步通過用歸一化操作替代縮放來解決無界梯度問題。然而，與 Monte Carlo Attention 相比，這些方法存在關鍵局限性。線性注意力方法通過核函數將高維 Q、K、V 矩陣映射到低維特征空間，從根本上損害了表示質量，不可避免地丟失了高階統計信息和復雜的 token 交互。相比之下，Monte Carlo Attention 在增強的局部-全局上下文中通過精確的自注意力計算保持了完整的注意力表達能力，確保了完整的信息保留。

雖然線性注意力實現了的復雜度，但這種效率是以有限的全局上下文集成為代價的，因為當序列長度 L 變得極大時，低秩近似無法充分捕捉長程依賴。然而，Monte Carlo Attention 通過其塊間代表機制實現了近乎無限的全局信息流，允許有效上下文長度隨層數深度呈指數級擴展，同時保持線性計算復雜度。

開源鏈接

論文 : https://arxiv.org/abs/2410.00129
GitHub : https://github.com/supersymmetry-technologies/BigBang-Proton
Hugging Face : https://huggingface.co/SuperSymmetryTechnologies/BigBang-Proton

* 本文為 BigBang-Proton 系列報道第二篇。在后續文章中，我們將帶來更多關于其核心技術、前沿應用與未來規劃的深度解讀，敬請關注 CSDN AI 科技大本營和文章合集。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.