網易首頁 > 網易號 > 正文申請入駐

首個三模式大語言模型：4倍token吞吐量，長文本秒級時代要來了？

2026-05-22 14:21:21　來源: 機器之心Pro

河北舉報

分享至

編輯 | 澤南

這是一個打破傳統大語言模型解碼限制的研究。

英偉達提出了全球首個三模式的大語言模型系列，只需簡單更改注意力模式 / 掩碼，即可在自回歸、擴散和自推測解碼之間切換。

一個模型，三種解碼模式，沒有額外的草稿模型，沒有架構變更。最快的模式 token 吞吐量能提升 4 倍

我們知道，傳統上大語言模型主要采用的自回歸解碼（Autoregressive，AR）方式在低 batch sizes 時嚴重受內存限制，你必須為每個生成的 token 將海量權重從 HBM 移動到 SRAM。這種模式雖然準確率高，但由于無法并行，在并發量較低、追求單用戶極速響應的場景（如個人 AI 助手）下，GPU 算力常常無法被充分利用，導致生成速度遭遇瓶頸。

與之相對的是，擴散模型（Diffusion Model）能夠提供并行生成的能力，但由于訓練時平等對待所有 token 排列，缺乏自回歸模型天然的從左到右的語言先驗，歷史上它們的生成質量一直落后。

如果有一個模型能同時結合兩者的優勢，會是什么樣？英偉達這項研究的核心目的，就是通過統一的模型架構消除這兩種范式的隔閡，做到「準確率與速度兼得」。

HuggingFace：https://huggingface.co/collections/nvidia/nemotron-labs-diffusion
項目頁面：https://research.nvidia.com/publication/2026-05_nemotron-labs-diffusion-tri-mode-language-model-unifying-autoregressive
技術報告：https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_Diffusion_Tech_Report_v1.pdf?VersionId=db8_EMO8B.vmU26.jr7Le9pN3MqcUDNL

英偉達提出的模型不使用弱外部 MTP 模型或額外 heads，而是利用自身的擴散模式同時起草多個 token，然后在 AR 模式下使用相同的 KV cache 驗證它們。這樣，你就獲得了擴散模型的并行生成，同時具備 AR 的嚴格準確性。

該方法比起之前的 Eagle/MTP 方法具有更高的接受率，無需額外權重，或者只需少量額外權重即可獲得更高的接受率。

訓練時，模型同時優化兩個損失函數：AR Loss 和 Diffusion Loss，這完全改變了擴散語言模型質量的游戲規則。為了穩定訓練，團隊采用了兩階段訓練策略，并引入了 Global Loss Averaging 技術，大幅降低了擴散模型訓練中因隨機掩碼導致的梯度激增問題。

借助這種訓練方式，模型在推理時可任意切換以下三種模式：

自回歸模式（AR Mode）：傳統的從左到右逐字生成，保留完整的因果注意力機制。適合高并發、計算密集型的云端服務；
擴散模式（Diffusion Mode）：采用分塊去噪（Block-wise Denoising），利用雙流注意力機制（Dual-stream Attention）在塊內進行大規模并行 token 推測。為了進一步壓榨并行的上限，英偉達還專門訓練了一個輕量化采樣器（Trained Sampler）來替代傳統的置信度閾值判定；
自猜測模式（Self-Speculation Mode）：它將傳統的 Speculative Decoding（需要一個額外的小模型來墊字）改造成「單模型自我博弈」。

該研究給出了 3B、8B、14B 三個尺寸的基座模型，展現出了對現有開源自回歸模型及擴散模型的全方位碾壓。研究人員在之前的開源 dLLM（如 LLaDA、Dream 和 SDAR）上看到了從 9% 到 22.4% 的巨大準確率提升。也就是說，現在我們有了新的 SOTA dLLM。

在測試中，新模型匹配了 Qwen3-8B 的基線 AR 準確率，但在前向傳播中達到了 5.9 個 token（TPF）。

dLLM 的主要優勢在于效率。

NLD 在實際應用中的加速效果（8B 模型，單用戶場景）如下：

DGX Spark：FP8 精度下提速 3.14 倍；INT4 精度下提速 2.7 倍（112 token/s vs 41.8 AR）；
RTX 6000 Pro：FP8 精度下提速 3.4 倍；INT 精度下提速 2.3 倍；
GB200：提速 3.3 倍（850 tok/s）；若配合自定義 CUDA 內核，最高可提速 4 倍。

在 SPEED-Bench 基準測試中，線性自推測（linear self-speculation）機制實現了 8.7 的平均接受長度，相比之下，Qwen3.5-9B-MTP 為 4.7，Qwen3-8B-Eagle3 為 2.81。該數據為針對數學、代碼、推理及多語言任務的綜合估算值。

具體方法上，這種能力并不是單個的解決方案。

在低到中等并發度下，自行推測絕對占據主導地位（非常適合個人 AI 和交互式代理）。但在巨大的批處理規模下（>64 個流），推理會變成計算受限。英偉達的解決方法是：只需將注意力掩碼切換回純 AR 模式。一個模型，在所有部署場景下都能實現通用高效。

最后，英偉達公布了他們的訓練配方（從 Ministral3-3B/8B/14B 開始）：

1T 個 token 的 AR-only 持續預訓練
300B 個 token 的聯合 AR + Diffusion 訓練
隨后進行 SFT 和 VLM 對齊

使用的關鍵技術：

全局損失平均 + DP-rank 變化掩碼
嚴格因果干凈流（防止標簽泄漏）
LoRA 增強的起草器以改進自我推測

這項研究指明了未來大模型架構演進的一個方向：不要去刻意挑選自回歸還是擴散模型，將它們揉碎在同一個全連接 / 因果注意力切換的 Transformer 體系內或許才是正解。

更令人興奮的是，論文最后的分析指出，如果未來能夠開發出更完美的擴散采樣器，擴散模式的理論性能上限比現有的自猜測模式還要再高出 76.5%—— 這表明擴散大語言模型依然留有巨大潛能，長文本的「秒級生成」時代可能離我們不遠了。

更多細節詳見論文。

參考內容：

https://x.com/PavloMolchanov/status/2056799786377039995

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.