![]()
編輯 | 澤南
這是一個打破傳統大語言模型解碼限制的研究。
英偉達提出了全球首個三模式的大語言模型系列,只需簡單更改注意力模式 / 掩碼,即可在自回歸、擴散和自推測解碼之間切換。
一個模型,三種解碼模式,沒有額外的草稿模型,沒有架構變更。最快的模式 token 吞吐量能提升 4 倍
![]()
我們知道,傳統上大語言模型主要采用的自回歸解碼(Autoregressive,AR)方式在低 batch sizes 時嚴重受內存限制,你必須為每個生成的 token 將海量權重從 HBM 移動到 SRAM。這種模式雖然準確率高,但由于無法并行,在并發量較低、追求單用戶極速響應的場景(如個人 AI 助手)下,GPU 算力常常無法被充分利用,導致生成速度遭遇瓶頸。
與之相對的是,擴散模型(Diffusion Model)能夠提供并行生成的能力,但由于訓練時平等對待所有 token 排列,缺乏自回歸模型天然的從左到右的語言先驗,歷史上它們的生成質量一直落后。
如果有一個模型能同時結合兩者的優勢,會是什么樣?英偉達這項研究的核心目的,就是通過統一的模型架構消除這兩種范式的隔閡,做到「準確率與速度兼得」。
![]()
- HuggingFace:https://huggingface.co/collections/nvidia/nemotron-labs-diffusion
- 項目頁面:https://research.nvidia.com/publication/2026-05_nemotron-labs-diffusion-tri-mode-language-model-unifying-autoregressive
- 技術報告:https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_Diffusion_Tech_Report_v1.pdf?VersionId=db8_EMO8B.vmU26.jr7Le9pN3MqcUDNL
英偉達提出的模型不使用弱外部 MTP 模型或額外 heads,而是利用自身的擴散模式同時起草多個 token,然后在 AR 模式下使用相同的 KV cache 驗證它們。這樣,你就獲得了擴散模型的并行生成,同時具備 AR 的嚴格準確性。
該方法比起之前的 Eagle/MTP 方法具有更高的接受率,無需額外權重,或者只需少量額外權重即可獲得更高的接受率。
![]()
訓練時,模型同時優化兩個損失函數:AR Loss 和 Diffusion Loss,這完全改變了擴散語言模型質量的游戲規則。為了穩定訓練,團隊采用了兩階段訓練策略,并引入了 Global Loss Averaging 技術,大幅降低了擴散模型訓練中因隨機掩碼導致的梯度激增問題。
借助這種訓練方式,模型在推理時可任意切換以下三種模式:
- 自回歸模式(AR Mode): 傳統的從左到右逐字生成,保留完整的因果注意力機制。適合高并發、計算密集型的云端服務;
- 擴散模式(Diffusion Mode): 采用分塊去噪(Block-wise Denoising),利用雙流注意力機制(Dual-stream Attention)在塊內進行大規模并行 token 推測。為了進一步壓榨并行的上限,英偉達還專門訓練了一個輕量化采樣器(Trained Sampler)來替代傳統的置信度閾值判定;
- 自猜測模式(Self-Speculation Mode): 它將傳統的 Speculative Decoding(需要一個額外的小模型來墊字)改造成「單模型自我博弈」。
該研究給出了 3B、8B、14B 三個尺寸的基座模型,展現出了對現有開源自回歸模型及擴散模型的全方位碾壓。研究人員在之前的開源 dLLM(如 LLaDA、Dream 和 SDAR)上看到了從 9% 到 22.4% 的巨大準確率提升。也就是說,現在我們有了新的 SOTA dLLM。
在測試中,新模型匹配了 Qwen3-8B 的基線 AR 準確率,但在前向傳播中達到了 5.9 個 token(TPF)。
![]()
![]()
dLLM 的主要優勢在于效率。
NLD 在實際應用中的加速效果(8B 模型,單用戶場景)如下:
- DGX Spark:FP8 精度下提速 3.14 倍;INT4 精度下提速 2.7 倍(112 token/s vs 41.8 AR);
- RTX 6000 Pro:FP8 精度下提速 3.4 倍;INT 精度下提速 2.3 倍;
- GB200:提速 3.3 倍(850 tok/s);若配合自定義 CUDA 內核,最高可提速 4 倍。
在 SPEED-Bench 基準測試中,線性自推測(linear self-speculation)機制實現了 8.7 的平均接受長度,相比之下,Qwen3.5-9B-MTP 為 4.7,Qwen3-8B-Eagle3 為 2.81。該數據為針對數學、代碼、推理及多語言任務的綜合估算值。
![]()
具體方法上,這種能力并不是單個的解決方案。
在低到中等并發度下,自行推測絕對占據主導地位(非常適合個人 AI 和交互式代理)。但在巨大的批處理規模下(>64 個流),推理會變成計算受限。英偉達的解決方法是:只需將注意力掩碼切換回純 AR 模式。一個模型,在所有部署場景下都能實現通用高效。
![]()
![]()
最后,英偉達公布了他們的訓練配方(從 Ministral3-3B/8B/14B 開始):
- 1T 個 token 的 AR-only 持續預訓練
- 300B 個 token 的聯合 AR + Diffusion 訓練
- 隨后進行 SFT 和 VLM 對齊
使用的關鍵技術:
- 全局損失平均 + DP-rank 變化掩碼
- 嚴格因果干凈流(防止標簽泄漏)
- LoRA 增強的起草器以改進自我推測
這項研究指明了未來大模型架構演進的一個方向:不要去刻意挑選自回歸還是擴散模型,將它們揉碎在同一個全連接 / 因果注意力切換的 Transformer 體系內或許才是正解。
更令人興奮的是,論文最后的分析指出,如果未來能夠開發出更完美的擴散采樣器,擴散模式的理論性能上限比現有的自猜測模式還要再高出 76.5%—— 這表明擴散大語言模型依然留有巨大潛能,長文本的「秒級生成」時代可能離我們不遠了。
更多細節詳見論文。
參考內容:
https://x.com/PavloMolchanov/status/2056799786377039995
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.