<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      首個三模式大語言模型:4倍token吞吐量,長文本秒級時代要來了?

      0
      分享至



      編輯 | 澤南

      這是一個打破傳統大語言模型解碼限制的研究。

      英偉達提出了全球首個三模式的大語言模型系列,只需簡單更改注意力模式 / 掩碼,即可在自回歸、擴散和自推測解碼之間切換。

      一個模型,三種解碼模式,沒有額外的草稿模型,沒有架構變更。最快的模式 token 吞吐量能提升 4 倍



      我們知道,傳統上大語言模型主要采用的自回歸解碼(Autoregressive,AR)方式在低 batch sizes 時嚴重受內存限制,你必須為每個生成的 token 將海量權重從 HBM 移動到 SRAM。這種模式雖然準確率高,但由于無法并行,在并發量較低、追求單用戶極速響應的場景(如個人 AI 助手)下,GPU 算力常常無法被充分利用,導致生成速度遭遇瓶頸。

      與之相對的是,擴散模型(Diffusion Model)能夠提供并行生成的能力,但由于訓練時平等對待所有 token 排列,缺乏自回歸模型天然的從左到右的語言先驗,歷史上它們的生成質量一直落后。

      如果有一個模型能同時結合兩者的優勢,會是什么樣?英偉達這項研究的核心目的,就是通過統一的模型架構消除這兩種范式的隔閡,做到「準確率與速度兼得」。



      • HuggingFace:https://huggingface.co/collections/nvidia/nemotron-labs-diffusion
      • 項目頁面:https://research.nvidia.com/publication/2026-05_nemotron-labs-diffusion-tri-mode-language-model-unifying-autoregressive
      • 技術報告:https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_Diffusion_Tech_Report_v1.pdf?VersionId=db8_EMO8B.vmU26.jr7Le9pN3MqcUDNL

      英偉達提出的模型不使用弱外部 MTP 模型或額外 heads,而是利用自身的擴散模式同時起草多個 token,然后在 AR 模式下使用相同的 KV cache 驗證它們。這樣,你就獲得了擴散模型的并行生成,同時具備 AR 的嚴格準確性。

      該方法比起之前的 Eagle/MTP 方法具有更高的接受率,無需額外權重,或者只需少量額外權重即可獲得更高的接受率。



      訓練時,模型同時優化兩個損失函數:AR Loss 和 Diffusion Loss,這完全改變了擴散語言模型質量的游戲規則。為了穩定訓練,團隊采用了兩階段訓練策略,并引入了 Global Loss Averaging 技術,大幅降低了擴散模型訓練中因隨機掩碼導致的梯度激增問題。

      借助這種訓練方式,模型在推理時可任意切換以下三種模式:

      • 自回歸模式(AR Mode): 傳統的從左到右逐字生成,保留完整的因果注意力機制。適合高并發、計算密集型的云端服務;
      • 擴散模式(Diffusion Mode): 采用分塊去噪(Block-wise Denoising),利用雙流注意力機制(Dual-stream Attention)在塊內進行大規模并行 token 推測。為了進一步壓榨并行的上限,英偉達還專門訓練了一個輕量化采樣器(Trained Sampler)來替代傳統的置信度閾值判定;
      • 自猜測模式(Self-Speculation Mode): 它將傳統的 Speculative Decoding(需要一個額外的小模型來墊字)改造成「單模型自我博弈」。

      該研究給出了 3B、8B、14B 三個尺寸的基座模型,展現出了對現有開源自回歸模型及擴散模型的全方位碾壓。研究人員在之前的開源 dLLM(如 LLaDA、Dream 和 SDAR)上看到了從 9% 到 22.4% 的巨大準確率提升。也就是說,現在我們有了新的 SOTA dLLM。

      在測試中,新模型匹配了 Qwen3-8B 的基線 AR 準確率,但在前向傳播中達到了 5.9 個 token(TPF)。





      dLLM 的主要優勢在于效率。

      NLD 在實際應用中的加速效果(8B 模型,單用戶場景)如下:

      • DGX Spark:FP8 精度下提速 3.14 倍;INT4 精度下提速 2.7 倍(112 token/s vs 41.8 AR);
      • RTX 6000 Pro:FP8 精度下提速 3.4 倍;INT 精度下提速 2.3 倍;
      • GB200:提速 3.3 倍(850 tok/s);若配合自定義 CUDA 內核,最高可提速 4 倍。

      在 SPEED-Bench 基準測試中,線性自推測(linear self-speculation)機制實現了 8.7 的平均接受長度,相比之下,Qwen3.5-9B-MTP 為 4.7,Qwen3-8B-Eagle3 為 2.81。該數據為針對數學、代碼、推理及多語言任務的綜合估算值。



      具體方法上,這種能力并不是單個的解決方案。

      在低到中等并發度下,自行推測絕對占據主導地位(非常適合個人 AI 和交互式代理)。但在巨大的批處理規模下(>64 個流),推理會變成計算受限。英偉達的解決方法是:只需將注意力掩碼切換回純 AR 模式。一個模型,在所有部署場景下都能實現通用高效。





      最后,英偉達公布了他們的訓練配方(從 Ministral3-3B/8B/14B 開始):

      • 1T 個 token 的 AR-only 持續預訓練
      • 300B 個 token 的聯合 AR + Diffusion 訓練
      • 隨后進行 SFT 和 VLM 對齊

      使用的關鍵技術:

      • 全局損失平均 + DP-rank 變化掩碼
      • 嚴格因果干凈流(防止標簽泄漏)
      • LoRA 增強的起草器以改進自我推測

      這項研究指明了未來大模型架構演進的一個方向:不要去刻意挑選自回歸還是擴散模型,將它們揉碎在同一個全連接 / 因果注意力切換的 Transformer 體系內或許才是正解。

      更令人興奮的是,論文最后的分析指出,如果未來能夠開發出更完美的擴散采樣器,擴散模式的理論性能上限比現有的自猜測模式還要再高出 76.5%—— 這表明擴散大語言模型依然留有巨大潛能,長文本的「秒級生成」時代可能離我們不遠了。

      更多細節詳見論文。

      參考內容:

      https://x.com/PavloMolchanov/status/2056799786377039995

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      5月21日俄烏最新:英國的24小時變臉

      5月21日俄烏最新:英國的24小時變臉

      西樓飲月
      2026-05-21 20:38:00
      黃仁勛斷言機器人領域將迎來爆發式增長,機器人含量99%的機器人ETF華夏(562500)漲1.42%

      黃仁勛斷言機器人領域將迎來爆發式增長,機器人含量99%的機器人ETF華夏(562500)漲1.42%

      界面新聞
      2026-05-21 10:42:50
      國產顯卡LX 7G100實測:性能追平GTX 1660,但定價讓人沉默

      國產顯卡LX 7G100實測:性能追平GTX 1660,但定價讓人沉默

      霧野尋蹤2
      2026-05-22 00:40:58
      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      “日本民航將不能過境中國”?誰在給日本民粹右翼遞彈藥

      觀察者網
      2026-05-21 16:49:06
      荔枝大量上市,銷量卻猛跌,人們不愛吃荔枝嗎?網友說出3個原因

      荔枝大量上市,銷量卻猛跌,人們不愛吃荔枝嗎?網友說出3個原因

      小談食刻美食
      2026-05-21 07:29:40
      “四人幫”被捕后,被關在地下室,半年不見天日

      “四人幫”被捕后,被關在地下室,半年不見天日

      華人星光
      2026-05-22 13:22:58
      與戴軍牽手散步3個月,李靜高調官宣喜訊,這下晚年依靠有著落了

      與戴軍牽手散步3個月,李靜高調官宣喜訊,這下晚年依靠有著落了

      一盅情懷
      2026-05-22 09:59:35
      “兒子魏鋼有糖尿病,請網友不要投喂”,“核武老人”魏世杰發聲

      “兒子魏鋼有糖尿病,請網友不要投喂”,“核武老人”魏世杰發聲

      大象新聞
      2026-05-21 13:42:34
      太痛了!廣東大伯患上帶狀皰疹,自制“衣物隔離架”,醫生:很機智!

      太痛了!廣東大伯患上帶狀皰疹,自制“衣物隔離架”,醫生:很機智!

      廣東活動
      2026-05-22 12:15:33
      錢再多有什么用?67歲身價千萬的李幼斌現狀曝光,給所有人提了醒

      錢再多有什么用?67歲身價千萬的李幼斌現狀曝光,給所有人提了醒

      林輕吟
      2026-05-22 07:33:52
      一月八萬不夠花,李雙江“賴”學校不退休,兒子改名出國后再作妖

      一月八萬不夠花,李雙江“賴”學校不退休,兒子改名出國后再作妖

      一盅情懷
      2026-05-16 20:12:47
      生產線上87個攝像頭的全球壟斷:350億美元反壟斷大案,7名中國高管全球通緝

      生產線上87個攝像頭的全球壟斷:350億美元反壟斷大案,7名中國高管全球通緝

      風向觀察
      2026-05-21 17:02:11
      越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

      越扒瓜越大!交大女學生吞獎金再添猛料,不止想進體制內這么簡單

      觀史搜尋著
      2026-05-21 05:41:15
      形勢有多嚴峻?網傳中學生都感到極其壓抑了,評論區炸鍋…

      形勢有多嚴峻?網傳中學生都感到極其壓抑了,評論區炸鍋…

      慧翔百科
      2026-05-22 11:33:16
      央視緊急提醒!家家戶戶應急儲備趕緊備上,關鍵時刻能救命

      央視緊急提醒!家家戶戶應急儲備趕緊備上,關鍵時刻能救命

      科學發掘
      2026-05-21 17:40:40
      鄧超兒子在日本走紅!長相酷似迷你版流川楓,日本網友都要等他長大

      鄧超兒子在日本走紅!長相酷似迷你版流川楓,日本網友都要等他長大

      八卦王者
      2026-05-22 09:30:06
      歐冠結束,薩爾布呂肯俱樂部態度變了

      歐冠結束,薩爾布呂肯俱樂部態度變了

      最愛乒乓球
      2026-05-22 05:02:22
      石破天驚!俄方突然放風:普京特朗普11月在中國“會晤”?

      石破天驚!俄方突然放風:普京特朗普11月在中國“會晤”?

      菁菁子衿
      2026-05-21 15:11:04
      法國政府宣布新增7.1億歐元援助

      法國政府宣布新增7.1億歐元援助

      每日經濟新聞
      2026-05-22 08:21:36
      國家發改委:對外開放是中國基本國策,從未要求中國科技企業不得接受外商投資

      國家發改委:對外開放是中國基本國策,從未要求中國科技企業不得接受外商投資

      澎湃新聞
      2026-05-22 10:38:30
      2026-05-22 17:07:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13060文章數 142651關注度
      往期回顧 全部

      科技要聞

      雷軍:輸給特斯拉不丟人

      頭條要聞

      家屬稱89歲母親養老院摔傷7天后離世 民政部門拒回應

      頭條要聞

      家屬稱89歲母親養老院摔傷7天后離世 民政部門拒回應

      體育要聞

      最糟糕裁判?他想要退役當市長

      娛樂要聞

      周也戀情曝光!對象身份不簡單

      財經要聞

      證監會擬對老虎、富途、長橋依法嚴厲處罰

      汽車要聞

      轉場視頻

      態度原創

      本地
      健康
      數碼
      教育
      軍事航空

      本地新聞

      用云錦的方式,打開江蘇南京

      外泌體與干細胞竟是“快遞”與“工廠”的關系?

      數碼要聞

      家用除濕機怎么挑?十大品牌德業Z20B3除濕機,回南天一臺頂三臺

      教育要聞

      高光時刻!這所市級示范高中“圈粉”全球

      軍事要聞

      俄羅斯試射具備核打擊能力的高超音速導彈

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚色中文字幕| 偷窥盗摄国产在线视频| 加勒比无码人妻东京热| 影音先锋大黄瓜视频| 亚洲高清美女一区二区三区| 日韩久久中文| 中文午夜乱理片无码| 亚洲午夜爱爱香蕉片| 国产成人女人在线观看| 四川丰满少妇无套内谢| 欧美精品中文字幕一区| 久爱无码精品免费视频在线观看 | 成人免费看黄网站yyy456| 天天摸日日摸狠狠添| 三级成人电影| 国产高潮国产高潮久久久| 亚洲第一最快av网站| 中文字幕在线亚洲精品| 国产日产亚洲精品| 亚洲中文字幕AV在天堂| 91豆花成人社区在线| 久久精品99国产国产精| 日韩在线视频一区二区三| 亚洲国产粗大| 久久影音先锋资源站| 国产欧美一区二区精品久久久| 国产一区二区三区水野朝阳| 久久久综合九色合综| 99久久精品国产亚洲精品| 婷婷99| 性精品???A片天美| 亚洲人妻系列无码专区| 成人做爰A片免费看网站草莓| 久久久久久久久久免免费精品 | 激情宗合网| 男女啪啦啦超猛烈动态图| 中文字幕亚洲一区二区va在线| 九九热在线精品视频99| 精品国产午夜福利在线观看| 久艹视频免费看| 成人午夜视频在线|