NVIDIA讓AI訓練速度翻倍：一個讓大模型"邊想邊猜"的聰明方案

2026-05-06 20:18:04　來源: 科技行者

天津舉報

分享至

這項由NVIDIA研究團隊完成的工作，以預印本形式發(fā)布于2026年4月29日，論文編號為arXiv:2604.26779，感興趣的讀者可通過該編號查詢完整論文。

當你和一個思維特別活躍的朋友聊天時，他不會等你說完整句話再開口，而是在你說到一半的時候就已經(jīng)猜到你要表達什么，于是他提前開始組織回應——這樣對話就比普通人之間的交流快了好幾倍。NVIDIA的研究團隊把這種"邊聽邊猜"的思維方式，搬進了當下最前沿的人工智能訓練系統(tǒng)里，由此帶來了一種既快速又不出錯的加速方案。

一、為什么訓練大模型會"堵車"

要理解這項研究解決的問題，得先從大語言模型的訓練過程說起。現(xiàn)代AI在具備推理能力之前，需要經(jīng)歷一個叫做"強化學習后訓練"的階段——可以把這個過程理解為讓AI反復做數(shù)學題、反復被老師打分、然后根據(jù)分數(shù)調(diào)整自己的答題策略，如此循環(huán)數(shù)百乃至數(shù)千輪，AI的推理能力才會逐步提升。

在這個過程中，AI每次"作答"都需要一個字一個字地生成回應，就像一臺打字機，每次只能按下一個鍵，而且必須等上一個鍵打完才能按下一個鍵。這種一個接一個的生成方式在專業(yè)上叫做"自回歸解碼"。問題在于，AI生成的回答往往非常長，尤其是推理類任務，一次回答動輒幾百甚至上千個詞，按鍵的過程極度耗時。NVIDIA團隊通過測量發(fā)現(xiàn)，在實際訓練過程中，整個訓練步驟里有65%到72%的時間都被AI"打字"這件事占據(jù)了。剩下的三分之一時間，才是真正在做梯度更新、優(yōu)化模型這些核心的學習操作。

這就相當于一家工廠里，工人的大部分時間不是在生產(chǎn)產(chǎn)品，而是在等待零件一個一個從傳送帶上落下來。如何讓這條傳送帶跑得更快，成了整個AI訓練系統(tǒng)中最核心的瓶頸問題。

二、聰明的"猜詞搭檔"：投機解碼是什么

NVIDIA團隊引入的加速方案叫做"投機解碼"（Speculative Decoding）。這個名字聽起來很玄乎，但其實道理非常直觀。

回到剛才打字機的比喻：正常的AI生成過程是大模型一個字一個字地敲，每次敲一個字都需要調(diào)動整臺大機器來決策。投機解碼的思路是：在大模型旁邊配一個小助手，這個小助手規(guī)模很小、跑得很快，它先飛快地猜出接下來可能會出現(xiàn)的幾個字，然后交給大模型統(tǒng)一驗證——"你覺得我猜得對不對？"大模型只需要做一次驗證，就能確認小助手猜的多個字是否符合自己的意圖。

如果小助手猜對了，就等于大模型用一次決策時間產(chǎn)出了好幾個字，效率大幅提升。如果猜錯了，大模型會從猜錯的那個字開始重新接管，像什么都沒發(fā)生過一樣繼續(xù)生成。關鍵在于，不管小助手猜沒猜對，最終產(chǎn)出的內(nèi)容一定和大模型自己生成的內(nèi)容在統(tǒng)計意義上完全一致——因為驗證機制保證了這一點。這在專業(yè)上叫做"保持目標模型的輸出分布"，用大白話說就是：加速了但沒走樣。

這個特性對AI訓練來說至關重要。在強化學習訓練中，AI是通過評價自己生成的答案來學習的，如果生成的答案偷偷換了一種方式產(chǎn)生、和真實的大模型想法有偏差，訓練的學習信號就會被污染，最終訓出來的模型就不是你想要的那個了。投機解碼因為保持了完全一致的分布，就像給傳送帶裝了加速器但沒有改變產(chǎn)品的品質(zhì)，因此可以安全地用在訓練過程中。

三、系統(tǒng)層面：把"猜詞搭檔"融進訓練流水線

光有這個想法還不夠。把投機解碼真正塞進一個正在運行的訓練系統(tǒng)，面臨的挑戰(zhàn)遠比想象中復雜。

NVIDIA團隊把這套方案實現(xiàn)在了他們的NeMo RL框架里，背后的推理引擎使用了vLLM。整個系統(tǒng)的工作流程可以這樣理解：一邊是負責生成答案的"生產(chǎn)車間"（vLLM后端，帶著小助手模型），另一邊是負責評分和學習的"管理中樞"（MegatronLM，運行大模型本體）。每次訓練步驟完成后，大模型的權重會更新，這個更新必須同步傳給生產(chǎn)車間，同時也要讓小助手模型跟上節(jié)拍——否則小助手還按照上一版大模型的思路猜詞，猜中率就會越來越低，加速效果就會打折扣。

這里有一個特別巧妙的設計：當系統(tǒng)開啟"在線草稿適配"功能時，大模型在做學習計算的同時，會把自己的中間狀態(tài)（隱藏層狀態(tài)和對詞語的概率判斷）緩存下來，這些緩存可以直接拿去訓練小助手，而不需要額外再跑一遍大模型的前向傳播。為了確保小助手的訓練不會反過來干擾大模型的學習，這條數(shù)據(jù)通路經(jīng)過了一個"切斷梯度"的處理——專業(yè)說法是`.detach()`操作，意思是兩套訓練信號完全隔離，互不影響。

在小助手模型的選擇上，系統(tǒng)支持兩條路徑。一條是通用路徑，使用一種叫做EAGLE-3的技術，這個技術可以為任何現(xiàn)有的預訓練模型配備一個外掛的草稿頭；另一條是原生路徑，專門針對那些本身就內(nèi)置了多詞預測輔助頭的模型（比如DeepSeek系列），這類模型的內(nèi)置輔助頭直接充當小助手的角色。兩條路徑在NeMo RL里都得到了完整支持。

四、實驗結果：快了多少，學習有沒有走樣

NVIDIA團隊在兩個場景下做了實驗，分別叫做RL-Think和RL-Zero。前者是從一個已經(jīng)具備推理能力的模型（Qwen3-8B）出發(fā)，繼續(xù)強化它的思維鏈質(zhì)量；后者是從完全沒見過推理任務的基礎模型（Qwen3-8B-Base）出發(fā)，從零開始培養(yǎng)推理能力。實驗使用的數(shù)學題數(shù)據(jù)集叫做DAPO-Math-17K，評估指標是在AIME-2024競賽題上的準確率。

先看"打字"速度的變化。在不使用投機解碼的情況下，RL-Think每步訓練花在生成上的時間是133.6秒，RL-Zero是100.0秒。引入EAGLE-3之后，RL-Think降到了87.0秒，RL-Zero降到了56.6秒，生成速度分別提升了1.54倍和1.77倍。由于生成只占整體訓練步驟的65%到72%，剩余的日志概率計算和參數(shù)更新時間沒有變化，整體每步訓練時間從185.3秒降到137.4秒（RL-Think）和從151.2秒降到107.5秒（RL-Zero），整體加速分別是1.35倍和1.41倍。

研究團隊還測試了另一種不需要小助手模型的簡單方案，叫做"n元語法草稿"——這種方法靠簡單地查找文本里反復出現(xiàn)的詞語組合來預測下一個詞，完全不需要任何神經(jīng)網(wǎng)絡。測試結果令人意外：即使這種簡單方法在RL-Zero上猜對了2.47個詞、在RL-Think上猜對了2.05個詞，它的實際表現(xiàn)反而比不用任何加速方案還要慢，RL-Zero慢到原來的0.7倍，RL-Think慢到0.5倍。這個發(fā)現(xiàn)傳達了一個重要信息：猜對率高并不等于真正加快，驗證帶來的額外開銷完全可以把猜測的收益吃光。只有小助手足夠聰明、足夠快，才能讓整個系統(tǒng)真正受益。

再看訓練效果有沒有受到影響。隨著訓練步數(shù)推進，EAGLE-3和不使用任何加速方案的曲線在驗證集準確率上幾乎完全重合。RL-Think的準確率從約60%穩(wěn)步爬升到約70%，RL-Zero從接近3%漲到約33%，兩種解碼方式下的模型學到的東西沒有任何可觀察到的差別。這印證了投機解碼"加速但不走樣"的核心承諾。

五、三個關鍵參數(shù)：初始化、草稿長度、在線更新

實驗還深入研究了三個在實際部署中會影響加速效果的關鍵決定。

第一個是小助手怎么"入職"——也就是草稿模型的初始化方式。研究團隊對比了兩種方案：一種是用通用聊天數(shù)據(jù)（UltraChat和Magpie數(shù)據(jù)集）訓練出來的通用草稿模型，另一種是專門用數(shù)學后訓練數(shù)據(jù)（DAPO）訓練出來的專項草稿模型。在相同的猜詞長度設置下，專項草稿在RL-Zero上的加速效果從1.51倍提升到1.77倍，在RL-Think上從1.19倍提升到1.53倍。背后的道理很好理解：一個助手如果和你長期配合某類工作，他預測你想說什么的準確率自然比剛入職的通才要高。小助手訓練時用的數(shù)據(jù)和實際訓練任務越接近，猜中率就越高，加速效果就越好。

第二個是每次讓小助手猜幾個詞——草稿長度。研究團隊測試了草稿長度3、5、7三種設定。直覺上會認為猜得越多越好，但實驗結果說明了相反的規(guī)律。草稿長度從3增加到7時，猜中的詞數(shù)確實從3.32增加到5.06，但RL-Zero的加速比從1.77倍跌到1.21倍，RL-Think更是從1.53倍直接跌到0.71倍——比不加速還慢！原因在于：每次猜詞都需要大模型統(tǒng)一驗證，猜得越多，一旦中間某個詞猜錯了，后面的詞就全部作廢，驗證的代價卻已經(jīng)實打?qū)嵉馗冻鋈チ恕２碌拈L度和準確率之間存在一個微妙的平衡點，在這個實驗設置下，長度3是最優(yōu)解。

第三個是小助手要不要在訓練過程中持續(xù)更新——在線草稿適配。結果顯示，當草稿模型一開始就用專項數(shù)據(jù)初始化得很好時，在線更新幾乎沒有額外幫助（1.77倍對1.78倍，基本持平）。但當草稿模型起點較弱時，在線更新能把加速比從1.51倍提升到1.63倍。換句話說，在線更新更像是一個"保險機制"，防止草稿模型隨著策略演化而跟不上步伐，而不是一個普適的提升手段。

六、異步執(zhí)行下的表現(xiàn)

上述實驗都是在"同步"模式下進行的——每一步訓練都嚴格等生成完成后才開始學習。現(xiàn)代大規(guī)模訓練系統(tǒng)還有另一種模式叫"異步執(zhí)行"：生成和學習同時在不同的機器上進行，互不等待，這樣整體流水線更加流暢。

NVIDIA團隊也測試了投機解碼在異步模式下的效果，使用了16個節(jié)點的配置，其中12個節(jié)點專門負責生成，4個節(jié)點負責訓練。在這種模式下，大量的生成時間已經(jīng)被隱藏在訓練計算的背后了，暴露在"關鍵路徑"上的生成等待時間只剩下10.4秒。投機解碼把這個暴露的等待時間從10.4秒壓縮到0.6秒，整體步驟時間從75.0秒降到60.5秒，提升約1.24倍。提升幅度比同步模式小，這是預期中的：因為異步模式已經(jīng)幫你"藏掉"了大部分生成時間，投機解碼能施展的空間自然就少了。但兩者并不是相互替代的關系，而是疊加使用各有貢獻的互補方案。

七、大規(guī)模部署的前景預測

8B規(guī)模的實驗固然有說服力，但現(xiàn)實中很多機構訓練的是幾十億乃至幾千億參數(shù)的巨型模型，在數(shù)百甚至數(shù)千塊GPU上運行。NVIDIA團隊用一個高精度性能模擬器對更大規(guī)模的部署場景進行了推演，研究了模型規(guī)模、GPU數(shù)量和策略延遲對加速效果的影響。

對于235B參數(shù)量的大型混合專家模型（Qwen3-235B-A22B），在512塊GB200 GPU上的同步RL場景中，草稿長度和接受長度的不同組合會帶來截然不同的效果。模擬顯示，在最理想的參數(shù)設置下，生成速度最高可以提升6.49倍，但由于非生成階段的時間無法被壓縮，整體訓練步驟的端到端加速上限是2.22倍。這個"天花板效應"再次印證了Amdahl定律：加速只有在瓶頸環(huán)節(jié)施展，才能對整體有效。

更有趣的是規(guī)模和策略延遲的交互效應。對于235B模型，在較小的部署規(guī)模（32塊或128塊GPU）下，隨著異步策略延遲增大，加速效果會明顯下降；但在512塊到2048塊GPU的部署下，即使策略延遲達到8步，加速效果依然相當穩(wěn)定。對于8B模型，不同部署規(guī)模和延遲配置下的表現(xiàn)則幾乎沒有差別，都穩(wěn)定在2.8到3.2倍的生成加速區(qū)間內(nèi)。背后的邏輯是：大模型在大規(guī)模部署時，每個實例分到的批量較小，生成過程中存在大量"長尾等待"時間，投機解碼正好填補了這些碎片化的等待。

在最有利的模擬場景下——235B模型、2048塊GPU、策略延遲為2步——生成加速達到約3.5倍，結合這類大模型訓練時生成階段占比極高的特點，預計端到端訓練加速約為2.5倍。

說到底，這項研究做的事情是：在AI學習速度被一個瓶頸卡住的時候，找到了一種既能踩下油門、又能保證方向盤不偏的加速方法。傳統(tǒng)的加速方案往往需要在"快"和"準"之間做取舍，而投機解碼繞開了這個兩難困境。

對于普通用戶來說，這項研究短期內(nèi)不會改變你和AI助手對話的體驗，但從更長遠的角度看，未來更強大的推理模型之所以能被訓練出來，背后正是靠著這類系統(tǒng)級的優(yōu)化積累。訓練一個頂尖推理模型可能需要數(shù)百萬GPU小時，哪怕每個訓練步驟節(jié)省30%的時間，累積下來就是數(shù)十萬GPU小時的資源，這不僅是錢的問題，也意味著同樣的計算預算下能做更多次實驗、更快地找到更好的模型。

不過，這項研究也有其局限性值得思考：小助手的訓練質(zhì)量和與任務的契合程度決定了一切，而當AI訓練任務的分布隨著策略演化而快速變化時，如何持續(xù)保持小助手的"跟手"程度，仍然是一個值得深入探索的開放問題。有興趣深入了解細節(jié)的讀者，可以通過arXiv編號2604.26779檢索原論文。

Q&A

Q1：投機解碼為什么不會影響大模型訓練的學習效果？

A：投機解碼通過數(shù)學上嚴格的"拒絕采樣"驗證機制，保證最終生成的每個詞都符合大模型本身的概率分布，相當于加速了"打字速度"但沒有改變"想法內(nèi)容"。實驗中RL-Think和RL-Zero兩個設置下，使用投機解碼和不使用的訓練準確率曲線完全重疊，實際驗證了這一點。

Q2：n元語法草稿猜中率不低，為什么反而比不加速還慢？

A：猜中率高不等于加速，關鍵看驗證帶來的額外開銷是否值得。n元語法草稿雖然在RL-Zero上猜中了2.47個詞，但它的驗證過程開銷相對于它帶來的收益過大，最終總時間反而增加了。這說明草稿模型必須足夠"輕量且準確"才能真正提速，一味追求猜中率而忽視驗證成本會適得其反。

Q3：草稿長度為什么設置為3比設置為7效果更好？

A：草稿長度越長，一旦中間某個詞猜錯，后面所有詞全部作廢，但大模型驗證所有詞的開銷已經(jīng)付出去了。實驗中長度7雖然平均猜中詞數(shù)從3.32提升到5.06，但RL-Think的加速比從1.53倍跌到0.71倍，比不加速還慢。在測試的任務難度下，長度3是收益和開銷最平衡的配置。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.