<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      NVIDIA讓AI訓練速度翻倍:一個讓大模型"邊想邊猜"的聰明方案

      0
      分享至


      這項由NVIDIA研究團隊完成的工作,以預印本形式發(fā)布于2026年4月29日,論文編號為arXiv:2604.26779,感興趣的讀者可通過該編號查詢完整論文。

      當你和一個思維特別活躍的朋友聊天時,他不會等你說完整句話再開口,而是在你說到一半的時候就已經(jīng)猜到你要表達什么,于是他提前開始組織回應——這樣對話就比普通人之間的交流快了好幾倍。NVIDIA的研究團隊把這種"邊聽邊猜"的思維方式,搬進了當下最前沿的人工智能訓練系統(tǒng)里,由此帶來了一種既快速又不出錯的加速方案。

      一、為什么訓練大模型會"堵車"

      要理解這項研究解決的問題,得先從大語言模型的訓練過程說起。現(xiàn)代AI在具備推理能力之前,需要經(jīng)歷一個叫做"強化學習后訓練"的階段——可以把這個過程理解為讓AI反復做數(shù)學題、反復被老師打分、然后根據(jù)分數(shù)調(diào)整自己的答題策略,如此循環(huán)數(shù)百乃至數(shù)千輪,AI的推理能力才會逐步提升。

      在這個過程中,AI每次"作答"都需要一個字一個字地生成回應,就像一臺打字機,每次只能按下一個鍵,而且必須等上一個鍵打完才能按下一個鍵。這種一個接一個的生成方式在專業(yè)上叫做"自回歸解碼"。問題在于,AI生成的回答往往非常長,尤其是推理類任務,一次回答動輒幾百甚至上千個詞,按鍵的過程極度耗時。NVIDIA團隊通過測量發(fā)現(xiàn),在實際訓練過程中,整個訓練步驟里有65%到72%的時間都被AI"打字"這件事占據(jù)了。剩下的三分之一時間,才是真正在做梯度更新、優(yōu)化模型這些核心的學習操作。

      這就相當于一家工廠里,工人的大部分時間不是在生產(chǎn)產(chǎn)品,而是在等待零件一個一個從傳送帶上落下來。如何讓這條傳送帶跑得更快,成了整個AI訓練系統(tǒng)中最核心的瓶頸問題。

      二、聰明的"猜詞搭檔":投機解碼是什么

      NVIDIA團隊引入的加速方案叫做"投機解碼"(Speculative Decoding)。這個名字聽起來很玄乎,但其實道理非常直觀。

      回到剛才打字機的比喻:正常的AI生成過程是大模型一個字一個字地敲,每次敲一個字都需要調(diào)動整臺大機器來決策。投機解碼的思路是:在大模型旁邊配一個小助手,這個小助手規(guī)模很小、跑得很快,它先飛快地猜出接下來可能會出現(xiàn)的幾個字,然后交給大模型統(tǒng)一驗證——"你覺得我猜得對不對?"大模型只需要做一次驗證,就能確認小助手猜的多個字是否符合自己的意圖。

      如果小助手猜對了,就等于大模型用一次決策時間產(chǎn)出了好幾個字,效率大幅提升。如果猜錯了,大模型會從猜錯的那個字開始重新接管,像什么都沒發(fā)生過一樣繼續(xù)生成。關鍵在于,不管小助手猜沒猜對,最終產(chǎn)出的內(nèi)容一定和大模型自己生成的內(nèi)容在統(tǒng)計意義上完全一致——因為驗證機制保證了這一點。這在專業(yè)上叫做"保持目標模型的輸出分布",用大白話說就是:加速了但沒走樣。

      這個特性對AI訓練來說至關重要。在強化學習訓練中,AI是通過評價自己生成的答案來學習的,如果生成的答案偷偷換了一種方式產(chǎn)生、和真實的大模型想法有偏差,訓練的學習信號就會被污染,最終訓出來的模型就不是你想要的那個了。投機解碼因為保持了完全一致的分布,就像給傳送帶裝了加速器但沒有改變產(chǎn)品的品質(zhì),因此可以安全地用在訓練過程中。

      三、系統(tǒng)層面:把"猜詞搭檔"融進訓練流水線

      光有這個想法還不夠。把投機解碼真正塞進一個正在運行的訓練系統(tǒng),面臨的挑戰(zhàn)遠比想象中復雜。

      NVIDIA團隊把這套方案實現(xiàn)在了他們的NeMo RL框架里,背后的推理引擎使用了vLLM。整個系統(tǒng)的工作流程可以這樣理解:一邊是負責生成答案的"生產(chǎn)車間"(vLLM后端,帶著小助手模型),另一邊是負責評分和學習的"管理中樞"(MegatronLM,運行大模型本體)。每次訓練步驟完成后,大模型的權重會更新,這個更新必須同步傳給生產(chǎn)車間,同時也要讓小助手模型跟上節(jié)拍——否則小助手還按照上一版大模型的思路猜詞,猜中率就會越來越低,加速效果就會打折扣。

      這里有一個特別巧妙的設計:當系統(tǒng)開啟"在線草稿適配"功能時,大模型在做學習計算的同時,會把自己的中間狀態(tài)(隱藏層狀態(tài)和對詞語的概率判斷)緩存下來,這些緩存可以直接拿去訓練小助手,而不需要額外再跑一遍大模型的前向傳播。為了確保小助手的訓練不會反過來干擾大模型的學習,這條數(shù)據(jù)通路經(jīng)過了一個"切斷梯度"的處理——專業(yè)說法是`.detach()`操作,意思是兩套訓練信號完全隔離,互不影響。

      在小助手模型的選擇上,系統(tǒng)支持兩條路徑。一條是通用路徑,使用一種叫做EAGLE-3的技術,這個技術可以為任何現(xiàn)有的預訓練模型配備一個外掛的草稿頭;另一條是原生路徑,專門針對那些本身就內(nèi)置了多詞預測輔助頭的模型(比如DeepSeek系列),這類模型的內(nèi)置輔助頭直接充當小助手的角色。兩條路徑在NeMo RL里都得到了完整支持。

      四、實驗結果:快了多少,學習有沒有走樣

      NVIDIA團隊在兩個場景下做了實驗,分別叫做RL-Think和RL-Zero。前者是從一個已經(jīng)具備推理能力的模型(Qwen3-8B)出發(fā),繼續(xù)強化它的思維鏈質(zhì)量;后者是從完全沒見過推理任務的基礎模型(Qwen3-8B-Base)出發(fā),從零開始培養(yǎng)推理能力。實驗使用的數(shù)學題數(shù)據(jù)集叫做DAPO-Math-17K,評估指標是在AIME-2024競賽題上的準確率。

      先看"打字"速度的變化。在不使用投機解碼的情況下,RL-Think每步訓練花在生成上的時間是133.6秒,RL-Zero是100.0秒。引入EAGLE-3之后,RL-Think降到了87.0秒,RL-Zero降到了56.6秒,生成速度分別提升了1.54倍和1.77倍。由于生成只占整體訓練步驟的65%到72%,剩余的日志概率計算和參數(shù)更新時間沒有變化,整體每步訓練時間從185.3秒降到137.4秒(RL-Think)和從151.2秒降到107.5秒(RL-Zero),整體加速分別是1.35倍和1.41倍。

      研究團隊還測試了另一種不需要小助手模型的簡單方案,叫做"n元語法草稿"——這種方法靠簡單地查找文本里反復出現(xiàn)的詞語組合來預測下一個詞,完全不需要任何神經(jīng)網(wǎng)絡。測試結果令人意外:即使這種簡單方法在RL-Zero上猜對了2.47個詞、在RL-Think上猜對了2.05個詞,它的實際表現(xiàn)反而比不用任何加速方案還要慢,RL-Zero慢到原來的0.7倍,RL-Think慢到0.5倍。這個發(fā)現(xiàn)傳達了一個重要信息:猜對率高并不等于真正加快,驗證帶來的額外開銷完全可以把猜測的收益吃光。只有小助手足夠聰明、足夠快,才能讓整個系統(tǒng)真正受益。

      再看訓練效果有沒有受到影響。隨著訓練步數(shù)推進,EAGLE-3和不使用任何加速方案的曲線在驗證集準確率上幾乎完全重合。RL-Think的準確率從約60%穩(wěn)步爬升到約70%,RL-Zero從接近3%漲到約33%,兩種解碼方式下的模型學到的東西沒有任何可觀察到的差別。這印證了投機解碼"加速但不走樣"的核心承諾。

      五、三個關鍵參數(shù):初始化、草稿長度、在線更新

      實驗還深入研究了三個在實際部署中會影響加速效果的關鍵決定。

      第一個是小助手怎么"入職"——也就是草稿模型的初始化方式。研究團隊對比了兩種方案:一種是用通用聊天數(shù)據(jù)(UltraChat和Magpie數(shù)據(jù)集)訓練出來的通用草稿模型,另一種是專門用數(shù)學后訓練數(shù)據(jù)(DAPO)訓練出來的專項草稿模型。在相同的猜詞長度設置下,專項草稿在RL-Zero上的加速效果從1.51倍提升到1.77倍,在RL-Think上從1.19倍提升到1.53倍。背后的道理很好理解:一個助手如果和你長期配合某類工作,他預測你想說什么的準確率自然比剛入職的通才要高。小助手訓練時用的數(shù)據(jù)和實際訓練任務越接近,猜中率就越高,加速效果就越好。

      第二個是每次讓小助手猜幾個詞——草稿長度。研究團隊測試了草稿長度3、5、7三種設定。直覺上會認為猜得越多越好,但實驗結果說明了相反的規(guī)律。草稿長度從3增加到7時,猜中的詞數(shù)確實從3.32增加到5.06,但RL-Zero的加速比從1.77倍跌到1.21倍,RL-Think更是從1.53倍直接跌到0.71倍——比不加速還慢!原因在于:每次猜詞都需要大模型統(tǒng)一驗證,猜得越多,一旦中間某個詞猜錯了,后面的詞就全部作廢,驗證的代價卻已經(jīng)實打?qū)嵉馗冻鋈チ恕2碌拈L度和準確率之間存在一個微妙的平衡點,在這個實驗設置下,長度3是最優(yōu)解。

      第三個是小助手要不要在訓練過程中持續(xù)更新——在線草稿適配。結果顯示,當草稿模型一開始就用專項數(shù)據(jù)初始化得很好時,在線更新幾乎沒有額外幫助(1.77倍對1.78倍,基本持平)。但當草稿模型起點較弱時,在線更新能把加速比從1.51倍提升到1.63倍。換句話說,在線更新更像是一個"保險機制",防止草稿模型隨著策略演化而跟不上步伐,而不是一個普適的提升手段。

      六、異步執(zhí)行下的表現(xiàn)

      上述實驗都是在"同步"模式下進行的——每一步訓練都嚴格等生成完成后才開始學習。現(xiàn)代大規(guī)模訓練系統(tǒng)還有另一種模式叫"異步執(zhí)行":生成和學習同時在不同的機器上進行,互不等待,這樣整體流水線更加流暢。

      NVIDIA團隊也測試了投機解碼在異步模式下的效果,使用了16個節(jié)點的配置,其中12個節(jié)點專門負責生成,4個節(jié)點負責訓練。在這種模式下,大量的生成時間已經(jīng)被隱藏在訓練計算的背后了,暴露在"關鍵路徑"上的生成等待時間只剩下10.4秒。投機解碼把這個暴露的等待時間從10.4秒壓縮到0.6秒,整體步驟時間從75.0秒降到60.5秒,提升約1.24倍。提升幅度比同步模式小,這是預期中的:因為異步模式已經(jīng)幫你"藏掉"了大部分生成時間,投機解碼能施展的空間自然就少了。但兩者并不是相互替代的關系,而是疊加使用各有貢獻的互補方案。

      七、大規(guī)模部署的前景預測

      8B規(guī)模的實驗固然有說服力,但現(xiàn)實中很多機構訓練的是幾十億乃至幾千億參數(shù)的巨型模型,在數(shù)百甚至數(shù)千塊GPU上運行。NVIDIA團隊用一個高精度性能模擬器對更大規(guī)模的部署場景進行了推演,研究了模型規(guī)模、GPU數(shù)量和策略延遲對加速效果的影響。

      對于235B參數(shù)量的大型混合專家模型(Qwen3-235B-A22B),在512塊GB200 GPU上的同步RL場景中,草稿長度和接受長度的不同組合會帶來截然不同的效果。模擬顯示,在最理想的參數(shù)設置下,生成速度最高可以提升6.49倍,但由于非生成階段的時間無法被壓縮,整體訓練步驟的端到端加速上限是2.22倍。這個"天花板效應"再次印證了Amdahl定律:加速只有在瓶頸環(huán)節(jié)施展,才能對整體有效。

      更有趣的是規(guī)模和策略延遲的交互效應。對于235B模型,在較小的部署規(guī)模(32塊或128塊GPU)下,隨著異步策略延遲增大,加速效果會明顯下降;但在512塊到2048塊GPU的部署下,即使策略延遲達到8步,加速效果依然相當穩(wěn)定。對于8B模型,不同部署規(guī)模和延遲配置下的表現(xiàn)則幾乎沒有差別,都穩(wěn)定在2.8到3.2倍的生成加速區(qū)間內(nèi)。背后的邏輯是:大模型在大規(guī)模部署時,每個實例分到的批量較小,生成過程中存在大量"長尾等待"時間,投機解碼正好填補了這些碎片化的等待。

      在最有利的模擬場景下——235B模型、2048塊GPU、策略延遲為2步——生成加速達到約3.5倍,結合這類大模型訓練時生成階段占比極高的特點,預計端到端訓練加速約為2.5倍。

      說到底,這項研究做的事情是:在AI學習速度被一個瓶頸卡住的時候,找到了一種既能踩下油門、又能保證方向盤不偏的加速方法。傳統(tǒng)的加速方案往往需要在"快"和"準"之間做取舍,而投機解碼繞開了這個兩難困境。

      對于普通用戶來說,這項研究短期內(nèi)不會改變你和AI助手對話的體驗,但從更長遠的角度看,未來更強大的推理模型之所以能被訓練出來,背后正是靠著這類系統(tǒng)級的優(yōu)化積累。訓練一個頂尖推理模型可能需要數(shù)百萬GPU小時,哪怕每個訓練步驟節(jié)省30%的時間,累積下來就是數(shù)十萬GPU小時的資源,這不僅是錢的問題,也意味著同樣的計算預算下能做更多次實驗、更快地找到更好的模型。

      不過,這項研究也有其局限性值得思考:小助手的訓練質(zhì)量和與任務的契合程度決定了一切,而當AI訓練任務的分布隨著策略演化而快速變化時,如何持續(xù)保持小助手的"跟手"程度,仍然是一個值得深入探索的開放問題。有興趣深入了解細節(jié)的讀者,可以通過arXiv編號2604.26779檢索原論文。

      Q&A

      Q1:投機解碼為什么不會影響大模型訓練的學習效果?

      A:投機解碼通過數(shù)學上嚴格的"拒絕采樣"驗證機制,保證最終生成的每個詞都符合大模型本身的概率分布,相當于加速了"打字速度"但沒有改變"想法內(nèi)容"。實驗中RL-Think和RL-Zero兩個設置下,使用投機解碼和不使用的訓練準確率曲線完全重疊,實際驗證了這一點。

      Q2:n元語法草稿猜中率不低,為什么反而比不加速還慢?

      A:猜中率高不等于加速,關鍵看驗證帶來的額外開銷是否值得。n元語法草稿雖然在RL-Zero上猜中了2.47個詞,但它的驗證過程開銷相對于它帶來的收益過大,最終總時間反而增加了。這說明草稿模型必須足夠"輕量且準確"才能真正提速,一味追求猜中率而忽視驗證成本會適得其反。

      Q3:草稿長度為什么設置為3比設置為7效果更好?

      A:草稿長度越長,一旦中間某個詞猜錯,后面所有詞全部作廢,但大模型驗證所有詞的開銷已經(jīng)付出去了。實驗中長度7雖然平均猜中詞數(shù)從3.32提升到5.06,但RL-Think的加速比從1.53倍跌到0.71倍,比不加速還慢。在測試的任務難度下,長度3是收益和開銷最平衡的配置。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      誰在剝奪公眾的養(yǎng)老金?體制內(nèi)外懸殊的退休差距,該平衡一下了

      誰在剝奪公眾的養(yǎng)老金?體制內(nèi)外懸殊的退休差距,該平衡一下了

      西莫的藝術宮殿
      2026-05-11 11:03:29
      7.9萬噸甘蔗遭拒收,“最暖”糖廠撕開扎心真相

      7.9萬噸甘蔗遭拒收,“最暖”糖廠撕開扎心真相

      科學發(fā)掘
      2026-05-12 02:14:30
      BR模擬選秀:奇才狀元選迪班薩、爵士選皮特森、灰熊選布澤爾

      BR模擬選秀:奇才狀元選迪班薩、爵士選皮特森、灰熊選布澤爾

      懂球帝
      2026-05-12 09:34:46
      72歲外長王毅冒雨單膝一跪,這一跪,跪出了大國的脊梁!

      72歲外長王毅冒雨單膝一跪,這一跪,跪出了大國的脊梁!

      奇思妙想生活家
      2026-05-12 07:28:32
      發(fā)動機積碳:GDI技術省油的代價

      發(fā)動機積碳:GDI技術省油的代價

      算力游俠
      2026-05-11 00:39:47
      為什么一定要用傷病纏身的梁靖崑?日本攝影師一句話戳穿真相!

      為什么一定要用傷病纏身的梁靖崑?日本攝影師一句話戳穿真相!

      石辰搞笑日常
      2026-05-11 12:28:09
      大S年輕時房間曝光,太過詭異引人不適,難怪有人曾說活不過50歲

      大S年輕時房間曝光,太過詭異引人不適,難怪有人曾說活不過50歲

      草莓解說體育
      2026-05-11 20:49:33
      《主角》主角差評如潮,出場十幾秒,網(wǎng)友評價:雙眼無神像瞎子

      《主角》主角差評如潮,出場十幾秒,網(wǎng)友評價:雙眼無神像瞎子

      劇芒芒
      2026-05-11 12:21:15
      恐怖游輪內(nèi)幕曝光!船長說是自然死亡,大家都去擁抱了死者的妻子,然后她也死了

      恐怖游輪內(nèi)幕曝光!船長說是自然死亡,大家都去擁抱了死者的妻子,然后她也死了

      一刻talks丨硬科技趣思想
      2026-05-11 20:36:58
      他奉命清查康、謝罪行,73歲當中紀委常務書記,侄女是著名歌唱家

      他奉命清查康、謝罪行,73歲當中紀委常務書記,侄女是著名歌唱家

      舊書卷里的長安
      2026-05-11 21:04:17
      “孕婦墜崖案”當事人王暖暖稱被長期霸凌,無憂傳媒協(xié)商解約

      “孕婦墜崖案”當事人王暖暖稱被長期霸凌,無憂傳媒協(xié)商解約

      南方都市報
      2026-05-11 13:28:21
      30分鐘改寫灣區(qū)格局!深中通道的“秀”不止是世界紀錄

      30分鐘改寫灣區(qū)格局!深中通道的“秀”不止是世界紀錄

      環(huán)球網(wǎng)資訊
      2026-05-11 19:39:03
      馬光遠:AI泡沫一定會破滅,而且一定會以非常慘烈的方式破滅!

      馬光遠:AI泡沫一定會破滅,而且一定會以非常慘烈的方式破滅!

      混沌錄
      2026-05-10 19:32:20
      【英超】熱刺1比1利茲聯(lián),103分鐘VAR拒判點球

      【英超】熱刺1比1利茲聯(lián),103分鐘VAR拒判點球

      體壇周報
      2026-05-12 08:53:11
      央視首次披露,殲10CE干掉陣風當天,中方團隊其實就在現(xiàn)場!

      央視首次披露,殲10CE干掉陣風當天,中方團隊其實就在現(xiàn)場!

      鍋鍋愛歷史
      2026-05-12 00:30:50
      凌晨外出復印失聯(lián)的西寧17歲高中女生已找到,親屬:屬意外溺亡

      凌晨外出復印失聯(lián)的西寧17歲高中女生已找到,親屬:屬意外溺亡

      極目新聞
      2026-05-11 19:13:31
      隨著吉達國民2-1,沙特聯(lián)最新積分榜出爐:爭冠和爭亞皆白熱化

      隨著吉達國民2-1,沙特聯(lián)最新積分榜出爐:爭冠和爭亞皆白熱化

      凌空倒鉤
      2026-05-12 06:17:52
      爸爸想把房子送給"干女兒"保姆 兒子扣房產(chǎn)證

      爸爸想把房子送給"干女兒"保姆 兒子扣房產(chǎn)證

      看看新聞Knews
      2026-05-11 13:12:03
      阿賈伊-米切爾:雷霆隊季后賽黑馬球員的崛起之路!

      阿賈伊-米切爾:雷霆隊季后賽黑馬球員的崛起之路!

      我們的美學
      2026-05-12 09:29:34
      難怪能把國乒女隊逼到絕境,背后“操盤者”不簡單:馬琳師兄!

      難怪能把國乒女隊逼到絕境,背后“操盤者”不簡單:馬琳師兄!

      十點街球體育
      2026-05-11 21:34:06
      2026-05-12 10:00:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關注度
      往期回顧 全部

      科技要聞

      納德拉法庭爆料:拒當“AI時代的IBM”

      頭條要聞

      90后夫妻同患罕見病癱瘓 兩人容貌大變孩子出生夭折

      頭條要聞

      90后夫妻同患罕見病癱瘓 兩人容貌大變孩子出生夭折

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財經(jīng)要聞

      特朗普要來了,我們且淡定

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態(tài)度原創(chuàng)

      教育
      本地
      藝術
      游戲
      家居

      教育要聞

      張雪帶全班孩子進工廠,簽的不是名字,而是火花塞型號

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術要聞

      江青早年電影照曝光,手稿驚艷引熱議。

      《極限競速地平線6》PC遭偷跑 官方已鎖定泄露源

      家居要聞

      多元生活 此處無聲

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产农村老熟女国产老熟女 | 人妻熟女一二三区夜夜爱| 五月丁香啪啪| 欧美人伦禁忌dvd放荡欲情| 337p西西人体大胆瓣开下部| 亚洲a免费| 精品人妻天天做天天做天天爽| 久久这里只有精品2| 国产精品国产三级国产a| 中文字幕av无码免费一区| 国产成品精品午夜视频| 国产成人亚洲综合无码精品| 久久精品无码一区二区国产区| 精品无码人妻| 色欧美与xxxxx| 日韩精品一区二区在线视频| 五月开心亚洲综合在线| 狠狠色噜噜狠狠狠狠777米奇| 99热国产在线| 欧美色资源站| 久久国产精品偷拍视频| 亚洲女同精品久久女同| 亚洲青青草视频在线播放| 成人午夜电影福利免费| 中文字幕久久亚洲精品| 亚洲 丝袜 另类 校园 欧美| 亚洲综合精品香蕉久久网| 最新国产精品精品视频| 国产成人精品午夜日本亚洲18| 亚洲综合成人av在线| 国产精品自拍视频免费看| 欧美中文综合在线视频| 国产日韩一区| 激情亚洲的在线观看| 国产精品久久久久久久网| 国产一区二区波多野结衣| 国产精品无码翘臀在线观看| 国产精品乱码久久久久久小说| jizzjizz国产| 韩国午夜福利片在线观看| 成人亚洲A片V一区二区三区蜜月|