<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      拒絕盲目猜token,阿里x浙大將投機解碼帶入彈性預算時代

      0
      分享至



      本文共同第一作者為阿里巴巴千問事業部胡欣怡博士、浙江大學博士生沈宇豪,以及阿里巴巴千問事業部張堡霖。其中,胡欣怡博士長期從事高效大模型算法與系統研究,重點關注模型結構-系統協同設計、推理加速與生成鏈路優化等方向,是本工作的項目負責人。通訊作者為阿里巴巴千問事業部戈霜。

      隨著大模型參數規模持續擴大,推理成本已經成為生產級 LLM 服務的核心瓶頸。投機解碼(Speculative Decoding, SD)通過「小模型 draft + 大模型 verify」的方式,將多個候選 token 放到一次目標模型前向中并行驗證,從而緩解自回歸解碼的串行瓶頸。

      但一個常被忽略的問題是:投機解碼在單請求或低并發下有效,不代表它在真實高并發服務中依然有效。當 batch size 增大時,多個請求會同時爭奪目標模型的驗證計算資源;此時每多驗證一個低價值 token,都可能直接轉化為吞吐下降和尾延遲上升。



      為了解決這一問題,來自阿里 ATH 事業群 - 千問事業部 - 基礎工程團隊和浙江大學的研究者提出了ECHO(Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios)



      • 作者: Xinyi Hu, Yuhao Shen, Baolin Zhang, Hengxin Zhang, Jun Dai, Shuang Ge, Lei Chen, Yue Li, Mingcheng Wan
      • 單位: Alibaba Qwen Applications Business Group;Zhejiang University
      • 論文: ECHO: Elastic Speculative Decoding with Sparse Gating for High-Concurrency Scenarios
      • 鏈接: https://arxiv.org/abs/2604.09603

      ECHO 不再把投機樹構造看作 「盡可能多猜 token」的問題,而是將其重新建模為一個固定驗證預算下的調度問題:在嚴格的全局 token 驗證預算內,動態決定哪些請求應該繼續加深、哪些請求應該提前截斷、哪些預算應該轉向擴寬候選集。

      實驗結果顯示,在 BS=256 的高負載場景下,ECHO 將 Qwen3-235B-A22B 模型推理吞吐從 2,803 tok/s 提升至 3,207 tok/s,提升 14.4%,說明當 verification compute 逐漸成為稀缺資源時,驗證預算調度能夠顯著提升投機解碼的系統收益



      1. 為什么投機解碼在高并發下會失效?

      傳統投機解碼通常假設:目標模型一次驗證多個 draft token 的成本,接近一次普通自回歸前向。因此,只要 draft token 被接受得足夠多,就能獲得可觀加速。

      然而,在生產級服務中,這個假設并不總成立。



      換句話說,投機解碼在真實 serving 中不再是「免費驗證更多 token」,而是在有限驗證預算里選擇「最值得驗證的 token」。

      現有方法主要面臨兩類問題:

      • 靜態樹方法:采用固定結構,簡單穩定,但容易在低置信度分支上浪費大量驗證計算;
      • 動態樹方法:嘗試根據 token 概率在線調整樹結構,但往往依賴密集的逐層 / 逐節點決策,容易積累誤判,并產生 ragged batch,難以適配高性能 serving kernel。

      ECHO 的出發點正是:在高并發 serving 中,核心資源不是「draft token 數量」,而是目標模型每一步能夠承受的驗證預算。

      2. ECHO:把投機樹構造變成預算調度

      ECHO 的核心思想可以概括為一句話:

      在一個 batch 內,將所有請求的候選 token 樹看作統一的 Super-Tree,并在全局驗證預算 K_max 下彈性分配深度與寬度。

      在每個投機解碼 step 中,batch 內有 B 個并發請求。對于第 i 個請求,假設其構造的候選樹包含 K_i 個待驗證 token,那么目標模型實際要驗證的是整個 batch 中所有候選節點的并集。ECHO 對其施加全局約束:



      其中 K_max 代表當前硬件和 serving 系統在 compute-bound 區間附近能夠承受的驗證上限。這樣,投機解碼就從「每個請求獨立擴樹」轉變為「多個請求共享一個全局預算池”」。

      這帶來了一個關鍵變化:給某個請求多分配一個候選 token,就意味著其他請求可用預算減少。因此,ECHO 不再盲目增加 draft depth 或 top-k,而是根據請求置信度動態決定預算如何流動。

      3. 稀疏門控:只在可靠的 sweet spots 做決策



      動態樹方法的一個難點在于:如果每一層、每個節點都做決策,控制開銷會迅速累積;更重要的是,不同深度上的置信度信號并不都同樣可靠。

      論文通過分析 accepted token 與 rejected token 的置信度分布發現:并非所有 draft depth 都適合做決策。某些深度上,接受與拒絕樣本的分布區分度較高,論文稱之為 sweet spots;而大量中間層的分布邊界模糊,在這些位置頻繁決策反而容易引入誤判。

      因此,ECHO 采用 Sparse Confidence Gating:

      • 只在 root、target depth,以及少量自適應選擇的中間深度進行門控;
      • 通過 warm-up /calibration 階段識別高區分度位置;
      • 在推理時根據路徑置信度判斷當前請求是繼續 deepen,還是 truncate 并釋放預算。

      對于第 i 個請求在深度 d 的候選集合,ECHO 使用最大似然路徑概率作為置信度:



      若 ci,d>τd,則認為當前路徑高置信,可以繼續向更深層擴展;否則提前截斷,將預算釋放給更高價值的請求或用于局部擴寬。

      4. 彈性預算調度:從「多猜 token」到「驗證預算重分配」



      ECHO 的第二個核心組件是Unified Elastic Budget Scheduler。它在全局預算下,同時處理兩類資源分配:

      1. 同一請求內部的 depth vs. width 調度:當深度擴展風險較高時,利用剩余預算在當前截斷深度擴寬候選集;
      2. 不同請求之間的預算重分配:當某些低置信度請求被截斷時,將節省出的預算轉移給其他高置信度請求,用于繼續加深。

      具體來說,ECHO 采用兩級優先級:

      • Priority 1:Global Depth Extension

      如果某個請求在 sparse gate 上通過置信度檢查,則優先將預算用于繼續加深,以減少后續全局驗證 step 數。

      • Priority 2:Opportunistic Width Expansion

      如果沒有請求能夠繼續高置信度加深,剩余預算才用于擴寬被截斷請求的候選集合,提高當前深度覆蓋正確 token 的概率。

      這種機制自然適配不同驗證預算狀態:

      • 在低負載場景下,驗證預算相對充足,ECHO 可以將截斷節省下來的預算重新用于當前請求的 width expansion;
      • 當系統逐漸進入 verification compute-bound 區間時,驗證預算競爭變強,低置信度請求釋放出的預算會被優先轉移給高置信度請求,用于 global depth extension。

      這也是 ECHO 名稱中「Elastic」的含義:它不是固定地追求更深或更寬,而是在請求熵、batch 負載和硬件預算之間動態調整。

      5. 面向系統落地:ECHO 集成到 SGLang

      很多動態投機樹方法雖然在原始 transformer 實驗中有效,但一旦進入真實 serving 框架,就會遇到 ragged batch 與 kernel 兼容性問題。

      ECHO 在系統層面專門處理了這一點。論文將 ECHO 集成到工業級推理框架SGLang中,并通過Flatten & Pack將不同請求產生的非規則候選 token 樹打包成 dense、kernel-compatible 的布局,再交給目標模型進行一次性驗證。

      這一步非常關鍵:如果算法產生的動態樹結構無法高效進入 serving kernel,那么理論上的 token 節省很可能被系統開銷抵消。ECHO 的設計目標不是單點優化 MAT,而是在真實高并發推理系統中提升 end-to-end goodput。

      目前團隊正在整理 ECHO 相關代碼和文檔,計劃于 6 月向 SGLang 提交 MR,進一步推動代碼開源、社區復現和系統集成。

      6. 實驗:從 8B 到 235B,驗證預算受限區間收益更明顯

      論文在多種模型規模上驗證了 ECHO,包括 Vicuna-13B、LLaMA-3.1-8B、LLaMA-3.3-70B,以及 Qwen3 系列的 8B、32B、235B。任務覆蓋 HumanEval、GSM8K、CNN/DM、Alpaca 和 MT-Bench,實驗在 8×NVIDIA H100 80GB GPU 上進行;低負載場景使用 HuggingFace transformers,高并發場景使用 SGLang。

      在低負載 BS=1 的設置下,ECHO 在所有 benchmark 上達到1.63×–5.35×的 wall-time speedup。其中:

      • LLaMA3.3-70B上,ECHO 最高達到5.35×加速;
      • Qwen3-235B上,ECHO 平均加速達到2.02×,優于 DDD 的 1.77× 和 EAGLE-3 的 1.69×;
      • Qwen3-32B上,ECHO 相比代表性動態方法 DDD 帶來15.8%的提升。

      ECHO 的主要有效區間,是 target verification 從近似免費并行逐漸進入 compute-bound 的驗證預算受限區間。論文在 MT-Bench、GSM8K、HumanEval 上評估了 4 個模型配置,并對比 EAGLE-3 以及兩個 ECHO 變體。結果顯示,當 verification compute 逐漸成為稀缺資源時,ECHO 依然能夠穩定提升吞吐,最大提升分別達到:

      • LLaMA3.1-8B:7.92%
      • LLaMA3.3-70B:12.96%
      • Qwen3-8B:10.00%
      • Qwen3-235B:14.95%

      對于 Qwen3-235B 這類工業級大模型,verification compute 更早進入 compute-bound 區間,因此錯誤的預算分配會更快傷害吞吐。ECHO 通過將低置信度請求節省的 token 預算重新分配給高置信度請求,在 BS=256 時將吞吐從2,803 tok/s提升至3,207 tok/s,提升14.4%

      7. 消融實驗:為什么 sparse gating 和 depth-aware threshold 都重要



      論文還比較了 ECHO 與兩個簡化變體:

      • Dense Gating:在每一層都做門控決策;
      • Fixed Threshold:所有深度共用同一個置信度閾值。

      結果表明,完整 ECHO 表現最好。原因在于:

      • Dense Gating 雖然看似更精細,但在不可靠深度上頻繁決策會引入額外開銷與誤判;
      • Fixed Threshold 無法適應深度變化,因為 token 概率通常會隨 depth 下降,單一閾值容易在深層過度剪枝,或在淺層放入過多低價值 token。

      在 LLaMA3.1-8B、BS=256 設置下,Dense Gating 比 ECHO 低約 5% 吞吐;在 Qwen3-235B 上,ECHO 相比 Fixed Threshold 提升5.3%(3,046 → 3,207 tok/s)。

      結語:投機解碼進入「預算時代」

      ECHO 的意義不只是提出了一個新的動態投機樹策略,更重要的是給出了一個面向生產 serving 的觀察:在高并發大模型推理中,投機解碼的核心不再是「猜得越多越好」,而是「在固定驗證預算內,讓每個被驗證 token 都更有價值」。通過 Super-Tree 視角、Sparse Confidence Gating、Elastic Budget Scheduling,以及面向 SGLang 的系統實現,ECHO 將投機解碼從局部樹結構優化推進到 batch-level 預算調度,為大模型高并發服務中的解碼加速提供了新的思路。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      門店給顧客發有償陪睡信息?滬上阿姨:已報警,賬號疑被盜用

      門店給顧客發有償陪睡信息?滬上阿姨:已報警,賬號疑被盜用

      南方都市報
      2026-05-12 17:39:36
      南京審計大學男子偷拍裙底事件:偷拍者為研究生,此前已公考上岸。

      南京審計大學男子偷拍裙底事件:偷拍者為研究生,此前已公考上岸。

      貼小君
      2026-05-13 08:25:53
      德國這座“鹽山”高達250多米,含有2億噸鹽,它是當地的生態災難

      德國這座“鹽山”高達250多米,含有2億噸鹽,它是當地的生態災難

      怪羅
      2026-05-11 10:01:52
      明朝開國猛將后裔連喪兩嬰,絕望中生下毛澤東,大字不識的八歲幼童為何能脫口作詩?

      明朝開國猛將后裔連喪兩嬰,絕望中生下毛澤東,大字不識的八歲幼童為何能脫口作詩?

      寄史言志
      2026-05-12 17:57:29
      CCTV5直播上海男籃VS北京隊,5個位置球員對比,誰強誰弱一目了然

      CCTV5直播上海男籃VS北京隊,5個位置球員對比,誰強誰弱一目了然

      體育大學僧
      2026-05-13 10:09:51
      地主惡霸劉文彩:子孫眾多,后代回來祭拜,光飯菜就準備了200席

      地主惡霸劉文彩:子孫眾多,后代回來祭拜,光飯菜就準備了200席

      阿器談史
      2026-05-11 15:43:13
      投資者稱持有14萬股 替兒子向上市公司求職 滄州明珠:可跟公司聯系 看是否有合適的崗位

      投資者稱持有14萬股 替兒子向上市公司求職 滄州明珠:可跟公司聯系 看是否有合適的崗位

      閃電新聞
      2026-05-13 10:56:19
      U17國足晉級世少賽!21年首次,生死戰完勝卡塔爾,連破3魔咒

      U17國足晉級世少賽!21年首次,生死戰完勝卡塔爾,連破3魔咒

      奧拜爾
      2026-05-13 01:55:29
      止步8強后!廣東隊作出重大決定,杜鋒去向曝光,徐杰要被交易?

      止步8強后!廣東隊作出重大決定,杜鋒去向曝光,徐杰要被交易?

      緋雨兒
      2026-05-13 09:57:57
      伊朗深夜清理門戶,兩名內鬼被絞,身份曝光后中國也驚出一身冷汗

      伊朗深夜清理門戶,兩名內鬼被絞,身份曝光后中國也驚出一身冷汗

      達文西看世界
      2026-05-09 14:03:46
      彭加木被找到了!知情人:DNA專家說99%就是彭加木,但有個遺憾!

      彭加木被找到了!知情人:DNA專家說99%就是彭加木,但有個遺憾!

      拳擊時空
      2026-05-12 05:55:35
      準備開搶!41歲老詹仍是香餑餑 重返騎士20%第三10%聯手庫里爭冠

      準備開搶!41歲老詹仍是香餑餑 重返騎士20%第三10%聯手庫里爭冠

      鍋子籃球
      2026-05-13 11:07:56
      53歲大姐狂瘦42斤扯下減肥遮羞布:別交智商稅了,就倆字管用!

      53歲大姐狂瘦42斤扯下減肥遮羞布:別交智商稅了,就倆字管用!

      今日養生之道
      2026-05-13 10:29:58
      大碗寬面被人撈出去了

      大碗寬面被人撈出去了

      毒舌扒姨太
      2026-05-12 22:34:02
      麥迪:詹姆斯沒經歷過重大傷病,他會回歸再打一個賽季

      麥迪:詹姆斯沒經歷過重大傷病,他會回歸再打一個賽季

      懂球帝
      2026-05-13 13:57:10
      多爾袞定律該擴大了!網傳山東聊城繼父與繼女的養老對話,引爭議

      多爾袞定律該擴大了!網傳山東聊城繼父與繼女的養老對話,引爭議

      火山詩話
      2026-05-12 10:47:02
      世乒賽最痛苦的人莫過于張本宇了,不是兒女慘敗,而是地位不保

      世乒賽最痛苦的人莫過于張本宇了,不是兒女慘敗,而是地位不保

      阿傖說事
      2026-05-12 16:30:31
      英偉達確認:黃仁勛隨特朗普訪華

      英偉達確認:黃仁勛隨特朗普訪華

      半導體行業觀察
      2026-05-13 10:15:45
      故事:國民女神宋慧喬,被財閥控制淪為玩物,收集證據10年逆襲

      故事:國民女神宋慧喬,被財閥控制淪為玩物,收集證據10年逆襲

      飛云如水
      2025-01-17 13:43:48
      當年千手觀音的聾啞人領舞,被富商苦追8年,如今她成了這副模樣

      當年千手觀音的聾啞人領舞,被富商苦追8年,如今她成了這副模樣

      混沌錄
      2026-05-12 23:09:07
      2026-05-13 14:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12983文章數 142648關注度
      往期回顧 全部

      科技要聞

      谷歌劇透安卓重大升級 Gemini深度集成底層

      頭條要聞

      特朗普空中發文:很榮幸與杰出人士同去偉大的中國

      頭條要聞

      特朗普空中發文:很榮幸與杰出人士同去偉大的中國

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      創業板指突破4037.96點創歷史新高

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      家居
      親子
      房產
      本地
      公開課

      家居要聞

      內在自敘,無域有方

      親子要聞

      網友:給公主置辦一個全身鏡吧

      房產要聞

      海口禁摩,3.3萬名車主要慌了!

      本地新聞

      用蘇繡的方式,打開江西婺源

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品久久久久中文字幕APP| 在线观看自拍视频国产| 亚洲乱熟乱熟女一区二区| 日本三级欧美三级人妇视频黑白配 | 日韩精品中文一二三区| 亚洲国产在一区二区三区| 口爆少妇| 亚洲制服丝袜一区二区三区| 肉大捧一进一出免费视频| 中文字幕日韩精品东京热| 在线免费熟女| 欧美成人1精品1区2区3区| 在线观看热码亚洲av每日更新| 97精品亚成在人线免视频| 97超碰色偷偷| 欧洲亚洲无码| 国产女人爽到高潮的免费视频 | 婷婷伊人綜合中文字幕小说 | 欧美福利精品| 体育| 亚洲色18禁成人网站WWW| xbox免费观看高清视频的软件| 国产精品自拍中文字幕| 国产人妻精品一二区| 狠狠噜天天噜日日噜无码| 人人人澡人人肉久久精品| 第一福利视频| 级毛片内射视频| 亚洲女同精品一区二区| 顶级高跟鞋熟妇HD| 亚洲欧美日韩久久一区二区| 国产精品综合一区二区三区| 亚洲精品中文字幕乱码无线| 91福利国产在线观看香蕉| 丰满熟妇乱又伦在线无码视频| 狠狠躁夜夜躁人人爽天天天天97| 白丝美女被狂躁免费视频网站| 中文日韩在线一区二区| 色爱综合激情五月激情| 老色鬼在线精品视频在线观看| 国产不卡精品视频男人的天堂|