<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      智譜首秀工程實戰經驗!Coding Agent日均數億次調用,GLM-5把長上下文推理的底層問題全逼出來了

      0
      分享至


      作者 | 智譜團隊

      編者按:

      今年 2 月,智譜 GLM Coding Plan 上線后,曾一度“推出即售罄”。智譜隨后同步升級 GLM Coding Plan,主打從 Vibe Coding 走向 Agentic Engineering。有趣的是,近期一批海外開發者正試圖涌入中國平臺來搶購 GLM Coding Plan。

      隨著用戶量和調用量快速上漲,Coding Agent 開始成為大模型最真實、最殘酷的壓力測試場。一些過去在普通聊天場景里幾乎不會暴露的問題,開始在高并發、長上下文、復雜工具調用中集中出現。這也是進入 Coding Agent 時代后,推理優化面臨的新問題。

      “今年是 infra 的決勝年。”如果說過去一年,大模型競爭的焦點仍然集中在“誰的模型更強”,那么今年開始,真正的勝負手正在轉向“誰的基礎設施更能扛”。

      4 月 30 日凌晨,智譜發布技術博客《Scaling Pain:超大規模 Coding Agent 推理實踐》,首次系統披露 GLM-5 系列模型在超大規模 Coding Agent 調用場景下的底層推理技術突破,包括兩個關鍵 Bug 的定位及修復、一項性能優化創新、以及一個意外的監控機制突破。

      此外,智譜團隊還將過去半年積累下來的推理工程實踐經驗貢獻回 SGLang 開源社區。這意味著,相關經驗也可能對更多模型后續的推理優化、吞吐放量和 Agent 場景穩定性帶來幫助。

      下面是智譜團隊的具體報告分享,完整技術 blog 鏈接如下:https://z.ai/blog/scaling-pain

      1 Scaling Pain:超大規模 Coding Agent 推理實踐

      對 Scaling Law 的信仰不僅驅動著我們在模型參數與數據規模上不斷突破,也同樣在不斷逼近 Infra 工程的極限,這一過程伴隨著不可避免的陣痛,我們稱之為“Scaling Pain”。

      隨著大模型應用從簡單對話全面轉向更復雜的、更長程的 Coding Agent 任務,我們的推理基礎設施迎來了前所未有的壓力,每天承受著數億次 Coding Agent 調用。過去幾周,部分用戶在使用 GLM-5 系列模型執行復雜 Coding Agent 任務時,遭遇了多種異常:亂碼、復讀,以及偶現的生僻字。這些問題在標準推理環境下是不存在的,只在高并發、長上下文的 Coding Agent 場景下才會觸發,很難穩定復現。

      我們經過數周的推演、排查與壓測,最終定位并修復了幾個相互獨立的底層競態 Bug,并對其中所反映的系統瓶頸進行了針對性優化,顯著提高了推理系統的穩定性和效率。

      我們將在這段探索中收獲的經驗與教訓與大家分享,一起克服 Coding Agent 推理的 Scaling Pain。

      2 從線下復現到異常識別

      自 3 月起,我們在 GLM-5 的線上監控和用戶反饋中觀察到三類異常現象:亂碼(garbled output)復讀(repetition),以及生僻字(rare character)。這些現象在表面上與長上下文場景下常見的“降智”相似,但由于我們并沒有上線任何降低模型精度的優化,一個更關鍵的問題是:異常究竟源于模型本身,還是源于推理鏈路?如果源于模型,異常會表現為針對特定輸入的穩定、可重復行為;反之,若異常與系統壓力或運行時狀態相關,則更可能指向推理基礎設施中的鏈路或狀態管理問題。

      排查初期,我們先對用戶反饋的 bad cases 做本地回放,并將同一批請求重復推理數百次,但始終未能復現異常,說明大概率不是模型本身的問題。為進一步模擬線上環境的壓力,我們對線上日志做脫敏處理,并盡可能保留原始并發分布與請求時序,在本地進行全量回放。起初仍未復現異常,直到進一步調整 PD 分離比例并持續提高系統負載,模擬高峰期的 Prefill 堆積和 Decode 側 KV Cache 壓力后,才在約每萬次請求中穩定復現 3-5 次異常。這種“與請求內容無關、與系統壓力相關”的特征,說明問題可能來自高負載下的推理狀態管理。與此同時,線下復現的異常頻率仍低于線上反饋的頻率,說明現有檢測方法可能存在漏檢,或仍有部分觸發場景尚未覆蓋。

      如何可靠識別異常輸出成為了新的挑戰。三類異常中,復讀相對容易檢測,而亂碼與生僻字比較棘手。我們嘗試過正則表達式、字符集匹配等啟發式方法,也嘗試過基于模型判別的方式,但前者存在明顯的漏判與誤傷,后者則難以滿足大規模消融實驗的效率要求。上述限制使異常檢測本身成為定位流程中的一個瓶頸。


      圖 1:投機采樣指標可以作為異常檢測的重要參考

      在反復分析推理日志后,我們發現了一個意想不到的切入點:投機采樣(Speculative Decoding)指標可以作為異常檢測的重要參考。投機采樣原本是一個性能優化技術,先由草稿模型生成候選 token,再由目標模型校驗并決定是否接受,從而在不改變最終輸出分布的前提下提升 decode 效率。如圖 1 所示,我們觀察到,兩個指標(spec_accept_length:目標模型連續接受的 draft token 前綴長度;spec_accept_rate:draft token 被接受的比例)在異常發生時呈現出穩定模式:

      • 亂碼和生僻字:通常伴隨極低的 spec_accept_length,即草稿模型生成的候選 token 幾乎全部被目標模型拒絕,表明目標模型所看到的 KV Cache 狀態與草稿模型預期之間存在顯著偏差。

      • 復讀:通常伴隨偏高的 spec_accept_rate,表明損壞的 KV Cache 可能使注意力模式退化,并將生成過程推向高置信度的重復循環。

      基于上述觀察,我們進一步實現了一套在線異常監控策略:當 spec_accept_length 持續低于 1.4 且生成長度已超過 128 token,或 spec_accept_rate 超過 0.96 時,系統主動中止當前生成,并將請求交由負載均衡器重試。該策略使投機采樣從單純的性能優化技術,拓展為輸出質量的實時監控信號,成為后續消融實驗中的關鍵工具。

      3 BugFix:PD 分離架構下的 KV Cache 競態

      在觀察到異常輸出與并發壓力具有明顯相關性后,我們進一步分析其原因。通過對請求生命周期以及推理引擎中 PD 分離執行時序的分析,我們發現該問題源于請求生命周期與 KV Cache 回收與復用時序之間的不一致,從而引發的 KV Cache 復用沖突。

      1. 原因分析:異步 Abort 引發的 KV Cache 復用競態

      為限制尾延遲,我們在推理引擎中引入了基于超時的請求終止機制:當 Prefill 階段未在規定時間內完成時,Decode 側會對請求執行 Abort,并回收其占用的 KV Cache 資源。然而,該 Abort 信號未被正確傳播至 Prefill 側,同時 Decode 側也缺乏判斷 KV Cache 是否可安全回收與復用的充分信息。因此,在 Decode Abort 并將對應 KV Cache 空間分配給新請求之后,先前已發起的 RDMA 寫入以及正在執行的 Prefill 計算仍持續執行,未被同步取消。


      圖 2:PD 分離場景下 KV Cache 競態示意圖

      圖 2 中展示了在 PD 分離架構下,兩個請求在 Prefill 與 Decode 之間交互的時序關系,以及由此引發的 KV Cache 競態。

      在初始階段,Req1 被發送至 Prefill-1(P1)和 Decode(D)。由于調度或排隊等原因,Req1 在 P1 側經歷了一段等待后才開始執行 Prefill Forward。與此同時,Decode 側在一段時間內未收到對應的 KV Cache 數據,觸發超時機制,并對 Req1 執行 Abort。

      隨后,Decode 側回收 Req1 占用的 KV Cache 槽位,但沒有正確通知 P1。緊接著,新請求 Req2 到達,并被分配至 Prefill-2(P2)和 Decode。由于內存復用策略,Req2 被分配到與 Req1 相同的 KV Cache 地址。P2 開始執行 Prefill Forward 并進行 KV Transfer,并在較短時間內完成,使 Decode 側進入生成階段。

      與此同時,P1 側針對 Req1 發起的 KV Cache 寫入仍在繼續,其數據會寫入已被 Req2 復用的顯存區域,從而覆蓋 Req2 的部分 KV Cache。最終,Req2 在 Decode 階段讀取到被覆蓋的數據,導致生成結果異常。

      2. 修復方案:KV Cache 釋放的時序一致性保證

      為消除上述競態,我們在推理引擎中引入了更嚴格的時序約束,在請求終止與 KV Cache 寫入完成之間建立顯式同步關系。

      具體而言,Decode 在觸發 Abort 后,會向 Prefill 側發送通知。Prefill 僅在以下條件滿足時返回“可釋放”信號:相關 RDMA 寫入尚未開始,或所有已提交寫入均已完成。Decode 僅在收到該確認后,才允許回收并復用對應的 KV Cache 槽位。該機制確保 KV 寫入不會跨越顯存復用邊界,從而避免跨請求的 KV Cache 覆蓋。

      修復效果:該修復上線后,異常輸出的發生率由約萬分之十幾下降至萬分之三以下。結果表明,在 PD 分離架構中,需要對跨節點的數據傳輸與顯存復用建立明確的一致性約束,以避免類似問題。

      4 BugFix: HiCache 加載時序缺失

      Coding Agent 場景顯著提高了輸入長度(平均超過 70K tokens),同時伴隨較高的前綴復用率。這類負載使 HiCache(多級 KV Cache)成為線上服務中的關鍵優化手段。然而,在 KV Cache 換入與計算重疊執行的情況下,當前實現未能保證數據在使用前已完成加載,導致可能出現未就緒 KV Cache 被訪問的情況。

      1. 原因分析:流水線同步缺失導致的 read-before-ready

      通過對 HiCache 執行時序分析,我們將問題定位在 DSA HiCache 的緩存讀取路徑上。系統會從 CPU 內存異步換入(swap-in)歷史前綴緩存,并通過 Load Stream 與 Forward Stream 的重疊執行來提高吞吐。

      如圖 3(a) 所示,Load Stream 負責加載 KV Cache 與 Indexer Cache,而 Forward Stream 依次執行 Index 計算與后續的 Sparse Attention。理論上,Forward Stream 中的 Indexer 計算應在對應的 Indexer Cache 完成加載后才能啟動。然而,在原始實現中,該依賴未被顯式表達。

      具體而言,Indexer 算子在啟動時未對 Load Indexer Cache 的完成建立同步約束(圖 3 中紅色虛線區域)。因此,Forward Stream 可能先于 Load Stream 完成數據加載而開始執行,從而出現 Read-before-Ready 的訪問模式,即在數據尚未完成加載時即被讀取。

      該問題會導致 Index 計算基于不完整或未初始化的數據執行,進而影響后續 Sparse Attention 的計算結果,并最終反映為輸出異常。


      圖 3:HiCache 讀取流水線時序異常與修復示意圖

      2. 修復方案:重構算子流水線的原子性

      為解決上述問題,我們對 HiCache 的讀取流水線進行了修改(如圖 3(b) 所示),在數據加載與計算之間引入顯式的同步約束:

      • 顯式同步約束:在 Indexer 算子啟動前引入與 Load Stream 的同步點,確保對應層級的 Indexer Cache 已完成加載。Forward Stream 僅在數據就緒后才啟動計算,從而避免 read-before-ready 的訪問。

      該修復上線后,在相同負載條件下,由執行時序不一致引起的異常完全消失,系統行為趨于穩定。該修復已通過Pull Request提交至 SGLang 社區。

      5 優化:KV Cache 分層存儲 LayerSplit

      上述兩個競態問題揭示了一個共同的系統瓶頸:在長上下文的 Coding Agent Serving 場景中,Prefill 階段主導了系統性能。

      為了控制 Prefill 排隊帶來的 TTFT,我們引入了超時 Abort;為了緩解 Prefill 側 KV Cache 容量壓力,我們引入了 HiCache。在修復這些狀態一致性問題后,我們進一步回到瓶頸本身:如何提升 Prefill 吞吐、降低 Prefill 側 KV Cache 顯存壓力。為此,我們設計并實現了 KV Cache 分層存儲方案LayerSplit

      Coding Agent 負載通常呈現出上下文長度較長、Prefix Cache 命中率較高的特征。在這一場景下,Prefill 階段往往成為系統的主要性能瓶頸,因此 Context Parallel(CP)成為線上 Prefill 節點的主要并行策略。然而,現有的 SGLang 開源實現存在 KV Cache 冗余存儲的問題,導致有限的 KV Cache 容量成為 GPU 計算資源利用率的限制因素。


      圖 4:LayerSplit、KV Cache 分層存儲方案

      針對這一問題,我們設計并實現了一種 KV Cache 分層存儲方案(LayerSplit)。在該方案中,每張 GPU 不再保存全部層的 KV Cache,而是僅持有部分層的 KV Cache(如圖 4(a) 所示),從而顯著降低單卡的顯存占用。

      在計算過程中,不同 CP rank 按照圖 4(b) 所示的方式協同完成 Prefill:具體而言,持有某一層 KV Cache 的 rank 會在執行 Attention 計算前,將該層 Cache 廣播給其他相關 rank。為降低通信開銷,我們進一步設計了 KV Cache 廣播與 indexer 計算的重疊機制,使二者在時間上相互掩蓋。最終,整個流程中僅引入了 Indexer Cache 廣播的額外開銷,其規模約為 KV Cache 的 1/8,因此整體通信成本較低,對性能影響可以忽略。


      圖 5:GLM-5.1 + LayerSplit 在不同長度下的吞吐提升

      圖 5 展示了在 Cache 命中率達到 90% 的條件下,該優化在請求長度從 40k 到 120k 區間內帶來的性能提升。實驗結果表明,系統吞吐量提升幅度在 10% 至 132% 之間,且隨著上下文長度的增加,收益更加顯著。整體來看,該優化顯著提升了系統在 Coding Agent 場景下的處理能力。

      6 總結

      當智能真正進入高并發、長上下文的 Coding Agent 場景后,推理基礎設施的挑戰已經不只是吞吐、延遲和可用性,維護它的輸出質量變得至關重要。每一次對 Scaling Law 的追求,都必須有同等強度的系統工程作為支撐。我們分享這些經驗,希望幫助社區少走一些彎路,共同打磨出能夠承載 AGI 未來的推理基礎設施。

      會議推薦

      世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

      AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

      誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

      延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

      時光派長壽觀察
      2026-05-08 17:08:02
      印度9歲女童篡改成績單,父親竟用電鋸割斷她的喉嚨

      印度9歲女童篡改成績單,父親竟用電鋸割斷她的喉嚨

      揚子晚報
      2026-05-08 22:01:40
      郭大杰已任廣東省文化和旅游廳黨組書記

      郭大杰已任廣東省文化和旅游廳黨組書記

      中國能源網
      2026-05-09 14:33:02
      無力回天!今晚廣東主場對陣北京,賽前噩耗接連砸落,廣東危險了

      無力回天!今晚廣東主場對陣北京,賽前噩耗接連砸落,廣東危險了

      老皢尾聲體育解說
      2026-05-09 12:34:00
      強肝第一名!不是枸杞。也不是山藥,而是家家戶戶都有

      強肝第一名!不是枸杞。也不是山藥,而是家家戶戶都有

      白宸侃片
      2026-05-09 15:36:38
      張云明任西北工業大學黨委書記

      張云明任西北工業大學黨委書記

      界面新聞
      2026-05-09 17:17:29
      炸鍋!李湘暴瘦50斤判若兩人,真實瘦身原因太驚人

      炸鍋!李湘暴瘦50斤判若兩人,真實瘦身原因太驚人

      鄉野小珥
      2026-05-09 01:41:16
      烏軍精準點穴令普京暴怒,澤連斯基批準莫斯科免死區域

      烏軍精準點穴令普京暴怒,澤連斯基批準莫斯科免死區域

      西樓飲月
      2026-05-09 16:34:50
      蔣萬安被問懵:不認中國人身份,憑何遷兩蔣靈柩回大陸?

      蔣萬安被問懵:不認中國人身份,憑何遷兩蔣靈柩回大陸?

      娛樂的宅急便
      2026-05-08 13:39:15
      人均將分320萬元!SK海力士“帶飛”周邊房價,員工地位超越醫生律師,三星200人跳槽過來

      人均將分320萬元!SK海力士“帶飛”周邊房價,員工地位超越醫生律師,三星200人跳槽過來

      每日經濟新聞
      2026-05-09 15:14:43
      安徽巨星夜崩盤,窮到欠薪卻敢辦大型演唱會,粉絲淪為韭菜太扎心

      安徽巨星夜崩盤,窮到欠薪卻敢辦大型演唱會,粉絲淪為韭菜太扎心

      法老不說教
      2026-05-09 15:11:16
      堅決反對穆里尼奧回歸!皇馬傳奇態度鮮明:皇馬應該請回阿隆索

      堅決反對穆里尼奧回歸!皇馬傳奇態度鮮明:皇馬應該請回阿隆索

      夜白侃球
      2026-05-09 10:16:15
      公交集團正式員工已經躺平不了了,想要混到退休不太可能

      公交集團正式員工已經躺平不了了,想要混到退休不太可能

      娛樂圈見解說
      2026-05-09 00:23:44
      人民日報證實莫言的警告:人真的會被氣死!70%的重病跟情緒有關,這3個致命傷害往往來自3種身邊人!

      人民日報證實莫言的警告:人真的會被氣死!70%的重病跟情緒有關,這3個致命傷害往往來自3種身邊人!

      職場火鍋
      2026-05-06 21:52:40
      文章虧大了!老鄉張藝謀攜7位陜西演員,上演40集央視大劇,缺他

      文章虧大了!老鄉張藝謀攜7位陜西演員,上演40集央視大劇,缺他

      冷紫葉
      2026-05-08 23:20:13
      震驚足壇!馬拉多納死亡真相再曝光,臨終前 12 小時無人照料,7名醫護面臨重刑

      震驚足壇!馬拉多納死亡真相再曝光,臨終前 12 小時無人照料,7名醫護面臨重刑

      情感大頭說說
      2026-05-09 14:09:09
      敢用人才!張雪高薪請來64歲日本專家:地位僅遜自己 3奪世界冠軍

      敢用人才!張雪高薪請來64歲日本專家:地位僅遜自己 3奪世界冠軍

      念洲
      2026-05-08 18:02:59
      微軟把Office變成買斷制,訂閱黨該算賬了

      微軟把Office變成買斷制,訂閱黨該算賬了

      碼上閑敘
      2026-05-08 16:25:04
      沒有坦克、沒有青少年預備役:俄烏對峙下的俄羅斯勝利日閱兵

      沒有坦克、沒有青少年預備役:俄烏對峙下的俄羅斯勝利日閱兵

      紅星新聞
      2026-05-09 11:39:08
      尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

      尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

      火山詩話
      2026-05-09 06:34:45
      2026-05-09 18:16:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      12350文章數 51880關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎金

      頭條要聞

      韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎金

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      存儲芯片上演造富潮

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      家居
      旅游
      房產
      親子
      公開課

      家居要聞

      菁英人居 全能豪宅

      旅游要聞

      首屆中國新文創市集暨潮玩游園會下周在京舉辦,萬余種文創將亮相

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      親子要聞

      是哪個瞬間,讓你一秒就理解了媽媽?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩精品一区二区三区久| 亚洲AV无灬| 久久亚洲av一二三区| 亚洲黄色短视频| 亚洲人成人一区二区三区| 91中文字幕在线一区| 国产无吗一区二区三区在线欢| 国产精品天堂蜜av在线播放| 精品国产网红主播在线观看| 免费无遮挡无码永久视频| 亚洲综合高清一区二区三区| 国产精品成人中文字幕| 亚洲国产精品一区二区三| 日本一区二区三区内射| 97操逼| 最新午夜男女福利片视频 | 国产精品久久久影院色| 午夜天堂av天堂久久久 | 久久综合九色综合精品| 3Pav图| 99中文字幕精品国产| 高清不卡一区二区三区| 懂色av,蜜臀AV粉嫩av| 国产精品亚洲综合久久小说| 精品熟女日韩中文十区| 久久99精品国产精品| 丁香激情网| 国内精品久久人妻无码不卡| 免费看欧美日韩一区二区三区| 无码人妻精品一区二区三区蜜臀百度| 人妻伦理在线一二三区| 成年大片免费视频播放手机不卡 | 免费人妻无码不卡中文字幕系 | 五月花成人网| 成人精品免费视频在线观看| 成人熟妇无套内射视频| 成人黄色av免费观看| 在线看无码的免费网站| 国产伦精品一区二区三区妓女| 国产精品对白刺激久久久| 少妇50p|