<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      獨家|Kimi聯合清華提出“算力預制菜”技術,AI詞元吞吐提高54%

      0
      分享至



      “算力預制菜”,這不是我提的,而是Kimi解析的PrfaaS技術總結。



      就在國產Kimi K2.6模型即將發布的前夕,月之暗面Kimi聯合清華放出關鍵技術突破。

      4月17日,Kimi與清華大學日前聯合推出全新跨數據中心架構PrfaaS(預填充即服務),直擊大模型長上下文算力瓶頸。

      PrfaaS架構把大模型長文本預填充單獨交給專屬算力集群處理,算出的KVCache通過普通網絡傳給解碼集群用;再搭配智能調度與緩存優化,不用高端低延遲網絡,就能讓預填充、解碼兩大模塊分開靈活擴容,降本又好部署。

      實測基于1T混合參數模型,這套增強異構方案僅占用少量跨機房帶寬,相較傳統同構部署、基礎異構方案,吞吐量分別提升54%、32%,大幅拉高超大模型集群吞吐上限。

      4月17日,該研究成果以《Prefill-as-a-Service:KVCache of Next-Generation Models Could Go Cross-Datacenter》為題發表在Arxiv上。

      本論文通訊作者為清華大學副教授、開源項目Mooncake發起人、開源項目KTransformers發起人章明星。

      核心作者包括中國工程院院士、清華大學計算機系教授鄭緯民,清華大學教授武永衛,月之暗面工程副總裁許欣然、月之暗面秦若愚等人。

      需要提及一點的是,這也是鄭緯民院士最自豪的研究成果之一——幾乎每次演講都會提到Mooncake。



      論文:https://arxiv.org/abs/2604.15039v1

      對于Kimi K2.5背后技術,詳見前文:楊植麟GTC大會演講全文:Kimi的三大核心技術將顛覆AI大模型的未來

      為什么PrfaaS優于傳統KVCache?

      這次誕生出兩個新的AI名詞:KVCache(鍵值緩存)、PrfaaS。

      通俗點說,KVCache就是使用AI回答問題時存起來的“歷史聊天記憶+計算草稿”,避免重復干活,大幅提速、省算力。

      實際上,目前在AI推理階段,大語言模型主要分PD兩步分離式架構輸出:

      1、預填充(Prefill)。你發完問題,AI一次性把你整段話、上下文全部算一遍,算出一堆關鍵數據,打包存下來,這堆存下來的數據就是KVCache。

      2、解碼生成(Decode逐字輸出)。后面慢慢打字的時候,直接調用存好的KVCache緩存,只算最新一個字,不用重復算前面所有內容。

      許欣然曾解釋稱:

      通常情況下,一臺機器上的GPU既用于“備菜”(預填充,即思考過程),也用于“炒菜”(解碼,即逐字逐句輸出),這兩個階段交替進行。假設今天只有一個請求,就是顯卡可以順利地進行“思考”和“輸出”,過程相對簡單。但是隨著用戶增多,傳統想法是需要更多人使用同一張卡進行服務,因此當顯卡在“炒菜”的過程中,如果有新請求進來,它就必須立即開始“備菜”。在Kimi的表現上可能是回答一半卡住,等一會兒再繼續,這樣的用戶體驗很差。

      通過分離式架構,我們將“備菜”和“炒菜”階段獨立開來。這樣每個階段都有專人負責,如果“炒菜”的資源不足,就增加“炒菜”的資源,“備菜”資源不足就增加“備菜”的資源,每個任務完成后,轉交至下一階段。這樣不管用戶有多少,只要對話開始,就不會出現卡頓問題。我們可以放心地將壓力加載,GPU始終保持滿負荷運行。一方面降低了成本,另一方面也提升了用戶體驗,實現了雙贏。

      當前,預填充-解碼 (PD) 解耦已成為大規模 LLM 服務的標準架構,但實際上其部署邊界仍然取決于鍵值緩存 (KVCache) 的傳輸。

      而在傳統的密集注意力模型中,預填充會產生巨大的KVCache流量,使得預填充和解碼在單個高帶寬網絡域內緊密耦合,從而限制了異構部署和資源彈性。

      近年來,包括DeepSeek在內的全新混合注意力架構,大幅減小了KVCache的大小,使得跨集群KVCache傳輸變得越來越可行。

      然而,僅僅減小KVCache的大小并不能使異構跨數據中心的PD服務真正實現:實際工作負載仍然具有突發性,請求長度高度不均勻,前綴緩存分布不均,并且集群間帶寬波動較大。

      因此,完全將預填充外部化的簡單設計仍然可能面臨擁塞、隊列不穩定和利用率低等問題。



      論文中以MiniMax 2.5為例。

      在標準 Transformer 式注意力中,KVCache 隨上下文長度線性增長,可能達到數十GB。具有GQA的代表性密集模型 MiniMax-M2.5 在不同輸入長度下的 KV 吞吐量,瓶頸非常明顯:對于一個32K tokens的請求,單個MiniMax-M2.5實例產生的KVCache約為60 Gbps,所需的出站帶寬遠遠超過典型機器跨數據中心以太網的容量。

      這正是為什么傳統的PD分離仍然在操作上與緊密集成的網絡域綁定在一起的原因。網絡預算如此之大,以至于在更松散的互連上移動預填充和解碼,更不用說跨數據中心了,根本不可行。



      因此,在AI算力工程階段,Kimi和清華大學團隊基于全新的跨數據中心服務架構“預填充即服務”(Prefill-as-a-Service,簡稱PrfaaS),解決此問題。

      那么,PrfaaS如何解決傳統PD分離架構的異構部署瓶頸?我根據論文,總結了以下三點:

      1、混合注意力模型減少KVCache規模;

      2、選擇性卸載長上下文請求問題,使僅50%的長請求占用帶寬,且混合模型KV吞吐量降低13倍,最終跨數據中心帶寬需求僅為13Gbps

      3、帶寬感知調度與緩存感知路由,使跨數據中心帶寬需求降至百Gbps量級。

      具體而言,根據論文,PrfaaS-PD系統包含三個角色:PrfaaS預填充、PD-P(PD集群內的預填充節點)和PD-D(PD集群內的解碼節點)。

      該架構選擇性地將長上下文預填充任務卸載到獨立的、計算密集型的預填充集群,并通過通用以太網將生成的鍵值緩存(KVCache)傳輸到本地的預處理集群進行解碼。

      PrfaaS并非僅僅減少KVCache容量,而是將模型端的鍵值效率與系統端的選擇性卸載、帶寬感知調度和緩存感知請求放置相結合。這種設計無需異構加速器共享相同的低延遲RDMA網絡,從而實現了在耦合集群間獨立擴展預填充和解碼容量。

      論文還通過一個案例研究來驗證這一思路,該案例使用了內部的1T參數混合模型——也就是Kimi K2.5。



      遵循Kimi Linear架構,該模型在獨立的PrfaaS集群用于長上下文預填充、以及傳統PD集群用于解碼和短上下文預填充所構成的異構部署中,系統的服務吞吐量分別比同構PD基準和拓撲異構基準高出54%和32%,同時每臺機器僅消耗適度的跨數據中心帶寬。

      這些結果表明,KVCache高效的模型架構是必要的,但并不足以實現跨數據中心的異構服務。真正使部署可行的是模型端KVCache的精簡與系統端選擇性卸載及帶寬感知調度的結合。

      二者共同作用,將跨數據中心PD分離從一種頗具吸引力的想法轉變為一種切實可行的服務架構。

      論文指出,盡管異構PrfaaS-PD配置中采用32個H200 GPU,本地PD采用64個H20 GPU,但僅作為具有代表性的硬件組合,并非唯一可行的搭配。更具成本效益的預填充專用芯片將進一步降低生產環境中的部署成本。

      換句話說,這套架構也用了國產或專用AI芯片進行部署測試。

      論文結論中表示:“為應對異構分散推理的實際部署挑戰,我們提出了跨數據中心KVCache的概念,將分散式服務從單一同構集群擴展到跨集群的異構部署。在此基礎上,我們設計了PrfaaS-PD分散架構,通過利用商品以太網連接的異構PrfaaS集群,以低成本提升系統服務吞吐量。我們設想,跨數據中心KVCache范式將與下一代模型、硬件和網絡協同演進,從而實現大規模下高效大模型服務。”

      論文作者介紹&Kimi新模型曝光



      本論文通訊作者、清華大學教授、KVCache.AI團隊負責人章明星,本科畢業于北京郵電大學,博士畢業于清華大學,師從清華大學教授武永衛,曾擔任深信服首席算法技術專家和創新研究院院長,并在系統領域發表數十篇頂級會議論文。

      清華大學KVCache.AI團隊發布了開源項目KTransformers中,僅用一張24GB的消費級顯卡就成功驅動了具有236B參數量的DeepSeek V2大模型,實現了14 Tokens/秒的生成速度——這意味著,2千億大模型的使用門檻降低到4萬以內。

      天眼查顯示,清華大學計算機科學與技術系教授武永衛聯合發起成立的AI infra公司趨境科技中,章明星持股2.6783%。



      鄭緯民院士。現任中國工程院院士、九源智能計算系統生態聯合體理事長、清華大學計算機系教授。

      鄭緯民院士1970年畢業于清華大學自動控制系,1982年獲清華大學計算機科學與技術專業碩士學位,1985年至1986年在美國紐約州立大學石溪分校進修學習,1989年至1991年在英國南安普敦大學進修學習,曾任中國計算機學會理事長。2019年,鄭緯民當選中國工程院院士。

      鄭緯民主要學術方向為網絡存儲系統。長期從事網絡存儲系統科學研究、工程建設和人才培養。



      本論文第一作者Ruoyu Qin(秦若愚),目前就職于月之暗面,曾在清華大學計算機科學與技術系MADSys實驗室讀博,師從章明星教授,主要研究領域為分布式系統和機器學習系統。

      此前,秦若愚和章明星在KVCache.AI項目上,與月之暗面共同發布了人工智能助手Kimi底層的Mooncake模型推理架構。這一架構承載了Kimi 80%以上的實際線上流量,在某些模擬場景中,吞吐量可以增加到未優化場景的5.25倍。

      Mooncake論文還在USENIX 文件和存儲技術會議 (FAST)上獲得Erik Riedel Best Paper Award。



      就在今年4月15日,Kimi推出的K2.6-code-preview已經上線。

      這意味著,Kimi即將要發布K2.6系列新的基座模型。

      早前,據界面新聞,在Kimi K2.5模型發布一個月之后,月之暗面ARR(年度經常性收入)突破1億美元。

      不得不說,楊植麟掌舵的月之暗面堪稱AI賽道迭代標桿。

      一邊快速更新Kimi模型版本,一邊深耕底層算力架構創新,軟硬協同全速突破,進化效率拉滿,穩步奔赴AGI終局。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海街頭大量出現!地上、車上、鞋上全都黏糊糊的!網友傻眼:根本擦不干凈!

      上海街頭大量出現!地上、車上、鞋上全都黏糊糊的!網友傻眼:根本擦不干凈!

      上觀新聞
      2026-05-14 21:38:10
      劉曉慶19套房百億翡翠全捐!養大外甥分文不給,真相來了

      劉曉慶19套房百億翡翠全捐!養大外甥分文不給,真相來了

      一盅情懷
      2026-05-13 13:58:32
      柳巖持股光線傳媒

      柳巖持股光線傳媒

      雷達財經
      2026-05-14 10:13:50
      炸鍋!阿森納鎖定 9000 萬皇馬未來球王,穆里尼奧或成最大助攻

      炸鍋!阿森納鎖定 9000 萬皇馬未來球王,穆里尼奧或成最大助攻

      瀾歸序
      2026-05-14 03:10:36
      江西省政府副秘書長,省政府辦公廳黨組成員鄧永翔

      江西省政府副秘書長,省政府辦公廳黨組成員鄧永翔

      汲古知新
      2026-05-13 16:48:44
      徐子淇老的不忍直視!和李家誠一起看望楊受成,眼袋重皮膚冒油光

      徐子淇老的不忍直視!和李家誠一起看望楊受成,眼袋重皮膚冒油光

      小娛樂悠悠
      2026-05-13 11:14:18
      特朗普給中國送上大禮,3000億美元采購,人民幣一舉完成歷史破局

      特朗普給中國送上大禮,3000億美元采購,人民幣一舉完成歷史破局

      可樂談情感
      2026-05-14 19:09:48
      A股3億股民聽好了!無論空倉還是滿倉,接下來開盤前務必聽我一句

      A股3億股民聽好了!無論空倉還是滿倉,接下來開盤前務必聽我一句

      夜深愛雜談
      2026-05-14 20:15:50
      特朗普先到北京卻繞開東京,表面給日本丟面子,實則救了它一命

      特朗普先到北京卻繞開東京,表面給日本丟面子,實則救了它一命

      煙潯渺渺
      2026-05-14 21:12:15
      小雷:瓜迪奧拉給水晶宮球員做了一番動員,讓他們好好踢槍手

      小雷:瓜迪奧拉給水晶宮球員做了一番動員,讓他們好好踢槍手

      懂球帝
      2026-05-14 20:15:22
      宋佳調侃張嘉益:為何不推薦我試鏡《主角》? 張嘉益回復全場笑翻

      宋佳調侃張嘉益:為何不推薦我試鏡《主角》? 張嘉益回復全場笑翻

      娛最資訊
      2026-05-14 09:47:07
      米切爾絕殺失誤被噴上全美熱搜!加時賽3中3救贖:延續7連20+紀錄

      米切爾絕殺失誤被噴上全美熱搜!加時賽3中3救贖:延續7連20+紀錄

      顏小白的籃球夢
      2026-05-14 11:19:53
      《主角》口碑井噴,本是沖著張嘉益劉浩存來的,卻被48歲女配驚艷

      《主角》口碑井噴,本是沖著張嘉益劉浩存來的,卻被48歲女配驚艷

      冷紫葉
      2026-05-11 23:11:14
      重磅!國家正式出手!不生孩子的時代要結束了?

      重磅!國家正式出手!不生孩子的時代要結束了?

      瓜哥的動物日記
      2026-05-14 19:13:53
      A股:今天大跌收市,尾盤加速跳水,原因是什么?明天還會下跌?

      A股:今天大跌收市,尾盤加速跳水,原因是什么?明天還會下跌?

      虎哥閑聊
      2026-05-14 15:08:39
      當年千手觀音的聾啞人領舞,被富商苦追8年,如今她成了這副模樣

      當年千手觀音的聾啞人領舞,被富商苦追8年,如今她成了這副模樣

      混沌錄
      2026-05-12 23:09:07
      葉珂直播坦言與黃曉明生女后草率分手,男方私生活成關鍵

      葉珂直播坦言與黃曉明生女后草率分手,男方私生活成關鍵

      李虰手工制作
      2026-05-14 00:56:02
      CBA半決賽賽程公布!胡金秋傷勢出爐,上海深圳占優,用外籍裁判

      CBA半決賽賽程公布!胡金秋傷勢出爐,上海深圳占優,用外籍裁判

      老吳說體育
      2026-05-13 23:35:39
      不懂窮人就別亂拍!看央視《主角》,才知“假窮人”有多離譜!

      不懂窮人就別亂拍!看央視《主角》,才知“假窮人”有多離譜!

      米果說識
      2026-05-14 22:06:58
      夏天已至,醫生叮囑糖尿病人:寧可吃西瓜,也別天天吃這5種食物

      夏天已至,醫生叮囑糖尿病人:寧可吃西瓜,也別天天吃這5種食物

      周哥一影視
      2026-05-14 18:40:09
      2026-05-14 22:40:49
      智能紀元AGI
      智能紀元AGI
      專注科技、科學、商業產業報道
      2315文章數 10609關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      女子稱關閉支付寶支付功能被扣款捐贈184萬 多方回應

      頭條要聞

      女子稱關閉支付寶支付功能被扣款捐贈184萬 多方回應

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      教育
      健康
      親子
      房產
      軍事航空

      教育要聞

      中央財政安排5億元支持提升校園足球特色學校能力水平

      專家揭秘干細胞回輸的安全風險

      親子要聞

      監控下的幼兒園小可愛,主動幫老師搬桌開門,邏輯超在線

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      軍事要聞

      美以伊戰爭期間以總理密訪阿聯酋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91真实人妻宾馆露脸| 91香蕉国产亚洲一二三区| 久久一区二区三区黄色片| 日本一区二区三区黄色网| 亚洲成在人网av天堂| 中文字幕无码Av在线看| 人妻少妇偷人无码视频| 久久天天躁狠狠躁夜夜躁2o2o| 国产福利永久在线视频无毒不卡| 一区二区久久| 日本精品videossex黑人| 国产精品视频一区二区噜噜 | 亚洲成人视屏| 国内精品伊人久久久久7777 | 熟女制服丝袜,中文字幕| 中文字幕国产精品日韩| 四虎网址| 亚洲欧洲日产国产无码AV| 亚洲国产色图| 亚洲AV优女天堂波多野结衣| …亚洲 欧洲 另类 春色| 夜夜高潮次次欢爽av女| 成人午夜视频在线| 久色资源| 色综合久久一区二区三区| 亚洲一区天堂| 欧美另类videossexotv人妖| 蜜臀久久精精品久久久久久噜噜 | 草草浮力影院| 99国产成+人+综合+亚洲欧美| 天天综合成人| 无遮挡成年黄漫画网站| 国产精品妇女一二三区| 亚洲伊人精品久视频国产| 国产欧美日韩精品第二区| 亚洲AV一日韩| 少妇人妻系列无码专区视频 | 美女视频黄频a免费| 九九国产| 中文字幕V亚洲日本在线电影| 国产精品国产三级国产专|