<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-V4發布前夕,先邁出“關鍵一步”,打通智能體提速之路

      0
      分享至


      DeepSeek又有新動作了。

      不過,這次發布的,依然不是大家期待已久的DeepSeek-V4。

      但這并不妨礙它成為一次重磅亮相——DeepSeek聯合清華大學與北京大學,共同推出了一套全新的推理系統,名為DualPath


      更重要的是,這套系統并非為常規對話而設計,它所瞄準的,是當下更復雜、也更火熱的智能體場景中的核心難題。

      DualPath通過重構數據加載方式,大幅提升GPU利用率,讓智能體終于在長上下文、多輪交互的真實世界中,跑得更順暢、更實用了。

      既然是三大頂尖機構聯手發布的技術成果,論文里自然少不了一堆專業術語,讀起來容易讓人頭大。

      不過別擔心,這篇文章不講黑話,只講人話。帶你輕松搞懂:DualPath到底是什么,它厲害在哪。

      01

      智能體推理:算力成了配角

      你可能已經注意到,AI圈的風向變了——從“大模型”變成了“智能體”。

      過去用大模型,交互很簡單:你輸入一段提示詞,模型思考幾輪,給你一個答案。

      到了智能體時代,事情復雜了。交互的雙方,不再只是“人”和“機”,還有“機”和“機”。模型不僅要讀懂你的話,還要自己去調用瀏覽器、打開代碼解釋器、與外部環境打交道。交互次數也從幾次,飆升到幾十次、上百次。

      在這個過程中,智能體每次調用工具所產生的輸入輸出其實很短,可能只需要幾百個token。但問題在于,隨著交互輪次增加,上下文會像滾雪球一樣越積越大,最終堆積成幾十萬token的龐然大物。

      換句話說,智能體任務呈現出一種奇特的特征:多輪次、長上下文、短追加

      這種模式帶來的直接后果是——KV-Cache的命中率,常常高達95%以上。


      什么是KV-Cache?用一個追劇的比喻就能明白:

      假設大模型的推理過程,就像你在追一部連續劇,剛更新到第20集。

      第20集的內容,是由前19集的劇情背景(也就是上下文),加上第20集的新劇情(新輸入)組成的。

      如果沒有KV-Cache,就像你得了健忘癥,每次看新一集,都得把前面19集從頭到尾重看一遍,才能看懂第20集。

      而有了KV-Cache,就好比你已經把前19集牢牢記在腦子里,只需要看新的那一集,就能無縫銜接,繼續追下去。


      對于Transformer架構的模型來說,原理也是一樣的。

      當智能體完成一次交互,準備處理下一個任務時,它所需要的絕大部分上下文,早在之前的交互中就已經計算過了。直接讀取緩存就好,只有極少量新內容需要重新計算。

      所以,對計算機來說,KV-Cache的命中率當然是越高越好,因為命中就意味著“省事”。

      但“省事”的背后,卻藏著一個新問題:

      強大的GPU,算幾百個token的新一輪交互,可能還不到1毫秒。但在此之前,它需要先拿到那幾十萬token的“記憶”——也就是幾十GB的KV-Cache數據。

      要想用KV-Cache“省事”,就得把這些數據,從硬盤或分布式存儲設備里,硬生生地搬運到GPU的顯存里。

      這就像一個頂級大廚,炒一盤菜只需要1秒鐘,但他的助手買菜卻要花10秒鐘。


      于是,智能體推理的最大瓶頸,已經不是算力,而是KV-Cache數據的輸入輸出速度

      02

      現有架構:PD分離

      為了提升推理性能,業內普遍采用的架構叫做“預填充-解碼分離”,簡稱PD分離。

      簡單來說,在這種架構下,GPU集群被分成了兩個部門:

      一個是預填充引擎,負責處理海量輸入文本,屬于計算密集型任務,擅長批量處理;
      另一個是解碼引擎,負責一個字一個字地生成回答,對延遲極度敏感,但受限于內存。

      在這樣的組織方式下,預填充引擎需要不斷從外部存儲里加載海量的KV-Cache數據,它的存儲網卡幾乎隨時處于過飽和狀態,堵得水泄不通。

      與此同時,解碼引擎雖然也在正常運行,但它的存儲網卡大部分時間卻閑著沒事干。

      一個倉庫里,進貨的大門被堵死,出貨的大門空空蕩蕩,整個物流線就這樣卡住了。


      在算力成本高昂的今天,讓高性能芯片集群里的硬件資源閑置,簡直是極大的浪費。

      最直觀的解決辦法,當然是把進貨的大門拓寬——給預填充引擎增加帶寬。但在實際操作中,這既不現實,成本也高得嚇人。

      一個更聰明的辦法是:讓出貨的大門也來幫忙進貨——也就是讓閑置時的解碼引擎,分擔一部分“拉取數據”的任務。

      03

      DualPath:明修棧道,暗度陳倉

      來自DeepSeek、清華和北大的研究團隊在對現代AI數據中心的研究中得到了靈感。

      類似英偉達的AI超級計算機DGX SuperPOD,其架構普遍具備一個重要的硬件特性:網絡隔離。

      每個GPU一般配備兩套網卡:

      一是計算網卡(Compute NIC):專門用于GPU之間的跨節點卡間通信,通常配備多張總傳輸帶寬極大;

      二是存儲網卡(Storage NIC):用于讀寫硬盤或分布式存儲上的數據,通常只配備1張,總帶寬相對較小。

      在此基礎上,研究團隊試圖充分利用網絡傳輸性能,提出了雙路徑KV-Cache加載(Dual-path KV-Cache loading)的思路。

      先前的架構采用的路徑是:讓預填充引擎直接通過自己的存儲網卡,從硬盤或分布式存儲中拉取KV-Cache數據。

      而DualPath則是讓閑置的解碼引擎利用存儲網卡從硬盤或分布式存儲中拉取KV-Cache數據到其內存,再利用極高帶寬的計算網絡把數據快速傳輸給預填充引擎。



      當然,DualPath不會無腦讓解碼引擎來幫忙,而是會實時監控兩個大門的擁堵情況。

      如此一來,進貨的大門被堵住時,如果暫時沒有出貨,出貨的大門也開始進貨,所有引擎的存儲網卡帶寬都得到了有效利用,不對稱帶寬飽和問題得以解決。

      研究團隊經過嚴格的帶寬分析證明,在常見的預填充和解碼節點配比下,DualPath在使存儲網卡帶寬飽和的同時,計算網卡的帶寬也不會成為新的瓶頸,能夠覆蓋絕大部分實際部署場景。

      04

      流量調度與優先級博弈

      雖然數據的流向多繞了一大圈,實際推理效率卻能大幅提升,想法看起來很美好。

      但想要在以微秒級別運行的系統中落地,還有相當重量級的挑戰擺在眼前:

      一是大量數據引入帶來的混亂:

      讓解碼引擎幫著一起拉取歷史記憶數據(KV-Cache)確實是個好主意,但也會帶來巨大的風險。

      GPU在推理過程中,需要頻繁地與集群中的其他GPU進行“集體通信”,完成數據的同步和結果的交換,這種通信對延遲極其敏感,慢一點都不行。

      如果解碼引擎開始下載幾個GB的KV-Cache數據,火山噴發一般的數據流就可能擠占網絡帶寬,如果GPU之間的集體通信不幸被阻塞了,推理過程還是會卡住。

      為了解決這種混亂的情況,研究團隊在網卡層面上設置了一個高速上的“交警”:


      GPU之間的通信必須具有最高的優先級,它有走VIP通道的權力,無論如何都要保證正常運行、不許堵車;

      拉取KV-Cache數據的任務則只有普通優先級,VIP通道沒車的時候它才能上路,只要GPU通信任務出現,它就得立刻避讓。

      這位由計算網卡(CNIC)扮演的“交警”必須徹底隔絕兩種數據流量,確保解碼引擎拉取數據絕對不能影響GPU之間的集體通信。

      二是如何動態分配任務:

      人們的各種需求意味著智能體的推理任務總是動態變化的,有時請求多,有時請求少,有的請求長,有的請求短。

      如果這位“交警”指揮不當,那就必然會幫倒忙。例如,預填充引擎的帶寬明明沒有飽和,卻非要繞遠路讓解碼引擎去拉取數據。

      如何實時通過負載均衡(Load Balance)來動態分配任務,是這位“交警”必須面對的數學難題。

      為此,研究團隊設計了自適應請求調度器,讓系統在運行時根據存儲網卡的隊列長度、GPU計算負載以及請求特征,動態選擇最優的數據加載路徑。

      在引擎間,它不僅會監控每個GPU當下的計算負載,也就是待處理的token數量;還會同時監控底層分布式存儲在每個節點上的磁盤讀取隊列長度。


      這樣,新的請求總會被智能分配到讀取隊列最短、GPU最閑的那個引擎進行加載。

      在引擎內,由于多張GPU被綁定在一起干活,所有的GPU必須同時干完手上的活才能進入下一個環節,這就是注意力機制的同步。


      為了防止拿到短任務的GPU“干等著”拿到長任務的GPU,它需要使用基于計算配額的批處理選擇算法,把長任務分割為短任務,這樣多張GPU計算注意力機制的時間就能基本對齊,盡快進入到下一個環節。

      到這里為止,DualPath面對的問題就都解決了。

      05

      實測:吞吐量翻倍!

      現在到了檢驗技術成果的時候。


      研究團隊在基于InfiniBand高速互聯的英偉達Hopper GPU集群上,使用了DeepSeek-V3.2的660B參數版本、27B參數簡化版本和Qwen2.5-32B三種模型進行測試,并根據真實的智能體強化學習訓練軌跡進行評估。

      在離線批處理推理任務中,對于DeepSeek-V3.2 660B模型,DualPath的任務完成時間大幅縮短,系統的吞吐量最高可提升1.87倍,性能逼近無I/O延遲的理想狀態。

      在在線服務推理任務中,模擬的真實用戶會不斷涌入,系統需要在保證輸出第一個字符的延遲不超過4秒的情況下盡可能處理更多請求。

      結果顯示,DualPath系統能夠承載的并發請求數量平均達到基線系統的1.96倍,在特定的負載情況下甚至能達到2.25倍。

      而在擴大GPU集群至1152張的超大規模實驗中,DualPath展現出了接近線性的加速比,性能衰減極低,這個現象無疑為其投入實際使用提供了強大的說服力。

      回顧從“大模型”到“智能體”的發展歷史,我們可以看到一條清晰的路徑

      • 最早期的挑戰是算力,如何更快計算神經網絡矩陣是頭號問題;

      • 隨后內存登場,模型權重和KV-Cache占據了網絡傳輸帶寬;

      • 現在智能體爆發,上下文成倍增長,挑戰又來到了輸入輸出和網絡層面。

      DeepSeek、清華和北大三大巨頭聯手提出DualPath順利跨越了這個門檻,打破了數據的常規流向,讓閑置的資源得以充分利用。

      毫不夸張地說,又是一次軟硬件協同設計的教科書級別示范。

      大模型作為智能體的底層基礎設施,其內在計算邏輯正在悄無聲息地發生巨變。

      DualPath這種打破傳統邊界、極限壓榨硬件集群I/O潛力的分布式架構,必將成為下一代AI基礎設施的標配。

      不必因新產品遲遲未能發布而遺憾,因為技術已成為最牢固的基石,而日思夜想的DeepSeek-V4,已經指日可待。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      滿城臭味中準備對烏大空襲,俄軍展示縮水版“火烈鳥”導彈

      滿城臭味中準備對烏大空襲,俄軍展示縮水版“火烈鳥”導彈

      鷹眼Defence
      2026-05-13 17:21:14
      美以伊戰爭期間以總理密訪阿聯酋

      美以伊戰爭期間以總理密訪阿聯酋

      財聯社
      2026-05-14 01:24:11
      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      快速入睡無成癮!又一國產安眠新藥即將落地,3億失眠人有解了?

      思思夜話
      2026-05-12 16:51:58
      謝暉現狀:重返上海申花,俄羅斯妻子風韻猶存,兒女雙全財富自由

      謝暉現狀:重返上海申花,俄羅斯妻子風韻猶存,兒女雙全財富自由

      梁岱愛玩車
      2026-05-03 18:54:17
      太二門店圍擋火出圈,創意根本沒有瓶頸期

      太二門店圍擋火出圈,創意根本沒有瓶頸期

      4A廣告網
      2026-05-11 17:49:20
      越來越多的縣城,只剩下體制內經濟了!

      越來越多的縣城,只剩下體制內經濟了!

      黯泉
      2026-05-13 11:15:55
      別光盼特朗普專機,魯比奧突抵北京,信號遠超訪問本身

      別光盼特朗普專機,魯比奧突抵北京,信號遠超訪問本身

      老鵜愛說事
      2026-05-14 06:14:37
      今夏最值錢自由球員誕生!四隊瘋搶陳盈駿,頂薪被鎖何去何從?

      今夏最值錢自由球員誕生!四隊瘋搶陳盈駿,頂薪被鎖何去何從?

      寶哥精彩賽事
      2026-05-14 00:34:11
      熱搜!上海迪士尼優速通惹爭議,誰花錢多讓誰進?“奇夢之地也遵循商業邏輯”

      熱搜!上海迪士尼優速通惹爭議,誰花錢多讓誰進?“奇夢之地也遵循商業邏輯”

      北京商報
      2026-05-13 15:40:21
      夜景中的美女,身材真好

      夜景中的美女,身材真好

      藍色海洋009
      2026-05-13 17:06:46
      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      醫學原創故事會
      2026-05-12 15:34:03
      長得帥在生活中有多大優勢?網友:特別舍得給老公花錢

      長得帥在生活中有多大優勢?網友:特別舍得給老公花錢

      另子維愛讀史
      2026-05-13 22:40:33
      開15年汽修店老板揭秘:保養車最坑的2個智商稅,90%車主都交過

      開15年汽修店老板揭秘:保養車最坑的2個智商稅,90%車主都交過

      老特有話說
      2026-05-13 21:38:29
      加速糖尿病惡化的行為:甜食排第7,第1名很多人都沒意識到

      加速糖尿病惡化的行為:甜食排第7,第1名很多人都沒意識到

      冷眼看世界728
      2026-05-13 21:26:22
      編外人員“清退”開始,城管協管、輔警、護士教師都在其中

      編外人員“清退”開始,城管協管、輔警、護士教師都在其中

      巢客HOME
      2026-05-14 05:55:06
      重慶何主任:穿高跟開車撞飛8人,多重身份被扒,丈夫是電力領導

      重慶何主任:穿高跟開車撞飛8人,多重身份被扒,丈夫是電力領導

      小鋭有話說
      2026-05-13 15:51:53
      馬斯克點贊宇樹載人機甲:很酷!

      馬斯克點贊宇樹載人機甲:很酷!

      時間財經
      2026-05-13 20:12:22
      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      史不語
      2026-05-13 08:10:10
      扛住壓力了!馬刺替補中鋒為文班亞馬爭取到了10分鐘的出場時間?

      扛住壓力了!馬刺替補中鋒為文班亞馬爭取到了10分鐘的出場時間?

      稻谷與小麥
      2026-05-13 23:58:11
      孫穎莎奪冠第一個抱住的人,不是馬琳不是邱貽可,而是當陪練的她

      孫穎莎奪冠第一個抱住的人,不是馬琳不是邱貽可,而是當陪練的她

      白面書誏
      2026-05-13 17:25:06
      2026-05-14 08:04:49
      硅基星芒AI
      硅基星芒AI
      錦緞旗下人工智能研究與媒體服務平臺
      60文章數 7關注度
      往期回顧 全部

      科技要聞

      阿里年營收首破萬億,AI終于不再是畫大餅

      頭條要聞

      中東戰火燒痛印度 莫迪六天訪五國要外交“救國”

      頭條要聞

      中東戰火燒痛印度 莫迪六天訪五國要外交“救國”

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      數碼
      旅游
      親子
      家居
      公開課

      數碼要聞

      聯想上架“YOGA Air 14 Ultra”筆記本,提供FIFA世界杯限定版本

      旅游要聞

      泰國擬縮短93國游客免簽停留期限,從60天減少至30天

      親子要聞

      重慶兒童配眼鏡,家長指南:兒童防控五大核心問題匯總

      家居要聞

      內在自敘,無域有方

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产激情一区二区视频桃花视频| 国产97色在线?|?日韩| 91豆花视频18| 国产口爆吞精在线视频2020版 | 日本熟妇色xxxxx日本免费看| 国产成人无码A区在线观看导航| 日本精品视频一区二区| 加勒比亚洲视频在线播放| 夜夜添无码试看一区二区三区| 1024你懂的国产精品| 自拍亚洲欧美| 熟女激情| 国产午夜在线观看视频| 国产欧美综合在线观看第十页| 又爽又黄又无遮挡的视频| 乱码中文字幕| 成人片黄网站a毛片免费| 久久精品成人免费看| 国产超a级动作大片中文字幕| 日韩最新中文字幕| 亚洲国产日韩a在线亚洲| 久久99人妻无码精品一区| 亚洲中文人妻制服| 天天摸夜夜添狠狠添婷婷| 亚洲欧洲色图片网站| 亚洲第一极品精品无码久久| 日本深夜福利在线观看| 亚洲国产欧美不卡在线观看| 精品亚洲天堂| 中文无码AV在线亚洲电影| 九色综合狠狠综合久久| 成人午夜无人区一区二区| 亚洲精品麻豆一区二区| 国产乱子伦精品免费女| 玛曲县| 久久久精品国产麻豆一区二区无限| 亚洲aⅴ久久久噜噜噜噜| 久久精品亚洲热综合一区二区| 国产日产亚洲系列av| 国产黄色短视频| 人妻精油按摩bd高清中文字幕|