<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      當GPU不再夠用,英偉達開始押注另一種計算

      0
      分享至

      2025年12月24日,當大多數人仍沉浸在節日氛圍中時,英偉達卻以約200億美元悄然完成了一筆分量十足的技術并購。

      交易的對象是Groq——這家由前谷歌工程師喬納森·羅斯創立的AI推理芯片公司,主打名為LPU(語言處理單元)的芯片架構,其設計路徑與英偉達長期依賴的GPU體系截然不同。

      比交易更耐人尋味的,是典型的“英偉達速度”:從并購敲定到在GTC 2026舞臺正式亮相,前后僅用不到四個月。Groq團隊負責人甚至將這一過程稱為“半導體史上產品化速度最快的案例之一”。


      這一速度背后,是清醒的戰略判斷,英偉達并不是在收編一個競爭對手,而是在為接下來的AI計算重心轉移提前落子。

      推理經濟的崛起

      過去幾年,衡量AI競爭力的核心坐標是訓練算力。誰能堆更多GPU、訓練更大規模的模型,誰就站在行業前沿。這一邏輯推動了大量資本涌入Hopper架構、Ampere架構GPU集群,也讓英偉達的GPU成為AI基礎設施的絕對代名詞。

      但這一等式正在悄然改變。

      據機構數據顯示,2026年,推理工作負載將占據全部AI計算需求的三分之二左右,而2023年這一比例僅為三分之一。Gartner預測,55%的AI優化基礎設施支出將流向推理側。此外,推理市場的體量也在快速膨脹,預計從2025年的1060億美元增長至2030年的2550億美元,年復合增長率接近20%。

      與訓練任務相比,推理運行的經濟學邏輯截然不同。訓練是一次性支出,花錢買權重,而推理則會持續消耗,生產系統中每一次預測都需要完整運行前向傳播,理論上占據AI系統生命周期總成本的80%至90%。

      更深層的壓力來自AI Agent的興起。當AI從簡單的對話問答演變為能夠規劃任務、調用工具、跨系統執行的自主智能體,每一個推理步驟都意味著大量token生成。一個復雜的代理工作流,token消耗量可能是普通聊天的15倍甚至更多。其往往還會將多個模型調用串聯起來,最終成本可能是單次推理的5到10倍。

      在GTC 2026主題演講上,英偉達CEO黃仁勛將這一現象稱為“上下文爆炸”,隨著歷史記錄、工具輸出和推理步驟反復傳遞,token總量以指數級增長,推理成本隨之急劇上升。

      這正是GPU最難解的一道題。

      通用引擎遭遇專用挑戰

      GPU的崛起,根植于其處理并行計算任務的獨特優勢。大量浮點運算、靈活的動態調度、配合高帶寬顯存(HBM)實現的極高吞吐,讓它在模型訓練場景中有著幾乎無可替代的地位。

      然而訓練和推理是兩種本質不同的計算方式。訓練追求吞吐量,任務可以批量堆疊、并行流水;推理(尤其是實時推理)追求的是延遲,每個token必須盡快產出。GPU的通用架構在推理場景中開始暴露出結構性短板。

      從推理流程的內部結構來看,可以將其分為兩個階段:預填充(prefill)和解碼(decode)。預填充是計算密集型任務,與訓練相似;解碼則是內存帶寬密集型任務,每生成一個token,都需要將模型的全部活躍參數從內存中流過一遍。這意味著解碼對內存帶寬的依賴程度極高,而HBM的帶寬終究有上限。

      另一個角度是成本結構。GPU的物料成本很大程度上集中在HBM堆疊內存和配套中介層上,例如英偉達的Rubin GPU,其大部分成本都花在HBM4內存及其與GPU連接所需的中介層上。對于那些不需要海量參數存儲、只需要快速解碼的推理場景,這部分投入的性價比極低。

      這是一個結構性缺口,靠持續堆疊GPU算力顯然是無法填補的。

      LPU:為確定性而生

      Groq的LPU走的是一條幾乎相反的設計路徑。

      LPU的核心設計哲學是確定性執行。與GPU依賴動態硬件調度、多級緩存層次不同,LPU將控制平面完全交給編譯器,在編譯器完成所有執行路徑的規劃,實現精確到時鐘周期的可預測執行。

      這意味著,在芯片運行之前,推理過程要花多長時間已經被編譯器算清楚了。

      實現這一特性的關鍵硬件是巨大的片上SRAM。LP30芯片搭載500MB的片內SRAM,這些SRAM與計算單元之間的內存帶寬高達150TB/秒。

      相比之下,Rubin GPU搭載288GB的HBM,內存帶寬為22TB/秒。LP30的內存容量只有GPU的幾百分之一,但內存帶寬卻高出7倍。

      這一優勢完美契合了推理的需求。解碼階段的瓶頸不是算力,而是數據流速。權重需要在每個token生成時被快速訪問,訪存速度越快,單token延遲越低,而SRAM可以用極小的容量換極高的速度,用靜態調度換確定性延遲。


      在這種設計下,隨著更多LPU芯片加入集群,單token延遲會隨著系統規模擴展而近似線性下降,這是傳統GPU架構極難實現的特性。LPU大規模部署后,整個集群可以作為一個巨型單處理器運作,以極低且穩定的延遲服務高價值用戶。

      當然,LPU也有明確的局限。500MB的片內SRAM對于萬億參數模型來說遠遠不夠,需要大量芯片協同才能裝下完整模型權重。對于單機來說,LPU的經濟性也并不出色。它的價值在于在規模擴展時,能夠將速度優勢兌換成商業溢價,服務那些愿意為極低延遲支付高溢價的用戶。

      從某種角度來看,GPU是高通量的“脫粒機”,適合處理大批量、多用戶并發的推理任務;而LPU則是極速的“單車道”,適合服務極低延遲、高價值、單用戶或少量用戶的推理場景。

      英偉達的選擇:異構計算的系統重構

      弄明白了GPU和LPU各自的優勢邊界,就不難理解英偉達在GTC 2026上展示的架構選擇了。

      Vera Rubin平臺整合了七款芯片,包括Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太網交換機,以及新納入的Groq 3 LPU。這七款芯片協同工作,構成一臺大規模預訓練、后訓練、測試時擴展到智能體式推理、覆蓋AI全周期的超級計算機。


      其中最具技術含量的創新,是GPU與LPU在推理流水線內部的職責分工。英偉達將推理過程拆解得更加精細:預填充階段及解碼中仍受益于高吞吐的注意力計算繼續由Rubin GPU承擔,而前饋網絡(FFN)的執行則交由LPU處理。這種分工被稱為注意力與前饋網絡解耦(AFD),是專為壓縮解碼延遲設計的系統級優化路徑。

      配備256個LP30 LPU的LPX機架擁有128GB片上SRAM和640TB/秒的擴展帶寬。與Vera Rubin NVL72集成后,Rubin GPU和LPU通過對每個輸出token的每一層模型進行聯合計算,可將解碼速度顯著提升,每兆瓦推理吞吐量最高可提升35倍,萬億參數模型的收益機會最高可提升10倍。

      從性能曲線的角度理解,GPU和LPU的優勢區間形成互補。GPU在中低端推理層級(高并發、低成本)提供強大的吞吐能力,LPU則將性能曲線向高端延伸,覆蓋那些對單用戶延遲要求極端苛刻、愿意支付高溢價的推理層級。

      連接這套異構系統的軟件層是Dynamo推理框架。Dynamo擁有許多能力特點,其中在異構計算環境下可靈活分配負載,根據請求特征——批次大小、上下文長度、延遲敏感度——在GPU與LPU之間動態路由,從而在整個吞吐與延遲范圍內實現更均衡的性能曲線。推理優化的重點從單芯片性能,提升到了系統級資源編排的層面。

      存儲層的同步演進:NVIDIA BlueField-4 STX全新的存儲基礎設施

      GPU與LPU的協同還不是完整圖景。代理式AI的另一個基礎設施瓶頸在于存儲,長上下文推理需要實時訪問海量歷史記憶和上下文數據,而傳統存儲架構的響應速度無法匹配。

      NVIDIA BlueField-4 STX機架式架構專為解決這一問題設計。它將BlueField-4處理器與Vera CPU和ConnectX-9 SuperNIC相結合,提供高帶寬共享層,針對存儲和檢索大語言模型和智能AI工作流生成的海量鍵值緩存數據進行了深度優化,與傳統存儲相比,每秒可處理的token提升高達5倍。


      這一系統通過NVIDIA DOCA Memos軟件框架實現專用的鍵值緩存存儲處理,最終目標是在整個數據中心POD范圍內實現上下文信息的快速流通,從而加快多輪對話中的AI代理響應速度,提升并行任務的連貫性。存儲層的升級,是整個推理基礎設施中容易被忽視卻至關重要的一環。

      協同設計

      將以上所有模塊拼在一起,英偉達正在勾勒一種分層化的AI計算秩序:GPU繼續主導大規模訓練與批量推理,承擔高吞吐、多用戶并發的基礎計算任務;LPU專注于解碼階段的極低延遲推理,覆蓋高價值的單用戶實時交互;Vera CPU則承擔系統調度、強化學習環境驗證和控制邏輯;BlueField-4 STX負責上下文記憶的快速存取。

      Vera CPU擁有88個定制Olympus核心,效率是傳統機架式CPU的兩倍,速度提升50%,專為智能AI所需的極端利用率提供穩定響應。其重要性在AI Agent時代尤為突出。強化學習和智能AI工作負載需要大量CPU環境來測試和驗證模型的行為,CPU的規模與質量直接影響AI系統的反饋速度。

      這種分工體系的背后,是對不同計算負載特性的精準匹配:訓練與批量推理的高吞吐特性對應GPU,解碼延遲敏感性對應LPU,系統級調度與環境模擬對應CPU,上下文持久化對應存儲加速層。每種計算單元都被部署在最能發揮其價值的位置,而不是用一種硬件強行覆蓋所有場景。

      這一協同設計也在重塑AI基礎設施的成本模型。通過讓不同負載匹配最合適的硬件,整體功耗和每token成本都能大幅改善。與Blackwell平臺相比,Vera Rubin NVL72使用四分之一數量的GPU即可訓練大型混合專家模型,每瓦推理吞吐量提高10倍,每個token的成本降至其十分之一。

      競爭格局的重塑

      英偉達將Groq納入麾下,也徹底重塑了外部競爭格局。

      在低延遲推理領域,Cerebras和SambaNova等公司已經構建了類似邏輯的架構,以SRAM為核心實現高速推理。英偉達通過收編Groq,將這一技術路線直接整合進自己的平臺,同時封堵了潛在的市場缺口。

      亞馬遜與Cerebras宣布合作,將AWS的Trainium-3加速器與Cerebras的晶圓級加速器結合部署,邏輯與英偉達的GPU-LPU系統如出一轍。這說明異構推理架構并非英偉達獨有的判斷,而是行業內已經形成的技術共識。差別在于誰能以更完整的軟件棧、更大規模的生態和更快的量產節奏建立優勢。

      英偉達在這場競爭中握有顯著的結構性優勢。不只是芯片本身,而是從CUDA生態、Dynamo調度框架、NVLink互連,到合作伙伴體系和模型開發者關系的整體綁定能力。

      黃仁勛甚至將Groq與Mellanox的并購相提并論:Mellanox的技術成為NVLink和InfiniBand的基礎,為英偉達構筑了AI集群互聯的護城河,而Groq的LPU,正在以同樣的方式成為推理基礎設施的內嵌組件。

      放在更長的時間維度下審視,英偉達的這輪技術布局,指向的是一個更清晰的趨勢:AI正從實驗室中的研究工具,轉變為支撐產業運行的基礎設施,其計算價值的重心也隨之從“短期建造”轉向“長期運行”。

      黃仁勛在GTC上明確劃定了這種分工,純粹的高吞吐訓練與批量推理繼續由Vera Rubin承擔;實時代理式AI、對話推理和低延遲交互工作負載,則需要LPU的加持。

      這意味著,行業競爭的核心指標正在遷移。從單芯片的FLOPs比拼,轉向系統級架構整合與調度效率的較量。誰能更有效地將不同計算范式無縫編排在一套基礎設施中,誰就能在推理經濟時代獲得更強的定價權和平臺地位。

      GTC 2026上展示的三套新系統,共同指向同一個信號:英偉達已不再只是GPU供應商,而是在向覆蓋推理優化、CPU編排和存儲層的全棧AI基礎設施平臺演進。

      從Hopper到Blackwell再到Vera Rubin,每一代平臺都在擴展英偉達的覆蓋邊界。而這一次,LP30的加入意味著英偉達第一次主動引入了一個與GPU架構哲學根本不同的計算單元,不是作為補充,而是作為整個系統設計的有機組成部分。

      當GPU不再夠用,英偉達給出的答案,是讓不同邏輯的芯片在同一個框架下找到各自的最優位置。這種選擇,標志著AI基礎設施競爭從單一硬件的極限堆砌,正式進入異構協同的新階段。

      *免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。

      今天是《半導體行業觀察》為您分享的第4392內容,歡迎關注。

      加星標??第一時間看推送

      求推薦

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “富人才不會把女兒養這么胖”,家長曬女兒喝60元礦泉水,被群嘲

      “富人才不會把女兒養這么胖”,家長曬女兒喝60元礦泉水,被群嘲

      番外行
      2026-04-22 14:51:19
      克雷桑2分鐘傳射!首破申花球門,3場獨造6球,兩年第一次

      克雷桑2分鐘傳射!首破申花球門,3場獨造6球,兩年第一次

      奧拜爾
      2026-05-05 20:11:17
      從三聚氰胺到優思益:十七年過去,我們還在原地打轉

      從三聚氰胺到優思益:十七年過去,我們還在原地打轉

      鳳眼論
      2026-04-02 15:35:27
      2002年央視在羅布泊錄節目時,被抓的盜墓賊痛哭:活著的都不是人

      2002年央視在羅布泊錄節目時,被抓的盜墓賊痛哭:活著的都不是人

      貓眼觀史
      2025-04-11 22:17:53
      斯諾克世錦賽中國“00后”選手吳宜澤奪冠,多家上市公司受益,金利來提前押寶成功

      斯諾克世錦賽中國“00后”選手吳宜澤奪冠,多家上市公司受益,金利來提前押寶成功

      紅星資本局
      2026-05-05 19:04:42
      海外掀起 “成為中國人” 熱潮,中國式生活為何風靡全球|鳳凰聚焦

      海外掀起 “成為中國人” 熱潮,中國式生活為何風靡全球|鳳凰聚焦

      鳳凰衛視
      2026-05-04 22:59:27
      歐冠半決賽直播:一場被切割的觀賽生意

      歐冠半決賽直播:一場被切割的觀賽生意

      影視情報室
      2026-05-06 00:05:36
      巴薩陰招壓低拉什福德身價,將奪冠卻貶值1500萬!曼聯堅持不降價

      巴薩陰招壓低拉什福德身價,將奪冠卻貶值1500萬!曼聯堅持不降價

      羅米的曼聯博客
      2026-05-05 11:18:58
      特朗普稱烏克蘭比北約更能打 當眾抬高澤連斯基

      特朗普稱烏克蘭比北約更能打 當眾抬高澤連斯基

      桂系007
      2026-05-05 23:47:00
      實探鄭州中牟蒜地:免費抽蒜薹持續近一個月,有人從海南專程來,農戶提供午餐

      實探鄭州中牟蒜地:免費抽蒜薹持續近一個月,有人從海南專程來,農戶提供午餐

      環球網資訊
      2026-05-05 09:36:24
      剛吃完釋永信的瓜,陜西道協會長又被實名扒皮,20年偽裝全是騙局

      剛吃完釋永信的瓜,陜西道協會長又被實名扒皮,20年偽裝全是騙局

      科學發掘
      2026-05-05 11:39:01
      西安富力希爾頓酒店將二次拍賣 起拍價3.3億元

      西安富力希爾頓酒店將二次拍賣 起拍價3.3億元

      觀點機構
      2026-05-05 21:11:08
      悲催!從停車場駛出1分鐘,因上人被電子抓拍,一司機經歷引熱議

      悲催!從停車場駛出1分鐘,因上人被電子抓拍,一司機經歷引熱議

      火山詩話
      2026-05-04 15:47:01
      宋喆直播賣棗笑塌全網!百萬流量零成交,滿屏王寶強彈幕扎心到爆

      宋喆直播賣棗笑塌全網!百萬流量零成交,滿屏王寶強彈幕扎心到爆

      誮惜顏a
      2026-01-13 01:12:10
      澤連斯基亮出絕密證據:俄內部文件泄露,俄軍60%精銳已打殘

      澤連斯基亮出絕密證據:俄內部文件泄露,俄軍60%精銳已打殘

      矚望云霄
      2026-05-02 21:15:38
      34歲肖戰拿下影帝那晚,倪萍拍他肩膀時,他耳朵紅了

      34歲肖戰拿下影帝那晚,倪萍拍他肩膀時,他耳朵紅了

      人間娛事集
      2026-05-05 18:55:11
      意甲第35輪最佳陣容:姆希塔良入選,羅馬3人在列

      意甲第35輪最佳陣容:姆希塔良入選,羅馬3人在列

      懂球帝
      2026-05-06 00:48:07
      遼寧男籃今日早報!烏戈卸任總教練職位,趙繼偉新工作安排,楊鳴接觸新下家

      遼寧男籃今日早報!烏戈卸任總教練職位,趙繼偉新工作安排,楊鳴接觸新下家

      凱豐侃球
      2026-05-05 09:26:17
      陸軍上將再掌俄羅斯空天軍:克宮的用人邏輯!烏克蘭英雄后繼有人

      陸軍上將再掌俄羅斯空天軍:克宮的用人邏輯!烏克蘭英雄后繼有人

      鷹眼Defence
      2026-05-05 17:27:42
      庫尼亞回應休賽傳聞;巴特:曼聯需要7名球員來充實球隊陣容

      庫尼亞回應休賽傳聞;巴特:曼聯需要7名球員來充實球隊陣容

      MUREDS
      2026-05-05 23:50:01
      2026-05-06 01:55:01
      半導體行業觀察 incentive-icons
      半導體行業觀察
      專注觀察全球半導體行業資訊
      13589文章數 34900關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      頭條要聞

      媒體:中國史無前例下"阻斷禁令" 美媒迅速捕捉到信號

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      內娛真情誼!楊紫為謝娜演唱會送花籃

      財經要聞

      瀏陽煙花往事

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      親子
      教育
      時尚
      數碼
      游戲

      親子要聞

      這個五一,帶寶寶來北海看海啦~銀灘細沙海浪,是小朋友最愛的天

      教育要聞

      告別焦慮!南師附中官方:11位特長生上岸者首度分享:試題難在哪?如何準備?

      衣服不用準備太多,找到一些實用的單品才最重要,百搭又有性價比

      數碼要聞

      亞馬遜押注“諾獎材料”除濕技術 可大幅削減建筑能耗

      全新類魂3A美女角色盔甲太性感!外媒銳評像劣質手游

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲国产成人无码网站| 超碰69| 娄底市| 欧美性交| av天堂午夜精品一区| 性久久久久久| 又黄又无遮挡AAAAA毛片| 国产亚洲av手机在线观看| 午夜日韩| 亚洲最大成人小说网| 欧美精品免费在线观看| 国产69精品久久久久99尤物| 色~性~乱~伦~噜| 日韩午夜高清福利片在线观看| 亚洲av日韩aⅴ无码电影| 亚洲国产成人不卡高清麻豆| 国产久热精品热线av| 亚洲多人视频在线观看| 亚洲欧美v国产蜜芽tv| 国产精品制服丝袜第一页| 欧美香蕉爽爽人人爽| 天天拍天天操| 国产一区二区三区夜色| 麻花传媒免费网站在线观看| 国产又粗又大又爽91嫩草 | 午夜福利二三区免费看| 无遮高潮国产免费观看| 人成午夜免费大片| 国产视频最新| 亚洲线精品一区二区三区影音先锋| 亚洲精品国产av一区二区| 日韩有码精品中文字幕| ww污污污网站在线看com| 色综合久久综合中文综合网 | 久治县| 日本一区二区无卡高清视频 | 久久精品日韩欧美国产| 三级黄片一区二区三区| 有码精品视频在线观看| 国产欧亚州美日韩综合区| 欧美日韩精品福利在线观看|