網易首頁 > 網易號 > 正文申請入駐

當GPU不再夠用，英偉達開始押注另一種計算

2026-04-29 08:57:00　來源: 半導體行業觀察

上海舉報

分享至

2025年12月24日，當大多數人仍沉浸在節日氛圍中時，英偉達卻以約200億美元悄然完成了一筆分量十足的技術并購。

交易的對象是Groq——這家由前谷歌工程師喬納森·羅斯創立的AI推理芯片公司，主打名為LPU（語言處理單元）的芯片架構，其設計路徑與英偉達長期依賴的GPU體系截然不同。

比交易更耐人尋味的，是典型的“英偉達速度”：從并購敲定到在GTC 2026舞臺正式亮相，前后僅用不到四個月。Groq團隊負責人甚至將這一過程稱為“半導體史上產品化速度最快的案例之一”。

這一速度背后，是清醒的戰略判斷，英偉達并不是在收編一個競爭對手，而是在為接下來的AI計算重心轉移提前落子。

推理經濟的崛起

過去幾年，衡量AI競爭力的核心坐標是訓練算力。誰能堆更多GPU、訓練更大規模的模型，誰就站在行業前沿。這一邏輯推動了大量資本涌入Hopper架構、Ampere架構GPU集群，也讓英偉達的GPU成為AI基礎設施的絕對代名詞。

但這一等式正在悄然改變。

據機構數據顯示，2026年，推理工作負載將占據全部AI計算需求的三分之二左右，而2023年這一比例僅為三分之一。Gartner預測，55%的AI優化基礎設施支出將流向推理側。此外，推理市場的體量也在快速膨脹，預計從2025年的1060億美元增長至2030年的2550億美元，年復合增長率接近20%。

與訓練任務相比，推理運行的經濟學邏輯截然不同。訓練是一次性支出，花錢買權重，而推理則會持續消耗，生產系統中每一次預測都需要完整運行前向傳播，理論上占據AI系統生命周期總成本的80%至90%。

更深層的壓力來自AI Agent的興起。當AI從簡單的對話問答演變為能夠規劃任務、調用工具、跨系統執行的自主智能體，每一個推理步驟都意味著大量token生成。一個復雜的代理工作流，token消耗量可能是普通聊天的15倍甚至更多。其往往還會將多個模型調用串聯起來，最終成本可能是單次推理的5到10倍。

在GTC 2026主題演講上，英偉達CEO黃仁勛將這一現象稱為“上下文爆炸”，隨著歷史記錄、工具輸出和推理步驟反復傳遞，token總量以指數級增長，推理成本隨之急劇上升。

這正是GPU最難解的一道題。

通用引擎遭遇專用挑戰

GPU的崛起，根植于其處理并行計算任務的獨特優勢。大量浮點運算、靈活的動態調度、配合高帶寬顯存（HBM）實現的極高吞吐，讓它在模型訓練場景中有著幾乎無可替代的地位。

然而訓練和推理是兩種本質不同的計算方式。訓練追求吞吐量，任務可以批量堆疊、并行流水；推理（尤其是實時推理）追求的是延遲，每個token必須盡快產出。GPU的通用架構在推理場景中開始暴露出結構性短板。

從推理流程的內部結構來看，可以將其分為兩個階段：預填充（prefill）和解碼（decode）。預填充是計算密集型任務，與訓練相似；解碼則是內存帶寬密集型任務，每生成一個token，都需要將模型的全部活躍參數從內存中流過一遍。這意味著解碼對內存帶寬的依賴程度極高，而HBM的帶寬終究有上限。

另一個角度是成本結構。GPU的物料成本很大程度上集中在HBM堆疊內存和配套中介層上，例如英偉達的Rubin GPU，其大部分成本都花在HBM4內存及其與GPU連接所需的中介層上。對于那些不需要海量參數存儲、只需要快速解碼的推理場景，這部分投入的性價比極低。

這是一個結構性缺口，靠持續堆疊GPU算力顯然是無法填補的。

LPU：為確定性而生

Groq的LPU走的是一條幾乎相反的設計路徑。

LPU的核心設計哲學是確定性執行。與GPU依賴動態硬件調度、多級緩存層次不同，LPU將控制平面完全交給編譯器，在編譯器完成所有執行路徑的規劃，實現精確到時鐘周期的可預測執行。

這意味著，在芯片運行之前，推理過程要花多長時間已經被編譯器算清楚了。

實現這一特性的關鍵硬件是巨大的片上SRAM。LP30芯片搭載500MB的片內SRAM，這些SRAM與計算單元之間的內存帶寬高達150TB/秒。

相比之下，Rubin GPU搭載288GB的HBM，內存帶寬為22TB/秒。LP30的內存容量只有GPU的幾百分之一，但內存帶寬卻高出7倍。

這一優勢完美契合了推理的需求。解碼階段的瓶頸不是算力，而是數據流速。權重需要在每個token生成時被快速訪問，訪存速度越快，單token延遲越低，而SRAM可以用極小的容量換極高的速度，用靜態調度換確定性延遲。

在這種設計下，隨著更多LPU芯片加入集群，單token延遲會隨著系統規模擴展而近似線性下降，這是傳統GPU架構極難實現的特性。LPU大規模部署后，整個集群可以作為一個巨型單處理器運作，以極低且穩定的延遲服務高價值用戶。

當然，LPU也有明確的局限。500MB的片內SRAM對于萬億參數模型來說遠遠不夠，需要大量芯片協同才能裝下完整模型權重。對于單機來說，LPU的經濟性也并不出色。它的價值在于在規模擴展時，能夠將速度優勢兌換成商業溢價，服務那些愿意為極低延遲支付高溢價的用戶。

從某種角度來看，GPU是高通量的“脫粒機”，適合處理大批量、多用戶并發的推理任務；而LPU則是極速的“單車道”，適合服務極低延遲、高價值、單用戶或少量用戶的推理場景。

英偉達的選擇：異構計算的系統重構

弄明白了GPU和LPU各自的優勢邊界，就不難理解英偉達在GTC 2026上展示的架構選擇了。

Vera Rubin平臺整合了七款芯片，包括Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太網交換機，以及新納入的Groq 3 LPU。這七款芯片協同工作，構成一臺大規模預訓練、后訓練、測試時擴展到智能體式推理、覆蓋AI全周期的超級計算機。

其中最具技術含量的創新，是GPU與LPU在推理流水線內部的職責分工。英偉達將推理過程拆解得更加精細：預填充階段及解碼中仍受益于高吞吐的注意力計算繼續由Rubin GPU承擔，而前饋網絡（FFN）的執行則交由LPU處理。這種分工被稱為注意力與前饋網絡解耦（AFD），是專為壓縮解碼延遲設計的系統級優化路徑。

配備256個LP30 LPU的LPX機架擁有128GB片上SRAM和640TB/秒的擴展帶寬。與Vera Rubin NVL72集成后，Rubin GPU和LPU通過對每個輸出token的每一層模型進行聯合計算，可將解碼速度顯著提升，每兆瓦推理吞吐量最高可提升35倍，萬億參數模型的收益機會最高可提升10倍。

從性能曲線的角度理解，GPU和LPU的優勢區間形成互補。GPU在中低端推理層級（高并發、低成本）提供強大的吞吐能力，LPU則將性能曲線向高端延伸，覆蓋那些對單用戶延遲要求極端苛刻、愿意支付高溢價的推理層級。

連接這套異構系統的軟件層是Dynamo推理框架。Dynamo擁有許多能力特點，其中在異構計算環境下可靈活分配負載，根據請求特征——批次大小、上下文長度、延遲敏感度——在GPU與LPU之間動態路由，從而在整個吞吐與延遲范圍內實現更均衡的性能曲線。推理優化的重點從單芯片性能，提升到了系統級資源編排的層面。

存儲層的同步演進：NVIDIA BlueField-4 STX全新的存儲基礎設施

GPU與LPU的協同還不是完整圖景。代理式AI的另一個基礎設施瓶頸在于存儲，長上下文推理需要實時訪問海量歷史記憶和上下文數據，而傳統存儲架構的響應速度無法匹配。

NVIDIA BlueField-4 STX機架式架構專為解決這一問題設計。它將BlueField-4處理器與Vera CPU和ConnectX-9 SuperNIC相結合，提供高帶寬共享層，針對存儲和檢索大語言模型和智能AI工作流生成的海量鍵值緩存數據進行了深度優化，與傳統存儲相比，每秒可處理的token提升高達5倍。

這一系統通過NVIDIA DOCA Memos軟件框架實現專用的鍵值緩存存儲處理，最終目標是在整個數據中心POD范圍內實現上下文信息的快速流通，從而加快多輪對話中的AI代理響應速度，提升并行任務的連貫性。存儲層的升級，是整個推理基礎設施中容易被忽視卻至關重要的一環。

協同設計

將以上所有模塊拼在一起，英偉達正在勾勒一種分層化的AI計算秩序：GPU繼續主導大規模訓練與批量推理，承擔高吞吐、多用戶并發的基礎計算任務；LPU專注于解碼階段的極低延遲推理，覆蓋高價值的單用戶實時交互；Vera CPU則承擔系統調度、強化學習環境驗證和控制邏輯；BlueField-4 STX負責上下文記憶的快速存取。

Vera CPU擁有88個定制Olympus核心，效率是傳統機架式CPU的兩倍，速度提升50%，專為智能AI所需的極端利用率提供穩定響應。其重要性在AI Agent時代尤為突出。強化學習和智能AI工作負載需要大量CPU環境來測試和驗證模型的行為，CPU的規模與質量直接影響AI系統的反饋速度。

這種分工體系的背后，是對不同計算負載特性的精準匹配：訓練與批量推理的高吞吐特性對應GPU，解碼延遲敏感性對應LPU，系統級調度與環境模擬對應CPU，上下文持久化對應存儲加速層。每種計算單元都被部署在最能發揮其價值的位置，而不是用一種硬件強行覆蓋所有場景。

這一協同設計也在重塑AI基礎設施的成本模型。通過讓不同負載匹配最合適的硬件，整體功耗和每token成本都能大幅改善。與Blackwell平臺相比，Vera Rubin NVL72使用四分之一數量的GPU即可訓練大型混合專家模型，每瓦推理吞吐量提高10倍，每個token的成本降至其十分之一。

競爭格局的重塑

英偉達將Groq納入麾下，也徹底重塑了外部競爭格局。

在低延遲推理領域，Cerebras和SambaNova等公司已經構建了類似邏輯的架構，以SRAM為核心實現高速推理。英偉達通過收編Groq，將這一技術路線直接整合進自己的平臺，同時封堵了潛在的市場缺口。

亞馬遜與Cerebras宣布合作，將AWS的Trainium-3加速器與Cerebras的晶圓級加速器結合部署，邏輯與英偉達的GPU-LPU系統如出一轍。這說明異構推理架構并非英偉達獨有的判斷，而是行業內已經形成的技術共識。差別在于誰能以更完整的軟件棧、更大規模的生態和更快的量產節奏建立優勢。

英偉達在這場競爭中握有顯著的結構性優勢。不只是芯片本身，而是從CUDA生態、Dynamo調度框架、NVLink互連，到合作伙伴體系和模型開發者關系的整體綁定能力。

黃仁勛甚至將Groq與Mellanox的并購相提并論：Mellanox的技術成為NVLink和InfiniBand的基礎，為英偉達構筑了AI集群互聯的護城河，而Groq的LPU，正在以同樣的方式成為推理基礎設施的內嵌組件。

放在更長的時間維度下審視，英偉達的這輪技術布局，指向的是一個更清晰的趨勢：AI正從實驗室中的研究工具，轉變為支撐產業運行的基礎設施，其計算價值的重心也隨之從“短期建造”轉向“長期運行”。

黃仁勛在GTC上明確劃定了這種分工，純粹的高吞吐訓練與批量推理繼續由Vera Rubin承擔；實時代理式AI、對話推理和低延遲交互工作負載，則需要LPU的加持。

這意味著，行業競爭的核心指標正在遷移。從單芯片的FLOPs比拼，轉向系統級架構整合與調度效率的較量。誰能更有效地將不同計算范式無縫編排在一套基礎設施中，誰就能在推理經濟時代獲得更強的定價權和平臺地位。

GTC 2026上展示的三套新系統，共同指向同一個信號：英偉達已不再只是GPU供應商，而是在向覆蓋推理優化、CPU編排和存儲層的全棧AI基礎設施平臺演進。

從Hopper到Blackwell再到Vera Rubin，每一代平臺都在擴展英偉達的覆蓋邊界。而這一次，LP30的加入意味著英偉達第一次主動引入了一個與GPU架構哲學根本不同的計算單元，不是作為補充，而是作為整個系統設計的有機組成部分。

當GPU不再夠用，英偉達給出的答案，是讓不同邏輯的芯片在同一個框架下找到各自的最優位置。這種選擇，標志著AI基礎設施競爭從單一硬件的極限堆砌，正式進入異構協同的新階段。

*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯系半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4392內容，歡迎關注。

加星標??第一時間看推送

求推薦

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.