2025年12月24日,當大多數人仍沉浸在節日氛圍中時,英偉達卻以約200億美元悄然完成了一筆分量十足的技術并購。
交易的對象是Groq——這家由前谷歌工程師喬納森·羅斯創立的AI推理芯片公司,主打名為LPU(語言處理單元)的芯片架構,其設計路徑與英偉達長期依賴的GPU體系截然不同。
比交易更耐人尋味的,是典型的“英偉達速度”:從并購敲定到在GTC 2026舞臺正式亮相,前后僅用不到四個月。Groq團隊負責人甚至將這一過程稱為“半導體史上產品化速度最快的案例之一”。
![]()
這一速度背后,是清醒的戰略判斷,英偉達并不是在收編一個競爭對手,而是在為接下來的AI計算重心轉移提前落子。
推理經濟的崛起
過去幾年,衡量AI競爭力的核心坐標是訓練算力。誰能堆更多GPU、訓練更大規模的模型,誰就站在行業前沿。這一邏輯推動了大量資本涌入Hopper架構、Ampere架構GPU集群,也讓英偉達的GPU成為AI基礎設施的絕對代名詞。
但這一等式正在悄然改變。
據機構數據顯示,2026年,推理工作負載將占據全部AI計算需求的三分之二左右,而2023年這一比例僅為三分之一。Gartner預測,55%的AI優化基礎設施支出將流向推理側。此外,推理市場的體量也在快速膨脹,預計從2025年的1060億美元增長至2030年的2550億美元,年復合增長率接近20%。
與訓練任務相比,推理運行的經濟學邏輯截然不同。訓練是一次性支出,花錢買權重,而推理則會持續消耗,生產系統中每一次預測都需要完整運行前向傳播,理論上占據AI系統生命周期總成本的80%至90%。
更深層的壓力來自AI Agent的興起。當AI從簡單的對話問答演變為能夠規劃任務、調用工具、跨系統執行的自主智能體,每一個推理步驟都意味著大量token生成。一個復雜的代理工作流,token消耗量可能是普通聊天的15倍甚至更多。其往往還會將多個模型調用串聯起來,最終成本可能是單次推理的5到10倍。
在GTC 2026主題演講上,英偉達CEO黃仁勛將這一現象稱為“上下文爆炸”,隨著歷史記錄、工具輸出和推理步驟反復傳遞,token總量以指數級增長,推理成本隨之急劇上升。
這正是GPU最難解的一道題。
通用引擎遭遇專用挑戰
GPU的崛起,根植于其處理并行計算任務的獨特優勢。大量浮點運算、靈活的動態調度、配合高帶寬顯存(HBM)實現的極高吞吐,讓它在模型訓練場景中有著幾乎無可替代的地位。
然而訓練和推理是兩種本質不同的計算方式。訓練追求吞吐量,任務可以批量堆疊、并行流水;推理(尤其是實時推理)追求的是延遲,每個token必須盡快產出。GPU的通用架構在推理場景中開始暴露出結構性短板。
從推理流程的內部結構來看,可以將其分為兩個階段:預填充(prefill)和解碼(decode)。預填充是計算密集型任務,與訓練相似;解碼則是內存帶寬密集型任務,每生成一個token,都需要將模型的全部活躍參數從內存中流過一遍。這意味著解碼對內存帶寬的依賴程度極高,而HBM的帶寬終究有上限。
另一個角度是成本結構。GPU的物料成本很大程度上集中在HBM堆疊內存和配套中介層上,例如英偉達的Rubin GPU,其大部分成本都花在HBM4內存及其與GPU連接所需的中介層上。對于那些不需要海量參數存儲、只需要快速解碼的推理場景,這部分投入的性價比極低。
這是一個結構性缺口,靠持續堆疊GPU算力顯然是無法填補的。
LPU:為確定性而生
Groq的LPU走的是一條幾乎相反的設計路徑。
LPU的核心設計哲學是確定性執行。與GPU依賴動態硬件調度、多級緩存層次不同,LPU將控制平面完全交給編譯器,在編譯器完成所有執行路徑的規劃,實現精確到時鐘周期的可預測執行。
這意味著,在芯片運行之前,推理過程要花多長時間已經被編譯器算清楚了。
實現這一特性的關鍵硬件是巨大的片上SRAM。LP30芯片搭載500MB的片內SRAM,這些SRAM與計算單元之間的內存帶寬高達150TB/秒。
相比之下,Rubin GPU搭載288GB的HBM,內存帶寬為22TB/秒。LP30的內存容量只有GPU的幾百分之一,但內存帶寬卻高出7倍。
這一優勢完美契合了推理的需求。解碼階段的瓶頸不是算力,而是數據流速。權重需要在每個token生成時被快速訪問,訪存速度越快,單token延遲越低,而SRAM可以用極小的容量換極高的速度,用靜態調度換確定性延遲。
![]()
在這種設計下,隨著更多LPU芯片加入集群,單token延遲會隨著系統規模擴展而近似線性下降,這是傳統GPU架構極難實現的特性。LPU大規模部署后,整個集群可以作為一個巨型單處理器運作,以極低且穩定的延遲服務高價值用戶。
當然,LPU也有明確的局限。500MB的片內SRAM對于萬億參數模型來說遠遠不夠,需要大量芯片協同才能裝下完整模型權重。對于單機來說,LPU的經濟性也并不出色。它的價值在于在規模擴展時,能夠將速度優勢兌換成商業溢價,服務那些愿意為極低延遲支付高溢價的用戶。
從某種角度來看,GPU是高通量的“脫粒機”,適合處理大批量、多用戶并發的推理任務;而LPU則是極速的“單車道”,適合服務極低延遲、高價值、單用戶或少量用戶的推理場景。
英偉達的選擇:異構計算的系統重構
弄明白了GPU和LPU各自的優勢邊界,就不難理解英偉達在GTC 2026上展示的架構選擇了。
Vera Rubin平臺整合了七款芯片,包括Vera CPU、Rubin GPU、NVLink 6交換機、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-6以太網交換機,以及新納入的Groq 3 LPU。這七款芯片協同工作,構成一臺大規模預訓練、后訓練、測試時擴展到智能體式推理、覆蓋AI全周期的超級計算機。
![]()
其中最具技術含量的創新,是GPU與LPU在推理流水線內部的職責分工。英偉達將推理過程拆解得更加精細:預填充階段及解碼中仍受益于高吞吐的注意力計算繼續由Rubin GPU承擔,而前饋網絡(FFN)的執行則交由LPU處理。這種分工被稱為注意力與前饋網絡解耦(AFD),是專為壓縮解碼延遲設計的系統級優化路徑。
配備256個LP30 LPU的LPX機架擁有128GB片上SRAM和640TB/秒的擴展帶寬。與Vera Rubin NVL72集成后,Rubin GPU和LPU通過對每個輸出token的每一層模型進行聯合計算,可將解碼速度顯著提升,每兆瓦推理吞吐量最高可提升35倍,萬億參數模型的收益機會最高可提升10倍。
從性能曲線的角度理解,GPU和LPU的優勢區間形成互補。GPU在中低端推理層級(高并發、低成本)提供強大的吞吐能力,LPU則將性能曲線向高端延伸,覆蓋那些對單用戶延遲要求極端苛刻、愿意支付高溢價的推理層級。
連接這套異構系統的軟件層是Dynamo推理框架。Dynamo擁有許多能力特點,其中在異構計算環境下可靈活分配負載,根據請求特征——批次大小、上下文長度、延遲敏感度——在GPU與LPU之間動態路由,從而在整個吞吐與延遲范圍內實現更均衡的性能曲線。推理優化的重點從單芯片性能,提升到了系統級資源編排的層面。
存儲層的同步演進:NVIDIA BlueField-4 STX全新的存儲基礎設施
GPU與LPU的協同還不是完整圖景。代理式AI的另一個基礎設施瓶頸在于存儲,長上下文推理需要實時訪問海量歷史記憶和上下文數據,而傳統存儲架構的響應速度無法匹配。
NVIDIA BlueField-4 STX機架式架構專為解決這一問題設計。它將BlueField-4處理器與Vera CPU和ConnectX-9 SuperNIC相結合,提供高帶寬共享層,針對存儲和檢索大語言模型和智能AI工作流生成的海量鍵值緩存數據進行了深度優化,與傳統存儲相比,每秒可處理的token提升高達5倍。
![]()
這一系統通過NVIDIA DOCA Memos軟件框架實現專用的鍵值緩存存儲處理,最終目標是在整個數據中心POD范圍內實現上下文信息的快速流通,從而加快多輪對話中的AI代理響應速度,提升并行任務的連貫性。存儲層的升級,是整個推理基礎設施中容易被忽視卻至關重要的一環。
協同設計
將以上所有模塊拼在一起,英偉達正在勾勒一種分層化的AI計算秩序:GPU繼續主導大規模訓練與批量推理,承擔高吞吐、多用戶并發的基礎計算任務;LPU專注于解碼階段的極低延遲推理,覆蓋高價值的單用戶實時交互;Vera CPU則承擔系統調度、強化學習環境驗證和控制邏輯;BlueField-4 STX負責上下文記憶的快速存取。
Vera CPU擁有88個定制Olympus核心,效率是傳統機架式CPU的兩倍,速度提升50%,專為智能AI所需的極端利用率提供穩定響應。其重要性在AI Agent時代尤為突出。強化學習和智能AI工作負載需要大量CPU環境來測試和驗證模型的行為,CPU的規模與質量直接影響AI系統的反饋速度。
這種分工體系的背后,是對不同計算負載特性的精準匹配:訓練與批量推理的高吞吐特性對應GPU,解碼延遲敏感性對應LPU,系統級調度與環境模擬對應CPU,上下文持久化對應存儲加速層。每種計算單元都被部署在最能發揮其價值的位置,而不是用一種硬件強行覆蓋所有場景。
這一協同設計也在重塑AI基礎設施的成本模型。通過讓不同負載匹配最合適的硬件,整體功耗和每token成本都能大幅改善。與Blackwell平臺相比,Vera Rubin NVL72使用四分之一數量的GPU即可訓練大型混合專家模型,每瓦推理吞吐量提高10倍,每個token的成本降至其十分之一。
競爭格局的重塑
英偉達將Groq納入麾下,也徹底重塑了外部競爭格局。
在低延遲推理領域,Cerebras和SambaNova等公司已經構建了類似邏輯的架構,以SRAM為核心實現高速推理。英偉達通過收編Groq,將這一技術路線直接整合進自己的平臺,同時封堵了潛在的市場缺口。
亞馬遜與Cerebras宣布合作,將AWS的Trainium-3加速器與Cerebras的晶圓級加速器結合部署,邏輯與英偉達的GPU-LPU系統如出一轍。這說明異構推理架構并非英偉達獨有的判斷,而是行業內已經形成的技術共識。差別在于誰能以更完整的軟件棧、更大規模的生態和更快的量產節奏建立優勢。
英偉達在這場競爭中握有顯著的結構性優勢。不只是芯片本身,而是從CUDA生態、Dynamo調度框架、NVLink互連,到合作伙伴體系和模型開發者關系的整體綁定能力。
黃仁勛甚至將Groq與Mellanox的并購相提并論:Mellanox的技術成為NVLink和InfiniBand的基礎,為英偉達構筑了AI集群互聯的護城河,而Groq的LPU,正在以同樣的方式成為推理基礎設施的內嵌組件。
放在更長的時間維度下審視,英偉達的這輪技術布局,指向的是一個更清晰的趨勢:AI正從實驗室中的研究工具,轉變為支撐產業運行的基礎設施,其計算價值的重心也隨之從“短期建造”轉向“長期運行”。
黃仁勛在GTC上明確劃定了這種分工,純粹的高吞吐訓練與批量推理繼續由Vera Rubin承擔;實時代理式AI、對話推理和低延遲交互工作負載,則需要LPU的加持。
這意味著,行業競爭的核心指標正在遷移。從單芯片的FLOPs比拼,轉向系統級架構整合與調度效率的較量。誰能更有效地將不同計算范式無縫編排在一套基礎設施中,誰就能在推理經濟時代獲得更強的定價權和平臺地位。
GTC 2026上展示的三套新系統,共同指向同一個信號:英偉達已不再只是GPU供應商,而是在向覆蓋推理優化、CPU編排和存儲層的全棧AI基礎設施平臺演進。
從Hopper到Blackwell再到Vera Rubin,每一代平臺都在擴展英偉達的覆蓋邊界。而這一次,LP30的加入意味著英偉達第一次主動引入了一個與GPU架構哲學根本不同的計算單元,不是作為補充,而是作為整個系統設計的有機組成部分。
當GPU不再夠用,英偉達給出的答案,是讓不同邏輯的芯片在同一個框架下找到各自的最優位置。這種選擇,標志著AI基礎設施競爭從單一硬件的極限堆砌,正式進入異構協同的新階段。
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4392內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.