![]()
每種架構在設計理念上各有側重,在靈活性、并行性和內存訪問效率之間做出了截然不同的權衡。
如今,人工智能主要由五種硬件架構驅動,分別是CPU、GPU、TPU、NPU和LPU(語言處理單元)。每種架構在設計理念上各有側重,在靈活性、并行性和內存訪問效率之間做出了截然不同的權衡,適配不同的人工智能應用場景,共同支撐起當前人工智能技術的快速迭代與落地。
![]()
CPU(中央處理器)是人工智能計算的基礎支撐,專為通用計算場景設計,通常包含4-64個高性能核心(消費級多為4-16核,服務器級可達64核及以上)。每個核心都具備獨立的運算、邏輯判斷和數據處理能力,擅長處理復雜邏輯運算、分支跳轉及各類系統級任務。其核心優勢在于極高的靈活性,能夠兼容幾乎所有編程語言和計算任務,在人工智能系統中主要承擔操作系統調度、數據預處理、任務分配等輔助性角色,是整個計算體系的“中樞調度員”。
硬件結構上,CPU配備了L1、L2、L3三級緩存,其中L1緩存集成在核心內部,讀寫速度最快(納秒級),L2為核心專屬緩存,L3為多核心共享緩存。三級緩存的設計旨在緩解CPU與片外DRAM主內存之間的速度差距。但DRAM主內存的讀寫速度遠低于緩存,且數據傳輸需經過復雜路徑,這導致CPU在處理人工智能領域大量存在的矩陣乘法、卷積運算等重復性數學運算時,容易出現數據傳輸瓶頸,運算效率低下,因此不適合作為人工智能核心運算硬件,更多發揮輔助調度作用。
GPU(圖形處理器)與CPU的設計理念截然不同,采用“眾核架構”,將計算任務分散到數千個甚至上萬個小型計算核心上。這些核心雖然單個運算能力較弱,無法處理復雜的邏輯分支,但具備極強的并行執行能力,能夠對不同數據同步執行相同指令。這種特性使其成為人工智能模型訓練的絕對主導硬件。深度學習模型(如CNN、Transformer)的核心運算就是矩陣乘法和卷積運算,這類運算邏輯簡單、可高度拆解,能分配給GPU的多個核心并行處理,運算效率是CPU的數十倍甚至上百倍。
為支撐大規模并行計算,GPU配備了片上高帶寬內存(HBM),其讀寫速度遠高于CPU的DRAM內存,能快速為數千個核心提供連續的數據支撐,避免數據傳輸成為性能瓶頸。目前,GPU的核心數量普遍達數千個以上,例如NVIDIA的主流AI顯卡核心數量可突破6000個。NVIDIA、AMD的GPU產品占據了人工智能訓練硬件的主流市場,廣泛應用于深度學習模型訓練、科學計算、圖像渲染等場景。
TPU(張量處理單元)是谷歌專為神經網絡設計的專用芯片,在GPU基礎上實現更高專業化,核心目標是提升神經網絡運算效率、降低功耗。其核心是乘加(MAC)單元網格,采用“波浪式”數據處理模式,減少數據傳輸次數,提升效率。與GPU不同,TPU執行過程由編譯器精準控制,無硬件調度開銷,適配大規模神經網絡的訓練與推理。谷歌的TPU已應用于自身搜索、翻譯等業務,主要以云服務形式提供算力支撐。
NPU(神經處理單元)是面向邊緣設備的優化架構,核心是在低功耗下實現高效推理,適配智能手機、物聯網設備等功耗受限的終端。它不追求高性能,注重功耗與體積控制,架構圍繞包含MAC陣列和片上SRAM的神經計算引擎構建。NPU不使用HBM,采用低功耗系統內存,功耗控制在個位數瓦,片上SRAM減少片外內存訪問,降低功耗。蘋果神經網絡引擎、英特爾NPU等均遵循此設計,支撐設備端人工智能任務落地。
LPU(語言處理單元)是Groq公司推出的高度專用架構,專為語言模型推理優化,核心是“極致低延遲”。它徹底移除片外內存,所有權重存儲在片上SRAM,避免內存訪問延遲,運算過程由編譯器調度,無緩存未命中和調度開銷。LPU的缺點是片上SRAM容量有限,運行大型模型需數百個芯片集群,增加成本與復雜度,但在實時對話等低延遲場景優勢顯著,目前正處于市場推廣階段。
總體而言,人工智能計算從CPU的通用靈活,演進到LPU的高度專用,每一步都以犧牲部分通用性換取效率、功耗或延遲的優化。五種架構各有側重、相互補充,構成人工智能硬件完整生態,支撐不同場景落地。下圖并排展示了這五種技術的內部架構,可直觀看出其結構差異。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.