圖解CPU、GPU、TPU、NPU、LPU

2026-05-01 10:26:02　來源: 圖解金融

上海舉報(bào)

分享至

每種架構(gòu)在設(shè)計(jì)理念上各有側(cè)重，在靈活性、并行性和內(nèi)存訪問效率之間做出了截然不同的權(quán)衡。

如今，人工智能主要由五種硬件架構(gòu)驅(qū)動(dòng)，分別是CPU、GPU、TPU、NPU和LPU（語言處理單元）。每種架構(gòu)在設(shè)計(jì)理念上各有側(cè)重，在靈活性、并行性和內(nèi)存訪問效率之間做出了截然不同的權(quán)衡，適配不同的人工智能應(yīng)用場景，共同支撐起當(dāng)前人工智能技術(shù)的快速迭代與落地。

CPU（中央處理器）是人工智能計(jì)算的基礎(chǔ)支撐，專為通用計(jì)算場景設(shè)計(jì)，通常包含4-64個(gè)高性能核心（消費(fèi)級多為4-16核，服務(wù)器級可達(dá)64核及以上）。每個(gè)核心都具備獨(dú)立的運(yùn)算、邏輯判斷和數(shù)據(jù)處理能力，擅長處理復(fù)雜邏輯運(yùn)算、分支跳轉(zhuǎn)及各類系統(tǒng)級任務(wù)。其核心優(yōu)勢在于極高的靈活性，能夠兼容幾乎所有編程語言和計(jì)算任務(wù)，在人工智能系統(tǒng)中主要承擔(dān)操作系統(tǒng)調(diào)度、數(shù)據(jù)預(yù)處理、任務(wù)分配等輔助性角色，是整個(gè)計(jì)算體系的“中樞調(diào)度員”。

硬件結(jié)構(gòu)上，CPU配備了L1、L2、L3三級緩存，其中L1緩存集成在核心內(nèi)部，讀寫速度最快（納秒級），L2為核心專屬緩存，L3為多核心共享緩存。三級緩存的設(shè)計(jì)旨在緩解CPU與片外DRAM主內(nèi)存之間的速度差距。但DRAM主內(nèi)存的讀寫速度遠(yuǎn)低于緩存，且數(shù)據(jù)傳輸需經(jīng)過復(fù)雜路徑，這導(dǎo)致CPU在處理人工智能領(lǐng)域大量存在的矩陣乘法、卷積運(yùn)算等重復(fù)性數(shù)學(xué)運(yùn)算時(shí)，容易出現(xiàn)數(shù)據(jù)傳輸瓶頸，運(yùn)算效率低下，因此不適合作為人工智能核心運(yùn)算硬件，更多發(fā)揮輔助調(diào)度作用。

GPU（圖形處理器）與CPU的設(shè)計(jì)理念截然不同，采用“眾核架構(gòu)”，將計(jì)算任務(wù)分散到數(shù)千個(gè)甚至上萬個(gè)小型計(jì)算核心上。這些核心雖然單個(gè)運(yùn)算能力較弱，無法處理復(fù)雜的邏輯分支，但具備極強(qiáng)的并行執(zhí)行能力，能夠?qū)Σ煌瑪?shù)據(jù)同步執(zhí)行相同指令。這種特性使其成為人工智能模型訓(xùn)練的絕對主導(dǎo)硬件。深度學(xué)習(xí)模型（如CNN、Transformer）的核心運(yùn)算就是矩陣乘法和卷積運(yùn)算，這類運(yùn)算邏輯簡單、可高度拆解，能分配給GPU的多個(gè)核心并行處理，運(yùn)算效率是CPU的數(shù)十倍甚至上百倍。

為支撐大規(guī)模并行計(jì)算，GPU配備了片上高帶寬內(nèi)存（HBM），其讀寫速度遠(yuǎn)高于CPU的DRAM內(nèi)存，能快速為數(shù)千個(gè)核心提供連續(xù)的數(shù)據(jù)支撐，避免數(shù)據(jù)傳輸成為性能瓶頸。目前，GPU的核心數(shù)量普遍達(dá)數(shù)千個(gè)以上，例如NVIDIA的主流AI顯卡核心數(shù)量可突破6000個(gè)。NVIDIA、AMD的GPU產(chǎn)品占據(jù)了人工智能訓(xùn)練硬件的主流市場，廣泛應(yīng)用于深度學(xué)習(xí)模型訓(xùn)練、科學(xué)計(jì)算、圖像渲染等場景。

TPU（張量處理單元）是谷歌專為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的專用芯片，在GPU基礎(chǔ)上實(shí)現(xiàn)更高專業(yè)化，核心目標(biāo)是提升神經(jīng)網(wǎng)絡(luò)運(yùn)算效率、降低功耗。其核心是乘加（MAC）單元網(wǎng)格，采用“波浪式”數(shù)據(jù)處理模式，減少數(shù)據(jù)傳輸次數(shù)，提升效率。與GPU不同，TPU執(zhí)行過程由編譯器精準(zhǔn)控制，無硬件調(diào)度開銷，適配大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與推理。谷歌的TPU已應(yīng)用于自身搜索、翻譯等業(yè)務(wù)，主要以云服務(wù)形式提供算力支撐。

NPU（神經(jīng)處理單元）是面向邊緣設(shè)備的優(yōu)化架構(gòu)，核心是在低功耗下實(shí)現(xiàn)高效推理，適配智能手機(jī)、物聯(lián)網(wǎng)設(shè)備等功耗受限的終端。它不追求高性能，注重功耗與體積控制，架構(gòu)圍繞包含MAC陣列和片上SRAM的神經(jīng)計(jì)算引擎構(gòu)建。NPU不使用HBM，采用低功耗系統(tǒng)內(nèi)存，功耗控制在個(gè)位數(shù)瓦，片上SRAM減少片外內(nèi)存訪問，降低功耗。蘋果神經(jīng)網(wǎng)絡(luò)引擎、英特爾NPU等均遵循此設(shè)計(jì)，支撐設(shè)備端人工智能任務(wù)落地。

LPU（語言處理單元）是Groq公司推出的高度專用架構(gòu)，專為語言模型推理優(yōu)化，核心是“極致低延遲”。它徹底移除片外內(nèi)存，所有權(quán)重存儲(chǔ)在片上SRAM，避免內(nèi)存訪問延遲，運(yùn)算過程由編譯器調(diào)度，無緩存未命中和調(diào)度開銷。LPU的缺點(diǎn)是片上SRAM容量有限，運(yùn)行大型模型需數(shù)百個(gè)芯片集群，增加成本與復(fù)雜度，但在實(shí)時(shí)對話等低延遲場景優(yōu)勢顯著，目前正處于市場推廣階段。

總體而言，人工智能計(jì)算從CPU的通用靈活，演進(jìn)到LPU的高度專用，每一步都以犧牲部分通用性換取效率、功耗或延遲的優(yōu)化。五種架構(gòu)各有側(cè)重、相互補(bǔ)充，構(gòu)成人工智能硬件完整生態(tài)，支撐不同場景落地。下圖并排展示了這五種技術(shù)的內(nèi)部架構(gòu)，可直觀看出其結(jié)構(gòu)差異。

風(fēng)險(xiǎn)提示及免責(zé)條款：市場有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議，也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資責(zé)任自負(fù)。

點(diǎn)個(gè)在看支持一下??

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.