![]()
![]()
每種架構(gòu)在設(shè)計(jì)理念上各有側(cè)重,在靈活性、并行性和內(nèi)存訪問效率之間做出了截然不同的權(quán)衡。
如今,人工智能主要由五種硬件架構(gòu)驅(qū)動(dòng),分別是CPU、GPU、TPU、NPU和LPU(語言處理單元)。每種架構(gòu)在設(shè)計(jì)理念上各有側(cè)重,在靈活性、并行性和內(nèi)存訪問效率之間做出了截然不同的權(quán)衡,適配不同的人工智能應(yīng)用場景,共同支撐起當(dāng)前人工智能技術(shù)的快速迭代與落地。
![]()
CPU(中央處理器)是人工智能計(jì)算的基礎(chǔ)支撐,專為通用計(jì)算場景設(shè)計(jì),通常包含4-64個(gè)高性能核心(消費(fèi)級多為4-16核,服務(wù)器級可達(dá)64核及以上)。每個(gè)核心都具備獨(dú)立的運(yùn)算、邏輯判斷和數(shù)據(jù)處理能力,擅長處理復(fù)雜邏輯運(yùn)算、分支跳轉(zhuǎn)及各類系統(tǒng)級任務(wù)。其核心優(yōu)勢在于極高的靈活性,能夠兼容幾乎所有編程語言和計(jì)算任務(wù),在人工智能系統(tǒng)中主要承擔(dān)操作系統(tǒng)調(diào)度、數(shù)據(jù)預(yù)處理、任務(wù)分配等輔助性角色,是整個(gè)計(jì)算體系的“中樞調(diào)度員”。
硬件結(jié)構(gòu)上,CPU配備了L1、L2、L3三級緩存,其中L1緩存集成在核心內(nèi)部,讀寫速度最快(納秒級),L2為核心專屬緩存,L3為多核心共享緩存。三級緩存的設(shè)計(jì)旨在緩解CPU與片外DRAM主內(nèi)存之間的速度差距。但DRAM主內(nèi)存的讀寫速度遠(yuǎn)低于緩存,且數(shù)據(jù)傳輸需經(jīng)過復(fù)雜路徑,這導(dǎo)致CPU在處理人工智能領(lǐng)域大量存在的矩陣乘法、卷積運(yùn)算等重復(fù)性數(shù)學(xué)運(yùn)算時(shí),容易出現(xiàn)數(shù)據(jù)傳輸瓶頸,運(yùn)算效率低下,因此不適合作為人工智能核心運(yùn)算硬件,更多發(fā)揮輔助調(diào)度作用。
GPU(圖形處理器)與CPU的設(shè)計(jì)理念截然不同,采用“眾核架構(gòu)”,將計(jì)算任務(wù)分散到數(shù)千個(gè)甚至上萬個(gè)小型計(jì)算核心上。這些核心雖然單個(gè)運(yùn)算能力較弱,無法處理復(fù)雜的邏輯分支,但具備極強(qiáng)的并行執(zhí)行能力,能夠?qū)Σ煌瑪?shù)據(jù)同步執(zhí)行相同指令。這種特性使其成為人工智能模型訓(xùn)練的絕對主導(dǎo)硬件。深度學(xué)習(xí)模型(如CNN、Transformer)的核心運(yùn)算就是矩陣乘法和卷積運(yùn)算,這類運(yùn)算邏輯簡單、可高度拆解,能分配給GPU的多個(gè)核心并行處理,運(yùn)算效率是CPU的數(shù)十倍甚至上百倍。
為支撐大規(guī)模并行計(jì)算,GPU配備了片上高帶寬內(nèi)存(HBM),其讀寫速度遠(yuǎn)高于CPU的DRAM內(nèi)存,能快速為數(shù)千個(gè)核心提供連續(xù)的數(shù)據(jù)支撐,避免數(shù)據(jù)傳輸成為性能瓶頸。目前,GPU的核心數(shù)量普遍達(dá)數(shù)千個(gè)以上,例如NVIDIA的主流AI顯卡核心數(shù)量可突破6000個(gè)。NVIDIA、AMD的GPU產(chǎn)品占據(jù)了人工智能訓(xùn)練硬件的主流市場,廣泛應(yīng)用于深度學(xué)習(xí)模型訓(xùn)練、科學(xué)計(jì)算、圖像渲染等場景。
TPU(張量處理單元)是谷歌專為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的專用芯片,在GPU基礎(chǔ)上實(shí)現(xiàn)更高專業(yè)化,核心目標(biāo)是提升神經(jīng)網(wǎng)絡(luò)運(yùn)算效率、降低功耗。其核心是乘加(MAC)單元網(wǎng)格,采用“波浪式”數(shù)據(jù)處理模式,減少數(shù)據(jù)傳輸次數(shù),提升效率。與GPU不同,TPU執(zhí)行過程由編譯器精準(zhǔn)控制,無硬件調(diào)度開銷,適配大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與推理。谷歌的TPU已應(yīng)用于自身搜索、翻譯等業(yè)務(wù),主要以云服務(wù)形式提供算力支撐。
NPU(神經(jīng)處理單元)是面向邊緣設(shè)備的優(yōu)化架構(gòu),核心是在低功耗下實(shí)現(xiàn)高效推理,適配智能手機(jī)、物聯(lián)網(wǎng)設(shè)備等功耗受限的終端。它不追求高性能,注重功耗與體積控制,架構(gòu)圍繞包含MAC陣列和片上SRAM的神經(jīng)計(jì)算引擎構(gòu)建。NPU不使用HBM,采用低功耗系統(tǒng)內(nèi)存,功耗控制在個(gè)位數(shù)瓦,片上SRAM減少片外內(nèi)存訪問,降低功耗。蘋果神經(jīng)網(wǎng)絡(luò)引擎、英特爾NPU等均遵循此設(shè)計(jì),支撐設(shè)備端人工智能任務(wù)落地。
LPU(語言處理單元)是Groq公司推出的高度專用架構(gòu),專為語言模型推理優(yōu)化,核心是“極致低延遲”。它徹底移除片外內(nèi)存,所有權(quán)重存儲(chǔ)在片上SRAM,避免內(nèi)存訪問延遲,運(yùn)算過程由編譯器調(diào)度,無緩存未命中和調(diào)度開銷。LPU的缺點(diǎn)是片上SRAM容量有限,運(yùn)行大型模型需數(shù)百個(gè)芯片集群,增加成本與復(fù)雜度,但在實(shí)時(shí)對話等低延遲場景優(yōu)勢顯著,目前正處于市場推廣階段。
總體而言,人工智能計(jì)算從CPU的通用靈活,演進(jìn)到LPU的高度專用,每一步都以犧牲部分通用性換取效率、功耗或延遲的優(yōu)化。五種架構(gòu)各有側(cè)重、相互補(bǔ)充,構(gòu)成人工智能硬件完整生態(tài),支撐不同場景落地。下圖并排展示了這五種技術(shù)的內(nèi)部架構(gòu),可直觀看出其結(jié)構(gòu)差異。
風(fēng)險(xiǎn)提示及免責(zé)條款: 市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資責(zé)任自負(fù)。
點(diǎn)個(gè)在看支持一下??
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.