AI與HPC發(fā)展所需的內(nèi)存技術(shù)

2026-03-02 08:06:08　來源: TechSugar

上海舉報

分享至

（本文編譯自Electronic Design）

在過去二十年間，用于高性能計算（HPC）與人工智能（AI）系統(tǒng)的處理器，其原始計算能力以驚人的速度提升。圖1展示了這一趨勢：同期XPU浮點(diǎn)性能提升超過90,000倍，而DRAM帶寬與互聯(lián)帶寬僅提升約30倍。

圖1：20年間XPU性能與互聯(lián)帶寬的增長情況。

計算能力與數(shù)據(jù)傳輸能力之間日益擴(kuò)大的差距——通常被稱為內(nèi)存墻與I/O墻——已成為制約系統(tǒng)可實(shí)現(xiàn)的實(shí)際性能的最主要因素之一。

對于系統(tǒng)設(shè)計者而言，這種失衡直接導(dǎo)致計算資源利用率不足、功耗上升以及架構(gòu)復(fù)雜度不斷增加。因此，內(nèi)存帶寬與封裝技術(shù)對于人工智能性能的擴(kuò)展，已變得與晶體管密度或核心數(shù)量同等關(guān)鍵。

HBM是現(xiàn)代人工智能架構(gòu)的基礎(chǔ)

為應(yīng)對這些帶寬挑戰(zhàn)，高性能計算與人工智能系統(tǒng)越來越多地采用基于芯粒（Chiplet）的解耦式架構(gòu)。盡管LPDDR與DDR內(nèi)存仍發(fā)揮著重要作用，但HBM已成為當(dāng)前可用的最高帶寬DRAM解決方案，也是現(xiàn)代加速器的關(guān)鍵支撐技術(shù)。

HBM器件由底部的緩沖（或基礎(chǔ)）裸片以及上方的多個3D堆疊DRAM層構(gòu)成。緩沖裸片采用超細(xì)間距微凸點(diǎn)，使得內(nèi)存堆疊能夠通過硅中介層或硅橋等先進(jìn)封裝技術(shù)與專用集成電路（ASIC）進(jìn)行協(xié)同封裝。

在JEDEC的HBM工作組嚴(yán)格標(biāo)準(zhǔn)化的支持下，HBM已成為量產(chǎn)系統(tǒng)中最成功、應(yīng)用最廣泛的芯粒集成案例之一。圖2展示了典型的HBM DRAM堆疊通過硅中介層與ASIC連接的側(cè)視示意圖。

圖2：HBM DRAM與ASIC連接的一個實(shí)例。

HBM在實(shí)際應(yīng)用中一個被廣泛部署的案例是英偉達(dá)的B100 Blackwell加速器（如圖3所示）。該封裝包含兩顆大尺寸、掩模版級別的XPU裸片，裸片之間通過高帶寬鏈路互連，每顆裸片的上下邊緣均布置有HBM器件。每顆XPU裸片集成四個HBM堆疊——每條長邊各兩個——使得每個封裝總計搭載八顆HBM器件。

圖3：英偉達(dá)B100 Blackwell加速器集成了兩顆大尺寸、掩模版級別的XPU裸片，芯片之間通過高帶寬鏈路相互連接。

采用JEDEC標(biāo)準(zhǔn)通過時的典型HBM3規(guī)格，每顆HBM3器件可使用8層堆疊的16Gb DRAM層，每個堆疊提供16GB容量。在6.4Gb/s的數(shù)據(jù)速率和1024個I/O端口下，每顆HBM3器件可提供約0.8TB/s的帶寬。通過八顆器件，該配置可提供128GB的總內(nèi)存容量和約6.6TB/s的總帶寬。

HBM4的拓展帶寬與容量

為了讓內(nèi)存性能能夠隨計算能力同步提升，JEDEC近期發(fā)布了HBM4標(biāo)準(zhǔn)JESD270-4。相比HBM3，HBM4在架構(gòu)上做出多項改進(jìn)，直接滿足人工智能工作負(fù)載日益增長的帶寬與容量需求。

HBM4最重大的變化之一是通道數(shù)翻倍，I/O數(shù)量從1024提升至2048。與此同時，支持的數(shù)據(jù)速率提升至6~8Gb/s及更高水平。內(nèi)存密度也同步提升，標(biāo)準(zhǔn)定義了24Gb與32Gb的DRAM層，并支持12層與16層堆疊。包括DRFM在內(nèi)的可靠性、可用性與可維護(hù)性（RAS）功能也得到增強(qiáng)。

綜合來看，這些改進(jìn)使得HBM4在帶寬、功耗效率和容量上相比HBM3都實(shí)現(xiàn)了大幅提升。例如，采用16層32Gb DRAM堆疊的HBM4e器件，單顆容量即可達(dá)到64GB（如圖4所示）。

圖4：該示例使用了8顆HBM4器件。

該器件擁有2048個I/O，數(shù)據(jù)速率為8Gb/s，單顆帶寬最高可達(dá)2TB/s。在搭載8顆HBM4器件的封裝中，總內(nèi)存容量提升至512GB，是此前HBM3方案的4倍，總帶寬則超過16TB/s，提升2.5倍。

定制化HBM及基礎(chǔ)裸片的作用

隨著HBM4的應(yīng)用加速，部分系統(tǒng)設(shè)計者正針對特定應(yīng)用，探索開發(fā)定制化HBM解決方案。推動這一趨勢的關(guān)鍵因素，是HBM基礎(chǔ)裸片的技術(shù)演進(jìn)。

在早期HBM世代中，基礎(chǔ)裸片通常采用面向DRAM優(yōu)化的工藝制造，這類工藝適合電容結(jié)構(gòu)，但對高速邏輯電路并非最優(yōu)。而在HBM4中，多數(shù)供應(yīng)商正轉(zhuǎn)向采用標(biāo)準(zhǔn)先進(jìn)邏輯工藝來制造基礎(chǔ)裸片。這一轉(zhuǎn)變與SoC設(shè)計者已熟悉的工藝更加契合，也為定制化開發(fā)打開了空間。

無論采用標(biāo)準(zhǔn)還是定制HBM4器件，這類方案仍將依賴先進(jìn)封裝與硅基板技術(shù)（如中介層或橋接芯片），以實(shí)現(xiàn)內(nèi)存與ASIC之間大量超細(xì)間距的連接。

SPHBM4將HBM級帶寬引入有機(jī)封裝

盡管傳統(tǒng)HBM集成在性能上具備優(yōu)勢，但其需要采用先進(jìn)封裝技術(shù)，這會推高成本并增加復(fù)雜度。許多系統(tǒng)設(shè)計者，尤其是那些專注于量產(chǎn)與可靠性的設(shè)計者，更傾向于使用標(biāo)準(zhǔn)有機(jī)基板。為彌補(bǔ)這一缺口，JEDEC宣布即將完成一項全新標(biāo)準(zhǔn)——SPHBM4。

SPHBM4器件采用與HBM4相同的DRAM核心裸片，并可提供相當(dāng)?shù)目値挘摲桨敢肓巳碌慕涌诨A(chǔ)裸片，專為適配標(biāo)準(zhǔn)有機(jī)基板而設(shè)計。圖5展示了一顆SPHBM4 DRAM與一顆ASIC一同直接安裝在有機(jī)封裝基板上的側(cè)視示意圖。ASIC既可直接置于有機(jī)基板上，也可保留在硅橋等先進(jìn)封裝方案中，以實(shí)現(xiàn)多XPU集成。

圖5：SPHBM4 DRAM與ASIC的側(cè)視結(jié)構(gòu)。

為了用更少引腳實(shí)現(xiàn)HBM4級別的吞吐能力，SPHBM4采用了更高的接口頻率與串行化技術(shù)。HBM4定義了2048路數(shù)據(jù)信號，而SPHBM4預(yù)計采用512路數(shù)據(jù)信號并搭配4:1串行化，從而滿足有機(jī)基板所需的更寬松凸點(diǎn)間距要求。

由于SPHBM4與HBM4使用相同的DRAM堆疊，單堆疊容量保持不變。不過，有機(jī)基板的布線支持更長的SoC與內(nèi)存之間的通道長度，這可以帶來新的系統(tǒng)級折中方案。特別是更長的布線距離與斜角走線，通常能夠在同一顆裸片周圍布置更多內(nèi)存堆疊。

圖6展示了這一效果。當(dāng)HBM器件安裝在硅基板上時，必須緊鄰XPU放置，限制為每25毫米裸片邊緣最多兩個堆疊。而在有機(jī)基板上使用SPHBM4時，同一條邊緣可連接三顆內(nèi)存器件，使內(nèi)存容量與帶寬均提升約50%。

圖6：采用了12顆SPHBM4器件的示例。

即便在XPU下方仍使用硅基板（例如為了支持高帶寬的XPU間互聯(lián)鏈路），將內(nèi)存器件移至有機(jī)封裝后，整體中介層尺寸也能大幅減小。這一縮減可在系統(tǒng)成本、可制造性與測試復(fù)雜度方面帶來顯著收益。

展望未來

人工智能工作負(fù)載持續(xù)挑戰(zhàn)著內(nèi)存帶寬、容量與封裝技術(shù)的極限。JEDEC的HBM4標(biāo)準(zhǔn)是滿足這些需求的重要一步。而新興的SPHBM4標(biāo)準(zhǔn)則通過在標(biāo)準(zhǔn)有機(jī)基板上實(shí)現(xiàn)HBM級性能，拓展了設(shè)計空間。

對于系統(tǒng)架構(gòu)師而言，這些技術(shù)在平衡性能、成本與集成復(fù)雜度方面提供了新的靈活性。隨著內(nèi)存與封裝對系統(tǒng)整體性能的影響日益關(guān)鍵，盡早考慮HBM4、定制化HBM以及SPHBM4等方案，對于充分釋放下一代人工智能與高性能計算的性能潛力至關(guān)重要。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.