(本文編譯自Electronic Design)
在過去二十年間,用于高性能計算(HPC)與人工智能(AI)系統(tǒng)的處理器,其原始計算能力以驚人的速度提升。圖1展示了這一趨勢:同期XPU浮點(diǎn)性能提升超過90,000倍,而DRAM帶寬與互聯(lián)帶寬僅提升約30倍。
![]()
圖1:20年間XPU性能與互聯(lián)帶寬的增長情況。
計算能力與數(shù)據(jù)傳輸能力之間日益擴(kuò)大的差距——通常被稱為內(nèi)存墻與I/O墻——已成為制約系統(tǒng)可實(shí)現(xiàn)的實(shí)際性能的最主要因素之一。
對于系統(tǒng)設(shè)計者而言,這種失衡直接導(dǎo)致計算資源利用率不足、功耗上升以及架構(gòu)復(fù)雜度不斷增加。因此,內(nèi)存帶寬與封裝技術(shù)對于人工智能性能的擴(kuò)展,已變得與晶體管密度或核心數(shù)量同等關(guān)鍵。
HBM是現(xiàn)代人工智能架構(gòu)的基礎(chǔ)
為應(yīng)對這些帶寬挑戰(zhàn),高性能計算與人工智能系統(tǒng)越來越多地采用基于芯粒(Chiplet)的解耦式架構(gòu)。盡管LPDDR與DDR內(nèi)存仍發(fā)揮著重要作用,但HBM已成為當(dāng)前可用的最高帶寬DRAM解決方案,也是現(xiàn)代加速器的關(guān)鍵支撐技術(shù)。
HBM器件由底部的緩沖(或基礎(chǔ))裸片以及上方的多個3D堆疊DRAM層構(gòu)成。緩沖裸片采用超細(xì)間距微凸點(diǎn),使得內(nèi)存堆疊能夠通過硅中介層或硅橋等先進(jìn)封裝技術(shù)與專用集成電路(ASIC)進(jìn)行協(xié)同封裝。
在JEDEC的HBM工作組嚴(yán)格標(biāo)準(zhǔn)化的支持下,HBM已成為量產(chǎn)系統(tǒng)中最成功、應(yīng)用最廣泛的芯粒集成案例之一。圖2展示了典型的HBM DRAM堆疊通過硅中介層與ASIC連接的側(cè)視示意圖。
![]()
圖2:HBM DRAM與ASIC連接的一個實(shí)例。
HBM在實(shí)際應(yīng)用中一個被廣泛部署的案例是英偉達(dá)的B100 Blackwell加速器(如圖3所示)。該封裝包含兩顆大尺寸、掩模版級別的XPU裸片,裸片之間通過高帶寬鏈路互連,每顆裸片的上下邊緣均布置有HBM器件。每顆XPU裸片集成四個HBM堆疊——每條長邊各兩個——使得每個封裝總計搭載八顆HBM器件。
![]()
圖3:英偉達(dá)B100 Blackwell加速器集成了兩顆大尺寸、掩模版級別的XPU裸片,芯片之間通過高帶寬鏈路相互連接。
采用JEDEC標(biāo)準(zhǔn)通過時的典型HBM3規(guī)格,每顆HBM3器件可使用8層堆疊的16Gb DRAM層,每個堆疊提供16GB容量。在6.4Gb/s的數(shù)據(jù)速率和1024個I/O端口下,每顆HBM3器件可提供約0.8TB/s的帶寬。通過八顆器件,該配置可提供128GB的總內(nèi)存容量和約6.6TB/s的總帶寬。
HBM4的拓展帶寬與容量
為了讓內(nèi)存性能能夠隨計算能力同步提升,JEDEC近期發(fā)布了HBM4標(biāo)準(zhǔn)JESD270-4。相比HBM3,HBM4在架構(gòu)上做出多項改進(jìn),直接滿足人工智能工作負(fù)載日益增長的帶寬與容量需求。
HBM4最重大的變化之一是通道數(shù)翻倍,I/O數(shù)量從1024提升至2048。與此同時,支持的數(shù)據(jù)速率提升至6~8Gb/s及更高水平。內(nèi)存密度也同步提升,標(biāo)準(zhǔn)定義了24Gb與32Gb的DRAM層,并支持12層與16層堆疊。包括DRFM在內(nèi)的可靠性、可用性與可維護(hù)性(RAS)功能也得到增強(qiáng)。
綜合來看,這些改進(jìn)使得HBM4在帶寬、功耗效率和容量上相比HBM3都實(shí)現(xiàn)了大幅提升。例如,采用16層32Gb DRAM堆疊的HBM4e器件,單顆容量即可達(dá)到64GB(如圖4所示)。
![]()
圖4:該示例使用了8顆HBM4器件。
該器件擁有2048個I/O,數(shù)據(jù)速率為8Gb/s,單顆帶寬最高可達(dá)2TB/s。在搭載8顆HBM4器件的封裝中,總內(nèi)存容量提升至512GB,是此前HBM3方案的4倍,總帶寬則超過16TB/s,提升2.5倍。
定制化HBM及基礎(chǔ)裸片的作用
隨著HBM4的應(yīng)用加速,部分系統(tǒng)設(shè)計者正針對特定應(yīng)用,探索開發(fā)定制化HBM解決方案。推動這一趨勢的關(guān)鍵因素,是HBM基礎(chǔ)裸片的技術(shù)演進(jìn)。
在早期HBM世代中,基礎(chǔ)裸片通常采用面向DRAM優(yōu)化的工藝制造,這類工藝適合電容結(jié)構(gòu),但對高速邏輯電路并非最優(yōu)。而在HBM4中,多數(shù)供應(yīng)商正轉(zhuǎn)向采用標(biāo)準(zhǔn)先進(jìn)邏輯工藝來制造基礎(chǔ)裸片。這一轉(zhuǎn)變與SoC設(shè)計者已熟悉的工藝更加契合,也為定制化開發(fā)打開了空間。
無論采用標(biāo)準(zhǔn)還是定制HBM4器件,這類方案仍將依賴先進(jìn)封裝與硅基板技術(shù)(如中介層或橋接芯片),以實(shí)現(xiàn)內(nèi)存與ASIC之間大量超細(xì)間距的連接。
SPHBM4將HBM級帶寬引入有機(jī)封裝
盡管傳統(tǒng)HBM集成在性能上具備優(yōu)勢,但其需要采用先進(jìn)封裝技術(shù),這會推高成本并增加復(fù)雜度。許多系統(tǒng)設(shè)計者,尤其是那些專注于量產(chǎn)與可靠性的設(shè)計者,更傾向于使用標(biāo)準(zhǔn)有機(jī)基板。為彌補(bǔ)這一缺口,JEDEC宣布即將完成一項全新標(biāo)準(zhǔn)——SPHBM4。
SPHBM4器件采用與HBM4相同的DRAM核心裸片,并可提供相當(dāng)?shù)目値挘摲桨敢肓巳碌慕涌诨A(chǔ)裸片,專為適配標(biāo)準(zhǔn)有機(jī)基板而設(shè)計。圖5展示了一顆SPHBM4 DRAM與一顆ASIC一同直接安裝在有機(jī)封裝基板上的側(cè)視示意圖。ASIC既可直接置于有機(jī)基板上,也可保留在硅橋等先進(jìn)封裝方案中,以實(shí)現(xiàn)多XPU集成。
![]()
圖5:SPHBM4 DRAM與ASIC的側(cè)視結(jié)構(gòu)。
為了用更少引腳實(shí)現(xiàn)HBM4級別的吞吐能力,SPHBM4采用了更高的接口頻率與串行化技術(shù)。HBM4定義了2048路數(shù)據(jù)信號,而SPHBM4預(yù)計采用512路數(shù)據(jù)信號并搭配4:1串行化,從而滿足有機(jī)基板所需的更寬松凸點(diǎn)間距要求。
由于SPHBM4與HBM4使用相同的DRAM堆疊,單堆疊容量保持不變。不過,有機(jī)基板的布線支持更長的SoC與內(nèi)存之間的通道長度,這可以帶來新的系統(tǒng)級折中方案。特別是更長的布線距離與斜角走線,通常能夠在同一顆裸片周圍布置更多內(nèi)存堆疊。
圖6展示了這一效果。當(dāng)HBM器件安裝在硅基板上時,必須緊鄰XPU放置,限制為每25毫米裸片邊緣最多兩個堆疊。而在有機(jī)基板上使用SPHBM4時,同一條邊緣可連接三顆內(nèi)存器件,使內(nèi)存容量與帶寬均提升約50%。
![]()
圖6:采用了12顆SPHBM4器件的示例。
即便在XPU下方仍使用硅基板(例如為了支持高帶寬的XPU間互聯(lián)鏈路),將內(nèi)存器件移至有機(jī)封裝后,整體中介層尺寸也能大幅減小。這一縮減可在系統(tǒng)成本、可制造性與測試復(fù)雜度方面帶來顯著收益。
展望未來
人工智能工作負(fù)載持續(xù)挑戰(zhàn)著內(nèi)存帶寬、容量與封裝技術(shù)的極限。JEDEC的HBM4標(biāo)準(zhǔn)是滿足這些需求的重要一步。而新興的SPHBM4標(biāo)準(zhǔn)則通過在標(biāo)準(zhǔn)有機(jī)基板上實(shí)現(xiàn)HBM級性能,拓展了設(shè)計空間。
對于系統(tǒng)架構(gòu)師而言,這些技術(shù)在平衡性能、成本與集成復(fù)雜度方面提供了新的靈活性。隨著內(nèi)存與封裝對系統(tǒng)整體性能的影響日益關(guān)鍵,盡早考慮HBM4、定制化HBM以及SPHBM4等方案,對于充分釋放下一代人工智能與高性能計算的性能潛力至關(guān)重要。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.