(本文編譯自Electronic Design)
人工智能工作負(fù)載的算力需求正呈爆炸式增長(zhǎng),本能的應(yīng)對(duì)思路似乎是新建更多數(shù)據(jù)中心,但這一策略的落地難度正不斷加大。除了超大型數(shù)據(jù)中心建設(shè)面臨的實(shí)際難題,電網(wǎng)的承載能力本就有限,就連電網(wǎng)接入環(huán)節(jié)也遭遇諸多阻礙。再加上新建設(shè)施的資金與環(huán)境成本,顯然,單純依靠規(guī)模擴(kuò)張并非解決問(wèn)題的良方。
另一種更有效的策略雖非簡(jiǎn)單易行,卻是通過(guò)針對(duì)性的基礎(chǔ)設(shè)施升級(jí),從現(xiàn)有場(chǎng)地中挖掘更多性能潛力。這類(lèi)升級(jí)能夠拓展設(shè)施容量、提升運(yùn)行效率并加快部署速度。
但這一過(guò)程面臨著核心挑戰(zhàn):新一代圖形處理器(GPU)及其他人工智能加速器的功耗與散熱量持續(xù)攀升。這樣的跨越式增長(zhǎng)讓傳統(tǒng)設(shè)計(jì)徹底過(guò)時(shí),也迫使基礎(chǔ)設(shè)施建設(shè)策略發(fā)生根本性轉(zhuǎn)變。以英偉達(dá)GB200為例,其單個(gè)模塊整合了兩顆Blackwell GPU與一顆Grace CPU,功耗最高可達(dá)約2700瓦,這一數(shù)據(jù)直觀體現(xiàn)出下一代人工智能系統(tǒng)的熱負(fù)荷正以何等迅猛的速度增長(zhǎng)。
但只要在冷卻、供電與機(jī)柜級(jí)集成方面采取科學(xué)合理的方案,數(shù)據(jù)中心運(yùn)營(yíng)方也可無(wú)需新建設(shè)施,就能顯著提升計(jì)算密度與整體性能。
數(shù)據(jù)中心計(jì)算密度的制約因素
傳統(tǒng)數(shù)據(jù)中心的設(shè)計(jì)大多無(wú)法滿(mǎn)足大語(yǔ)言模型及其他高密度人工智能工作負(fù)載的需求,在現(xiàn)有環(huán)境中進(jìn)行算力擴(kuò)容,會(huì)面臨四大關(guān)鍵挑戰(zhàn):
空間限制:現(xiàn)有機(jī)柜布局的物理承載能力不足,無(wú)法適配當(dāng)下的高密度配置方案。
供電約束:傳統(tǒng)配電單元與開(kāi)關(guān)設(shè)備的設(shè)計(jì)初衷,并非為功率密度達(dá)60至120千瓦乃至更高的機(jī)柜供電。
冷卻低效:即便以最大風(fēng)量運(yùn)行,傳統(tǒng)風(fēng)冷系統(tǒng)也無(wú)法散除現(xiàn)代人工智能處理器產(chǎn)生的熱負(fù)荷。
可持續(xù)發(fā)展壓力:隨著數(shù)據(jù)中心在全球電力消耗中的占比持續(xù)攀升,運(yùn)營(yíng)方面臨著監(jiān)管機(jī)構(gòu)、投資者和客戶(hù)日益嚴(yán)苛的能效提升要求。
上述每一項(xiàng)制約因素,都會(huì)影響數(shù)據(jù)中心的可靠性、運(yùn)行時(shí)長(zhǎng)與投資回報(bào)率。工程師和系統(tǒng)集成商正探尋在不中斷業(yè)務(wù)的前提下實(shí)現(xiàn)性能提升的方法,而在每一度電、每一平方英尺空間都至關(guān)重要的情況下,這絕非易事。
直芯片液冷技術(shù)為人工智能釋放更強(qiáng)算力
冷卻系統(tǒng)是高性能計(jì)算最直接、最突出的制約因素,風(fēng)冷系統(tǒng)已觸及實(shí)際應(yīng)用的極限。即便配備架空地板、冷熱通道隔離和優(yōu)化的氣流設(shè)計(jì),傳統(tǒng)風(fēng)冷架構(gòu)也無(wú)法匹配人工智能級(jí)芯片的散熱需求。
直芯片液冷技術(shù)應(yīng)運(yùn)而生,成為潛在的解決方案。該技術(shù)將冷卻液直接輸送至芯片表面,精準(zhǔn)針對(duì)發(fā)熱點(diǎn)散熱,大幅提升熱傳遞效率,穩(wěn)定CPU和GPU的工作溫度,同時(shí)最大限度減小會(huì)影響性能的溫度梯度。
盡管具備技術(shù)優(yōu)勢(shì),液冷技術(shù)卻常被誤解為需要對(duì)基礎(chǔ)設(shè)施進(jìn)行大規(guī)模改造,但實(shí)際并非總是如此。
一體式閉環(huán)液冷系統(tǒng)能提供一種務(wù)實(shí)、漸進(jìn)的實(shí)施路徑。這類(lèi)系統(tǒng)可直接集成至標(biāo)準(zhǔn)服務(wù)器配置中,在1U機(jī)型中支持最高1200瓦功耗,2U機(jī)型中可達(dá)1500瓦及以上,且無(wú)需額外的外部管路和分配單元。運(yùn)營(yíng)方無(wú)需改變現(xiàn)有機(jī)柜布局和電力預(yù)算,僅通過(guò)大幅降低氣流需求,平均就能實(shí)現(xiàn)15%的能耗節(jié)省。
對(duì)于新建數(shù)據(jù)中心或大型設(shè)施升級(jí)項(xiàng)目,園區(qū)級(jí)液冷系統(tǒng)值得重點(diǎn)考量。該類(lèi)系統(tǒng)單插槽可支持超3000瓦功耗,機(jī)柜算力密度最高可接近1兆瓦。
雖然管路式液冷系統(tǒng)需要配套更多基礎(chǔ)設(shè)施,單機(jī)柜占用的物理空間也可能更大,但能讓企業(yè)在現(xiàn)有數(shù)據(jù)中心的整體占地面積內(nèi),大幅提升計(jì)算密度。這意味著該方案無(wú)需擴(kuò)建設(shè)施,就能實(shí)現(xiàn)人工智能工作負(fù)載的算力擴(kuò)容。盡管前期投入成本更高,但其長(zhǎng)期投資回報(bào)率頗具吸引力,算力密度更高、能耗更低,系統(tǒng)可靠性也能得到提升。
對(duì)于希望不新建數(shù)據(jù)中心卻實(shí)現(xiàn)性能最大化的企業(yè)而言,圍繞先進(jìn)冷卻技術(shù)進(jìn)行設(shè)計(jì),既能大幅提升能效,也能為規(guī)模化人工智能應(yīng)用打造具備未來(lái)適應(yīng)性的基礎(chǔ)設(shè)施。
液冷技術(shù)的部署并不是非全即無(wú)的選擇。運(yùn)營(yíng)方可從小規(guī)模起步,部署能與現(xiàn)有環(huán)境無(wú)縫集成的一體式系統(tǒng)。通過(guò)提升芯片層面的熱傳遞效率,這類(lèi)方案能釋放新的性能余量,讓現(xiàn)有場(chǎng)地內(nèi)的算力密度更高、性能更優(yōu)、能效更好。本質(zhì)而言,液冷技術(shù)實(shí)現(xiàn)了在不擴(kuò)大空間、不增加電力預(yù)算的前提下,提升計(jì)算密度的目標(biāo)。
為兆瓦級(jí)機(jī)柜重新設(shè)計(jì)配電與供電體系
僅憑冷卻技術(shù)創(chuàng)新,無(wú)法解決下一代計(jì)算架構(gòu)的諸多挑戰(zhàn)。隨著機(jī)柜密度突破120千瓦,且超大規(guī)模數(shù)據(jù)中心已將1兆瓦級(jí)機(jī)柜架構(gòu)納入發(fā)展規(guī)劃,整個(gè)行業(yè)亟需從根本上重新思考供電與配電的實(shí)現(xiàn)方式。許多傳統(tǒng)數(shù)據(jù)中心仍在使用為5至15千瓦負(fù)載設(shè)計(jì)的配電單元和開(kāi)關(guān)設(shè)備,與人工智能優(yōu)化型基礎(chǔ)設(shè)施的需求愈發(fā)脫節(jié)。
這種供需錯(cuò)配已成為電力供應(yīng)層面的重大隱患。升級(jí)電力架構(gòu)不再是可選項(xiàng),而是實(shí)現(xiàn)算力擴(kuò)容、能效提升與系統(tǒng)韌性的必要前提。高效配電單元、直流母線、模塊化電源架以及解耦式電源機(jī)柜平臺(tái),正為人工智能工作負(fù)載提供更安全、更高效的供電支持。
超大規(guī)模數(shù)據(jù)中心企業(yè)正引領(lǐng)基礎(chǔ)設(shè)施解耦的變革趨勢(shì),將電力、冷卻與IT系統(tǒng)拆分為模塊化、可獨(dú)立擴(kuò)容的組件。以谷歌的Mt. Diablo項(xiàng)目為例,該項(xiàng)目推出了可輸出±400伏直流電的交直轉(zhuǎn)換附置電源機(jī)柜,單機(jī)柜供電能力可達(dá)1兆瓦,同時(shí)釋放出IT機(jī)柜內(nèi)部的寶貴空間,用于部署計(jì)算設(shè)備。這一方案讓運(yùn)營(yíng)方無(wú)需擴(kuò)大物理占地面積,即可提升算力密度。
如今,這一創(chuàng)新理念正吸引更多解決方案提供商加入生態(tài)體系。像偉創(chuàng)力等企業(yè)不僅是被動(dòng)響應(yīng)市場(chǎng)需求,更在主動(dòng)構(gòu)建未來(lái)的基礎(chǔ)設(shè)施架構(gòu)。
智能電源管理:人工智能體系中被忽視的關(guān)鍵環(huán)節(jié)
電源的管理方式同樣至關(guān)重要。閑置容量,即因配電不均造成的能源浪費(fèi),正悄然侵蝕著運(yùn)營(yíng)效率。軟件定義的模塊化電源系統(tǒng)支持電力動(dòng)態(tài)分配,確保電力精準(zhǔn)輸送至所需之處。這一方式不僅能提升電力利用率與系統(tǒng)可靠性,還能降低過(guò)度配置的風(fēng)險(xiǎn),減少不必要的資本開(kāi)支。
隨著數(shù)據(jù)中心逐步采用直流配電模式,固態(tài)變壓器等技術(shù)正著力簡(jiǎn)化電力轉(zhuǎn)換環(huán)節(jié)。這類(lèi)技術(shù)有助于提高能源效率,并大幅縮減配電室的占地面。據(jù)偉創(chuàng)力預(yù)測(cè),到2030年,配電室面積最多可減少90%。這能帶來(lái)兩大顯著優(yōu)勢(shì):一是在更小空間內(nèi)實(shí)現(xiàn)同等供電容量,降低建設(shè)成本;二是在現(xiàn)有空間內(nèi)增設(shè)更多機(jī)柜,提升計(jì)算密度。
對(duì)于系統(tǒng)集成商而言,核心挑戰(zhàn)是在不中斷業(yè)務(wù)的前提下完成部署。停機(jī)檢修不是最優(yōu)解。正因如此,行業(yè)正逐步轉(zhuǎn)向熱插拔、正面維護(hù)的設(shè)計(jì)方案,讓運(yùn)行中的機(jī)房能更便捷地開(kāi)展設(shè)備安裝與維護(hù)工作。
機(jī)柜級(jí)集成:冷卻、供電與計(jì)算的融合核心
唯有當(dāng)冷卻、供電與計(jì)算系統(tǒng)打破孤島式運(yùn)行模式,在機(jī)柜層面協(xié)同工作,才能真正實(shí)現(xiàn)計(jì)算密度的提升。具有前瞻性的行業(yè)先行者不再獨(dú)立對(duì)待各子系統(tǒng),而是采用一體化架構(gòu),將這些功能整合為統(tǒng)一的生態(tài)體系。
基于這一思路,依托開(kāi)放標(biāo)準(zhǔn)打造的集成機(jī)柜能實(shí)現(xiàn)跨代硬件的互操作性,簡(jiǎn)化運(yùn)維工作;同時(shí)液冷設(shè)計(jì)可保障最佳的散熱性能。即便芯片的熱設(shè)計(jì)功耗持續(xù)攀升,該架構(gòu)也能支撐算力的長(zhǎng)期擴(kuò)容需求。
其中最有效的實(shí)施方案之一,是部署一站式垂直集成液冷機(jī)柜解決方案,即將供電、熱管理與信息技術(shù)硬件整合為一套預(yù)先設(shè)計(jì)調(diào)試完成的一體化系統(tǒng)。這類(lèi)方案無(wú)需進(jìn)行復(fù)雜的多廠商設(shè)備集成,部署速度更快、運(yùn)維流程更簡(jiǎn)化,且責(zé)任歸屬清晰統(tǒng)一。
合作同樣至關(guān)重要。與能提供全套機(jī)柜級(jí)集成系統(tǒng)的解決方案提供商攜手,搭配匹配的冷卻、供電和計(jì)算組件,數(shù)據(jù)中心運(yùn)營(yíng)方可獲得單一對(duì)接窗口與標(biāo)準(zhǔn)化的保修服務(wù)。這一模式能拆解復(fù)雜的集成環(huán)節(jié)、降低實(shí)施風(fēng)險(xiǎn)、加快部署進(jìn)度,讓數(shù)據(jù)中心擺脫傳統(tǒng)集成工作的困擾,實(shí)現(xiàn)更快的算力擴(kuò)容。
對(duì)于系統(tǒng)集成商而言,這類(lèi)架構(gòu)創(chuàng)造了全新的價(jià)值增長(zhǎng)點(diǎn),可通過(guò)互操作性測(cè)試、性能驗(yàn)證,以及為優(yōu)化人工智能工作負(fù)載部署預(yù)集成機(jī)柜解決方案,為客戶(hù)提供專(zhuān)業(yè)服務(wù)。將先進(jìn)的液冷技術(shù)與高效供電方案相結(jié)合,即便計(jì)算輸出持續(xù)提升,運(yùn)營(yíng)方也能降低整個(gè)設(shè)施的能耗;相較風(fēng)冷系統(tǒng),機(jī)柜級(jí)的功耗可降低數(shù)千瓦。
這些能效提升能直接轉(zhuǎn)化為單位面積更高的計(jì)算密度。當(dāng)冷卻與供電系統(tǒng)的運(yùn)行效率提升后,機(jī)柜可承載更高的功率與熱負(fù)荷,且不超出設(shè)施的承載上限。這意味著單位建筑面積能部署更多計(jì)算設(shè)備,最大化挖掘現(xiàn)有場(chǎng)地的價(jià)值,在不擴(kuò)大數(shù)據(jù)中心占地面積的前提下實(shí)現(xiàn)性能的大幅提升。
高壓直流母線與鈦級(jí)電源進(jìn)一步提高了電力轉(zhuǎn)換效率,減少?gòu)U熱產(chǎn)生,同時(shí)降低了后續(xù)的冷卻需求。
有限空間內(nèi)的新型基礎(chǔ)設(shè)施布局
未來(lái)的數(shù)據(jù)中心無(wú)需擴(kuò)大規(guī)模,即可滿(mǎn)足人工智能的算力需求,只需進(jìn)行更具策略性的設(shè)計(jì)。通過(guò)針對(duì)性升級(jí)基礎(chǔ)設(shè)施,運(yùn)營(yíng)方可在現(xiàn)有場(chǎng)地內(nèi),釋放出支撐人工智能工作負(fù)載所需的計(jì)算密度與性能。
冷卻與供電是重中之重的切入點(diǎn)。工程師與系統(tǒng)集成商攜手應(yīng)對(duì)這些挑戰(zhàn),采用集成化、模塊化、適配液冷的設(shè)計(jì)方案,便能讓數(shù)據(jù)中心的升級(jí)與新一代計(jì)算硬件的迭代同步推進(jìn),從而為功耗日益攀升的人工智能解決方案提供可靠支撐。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.