網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

人工智能算力激增背后的液冷管路技術(shù)

2026-03-10 08:03:50　來(lái)源: TechSugar

上海舉報(bào)

分享至

（本文編譯自Electronic Design）

人工智能工作負(fù)載的算力需求正呈爆炸式增長(zhǎng)，本能的應(yīng)對(duì)思路似乎是新建更多數(shù)據(jù)中心，但這一策略的落地難度正不斷加大。除了超大型數(shù)據(jù)中心建設(shè)面臨的實(shí)際難題，電網(wǎng)的承載能力本就有限，就連電網(wǎng)接入環(huán)節(jié)也遭遇諸多阻礙。再加上新建設(shè)施的資金與環(huán)境成本，顯然，單純依靠規(guī)模擴(kuò)張并非解決問(wèn)題的良方。

另一種更有效的策略雖非簡(jiǎn)單易行，卻是通過(guò)針對(duì)性的基礎(chǔ)設(shè)施升級(jí)，從現(xiàn)有場(chǎng)地中挖掘更多性能潛力。這類(lèi)升級(jí)能夠拓展設(shè)施容量、提升運(yùn)行效率并加快部署速度。

但這一過(guò)程面臨著核心挑戰(zhàn)：新一代圖形處理器（GPU）及其他人工智能加速器的功耗與散熱量持續(xù)攀升。這樣的跨越式增長(zhǎng)讓傳統(tǒng)設(shè)計(jì)徹底過(guò)時(shí)，也迫使基礎(chǔ)設(shè)施建設(shè)策略發(fā)生根本性轉(zhuǎn)變。以英偉達(dá)GB200為例，其單個(gè)模塊整合了兩顆Blackwell GPU與一顆Grace CPU，功耗最高可達(dá)約2700瓦，這一數(shù)據(jù)直觀體現(xiàn)出下一代人工智能系統(tǒng)的熱負(fù)荷正以何等迅猛的速度增長(zhǎng)。

但只要在冷卻、供電與機(jī)柜級(jí)集成方面采取科學(xué)合理的方案，數(shù)據(jù)中心運(yùn)營(yíng)方也可無(wú)需新建設(shè)施，就能顯著提升計(jì)算密度與整體性能。

數(shù)據(jù)中心計(jì)算密度的制約因素

傳統(tǒng)數(shù)據(jù)中心的設(shè)計(jì)大多無(wú)法滿(mǎn)足大語(yǔ)言模型及其他高密度人工智能工作負(fù)載的需求，在現(xiàn)有環(huán)境中進(jìn)行算力擴(kuò)容，會(huì)面臨四大關(guān)鍵挑戰(zhàn)：

空間限制：現(xiàn)有機(jī)柜布局的物理承載能力不足，無(wú)法適配當(dāng)下的高密度配置方案。
供電約束：傳統(tǒng)配電單元與開(kāi)關(guān)設(shè)備的設(shè)計(jì)初衷，并非為功率密度達(dá)60至120千瓦乃至更高的機(jī)柜供電。
冷卻低效：即便以最大風(fēng)量運(yùn)行，傳統(tǒng)風(fēng)冷系統(tǒng)也無(wú)法散除現(xiàn)代人工智能處理器產(chǎn)生的熱負(fù)荷。
可持續(xù)發(fā)展壓力：隨著數(shù)據(jù)中心在全球電力消耗中的占比持續(xù)攀升，運(yùn)營(yíng)方面臨著監(jiān)管機(jī)構(gòu)、投資者和客戶(hù)日益嚴(yán)苛的能效提升要求。

上述每一項(xiàng)制約因素，都會(huì)影響數(shù)據(jù)中心的可靠性、運(yùn)行時(shí)長(zhǎng)與投資回報(bào)率。工程師和系統(tǒng)集成商正探尋在不中斷業(yè)務(wù)的前提下實(shí)現(xiàn)性能提升的方法，而在每一度電、每一平方英尺空間都至關(guān)重要的情況下，這絕非易事。

直芯片液冷技術(shù)為人工智能釋放更強(qiáng)算力

冷卻系統(tǒng)是高性能計(jì)算最直接、最突出的制約因素，風(fēng)冷系統(tǒng)已觸及實(shí)際應(yīng)用的極限。即便配備架空地板、冷熱通道隔離和優(yōu)化的氣流設(shè)計(jì)，傳統(tǒng)風(fēng)冷架構(gòu)也無(wú)法匹配人工智能級(jí)芯片的散熱需求。

直芯片液冷技術(shù)應(yīng)運(yùn)而生，成為潛在的解決方案。該技術(shù)將冷卻液直接輸送至芯片表面，精準(zhǔn)針對(duì)發(fā)熱點(diǎn)散熱，大幅提升熱傳遞效率，穩(wěn)定CPU和GPU的工作溫度，同時(shí)最大限度減小會(huì)影響性能的溫度梯度。

盡管具備技術(shù)優(yōu)勢(shì)，液冷技術(shù)卻常被誤解為需要對(duì)基礎(chǔ)設(shè)施進(jìn)行大規(guī)模改造，但實(shí)際并非總是如此。

一體式閉環(huán)液冷系統(tǒng)能提供一種務(wù)實(shí)、漸進(jìn)的實(shí)施路徑。這類(lèi)系統(tǒng)可直接集成至標(biāo)準(zhǔn)服務(wù)器配置中，在1U機(jī)型中支持最高1200瓦功耗，2U機(jī)型中可達(dá)1500瓦及以上，且無(wú)需額外的外部管路和分配單元。運(yùn)營(yíng)方無(wú)需改變現(xiàn)有機(jī)柜布局和電力預(yù)算，僅通過(guò)大幅降低氣流需求，平均就能實(shí)現(xiàn)15%的能耗節(jié)省。

對(duì)于新建數(shù)據(jù)中心或大型設(shè)施升級(jí)項(xiàng)目，園區(qū)級(jí)液冷系統(tǒng)值得重點(diǎn)考量。該類(lèi)系統(tǒng)單插槽可支持超3000瓦功耗，機(jī)柜算力密度最高可接近1兆瓦。

雖然管路式液冷系統(tǒng)需要配套更多基礎(chǔ)設(shè)施，單機(jī)柜占用的物理空間也可能更大，但能讓企業(yè)在現(xiàn)有數(shù)據(jù)中心的整體占地面積內(nèi)，大幅提升計(jì)算密度。這意味著該方案無(wú)需擴(kuò)建設(shè)施，就能實(shí)現(xiàn)人工智能工作負(fù)載的算力擴(kuò)容。盡管前期投入成本更高，但其長(zhǎng)期投資回報(bào)率頗具吸引力，算力密度更高、能耗更低，系統(tǒng)可靠性也能得到提升。

對(duì)于希望不新建數(shù)據(jù)中心卻實(shí)現(xiàn)性能最大化的企業(yè)而言，圍繞先進(jìn)冷卻技術(shù)進(jìn)行設(shè)計(jì)，既能大幅提升能效，也能為規(guī)模化人工智能應(yīng)用打造具備未來(lái)適應(yīng)性的基礎(chǔ)設(shè)施。

液冷技術(shù)的部署并不是非全即無(wú)的選擇。運(yùn)營(yíng)方可從小規(guī)模起步，部署能與現(xiàn)有環(huán)境無(wú)縫集成的一體式系統(tǒng)。通過(guò)提升芯片層面的熱傳遞效率，這類(lèi)方案能釋放新的性能余量，讓現(xiàn)有場(chǎng)地內(nèi)的算力密度更高、性能更優(yōu)、能效更好。本質(zhì)而言，液冷技術(shù)實(shí)現(xiàn)了在不擴(kuò)大空間、不增加電力預(yù)算的前提下，提升計(jì)算密度的目標(biāo)。

為兆瓦級(jí)機(jī)柜重新設(shè)計(jì)配電與供電體系

僅憑冷卻技術(shù)創(chuàng)新，無(wú)法解決下一代計(jì)算架構(gòu)的諸多挑戰(zhàn)。隨著機(jī)柜密度突破120千瓦，且超大規(guī)模數(shù)據(jù)中心已將1兆瓦級(jí)機(jī)柜架構(gòu)納入發(fā)展規(guī)劃，整個(gè)行業(yè)亟需從根本上重新思考供電與配電的實(shí)現(xiàn)方式。許多傳統(tǒng)數(shù)據(jù)中心仍在使用為5至15千瓦負(fù)載設(shè)計(jì)的配電單元和開(kāi)關(guān)設(shè)備，與人工智能優(yōu)化型基礎(chǔ)設(shè)施的需求愈發(fā)脫節(jié)。

這種供需錯(cuò)配已成為電力供應(yīng)層面的重大隱患。升級(jí)電力架構(gòu)不再是可選項(xiàng)，而是實(shí)現(xiàn)算力擴(kuò)容、能效提升與系統(tǒng)韌性的必要前提。高效配電單元、直流母線、模塊化電源架以及解耦式電源機(jī)柜平臺(tái)，正為人工智能工作負(fù)載提供更安全、更高效的供電支持。

超大規(guī)模數(shù)據(jù)中心企業(yè)正引領(lǐng)基礎(chǔ)設(shè)施解耦的變革趨勢(shì)，將電力、冷卻與IT系統(tǒng)拆分為模塊化、可獨(dú)立擴(kuò)容的組件。以谷歌的Mt. Diablo項(xiàng)目為例，該項(xiàng)目推出了可輸出±400伏直流電的交直轉(zhuǎn)換附置電源機(jī)柜，單機(jī)柜供電能力可達(dá)1兆瓦，同時(shí)釋放出IT機(jī)柜內(nèi)部的寶貴空間，用于部署計(jì)算設(shè)備。這一方案讓運(yùn)營(yíng)方無(wú)需擴(kuò)大物理占地面積，即可提升算力密度。

如今，這一創(chuàng)新理念正吸引更多解決方案提供商加入生態(tài)體系。像偉創(chuàng)力等企業(yè)不僅是被動(dòng)響應(yīng)市場(chǎng)需求，更在主動(dòng)構(gòu)建未來(lái)的基礎(chǔ)設(shè)施架構(gòu)。

智能電源管理：人工智能體系中被忽視的關(guān)鍵環(huán)節(jié)

電源的管理方式同樣至關(guān)重要。閑置容量，即因配電不均造成的能源浪費(fèi)，正悄然侵蝕著運(yùn)營(yíng)效率。軟件定義的模塊化電源系統(tǒng)支持電力動(dòng)態(tài)分配，確保電力精準(zhǔn)輸送至所需之處。這一方式不僅能提升電力利用率與系統(tǒng)可靠性，還能降低過(guò)度配置的風(fēng)險(xiǎn)，減少不必要的資本開(kāi)支。

隨著數(shù)據(jù)中心逐步采用直流配電模式，固態(tài)變壓器等技術(shù)正著力簡(jiǎn)化電力轉(zhuǎn)換環(huán)節(jié)。這類(lèi)技術(shù)有助于提高能源效率，并大幅縮減配電室的占地面。據(jù)偉創(chuàng)力預(yù)測(cè)，到2030年，配電室面積最多可減少90%。這能帶來(lái)兩大顯著優(yōu)勢(shì)：一是在更小空間內(nèi)實(shí)現(xiàn)同等供電容量，降低建設(shè)成本；二是在現(xiàn)有空間內(nèi)增設(shè)更多機(jī)柜，提升計(jì)算密度。

對(duì)于系統(tǒng)集成商而言，核心挑戰(zhàn)是在不中斷業(yè)務(wù)的前提下完成部署。停機(jī)檢修不是最優(yōu)解。正因如此，行業(yè)正逐步轉(zhuǎn)向熱插拔、正面維護(hù)的設(shè)計(jì)方案，讓運(yùn)行中的機(jī)房能更便捷地開(kāi)展設(shè)備安裝與維護(hù)工作。

機(jī)柜級(jí)集成：冷卻、供電與計(jì)算的融合核心

唯有當(dāng)冷卻、供電與計(jì)算系統(tǒng)打破孤島式運(yùn)行模式，在機(jī)柜層面協(xié)同工作，才能真正實(shí)現(xiàn)計(jì)算密度的提升。具有前瞻性的行業(yè)先行者不再獨(dú)立對(duì)待各子系統(tǒng)，而是采用一體化架構(gòu)，將這些功能整合為統(tǒng)一的生態(tài)體系。

基于這一思路，依托開(kāi)放標(biāo)準(zhǔn)打造的集成機(jī)柜能實(shí)現(xiàn)跨代硬件的互操作性，簡(jiǎn)化運(yùn)維工作；同時(shí)液冷設(shè)計(jì)可保障最佳的散熱性能。即便芯片的熱設(shè)計(jì)功耗持續(xù)攀升，該架構(gòu)也能支撐算力的長(zhǎng)期擴(kuò)容需求。

其中最有效的實(shí)施方案之一，是部署一站式垂直集成液冷機(jī)柜解決方案，即將供電、熱管理與信息技術(shù)硬件整合為一套預(yù)先設(shè)計(jì)調(diào)試完成的一體化系統(tǒng)。這類(lèi)方案無(wú)需進(jìn)行復(fù)雜的多廠商設(shè)備集成，部署速度更快、運(yùn)維流程更簡(jiǎn)化，且責(zé)任歸屬清晰統(tǒng)一。

合作同樣至關(guān)重要。與能提供全套機(jī)柜級(jí)集成系統(tǒng)的解決方案提供商攜手，搭配匹配的冷卻、供電和計(jì)算組件，數(shù)據(jù)中心運(yùn)營(yíng)方可獲得單一對(duì)接窗口與標(biāo)準(zhǔn)化的保修服務(wù)。這一模式能拆解復(fù)雜的集成環(huán)節(jié)、降低實(shí)施風(fēng)險(xiǎn)、加快部署進(jìn)度，讓數(shù)據(jù)中心擺脫傳統(tǒng)集成工作的困擾，實(shí)現(xiàn)更快的算力擴(kuò)容。

對(duì)于系統(tǒng)集成商而言，這類(lèi)架構(gòu)創(chuàng)造了全新的價(jià)值增長(zhǎng)點(diǎn)，可通過(guò)互操作性測(cè)試、性能驗(yàn)證，以及為優(yōu)化人工智能工作負(fù)載部署預(yù)集成機(jī)柜解決方案，為客戶(hù)提供專(zhuān)業(yè)服務(wù)。將先進(jìn)的液冷技術(shù)與高效供電方案相結(jié)合，即便計(jì)算輸出持續(xù)提升，運(yùn)營(yíng)方也能降低整個(gè)設(shè)施的能耗；相較風(fēng)冷系統(tǒng)，機(jī)柜級(jí)的功耗可降低數(shù)千瓦。

這些能效提升能直接轉(zhuǎn)化為單位面積更高的計(jì)算密度。當(dāng)冷卻與供電系統(tǒng)的運(yùn)行效率提升后，機(jī)柜可承載更高的功率與熱負(fù)荷，且不超出設(shè)施的承載上限。這意味著單位建筑面積能部署更多計(jì)算設(shè)備，最大化挖掘現(xiàn)有場(chǎng)地的價(jià)值，在不擴(kuò)大數(shù)據(jù)中心占地面積的前提下實(shí)現(xiàn)性能的大幅提升。

高壓直流母線與鈦級(jí)電源進(jìn)一步提高了電力轉(zhuǎn)換效率，減少?gòu)U熱產(chǎn)生，同時(shí)降低了后續(xù)的冷卻需求。

有限空間內(nèi)的新型基礎(chǔ)設(shè)施布局

未來(lái)的數(shù)據(jù)中心無(wú)需擴(kuò)大規(guī)模，即可滿(mǎn)足人工智能的算力需求，只需進(jìn)行更具策略性的設(shè)計(jì)。通過(guò)針對(duì)性升級(jí)基礎(chǔ)設(shè)施，運(yùn)營(yíng)方可在現(xiàn)有場(chǎng)地內(nèi)，釋放出支撐人工智能工作負(fù)載所需的計(jì)算密度與性能。

冷卻與供電是重中之重的切入點(diǎn)。工程師與系統(tǒng)集成商攜手應(yīng)對(duì)這些挑戰(zhàn)，采用集成化、模塊化、適配液冷的設(shè)計(jì)方案，便能讓數(shù)據(jù)中心的升級(jí)與新一代計(jì)算硬件的迭代同步推進(jìn)，從而為功耗日益攀升的人工智能解決方案提供可靠支撐。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.