![]()
隨著AI基礎(chǔ)設(shè)施建設(shè)持續(xù)推進,運營商不斷將高功率密度系統(tǒng)部署到已受電網(wǎng)限制、水資源緊張和能源成本上升多重壓力的設(shè)施中,冷卻問題已成為這一進程中最核心的挑戰(zhàn)之一。初創(chuàng)公司Ferveret正是在這一背景下應(yīng)運而生,其定位是將冷卻技術(shù)從成本負擔(dān)轉(zhuǎn)變?yōu)樵诠潭ü念A(yù)算內(nèi)釋放更多算力的關(guān)鍵杠桿。
近幾個月來,該公司憑借其"自適應(yīng)相變冷卻"技術(shù)的基準(zhǔn)測試結(jié)果引發(fā)業(yè)界關(guān)注,相關(guān)數(shù)據(jù)顯示服務(wù)器層面的算力效率提升約15%,若結(jié)合更低的設(shè)施運營開銷,整體收益還將進一步擴大。需要指出的是,上述數(shù)據(jù)來源于測試和建模場景,而非完整的生產(chǎn)環(huán)境部署。
Ferveret的技術(shù)路線借鑒了核反應(yīng)堆熱工程領(lǐng)域的技術(shù),旨在提升熱傳導(dǎo)效率,同時減少對冷水機組和高耗水系統(tǒng)等傳統(tǒng)基礎(chǔ)設(shè)施的依賴。該公司將自身方案定義為數(shù)據(jù)中心層面的"無水"冷卻。
在更宏觀的視角下,CEO Reza Azizian指出,單純改善冷卻可能還不夠,硅基計算本身的效率局限才是更深層的長期挑戰(zhàn)。
目前,F(xiàn)erveret仍處于試點階段,正與客戶在機架層面開展合作,并通過OEM和ODM合作伙伴關(guān)系推進更大規(guī)模的部署。
以下是Ferveret CEO Azizian與Data Center Knowledge的對話內(nèi)容,經(jīng)整理編輯。
Data Center Knowledge:Ferveret目前的產(chǎn)品是什么?
Azizian:我們發(fā)明了一種名為"自適應(yīng)相變冷卻"的全新冷卻技術(shù)。這項技術(shù)的優(yōu)勢在于它是機架式安裝的,能夠適配現(xiàn)有數(shù)據(jù)中心的基礎(chǔ)設(shè)施,讓用戶非常便捷地試用并部署我們的方案。通過使用我們的解決方案,客戶可以在相同的功耗范圍內(nèi)獲得更多算力,因為冷卻效率大幅提升了。
DCK:客戶最看重的是什么?
Azizian:性能。隨著數(shù)據(jù)中心越來越受到功耗限制——現(xiàn)在想獲取更多電力簡直是噩夢——客戶希望在相同的功耗范圍內(nèi)獲得更多算力,而這正是我們能提供的。
DCK:您提到服務(wù)器層面提升了約15%,背后的原理是什么?
Azizian:這15%的提升,大部分來自于一個事實:即便是直接液冷方案,服務(wù)器內(nèi)仍然有風(fēng)扇。我們的系統(tǒng)沒有任何運動部件,去掉風(fēng)扇后,同等算力所需的功耗大幅降低。具體來說,15%中大約4%到5%來自于芯片運行溫度更低,漏電流減少,芯片運行速度略有提升;另外約10%則來自于去除風(fēng)扇本身。
DCK:您還提到在數(shù)據(jù)中心層面有更顯著的收益,這是如何實現(xiàn)的?
Azizian:我們能夠?qū)UE(電能使用效率)降至約1.03到1.04,這意味著數(shù)據(jù)中心的運營開銷大幅壓縮。將這一PUE改善與服務(wù)器層面15%的提升疊加,總體上可以在相同功耗范圍內(nèi)獲得約35%的額外算力。
DCK:目前這項技術(shù)部署在哪里?
Azizian:我們已經(jīng)在服務(wù)器層面完成了大量測試,目前正在與不同客戶進行機架層面的試點。我們在數(shù)據(jù)中心環(huán)境中運行試點項目,但尚未進入完整的生產(chǎn)部署階段。
DCK:這對在固定功耗預(yù)算內(nèi)運營的數(shù)據(jù)中心意味著什么?
Azizian:在典型的數(shù)據(jù)中心中,大約20%到30%的電力消耗在冷卻上。使用我們的方案后,這一比例會大幅下降。因此,在固定功耗范圍內(nèi),由于更多的總功率能夠真正到達機架,運營商可以部署更多服務(wù)器。
DCK:與直接液冷方案相比,成本競爭力如何?
Azizian:我們的基礎(chǔ)成本與直接液冷方案非常接近,差距不大。而且根據(jù)部署情況,我們不需要傳統(tǒng)冷卻方案通常所需的冷水機組和冷卻塔,這在資本支出方面可以節(jié)省相當(dāng)可觀的費用。
DCK:運營風(fēng)險由誰承擔(dān)?系統(tǒng)維護復(fù)雜嗎?
Azizian:機架式安裝的特點使維護更加便捷。如果出現(xiàn)問題,可以將某個單元取出單獨維修,與運營商目前的操作方式類似。在類似技術(shù)的早期部署中,我們曾遇到系統(tǒng)漏液的情況,但即便如此,溫度也是逐漸上升的,不會突然發(fā)生故障,運營人員有足夠的時間發(fā)現(xiàn)問題并進行修復(fù)。
DCK:部署流程是怎樣的?
Azizian:在試點階段,我們通常在幾周內(nèi)完成部署,主要工作是將服務(wù)器重新封裝集成到我們的方案中。在規(guī)模化方面,我們正在與OEM和ODM廠商合作,因為他們具備超大規(guī)模集成和部署的能力。
DCK:您認為目前AI部署中存在哪些普遍誤區(qū)?
Azizian:我真心認為,很多人覺得必須建設(shè)超大規(guī)模數(shù)據(jù)中心才能完成工作。但實際上,有大量5到10兆瓦的小型數(shù)據(jù)中心處于閑置狀態(tài)。我認為存在一條路徑,可以讓算力更加分布式,無論規(guī)模大小,都能接入更廣泛的算力網(wǎng)絡(luò)并貢獻算力。
DCK:展望未來,我們現(xiàn)在普遍忽視了什么?
Azizian:當(dāng)前數(shù)據(jù)中心的運營方式根本不可持續(xù)。如果將人腦的效率與硅基計算相比,差距是天壤之別。硅基計算所需的能耗和產(chǎn)生的熱量,從長遠來看是不可持續(xù)的。
總結(jié)
Ferveret正在將其冷卻技術(shù)定位為降低運營開銷、在受限功耗預(yù)算內(nèi)釋放更多算力的關(guān)鍵手段。其核心方案——去除服務(wù)器風(fēng)扇并提升熱效率——在服務(wù)器層面已展現(xiàn)出可量化的收益,而更大范圍的數(shù)據(jù)中心改善目前仍基于建模結(jié)果。隨著部署仍處于試點階段,下一個關(guān)鍵考驗是這些收益能否在規(guī)模化部署中得到驗證。
盡管如此,Azizian將冷卻技術(shù)定位為更大挑戰(zhàn)的一部分——這一挑戰(zhàn)最終可能需要從根本上重新審視硅基計算本身的效率極限。
Q&A
Q1:Ferveret的自適應(yīng)相變冷卻技術(shù)是如何提升算力效率的?
A:Ferveret的自適應(yīng)相變冷卻技術(shù)通過兩個主要途徑提升效率:一是去除服務(wù)器風(fēng)扇(無運動部件),節(jié)省約10%的功耗;二是讓芯片在更低溫度下運行,減少漏電流并提升運行速度,貢獻約4%到5%的提升。兩者合計在服務(wù)器層面實現(xiàn)約15%的算力效率提升。若再結(jié)合數(shù)據(jù)中心PUE降至1.03至1.04的改善,整體算力提升可達約35%。
Q2:Ferveret的冷卻方案為什么被稱為"無水"冷卻?
A:Ferveret將其方案定義為數(shù)據(jù)中心層面的"無水"冷卻,原因在于其技術(shù)不依賴傳統(tǒng)冷卻基礎(chǔ)設(shè)施中的冷水機組和高耗水冷卻塔。該技術(shù)借鑒了核反應(yīng)堆熱工程領(lǐng)域的熱傳導(dǎo)原理,在提升散熱效率的同時,大幅減少了對水資源的消耗,從而降低了數(shù)據(jù)中心在水資源緊張地區(qū)的運營壓力。
Q3:Ferveret目前的技術(shù)成熟度如何,是否已大規(guī)模商用?
A:目前Ferveret仍處于試點階段,尚未進入完整的生產(chǎn)部署。該公司已在服務(wù)器層面完成大量測試,并正在與不同客戶進行機架層面的試點。在規(guī)模化路徑上,F(xiàn)erveret正與OEM和ODM廠商合作,借助其超大規(guī)模集成和部署能力推進商業(yè)化落地。文章中提到的15%和35%效率提升數(shù)據(jù),目前仍基于測試和建模場景,而非完整生產(chǎn)環(huán)境的驗證結(jié)果。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.