![]()
編輯 | 澤南
AI 時代堆 GPU,原來是這么個堆法?
馬斯克旗下的 xAI 目前 GPU 資源利用率只有大概 11%。相關(guān)報告指出,其 AI 軟件棧的優(yōu)化效果不盡如人意。近日,《The Information》的報道引發(fā)了人們的關(guān)注。
![]()
目前,xAI 在其 Memphis 和 Colossus 數(shù)據(jù)中心集群中運營著約 55 萬塊英偉達 GPU,包括 H100 和 H200 兩種型號,其中部分設(shè)備采用了液冷散熱配置。盡管這些 GPU 屬于上一代產(chǎn)品(早于最新的 Blackwell 系列),但其規(guī)模已經(jīng)令人嘆為觀止。
擁有如此龐大的 GPU 存量,xAI 的模型算力利用率(MFU,Model FLOPs Utilization)卻只有 11%。打個不恰當(dāng)?shù)谋扔鳎?xAI 服務(wù)器中已安裝的這 50 萬塊 GPU 中,實際可用的算力僅相當(dāng)于約 6 萬塊 GPU 的水平。究竟是什么原因?qū)е铝巳绱说偷男剩?/p>
首先,對于較小規(guī)模的部署環(huán)境(例如 1000-10000 塊 GPU)而言,多節(jié)點之間的協(xié)調(diào)計算通常不成問題。但隨著服務(wù)器規(guī)模的不斷擴大,當(dāng)需要集成數(shù)十萬顆 GPU 時,設(shè)備的空閑時間便會迅速累積,導(dǎo)致整體利用率急劇下滑。由此引發(fā)的軟件棧內(nèi)部的一系列不一致性問題,目前正在 xAI 的實際運行中暴露無遺。
在超級集群中,GPU 芯片本身的計算速度相對很快,瓶頸在于高帶寬內(nèi)存(HBM)的數(shù)據(jù)讀寫速度和成千上萬臺服務(wù)器之間網(wǎng)絡(luò)傳輸?shù)耐ㄐ砰_銷。只要數(shù)據(jù)傳輸出現(xiàn)微小的延遲或網(wǎng)絡(luò)擁堵,整個集群的 GPU 就會被迫 “原地掛機” 等待數(shù)據(jù)加載。
另一方面,AI 模型的訓(xùn)練通常是間歇性的。GPU 在實際計算時滿載運轉(zhuǎn),但在研究人員分析訓(xùn)練結(jié)果、調(diào)整參數(shù)或處理數(shù)據(jù)管道時,大量設(shè)備就會處于閑置(Idle)狀態(tài)。
雖然 11% 是一個顯然偏低的數(shù)字,但 The Information 的報道也揭示了 AI 領(lǐng)域的一些行業(yè)潛規(guī)則:算力浪費是普遍的現(xiàn)象,有些大廠的研究人員為了避免被管理層批評,或者害怕閑置的 GPU 配額被其他團隊搶走,甚至?xí)室庵貜?fù)運行一些無意義的訓(xùn)練任務(wù)來 “刷高” 利用率數(shù)據(jù)。
該說不說,這么做也是為了保住團隊自己的 GPU 配額。
當(dāng)然,這并非 xAI 獨有的難題,它實際上是整個 AI 行業(yè)普遍存在的一種結(jié)構(gòu)性問題 ——AI 基礎(chǔ)設(shè)施要在如此龐大的規(guī)模下實現(xiàn)高效運行,是一項極其艱巨的挑戰(zhàn)。
![]()
運行 AI 云基礎(chǔ)設(shè)施所需的優(yōu)化技能涵蓋數(shù)據(jù)、算法、模型、計算、內(nèi)核、交互(人類 - AI - 世界、智能體之間),以及全局優(yōu)化,在工程上難度極高。
一些科技巨頭著重優(yōu)化了大規(guī)模基礎(chǔ)設(shè)施堆棧,已經(jīng)能夠?qū)崿F(xiàn)超過 40% 的利用率。Meta 和谷歌便是此類典范,其 GPU 的利用率分別高達 43% 和 46%。
xAI 遇到的困境證明了在當(dāng)前的 AI 軍備競賽中,“買到 GPU” 只是第一步,用好才是關(guān)鍵。硬件規(guī)模已經(jīng)超出了現(xiàn)有軟件架構(gòu)的調(diào)度能力。
不過,xAI 已在著手解決這一問題,并設(shè)定了利用率達到 50% 的目標(biāo)。盡管目前尚無確切的時間表,但其核心改進將聚焦于基礎(chǔ)設(shè)施與軟件堆棧的優(yōu)化。隨著未來工作負(fù)載逐步遷移至那些專為驅(qū)動 “智能體 AI”(Agentic AI)需求而設(shè)計的硬件平臺之上,xAI 極有可能將其龐大的 GPU 集群對外提供租賃服務(wù)。
馬斯克也在尋求轉(zhuǎn)變,押注于自研算力的 “TeraFab” 項目:一方面,他正在推動多款自研芯片,將其納入 xAI 的 “AI 芯片家族” 之中;另一方面,馬斯克也希望借助英特爾的 14A 制程技術(shù),為未來的 xAI、SpaceX 及其它相關(guān)業(yè)務(wù)打造尖端解決方案。
xAI 的困境提醒了所有追趕者:AI 競賽的下半場,拼的可能不再是誰能買到更多顯卡。
參考內(nèi)容:
https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.