大型掛機現(xiàn)場：馬斯克的55萬英偉達GPU，利用率才11%

2026-05-05 20:02:20　來源: 機器之心Pro

河北舉報

分享至

編輯 | 澤南

AI 時代堆 GPU，原來是這么個堆法？

馬斯克旗下的 xAI 目前 GPU 資源利用率只有大概 11%。相關(guān)報告指出，其 AI 軟件棧的優(yōu)化效果不盡如人意。近日，《The Information》的報道引發(fā)了人們的關(guān)注。

目前，xAI 在其 Memphis 和 Colossus 數(shù)據(jù)中心集群中運營著約 55 萬塊英偉達 GPU，包括 H100 和 H200 兩種型號，其中部分設(shè)備采用了液冷散熱配置。盡管這些 GPU 屬于上一代產(chǎn)品（早于最新的 Blackwell 系列），但其規(guī)模已經(jīng)令人嘆為觀止。

擁有如此龐大的 GPU 存量，xAI 的模型算力利用率（MFU，Model FLOPs Utilization）卻只有 11%。打個不恰當(dāng)?shù)谋扔鳎?xAI 服務(wù)器中已安裝的這 50 萬塊 GPU 中，實際可用的算力僅相當(dāng)于約 6 萬塊 GPU 的水平。究竟是什么原因?qū)е铝巳绱说偷男剩?/p>

首先，對于較小規(guī)模的部署環(huán)境（例如 1000-10000 塊 GPU）而言，多節(jié)點之間的協(xié)調(diào)計算通常不成問題。但隨著服務(wù)器規(guī)模的不斷擴大，當(dāng)需要集成數(shù)十萬顆 GPU 時，設(shè)備的空閑時間便會迅速累積，導(dǎo)致整體利用率急劇下滑。由此引發(fā)的軟件棧內(nèi)部的一系列不一致性問題，目前正在 xAI 的實際運行中暴露無遺。

在超級集群中，GPU 芯片本身的計算速度相對很快，瓶頸在于高帶寬內(nèi)存（HBM）的數(shù)據(jù)讀寫速度和成千上萬臺服務(wù)器之間網(wǎng)絡(luò)傳輸?shù)耐ㄐ砰_銷。只要數(shù)據(jù)傳輸出現(xiàn)微小的延遲或網(wǎng)絡(luò)擁堵，整個集群的 GPU 就會被迫 “原地掛機” 等待數(shù)據(jù)加載。

另一方面，AI 模型的訓(xùn)練通常是間歇性的。GPU 在實際計算時滿載運轉(zhuǎn)，但在研究人員分析訓(xùn)練結(jié)果、調(diào)整參數(shù)或處理數(shù)據(jù)管道時，大量設(shè)備就會處于閑置（Idle）狀態(tài)。

雖然 11% 是一個顯然偏低的數(shù)字，但 The Information 的報道也揭示了 AI 領(lǐng)域的一些行業(yè)潛規(guī)則：算力浪費是普遍的現(xiàn)象，有些大廠的研究人員為了避免被管理層批評，或者害怕閑置的 GPU 配額被其他團隊搶走，甚至?xí)室庵貜?fù)運行一些無意義的訓(xùn)練任務(wù)來 “刷高” 利用率數(shù)據(jù)。

該說不說，這么做也是為了保住團隊自己的 GPU 配額。

當(dāng)然，這并非 xAI 獨有的難題，它實際上是整個 AI 行業(yè)普遍存在的一種結(jié)構(gòu)性問題 ——AI 基礎(chǔ)設(shè)施要在如此龐大的規(guī)模下實現(xiàn)高效運行，是一項極其艱巨的挑戰(zhàn)。

運行 AI 云基礎(chǔ)設(shè)施所需的優(yōu)化技能涵蓋數(shù)據(jù)、算法、模型、計算、內(nèi)核、交互（人類 - AI - 世界、智能體之間），以及全局優(yōu)化，在工程上難度極高。

一些科技巨頭著重優(yōu)化了大規(guī)模基礎(chǔ)設(shè)施堆棧，已經(jīng)能夠?qū)崿F(xiàn)超過 40% 的利用率。Meta 和谷歌便是此類典范，其 GPU 的利用率分別高達 43% 和 46%。

xAI 遇到的困境證明了在當(dāng)前的 AI 軍備競賽中，“買到 GPU” 只是第一步，用好才是關(guān)鍵。硬件規(guī)模已經(jīng)超出了現(xiàn)有軟件架構(gòu)的調(diào)度能力。

不過，xAI 已在著手解決這一問題，并設(shè)定了利用率達到 50% 的目標(biāo)。盡管目前尚無確切的時間表，但其核心改進將聚焦于基礎(chǔ)設(shè)施與軟件堆棧的優(yōu)化。隨著未來工作負(fù)載逐步遷移至那些專為驅(qū)動 “智能體 AI”（Agentic AI）需求而設(shè)計的硬件平臺之上，xAI 極有可能將其龐大的 GPU 集群對外提供租賃服務(wù)。

馬斯克也在尋求轉(zhuǎn)變，押注于自研算力的 “TeraFab” 項目：一方面，他正在推動多款自研芯片，將其納入 xAI 的 “AI 芯片家族” 之中；另一方面，馬斯克也希望借助英特爾的 14A 制程技術(shù)，為未來的 xAI、SpaceX 及其它相關(guān)業(yè)務(wù)打造尖端解決方案。

xAI 的困境提醒了所有追趕者：AI 競賽的下半場，拼的可能不再是誰能買到更多顯卡。

參考內(nèi)容：

https://www.theinformation.com/newsletters/ai-agenda/xai-shows-hard-use-lot-gpus

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.