![]()
作者 | 四月
2026 年 5 月的硅谷,對于 AI 算力的“饑荒”和焦慮,正達到一個前所未有的高度。
哪怕那些站在算力中心的人,也不得不開始為算力排隊。
在英偉達,負責(zé)應(yīng)用深度學(xué)習(xí)研究團隊的 Bryan Catanzaro 找黃仁勛申請訓(xùn)練卡。最近大家一直抱怨卡不夠用,受限太多。
“不好意思,那些卡已經(jīng)賣掉了”,這是老黃給出的回復(fù)。
Catanzaro 是英偉達的大功臣。十多年前,正是他留意到,GPU 迎來了首批 AI 買家——研究員,且?guī)缀醑偪駫哓洝;谶@個洞察,老黃才下定決心把整間公司押注 AI 賽道。
當(dāng)年幫英偉達賭對算力卡的人,現(xiàn)在卻買不到自家的 GPU 了。
而比“賣鏟子的沒鏟子了”更戲劇性的事,還發(fā)生在谷歌。
去年夏天,DeepMind 的研究員 Andrew Dai 判斷,視覺推理是個值得做的方向。于是向公司內(nèi)部提了一批 TPU 的資源需求。
但申請遲遲未批。拒絕的理由,倒不是研究方向不夠好,而是項目不能為下一代的 Gemini 服務(wù)。當(dāng)時的內(nèi)部原則是,資源應(yīng)該優(yōu)先流向付費客戶和旗艦?zāi)P汀?/p>
“在谷歌內(nèi)部,每一塊 TPU 的背后,都有三位競爭者”,華盛頓大學(xué)計算機系的榮譽教授 Oren Etzioni 聊到。現(xiàn)實很殘酷,如果你的項目不能直接帶來收入,你就是在和付費客戶搶資源。
Dai 最終選擇離職創(chuàng)業(yè)。和他做出同樣選擇的,還有 Anna Goldie。
有趣的是,谷歌用來挽留 Goldie 的籌碼不是加薪,也不是期權(quán),而是——更多的 TPU 算力卡。
但 Goldie 還是走了,還拿到了 3.35 億美元的融資,“這筆錢能買到的算力,和當(dāng)初 DeepMind 挽留我開出的條件,幾乎相當(dāng)。”
當(dāng)大廠圍墻內(nèi)的算力變成一種“組織權(quán)限”,出走就成了唯一解。
而在圍墻之外,獨立開發(fā)者和研究員面對的,是比“GPU 短缺”更難的處境:連卡都租不到。
這事已經(jīng)迫切到什么程度了呢?
![]()
這兩天,AI 大神 Andrej Karpathy 都忍不住發(fā)帖吐槽。他表示,在錄制 nanochat 教學(xué)視頻時,才突然意識到,如果實驗的第一步是,讓學(xué)員“從云平臺啟動一臺 8×H100 的服務(wù)器”,那么絕大部分人將倒在起跑線上。
有大神出來喊話,評論區(qū)迅速變成大型比慘現(xiàn)場。
H100 搶不到,H200 一夜?jié)q價 30%
![]()
看這話問得,顯然是我方友軍無疑了。
![]()
有人補刀,其實真正的第一步,還不是啟動 Server,而是求爺爺告奶奶等 quota approval。 現(xiàn)在大多數(shù)的普通用戶,是連 8×H100 的預(yù)審批權(quán)限都沒有的。
![]()
![]()
![]()
更有開發(fā)者直接曬后臺截圖:RunPod 上多種 GPU 型號顯示 unavailable;Azure 上 H100 虛擬機啟動失敗,提示 capacity 不足;Google Colab 選擇 GPU 后,被系統(tǒng)自動降檔到 G4。
![]()
Rohan Bansal 看著賬戶里僅存的兩個 H100 實例,發(fā)了條推文:“holding on for dear life”。
如果說資源緊缺必然導(dǎo)致價格上漲,尚可理解。但這漲價的姿勢未免也有些詭異。
正常的邏輯是,新一代出來,舊款降價。B200 已經(jīng)穩(wěn)定供貨,四年前的 H100 也理應(yīng)降價。
![]()
但 SemiAnalysis 數(shù)據(jù)顯示,H100 一年期的合約租金,半年漲了近 40%(從 2025 年 10 月的 $1.70/ 小時,漲到 2026 年 3 月的 $2.35)。
![]()
現(xiàn)貨市場更夸張,lambda 的報價已上浮到 4 美元 +/ 小時,是兩年前的兩倍。而 H200 的現(xiàn)貨價格甚至比新一代 B200 還要貴。"這價格是兩年前的兩倍還多,而且通常很難搶到,要寫腳本盯著 API 才有機會。"
![]()
圖注:從 4.96 美元 / 小時漲到 6.40 美元 / 小時,漲幅 29%;而更新一代的 B200 為 5.68 美元 /GPU 小時。
5% 的利用率和 B200 的倒掛
一邊是高端 GPU 緊缺,一邊卻是算力中心里的利用率低得令人發(fā)指。
Cast AI 的報告顯示,不少大企業(yè) GPU 集群的平均利用率只有 5% 左右。此前,馬斯克的兆瓦級算力中心 Colossus 的 MFU(模型算力利用率)僅為 11% 左右。
其實并不是企業(yè)意識到不到算力資源的浪費,而是不敢放手。
排隊幾個月,云廠商銷售突然打電話:“你要的卡現(xiàn)在只剩 36 張了,只能簽一年的長約。不要的話,后面還有五家排隊等著呢。”
這時候,問題已經(jīng)不是“公司是否需要租用這么長時間的芯片”,而是“我敢不敢錯過這筆訂單”。
先簽下來,哪怕閑置也不釋放,因為交出去的算力卡可能就再也拿不回來了。
芯片不只是產(chǎn)能短缺,更是流動性短缺:它卡在企業(yè)的算力長約里,困在云廠商的容量池里,但就是不在普通開發(fā)者今晚能點開購買的頁面上。
短缺制造恐慌,恐慌制造囤積,囤積制造更深的短缺。
而這種流動性的枯竭,也放大了另一個結(jié)構(gòu)性問題:為什么偏偏是 H100/H200 被推上了天價,甚至比新一代 B200 還貴?
因為算力市場從來不是按“誰更新”來定價,而是按“誰更好用、更好接入”來定價的。
過去大家搶 GPU,想象中的場景是巨頭訓(xùn)練下一代大模型,當(dāng)然要追求極致先進。但現(xiàn)在,消耗 GPU 的地方變多了:推理服務(wù)、代碼 Agent、RL 后訓(xùn)練、自動評測、小模型復(fù)現(xiàn)、教學(xué)實驗,都在持續(xù)吃算力。
對于這些海量需求來說,B200 代表的下一代性能上限并不是首選。
做工程的人最懂:最先進不等于最好用,真正值錢的是確定性。
H100/H200 足夠強,且生態(tài)足夠成熟。你用 H100 跑,別人的 benchmark 也是 H100;你用 H200 做推理,調(diào)參經(jīng)驗已經(jīng)有人踩過坑。
相比之下,新一代芯片再強,也需要時間消化到框架、集群、調(diào)度和成本模型里。
訓(xùn)練市場還沒完全切到 Blackwell,推理和后訓(xùn)練市場又把需求重重疊加上來。舊卡本該退場,卻因為“確定性”成了剛需。
AI 民主化,卡在了算力門檻上
這一輪的芯片荒,和過去還不太一樣。
過去聊缺芯,是頂級 AI Lab 的軍備競賽,巨頭誰搶到更多 GPU,誰就能訓(xùn)練更大模型。但這一次,焦慮正在往下沉。
Karpathy 錄教程要先考慮開發(fā)者能不能拿到 8×H100;LocalLLaMA 社區(qū)討論能不能用本地 Mac 硬跑;高校研究員擔(dān)心拿不到算力,小團隊擔(dān)心擴容被大客戶擠掉。
這背后已經(jīng)不是“我要訓(xùn)練 GPT-5”的野心,而是一個更樸素的問題:我只是想復(fù)現(xiàn)一個實驗,為什么第一步就變成搶算力了?
AI 開源這幾年確實降低了許多門檻。模型權(quán)重可以下載,代碼可以 fork。但算力把另一扇門關(guān)上了。
代碼可以開源,但 H100 不能 fork。
真正的 AI 研究從來不只是看懂代碼,還得你能跑通實驗、復(fù)現(xiàn)結(jié)果,調(diào)參、失敗,以及很多次的再重來。
如果每次實驗的前提,都是拿到一組昂貴且不穩(wěn)定的 GPU,那么開源的平等,就會被算力的不平等重新抵消。
從 Google 研究員離職創(chuàng)業(yè),到英偉達內(nèi)部爭 GPU,然后是 Karpathy 的教學(xué)視頻卡在 8 張 H100,它們指向同一件事:算力正在從基礎(chǔ)設(shè)施,變成一種篩選機制。
它篩掉的未必是沒有想法的人,而是沒有預(yù)算、沒有配額資源、沒有長期合同的群體。
這才是 AI 民主化最尷尬的現(xiàn)實:模型越來越開放,但能跑起來的人,可能并沒有變多。
國內(nèi)開發(fā)者的痛:過渡期的壓力
把視線拉回國內(nèi),如果說海外開發(fā)者是在成熟生態(tài)里搶 H100/H200 現(xiàn)貨;那么國內(nèi)開發(fā)者面對的,則是過渡期的多重壓力考驗,要在新的算力結(jié)構(gòu)里找"能用且好用"的解法。
某云 H100 排期已到 2027 年第一季度,更多的云平臺同樣面臨高端卡供應(yīng)瓶頸,"有錢也租不到"是真實的用戶反饋。
與此同時,高端卡的獲取仍然受政策影響,當(dāng)然國產(chǎn)算力替代正在加速。但從 CUDA 體系切換的工程成本是真實存在的,適配層、代碼改動、調(diào)試周期,對小團隊而言不是輕松的遷移。
其實,大家底層的處境不盡相同。算力底座從來不是一個宏大詞,而是非常具體的體驗——實例能不能啟動,價格扛不扛得住,實驗結(jié)果能不能復(fù)現(xiàn)。
今天 AI 圈真正稀缺的,也許不是最新的芯片,而是普通人能穩(wěn)定拿到、馬上用起來、跑出結(jié)果的有效算力。
Even Nvidia’s own research teams can’t get enough GPUs amid the race for AI computing power(https://fortune.com/2026/04/09/nvidia-gpu-shortage-impacts-even-nvidias-own-research-teams-bryan-catanzaro-eye-on-ai/)
The Great GPU Shortage – Rental Capacity – Launching our H100 1 Year Rental Price Index(https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity)
FOMO is why enterprises pay for GPUs they don't use — and why prices keep climbing(https://venturebeat.com/infrastructure/fomo-is-why-enterprises-pay-for-gpus-they-dont-use-and-why-prices-keep-climbing)
https://semianalysis.com/gpu-pricing-index/
Nvidia A100 vs H100 vs B200 GPU Rental Price and Performance(https://ornn.com/insights/nvidia-a100-vs-h100-vs-b200-gpu-rental-price-and-performance)
聲明:本文為 AI 前線原創(chuàng),不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構(gòu),還能撐多久?
AICon 上海站 2026,13 大重磅專題已上線,誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026,期待與你同行。快來掃碼鎖定 8 折專屬席位或提交演講議題
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.