網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

硅谷深陷算力荒：H200一夜?jié)q價30%，H100搶到缺貨，Karpathy也未能幸免

2026-05-19 22:18:01　來源: AI前線

北京舉報

分享至

作者｜四月

2026 年 5 月的硅谷，對于 AI 算力的“饑荒”和焦慮，正達到一個前所未有的高度。

哪怕那些站在算力中心的人，也不得不開始為算力排隊。

在英偉達，負責(zé)應(yīng)用深度學(xué)習(xí)研究團隊的 Bryan Catanzaro 找黃仁勛申請訓(xùn)練卡。最近大家一直抱怨卡不夠用，受限太多。

“不好意思，那些卡已經(jīng)賣掉了”，這是老黃給出的回復(fù)。

Catanzaro 是英偉達的大功臣。十多年前，正是他留意到，GPU 迎來了首批 AI 買家——研究員，且?guī)缀醑偪駫哓洝；谶@個洞察，老黃才下定決心把整間公司押注 AI 賽道。

當(dāng)年幫英偉達賭對算力卡的人，現(xiàn)在卻買不到自家的 GPU 了。

而比“賣鏟子的沒鏟子了”更戲劇性的事，還發(fā)生在谷歌。

去年夏天，DeepMind 的研究員 Andrew Dai 判斷，視覺推理是個值得做的方向。于是向公司內(nèi)部提了一批 TPU 的資源需求。

但申請遲遲未批。拒絕的理由，倒不是研究方向不夠好，而是項目不能為下一代的 Gemini 服務(wù)。當(dāng)時的內(nèi)部原則是，資源應(yīng)該優(yōu)先流向付費客戶和旗艦?zāi)Ｐ汀?/p>

“在谷歌內(nèi)部，每一塊 TPU 的背后，都有三位競爭者”，華盛頓大學(xué)計算機系的榮譽教授 Oren Etzioni 聊到。現(xiàn)實很殘酷，如果你的項目不能直接帶來收入，你就是在和付費客戶搶資源。

Dai 最終選擇離職創(chuàng)業(yè)。和他做出同樣選擇的，還有 Anna Goldie。

有趣的是，谷歌用來挽留 Goldie 的籌碼不是加薪，也不是期權(quán)，而是——更多的 TPU 算力卡。

但 Goldie 還是走了，還拿到了 3.35 億美元的融資，“這筆錢能買到的算力，和當(dāng)初 DeepMind 挽留我開出的條件，幾乎相當(dāng)。”

當(dāng)大廠圍墻內(nèi)的算力變成一種“組織權(quán)限”，出走就成了唯一解。

而在圍墻之外，獨立開發(fā)者和研究員面對的，是比“GPU 短缺”更難的處境：連卡都租不到。

這事已經(jīng)迫切到什么程度了呢？

這兩天，AI 大神 Andrej Karpathy 都忍不住發(fā)帖吐槽。他表示，在錄制 nanochat 教學(xué)視頻時，才突然意識到，如果實驗的第一步是，讓學(xué)員“從云平臺啟動一臺 8×H100 的服務(wù)器”，那么絕大部分人將倒在起跑線上。

有大神出來喊話，評論區(qū)迅速變成大型比慘現(xiàn)場。

H100 搶不到，H200 一夜?jié)q價 30%

看這話問得，顯然是我方友軍無疑了。

有人補刀，其實真正的第一步，還不是啟動 Server，而是求爺爺告奶奶等 quota approval。現(xiàn)在大多數(shù)的普通用戶，是連 8×H100 的預(yù)審批權(quán)限都沒有的。

更有開發(fā)者直接曬后臺截圖：RunPod 上多種 GPU 型號顯示 unavailable；Azure 上 H100 虛擬機啟動失敗，提示 capacity 不足；Google Colab 選擇 GPU 后，被系統(tǒng)自動降檔到 G4。

Rohan Bansal 看著賬戶里僅存的兩個 H100 實例，發(fā)了條推文：“holding on for dear life”。

如果說資源緊缺必然導(dǎo)致價格上漲，尚可理解。但這漲價的姿勢未免也有些詭異。

正常的邏輯是，新一代出來，舊款降價。B200 已經(jīng)穩(wěn)定供貨，四年前的 H100 也理應(yīng)降價。

但 SemiAnalysis 數(shù)據(jù)顯示，H100 一年期的合約租金，半年漲了近 40%（從 2025 年 10 月的 $1.70/ 小時，漲到 2026 年 3 月的 $2.35）。

現(xiàn)貨市場更夸張，lambda 的報價已上浮到 4 美元 +/ 小時，是兩年前的兩倍。而 H200 的現(xiàn)貨價格甚至比新一代 B200 還要貴。"這價格是兩年前的兩倍還多，而且通常很難搶到，要寫腳本盯著 API 才有機會。"

圖注：從 4.96 美元 / 小時漲到 6.40 美元 / 小時，漲幅 29%；而更新一代的 B200 為 5.68 美元 /GPU 小時。

5% 的利用率和 B200 的倒掛

一邊是高端 GPU 緊缺，一邊卻是算力中心里的利用率低得令人發(fā)指。

Cast AI 的報告顯示，不少大企業(yè) GPU 集群的平均利用率只有 5% 左右。此前，馬斯克的兆瓦級算力中心 Colossus 的 MFU（模型算力利用率）僅為 11% 左右。

其實并不是企業(yè)意識到不到算力資源的浪費，而是不敢放手。

排隊幾個月，云廠商銷售突然打電話：“你要的卡現(xiàn)在只剩 36 張了，只能簽一年的長約。不要的話，后面還有五家排隊等著呢。”

這時候，問題已經(jīng)不是“公司是否需要租用這么長時間的芯片”，而是“我敢不敢錯過這筆訂單”。

先簽下來，哪怕閑置也不釋放，因為交出去的算力卡可能就再也拿不回來了。

芯片不只是產(chǎn)能短缺，更是流動性短缺：它卡在企業(yè)的算力長約里，困在云廠商的容量池里，但就是不在普通開發(fā)者今晚能點開購買的頁面上。

短缺制造恐慌，恐慌制造囤積，囤積制造更深的短缺。

而這種流動性的枯竭，也放大了另一個結(jié)構(gòu)性問題：為什么偏偏是 H100/H200 被推上了天價，甚至比新一代 B200 還貴？

因為算力市場從來不是按“誰更新”來定價，而是按“誰更好用、更好接入”來定價的。

過去大家搶 GPU，想象中的場景是巨頭訓(xùn)練下一代大模型，當(dāng)然要追求極致先進。但現(xiàn)在，消耗 GPU 的地方變多了：推理服務(wù)、代碼 Agent、RL 后訓(xùn)練、自動評測、小模型復(fù)現(xiàn)、教學(xué)實驗，都在持續(xù)吃算力。

對于這些海量需求來說，B200 代表的下一代性能上限并不是首選。

做工程的人最懂：最先進不等于最好用，真正值錢的是確定性。

H100/H200 足夠強，且生態(tài)足夠成熟。你用 H100 跑，別人的 benchmark 也是 H100；你用 H200 做推理，調(diào)參經(jīng)驗已經(jīng)有人踩過坑。

相比之下，新一代芯片再強，也需要時間消化到框架、集群、調(diào)度和成本模型里。

訓(xùn)練市場還沒完全切到 Blackwell，推理和后訓(xùn)練市場又把需求重重疊加上來。舊卡本該退場，卻因為“確定性”成了剛需。

AI 民主化，卡在了算力門檻上

這一輪的芯片荒，和過去還不太一樣。

過去聊缺芯，是頂級 AI Lab 的軍備競賽，巨頭誰搶到更多 GPU，誰就能訓(xùn)練更大模型。但這一次，焦慮正在往下沉。

Karpathy 錄教程要先考慮開發(fā)者能不能拿到 8×H100；LocalLLaMA 社區(qū)討論能不能用本地 Mac 硬跑；高校研究員擔(dān)心拿不到算力，小團隊擔(dān)心擴容被大客戶擠掉。

這背后已經(jīng)不是“我要訓(xùn)練 GPT-5”的野心，而是一個更樸素的問題：我只是想復(fù)現(xiàn)一個實驗，為什么第一步就變成搶算力了？

AI 開源這幾年確實降低了許多門檻。模型權(quán)重可以下載，代碼可以 fork。但算力把另一扇門關(guān)上了。

代碼可以開源，但 H100 不能 fork。

真正的 AI 研究從來不只是看懂代碼，還得你能跑通實驗、復(fù)現(xiàn)結(jié)果，調(diào)參、失敗，以及很多次的再重來。

如果每次實驗的前提，都是拿到一組昂貴且不穩(wěn)定的 GPU，那么開源的平等，就會被算力的不平等重新抵消。

從 Google 研究員離職創(chuàng)業(yè)，到英偉達內(nèi)部爭 GPU，然后是 Karpathy 的教學(xué)視頻卡在 8 張 H100，它們指向同一件事：算力正在從基礎(chǔ)設(shè)施，變成一種篩選機制。

它篩掉的未必是沒有想法的人，而是沒有預(yù)算、沒有配額資源、沒有長期合同的群體。

這才是 AI 民主化最尷尬的現(xiàn)實：模型越來越開放，但能跑起來的人，可能并沒有變多。

國內(nèi)開發(fā)者的痛：過渡期的壓力

把視線拉回國內(nèi)，如果說海外開發(fā)者是在成熟生態(tài)里搶 H100/H200 現(xiàn)貨；那么國內(nèi)開發(fā)者面對的，則是過渡期的多重壓力考驗，要在新的算力結(jié)構(gòu)里找"能用且好用"的解法。

某云 H100 排期已到 2027 年第一季度，更多的云平臺同樣面臨高端卡供應(yīng)瓶頸，"有錢也租不到"是真實的用戶反饋。

與此同時，高端卡的獲取仍然受政策影響，當(dāng)然國產(chǎn)算力替代正在加速。但從 CUDA 體系切換的工程成本是真實存在的，適配層、代碼改動、調(diào)試周期，對小團隊而言不是輕松的遷移。

其實，大家底層的處境不盡相同。算力底座從來不是一個宏大詞，而是非常具體的體驗——實例能不能啟動，價格扛不扛得住，實驗結(jié)果能不能復(fù)現(xiàn)。

今天 AI 圈真正稀缺的，也許不是最新的芯片，而是普通人能穩(wěn)定拿到、馬上用起來、跑出結(jié)果的有效算力。

Even Nvidia’s own research teams can’t get enough GPUs amid the race for AI computing power（https://fortune.com/2026/04/09/nvidia-gpu-shortage-impacts-even-nvidias-own-research-teams-bryan-catanzaro-eye-on-ai/）
The Great GPU Shortage – Rental Capacity – Launching our H100 1 Year Rental Price Index（https://newsletter.semianalysis.com/p/the-great-gpu-shortage-rental-capacity）
FOMO is why enterprises pay for GPUs they don't use — and why prices keep climbing（https://venturebeat.com/infrastructure/fomo-is-why-enterprises-pay-for-gpus-they-dont-use-and-why-prices-keep-climbing）
https://semianalysis.com/gpu-pricing-index/
Nvidia A100 vs H100 vs B200 GPU Rental Price and Performance（https://ornn.com/insights/nvidia-a100-vs-h100-vs-b200-gpu-rental-price-and-performance）

聲明：本文為 AI 前線原創(chuàng)，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發(fā)體系不重構(gòu)，還能撐多久？

AICon 上海站 2026，13 大重磅專題已上線，誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026，期待與你同行。快來掃碼鎖定 8 折專屬席位或提交演講議題

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.