![]()
![]()
我一直聽到人工智能(AI)是個燒錢的行業,尤其是在推理(inference)方面。雖然表面上看起來合理,但我對這類說法一直持懷疑態度,因此決定深入研究一下。
目前還沒有人真正嘗試拆解大規模推理的成本,而這背后的經濟問題讓我非常感興趣。
這篇文章是基于粗略估算(napkin math)完成的。我沒有運行前沿模型的經驗,但對在云端運行高吞吐量服務的成本和經濟性有深入了解,也知道超大規模云服務商與裸機(bare metal)相比的驚人利潤率。歡迎指正我的錯誤。
01
一些假設
我將僅考慮原始計算成本。這顯然是過于簡化的,但考慮到當前模型的實用性——即使假設沒有進一步改進——我想測試“推理成本高到完全不可持續”這一觀點是否站得住腳。
我假設單個H100 GPU的成本為每小時2美元。這實際上高于當前按需租賃的零售價格,我希望大型AI公司能以更低的價格獲取這些資源。
![]()
H100租賃價格比較
其次,我將以DeepSeek R1的架構作為基準:總計6710億參數,通過專家混合(MoE)激活370億參數。考慮到其性能與Claude Sonnet 4和GPT-5相當,我認為這是一個合理的假設。
02
從第一性原理推導:H100的計算成本
生產環境設置
讓我們從一個現實的生產環境開始。假設一個包含72個H100 GPU的集群,每個GPU每小時2美元,總成本為每小時144美元。
為了滿足生產環境的延遲要求,我假設每個模型實例的批量大小為32個并發請求,這比基準測試中可能使用的大批量更現實。通過在8個GPU上進行張量并行(tensor parallelism),我們可以在72個GPU上同時運行9個模型實例。
預填充階段(輸入處理)
H100的HBM內存帶寬約為每GPU 3.35TB/s,這是大多數工作負載的限制因素。對于370億活躍參數,在FP16精度下需要74GB內存,我們可以計算出每秒大約能處理3,350GB/s ÷ 74GB = 45次前向傳播(forward passes)。
關鍵點在于:每次前向傳播會同時處理所有序列中的所有token。
假設我們的32個序列批次平均每個序列包含1000個token,即每次前向傳播處理32,000個token。這意味著每個實例每秒可處理45次傳播 × 32,000token = 144萬個輸入token。在9個實例上,這相當于每秒1300萬個輸入token,或每小時468億個輸入token。
在MoE架構中,批次中不同token可能需要加載不同的專家組合,這可能導致吞吐量降低2-3倍,尤其當token路由到不同專家時。然而,實際中路由模式通常會集中在熱門專家上,且現代實現使用專家并行(expert parallelism)和容量因子(capacity factors)等技術來保持效率,因此實際影響可能僅為30-50%的吞吐量降低,而非最壞情況。
解碼階段(輸出生成)
輸出生成的場景完全不同。這里我們是按順序生成token——每次前向傳播每個序列生成一個token。因此,45次前向傳播每秒僅生成45 × 32 = 1,440個輸出token。9個實例總計每秒12,960個輸出token,或每小時4670萬個輸出token。
token的原始成本
輸入和輸出的成本差異非常明顯:144美元 ÷ 468億 = 每百萬輸入token0.003美元,而144美元 ÷ 4670萬 = 每百萬輸出token3.08美元。這是一個千倍的差距!
當計算成為瓶頸
我們的計算假設內存帶寬是限制因素,這在典型工作負載中是正確的。但在某些場景下,計算能力會成為瓶頸。對于長上下文序列,注意力機制的計算量隨序列長度呈平方增長。大批量大小和更多并行注意力頭也可能使系統從內存受限轉為計算受限。
當上下文長度達到128k以上時,注意力矩陣變得非常龐大,系統從內存受限轉為計算受限。這可能使成本增加2-10倍,尤其是在超長上下文場景下。
這解釋了一些有趣的產品決策。例如,Claude Code將上下文限制在200ktoken,不僅是為了性能,也是為了保持在成本較低的內存受限模式,避免昂貴的計算受限長上下文場景。
這也是為什么服務商對200k+上下文窗口額外收費——經濟模型發生了根本變化。
03
現實世界的用戶經濟
根據我對成本的逆向推算(再次提醒,這是基于H100的零售租賃價格),我推測情況如下:
- 輸入處理
幾乎免費(約每百萬 token 0.001美元)
- 輸出生成
有顯著成本(約每百萬 token 3美元)
這些成本與DeepInfra對R1托管的收費相符,只是輸入token的加價更高。
DeepInfra R1定價,見下圖:
![]()
A. 消費者計劃
ChatGPT Pro用戶(每月20美元):重度日常使用,但受token限制
每天10萬 token
假設70%輸入/30%輸出:實際成本約每月3美元
OpenAI的加價為5-6倍
這是典型的重度用戶,每天使用模型進行寫作、編碼和常規查詢。這里的經濟性很強。
B. 開發者使用
Claude Code Max 5用戶(每月100美元):每天2小時重度編碼
約200萬輸入 token ,3萬輸出 token /天
大量輸入 token (便宜的并行處理)+少量輸出
實際成本:約每月4.92美元 → 20.3倍加價
Claude Code Max 10用戶(每月200美元):每天6小時極重度使用
約1000萬輸入 token ,10萬輸出 token /天
大量輸入 token ,但生成 token 相對較少
實際成本:約每月16.89美元 → 11.8倍加價
開發者用例的經濟性尤為突出。像Claude Code這樣的編碼助手天然具有高度不對稱的使用模式——輸入整個代碼庫、文檔、堆棧跟蹤、多個文件和廣泛上下文(廉價輸入token),但只需要相對較小的輸出,如代碼片段或解釋。這完美契合了輸入幾乎免費而輸出昂貴的成本結構。
C. API利潤率
當前API定價:每百萬 token 3美元/15美元 vs 實際成本約0.01美元/3美元
毛利率:80-95%+
API業務幾乎是印鈔機。這里的毛利率更像是軟件而非基礎設施。
04
結論
我們的分析基于許多假設,有些可能不準確。
但即使假設我們高估了3倍,經濟性仍然看起來非常有利可圖。即使按H100的零售價格計算,原始計算成本表明,AI推理并非許多人宣稱的不可持續的燒錢坑。
最關鍵的洞察是,輸入處理的成本比輸出生成低得多——大約千倍的差距:輸入token約每百萬0.005美元,而輸出token超過每百萬3美元。
這種成本不對稱解釋了為什么某些用應用其有利可圖,而其他應用可能面臨挑戰:
重度閱讀類應用——消耗大量上下文但生成少量輸出的場景——幾乎在計算成本上處于免費層。像對話代理、處理整個代碼庫的編碼助手、文檔分析工具和研究應用都極大地受益于這種動態。
視頻生成則完全相反——一個視頻模型可能只輸入50個token的簡單文本提示,但需要生成數百萬token來表示每個幀。當從極少輸入生成大量輸出時,經濟性變得非常苛刻,這解釋了為什么視頻生成仍然昂貴,服務商要么收取高價,要么嚴格限制使用。
“AI成本不可持續”的說法可能更多服務于現有大公司的利益,而非反映經濟現實。當行業巨頭強調巨額成本和技術復雜性時,會阻礙競爭和對替代方案的投資。但如果我們的計算哪怕有一點準確,尤其是在輸入密集型工作負載上,盈利性AI推理的門檻可能遠低于普遍認為的水平。
讓我們不要過分夸大成本,以至于人們忽視了原始經濟性。十多年前,大家對超大規模云服務商的云計算成本信以為真,讓它們變成了印鈔機。如果我們“不小心”,AI推理可能會重蹈覆轍。(作者:Martin Alderson)
轉載開白 | 商務合作 | 加群交流
請添加微信:cutstill
添加微信請備注姓名公司與來意
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.