<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      我測算了DeepSeek的計算成本,AI應用距離規模性盈利應該不遠了

      0
      分享至



      我一直聽到人工智能(AI)是個燒錢的行業,尤其是在推理(inference)方面。雖然表面上看起來合理,但我對這類說法一直持懷疑態度,因此決定深入研究一下。

      目前還沒有人真正嘗試拆解大規模推理的成本,而這背后的經濟問題讓我非常感興趣。

      這篇文章是基于粗略估算(napkin math)完成的。我沒有運行前沿模型的經驗,但對在云端運行高吞吐量服務的成本和經濟性有深入了解,也知道超大規模云服務商與裸機(bare metal)相比的驚人利潤率。歡迎指正我的錯誤。

      01

      一些假設

      我將僅考慮原始計算成本。這顯然是過于簡化的,但考慮到當前模型的實用性——即使假設沒有進一步改進——我想測試“推理成本高到完全不可持續”這一觀點是否站得住腳。

      我假設單個H100 GPU的成本為每小時2美元。這實際上高于當前按需租賃的零售價格,我希望大型AI公司能以更低的價格獲取這些資源。


      H100租賃價格比較

      其次,我將以DeepSeek R1的架構作為基準:總計6710億參數,通過專家混合(MoE)激活370億參數。考慮到其性能與Claude Sonnet 4和GPT-5相當,我認為這是一個合理的假設。

      02

      從第一性原理推導:H100的計算成本

      生產環境設置

      讓我們從一個現實的生產環境開始。假設一個包含72個H100 GPU的集群,每個GPU每小時2美元,總成本為每小時144美元。

      為了滿足生產環境的延遲要求,我假設每個模型實例的批量大小為32個并發請求,這比基準測試中可能使用的大批量更現實。通過在8個GPU上進行張量并行(tensor parallelism),我們可以在72個GPU上同時運行9個模型實例。

      預填充階段(輸入處理)

      H100的HBM內存帶寬約為每GPU 3.35TB/s,這是大多數工作負載的限制因素。對于370億活躍參數,在FP16精度下需要74GB內存,我們可以計算出每秒大約能處理3,350GB/s ÷ 74GB = 45次前向傳播(forward passes)。

      關鍵點在于:每次前向傳播會同時處理所有序列中的所有token。

      假設我們的32個序列批次平均每個序列包含1000個token,即每次前向傳播處理32,000個token。這意味著每個實例每秒可處理45次傳播 × 32,000token = 144萬個輸入token。在9個實例上,這相當于每秒1300萬個輸入token,或每小時468億個輸入token。

      在MoE架構中,批次中不同token可能需要加載不同的專家組合,這可能導致吞吐量降低2-3倍,尤其當token路由到不同專家時。然而,實際中路由模式通常會集中在熱門專家上,且現代實現使用專家并行(expert parallelism)和容量因子(capacity factors)等技術來保持效率,因此實際影響可能僅為30-50%的吞吐量降低,而非最壞情況。

      解碼階段(輸出生成)

      輸出生成的場景完全不同。這里我們是按順序生成token——每次前向傳播每個序列生成一個token。因此,45次前向傳播每秒僅生成45 × 32 = 1,440個輸出token。9個實例總計每秒12,960個輸出token,或每小時4670萬個輸出token。

      token的原始成本

      輸入和輸出的成本差異非常明顯:144美元 ÷ 468億 = 每百萬輸入token0.003美元,而144美元 ÷ 4670萬 = 每百萬輸出token3.08美元。這是一個千倍的差距!

      當計算成為瓶頸

      我們的計算假設內存帶寬是限制因素,這在典型工作負載中是正確的。但在某些場景下,計算能力會成為瓶頸。對于長上下文序列,注意力機制的計算量隨序列長度呈平方增長。大批量大小和更多并行注意力頭也可能使系統從內存受限轉為計算受限。

      當上下文長度達到128k以上時,注意力矩陣變得非常龐大,系統從內存受限轉為計算受限。這可能使成本增加2-10倍,尤其是在超長上下文場景下。

      這解釋了一些有趣的產品決策。例如,Claude Code將上下文限制在200ktoken,不僅是為了性能,也是為了保持在成本較低的內存受限模式,避免昂貴的計算受限長上下文場景。

      這也是為什么服務商對200k+上下文窗口額外收費——經濟模型發生了根本變化。

      03

      現實世界的用戶經濟

      根據我對成本的逆向推算(再次提醒,這是基于H100的零售租賃價格),我推測情況如下:

      • 輸入處理

        幾乎免費(約每百萬 token 0.001美元)

      • 輸出生成

        有顯著成本(約每百萬 token 3美元)

      這些成本與DeepInfra對R1托管的收費相符,只是輸入token的加價更高。

      DeepInfra R1定價,見下圖:


      A. 消費者計劃

      ChatGPT Pro用戶(每月20美元):重度日常使用,但受token限制

      • 每天10萬 token

      • 假設70%輸入/30%輸出:實際成本約每月3美元

      • OpenAI的加價為5-6倍

      這是典型的重度用戶,每天使用模型進行寫作、編碼和常規查詢。這里的經濟性很強。

      B. 開發者使用

      Claude Code Max 5用戶(每月100美元):每天2小時重度編碼

      • 約200萬輸入 token ,3萬輸出 token /天

      • 大量輸入 token (便宜的并行處理)+少量輸出

      • 實際成本:約每月4.92美元 → 20.3倍加價

      Claude Code Max 10用戶(每月200美元):每天6小時極重度使用

      • 約1000萬輸入 token ,10萬輸出 token /天

      • 大量輸入 token ,但生成 token 相對較少

      • 實際成本:約每月16.89美元 → 11.8倍加價

      開發者用例的經濟性尤為突出。像Claude Code這樣的編碼助手天然具有高度不對稱的使用模式——輸入整個代碼庫、文檔、堆棧跟蹤、多個文件和廣泛上下文(廉價輸入token),但只需要相對較小的輸出,如代碼片段或解釋。這完美契合了輸入幾乎免費而輸出昂貴的成本結構。

      C. API利潤率

      • 當前API定價:每百萬 token 3美元/15美元 vs 實際成本約0.01美元/3美元

      • 毛利率:80-95%+

      API業務幾乎是印鈔機。這里的毛利率更像是軟件而非基礎設施。

      04

      結論

      我們的分析基于許多假設,有些可能不準確。

      但即使假設我們高估了3倍,經濟性仍然看起來非常有利可圖。即使按H100的零售價格計算,原始計算成本表明,AI推理并非許多人宣稱的不可持續的燒錢坑。

      最關鍵的洞察是,輸入處理的成本比輸出生成低得多——大約千倍的差距:輸入token約每百萬0.005美元,而輸出token超過每百萬3美元。

      這種成本不對稱解釋了為什么某些用應用其有利可圖,而其他應用可能面臨挑戰:

      重度閱讀類應用——消耗大量上下文但生成少量輸出的場景——幾乎在計算成本上處于免費層。像對話代理、處理整個代碼庫的編碼助手、文檔分析工具和研究應用都極大地受益于這種動態。

      視頻生成則完全相反——一個視頻模型可能只輸入50個token的簡單文本提示,但需要生成數百萬token來表示每個幀。當從極少輸入生成大量輸出時,經濟性變得非常苛刻,這解釋了為什么視頻生成仍然昂貴,服務商要么收取高價,要么嚴格限制使用。

      “AI成本不可持續”的說法可能更多服務于現有大公司的利益,而非反映經濟現實。當行業巨頭強調巨額成本和技術復雜性時,會阻礙競爭和對替代方案的投資。但如果我們的計算哪怕有一點準確,尤其是在輸入密集型工作負載上,盈利性AI推理的門檻可能遠低于普遍認為的水平

      讓我們不要過分夸大成本,以至于人們忽視了原始經濟性。十多年前,大家對超大規模云服務商的云計算成本信以為真,讓它們變成了印鈔機。如果我們“不小心”,AI推理可能會重蹈覆轍。(作者:Martin Alderson)

      轉載開白 | 商務合作 | 加群交流
      請添加微信:cutstill
      添加微信請備注姓名公司與來意


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      奪冠代價!阿森納沖刺雙冠或送切爾西5800萬,哈弗茨成關鍵

      奪冠代價!阿森納沖刺雙冠或送切爾西5800萬,哈弗茨成關鍵

      星耀國際足壇
      2026-05-13 14:03:59
      夜景中的美女,身材真好

      夜景中的美女,身材真好

      藍色海洋009
      2026-05-13 17:06:46
      “老戰友”徹底反目!他信出獄開啟大復仇,洪森父子恐將身敗名裂

      “老戰友”徹底反目!他信出獄開啟大復仇,洪森父子恐將身敗名裂

      流史歲月
      2026-05-13 15:00:03
      特朗普訪華前,中美先后放出兩個消息,高下早已注定

      特朗普訪華前,中美先后放出兩個消息,高下早已注定

      呼呼歷史論
      2026-05-14 00:32:50
      互聯網是有記憶的,她的黑歷史一大堆啊!

      互聯網是有記憶的,她的黑歷史一大堆啊!

      BenSir本色說
      2026-04-15 22:38:07
      同日告別!孫穎莎兩大閨蜜官宣退出國家隊,互相送祝福

      同日告別!孫穎莎兩大閨蜜官宣退出國家隊,互相送祝福

      湘楚風云聊體育
      2026-05-14 01:46:50
      殺了5萬日軍的“絕密戰犯”,回歸時受到周公相迎,至今身份成謎

      殺了5萬日軍的“絕密戰犯”,回歸時受到周公相迎,至今身份成謎

      文史達觀
      2026-05-11 06:45:17
      鄭麗文遭當頭一棒,中方嚴正通告,對岸不準參會,傅崐萁臨陣倒戈

      鄭麗文遭當頭一棒,中方嚴正通告,對岸不準參會,傅崐萁臨陣倒戈

      御前帶刀大人
      2026-05-13 03:57:37
      大瓜!許家印昔日恒大奢靡細節流出,丁玉梅海外包養30歲白人小伙

      大瓜!許家印昔日恒大奢靡細節流出,丁玉梅海外包養30歲白人小伙

      壹月情感
      2026-05-09 00:00:07
      特朗普還未抵京,美貿易代表突然改口,財長攤牌:求中方辦三件事

      特朗普還未抵京,美貿易代表突然改口,財長攤牌:求中方辦三件事

      龍隱天下
      2026-05-14 03:16:27
      女子線上買榴蓮破防,5房果開出3房幾乎沒肉的“榴蓮糖”,聯系客服后退款50%

      女子線上買榴蓮破防,5房果開出3房幾乎沒肉的“榴蓮糖”,聯系客服后退款50%

      大象新聞
      2026-05-12 22:46:09
      歐美為什么希望我們也不要加班?

      歐美為什么希望我們也不要加班?

      羅sir財話
      2026-05-11 17:35:24
      保留火箭5子?斯通攤牌,打消球員疑慮!聯手3位老將,可再試1年

      保留火箭5子?斯通攤牌,打消球員疑慮!聯手3位老將,可再試1年

      熊哥愛籃球
      2026-05-14 03:00:36
      網紅水果黑幕曝光!全是添加劑泡的,很多人天天買給孩子吃

      網紅水果黑幕曝光!全是添加劑泡的,很多人天天買給孩子吃

      泠泠說史
      2026-05-12 19:57:36
      新疆一女生沒電腦在電競館學習,女店主得知后免費:只要是不打游戲,來學習的都免費

      新疆一女生沒電腦在電競館學習,女店主得知后免費:只要是不打游戲,來學習的都免費

      瀟湘晨報
      2026-05-13 15:32:29
      壽命與大便次數有關!研究發現:壽命長的人,每天排便在這個次數

      壽命與大便次數有關!研究發現:壽命長的人,每天排便在這個次數

      荔子言
      2026-05-13 11:41:19
      日本高官稱168小時可全殲中國海軍,但中國禁用導彈

      日本高官稱168小時可全殲中國海軍,但中國禁用導彈

      明天后天大后天
      2026-03-17 15:30:37
      重慶一大橋橋底崖壁上現佛頭塑像,文旅部門:系現代塑像,不具備文物價值;雕刻者已找到,與重慶少年宮“小蘿卜頭”雕像作者系同一人

      重慶一大橋橋底崖壁上現佛頭塑像,文旅部門:系現代塑像,不具備文物價值;雕刻者已找到,與重慶少年宮“小蘿卜頭”雕像作者系同一人

      三湘都市報
      2026-05-13 21:54:13
      美媒揭秘:其實不止美國以色列,一直有第三國在暗中襲擊伊朗

      美媒揭秘:其實不止美國以色列,一直有第三國在暗中襲擊伊朗

      起喜電影
      2026-05-14 01:32:38
      妻子住院14天娘家無人看,我沉默,18天后小舅子問180萬合作為什么取消?

      妻子住院14天娘家無人看,我沉默,18天后小舅子問180萬合作為什么取消?

      麥子情感故事
      2026-05-13 23:57:36
      2026-05-14 05:32:49
      硅基星芒AI
      硅基星芒AI
      錦緞旗下人工智能研究與媒體服務平臺
      59文章數 7關注度
      往期回顧 全部

      科技要聞

      阿里年營收首破萬億,AI終于不再是畫大餅

      頭條要聞

      女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

      頭條要聞

      女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      數碼
      藝術
      教育
      家居
      旅游

      數碼要聞

      徠芬智能卷發棒Styler發布,499元

      藝術要聞

      規劃中的成都第三高樓,從396米降到250米以下?

      教育要聞

      排名極好卻被罵水的兩所英國大學!

      家居要聞

      內在自敘,無域有方

      旅游要聞

      四大入口協同發力 讓外國游客“絲滑”逛北京

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲人妻系列中文字幕| 好紧好湿好爽免费视频| 超碰97人人操| 99在线观看视频精品视频免费| 国产在线一区二区不卡| 高清自拍亚洲精品二区| 国精产品999国精产| 亚洲久久久久久| 特级毛片A级毛片免费观看下载 | 国产1区2区| 久久久久夜色精品波多野结衣| 中文字幕熟妇人妻在线视频| 你拍自拍亚洲一区二区三区| 四虎影视一区二区精品| 制服丝袜在线二区| 亚洲欧洲自偷自拍图片| 亚洲欧美国产日产综合不卡| 亚洲成人av在线综合| 欧美牲交A欧美在线| 欧美性猛交xxxx乱大交丰满| av偷拍亚洲一区二区三区| 亚洲欧美另类小说| 久久精品国产88久久综合| 热思思99RE久久精品国产首页| awww在线天堂bd资源在线| 国产一区二区三区不卡自拍| 高清中文字幕国产精品| 丁香花成人电影| 欲色aV一区二区三区人妻无码| 国产成人综合久久亚洲精品 | 无毛片| 鲁鲁狠狠狠7777一区二区| 欧美日韩第一页| 亚洲电影天堂在线国语对白 | 人妻少妇嫩草被猛烈进入无码蜜桃| 欧美人与动人物牲交免费观看久久| 亚洲AⅤ天堂AV天堂无码| 久久狠狠高潮亚洲精品暴力打 | 色涩涩网| 粗大的内捧猛烈进出小视频| 平塘县|