繼DeepSeek宣布永久降價后,又一家國產大模型宣布降價了。
5月27日凌晨,小米宣布MiMo-V2.5系列API永久降價,最高降幅達99%,且不再區分輸入長度。
同時對Token Plan計費體系進行優化,同樣的套餐價格,用量提升至原來的5-8倍。
所有已訂閱Token Plan且在有效期內的用戶,從今天0點起全部重置按照新計費規則執行。
小米創始人雷軍,隨后在微博也轉發了這條降價消息。
![]()
![]()
國產模型降成白菜價
對比國外模型價格優勢明顯
公告顯示,MiMo-V2.5-Pro調價后,輸入緩存命中價格降至0.025元/百萬tokens,輸入未命中緩存3元/百萬tokens,輸出6元/百萬tokens。
![]()
它跟幾天前DeepSeek-V4-Pro宣布降價后的價格剛好一致。
自今年年以來,國內頭部大模型廠商已掀起一輪持續、全面的降價潮,價格堪稱“白菜價”。
按照每百萬tokens的單價,Kimi-k2.6緩存命中輸入價1.1元,緩存未命中輸入價6.5元,輸出價27元。
其他模型價格具體如下圖:
![]()
而對比海外主流模型,國產大模型的價格優勢堪稱碾壓級。
MiMo-V2.5-Pro的輸入價格僅為Claude-opus-4.7的三十六分之一,輸出價格更是達到九十分之一。
在這樣巨大的價格差下,一些外國碼農都受不了,反向代購中國大模型。
![]()
硬件和云在暴漲,token在暴跌
利潤到底從哪來?
極具反差的是,當國內模型token降價的同時,底層的硬件、云算力成本卻在持續暴漲。
全球AI算力、云服務、硬件設備全面進入漲價周期,徹底終結了云計算二十年“只降不升”的行業慣例。
國內阿里云、騰訊云、百度智能云三大頭部廠商,先后上調AI算力產品價格,漲幅區間5%-34%。
同時,高性能存儲、算力租賃、服務器整機價格同步上漲,英偉達H100 GPU年租賃價格漲幅近40%,部分騰訊云AI算力服務漲幅更是高達400%,海外AWS、谷歌云同步跟進漲價,全球AI底層算力成本全面走高。
按理說,上游成本上漲必然帶動下游模型漲價,但國產大模型卻反向降價,它們的利潤都從哪里來?
答案藏在推理效率里。
大模型API的成本結構正在發生質變。過去,成本大頭是模型訓練和參數存儲;現在,隨著模型開源、蒸餾技術成熟,訓練成本被攤薄,真正的戰場轉移到了推理環節:如何讓每一次API調用的算力消耗更低、吞吐更高、延遲更短。
尤其是在長上下文、Agent、多輪對話場景下,真正的吞金獸是KV Cache。
可以把它理解為模型推理時對上下文的“記憶”。上下文越長,緩存就越龐大,吃掉的顯存也越恐怖。很多長上下文模型定價高昂,本質上不是因為“更聰明”,而是緩存成本居高不下。
小米這次的技術攻堅,正是沖著這個痛點去的。
DeepSeek V4系列之所以敢定價0.025元,也是因為在推理框架、緩存系統和集群調度上做了深度優化。
硬件貴了,但單位token消耗的算力下降得更快。
另外,薄利多銷的邏輯在這里依然有效。模型降價后,開發者不再吝嗇調用量,Agent框架、多輪對話、長文檔分析的消耗量會指數級增長。
![]()
中美大模型之戰
誰是贏家
于是到這里就會產生一個問題:
當中國大模型價格只是美國的頂尖模型十分之一,而功能卻能達到百分之八九十,那么這場模型大戰,中國憑什么輸?
過去兩年里,業界普遍有一種擔憂:中國在基礎模型能力上始終落后OpenAI和Anthropic半步,從GPT-4到Claude 3.5再到GPT-5.5,每次發布都在拉大差距。這種焦慮是真實的。
但價格帶來的強勁競爭力,也是客觀的。
企業在采購AI服務時,決策公式從來不是選最強的,而是選性價比最高的;當token便宜到忽略不計時,開發者不用再精打細算,可以大膽進行設計,從而催生出獨有的應用生態。
國產大模型廠商正在把大模型做成新時代的水電煤:便宜、穩定、隨取隨用。
按照商業發展的規律,最后贏的,往往不是技術最強的那個,而是讓技術變得最便宜、最普及的那個。
中國大模型顯然已經走在了這條路上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.