網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

“價(jià)格屠夫”來了：小米MiMo大模型API永久降價(jià)最高達(dá)99%

2026-05-27 20:25:01　來源: 華爾街見聞官方

上海舉報(bào)

分享至

5月27日，小米宣布MiMo-V2.5系列大模型API價(jià)格體系進(jìn)行永久性調(diào)價(jià)，最高降幅度達(dá)99%，且不再區(qū)分上下文長(zhǎng)度。

具體來看MiMo-V2.5-Pro：

百萬tokens輸入（緩存命中）只需要0.025元。

百萬tokens輸入（緩存未命中）3元。

百萬tokens輸出6元。

不僅如此，Token Plan方面，小米采取“加量不加價(jià)”策略，用戶在Agent或Code場(chǎng)景下的可用 Token 數(shù)量將提升至原來的5-8倍，并把規(guī)則調(diào)整為“所見即所得”，簡(jiǎn)化了因換算導(dǎo)致的復(fù)雜計(jì)價(jià)邏輯。

這是繼DeepSeek上周宣布V4-Pro永久降價(jià)至原價(jià)25%之后，國(guó)內(nèi)頭部大模型在短短一周內(nèi)的又一次重磅價(jià)格調(diào)整。

國(guó)際比較看，DeepSeek與小米的最新定價(jià)已顯著低于主流海外廠商。

國(guó)際主流模型方面，OpenAI GPT-4o的標(biāo)準(zhǔn)輸入價(jià)格為每百萬Tokens 2.5美元，輸出價(jià)格為10美元；Claude Sonnet 4.6的輸入為每百萬Tokens 3美元，輸出為15美元。

與簡(jiǎn)單的“燒錢”不同，小米此次降價(jià)的邏輯指向工程層面的成本結(jié)構(gòu)優(yōu)化。

據(jù)小米解釋，基于 SGLang HiCache 完整支持 SWA（Sliding Window Attention），將 KV Cache 在 GPU 顯存、CPU 內(nèi)存、SSD 等多級(jí)存儲(chǔ)之間的數(shù)據(jù)搬運(yùn)量降低至優(yōu)化前的近 1/7，并將可緩存 token 數(shù)量提升至優(yōu)化前的近 5 倍，顯著提升了緩存命中率和推理效率。此外，小米還通過優(yōu)化專家方案、輸入長(zhǎng)度分桶策略等手段，進(jìn)一步提升集群輸入吞吐能力。

這與DeepSeek的降價(jià)邏輯一脈相承，都是通過架構(gòu)創(chuàng)新以及推理系統(tǒng)的工程化優(yōu)化，結(jié)構(gòu)性地壓低單位Token服務(wù)成本，再將紅利讓渡給開發(fā)者。

從行業(yè)情況來看，本輪國(guó)產(chǎn)大模型降價(jià)潮亦是伴隨著應(yīng)用方需求的變化，隨著大模型正在從“聊天”進(jìn)入“干活”的階段，真正讓開發(fā)者和企業(yè)用戶焦慮的也不再只是一次問答金額，而是Agent在多輪推理、調(diào)用和自動(dòng)化成本工作流等過程中持續(xù)燃燒的Token。

當(dāng)百萬Tokens價(jià)格被不斷壓低，國(guó)內(nèi)大模型的競(jìng)爭(zhēng)也會(huì)繼續(xù)向下游傳導(dǎo)。對(duì)于開發(fā)者來說，成本下降意味著更多Agent等應(yīng)用供給會(huì)迎來井噴；對(duì)于廠商來說，低價(jià)背后則是更高的推理效率、更強(qiáng)的算力調(diào)度能力，以及更長(zhǎng)周期的生態(tài)投入。

價(jià)格戰(zhàn)未必能直接決定誰的模型最強(qiáng)，但可以推動(dòng)其更快地被開發(fā)者調(diào)用，小米MiMo此時(shí)大幅降價(jià)正是國(guó)內(nèi)大模型走向“規(guī)模化使用”的又一個(gè)注腳。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.