5月27日,小米宣布MiMo-V2.5系列大模型API價(jià)格體系進(jìn)行永久性調(diào)價(jià),最高降幅度達(dá)99%,且不再區(qū)分上下文長(zhǎng)度。
具體來看MiMo-V2.5-Pro:
百萬tokens輸入(緩存命中)只需要0.025元。
百萬tokens輸入(緩存未命中)3元。
百萬tokens輸出6元。
不僅如此,Token Plan方面,小米采取“加量不加價(jià)”策略,用戶在Agent或Code場(chǎng)景下的可用 Token 數(shù)量將提升至原來的5-8倍,并把規(guī)則調(diào)整為“所見即所得”,簡(jiǎn)化了因換算導(dǎo)致的復(fù)雜計(jì)價(jià)邏輯。
這是繼DeepSeek上周宣布V4-Pro永久降價(jià)至原價(jià)25%之后,國(guó)內(nèi)頭部大模型在短短一周內(nèi)的又一次重磅價(jià)格調(diào)整。
國(guó)際比較看,DeepSeek與小米的最新定價(jià)已顯著低于主流海外廠商。
國(guó)際主流模型方面,OpenAI GPT-4o的標(biāo)準(zhǔn)輸入價(jià)格為每百萬Tokens 2.5美元,輸出價(jià)格為10美元;Claude Sonnet 4.6的輸入為每百萬Tokens 3美元,輸出為15美元。
與簡(jiǎn)單的“燒錢”不同,小米此次降價(jià)的邏輯指向工程層面的成本結(jié)構(gòu)優(yōu)化。
據(jù)小米解釋,基于 SGLang HiCache 完整支持 SWA(Sliding Window Attention),將 KV Cache 在 GPU 顯存、CPU 內(nèi)存、SSD 等多級(jí)存儲(chǔ)之間的數(shù)據(jù)搬運(yùn)量降低至優(yōu)化前的近 1/7,并將可緩存 token 數(shù)量提升至優(yōu)化前的近 5 倍,顯著提升了緩存命中率和推理效率。此外,小米還通過優(yōu)化專家方案、輸入長(zhǎng)度分桶策略等手段,進(jìn)一步提升集群輸入吞吐能力。
這與DeepSeek的降價(jià)邏輯一脈相承,都是通過架構(gòu)創(chuàng)新以及推理系統(tǒng)的工程化優(yōu)化,結(jié)構(gòu)性地壓低單位Token服務(wù)成本,再將紅利讓渡給開發(fā)者。
從行業(yè)情況來看,本輪國(guó)產(chǎn)大模型降價(jià)潮亦是伴隨著應(yīng)用方需求的變化,隨著大模型正在從“聊天”進(jìn)入“干活”的階段,真正讓開發(fā)者和企業(yè)用戶焦慮的也不再只是一次問答金額,而是Agent在多輪推理、調(diào)用和自動(dòng)化成本工作流等過程中持續(xù)燃燒的Token。
當(dāng)百萬Tokens價(jià)格被不斷壓低,國(guó)內(nèi)大模型的競(jìng)爭(zhēng)也會(huì)繼續(xù)向下游傳導(dǎo)。對(duì)于開發(fā)者來說,成本下降意味著更多Agent等應(yīng)用供給會(huì)迎來井噴;對(duì)于廠商來說,低價(jià)背后則是更高的推理效率、更強(qiáng)的算力調(diào)度能力,以及更長(zhǎng)周期的生態(tài)投入。
價(jià)格戰(zhàn)未必能直接決定誰的模型最強(qiáng),但可以推動(dòng)其更快地被開發(fā)者調(diào)用,小米MiMo此時(shí)大幅降價(jià)正是國(guó)內(nèi)大模型走向“規(guī)模化使用”的又一個(gè)注腳。![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.