網易首頁 > 網易號 > 正文申請入駐

小米萬億模型全面開源：MIT 協議、1M 上下文，但還是打不過 DeepSeek

2026-04-28 15:50:14　來源: AI前線

北京舉報

分享至

整理 | 褚杏娟

今天，小米開源了 MiMo-V2.5 和 MiMo-V2.5-Pro 兩款模型：MiMo-V2.5 基礎模型提供原生多模態能力，而 MiMo-V2.5-Pro 則是專門為“長周期一致性”和復雜軟件工程設計的。

小米采用了寬松、對企業友好的 MIT License，這意味著模型適合被用于商業應用的生產環境。用戶可以按需修改模型，并根據自身需要，在本地或虛擬私有云上運行。

在 GDPVal-AA（Elo）基準測試中，Pro 模型取得了 1581 分，超過了 Kimi K2.6 和 GLM 5.1 等競爭對手。

小米還進一步公布了 V2.5-Pro 自動完成若干高復雜度任務的數據：

用 Rust 實現 SysY 編譯器：模型從零開始實現了一個完整編譯器，包括 lexer、parser 和 RISC-V 匯編后端，用時 4.3 小時。整個過程橫跨 672 次工具調用，在隱藏測試集中取得了 233/233 的滿分。這個任務通常需要計算機科學專業學生花費數周時間完成。
全功能視頻編輯器：模型用時 11.5 小時，進行了 1868 次工具調用，最終生成了一個 8192 行的桌面應用，具備多軌時間線和導出流水線。
模擬 EDA 優化：在一項研究生級別的工程任務中，模型優化了 TSMC 180nm 工藝下的 Flipped-Voltage-Follower（FVF-LDO）穩壓器。通過不斷迭代 ngspice 仿真循環，模型將線性調整率等指標相較初始嘗試提升了 22 倍。

小米用這些實驗來凸顯 V2.5-Pro 的一種 “harness awareness”，也就是“腳手架意識”。模型會主動管理自己的記憶，并塑造自身上下文，以便在數千次連續工具調用中維持一致性。

拼 token 效率，

但 DeepSeek 價格依然最能打

根據小米公布的基準測試，這些模型被認為是目前適合 agentic “claw” 任務的高效模型之一。

所謂 “claw” 任務，指的是為 OpenClaw、NanoClaw、Hermes Agent 這類系統提供支持。用戶可以通過第三方消息應用直接與這些智能體溝通，讓它們代替人類用戶去完成任務，比如制作和發布營銷內容、運營賬號、整理郵件、安排日程等等。

隨著 OpenClaw 等被廣泛應用，token 消耗量也迅速爆發，越來越多服務開始轉向按使用量計費。這時，“為用戶省錢”這一點變得非常關鍵。

微軟的 GitHub Copilot 今天宣布正在轉向基于用量的計費方式，也就是按照人類用戶實際消耗的每個 token 收費，而不是像 Anthropic 那樣施加速率限制，或者像 OpenAI 那樣提供“自助餐式”的無限量訂閱。這讓更多人意識到，AI 推理補貼時代結束了。

過去大家一個月用 20 美元、100 美元、200 美元就能跑大量 Claude、OpenAI 高端模型完成工作，本就不可能長期持續。有用戶直言，這很像 ZIRP 時代互聯網公司的增長策略：先燒錢補貼、快速獲客，等用戶習慣和粘性形成后，再開始正式變現。

而對于用戶來說，現在編程成本從固定訂閱變成不確定的 token 消耗，這個賬可能越來越難算。 Agent 編程不是普通聊天，真實成本來自長上下文、反復工具調用、緩存命中率和模型倍率等。

這個背景下，小米為這些模型提供了相當有競爭力的價格，覆蓋國內和國際市場。

對海外開發者來說，高性能的 MiMo-V2.5-Pro 在最高 256K 上下文窗口內，緩存未命中時每百萬輸入 token 價格為 1.00 美元，輸出價格為 3.00 美元。對于 256K 到 1M token 之間的超長上下文任務，價格會翻倍：輸入為 2.00 美元，輸出為 6.00 美元。

單純模型定價角度看，國內模型橫向比較時，MiMo 價格并不便宜。

部分模型海內外價格不完全統計，來源：AI 前線

不過，實際的整體使用價格還是要結合 token 效率來看。Artificial Analysis 之前的測評顯示，在同一套 Intelligence Index 評測中，不同模型的 token 消耗差異巨大。DeepSeek V4 Flash、GPT-5.4 mini、Claude Sonnet 4.6 等模型動輒消耗 2 億級輸出 token，且大部分是推理 token；而 MiMo-V2.5-Pro 約為 9200 萬，GPT-5.5 xhigh 約為 7500 萬，Gemini 3.1 Pro Preview 甚至只有 5700 萬。

而從小米發布的 ClawEval 基準測試圖也可以看到，MiMo-V2.5 和尤其是 Pro 版本，在完成基準測試中的 claw 任務時表現很強，同時消耗的 token 又最少。

根據測試，在 ClawEval 上，V2.5-Pro 以每條軌跡約 7 萬 token 的消耗，取得了 64% 的 Pass^3 成績。而在能力水平相近的情況下，這比 Claude Opus 4.6、Gemini 3.1 Pro 和 GPT-5.4 少用了大約 40% 到 60% 的 token。

“MiMo V2.5 Pro 有一點很不錯：它似乎是目前 token 效率最高的開源模型。它會思考，但不會總是陷入那種很長的“等等，好像不對”的循環。很喜歡這一點。”有網友評價道。

“更高的智能，并不只是拿到更高的分數。它還意味著，用更少的 token 達到同樣的能力水平。”官方表示。值得注意的是，小米大模型負責人羅福莉就曾直言大模型公司“價格戰是陷阱”。

她認為，如果用戶把精力浪費在低質量的 Agent 框架、極不穩定且緩慢的推理服務、以及為降本而被迫降級的模型上，最終發現自己仍然什么都做不成，這對用戶體驗和留存率來說，就是一個惡性循環。而真正的出路不是更便宜的 token，而是協同進化，即“更高 token 效率的 Agent 框架”疊加“更強大高效的模型”。

不過，小米當前模型定價依然處于較低位置。小米所有模型現在還限時免收緩存寫入費用，同時整個 MiMo-V2.5-TTS 套件也完全免除費用，其中包括專門的語音克隆和語音設計功能。這種定價邏輯顯然是為了加速從簡單聊天應用，轉向持久、長周期智能體的過程，后者可以以傳統前沿模型小部分的成本運行。

此外，小米還推出了重新設計后的 “Token Plan”，目前分為四檔：

Lite “Starter Pack” 提供 7.2 億 credits，年費 63.36 美元。
Standard 檔提供 24 億 credits，年費 168.96 美元。
Pro 檔提供 84 億 credits，年費 528.00 美元，面向企業使用場景。
Max 檔面向高強度編碼愛好者，提供 192 億 credits，年費 1056.00 美元。

除了 credit 配額外，所有套餐還包括更優惠的 API 價格、離峰調用 20% 折扣，以及對 Cursor、Zed、Claude Code 等熱門編碼工具的 “Day-0” 支持。

此外，開源的同時，羅福莉宣布提供 100 萬億免費 token，目前已經有用戶曬出入選郵件。

網友評價

當前看，小米模型獲得了一些不錯的評價。

“這個模型太棒了，是我目前最喜歡的，比我使用的 Kimi 2.6 和 GLM 都好。”網友“Someone1Somewhere1”表示。

該開發者介紹，自己在工作和個人愛好上都會用到它們。“工作方面主要是做數據分析、整理用于演示文稿的數據，包括字體排版，以及在大量給定數據中查找一些小眾信息。我個人愛好游戲開發。這方面包括用 Python 寫代碼、處理一些復雜數學問題、進行創意寫作，分析我自己寫下的大量概念、技能設定和主題，然后幫我根據特定素材進一步組織和打磨，比如宗教禮儀、古代神話、民間傳說、creepypasta 這類內容。”

不過，有用戶指出評價是“絕對不算出色”，MiMo-V2.5 Pro 思考時間太長了。

還有開發者表示，“DeepSeek 也有它的用途，但它并不能滿足我的需求。我用 Mimo 進行構思、研究、假設檢驗，以及梳理要開發的內容和整體思路。然后，在實現階段，我使用 GLM 和 Kimi。Mimo 非常擅長實施前的溝通，集思廣益并對想法進行壓力測試。”

都是 MoE 架構，但訓練路線不同

MiMo-V2.5 的核心稀疏專家混合架構，總參數規模達到 310B，激活參數 15B。

V2.5 被訓練來做跨模態推理，通過平衡局部注意力和全局注意力來維持多模態感知能力。

根據小米博客文章，MiMo-V2.5 遵循了嚴格的五階段演進路線：

文本預訓練，基于 48 萬億 token 構建龐大的語言主干；
Projector Warmup，將自研音頻和視覺編碼器與語言核心對齊；
多模態預訓練，在高質量跨模態數據上進行規模化訓練；
Agentic 后訓練，逐步將上下文窗口從 32K 擴展到 1M token；
RL 和 MOPD：使用強化學習和多模態偏好優化來提升真實世界推理和感知能力。

V2.5-Pro 則是一個總參數規模為 1.02 T 的 MoE 模型，活躍參數為 42B。它采用了 MiMo-V2-Flash 中引入的混合注意力架構和 3 層多 Token 預測（MTP）設計，支持最高 100 萬 token 的上下文長度。

V2.5-Pro 采用混合注意力架構，局部滑動窗口注意力和全局注意力以 6:1 的比例交錯排列，窗口大小為 128 個 token。

這種設計可以在通過可學習的 attention sink bias 維持長上下文性能的同時，將 KV-cache 存儲量減少近 7 倍。V2.5-Pro 可以“快速掃過”絕大部分上下文，同時對當前目標最相關的 15% 數據施加高密度注意力。對于調試大型代碼倉庫等任務來說，這是一個關鍵特性。

不過，與同樣使用混合注意力機制的 DeepSeek-V4 比，V2.5-Pro 更接近主流推理框架可部署方案，架構創新相對更工程化，attention 壓縮不如 DeepSeek 激進。DeepSeek-V4 更偏自研系統棧和底層 kernel 優化，系統復雜度高、部署門檻可能更高。

MTP 方面，V2.5-Pro 還配備三個使用 dense FFN 的輕量級 MTP 模塊。這使得推理階段的輸出速度提升至約 3 倍，同時也有利于加速強化學習訓練中的 rollout。

MiMo-V2.5-Pro 使用 27T tokens 進行訓練，采用 FP8 混合精度和原生 32K 序列長度，上下文窗口最高支持 100 萬 tokens。其訓練重點不再是感官對齊，而是轉向擴展后訓練計算量。這一過程旨在注入 “harness awareness”，即“腳手架意識”。模型會被專門訓練，以便在 Claude Code 或 OpenCode 這類自主智能體腳手架中，管理自己的記憶和上下文。

最后，雖然兩款模型都會經歷強化學習（RL）和多模態偏好優化（MOPD），但這些階段的目標不同：

對于 MiMo-V2.5，RL 階段用于加強感知能力和多模態推理能力。
對于 MiMo-V2.5-Pro，RL 更聚焦于 agentic 場景中的指令遵循，確保模型能夠遵守深藏在超長上下文中的細微要求，并在自主執行過程中從錯誤中優雅恢復。這帶來了 Pro 模型的“自我糾錯”紀律性。

在實際體驗中，有用戶指出，同樣是一份數據處理腳本的審查，有一處不會報錯的隱秘 bug，兩個模型都查不出來，但是 GPT 和 Claude 都能夠穩定地發現它。不過 DeepSeek v4 Pro 告訴它檢查哪個部分后，它能夠發現問題，MIMO V2.5 Pro 做不到，需要明確的錯誤反饋。

“我感覺 MIMO 的這個模型推理預算被限制很厲害，又或者可能沒有做過太多長鏈推理的訓練。沒有明確的錯誤反饋，靠它自己憑空思考表現不太好。”該用戶指出。

此外還有用戶提到，在免費期過后，小米模型使用占比一直在下降，加上近期羅福莉露出頻繁，“現在小米公司做的一切，感覺就是為了營銷它的產品，它的 Token。”

https://mimo.xiaomi.com/mimo-v2-5-pro

https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro

https://venturebeat.com/ai/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks

聲明：本文為 AI 前線整理，不代表平臺觀點，未經許可禁止轉載。

會議推薦

世界模型的下一個突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發體系不重構，還能撐多久？

AICon 上海站 2026，4 大核心專題等你來：世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰經驗。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.