網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華系團(tuán)隊(duì)出手！一張 4090 即可「爆改」，1.3B小鋼炮震撼開源

2026-05-13 12:11:23　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：YHluck

【新智元導(dǎo)讀】端側(cè)多模態(tài)，卷出新天花板。僅1.3B，性能反超，效率翻倍，一張4090就能「爆改」。剛剛，清華系團(tuán)隊(duì)面壁智能開源了新一代「小鋼炮」MiniCPM-V 4.6，再次證明了在端側(cè)AI領(lǐng)域，中國(guó)團(tuán)隊(duì)已然站在世界前沿。

想象一下：你將一支筆放進(jìn)裝滿水的玻璃杯，用手機(jī)拍下照片，然后問(wèn)它：「這個(gè)現(xiàn)象的原因是什么」？

幾秒鐘后，手機(jī)屏幕上出現(xiàn)了「光的折射」的準(zhǔn)確回答和原理解釋，視覺(jué)問(wèn)答表現(xiàn)驚人：

還有機(jī)票識(shí)別，文字提取精準(zhǔn)：

整個(gè)過(guò)程絲滑流暢，沒(méi)有聯(lián)網(wǎng)，沒(méi)有等待云端服務(wù)器的響應(yīng)，不產(chǎn)生天價(jià)token賬單。

而實(shí)現(xiàn)這一切的，不是云端某個(gè)需要排隊(duì)等API的千億參數(shù)模型，而是一個(gè)剛剛開源、僅有1.3B的「小鋼炮」——MiniCPM-V 4.6。

5月11日，「國(guó)產(chǎn)端側(cè)大模型擔(dān)當(dāng)」面壁智能聯(lián)合清華大學(xué)、OpenBMB開源社區(qū)正式開源了新一代端側(cè)多模態(tài)大模型MiniCPM-V 4.6。

MiniCPM-V 4.6一經(jīng)發(fā)布，立即給1B量級(jí)多模態(tài)模型重新劃定了起跑線，給日趨白熱化的端側(cè)AI賽道投下了一枚重磅炸彈！

它不僅在性能上全面超越了阿里 Qwen3.5-0.8B和谷歌Gemma4-E2B-it等同級(jí)對(duì)手，更在效率上實(shí)現(xiàn)了驚人的「反超」——參數(shù)更大，跑得卻更快。

這波操作，直接打破了行業(yè)里「小尺寸=閹割版」的常規(guī)認(rèn)知。

MiniCPM-V 4.6用扎實(shí)硬核的數(shù)據(jù)向行業(yè)證明：1B級(jí)模型，也可以是性能強(qiáng)悍、足以在端云兩棲部署的工業(yè)級(jí)武器。

此外，在尺寸上，MiniCPM-V 4.6是MiniCPM-V系列模型上有史以來(lái)參數(shù)規(guī)模最小的模型，只有1B左右，但智能密度卻為同尺寸模型范圍內(nèi)最高，這再次驗(yàn)證了面壁智能在2024年提出并登上Nature子刊的「密度定律」。

根據(jù)Artificial Analysis（AA）榜單評(píng)測(cè)，MiniCPM-V 4.6 1.3B（非推理版本）的運(yùn)行僅消耗5.4M token量，僅為Qwen3.5-0.8B（非推理版本，101M）的1/19、Qwen 3.5-0.8B（推理版本，233M）的1/43：

Hugging Face：

https://huggingface.co/openbmb/MiniCPM-V-4.6

GitHub：

https://github.com/OpenBMB/MiniCPM-V

Modelscope：

https://modelscope.cn/models/OpenBMB/MiniCPM-V-4.6

Web Demo：

https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo

APP Demo：

https://github.com/OpenBMB/MiniCPM-V-Apps

性能越級(jí)，效率反超

體感是最終標(biāo)準(zhǔn)

Talk is cheap，直接上數(shù)據(jù)。

在多個(gè)主流Benchmark上，MiniCPM-V 4.6的表現(xiàn)突出一個(gè)「反常識(shí)」。

無(wú)論是做通用圖文理解、解數(shù)學(xué)題，還是搞文檔OCR，它的Instruct版和Thinking版基本都是亂殺局，全面碾壓Qwen3.5-0.8B與Gemma4-E2B-it。

在更看綜合實(shí)力的Artificial Analysis（AA）榜單上，MiniCPM-V 4.6的得分也表現(xiàn)出色，領(lǐng)先Mistral 3 3B、Qwen 3.5-0.8B等在內(nèi)的一眾模型一個(gè)身位，成為了1B多模態(tài)大模型賽道的「新科狀元」！

但真正讓技術(shù)圈高潮的，是它的效率！

推理吞吐量：直接干到1.5倍

拿一張4090跑高并發(fā)，MiniCPM-V 4.6處理高清圖的吞吐量是Qwen3.5-0.8B 的1.5倍。

什么概念？一樣的服務(wù)器成本，你能扛住過(guò)去1.5倍的用戶流量。對(duì)于SaaS服務(wù)來(lái)說(shuō)，這就是赤裸裸的利潤(rùn)。

首響延遲（TTFT）：延遲曲線被拉直了！

處理31362的超高清大圖，它的首響延遲比對(duì)手快了2.2倍。更驚人的是，當(dāng)圖片分辨率暴漲49倍，它的延遲增長(zhǎng)居然不到2.5倍。

這條幾乎被「拉直」的延遲曲線，意味著你的4090無(wú)論加載多大的圖，用戶體感都差不多——一個(gè)字，穩(wěn)！

這兩個(gè)維度共同指向同一個(gè)結(jié)論：MiniCPM-V 4.6用更短的視覺(jué)序列和更小的 KV-Cache，把端側(cè)體感與云側(cè)ROI同時(shí)推到了新的高度。

對(duì)端側(cè)產(chǎn)品而言，這意味著流暢；對(duì)云端工業(yè)場(chǎng)景而言，這意味著同等成本下的吞吐翻倍。

參數(shù)更大，跑得更快，這聽起來(lái)就像是物理學(xué)不存在了。但這背后，是兩個(gè)非常硬核的架構(gòu)創(chuàng)新。

技術(shù)深扒：這效率「外掛」是怎么開的？

為什么一個(gè)比Qwen3.5-0.8B參數(shù)更大的模型，反而跑得更快？

答案藏在MiniCPM-V 4.6的兩項(xiàng)核心架構(gòu)創(chuàng)新里：一個(gè)是ViT架構(gòu)創(chuàng)新，另一個(gè)是4倍/16倍混合視覺(jué)token壓縮率。

ViT架構(gòu)重構(gòu)

LLaVA-UHD v4開路

傳統(tǒng)ViT（視覺(jué)編碼器）在編碼圖像時(shí)，會(huì)讓大量冗余視覺(jué)token一路跑完全程，造成顯著的算力浪費(fèi)。

就像個(gè)耿直的打工人，收到一堆視覺(jué)Token（圖像信息塊），不管有用沒(méi)用、全部拉通處理一遍，計(jì)算量巨大。

而MiniCPM-V 4.6不當(dāng)「老實(shí)人」，采用了面壁智能聯(lián)合清華大學(xué)自研的LLaVA-UHD v4技術(shù)，在 ViT 內(nèi)部很早就把沒(méi)用的Token給優(yōu)化掉了，提前完成視覺(jué)token的壓縮，算力直接節(jié)省約50%！

也就是說(shuō)，僅在圖像編碼這一環(huán)節(jié)，MiniCPM-V 4.6就比傳統(tǒng)ViT路線少跑了一半的開銷，且性能不掉點(diǎn)。

這也是為什么 MiniCPM-V 4.6雖然參數(shù)比Qwen3.5-0.8B略大，卻在推理效率上實(shí)現(xiàn)反超的根本原因。

具體是怎么做到的？

主要是LLaVA-UHD v4圍繞兩個(gè)方向做了優(yōu)化：如何更高效地看高清大圖，以及如何更早地減少視覺(jué)Token帶來(lái)的計(jì)算負(fù)擔(dān)。

一是「切片大法」：不傻乎乎地處理整張高清大圖，而是先切成小塊，分而治之。這樣Attention計(jì)算量就不會(huì)隨分辨率指數(shù)爆炸。MiniCPM-V 4.6的研究團(tuán)隊(duì)做了不同尺寸和不同數(shù)據(jù)量的模型試驗(yàn)，證明切片相比于全局編碼不掉點(diǎn)——這實(shí)際是一個(gè)「反常識(shí)」的技術(shù)突破。

二是「提前壓縮」：最關(guān)鍵的一步。在ViT剛開始工作沒(méi)多久，就用一個(gè)精巧的壓縮模塊（Intra-ViT Early Compressor）把Token數(shù)量壓下來(lái)。這樣一來(lái)，后續(xù)ViT層的計(jì)算開銷節(jié)省75%+。

LLaVA-UHD v4 論文鏈接：https://huggingface.co/papers/2605.08985

通過(guò)這一設(shè)計(jì)，視覺(jué)Token壓縮可以穩(wěn)定地前移到 ViT 淺層，在大幅降低后續(xù)計(jì)算量的同時(shí)，仍然保持較好的圖像表征質(zhì)量和下游任務(wù)表現(xiàn)。

這就是MiniCPM-V 4.6「效率反超」的秘密武器：在最耗算力的環(huán)節(jié)，只干最該干的活。

4倍/16倍混合壓縮

給足開發(fā)者選擇權(quán)

視覺(jué)token壓縮率，影響的是顯存占用、首響延遲、推理吞吐、功耗這些核心效率指標(biāo)，壓縮率越高，響應(yīng)速度就越快。

市面上的多模態(tài)大模型，絕大部分都焊死在了固定的4倍壓縮上。而MiniCPM-V系列從2024年起就率先支持16倍壓縮，此前支持在4倍/16倍中二選一，但這次MiniCPM-V 4.6實(shí)現(xiàn)了魚和熊掌可兼得：

4倍模式（精度更高）：適合高要求識(shí)別任務(wù)，如文檔解析、密集文字識(shí)別等。跑文檔識(shí)別、醫(yī)療影像這種任務(wù)，一個(gè)像素都不能錯(cuò)。
16倍模式（速度更快）：跑手機(jī)端實(shí)時(shí)交互、云端高并發(fā)API，速度就是生命線。

這個(gè)設(shè)計(jì)，讓同一個(gè)模型既能塞進(jìn)手機(jī)里做你的隨身AI，又能部署在云端扛住千萬(wàn)級(jí)日活。兩全其美，開發(fā)者便無(wú)需做取舍。

這可不是PPT技術(shù)。快手的推薦大模型OneRec，扛下主場(chǎng)景25%的流量，就采用了MiniCPM-V系列模型。16倍壓縮的工業(yè)級(jí)實(shí)戰(zhàn)能力，已經(jīng)被真金白銀驗(yàn)證過(guò)了。

論文地址：

https://arxiv.org/abs/2502.18965

只需一張 4090

為「魔改」而生的開源生態(tài)

技術(shù)再牛，部署和微調(diào)不行、開發(fā)者照樣不買賬。

面壁智能這次直接把開發(fā)者體驗(yàn)拉滿了。

最炸裂的一點(diǎn)是：一張消費(fèi)級(jí)的RTX 4090，就能完整跑下全量微調(diào)！

這意味著什么？無(wú)論是獨(dú)立開發(fā)者、小團(tuán)隊(duì)還是學(xué)術(shù)圈，多模態(tài)模型的定制化開發(fā)，都能用得起MiniCPM-V 4.6，門檻從「服務(wù)器集群」直接降到了「一臺(tái)高性能PC」。這才是真正的AI普惠！

配套的工具鏈也安排得明明白白！

MiniCPM-V 4.6實(shí)現(xiàn)了與當(dāng)前主流開源生態(tài)的全面無(wú)縫對(duì)接，讓開發(fā)者徹底告別繁瑣的環(huán)境配置：

微調(diào)：原生支持最火的LLaMA-Factory和ms-swift——

微調(diào)框架

LLaMA-Factory：

MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

ms-swift：

MiniCPM-V-CookBook/finetune/finetune_minicpmv46_zh.md at main · OpenSQZ/MiniCPM-V-CookBook

推理：vLLM、SGLang、llama.cpp、Ollama全家桶無(wú)縫銜接——

推理框架：

vLLM：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/vllm/minicpm-v4_6_vllm_zh.md

SGLang：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/sglang/minicpm-v4_6_sglang_zh.md

llama.cpp：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/llama.cpp/minicpm-v4_6_llamacpp.md

Ollama：

https://github.com/OpenSQZ/MiniCPM-V-CookBook/blob/main/deployment/ollama/minicpm-v4_6_ollama_zh.md

極低的顯存占用、極高的并發(fā)吞吐量、完備的上下游工具鏈——可以說(shuō)MiniCPM-V 4.6天生就是為了被「魔改」而生，是開發(fā)者用于構(gòu)建高并發(fā)計(jì)算、極速響應(yīng)的垂直應(yīng)用的高性價(jià)比多模態(tài)底座。

它把最硬核的底層優(yōu)化做完，把最靈活的改造空間留給了社區(qū)。

附端側(cè)部署指南：

https://github.com/tc-mb/MiniCPM-V-edge-demo/blob/main/README_zh.md

從「被抄襲」到「定義者」

端側(cè) AI 的中國(guó)敘事

從2024年4月的V 2.0算起，MiniCPM-V已經(jīng)走過(guò)了6代。

截至2026年3月，MiniCPM-V系列在開源社區(qū)累計(jì)下載量已接近3000萬(wàn)，多次霸榜GitHub Trending與HuggingFace趨勢(shì)榜。

在產(chǎn)業(yè)落地端，已先后服務(wù)于聯(lián)想、吉利、上汽大眾、廣汽、馬自達(dá)、紅旗等廠商，覆蓋汽車、PC、手機(jī)、智能家居等多場(chǎng)景。

回顧面壁智能的MiniCPM-V系列，你會(huì)發(fā)現(xiàn)一條非常清晰的進(jìn)化路徑——追求極致的「智能密度」。

也就是，用最小的代價(jià)，干最智能的事。

從2024年面壁智能密度定律登上《Nature子刊》，到MiniCPM-V2.5被斯坦福研究團(tuán)隊(duì)「套殼」引發(fā)全球關(guān)注，再到今天MiniCPM-V 4.6用1.3B模型重新定義端側(cè)效率，面壁智能已經(jīng)變成端側(cè)AI賽道的最大「定義者」。

MiniCPM-V 4.6的發(fā)布，不只是一個(gè)更強(qiáng)的模型，更是一個(gè)信號(hào)：端側(cè)AI的「妥協(xié)」時(shí)代，正在結(jié)束。

MiniCPM-V 4.6證明了：1B多模態(tài)模型可以又強(qiáng)又快又省，也可以同時(shí)擔(dān)任端側(cè)最佳基座和云端高并發(fā)利器。

面壁在做的事情，從來(lái)不是卷參數(shù)、卷榜單。

他們?cè)谟靡环N近乎偏執(zhí)的方式，把AI能力塞進(jìn)每一塊你能想到的屏幕里——手機(jī)、平板、車載屏、智能家居面板、工廠質(zhì)檢終端……凡是有屏幕、有芯片的地方，都是他們想覆蓋的場(chǎng)景。這便是所謂「智周萬(wàn)物」。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.