網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

重磅！今年最好的開源9B/106B視覺模型，出現(xiàn)了

2025-12-08 21:36:54　來源: 袋鼠帝

云南舉報

分享至

大家好，我是袋鼠帝。

我發(fā)現(xiàn)智譜今年下半年是真滴猛。

從7月份那個超強的10B視覺小模型GLM-4.1V-Thinking，再到后來的GLM-4.5V，以及10月編程、Agent領(lǐng)域的GLM-4.6，每一款都打在了我的心巴上。

本來以為到了年底，大家都在忙著做年終總結(jié)，沒什么新東西了。

沒想到，智譜反手又卷起來了..

剛剛，智譜開源了他們最強的視覺模型：GLM-4.6V

讓我興奮的是，這次一口氣開源了兩個尺寸：一個是106B的GLM-4.6V，另一個是9B的GLM-4.6V-Flash（消費級顯卡就能本地部署）。

在同參數(shù)量級下，多模態(tài)交互、邏輯推理、長上下文能力都取得了SOTA（State Of The Art，目前最強）。

太卷了，貌似現(xiàn)在不是SOTA都不好意思發(fā)布..

GLM-4.6V支持128k上下文窗口，可以一次性處理約150頁PDF、200頁PPT、近一小時的關(guān)鍵幀序列。

不僅支持多模態(tài)輸入，還可以多模態(tài)輸出（圖文并茂）

除了視覺能力強，還有工具調(diào)用能力，在z.ai集成了四種工具

一圖勝千言（來自朋友：@甲木，真好用）

體驗下來，我的感覺是：如果你想在本地玩視覺模型，這就是目前的版本答案。

9B的GLM-4.6V-Flash，意味著你不需要那種動輒幾十萬的專業(yè)GPU，哪怕是你家里的游戲本，或者是公司配的消費級顯卡，都能隨便跑起來。

整體表現(xiàn)超過Qwen3-VL-8B

這對于很多注重數(shù)據(jù)隱私，或者需要在邊緣設(shè)備上部署AI的企業(yè)來說，還是比較香的。

我前段時間去杭州給一家國企做培訓(xùn)，參觀了他們的生產(chǎn)車間。在那兒，我看到了一個特別接地氣的AI落地場景：

他們在產(chǎn)品流水線的末端，裝了個攝像頭和傳感器。

每當包裝好的紙箱傳送過來，攝像頭就會咔嚓拍一張，然后傳給旁邊的一臺普通電腦。電腦里跑著一個視覺模型，專門負責檢查這個紙箱有沒有破損，膠帶封沒封好。

大概是下面這種場景（網(wǎng)圖）

當時他們用的是阿里的一個小模型。我問了效果，負責人表示，雖然能用，但誤判率還是不低。一些好好的箱子，也被AI判成了破損，導(dǎo)致工人還得去復(fù)核，挺折騰的。

現(xiàn)在就可以換成GLM-4.6V-Flash試試。同參數(shù)量下的SOTA，意味著在同樣的硬件條件下，它的性能會更好，準確度也會提升。

106B的GLM-4.6V，說大不大，說小也不小。它不像DeepSeek R1那種671B的巨無霸，除了大廠，沒幾個企業(yè)能私有化部署得起。106B，屬于那種努努力，夠一夠，還是能玩得起的。

如果你對性能有要求，又必須把數(shù)據(jù)掌握在自己手里，那這個106B的版本，是一個現(xiàn)階段完美的平衡點。

上次我在成都遇到OneOneTalk的彭總，他就在用一臺2萬多的華碩本，本地跑了一個120B的開源模型：gpt?oss?120b

就是下面這臺性能猛獸

當然，如果你不在乎數(shù)據(jù)上云，直接調(diào)智譜的API，速度和體驗會更好。

目前GLM-4.6V可以在z.ai上使用，也能以MCP的形式接入Agent使用（做本地Agent的眼睛）

還能接入Claude Code當作基模使用。

比如我接入Claude Code之后，讓它執(zhí)行了復(fù)雜的多平臺價格對比，條件篩選商品的任務(wù)。

完成得很好：

GLM-4.6V開源地址匯總，方便大家直達：

GitHub：

https://github.com/zai-org/GLM-V

Hugging Face：

https://huggingface.co/collections/zai-org/glm-46v

魔搭社區(qū)：

https://modelscope.cn/collections/GLM-46V-37fabc27818446

我也第一時間在z.ai上，測試了GLM-4.6V：

之前一直有個難題，就是在那種大合照里，識別出某個人的位置。我試過很多模型，甚至包括Gemini 3，效果都不咋地。

我明明在第一排，從左往右數(shù)的第三個。

我同樣把上次昆明Trae活動的大合照，加上一張我的自拍照，一起扔給了GLM-4.6V。

結(jié)果，GLM-4.6V居然準確的找到了我！這還讓我蠻驚訝的。

這對于以后做智能相冊管理，或者安防監(jiān)控領(lǐng)域來說，太有用了。

z.ai里面還有一個Image Research功能，對我來說挺實用的。

我寫公眾號的時候，經(jīng)常需要找各種配圖、或者封面圖。以前我都是去Google各種搜圖，有時候搜出來的圖很多都不是我想要的。

這次我讓它幫我搜幾張關(guān)于GEO（Generative Engine Optimization）生成式引擎優(yōu)化的圖片。

它搜出來的圖，非常精準，質(zhì)量高。

其中一張，正好就是我上一篇GEO的文章用到的封面圖。

以后我的封面圖工作流又要升級了（增加一個環(huán)節(jié)）。

用NanoBanana Pro生成創(chuàng)意圖的同時，用GLM-4.6V搜圖，最后我只負責選。

說到搜圖，這次的GLM-4.6V還能直接產(chǎn)出圖文并茂的文章

這得益于它的工具調(diào)用能力

比如我讓它生成北京旅游的推文

解讀GEO的PDF論文（論文PDF中的圖片也會被它插入到正確的位置）

上次不是寫了一篇飛書多維表格的教程嘛，在評論區(qū)看到，還是有一些朋友不清楚怎么調(diào)用的NanoBanana Pro API

我給大家演示一下，你只需要把不懂的部分截圖，丟給GLM-4.6V，它就能幫你把散落在5張圖的API請求，按照想要的形式組裝起來了。

然后我還把一直貼著我車頭停車（可能只差0.5cm就碰到了）的紅車丟給了它..

有高手能評論區(qū)教一下怎么才能停成這樣嗎？？我每次離別人車還有30cm就不敢繼續(xù)靠近了..

除了黑車品牌沒有猜對，其他都對了，挺強的。

上次車停在車位被剮蹭了，去調(diào)監(jiān)控，花了幾個小時終于把逃逸者找到了..

我把最后的維修單丟給GLM-4.6V識別

經(jīng)過我的逐字檢查，準確率非常高，大概是99.9%

它還能識別影帝的情緒～

渣渣輝封神片段：你知道我這五年怎么過的嗎？

劇情、情緒的變化都識別的相當nice。而且非常細節(jié)，角色濕潤的眼眶都識別到了。

除了在z.ai使用，GLM-4.6V還可以接入Claude Code

也可以把GLM-4.6V通過MCP的方式，接入Claude Code。

接入Claude Code，可以參考官方文檔：

https://docs.bigmodel.cn/cn/guide/develop/claude

或者直接修改Claude的settings.json配置文件：

配置好之后，重啟Claude，你就擁有了一個有手有眼的本地Agent啦～

既然有手有眼了，那就讓它干點實事兒。

我給這個本地Agent布置了一個較復(fù)雜的任務(wù)：使用playwright MCP，通過瀏覽器查找，進行產(chǎn)品的全網(wǎng)比價，提示詞如下：

Prompt：全程使用playwright MCP工具。先在淘寶上找一款半入耳式藍牙耳機，價格在500-1000元之間。找到銷量第一的那款。然后，拿著這款耳機的型號，去唯品會和京東比價，找到最便宜的那個平臺，并把它加到我的購物車里。

這個任務(wù)，涉及到了多平臺的網(wǎng)頁瀏覽、視覺識別（看價格、看型號）、邏輯判斷（比大小）和操作執(zhí)行，對于現(xiàn)階段的所有視覺大模型來說，都是一個挑戰(zhàn)。

GLM-4.6V負責看網(wǎng)頁信息，Claude Code負責任務(wù)的調(diào)度。兩者配合，居然真的把這個復(fù)雜的流程給跑通了。

美中不足的是漏掉了篩選價格區(qū)間的操作，但其余的任務(wù)幾乎完美實現(xiàn)。

在淘寶找銷量第一的半入耳式藍牙耳機，以及跟唯品會、京東同款耳機比價，最后把價格最劃算的商品都加入了購物車

我覺得雖然GLM-4.6V可以寫代碼，但是它的代碼能力還是會比GLM-4.6差一些

所以我決定讓它在Claude Code里面做GLM-4.6的眼睛

也就是作為MCP-Server使用

claude mcp add -s user zai-mcp-server --env Z_AI_API_KEY=你的智譜apikey -- npx -y "@z_ai/mcp-server"

在settings.json里面把模型換回glm-4.6即可

既然有了眼睛，那復(fù)刻網(wǎng)頁就不用我費勁去描述了。

Prompt：使用zai-mcp-server分析當前目錄下的視頻，分析視頻中的網(wǎng)站的頁面、交互、動效，然后1:1復(fù)刻視頻中的網(wǎng)站

原網(wǎng)站效果

復(fù)刻后的效果

GLM-4.6V負責識別視頻，GLM-4.6負責生成高質(zhì)量的前端代碼。

網(wǎng)頁復(fù)刻得還不錯，至少這個卡片飛來飛去的效果有了，整體交互和動效都有原視頻的影子。要想一次性百分百還原是很難的，畢竟原視頻的動效太棒了。

GLM-4.6V雖然在極致的視覺能力上，它可能還略遜于Gemini 3這種頂級模型。但別忘了，它只有106B。

對于想要私有化部署的企業(yè)來說，這是一個夠一夠就能得著的高性價比選項。

而對于個人開發(fā)者，9B的Flash版本夠我們在本地免費使用了。

不過，我心里也有個小疑問：為什么智譜不直接把視覺能力融合進GLM-4.6里，要分拆成兩個模型呢？有沒有懂的朋友在評論區(qū)給我科普一下？

我猜可能是為了更靈活的部署和更低的推理成本？

順便說一下，行業(yè)+AI，才能真正釋放AI的生產(chǎn)力。

懂業(yè)務(wù)的朋友，真的建議多學(xué)學(xué)怎么用好這些AI模型。

當你能把業(yè)務(wù)痛點和模型能力對接上的那一刻，效率的提升，絕對是指數(shù)級的。

補充：GLM-4.6和GLM-4.6V都在Coding Plan的使用范圍內(nèi)

能看到這里的都是鳳毛麟角的存在！

如果覺得不錯，隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧~

如果想第一時間收到推送，也可以給我個星標?

謝謝你耐心看完我的文章~

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

Need is all you need：AI接手Coding后，程序員最值錢能力只剩？

量子位 2026-05-15 17:52:01
2 跟貼 2
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優(yōu)化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0

Agent將計算推向端側(cè)，NAS不再僅是存儲丨ToB產(chǎn)業(yè)觀察

鈦媒體APP 2026-05-15 16:53:10
0 跟貼 0

D-OPSD: 將OPSD引入擴散模型，讓少步擴散模型「邊跑邊學(xué)」

機器之心Pro 2026-05-15 15:10:29
0 跟貼 0
Codex App實測：跟龍蝦思路迥異，OpenAI終于挽回點顏面

雷科技 2026-05-15 20:29:39
0 跟貼 0

騰訊造了個“賈維斯”：替我簽到改配置，還會打盹上廁所，一手實測來了

智東西 2026-05-15 23:10:31
0 跟貼 0

Anthropic“神話”又添新章：5日攻破蘋果5年打造的Mac安全壁壘

財聯(lián)社 2026-05-16 00:26:09
1 跟貼 1
大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0

顛覆 AI 助手！這款登頂 GitHub 的開源 Agent，普通人直接封神

鈦媒體APP 2026-05-15 09:30:21
14 跟貼 14
實測兩款A(yù)I工具后，我開始認真考慮“一人公司”了

智東西 2026-05-15 19:03:22
5 跟貼 5
讓兩個大模型在線吵架，跑通全網(wǎng)95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0
從智能體到賽博員工，生產(chǎn)力智能涌現(xiàn)

機器之心Pro 2026-05-15 18:02:32
0 跟貼 0
最強黑客大模型，不再是Mythos

新智元 2026-05-15 12:34:20
6 跟貼 6
兩女子坐電梯，按亮所有樓層后離開

南陽日報 2026-05-15 17:51:56
91 跟貼 91
OpenAI Codex進入手機，國產(chǎn)“龍蝦”們該醒醒了

鈦媒體APP 2026-05-15 17:36:17
11 跟貼 11
男孩擁有特殊視覺能力，意外發(fā)現(xiàn)神秘事物，背后真相不簡單

料定歷史 2026-05-15 10:24:53
1 跟貼 1
商湯SenseNova U1深度拆解，原生統(tǒng)一架構(gòu)終結(jié)縫合時代

機器之心Pro 2026-05-15 17:13:40
0 跟貼 0
奧特曼預(yù)言與現(xiàn)實相差幾何？12個頂級模型“創(chuàng)業(yè)”一年，僅3個存活

鈦媒體APP 2026-04-03 17:11:08
0 跟貼 0
美軍越野車涉水測試，引擎完全淹沒照樣行駛

裝甲鏟史官 2026-04-29 11:51:27
841 跟貼 841
張雪機車53號車手德比斯在捷克站自由練習(xí)賽中以1分34秒389的成績獲得第1名

瀟湘晨報 2026-05-15 16:54:08
5169 跟貼 5169
5大看點拿走不謝！離中國AIGC產(chǎn)業(yè)峰會只有5天啦

量子位 2026-05-15 19:40:11
0 跟貼 0
論文寫作 Skills 來了，從選題到投稿 Claude Code 流水線

Ai學(xué)習(xí)的老章 2026-05-14 20:24:44
0 跟貼 0
視覺模型既懂語義，又能還原細節(jié)，南洋理工&商湯提出棱鏡假說

機器之心Pro 2026-01-13 18:26:48
0 跟貼 0
烏克蘭現(xiàn)多款低成本武器：多由手工焊接或用膠帶纏繞

紅星新聞 2026-05-15 18:47:49
3030 跟貼 3030
這個陶藝動畫的循環(huán)太絲滑，我盯著看了十分鐘

山月不知2 2026-05-14 22:27:46
0 跟貼 0
不承認大學(xué)生就業(yè)難！網(wǎng)紅教授鄭強犯了哪些邏輯錯誤？

大江看潮 2026-05-15 19:23:18
0 跟貼 0
最好的機會從不公開招聘

全棧遛狗員 2026-05-16 00:58:13
0 跟貼 0
單Agent時代正式結(jié)束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
國泰海通：AI產(chǎn)業(yè)鏈通脹 Agent預(yù)計引爆下一輪產(chǎn)業(yè)鏈價格上行

財聯(lián)社 2026-05-15 18:09:06
0 跟貼 0
陪伴上海人18年，滬上知名百貨公告：6月底閉店！購物卡處理方案公布

上觀新聞 2026-05-15 21:28:06
233 跟貼 233
談吐藏修養(yǎng)，三觀見格局，看張凌赫采訪，是視覺與心靈的雙重治愈

心靈的創(chuàng)傷 2026-05-14 00:20:28
1 跟貼 1
廣州暴雨，小孩連人帶車被沖走，外賣小哥狂奔救人！最新消息

南方都市報 2026-05-15 17:22:46
419 跟貼 419
Anthropic和黃仁勛，都在擔憂 Deepseek+華為

鈦媒體APP 2026-05-16 10:38:29
0 跟貼 0
外賣小哥因把外賣放地上，被顧客怒懟：讓你放地上了嗎？覺得膈應(yīng)

星視頻 2026-05-15 15:25:04
98 跟貼 98
武功山景區(qū)遭“臭屁蟲”圍攻？有游客調(diào)侃“張嘴能吃飽”，景區(qū)提醒：可自備防蟲藥物

瀟湘晨報 2026-05-14 17:33:19
984 跟貼 984
拳拳到肉的視覺沖擊，這才是極致的暴力美學(xué)

C位影視解說 2026-05-13 10:08:53
17 跟貼 17
Agent輸出到底該用誰？卡帕西轉(zhuǎn)發(fā)：試試讓AI輸出HTML

量子位 2026-05-13 07:19:50
0 跟貼 0
調(diào)查顯示：逾八成中俄青年認為中俄關(guān)系友好

中國網(wǎng) 2026-05-15 16:24:05
1743 跟貼 1743
當模型調(diào)用成為生產(chǎn)成本，中國移動國際AI Hub給出了答案

雷科技 2026-05-15 20:24:49
0 跟貼 0
話題｜連續(xù)5場至少進倆球，火力全開的國安回來了！

北青網(wǎng)-北京青年報 2026-05-16 07:52:03
14 跟貼 14

跑不死！泰山小將何思凡補時一條龍爆桿：他拿球沙特球員抱頭投降

林子說事

2026-05-16 08:59:21

主動表態(tài)！勇士續(xù)約庫里，2年1.36億，一人一城的傳奇還在延續(xù)

體育大朋說

2026-05-16 10:38:20

程序員被裁瘋狂報復(fù)！一小時刪光96個美國政府數(shù)據(jù)庫，只是爽完要坐牢45年...

英國那些事兒

2026-05-14 23:29:24

大家做好最壞預(yù)期，不出意外，下周A股行情或?qū)⒃儆瓉碜詈笠坏?>
</a>
<h3>
<a href=

趨勢清風俠

2026-05-16 11:31:10

痛別 | 突發(fā)訃告！巨星隕落！

天津廣播

2026-05-16 00:16:42

大連造船廠新動向！美方預(yù)判 4 艘核航母，蘇浙網(wǎng)友別爭了

荷蘭豆愛健康

2026-05-16 10:38:17

馬斯克說中了！當今世界搶的不是芯片，而是中國20萬一臺的變壓器

Thurman在昆明

2026-05-16 11:39:21

“已建好的都不敢開業(yè)”，民營醫(yī)院已倒閉4000家

健識局

2026-05-14 19:25:57

蘋果深夜降價！iPhone17到手只要4499元

大象新聞

2026-05-15 09:46:09

44歲卡里克確認轉(zhuǎn)正！簽約3年救火4個月率曼聯(lián)重返歐冠+15戰(zhàn)10勝

我愛英超

2026-05-15 22:10:38

黃仁勛講17歲追老婆的經(jīng)過：“250人只有3個女生，我老婆最漂亮”

江山揮筆

2026-05-16 10:03:51

科爾自曝留任勇士原因！放話嚴整球隊風氣承認需要更多新鮮血液

羅說NBA

2026-05-16 06:59:36

卡拉格：利物浦弱點太多完全被壓制，我都不太敢信能排在第5

懂球帝

2026-05-16 11:13:27

穆帥：我已經(jīng)收到本菲卡續(xù)約報價；目前和皇馬沒有任何接觸

懂球帝

2026-05-15 17:50:14

特朗普突然透露：北京明確表態(tài)，不會向伊朗提供軍援

桂系007

2026-05-14 23:59:15

特朗普精力充沛，養(yǎng)生秘訣是吃大量阿司匹林，日常三餐吃麥當勞

南權(quán)先生

2026-04-04 05:05:03

暴雷！資金斷裂，又一生鮮平臺涼了？老板疑失聯(lián)，卷走2000萬貨款

i黑馬

2026-05-15 21:14:53

夢鴿李天一赴美不歸？看到85歲李雙江“現(xiàn)狀”，原來楊洪基沒說謊

阿纂看事

2024-11-05 11:54:58

值得珍藏：光模塊+腦機接口+新型儲能+能源+低空經(jīng)濟+AI算力等

Thurman在昆明

2026-05-16 00:42:25

阿根廷4700萬人口，GDP超6300億美元，安徽6100萬人有多少？

抽象派大師

2026-05-15 00:50:00

袋鼠帝

持續(xù)分享AI實踐干貨，走超級個體崛起之路

83文章數(shù) 73關(guān)注度

往期回顧全部

科技要聞

漲的是車價，要的是老命

頭條要聞

美國媒體在天壇里尋找俄勒岡木材被指非常耐人尋味

頭條要聞

美國媒體在天壇里尋找俄勒岡木材被指非常耐人尋味

體育要聞

35歲坎特，干了一件這輩子最吵的事

娛樂要聞

張嘉譯和老婆的差距讓人心酸

財經(jīng)要聞

造詞狂魔賈躍亭

汽車要聞

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

數(shù)碼

游戲

時尚

公開課

本地新聞

用蘇繡的方式，打開江西婺源

數(shù)碼要聞

蘋果“產(chǎn)品百科”應(yīng)用Mactracker迎25周年，新增對比和收藏記錄

《星球大戰(zhàn)：舊共和國》重啟計劃遭EA董事會否決

0緩震的鞋，怎么就火了？

公開課

手機 / 數(shù)碼

房產(chǎn) / 家居

重磅！今年最好的開源9B/106B視覺模型，出現(xiàn)了

漲的是車價，要的是老命

美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

美國媒體在天壇里尋找俄勒岡木材 被指非常耐人尋味

35歲坎特，干了一件這輩子最吵的事

張嘉譯和老婆的差距讓人心酸

造詞狂魔賈躍亭

高爾夫GTI刷新紐北紀錄 ID. Polo GTI迎全球首秀

態(tài)度原創(chuàng)

用蘇繡的方式，打開江西婺源

蘋果“產(chǎn)品百科”應(yīng)用Mactracker迎25周年，新增對比和收藏記錄

《星球大戰(zhàn)：舊共和國》重啟計劃遭EA董事會否決

0緩震的鞋，怎么就火了？

美國媒體在天壇里尋找俄勒岡木材被指非常耐人尋味

美國媒體在天壇里尋找俄勒岡木材被指非常耐人尋味