剛剛,DeepSeek 的「識圖模式」開始灰度了。
網頁版和 App 里,有些用戶已經能看到它和「快速模式」「專家模式」并列出現。
![]()
后端配置里也能看到“name: 識圖模式、description: 圖片理解功能內測中”,這些字段。
![]()
5 天前,DeepSeek 剛發布 V4 預覽版。現在,鯨魚終于睜眼了。
DeepSeek 識圖模式剛灰度,民間評測已經開始了。大家打開手機相冊,直接出題:數手指、認動漫、看表情包、讀截圖、猜商品、找隱藏信息、判斷一只貓到底是不是「被迫營業」。
我從夕小瑤Family群和網上挑了一些網友測試case,給大家先過過眼。
?第一關,看見
之前Deepseek只能識別圖片里的文字,現在可以理解圖片了。
![]()
這類題測的是視覺模型的基礎能力。
![]()
包括這個恐龍,都能用代碼畫出來了。那看起來,在這類題上,DeepSeek 已經cover住了。
至少從用戶截圖看,它不是過去那種只會 OCR 的狀態,真的把畫面元素一起讀進去了。
入門關,完美通過。
?第二關,懂梗
網友最愛測的第二類題,是文化語境題。
![]()
它要求模型知道畫面之外的東西。
誰是特朗普?誰是魯路修?必須先知道才能答上來。這類題會結合一部分世界知識,考驗理解能力。
還有這個,這個小貓給人一種什么感覺?
![]()
可以看到,對情緒的理解也相當到位。能看懂主體是啥,還能看懂大家為什么轉發給它,第二關,過!
?第三關,別裝懂
下面是更難的第三關,反直覺題。
比如數手指、視錯覺、隱藏圖案、低清截圖、故意模糊的二創圖。
這些題很煩。它們不只考模型看沒看見,還考模型邏輯推理能力。
![]()
就比如這個比大小。。
![]()
看起來,需要多讓他思考幾遍才能弄得明白。
DeepSeek一直以來最大的短板就是多模態。語言和推理能力卷到第一梯隊了,但視覺理解一直缺位。現在補上識圖,終于補了一塊「多模態」短板。
來源 | 夕小瑤科技說(ID:xixiaoyaoQAQ)
作者 | 丸美小沐 ; 編輯 | 呼呼大睡
內容僅代表作者獨立觀點,不代表早讀課立場
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.