![]()
D神又開播了?真的假的?
Deepseek憋了這么久大的,最近終于開始盡情釋放了。上周他們剛悄咪咪把 V4 給端了上來,緊接著就是連著兩波大降價(jià)。。梁神,你又來普度眾生了?
結(jié)果今天,它又突然來了給我推送了一波灰測(cè):DeepSeek,有多模態(tài)能力了,準(zhǔn)確來說是識(shí)圖。
驗(yàn)過了牌,是真的。
![]()
想嘗鮮的差友現(xiàn)在就可以打開你的 DeepSeek 瞅一眼。
要是界面里多出了個(gè)“識(shí)圖模式”,恭喜你,你就是被內(nèi)測(cè)到的幸運(yùn)兒,直接白嫖真正的多模態(tài)版 V4。
DeepSeek自家的研究員陳小康,也按耐不住發(fā)了個(gè)貼,我們鯨魚終于長(zhǎng)眼睛了,再也不是國(guó)服盲僧了!
![]()
為啥大伙兒反應(yīng)這么激動(dòng)?實(shí)在是DeepSeek因?yàn)闆]多模態(tài),已經(jīng)被詬病很久了,像國(guó)外三巨頭ChatGPT、Gemini、Claude早就有多模態(tài)能力了,國(guó)內(nèi)像豆包、千問等模型也做得非常好。
而你這個(gè)被寄予厚望的國(guó)產(chǎn)之光,這么多年了連個(gè)圖都識(shí)別不了,只能靠 OCR,也就是識(shí)別圖片里的文字,使用體驗(yàn)這塊確實(shí)拉了一截。
而現(xiàn)在,這塊短板終于被補(bǔ)齊了。
話不多說,我們直接上測(cè)試吧。
首先,它確實(shí)是擺脫了傳統(tǒng)的OCR,真能看到圖片全貌了,這點(diǎn)大伙可以放心。
比如我們給它了一張用藍(lán)色寫出來的“這是一行紅字”,如果只用傳統(tǒng)OCR,它只能識(shí)別出文字是“這是一行紅字”,絕對(duì)識(shí)別不出是藍(lán)色的。(甚至可能無法識(shí)別)
![]()
而開啟視覺模式后,它可以精準(zhǔn)識(shí)別出,這是一行藍(lán)色的紅字,甚至感覺到了我的幽默。
![]()
不光如此,它還有了視覺上的推理能力。
這張梗圖大家都見過吧?相信以差友的智商,絕對(duì)看得懂圖里在寫啥。
![]()
于是我發(fā)給DeepSeek,讓它幫我進(jìn)行笑點(diǎn)解析。
它一番思考過后,不光看出來了,還順便做了個(gè)本土化翻譯“金大利亞”“銀大利亞”“銅大利亞”,有點(diǎn)忍俊不禁了。
![]()
接著我又發(fā)它了一張同事開車時(shí),隨手拍的圖片,其實(shí)挺糊的,只有些外觀、光效上的信息可以分析。
![]()
結(jié)果它還是猜出來了,這輛車確實(shí)是斯巴魯,而且思考13秒就給出了結(jié)論。
![]()
考慮到D老師是數(shù)學(xué)高手,我們又給它傳了一張數(shù)學(xué)相關(guān)的梗圖,說實(shí)話世超差點(diǎn)都沒看懂,是哥們丈育了。
![]()
D老師的解釋,依舊非常完美。
不光整明白了簡(jiǎn)單運(yùn)算,它甚至看出了里面的幾個(gè)諧音梗:取實(shí)部也就是去掉虛數(shù)“i”,也就是去掉“Eye”,也就是把眼睛去掉了。而倒三角是梯度也就是“Grad”,剛好和“Graduate”差不多,所以給小臉帶上了學(xué)士帽。
已經(jīng)忘記數(shù)學(xué)知識(shí)的差友們可以逐字復(fù)盤一下。
![]()
順便呢,我也測(cè)了幾個(gè)生活中的問題,比如這個(gè)3.5mm插頭該插哪里。
![]()
這個(gè)方頭USB口又該插哪里。
![]()
雖然很簡(jiǎn)單,但它能理解我沒對(duì)上焦的隨手拍,也算能勝任日常任務(wù)了。
但其實(shí),根據(jù)世超的實(shí)測(cè),D老師目前這個(gè)版本,也沒有到天下無敵的地步。
比如咱給它丟了一張圖,非常美麗的地球夜景。
![]()
DeepSeek也看得蠻清楚的,說這張照片來自國(guó)際空間站。
![]()
但其實(shí),你們把照片翻過來看看,就會(huì)發(fā)現(xiàn)這張照片是一張晚霞下面的城市,這是倒懸過來的視角。。。
然后我丟給了公認(rèn)的多模態(tài)高手Gemini。。。它還真看出來了。不是,降智了都這么強(qiáng)嗎?
![]()
還是沒能讓多模態(tài)之王用盡全力嗎,哈吉鯨。
包括對(duì)一些人臉的識(shí)別,也是偶爾抽風(fēng),比如我把豆包的圖片扔給了它,它給我識(shí)別的是啥,嗯,B站UP主羅翔。
![]()
還有這個(gè)經(jīng)典的視錯(cuò)覺問題,這倆球明顯不一樣大吧?結(jié)果D老師一番思考跟我說倆球一樣大。
![]()
不過我也去扒了一下它的思考過程,其實(shí)它早就看出來右邊的球大了,但因?yàn)樽屑?xì)讀題,覺得這是給它的錯(cuò)覺,所以選擇欺騙自己,說它們一樣大了。。可能是強(qiáng)化學(xué)習(xí)強(qiáng)化太猛了吧。
![]()
綜合評(píng)價(jià),可以給到一個(gè)神鬼二象性,夯的時(shí)候夯,拉的時(shí)候拉完了。。
但話又說回來了,DeepSeek剛長(zhǎng)出眼睛,咱還是得給它一些適應(yīng)這個(gè)世界的時(shí)間吧。
最后,現(xiàn)在的 AI 巨頭大亂斗,早已經(jīng)過了那個(gè)只看跑分、只看文本輸出能力的新手村階段了。
Coding 水平、多模態(tài)能力、調(diào)用工具的絲滑程度等等等等,基本上缺一不可。
但之前大 D 老師在多模態(tài)能力上的缺席,總讓覺得可惜。有種大伙們都在哼哧哼哧做事干活了, DeepSeeK 卻因?yàn)槿备觳采傺郏珹gent 能力大打折扣。
畢竟,目前絕大部分的模型,API 都是帶多模態(tài),或者至少是帶圖片輸入能力的。
![]()
也期待 DeepSeek 能把識(shí)圖的多模態(tài)能力,盡快更新到 V4 新模型的 API 上面吧。
要知道,之前蒙著眼睛,已經(jīng)和不少對(duì)手已經(jīng)打得有來有回了。。 現(xiàn)在揭下眼罩,到時(shí)候用在 Claude Code、龍蝦、Cowork 等等工具上的表現(xiàn),估計(jì)還會(huì)有一大波的提升。
另外,按照 DeepSeek 這段時(shí)間吐泡泡刷存在感的頻率,估計(jì)還有一堆連招等著出手呢。
不多說了,看 D 老師表演吧。
撰文:不咕&江江
編輯:江江&面線
美編:萱萱
圖片、資料來源:
DeepSeek,微博,部分圖源自互聯(lián)網(wǎng)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.