剛剛,有群友丟出一張DeepSeek官網的截圖,不是生成,是真的截圖。
![]()
信息不多,但很關鍵,DeepSeek正在內測「識圖模式」。注意,這不是OCR文字識別,而是真正的視覺理解。
從目前流出的體驗case來看,它不僅能“看見”,還能“理解”。
畫面主體對象、位置關系、膚色與著裝細節、光影結構,甚至整體氛圍,都可以被DeepSeek拆解分析。更重要的是,它還帶有一定的反思能力——不只是給答案,而是會對自己的判斷進行校驗。
![]()
case鏈接:https://chat.deepseek.com/share/ablc57vmv2ompm3vy6
再往前串一下時間線,就更有意思了。
昨天,DeepSeek多模態團隊研究員@Xiaokang Chen 在 X 上發了一句:“Soon, we see you. ”。
![]()
但這條動態很快又被刪除。
結合這兩條線索來看,一個相對清晰的判斷是:DeepSeek的多模態能力,很有可能會在五一前上線。
如果這個節奏成立,那意義其實不小。
因為在過去很長一段時間里,多模態一直DeepSeek最明顯的一塊短板。因為先天能力的缺失,它在很多場景上始終落后于一線模型。
此前,我們已對DeepSeek V4做過多篇橫評:
結論很直接:DeepSeek V4的1M上下文能力很強,但一旦進入視覺維度,就會出現明顯斷層。
如果這次視覺理解能夠補齊短板,那DeepSeek的使用場景將會明顯豐富。
更關鍵的是,這不是一個錦上添花的功能。
在Agent越來越普及的今天,“看懂世界”的能力,正在變成基礎設施。沒有視覺,多數真實場景都無法閉環。
所以,這一波,不只是補短板,更像是補齊入場券。
![]()
接下來就看兩點了:
一是效果到底能達到什么水平;
二是開放策略,是小范圍試水,還是直接全面開放。
如果兩點都給到位,那今年的模型競爭,可能要再多一個變量了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.