這幾天,AI圈又炸了。
不是什么新模型發布,不是什么參數碾壓,而是一只鯨魚,摘掉了眼罩。
故事是這樣的。
![]()
4月29日下午,DeepSeek多模態團隊負責人陳小康在X上發了條動態:"Now, we see you。"配圖是兩只DeepSeek鯨魚logo——一只還戴著海盜眼罩,一只已經睜開眼睛。
24小時內,這是他第二次釋放類似信號。前一天,他曾發過"Soon, we see you",隨后刪除。
從"Soon"到"Now",一字之差,信息量拉滿。
這只鯨魚,終于能看了。
一、灰度測試,已經開始了
更魔幻的是,有人已經用上了。
![]()
部分用戶在DeepSeek官方App中灰度到了"識圖模式"。截圖顯示,輸入欄上方除了原有的"快速模式""專家模式",新增了一個按鈕——"識圖模式",標注"圖片理解功能內測中"。
上傳一張圖片,它能輸出結構化描述:分析用戶需求、分析圖片、識別具體內容。
這是DeepSeek主線產品中,第一次出現圖像理解能力。
要知道,4月8日DeepSeek App才完成第一輪模式分層改版,上線"快速模式"和"專家模式"。當時就有微博用戶放出截圖,顯示有三檔選項:快速/專家/視覺。
視覺那檔,一直灰著。
從今天起,開始亮了。
二、V4發布時的"遺憾"
說起來挺有意思。
4月24日,DeepSeek發布V4系列預覽版——V4-Pro 1.6T參數,V4-Flash 284B參數,均支持1M token上下文。
![]()
參數炸裂,上下文炸裂,但有一個問題:純文本模型。
這和外界此前"V4將原生多模態"的密集傳聞不符。很多人期待的眼球識別、圖像生成,一個都沒有。
V4技術報告第6節"Conclusion, Limitations, and Future Directions"里寫得很清楚:下一步工作之一是"將多模態能力融入模型體系"。
翻譯一下:還沒做,但會做。
更戲劇的是,V4發布前后,DeepSeek多模態團隊被曝人才流失。4月12日,自動駕駛公司元戎啟行確認DeepSeek多模態模型核心貢獻者阮翀已加盟出任首席科學家;DeepSeek-OCR系列核心作者魏浩然在春節前后離職。
外界開始猜測:DeepSeek的多模態,是不是涼了?
現在看來,沒涼,只是在憋大招。
三、這次更新,意味著什么?
先說結論:這是DeepSeek多模態團隊近三個月來,第一次以產品形式對外釋放進展。
但要注意,目前可觀察到的能力,仍限于圖像理解(vision-language understanding),而非外界過去半年反復猜測的"原生多模態生成"。
從App灰度截圖的輸出風格判斷,識圖模式更像一個掛載在V4主干上的視覺理解模塊。
什么意思?
打個比方:V4是大腦,識圖模式是給大腦裝了一雙眼睛。它能看懂圖片,但還不能畫圖。
DeepSeek官方目前沒對識圖模式的開放范圍、正式發布時間、底層模型來源做出說明。
但從陳小康從"Soon"到"Now"的兩次發帖節奏判斷,更大范圍的開放,或許就在數日之內。
四、為什么這只鯨魚值得關注?
我給你三個理由。
第一,技術路線的選擇。
DeepSeek沒有選擇"原生多模態"這條路,而是先做純文本V4,再掛載視覺模塊。這條路更穩,但也更慢。現在看來,他們賭對了。
第二,人才流失后的反擊。
核心貢獻者離職、外界質疑聲四起,DeepSeek沒有解釋,直接用產品說話。這種風格,很硬核。
第三,開源生態的變數。
DeepSeek一直是開源社區的寵兒。如果識圖模式表現優異,開源社區又將多一個強有力的多模態選擇。這對整個AI生態,都是好事。
五、寫在最后
陳小康的X簽名里有一句話:"Now, we see you。"
這句話,既是對用戶的承諾,也是對質疑者的回應。
眼罩摘了,鯨魚醒了。
AI的競爭,從來不是百米沖刺,而是馬拉松。有人起跑快,有人中途加速,有人后程發力。
DeepSeek選擇了后者。
V4發布時,有人說它"偏科"——文本強,多模態弱。現在,補課開始了。
這個世界,從來不缺質疑者。缺的是,用產品打臉質疑的人。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.