五一放假前一天,大家都準備躺平了。DeepSeek反手就是一個大招。多模態能力灰度測試開啟。部分用戶打開首頁,發現多了一個"識圖模式"的入口。
![]()
上傳圖片,DeepSeek能像人一樣理解畫面了。
多模態團隊負責人陳小康發了句話:"現在,我們能看見你了。"
聽起來像情話。但這是DeepSeek的聊天產品,第一次接入多模態。
然后論文就沒了
更魔幻的來了。
![]()
4月30日,DeepSeek發了一篇技術報告《Thinking with Visual Primitives》(用視覺原語思考)。五一節前一天發重磅論文,這很DeepSeek。
但很快,官方連夜刪除了多模態倉庫和論文原文。5月1日打開Github,已經是404狀態。
刪除原因?官方沒說。
有人猜不是內容問題,而是信息透露太多。DeepSeek這波操作,我只能說:懂的都懂。
這篇論文說了啥?
先別管刪沒刪,內容才是重點。
這篇論文,符合DeepSeek一貫的風格:扎實,務實,用工程能力降成本。
核心就一句話:多模態模型在復雜任務上崩潰,不是因為看不見,而是因為"指不準"。
什么意思?
自然語言天然有模糊性。你讓模型處理復雜空間布局,光靠文字描述,很容易產生歧義。
就像數一堆散落的硬幣。你不用手指逐個按著確認,人類也會數錯或數重。
DeepSeek的解法是:給模型配一只"手指"。
通過引入"視覺原語"框架,模型把點、邊界框這些空間標記,提升為最小思維單元。模型在推理時,能一邊"想"一邊"指",把抽象的語言邏輯指向具體空間坐標。
這靈感來自人類認知。你走迷宮或數密集物體時,會用手指這類指示性指向,來降低認知負荷、維持邏輯一致性。
DeepSeek把這套邏輯,教給了模型。
性能怎么樣?
這模型基于DeepSeek-V4-Flash構建,總參數2840億。
大量實驗表明,在推理精度上實現顯著突破。空間推理、視覺問答這些挑戰性任務上,性能持平或超越GPT、Claude、Gemini最新版本。
DeepSeek的研究證明了一件事:多模態智能的未來,不只是"看見更多像素",而是構建語言與視覺之間精準、無歧義的指代橋梁。
這句話,值得讀三遍。
為什么之前不做多模態?
其實DeepSeek在4月24日發布了V4系列旗艦模型,但當時并沒有涉及多模態。官方對V4的定義是:支持百萬字超長上下文,在Agent能力、世界知識和推理性能上實現國內與開源領域領先。
多模態已經是當前大模型更新的重要方向。DeepSeek遲遲沒跟上,被認為是能力上的一大短板。
有傳言說,DeepSeek暫緩多模態生成的訓練策略,主要源于算力和現金的掣肘。融資后,這一方向的訓練會更順利。
是不是真的?我不知道。但我知道一件事:技術路線的選擇,永遠比我們想象的更復雜。
一個比喻
DeepSeek這次的創新,讓我想起一個場景。
你讓一個盲人描述房間里的東西。他能聽見你的描述,能摸到家具的輪廓,但就是沒法精準指向某個具體位置。
現在,你給了他一根手杖。
他可以一邊走,一邊敲,一邊確認。語言和空間,終于對上了。
這就是視覺原語的意義。不是讓模型看得更清楚,而是讓模型指得更準確。
DeepSeek這波操作,讓我想起一句話:
技術進步的本質,是把人類的認知方式,翻譯成機器能理解的語言。
視覺原語框架,就是這樣一個翻譯器。它把人類"邊指邊想"的認知習慣,變成了模型推理的基本單元。
論文刪了,但思路留下了。
DeepSeek的多模態時代,才剛剛開始。。。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.