![]()
就在4月30日,DeepSeek又發布了一篇關于多模態技術報告《Thinking with Visaul Primitives》(《用視覺原語思考》),闡釋了這次上新的多模態技術背后的細節。
![]()
關于刪除原因官方并沒有特別說明,不過有猜測不是內容問題,而是信息透露太多。
DeepSeek的解法是給模型配上一只“手指”。通過引入“視覺原語”(Visual Primitives)框架,模型將點、邊界框等空間標記提升為最小思維單元。這意味著模型在推理時,能夠一邊“想”一邊“指”,將抽象的語言邏輯指向到具體空間坐標。
這一模型基于DeepSeek-V4-Flash(總參數2840億)構建。DeepSeek的大量實驗表明,該方法在推理精度上實現顯著突破,在空間推理、視覺問答等挑戰性任務上,性能持平或超越 GPT、Claude、Gemini 最新版本。
DeepSeek的研究證明:多模態智能的未來,不只是 “看見更多像素”,而是構建語言與視覺之間精準、無歧義的指代橋梁。
多模態已經成為當前大模型更新的一個重要方向,而DeepSeek在這一方面卻遲遲未跟上,這也被認為是DeepSeek能力上的一大短板。也有傳言稱,DeepSeek暫緩多模態生成的訓練策略,主要源于算力和現金的掣肘,在融資后,或許這一方向的訓練會更加順利。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.