![]()
4月底,國產大模型DeepSeek悄悄上線灰度識圖模式,一夜之間,這個曾專注文本推理的AI,終于擁有了“看懂世界”的能力。4月30日,其官方發布技術報告《用視覺原語思考》,揭開了這款多模態模型的神秘面紗。不同于行業內堆砌分辨率、追求“看得清”的常規思路,DeepSeek另辟蹊徑,讓AI學會“邊想邊指”,用空間坐標錨定思維,在復雜視覺推理任務中實現對GPT-5.4、Gemini-3-Flash等頂尖模型的反超。這場技術革新,不僅是多模態賽道的一次彎道超車,更在探索AI“系統二級”智能的新路徑。
![]()
一、打破“指代鴻溝”:從“純語言空想”到“邊指邊想”
長期以來,多模態大模型的研發重心都在“感知鴻溝”上——通過更高清的圖像切分、更精細的動態分塊,讓AI看清圖片里的每一個細節。但DeepSeek團隊發現,就算把感知做到極致,AI在復雜視覺推理中依然容易“崩潰”,核心問題在于自然語言的“指代鴻溝”。
![]()
簡單說,當你對AI說“左邊那個紅色物體”,在擁擠的畫面里,“左邊”“那個”到底指什么,AI根本沒法精準鎖定。純語言思維鏈看似連貫,每一步都可能跑偏,一旦遇到密集計數、迷宮導航、多步空間推理這類任務,邏輯鏈條就會徹底崩塌。
為了破解這個難題,DeepSeek給出了顛覆性方案:把語言推理升級為“語言邏輯+空間坐標”的雙軌思維。讓AI思考時不再只靠文字,而是像人一樣,用點和框在圖上“指出來”,把這些視覺原語變成思維的基本單元。
它的工作邏輯很直觀:用戶上傳圖片后,DeepSeek-ViT先把圖像轉為視覺特征,文本分詞器處理文字指令,兩者輸入基座模型DeepSeek-V4-Flash融合推理,最終輸出文字+坐標框/點的聯合響應。比如推理時,AI會先框出圖中的目標,后續每一步思考都引用這個框定的“視覺錨點”,基于空間位置做判斷,徹底解決指代模糊的問題。
二、4000萬數據淬煉:讓AI學會“精準指向”
想法很創新,但要讓AI真正“學會指”,并把這個動作變成思維習慣,離不開海量高質量數據和針對性訓練。DeepSeek團隊為此搭建了“預訓練-冷啟動-強化學習”的完整訓練流水線,每一步都精準發力。
1.預訓練:篩選4000萬優質樣本打基礎
預訓練階段,團隊從互聯網爬取近10萬個目標檢測相關數據源,用嚴格的自動化審查機制過濾低質量數據——亂碼標簽、覆蓋全圖的“巨型框”、模糊不清的標注全部剔除,最終篩選出3萬多個高質量數據源,提煉出超4000萬個精準樣本。這批數據先讓AI掌握基礎的定位能力,知道“該指哪里”。
2.冷啟動:四類任務專項練“推理”
有了基礎能力后,團隊針對計數、空間推理、迷宮導航、路徑追蹤這四類最考驗視覺原語的任務,合成了帶精確思考軌跡的冷啟動數據,手把手教AI“怎么邊指邊推理”。
計數任務:要求AI先批量框出所有候選物體,再逐個校驗、累加,避免漏數、重復數;
迷宮任務:每一步探索都要輸出點坐標標記位置,撞墻就回溯,學會一步步規劃路徑。
這種訓練讓AI在起步階段就建立“指向-推理”的強關聯,不是靠猜答案,而是靠精準的視覺定位推導結論。
![]()
3.強化學習:稠密獎勵逼AI“認真指”
冷啟動后的模型,再通過“訓練專家再融合”策略精細化打磨。核心創新是稠密獎勵機制,不再只看最終答案對錯,而是把獎勵拆成多個維度:
迷宮任務:探索進度、不撞墻、路徑有效都給正向獎勵,哪怕答案對了,中途撞墻也會扣分;
計數任務:框選精準、校驗嚴謹才得分,模糊標注直接懲罰。
同時,團隊還分別訓練了“框定位”和“點指向”兩個專家模型,再用在線策略蒸餾融合,避免兩種能力互相干擾。這套機制讓AI必須認真對待每一個坐標、每一個框,沒法靠“蒙混過關”拿獎勵。
三、7000倍壓縮:高效推理的“輕量密碼”
讓AI“邊指邊想”解決了推理準度問題,但新的挑戰來了:高清圖片像素海量,直接處理會讓推理變得又慢又耗資源。DeepSeek的解決方案,是一套超高效的視覺編碼壓縮架構,把“笨重”的圖像數據,變成AI能快速處理的“精簡索引”。
![]()
壓縮過程分三步走,以756×756分辨率的圖片為例:
ViT切分:把圖片切成14×14的小塊,生成2916個視覺token;
空間壓縮:將每9個相鄰token合并成1個,數量驟降;
稀疏注意力壓縮:底座模型再將KV緩存中的視覺條目壓縮4倍。
最終,2916個原始token只保留81個視覺條目,整體壓縮比高達7056倍。這意味著AI推理時,不用在海量像素里反復找信息,每一步思考都很“輕量”,復雜空間推理也能高效完成。
這種高效率帶來了直觀體驗:實測中,DeepSeek識圖模式分“思考/非思考”雙模式。非思考模式秒回答案,適合簡單識別;開啟深度思考后,能攻克空間拼圖、復雜場景解析等難題,雖然耗時稍長,但推理邏輯清晰、準確率大幅提升。
![]()
四、能力碾壓與邊界:多模態智能的新起點
技術的突破直接體現在性能上。在高難度視覺QA任務測試中,這款284B參數、13B激活的多模態模型,全面超越GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等主流頂尖模型,成為視覺推理賽道的新標桿。
![]()
實際測試中,它的表現同樣亮眼:能精準識別兔子品種、描述姿態;僅憑靈隱寺路燈上的草書字樣和建筑風格,就能鎖定地理位置并給出精確經緯度;解析無文字提示的風景照時,能從植被、建筑、山脈輪廓一步步推導拍攝地,誤差不到十公里。
當然,這項技術仍有邊界:復雜拓撲推理的跨場景泛化能力不足,視覺基元的激活還需依賴觸發詞,沒法完全自發調用。但這不妨礙它成為多模態領域的里程碑——DeepSeek沒有跟著行業卷分辨率,而是換了個思路,用空間坐標錨定抽象思維,探索出了一條通往“系統二級”多模態智能的新路徑。
從純文本推理到圖文雙軌交互,DeepSeek的識圖模式,是國產大模型在多模態賽道的一次關鍵突破。它讓我們看到,AI的視覺智能,不只是“看得清”,更要“想得明白”——像人一樣,用手指著目標,一步步理清邏輯。
未來,隨著權重整合進基礎模型并正式發布,這套技術或將徹底改變AI識圖的應用場景:從日常的圖片解析、信息提取,到專業的工業質檢、地理測繪、科研分析,都能用上精準、高效的視覺推理能力。而DeepSeek的“指物思考”之路,也為整個行業提供了新方向:多模態智能的終極目標,從來不是模仿人類的眼睛,而是模仿人類的思維方式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.