網易首頁 > 網易號 > 正文申請入駐

DeepSeek開眼！核心技術全公開，推理范式大顛覆

2026-05-01 14:44:47　來源: 魏家東

北京舉報

分享至

4月底，國產大模型DeepSeek悄悄上線灰度識圖模式，一夜之間，這個曾專注文本推理的AI，終于擁有了“看懂世界”的能力。4月30日，其官方發布技術報告《用視覺原語思考》，揭開了這款多模態模型的神秘面紗。不同于行業內堆砌分辨率、追求“看得清”的常規思路，DeepSeek另辟蹊徑，讓AI學會“邊想邊指”，用空間坐標錨定思維，在復雜視覺推理任務中實現對GPT-5.4、Gemini-3-Flash等頂尖模型的反超。這場技術革新，不僅是多模態賽道的一次彎道超車，更在探索AI“系統二級”智能的新路徑。

一、打破“指代鴻溝”：從“純語言空想”到“邊指邊想”

長期以來，多模態大模型的研發重心都在“感知鴻溝”上——通過更高清的圖像切分、更精細的動態分塊，讓AI看清圖片里的每一個細節。但DeepSeek團隊發現，就算把感知做到極致，AI在復雜視覺推理中依然容易“崩潰”，核心問題在于自然語言的“指代鴻溝”。

簡單說，當你對AI說“左邊那個紅色物體”，在擁擠的畫面里，“左邊”“那個”到底指什么，AI根本沒法精準鎖定。純語言思維鏈看似連貫，每一步都可能跑偏，一旦遇到密集計數、迷宮導航、多步空間推理這類任務，邏輯鏈條就會徹底崩塌。

為了破解這個難題，DeepSeek給出了顛覆性方案：把語言推理升級為“語言邏輯+空間坐標”的雙軌思維。讓AI思考時不再只靠文字，而是像人一樣，用點和框在圖上“指出來”，把這些視覺原語變成思維的基本單元。

它的工作邏輯很直觀：用戶上傳圖片后，DeepSeek-ViT先把圖像轉為視覺特征，文本分詞器處理文字指令，兩者輸入基座模型DeepSeek-V4-Flash融合推理，最終輸出文字+坐標框/點的聯合響應。比如推理時，AI會先框出圖中的目標，后續每一步思考都引用這個框定的“視覺錨點”，基于空間位置做判斷，徹底解決指代模糊的問題。

二、4000萬數據淬煉：讓AI學會“精準指向”

想法很創新，但要讓AI真正“學會指”，并把這個動作變成思維習慣，離不開海量高質量數據和針對性訓練。DeepSeek團隊為此搭建了“預訓練-冷啟動-強化學習”的完整訓練流水線，每一步都精準發力。

1.預訓練：篩選4000萬優質樣本打基礎

預訓練階段，團隊從互聯網爬取近10萬個目標檢測相關數據源，用嚴格的自動化審查機制過濾低質量數據——亂碼標簽、覆蓋全圖的“巨型框”、模糊不清的標注全部剔除，最終篩選出3萬多個高質量數據源，提煉出超4000萬個精準樣本。這批數據先讓AI掌握基礎的定位能力，知道“該指哪里”。

2.冷啟動：四類任務專項練“推理”

有了基礎能力后，團隊針對計數、空間推理、迷宮導航、路徑追蹤這四類最考驗視覺原語的任務，合成了帶精確思考軌跡的冷啟動數據，手把手教AI“怎么邊指邊推理”。

計數任務：要求AI先批量框出所有候選物體，再逐個校驗、累加，避免漏數、重復數；

迷宮任務：每一步探索都要輸出點坐標標記位置，撞墻就回溯，學會一步步規劃路徑。

這種訓練讓AI在起步階段就建立“指向-推理”的強關聯，不是靠猜答案，而是靠精準的視覺定位推導結論。

3.強化學習：稠密獎勵逼AI“認真指”

冷啟動后的模型，再通過“訓練專家再融合”策略精細化打磨。核心創新是稠密獎勵機制，不再只看最終答案對錯，而是把獎勵拆成多個維度：

迷宮任務：探索進度、不撞墻、路徑有效都給正向獎勵，哪怕答案對了，中途撞墻也會扣分；

計數任務：框選精準、校驗嚴謹才得分，模糊標注直接懲罰。

同時，團隊還分別訓練了“框定位”和“點指向”兩個專家模型，再用在線策略蒸餾融合，避免兩種能力互相干擾。這套機制讓AI必須認真對待每一個坐標、每一個框，沒法靠“蒙混過關”拿獎勵。

三、7000倍壓縮：高效推理的“輕量密碼”

讓AI“邊指邊想”解決了推理準度問題，但新的挑戰來了：高清圖片像素海量，直接處理會讓推理變得又慢又耗資源。DeepSeek的解決方案，是一套超高效的視覺編碼壓縮架構，把“笨重”的圖像數據，變成AI能快速處理的“精簡索引”。

壓縮過程分三步走，以756×756分辨率的圖片為例：

ViT切分：把圖片切成14×14的小塊，生成2916個視覺token；

空間壓縮：將每9個相鄰token合并成1個，數量驟降；

稀疏注意力壓縮：底座模型再將KV緩存中的視覺條目壓縮4倍。

最終，2916個原始token只保留81個視覺條目，整體壓縮比高達7056倍。這意味著AI推理時，不用在海量像素里反復找信息，每一步思考都很“輕量”，復雜空間推理也能高效完成。

這種高效率帶來了直觀體驗：實測中，DeepSeek識圖模式分“思考/非思考”雙模式。非思考模式秒回答案，適合簡單識別；開啟深度思考后，能攻克空間拼圖、復雜場景解析等難題，雖然耗時稍長，但推理邏輯清晰、準確率大幅提升。

四、能力碾壓與邊界：多模態智能的新起點

技術的突破直接體現在性能上。在高難度視覺QA任務測試中，這款284B參數、13B激活的多模態模型，全面超越GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash、Qwen3-VL等主流頂尖模型，成為視覺推理賽道的新標桿。

實際測試中，它的表現同樣亮眼：能精準識別兔子品種、描述姿態；僅憑靈隱寺路燈上的草書字樣和建筑風格，就能鎖定地理位置并給出精確經緯度；解析無文字提示的風景照時，能從植被、建筑、山脈輪廓一步步推導拍攝地，誤差不到十公里。

當然，這項技術仍有邊界：復雜拓撲推理的跨場景泛化能力不足，視覺基元的激活還需依賴觸發詞，沒法完全自發調用。但這不妨礙它成為多模態領域的里程碑——DeepSeek沒有跟著行業卷分辨率，而是換了個思路，用空間坐標錨定抽象思維，探索出了一條通往“系統二級”多模態智能的新路徑。

從純文本推理到圖文雙軌交互，DeepSeek的識圖模式，是國產大模型在多模態賽道的一次關鍵突破。它讓我們看到，AI的視覺智能，不只是“看得清”，更要“想得明白”——像人一樣，用手指著目標，一步步理清邏輯。

未來，隨著權重整合進基礎模型并正式發布，這套技術或將徹底改變AI識圖的應用場景：從日常的圖片解析、信息提取，到專業的工業質檢、地理測繪、科研分析，都能用上精準、高效的視覺推理能力。而DeepSeek的“指物思考”之路，也為整個行業提供了新方向：多模態智能的終極目標，從來不是模仿人類的眼睛，而是模仿人類的思維方式。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.