網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

DeepSeek視覺(jué)原語(yǔ)論文：當(dāng)所有人在堆圖像分辨率時(shí)，它在堆「指代精度」！

2026-04-30 21:29:26　來(lái)源: AI進(jìn)化論花生

北京舉報(bào)

分享至

超長(zhǎng)預(yù)警，這篇文章總字?jǐn)?shù)9000+，預(yù)計(jì)閱讀時(shí)長(zhǎng)20分鐘。如果你覺(jué)得太長(zhǎng)讀不下去的話，不用喊元寶了，這是最核心的四條總結(jié)：

1、DeepSeek今天（4月30日）發(fā)了多模態(tài)論文 Thinking with Visual Primitives，離 V4 論文整 6 天。核心是「視覺(jué)原語(yǔ)」：讓模型一邊推理一邊輸出坐標(biāo)，把「點(diǎn)」和「邊界框」當(dāng)作思考的最小單元，相當(dāng)于讓 AI 一邊想一邊「用手指著圖說(shuō)話」

2、DeepSeek是七大 coding agent 玩家里最后一個(gè)把視覺(jué)接入主力產(chǎn)品的旗艦（OpenAI、Anthropic、Qwen、Kimi、GLM 都比它早），但補(bǔ)課方式反共識(shí)：主流派在堆圖像分辨率，DeepSeek 在堆指代精度

3、效率夸張到離譜。一張 800×800 圖，Claude-Sonnet-4.6 要 ~870 個(gè) KV cache 條目，Gemini-3-Flash 要 ~1100 個(gè)，DeepSeek 這個(gè)新模型只要 ~90 個(gè)。整體壓縮比 7056 倍，平均分還小幅領(lǐng)先所有 frontier 模型

4、最猛的成績(jī)不在常規(guī) VQA。在拓?fù)渫评恚詫m導(dǎo)航 / 路徑追蹤）上 DeepSeek 領(lǐng)先 frontier 模型 16 到 26 個(gè)百分點(diǎn)。論文原話：「所有 frontier 模型在拓?fù)渫评砣蝿?wù)上均表現(xiàn)欠佳」。一句話禮貌地踩了所有人

說(shuō)起來(lái)，趕在五一長(zhǎng)假之前丟個(gè)重磅論文，這風(fēng)格還真挺特么DeepSeek的，熟悉的味道又回來(lái)了。以及，這次內(nèi)容真的太長(zhǎng)了，建議你可以先收藏了，假期里無(wú)聊的時(shí)候慢慢讀，我這五一期間盡量...盡量不卷了，不給各位增加閱讀負(fù)擔(dān)。

6天前的預(yù)言兌現(xiàn)了

時(shí)間線是這樣的。

4月24日，DeepSeek發(fā)了V4論文，58頁(yè)。我那篇解讀里寫過(guò)一段判斷：

OCR 2 的視覺(jué)因果流也沒(méi)進(jìn) V4，但多模態(tài)被明確寫進(jìn) V5 的方向（原文：incorporating multimodal capabilities）。所以下一代 DeepSeek 大概率會(huì)是這樣的輪廓：原生多模態(tài)（OCR 2 這一脈的延伸）、引入某種可擴(kuò)展的查找式記憶、進(jìn)一步降低延遲、更長(zhǎng)的 long-horizon multi-round agentic 能力。

寫這段話的時(shí)候我以為離 V5 還遠(yuǎn)。結(jié)果 4 月 29 日 DeepSeek App 開(kāi)始灰度內(nèi)測(cè)識(shí)圖模式，4 月 30 日，也就是今天，論文 Thinking with Visual Primitives 公開(kāi)。中間隔了 6 天。

「論文先鋪路，模型后亮相」，這是我在 V4 解讀里總結(jié)過(guò)的 DeepSeek 節(jié)奏。這次只不過(guò)把節(jié)奏感壓縮到了 6 天。

按照他們一貫的風(fēng)格，多模態(tài)版的 V4 大概率會(huì)以「升級(jí)版 V4-Flash」或「V5 的預(yù)熱」形式出現(xiàn)，我猜不會(huì)太晚。

為什么 coding agent 必須有視覺(jué)

先說(shuō)一個(gè)被忽略的事實(shí)：視覺(jué)理解對(duì) coding agent 來(lái)說(shuō)，已經(jīng)是「必須」而非「錦上添花」。

這個(gè)判斷不是我拍腦袋來(lái)的。我把七大主流 coding 玩家的視覺(jué)能力時(shí)間線拉了一下：

OpenAI：2023 年 9 月 GPT-4V 公開(kāi)。今年 4 月 24 日 GPT-5.5 做成原生多模態(tài)單架構(gòu)，文本圖片視頻音頻一起處理
Google：Gemini 從 2023 年 12 月初代發(fā)布起就主打 natively multimodal，DeepMind 出身讓他們從一開(kāi)始就在走訓(xùn)練世界模型的節(jié)奏（Veo、Genie 這些都是這條線上的），論文里對(duì)標(biāo)的 Gemini-3-Flash 也是這一脈
Anthropic：2024 年 3 月 Claude 3 全系帶視覺(jué)，10 月推出 Computer Use，是第一個(gè)能直接看屏幕操作電腦的前沿模型。今年的 Opus 4.7 把圖片內(nèi)部分辨率從 1568px 拉到 2576px，文檔里說(shuō)就是為了讀 dense 截圖和復(fù)雜圖表
Qwen：2025 年 9 月 Qwen3-VL-235B 旗艦開(kāi)源
Kimi：2026 年 1 月 K2.5 原生多模態(tài)，主打截圖直接生成前端代碼這類場(chǎng)景
智譜 GLM：2026 年 4 月初發(fā) GLM-5V-Turbo，自己定義為原生多模態(tài) Coding 基座模型
DeepSeek：今天，2026 年 4 月 30 日

DeepSeek 是七家里最后一個(gè)把視覺(jué)接入主力對(duì)話產(chǎn)品的旗艦。比 GLM-5V-Turbo 晚 28 天，比 Kimi K2.5 晚 3 個(gè)月，比 Anthropic 晚兩年，比 Gemini 晚兩年半。

為什么所有家都在做？因?yàn)?coding agent 的工作場(chǎng)景里，純文本已經(jīng)不夠用了。

我自己寫代碼的時(shí)候經(jīng)常會(huì)發(fā)生這種事：截一張前端頁(yè)面給 AI，讓它判斷哪里布局崩了；截一張報(bào)錯(cuò)給 AI，讓它告訴我是不是網(wǎng)絡(luò)問(wèn)題；甚至有時(shí)候我讓它讀一張?jiān)O(shè)計(jì)稿，直接把組件代碼寫出來(lái)。這些任務(wù)用文字描述根本說(shuō)不清。「左邊那個(gè)按鈕的右邊有個(gè)圖標(biāo)，圖標(biāo)右邊那個(gè)文字框」，描述完圖早畫好了。

Anthropic 自己在 Agent SDK 文檔里有一句話挺直白：「When using an agent to complete visual tasks, like UI generation or testing, visual feedback (in the form of screenshots or renders) can be helpful.」

視覺(jué)是 agent 的眼睛。沒(méi)有眼睛的 agent，做的事情從根上就有限。

所以問(wèn)題不是「DeepSeek 該不該做多模態(tài)」，而是「DeepSeek 憑什么這么晚才做」。

我的看法是：他們一直在等一個(gè)更好的方法。

主流派在解決「看得清」，DeepSeek 在解決「指得準(zhǔn)」

要理解這次論文真正的創(chuàng)新，得先看清楚學(xué)術(shù)界這兩年在解決什么問(wèn)題。

主流路徑很清晰：讓模型「看得更清楚」。

具體做法是高分辨率切割、動(dòng)態(tài)分塊。一張圖你想讓模型看清細(xì)節(jié)？切成更多 patch 給它，分辨率拉到 4K、8K。代價(jià)是圖像 token 暴漲，KV cache 跟著暴漲，推理成本水漲船高。Anthropic 給 Opus 4.7 升分辨率到 2576px 就是這條路。

學(xué)術(shù)界給這種現(xiàn)象起了個(gè)名字叫 Perception Gap（感知鴻溝）。意思是模型推理失敗是因?yàn)闆](méi)看清，把分辨率拉高就好了。

DeepSeek 這篇論文要懟的，就是這個(gè)共識(shí)。

他們的論點(diǎn)是：感知再?gòu)?qiáng)，指代不準(zhǔn)也白搭。這件事被叫做 Reference Gap（指代鴻溝）。

聽(tīng)著有點(diǎn)抽象，我用一個(gè)具體場(chǎng)景講清楚。

假設(shè)你看一張球隊(duì)合影，60 個(gè)人三排站著。我讓你數(shù)：「穿條紋隊(duì)服、坐前排、不戴帽子的有幾個(gè)？」

人是怎么解的？你會(huì)用手指著圖，一個(gè)一個(gè)數(shù)過(guò)去。指到第三個(gè)的時(shí)候你心里默數(shù) 3，指到第七個(gè)心里默數(shù) 7。手指的位置就是你「思考的位置」，數(shù)字是邊數(shù)邊在腦子里加的。

如果不讓你用手指呢？你必須在腦子里維持一個(gè)「我數(shù)到哪了」的列表，還要不停記住「這個(gè)穿條紋的、坐前排的、沒(méi)戴帽子的、左數(shù)第三個(gè)的那個(gè)」是哪一個(gè)。三個(gè)人之后你就亂了。

這就是模型在做密集計(jì)數(shù)時(shí)遇到的事。

主流路徑讓模型「看得見(jiàn)」每個(gè)人長(zhǎng)什么樣。這是感知。但模型推理的時(shí)候只能用「左數(shù)第三個(gè)穿紅衣服的」這種語(yǔ)言來(lái)指代，含糊、容易混淆，多步推理之后就崩了。

DeepSeek 論文 abstract 里直接點(diǎn)破了這件事：「The inherent ambiguity of natural language often fails to provide precise, unambiguous pointers to complex spatial layouts, leading to logical collapse in tasks requiring rigorous grounding.」（自然語(yǔ)言固有的模糊性，常常沒(méi)法對(duì)復(fù)雜空間布局給出精確無(wú)歧義的指代，導(dǎo)致需要嚴(yán)格定位的任務(wù)里直接邏輯坍塌。）

看見(jiàn) ≠ 看清楚 ≠ 說(shuō)清楚指哪個(gè)。 這是三件不同的事，主流路徑只解決了前面兩件。

視覺(jué)原語(yǔ)：讓模型一邊推理一邊「用手指」

DeepSeek 的解法叫 Thinking with Visual Primitives——用視覺(jué)原語(yǔ)思考。

這個(gè)名字一開(kāi)始我沒(méi)看懂。讀完論文之后，我覺(jué)得最好的翻譯是：讓模型像人一樣，一邊思考一邊用手指著圖說(shuō)話。

具體怎么做？模型在生成思考過(guò)程的時(shí)候，不只輸出文字，還會(huì)輸出坐標(biāo)。坐標(biāo)有兩種格式。

一種叫 bounding box（邊界框），寫法是這樣：

<|ref|>狗<|/ref|><|box|>[[120,340,580,890]]<|/box|>

意思是「這只狗，在圖上左上角到右下角這個(gè)矩形區(qū)域里」。坐標(biāo)都被歸一化到 0-999 的整數(shù)。

另一種叫 point（點(diǎn)），寫法更簡(jiǎn)單：

<|point|>[[357,369],[260,372]]<|/point|>

意思是「這個(gè)點(diǎn)和那個(gè)點(diǎn)」。

這兩種為什么都要有？論文給的解釋挺有意思。

邊界框適合精確定位具體物體，比如一只狗的位置、一輛車的位置，定位準(zhǔn)、信息量大、訓(xùn)練時(shí)容易有 ground truth。

點(diǎn)適合抽象指代，比如一條運(yùn)動(dòng)軌跡、一段路徑、一個(gè)交叉口的方向選擇。這些東西用框框不出來(lái)。

舉個(gè)例子，讓模型解一個(gè)迷宮，「下一步往左走」用框是表達(dá)不了的。但用點(diǎn)就很自然：「我現(xiàn)在在 (357, 369)，下一步要走到 (260, 372)」。

更關(guān)鍵的是：這些坐標(biāo)不是輸出在最終答案里的，而是夾在思考過(guò)程里的。

我把論文里的一個(gè)例子搬過(guò)來(lái)。

任務(wù)：「這張圖里有幾個(gè)寶可夢(mèng)？」

模型的思考過(guò)程長(zhǎng)這樣（簡(jiǎn)化版）：

我看到桌上展示了各種各樣的玩具，讓我先識(shí)別一下寶可夢(mèng)角色：<|ref|>寶可夢(mèng)<|/ref|><|box|>[[215,483,368,711], [330,180,422,348], [581,403,674,588]...]<|/box|>。我看到左邊的皮卡丘，后排的杰尼龜…… 然后我要排除其他動(dòng)漫角色：左邊的哆啦A夢(mèng)、中間的路飛、前排的索隆，還有戴紅帽子的那個(gè) One Piece 角色，中間穿白衣的角色……都不是寶可夢(mèng)。數(shù)一下我剛才標(biāo)記的不同寶可夢(mèng)角色，共 6 個(gè)。答案：圖里有 6 個(gè)寶可夢(mèng)。

注意這個(gè)推理過(guò)程里坐標(biāo)是邊推理邊出現(xiàn)的。它不是先把所有東西都看完再思考，而是「指一個(gè)想一下，再指一個(gè)再想一下」。指就是想，想就是指。

這就是 DeepSeek 這篇論文的范式轉(zhuǎn)移。

之前學(xué)界也有一些工作把 grounding（視覺(jué)定位）加進(jìn) chain-of-thought，比如 Visual CoT、CogCom、GRIT、VLM-R3、Argus、VGR。但這些工作的 grounding 主要是事后驗(yàn)證：模型先想完，再用框來(lái)確認(rèn)「我剛才說(shuō)的那個(gè)東西確實(shí)在這里」。

DeepSeek 是把 grounding 當(dāng)成思考本身的一部分。論文里兩個(gè)關(guān)鍵術(shù)語(yǔ)點(diǎn)破了這個(gè)區(qū)別——先前工作把 grounding 當(dāng)作 post-hoc verification（事后驗(yàn)證機(jī)制），DeepSeek 讓視覺(jué)原語(yǔ)成為 intrinsic medium of thought（思考的內(nèi)在媒介）。

「思考的媒介」 vs 「驗(yàn)證的證據(jù)」。一個(gè)是思維語(yǔ)言，一個(gè)是腳注。這是兩碼事。

不堆 token 數(shù)，堆指代精度

到這里你大概明白「視覺(jué)原語(yǔ)是什么」了。但你可能會(huì)問(wèn)：這個(gè)新范式效果好不好？

直接說(shuō)結(jié)論：這次最讓我興奮的是 Figure 1。它對(duì)比了幾個(gè)主流模型處理 800×800 圖片時(shí)的兩個(gè)數(shù)字，一個(gè)是 KV cache 條目數(shù)量（越少越省錢），一個(gè)是在 7 個(gè) benchmark 上的平均分。

數(shù)據(jù)是這樣：

模型

KV cache 條目

平均分

Gemini-3-Flash

~1100

76.5%

Claude-Sonnet-4.6

~870

65.3%

GPT-5.4

~740

71.1%

Qwen3-VL-235B-A22B

~660

68.1%

Gemma-4-31B

~289

69.7%

DeepSeek（本文）

~90

77.2%

讓我把這件事用人話講一下。

一張 800×800 的截圖喂給 Gemini-3-Flash，它的 KV cache 里要塞 1100 個(gè)條目。喂給 Claude-Sonnet-4.6 要 870 個(gè)。喂給 DeepSeek 這個(gè)新模型，只要 90 個(gè)。

KV cache 是模型推理時(shí)最貴的東西之一。條目少一個(gè)量級(jí)，意味著同樣的硬件可以同時(shí)處理近 10 倍的請(qǐng)求，或者把圖片分辨率拉得更高。

主流路徑在堆 token 數(shù)（高分辨率切割），DeepSeek 在堆指代精度。 用比 Claude 少 9 倍、比 Gemini 少 12 倍的 token，做出了小幅領(lǐng)先的平均分。

這才是這篇論文最反共識(shí)的一點(diǎn)。

需要誠(chéng)實(shí)說(shuō)一件事：上表里 Claude 和 Gemini 的 KV 條目數(shù)是 DeepSeek 自己估算的，不是 Anthropic 或 Google 官方公布的數(shù)字。我去查了 Anthropic 文檔，他們給出的圖像 token 計(jì)算公式是 width × height / 750，800×800 大約是 853 個(gè) token，和論文里的 870 接近，但 token 數(shù)不等于 KV cache 條目。所以這個(gè)對(duì)比圖意思是有的，但具體數(shù)字別拿去較真。

另外，論文里 DeepSeek 對(duì)比的是 GPT-5.4 而不是 4 月 24 日新發(fā)的 GPT-5.5。原因可能是論文寫的時(shí)候 GPT-5.5 還沒(méi)出，或者 API 評(píng)測(cè)周期沒(méi)趕上。

怎么壓到這么少的

是怎么壓到這么少 token 的？這就要講 DeepSeek 的視覺(jué)編碼方案。

整個(gè)壓縮鏈路有三步。

第一步，ViT 切塊。DeepSeek 自己訓(xùn)了一個(gè)叫 DeepSeek-ViT 的視覺(jué)編碼器，14×14 像素一個(gè) patch。一張 756×756 的圖，切出來(lái) 2916 個(gè) patch token。這一步和別人差不多。

第二步，3×3 空間壓縮。在 ViT 出口處，把每 9 個(gè)相鄰的 patch token 沿通道維度壓縮成 1 個(gè)。2916 個(gè)直接壓成 324 個(gè)。這一步是大頭。

第三步，Compressed Sparse Attention 再壓縮。這是 V4-Flash 自帶的機(jī)制，把視覺(jué) token 進(jìn) LLM 之后存到 KV cache 里時(shí)，每 4 個(gè)再壓成 1 個(gè) KV 條目。324 個(gè)變成 81 個(gè)。

總壓縮比是多少？571,536 像素到 81 個(gè) KV 條目，整體壓縮比 7056 倍。

讀到這里你可能會(huì)想：這么暴力地壓，效果不會(huì)拉跨嗎？

正常情況會(huì)的。但這次不會(huì)，因?yàn)橛幸曈X(jué)原語(yǔ)撐著。

我打個(gè)比方。

主流路徑是這樣的：把一本 800 頁(yè)的書原原本本扛在身上，需要查什么就翻。代價(jià)是書重得要死，背著累。

DeepSeek 的路徑是另一種：書我可以扔，但我記得每個(gè)重要內(nèi)容在第幾頁(yè)第幾行。要查某段，我直接告訴你「第 372 頁(yè)第二行」。書不在身邊，但我能精確指代。

坐標(biāo)就是「第 372 頁(yè)第二行」。這是一種比把整本書帶在身上輕得多的方式。

最大的差距在拓?fù)渫评恚侯I(lǐng)先 17 個(gè)百分點(diǎn)

但是，平均分 77.2 vs 76.5，聽(tīng)起來(lái)還是好像沒(méi)那么夸張。其實(shí)最有意思的不在平均分里，在 Table 1 里。

我把這張表拆開(kāi)看。

計(jì)數(shù)任務(wù)（counting）：和 Gemini-3-Flash 互有勝負(fù)，DeepSeek 在 Pixmo-Count 和 Finegrained-Counting 上各贏一點(diǎn)，Gemini 在 CountQA 上領(lǐng)先。整體打平。

空間推理 + 通用 VQA（spatial reasoning + general VQA）：6 個(gè) benchmark，DeepSeek 在 4 個(gè)上排第一，Gemini-3-Flash 在 2 個(gè)上排第一。也基本打平。

拓?fù)渫评恚╰opological reasoning）。這兩個(gè) benchmark 上的差距才叫夸張：

DS_Maze_Navigation（迷宮導(dǎo)航）：DeepSeek 66.9%，Gemini-3-Flash 49.4%，GPT-5.4 50.6%，Claude-Sonnet-4.6 48.9%。DeepSeek 領(lǐng)先第二名 16.3 個(gè)百分點(diǎn)。
DS_Path_Tracing（路徑追蹤）：DeepSeek 56.7%，GPT-5.4 46.5%，Gemini-3-Flash 41.4%，Claude-Sonnet-4.6 30.6%。DeepSeek 領(lǐng)先第二名 10.2 個(gè)百分點(diǎn)。

這兩個(gè)任務(wù)長(zhǎng)什么樣？

迷宮導(dǎo)航就是字面意義上的迷宮，給你一個(gè)起點(diǎn)和一個(gè)終點(diǎn)，問(wèn)能不能走到，能走到的話畫出路徑。路徑追蹤是給你一堆纏繞的曲線，每條曲線一端是圖標(biāo) A，另一端是圖標(biāo) B，問(wèn)「皇冠圖標(biāo)」連到的是哪個(gè)圖標(biāo)？

這兩個(gè)任務(wù)為什么 frontier 模型集體翻車？因?yàn)樗鼈円竽Ｐ烷L(zhǎng)時(shí)間維持一個(gè)空間狀態(tài)。走迷宮每一步都要記得「我現(xiàn)在在哪、剛才走了哪、還有哪些岔路沒(méi)探」。路徑追蹤要求模型在十幾個(gè)交點(diǎn)處每次都做對(duì)的方向判斷。

純文本 CoT 干這個(gè)事就是會(huì)崩。模型描述「現(xiàn)在我在左下角」，下一步又描述「現(xiàn)在我在中間偏左」。「中間偏左」相對(duì)什么？說(shuō)不清楚。多走幾步就亂了。

DeepSeek 用坐標(biāo)解決這個(gè)問(wèn)題。每一步都是 (x, y)，沒(méi)有歧義。論文里有個(gè)迷宮的例子，模型走了 18 步，每一步都是清清楚楚的坐標(biāo)。這就是「點(diǎn)是思考的最小單元」的含義。

更狠的一句話來(lái)自論文自己：

Notably, all frontier models exhibit suboptimal performance on topological reasoning tasks, suggesting that substantial room for improvement remains in the reasoning capabilities of multimodal large language models. （所有 frontier 模型在拓?fù)渫评砣蝿?wù)上都表現(xiàn)欠佳，說(shuō)明多模態(tài)大模型的推理能力還有相當(dāng)大的提升空間。）

人話版：你們這幫閉源旗艦，在我們這個(gè) benchmark 上都不行。這是 DeepSeek 一貫的姿態(tài)，在論文里禮貌地踩一腳，懟得讓人想反駁又反駁不動(dòng)。

訓(xùn)練管線是 5 階段，不是 3 階段

文章寫到這里，我得說(shuō)一下最讓我意外的一個(gè)細(xì)節(jié)。

這套訓(xùn)練管線展開(kāi)看，有整整 5 階段：

Pretraining（預(yù)訓(xùn)練）
Specialized SFT（專家化監(jiān)督微調(diào)）
Specialized RL（專家化強(qiáng)化學(xué)習(xí)）
Unified RFT（統(tǒng)一強(qiáng)化微調(diào)）
On-Policy Distillation（同策略蒸餾）

最后一階段的 OPD 蒸餾，是整篇論文工程含金量最高的一筆。

我們一步步說(shuō)。

Pretraining 階段做的事情：讓模型學(xué)會(huì)「輸出視覺(jué)原語(yǔ)」這個(gè)基礎(chǔ)能力。怎么訓(xùn)？爬數(shù)據(jù)。

DeepSeek 從 HuggingFace 這種平臺(tái)爬了 97984 個(gè)標(biāo)注了 object detection 或 grounding 的數(shù)據(jù)集，然后做了兩步過(guò)濾：

第一步語(yǔ)義審核：剔除帶亂碼代碼（「0」「1」這種沒(méi)意義的標(biāo)簽）、私人實(shí)體（「我室友」「ID_Card_1」）、模糊縮寫（「OK」「NG」）。剩下 43141 個(gè)數(shù)據(jù)集
第二步幾何質(zhì)量審核：剔除漏標(biāo)超過(guò) 50% 的、嚴(yán)重截?cái)嗟摹⒊罂颍ㄕ紙D像 >90% 面積）的。剩下 31701 個(gè)數(shù)據(jù)集

最后做類別平衡采樣（每類最多 1000 張圖），得到約 4000 萬(wàn)高質(zhì)量訓(xùn)練樣本。預(yù)訓(xùn)練消耗的總 token 數(shù)是「trillions of multimodal tokens」（數(shù)萬(wàn)億）。

這一步之后，模型已經(jīng)能輸出視覺(jué)原語(yǔ)，但不知道怎么把它們用進(jìn)推理里。所以要進(jìn)入下一階段。

Specialized SFT 階段做的事情：教模型怎么把視覺(jué)原語(yǔ)當(dāng)作思考媒介。

這里有個(gè)很巧妙的設(shè)計(jì)：不是訓(xùn)一個(gè)模型，而是訓(xùn)兩個(gè)。

一個(gè)專門訓(xùn) thinking with grounding（用框思考），另一個(gè)專門訓(xùn) thinking with pointing（用點(diǎn)思考）。論文里給它們起了名字：F_TwG 和 F_TwP。兩個(gè)分開(kāi)訓(xùn)。

為什么不合在一起？論文給的解釋是「這種分離能在專項(xiàng)數(shù)據(jù)量不大時(shí)避免模式?jīng)_突」。我猜實(shí)際原因是：用框和用點(diǎn)的思維方式有差異，混在一起訓(xùn)會(huì)互相干擾。

Specialized RL 階段做的事情：用強(qiáng)化學(xué)習(xí)把這兩個(gè)專家進(jìn)一步打磨。

用的算法是 GRPO（V4 論文用的同款）。但獎(jiǎng)勵(lì)設(shè)計(jì)非常精細(xì)，是三層疊的：

Format RM：檢查輸出格式對(duì)不對(duì)（是否符合 <|ref|>...<|/ref|><|box|>...<|/box|> 這套語(yǔ)法），還會(huì)檢查有沒(méi)有重復(fù)輸出同一個(gè)框（防止模型陷入死循環(huán)）
Quality RM：用一個(gè) LLM 當(dāng)評(píng)委，從 5 個(gè)維度打分，包括思考過(guò)程冗不冗余、思考和最終答案是否一致、有沒(méi)有自相矛盾、引用的物體是否真有意義、有沒(méi)有 reward hacking（模型作弊騙獎(jiǎng)勵(lì)）
Accuracy RM：任務(wù)特定的精度獎(jiǎng)勵(lì)

舉個(gè) Accuracy RM 的例子。計(jì)數(shù)任務(wù)的獎(jiǎng)勵(lì)函數(shù)是這樣的：

R(?, y) = α · exp(?β · |??y| / (|y|+1))

α=0.7, β=3。意思是預(yù)測(cè)值偏離真值越遠(yuǎn)，獎(jiǎng)勵(lì)指數(shù)衰減。沒(méi)用 0/1 二值獎(jiǎng)勵(lì)是個(gè)聰明設(shè)計(jì)：猜錯(cuò) 1 個(gè)還有部分獎(jiǎng)勵(lì)，猜錯(cuò)很多才扣到底。這給模型留了平滑的學(xué)習(xí)信號(hào)。

迷宮任務(wù)的獎(jiǎng)勵(lì)更復(fù)雜，分成 5 項(xiàng)加權(quán)：因果探索進(jìn)度 + 探索完整性 + 穿墻懲罰 + 路徑有效性 + 答案正確性。每一項(xiàng)都是密集信號(hào)，讓模型每走對(duì)一步都拿到獎(jiǎng)勵(lì)。

RL 數(shù)據(jù)篩選也很講究。模型對(duì)每個(gè)樣本生成 N 次 rollout，然后分類：

Easy（N 次都對(duì)）→ 不用學(xué)
Normal（部分對(duì)部分錯(cuò)）→ 只用這部分訓(xùn)練
Hard（N 次都錯(cuò)）→ 學(xué)不會(huì)，跳過(guò)

只保留 Normal-Level 數(shù)據(jù)訓(xùn)練，確保模型每次都能學(xué)到東西。這一步之后得到兩個(gè)真·專家模型：E_TwG 和 E_TwP。

Unified RFT 階段做的事情：把兩個(gè)專家合體成一個(gè)統(tǒng)一模型。

這一步是用兩個(gè)專家模型生成 rollout，然后做 SFT。得到統(tǒng)一模型 F。

On-Policy Distillation 階段做的事情：閉合差距。

這一步是我沒(méi)想到的。論文坦誠(chéng)地寫：RFT 后的統(tǒng)一模型 F 相比 cold-start 的 F_TwG / F_TwP 已經(jīng)有了大幅提升，但和專家模型 E_TwG / E_TwP 比起來(lái)「a noticeable performance gap remains」（仍然存在明顯的差距）。

也就是說(shuō)，合體之后的模型在每個(gè)專項(xiàng)上不如各自的專家。所以最后還要做一道蒸餾。讓統(tǒng)一模型 F 同時(shí)學(xué)習(xí)兩個(gè)專家的輸出分布，損失函數(shù)是 KL 散度的加權(quán)和。

這是一招挺漂亮的工程閉環(huán)：先專家化、再合體、合體差了再用蒸餾閉合差距。每一步都不偷懶。

數(shù)據(jù)是真砸

講完訓(xùn)練管線，再講一下冷啟動(dòng)數(shù)據(jù)的體量。這塊是論文里我覺(jué)得最讓人警醒的部分。

冷啟動(dòng)數(shù)據(jù)分四個(gè)維度：

計(jì)數(shù)：約 10000 樣本
空間推理 + 通用 VQA：約 9000 樣本
迷宮導(dǎo)航：460000 樣本
路徑追蹤：125000 樣本

注意后兩個(gè)的數(shù)量。46 萬(wàn)個(gè)迷宮 + 12.5 萬(wàn)條路徑追蹤，這個(gè)體量在「拓?fù)渫评怼惯@種小眾任務(wù)上是過(guò)分的。

為什么這么砸？因?yàn)檫@是 DeepSeek 想證明的事：視覺(jué)原語(yǔ)在拓?fù)渫评砩嫌歇?dú)特優(yōu)勢(shì)。要把這件事證清楚，就要在這種任務(wù)上做到壓倒性領(lǐng)先，讓數(shù)據(jù)說(shuō)話。

更讓我服氣的是數(shù)據(jù)怎么做的。我舉兩個(gè)細(xì)節(jié)。

迷宮：用 DFS、Prim、Kruskal 三種算法生成可解迷宮，三種拓?fù)洌ň匦巍⑼膱A、六邊形蜂窩）都做。然后專門做了一批「貌似可解但實(shí)際不可解」的對(duì)抗迷宮。先生成可解迷宮，故意在中間堵幾堵厚墻，讓它看起來(lái)還能走、實(shí)際上走不通。這種對(duì)抗樣本是用來(lái)教模型「不要光看就敢答，要真探索過(guò)」。

路徑追蹤：交錯(cuò)的貝塞爾曲線。每條曲線連一個(gè)起點(diǎn)圖標(biāo)到一個(gè)終點(diǎn)圖標(biāo)。專門做了一批「全部曲線同色」的版本。如果模型靠顏色作弊（順著顏色找），同色版會(huì)讓它失敗。強(qiáng)迫模型靠曲率連續(xù)性來(lái)判斷，每個(gè)交點(diǎn)上模型必須做出「這條線彎到左邊還是右邊」的幾何判斷。

兩個(gè)細(xì)節(jié)加起來(lái)你會(huì)發(fā)現(xiàn)：DeepSeek 不是在做能 work 的 demo，是在堵所有可能的捷徑。Anti-cheat 設(shè)計(jì)到這種程度，是想讓模型真的學(xué)到拓?fù)渫评砟芰Γ皇菍W(xué)到「圖像識(shí)別小聰明」。

一個(gè)隱藏的彩蛋

論文有一段我讀了三遍才確認(rèn)沒(méi)看錯(cuò)：

Although our post-training data about visual primitives does not include any Chinese corpus, the model is capable of thinking and responding in Chinese, benefiting from the multilingual capabilities inherited from the base model. （雖然關(guān)于視覺(jué)原語(yǔ)的后訓(xùn)練數(shù)據(jù)里沒(méi)有任何中文語(yǔ)料，但模型依然能用中文思考和回答，這是從基座模型繼承下來(lái)的多語(yǔ)言能力。）

也就是說(shuō)，DeepSeek 訓(xùn)這個(gè)視覺(jué)原語(yǔ)模型時(shí)完全沒(méi)用中文數(shù)據(jù)，但模型能流暢地用中文做視覺(jué)推理。

論文里的 Figure 8 給了三個(gè)中文示例：

看金門大橋的圖，問(wèn)「這附近有 NBA 球隊(duì)嗎」，模型識(shí)別出舊金山，然后回答「金州勇士主場(chǎng)就在這里」
看一臺(tái)咖啡機(jī)的圖，問(wèn)「如何制作拿鐵」，模型用框圈出蒸汽棒、拿鐵按鈕、咖啡豆袋，按步驟生成中文操作指南
看一張古鎮(zhèn)照片，問(wèn)「這是哪兒」，模型分析木結(jié)構(gòu)和卵石街道，回答「應(yīng)該是中國(guó)云南的古鎮(zhèn)（如麗江、沙溪）」

沒(méi)訓(xùn)中文數(shù)據(jù)但能中文推理。這件事說(shuō)明視覺(jué)原語(yǔ)這個(gè)能力是和語(yǔ)言無(wú)關(guān)的。坐標(biāo)就是坐標(biāo)，(360, 180) 在哪國(guó)語(yǔ)言里都是同一個(gè)像素位置。基座模型的多語(yǔ)言能力直接接管了語(yǔ)言部分，視覺(jué)原語(yǔ)接管了空間推理部分。

這是個(gè)很漂亮的解耦。

局限：這模型還做不了什么

論文挺誠(chéng)實(shí)地寫了三條局限，我覺(jué)得每條都值得說(shuō)一下。

第一，需要觸發(fā)詞才會(huì)啟用視覺(jué)原語(yǔ)。也就是說(shuō)模型現(xiàn)在不能自主判斷「這道題需不需要用手指」。論文里所有示例的輸入都有一個(gè) [Trigger_Placeholder]，你必須告訴它「這次需要用視覺(jué)原語(yǔ)」，它才會(huì)啟用。

這是個(gè)挺現(xiàn)實(shí)的限制。理想狀態(tài)下模型應(yīng)該自己判斷：復(fù)雜數(shù)數(shù)、空間推理、走迷宮這種任務(wù)自動(dòng)啟用視覺(jué)原語(yǔ)；問(wèn)「這是什么品種的狗」這種簡(jiǎn)單 VQA 用普通模式。現(xiàn)在還做不到。

第二，極細(xì)粒度場(chǎng)景下視覺(jué)原語(yǔ)精度不夠。坐標(biāo)畢竟是 0-999 整數(shù)，對(duì)一張 800×800 圖來(lái)說(shuō)每個(gè)坐標(biāo)單位代表 0.8 像素。如果你要 pixel-level 的精確定位，比如「第 X 像素那一根頭發(fā)絲」，這個(gè)精度不夠。論文說(shuō)「未來(lái)可能要把視覺(jué)原語(yǔ)和高分辨率感知方案結(jié)合」，也就是該堆分辨率的時(shí)候還是要堆。

第三，用 point 解決拓?fù)渫评磉€有跨場(chǎng)景泛化問(wèn)題。在論文設(shè)計(jì)的迷宮和路徑追蹤上很猛，但換一個(gè)全新的拓?fù)鋱?chǎng)景能不能泛化，論文自己也沒(méi)把握。

這三個(gè)局限都很真實(shí)，沒(méi)有一條是「我們改改就好」。這是研究的邊界，不是工程的不足。

我對(duì)這件事的判斷

寫到最后，我說(shuō)幾個(gè)我覺(jué)得有意思的判斷。

第一，DeepSeek 這次發(fā)的是論文 + 灰度，不是模型權(quán)重。GitHub 上沒(méi)有 model file，README 里說(shuō)這套能力會(huì)隨下一代基座模型一起發(fā)布，不單獨(dú)開(kāi)源權(quán)重。

這是個(gè)很 DeepSeek 的做派。技術(shù)先發(fā)表，模型不急著開(kāi)源。論文先鋪路，權(quán)重后亮相。和當(dāng)年 mHC、Engram、OCR 2 一樣的節(jié)奏。

第二，下一代 DeepSeek 大概率原生多模態(tài)。我在 V4 解讀里預(yù)測(cè)的「OCR 2 這一脈的延伸」，從這次論文的 reference 看，確實(shí)在延伸。但延伸的方向不是 OCR 2 的「視覺(jué)因果流」，而是更基礎(chǔ)的「視覺(jué)原語(yǔ)作為思考媒介」。前者是工程優(yōu)化，后者是范式轉(zhuǎn)移。

第三，coding agent 視覺(jué)的標(biāo)準(zhǔn)被重定義了。之前大家比的是「我的視覺(jué)模型能看 4K 圖」「我的視覺(jué)模型 token 多便宜」。這次 DeepSeek 把比賽維度換了：比的是「我的視覺(jué)模型能不能在思考的時(shí)候用手指著圖說(shuō)話」。

我覺(jué)得這個(gè)新維度站得住，原因是：coding agent 真正卡住人的不是看不清細(xì)節(jié)，是描述不清楚指哪個(gè)。一個(gè)有視覺(jué)原語(yǔ)能力的 agent，處理「這個(gè)按鈕的下面那個(gè)組件」這種任務(wù)會(huì)比純視覺(jué)理解的 agent 好得多。

第四，最后說(shuō)一句。DeepSeek 是六大旗艦里最后一個(gè)把視覺(jué)接入主力產(chǎn)品的，但他們這次是以最貴的方式補(bǔ)課。不是「我也做了一個(gè)差不多的視覺(jué)模型」，而是「我做了一個(gè)全新范式的視覺(jué)模型，順便把基礎(chǔ)能力一起補(bǔ)上了」。

這種姿態(tài)是 DeepSeek 一直以來(lái)的姿態(tài)。mHC 不是優(yōu)化殘差連接的參數(shù)，是給它加一道只準(zhǔn)收縮不準(zhǔn)放大的數(shù)學(xué)護(hù)欄；OCR 2 不是改文本編碼方式，是把長(zhǎng)文本直接壓成視覺(jué)信號(hào)讓模型讀圖。這次也一樣，別人在堆圖像分辨率，他們?cè)诙阎复取?/p>

反共識(shí)不是為了反而反，是相信主流路徑里那個(gè)被忽略的盲點(diǎn)比表面共識(shí)更值錢。 這是我從讀了這么多 DeepSeek 論文里學(xué)到的最重要的一件事。

V5 什么時(shí)候發(fā)？我還是不好猜。但 DeepSeek 的節(jié)奏已經(jīng)很清楚：論文先鋪路，模型后亮相。這次鋪的路是視覺(jué)原語(yǔ)，下一個(gè)亮相的，應(yīng)該就是它。

One more thing

如果你讀到這里還能保持注意力，那我想再講一件事，是這次讀論文時(shí)一個(gè)讓我安靜了好久的瞬間。

論文里有一個(gè)例子：模型看一張圖，左邊是一塊切開(kāi)的水果，紋路斑駁，看起來(lái)像一只貓的臉；右邊是一只真正的貓，眼神悲傷。問(wèn)題是：「為什么這張圖很搞笑？」

模型的思考過(guò)程是這樣的：

先用框定位左邊那塊水果（fruit chunk）
然后在水果上找出深色斑點(diǎn)（dark spot），位置精確到坐標(biāo)
標(biāo)注水果上圓形的黑點(diǎn)（circular black spot），這是模擬了貓的瞳孔
標(biāo)注水果底部深色紋理（dark textured nose），這是模擬了貓的鼻子
然后切換到右邊那只真貓，標(biāo)注白色的臉（cat's white face）、綠色的眼睛（green eyes）、粉色的小鼻子（small pink nose）
最后總結(jié)：「右邊那只貓絕望悲傷的表情，被左邊水果上隨機(jī)的紋路完美復(fù)刻了。這種相似性正是搞笑的來(lái)源。」

我盯著這段思考過(guò)程看了很久。

模型在「理解幽默」這件事上，用手指著圖，把每一個(gè)相似點(diǎn)都標(biāo)了出來(lái)。它指的不是結(jié)論，是構(gòu)成結(jié)論的證據(jù)。它先看到水果上的「黑點(diǎn)」和真貓的「眼睛」位置對(duì)應(yīng)，再看到水果紋路和真貓鼻子的對(duì)應(yīng)，然后才得出「相似」的結(jié)論。

它在做的事情，和你看到這張圖時(shí)大腦在做的事情，幾乎是同一回事。你也不是看一眼就笑出來(lái)，你也是先注意到「這塊水果中間的黑點(diǎn)像眼睛」，然后才覺(jué)得搞笑。

這是我覺(jué)得視覺(jué)原語(yǔ)最讓我有觸動(dòng)的地方。它不只是工程上更高效，它更接近人類認(rèn)知本身的樣子。

「用手指著思考」，本來(lái)就是人類做事的方式。我們數(shù)數(shù)會(huì)用手指、走迷宮會(huì)用手指、解釋路線會(huì)用手指、描述設(shè)計(jì)稿也會(huì)用手指。手指是思維的延伸，不是思維之外的輔助。

DeepSeek 這次做的，是把這件事變成了模型能做到的事。

至于這件事最終能跑多遠(yuǎn)，我不敢說(shuō)。但起碼它指了一個(gè)之前被忽略的方向：視覺(jué)模型不只要看得清，還要能用手指著說(shuō)話。

V5 見(jiàn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.