<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek又又又又發新論文了!這一次,他們重構了AI看圖的方式

      0
      分享至

      今天,DeepSeek又又又又發論文了。


      看到的時候,我的第一反應是:這特么今年才過了不到一個月,我已經寫了三篇DeepSeek論文解讀了。照這個節奏,我是不是要轉型成"DeepSeek論文博主"了?

      不過這次倒是沒梁文鋒什么事(替他松口氣),署名里沒看到他。

      說起來,最近Clawdbot挺火的,后臺也一直有粉絲留言讓我出教程。但相比追這種應用層的熱點,我覺得還是讀讀論文更有意思——畢竟之前幾篇DeepSeek論文解讀,大家的反饋都挺好,說是終于看懂了技術內核。

      所以,咱們還是繼續讀論文。

      這次的論文叫DeepSeek-OCR 2,看起來是個很垂直的OCR模型。我承認,看到標題時覺得有點無聊——OCR?這么細分的領域,值得單獨發論文嗎?

      但讀完之后,我覺得這可能是他們今年最重要的技術突破之一。倒不是因為OCR本身多重要,而是因為他們在這個小問題里,提出了一個關于視覺語言模型(VLM)架構的有趣洞察:

      AI看圖的方式,一直都錯了。

      你看報紙的方式,和AI完全不同

      想象你拿起一份報紙。


      你的眼睛會怎么動?大概率是這樣:先掃一眼大標題,跳到配圖,看一眼圖片說明,再決定要不要讀正文。如果是多欄排版,你會根據內容的"重要性"在各欄之間跳躍,而不是從左上角第一個字開始,一行行掃到右下角。

      這不是什么高深的認知科學發現。這是你每天都在做的事。

      但AI不是這樣看圖的。

      傳統的視覺語言模型(VLM)處理圖像的方式,更像一臺復印機:從左到右,從上到下,逐行掃描。不管圖像里有什么,不管哪里重要哪里不重要,它都用同一種機械的順序把圖像"讀"成一串數字。

      這個問題存在了很多年。直到最近,DeepSeek在一篇看起來很"小"的論文里,提出了一個挺"大"的洞察。

      1967年的眼動實驗

      在講DeepSeek的解法之前,我想先聊一個認知科學的經典實驗。

      1967年,蘇聯心理學家Alfred Yarbus做了一個著名的眼動追蹤實驗。他讓不同的被試看同一幅畫——列賓的《意外歸來》,畫的是一個流放者突然回到家中的場景。


      有意思的是,Yarbus給每個被試不同的任務指令:

      • "估計這家人的經濟狀況"

      • "記住畫中人物的位置"

      • "猜測這個人離開家多久了"

      結果發現,同一幅畫,不同任務下,被試的眼動軌跡完全不同。


      讓估計經濟狀況的人,眼睛會在家具、墻壁裝飾之間跳躍。讓猜測離開時間的人,眼睛會在歸來者的臉和家人的表情之間反復掃視。

      這說明什么?人類的視覺不是被動的接收,而是主動的搜索。我們的眼睛去哪里,取決于我們想知道什么,取決于我們之前已經看到了什么。

      用論文里的話說,人類視覺是"因果性"的——每一次注視都依賴于之前獲得的信息來決定下一步看哪里。

      而傳統AI沒有這個能力。它只會機械地掃。

      小徑分岔的花園

      博爾赫斯有一篇短篇小說,叫《小徑分岔的花園》。


      故事里有一座神秘的花園,主人公最終發現,這座花園其實是一部小說——一部在每個敘事節點都分叉出所有可能性的小說。在這部小說里,主人公可以同時選擇所有的路徑,每條路徑都是真實的。

      這個隱喻用來理解DeepSeek OCR 2的核心創新,挺合適。

      傳統VLM就像一個只會走直線的人穿越迷宮。從入口到出口,只有一條固定的路線:從左到右,從上到下。不管迷宮的結構如何,不管哪條路更近,它都只會沿著預設的方向走。

      而人類看圖——以及DeepSeek想讓AI學會的方式——是站在每個岔路口,根據眼前的信息決定下一步往哪走。這條路看起來有標題?先走這邊。那邊有張圖表?跳過去看看。

      這就是論文標題里"Visual Causal Flow"(視覺因果流)的含義:讓AI學會根據已經看到的內容,因果性地決定接下來看哪里。

      DeepSeek的解法:兩階段級聯推理

      理解了問題,DeepSeek的解法就很自然了。

      核心思路是:把"看圖"這件事拆成兩步。

      第一步:推理"應該按什么順序看"

      傳統VLM直接把圖像拍平成一串token,順序是固定的。DeepSeek的做法是,先讓模型學會重新排列這些token的順序——根據圖像的語義內容,而不是空間位置。

      這一步由一個叫"DeepEncoder V2"的編碼器完成。它會輸出一組"因果流查詢"(causal flow query),這些查詢token會按照模型認為合理的順序,依次"注視"圖像的不同部分。

      第二步:在正確的順序上做推理

      重排之后,再把這些有序的視覺信息交給LLM做文本生成(比如OCR識別)。

      因為順序對了,LLM就能更好地理解文檔的邏輯結構。比如先看到標題,再看到正文,而不是先看到頁腳的頁碼。

      一個巧妙的注意力mask

      技術細節我盡量簡化。

      DeepEncoder V2的核心是一個巧妙的注意力機制設計。它把輸入分成兩部分:

      視覺token:用雙向注意力,每個token都能看到所有其他token。這保證了全局的感知能力。

      因果流查詢:用因果注意力,每個查詢只能看到前面的查詢和所有視覺token。這讓查詢之間形成"順序"——第一個查詢決定先看哪,第二個查詢基于第一個的結果決定接下來看哪。


      兩種注意力拼在一起,就形成了一個特殊的注意力mask矩陣。視覺token負責"感知",因果查詢負責"排序"。

      另一個有意思的設計:他們用一個小型LLM(Qwen2-500M)替換了傳統的CLIP ViT作為視覺編碼器。這讓編碼器本身就具備了"推理"能力,而不只是特征提取。

      效果怎么樣

      說點實際的。

      在OmniDocBench v1.5這個文檔解析基準測試上,DeepSeek OCR 2達到了91.09%的綜合得分,比前代提升了3.73%。

      更有意義的是"閱讀順序"指標的提升——編輯距離從0.085降到了0.057。這說明模型確實學會了按更合理的順序"讀"文檔,而不只是識別準確率提高了。

      在實際生產環境中(DeepSeek的在線OCR服務和預訓練數據管線),輸出的重復率也從6.25%降到了4.17%,下降了33%。

      而這一切,只用了256到1120個視覺token。作為對比,Qwen2.5-VL-72B要用超過6000個token。


      這只是拼圖的一塊

      OCR 2不是孤立的。

      2026年1月,DeepSeek密集發布了一系列論文:

      1月1日,mHC論文:提出"流形約束超連接",解決大模型訓練的穩定性問題。梁文鋒署名。

      1月12日,Engram論文:提出"條件記憶"機制,實現近乎無限的上下文檢索。梁文鋒署名。

      1月27日,OCR 2論文:視覺因果流,讓AI像人一樣理解圖像。

      這些技術指向同一個方向:更高效、更穩定、更像人。

      它們很可能都會整合進即將發布的DeepSeek V4。根據公開信息,V4預計在2月中旬(春節前后)發布。GitHub代碼庫意外泄露的"MODEL1"代號顯示,這可能是一次架構重構,包括混合精度訓練、Blackwell GPU優化、以及超過100萬token的上下文窗口。

      去年的V3和R1都是在春節窗口發布的。今年看起來也是。

      從"看"的方式開始

      回到OCR 2這篇論文本身。

      它解決的問題看起來很"小"——文檔OCR,把圖片里的文字讀出來。但它觸及的問題挺"大":AI應該怎么理解二維的視覺世界?

      論文的討論部分提到了兩個方向:

      一個是"Towards Genuine 2D Reasoning"——邁向真正的2D推理。用兩個級聯的1D因果推理來逼近2D理解。第一個1D負責"排序",第二個1D負責"推理"。這是否能真正實現2D推理,還有待驗證。

      另一個是"Towards Native Multimodality"——邁向原生多模態。既然可以用LLM當視覺編碼器,那能不能用同一套架構處理圖像、音頻、文本?只需要換一組模態專屬的查詢token就行。

      期待真正的多模態DeepSeek

      說起來,我們之前一直有個遺憾。

      DeepSeek V3和R1都是很強的模型,R1甚至在推理能力上超越了o1。但它們都是純文本模型。在DeepSeek的網站或App上對話時,你能上傳圖片,但模型只是單純地識別圖中的文字,然后基于文字內容回答——本質上還是文本推理。

      這就像一個只能讀字幕的人在"看"電影。

      而從OCR 2這篇論文傳遞的信息看,DeepSeek在多模態上已經邁出了關鍵一步。他們不再滿足于識別文字這種初級的圖像理解,而是在探索如何讓AI真正"理解"視覺信息的結構和語義。

      加上之前泄露的GitHub代碼里,"MODEL1"代號下有大量關于視覺編碼器的配置,以及論文里明確提到的"Native Multimodality"方向——我們有理由期待,即將發布的DeepSeek V4會是一個能力相當不錯的原生多模態模型。

      真正學會看圖。

      這些都是開放的問題。但從DeepSeek的論文發布節奏來看,他們已經在路上了。

      • 論文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

      • 模型:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      觀星娛記
      2026-05-11 11:28:30
      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      九方魚論
      2026-05-11 12:47:23
      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      財聯社
      2026-05-11 11:32:14
      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      聽我說球
      2026-05-11 09:43:11
      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      今日養生之道
      2026-05-10 20:13:01
      抓了那么多貪官,錢呢?跟我們有關系嗎?

      抓了那么多貪官,錢呢?跟我們有關系嗎?

      細說職場
      2026-05-08 22:15:45
      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      小柱解說游戲
      2026-04-28 16:31:31
      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      丁丁鯉史紀
      2026-05-05 10:33:14
      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      狐貍先森講升學規劃
      2026-05-06 05:35:03
      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      桌子的生活觀
      2026-05-11 12:12:44
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      番外行
      2026-05-11 08:49:20
      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      看盡落塵花q
      2026-05-09 14:29:21
      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      瀾歸序
      2026-05-11 00:51:39
      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      妍妍教育日記
      2026-05-09 13:31:49
      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      界面新聞
      2026-05-11 12:33:18
      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      抽象派大師
      2026-05-05 15:31:50
      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      時分秒說
      2026-05-07 16:00:09
      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      拳擊時空
      2026-04-16 06:04:48
      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      老吳教育課堂
      2026-05-11 08:40:10
      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      安安說
      2026-05-10 11:18:13
      2026-05-11 13:35:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      200文章數 112關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      教育
      時尚
      本地
      房產
      軍事航空

      教育要聞

      奔赴一場英法教育之旅,遇見更好的未來

      輕松拿捏又甜又酷的造型,試試這些輕熟穿搭,溫柔有女人味兒

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      軍事要聞

      伊朗革命衛隊深夜警告

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产美女裸身网站免费观看视频 | 国模娜娜一区二区三区| 精品久久久无码中文字幕| 99中文字幕国产精品| 一本色道久久加勒比精品| 日本三级香港三级三级人妇久| 一本一本久久A久久精品综合不卡| 亚洲肥老太bbw中国熟女| 亚洲无码人妻| 亚洲成AV人片在线观看麦芽| 久久综合亚洲色一区二区三区| 中文字幕第4页| 久久久久人妻一区精品性色av| 精品国产亚洲av麻豆尤物| 激情综合亚洲色婷婷五月app| 九九热免费在线视频观看| 少妇熟女久久综合网色欲| 一本色道久久加勒比精品| 波多野结衣在线精品视频| 国产成人免费视频精品一区二区| 久爱无码精品免费视频在线观看| 亚洲色一区二区三区四区| 一级毛片免费观看视频| 影音先锋在线资源网| 国产精品一区久久av| 无码片久久久天堂中文字幕| 成人自拍偷拍| AV无码中文字幕不卡一区二区三区 | 久久久噜噜噜久久中文字幕色伊伊| 韩国午夜理论A三级在线观看| 色综合久久久久综合99| 最近中文国语字幕在线播放| 日韩内射美女人妻一区二区三区 | 性色a∨精品高清在线观看| 精品一区二区三区无码视频| av一区在线观看| 中文字幕国产精品日韩| 东京热大乱系列无码| 久久国产精品老人性| 久久久久人妻精品区一| 亚洲AV永久无码精品天堂动漫|