網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

字節(jié)與北交大聯(lián)手：讓視覺AI開口"說話"，刷新多模態(tài)理解新紀(jì)錄

2026-05-08 20:24:48　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由字節(jié)跳動(dòng)與北京交通大學(xué)、南洋理工大學(xué)聯(lián)合開展的研究，以預(yù)印本形式發(fā)布于2026年5月，論文編號(hào)為arXiv:2605.00809，感興趣的讀者可通過該編號(hào)在arXiv平臺(tái)查閱完整內(nèi)容。

**一、從"啞巴"到"會(huì)說話"：一個(gè)關(guān)于AI視覺理解的故事**

假設(shè)你雇了一位助手，每天幫你看圖片、回答問題。這位助手有兩種培訓(xùn)方式：第一種，讓他把看到的圖片和對(duì)應(yīng)的文字描述配對(duì)記憶，學(xué)會(huì)"這張圖和這段話是一對(duì)"；第二種，直接讓他看圖之后，張口把圖里的內(nèi)容說出來。哪種方式培養(yǎng)出來的助手，更容易被你后續(xù)的語言指令所理解？

這個(gè)問題，正是人工智能研究者近年來一直在思考的核心難題?，F(xiàn)代的多模態(tài)大語言模型（也就是那種既能看圖又能聊天的AI，比如GPT-4V這類產(chǎn)品）通常由三部分組成：一個(gè)負(fù)責(zé)"看"的視覺編碼器、一個(gè)負(fù)責(zé)"翻譯"的連接器、以及一個(gè)負(fù)責(zé)"想和說"的大語言模型。其中，視覺編碼器就像AI的眼睛，它的好壞直接決定了整個(gè)系統(tǒng)能理解多少視覺信息。

長期以來，最流行的視覺編碼器訓(xùn)練方式是"對(duì)比學(xué)習(xí)"，以CLIP和SigLIP為代表。這種方式的核心思路是：給AI看大量的圖片和對(duì)應(yīng)文字，讓它學(xué)會(huì)判斷哪張圖和哪段話是一對(duì)，哪張圖和哪段話不是一對(duì)，就像做連連看。這種方法固然有效，但它本質(zhì)上訓(xùn)練的是一種"判斷配對(duì)"的能力，而不是"生成描述"的能力。問題在于，當(dāng)這個(gè)視覺編碼器被接入一個(gè)需要"逐字生成回答"的大語言模型時(shí)，兩者的工作方式存在根本性的錯(cuò)位——就像你請(qǐng)了一位擅長做選擇題的秘書，卻讓他去寫議論文。

另一種思路是"生成式預(yù)訓(xùn)練"，比如AIMv2和CapPa等方法。這類方法讓視覺編碼器和一個(gè)文字生成模塊配合，學(xué)習(xí)根據(jù)圖片生成描述。雖然方向?qū)α耍@些方案的架構(gòu)設(shè)計(jì)普遍比較復(fù)雜：視覺編碼器本身并不直接"說話"，而是把信息傳給一個(gè)單獨(dú)的文字解碼器，再由解碼器來生成文字。視覺編碼器的訓(xùn)練信號(hào)要經(jīng)過這個(gè)中間人才能傳回來，就像你想訓(xùn)練廚師的刀工，卻只通過品嘗最終菜肴的口味來給反饋，中間隔了太多環(huán)節(jié)。

正是在這個(gè)背景下，字節(jié)跳動(dòng)和北京交通大學(xué)的研究團(tuán)隊(duì)提出了GenLIP（Generative Language-Image Pre-training，生成式語言-圖像預(yù)訓(xùn)練）。他們的核心主張極其簡(jiǎn)潔：**讓視覺Transformer直接開口說話**，不需要對(duì)比配對(duì)，不需要額外的文字解碼器，就用一個(gè)統(tǒng)一的Transformer，看完圖直接生成描述文字。這個(gè)看似樸素的想法，卻在多個(gè)評(píng)測(cè)基準(zhǔn)上擊敗了使用數(shù)倍訓(xùn)練數(shù)據(jù)的競(jìng)爭(zhēng)對(duì)手。

**二、GenLIP到底是怎么運(yùn)作的？**

要理解GenLIP的工作原理，可以用一個(gè)"看圖作文"的比喻來理解整個(gè)訓(xùn)練過程。

在傳統(tǒng)的對(duì)比學(xué)習(xí)方法里，AI的任務(wù)是做連連看：給一堆圖片和一堆句子，把正確的圖文對(duì)連起來，把不匹配的分開。這培養(yǎng)了AI識(shí)別"圖和文是否一致"的能力，但不直接培養(yǎng)"根據(jù)圖寫出文字"的能力。

GenLIP的訓(xùn)練任務(wù)則直接變成了看圖作文：給AI看一張圖，然后讓它一個(gè)字一個(gè)字地把圖的描述寫出來。訓(xùn)練時(shí)用的數(shù)據(jù)是大量的圖片-文字配對(duì)，文字來自對(duì)圖片的詳細(xì)描述。AI的目標(biāo)很簡(jiǎn)單：在已知圖片內(nèi)容和前面已經(jīng)寫出的文字的情況下，預(yù)測(cè)下一個(gè)應(yīng)該寫什么字。這種訓(xùn)練方式在大語言模型領(lǐng)域被稱為"自回歸語言建模"，是ChatGPT等模型的核心訓(xùn)練范式。

**架構(gòu)設(shè)計(jì)：一個(gè)Transformer搞定一切**

GenLIP的架構(gòu)設(shè)計(jì)遵循極簡(jiǎn)主義原則。整個(gè)系統(tǒng)只有一個(gè)Transformer（一種強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，是現(xiàn)代AI的基礎(chǔ)構(gòu)件），負(fù)責(zé)同時(shí)處理圖像和文字兩種信息。

具體來說，一張輸入圖片首先被切割成若干個(gè)小方塊（稱為"圖像塊"），每個(gè)小方塊被轉(zhuǎn)換成一段數(shù)字表示。與此同時(shí)，配套的文字描述被分割成一個(gè)個(gè)詞語單元（稱為"詞元"）。這些圖像塊的表示和詞語的表示被拼接成一個(gè)長序列，圖像部分在前，文字部分在后，然后一起喂給這個(gè)統(tǒng)一的Transformer處理。

在注意力機(jī)制的設(shè)計(jì)上，研究團(tuán)隊(duì)做了一個(gè)重要的區(qū)分：圖像塊之間可以相互"看"彼此（雙向注意力），畢竟圖片里每個(gè)區(qū)域的理解都可能需要參考其他區(qū)域；而文字部分則只能"看"前面的內(nèi)容（因果注意力），這符合生成文字時(shí)"只能看到已寫出的部分"的自然規(guī)律。這種混合注意力機(jī)制被稱為"前綴語言模型注意力"，是處理"圖像作為前綴條件、文字作為生成目標(biāo)"這種結(jié)構(gòu)的標(biāo)準(zhǔn)做法。

在位置編碼方面，研究團(tuán)隊(duì)使用了多模態(tài)旋轉(zhuǎn)位置編碼（MRoPE），這是一種能同時(shí)處理圖像空間位置和文字序列位置的編碼方式，避免了圖像和文字在位置信息上的混亂。

訓(xùn)練的損失函數(shù)（也就是AI評(píng)價(jià)自己表現(xiàn)好壞的標(biāo)準(zhǔn)）同樣極其簡(jiǎn)潔：只看文字生成部分的準(zhǔn)確度，即在給定前面所有圖像塊和已生成文字的條件下，正確預(yù)測(cè)下一個(gè)詞語的概率有多高。不需要對(duì)比損失，不需要圖像重建損失，就這一個(gè)目標(biāo)。

**三、一個(gè)意外的麻煩：注意力"黑洞"問題**

在實(shí)際訓(xùn)練中，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)棘手的問題。在圖像和文字混合的序列中，序列開頭的第一個(gè)圖像塊往往會(huì)變成一個(gè)"注意力黑洞"——其他大量位置的注意力權(quán)重都集中到這一個(gè)位置上，就好像整個(gè)序列的所有信息都被吸入了這個(gè)黑洞。

為什么會(huì)這樣？原因在于文字生成的機(jī)制：文字部分的每個(gè)詞只能看到前面的圖像塊（通過因果注意力），為了從圖像中獲取信息，文字生成模塊會(huì)傾向于把圖像信息"壓縮"到少數(shù)幾個(gè)容易訪問的圖像塊里，特別是第一個(gè)圖像塊——因?yàn)樗撬形恢枚寄茉L問的。這就像一個(gè)班級(jí)里，所有同學(xué)都傾向于把筆記借給坐在最前面的那位同學(xué)，而不是每個(gè)人都自己記筆記，時(shí)間一長，前排同學(xué)的筆記變得極其全面，但其他人卻幾乎什么都沒記。

這個(gè)"注意力黑洞"（在學(xué)術(shù)界被稱為"注意力匯聚"或"attention sink"）帶來了兩個(gè)后果：訓(xùn)練過程中會(huì)出現(xiàn)明顯的損失抖動(dòng)（意味著訓(xùn)練不穩(wěn)定），而且最終學(xué)到的圖像特征在空間多樣性上大打折扣——因?yàn)榇罅恳曈X信息都被壓縮進(jìn)了少數(shù)幾個(gè)位置，其他圖像塊的特征變得冗余而無意義。

研究團(tuán)隊(duì)受到已有研究（特別是針對(duì)大語言模型注意力匯聚問題的研究）的啟發(fā)，提出了"門控注意力"機(jī)制來解決這個(gè)問題。門控注意力的思路類似于給每個(gè)信息通道安裝了一個(gè)可調(diào)節(jié)的閥門：在標(biāo)準(zhǔn)注意力計(jì)算完成后，再對(duì)每個(gè)位置的注意力輸出乘以一個(gè)由輸入動(dòng)態(tài)計(jì)算的門控信號(hào)（一個(gè)0到1之間的數(shù)值）。門控信號(hào)由輸入的隱藏狀態(tài)通過一組可學(xué)習(xí)的參數(shù)計(jì)算得出，再經(jīng)過sigmoid函數(shù)壓縮到0到1之間。

這個(gè)設(shè)計(jì)的效果是：模型可以學(xué)會(huì)對(duì)某些位置降低信息匯聚的程度，防止文字生成模塊過度依賴少數(shù)幾個(gè)圖像塊，從而讓整個(gè)圖像的空間特征都得到充分利用。實(shí)驗(yàn)結(jié)果顯示，加入門控注意力之后，第一個(gè)圖像塊的平均注意力得分從28.7大幅下降到6.0，訓(xùn)練更加穩(wěn)定，收斂速度更快，最終性能也有明顯提升。

**四、兩階段訓(xùn)練：從打基礎(chǔ)到精雕細(xì)琢**

GenLIP的訓(xùn)練分為兩個(gè)階段，可以理解為先打基礎(chǔ)再精修。

第一階段在Recap-DataComp-1B數(shù)據(jù)集上進(jìn)行，這是一個(gè)包含10億張圖片及其描述的大規(guī)模數(shù)據(jù)集，圖片來自互聯(lián)網(wǎng)。訓(xùn)練時(shí)統(tǒng)一把圖片縮放到224×224像素的固定尺寸，以降低計(jì)算成本。整個(gè)第一階段共處理了80億個(gè)圖片-文字樣本（相當(dāng)于把10億張圖片反復(fù)看了8遍），讓模型建立起扎實(shí)的視覺和語言基礎(chǔ)能力。

第二階段則是精修階段，使用了兩個(gè)開源數(shù)據(jù)集：Infinity-MM的第一階段字幕子集（約1000萬樣本）和BLIP3o-Long-Caption（約2700萬樣本），合計(jì)約3700萬樣本，但這些樣本的特點(diǎn)是描述更長、更詳細(xì)，圖片質(zhì)量更高。更重要的是，這個(gè)階段不再強(qiáng)制把圖片縮放到固定尺寸，而是按照?qǐng)D片的原始寬高比來處理，只調(diào)整大小使得圖像塊數(shù)量落在16到1024的范圍內(nèi)。這種"任意分辨率"的處理方式讓模型能夠保留圖片中的細(xì)節(jié)信息，特別有利于文字識(shí)別（OCR）和圖表理解這類需要看清細(xì)節(jié)的任務(wù)。

這一階段只訓(xùn)練1個(gè)epoch（把數(shù)據(jù)集過一遍），但效果顯著——尤其是對(duì)文檔理解和OCR類任務(wù)的提升非常明顯。

研究團(tuán)隊(duì)還使用了兩種正則化技術(shù)：層縮放（layer scale）和隨機(jī)深度（drop path），這兩種技術(shù)主要用于穩(wěn)定較深網(wǎng)絡(luò)的訓(xùn)練，防止訓(xùn)練發(fā)散，但對(duì)最終性能的影響相對(duì)較小。

在工程實(shí)現(xiàn)上，研究團(tuán)隊(duì)使用了序列打包策略：把多個(gè)長度不同的樣本拼接成最大長度為16384個(gè)詞元的長序列，然后批量處理，以提高硬件利用率。前綴語言模型的注意力掩碼通過PyTorch的flex-attention機(jī)制實(shí)現(xiàn)，支持每個(gè)樣本獨(dú)立的注意力模式。

**五、"讓ViT開口說話"：模型能做到什么？**

在展示正式的評(píng)測(cè)結(jié)果之前，研究團(tuán)隊(duì)做了兩個(gè)非常直觀的演示，證明GenLIP確實(shí)學(xué)會(huì)了"開口說話"。

第一個(gè)演示是直接讓模型描述圖片。給模型一張圖（不連接任何外部大語言模型，純粹用GenLIP本身），用一句"詳細(xì)描述這張圖片"作為提示，看看模型能說出什么。結(jié)果表明，GenLIP已經(jīng)能夠生成流暢、語義準(zhǔn)確的圖片描述。在一張老人帶著小白狗滑雪的黑白照片前，小模型（GenLIP-L16）在第一階段結(jié)束后描述為"一張復(fù)古照片，一個(gè)人在滑雪，穿著深色外套"，而大模型（GenLIP-g16）則準(zhǔn)確描述出"一個(gè)人背著一只小白狗在滑雪，狗似乎很享受這次旅程"。經(jīng)過第二階段訓(xùn)練后，同一張圖的描述變得更加詳細(xì)，包括帽子的花紋、滑雪杖的細(xì)節(jié)、背景的雪地等。在識(shí)別一只寶可夢(mèng)的圖片時(shí)，小模型錯(cuò)把Bulbasaur（妙蛙種子）認(rèn)成了Charmander（小火龍），而大模型（GenLIP-g16）則正確識(shí)別出了這個(gè)角色，并給出了詳細(xì)的外觀描述。

第二個(gè)演示更加有趣：研究團(tuán)隊(duì)直接把圖像塊的特征向量"翻譯"成文字——也就是說，不輸入任何文字提示，而是直接對(duì)每個(gè)圖像塊的特征表示詢問"你最像哪個(gè)詞"。結(jié)果發(fā)現(xiàn)，在一張滑雪者背著狗的照片中，對(duì)準(zhǔn)帽子區(qū)域的圖像塊輸出了"hat、fur、cap、wool"這樣的詞語，對(duì)準(zhǔn)狗的區(qū)域輸出了"fluffy、puppy、curious"，對(duì)準(zhǔn)滑雪杖的區(qū)域輸出了"ski、poles、trek"。這說明GenLIP在預(yù)訓(xùn)練過程中，自發(fā)地讓每個(gè)圖像塊的特征與對(duì)應(yīng)的語言概念產(chǎn)生了對(duì)齊，而且這種對(duì)齊能力在第二階段訓(xùn)練后更加精準(zhǔn)。大模型（GenLIP-g16）比小模型（GenLIP-So16和GenLIP-L16）表現(xiàn)出更穩(wěn)定的語義對(duì)齊能力，且第二階段的模型在語義準(zhǔn)確性和相關(guān)性上均優(yōu)于第一階段。

**六、正式評(píng)測(cè)：用數(shù)字說話**

研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的評(píng)測(cè)框架，核心思路是"凍結(jié)視覺編碼器"：把GenLIP或競(jìng)爭(zhēng)對(duì)手的視覺編碼器固定住（不允許在下游任務(wù)中繼續(xù)訓(xùn)練），只訓(xùn)練連接它和大語言模型的中間層，以及大語言模型本身。這種評(píng)測(cè)方式能更純粹地反映視覺編碼器本身學(xué)到的特征質(zhì)量，而不是靠下游微調(diào)來彌補(bǔ)。

評(píng)測(cè)基準(zhǔn)覆蓋了三大類任務(wù)。文檔與OCR理解方面包括ChartQA（圖表問答）、OCRBench（綜合OCR評(píng)測(cè)）、InfoVQA（信息圖表問答）、AI2D（科學(xué)圖表問答）、TextVQA（圖片文字問答）、DocVQA（文檔問答）和SEED-Bench-2-Plus（文字豐富視覺理解），共7個(gè)基準(zhǔn)。通用視覺理解方面包括MME（綜合多模態(tài)評(píng)測(cè)）、GQA（視覺推理問答）、VQAv2（視覺問答）和ScienceQA（科學(xué)問答），共4個(gè)基準(zhǔn)。圖片描述生成方面包括NoCaps、COCO和TextCaps三個(gè)標(biāo)準(zhǔn)字幕數(shù)據(jù)集，均使用CIDEr分?jǐn)?shù)衡量。最終匯報(bào)所有14個(gè)基準(zhǔn)的平均分（ALL AVG）。

在使用較小語言模型（Qwen2.5-1.5B）的條件下，研究團(tuán)隊(duì)將GenLIP與多個(gè)競(jìng)爭(zhēng)對(duì)手進(jìn)行了對(duì)比，包括CLIP（使用12.8B訓(xùn)練數(shù)據(jù)）、AIMv2（12.0B）、OpenVision2（12.8B）、SigLIP（40.0B）和SigLIP2（40.0B）。GenLIP在L/16、So/16和g/16三個(gè)規(guī)模上，ALL AVG分別為61.5、62.6和65.2，均優(yōu)于同規(guī)模的SigLIP2（分別為58.7、60.6、61.5），盡管后者使用了整整40B的訓(xùn)練數(shù)據(jù)。

在文檔與OCR類任務(wù)上，GenLIP的優(yōu)勢(shì)尤為突出。以g/16規(guī)模為例，GenLIP在7個(gè)OCR/文檔基準(zhǔn)上的平均分為53.2，而SigLIP2僅為47.3，差距接近6分。這個(gè)差距在多個(gè)單項(xiàng)基準(zhǔn)上更加明顯：ChartQA上GenLIP得45.0對(duì)SigLIP2的35.3，DocVQA上得57.0對(duì)47.6，OCRBench上得55.6對(duì)47.3。

切換到更大的語言模型（Qwen2.5-7B）后，趨勢(shì)保持一致。GenLIP-So/16以71.8的ALL AVG超越SigLIP2的69.4，GenLIP-g/16以73.6超越SigLIP2的68.9。文檔與OCR類任務(wù)上的優(yōu)勢(shì)依然顯著：GenLIP-g/16在DocVQA上得69.0，遠(yuǎn)超SigLIP2的56.3；在ChartQA上得57.1，同樣大幅超過SigLIP2的47.2。

研究團(tuán)隊(duì)還在標(biāo)準(zhǔn)的LLaVA-NeXT評(píng)測(cè)框架下進(jìn)行了測(cè)試，這次視覺編碼器不再被凍結(jié)，而是和語言模型一起進(jìn)行指令微調(diào)。結(jié)果表明，GenLIP-So/16在使用576個(gè)圖像塊時(shí)取得了68.5的ALL AVG，在使用729個(gè)圖像塊時(shí)取得了70.3的ALL AVG，分別超越了同類競(jìng)爭(zhēng)對(duì)手，在Doc&OCR類任務(wù)上的優(yōu)勢(shì)依舊明顯。

**七、越大越強(qiáng)：規(guī)模擴(kuò)展的故事**

研究團(tuán)隊(duì)專門分析了GenLIP的擴(kuò)展性，包括數(shù)據(jù)量和模型規(guī)模兩個(gè)維度。

在數(shù)據(jù)量擴(kuò)展方面，研究團(tuán)隊(duì)在相同的模型規(guī)模下，把訓(xùn)練數(shù)據(jù)從10億增加到80億，觀察性能變化。結(jié)果顯示，隨著數(shù)據(jù)量增加，所有三類任務(wù)（OCR、VQA、圖片描述）的平均分都持續(xù)提升。從10億到40億階段，提升幅度較為陡峭；從40億到80億階段，VQA和圖片描述任務(wù)的提升趨于平緩，但OCR類任務(wù)仍有明顯增益。值得注意的是，在整個(gè)擴(kuò)展曲線上，加入門控注意力的版本始終優(yōu)于未加入門控注意力的版本，在數(shù)據(jù)量較少時(shí)這種優(yōu)勢(shì)尤為明顯。

在模型規(guī)模擴(kuò)展方面，研究團(tuán)隊(duì)訓(xùn)練了三個(gè)規(guī)模的GenLIP：GenLIP-L（約3億參數(shù)，24層，1024維）、GenLIP-So（約4億參數(shù)，27層，1152維）和GenLIP-g（約11億參數(shù)，40層，1536維）。兩個(gè)訓(xùn)練階段結(jié)束后，性能隨模型規(guī)模單調(diào)遞增，g/16始終優(yōu)于So/16，后者優(yōu)于L/16。有一個(gè)有趣的現(xiàn)象：在第一階段（固定分辨率預(yù)訓(xùn)練）之后，L/16和So/16的差距比較明顯，但So/16和g/16的差距相對(duì)較小；兩個(gè)階段都完成后，g/16的優(yōu)勢(shì)變得更加突出。對(duì)比之下，SigLIP2在模型規(guī)模擴(kuò)大時(shí)的性能提升幅度明顯小于GenLIP，這支持了研究團(tuán)隊(duì)的判斷：更簡(jiǎn)潔的架構(gòu)和目標(biāo)函數(shù)有助于更高效的規(guī)模擴(kuò)展。

**八、公平的較量：同等數(shù)據(jù)下誰更強(qiáng)？**

為了更公平地驗(yàn)證GenLIP的數(shù)據(jù)效率優(yōu)勢(shì)，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)受控對(duì)比實(shí)驗(yàn)：讓SigLIP（對(duì)比學(xué)習(xí)方法）、OpenVision2（編碼器-解碼器生成式方法）和GenLIP在完全相同的20億訓(xùn)練樣本上訓(xùn)練，并在統(tǒng)一的評(píng)測(cè)協(xié)議下比較。

為了保證公平性，SigLIP和OpenVision2在224×224的分辨率下訓(xùn)練，然后再用2億樣本進(jìn)行384×384的高分辨率適應(yīng)；GenLIP則只訓(xùn)練第一階段，直接在384×384分辨率下評(píng)測(cè)（沒有進(jìn)行高分辨率適應(yīng)階段）。

結(jié)果顯示，在相同數(shù)據(jù)預(yù)算下，GenLIP在大多數(shù)基準(zhǔn)上仍然優(yōu)于兩種基線：GenLIP的OCR類平均分為40.2，OpenVision2為40.3（兩者接近，但GenLIP沒有進(jìn)行專門的高分辨率適應(yīng)），SigLIP僅為39.8。在通用VQA類任務(wù)上，GenLIP的GQA得45.4，OpenVision2得44.2，SigLIP得42.7。唯一的例外是OCRBench單項(xiàng)，GenLIP得36.9，低于OpenVision2的43.2，研究團(tuán)隊(duì)分析這可能是因?yàn)镚enLIP在該對(duì)比中沒有進(jìn)行高分辨率適應(yīng)，而密集文字識(shí)別任務(wù)對(duì)高分辨率特別敏感。

**九、不止于"聊天"：判別能力也不差**

GenLIP的主要目標(biāo)是服務(wù)于多模態(tài)大語言模型，但研究團(tuán)隊(duì)也測(cè)試了它在純視覺判別任務(wù)上的表現(xiàn)，以驗(yàn)證它學(xué)到的是真實(shí)的視覺特征而非僅僅是"語言捷徑"。

評(píng)測(cè)使用的是DINOv2（一個(gè)專門訓(xùn)練于視覺自監(jiān)督的強(qiáng)大基準(zhǔn)）設(shè)定的協(xié)議：凍結(jié)視覺編碼器，在ImageNet-1K圖片分類和ADE20K語義分割兩個(gè)任務(wù)上探測(cè)特征質(zhì)量。由于GenLIP沒有傳統(tǒng)視覺模型常用的CLS分類標(biāo)記，研究團(tuán)隊(duì)使用了"注意力探針"（一種對(duì)所有圖像塊特征加權(quán)匯總的方法）進(jìn)行分類，使用線性層進(jìn)行分割。

結(jié)果顯示，GenLIP在ImageNet-1K上的凍結(jié)特征分類準(zhǔn)確率從L/16的83.9%提升到g/16的85.2%，在ADE20K語義分割上的mIoU從L/16的41.0提升到g/16的44.5。與基線相比，GenLIP超越了CLIP（85.1%和39.0）和SigLIP（86.7%和40.8）在ADE20K上的成績(jī)，但不及SigLIP2（88.9%和45.4）——后者引入了密集的區(qū)域級(jí)監(jiān)督信號(hào)。另一個(gè)關(guān)鍵發(fā)現(xiàn)是：沒有加入門控注意力的版本（w/o GA）在ImageNet-1K上的準(zhǔn)確率僅為76.2%，遠(yuǎn)低于加入門控注意力的版本的83.9%以上，直接證明了門控注意力對(duì)于抑制注意力匯聚、保護(hù)視覺特征質(zhì)量的必要性。

**十、局限性：誠實(shí)的自我剖析**

研究團(tuán)隊(duì)在論文中坦誠地指出了GenLIP的幾個(gè)局限性。首先，所有評(píng)測(cè)都是在LLaVA-NeXT這個(gè)學(xué)術(shù)級(jí)別的多模態(tài)框架下進(jìn)行的，能否推廣到更先進(jìn)的工業(yè)級(jí)多模態(tài)系統(tǒng)尚未驗(yàn)證。其次，訓(xùn)練數(shù)據(jù)僅使用了10億規(guī)模的數(shù)據(jù)集，更大規(guī)模數(shù)據(jù)（如100億以上）的擴(kuò)展行為尚未探索。第三，GenLIP依賴高質(zhì)量的圖片描述文字作為訓(xùn)練數(shù)據(jù)，而高質(zhì)量描述的獲取本身需要較高的成本（通常需要用大語言模型對(duì)網(wǎng)絡(luò)圖片進(jìn)行重新描述，而非直接使用原始網(wǎng)頁中的配對(duì)文字）。

Q&A

Q1：GenLIP和傳統(tǒng)的CLIP視覺編碼器有什么本質(zhì)區(qū)別？

A：CLIP的訓(xùn)練方式類似于做連連看，讓AI學(xué)會(huì)判斷圖片和文字是否配對(duì)，培養(yǎng)的是判斷能力。GenLIP則讓AI直接看圖寫文章，一個(gè)字一個(gè)字地生成圖片描述，訓(xùn)練的是表達(dá)能力。這種訓(xùn)練方式更符合多模態(tài)大語言模型"逐詞生成回答"的工作方式，因此作為視覺編碼器時(shí)能更自然地配合語言模型。用8B訓(xùn)練數(shù)據(jù)，GenLIP在多個(gè)基準(zhǔn)上超越了使用40B數(shù)據(jù)訓(xùn)練的SigLIP2。

Q2：GenLIP的"注意力黑洞"問題是什么，門控注意力是怎么解決的？

A：在圖文混合的序列中，文字生成時(shí)需要從圖像中提取信息，模型傾向于把大量視覺信息壓縮進(jìn)少數(shù)幾個(gè)圖像塊（尤其是第一個(gè)），導(dǎo)致大多數(shù)圖像塊的特征變得冗余，空間多樣性下降，訓(xùn)練也不穩(wěn)定。門控注意力給每個(gè)位置的注意力輸出加了一個(gè)可學(xué)習(xí)的閥門，讓模型能夠自動(dòng)調(diào)節(jié)信息匯聚程度，迫使視覺特征保持空間多樣性。加入門控注意力后，第一個(gè)圖像塊的平均注意力得分從28.7降至6.0，ImageNet分類準(zhǔn)確率也從76.2%提升到84.3%以上。

Q3：GenLIP的第二階段訓(xùn)練為什么能大幅提升OCR和文檔理解能力？

A：第二階段訓(xùn)練的兩個(gè)關(guān)鍵變化是：使用了包含更長、更詳細(xì)描述的高質(zhì)量圖片數(shù)據(jù)，以及按照?qǐng)D片原始寬高比處理圖片而非統(tǒng)一縮放。前者讓模型接觸到更細(xì)粒度的圖文對(duì)應(yīng)關(guān)系，后者則保留了圖片中的細(xì)節(jié)信息（如小字、表格結(jié)構(gòu)等），這對(duì)于識(shí)別文字和理解文檔至關(guān)重要。訓(xùn)練數(shù)據(jù)量雖然只有3700萬（遠(yuǎn)少于第一階段的80億），但由于數(shù)據(jù)質(zhì)量高且保留了圖片細(xì)節(jié)，效果提升顯著。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.