<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      字節(jié)與北交大聯(lián)手:讓視覺AI開口"說話",刷新多模態(tài)理解新紀(jì)錄

      0
      分享至


      這項(xiàng)由字節(jié)跳動(dòng)與北京交通大學(xué)、南洋理工大學(xué)聯(lián)合開展的研究,以預(yù)印本形式發(fā)布于2026年5月,論文編號(hào)為arXiv:2605.00809,感興趣的讀者可通過該編號(hào)在arXiv平臺(tái)查閱完整內(nèi)容。

      **一、從"啞巴"到"會(huì)說話":一個(gè)關(guān)于AI視覺理解的故事**

      假設(shè)你雇了一位助手,每天幫你看圖片、回答問題。這位助手有兩種培訓(xùn)方式:第一種,讓他把看到的圖片和對(duì)應(yīng)的文字描述配對(duì)記憶,學(xué)會(huì)"這張圖和這段話是一對(duì)";第二種,直接讓他看圖之后,張口把圖里的內(nèi)容說出來。哪種方式培養(yǎng)出來的助手,更容易被你后續(xù)的語言指令所理解?

      這個(gè)問題,正是人工智能研究者近年來一直在思考的核心難題?,F(xiàn)代的多模態(tài)大語言模型(也就是那種既能看圖又能聊天的AI,比如GPT-4V這類產(chǎn)品)通常由三部分組成:一個(gè)負(fù)責(zé)"看"的視覺編碼器、一個(gè)負(fù)責(zé)"翻譯"的連接器、以及一個(gè)負(fù)責(zé)"想和說"的大語言模型。其中,視覺編碼器就像AI的眼睛,它的好壞直接決定了整個(gè)系統(tǒng)能理解多少視覺信息。

      長期以來,最流行的視覺編碼器訓(xùn)練方式是"對(duì)比學(xué)習(xí)",以CLIP和SigLIP為代表。這種方式的核心思路是:給AI看大量的圖片和對(duì)應(yīng)文字,讓它學(xué)會(huì)判斷哪張圖和哪段話是一對(duì),哪張圖和哪段話不是一對(duì),就像做連連看。這種方法固然有效,但它本質(zhì)上訓(xùn)練的是一種"判斷配對(duì)"的能力,而不是"生成描述"的能力。問題在于,當(dāng)這個(gè)視覺編碼器被接入一個(gè)需要"逐字生成回答"的大語言模型時(shí),兩者的工作方式存在根本性的錯(cuò)位——就像你請(qǐng)了一位擅長做選擇題的秘書,卻讓他去寫議論文。

      另一種思路是"生成式預(yù)訓(xùn)練",比如AIMv2和CapPa等方法。這類方法讓視覺編碼器和一個(gè)文字生成模塊配合,學(xué)習(xí)根據(jù)圖片生成描述。雖然方向?qū)α耍@些方案的架構(gòu)設(shè)計(jì)普遍比較復(fù)雜:視覺編碼器本身并不直接"說話",而是把信息傳給一個(gè)單獨(dú)的文字解碼器,再由解碼器來生成文字。視覺編碼器的訓(xùn)練信號(hào)要經(jīng)過這個(gè)中間人才能傳回來,就像你想訓(xùn)練廚師的刀工,卻只通過品嘗最終菜肴的口味來給反饋,中間隔了太多環(huán)節(jié)。

      正是在這個(gè)背景下,字節(jié)跳動(dòng)和北京交通大學(xué)的研究團(tuán)隊(duì)提出了GenLIP(Generative Language-Image Pre-training,生成式語言-圖像預(yù)訓(xùn)練)。他們的核心主張極其簡(jiǎn)潔:**讓視覺Transformer直接開口說話**,不需要對(duì)比配對(duì),不需要額外的文字解碼器,就用一個(gè)統(tǒng)一的Transformer,看完圖直接生成描述文字。這個(gè)看似樸素的想法,卻在多個(gè)評(píng)測(cè)基準(zhǔn)上擊敗了使用數(shù)倍訓(xùn)練數(shù)據(jù)的競(jìng)爭(zhēng)對(duì)手。

      **二、GenLIP到底是怎么運(yùn)作的?**

      要理解GenLIP的工作原理,可以用一個(gè)"看圖作文"的比喻來理解整個(gè)訓(xùn)練過程。

      在傳統(tǒng)的對(duì)比學(xué)習(xí)方法里,AI的任務(wù)是做連連看:給一堆圖片和一堆句子,把正確的圖文對(duì)連起來,把不匹配的分開。這培養(yǎng)了AI識(shí)別"圖和文是否一致"的能力,但不直接培養(yǎng)"根據(jù)圖寫出文字"的能力。

      GenLIP的訓(xùn)練任務(wù)則直接變成了看圖作文:給AI看一張圖,然后讓它一個(gè)字一個(gè)字地把圖的描述寫出來。訓(xùn)練時(shí)用的數(shù)據(jù)是大量的圖片-文字配對(duì),文字來自對(duì)圖片的詳細(xì)描述。AI的目標(biāo)很簡(jiǎn)單:在已知圖片內(nèi)容和前面已經(jīng)寫出的文字的情況下,預(yù)測(cè)下一個(gè)應(yīng)該寫什么字。這種訓(xùn)練方式在大語言模型領(lǐng)域被稱為"自回歸語言建模",是ChatGPT等模型的核心訓(xùn)練范式。

      **架構(gòu)設(shè)計(jì):一個(gè)Transformer搞定一切**

      GenLIP的架構(gòu)設(shè)計(jì)遵循極簡(jiǎn)主義原則。整個(gè)系統(tǒng)只有一個(gè)Transformer(一種強(qiáng)大的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),是現(xiàn)代AI的基礎(chǔ)構(gòu)件),負(fù)責(zé)同時(shí)處理圖像和文字兩種信息。

      具體來說,一張輸入圖片首先被切割成若干個(gè)小方塊(稱為"圖像塊"),每個(gè)小方塊被轉(zhuǎn)換成一段數(shù)字表示。與此同時(shí),配套的文字描述被分割成一個(gè)個(gè)詞語單元(稱為"詞元")。這些圖像塊的表示和詞語的表示被拼接成一個(gè)長序列,圖像部分在前,文字部分在后,然后一起喂給這個(gè)統(tǒng)一的Transformer處理。

      在注意力機(jī)制的設(shè)計(jì)上,研究團(tuán)隊(duì)做了一個(gè)重要的區(qū)分:圖像塊之間可以相互"看"彼此(雙向注意力),畢竟圖片里每個(gè)區(qū)域的理解都可能需要參考其他區(qū)域;而文字部分則只能"看"前面的內(nèi)容(因果注意力),這符合生成文字時(shí)"只能看到已寫出的部分"的自然規(guī)律。這種混合注意力機(jī)制被稱為"前綴語言模型注意力",是處理"圖像作為前綴條件、文字作為生成目標(biāo)"這種結(jié)構(gòu)的標(biāo)準(zhǔn)做法。

      在位置編碼方面,研究團(tuán)隊(duì)使用了多模態(tài)旋轉(zhuǎn)位置編碼(MRoPE),這是一種能同時(shí)處理圖像空間位置和文字序列位置的編碼方式,避免了圖像和文字在位置信息上的混亂。

      訓(xùn)練的損失函數(shù)(也就是AI評(píng)價(jià)自己表現(xiàn)好壞的標(biāo)準(zhǔn))同樣極其簡(jiǎn)潔:只看文字生成部分的準(zhǔn)確度,即在給定前面所有圖像塊和已生成文字的條件下,正確預(yù)測(cè)下一個(gè)詞語的概率有多高。不需要對(duì)比損失,不需要圖像重建損失,就這一個(gè)目標(biāo)。

      **三、一個(gè)意外的麻煩:注意力"黑洞"問題**

      在實(shí)際訓(xùn)練中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)棘手的問題。在圖像和文字混合的序列中,序列開頭的第一個(gè)圖像塊往往會(huì)變成一個(gè)"注意力黑洞"——其他大量位置的注意力權(quán)重都集中到這一個(gè)位置上,就好像整個(gè)序列的所有信息都被吸入了這個(gè)黑洞。

      為什么會(huì)這樣?原因在于文字生成的機(jī)制:文字部分的每個(gè)詞只能看到前面的圖像塊(通過因果注意力),為了從圖像中獲取信息,文字生成模塊會(huì)傾向于把圖像信息"壓縮"到少數(shù)幾個(gè)容易訪問的圖像塊里,特別是第一個(gè)圖像塊——因?yàn)樗撬形恢枚寄茉L問的。這就像一個(gè)班級(jí)里,所有同學(xué)都傾向于把筆記借給坐在最前面的那位同學(xué),而不是每個(gè)人都自己記筆記,時(shí)間一長,前排同學(xué)的筆記變得極其全面,但其他人卻幾乎什么都沒記。

      這個(gè)"注意力黑洞"(在學(xué)術(shù)界被稱為"注意力匯聚"或"attention sink")帶來了兩個(gè)后果:訓(xùn)練過程中會(huì)出現(xiàn)明顯的損失抖動(dòng)(意味著訓(xùn)練不穩(wěn)定),而且最終學(xué)到的圖像特征在空間多樣性上大打折扣——因?yàn)榇罅恳曈X信息都被壓縮進(jìn)了少數(shù)幾個(gè)位置,其他圖像塊的特征變得冗余而無意義。

      研究團(tuán)隊(duì)受到已有研究(特別是針對(duì)大語言模型注意力匯聚問題的研究)的啟發(fā),提出了"門控注意力"機(jī)制來解決這個(gè)問題。門控注意力的思路類似于給每個(gè)信息通道安裝了一個(gè)可調(diào)節(jié)的閥門:在標(biāo)準(zhǔn)注意力計(jì)算完成后,再對(duì)每個(gè)位置的注意力輸出乘以一個(gè)由輸入動(dòng)態(tài)計(jì)算的門控信號(hào)(一個(gè)0到1之間的數(shù)值)。門控信號(hào)由輸入的隱藏狀態(tài)通過一組可學(xué)習(xí)的參數(shù)計(jì)算得出,再經(jīng)過sigmoid函數(shù)壓縮到0到1之間。

      這個(gè)設(shè)計(jì)的效果是:模型可以學(xué)會(huì)對(duì)某些位置降低信息匯聚的程度,防止文字生成模塊過度依賴少數(shù)幾個(gè)圖像塊,從而讓整個(gè)圖像的空間特征都得到充分利用。實(shí)驗(yàn)結(jié)果顯示,加入門控注意力之后,第一個(gè)圖像塊的平均注意力得分從28.7大幅下降到6.0,訓(xùn)練更加穩(wěn)定,收斂速度更快,最終性能也有明顯提升。

      **四、兩階段訓(xùn)練:從打基礎(chǔ)到精雕細(xì)琢**

      GenLIP的訓(xùn)練分為兩個(gè)階段,可以理解為先打基礎(chǔ)再精修。

      第一階段在Recap-DataComp-1B數(shù)據(jù)集上進(jìn)行,這是一個(gè)包含10億張圖片及其描述的大規(guī)模數(shù)據(jù)集,圖片來自互聯(lián)網(wǎng)。訓(xùn)練時(shí)統(tǒng)一把圖片縮放到224×224像素的固定尺寸,以降低計(jì)算成本。整個(gè)第一階段共處理了80億個(gè)圖片-文字樣本(相當(dāng)于把10億張圖片反復(fù)看了8遍),讓模型建立起扎實(shí)的視覺和語言基礎(chǔ)能力。

      第二階段則是精修階段,使用了兩個(gè)開源數(shù)據(jù)集:Infinity-MM的第一階段字幕子集(約1000萬樣本)和BLIP3o-Long-Caption(約2700萬樣本),合計(jì)約3700萬樣本,但這些樣本的特點(diǎn)是描述更長、更詳細(xì),圖片質(zhì)量更高。更重要的是,這個(gè)階段不再強(qiáng)制把圖片縮放到固定尺寸,而是按照?qǐng)D片的原始寬高比來處理,只調(diào)整大小使得圖像塊數(shù)量落在16到1024的范圍內(nèi)。這種"任意分辨率"的處理方式讓模型能夠保留圖片中的細(xì)節(jié)信息,特別有利于文字識(shí)別(OCR)和圖表理解這類需要看清細(xì)節(jié)的任務(wù)。

      這一階段只訓(xùn)練1個(gè)epoch(把數(shù)據(jù)集過一遍),但效果顯著——尤其是對(duì)文檔理解和OCR類任務(wù)的提升非常明顯。

      研究團(tuán)隊(duì)還使用了兩種正則化技術(shù):層縮放(layer scale)和隨機(jī)深度(drop path),這兩種技術(shù)主要用于穩(wěn)定較深網(wǎng)絡(luò)的訓(xùn)練,防止訓(xùn)練發(fā)散,但對(duì)最終性能的影響相對(duì)較小。

      在工程實(shí)現(xiàn)上,研究團(tuán)隊(duì)使用了序列打包策略:把多個(gè)長度不同的樣本拼接成最大長度為16384個(gè)詞元的長序列,然后批量處理,以提高硬件利用率。前綴語言模型的注意力掩碼通過PyTorch的flex-attention機(jī)制實(shí)現(xiàn),支持每個(gè)樣本獨(dú)立的注意力模式。

      **五、"讓ViT開口說話":模型能做到什么?**

      在展示正式的評(píng)測(cè)結(jié)果之前,研究團(tuán)隊(duì)做了兩個(gè)非常直觀的演示,證明GenLIP確實(shí)學(xué)會(huì)了"開口說話"。

      第一個(gè)演示是直接讓模型描述圖片。給模型一張圖(不連接任何外部大語言模型,純粹用GenLIP本身),用一句"詳細(xì)描述這張圖片"作為提示,看看模型能說出什么。結(jié)果表明,GenLIP已經(jīng)能夠生成流暢、語義準(zhǔn)確的圖片描述。在一張老人帶著小白狗滑雪的黑白照片前,小模型(GenLIP-L16)在第一階段結(jié)束后描述為"一張復(fù)古照片,一個(gè)人在滑雪,穿著深色外套",而大模型(GenLIP-g16)則準(zhǔn)確描述出"一個(gè)人背著一只小白狗在滑雪,狗似乎很享受這次旅程"。經(jīng)過第二階段訓(xùn)練后,同一張圖的描述變得更加詳細(xì),包括帽子的花紋、滑雪杖的細(xì)節(jié)、背景的雪地等。在識(shí)別一只寶可夢(mèng)的圖片時(shí),小模型錯(cuò)把Bulbasaur(妙蛙種子)認(rèn)成了Charmander(小火龍),而大模型(GenLIP-g16)則正確識(shí)別出了這個(gè)角色,并給出了詳細(xì)的外觀描述。

      第二個(gè)演示更加有趣:研究團(tuán)隊(duì)直接把圖像塊的特征向量"翻譯"成文字——也就是說,不輸入任何文字提示,而是直接對(duì)每個(gè)圖像塊的特征表示詢問"你最像哪個(gè)詞"。結(jié)果發(fā)現(xiàn),在一張滑雪者背著狗的照片中,對(duì)準(zhǔn)帽子區(qū)域的圖像塊輸出了"hat、fur、cap、wool"這樣的詞語,對(duì)準(zhǔn)狗的區(qū)域輸出了"fluffy、puppy、curious",對(duì)準(zhǔn)滑雪杖的區(qū)域輸出了"ski、poles、trek"。這說明GenLIP在預(yù)訓(xùn)練過程中,自發(fā)地讓每個(gè)圖像塊的特征與對(duì)應(yīng)的語言概念產(chǎn)生了對(duì)齊,而且這種對(duì)齊能力在第二階段訓(xùn)練后更加精準(zhǔn)。大模型(GenLIP-g16)比小模型(GenLIP-So16和GenLIP-L16)表現(xiàn)出更穩(wěn)定的語義對(duì)齊能力,且第二階段的模型在語義準(zhǔn)確性和相關(guān)性上均優(yōu)于第一階段。

      **六、正式評(píng)測(cè):用數(shù)字說話**

      研究團(tuán)隊(duì)設(shè)計(jì)了一套嚴(yán)格的評(píng)測(cè)框架,核心思路是"凍結(jié)視覺編碼器":把GenLIP或競(jìng)爭(zhēng)對(duì)手的視覺編碼器固定住(不允許在下游任務(wù)中繼續(xù)訓(xùn)練),只訓(xùn)練連接它和大語言模型的中間層,以及大語言模型本身。這種評(píng)測(cè)方式能更純粹地反映視覺編碼器本身學(xué)到的特征質(zhì)量,而不是靠下游微調(diào)來彌補(bǔ)。

      評(píng)測(cè)基準(zhǔn)覆蓋了三大類任務(wù)。文檔與OCR理解方面包括ChartQA(圖表問答)、OCRBench(綜合OCR評(píng)測(cè))、InfoVQA(信息圖表問答)、AI2D(科學(xué)圖表問答)、TextVQA(圖片文字問答)、DocVQA(文檔問答)和SEED-Bench-2-Plus(文字豐富視覺理解),共7個(gè)基準(zhǔn)。通用視覺理解方面包括MME(綜合多模態(tài)評(píng)測(cè))、GQA(視覺推理問答)、VQAv2(視覺問答)和ScienceQA(科學(xué)問答),共4個(gè)基準(zhǔn)。圖片描述生成方面包括NoCaps、COCO和TextCaps三個(gè)標(biāo)準(zhǔn)字幕數(shù)據(jù)集,均使用CIDEr分?jǐn)?shù)衡量。最終匯報(bào)所有14個(gè)基準(zhǔn)的平均分(ALL AVG)。

      在使用較小語言模型(Qwen2.5-1.5B)的條件下,研究團(tuán)隊(duì)將GenLIP與多個(gè)競(jìng)爭(zhēng)對(duì)手進(jìn)行了對(duì)比,包括CLIP(使用12.8B訓(xùn)練數(shù)據(jù))、AIMv2(12.0B)、OpenVision2(12.8B)、SigLIP(40.0B)和SigLIP2(40.0B)。GenLIP在L/16、So/16和g/16三個(gè)規(guī)模上,ALL AVG分別為61.5、62.6和65.2,均優(yōu)于同規(guī)模的SigLIP2(分別為58.7、60.6、61.5),盡管后者使用了整整40B的訓(xùn)練數(shù)據(jù)。

      在文檔與OCR類任務(wù)上,GenLIP的優(yōu)勢(shì)尤為突出。以g/16規(guī)模為例,GenLIP在7個(gè)OCR/文檔基準(zhǔn)上的平均分為53.2,而SigLIP2僅為47.3,差距接近6分。這個(gè)差距在多個(gè)單項(xiàng)基準(zhǔn)上更加明顯:ChartQA上GenLIP得45.0對(duì)SigLIP2的35.3,DocVQA上得57.0對(duì)47.6,OCRBench上得55.6對(duì)47.3。

      切換到更大的語言模型(Qwen2.5-7B)后,趨勢(shì)保持一致。GenLIP-So/16以71.8的ALL AVG超越SigLIP2的69.4,GenLIP-g/16以73.6超越SigLIP2的68.9。文檔與OCR類任務(wù)上的優(yōu)勢(shì)依然顯著:GenLIP-g/16在DocVQA上得69.0,遠(yuǎn)超SigLIP2的56.3;在ChartQA上得57.1,同樣大幅超過SigLIP2的47.2。

      研究團(tuán)隊(duì)還在標(biāo)準(zhǔn)的LLaVA-NeXT評(píng)測(cè)框架下進(jìn)行了測(cè)試,這次視覺編碼器不再被凍結(jié),而是和語言模型一起進(jìn)行指令微調(diào)。結(jié)果表明,GenLIP-So/16在使用576個(gè)圖像塊時(shí)取得了68.5的ALL AVG,在使用729個(gè)圖像塊時(shí)取得了70.3的ALL AVG,分別超越了同類競(jìng)爭(zhēng)對(duì)手,在Doc&OCR類任務(wù)上的優(yōu)勢(shì)依舊明顯。

      **七、越大越強(qiáng):規(guī)模擴(kuò)展的故事**

      研究團(tuán)隊(duì)專門分析了GenLIP的擴(kuò)展性,包括數(shù)據(jù)量和模型規(guī)模兩個(gè)維度。

      在數(shù)據(jù)量擴(kuò)展方面,研究團(tuán)隊(duì)在相同的模型規(guī)模下,把訓(xùn)練數(shù)據(jù)從10億增加到80億,觀察性能變化。結(jié)果顯示,隨著數(shù)據(jù)量增加,所有三類任務(wù)(OCR、VQA、圖片描述)的平均分都持續(xù)提升。從10億到40億階段,提升幅度較為陡峭;從40億到80億階段,VQA和圖片描述任務(wù)的提升趨于平緩,但OCR類任務(wù)仍有明顯增益。值得注意的是,在整個(gè)擴(kuò)展曲線上,加入門控注意力的版本始終優(yōu)于未加入門控注意力的版本,在數(shù)據(jù)量較少時(shí)這種優(yōu)勢(shì)尤為明顯。

      在模型規(guī)模擴(kuò)展方面,研究團(tuán)隊(duì)訓(xùn)練了三個(gè)規(guī)模的GenLIP:GenLIP-L(約3億參數(shù),24層,1024維)、GenLIP-So(約4億參數(shù),27層,1152維)和GenLIP-g(約11億參數(shù),40層,1536維)。兩個(gè)訓(xùn)練階段結(jié)束后,性能隨模型規(guī)模單調(diào)遞增,g/16始終優(yōu)于So/16,后者優(yōu)于L/16。有一個(gè)有趣的現(xiàn)象:在第一階段(固定分辨率預(yù)訓(xùn)練)之后,L/16和So/16的差距比較明顯,但So/16和g/16的差距相對(duì)較小;兩個(gè)階段都完成后,g/16的優(yōu)勢(shì)變得更加突出。對(duì)比之下,SigLIP2在模型規(guī)模擴(kuò)大時(shí)的性能提升幅度明顯小于GenLIP,這支持了研究團(tuán)隊(duì)的判斷:更簡(jiǎn)潔的架構(gòu)和目標(biāo)函數(shù)有助于更高效的規(guī)模擴(kuò)展。

      **八、公平的較量:同等數(shù)據(jù)下誰更強(qiáng)?**

      為了更公平地驗(yàn)證GenLIP的數(shù)據(jù)效率優(yōu)勢(shì),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)受控對(duì)比實(shí)驗(yàn):讓SigLIP(對(duì)比學(xué)習(xí)方法)、OpenVision2(編碼器-解碼器生成式方法)和GenLIP在完全相同的20億訓(xùn)練樣本上訓(xùn)練,并在統(tǒng)一的評(píng)測(cè)協(xié)議下比較。

      為了保證公平性,SigLIP和OpenVision2在224×224的分辨率下訓(xùn)練,然后再用2億樣本進(jìn)行384×384的高分辨率適應(yīng);GenLIP則只訓(xùn)練第一階段,直接在384×384分辨率下評(píng)測(cè)(沒有進(jìn)行高分辨率適應(yīng)階段)。

      結(jié)果顯示,在相同數(shù)據(jù)預(yù)算下,GenLIP在大多數(shù)基準(zhǔn)上仍然優(yōu)于兩種基線:GenLIP的OCR類平均分為40.2,OpenVision2為40.3(兩者接近,但GenLIP沒有進(jìn)行專門的高分辨率適應(yīng)),SigLIP僅為39.8。在通用VQA類任務(wù)上,GenLIP的GQA得45.4,OpenVision2得44.2,SigLIP得42.7。唯一的例外是OCRBench單項(xiàng),GenLIP得36.9,低于OpenVision2的43.2,研究團(tuán)隊(duì)分析這可能是因?yàn)镚enLIP在該對(duì)比中沒有進(jìn)行高分辨率適應(yīng),而密集文字識(shí)別任務(wù)對(duì)高分辨率特別敏感。

      **九、不止于"聊天":判別能力也不差**

      GenLIP的主要目標(biāo)是服務(wù)于多模態(tài)大語言模型,但研究團(tuán)隊(duì)也測(cè)試了它在純視覺判別任務(wù)上的表現(xiàn),以驗(yàn)證它學(xué)到的是真實(shí)的視覺特征而非僅僅是"語言捷徑"。

      評(píng)測(cè)使用的是DINOv2(一個(gè)專門訓(xùn)練于視覺自監(jiān)督的強(qiáng)大基準(zhǔn))設(shè)定的協(xié)議:凍結(jié)視覺編碼器,在ImageNet-1K圖片分類和ADE20K語義分割兩個(gè)任務(wù)上探測(cè)特征質(zhì)量。由于GenLIP沒有傳統(tǒng)視覺模型常用的CLS分類標(biāo)記,研究團(tuán)隊(duì)使用了"注意力探針"(一種對(duì)所有圖像塊特征加權(quán)匯總的方法)進(jìn)行分類,使用線性層進(jìn)行分割。

      結(jié)果顯示,GenLIP在ImageNet-1K上的凍結(jié)特征分類準(zhǔn)確率從L/16的83.9%提升到g/16的85.2%,在ADE20K語義分割上的mIoU從L/16的41.0提升到g/16的44.5。與基線相比,GenLIP超越了CLIP(85.1%和39.0)和SigLIP(86.7%和40.8)在ADE20K上的成績(jī),但不及SigLIP2(88.9%和45.4)——后者引入了密集的區(qū)域級(jí)監(jiān)督信號(hào)。另一個(gè)關(guān)鍵發(fā)現(xiàn)是:沒有加入門控注意力的版本(w/o GA)在ImageNet-1K上的準(zhǔn)確率僅為76.2%,遠(yuǎn)低于加入門控注意力的版本的83.9%以上,直接證明了門控注意力對(duì)于抑制注意力匯聚、保護(hù)視覺特征質(zhì)量的必要性。

      **十、局限性:誠實(shí)的自我剖析**

      研究團(tuán)隊(duì)在論文中坦誠地指出了GenLIP的幾個(gè)局限性。首先,所有評(píng)測(cè)都是在LLaVA-NeXT這個(gè)學(xué)術(shù)級(jí)別的多模態(tài)框架下進(jìn)行的,能否推廣到更先進(jìn)的工業(yè)級(jí)多模態(tài)系統(tǒng)尚未驗(yàn)證。其次,訓(xùn)練數(shù)據(jù)僅使用了10億規(guī)模的數(shù)據(jù)集,更大規(guī)模數(shù)據(jù)(如100億以上)的擴(kuò)展行為尚未探索。第三,GenLIP依賴高質(zhì)量的圖片描述文字作為訓(xùn)練數(shù)據(jù),而高質(zhì)量描述的獲取本身需要較高的成本(通常需要用大語言模型對(duì)網(wǎng)絡(luò)圖片進(jìn)行重新描述,而非直接使用原始網(wǎng)頁中的配對(duì)文字)。

      Q&A

      Q1:GenLIP和傳統(tǒng)的CLIP視覺編碼器有什么本質(zhì)區(qū)別?

      A:CLIP的訓(xùn)練方式類似于做連連看,讓AI學(xué)會(huì)判斷圖片和文字是否配對(duì),培養(yǎng)的是判斷能力。GenLIP則讓AI直接看圖寫文章,一個(gè)字一個(gè)字地生成圖片描述,訓(xùn)練的是表達(dá)能力。這種訓(xùn)練方式更符合多模態(tài)大語言模型"逐詞生成回答"的工作方式,因此作為視覺編碼器時(shí)能更自然地配合語言模型。用8B訓(xùn)練數(shù)據(jù),GenLIP在多個(gè)基準(zhǔn)上超越了使用40B數(shù)據(jù)訓(xùn)練的SigLIP2。

      Q2:GenLIP的"注意力黑洞"問題是什么,門控注意力是怎么解決的?

      A:在圖文混合的序列中,文字生成時(shí)需要從圖像中提取信息,模型傾向于把大量視覺信息壓縮進(jìn)少數(shù)幾個(gè)圖像塊(尤其是第一個(gè)),導(dǎo)致大多數(shù)圖像塊的特征變得冗余,空間多樣性下降,訓(xùn)練也不穩(wěn)定。門控注意力給每個(gè)位置的注意力輸出加了一個(gè)可學(xué)習(xí)的閥門,讓模型能夠自動(dòng)調(diào)節(jié)信息匯聚程度,迫使視覺特征保持空間多樣性。加入門控注意力后,第一個(gè)圖像塊的平均注意力得分從28.7降至6.0,ImageNet分類準(zhǔn)確率也從76.2%提升到84.3%以上。

      Q3:GenLIP的第二階段訓(xùn)練為什么能大幅提升OCR和文檔理解能力?

      A:第二階段訓(xùn)練的兩個(gè)關(guān)鍵變化是:使用了包含更長、更詳細(xì)描述的高質(zhì)量圖片數(shù)據(jù),以及按照?qǐng)D片原始寬高比處理圖片而非統(tǒng)一縮放。前者讓模型接觸到更細(xì)粒度的圖文對(duì)應(yīng)關(guān)系,后者則保留了圖片中的細(xì)節(jié)信息(如小字、表格結(jié)構(gòu)等),這對(duì)于識(shí)別文字和理解文檔至關(guān)重要。訓(xùn)練數(shù)據(jù)量雖然只有3700萬(遠(yuǎn)少于第一階段的80億),但由于數(shù)據(jù)質(zhì)量高且保留了圖片細(xì)節(jié),效果提升顯著。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      回顧:緬北女魔頭魏榕嗜好!經(jīng)常“活剝驢耳”,3個(gè)閨蜜喜歡觀刑

      回顧:緬北女魔頭魏榕嗜好!經(jīng)常“活剝驢耳”,3個(gè)閨蜜喜歡觀刑

      飛云如水
      2024-11-13 06:54:13
      歐爾班剛下臺(tái),匈牙利立刻驅(qū)逐俄間諜,16年親俄路線開始清算

      歐爾班剛下臺(tái),匈牙利立刻驅(qū)逐俄間諜,16年親俄路線開始清算

      桂系007
      2026-05-08 22:26:27
      保守估計(jì)虧損60億+,高瓴資本疑已“清倉”隆基綠能

      保守估計(jì)虧損60億+,高瓴資本疑已“清倉”隆基綠能

      草根光伏
      2026-05-11 13:56:43
      美國著名智囊學(xué)者曾提醒美軍:殲-36是中國式"圈套"

      美國著名智囊學(xué)者曾提醒美軍:殲-36是中國式"圈套"

      別吵吵
      2026-05-09 08:39:10
      終于回過味來了?美媒:中國正全國動(dòng)員,殲36殲50生產(chǎn)超美國兩倍

      終于回過味來了?美媒:中國正全國動(dòng)員,殲36殲50生產(chǎn)超美國兩倍

      說歷史的老牢
      2026-05-10 18:47:47
      西班牙一名涉疫郵輪乘客漢坦病毒檢測(cè)呈陽性

      西班牙一名涉疫郵輪乘客漢坦病毒檢測(cè)呈陽性

      財(cái)聯(lián)社
      2026-05-12 03:37:40
      全球十大毒王級(jí)垃圾食品曝光, 很多華人天天都在吃! 泡面, 漢堡竟都沒上榜

      全球十大毒王級(jí)垃圾食品曝光, 很多華人天天都在吃! 泡面, 漢堡竟都沒上榜

      澳微Daily
      2026-05-10 15:59:51
      伊朗議長:伊武裝部隊(duì)已做好準(zhǔn)備應(yīng)對(duì)任何侵略行為

      伊朗議長:伊武裝部隊(duì)已做好準(zhǔn)備應(yīng)對(duì)任何侵略行為

      財(cái)聯(lián)社
      2026-05-12 03:07:07
      盲人網(wǎng)紅盲道被電動(dòng)車撞受傷,對(duì)方還出口辱罵,相關(guān)部門正式回應(yīng)

      盲人網(wǎng)紅盲道被電動(dòng)車撞受傷,對(duì)方還出口辱罵,相關(guān)部門正式回應(yīng)

      新游戲大妹子
      2026-05-11 11:47:11
      這有意思嗎?奧迪高管炮轟友商:用特調(diào)車刷圈速、輪胎/懸掛改過;大裁員、關(guān)閉電池等業(yè)務(wù)!保時(shí)捷啟動(dòng)斷臂求生;哈啰再回應(yīng)腳踩青桔美團(tuán)

      這有意思嗎?奧迪高管炮轟友商:用特調(diào)車刷圈速、輪胎/懸掛改過;大裁員、關(guān)閉電池等業(yè)務(wù)!保時(shí)捷啟動(dòng)斷臂求生;哈啰再回應(yīng)腳踩青桔美團(tuán)

      雷峰網(wǎng)
      2026-05-11 10:21:16
      我50歲才悟出一個(gè)道理:凡是從不參加同學(xué)聚會(huì)、不愛發(fā)動(dòng)態(tài)、不混圈子的人,十有八九在這兩個(gè)方面遠(yuǎn)超常人,觀察了身邊上百人屢試不爽

      我50歲才悟出一個(gè)道理:凡是從不參加同學(xué)聚會(huì)、不愛發(fā)動(dòng)態(tài)、不混圈子的人,十有八九在這兩個(gè)方面遠(yuǎn)超常人,觀察了身邊上百人屢試不爽

      心理觀察局
      2026-05-08 10:35:21
      CBA官方:浙江因觀眾辱罵裁判、投擲雜物、投資人違規(guī)進(jìn)場(chǎng),罰款16萬

      CBA官方:浙江因觀眾辱罵裁判、投擲雜物、投資人違規(guī)進(jìn)場(chǎng),罰款16萬

      懂球帝
      2026-05-11 19:33:05
      離婚后住浙江娘家,親媽和繼父給帶孩子,她卻在娛樂圈闖出一片天

      離婚后住浙江娘家,親媽和繼父給帶孩子,她卻在娛樂圈闖出一片天

      阿鳧愛吐槽
      2026-05-11 22:13:02
      領(lǐng)導(dǎo)有這3個(gè)特征,必是小人!

      領(lǐng)導(dǎo)有這3個(gè)特征,必是小人!

      細(xì)說職場(chǎng)
      2026-04-29 16:27:10
      難怪日本女乒敢沖金牌,原來主教練是他,是馬琳師兄卻落選國家隊(duì)

      難怪日本女乒敢沖金牌,原來主教練是他,是馬琳師兄卻落選國家隊(duì)

      瑛派兒老黃
      2026-05-11 22:41:33
      柯志恩這回?cái)偵鲜铝?,王金平協(xié)助也無濟(jì)于事!鄭麗文早已有言在先

      柯志恩這回?cái)偵鲜铝?,王金平協(xié)助也無濟(jì)于事!鄭麗文早已有言在先

      風(fēng)干迷茫人
      2026-05-12 00:39:39
      結(jié)婚才2年,蕭敬騰就嘗到老妻少夫的殘酷,其實(shí)舒淇早就把話說透

      結(jié)婚才2年,蕭敬騰就嘗到老妻少夫的殘酷,其實(shí)舒淇早就把話說透

      枯蝶
      2026-05-11 09:20:17
      妻子出軌后,對(duì)方妻子主動(dòng)聯(lián)系我,提議搭伙過日子每月給我五萬塊

      妻子出軌后,對(duì)方妻子主動(dòng)聯(lián)系我,提議搭伙過日子每月給我五萬塊

      千秋文化
      2026-05-05 20:25:29
      湯洛雯停更四個(gè)月,生日照不露腰腹,網(wǎng)友追問孩子在哪

      湯洛雯停更四個(gè)月,生日照不露腰腹,網(wǎng)友追問孩子在哪

      動(dòng)物奇奇怪怪
      2026-05-10 19:33:24
      官僚主義最陰狠的套路:把所有風(fēng)險(xiǎn),砸向最底層

      官僚主義最陰狠的套路:把所有風(fēng)險(xiǎn),砸向最底層

      職場(chǎng)資深秘書
      2026-05-08 20:44:41
      2026-05-12 04:56:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      親子
      教育
      藝術(shù)
      手機(jī)
      公開課

      親子要聞

      你們都喜歡哪些科目?。?/h3>

      教育要聞

      課堂亂象觸目驚心,老師氣得血壓飆升,誰在一步步毀掉當(dāng)今教育?

      藝術(shù)要聞

      震撼!Nicole Nodland鏡頭下的絕美時(shí)尚女神!

      手機(jī)要聞

      蘋果iOS/iPadOS 15.8.8正式版發(fā)布

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产精品视频午夜福利| 精品久久综合日本久久网| 色妺妺视频网| 欧美另类性爱| 久久天堂无码av网站| 国产菊爆视频在线观看| jizz偷拍| 国产精品自拍超碰在线| 九九热免费在线视频观看| 国产免费AV电影| 九一AV| 色悠久久久久综合网香蕉| 18禁视频一区二区三区| 亚洲精品成人无码熟妇在线| 龙井市| 亚洲乱码一区二区三区在线观看| 肉大捧一进一出免费视频| a网站免费观看| 亚洲日韩成人精品| 精品72久久久久久久中文字幕| 亚洲中文字幕无码爆乳APP| 亚洲色图导航| 岳乳丰满一区二区三区| 久久久久免费看少妇高潮A片 | 日韩中文字幕精品人妻| 成人网站免费观看永久视频下载| 亚洲精品国产精品国自产观看| 在线观看亚洲欧美日本专区 | 在线天堂av在线在线| 亚洲中文字幕人妻系列| 影音先锋成人网| 亚洲无码精选| 桃色激情网| 精品国产一区二区三区大 | 亚洲无码综合网| 中文字幕日韩人妻一区| 日本精品中文字幕在线不卡| 五月天成人社区| 免费国产一级特黄aa大片在线| 精久久久久无码区中文字幕| 色欲AV无码一区二区人妻|