<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      PixelRefer :讓AI從“看大圖”走向“看懂每個對象”

      0
      分享至



      多模態(tài)大模型(MLLMs)雖然在圖像理解、視頻分析上表現(xiàn)出色,但多停留在整體場景級理解。

      而場景級理解 ≠ 視覺理解的終點,現(xiàn)實任務(wù)(如自動駕駛、機(jī)器人、醫(yī)療影像、視頻分析)需要的是細(xì)粒度、對象級(object-level)詳細(xì)理解

      然而,當(dāng)下的研究工作,如英偉達(dá)的Describe Anything Model (DAM)局限于單個物體的描述,難以深入理解多對象屬性、交互關(guān)系及其時序演變,且犧牲了模型本身的通用理解能力。

      針對這一問題,浙江大學(xué)、達(dá)摩院、香港理工大學(xué)聯(lián)合提出了一種創(chuàng)新的解決方案PixelRefer:一個統(tǒng)一的時空像素級區(qū)域級理解框架,可實現(xiàn)任意粒度下的精細(xì)視覺指代與推理,在多項像素級細(xì)粒度理解任務(wù)取得領(lǐng)先性能表現(xiàn)。和DAM-3B相比,輕量版的2B模型推理時間加快了4倍,顯存占用減半,且訓(xùn)練數(shù)據(jù)量大大少于已有方法。



      PixelRefer能夠?qū)θ我饽繕?biāo)實現(xiàn)準(zhǔn)確語義理解以及時空物體區(qū)域理解。









      • 論文標(biāo)題:
      • PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity
      • 論文鏈接:
      • https://arxiv.org/abs/2510.23603
      • 項目網(wǎng)站鏈接:
      • https://circleradon.github.io/PixelRefer/
      • 代碼鏈接:
      • https://github.com/DAMO-NLP-SG/PixelRefer

      先驗分析:大模型“如何看懂區(qū)域”?

      為了探索解決以上問題,作者基于通用視覺基礎(chǔ)模型采用最直接的設(shè)計:將全局視覺token+像素級區(qū)域token+文本token一起喂給 LLM。當(dāng)無物體指代區(qū)域時,模型則退化成通用視覺理解任務(wù),從而實現(xiàn)區(qū)域理解的同時,保留通用模型本身的通用理解能力。

      作者對LLM內(nèi)從淺層到深層中分析視覺token、區(qū)域token以及其他類型token進(jìn)行可視化分析。本文可以發(fā)現(xiàn)從淺層到深層,答案(Ans)優(yōu)先關(guān)注像素級區(qū)域token,其attention分?jǐn)?shù)一直很高,說明物體token表征對于模型的回答起到重要的作用。此外,全局圖像token(vision)則僅在淺層中(第一層)表現(xiàn)出較高的attention分布(Answer-to-image token attention),LLM的深層則表現(xiàn)較弱,甚至沒有影響,這個在通用視覺基礎(chǔ)模型研究中也被討論到。



      淺層到深層的attention可視化

      基于此分析,作者得出兩種設(shè)計方案:

      1. 高質(zhì)量像素級物體表征很重要:對于像素級區(qū)域的表達(dá),語義豐富的區(qū)域表征直接決定像素級語義理解的質(zhì)量;
      2. 全局信息的冗余可以通過“預(yù)融合”優(yōu)化:在 LLM 深層階段,全局視覺標(biāo)記的作用顯著減弱,在深層階段反而變得冗余,說明其信息可提前注入對象標(biāo)記中,以大幅減少計算開銷。

      方法設(shè)計

      為此,作者針對像素級細(xì)粒度理解定義了兩種框架,Vision-Object Framework (a)與Object-Only Framework (b):



      PixelRefer(Vision-Object Framework)

      對于PixelRefer,作者把全局視覺token+像素級區(qū)域token+文本token一起送入 LLM,既保留場景語境,又在對象級上精細(xì)推理。關(guān)鍵在于像素級區(qū)域表征token質(zhì)量足夠高。為此,作者提出尺度自適應(yīng)對象分詞器(Scale-Adaptive Object Tokenizer, SAOT) 來生成精確、緊湊、語義豐富的對象表示。

      SAOT 圍繞兩個設(shè)計:(i)小目標(biāo)容易在patch化后丟失細(xì)節(jié);(ii)大目標(biāo)的特征冗余嚴(yán)重

      核心做法分三步:

      1. 動態(tài)尺度處理(Dynamic Object Processing)。按像素級區(qū)域大小自適應(yīng)地放大小物體、縮小大物體,并進(jìn)行上下文擴(kuò)展(在目標(biāo)周圍留出一定背景),保證既不丟細(xì)節(jié)也不過度冗余。隨后通過共享視覺編碼器取到區(qū)域級特征。
      2. 位置感知的掩碼特征抽取(Mask Feature + Relative Positional Encoding)。對區(qū)域內(nèi)的有效特征做掩碼并疊加相對坐標(biāo)投影,形成位置感知的對象token,為后續(xù)推理提供“這片語義在圖像哪里”的線索。作者還為被裁剪/擴(kuò)展后的區(qū)域加入相對位置編碼來緩解對齊歧義,使對象token具備空間感知。
      3. 冗余聚合(Abundant Feature Aggregation)。對大/同質(zhì)區(qū)域里高度相似的token,采用k-means 聚類合并,只保留n 個代表性token,既壓縮冗余又保留多視角細(xì)節(jié)。這一步實證上顯著降低了對象內(nèi)部token的相似度,提高了表示“緊致度”。




      PixelRefer-Lite (Object-Only Framework)

      該變體僅使用對象標(biāo)記進(jìn)行 LLM 推理,借助對象中心信息融合模塊(Object-Centric Infusion Module, OCI)將全局特征在前處理階段融合入對象表示中。通過 Local-to-Object 和 Global-to-Object Attention,使目標(biāo)的表征同時具備細(xì)節(jié)感知與全局語義,從而實現(xiàn)更完整的上下文融合。這樣一來,推理階段無需再使用全局視覺標(biāo)記,顯著降低顯存與時間消耗,同時保持語義一致性與理解精度。



      PixelRefer-Lite 實現(xiàn)了一個高效的推理框架,在保持高性能的同時將推理速度提升約 2–3 倍。

      數(shù)據(jù)集

      作者收集并開源了用于訓(xùn)練的兩類數(shù)據(jù)集,分別是Foundational Object Perception(140萬樣本):涵蓋物體、部件、時序關(guān)系的識別與描述以及Visual Instruction Tuning(80萬樣本):覆蓋區(qū)域QA、視頻QA、多對象關(guān)系與未來事件預(yù)測QA。



      性能結(jié)果

      • 對于圖像像素級細(xì)粒度理解benchmark



      PixelRefer在多個圖像理解benchmark上已達(dá)到SOTA水平,不論是簡單的區(qū)域識別還是詳細(xì)理解,已成為最先進(jìn)的模型,特別是在reasoning場景下,更是展現(xiàn)出了突出優(yōu)勢。

      • 對于視頻像素級細(xì)粒度理解benchmark



      在經(jīng)典的VideoRefer-Bench上,不論是視頻區(qū)域的caption還是QA,均取得了領(lǐng)先性能,展現(xiàn)了通用而又全面的能力。

      • 對于推理時間與效率的計算



      在基于圖片的benchmark DLC-Bench和基于視頻的benchmark上HC-STVG上均進(jìn)行了測評,輕量版的PixelRefer-Lite-2B模型有較大的領(lǐng)先優(yōu)勢,特別是在視頻上,相較于DAM-3B,推理時間縮短了約4倍,顯存占用減少了2倍。

      • 消融實驗:Scale-adaptive Object TokenizervsMaskPooling



      • 相較于之前簡單maskpooling的做法,作者提出的Scale-adaptive Object Tokenizer模塊有明顯的提升,特別是在小目標(biāo)理解上,在LVIS和DLC-Bench上均提升了十幾個點。

      • 消融實驗:對于區(qū)域token的表征個數(shù)



      研究意義與總結(jié)

      PixelRefer的出現(xiàn),標(biāo)志著AI視覺理解從“看懂一張圖”邁向“理解世界的細(xì)節(jié)動態(tài)”,為多模態(tài)大模型的精細(xì)化視覺理解提供了新的方向。應(yīng)用前景包括:

      • 自動駕駛的時序場景識別
      • 醫(yī)療影像的病灶級理解
      • 智能視頻剪輯與監(jiān)控
      • 多模態(tài)對話與人機(jī)交互

      未來的多模態(tài)AI,不僅會“看見世界”,更會理解世界的關(guān)系。PixelRefer的提出,正是通向通用視覺智能的一塊關(guān)鍵拼圖。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      如果維拉歐聯(lián)奪冠且聯(lián)賽排第五,切爾西拿第六也有望晉級歐冠

      如果維拉歐聯(lián)奪冠且聯(lián)賽排第五,切爾西拿第六也有望晉級歐冠

      懂球帝
      2026-05-08 09:11:35
      曼聯(lián)夏窗首簽浮出水面:托納利轉(zhuǎn)會受阻,紅魔全力攻堅布萊頓新星

      曼聯(lián)夏窗首簽浮出水面:托納利轉(zhuǎn)會受阻,紅魔全力攻堅布萊頓新星

      星耀國際足壇
      2026-05-08 11:17:36
      震驚!部分女性網(wǎng)購衣物穿幾天后退貨,直言“會過日子”引發(fā)爭議

      震驚!部分女性網(wǎng)購衣物穿幾天后退貨,直言“會過日子”引發(fā)爭議

      火山詩話
      2026-05-07 16:04:16
      100美元"兒童座機(jī)"賣斷貨:學(xué)校批量采購防沉迷

      100美元"兒童座機(jī)"賣斷貨:學(xué)校批量采購防沉迷

      薛定諤的BUG
      2026-05-06 23:15:24
      58歲狄仁杰路過一肉鋪,見女子切肉從不換手,立刻吩咐,速回府

      58歲狄仁杰路過一肉鋪,見女子切肉從不換手,立刻吩咐,速回府

      瓜哥的動物日記
      2026-05-07 11:45:08
      研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險增高!

      研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險增高!

      黯泉
      2026-05-03 20:25:37
      隨著維拉4-1,英超成為本賽季歐戰(zhàn)最大贏家:3隊打入決賽

      隨著維拉4-1,英超成為本賽季歐戰(zhàn)最大贏家:3隊打入決賽

      側(cè)身凌空斬
      2026-05-08 05:05:19
      特朗普7米鍍金巨像落地,耗資36萬美元,是要造神還是搞錢

      特朗普7米鍍金巨像落地,耗資36萬美元,是要造神還是搞錢

      精彩背后的故事
      2026-05-05 16:52:25
      梅根發(fā)布阿奇王子7歲生日照,王室沒有送祝福,和夏洛特差距明顯

      梅根發(fā)布阿奇王子7歲生日照,王室沒有送祝福,和夏洛特差距明顯

      天馬幸福的人生
      2026-05-08 06:58:39
      馬斯克宣布解散xAI:11位創(chuàng)始人全部跑光,3年燒掉2500億,最后只剩他一個人

      馬斯克宣布解散xAI:11位創(chuàng)始人全部跑光,3年燒掉2500億,最后只剩他一個人

      互聯(lián)網(wǎng)思想
      2026-05-07 19:48:03
      租下 22 萬顆英偉達(dá) GPU 的同一天,Anthropic 向谷歌 TPU 承諾了 2000 億美元

      租下 22 萬顆英偉達(dá) GPU 的同一天,Anthropic 向谷歌 TPU 承諾了 2000 億美元

      鈦媒體APP
      2026-05-07 10:00:21
      4-2!C羅百球里程碑,菲利克斯帽子戲法,勝利下輪死磕新月

      4-2!C羅百球里程碑,菲利克斯帽子戲法,勝利下輪死磕新月

      我的護(hù)球最獨特
      2026-05-08 04:02:53
      中國小學(xué)生赴海參崴這事人民日報都表態(tài)了,還刪我的文?

      中國小學(xué)生赴海參崴這事人民日報都表態(tài)了,還刪我的文?

      蔥哥說
      2026-05-07 13:53:38
      今夜!突然集體跳水!

      今夜!突然集體跳水!

      中國基金報
      2026-05-08 00:19:11
      1936年親手活捉蔣介石的孫銘九:建國后,上級部門破例為他謀工作

      1936年親手活捉蔣介石的孫銘九:建國后,上級部門破例為他謀工作

      磊子講史
      2026-01-22 10:13:17
      明星套現(xiàn)離場,留下85億窟窿,華誼兄弟被誰“抽”干了?

      明星套現(xiàn)離場,留下85億窟窿,華誼兄弟被誰“抽”干了?

      帥真商業(yè)
      2026-05-06 21:23:01
      廣廈輸球揪出頭號罪人!昔日奪冠奇兵7中2,他根本無法代替孫銘徽

      廣廈輸球揪出頭號罪人!昔日奪冠奇兵7中2,他根本無法代替孫銘徽

      老葉評球
      2026-05-07 22:49:31
      楊玉環(huán)陵墓出土,專家打開棺槨后發(fā)現(xiàn),千年前的“傳言”或被證實

      楊玉環(huán)陵墓出土,專家打開棺槨后發(fā)現(xiàn),千年前的“傳言”或被證實

      浩渺青史
      2026-05-02 22:49:18
      林志玲辣曬「細(xì)肩帶馬甲照」 網(wǎng)暈:身材真是不科學(xué)

      林志玲辣曬「細(xì)肩帶馬甲照」 網(wǎng)暈:身材真是不科學(xué)

      ETtoday星光云
      2026-05-08 11:18:11
      玄學(xué):為何內(nèi)行人都不碰圓形餐桌?老祖宗的話得聽!

      玄學(xué):為何內(nèi)行人都不碰圓形餐桌?老祖宗的話得聽!

      卡西莫多的故事
      2026-03-16 09:37:38
      2026-05-08 11:44:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12939文章數(shù) 142645關(guān)注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國商業(yè)火箭離SpaceX有多遠(yuǎn)?

      頭條要聞

      女子網(wǎng)購發(fā)現(xiàn)所在街道被"拉黑" 商家:"白嫖"的人太多

      頭條要聞

      女子網(wǎng)購發(fā)現(xiàn)所在街道被"拉黑" 商家:"白嫖"的人太多

      體育要聞

      巴黎再進(jìn)歐冠決賽,最尷尬的情況還是發(fā)生了

      娛樂要聞

      黃子佼獲緩刑4年,無需入獄服刑

      財經(jīng)要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發(fā)

      態(tài)度原創(chuàng)

      房產(chǎn)
      藝術(shù)
      數(shù)碼
      時尚
      公開課

      房產(chǎn)要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      藝術(shù)要聞

      探索施密德的油畫,感受無法抵擋的藝術(shù)魅力!

      數(shù)碼要聞

      滿血塞進(jìn)RTX 5080與銳龍9 9950X3D!七彩虹iGame LAB Vulcan Armor火神戰(zhàn)甲定制主機(jī)評測:地表最強(qiáng)ITX主機(jī)

      今年母親節(jié),和媽媽一起變漂亮

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲激情视频hd| 91n在线观看| 国产成人一区二区无码不卡在线| 成人网站av亚洲国产| 一本色道综合久久欧美日韩精品| 国产av午夜精品福利| 丰满熟女乱婬A片六区| 欧美日本道免费二区三区| 成人aV毛片| 国产一区二区不卡91| 亚洲国语自产一区第二页| 一本a新久道| 亚洲天堂在线观看完整版| 青草内射中出高潮| 国产人碰人摸人爱视频| 国产日韩在线视看高清视频手机| h无码精品动漫在线观看| 天天久久综合| 亚洲成年av天堂动漫网站| 日本午夜视频| 精品人妻一区二区| 丁香五香天堂网| 中年熟女网| 犍为县| 日韩AV有码无码一区二区三区| 亚洲人成电影在线天堂色| 国产在线线精品宅男网址| 欧美成人1精品1区2区3区| 亚洲国产精品综合久久一线| 操碰在线观看| 狠狠?综合?精品?伊人| 亚洲精品尤物av在线网站 | 嫩呦囯产一区二区三区| 精品黄色av一区二区三区| 国内精品大秀视频日韩精品| 亚洲国产后入在线视频| 久久婷婷国产综合精品青草| 欧美XXXX做受欧美88BBW| 72种姿势欧美久久久久大黄蕉| 少妇高潮喷水久久久影院| 亚洲人妻精品一区二区|