<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      從圖像到視頻的任意分割:X2SAM讓MLLM 真正看懂像素級時空世界

      0
      分享至




      本研究由中山大學、美團聯合完成,第一作者王豪為中山大學博士研究生,主要研究方向為圖像和視頻分割、開放場景視覺感知、多模態大模型等。論文共同通訊作者為梁小丹教授和藍湘源副研究員。

      如今,多模態大模型已經能夠看圖、看視頻,并回答復雜問題。但如果進一步要求模型「把畫面中的某個目標精準分割出來」,問題就變得沒有那么簡單。例如,用戶提出這樣一個需求:



      這不僅要求模型理解自然語言描述,還需要它在視頻的每一幀中持續定位同一個人,并輸出準確的像素級輪廓。傳統分割模型擅長生成高質量掩碼,但通常依賴點、框等明確提示,難以理解復雜自然語言。另一方面,現有多模態分割模型往往只面向圖像或視頻中的某一類任務,難以用一個統一模型同時處理圖像、視頻、文本提示和視覺提示。

      為了解決這一問題,來自中山大學和美團的研究團隊提出了 X2SAM,一個統一的圖像與視頻分割多模態大模型框架。它希望讓模型不僅能「看懂」圖像和視頻,還能進一步「指出」目標在每個像素上的準確位置。



      • 論文標題:X2SAM: Any Segmentation in Images and Videos
      • 論文鏈接:https://arxiv.org/abs/2605.00891
      • 項目主頁:https://wanghao9610.github.io/X2SAM
      • 項目代碼:https://github.com/wanghao9610/X2SAM

      一個模型,處理多種分割需求



      圖 1 X2SAM 模型架構圖

      X2SAM 的核心目標,是將圖像和視頻中的多種分割任務納入同一個框架。X2SAM 由多模態大模型、區域采樣模塊、Mask Encoder、Mask Decoder 和 Mask Memory 等部分組成。輸入圖像或視頻后,視覺編碼器首先提取視覺特征;多模態大模型負責理解用戶的文本指令、視覺提示以及上下文信息,并將這些語義信息轉化為可用于分割的目標表示。隨后,Mask Encoder 提取用于分割的視覺特征,Mask Decoder 根據目標表示和視覺特征生成像素級掩碼。對于視頻輸入,Mask Memory 會進一步保存歷史幀中的目標信息,并在處理當前幀時提供時序參考,使模型能夠在目標運動、遮擋或形變的情況下保持更穩定的分割結果。

      用戶既可以用文字描述目標,例如「正在滑下來的運動員」「可以倒進杯子里的物體」;也可以通過點、框或區域提示,直接告訴模型想要分割哪個對象。模型隨后根據這些提示,輸出對應的分割結果。

      在統一框架下,X2SAM 支持多類任務,包括:通用分割,開放詞匯分割,指代表達分割,推理分割,對話生成分割,視覺定位分割,以及對象級分割(包含圖像交互分割和視頻目標分割)。



      圖 2 X2SAM 支持的任務展示

      簡單來說,X2SAM 既能理解「把左邊正在喝奶的小狗分割出來」這樣的語言指令,也能根據用戶點選或框選區域的視覺指令,在圖像或視頻中找到對應目標。

      讓視頻分割更穩定:模型需要記住過去



      圖 3 Mask Memory 模塊結構圖

      視頻分割比圖像分割更難,目標會移動、被遮擋、發生形變,甚至短暫消失。如果模型只逐幀處理,很容易出現前后不一致的問題:這一幀分對了,下一幀可能就跟丟了。為此,X2SAM 引入了 Mask Memory 模塊。可以把它理解為模型的「短期記憶」:它會記錄前面若干幀中與目標相關的信息,并在處理當前幀時參考這些歷史信息。這樣一來,模型不僅能在單幀中找到目標,也能在視頻中保持對同一目標的連續追蹤,從而輸出更穩定的分割結果。

      新任務 V-VGD:點一下,模型分割整段視頻



      圖 4 視頻視覺定位分割任務展示

      論文還提出了一個新的視頻視覺定位分割任務:Video Visual Grounded Segmentation,簡稱 V-VGD。這個任務關注一個很實際的問題:如果用戶只在視頻開頭點一下或框一下某個目標,模型能不能在整段視頻中持續分割出這類目標?

      研究團隊基于 YT-VIS19 和 VIPSeg 構建了相關數據集。每個目標在首個可見幀中會獲得一個視覺提示,例如點、框或區域標注;模型需要根據這個提示,在后續視頻幀中持續找到并分割相應類別的對象。這類能力對于視頻編輯、自動標注、智能檢索等場景非常重要。例如,用戶只需要框選一次人物、車輛或商品,系統就可以自動完成后續視頻中相關目標的跟蹤與分割。

      實驗結果:圖像任務保持穩定,視頻任務表現突出



      實驗顯示,X2SAM 在圖像任務上保持了較強競爭力,同時在視頻任務上展現出明顯優勢。

      在圖像開放詞匯分割任務中,X2SAM 在 ADE20K 相關評測上取得了優于此前 SoTA 方法的結果;同時,它在其他圖像分割任務上也取得了不錯的性能表現。這說明,將模型擴展到視頻場景后,并沒有明顯削弱其處理靜態圖像的能力。

      在視頻任務上,X2SAM 的提升更加明顯:在視頻開放詞匯分割任務中,X2SAM 取得了 60.3 AP;在視頻推理分割任務中,X2SAM 達到 69.9 J&F,相比此前 SoTA 方法提升 14.2 點;在視頻對話生成分割任務中,X2SAM 取得了 75.8 mIoU,表現明顯優于此前方法;在新提出的 V-VGD 任務中,X2SAM 在多個設置下都顯著超過此前強基線方法。

      這些結果說明,X2SAM 不僅能處理單張圖片中的分割任務,也能更好地理解視頻中的目標變化、語言指令和視覺提示。

      更高效的統一訓練方式

      為了同時學習圖像和視頻中的多種任務,X2SAM 采用了統一訓練策略。相比直接將不同數據簡單混合訓練,X2SAM 的訓練方式在保持性能的同時顯著降低了計算成本。該策略將訓練成本從約 5.2K GPU hours 降至約 3.3K GPU hours,減少約 36.5%。

      這意味著,統一圖像和視頻分割并不一定需要線性增加訓練成本。通過合理設計訓練流程,模型可以更高效地學習跨模態、跨任務能力。

      統一分割模型還有哪些挑戰?

      當然,統一圖像和視頻分割仍然面臨一些挑戰。首先,聯合訓練圖像和視頻數據仍需要較高計算成本,尤其是視頻數據本身更占顯存和訓練資源。其次,當前的記憶機制仍然是固定長度的。對于很長的視頻,或者目標長時間被遮擋、外觀變化劇烈的情況,模型仍可能面臨挑戰。此外,X2SAM 是一個面向多任務的通用模型。在某些高度專門化的任務上,它可能仍不如針對單一任務深度優化的專家模型。

      未來,研究團隊計劃進一步探索更高效的訓練方法、更輕量的模型結構,以及更適合長視頻的記憶機制,讓模型在復雜視頻場景中更加穩定、可擴展。

      總結

      X2SAM 的意義在于,它將圖像分割、視頻分割、語言理解、視覺提示和時序記憶放進了同一個多模態框架中。它讓多模態大模型不只是「看懂畫面」和「回答問題」,而是進一步具備了像素級定位與分割能力。對于視頻編輯、自動標注、具身智能、機器人感知和多模態交互等場景,X2SAM 提供了一個統一而強大的分割多模態大模型方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曹操“加九錫”:九錫是什么鬼?史上加九錫還有誰,介紹完整名單

      曹操“加九錫”:九錫是什么鬼?史上加九錫還有誰,介紹完整名單

      長風文史
      2026-05-14 15:30:44
      何猷君奚夢瑤澳門小店用餐,與保鏢同桌吃飯,被指是豪門罕見舉動

      何猷君奚夢瑤澳門小店用餐,與保鏢同桌吃飯,被指是豪門罕見舉動

      八卦寶寶
      2026-05-15 00:59:10
      對象當初是這么把我騙到手的,網友:評論區個個都是高手啊

      對象當初是這么把我騙到手的,網友:評論區個個都是高手啊

      夜深愛雜談
      2026-05-13 07:37:46
      央視主持人朱迅:生命終將結束,為啥不勇敢面對生命的終點呢

      央視主持人朱迅:生命終將結束,為啥不勇敢面對生命的終點呢

      星河不入我
      2026-05-15 10:09:52
      穆帥不愿冷落本菲卡,正等待皇馬一錘定音!皇馬2將留隊,1將離開

      穆帥不愿冷落本菲卡,正等待皇馬一錘定音!皇馬2將留隊,1將離開

      福醬的小時光
      2026-05-15 07:34:31
      諾蘭《奧德賽》選角不是問題,但馬特·達蒙這句臺詞讓我皺眉頭

      諾蘭《奧德賽》選角不是問題,但馬特·達蒙這句臺詞讓我皺眉頭

      晚星歸航2
      2026-05-15 03:38:40
      官宣!6月1日起車管所“下崗”?3.3億車主迎來特大喜訊

      官宣!6月1日起車管所“下崗”?3.3億車主迎來特大喜訊

      阿芒娛樂說
      2026-05-14 12:19:34
      青樓出身,無法生育被休,改嫁上將連生11子,人人敬重的廣東之母

      青樓出身,無法生育被休,改嫁上將連生11子,人人敬重的廣東之母

      浩渺青史
      2026-04-28 15:40:40
      越扒越有!閆學晶風波僅3月,難堪的一幕發生,王紅梅成眾矢之的

      越扒越有!閆學晶風波僅3月,難堪的一幕發生,王紅梅成眾矢之的

      星娛叨叨社
      2026-05-14 15:30:00
      關于臺灣問題,中國對美國已攤牌,當著特朗普面,中方把話說死了

      關于臺灣問題,中國對美國已攤牌,當著特朗普面,中方把話說死了

      阿嘵田侃故事
      2026-05-15 08:31:56
      中國籃協:6位外籍裁判將吹罰CBA半決賽及決賽

      中國籃協:6位外籍裁判將吹罰CBA半決賽及決賽

      體壇周報
      2026-05-15 10:13:23
      5月,遇到這水果別手軟,一次買20斤,曬干后美味翻倍,營養解饞

      5月,遇到這水果別手軟,一次買20斤,曬干后美味翻倍,營養解饞

      阿龍美食記
      2026-05-13 14:06:46
      雷軍找馬斯克自拍,到底丟誰的臉?

      雷軍找馬斯克自拍,到底丟誰的臉?

      熱辣茉莉說
      2026-05-14 23:03:10
      場上絕殺場下失意!阿森納功臣特羅薩德官宣離婚,結束5年婚姻

      場上絕殺場下失意!阿森納功臣特羅薩德官宣離婚,結束5年婚姻

      星耀國際足壇
      2026-05-14 16:10:48
      中使館提醒:一次沉迷,終生悔恨!歡迎舉報或自首

      中使館提醒:一次沉迷,終生悔恨!歡迎舉報或自首

      南方都市報
      2026-05-15 08:19:03
      車田正美70歲再開新坑,《天界篇》終于不鴿了

      車田正美70歲再開新坑,《天界篇》終于不鴿了

      晚星歸航2
      2026-05-14 16:06:36
      巴西記者:若安帥征召內馬爾,被擠出名單的將是安德雷-桑托斯

      巴西記者:若安帥征召內馬爾,被擠出名單的將是安德雷-桑托斯

      懂球帝
      2026-05-15 09:21:06
      孫穎莎“金牌陪練”孫銘陽宣布退役,未來去向3選1,或效仿劉詩雯

      孫穎莎“金牌陪練”孫銘陽宣布退役,未來去向3選1,或效仿劉詩雯

      林子說事
      2026-05-14 18:18:21
      被指看起來很慈祥!迪麗熱巴最新廣告年齡感很明顯,網辣評:老了

      被指看起來很慈祥!迪麗熱巴最新廣告年齡感很明顯,網辣評:老了

      可樂談情感
      2026-05-14 08:53:46
      戴維森在青島西海岸7連平后發聲!已做出重要決定,引發熱議

      戴維森在青島西海岸7連平后發聲!已做出重要決定,引發熱議

      懂個球
      2026-05-15 00:26:34
      2026-05-15 11:31:02
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12999文章數 142648關注度
      往期回顧 全部

      科技要聞

      兩年聯姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      體育要聞

      德約科維奇買的球隊,從第6級聯賽升入法甲

      娛樂要聞

      方媛回應住男生單人間:女孩的配得感

      財經要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      教育
      手機
      藝術
      親子
      軍事航空

      教育要聞

      美國商務簽 真的假不了假的真不了 看看什么叫真正的商務人士辦的商務簽

      手機要聞

      對標大疆Pocket!OPPO、vivo年底齊推云臺相機

      藝術要聞

      王洪文書法深得教員精髓!當下,書法是大眾文化還是小眾文化?

      親子要聞

      我和7個月女娃的晚間規律【周六野Zoey】

      軍事要聞

      烏克蘭首都基輔遭空襲 死亡人數增至12人

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美?级毛片一进一出夜本色| 极品尤物被啪到呻吟喷水| 国产又粗又大又爽91嫩草| 中文字幕乱码人妻无码偷偷| 男人的天堂精品国产一区| 国产女人被狂躁到高潮小说| 风骚少妇久久精品在线观看| 国产成人啪精品视频免费网| 亚洲AV天天做在线观看| 平舆县| 狠狠亚洲婷婷综合久久久| 国产成人精品无码免费看| 成人av天堂男人资源站| 亚洲综合色自拍一区| 亚洲三区视频| 国产日本一区二区在线| 精品久久欧美熟妇www| 无码中文字幕热热久久| 国产黄色视频大全| 日本深夜福利在线观看| 黄色免费网址在线观看| av大片在线无码永久免费网址| 五月婷婷中文字幕| 国产亚洲精品综合一区二区| 黑人VideOS特大粗暴| 在线天堂www在线| 性爱爽网| 久久er国产精品免费观看1 | 国产精品老熟女一区二区| 99RE8这里有精品热视频| 视频一区视频二区视频三| 亚洲成人国产精品| 成人精品国产亚洲欧洲| 国产亚洲精品自在久久77| 最新午夜男女福利片视频| 女子spa高潮呻吟抽搐| 97人人澡| 亚洲av成人一区二区三区| 日本精品成人一区二区三区视频| 久久久久久国产精品mv| 午夜天堂av天堂久久久|