![]()
這項由中山大學、鵬城實驗室與美團聯合開展的研究,以預印本形式于2026年4月27日發布在arXiv平臺,編號為arXiv:2605.00891v1。感興趣的讀者可通過該編號檢索完整論文。
手機里的相機每天拍下無數張照片和視頻,人們早已習慣了用AI來識別照片里的貓咪、幫照片中的人物換個背景,或者給視頻打上自動字幕。然而,當你真正去看這些AI的"眼睛"時,會發現一件有些奇怪的事——大多數厲害的AI要么只會"看圖說話",要么只會"圈出目標",卻很少有誰能同時把這兩件事做得既好又快,更別說同時應對圖片和視頻了。
這正是這項研究要解決的問題。研究團隊開發了一個名為X2SAM的系統。這個名字里的"X2"可以理解為"任意到任意"——任意的指令,對應任意類型的圖像分割任務,既能處理靜止的圖片,也能處理動態的視頻,且二者共用同一套大腦。
一、為什么我們需要一個"全能選手"?
在AI視覺領域,有一類非常重要的任務叫做"圖像分割"——通俗地說,就是讓AI把畫面中每一個像素都歸類,精確地圈出"哪些像素屬于貓咪"、"哪些像素屬于背景"。這就好比一幅填色畫,AI需要把每個區域都精確地涂上對應的顏色,而不僅僅是在畫上貼一個標簽說"這里有只貓"。
目前已有兩類工具各自做這件事。一類是專門生成高質量像素級蒙版的"分割基礎模型",比如SAM和SAM2。SAM就像一把精準的美工刀,你用鼠標在圖上點一個點,它就能把那個物體精確地裁出來。但問題是,它只認識鼠標點擊、方框之類的"物理手勢",完全不懂語言。你不能跟它說"幫我把視頻里那只一直在白墻旁來回走動的人圈出來"——它根本聽不懂。
另一類是多模態大語言模型(可以把它理解為"能看圖的ChatGPT"),比如LLaVA、Qwen-VL等。這類模型語言理解能力極強,你說什么它都能聽懂,但它的輸出是文字,不是精確的像素蒙版。它能告訴你"這張圖里有一只橙色的貓坐在沙發上",卻無法精確地圈出那只貓的每一根胡須。
在這兩類工具之間,有一批"縫合怪"式的研究試圖把二者合并,比如LISA、GLaMM等,它們讓語言模型去驅動分割模型,實現"用語言描述、用像素呈現"的效果。然而這些模型大多只能處理靜態圖片,碰到視頻就束手無策;或者能處理視頻,卻不支持視覺提示(也就是說,你沒法用鼠標框一個區域告訴它"幫我追蹤這個東西")。
真正的痛點就在這里:沒有一個模型能同時做到——理解復雜語言指令、接受鼠標框選之類的視覺提示、處理圖片、處理視頻,并且把所有這些任務統一在一個框架里,生成時間上連貫的像素蒙版。X2SAM正是為了填補這個空缺而生。
二、X2SAM能干什么?一場覆蓋14種任務的"全科體檢"
為了讓讀者有直觀感受,可以把X2SAM想象成一位具備"全科能力"的視覺助手,它能接受各種形式的指令,然后在圖片或視頻上精確地圈出你關心的內容。
這位助手能做的事情,可以從圖片和視頻兩個維度各列舉七種能力來理解。在圖片維度,它可以做通用分割(把圖里所有人、車、樹都分類圈出來)、開放詞匯分割(圈出任意你說出名字的東西,包括它從沒專門訓練過的類別)、指代分割(根據"左邊那個穿紅衣服的人"這樣的描述圈出目標)、推理分割(根據"能用來倒進玻璃杯里的東西"這樣需要推斷的描述找到目標)、接地對話生成(一邊描述畫面一邊在對應的詞語上標出蒙版)、交互式分割(你鼠標點一個點或畫一個框,它就圈出那個區域)、視覺接地分割(你給它看一張參考圖里的某個區域,它在目標圖里找到對應物體并圈出來)。
在視頻維度,這七種能力全部對應地延伸過來,而且因為視頻是連續的幀序列,每種能力還需要額外處理時間上的連貫性——也就是說,第一幀圈出來的那只貓,在后續幾十幀里也要被精準地持續追蹤。
研究團隊還專門提出了一項新任務:視頻視覺接地分割(V-VGD)。這個任務的設定是這樣的:你在視頻的第一幀上用鼠標框出一個目標,系統需要自動追蹤這個目標,在整個視頻的每一幀里都生成精確的蒙版。這個任務沒有現成的數據集,研究團隊從兩個已有的視頻數據集(YT-VIS19和VIPSeg)出發,構建了YT19-VGD和VIPSeg-VGD兩個新數據集,并以此建立了V-VGD基準測試體系。
三、X2SAM是怎么工作的?一套協同配合的"視覺大腦"
X2SAM的內部結構可以用一個由四個核心部件組成的團隊來理解,每個部件各司其職,卻又緊密協作。
第一個部件是"全局視覺理解大腦",由視覺編碼器和大語言模型組成。研究團隊采用了Qwen3-VL-4B作為這個部件的基礎,這是一個同時能看圖和理解語言的預訓練模型。它負責把輸入的圖片或視頻轉換成模型能理解的語義表示,就像把一幅畫翻譯成一段詳盡的文字描述一樣。當你給出一條指令——無論是"圈出左邊那個拿雨傘的人",還是"找出視頻里總是靠著白墻走來走去的那個人"——這個大腦負責讀懂你的意圖,并產生一個特殊的指令信號,告訴后續的蒙版生成部件"你該去找什么"。這個指令信號就是所謂的"SEG潛在嵌入",可以把它理解為一張含有目標語義信息的"尋找令"。
第二個部件是"精細像素特征提取器",也就是蒙版編碼器,它來自SAM2的架構。與大語言模型處理的"粗粒度"語義不同,蒙版編碼器專門提取圖像的高分辨率、細粒度特征——邊緣、紋理、局部形狀這些信息。它就像一臺高倍放大鏡,專門盯著像素層面的細節,確保最終生成的蒙版邊緣足夠精確。
第三個部件是"蒙版解碼器",負責把"尋找令"和像素特征合并,生成最終的二值蒙版(即每個像素屬于目標還是背景的判斷)。研究團隊在這里做了一項關鍵的改進:引入了"Token-to-Image Attention"(詞元到圖像注意力)機制。通俗地說,這個機制讓語言模型產生的"尋找令"能夠直接與空間像素特征"對話",而不是僅僅作為一個外部條件附加進來。這樣做的效果是讓語義信息和空間信息深度融合,生成的蒙版不僅形狀準確,而且語義對齊更好。為了讓這個新機制不破壞早期訓練的穩定性,研究團隊采用了"零初始化"策略,也就是說在訓練最開始時這個機制的影響權重為零,隨著訓練推進再逐漸發揮作用——這就像新員工入職時先觀察、再逐漸參與,而不是第一天就大刀闊斧地改流程。
第四個部件是本研究最核心的創新之一:蒙版記憶模塊。這個模塊專門解決視頻處理中的時間連貫性問題。處理視頻的挑戰在于,視頻是一幀一幀的,而且相鄰幀之間的內容變化可能很微妙,也可能很劇烈。如果每一幀都獨立處理,生成的蒙版往往會"抖動"——前一幀把人圈準了,后一幀蒙版突然偏移,看起來像是在閃爍,極不穩定。
蒙版記憶模塊的工作流程分四步進行,形成一個循環。當處理視頻的某一幀時,它首先通過"記憶注意力"機制回顧已經處理過的歷史幀的視覺特征,將歷史信息與當前幀的視覺特征融合,生成時間上連貫的視覺表示。接著,蒙版解碼器利用這個經過時間加權的表示生成當前幀的蒙版。蒙版生成后,"記憶編碼器"把當前幀的視覺特征和蒙版預測結果合并,壓縮成一個"引導視覺特征"存入記憶庫。記憶庫采用先進先出(FIFO)的策略管理存儲空間——最多保存最近若干幀的信息,超出容量時自動丟棄最舊的幀。這就像一個人在看連續劇時,腦子里會自動保留最近幾集的情節來幫助理解當前劇情,而不會無限制地記住每一集的每一個細節。
消融實驗(即逐項驗證各個組件效果的實驗)顯示,只加入單尺度的簡單記憶特征提升有限,而加入蒙版引導和類別引導信息、以及多尺度特征后,視頻指代分割的J&F指標從53.6大幅跳升至65.0,視頻推理分割也從36.5升至53.5。這表明,讓記憶模塊"記住的不只是畫面,還有之前圈出來的蒙版形狀和語義類別",才是時間連貫性的真正關鍵所在。
此外,研究團隊還設計了一個"區域采樣器",用于處理視覺提示(即用戶用鼠標在畫面上點擊或框選的區域)。它的工作原理是在用戶指定的感興趣區域內進行點采樣,然后通過自適應池化匯聚成緊湊的區域級表示,注入到大語言模型中,讓模型知道"用戶關注的是這個特定區域"。這個模塊沒有可學習參數,既輕量又高效。
四、X2SAM是怎么訓練出來的?一套精心設計的"聯合訓練食譜"
訓練一個同時處理圖片和視頻、覆蓋14種任務的模型,面臨的最大挑戰之一是計算資源管理。圖片和視頻的內存消耗差異極大——一個視頻片段可能包含8幀甚至更多,內存占用是單張圖片的數倍。如果簡單地把圖片和視頻混在一起訓練,要么內存爆炸,要么效率極低。
研究團隊的訓練分兩個階段進行。第一階段叫做"無類別分割器訓練",目的是讓蒙版解碼器在接觸任何語言指令之前,先學會純粹的形狀和邊界感知能力。訓練數據使用SAM的SA-1B數據集中的蒙版標注,完全不涉及任何類別標簽,讓解碼器只關注"這個區域的輪廓是什么樣的"。這一步就像在教一個畫家先練好素描基礎,再談色彩和內容。消融實驗表明,使用SAM完整的1B數據集(而非子集或COCO數據集)訓練這個階段,能在幾乎所有后續任務上都取得更好的效果。
第二階段是核心的"統一聯合訓練",在圖片和視頻的混合數據上同時訓練所有14種任務。為了解決圖片和視頻內存消耗不對稱的問題,研究團隊設計了一套"維度轉換流水線":對于視頻輸入,將時間維度和批次維度做轉置,把一個包含T幀的視頻拆解為T張獨立的圖片,用同一套圖片級接口通過蒙版編碼器處理,然后通過蒙版記憶模塊串聯起時間依賴關系,最后再把T幀的蒙版沿時間維度拼接回來。這樣做的妙處在于,蒙版編碼器不需要感知"它在處理視頻",只需要處理一張張圖片,大大降低了工程復雜度。
批次管理上,視頻數據的每設備批次大小固定為1,圖片數據則通過批次乘數擴展為4倍,從而在相同的內存預算下讓圖片數據的GPU利用率更高。梯度累積策略也根據模態分開設置:圖片每步更新一次,視頻則累積多步后再更新,進一步平衡內存與訓練穩定性。此外,一個專門設計的"時間感知采樣器"把時間長度相同的視頻片段分到同一批次,避免不必要的填充。
最終,統一聯合訓練僅需約3300 GPU小時,而對照實驗中的"簡單聯合訓練"需要約5200 GPU小時——節省了約36.5%的訓練成本,同時在視頻任務上還取得了更好的性能。
五、X2SAM的實驗成績單:在哪些地方表現突出?
研究團隊在大量基準測試上對X2SAM進行了評估,與現有的專用模型和通用模型進行對比。
在圖片分割任務上,X2SAM與同樣基于圖片的通用模型X-SAM相比總體保持競爭力。在圖片通用分割(COCO全景分割PQ 54.1、實例分割mAP 45.8)和指代分割(RefCOCOg驗證集cIoU 81.9,創下新的最優成績)上表現穩健。特別值得注意的是,在圖片開放詞匯分割任務上,X2SAM取得了31.2 PQ,明顯高于X-SAM的20.9 PQ,說明X2SAM的語言理解能力帶來了更強的泛化能力。在推理分割任務上,X2SAM以64.5 cIoU和71.1 gIoU的成績超越了HyperSeg(分別高出7.8和11.9個百分點),在測試集的短問題和長問題子集上都取得了當時最優成績。
在視頻分割任務上,X2SAM的優勢更為顯著。在視頻指代分割任務中,X2SAM在Ref-YT21數據集上取得了78.5 J&F,在Ref-DV17數據集上取得了79.0 J&F,超越了此前領先的UniPixel-7B分別7.5和2.6個百分點。在視頻推理分割方面,X2SAM在ReVOS數據集上取得了69.9 J&F,比HyperSeg高出14.2個百分點,甚至超越了專門針對視頻指代任務設計的ReferFormer-B專用模型。在視頻接地對話生成任務上,X2SAM的mIoU為75.8,比VideoGLaMM高出21.5個百分點,差距相當顯著。
在視覺接地分割任務上,X2SAM在圖片端與專用圖片模型X-SAM相當(COCO點提示AP 45.9,框提示AP 48.5),在視頻端則大幅超越了SAM2-H。具體來說,在YT-VIS19數據集的框提示設置下,X2SAM取得了74.4 AP,而SAM2-H僅為54.0 AP;在更復雜的VIPSeg數據集上,X2SAM取得了57.8 AP,SAM2-H僅為40.4 AP。這一差距充分說明,當面對需要語言理解和時間追蹤雙重能力的任務時,純粹依賴低級視覺提示的SAM2存在明顯短板。
在域外泛化測試(即用從未見過的數據集測試)中,X2SAM在gRefCOCO(包含多目標和無目標表達式的泛化指代分割數據集)上超越了專用的非MLLM模型ReLA,也超越了PSALM和X-SAM等MLLM通用模型。在ADE20K的開放詞匯分割測試中,X2SAM取得了31.2 PQ、38.2 mIoU和20.2 mAP,全面超越ODISE和X-SAM等對比方法。
此外,X2SAM還保留了出色的圖片和視頻對話能力,在MMBench、SEED-Bench等圖片對話基準測試上取得了83.5和76.0的成績,在VideoMME、MVBench、MLVU、LongVideoBench等視頻對話基準測試上也表現優異,超越了Video-LLaVA、VideoChat2、VILA-1.5等專注對話的模型。這說明在為模型加入精細分割能力時,團隊有效地防止了模型的通用對話能力退化。
六、X2SAM目前還有哪些不足和未來方向?
任何研究都有其邊界,X2SAM也不例外。研究團隊在論文中坦誠地指出了三點局限性。
第一,跨模態的統一訓練仍然計算開銷較大,尤其是視頻數據的內存占用問題,即便有了現有的優化策略,訓練成本依然不低,這對于資源有限的研究團隊來說是一個門檻。
第二,固定大小的FIFO記憶庫對于超長視頻來說可能力不從心。如果目標在視頻中經歷了長時間遮擋、劇烈外觀變化,或者消失很久后又重新出現,有限容量的記憶模塊可能無法有效保存關鍵的歷史信息,導致追蹤失敗。
第三,作為一個通用模型,X2SAM在某些高度專門化的單一任務上仍然落后于專用模型——比如專注于視頻對象分割的SAM2-H,在YT-VOS19上的J&F為88.8,而X2SAM為74.0。這是通用性與專業性之間永恒的權衡取舍。
研究團隊表示,未來工作將探索更高效的訓練方法、更輕量的骨干網絡,以及自適應的長時程記憶機制,以期在可擴展性和魯棒性上進一步提升。
歸根結底,X2SAM這項工作的核心價值在于證明了一件事:讓AI同時看懂圖片和視頻、同時接受語言和視覺提示、同時處理從通用分類到復雜推理的各種任務,并不需要七八套獨立的系統拼湊在一起——一個統一的框架,加上精心設計的記憶機制和訓練策略,就可以做到。這種"大一統"的思路,不僅在工程上更整潔,在性能上也沒有付出明顯的代價,在很多任務上反而因為跨任務的知識共享而有所增益。
對普通用戶而言,這意味著未來的AI視覺助手可能會變得更加全能——你可以直接對著監控視頻說"幫我追蹤那個紅色背包的人",或者對著一段家庭視頻說"把兩個孩子分別圈出來并標注他們的運動軌跡",系統會自然地理解你的意圖并生成精確的時間連貫蒙版,而不需要你先選模型、再選任務、再分別操作。
當然,從研究原型到日常可用的產品,還有相當長的路要走,但X2SAM的出現表明這條路的方向是清晰的。有興趣深入了解技術細節的讀者,可以通過arXiv編號2605.00891查閱完整論文,代碼也已在GitHub上以wanghao9610/X2SAM的地址開源。
Q&A
Q1:X2SAM和SAM2有什么區別,為什么不直接用SAM2?
A:SAM2是一個優秀的分割工具,但它只認識鼠標點擊和方框這類"物理提示",完全不理解語言。你沒法跟SAM2說"圈出視頻里一直在白墻旁走動的人",它聽不懂。X2SAM在SAM2的基礎上加入了大語言模型,能理解復雜的文字描述甚至需要推理的指令,同時通過蒙版記憶模塊保持視頻中的時間連貫性。兩者的適用場景不同,SAM2更像一把精準的剪刀,X2SAM更像一個能聽懂指令的智能剪輯助手。
Q2:X2SAM的蒙版記憶模塊是怎么保證視頻中目標不丟失的?
A:蒙版記憶模塊維護著一個"滾動記憶庫",保存最近若干幀(默認6幀)的視覺特征和蒙版信息。處理每一幀時,系統會先回顧這些歷史記錄,把歷史信息與當前幀融合,生成時間上連貫的特征,再據此生成蒙版。處理完后,當前幀的信息又被存入記憶庫,最舊的幀被自動丟棄。這種"向前看歷史、向后傳狀態"的機制有效避免了逐幀獨立處理時產生的蒙版抖動和目標丟失問題。
Q3:X2SAM需要多少GPU才能訓練,普通研究團隊能用嗎?
A:X2SAM的完整訓練在32塊NVIDIA H800 GPU上進行,統一聯合訓練階段總計約消耗3300 GPU小時。這對大多數高校實驗室來說確實是不小的門檻。不過研究團隊已經開源了代碼和模型權重,普通研究人員可以直接使用預訓練好的模型進行推理或在小數據集上微調,不需要從頭復現完整訓練流程。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.