改進(jìn)視覺Transformer：增強(qiáng)空間先驗

2026-04-29 12:11:41　來源: CreateAMind

上海舉報

分享至

Advancing Vision Transformer with Enhanced Spatial Priors

改進(jìn)視覺Transformer：增強(qiáng)空間先驗

摘要——

近年來，視覺 Transformer（ViT）在計算機(jī)視覺領(lǐng)域引起了廣泛關(guān)注。然而，ViT 的核心組件自注意力（Self-Attention）缺乏顯式的空間先驗，且面臨二次計算復(fù)雜度的問題，限制了其適用性。為了解決這些問題，我們提出了 RMT，這是一種具有顯式空間先驗的用于通用目的的魯棒視覺骨干網(wǎng)絡(luò)。RMT 利用曼哈頓距離衰減（Manhattan distance decay）來引入空間信息，并采用水平和垂直分解注意力方法來建模全局信息。建立在 RMT 優(yōu)勢的基礎(chǔ)上，歐幾里得增強(qiáng)視覺 Transformer（EVT） 是一個包含了幾個關(guān)鍵改進(jìn)的擴(kuò)展版本。首先，EVT 使用更合理的歐幾里得距離衰減來增強(qiáng)空間信息的建模，與 RMT 中使用的曼哈頓距離相比，能夠更準(zhǔn)確地表示空間關(guān)系。其次，EVT 放棄了 RMT 中特有的分解注意力機(jī)制，轉(zhuǎn)而采用一種更簡單的空間獨立分組方法，為模型在控制每組內(nèi)的 token 數(shù)量方面提供了更大的靈活性。通過這些改進(jìn)，EVT 提供了一種更復(fù)雜且適應(yīng)性更強(qiáng)的方法將空間先驗整合到自注意力機(jī)制中，從而克服了與 RMT 相關(guān)的一些局限性，并進(jìn)一步增強(qiáng)了其在各種計算機(jī)視覺任務(wù)中的適用性。在圖像分類、目標(biāo)檢測、實例分割和語義分割上的大量實驗表明，EVT 表現(xiàn)出卓越的性能。在沒有額外訓(xùn)練數(shù)據(jù)的情況下，EVT 在 ImageNet-1k 上實現(xiàn)了 86.6% 的 top-1 準(zhǔn)確率。

索引術(shù)語——視覺 Transformer，空間先驗，Token 分組。

1 引言

視覺 Transformer（ViT）[1] 已成為研究界備受推崇的視覺架構(gòu)。盡管如此，它仍面臨幾個重大問題。ViT 的核心模塊自注意力（Self-Attention）本質(zhì)上缺乏顯式的空間先驗，而這是卷積所具備的特征。此外，自注意力的二次計算復(fù)雜度在嘗試建模全局信息時會導(dǎo)致相當(dāng)大的計算成本，從而限制了其實際應(yīng)用。

多項研究試圖緩解這些挑戰(zhàn)[2]–[8]。例如，Swin Transformer [3] 采用窗口操作來劃分用于自注意力的 token。該技術(shù)不僅降低了計算開銷，還通過使用窗口和相對位置編碼將空間先驗引入模型。同樣地，NAT [9] 改變了自注意力的感受野以模擬卷積層的形狀，從而降低了計算成本，并使模型能夠通過其感受野配置識別空間先驗。RMT [10] 將自然語言處理（NLP）[11], [12] 中的顯式衰減概念擴(kuò)展到空間域，設(shè)計了一種基于 token 之間曼哈頓距離的二維雙向空間衰減矩陣。它還提出了一種水平和垂直分解注意力機(jī)制來建模全局信息。

在這項工作中，我們同樣基于 token 之間的相對距離設(shè)計了一種二維雙向空間衰減矩陣。在我們的空間衰減矩陣中，目標(biāo) token 對距離較遠(yuǎn) token 的注意力分?jǐn)?shù)衰減更為急劇。該設(shè)計使目標(biāo) token 能夠在捕獲全局信息的同時，根據(jù)距離區(qū)分注意力等級。通過引入該空間衰減矩陣，我們成功將顯式空間先驗整合到視覺骨干網(wǎng)絡(luò)中，從而增強(qiáng)了其有效處理空間信息的能力。與 RMT [10] 中使用的曼哈頓距離不同，我們采用歐幾里得距離來建模 token 之間的關(guān)系。做出這一改變的原因是，人類對遠(yuǎn)離視野中心物體的注意力呈徑向衰減模式 [13]，這與歐幾里得距離的徑向增長規(guī)律相一致。此外，我們采用了一種一維且空間獨立的 token 分組方法。與二維空間依賴的分組方法（如 Swin Transformer 中的窗口劃分和 MaxViT 中的二維膨脹分組）相比，該方法允許對每組內(nèi)的 token 數(shù)量進(jìn)行更靈活的控制。我們的實驗表明，所提出的空間衰減矩陣為模型帶來了顯著的空間先驗。一維 token 分組方法與空間衰減矩陣相結(jié)合，能夠取得優(yōu)于二維分組方法的效果。鑒于我們的模型通過利用 token 之間的歐幾里得距離來引入空間先驗，我們將其命名為歐幾里得增強(qiáng)視覺 Transformer（EVT）。

我們開展了廣泛的實驗，涵蓋圖像分類、目標(biāo)檢測、實例分割、語義分割以及魯棒性測試，以驗證 EVT 的性能。EVT 在所有任務(wù)上均展現(xiàn)出顯著的性能優(yōu)勢。如圖 1 所示，在 224×224 分辨率下，EVT 在無需任何額外訓(xùn)練數(shù)據(jù)或監(jiān)督信息的情況下，達(dá)到了 85.8% 的 top-1 準(zhǔn)確率，且計算量僅為 18.2 GFLOPs。當(dāng)分辨率提升至 384×384 時，模型性能得到進(jìn)一步提升。我們的 EVT-L 模型僅包含 1 億（100M）參數(shù)，即實現(xiàn)了 86.6% 的 top-1 準(zhǔn)確率，顯著優(yōu)于現(xiàn)有模型。

本工作的初步版本已發(fā)表于 CVPR 2024 [10]。在本文中，我們在以下幾個方面對會議版本進(jìn)行了擴(kuò)展： ? 我們將 RMT 中基于曼哈頓距離的空間先驗替換為更直觀的基于歐幾里得距離的空間先驗。我們開展了大量實驗，證明這種呈徑向衰減的空間先驗顯著增強(qiáng)了模型的空間理解能力，進(jìn)而提升了其整體性能。 ? 我們提出了一種用于視覺 token 的一維分組方法。該分組方法忽略了 token 之間的空間關(guān)系，使模型能夠靈活控制每組內(nèi)的 token 數(shù)量。與 RMT 中采用的水平與垂直分解注意力機(jī)制相比，所提出的分組方法更為簡單且高效。 ? 我們開展了廣泛的實驗以驗證 EVT 的性能。EVT 在圖像分類、目標(biāo)檢測、實例分割、語義分割以及分布外（OOD）數(shù)據(jù)集分類等多種任務(wù)中均展現(xiàn)出卓越的性能。此外，我們進(jìn)行了大量消融實驗，以驗證 EVT 內(nèi)部各模塊的具體貢獻(xiàn)。

2 相關(guān)工作

2.1 視覺 Transformer

自原始基礎(chǔ)版 ViT [1] 提出以來，許多研究工作致力于設(shè)計能夠更好地捕獲空間信息與多尺度特征的層次化架構(gòu) [3], [7], [14]–[20]。這些工作的核心主要圍繞設(shè)計高效的、具有線性復(fù)雜度的注意力機(jī)制，以更有效地提供歸納偏置。例如，Swin Transformer 引入了基于窗口的自注意力機(jī)制 [3], [21]，PVT/PVTv2 提出了空間下采樣注意力 [7], [22]–[24]，DAT 提出了可變形注意力 [15]，而 BiFormer 則開發(fā)了多尺度路由注意力 [17]。此外，還有一些方法利用全局或區(qū)域 token 在圖像不同區(qū)域之間傳遞信息 [25]–[29]。同時，許多研究工作嘗試對 ViT 進(jìn)行擴(kuò)展，從分辨率和模型參數(shù)量兩個角度著手解決相關(guān)問題 [30]–[35]。除上述方法外，還有許多其他方法旨在加速 ViT 的推理過程。其中，諸如 EViT [36], [37] 等方法采用 token 剪枝策略，而 ToMe [38] 則使用 token 合并技術(shù)來融合相似的 token。此外，一些方法嘗試通過對 token 進(jìn)行聚類 [19], [39] 來降低全局注意力的計算開銷。在本工作中，我們提出了一種新穎的空間獨立一維 token 分組方法。該方法允許對每組內(nèi)的 token 數(shù)量進(jìn)行更靈活的控制。在空間先驗的支持下，該方法已展現(xiàn)出令人印象深刻的性能。

2.2 卷積-Transformer 混合架構(gòu)

卷積在捕獲圖像中的高頻紋理信息方面效果顯著，而 Transformer 則在建模低頻全局信息方面具有優(yōu)勢 [5], [7], [40]。因此，許多架構(gòu)嘗試結(jié)合這兩種方法的優(yōu)勢 [2], [5], [7], [40]–[44]。CMT [7] 將輕量級注意力模塊與卷積相結(jié)合，依次提取局部與全局信息。iFormer [42] 采用并行設(shè)計，在同一 token 混合模塊內(nèi)，一部分通道使用自注意力機(jī)制提取全局信息，而另一部分則使用卷積捕獲局部信息，隨后通過線性投影將這些信息融合。此外，許多其他工作將輕量級卷積插入到 Transformer 設(shè)計的各個子組件中。例如，在模型起始處使用卷積莖（Conv Stem）對圖像進(jìn)行下采樣 [17], [39]；在注意力機(jī)制之前插入基于卷積的局部信息增強(qiáng)模塊 [2], [7], [39]；以及在前饋網(wǎng)絡(luò)（FFN）中引入卷積以提供位置信息 [22], [23], [45]。在 RMT [10] 與 EVT 的設(shè)計中，卷積也被用于增強(qiáng)模型的局部表征能力。

2.3 視覺模型中的位置先驗

位置編碼是 Transformer 的關(guān)鍵模塊，它為每個 token 提供位置信息，從而使 Transformer 能夠感知 token 的位置 [46]。最早的 ViT 采用了基于正弦函數(shù)的絕對位置編碼 [1]。隨后，許多研究工作致力于改進(jìn)視覺 token 的位置編碼方法 [3], [14], [23], [34], [47], [48]。CPVT [47] 引入了基于深度可分離卷積的條件位置編碼（CPE），該方法可非常靈活地插入到 ViT 的任意位置。在 Swin Transformer v2 [34] 中，提出了對數(shù)間隔的相對位置編碼。與原始的相對位置編碼相比，該方法更適用于高分辨率圖像 [3]。在 CSwin [14] 中，采用了 LePE，這是一種高度靈活的、基于卷積的位置編碼方法，已被眾多技術(shù)廣泛采用 [17], [49], [50]。此外，一些方法將卷積融入前饋網(wǎng)絡(luò)（FFN）模塊以提供位置信息，從而提升 Transformer 的性能 [7], [23], [45]。與前述方法不同，EVA02 [48] 從大型語言模型中廣泛使用的旋轉(zhuǎn)位置編碼（RoPE）[51] 獲得啟發(fā)，提出了一種二維旋轉(zhuǎn)位置編碼并將其應(yīng)用于視覺模型。在 RMT [10] 中，受 ALiBi [12] 與 RetNet [11] 在自然語言處理領(lǐng)域成功應(yīng)用的啟發(fā)，我們將基于曼哈頓距離的顯式空間衰減引入自注意力機(jī)制，以向模型提供空間信息。在本工作中，我們進(jìn)一步改進(jìn)了該空間衰減方法，用更直觀的歐幾里得距離替代了曼哈頓距離。

3 方法

3.1 預(yù)備知識：RMT

在 RMT 中，我們受到 RetNet [11] 和 ALiBi [12] 中提出的一維時間衰減的啟發(fā)，并將其擴(kuò)展至二維空間域。由此得到了 RMT 中使用的基于曼哈頓距離的空間衰減。隨著 token 之間相對距離的增加，該衰減會逐漸增強(qiáng)，從而將空間先驗引入模型中。具體而言，如式 (1) 所示，我們的曼哈頓自注意力機(jī)制在注意力矩陣中引入了一個 D 矩陣作為衰減因子，從而將空間信息引入自注意力機(jī)制中：

此外，層次化架構(gòu)往往在淺層具有較高的分辨率，從而導(dǎo)致顯著的計算開銷。為了解決這一挑戰(zhàn)，RMT 引入了一種自注意力機(jī)制的分解形式，該形式允許以較低的計算成本進(jìn)行全局信息建模。具體而言，它沿著圖像的水平和垂直方向使用一維衰減矩陣來計算注意力權(quán)重，然后將這些注意力權(quán)重應(yīng)用于值（Value）。詳細(xì)過程如公式 2 所示：

3.2 EVT 的整體架構(gòu)

一個 EVT 模塊包含三個主要模塊：條件位置編碼（CPE）[47]、歐幾里得自注意力（EuSA）以及經(jīng)典的前饋網(wǎng)絡(luò)（FFN）[46]。一個完整的 EVT 模塊可以用公式 3 表示：

3.3 從曼哈頓距離到歐幾里得距離

在 RMT 中，顯式空間衰減基于曼哈頓距離，這與人類視覺感知圖像的方式并不一致。在識別圖像時，人類的注意力會隨距離呈徑向衰減 [13]。因此，我們將曼哈頓距離替換為歐幾里得距離。我們從兩個角度分析了歐幾里得距離相較于曼哈頓距離的優(yōu)勢。

（1）從分布相似性的角度：使用衰減矩陣的核心目的是將與空間相關(guān)的先驗引入注意力分?jǐn)?shù)中。盡管標(biāo)準(zhǔn)自注意力機(jī)制也能夠?qū)W習(xí)該先驗，但我們的衰減矩陣將其顯式地嵌入到注意力分?jǐn)?shù)中，從而簡化了學(xué)習(xí)過程。訓(xùn)練良好的無衰減矩陣 ViT 模型的注意力分?jǐn)?shù)分布與我們的衰減矩陣分布越接近，說明我們的衰減矩陣越能有效地促進(jìn)空間先驗的學(xué)習(xí)，最終帶來模型性能的提升。基于這一考慮，我們訓(xùn)練了一個不包含任何衰減矩陣的 EVT-T 模型。隨后，我們分析了其注意力分?jǐn)?shù)分布與不同衰減矩陣分布之間的相關(guān)性。我們使用 Jensen-Shannon（JS）散度來衡量不同分布之間的相似性，其計算公式如下：

較小的 JS 散度值表明分布之間的相關(guān)性更高。我們計算了 ImageNet-1K 驗證集中圖像的平均 JS 散度。結(jié)果如表 2 所示。基于 JS 散度值，基于歐幾里得距離的衰減矩陣分布與訓(xùn)練模型中標(biāo)準(zhǔn)注意力分?jǐn)?shù)的分布表現(xiàn)出更高的相似性，這也帶來了更好的性能。

我們的衰減矩陣的分布與訓(xùn)練良好的 ViT 模型的注意力分?jǐn)?shù)分布非常相似。后者已經(jīng)包含了原生 ViT 所學(xué)習(xí)的空間知識，盡管由于缺乏外部干預(yù)，該空間先驗仍然相對較弱。由于這兩種分布高度相似，它們的結(jié)合進(jìn)一步強(qiáng)化了模型所學(xué)習(xí)的空間先驗，從而提升了模型的性能。

為了進(jìn)一步闡明我們的論斷，即空間衰減矩陣能夠增強(qiáng)原生 ViT 的空間先驗，我們將不同模型與 DINOv2 進(jìn)行了比較——DINOv2 是一個強(qiáng)大的 ViT 骨干網(wǎng)絡(luò)，在海量數(shù)據(jù)集上進(jìn)行了大規(guī)模無監(jiān)督訓(xùn)練。結(jié)果如表 2 所示。與原始 DeiT 相比，我們的 EVT-DeiT 展現(xiàn)出與 DINOv2 更為相似的注意力分布，表明 EVT-DeiT 獲取了更豐富的空間知識。我們在 ImageNet-1K 上對模型進(jìn)行預(yù)訓(xùn)練，并使用這些預(yù)訓(xùn)練模型在 ADE20K 上進(jìn)行線性探測。EVT-DeiT 取得了顯著優(yōu)于 DeiT-T 的結(jié)果，這證明它學(xué)習(xí)到了更多的空間知識。

（2）從數(shù)值穩(wěn)定性的角度：曼哈頓距離定義為：

盡管直觀，但它存在距離變化不平滑的問題：曼哈頓距離沿坐標(biāo)軸方向線性增加，但沿對角線方向保持不變。這導(dǎo)致空間衰減因子的縮放不均勻，從而可能在注意力調(diào)制過程中引入各向異性偏差。

(3) 與標(biāo)準(zhǔn)注意力機(jī)制的比較 對于標(biāo)準(zhǔn)自注意力機(jī)制（不含空間衰減），其注意力權(quán)重為：

該公式并未顯式編碼任何空間先驗，無論幾何位置如何，均同等對待所有 token。盡管標(biāo)準(zhǔn)注意力機(jī)制能夠?qū)W習(xí)空間關(guān)系，但它們通常需要大規(guī)模的訓(xùn)練數(shù)據(jù)和大量的優(yōu)化才能捕獲有意義的空間結(jié)構(gòu)（如 DINOv2 等模型所示）。在沒有顯式空間偏置的情況下，學(xué)習(xí)到的空間特征往往較弱且魯棒性較差，尤其是在訓(xùn)練數(shù)據(jù)或計算資源有限的情況下。

通過引入空間衰減矩陣，注意力權(quán)重變?yōu)椋?/p>

（4）注意力權(quán)重關(guān)于空間坐標(biāo)的梯度：對于基于L2的衰減：

L2 梯度是平滑且具有方向感知能力的，而 L1 梯度是分段常數(shù)且不連續(xù)的，這可能會阻礙優(yōu)化和空間泛化。

(5) 譜分析與空間覆蓋

(6) 信息論視角：空間熵優(yōu)化 空間衰減充當(dāng)一種先驗，用于塑造注意力分布的熵：

L2 衰減在各向同性約束下最大化熵，促使模型捕獲多樣化且有意義的空間依賴關(guān)系。L1 衰減由于其軸對齊偏差，可能會降低熵，并限制模型學(xué)習(xí)復(fù)雜空間關(guān)系的能力。

(7) 表達(dá)能力與泛化性 每個 token 的輸出為：

該輸出能夠平滑地適應(yīng)空間結(jié)構(gòu)。L1 衰減傾向于產(chǎn)生軸對齊的感受野，在復(fù)雜空間場景中限制了模型的表達(dá)能力。

（8）梯度流與優(yōu)化景觀 L2 衰減的二階導(dǎo)數(shù)為：

這確保了良態(tài)的優(yōu)化地形，支持穩(wěn)定且高效的梯度流。相反，L1 衰減在除不連續(xù)點外的幾乎所有位置均產(chǎn)生零二階導(dǎo)數(shù)，這可能導(dǎo)致訓(xùn)練不穩(wěn)定。

（9）統(tǒng)一視角：為何 L2 在空間特征學(xué)習(xí)中更具優(yōu)勢盡管 L1 和 L2 衰減均能強(qiáng)制局部性，但 L2 的旋轉(zhuǎn)不變性與平滑衰減特性更契合圖像與空間模式的自然幾何結(jié)構(gòu)。這一點在分組與空洞注意力中尤為關(guān)鍵，因為其中的 token 鄰域往往呈現(xiàn)不規(guī)則形態(tài)。L2 衰減使模型能夠自適應(yīng)地從各個方向?qū)W習(xí)空間先驗，從而實現(xiàn)更連貫的特征聚合、更佳的泛化能力，以及對復(fù)雜空間結(jié)構(gòu)更優(yōu)的表征。即便在標(biāo)準(zhǔn)注意力架構(gòu)中，L2 衰減也能提升空間表達(dá)能力與優(yōu)化效果，其性能優(yōu)于 L1 衰減及無衰減基線。

基于上述分析，我們采用歐幾里得距離：

該方式提供了平滑且連續(xù)的縮放特性：與曼哈頓距離的階梯式行為不同，歐幾里得距離變化平滑，確保了注意力分?jǐn)?shù)的逐漸且一致的衰減。歐幾里得距離的平滑變化產(chǎn)生了一個性質(zhì)良好的加權(quán)函數(shù)，避免了注意力分布的突變，并確保了訓(xùn)練的穩(wěn)定性。

由于我們的方法將基于距離的衰減函數(shù)應(yīng)用于注意力分?jǐn)?shù)，曼哈頓距離的不連續(xù)性可能導(dǎo)致注意力調(diào)制的不穩(wěn)定。相比之下，歐幾里得距離憑借其平滑的過渡特性，確保了更穩(wěn)定且一致的加權(quán)機(jī)制，最終提升了注意力性能。

基于此，我們認(rèn)為使用歐幾里得距離作為 token 的衰減因子應(yīng)該是一種更直觀的方法。我們已將公式 1 中的曼哈頓自注意力機(jī)制（MaSA）升級為基于歐幾里得距離的歐幾里得自注意力機(jī)制（EuSA），詳見公式 18：

3.4 從分解形式到分組形式

在 RMT 中，我們將全局注意力分解為水平和垂直兩個維度，然后利用來自每個維度的注意力權(quán)重對值（Value）進(jìn)行加權(quán)，從而使 MaSA 能夠感知全局信息，如公式 2 所示。然而，這種方法存在兩個問題。首先，該方法導(dǎo)致了更高的復(fù)雜度。與其他線性復(fù)雜度的注意力機(jī)制（例如窗口自注意力 [3]）相比，MaSA 的復(fù)雜度為：

圖論解釋： 由于采用了交錯的分組分配，1D 分組/空洞注意力的注意力連接圖更為密集，與受網(wǎng)格約束的 2D 情況相比，這導(dǎo)致可達(dá)節(jié)點（token）的擴(kuò)展速度更快。

(2) 通過 2D 歐幾里得衰減恢復(fù)空間結(jié)構(gòu)

雖然單獨的 1D 注意力可能會破壞局部空間連續(xù)性，但我們提出的 2D 歐幾里得（L2）空間衰減矩陣：

這種空間先驗確保了，即使在巨大且不規(guī)則的感受野內(nèi)，模型依然對幾何鄰近性和局部連續(xù)性保持敏感，從而有效地恢復(fù)了空間結(jié)構(gòu)。

(3) 2D 空間先驗對 1D 注意力的理論影響

注意力權(quán)重關(guān)于空間坐標(biāo)的梯度為：

如表 3 所示，我們在 EVT-S 上進(jìn)行了實驗，并對不同的分組方法進(jìn)行了詳細(xì)比較。與二維分組/洗牌策略相比，一維分組/洗牌策略提供了兩個關(guān)鍵優(yōu)勢：

（a）更低的計算復(fù)雜度和更高的效率。二維分組/洗牌策略沿高度和寬度兩個維度進(jìn)行操作，導(dǎo)致了更復(fù)雜的內(nèi)存交互機(jī)制。相比之下，一維分組/洗牌策略僅應(yīng)用于 token 序列，消除了冗余的二維計算并提高了整體效率。如表 3 所示，使用一維分組/洗牌的推理速度略快于二維分組/洗牌。

（b）更長的建模范圍。與二維分組/洗牌策略相比，在每組 token 數(shù)量相同的情況下，一維分組/洗牌策略能夠在每個分組/網(wǎng)格內(nèi)實現(xiàn)更長的有效 token 交互范圍。盡管它失去了顯式的二維空間先驗，但通過擴(kuò)展 token 的感受野進(jìn)行了補(bǔ)償。如表 3 所示，在未引入歐幾里得距離先驗的情況下，一維策略的性能略遜于二維策略。然而，一旦引入距離先驗，一維策略便獲得了充足的空間先驗，使其在保持較低計算復(fù)雜度的同時實現(xiàn)更優(yōu)的性能。

（c）提升的分辨率適應(yīng)性。通過使用一維分組/洗牌，訓(xùn)練后的模型展現(xiàn)出更好的分辨率適應(yīng)性。我們基于 EVT-T 進(jìn)行實驗，在 384 和 512 兩種分辨率下執(zhí)行直接推理和微調(diào)。如表 4 所示，結(jié)果表明一維分組/洗牌取得了更優(yōu)的性能。

3.5 EVT 的變體

表 5 展示了 EVT 的變體。與我們之前的工作 RMT [10] 類似，我們設(shè)計了四種模型變體：EVT-T/S/B/L。此外，為了能夠與 Swin 等先前的工作進(jìn)行公平比較，我們還設(shè)計了 EVT-Swin-T/S/B。對于 EVT-Swin 系列模型，我們嚴(yán)格對齊了 EVT 和 Swin 的配置，唯一的區(qū)別是將 WSA/SWSA 替換為 EuSAg/EuSAd。對于歐幾里得衰減矩陣中的衰減系數(shù) γ ，我們將其值手動設(shè)置為：

4 實驗

我們在圖像分類、目標(biāo)檢測、實例分割和語義分割任務(wù)上進(jìn)行了廣泛的實驗。我們還在 ImageNet-v2/A/R [78]–[80] 上評估了 EVT 的魯棒性。除了這些實驗外，我們還進(jìn)行了詳細(xì)的消融研究，以驗證 EVT 中每個模塊的作用。

4.1 圖像分類

設(shè)置：我們使用廣泛采用的 ImageNet-1K [81] 數(shù)據(jù)集進(jìn)行圖像分類任務(wù)。該數(shù)據(jù)集包含 128 萬張訓(xùn)練圖像和 5 萬張驗證圖像。預(yù)訓(xùn)練和微調(diào)的詳細(xì)設(shè)置列于表 6。我們使用 AdamW 優(yōu)化器，并配合余弦衰減學(xué)習(xí)率調(diào)度器。初始學(xué)習(xí)率、權(quán)重衰減和批量大小分別設(shè)置為 0.001、0.05 和 1024。我們采用了與 DeiT [63] 相同的數(shù)據(jù)增強(qiáng)和正則化策略（RandAugment [82] (randm9-mstd0.5-inc1)、Mixup [83] (prob = 0.8)、CutMix [84] (prob = 1.0)、隨機(jī)擦除 (prob = 0.25) 以及指數(shù)移動平均 (EMA) [85]）。隨機(jī)深度 [86] 的最大遞增率對于 EVT-T/S/B/L 分別設(shè)置為 0.1/0.15/0.4/0.55。

4.2 目標(biāo)檢測與實例分割

設(shè)置： 我們在廣泛使用的數(shù)據(jù)集 MS-COCO [90] 上評估了所提出的 EVT。該數(shù)據(jù)集包含 118K 張訓(xùn)練圖像和 5K 張驗證圖像。我們利用 MMDetection [91] 來實現(xiàn) Mask-RCNN [92]、Cascade Mask R-CNN [93] 和 RetinaNet [94]，以評估所提出的 EVT。對于 Mask R-CNN 和 Cascade Mask R-CNN，我們使用常用的 "3× + MS" 設(shè)置；對于 Mask R-CNN 和 RetinaNet，我們應(yīng)用 "1×" 設(shè)置。遵循先前的工作 [3], [14]，在訓(xùn)練期間，我們將圖像調(diào)整大小，使得較短邊為 800 像素，同時保持較長邊在 1333 像素以內(nèi)。我們采用 AdamW 優(yōu)化器進(jìn)行模型優(yōu)化。

4.3 語義分割

設(shè)置：ADE20K [95] 是一個廣泛用于語義分割的數(shù)據(jù)集，包含 2 萬張訓(xùn)練樣本和 2 千張驗證圖像。我們利用 Semantic FPN [96] 和 UperNet [97] 來評估 EVT 在語義分割任務(wù)上的性能。我們基于 MMSegmentation [98] 實現(xiàn)了這兩個框架。兩個框架均采用編碼器 - 解碼器結(jié)構(gòu)，其中我們使用 EVT 的變體作為框架中的編碼器。我們遵循 Swin Transformer [3] 和 PVT [22] 中的訓(xùn)練方案，使用在 ImageNet 上預(yù)訓(xùn)練的模型初始化編碼器。隨后，我們對 UperNet 訓(xùn)練 16 萬次迭代，對 SemanticFPN 訓(xùn)練 8 萬次迭代。所有模型均使用 512×512 的輸入分辨率，在測試時，圖像的短邊被調(diào)整為 512 像素。

結(jié)果：表 10 展示了 EVT 的不同變體在 ADE20K 上使用兩種分割框架的結(jié)果。對于 Semantic FPN，EVT-T/S/B/L 分別實現(xiàn)了 48.3、50.0、51.7 和 52.0 的 mIoU，相較于其對照模型取得了令人印象深刻的性能提升。對于 UperNet，EVT 同樣展現(xiàn)出優(yōu)勢。具體而言，EVT-B 實現(xiàn)了 52.7 的 mIoU，比先前最先進(jìn)的 RMT-B 高出 0.7。EVT-B 的性能甚至超越了許多規(guī)模大一個數(shù)量級的模型。總之，EVT 在各種尺度上均展現(xiàn)出顯著的性能優(yōu)勢。

4.4 魯棒性評估

設(shè)置：我們在多個流行的數(shù)據(jù)集 [79], [80], [99], [100] 上評估模型的魯棒性。我們還在 ImageNet-V2 [101] 上評估 EVT 的過擬合程度。用于評估的模型均在 ImageNet-1K 上進(jìn)行了預(yù)訓(xùn)練。

結(jié)果：魯棒性評估結(jié)果如表 11 所示。在 ImageNet-V2 (IN-V2) 上，EVT 的表現(xiàn)優(yōu)于所有對照模型。例如，在參數(shù)量和 FLOPs 相近的情況下，EVT-B 比 BiFormer-B 高出 +1.7。在 ImageNet-A (IN-A) 和 ImageNet-R (IN-R) 上，EVT 所展現(xiàn)的優(yōu)勢更為顯著。具體而言，僅在 ImageNet-1k 上預(yù)訓(xùn)練的情況下，EVT-L 在 ImageNet-A 上實現(xiàn)了 55.5 的準(zhǔn)確率，在 ImageNet-R 上實現(xiàn)了 56.9 的準(zhǔn)確率。

4.5 效率比較

設(shè)置：我們在同一設(shè)備上比較不同模型的吞吐量。具體而言，我們使用批量大小為 64 和 fp32 精度，在單張 NVIDIA A100 上測試各種模型的速度。

結(jié)果。我們在表 12 中展示了不同模型的效率對比，其中 EVT 展現(xiàn)了最佳的精度與速度權(quán)衡。具體而言，與其基線模型 RMT 相比，EVT 在所有尺度上均實現(xiàn)了效率提升，并具備更高的分類準(zhǔn)確率。與其他最先進(jìn)模型（如 BiFormer）相比，EVT 不僅擁有更快的推理速度（1001 vs 766），而且在分類準(zhǔn)確率上取得了顯著提升（84.4 vs 83.8）。這些結(jié)果充分證明了 EVT 在性能和速度方面的雙重優(yōu)勢。

4.6 消融實驗

曼哈頓距離與歐幾里得距離的比較。我們的實驗證明了歐幾里得距離相較于曼哈頓距離的優(yōu)勢。實驗基于 EVT-T 進(jìn)行。如圖 5 所示，使用歐幾里得距離不僅帶來了更好的模型性能，還減少了過擬合并使訓(xùn)練更加穩(wěn)定。

不同衰減矩陣之間的比較。由于閔可夫斯基距離（Minkowski distance）和徑向基函數(shù)（RBF）的梯度也是連續(xù)的，并且保留了方向優(yōu)化信息，因此從理論上講，它們是作為空間先驗的可行選擇。然而，在實踐中并非如此。由于我們的顯式衰減直接應(yīng)用于注意力分?jǐn)?shù)，它有效地對分?jǐn)?shù)進(jìn)行了縮放。然而，縮放因子不應(yīng)過于復(fù)雜，因為過度的縮放會嚴(yán)重?fù)p害模型訓(xùn)練的穩(wěn)定性。當(dāng)使用閔可夫斯基距離或徑向基函數(shù)（RBF）核時，距離函數(shù)的高次冪或指數(shù)增長會導(dǎo)致嚴(yán)重的不穩(wěn)定性，這在 token 數(shù)量相當(dāng)龐大的高分辨率任務(wù)（如目標(biāo)檢測）中變得尤為明顯。在訓(xùn)練過程中，我們在使用閔可夫斯基距離或 RBF 時持續(xù)觀察到明顯的損失尖峰和 NaN（非數(shù)值）。相比之下，采用歐幾里得距離時并未出現(xiàn)此類現(xiàn)象。如表 14 所示，使用特定的距離函數(shù)可能會引入不穩(wěn)定性或?qū)е嘛@著的性能下降。

與基線的嚴(yán)格比較。為了能夠與先前的方法進(jìn)行公平比較，我們設(shè)計了 EVT-Swin 系列模型。EVT-Swin 嚴(yán)格對齊了 Swin-Transformer 的各種配置，僅將 Swin-Transformer 中的 WSA/SWSA 替換為我們的 EuSAg/EuSAd，并將 Swin-Transformer 中的普通注意力替換為我們的 EuSA，同時未使用諸如 CPE 和 Conv Stem 等額外模塊。

基于歐幾里得距離的衰減矩陣。 基于歐幾里得距離的衰減矩陣是 EuSA 中的核心模塊，為模型提供與空間相關(guān)的先驗知識。在表 13 中，我們驗證了衰減矩陣對模型的影響，證明了其顯著的性能提升。具體而言，引入基于歐幾里得距離的衰減矩陣使模型性能提升了

為了進(jìn)一步理解衰減矩陣的工作機(jī)制，我們在表 15 中對衰減系數(shù)的不同配置進(jìn)行了實驗。我們發(fā)現(xiàn)，在多頭注意力中為每個頭設(shè)置不同的衰減系數(shù)，可以使每個頭關(guān)注不同的尺度，從而帶來更好的模型性能。相反，為所有頭使用相同的衰減系數(shù)僅能帶來輕微的性能提升。這表明，衰減矩陣所引入的多尺度信息才是真正提升模型性能的原因。

從 RMT 到 EVT 的演進(jìn)路線。 如表 16 所示，我們逐步修改 RMT-T 中的組件，將其轉(zhuǎn)變?yōu)?EVT-T。首先，我們采用了更深的模型，從而帶來了性能提升（top1-acc+0.1，mIoU+0.3）。其次，我們將基于曼哈頓距離的衰減矩陣替換為基于歐幾里得距離的衰減矩陣。這進(jìn)一步提升了模型的性能（top1-acc+0.4，mIoU+1.2）。最后，我們將 MaSA 中的水平與垂直分解替換為 EuSA 的 token 分組方法。這一改動不僅降低了計算負(fù)載（減少 0.2G），還提升了模型的性能（top1-acc+0.6，mIoU+1.9）。

關(guān)于 RMT/EVT 與 RetNet 的比較討論。 RMT/EVT 的靈感來源于 RetNet，旨在將其潛在有益的特性遷移到用于視覺任務(wù)的 ViT 中。然而，RetNet 能夠展開為 RNN 的能力并不適用于視覺任務(wù)。這是因為視覺內(nèi)在的雙向特性并不適合用 RNN 來表示。在 RMT/EVT 中，我們使用二維、雙向的衰減矩陣來建模視覺信息，而在 RetNet [11] 中，用于序列任務(wù)的衰減矩陣是一維且單向的。在不使用 Softmax 函數(shù)的情況下，兩者均可通過以下公式表示：

在 RetNet 中， D 是一個對角矩陣，這使得 RetNet 可以方便地展開為 RNN 的形式。在 RetNet 中， D 是一個對角矩陣，對角線以上的所有值均設(shè)為零，這意味著當(dāng)前的 token 只能與前序 tokens 關(guān)聯(lián)，而與后續(xù)的 tokens 無關(guān)。這使得 RetNet 可以方便地展開為 RNN 的形式。然而，在 RMT/EVT 中， D 中的每個位置都是非零的，這意味著當(dāng)前的 token 同時與前序和后繼 tokens 進(jìn)行交互。這創(chuàng)建了一個雙向建模過程，從根本上阻止了模型展開為 RNN 的形式，因為 RNN 本質(zhì)上是為單向序列建模設(shè)計的。

為了驗證我們的觀點，我們直接將 RetNet 的一維衰減（1D decay）及其線性復(fù)雜度 RNN 公式應(yīng)用于 Swin-T。結(jié)果如表 17 所示。使用 RetNet 的 D D 矩陣和 RNN 公式有效地降低了模型的計算成本，實現(xiàn)了線性復(fù)雜度。然而，一維推理方法破壞了視覺固有的 2D 特性，而 RNN 公式損害了視覺推理的并行性。結(jié)果，模型的性能和推理速度都遭受了顯著的下降。

從 Swin-T 到 EVT-Swin-T 的路線圖。 我們在表 18 中展示了從 Swin-T 到 EVT-Swin-T 的路線圖。結(jié)果清楚地展示了不同模塊的效果。

關(guān)于視覺 token 數(shù)量的消融實驗。 在表 19 中，我們比較了不同 token 分組大小下的模型性能（例如 49 或 32 個 token 的組，必要時進(jìn)行填充）。盡管在這些設(shè)置下我們的方法并不等同于 CSWin，但它始終實現(xiàn)了更好的性能。

即使使用較小的分組大小（例如每組 32 個 token），我們的模型也能從一維（1D）分組范式固有的靈活性中受益。與使用固定注意力模式的其他方法相比，一維范式更加靈活多樣，使模型能夠?qū)W習(xí)更豐富的特征。

對于更高的分辨率，我們測試了 ntoken 的各種值。得益于二維（2D）空間中一維分組的高度靈活性，隨著分辨率的增加，token 分組變得更加多樣化。這種強(qiáng)烈的變異性使模型能夠?qū)W習(xí)更豐富的空間模式。如表 20 所示。即使每組的 token 數(shù)量減少，借助空間先驗，模型仍然取得了強(qiáng)勁的性能。

多分辨率下的效率與性能。 我們在圖 6 中展示了模型的資源消耗和性能。EVT 與其他具有線性復(fù)雜度的模型一樣，表現(xiàn)出資源需求的線性增長。

4.7 可視化

歐幾里得距離 vs. 曼哈頓距離。 我們在圖 7 中展示了可視化結(jié)果。這些模型是基于 DeiT 訓(xùn)練的。我們可以看到，空間先驗（spatial prior）的引入使得注意力分?jǐn)?shù)的分布更加集中，減少了注意力分散的可能性。同時，與曼哈頓距離相比，歐幾里得距離帶來了更平滑的注意力變化，這更容易導(dǎo)致合理的注意力分布。

與 Swin 的比較。 為了充分展示 EVT 的優(yōu)勢，我們可視化了每個階段輸出的 token 的注意力圖。為了進(jìn)行比較，我們也可視化了 Swin-Transformer 的特征圖。我們通過為每個階段構(gòu)建一個全局熱力圖，來可視化 Swin Transformer 每個層級的注意力圖。這種方法借鑒了 [103] 中使用的注意力展開（Attention Rollout）技術(shù)，該技術(shù)跨層聚合議注意力分?jǐn)?shù)以創(chuàng)建全局注意力圖。為了生成每個層級的全局熱力圖，我們通過聚合所有頭（heads）和組（groups）的注意力權(quán)重來計算每個查詢 token（query token）的注意力分?jǐn)?shù)，并且我們跨層遞歸地累積這些分?jǐn)?shù)。這導(dǎo)致了全局注意力模式的形成，即使是從局部注意力操作中也能產(chǎn)生。結(jié)果展示在圖 8 中。我們使用了 224 × 224 的輸入圖像分辨率，階段 1、2、3 和 4 的 token 分辨率分別是 56 × 56 、 28 × 28 、 14 × 14 和 7 × 7 。從可視化結(jié)果來看，很明顯 EVT 在模型的淺層（例如階段 1 和階段 2）保留了詳細(xì)信息。在更深層，EVT 成功捕捉到了圖像中重要的物體信息，使模型能夠?qū)崿F(xiàn)準(zhǔn)確的分類。與 Swin-Transformer 相比，EVT 的特征圖表現(xiàn)出更少的噪聲和更準(zhǔn)確的物體定位，充分展示了 EVT 的優(yōu)勢。

5 結(jié)論

在本工作中，我們提出了 EVT，一種強(qiáng)大的通用視覺骨干網(wǎng)絡(luò)。基于 RMT，它用基于歐幾里得距離的顯式衰減取代了基于曼哈頓距離的顯式衰減，從而提升了模型性能。此外，它用一種更高效的、具有線性復(fù)雜度的一維 token 分組方法，取代了 RMT 中復(fù)雜度為
的注意力分解方法。這使得 EVT 成為一個在性能和效率方面均表現(xiàn)卓越的強(qiáng)大骨干網(wǎng)絡(luò)。我們在圖像分類、目標(biāo)檢測、實例分割和語義分割等任務(wù)中驗證了該模型的強(qiáng)勁性能，并展示了其在分布外（OOD）數(shù)據(jù)上的魯棒性。最后，我們進(jìn)行了廣泛的消融研究，以驗證模型中各個模塊的作用。

原文鏈接：https://arxiv.org/pdf/2604.18549

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.