南大等提出OrthoReg：極簡正交正則化，揭開任務(wù)算術(shù)的底層機(jī)制

2026-05-07 15:50:36　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

南京大學(xué)碩士生劉尚格為本文第一作者；澳大利亞 University of Wollongong (UOW) Lei Wang 教授、新加坡 Nanyang Technological University (NTU) Dacheng Tao 教授、南京大學(xué)高陽教授等，為本文合作者；南京大學(xué)副教授李文斌，為本文通訊作者。

在大模型時(shí)代，微調(diào)是我們讓基礎(chǔ)模型適配下游任務(wù)的常規(guī)操作。但如果我們手頭有多個(gè)微調(diào)好的專家模型，想要把它們的能力合并到一個(gè)模型中，傳統(tǒng)的聯(lián)合訓(xùn)練不僅需要收集所有歷史數(shù)據(jù)，還會帶來極其高昂的算力成本。

在不重新訓(xùn)練的情況下，如何讓一個(gè)模型同時(shí)掌握多種新技能？

近年來，「任務(wù)算術(shù)」（Task Arithmetic）作為一種高效的模型合并范式異軍突起。它在無需昂貴的聯(lián)合訓(xùn)練的情況下，僅通過對模型權(quán)重進(jìn)行簡單的代數(shù)加減，就能實(shí)現(xiàn)多任務(wù)能力的組合與特定知識的消除。

然而，任務(wù)算術(shù)在經(jīng)驗(yàn)上的巨大成功，卻一直伴隨著底層理論解釋的缺失。此前該領(lǐng)域的一項(xiàng)重要工作提出了「權(quán)重解耦」（Weight Disentanglement）的概念，認(rèn)為當(dāng)不同任務(wù)的權(quán)重更新在功能上互不干擾時(shí)，任務(wù)算術(shù)就能成功。但這更多是對理想結(jié)果的一種現(xiàn)象學(xué)描述：究竟是預(yù)訓(xùn)練模型的什么內(nèi)在屬性，或者任務(wù)向量的什么特征，促成了這種解耦？

為了回答這一根本問題，來自南京大學(xué)、伍倫貢大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì)，試圖為任務(wù)算術(shù)建立一個(gè)更為底層的理論框架。他們提出了一種名為「任務(wù)特征特化」（Task-Feature Specialization, TFS）的理想屬性，并基于此推導(dǎo)出了現(xiàn)實(shí)中可操作的幾何約束方法 ——OrthoReg。只需在微調(diào)時(shí)引入一個(gè)極簡的正交正則化項(xiàng)，就能顯著提升多種基線方法的模型合并性能。

目前，該論文已被計(jì)算機(jī)視覺頂級會議 CVPR 2026 接收，并被評為 Oral。相關(guān)代碼、模型權(quán)重和數(shù)據(jù)集已全面開源。

論文鏈接：https://arxiv.org/abs/2604.17078
代碼鏈接：https://github.com/RL-MIND/OrthoReg
權(quán)重鏈接：https://huggingface.co/RL-MIND/OrthoReg_checkpoints
Huggingface Paper: https://huggingface.co/papers/2604.17078

背景介紹：任務(wù)算術(shù)與權(quán)重解耦

為了更好地理解這項(xiàng)工作，我們先來回顧一下什么是「任務(wù)算術(shù)」。

此前，NeurIPS 2023 的一項(xiàng)重要工作（Tangent Task Arithmetic, TTA）提出了「權(quán)重解耦」（Weight Disentanglement）的概念來解釋這一現(xiàn)象。該理論認(rèn)為，如果不同任務(wù)的權(quán)重更新在功能上互不干擾（即解耦），任務(wù)算術(shù)就不會發(fā)生災(zāi)難性干擾或性能沖突。

但這引出了一個(gè)更深層的問題：權(quán)重解耦只是對理想結(jié)果的描述，到底是什么內(nèi)在屬性導(dǎo)致了權(quán)重解耦？我們又該如何主動(dòng)構(gòu)建出能夠完美解耦的任務(wù)向量？

理論分析：從「特征特化」假設(shè)到「權(quán)重正交」推論

為了探究權(quán)重解耦的本質(zhì)，本文首先構(gòu)建了一個(gè)理想化的理論模型，并提出了一個(gè)核心假設(shè)：任務(wù)特征特化（Task-Feature Specialization, TFS）。

直觀地講，TFS 假設(shè)一個(gè)理想的預(yù)訓(xùn)練模型在處理不同任務(wù)時(shí)，能夠智能地將不同的內(nèi)部特征（由權(quán)重矩陣的列向量表示）分配給特定的任務(wù)。例如，識別汽車的特征和識別手寫數(shù)字的特征在模型內(nèi)部是相互獨(dú)立的。

文章在神經(jīng)正切核（NTK）線性化假設(shè)下證明：

TFS 是實(shí)現(xiàn)權(quán)重解耦的充分條件（見論文 Theorem 1）。這意味著，如果模型在理想狀態(tài)下能夠做到特征特化，則權(quán)重解耦自然成立，從而在底層機(jī)制上保證了不同任務(wù)向量的合并不會產(chǎn)生破壞性干擾。
TFS 會自然推導(dǎo)出一個(gè)可觀測的幾何推論：權(quán)重向量正交性（WVO）（見論文 Corollary 1）。文章指出，正交性（Orthogonality）可以被視作底層特征分離（TFS）在幾何上的一種外在表現(xiàn)或觀測線索。具體而言，具備 TFS 屬性的模型，其權(quán)重矩陣在統(tǒng)計(jì)上會呈現(xiàn)出塊正交甚至列正交的結(jié)構(gòu)。

如下圖所示，文章將 TFS 視作連接功能屬性（權(quán)重解耦）與幾何屬性（權(quán)重正交）的共同根源。這一核心洞見為后續(xù)的方法設(shè)計(jì)指明了方向。

圖 - 核?論點(diǎn)概念圖

不僅是理論推導(dǎo)，在預(yù)訓(xùn)練的 CLIP（ViT-B/16、ViT-B/32、ViT-L/14）模型中也真實(shí)觀察到了這一現(xiàn)象：其核心計(jì)算層（如 Transformer Block 中的投影層）的權(quán)重向量夾角，極其尖銳地集中在 90 度（如下圖所示），這為理論提供了強(qiáng)有力的經(jīng)驗(yàn)支撐。

圖 - CLIP 模型權(quán)重正交性經(jīng)驗(yàn)證據(jù)圖

現(xiàn)實(shí)挑戰(zhàn)與方法：OrthoReg 極簡正交正則化

在模型合并領(lǐng)域，現(xiàn)有的解決方案大致可分為合并中（During-merging）和合并前（Pre-merging）兩類。前者試圖在合并階段設(shè)計(jì)復(fù)雜的算法來消除沖突，而本文的思路則屬于Pre-merging 方法：既然無法直接保證功能的絕對特化（TFS），我們不妨退而求其次，在微調(diào)階段主動(dòng)去約束它的幾何推論 —— 正交性，從而從源頭上打造出「天生適合合并」的模型。

圖 - OrthoReg ?法概覽圖

與現(xiàn)有方法的聯(lián)系：

此前 TTA (Tangent Task Arithmetic) 方法通過在切空間微調(diào)，隱式地利用了模型的 NTK 局部性來促進(jìn)任務(wù)向量的正交。然而，TTA 依賴于極其昂貴的雅可比矩陣計(jì)算，導(dǎo)致顯存和時(shí)間開銷大幅增加。相比之下，OrthoReg 通過正則化顯式約束正交性，不僅在理論機(jī)制上與 TTA 殊途同歸，而且計(jì)算成本極低，幾乎不增加額外的訓(xùn)練負(fù)擔(dān)。

實(shí)驗(yàn)驗(yàn)證：更正交的向量，更優(yōu)的合并

文章在 8 個(gè)多領(lǐng)域的圖像分類數(shù)據(jù)集上，對多種視覺 Transformer（ViT-B-32、ViT-B-16、ViT-L-14）進(jìn)行了廣泛的評估。

任務(wù)加法（Task Addition）

在將 8 個(gè)任務(wù)的模型合并為一個(gè)單一模型的測試中，OrthoReg 展現(xiàn)出了極強(qiáng)的通用性。無論是應(yīng)用于全參數(shù)微調(diào)（Non-lin. FT）、切空間微調(diào)（TTA），還是參數(shù)高效微調(diào)（ATT-FT, LoRA），OrthoReg 均能帶來一致且顯著的性能提升。

圖 - Task Addition 實(shí)驗(yàn)結(jié)果

例如，在 ViT-L-14 模型上，OrthoReg 將標(biāo)準(zhǔn)全參數(shù)微調(diào)的平均絕對準(zhǔn)確率大幅提升了 4.16 個(gè)百分點(diǎn)（從 84.07% 提升至 88.23%）；而 ATT-FT 結(jié)合 OrthoReg 更是達(dá)到了 90.41% 的準(zhǔn)確率，創(chuàng)下了該基準(zhǔn)下的新高。

特別地，在衡量任務(wù)干擾程度的歸一化準(zhǔn)確率（Norm.Acc.）指標(biāo)上，ATT-FT 結(jié)合 OrthoReg 達(dá)到了 100.05%。這意味著合并后的多任務(wù)模型，其平均性能已經(jīng)完全媲美甚至微超 8 個(gè)獨(dú)立微調(diào)的專家模型，在功能層面上無限逼近了「零干擾」的理想解耦狀態(tài)。

任務(wù)消除（Task Negation）

圖 - Task Negation 實(shí)驗(yàn)結(jié)果

可視化：揭示任務(wù)向量的幾何關(guān)系

為了直觀驗(yàn)證理論，文章也計(jì)算了不同任務(wù)向量之間的余弦相似度。如下圖所示，基線方法（上排）生成的任務(wù)向量之間存在明顯的非對角線相關(guān)性（亮色色塊），說明常規(guī)微調(diào)容易導(dǎo)致任務(wù)間特征耦合。而引入 OrthoReg 后（下排），熱力圖的非對角線區(qū)域明顯變暗。這提供了直接的經(jīng)驗(yàn)證據(jù)：OrthoReg 確實(shí)通過幾何約束，促使模型學(xué)習(xí)到了更加正交、解耦的任務(wù)向量。

圖 - 任務(wù)向量余弦相似度熱?圖對?（ViT-B-16）

總結(jié)和展望

總而言之，這篇論文為「任務(wù)算術(shù)」這一模型合并技術(shù)提供了另一個(gè)視角的理論分析。

本文從一個(gè)根本性問題出發(fā)：任務(wù)算術(shù)為什么能有效？最終給出了一條清晰的因果鏈：任務(wù)特征特化（TFS）是權(quán)重解耦的充分條件，而權(quán)重向量正交性（WVO）則是 TFS 在幾何層面可觀測的外在印記。

更重要的是，這一理論洞見直接轉(zhuǎn)化為了實(shí)踐價(jià)值。由于 TFS 本身是一個(gè)抽象且難以直接約束的功能屬性，研究團(tuán)隊(duì)另辟蹊徑，轉(zhuǎn)而去約束其幾何推論即正交性。由此提出的 OrthoReg 正則化方法極其輕量：一行公式，一個(gè)超參，即插即用，無需修改任何模型結(jié)構(gòu)或合并算法，卻能跨模型規(guī)模、跨微調(diào)范式地帶來一致的性能增益。

未來，研究團(tuán)隊(duì)計(jì)劃探索更多樣化、更細(xì)粒度的正交性約束形式，以期在更復(fù)雜的多任務(wù)場景下實(shí)現(xiàn)更精準(zhǔn)的權(quán)重解耦。同時(shí)，這種基于幾何視角的解耦思想，也有望在未來推廣至更大規(guī)模的語言模型和多模態(tài)大模型的知識編輯與持續(xù)學(xué)習(xí)任務(wù)中，激發(fā)更多極具潛力的研究方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.