![]()
南京大學(xué)碩士生劉尚格為本文第一作者;澳大利亞 University of Wollongong (UOW) Lei Wang 教授、新加坡 Nanyang Technological University (NTU) Dacheng Tao 教授、南京大學(xué)高陽教授等,為本文合作者;南京大學(xué)副教授李文斌,為本文通訊作者。
在大模型時(shí)代,微調(diào)是我們讓基礎(chǔ)模型適配下游任務(wù)的常規(guī)操作。但如果我們手頭有多個(gè)微調(diào)好的專家模型,想要把它們的能力合并到一個(gè)模型中,傳統(tǒng)的聯(lián)合訓(xùn)練不僅需要收集所有歷史數(shù)據(jù),還會帶來極其高昂的算力成本。
在不重新訓(xùn)練的情況下,如何讓一個(gè)模型同時(shí)掌握多種新技能?
近年來,「任務(wù)算術(shù)」(Task Arithmetic)作為一種高效的模型合并范式異軍突起。它在無需昂貴的聯(lián)合訓(xùn)練的情況下,僅通過對模型權(quán)重進(jìn)行簡單的代數(shù)加減,就能實(shí)現(xiàn)多任務(wù)能力的組合與特定知識的消除。
然而,任務(wù)算術(shù)在經(jīng)驗(yàn)上的巨大成功,卻一直伴隨著底層理論解釋的缺失。此前該領(lǐng)域的一項(xiàng)重要工作提出了「權(quán)重解耦」(Weight Disentanglement)的概念,認(rèn)為當(dāng)不同任務(wù)的權(quán)重更新在功能上互不干擾時(shí),任務(wù)算術(shù)就能成功。但這更多是對理想結(jié)果的一種現(xiàn)象學(xué)描述:究竟是預(yù)訓(xùn)練模型的什么內(nèi)在屬性,或者任務(wù)向量的什么特征,促成了這種解耦?
為了回答這一根本問題,來自南京大學(xué)、伍倫貢大學(xué)和南洋理工大學(xué)的研究團(tuán)隊(duì),試圖為任務(wù)算術(shù)建立一個(gè)更為底層的理論框架。他們提出了一種名為「任務(wù)特征特化」(Task-Feature Specialization, TFS)的理想屬性,并基于此推導(dǎo)出了現(xiàn)實(shí)中可操作的幾何約束方法 ——OrthoReg。只需在微調(diào)時(shí)引入一個(gè)極簡的正交正則化項(xiàng),就能顯著提升多種基線方法的模型合并性能。
目前,該論文已被計(jì)算機(jī)視覺頂級會議 CVPR 2026 接收,并被評為 Oral。相關(guān)代碼、模型權(quán)重和數(shù)據(jù)集已全面開源。
![]()
- 論文鏈接:https://arxiv.org/abs/2604.17078
- 代碼鏈接:https://github.com/RL-MIND/OrthoReg
- 權(quán)重鏈接:https://huggingface.co/RL-MIND/OrthoReg_checkpoints
- Huggingface Paper: https://huggingface.co/papers/2604.17078
背景介紹:任務(wù)算術(shù)與權(quán)重解耦
為了更好地理解這項(xiàng)工作,我們先來回顧一下什么是「任務(wù)算術(shù)」。
![]()
![]()
此前,NeurIPS 2023 的一項(xiàng)重要工作(Tangent Task Arithmetic, TTA)提出了「權(quán)重解耦」(Weight Disentanglement)的概念來解釋這一現(xiàn)象。該理論認(rèn)為,如果不同任務(wù)的權(quán)重更新在功能上互不干擾(即解耦),任務(wù)算術(shù)就不會發(fā)生災(zāi)難性干擾或性能沖突。
但這引出了一個(gè)更深層的問題:權(quán)重解耦只是對理想結(jié)果的描述,到底是什么內(nèi)在屬性導(dǎo)致了權(quán)重解耦?我們又該如何主動(dòng)構(gòu)建出能夠完美解耦的任務(wù)向量?
理論分析:從「特征特化」假設(shè)到「權(quán)重正交」推論
為了探究權(quán)重解耦的本質(zhì),本文首先構(gòu)建了一個(gè)理想化的理論模型,并提出了一個(gè)核心假設(shè):任務(wù)特征特化(Task-Feature Specialization, TFS)。
直觀地講,TFS 假設(shè)一個(gè)理想的預(yù)訓(xùn)練模型在處理不同任務(wù)時(shí),能夠智能地將不同的內(nèi)部特征(由權(quán)重矩陣的列向量表示)分配給特定的任務(wù)。例如,識別汽車的特征和識別手寫數(shù)字的特征在模型內(nèi)部是相互獨(dú)立的。
文章在神經(jīng)正切核(NTK)線性化假設(shè)下證明:
- TFS 是實(shí)現(xiàn)權(quán)重解耦的充分條件(見論文 Theorem 1)。這意味著,如果模型在理想狀態(tài)下能夠做到特征特化,則權(quán)重解耦自然成立,從而在底層機(jī)制上保證了不同任務(wù)向量的合并不會產(chǎn)生破壞性干擾。
- TFS 會自然推導(dǎo)出一個(gè)可觀測的幾何推論:權(quán)重向量正交性(WVO)(見論文 Corollary 1)。文章指出,正交性(Orthogonality)可以被視作底層特征分離(TFS)在幾何上的一種外在表現(xiàn)或觀測線索。具體而言,具備 TFS 屬性的模型,其權(quán)重矩陣在統(tǒng)計(jì)上會呈現(xiàn)出塊正交甚至列正交的結(jié)構(gòu)。
如下圖所示,文章將 TFS 視作連接功能屬性(權(quán)重解耦)與幾何屬性(權(quán)重正交)的共同根源。這一核心洞見為后續(xù)的方法設(shè)計(jì)指明了方向。
![]()
圖 - 核?論點(diǎn)概念圖
不僅是理論推導(dǎo),在預(yù)訓(xùn)練的 CLIP(ViT-B/16、ViT-B/32、ViT-L/14)模型中也真實(shí)觀察到了這一現(xiàn)象:其核心計(jì)算層(如 Transformer Block 中的投影層)的權(quán)重向量夾角,極其尖銳地集中在 90 度(如下圖所示),這為理論提供了強(qiáng)有力的經(jīng)驗(yàn)支撐。
![]()
圖 - CLIP 模型權(quán)重正交性經(jīng)驗(yàn)證據(jù)圖
現(xiàn)實(shí)挑戰(zhàn)與方法:OrthoReg 極簡正交正則化
![]()
![]()
在模型合并領(lǐng)域,現(xiàn)有的解決方案大致可分為合并中(During-merging)和合并前(Pre-merging)兩類。前者試圖在合并階段設(shè)計(jì)復(fù)雜的算法來消除沖突,而本文的思路則屬于Pre-merging 方法:既然無法直接保證功能的絕對特化(TFS),我們不妨退而求其次,在微調(diào)階段主動(dòng)去約束它的幾何推論 —— 正交性,從而從源頭上打造出「天生適合合并」的模型。
![]()
![]()
![]()
![]()
圖 - OrthoReg ?法概覽圖
![]()
與現(xiàn)有方法的聯(lián)系:
此前 TTA (Tangent Task Arithmetic) 方法通過在切空間微調(diào),隱式地利用了模型的 NTK 局部性來促進(jìn)任務(wù)向量的正交。然而,TTA 依賴于極其昂貴的雅可比矩陣計(jì)算,導(dǎo)致顯存和時(shí)間開銷大幅增加。相比之下,OrthoReg 通過正則化顯式約束正交性,不僅在理論機(jī)制上與 TTA 殊途同歸,而且計(jì)算成本極低,幾乎不增加額外的訓(xùn)練負(fù)擔(dān)。
實(shí)驗(yàn)驗(yàn)證:更正交的向量,更優(yōu)的合并
文章在 8 個(gè)多領(lǐng)域的圖像分類數(shù)據(jù)集上,對多種視覺 Transformer(ViT-B-32、ViT-B-16、ViT-L-14)進(jìn)行了廣泛的評估。
任務(wù)加法(Task Addition)
在將 8 個(gè)任務(wù)的模型合并為一個(gè)單一模型的測試中,OrthoReg 展現(xiàn)出了極強(qiáng)的通用性。無論是應(yīng)用于全參數(shù)微調(diào)(Non-lin. FT)、切空間微調(diào)(TTA),還是參數(shù)高效微調(diào)(ATT-FT, LoRA),OrthoReg 均能帶來一致且顯著的性能提升。
![]()
圖 - Task Addition 實(shí)驗(yàn)結(jié)果
例如,在 ViT-L-14 模型上,OrthoReg 將標(biāo)準(zhǔn)全參數(shù)微調(diào)的平均絕對準(zhǔn)確率大幅提升了 4.16 個(gè)百分點(diǎn)(從 84.07% 提升至 88.23%);而 ATT-FT 結(jié)合 OrthoReg 更是達(dá)到了 90.41% 的準(zhǔn)確率,創(chuàng)下了該基準(zhǔn)下的新高。
特別地,在衡量任務(wù)干擾程度的歸一化準(zhǔn)確率(Norm.Acc.)指標(biāo)上,ATT-FT 結(jié)合 OrthoReg 達(dá)到了 100.05%。這意味著合并后的多任務(wù)模型,其平均性能已經(jīng)完全媲美甚至微超 8 個(gè)獨(dú)立微調(diào)的專家模型,在功能層面上無限逼近了「零干擾」的理想解耦狀態(tài)。
任務(wù)消除(Task Negation)
![]()
![]()
圖 - Task Negation 實(shí)驗(yàn)結(jié)果
可視化:揭示任務(wù)向量的幾何關(guān)系
為了直觀驗(yàn)證理論,文章也計(jì)算了不同任務(wù)向量之間的余弦相似度。如下圖所示,基線方法(上排)生成的任務(wù)向量之間存在明顯的非對角線相關(guān)性(亮色色塊),說明常規(guī)微調(diào)容易導(dǎo)致任務(wù)間特征耦合。而引入 OrthoReg 后(下排),熱力圖的非對角線區(qū)域明顯變暗。這提供了直接的經(jīng)驗(yàn)證據(jù):OrthoReg 確實(shí)通過幾何約束,促使模型學(xué)習(xí)到了更加正交、解耦的任務(wù)向量。
![]()
圖 - 任務(wù)向量余弦相似度熱?圖對?(ViT-B-16)
總結(jié)和展望
總而言之,這篇論文為「任務(wù)算術(shù)」這一模型合并技術(shù)提供了另一個(gè)視角的理論分析。
本文從一個(gè)根本性問題出發(fā):任務(wù)算術(shù)為什么能有效?最終給出了一條清晰的因果鏈:任務(wù)特征特化(TFS)是權(quán)重解耦的充分條件,而權(quán)重向量正交性(WVO)則是 TFS 在幾何層面可觀測的外在印記。
更重要的是,這一理論洞見直接轉(zhuǎn)化為了實(shí)踐價(jià)值。由于 TFS 本身是一個(gè)抽象且難以直接約束的功能屬性,研究團(tuán)隊(duì)另辟蹊徑,轉(zhuǎn)而去約束其幾何推論即正交性。由此提出的 OrthoReg 正則化方法極其輕量:一行公式,一個(gè)超參,即插即用,無需修改任何模型結(jié)構(gòu)或合并算法,卻能跨模型規(guī)模、跨微調(diào)范式地帶來一致的性能增益。
未來,研究團(tuán)隊(duì)計(jì)劃探索更多樣化、更細(xì)粒度的正交性約束形式,以期在更復(fù)雜的多任務(wù)場景下實(shí)現(xiàn)更精準(zhǔn)的權(quán)重解耦。同時(shí),這種基于幾何視角的解耦思想,也有望在未來推廣至更大規(guī)模的語言模型和多模態(tài)大模型的知識編輯與持續(xù)學(xué)習(xí)任務(wù)中,激發(fā)更多極具潛力的研究方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.