![]()
新智元報道
![]()
【新智元導讀】中科大團隊首先推出動態多模態知識注入基準MMEVOKE,解構遺忘機制,并在此基礎上提出全新雙階段框架KORE。通過「知識樹」自動增強與「零空間」協方差約束微調,為大模型終身學習開辟了全新路徑。
當前主流大型多模態模型(LMMs)通過海量數據的預訓練存儲了豐富的靜態知識,并在多模態理解與指令跟隨上取得了巨大成功。然而,現實世界瞬息萬變,大模型的既有知識面臨「上線即過時」的嚴峻挑戰,亟需具備高效吸收動態演變知識(Evolving Knowledge)的持續學習能力。
現有研究多局限于靜態文本領域的知識編輯,忽視了動態多模態演變知識的注入,導致多模態持續學習領域存在兩大核心缺陷:
評測基準缺失:缺乏能夠高頻、動態復制且覆蓋面廣的多模態演變知識評測基準;
遺忘機制不明:業界未能對模型在面對演變知識注入時的退化行為進行深度的定量解構。
針對這一關鍵空白,中國科學技術大學團隊正式推出首個動態多模態知識注入基準MMEVOKE(含9,422個樣本、橫跨159個細分子類)。
![]()
論文鏈接:https://arxiv.org/pdf/2505.24449
代碼鏈接:https://github.com/EVOKE-LMM/EVOKE
開源數據集:https://huggingface.co/collections/kailinjiang/mmevoke-iclr26
項目主頁:https://evoke-lmm.github.io/
同時,為了讓大型多模態模型(LMMs)能夠實時跟上現實世界的發展,高效的知識注入(Knowledge Injection)已成為多模態大模型走向實用化的必由之路。然而,現有的知識注入方法在處理多模態持續學習時,普遍陷入了不可調和的「雙重困境」:
知識適應性差(學不準):傳統微調僅對孤立、離散的數據進行粗暴訓練,導致模型對新知識缺乏跨模態泛化和多輪深度推理能力,容易產生「死記硬背」或嚴重幻覺;
災難性遺忘嚴重(忘得快):參數在吸收新知識時的無序更新,會強力干擾并破壞大模型原有的通用多模態基本能力(如OCR、學科推理等),導致既有能力斷崖式下跌。
為了打破這一不可調和的「死結」,團隊進一步提出了以知識導向控制(Knowledge-Oriented Controls)為核心的全新雙階段優化微調框架KORE,通過兩大創新機制實現「知識適應」與「能力保留」的閉環協同。
![]()
論文鏈接:https://arxiv.org/pdf/2510.19316
代碼鏈接:https://github.com/KORE-LMM/KORE
開源數據集:https://huggingface.co/collections/kailinjiang/koreicml26
項目主頁:https://kore-lmm.github.io/
研究背景
隨著現實世界的瞬息萬變,大型多模態模型(LMMs)正面臨著一個致命的痛點:預訓練賦予了它們海量的靜態知識,但這些知識一旦離線就會迅速過時。
當面對類似「小米SU7/Yu7」、「2024諾貝爾物理學獎」等新近涌現的動態演變知識(Evolving Knowledge)時,LMMs不僅無法準確識別和泛化,甚至在強行注入新知識后,還會觸發嚴重的災難性遺忘,導致其原有的通用多模態指令跟隨等基本能力斷崖式下跌。
![]()
圖1 進化知識注入的樣例展示
場景構建
傳統的知識編輯評測多依賴人工靜態收集,不僅耗時費力,更無法跟上現實世界「高頻、動態」的演變步伐。為了實現自動化且高質量的動態知識捕獲,團隊設計了一套可高頻自動復制的數據構建流水線:
![]()
圖2 MMEVOKE的構建流程
最終構建出包含9,422個樣本、橫跨新聞與實體兩大領域、159個細分行業子類的龐大基準。
![]()
圖3 MMEVOKE的統計數據
團隊在MMEVOKE上對4類知識注入方法(Supervised Fine-Tuning、Retrieval Augmented Generation、Commercial AI Web Search Engine、Sufficient Context)進行了動態知識注入大考,實驗結果徹底顛覆了行業傳統認知:
![]()
圖4 現有知識注入方法在MMEVOKE上的評估
實驗觀察 1:現有主流方法在 MMEVOKE 上全線折戟:團隊深入評估了參數微調、多模態檢索增強(RAG)以及商業 AI 搜索引擎等多類主流方法,結果發現其表現均不盡如人意。
實驗觀察 2:顛覆直覺!即便上下文充足,大模型依舊「睜眼說瞎話」:行業通常認為,只要為大模型提供準確且充足的檢索上下文,就能保證回答的正確性。但 MMEVOKE 的「充足上下文(Sufficient Context)」嚴苛實驗打破了這一神話。
核心挑戰 1:現有知識注入方法在 MMEVOKE 基準上表現極為匱乏,甚至在擁有充足的外部上下文時,大模型依然無法有效利用和正確推理動態演變知識。
為了對模型在面對演變知識注入時的退化行為進行深度的定量解構,團隊在7個能力維度的12個benchmark上面進行了廣泛的實驗,得到以下結論:
![]()
圖5 針對災難性遺忘的評估
實驗觀察3:知識注入引發「副作用」,通用能力全面退化
在通過 Full-FT 和 LoRA 注入新知識后,大模型的通用多模態能力均出現顯著下滑。
實驗觀察4:解構退化規律,驚現致命的「級聯遺忘鏈」
無論是全參數微調還是 LoRA,模型各項能力的退化嚴重程度表現出高度一致的確定性排行:指令跟隨(最嚴重)→多輪對話→幻覺控制→綜合評估 →OCR→多學科推理→數學推理(最輕微)
實驗觀察5:「聽不懂人話」引發的多米諾骨牌效應
實驗深入發現,各維度的能力退化并非孤立發生。由于 MME、SEEDBench2_Plus 等通用基準高度依賴模型對「是否/單選」等基礎指令的嚴格遵守,「指令跟隨能力」的率先崩潰會直接觸發級聯負面效應,像多米諾骨牌一樣順藤摸瓜地癱瘓模型的其他核心多模態基本功!
核心挑戰 2:參數微調方法在注入新知識時,不可避免地會導致大模型通用能力的大幅退化,且這種退化在不同微調手段中表現出高度一致的嚴重性排行與致命的級聯效應。
核心技術
為了解決「新知學不準,舊能保不住」這一難題,團隊遞進發力,提出了KORE,一個巧妙結合了知識導向的增強與約束的協同方法。
![]()
圖6 知識適應和知識保留之間的平衡挑戰以及KORE的性能概覽
KORE的核心思想是雙管齊下:
對外「做加法」:通過一種名為KORE-AUGMENTATION的自動化數據增強流水線,將孤立的知識點擴展為結構化、多層次的對話和指令數據,讓模型「學得深、學得透」。
為了讓模型真正「內化」新知識,而不是簡單地「記憶」數據點,作者們提出了一種深刻且結構化的數據增強方法KORE-AUGMENTATION,它通過一個自動化的流水線,將每一個孤立的知識點(例如,一條關于某個新聞事件的圖文信息),擴展成一個結構化的知識樹。這棵樹包含:
樹干:基于原始知識生成的多輪對話數據,模擬了對該知識點的深入探討和追問。
樹枝:基于原始知識生成的多種指令任務數據,包括:(1)視覺識別:判斷圖片內容是否與知識點相關。(2)圖像描述:根據知識點為圖片生成描述。(3)視覺問答 :基于圖片和知識點回答具體問題。
這個過程是完全自動化的,利用GPT-4o模型,將單一的知識點「發酵」成包含7.4萬個樣本的高質量、多形式的訓練數據集(KORE-74K)。通過在這種結構化數據上進行訓練,模型不再是死記硬背,而是學會了理解、推理和靈活運用新知識。
![]()
圖7 KORE的兩階段優化概覽
對內「做減法」:通過一種名為KORE-CONSTRAINT的知識約束機制,在微調時找到一個幾乎不干擾舊知識的「安全」更新方向(即激活協方差矩陣的「零空間」),從而讓模型「忘得少、忘得慢」。
LMM的預訓練知識,可以被看作是其內部激活值在特定輸入下的分布模式。這些模式可以被線性層激活的協方差矩陣C所捕捉。KORE-CONSTRAINT的基本假設是:如果我們能讓微調的更新方向,與這些代表舊知識的模式「正交」(即位于協方差矩陣C的零空間中),那么我們就能在最大程度上避免干擾舊知識。具體實現步驟如下所示:
收集舊知識的「指紋」:首先,用一組代表預訓練知識的隨機樣本(論文中使用了OneVision數據集)輸入LMM,并收集其線性層的激活值
X。計算協方差矩陣:計算激活值的協方差矩陣
C = XX?。這個矩陣C就相當于舊知識在這一層留下的「指紋」。找到「安全」的更新空間:對協方差矩陣
C進行奇異值分解 (SVD):
![]()
SVD可以將C分解為一系列由奇異值σ?和奇異向量u?定義的子空間。其中,那些對應于極小或零奇異值的子空間,就是零空間(Null Space)。對這個空間的擾動,對C的影響最小,因此可以被視為「安全」的更新區域。
初始化適配器 (Adapter):KORE選擇LoRA作為PEFT方法。LoRA的更新可以表示為
ΔW = BA。為了讓更新「安全」,關鍵是讓矩陣A位于C的零空間中。
作者首先構建一個投影矩陣P = ???,其中?是由對應最小奇異值的奇異向量組成的矩陣,P可以將任意權重投影到C的近似零空間中。然后,他們將原始權重W?投影到這個零空間上,即W?P。
對W?P再次進行SVD,并用其分解結果來初始化LoRA的矩陣A和B:
![]()
最后,為了保證微調開始時模型的行為不變,從原始權重中減去初始的更新量:
![]()
約束微調:在微調過程中,只訓練矩陣
B,而保持矩陣A凍結。因為A被初始化在了零空間中,所以無論B如何變化,最終的更新ΔW = BA對舊知識協方差C的影響都將是最小的(BAC ≈ 0)。
通過這種方式,KORE-CONSTRAINT為知識注入找到了一個「絕緣」的更新通道,實現了在注入新知識的同時,對舊知識的強大保護。
性能亮點
作者在LLaVA-v1.5和Qwen2.5-VL等多個主流LMM上進行了廣泛實驗,將KORE與Full-FT、LoRA以及EWC、Replay等多種連續學習方法進行了對比。
主要結果
![]()
表1的結果清晰地展示了KORE的全面優勢:
知識適應(新知識學習):在EVOKE基準上,KORE的性能遠超所有基線。例如,在F1分數上,KORE (41.26) 比表現最好的基線Replay (17.98) 高出了一倍多。這證明了KORE-AUGMENTATION在促進新知識內化方面的巨大成功。
知識保留(舊知識遺忘):在評估7大類舊能力的12個基準上,KORE的平均分(40.00)同樣名列前茅,顯著優于LoRA(33.47)和EWC(33.47)等方法,僅略低于需要存儲大量舊數據的Replay方法(43.00)。這證明了KORE-CONSTRAINT在防止災難性遺忘方面的有效性。
綜合表現:綜合來看,KORE在「適應」和「保留」兩個維度上取得了最佳的平衡,平均分(37.98)和HARS (82.81)顯著高于所有基線。
![]()
圖8 細粒度知識類型性能對比圖
在更細粒度的20種不同類型知識的注入任務上,KORE同樣展現了全面的領先優勢,證明其并非只在特定類型的知識上有效。
特定知識保留的靈活性
KORE的一個強大之處在于其可定制性。如果用戶希望特別保護某一類舊知識(例如,數學推理能力),他們可以在構建協方差矩陣C時,只使用該類任務的數據。
![]()
實驗表明,當施加特定約束時(如KORE_MME, KORE_OCRVQA),模型在該特定任務上的保留能力會得到進一步增強,同時對新知識的學習能力影響甚微。這為根據不同應用場景進行定制化的知識管理提供了可能。
在不同模型尺寸和結構上的泛化性
![]()
無論是在更大的13B模型上,還是在架構不同的Qwen2.5-VL模型上,KORE都穩定地展現出超越基線的性能。這證明了KORE方法的普適性,它并非針對某一特定模型或規模的「特調」方案。
消融實驗
![]()
消融實驗進一步驗證了KORE兩個核心組件的不可或缺性:
去掉KORE-AUGMENTATION:新知識學習能力(K.A)急劇下降。
去掉KORE-CONSTRAINT:舊知識保留能力(K.R)顯著受損。
這證明了KORE的成功正是源于其「增強」與「約束」的協同作用。
![]()
圖9 不同rank大小對性能的影響
在探討模型秩(Rank)大小對性能的影響時,實驗展現了 KORE 極強的參數利用率:
性能隨 Rank 穩步攀升:如圖7所示,隨著 Rank 值(即可訓練參數)的增加,KORE 在各項評估指標上的表現均呈現出清晰的上升趨勢。
更少參數,更好性能:最令人矚目的是,即便將 Rank 限制在 64,KORE 僅憑不到 Replay(經驗重放)策略1/3的參數量,就在綜合能力Avg)和 HARS 核心指標上實現了超越!真正做到了「降本增效」,為大模型低成本持續學習提供了極佳的范式。
總結
研究團隊針對大型多模態模型(LMMs)在動態知識注入時面臨的「學不準」與「忘得快」雙重困境,提出了一套包含評測基準與底層微調架構的完整閉環解決方案。
首先,團隊構建了首個動態多模態演變知識評測基準 MMEVOKE,首次科學解構了新知識注入引發模型基礎能力全面降級的「級聯遺忘效應」。
在此基礎上,團隊推出雙階段框架 KORE:通過多模態「知識樹」增強提升新知識內化,并結合「零空間約束」將舊能力鎖定,從幾何層面切斷參數干擾。KORE 以極低參數開銷完美平衡了「新知吸收」與「舊能保留」。未來,團隊將持續攻堅災難性遺忘的底層機制,為下一代具備「終身學習」能力的大模型奠定技術底座。
參考資料:
https://arxiv.org/pdf/2505.24449
編輯:LRST
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.