<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      教大模型終身學習!中科大連發兩篇頂會,突破「知識注入」雙重困境

      0
      分享至


      新智元報道


      【新智元導讀】中科大團隊首先推出動態多模態知識注入基準MMEVOKE,解構遺忘機制,并在此基礎上提出全新雙階段框架KORE。通過「知識樹」自動增強與「零空間」協方差約束微調,為大模型終身學習開辟了全新路徑。

      當前主流大型多模態模型(LMMs)通過海量數據的預訓練存儲了豐富的靜態知識,并在多模態理解與指令跟隨上取得了巨大成功。然而,現實世界瞬息萬變,大模型的既有知識面臨「上線即過時」的嚴峻挑戰,亟需具備高效吸收動態演變知識(Evolving Knowledge)的持續學習能力。

      現有研究多局限于靜態文本領域的知識編輯,忽視了動態多模態演變知識的注入,導致多模態持續學習領域存在兩大核心缺陷:

      1. 評測基準缺失:缺乏能夠高頻、動態復制且覆蓋面廣的多模態演變知識評測基準;

      2. 遺忘機制不明:業界未能對模型在面對演變知識注入時的退化行為進行深度的定量解構。

      針對這一關鍵空白,中國科學技術大學團隊正式推出首個動態多模態知識注入基準MMEVOKE(含9,422個樣本、橫跨159個細分子類)。


      論文鏈接:https://arxiv.org/pdf/2505.24449

      代碼鏈接:https://github.com/EVOKE-LMM/EVOKE

      開源數據集:https://huggingface.co/collections/kailinjiang/mmevoke-iclr26

      項目主頁:https://evoke-lmm.github.io/

      同時,為了讓大型多模態模型(LMMs)能夠實時跟上現實世界的發展,高效的知識注入(Knowledge Injection)已成為多模態大模型走向實用化的必由之路。然而,現有的知識注入方法在處理多模態持續學習時,普遍陷入了不可調和的「雙重困境」:

      1. 知識適應性差(學不準):傳統微調僅對孤立、離散的數據進行粗暴訓練,導致模型對新知識缺乏跨模態泛化和多輪深度推理能力,容易產生「死記硬背」或嚴重幻覺;

      2. 災難性遺忘嚴重(忘得快):參數在吸收新知識時的無序更新,會強力干擾并破壞大模型原有的通用多模態基本能力(如OCR、學科推理等),導致既有能力斷崖式下跌。

      為了打破這一不可調和的「死結」,團隊進一步提出了以知識導向控制(Knowledge-Oriented Controls)為核心的全新雙階段優化微調框架KORE,通過兩大創新機制實現「知識適應」與「能力保留」的閉環協同。


      論文鏈接:https://arxiv.org/pdf/2510.19316

      代碼鏈接:https://github.com/KORE-LMM/KORE

      開源數據集:https://huggingface.co/collections/kailinjiang/koreicml26

      項目主頁:https://kore-lmm.github.io/

      研究背景

      隨著現實世界的瞬息萬變,大型多模態模型(LMMs)正面臨著一個致命的痛點:預訓練賦予了它們海量的靜態知識,但這些知識一旦離線就會迅速過時。

      當面對類似「小米SU7/Yu7」、「2024諾貝爾物理學獎」等新近涌現的動態演變知識(Evolving Knowledge)時,LMMs不僅無法準確識別和泛化,甚至在強行注入新知識后,還會觸發嚴重的災難性遺忘,導致其原有的通用多模態指令跟隨等基本能力斷崖式下跌。


      圖1 進化知識注入的樣例展示

      場景構建

      傳統的知識編輯評測多依賴人工靜態收集,不僅耗時費力,更無法跟上現實世界「高頻、動態」的演變步伐。為了實現自動化且高質量的動態知識捕獲,團隊設計了一套可高頻自動復制的數據構建流水線


      圖2 MMEVOKE的構建流程

      最終構建出包含9,422個樣本、橫跨新聞與實體兩大領域、159個細分行業子類的龐大基準。


      圖3 MMEVOKE的統計數據

      團隊在MMEVOKE上對4類知識注入方法(Supervised Fine-Tuning、Retrieval Augmented Generation、Commercial AI Web Search Engine、Sufficient Context)進行了動態知識注入大考,實驗結果徹底顛覆了行業傳統認知:


      圖4 現有知識注入方法在MMEVOKE上的評估

      1. 實驗觀察 1:現有主流方法在 MMEVOKE 上全線折戟:團隊深入評估了參數微調、多模態檢索增強(RAG)以及商業 AI 搜索引擎等多類主流方法,結果發現其表現均不盡如人意。

      2. 實驗觀察 2:顛覆直覺!即便上下文充足,大模型依舊「睜眼說瞎話」:行業通常認為,只要為大模型提供準確且充足的檢索上下文,就能保證回答的正確性。但 MMEVOKE 的「充足上下文(Sufficient Context)」嚴苛實驗打破了這一神話。

      核心挑戰 1:現有知識注入方法在 MMEVOKE 基準上表現極為匱乏,甚至在擁有充足的外部上下文時,大模型依然無法有效利用和正確推理動態演變知識。

      為了對模型在面對演變知識注入時的退化行為進行深度的定量解構,團隊在7個能力維度的12個benchmark上面進行了廣泛的實驗,得到以下結論:


      圖5 針對災難性遺忘的評估

      實驗觀察3:知識注入引發「副作用」,通用能力全面退化

      在通過 Full-FT 和 LoRA 注入新知識后,大模型的通用多模態能力均出現顯著下滑。

      實驗觀察4:解構退化規律,驚現致命的「級聯遺忘鏈」

      無論是全參數微調還是 LoRA,模型各項能力的退化嚴重程度表現出高度一致的確定性排行:指令跟隨(最嚴重)→多輪對話幻覺控制→綜合評估 →OCR→多學科推理→數學推理(最輕微)

      實驗觀察5:「聽不懂人話」引發的多米諾骨牌效應

      實驗深入發現,各維度的能力退化并非孤立發生。由于 MME、SEEDBench2_Plus 等通用基準高度依賴模型對「是否/單選」等基礎指令的嚴格遵守,「指令跟隨能力」的率先崩潰會直接觸發級聯負面效應,像多米諾骨牌一樣順藤摸瓜地癱瘓模型的其他核心多模態基本功!

      核心挑戰 2:參數微調方法在注入新知識時,不可避免地會導致大模型通用能力的大幅退化,且這種退化在不同微調手段中表現出高度一致的嚴重性排行與致命的級聯效應。

      核心技術

      為了解決「新知學不準,舊能保不住」這一難題,團隊遞進發力,提出了KORE,一個巧妙結合了知識導向的增強與約束的協同方法。


      圖6 知識適應和知識保留之間的平衡挑戰以及KORE的性能概覽

      KORE的核心思想是雙管齊下:

      對外「做加法」:通過一種名為KORE-AUGMENTATION的自動化數據增強流水線,將孤立的知識點擴展為結構化、多層次的對話和指令數據,讓模型「學得深、學得透」。

      為了讓模型真正「內化」新知識,而不是簡單地「記憶」數據點,作者們提出了一種深刻且結構化的數據增強方法KORE-AUGMENTATION,它通過一個自動化的流水線,將每一個孤立的知識點(例如,一條關于某個新聞事件的圖文信息),擴展成一個結構化的知識樹。這棵樹包含:

      1. 樹干:基于原始知識生成的多輪對話數據,模擬了對該知識點的深入探討和追問。

      2. 樹枝:基于原始知識生成的多種指令任務數據,包括:(1)視覺識別:判斷圖片內容是否與知識點相關。(2)圖像描述:根據知識點為圖片生成描述。(3)視覺問答 :基于圖片和知識點回答具體問題。

      這個過程是完全自動化的,利用GPT-4o模型,將單一的知識點「發酵」成包含7.4萬個樣本的高質量、多形式的訓練數據集(KORE-74K)。通過在這種結構化數據上進行訓練,模型不再是死記硬背,而是學會了理解、推理和靈活運用新知識。


      圖7 KORE的兩階段優化概覽

      對內「做減法」:通過一種名為KORE-CONSTRAINT的知識約束機制,在微調時找到一個幾乎不干擾舊知識的「安全」更新方向(即激活協方差矩陣的「零空間」),從而讓模型「忘得少、忘得慢」。

      LMM的預訓練知識,可以被看作是其內部激活值在特定輸入下的分布模式。這些模式可以被線性層激活的協方差矩陣C所捕捉。KORE-CONSTRAINT的基本假設是:如果我們能讓微調的更新方向,與這些代表舊知識的模式「正交」(即位于協方差矩陣C的零空間中),那么我們就能在最大程度上避免干擾舊知識。具體實現步驟如下所示:

      1. 收集舊知識的「指紋」:首先,用一組代表預訓練知識的隨機樣本(論文中使用了OneVision數據集)輸入LMM,并收集其線性層的激活值X

      2. 計算協方差矩陣:計算激活值的協方差矩陣C = XX?。這個矩陣C就相當于舊知識在這一層留下的「指紋」。

      3. 找到「安全」的更新空間:對協方差矩陣C進行奇異值分解 (SVD):


      SVD可以將C分解為一系列由奇異值σ?和奇異向量u?定義的子空間。其中,那些對應于極小或零奇異值的子空間,就是零空間(Null Space)。對這個空間的擾動,對C的影響最小,因此可以被視為「安全」的更新區域。

      1. 初始化適配器 (Adapter):KORE選擇LoRA作為PEFT方法。LoRA的更新可以表示為ΔW = BA。為了讓更新「安全」,關鍵是讓矩陣A位于C的零空間中。

      作者首先構建一個投影矩陣P = ???,其中?是由對應最小奇異值的奇異向量組成的矩陣,P可以將任意權重投影到C的近似零空間中。然后,他們將原始權重W?投影到這個零空間上,即W?P

      W?P再次進行SVD,并用其分解結果來初始化LoRA的矩陣AB


      最后,為了保證微調開始時模型的行為不變,從原始權重中減去初始的更新量:


      1. 約束微調:在微調過程中,只訓練矩陣B,而保持矩陣A凍結。因為A被初始化在了零空間中,所以無論B如何變化,最終的更新ΔW = BA對舊知識協方差C的影響都將是最小的(BAC ≈ 0)。

      通過這種方式,KORE-CONSTRAINT為知識注入找到了一個「絕緣」的更新通道,實現了在注入新知識的同時,對舊知識的強大保護。

      性能亮點

      作者在LLaVA-v1.5和Qwen2.5-VL等多個主流LMM上進行了廣泛實驗,將KORE與Full-FT、LoRA以及EWC、Replay等多種連續學習方法進行了對比。

      主要結果


      表1的結果清晰地展示了KORE的全面優勢:

      1. 知識適應(新知識學習):在EVOKE基準上,KORE的性能遠超所有基線。例如,在F1分數上,KORE (41.26) 比表現最好的基線Replay (17.98) 高出了一倍多。這證明了KORE-AUGMENTATION在促進新知識內化方面的巨大成功。

      2. 知識保留(舊知識遺忘):在評估7大類舊能力的12個基準上,KORE的平均分(40.00)同樣名列前茅,顯著優于LoRA(33.47)和EWC(33.47)等方法,僅略低于需要存儲大量舊數據的Replay方法(43.00)。這證明了KORE-CONSTRAINT在防止災難性遺忘方面的有效性。

      3. 綜合表現:綜合來看,KORE在「適應」和「保留」兩個維度上取得了最佳的平衡,平均分(37.98)和HARS (82.81)顯著高于所有基線。


      圖8 細粒度知識類型性能對比圖

      在更細粒度的20種不同類型知識的注入任務上,KORE同樣展現了全面的領先優勢,證明其并非只在特定類型的知識上有效。

      特定知識保留的靈活性

      KORE的一個強大之處在于其可定制性。如果用戶希望特別保護某一類舊知識(例如,數學推理能力),他們可以在構建協方差矩陣C時,只使用該類任務的數據。


      實驗表明,當施加特定約束時(如KORE_MME, KORE_OCRVQA),模型在該特定任務上的保留能力會得到進一步增強,同時對新知識的學習能力影響甚微。這為根據不同應用場景進行定制化的知識管理提供了可能。

      在不同模型尺寸和結構上的泛化性


      無論是在更大的13B模型上,還是在架構不同的Qwen2.5-VL模型上,KORE都穩定地展現出超越基線的性能。這證明了KORE方法的普適性,它并非針對某一特定模型或規模的「特調」方案。

      消融實驗


      消融實驗進一步驗證了KORE兩個核心組件的不可或缺性:

      1. 去掉KORE-AUGMENTATION:新知識學習能力(K.A)急劇下降。

      2. 去掉KORE-CONSTRAINT:舊知識保留能力(K.R)顯著受損。

      這證明了KORE的成功正是源于其「增強」與「約束」的協同作用。


      圖9 不同rank大小對性能的影響

      在探討模型秩(Rank)大小對性能的影響時,實驗展現了 KORE 極強的參數利用率:

      1. 性能隨 Rank 穩步攀升:如圖7所示,隨著 Rank 值(即可訓練參數)的增加,KORE 在各項評估指標上的表現均呈現出清晰的上升趨勢。

      2. 更少參數,更好性能:最令人矚目的是,即便將 Rank 限制在 64,KORE 僅憑不到 Replay(經驗重放)策略1/3的參數量,就在綜合能力Avg)和 HARS 核心指標上實現了超越!真正做到了「降本增效」,為大模型低成本持續學習提供了極佳的范式。


      總結

      研究團隊針對大型多模態模型(LMMs)在動態知識注入時面臨的「學不準」與「忘得快」雙重困境,提出了一套包含評測基準與底層微調架構的完整閉環解決方案。

      首先,團隊構建了首個動態多模態演變知識評測基準 MMEVOKE,首次科學解構了新知識注入引發模型基礎能力全面降級的「級聯遺忘效應」。

      在此基礎上,團隊推出雙階段框架 KORE:通過多模態「知識樹」增強提升新知識內化,并結合「零空間約束」將舊能力鎖定,從幾何層面切斷參數干擾。KORE 以極低參數開銷完美平衡了「新知吸收」與「舊能保留」。未來,團隊將持續攻堅災難性遺忘的底層機制,為下一代具備「終身學習」能力的大模型奠定技術底座。

      參考資料:

      https://arxiv.org/pdf/2505.24449

      編輯:LRST

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      北京協和專家:2塊錢的維生素B12,是失眠的頂尖藥,便宜又管用!

      健康科普365
      2026-05-19 09:25:22
      歐洲焦慮癥爆發!中美俄三大國聯手,歐盟為何只剩,“嘴炮”

      歐洲焦慮癥爆發!中美俄三大國聯手,歐盟為何只剩,“嘴炮”

      阿晪美食
      2026-05-21 22:34:13
      中俄聯合聲明:美以軍事打擊伊朗違反國際法,沖突當事方應盡快重返對話談判

      中俄聯合聲明:美以軍事打擊伊朗違反國際法,沖突當事方應盡快重返對話談判

      界面新聞
      2026-05-20 23:31:53
      藥水泡楊梅的黑心商戶,說了一句特別精彩的話

      藥水泡楊梅的黑心商戶,說了一句特別精彩的話

      阿振觀點
      2026-05-20 10:14:23
      輕松一刻:你要說是這種晚自習,我可就不困了!

      輕松一刻:你要說是這種晚自習,我可就不困了!

      萊月昂
      2026-05-21 19:39:02
      到賬18013.56元!網傳某車企員工感慨,看到短信的那一刻心情真好

      到賬18013.56元!網傳某車企員工感慨,看到短信的那一刻心情真好

      火山詩話
      2026-05-21 11:23:05
      連續兩個季度盈利 高端車ES8賣爆!蔚來一季度營收255.3億元 同比翻倍

      連續兩個季度盈利 高端車ES8賣爆!蔚來一季度營收255.3億元 同比翻倍

      快科技
      2026-05-21 18:32:15
      廣東或簽下北京悍將!2米07臂展2米2,上場6分鐘填滿數據欄

      廣東或簽下北京悍將!2米07臂展2米2,上場6分鐘填滿數據欄

      生活新鮮市
      2026-05-21 10:23:48
      霍家千金,主動放棄繼承巨額遺產,24年后老管家道出其中原因

      霍家千金,主動放棄繼承巨額遺產,24年后老管家道出其中原因

      萊克
      2025-12-11 11:00:16
      比學術造假更可怕的是,不造假飯碗都保不住!

      比學術造假更可怕的是,不造假飯碗都保不住!

      細說職場
      2026-05-20 12:02:31
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      兒子在美國,女兒在加拿大,87歲的央視名嘴,如今選擇獨居北京

      兒子在美國,女兒在加拿大,87歲的央視名嘴,如今選擇獨居北京

      素衣讀史
      2026-05-18 21:26:35
      尺度拉滿,Netflix把A片之王搬上了熒幕

      尺度拉滿,Netflix把A片之王搬上了熒幕

      來看美劇
      2026-05-06 16:54:02
      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      不是古德溫張鎮麟!許利民大贊上海隊1人,他擊敗了我們所有努力

      不是古德溫張鎮麟!許利民大贊上海隊1人,他擊敗了我們所有努力

      老吳說體育
      2026-05-21 00:05:02
      核導彈對射 + 元首密集訪華!2026 年 5 月,世界格局被徹底改寫

      核導彈對射 + 元首密集訪華!2026 年 5 月,世界格局被徹底改寫

      環球策論
      2026-05-21 23:07:26
      合肥一男子網購719元女士睡衣做520禮物,調包成男士睡衣退商家,被拘留9日

      合肥一男子網購719元女士睡衣做520禮物,調包成男士睡衣退商家,被拘留9日

      瀟湘晨報
      2026-05-21 15:55:19
      誰給了商家隨意更改水果本名的權力?

      誰給了商家隨意更改水果本名的權力?

      命運自認幽默
      2026-05-21 03:49:57
      體壇反腐!27歲女籃國手終身禁賽!17年苦練一切歸零 紅線絕不能碰

      體壇反腐!27歲女籃國手終身禁賽!17年苦練一切歸零 紅線絕不能碰

      林子說事
      2026-05-21 12:46:54
      林心如都50了!這誰能看得出來?

      林心如都50了!這誰能看得出來?

      木子愛娛樂大號
      2026-05-21 16:05:55
      2026-05-21 23:44:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15270文章數 66878關注度
      往期回顧 全部

      科技要聞

      小米YU7 GT正式發布:售價38.99萬元

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      頭條要聞

      叔侄倆將溺亡男子送回家離開 3天后男子被發現已腐爛

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      反轉!金秀賢與金賽綸未成年時交往不實

      財經要聞

      潮水退去,裸泳的一定不止五糧液

      汽車要聞

      后驅+閃充+激光雷達 第三代元PLUS上市售11.99萬元起

      態度原創

      本地
      旅游
      親子
      游戲
      健康

      本地新聞

      用云錦的方式,打開江蘇南京

      旅游要聞

      無主墓碑怎可當登山臺階 對逝者的敬畏,禁不起這么踩 | 封面評論

      親子要聞

      5歲小女孩來月經,竟是因為這件事情!

      封神!被T1粉絲嫌棄的天才AD,達成LOL歷史成就,尺帝gala被超越

      外泌體與干細胞竟是“快遞”與“工廠”的關系?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 好男人日本社区www| 一本av高清一区二区三区| 日本一区二区三区视频版| 五月花成人网| 国产精品一区二区AV不卡| 525f| 日本一区二区视频免费播放| 国产成人深夜午夜福利| 日韩一区二区三区女优丝袜| 波多野一区二区无码中文字幕| 国产ChineseHD天美传媒| 樱花影院电视剧免费| 久久这里只精品热免费99| 老色鬼在线精品视频在线观看| 国产福利一区二区三区四区| 国产亚洲欧美另类一区二区| 日韩欧美精品一区二区| 中国av网| 久久婷婷五月综合色d啪| 久久亚洲AV成人网站玖玖| 在线色综合| 韩国精品一区二区三区| 69堂在线观看线无码视频一| 国产精品国产片在线观看| 老鸭窝在线视频| 免费香蕉一区二区在线观看 | 国产精品日韩av在线播放| 色翁荡熄又大又硬又粗又视频| 色老头亚洲成人免费影院| 国产99青青成人A在线| 精品人妻伦一二三区久久| 国产精品久免费的黄网站| 一本色道久久综合无码人妻| 国内精品久久久久电影院| 无码精品一区二区三区在线| 手机看片1024久久精品你懂的| 亚洲人妻人| 综合在线 亚洲 成人 欧美| 大地资源中文第三页| 亚洲欧美人成网站aaaa| 久久一日本综合色鬼综合色 |