<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      將多教師沖突轉化為動態約束,破解多模態大模型推理對齊難題

      0
      分享至



      在多模態大模型(MLLM)快速發展的浪潮中,融合多模型 “集體智慧” 已成為提升模型性能的關鍵路徑,并催生了多教師知識蒸餾這一主流范式。然而,不同來源的教師模型在架構與優化上的差異,其在相似推理過程中呈現出不穩定甚至偏移的認知軌跡,即 “概念漂移”(Concept Drift)。這種多源推理分布的動態演變會將偏差與錯誤認知隱性傳遞給目標模型,進而引發邏輯沖突與生成幻覺等潛在風險。

      悉尼科技大學(UTS)研究團隊提出了一種全新的自主偏好優化框架 —— APO (Autonomous Preference Optimization)。該框架突破了傳統蒸餾對單一強教師模型的依賴,通過多流教師模型的協同機制,巧妙地將模型間的 “漂移” 轉化為動態負約束,并將 “共識” 視為正向偏好引導,系統性地解決了多模態大模型在多師蒸餾中的概念對齊難題。該工作已被 ICML 2026 正式接收。



      • 論文標題: Turning Drift into Constraint: Robust Reasoning Alignment in Non-Stationary Multi-Stream Environments
      • 作者信息:Xiaoyu Yang, En Yu, Wei Duan, Jie Lu
      • 作者單位:悉尼科技大學(UTS)澳大利亞人工智能研究院(AAII)
      • 論文鏈接:https://arxiv.org/abs/2510.04142
      • 項目主頁:https://xiaoyuyoung.github.io/APO/
      • 倉庫鏈接:https://github.com/XiaoyuYoung/APO
      • 數據集鏈接:https://huggingface.co/datasets/MiaoMiaoYang/CXR-MAX

      01 引言

      目前的蒸餾策略大多假設教師模型提供的是單一穩定、一致的監督信號。然而,研究團隊通過對 7 個主流 MLLM 在醫療診斷任務中的表現分析發現,這些模型在推理過程中展現出顯著的非平穩性,其推理分布會隨步驟深入而產生劇烈波動。具體而言,雖然 Qwen-VL-Max 等模型傾向于高精度且簡潔的推理,而 GPT-5 則偏好高召回率的詳盡闡述,這種互補性的發散意味著真實的推理流形潛藏在多流共識之中,而非單一強教師監督;然而,若學生模型只是簡單地模仿這些漂移的教師流,并不能自動綜合其優點,反而會因內化了各個模型的偏見而導致幻覺與語義不一致,這證明了在非平穩環境下,單純的模仿已無法實現穩健的概念對齊。

      為此,作者正式定義了非平穩多流概念對齊問題,并提出APO框架。這是一種將多流教師偏見內化為動態負約束、并將共識視為正向偏好引導,共同驅動學生模型收緊特征空間,實現穩健推理。



      圖 1:APO 整體框架。該框架通過兩階段協議將教師模型間的漂移沖突轉化為動態負約束,并結合共識合成與偏好優化,在分布演變中精煉出穩健的推理共識流形。

      02 方法

      研究團隊面向多教師蒸餾問題,首先將概念漂移理論擴展到多源 MLLM 非平穩多流概念對齊上,將多源 MLLM 蒸餾定義為非平穩條件下的約束滿足問題;其次,作者設計了兩階段協議,自主提取多源 MLLM 的共識作為正向引導,并將教師模型間相互沖突的漂移軌跡重構為動態負約束,通過多負樣本偏好優化驅動,實現穩健的概念對齊。

      多流推理漂移







      則認為發生了多流推理漂移。







      監督引導的共識合成

      在多流推理漂移框架下,研究團隊首先讓 MLLM 進行監督引導的共識合成。在這個階段,學生模型廣泛吸收所有教師模型的異構知識。通過將自身投射到多源模型能力的并集空間中,學生模型建立起了一個包容集體智慧的基礎能力基座。

      在此基礎上,研究團隊進一步利用大模型的推理能力,設計了上下文共識提取機制,將各個教師模型生成的、混合著有效信號與漂移錯誤的原始推理軌跡進行匯總,作為目標模型的參考上下文。此時,學生模型作為判別器,自主過濾掉那些缺乏跨模型支持的矛盾信息,并放大模型間的邏輯交集,最終提煉出一條高度邏輯自洽的共識軌跡。

      約束感知的偏好優化

      在提煉出邏輯自洽的共識軌跡后,APO 設計了約束感知優化進行概念對齊。這一階段的核心邏輯在于,目標模型不僅需要學習 “生成什么”(即共識軌跡),更需要明確 “避開什么”(即教師模型中固有的推理漂移)。通過最大化共識與漂移之間的邊際,模型得以針對幻覺和偏差進一步壓縮其決策邊界。





      這種優化目標強制模型滿足兩個動態條件:一方面,相對于參考模型提升共識軌跡的生成概率;另一方面,顯式壓制推理空間中的漂移模式。這一過程有效地將教師模型間的沖突從干擾噪聲轉化為強力的監督信號,在無需外部推理軌跡標注的情況下,自主勾勒出大模型魯棒的推理流形。

      03 數據集構建

      為了評估真實環境中非平穩環境的推理對齊效果,研究團隊選擇了高風險、高動態的醫療領域,胸片診斷任務。研究團隊推出了 CXR-MAX (Multi-source Alignment for X-rays) ,這是一個專為促進高風險領域多教師蒸餾研究而設計的大規模基準。CXR-MAX 擴展了著名的 MIMIC-CXR 數據集,匯集了來自 7 個不同主流 MLLM 的推理軌跡,其中包括:GPT-5, Gemini-2.5, Sonnet-4, Grok-4, Qwen-VL-MAX, GLM-4.5V 以及 Moonshot。該數據集提供了 170,982 個推理實例,涵蓋了 14 種胸部疾病,為臨床胸片任務的多教師蒸餾研究建立了大規模的實驗基座。

      04 實驗驗證



      表 1: 各個教師模型和學生模型在胸片疾病診斷任務上的的分類準確率(%)。紅色代表最優,藍色代表次優。

      為了驗證 APO 的有效性,研究團隊構建了胸部疾病分類、診斷報告生成、思維鏈一致性以及泛化性實驗。表 1 的結果表明,APO 訓練出的 7B 模型在所有疾病診斷任務中實現了 0.78 的最高平均準確率,一舉超越了包括 GPT-5 在內的所有教師模型。這一結果有力證明了,APO 賦予了緊湊型模型合成共識流形的能力,使其能夠有效整合多位教師的差異化優勢,真正實現站在巨人的肩膀上。

      特別是在實變(Con.)和水腫(Ede.)疾病預測中,教師模型間有極大的分歧,各模型間準確率落差甚至超過 70%,教師模型表現波動巨大。而在實變(Con.)、肺炎(Pna.)和水腫(Ede.)疾病預測上,7 個教師模型中達到 60% 以上準確率的教師模型僅有 5 個。相比之下,APO 訓練的學生模型在幾乎所有類別中都穩居前二,展現出極強的穩定性。APO 通過將這些劇烈發散的推理軌跡轉化為負約束,成功阻止了偏見和錯誤知識的滲透,確保了推理過程的嚴謹與可靠。

      05 結語

      APO 的提出標志著多教師蒸餾學習從 “靜態學習” 向 “動態約束” 邁出了關鍵一步。 該框架將教師模型間漂移形式化為動態負約束,將概念對齊內化為約束滿足問題,促進多模態大模型推理對齊的進一步發展,為高風險、高動態的復雜領域的模型自主演化提供了一種全新的解決方案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2018年,砸200億建立西湖大學,揚言5年追上清華,如今實現了嗎?

      2018年,砸200億建立西湖大學,揚言5年追上清華,如今實現了嗎?

      人生錄
      2026-05-12 18:36:03
      38歲梅西炸裂:無敵帽子戲法+獨造5球,率隊5-3大勝強敵,迎2連勝

      38歲梅西炸裂:無敵帽子戲法+獨造5球,率隊5-3大勝強敵,迎2連勝

      側身凌空斬
      2026-05-14 09:45:18
      說不出再見,王少杰今天下午收拾包袱離開廣東宏遠,下賽季回北控

      說不出再見,王少杰今天下午收拾包袱離開廣東宏遠,下賽季回北控

      工從昊懂球阿靖
      2026-05-14 16:40:08
      快人快語!特朗普訪華提出首個訴求,中國從容回應盡顯大智慧

      快人快語!特朗普訪華提出首個訴求,中國從容回應盡顯大智慧

      青煙小先生
      2026-05-14 14:31:35
      人民大會堂最特別的房間,只用三個數字,懂的人都懂分量有多重

      人民大會堂最特別的房間,只用三個數字,懂的人都懂分量有多重

      賤議你讀史
      2026-04-30 03:40:03
      剛刪完中文就慌了!國際足聯,耍的那點小聰明,竟捅了天大的簍子

      剛刪完中文就慌了!國際足聯,耍的那點小聰明,竟捅了天大的簍子

      西樓知趣雜談
      2026-05-13 14:16:55
      中印沖突全面升級:中國避讓換來印度強硬對抗

      中印沖突全面升級:中國避讓換來印度強硬對抗

      張鴘喜歡軟軟糯糯
      2026-05-12 16:53:24
      22歲大學生連夜開車1300多公里,自費5200多元送校友回家奔喪!利川宣布:4人全年免門票,為該校學子提供見習崗位、實踐平臺

      22歲大學生連夜開車1300多公里,自費5200多元送校友回家奔喪!利川宣布:4人全年免門票,為該校學子提供見習崗位、實踐平臺

      極目新聞
      2026-05-13 12:26:13
      白宮的鏡頭為解放軍停留5秒,特朗普很喜歡,美國人直夸鐵的紀律

      白宮的鏡頭為解放軍停留5秒,特朗普很喜歡,美國人直夸鐵的紀律

      呼呼歷史論
      2026-05-14 14:44:43
      馬斯克:只有我和黃仁勛坐上了“空軍一號”

      馬斯克:只有我和黃仁勛坐上了“空軍一號”

      大象新聞
      2026-05-14 07:50:06
      震驚!網傳番禺老板找做飯的小姐姐,15000元月薪,注明不需陪睡

      震驚!網傳番禺老板找做飯的小姐姐,15000元月薪,注明不需陪睡

      火山詩話
      2026-05-13 08:59:22
      全國物業費收繳率多年下滑,多地倡議黨員先繳物業費引爭議

      全國物業費收繳率多年下滑,多地倡議黨員先繳物業費引爭議

      南方都市報
      2026-05-14 11:15:55
      攤牌了!特朗普訪華第一天,中方在臺灣問題上直接劃死線

      攤牌了!特朗普訪華第一天,中方在臺灣問題上直接劃死線

      蘭亭墨未干
      2026-05-14 17:34:26
      快評丨登機皮衣落地西裝,黃仁勛“換裝”背后藏著哪些深意

      快評丨登機皮衣落地西裝,黃仁勛“換裝”背后藏著哪些深意

      紅星新聞
      2026-05-14 17:18:16
      64歲陳秀雯近況曝光,“消失”6年變了模樣,那么美卻被婚姻毀了

      64歲陳秀雯近況曝光,“消失”6年變了模樣,那么美卻被婚姻毀了

      文刀貳
      2026-05-13 23:25:20
      驚險!深圳街頭驚現巨蟒盤踞馬路正中嚇壞路人

      驚險!深圳街頭驚現巨蟒盤踞馬路正中嚇壞路人

      看看新聞Knews
      2026-05-14 12:28:05
      塔吉克斯坦總統在重慶觀看無人機燈光秀,不時鼓掌稱贊

      塔吉克斯坦總統在重慶觀看無人機燈光秀,不時鼓掌稱贊

      上觀新聞
      2026-05-14 12:38:14
      武漢鉑萊華快捷酒店消殺人員錯開女子房門!雙方和解店方賠償

      武漢鉑萊華快捷酒店消殺人員錯開女子房門!雙方和解店方賠償

      南方都市報
      2026-05-14 17:38:24
      德媒爆猛料!美國聲望崩成渣,中國反超還碾壓俄羅斯?

      德媒爆猛料!美國聲望崩成渣,中國反超還碾壓俄羅斯?

      収起了底線
      2026-05-14 16:35:37
      鄧亞萍一句話說透,張本智和不是輸給梁靖崑,是輸給了這三個字

      鄧亞萍一句話說透,張本智和不是輸給梁靖崑,是輸給了這三個字

      小叨娛樂
      2026-05-14 13:27:43
      2026-05-14 18:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12995文章數 142648關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      媒體:中美元首會談超2小時15分鐘 兩國關系有新定位

      頭條要聞

      媒體:中美元首會談超2小時15分鐘 兩國關系有新定位

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      習近平同美國總統特朗普會談

      汽車要聞

      新時代傳統豪華是什么樣? 上汽奧迪E7X給出了自己的答案

      態度原創

      旅游
      教育
      房產
      公開課
      軍事航空

      旅游要聞

      2026年靜安文旅消費季來了,首輪文旅消費券將于5月18日開搶

      教育要聞

      開始報名!第十八屆北京市中小學生科學建議活動通知發布

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美以伊戰爭期間以總理密訪阿聯酋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩91| 欧美激情精品久久久久久| 亚洲中文无码手机永久| 老司机玖玖在線| 中文字幕久久精品波多野结| 久久成人国产精品免费| 四虎影视一区二区精品| 亚洲欧美精品一中文字幕| 97av视频在线观看| A成人网站| 亚洲综合色噜噜狠狠网综合 | 中国熟女仑乱hd| 福利一区二区视频在线| 亚洲色最新高清AV网站| 日韩区欧美国产区在线观看| 丰满人妻一区二区三区在线视频53| 三级电影网址| 婷婷五月综合网| 丝袜美腿亚洲综合在线观看视频| 国产成人av一区二区三区不卡| 中文字幕av一区| 国产真实露脸乱子伦原著| 永新县| 色老汉亚洲av影院天天精品| 福利社试看| 东京热人妻无码一区二区AV| 日日碰狠狠添天天爽不卡| 久久内射| 夜夜添狠狠添高潮出水| 国产99蜜臀视频精品免费视频| 99精品国产一区二区三区不卡| 国产一区二区三区在线观看免费| 人妻日韩人妻中文字幕| 国产成人高清亚洲综合| 狼色精品人妻在线视频免费| 大陆一区视频观看| 日韩精品久久久中文字幕| avの在线观看不卡| 最新亚洲人成网站在线观看| 国99久9在线 | 免费| 亚洲日韩久热中文字幕|