<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      DiffusionOPD:復旦聯合通義萬相提出擴散模型在線策略蒸餾新范式

      0
      分享至



      擴散模型在單一任務上的強化學習已經取得了顯著進展,例如提升文字生成質量、增強構圖準確性,或優化畫面美感等。但當這些能力需要同時集成到同一個模型中時,訓練往往會變得十分困難:不同任務之間容易產生相互干擾,訓練目標也會變得復雜而不穩定。

      近期,來自復旦大學與阿里巴巴通義萬相的研究團隊對此提出了新的思考。他們認為,多任務強化學習不應被視為一個統一優化問題,而應該解耦為兩個彼此獨立的過程:單任務的在線策略探索 & 多任務能力整合。

      基于這一觀點,他們提出了DiffusionOPD,為 diffusion 領域的 On-Policy Distillation 提供了一個統一視角,并建立了相應的理論與實驗框架。

      DiffusionOPD 的核心思路,是先針對不同任務分別訓練各自的「專家教師」模型;隨后,再通過在線策略蒸餾,將這些教師模型的能力統一蒸餾到同一個學生模型中,實現多任務能力整合。最終,一個統一的 student model 便能夠同時兼顧構圖、OCR、美學等多項能力。



      • 論?標題:DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models
      • 論文地址:https://arxiv.org/abs/2605.15055
      • 項?主?:https://quanhaol.github.io/DiffusionOPD-site/
      • 代碼鏈接 https://github.com/ali-vilab/DiffusionOPD

      多任務強化學習方法

      過去常?的多任務強化學習?法主要有兩類。

      聯合多任務 RL (Joint Multi-Task Optimization) :使用現有的 RL 算法例如 DiffusionNFT, GRPO 去聯合優化多個任務。這種范式會撞上兩個問題: 1 獎勵沖突:不同任務的優化?向往往存在相互干擾; 2 任務失衡:簡單任務會主導訓練過程,導致復雜任務難以充分學習。

      級聯 RL (Cascade RL):按階段依次訓練不同任務。雖然能夠緩解任務沖突,但是訓練流程復雜,需要分別調整各階段的超參數與訓練策略,而且容易產生災難性遺忘,后續任務訓練的時候會削弱已有能力。



      圖 1:(a)相比所有多任務強化學習基線方法,DiffusionOPD 展現出顯著更快的收斂速度以及更高的性能上限。(b)在包括 GenEval、OCR 與美學在內的多個任務領域中,DiffusionOPD 均優于所有基線方法。

      DiffusionOPD: 單任務探索 + 多任務整合

      DiffusionOPD 給出的答案?脆利落:多任務強化學習不應被視為一個統一優化問題,而應該解耦為兩個彼此獨立的過程:單任務的在線策略探索 & 多任務能力整合。



      整體訓練過程可分為兩個階段

      • Stage 1?單任務?師獨?訓練:針對不同任務(如 GenEval、OCR、Aesthetic 等),分別使用現有的 diffusion RL 方法訓練對應的「專家教師」模型。其中,GenEval 任務采用 DiffusionNFT,OCR 與美學任務采用 GRPO-Guard。由于每個教師僅負責單一任務,因此能夠避免跨任務干擾。
      • Stage 2?在線策略蒸餾多任務能力到學?模型:隨后,從一個預訓練擴散模型初始化統一的學生模型,并通過在線策略蒸餾整合多任務能力。在訓練過程中,學生模型針對不同任務,基于自身策略生成去噪軌跡;隨后,在學生生成的每個去噪狀態上,由對應任務的教師模型提供監督信號。因此,學生模型無需重新對所有任務進行從零探索,而是能夠直接學習各任務教師的策略與能力,從而實現高效的多任務能力融合。

      Diffusion 領域 OPD 的?標函數推導

      在 LLM 中,OPD 的做法很自然:學生模型先按照自己的策略生成 token,隨后教師模型在學生訪問到的每一個 token 狀態上提供監督。由于語言模型本身是離散 token 分布,因此可以直接對每一步的 token distribution 做 KL 蒸餾。

      但 diffusion model 不一樣。它不是離散 token 序列,而是一個連續狀態的去噪過程。

      因此作者首先把 diffusion 的去噪過程重新視作一個 continuous-state Markov chain(連續狀態馬爾可夫鏈)。在這個視角下,每一步去噪 transition 都對應一個 Gaussian transition kernel;學生模型和教師模型分別定義自己的 transition distribution:









      接著,論文進一步推導發現:由于 student 和 teacher 的transition covariance 是相同的,于是整個擴散版 OPD ?標 reverse KL,就被寫成了?個完全解析、? Monte-Carlo ?差的均值匹配損失:



      作者進一步指出這一框架同時統一了stochastic SDE sampler 與 deterministic ODE sampler。在 ODE 情況下目標會退化成均值之間的 L2 匹配。



      與 PPO-style policy gradient 的比較

      另一個一非常自然的想法是:把老師當作「過程獎勵模型」,把 KL 損失看作每一個去燥步的 dense reward 然后計算 advantage,最后套一個 PPO 的損失函數。

      DiffusionOPD 論文里嚴格證明了直接閉式 KL 與 PPO -style policy gradient在期望意義下梯度完全相等。但 PPO 的梯度里會多出一項 score-function 項,它與高斯噪聲成正比,期望為零但方差不為零。也就是說,PPO 估計天然比閉式 KL 更「吵」。





      更關鍵的是 PPO 形式離不開 logprob 與 ratio 的計算,因此它在 ODE 確定性采樣器下根本無法定義,僅僅支持 SDE sampler。

      實驗結果

      1.與多任務強化學習方法的對比

      定量效果對比:



      訓練曲線對比:



      定性效果對比:



      圖 2:與多任務強化學習方法以及單任務教師模型的定性對比結果。每個案例分為兩行展示:第一行從左到右依次為 DiffusionOPD(本文方法)、Multi-Task GRPO-Guard、Multi-Task NFT 和 Cascade NFT;第二行從左到右依次為輸入文本、Aesthetic Teacher、GenEval Teacher 和 OCR Teacher 的生成結果。

      2.蒸餾方法消融:

      作者還做了一組很有意義的對照實驗:固定同一批專家老師,分別用 DiffusionOPD、DMD、TDM、SFT 蒸餾到同一個學生,控制變量后對比誰更適合「多任務能力整合」這個場景。

      訓練曲線對比:



      曲線表示同樣的老師、同樣的采樣設置,DiffusionOPD 在收斂速度和上限上都明顯更好。

      定性效果對比:



      圖 3:與不同蒸餾方法的定性對比結果。從左到右依次為:DiffusionOPD(本文方法)、DMD、TDM 和 SFT。

      3.Loss 形式以及 Sampler Type 消融



      圖 6:關于損失函數形式與采樣器噪聲水平的消融實驗。當噪聲水平設為 0 時,SDE sampler 將退化為 ODE sampler。實驗結果表明,PPO-style policy gradient 的表現遜于同樣 noise level 的 closed-form KL objective;此外,更低的噪聲水平能夠帶來更快的收斂速度和更高的性能上限。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      夫妻一吃自己做的飯就拉肚子,吃外賣卻沒事,一年半還沒找到原因

      夫妻一吃自己做的飯就拉肚子,吃外賣卻沒事,一年半還沒找到原因

      夜深愛雜談
      2026-05-29 07:56:08
      雙管齊下!曼聯1.5億鎖中場雙星,紐卡飛翼+2英冠球員進引援名單

      雙管齊下!曼聯1.5億鎖中場雙星,紐卡飛翼+2英冠球員進引援名單

      體壇鑒春秋
      2026-05-29 12:35:53
      今天,你爺爺的爺爺都漲停了

      今天,你爺爺的爺爺都漲停了

      趨勢巡航
      2026-05-29 14:51:54
      譚松韻被曝離婚了!本人回應:的確是結了,但現在又離了,后來和好了

      譚松韻被曝離婚了!本人回應:的確是結了,但現在又離了,后來和好了

      八卦王者
      2026-05-29 11:25:44
      扎心!“小馬云”女友發聲,我就是想蹭流量,每次叫我姐姐發早安

      扎心!“小馬云”女友發聲,我就是想蹭流量,每次叫我姐姐發早安

      火山詩話
      2026-05-27 07:40:38
      湖北省供銷合作總社黨組書記、主任調整

      湖北省供銷合作總社黨組書記、主任調整

      娛樂圈的筆娛君
      2026-05-29 17:58:26
      莫言:如果你混到沒人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

      莫言:如果你混到沒人找你吃飯,沒人喊你聚會,連電話也沒幾個,那慶祝了,你不是人緣變差,而是真正覺醒了

      品讀時刻
      2026-05-27 09:00:58
      國防部發言人回應網友“手搓”殲-35和殲-6亮相“東北超”

      國防部發言人回應網友“手搓”殲-35和殲-6亮相“東北超”

      大象新聞
      2026-05-29 08:24:07
      王晶點評《給阿嬤的情書》票房一飛沖天原因,內行果然一語中的!

      王晶點評《給阿嬤的情書》票房一飛沖天原因,內行果然一語中的!

      八卦南風
      2026-05-29 11:14:02
      她花50萬買英國精子生三胞胎,8年后三個娃長這樣,全網沉默

      她花50萬買英國精子生三胞胎,8年后三個娃長這樣,全網沉默

      吳蒂旅行ing
      2026-05-29 06:40:39
      馬斯克改口:Anthropic 租用 SpaceX 算力僅半年,必要時將收回

      馬斯克改口:Anthropic 租用 SpaceX 算力僅半年,必要時將收回

      環球網資訊
      2026-05-29 10:33:14
      歐洲多國使館力挺烏克蘭,拒絕撤離基輔,但澤連斯基想要更多

      歐洲多國使館力挺烏克蘭,拒絕撤離基輔,但澤連斯基想要更多

      共工之錨
      2026-05-29 20:31:49
      殯葬師提醒:守靈那一夜,家屬千萬別只顧著熬,一定守好這3件事

      殯葬師提醒:守靈那一夜,家屬千萬別只顧著熬,一定守好這3件事

      千秋歷史
      2026-05-26 19:31:00
      隨著廣東廣州豹0-0,寧波1-1,陜西0-1,中甲最新積分榜出爐

      隨著廣東廣州豹0-0,寧波1-1,陜西0-1,中甲最新積分榜出爐

      側身凌空斬
      2026-05-29 21:27:35
      有人預測:再過一兩個月,中國二手房或將面對這3個結局

      有人預測:再過一兩個月,中國二手房或將面對這3個結局

      童童聊娛樂啊
      2026-05-29 19:12:35
      “特變電工”潛力巨大!

      “特變電工”潛力巨大!

      木禾黑貓
      2026-05-29 21:37:41
      中方J-16戰機攜帶實彈驅趕荷艦機,30秒內可解決

      中方J-16戰機攜帶實彈驅趕荷艦機,30秒內可解決

      無意爭春
      2026-05-29 18:53:23
      第一批逃離高溫的人,已經在吉林住下了

      第一批逃離高溫的人,已經在吉林住下了

      聞旅派
      2026-05-28 20:04:13
      當你接觸的人多了,你會明白如果一個人還在穿5年前的衣服,只說明這幾個問題

      當你接觸的人多了,你會明白如果一個人還在穿5年前的衣服,只說明這幾個問題

      LULU生活家
      2026-05-29 19:07:23
      2026-05-29 22:35:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13115文章數 142655關注度
      往期回顧 全部

      科技要聞

      Claude Opus 4.8凌晨突發上線

      頭條要聞

      疑第三方幫拉客宣傳"存1萬返100還報銷路費" 銀行回應

      頭條要聞

      疑第三方幫拉客宣傳"存1萬返100還報銷路費" 銀行回應

      體育要聞

      即使是文班亞馬,也做不到這件事

      娛樂要聞

      奚夢瑤何猷君將于6月在法國舉行婚禮

      財經要聞

      馬云密友"錢多多",深陷"殺豬盤"質疑

      汽車要聞

      900V+3.2秒破百 領克10+&領克10上市16.99萬元起

      態度原創

      旅游
      房產
      教育
      時尚
      軍事航空

      旅游要聞

      2026“國際山地旅游日”主題活動在湖北神農架啟幕

      房產要聞

      順德澐璟「澐冠」再出圈:頂階人群不是買房,是追加“傳世資產”

      教育要聞

      噓!中高考來了,全城禁噪聲

      今日熱點:林俊杰母親回應;溫嵐被送醫時生命體征非常低……

      軍事要聞

      中方公布參加香會陣容 幾大議題受到關注

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻日韩人妻中文字幕| 狠狠躁天天躁夜夜躁婷婷| 国产精品XXXX国产喷水| 国产精品普通话国语对白露脸 | 国产无遮挡裸体免费久久| 黑人巨大超大另类videos| 欧美国产精品啪啪| 26uuu在线欧美| 国产无遮挡又黄又湿又爽毛片| 午夜在线观看成人av| 黄色免费在线网址| a一级毛片免费播放| 亚洲成av人片无码不卡播放器| 狠狠色噜噜狠狠狠7777奇米| 亚洲成人资源在线| 人妻丝袜无码专区视频网站 | 亚洲AV网站| 18禁黄网站禁片免费观看不卡| a级国产乱理伦片在线观看al| 人妻中文字幕不卡精品| 狠狠综合久久av一区二| 午夜福利视频在线观看| 国产精品人| 中文字幕免费视频| 中文人妻熟妇乱又伦精品| 亚洲中文无码手机永久| 国产三级a三级三级| 中文字幕乱码亚洲无线码在线日噜噜| 精品无码久久久久久国产| 嫩草av久久伊人妇女超级a| A级国产片在线观看| 亚洲 欧美 综合 另类 中字| 一区二区三区国产综合在线| 国产亚洲精品中文字幕| 国产乱码精品一区二三区| 宝坻区| 东北少妇不带套对白| 中文人妻不卡| 2020年最新国产精品正在播放| 国产精品国产亚洲区久久| 国产中文99视频在线观看|