<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      D-OPSD: 將OPSD引入擴(kuò)散模型,讓少步擴(kuò)散模型「邊跑邊學(xué)」

      0
      分享至



      本文由阿里巴巴 Z-Image 團(tuán)隊(duì)聯(lián)合香港科技大學(xué)等機(jī)構(gòu)共同完成。第一作者為香港科技大學(xué)預(yù)備博士生 & 通義實(shí)驗(yàn)室實(shí)習(xí)生姜登陽(yáng),他的研究方向?yàn)橐曈X(jué)表征和生成。

      少步擴(kuò)散模型(如 Z-Image-Turbo)憑借高效采樣和優(yōu)異質(zhì)量,已成為圖像生成領(lǐng)域的主流方案。然而,這些經(jīng)過(guò) "步數(shù)蒸餾" 的模型在持續(xù)微調(diào)時(shí)面臨一個(gè)棘手問(wèn)題:傳統(tǒng)監(jiān)督微調(diào)(SFT)和離線 RL 方法會(huì)讓模型 "忘記" 原本的少步生成能力,訓(xùn)練與推理之間存在嚴(yán)重的分布偏移。

      為此,阿里巴巴 Z-Image 團(tuán)隊(duì)聯(lián)合香港科技大學(xué)、加州大學(xué)圣地亞哥分校、香港中文大學(xué)等機(jī)構(gòu)提出D-OPSD(On-Policy Self-Distillation),首個(gè)針對(duì)少步擴(kuò)散模型的在線策略自蒸餾框架。D-OPSD 無(wú)需獎(jiǎng)勵(lì)模型、無(wú)需成對(duì)偏好數(shù)據(jù),僅憑目標(biāo)圖像 - 文本對(duì)即可讓模型在保持原有少步采樣能力的同時(shí),學(xué)會(huì)新概念、新風(fēng)格和新領(lǐng)域偏好。在 LoRA 定制和全量微調(diào)實(shí)驗(yàn)中,D-OPSD 在概念學(xué)習(xí)、視覺(jué)質(zhì)量、提示詞遵循和先驗(yàn)知識(shí)保留之間取得了最佳平衡。



      • 論文標(biāo)題:D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
      • 論文鏈接:https://arxiv.org/abs/2605.05204
      • 項(xiàng)目主頁(yè):https://vvvvvjdy.github.io/d-opsd/
      • 代碼地址:https://github.com/vvvvvjdy/D-OPSD

      一、核心問(wèn)題:少步模型的 "持續(xù)學(xué)習(xí)" 困境

      當(dāng)前高性能圖像生成模型正從低效的多步采樣器轉(zhuǎn)向高效的少步采樣器。這些經(jīng)過(guò)步數(shù)蒸餾的模型在減少函數(shù)評(píng)估次數(shù)的同時(shí)保持了生成質(zhì)量,極具實(shí)用價(jià)值。但如何對(duì)這類(lèi)模型進(jìn)行持續(xù)微調(diào),學(xué)界尚無(wú)明確答案。

      傳統(tǒng)訓(xùn)練范式各有短板:



      • Vanilla SFT:通過(guò)目標(biāo)圖像構(gòu)造 GT velocity 進(jìn)行監(jiān)督,但優(yōu)化狀態(tài)和信號(hào)均來(lái)自目標(biāo)圖像而非模型自身的少步采樣軌跡,導(dǎo)致訓(xùn)練與推理嚴(yán)重不匹配。
      • 離線 RL 方法(如 Diffusion-DPO、PSO):引入成對(duì)監(jiān)督,但優(yōu)化狀態(tài)仍非完全由學(xué)生當(dāng)前分布誘導(dǎo)。
      • 在線 RL 方法(如 ReFL、Flow-GRPO):在模型 rollout 上訓(xùn)練,能更好保留少步行為,但依賴獎(jiǎng)勵(lì)函數(shù)或獎(jiǎng)勵(lì)模型,而二次開(kāi)發(fā)者往往只有圖像 - 文本對(duì),難以獲取高質(zhì)量獎(jiǎng)勵(lì)信號(hào)。

      D-OPSD 在設(shè)計(jì)空間中占據(jù)了一個(gè)獨(dú)特的位置:在線策略、無(wú)需獎(jiǎng)勵(lì)模型、保持訓(xùn)練 - 推理一致性,同時(shí)通過(guò)自蒸餾引入目標(biāo)圖像 - 文本對(duì)。

      二、關(guān)鍵發(fā)現(xiàn):擴(kuò)散模型繼承了 LLM/VLM 的 "上下文能力"

      近期,大語(yǔ)言模型(LLM)領(lǐng)域的 On-Policy Distillation(OPD)和 On-Policy Self-Distillation(OPSD)范式引起了廣泛關(guān)注。其核心思想是:學(xué)生模型在自身采樣出的軌跡(on-policy roll-outs)上進(jìn)行訓(xùn)練,而教師模型在更豐富的上下文條件下提供更強(qiáng)的監(jiān)督信號(hào),從而在不依賴外部獎(jiǎng)勵(lì)模型的情況下實(shí)現(xiàn)高效的后訓(xùn)練對(duì)齊。例如,在 LLM 中,學(xué)生基于自身采樣的回答進(jìn)行優(yōu)化,教師則在更完整的上下文(如參考文檔、多輪對(duì)話歷史)下給出更優(yōu)的預(yù)測(cè),通過(guò)分布對(duì)齊將學(xué)生拉向教師。

      現(xiàn)代配備 LLM/VLM 編碼器的擴(kuò)散模型,能夠從編碼器中繼承上下文學(xué)習(xí)(in-context learning)能力。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)僅用文本提示時(shí),模型生成的是通用結(jié)果;而當(dāng)將目標(biāo)圖像與文本提示一起輸入編碼器、使用多模態(tài)特征作為條件時(shí),即使不做任何額外訓(xùn)練,模型也能生成保留目標(biāo)概念或風(fēng)格的圖像變體。



      這一涌現(xiàn)行為為在線策略自蒸餾提供了關(guān)鍵基礎(chǔ):目標(biāo)圖像不再作為直接的降噪目標(biāo)(那會(huì)改變軌跡本身),而是作為更強(qiáng)教師條件的上下文監(jiān)督信號(hào)。學(xué)生分支僅基于文本條件采樣,教師分支基于文本 + 圖像的多模態(tài)條件提供更強(qiáng)預(yù)測(cè),兩者在同一個(gè) on-policy 軌跡上進(jìn)行對(duì)齊。

      三、方法框架:學(xué)生跑軌跡,教師給監(jiān)督

      D-OPSD 的訓(xùn)練流程如下:



      對(duì)于每個(gè)訓(xùn)練對(duì) 首先編碼學(xué)生和教師條件,然后進(jìn)行學(xué)生 on-policy 軌跡采樣,再在同一狀態(tài)上,對(duì)齊學(xué)生預(yù)測(cè)速度和 教師預(yù)測(cè)速度,然后更新學(xué)生模型和同步 EMA 更新教師。



      與 LLM 中的 OPD(On-Policy Distillation)類(lèi)比:學(xué)生的采樣響應(yīng)對(duì)應(yīng)學(xué)生的降噪軌跡,教師的更強(qiáng)預(yù)測(cè)對(duì)應(yīng)更強(qiáng)的條件降噪場(chǎng)。核心區(qū)別在于,自回歸 LLM 輸出離散詞表分布,可直接用 KL 散度對(duì)齊;而流匹配擴(kuò)散模型參數(shù)化條件速度場(chǎng),因此 D-OPSD 采用速度預(yù)測(cè)的均方誤差作為對(duì)齊目標(biāo),起到類(lèi)似的作用 ——> 將學(xué)生的條件生成動(dòng)態(tài)拉向教師,在更強(qiáng)的多模態(tài)上下文下對(duì)齊誘導(dǎo)的軌跡分布。

      四、為什么 D-OPSD 能保留少步能力?

      與 SFT 相比,D-OPSD 避免了強(qiáng)迫模型擬合在其自身少步采樣過(guò)程中從未出現(xiàn)過(guò)的目標(biāo)圖像狀態(tài)。優(yōu)化始終在學(xué)生的實(shí)際 rollout 上進(jìn)行,大幅減少了訓(xùn)練與推理之間的失配。因此,D-OPSD 為步數(shù)蒸餾擴(kuò)散模型提供了一種在線策略監(jiān)督訓(xùn)練范式,使其能夠從目標(biāo)圖像中學(xué)習(xí)新概念、風(fēng)格或領(lǐng)域偏好,同時(shí)保留原始的少步采樣行為。

      五、核心實(shí)驗(yàn)效果


      1. LoRA 定制:少量樣本學(xué)會(huì)新概念

      在僅有少量圖像 - 文本對(duì)的 LoRA 訓(xùn)練中,D-OPSD 能夠從極少量樣本中學(xué)習(xí)新概念,同時(shí)保持少步生成質(zhì)量,并能泛化到未見(jiàn)過(guò)的提示詞。

      對(duì)比基線模型、SFT 和 PSO:

      • 基線模型:完全不理解新概念 [V]
      • SFT:雖然學(xué)到了概念,但視覺(jué)質(zhì)量明顯下降,出現(xiàn)模糊、偽影
      • PSO:質(zhì)量較好,但概念保真度不足,且可能破壞原有風(fēng)格
      • D-OPSD:在保持高視覺(jué)質(zhì)量的同時(shí),精準(zhǔn)復(fù)現(xiàn)目標(biāo)概念,并能自然融入新場(chǎng)景



      2. 全量微調(diào):適應(yīng)新領(lǐng)域不丟老本

      在全量微調(diào)實(shí)驗(yàn)中,D-OPSD 將模型向目標(biāo)領(lǐng)域(如動(dòng)漫風(fēng)格)適配,同時(shí)保留原始領(lǐng)域知識(shí)和少步推理能力。

      • SFT:過(guò)度擬合目標(biāo)域,原始域知識(shí)嚴(yán)重遺忘
      • PSO:保留部分先驗(yàn),但目標(biāo)域適配不夠充分
      • D-OPSD:在目標(biāo)域表現(xiàn)優(yōu)異的同時(shí),原始域生成質(zhì)量依然穩(wěn)定,真正實(shí)現(xiàn)了 "學(xué)新不忘舊"

      六、未來(lái)值得研究的方向


      未來(lái),D-OPSD 框架還可向多個(gè)方向拓展:

      • 更豐富的教師上下文:引入圖像編輯模型或視頻生成模型的指導(dǎo)信號(hào)
      • 額外訓(xùn)練約束:結(jié)合其他訓(xùn)練目標(biāo)進(jìn)一步提升性能
      • 多專家在線策略蒸餾:用其他算法訓(xùn)練領(lǐng)域?qū)賹<液螅?D-OPSD 框架內(nèi)蒸餾回單一基礎(chǔ)模型

      即少步擴(kuò)散模型仍有巨大的后訓(xùn)練提升空間。"蒸餾 + 在線策略" 范式,為未來(lái)進(jìn)一步釋放擴(kuò)散模型在可控性、組合性與持續(xù)學(xué)習(xí)能力方面的潛力,提供了一個(gè)充滿前景的新方向。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      新婚15天就爆不倫!日諧星床戰(zhàn)照外泄 人妻私訊「穿最色內(nèi)褲」求歡

      新婚15天就爆不倫!日諧星床戰(zhàn)照外泄 人妻私訊「穿最色內(nèi)褲」求歡

      ETtoday星光云
      2026-05-14 15:58:05
      訪華途中,特朗普突然發(fā)文!一句話引爆中美輿論,拜登被罵慘了

      訪華途中,特朗普突然發(fā)文!一句話引爆中美輿論,拜登被罵慘了

      菁菁子衿
      2026-05-15 15:40:44
      37歲小托馬斯回歸綠軍!獲聘擔(dān)任球探 至今仍未正式宣布退役

      37歲小托馬斯回歸綠軍!獲聘擔(dān)任球探 至今仍未正式宣布退役

      羅說(shuō)NBA
      2026-05-15 07:16:41
      中美是否在農(nóng)業(yè)方面達(dá)成協(xié)議?外交部:愿同美方不斷拉長(zhǎng)合作清單

      中美是否在農(nóng)業(yè)方面達(dá)成協(xié)議?外交部:愿同美方不斷拉長(zhǎng)合作清單

      澎湃新聞
      2026-05-15 15:30:26
      特朗普起飛后,日本傳來(lái)消息!高市派出女大臣來(lái)華,也想破冰了

      特朗普起飛后,日本傳來(lái)消息!高市派出女大臣來(lái)華,也想破冰了

      至今
      2026-05-15 13:36:38
      特朗普愛(ài)吃的兩道中國(guó)菜,好多老外都猜不到

      特朗普愛(ài)吃的兩道中國(guó)菜,好多老外都猜不到

      阿萊美食匯
      2026-05-15 00:03:02
      白左圣母被驅(qū)趕出家:還會(huì)說(shuō)有一天我們也是難民嗎

      白左圣母被驅(qū)趕出家:還會(huì)說(shuō)有一天我們也是難民嗎

      俠客棧
      2026-05-14 12:43:23
      情懷難抵現(xiàn)實(shí)!即使騎士能挺進(jìn)東決,41歲詹姆斯依然回歸無(wú)望!

      情懷難抵現(xiàn)實(shí)!即使騎士能挺進(jìn)東決,41歲詹姆斯依然回歸無(wú)望!

      田先生籃球
      2026-05-14 13:43:57
      正式取消!知名985高校:公眾進(jìn)校不用預(yù)約了

      正式取消!知名985高校:公眾進(jìn)校不用預(yù)約了

      南方都市報(bào)
      2026-05-14 13:02:01
      特朗普突然透露:北京明確表態(tài),不會(huì)向伊朗提供軍援

      特朗普突然透露:北京明確表態(tài),不會(huì)向伊朗提供軍援

      桂系007
      2026-05-14 23:59:15
      故宮建造時(shí)使用的木材,來(lái)自哪里?為何這些木材至今沒(méi)有腐爛

      故宮建造時(shí)使用的木材,來(lái)自哪里?為何這些木材至今沒(méi)有腐爛

      云霄紀(jì)史觀
      2026-05-15 01:49:45
      1-2!0-3!國(guó)足U17倒下,亞洲杯接近出局,創(chuàng)22年恥辱紀(jì)錄

      1-2!0-3!國(guó)足U17倒下,亞洲杯接近出局,創(chuàng)22年恥辱紀(jì)錄

      阿晞體育
      2026-05-15 14:35:09
      張柏芝為19歲兒子選國(guó)產(chǎn)新車(chē),母愛(ài)選擇顯心意

      張柏芝為19歲兒子選國(guó)產(chǎn)新車(chē),母愛(ài)選擇顯心意

      街上的行人很刺眼
      2026-05-15 02:59:23
      一個(gè)人最大的本事,就是解決問(wèn)題的能力!(深度好文)

      一個(gè)人最大的本事,就是解決問(wèn)題的能力!(深度好文)

      辛東方
      2026-02-12 08:00:03
      第一次和男友同居:我直接驚呆了,原來(lái)男女私下可愛(ài)到犯規(guī)

      第一次和男友同居:我直接驚呆了,原來(lái)男女私下可愛(ài)到犯規(guī)

      那年秋天
      2026-05-15 09:00:11
      基本盤(pán)被指用來(lái)嘲諷有愛(ài)國(guó)情懷的人

      基本盤(pán)被指用來(lái)嘲諷有愛(ài)國(guó)情懷的人

      映射生活的身影
      2026-05-13 21:13:11
      一座天壇,橫跨51年:美國(guó)總統(tǒng)再次踏上中美交往的歷史現(xiàn)場(chǎng)

      一座天壇,橫跨51年:美國(guó)總統(tǒng)再次踏上中美交往的歷史現(xiàn)場(chǎng)

      澎湃新聞
      2026-05-14 13:34:30
      張本美和真敢說(shuō)!發(fā)布會(huì)直言:王曼昱賽場(chǎng)膽怯,出手不果斷太猶豫

      張本美和真敢說(shuō)!發(fā)布會(huì)直言:王曼昱賽場(chǎng)膽怯,出手不果斷太猶豫

      觀魚(yú)聽(tīng)雨
      2026-05-14 22:25:52
      水汽堪比盛夏,超長(zhǎng)降雨帶跨越千里,局地可能大暴雨!北京傍晚有雨,未來(lái)三天持續(xù)陰雨

      水汽堪比盛夏,超長(zhǎng)降雨帶跨越千里,局地可能大暴雨!北京傍晚有雨,未來(lái)三天持續(xù)陰雨

      魯中晨報(bào)
      2026-05-15 13:34:35
      最美女星壞事干盡:三次入獄、鼓勵(lì)丈夫肉體出軌、被摘5個(gè)器官

      最美女星壞事干盡:三次入獄、鼓勵(lì)丈夫肉體出軌、被摘5個(gè)器官

      臨云史策
      2026-05-15 13:49:40
      2026-05-15 16:19:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      13003文章數(shù) 142649關(guān)注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋(píng)果OpenAI瀕臨決裂

      頭條要聞

      女游客以1分錢(qián)拍下標(biāo)價(jià)1980元的三亞海景房 酒店回應(yīng)

      頭條要聞

      女游客以1分錢(qián)拍下標(biāo)價(jià)1980元的三亞海景房 酒店回應(yīng)

      體育要聞

      德約科維奇買(mǎi)的球隊(duì),從第6級(jí)聯(lián)賽升入法甲

      娛樂(lè)要聞

      方媛為何要來(lái)《桃花塢6》沒(méi)苦硬吃?

      財(cái)經(jīng)要聞

      特朗普的北京時(shí)刻

      汽車(chē)要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      本地
      時(shí)尚
      旅游
      教育
      公開(kāi)課

      本地新聞

      用蘇繡的方式,打開(kāi)江西婺源

      56歲逆風(fēng)翻盤(pán),她怎么從全網(wǎng)群嘲變成了大家的天才女友?

      旅游要聞

      天壇最佳拍照機(jī)位火了!本臺(tái)記者率先發(fā)現(xiàn)→

      教育要聞

      新華讀報(bào)|拋繡球、游泳進(jìn)中考,體育改革讓學(xué)生“玩有所得”

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 男女毛多水多亚洲| 欧美啪啪视频| 妲己视频精品一区二区| 国产精品成人AV片免费看| 91福利一区福利二区| 福利精品| 永久精品视频| 国产精品1024永久观看| 国产高清一区二区| 国产精一二三| 久久久久久国产精品免费免费男同| 日本一区中文字幕| 亚洲一区二区无码成人AV| 午夜国产av一区二区三区| 亚洲久久色成人一二三区| 搡老熟女-91Porn| 在线 欧美 中文 亚洲 精品| 人妻久久| 欧美性xxxxx极品| 一本久道中文无码字幕av| 国产成AV人片久青草影院| 亚洲无码视频一区二区三区| 五月狠狠亚洲小说专区| 日韩中文字幕免费在线观看| 国产午夜视频在线观看| 黄色wwww| 迭部县| 亚洲日本一区二区三区在线| 999福利激情视频| 久热久热久热久热久热久热| jizz亚洲| 亚洲黄站| 福利所导航| 亚洲一区av| 四虎永久在线精品无码视频| 国产精品白丝喷水jk娇喘视频| 少妇被搞高潮在线免费观看| 天海翼一区二区三区高清视频| 国产一级黄色片在线观看| 97超碰人人操| 内射极品人妻|