![]()
本文由阿里巴巴 Z-Image 團(tuán)隊(duì)聯(lián)合香港科技大學(xué)等機(jī)構(gòu)共同完成。第一作者為香港科技大學(xué)預(yù)備博士生 & 通義實(shí)驗(yàn)室實(shí)習(xí)生姜登陽(yáng),他的研究方向?yàn)橐曈X(jué)表征和生成。
少步擴(kuò)散模型(如 Z-Image-Turbo)憑借高效采樣和優(yōu)異質(zhì)量,已成為圖像生成領(lǐng)域的主流方案。然而,這些經(jīng)過(guò) "步數(shù)蒸餾" 的模型在持續(xù)微調(diào)時(shí)面臨一個(gè)棘手問(wèn)題:傳統(tǒng)監(jiān)督微調(diào)(SFT)和離線 RL 方法會(huì)讓模型 "忘記" 原本的少步生成能力,訓(xùn)練與推理之間存在嚴(yán)重的分布偏移。
為此,阿里巴巴 Z-Image 團(tuán)隊(duì)聯(lián)合香港科技大學(xué)、加州大學(xué)圣地亞哥分校、香港中文大學(xué)等機(jī)構(gòu)提出D-OPSD(On-Policy Self-Distillation),首個(gè)針對(duì)少步擴(kuò)散模型的在線策略自蒸餾框架。D-OPSD 無(wú)需獎(jiǎng)勵(lì)模型、無(wú)需成對(duì)偏好數(shù)據(jù),僅憑目標(biāo)圖像 - 文本對(duì)即可讓模型在保持原有少步采樣能力的同時(shí),學(xué)會(huì)新概念、新風(fēng)格和新領(lǐng)域偏好。在 LoRA 定制和全量微調(diào)實(shí)驗(yàn)中,D-OPSD 在概念學(xué)習(xí)、視覺(jué)質(zhì)量、提示詞遵循和先驗(yàn)知識(shí)保留之間取得了最佳平衡。
![]()
- 論文標(biāo)題:D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
- 論文鏈接:https://arxiv.org/abs/2605.05204
- 項(xiàng)目主頁(yè):https://vvvvvjdy.github.io/d-opsd/
- 代碼地址:https://github.com/vvvvvjdy/D-OPSD
一、核心問(wèn)題:少步模型的 "持續(xù)學(xué)習(xí)" 困境
當(dāng)前高性能圖像生成模型正從低效的多步采樣器轉(zhuǎn)向高效的少步采樣器。這些經(jīng)過(guò)步數(shù)蒸餾的模型在減少函數(shù)評(píng)估次數(shù)的同時(shí)保持了生成質(zhì)量,極具實(shí)用價(jià)值。但如何對(duì)這類(lèi)模型進(jìn)行持續(xù)微調(diào),學(xué)界尚無(wú)明確答案。
傳統(tǒng)訓(xùn)練范式各有短板:
![]()
- Vanilla SFT:通過(guò)目標(biāo)圖像構(gòu)造 GT velocity 進(jìn)行監(jiān)督,但優(yōu)化狀態(tài)和信號(hào)均來(lái)自目標(biāo)圖像而非模型自身的少步采樣軌跡,導(dǎo)致訓(xùn)練與推理嚴(yán)重不匹配。
- 離線 RL 方法(如 Diffusion-DPO、PSO):引入成對(duì)監(jiān)督,但優(yōu)化狀態(tài)仍非完全由學(xué)生當(dāng)前分布誘導(dǎo)。
- 在線 RL 方法(如 ReFL、Flow-GRPO):在模型 rollout 上訓(xùn)練,能更好保留少步行為,但依賴獎(jiǎng)勵(lì)函數(shù)或獎(jiǎng)勵(lì)模型,而二次開(kāi)發(fā)者往往只有圖像 - 文本對(duì),難以獲取高質(zhì)量獎(jiǎng)勵(lì)信號(hào)。
D-OPSD 在設(shè)計(jì)空間中占據(jù)了一個(gè)獨(dú)特的位置:在線策略、無(wú)需獎(jiǎng)勵(lì)模型、保持訓(xùn)練 - 推理一致性,同時(shí)通過(guò)自蒸餾引入目標(biāo)圖像 - 文本對(duì)。
二、關(guān)鍵發(fā)現(xiàn):擴(kuò)散模型繼承了 LLM/VLM 的 "上下文能力"
近期,大語(yǔ)言模型(LLM)領(lǐng)域的 On-Policy Distillation(OPD)和 On-Policy Self-Distillation(OPSD)范式引起了廣泛關(guān)注。其核心思想是:學(xué)生模型在自身采樣出的軌跡(on-policy roll-outs)上進(jìn)行訓(xùn)練,而教師模型在更豐富的上下文條件下提供更強(qiáng)的監(jiān)督信號(hào),從而在不依賴外部獎(jiǎng)勵(lì)模型的情況下實(shí)現(xiàn)高效的后訓(xùn)練對(duì)齊。例如,在 LLM 中,學(xué)生基于自身采樣的回答進(jìn)行優(yōu)化,教師則在更完整的上下文(如參考文檔、多輪對(duì)話歷史)下給出更優(yōu)的預(yù)測(cè),通過(guò)分布對(duì)齊將學(xué)生拉向教師。
現(xiàn)代配備 LLM/VLM 編碼器的擴(kuò)散模型,能夠從編碼器中繼承上下文學(xué)習(xí)(in-context learning)能力。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)僅用文本提示時(shí),模型生成的是通用結(jié)果;而當(dāng)將目標(biāo)圖像與文本提示一起輸入編碼器、使用多模態(tài)特征作為條件時(shí),即使不做任何額外訓(xùn)練,模型也能生成保留目標(biāo)概念或風(fēng)格的圖像變體。
![]()
這一涌現(xiàn)行為為在線策略自蒸餾提供了關(guān)鍵基礎(chǔ):目標(biāo)圖像不再作為直接的降噪目標(biāo)(那會(huì)改變軌跡本身),而是作為更強(qiáng)教師條件的上下文監(jiān)督信號(hào)。學(xué)生分支僅基于文本條件采樣,教師分支基于文本 + 圖像的多模態(tài)條件提供更強(qiáng)預(yù)測(cè),兩者在同一個(gè) on-policy 軌跡上進(jìn)行對(duì)齊。
三、方法框架:學(xué)生跑軌跡,教師給監(jiān)督
D-OPSD 的訓(xùn)練流程如下:
![]()
對(duì)于每個(gè)訓(xùn)練對(duì) 首先編碼學(xué)生和教師條件,然后進(jìn)行學(xué)生 on-policy 軌跡采樣,再在同一狀態(tài)上,對(duì)齊學(xué)生預(yù)測(cè)速度和 教師預(yù)測(cè)速度,然后更新學(xué)生模型和同步 EMA 更新教師。
![]()
與 LLM 中的 OPD(On-Policy Distillation)類(lèi)比:學(xué)生的采樣響應(yīng)對(duì)應(yīng)學(xué)生的降噪軌跡,教師的更強(qiáng)預(yù)測(cè)對(duì)應(yīng)更強(qiáng)的條件降噪場(chǎng)。核心區(qū)別在于,自回歸 LLM 輸出離散詞表分布,可直接用 KL 散度對(duì)齊;而流匹配擴(kuò)散模型參數(shù)化條件速度場(chǎng),因此 D-OPSD 采用速度預(yù)測(cè)的均方誤差作為對(duì)齊目標(biāo),起到類(lèi)似的作用 ——> 將學(xué)生的條件生成動(dòng)態(tài)拉向教師,在更強(qiáng)的多模態(tài)上下文下對(duì)齊誘導(dǎo)的軌跡分布。
四、為什么 D-OPSD 能保留少步能力?
與 SFT 相比,D-OPSD 避免了強(qiáng)迫模型擬合在其自身少步采樣過(guò)程中從未出現(xiàn)過(guò)的目標(biāo)圖像狀態(tài)。優(yōu)化始終在學(xué)生的實(shí)際 rollout 上進(jìn)行,大幅減少了訓(xùn)練與推理之間的失配。因此,D-OPSD 為步數(shù)蒸餾擴(kuò)散模型提供了一種在線策略監(jiān)督訓(xùn)練范式,使其能夠從目標(biāo)圖像中學(xué)習(xí)新概念、風(fēng)格或領(lǐng)域偏好,同時(shí)保留原始的少步采樣行為。
五、核心實(shí)驗(yàn)效果
1. LoRA 定制:少量樣本學(xué)會(huì)新概念
在僅有少量圖像 - 文本對(duì)的 LoRA 訓(xùn)練中,D-OPSD 能夠從極少量樣本中學(xué)習(xí)新概念,同時(shí)保持少步生成質(zhì)量,并能泛化到未見(jiàn)過(guò)的提示詞。
對(duì)比基線模型、SFT 和 PSO:
- 基線模型:完全不理解新概念 [V]
- SFT:雖然學(xué)到了概念,但視覺(jué)質(zhì)量明顯下降,出現(xiàn)模糊、偽影
- PSO:質(zhì)量較好,但概念保真度不足,且可能破壞原有風(fēng)格
- D-OPSD:在保持高視覺(jué)質(zhì)量的同時(shí),精準(zhǔn)復(fù)現(xiàn)目標(biāo)概念,并能自然融入新場(chǎng)景
![]()
2. 全量微調(diào):適應(yīng)新領(lǐng)域不丟老本
在全量微調(diào)實(shí)驗(yàn)中,D-OPSD 將模型向目標(biāo)領(lǐng)域(如動(dòng)漫風(fēng)格)適配,同時(shí)保留原始領(lǐng)域知識(shí)和少步推理能力。
- SFT:過(guò)度擬合目標(biāo)域,原始域知識(shí)嚴(yán)重遺忘
- PSO:保留部分先驗(yàn),但目標(biāo)域適配不夠充分
- D-OPSD:在目標(biāo)域表現(xiàn)優(yōu)異的同時(shí),原始域生成質(zhì)量依然穩(wěn)定,真正實(shí)現(xiàn)了 "學(xué)新不忘舊"
六、未來(lái)值得研究的方向
未來(lái),D-OPSD 框架還可向多個(gè)方向拓展:
- 更豐富的教師上下文:引入圖像編輯模型或視頻生成模型的指導(dǎo)信號(hào)
- 額外訓(xùn)練約束:結(jié)合其他訓(xùn)練目標(biāo)進(jìn)一步提升性能
- 多專家在線策略蒸餾:用其他算法訓(xùn)練領(lǐng)域?qū)賹<液螅?D-OPSD 框架內(nèi)蒸餾回單一基礎(chǔ)模型
即少步擴(kuò)散模型仍有巨大的后訓(xùn)練提升空間。"蒸餾 + 在線策略" 范式,為未來(lái)進(jìn)一步釋放擴(kuò)散模型在可控性、組合性與持續(xù)學(xué)習(xí)能力方面的潛力,提供了一個(gè)充滿前景的新方向。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.