網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

D-OPSD: 將OPSD引入擴(kuò)散模型，讓少步擴(kuò)散模型「邊跑邊學(xué)」

2026-05-15 15:10:29　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本文由阿里巴巴 Z-Image 團(tuán)隊(duì)聯(lián)合香港科技大學(xué)等機(jī)構(gòu)共同完成。第一作者為香港科技大學(xué)預(yù)備博士生 & 通義實(shí)驗(yàn)室實(shí)習(xí)生姜登陽(yáng)，他的研究方向?yàn)橐曈X(jué)表征和生成。

少步擴(kuò)散模型（如 Z-Image-Turbo）憑借高效采樣和優(yōu)異質(zhì)量，已成為圖像生成領(lǐng)域的主流方案。然而，這些經(jīng)過(guò) "步數(shù)蒸餾" 的模型在持續(xù)微調(diào)時(shí)面臨一個(gè)棘手問(wèn)題：傳統(tǒng)監(jiān)督微調(diào)（SFT）和離線 RL 方法會(huì)讓模型 "忘記" 原本的少步生成能力，訓(xùn)練與推理之間存在嚴(yán)重的分布偏移。

為此，阿里巴巴 Z-Image 團(tuán)隊(duì)聯(lián)合香港科技大學(xué)、加州大學(xué)圣地亞哥分校、香港中文大學(xué)等機(jī)構(gòu)提出D-OPSD（On-Policy Self-Distillation），首個(gè)針對(duì)少步擴(kuò)散模型的在線策略自蒸餾框架。D-OPSD 無(wú)需獎(jiǎng)勵(lì)模型、無(wú)需成對(duì)偏好數(shù)據(jù)，僅憑目標(biāo)圖像 - 文本對(duì)即可讓模型在保持原有少步采樣能力的同時(shí)，學(xué)會(huì)新概念、新風(fēng)格和新領(lǐng)域偏好。在 LoRA 定制和全量微調(diào)實(shí)驗(yàn)中，D-OPSD 在概念學(xué)習(xí)、視覺(jué)質(zhì)量、提示詞遵循和先驗(yàn)知識(shí)保留之間取得了最佳平衡。

論文標(biāo)題：D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models
論文鏈接：https://arxiv.org/abs/2605.05204
項(xiàng)目主頁(yè)：https://vvvvvjdy.github.io/d-opsd/
代碼地址：https://github.com/vvvvvjdy/D-OPSD

一、核心問(wèn)題：少步模型的 "持續(xù)學(xué)習(xí)" 困境

當(dāng)前高性能圖像生成模型正從低效的多步采樣器轉(zhuǎn)向高效的少步采樣器。這些經(jīng)過(guò)步數(shù)蒸餾的模型在減少函數(shù)評(píng)估次數(shù)的同時(shí)保持了生成質(zhì)量，極具實(shí)用價(jià)值。但如何對(duì)這類(lèi)模型進(jìn)行持續(xù)微調(diào)，學(xué)界尚無(wú)明確答案。

傳統(tǒng)訓(xùn)練范式各有短板：

Vanilla SFT：通過(guò)目標(biāo)圖像構(gòu)造 GT velocity 進(jìn)行監(jiān)督，但優(yōu)化狀態(tài)和信號(hào)均來(lái)自目標(biāo)圖像而非模型自身的少步采樣軌跡，導(dǎo)致訓(xùn)練與推理嚴(yán)重不匹配。
離線 RL 方法（如 Diffusion-DPO、PSO）：引入成對(duì)監(jiān)督，但優(yōu)化狀態(tài)仍非完全由學(xué)生當(dāng)前分布誘導(dǎo)。
在線 RL 方法（如 ReFL、Flow-GRPO）：在模型 rollout 上訓(xùn)練，能更好保留少步行為，但依賴獎(jiǎng)勵(lì)函數(shù)或獎(jiǎng)勵(lì)模型，而二次開(kāi)發(fā)者往往只有圖像 - 文本對(duì)，難以獲取高質(zhì)量獎(jiǎng)勵(lì)信號(hào)。

D-OPSD 在設(shè)計(jì)空間中占據(jù)了一個(gè)獨(dú)特的位置：在線策略、無(wú)需獎(jiǎng)勵(lì)模型、保持訓(xùn)練 - 推理一致性，同時(shí)通過(guò)自蒸餾引入目標(biāo)圖像 - 文本對(duì)。

二、關(guān)鍵發(fā)現(xiàn)：擴(kuò)散模型繼承了 LLM/VLM 的 "上下文能力"

近期，大語(yǔ)言模型（LLM）領(lǐng)域的 On-Policy Distillation（OPD）和 On-Policy Self-Distillation（OPSD）范式引起了廣泛關(guān)注。其核心思想是：學(xué)生模型在自身采樣出的軌跡（on-policy roll-outs）上進(jìn)行訓(xùn)練，而教師模型在更豐富的上下文條件下提供更強(qiáng)的監(jiān)督信號(hào)，從而在不依賴外部獎(jiǎng)勵(lì)模型的情況下實(shí)現(xiàn)高效的后訓(xùn)練對(duì)齊。例如，在 LLM 中，學(xué)生基于自身采樣的回答進(jìn)行優(yōu)化，教師則在更完整的上下文（如參考文檔、多輪對(duì)話歷史）下給出更優(yōu)的預(yù)測(cè)，通過(guò)分布對(duì)齊將學(xué)生拉向教師。

現(xiàn)代配備 LLM/VLM 編碼器的擴(kuò)散模型，能夠從編碼器中繼承上下文學(xué)習(xí)（in-context learning）能力。研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)僅用文本提示時(shí)，模型生成的是通用結(jié)果；而當(dāng)將目標(biāo)圖像與文本提示一起輸入編碼器、使用多模態(tài)特征作為條件時(shí)，即使不做任何額外訓(xùn)練，模型也能生成保留目標(biāo)概念或風(fēng)格的圖像變體。

這一涌現(xiàn)行為為在線策略自蒸餾提供了關(guān)鍵基礎(chǔ)：目標(biāo)圖像不再作為直接的降噪目標(biāo)（那會(huì)改變軌跡本身），而是作為更強(qiáng)教師條件的上下文監(jiān)督信號(hào)。學(xué)生分支僅基于文本條件采樣，教師分支基于文本 + 圖像的多模態(tài)條件提供更強(qiáng)預(yù)測(cè)，兩者在同一個(gè) on-policy 軌跡上進(jìn)行對(duì)齊。

三、方法框架：學(xué)生跑軌跡，教師給監(jiān)督

D-OPSD 的訓(xùn)練流程如下：

對(duì)于每個(gè)訓(xùn)練對(duì) 首先編碼學(xué)生和教師條件，然后進(jìn)行學(xué)生 on-policy 軌跡采樣，再在同一狀態(tài)上，對(duì)齊學(xué)生預(yù)測(cè)速度和教師預(yù)測(cè)速度，然后更新學(xué)生模型和同步 EMA 更新教師。

與 LLM 中的 OPD（On-Policy Distillation）類(lèi)比：學(xué)生的采樣響應(yīng)對(duì)應(yīng)學(xué)生的降噪軌跡，教師的更強(qiáng)預(yù)測(cè)對(duì)應(yīng)更強(qiáng)的條件降噪場(chǎng)。核心區(qū)別在于，自回歸 LLM 輸出離散詞表分布，可直接用 KL 散度對(duì)齊；而流匹配擴(kuò)散模型參數(shù)化條件速度場(chǎng)，因此 D-OPSD 采用速度預(yù)測(cè)的均方誤差作為對(duì)齊目標(biāo)，起到類(lèi)似的作用 ——> 將學(xué)生的條件生成動(dòng)態(tài)拉向教師，在更強(qiáng)的多模態(tài)上下文下對(duì)齊誘導(dǎo)的軌跡分布。

四、為什么 D-OPSD 能保留少步能力？

與 SFT 相比，D-OPSD 避免了強(qiáng)迫模型擬合在其自身少步采樣過(guò)程中從未出現(xiàn)過(guò)的目標(biāo)圖像狀態(tài)。優(yōu)化始終在學(xué)生的實(shí)際 rollout 上進(jìn)行，大幅減少了訓(xùn)練與推理之間的失配。因此，D-OPSD 為步數(shù)蒸餾擴(kuò)散模型提供了一種在線策略監(jiān)督訓(xùn)練范式，使其能夠從目標(biāo)圖像中學(xué)習(xí)新概念、風(fēng)格或領(lǐng)域偏好，同時(shí)保留原始的少步采樣行為。

五、核心實(shí)驗(yàn)效果

1. LoRA 定制：少量樣本學(xué)會(huì)新概念

在僅有少量圖像 - 文本對(duì)的 LoRA 訓(xùn)練中，D-OPSD 能夠從極少量樣本中學(xué)習(xí)新概念，同時(shí)保持少步生成質(zhì)量，并能泛化到未見(jiàn)過(guò)的提示詞。

對(duì)比基線模型、SFT 和 PSO：

基線模型：完全不理解新概念 [V]
SFT：雖然學(xué)到了概念，但視覺(jué)質(zhì)量明顯下降，出現(xiàn)模糊、偽影
PSO：質(zhì)量較好，但概念保真度不足，且可能破壞原有風(fēng)格
D-OPSD：在保持高視覺(jué)質(zhì)量的同時(shí)，精準(zhǔn)復(fù)現(xiàn)目標(biāo)概念，并能自然融入新場(chǎng)景

2. 全量微調(diào)：適應(yīng)新領(lǐng)域不丟老本

在全量微調(diào)實(shí)驗(yàn)中，D-OPSD 將模型向目標(biāo)領(lǐng)域（如動(dòng)漫風(fēng)格）適配，同時(shí)保留原始領(lǐng)域知識(shí)和少步推理能力。

SFT：過(guò)度擬合目標(biāo)域，原始域知識(shí)嚴(yán)重遺忘
PSO：保留部分先驗(yàn)，但目標(biāo)域適配不夠充分
D-OPSD：在目標(biāo)域表現(xiàn)優(yōu)異的同時(shí)，原始域生成質(zhì)量依然穩(wěn)定，真正實(shí)現(xiàn)了 "學(xué)新不忘舊"

六、未來(lái)值得研究的方向

未來(lái)，D-OPSD 框架還可向多個(gè)方向拓展：

更豐富的教師上下文：引入圖像編輯模型或視頻生成模型的指導(dǎo)信號(hào)
額外訓(xùn)練約束：結(jié)合其他訓(xùn)練目標(biāo)進(jìn)一步提升性能
多專家在線策略蒸餾：用其他算法訓(xùn)練領(lǐng)域?qū)賹＜液螅?D-OPSD 框架內(nèi)蒸餾回單一基礎(chǔ)模型

即少步擴(kuò)散模型仍有巨大的后訓(xùn)練提升空間。"蒸餾 + 在線策略" 范式，為未來(lái)進(jìn)一步釋放擴(kuò)散模型在可控性、組合性與持續(xù)學(xué)習(xí)能力方面的潛力，提供了一個(gè)充滿前景的新方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.