![]()
近日,字節跳動智能創作部門(Intelligent Creation Lab)提出新作 DreamLite,一個主干網絡僅有 0.39B 參數的輕量級統一擴散模型,在單一網絡內同時支持文生圖(Text-to-Image) 和圖像編輯(Text-guided Image Editing)兩個任務,是目前已知首個實現這一能力的端側模型。
![]()
DreamLite 在 iPhone 17 Pro 上實現了約 3 秒生成或編輯一張 1024×1024 圖像,完全在設備端運行,無需云端。在 GenEval、DPG、ImgEdit 等主流基準上,DreamLite 全面超越現有端側模型,并與參數量大 10-30 倍的服務端模型表現相當。
目前,DreamLite 論文與推理代碼已開源。
![]()
- 論文鏈接:https://arxiv.org/abs/2603.28713
- 項目主頁:https://carlofkl.github.io/dreamlite/
- GitHub 鏈接:https://github.com/ByteVisionLab/DreamLite
- 在線 Demo:https://huggingface.co/spaces/carlofkl/DreamLite
當擴散模型想 "搬進手機":兩大痛點亟待解決
在使用 FLUX、HunyuanImage、Qwen-Image 這類大模型創作或修圖時,用戶正在習慣 "提詞即生圖、一句話改圖" 的體驗。但當這些能力想真正走進手機、走向離線場景時,卻遇到兩個現實的攔路虎:
痛點一:生成與編輯,要裝兩個模型
現有方案中,文生圖和圖像編輯往往依賴兩個獨立的 pipeline: 一個負責 "從零生成",一個負責 "看圖改圖"。對本就內存緊張、存儲有限的移動設備而言,同時裝下兩套數十億參數的模型,幾乎不可承受。
痛點二:質量和速度,難以兼得
把大模型壓縮到端側可用的體量后,生成質量往往斷崖式下跌;而如果追求畫質和指令跟隨能力,推理延遲又會退回到 "按下按鈕等待十幾秒",徹底喪失實時交互的意義。
更關鍵的是,真實產品場景里,用戶需要的是同一套應用里無縫切換 "生成一張圖片" 和 "修改這張圖片"。兩個模型意味著兩份顯存占用、兩份下載流量、兩份維護成本,這在端側尤其奢侈。
DreamLite:一個模型,兩種能力
![]()
DreamLite 的核心思想非常直接:將把 "生成" 和 "編輯" 統一壓進一個輕量級網絡里,而不是分別訓練兩個模型。圍繞這個思路,團隊做了三項關鍵設計。
1. In-Context 空間拼接:用 "占位符" 統一兩類任務
DreamLite 在剪枝后的 SDXL U-Net 主干上,引入了一種空間維度的 in-context 條件注入機制。具體而言,模型的輸入始終是一對左右拼接的潛變量。對于文生圖,輸入的右側參考圖為全黑占位圖,相當于 "沒有視覺條件";對于編輯,輸入的參考圖為待編輯的原圖。
在此之上,團隊還在文本 prompt 前插入顯式任務 token([Generate] 或 [Edit]),作為一種零參數的任務路由信號。這樣一來,同一個 U-Net 就能根據輸入自動分辨當下是 "文生圖" 還是 "編輯",無需新增任何分支、適配器或額外模塊,天然適配緊湊主干。
2. Task-Progressive Joint Pretraining(漸進式聯合預訓練)
直接聯合訓練生成和編輯任務會導致小模型的訓練不穩定。團隊提出了分階段的漸進式策略:
- 階段一|T2I 預訓練:用大規模圖文數據,以及經典的文生圖范式,訓練模型的生成能力;
- 階段二|編輯預訓練:激活 in-context 條件,讓模型在保留原圖結構的前提下,學會 "指令編輯";
- 階段三|統一聯合預訓練:在同一 in-context 范式下繼續聯合優化生成與編輯。
這種分階段的策略,讓一個 0.39B 的小模型也能穩定習得 "生成 + 編輯" 雙重能力。
3. RLHF 對齊 + DMD2 步數蒸餾
預訓練之后,DreamLite 還經歷兩輪 "打磨":
- 高質量 SFT + RLHF 對齊:在精選高質量數據上監督微調,再通過強化學習做偏好對齊。生成任務以 HPSv3 作為 reward model,編輯任務以 EditReward 作為 reward model,并采用 ReFL 完成擴散模型的偏好優化。這一步顯著提升了美學質量和指令跟隨能力。
- DMD2 步數蒸餾:通過 Distribution Matching Distillation 2,將采樣步數從數十步壓縮到僅 4 步。
兩者疊加,DreamLite 真正具備了 "端側實時" 的現實可行性。最后通過量化和部署,實現在手機端生成 / 編輯(如下圖)。
![]()
實驗結果:躋身輕量化模型第一梯隊
1. 指標:同級壓制,越級對標
![]()
在文生圖側,DreamLite 在 GenEval 拿到 0.72、DPG 拿到 85.8;在圖像編輯側,在 ImgEdit 拿到 4.11、GEdit 拿到 6.88。在一眾基線的對比中,DreamLite 作為端側模型,不僅領先于 SnapGen、SANA 等輕量級的單任務模型,與參數量高出其 10–30 倍的服務端統一模型(如 FLUX、OmniGen2)相比,也展現出了極具競爭力的表現。
2. 手機實機演示:全程離線、無需聯網
在 iPhone 17 Pro 的實機演示中,DreamLite 可穩定支持以下典型工作流:
- 人像生成 + 風格遷移:先生成人像寫真,再一鍵轉換為油畫風格;
![]()
視頻鏈接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw
- 風景生成 + 背景替換:先生成自然風景,再完成冬夏的季節切換;
![]()
視頻鏈接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw
- 商品場景 + 增刪替換:生成日常桌面場景,靈活替換物體。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw
完整流程全程端側運行、無需聯網、用戶數據不出設備,對隱私敏感場景尤其友好。
意義與展望
DreamLite 給端側生成式 AI 的落地,提供了一條相當工程化、也相當有說服力的路徑:
- 一個模型替代兩個:統一生成與編輯,直接砍掉端側 "雙模型部署" 的內存、存儲與調度開銷;
- 4 步出圖、秒級可用:DMD2 步數蒸餾讓實時交互成為可能,真正貼合 App 級別的產品體驗;
- 完全端側、零數據外傳:所有計算在設備本地完成,既降低云端推理成本,又從根本上規避了用戶數據上傳帶來的隱私風險;
- 硬件門檻大幅降低:0.39B 主干意味著在更廣泛的中低端設備上,也有機會享受到擴散模型級別的創作能力。
DreamLite 的意義,不只是 "在手機上又能跑一個擴散模型"。它更像是在回答一個更根本的問題:當擴散模型進入生產級的移動端時代,"生成" 和 "編輯" 能否作為同一個能力、由同一個小模型來承擔?
隨著端側算力的持續提升、模型組件的持續輕量化,像 DreamLite 這樣的輕量統一模型,很可能成為 AI 創作工具走向大規模、人人可用的關鍵一步 —— 把生成式 AI 從 "云端算力密集型服務",變成 "口袋里隨時可用的畫板"。
作者介紹
Kailai Feng 為字節跳動實習生,Yuxiang Wei, Bo Chen, Yang Pan, Hu Ye, Songwei Liu, Chenqian Yan, Yuan Gao 均為字節跳動研究員
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.