網易首頁 > 網易號 > 正文申請入駐

告別云端依賴！字節開源新作DreamLite讓手機秒變 AI 畫板

2026-05-12 20:47:59　來源: 機器之心Pro

河北舉報

分享至

近日，字節跳動智能創作部門（Intelligent Creation Lab）提出新作 DreamLite，一個主干網絡僅有 0.39B 參數的輕量級統一擴散模型，在單一網絡內同時支持文生圖（Text-to-Image）和圖像編輯（Text-guided Image Editing）兩個任務，是目前已知首個實現這一能力的端側模型。

DreamLite 在 iPhone 17 Pro 上實現了約 3 秒生成或編輯一張 1024×1024 圖像，完全在設備端運行，無需云端。在 GenEval、DPG、ImgEdit 等主流基準上，DreamLite 全面超越現有端側模型，并與參數量大 10-30 倍的服務端模型表現相當。

目前，DreamLite 論文與推理代碼已開源。

論文鏈接：https://arxiv.org/abs/2603.28713
項目主頁：https://carlofkl.github.io/dreamlite/
GitHub 鏈接：https://github.com/ByteVisionLab/DreamLite
在線 Demo：https://huggingface.co/spaces/carlofkl/DreamLite

當擴散模型想 "搬進手機"：兩大痛點亟待解決

在使用 FLUX、HunyuanImage、Qwen-Image 這類大模型創作或修圖時，用戶正在習慣 "提詞即生圖、一句話改圖" 的體驗。但當這些能力想真正走進手機、走向離線場景時，卻遇到兩個現實的攔路虎：

痛點一：生成與編輯，要裝兩個模型

現有方案中，文生圖和圖像編輯往往依賴兩個獨立的 pipeline：一個負責 "從零生成"，一個負責 "看圖改圖"。對本就內存緊張、存儲有限的移動設備而言，同時裝下兩套數十億參數的模型，幾乎不可承受。

痛點二：質量和速度，難以兼得

把大模型壓縮到端側可用的體量后，生成質量往往斷崖式下跌；而如果追求畫質和指令跟隨能力，推理延遲又會退回到 "按下按鈕等待十幾秒"，徹底喪失實時交互的意義。

更關鍵的是，真實產品場景里，用戶需要的是同一套應用里無縫切換 "生成一張圖片" 和 "修改這張圖片"。兩個模型意味著兩份顯存占用、兩份下載流量、兩份維護成本，這在端側尤其奢侈。

DreamLite：一個模型，兩種能力

DreamLite 的核心思想非常直接：將把 "生成" 和 "編輯" 統一壓進一個輕量級網絡里，而不是分別訓練兩個模型。圍繞這個思路，團隊做了三項關鍵設計。

1. In-Context 空間拼接：用 "占位符" 統一兩類任務

DreamLite 在剪枝后的 SDXL U-Net 主干上，引入了一種空間維度的 in-context 條件注入機制。具體而言，模型的輸入始終是一對左右拼接的潛變量。對于文生圖，輸入的右側參考圖為全黑占位圖，相當于 "沒有視覺條件"；對于編輯，輸入的參考圖為待編輯的原圖。

在此之上，團隊還在文本 prompt 前插入顯式任務 token（[Generate] 或 [Edit]），作為一種零參數的任務路由信號。這樣一來，同一個 U-Net 就能根據輸入自動分辨當下是 "文生圖" 還是 "編輯"，無需新增任何分支、適配器或額外模塊，天然適配緊湊主干。

2. Task-Progressive Joint Pretraining（漸進式聯合預訓練）

直接聯合訓練生成和編輯任務會導致小模型的訓練不穩定。團隊提出了分階段的漸進式策略：

階段一｜T2I 預訓練：用大規模圖文數據，以及經典的文生圖范式，訓練模型的生成能力；
階段二｜編輯預訓練：激活 in-context 條件，讓模型在保留原圖結構的前提下，學會 "指令編輯"；
階段三｜統一聯合預訓練：在同一 in-context 范式下繼續聯合優化生成與編輯。

這種分階段的策略，讓一個 0.39B 的小模型也能穩定習得 "生成 + 編輯" 雙重能力。

3. RLHF 對齊 + DMD2 步數蒸餾

預訓練之后，DreamLite 還經歷兩輪 "打磨"：

高質量 SFT + RLHF 對齊：在精選高質量數據上監督微調，再通過強化學習做偏好對齊。生成任務以 HPSv3 作為 reward model，編輯任務以 EditReward 作為 reward model，并采用 ReFL 完成擴散模型的偏好優化。這一步顯著提升了美學質量和指令跟隨能力。
DMD2 步數蒸餾：通過 Distribution Matching Distillation 2，將采樣步數從數十步壓縮到僅 4 步。

兩者疊加，DreamLite 真正具備了 "端側實時" 的現實可行性。最后通過量化和部署，實現在手機端生成 / 編輯（如下圖）。

實驗結果：躋身輕量化模型第一梯隊

1. 指標：同級壓制，越級對標

在文生圖側，DreamLite 在 GenEval 拿到 0.72、DPG 拿到 85.8；在圖像編輯側，在 ImgEdit 拿到 4.11、GEdit 拿到 6.88。在一眾基線的對比中，DreamLite 作為端側模型，不僅領先于 SnapGen、SANA 等輕量級的單任務模型，與參數量高出其 10–30 倍的服務端統一模型（如 FLUX、OmniGen2）相比，也展現出了極具競爭力的表現。

2. 手機實機演示：全程離線、無需聯網

在 iPhone 17 Pro 的實機演示中，DreamLite 可穩定支持以下典型工作流：

人像生成 + 風格遷移：先生成人像寫真，再一鍵轉換為油畫風格；

視頻鏈接：https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

風景生成 + 背景替換：先生成自然風景，再完成冬夏的季節切換；

視頻鏈接：https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

商品場景 + 增刪替換：生成日常桌面場景，靈活替換物體。

視頻鏈接：https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

完整流程全程端側運行、無需聯網、用戶數據不出設備，對隱私敏感場景尤其友好。

意義與展望

DreamLite 給端側生成式 AI 的落地，提供了一條相當工程化、也相當有說服力的路徑：

一個模型替代兩個：統一生成與編輯，直接砍掉端側 "雙模型部署" 的內存、存儲與調度開銷；
4 步出圖、秒級可用：DMD2 步數蒸餾讓實時交互成為可能，真正貼合 App 級別的產品體驗；
完全端側、零數據外傳：所有計算在設備本地完成，既降低云端推理成本，又從根本上規避了用戶數據上傳帶來的隱私風險；
硬件門檻大幅降低：0.39B 主干意味著在更廣泛的中低端設備上，也有機會享受到擴散模型級別的創作能力。

DreamLite 的意義，不只是 "在手機上又能跑一個擴散模型"。它更像是在回答一個更根本的問題：當擴散模型進入生產級的移動端時代，"生成" 和 "編輯" 能否作為同一個能力、由同一個小模型來承擔？

隨著端側算力的持續提升、模型組件的持續輕量化，像 DreamLite 這樣的輕量統一模型，很可能成為 AI 創作工具走向大規模、人人可用的關鍵一步 —— 把生成式 AI 從 "云端算力密集型服務"，變成 "口袋里隨時可用的畫板"。

作者介紹

Kailai Feng 為字節跳動實習生，Yuxiang Wei, Bo Chen, Yang Pan, Hu Ye, Songwei Liu, Chenqian Yan, Yuan Gao 均為字節跳動研究員

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.