網易首頁 > 網易號 > 正文申請入駐

挑戰擴散自回歸！字節提出視覺生成第三種路線，讓模型邊畫邊改

2026-05-13 21:52:31　來源: 量子位

北京舉報

分享至

鷺羽發自凹非寺
量子位 | 公眾號 QbitAI

ber！這個五一假期，我也是真夠忙的：

自拍、電影、追劇、街頭采訪、聽音樂會，還抽空回老家結了次婚……

視頻鏈接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

（咳咳）不賣關子了，其實以上這些，通通都是AI生成。

但u1s1，就這逼真的眼神和動作，也太對味了！

它們都出自字節商業化技術團隊研發的新一代視覺生成模型，更妙的是——

它的底層架構，不是主流的擴散模型，也并非近來大火的自回歸模型，而是全新的第三條路。

這篇研究論文，提出了另一種AI視覺生成構想：

讓AI像人類一樣畫畫，不僅可以邊畫邊改，還能復雜多畫、簡單少畫。也就是生成精煉網絡GRN（Generative Refinement Networks）。

簡單來說，如果把AI視覺生成比作在白紙上作畫，那么現有的擴散和自回歸模型各有各的優缺點。

先說擴散模型，作為目前最常用的視覺生成架構，還是有兩把刷子的，其所生成的視頻幾乎能夠以假亂真。

但實則它的繪畫過程還像個笨拙的學生，無論是畫簡單的一顆蘋果，還是復雜的巴洛克壁畫，都必須老老實實一筆一筆畫，所以即使是復雜度天差地別的畫作，也要花費相同的時間步數。

自回歸模型這邊，雖然天生具備畫面復雜度感知，但由于需要先將顏色離散化，畫作始終缺乏高頻細節。

它還粗心大意沒有橡皮，前面一筆畫錯了，不僅不改，還會“自由發揮”越畫越離譜。

GRN則從根本上解決了這些問題，知錯就改，可以在畫的過程中就不斷修改細化，直到滿意為止。

比如下面這些風格多樣的頭像，都是生成精煉網絡所畫。

再比如這些，all by GRN。

類別生圖、文生圖、文生視頻、圖生視頻，GRN樣樣手拿把掐。

畢竟懂的都懂，“允許犯錯、及時糾正”，這套一以貫之的思路真的很字節范兒～（doge）

實測架構性能

說一千道一萬，咱再來仔細實測看看。

目前GRN T2I模型直接在HuggingFace就能體驗（
https://huggingface.co/spaces/hanjian/GRN）。

可以自行調整參數，比如提示詞相關性、創意發散程度等。

先來生成一張80年代家庭照片。

一張80年代生日派對上拍攝的全家福。一個小男孩吹滅奶油蛋糕上的蠟燭，家人圍繞在他身邊鼓掌。

很有CCD老照片那味兒了～

再上難度，讓GRN嘗試生成一張漫畫：

Two men dressed in dark suits, red ties, and black hats. They are both wearing sunglasses and holding revolvers, pointing them directly at the viewer. The men have stern expressions on their faces. Their attire and demeanor suggest a sense of authority and menace…
兩名男子身著深色西裝、系紅色領帶、頭戴黑色禮帽。二人均佩戴墨鏡，手持左輪手槍，槍口直指觀者。兩人神情冷峻，著裝與氣場透著威嚴感與威懾感…

一眼望去，配色大膽、風格鮮明，角色與構圖也搭配和諧。

文生視頻這邊，作者開源了2B模型，同時提供了一個Discord網站Demo，大家登錄Discord之后，點擊下面這個鏈接就可以體驗：
http://opensource.bytedance.com/discord/invite。

在左側導航欄，可以找到GRN-T2V 2B模型，然后在聊天框輸入/generate_video [提示詞]即可。

先來一個單人簡單場景的測試：

A man in an orange shirt and glasses stands before a red brick wall, holding and presenting a dark gray cylindrical object.
一名身穿橙色上衣、戴著眼鏡的男子站在紅磚墻前，手持并展示一個深灰色的圓柱形物體。

視頻鏈接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

人物皮膚、面部細節和動作流暢度都不像是只有2B參數的模型～

再看看一個多人舞蹈、鏡頭快速推進的例子，也沒有出現畫面畸形的情況。

A K-pop group performs on stage with vibrant lighting and dynamic choreography, singing a song about preferring night meetings, as shown in a live broadcast.
一場直播畫面中，一支韓國流行偶像團體在絢麗的舞臺燈光下登臺表演，舞步靈動富有張力，演唱著一首偏愛夜間相約主題的歌曲。

視頻鏈接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

另外，各種復雜的人物動作和鏡頭調度，也都能一步到位，還原得相當絲滑。

視頻鏈接：https://mp.weixin.qq.com/s/TAYMBnKLbiG_gtkJpC8Ekw

妥妥成片級表現，直接給到夯！

這就引出了新的問題——

為什么團隊要執意跳出舒適區，探索一套全新的生成范式呢？

AI視覺生成的第三條路

這就源自團隊對現有主流技術路線的洞察——

擴散模型：雖然生成質量高，但不夠智能。它對所有樣本，無論復雜與否，都分配相同的迭代步數，缺乏自適應能力。
自回歸模型：通過似然估計，天然具有復雜度感知能力。但一方面，受限于離散token化，存在嚴重的信息損失。另一方面，存在誤差累計和誤差傳播的問題，早期錯誤無法修正，于是越錯越離譜。

而GRN則是對二者的揚長補短，同時兼顧全局精調和內容復雜度感知。

其核心架構包括三個部分：

1、層次二叉樹量化（HBQ）

首先針對自回歸模型的離散損失，HBQ采用近乎無損的離散編碼，能夠避免在壓縮過程中丟失信息，同時實現圖像與視頻的統一建模。

具體來說，它將VAE編碼后的連續特征映射到[-1, +1]區間，然后通過二叉樹結構進行多輪二進制量化。

這樣重建誤差就會隨著量化輪數增加逐漸被分配到更精細的量化區間，量化誤差隨著輪數指數級衰減，理論上可以實現完全無損的量化。

最終將獲得M個二進制標簽，分別代表從粗到細的信息層次。

其中，GRN包含兩種預測目標，GRN_ind是將通道維度的M位二進制合并成一個整數標簽進行預測，更適合簡單量化輪數少的情況；GRN_bit則是直接逐位預測二進制值，更適合量化輪次高、模型大、任務復雜的情況，比如視頻生成。

另外，二者均采用多token并行預測，以提升生成速度。

2、全局精煉網絡（GRN）

至于解決誤差積累問題，GRN引入了全局精調過程，模擬人類繪畫過程，從隨機token圖開始，逐輪開始修改迭代。

首先每一步的生成狀態都由兩部分組成：

當前已經生成的內容，也就是已畫好的部分([F] token)；
隨機token，模擬空白畫布 ([R] token])；

然后Transformer就會基于當前狀態，預測一個更優的token圖。

這個過程中，GRN需要自己從當前輸入判斷哪些是畫好的[F] token，哪些是隨機的[R] token，然后對所有token都輸出一個refine后的結果。

當然，如果GRN判斷是畫好的[F] token，傾向于復制輸出。對于[R] token，需要根據全局上下文的token推斷應該畫上什么。

通過這個全局refine的更新機制，確定的token不斷增多，不確定的token反復改寫，就像一個畫家一樣，真正做到了邊畫邊改，生成效果也越來越好，徹底解決了自回歸模型錯誤累計、錯誤傳播的老大難問題！

3、復雜度感知采樣

為了避免擴散模型一刀切的計算分配方式，GRN采用熵來衡量畫面復雜度。

計算每一步預測的平均熵，熵低意味著樣本簡單，可以分配較少的推理步數，熵高則意味著樣本復雜，需要分配更多的精煉步數。

應用復雜度感知采樣后，在對步數最敏感、參數量最小的130M模型上，推理步數能夠從總共50步變成了20~40步，平均24步，而gFID僅僅從3.56略微上升到3.79（gFID數值越小越好），真正做到了簡單少畫、復雜多畫！

并且，簡單的樣本20步就能搞定，復雜的樣本GRN也只分配了40步。

基于此，實驗結果顯示，GRN在多項基準測試中均刷新了SOTA記錄。

首先在ImageNet 256×256的圖像重建上，HBQ達到了0.56 rFID，遠超SD-VAE (0.87)、RAE (0.62)、VAR（0.85)、Open-MAGVIT2（1.17)。

在視頻重建時，8輪HBQ效果與連續VAE基線標準相當，說明HBQ無需增加隱層通道數，就能在更高的壓縮率下逼近連續編碼質量。

而將隱層通道從16提升至64，PSNR就會從30.40躍升至33.97，性能媲美當前最優的Wan 2.1，但比特數減少了4倍。

在類別-圖像生成（C2I）任務中，GRN?G（2B）的FID值為1.81，IS值為299.0，超越了DiT?XL/2、SiT?XL/2、VAR?d30、LlamaGen?XXL、JiT-G主流生成模型。

另外，相比于MaskGIT（227M），GRN?B（130M）參數量僅為前者的一半，但性能實現反超，FID從6.18降至3.56。

這也就意味著，GRN的全局精調不僅徹底解決了AR誤差積累問題，生成質量同時還超越主流擴散模型。

在文生圖（T2I）任務中，GRN_bit 2B在GenEval上得分0.76，超過同為2B參數的SD3 Medium、Infinity，因為2B的參數量限制，落后于其他6B～20B等大模型，不過研究人員表示，GRN這種類似語言模型的離散token建模，有很好的scaling特性，他們會在未來推出更大的模型。

在文生視頻（T2V）任務中，2B參數的GRN最高可支持480p、2~10秒高保真視頻生成，在VBench測試中，超越5B的CogVideoX、14B的Wan 2.1等模型，以及所有同規模的AR和擴散模型。

另外，消融實驗也證明了全局精調、復雜度感知模塊在GRN中的關鍵作用。

總的來說，在同等參數量下，GRN已經實現了比擴散模型與傳統自回歸模型更聰明的生成。

它證明，在擴散和自回歸這兩條既定路徑之外，視覺生成還有新的可能。GRN同時解決了量化損失、誤差累計、復雜度感知生成的三個問題，在AR和Diffusion中間架起了一座橋梁。

如果再腦洞大開一下，現在的dLLM或許也可以借鑒GRN的思路。

dLLM也是一次性生成，一旦早期token出錯，后面就只能將錯就錯，如果像GRN一樣，引入全局精調，也許模型在生成文本后，還有機會推翻之前寫的內容。

這也不失為一個好的破局之道。

此外，GRN證明了純血離散token是能夠做好圖像和視頻生成的。從長遠來看，能夠更好地統一圖像、視頻、文本token，顯著提升模型的多模態理解與生成能力。

相比自回歸模型，GRN重建上限更高，對抗誤差累計能力更強；相比擴散模型，GRN能更聰明地分配計算步數。GRN用優雅的設計解決了一直以來困擾自回歸和擴散模型的難題。

論文鏈接：
https://arxiv.org/abs/2604.13030
代碼鏈接：
https://github.com/MGenAI/GRN
HuggingFace鏈接：
https://huggingface.co/spaces/hanjian/GRN
項目主頁：
https://mgenai.github.io/GRN/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.