![]()
編輯|Panda
AI 圖像生成通常遵循「能力越強、代價越高」的鐵律;與此同時,學界卻在悄悄質疑另一個更根本的浪費:傳統 VAE 對圖像語義幾乎一無所知,而 DINOv2、SigLIP 等視覺編碼器早已從數億張圖片中習得了豐富的視覺常識。圖像生成模型,真的需要從零開始「發明」對圖像的理解嗎?
2025 年 10 月,紐約大學謝賽寧團隊提出了「表征自編碼器(Representation Autoencoder,RAE)」框架,首次系統性地將預訓練視覺編碼器引入擴散模型的潛在空間。參閱我們的報道《VAE 時代終結?謝賽寧團隊「RAE」登場,表征自編碼器或成 DiT 訓練新基石》。
這項成果在學界引發強烈反響,但同時也暴露出三個阻礙實用落地的核心問題:重建質量不如專用 VAE、無法配合傳統引導機制、訓練收斂極慢。
五個月后,同一團隊攜手 Adobe Research 與澳大利亞國立大學,帶來了全面改進的RAEv2
![]()
- 論文標題:Improved Baselines with Representation Autoencoders
- 論文地址:https://arxiv.org/abs/2605.18324v1
- 項目頁面:https://raev2.github.io
為什么 VAE 是瓶頸?
要理解這項工作的意義,先要理解 VAE 是什么,以及它為什么開始成為瓶頸。
想象一家大型圖書館。圖書館的索引系統(VAE 編碼器)負責將每一本書壓縮成一張卡片,存入一個巨大的卡片柜(潛在空間)。擴散模型在這個卡片柜里工作:從一堆雜亂的卡片出發,一步步「去噪」,最終還原出一張清晰的卡片,再由解碼器將卡片還原成完整的書。
問題在于傳統的索引卡片(VAE 潛在空間)記錄的是書的物理特征,比如厚度、顏色、字體大小。但模型真正需要的,是書的內容和含義。擴散模型每次從噪聲出發,都要自己重新學會「這是一只貓」、「這是一棵樹」,效率極低。
預訓練視覺編碼器(DINOv2 等)則截然不同。它們的索引卡片記錄的是語義:這本書講的是什么主題、出現了哪些人物、場景的空間結構如何。如果擴散模型能在這樣的潛在空間里工作,就相當于站在了巨人的肩膀上,不需要重復學習「視覺常識」。
RAE 正是這樣的系統:以預訓練編碼器為圖書館的索引系統,訓練一個解碼器來還原圖像。但第一代 RAE 的問題,是這套索引卡片只記錄了「書的最后一章摘要」,丟失了大量中間層的細節信息。
三個洞察,一次系統性升級
RAEv2 的工作核心是三個獨立但相互支撐的技術洞察。
洞察一:最后一層不是全部。
原始 RAE 直接使用視覺編碼器最后一層的輸出作為潛在表征。但預訓練編碼器的知識并非只集中在最后一層 —— 就像一個專家的完整知識體系,不只存在于他最后的結論里,也分布在他的推理過程中。
RAEv2 提出了一個極其簡潔的解法:將編碼器最后 K 層的特征直接相加,作為潛在表征。這個操作不引入任何新參數,不需要額外訓練數據(比如文字或人臉),卻讓圖像重建質量產生了質的飛躍。當 K 從 1(原始 RAE)增加到 23(全部層)時,重建誤差(rFID)從 0.60 驟降至 0.18,峰值信噪比從 18.93 dB 提升至 27.03 dB。
![]()
洞察二:RAE 和 REPA 其實是互補的,不是競爭關系。
這是整篇論文最出人意料的發現。
學界此前普遍認為:既然 RAE 已經把預訓練編碼器的特征直接用作潛在空間,就沒必要再用 REPA(表征對齊損失,將同一批編碼器特征蒸餾到擴散模型的中間層)—— 那不是多此一舉,讓同一個信號走兩條路嗎?
研究團隊橫跨 27 種視覺編碼器進行了大規模實驗,結果令人驚訝:無論哪種編碼器,REPA 和 RAE 同時使用時,效果都優于單獨使用任一方。
![]()
更有趣的是,兩者改善的是不同維度。RAE 提供的是「全局語義」,比如模型知道圖里有只貓;REPA 提供的是「空間結構」,比如模型知道貓在圖像左上角、眼睛在鼻子上方。前者對應語義信息(用線性探針準確率 LP 衡量),后者對應空間自相似性(用 LDS 衡量)。在 27 個編碼器的相關性分析中,這一互補機制得到了嚴格統計驗證,皮爾遜相關系數分別達到 -0.81(RAE 依賴 LP)和 -0.89(REPA 依賴 LDS)。
這一發現還解釋了為什么更強的編碼器 DINOv3-L,在第一代 RAE 里反而表現不如 DINOv2-B;因為原始 RAE 只利用了語義維度,而 DINOv3-L 的優勢恰恰在于兩個維度都強,RAE+REPA 才能充分發揮它的潛力。
![]()
洞察三:「引導」其實一直藏在模型里。
這是最優雅的一個技術貢獻。
圖像生成模型在推理時,通常需要一種叫做「引導」(Guidance)的機制來提升圖像質量 —— 本質是讓模型在「有條件」和「無條件」兩個狀態之間做差值,從而強化目標特征。原始 RAE 無法使用標準的分類器自由引導(CFG),只能訓練一個額外的「弱版擴散模型」來充當引導基線(AutoGuidance),這不僅增加了訓練成本,推理時也需要額外一次前向計算。
![]()
RAEv2 觀察到一個關鍵性質:REPA 在 RAE 框架下,本質上是在做「x 預測」(預測干凈的圖像表征),而 REPA 頭只能訪問模型的淺層特征,天然是一個「更弱的版本」。將主模型輸出也改寫為 x 預測格式,就可以直接用 REPA 頭作為引導基線。這樣就無需額外訓練任何模型,無需額外前向計算,引導完全「免費」。
RAEv2 的表現如何?
三個洞察組合在一起,形成了 RAEv2,帶來了可量化的全面改進。
在圖像生成質量(ImageNet-256,以 gFID 衡量,越低越好)上,RAEv2 在僅 80 個訓練 epoch 后達到 1.06。
![]()
![]()
以 FDr?這一更嚴格的評估指標衡量,RAEv2 以 80 epoch 達到 2.17,超越了原始 RAE 的最佳成績 3.26—— 后者需要十倍訓練時長且依賴后處理。
![]()
研究團隊為此引入了一個新的效率指標:EPFID@k,即「達到無引導 gFID ≤ k 所需的訓練 epoch 數」。這個指標的意義在于:絕對 gFID 數值的微小差異在實際應用中幾乎感知不到,但訓練效率的差異直接決定了誰能更快迭代、更低成本實驗。
RAE 的 EPFID@2 為 177 epoch,RAEv2 將其壓縮到了 35 epoch—— 收斂速度超過 5 倍,若與早期方法比較則達 10 倍以上。
![]()
在計算成本上,RAEv2 保持與第一代 RAE 完全相同的 189 GFLOPs,而 FLUX.1 等頂級商業模型需要 448 GFLOPs。以不到一半的算力,達到超越所有同類系統的生成質量。這是 RAEv2 最直接的工程價值。
在重建質量上,盡管只在 ImageNet 上訓練,RAEv2 的還原效果已可與 FLUX VAE、SDXL-VAE 等在大規模多樣化數據集上訓練的專有模型相媲美。
![]()
超越圖像分類:更廣的適用性
RAEv2 并未局限于 ImageNet 實驗。論文還驗證了其在兩個方向上的泛化能力。
在文本生圖方向,使用 SigLIP-2 作為編碼器的 RAEv2,在文本生圖基準上展現出與 ImageNet 實驗一致的改進趨勢,收斂速度顯著快于基于 VAE 的對比方法。
![]()
在導航世界模型方向 —— 即 AI 通過視覺預測未來幀的任務場景 ——RAEv2 同樣帶來了一致的性能提升,證明這一框架并非專為圖像生成設計的特殊技巧,而是具有跨任務通用性的基礎方法。
![]()
一個更大的賭注
RAEv2 所指向的不只是「更快的圖像生成」。
在傳統的圖像 AI 體系里,「理解圖像」和「生成圖像」是兩條平行的軌道:前者用 DINOv2、CLIP 等判別式模型,后者用 Stable Diffusion、FLUX 等生成式模型,兩者共享的只有訓練數據,而非知識體系。
RAE 框架的核心賭注是把這兩條軌道合并。如果生成模型直接在視覺理解模型的語義空間里工作,那理解和生成就共享同一套「視覺語言」,未來的統一多模態模型將具備直接在生成的圖像潛在表征上進行推理的能力。
從一個單純的「更快收斂」的工程改進出發,RAEv2 不經意間指向了一個更宏觀的問題:下一代多模態 AI 是否應當從根本上統一「看」與「畫」的底層表征?
這個問題,也許比 gFID 數字本身更值得關注。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.