<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,謝賽寧團隊放出第二代表征自編碼器

      0
      分享至



      編輯|Panda

      AI 圖像生成通常遵循「能力越強、代價越高」的鐵律;與此同時,學界卻在悄悄質疑另一個更根本的浪費:傳統 VAE 對圖像語義幾乎一無所知,而 DINOv2、SigLIP 等視覺編碼器早已從數億張圖片中習得了豐富的視覺常識。圖像生成模型,真的需要從零開始「發明」對圖像的理解嗎?

      2025 年 10 月,紐約大學謝賽寧團隊提出了「表征自編碼器(Representation Autoencoder,RAE)」框架,首次系統性地將預訓練視覺編碼器引入擴散模型的潛在空間。參閱我們的報道《VAE 時代終結?謝賽寧團隊「RAE」登場,表征自編碼器或成 DiT 訓練新基石》。

      這項成果在學界引發強烈反響,但同時也暴露出三個阻礙實用落地的核心問題:重建質量不如專用 VAE、無法配合傳統引導機制、訓練收斂極慢。

      五個月后,同一團隊攜手 Adobe Research 與澳大利亞國立大學,帶來了全面改進的RAEv2



      • 論文標題:Improved Baselines with Representation Autoencoders
      • 論文地址:https://arxiv.org/abs/2605.18324v1
      • 項目頁面:https://raev2.github.io

      為什么 VAE 是瓶頸?

      要理解這項工作的意義,先要理解 VAE 是什么,以及它為什么開始成為瓶頸。

      想象一家大型圖書館。圖書館的索引系統(VAE 編碼器)負責將每一本書壓縮成一張卡片,存入一個巨大的卡片柜(潛在空間)。擴散模型在這個卡片柜里工作:從一堆雜亂的卡片出發,一步步「去噪」,最終還原出一張清晰的卡片,再由解碼器將卡片還原成完整的書。

      問題在于傳統的索引卡片(VAE 潛在空間)記錄的是書的物理特征,比如厚度、顏色、字體大小。但模型真正需要的,是書的內容和含義。擴散模型每次從噪聲出發,都要自己重新學會「這是一只貓」、「這是一棵樹」,效率極低。

      預訓練視覺編碼器(DINOv2 等)則截然不同。它們的索引卡片記錄的是語義:這本書講的是什么主題、出現了哪些人物、場景的空間結構如何。如果擴散模型能在這樣的潛在空間里工作,就相當于站在了巨人的肩膀上,不需要重復學習「視覺常識」。

      RAE 正是這樣的系統:以預訓練編碼器為圖書館的索引系統,訓練一個解碼器來還原圖像。但第一代 RAE 的問題,是這套索引卡片只記錄了「書的最后一章摘要」,丟失了大量中間層的細節信息。

      三個洞察,一次系統性升級

      RAEv2 的工作核心是三個獨立但相互支撐的技術洞察。

      洞察一:最后一層不是全部。

      原始 RAE 直接使用視覺編碼器最后一層的輸出作為潛在表征。但預訓練編碼器的知識并非只集中在最后一層 —— 就像一個專家的完整知識體系,不只存在于他最后的結論里,也分布在他的推理過程中。

      RAEv2 提出了一個極其簡潔的解法:將編碼器最后 K 層的特征直接相加,作為潛在表征。這個操作不引入任何新參數,不需要額外訓練數據(比如文字或人臉),卻讓圖像重建質量產生了質的飛躍。當 K 從 1(原始 RAE)增加到 23(全部層)時,重建誤差(rFID)從 0.60 驟降至 0.18,峰值信噪比從 18.93 dB 提升至 27.03 dB。



      洞察二:RAE 和 REPA 其實是互補的,不是競爭關系。

      這是整篇論文最出人意料的發現。

      學界此前普遍認為:既然 RAE 已經把預訓練編碼器的特征直接用作潛在空間,就沒必要再用 REPA(表征對齊損失,將同一批編碼器特征蒸餾到擴散模型的中間層)—— 那不是多此一舉,讓同一個信號走兩條路嗎?

      研究團隊橫跨 27 種視覺編碼器進行了大規模實驗,結果令人驚訝:無論哪種編碼器,REPA 和 RAE 同時使用時,效果都優于單獨使用任一方。



      更有趣的是,兩者改善的是不同維度。RAE 提供的是「全局語義」,比如模型知道圖里有只貓;REPA 提供的是「空間結構」,比如模型知道貓在圖像左上角、眼睛在鼻子上方。前者對應語義信息(用線性探針準確率 LP 衡量),后者對應空間自相似性(用 LDS 衡量)。在 27 個編碼器的相關性分析中,這一互補機制得到了嚴格統計驗證,皮爾遜相關系數分別達到 -0.81(RAE 依賴 LP)和 -0.89(REPA 依賴 LDS)。

      這一發現還解釋了為什么更強的編碼器 DINOv3-L,在第一代 RAE 里反而表現不如 DINOv2-B;因為原始 RAE 只利用了語義維度,而 DINOv3-L 的優勢恰恰在于兩個維度都強,RAE+REPA 才能充分發揮它的潛力。



      洞察三:「引導」其實一直藏在模型里。

      這是最優雅的一個技術貢獻。

      圖像生成模型在推理時,通常需要一種叫做「引導」(Guidance)的機制來提升圖像質量 —— 本質是讓模型在「有條件」和「無條件」兩個狀態之間做差值,從而強化目標特征。原始 RAE 無法使用標準的分類器自由引導(CFG),只能訓練一個額外的「弱版擴散模型」來充當引導基線(AutoGuidance),這不僅增加了訓練成本,推理時也需要額外一次前向計算。



      RAEv2 觀察到一個關鍵性質:REPA 在 RAE 框架下,本質上是在做「x 預測」(預測干凈的圖像表征),而 REPA 頭只能訪問模型的淺層特征,天然是一個「更弱的版本」。將主模型輸出也改寫為 x 預測格式,就可以直接用 REPA 頭作為引導基線。這樣就無需額外訓練任何模型,無需額外前向計算,引導完全「免費」。

      RAEv2 的表現如何?

      三個洞察組合在一起,形成了 RAEv2,帶來了可量化的全面改進。

      在圖像生成質量(ImageNet-256,以 gFID 衡量,越低越好)上,RAEv2 在僅 80 個訓練 epoch 后達到 1.06。





      以 FDr?這一更嚴格的評估指標衡量,RAEv2 以 80 epoch 達到 2.17,超越了原始 RAE 的最佳成績 3.26—— 后者需要十倍訓練時長且依賴后處理。



      研究團隊為此引入了一個新的效率指標:EPFID@k,即「達到無引導 gFID ≤ k 所需的訓練 epoch 數」。這個指標的意義在于:絕對 gFID 數值的微小差異在實際應用中幾乎感知不到,但訓練效率的差異直接決定了誰能更快迭代、更低成本實驗。

      RAE 的 EPFID@2 為 177 epoch,RAEv2 將其壓縮到了 35 epoch—— 收斂速度超過 5 倍,若與早期方法比較則達 10 倍以上。



      在計算成本上,RAEv2 保持與第一代 RAE 完全相同的 189 GFLOPs,而 FLUX.1 等頂級商業模型需要 448 GFLOPs。以不到一半的算力,達到超越所有同類系統的生成質量。這是 RAEv2 最直接的工程價值。

      在重建質量上,盡管只在 ImageNet 上訓練,RAEv2 的還原效果已可與 FLUX VAE、SDXL-VAE 等在大規模多樣化數據集上訓練的專有模型相媲美。



      超越圖像分類:更廣的適用性

      RAEv2 并未局限于 ImageNet 實驗。論文還驗證了其在兩個方向上的泛化能力。

      在文本生圖方向,使用 SigLIP-2 作為編碼器的 RAEv2,在文本生圖基準上展現出與 ImageNet 實驗一致的改進趨勢,收斂速度顯著快于基于 VAE 的對比方法。



      在導航世界模型方向 —— 即 AI 通過視覺預測未來幀的任務場景 ——RAEv2 同樣帶來了一致的性能提升,證明這一框架并非專為圖像生成設計的特殊技巧,而是具有跨任務通用性的基礎方法。



      一個更大的賭注

      RAEv2 所指向的不只是「更快的圖像生成」。

      在傳統的圖像 AI 體系里,「理解圖像」和「生成圖像」是兩條平行的軌道:前者用 DINOv2、CLIP 等判別式模型,后者用 Stable Diffusion、FLUX 等生成式模型,兩者共享的只有訓練數據,而非知識體系。

      RAE 框架的核心賭注是把這兩條軌道合并。如果生成模型直接在視覺理解模型的語義空間里工作,那理解和生成就共享同一套「視覺語言」,未來的統一多模態模型將具備直接在生成的圖像潛在表征上進行推理的能力。

      從一個單純的「更快收斂」的工程改進出發,RAEv2 不經意間指向了一個更宏觀的問題:下一代多模態 AI 是否應當從根本上統一「看」與「畫」的底層表征?

      這個問題,也許比 gFID 數字本身更值得關注。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      扎波羅熱州的俄羅斯士兵因中毒酒精集體死亡

      扎波羅熱州的俄羅斯士兵因中毒酒精集體死亡

      桂系007
      2026-05-21 00:00:11
      大勢已定!菲律賓高院駁回訴求,杜特爾特心腹即將被捕

      大勢已定!菲律賓高院駁回訴求,杜特爾特心腹即將被捕

      時尚的弄潮
      2026-05-21 10:59:58
      她自爆最近開始和人同居?

      她自爆最近開始和人同居?

      奮斗在韓國
      2026-05-19 19:47:06
      垃圾食品清單已列出,燕麥片排第2,排第1的很多人喜歡吃

      垃圾食品清單已列出,燕麥片排第2,排第1的很多人喜歡吃

      路醫生健康科普
      2026-05-17 19:35:03
      媽媽帶2歲孩子送外賣后情緒崩潰:我憑什么背負這些還要養你!

      媽媽帶2歲孩子送外賣后情緒崩潰:我憑什么背負這些還要養你!

      映射生活的身影
      2026-05-20 16:55:01
      剛剛!深圳福田初中生登頂珠穆朗瑪峰,成為中國最年輕登頂者

      剛剛!深圳福田初中生登頂珠穆朗瑪峰,成為中國最年輕登頂者

      南方都市報
      2026-05-21 07:42:29
      1950年,載灃以90萬斤小米賣掉王府,兒子不解,他一句話讓其閉嘴

      1950年,載灃以90萬斤小米賣掉王府,兒子不解,他一句話讓其閉嘴

      邊城少爺
      2026-05-18 12:40:14
      美國評1979年中越戰爭:打了28天,中國軍隊出現了很多問題

      美國評1979年中越戰爭:打了28天,中國軍隊出現了很多問題

      芳芳歷史燴
      2026-05-21 10:36:36
      正式接受交易!湖人3首輪搶字母!Shams笑了...

      正式接受交易!湖人3首輪搶字母!Shams笑了...

      柚子說球
      2026-05-21 12:28:07
      社交潛規則早就寫透:沒人真正關心你有多優秀、多能干、多出色,真正被反復衡量的,其實只有這兩個扎心現實

      社交潛規則早就寫透:沒人真正關心你有多優秀、多能干、多出色,真正被反復衡量的,其實只有這兩個扎心現實

      心理觀察局
      2026-05-17 08:46:14
      廣東一地通知:下午停課!

      廣東一地通知:下午停課!

      南方都市報
      2026-05-21 13:17:15
      北京球迷意難平!不止因為66-81慘敗上海,更多在于以下這五點!

      北京球迷意難平!不止因為66-81慘敗上海,更多在于以下這五點!

      田先生籃球
      2026-05-20 22:17:16
      神舟二十三號女航天員曝光,身份出人意料,首飛就要太空住一年

      神舟二十三號女航天員曝光,身份出人意料,首飛就要太空住一年

      云舟史策
      2026-05-21 07:37:48
      重磅!歐足聯公布2030世界杯預選賽大改革,強隊再也碰不到“魚腩部隊”了!

      重磅!歐足聯公布2030世界杯預選賽大改革,強隊再也碰不到“魚腩部隊”了!

      晚霧空青
      2026-05-21 11:04:51
      花生再次被關注!調查發現:糖尿病常吃花生不過半年或有4好處

      花生再次被關注!調查發現:糖尿病常吃花生不過半年或有4好處

      芹姐說生活
      2026-05-15 23:37:01
      我敢打賭99%的男人會選綠衣服女孩做老婆,看腿型就知道

      我敢打賭99%的男人會選綠衣服女孩做老婆,看腿型就知道

      娛樂洞察點點
      2026-04-21 00:47:32
      “100%椰子水”再調查:又有5款送檢產品均顯示“外源水、糖添加”

      “100%椰子水”再調查:又有5款送檢產品均顯示“外源水、糖添加”

      閃電新聞
      2026-05-20 17:30:54
      在火車臥鋪上,對面的少婦頻頻向我示好,夜里,她爬上了我的床

      在火車臥鋪上,對面的少婦頻頻向我示好,夜里,她爬上了我的床

      那年秋天
      2026-05-21 11:40:09
      上海交大樊同學事件:誰才是真正厚顏無恥之人

      上海交大樊同學事件:誰才是真正厚顏無恥之人

      朝廷心腹
      2026-05-20 14:08:16
      一聲槍響,全球震動!特朗普高調宣布:斬首成功,我們擊斃了他!

      一聲槍響,全球震動!特朗普高調宣布:斬首成功,我們擊斃了他!

      感恩每日相伴
      2026-05-20 03:43:04
      2026-05-21 14:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13048文章數 142651關注度
      往期回顧 全部

      科技要聞

      好到離譜也不夠!英偉達交出816億美元營收

      頭條要聞

      特斯拉監督版FSD登陸中國 急招測試技師:月薪最高3萬

      頭條要聞

      特斯拉監督版FSD登陸中國 急招測試技師:月薪最高3萬

      體育要聞

      常住人口7000的小鎮,擁有了一支德甲球隊

      娛樂要聞

      同行吐槽汪涵野心重 爆雷37萬人受損

      財經要聞

      英偉達業績超預!指引再新高仍不夠亮眼

      汽車要聞

      26.98萬起步 看小鵬GX如何詮釋一車多能以及滿配的科技與豪華

      態度原創

      旅游
      時尚
      教育
      手機
      房產

      旅游要聞

      停車場、公廁、公交……臨沂王羲之故居周邊旅游設施攻略

      全網首檔挑戰Al設備拍攝短劇現場直播!

      教育要聞

      收藏:2026高考29個概念解析!軍校、專業級差、專項計劃~

      手機要聞

      榮耀首款闊折疊曝光:2nm驍龍8 Elite Gen6,主屏測7.6英寸±

      房產要聞

      順德澐璟樓王『澐冠』啟幕|一場高階共鳴的靜奢美學之約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 手机看片日韩国产毛片| 国产人妻精品午夜福利免费| 中文字幕乱码亚洲中文在线| 丁香婷婷网| 国产女人看国产在线女人| 老司机在线精品| AV无码国产在线看岛国岛| 国产精品一区二区三区卡| 男女一边摸一边做爽爽| 久草视频免费在线播放| 亚洲色成人一区二区三区| www.97| 内射人妻无码色| 小Ⅹ福利姬蓝导航| 日日噜噜夜夜狠狠久久无码区| 夜夜干影院| 色吊丝免费视频| 国产精彩刺激对白视频| 亚洲v欧美v国产v在线观看| 极品人妻少妇一区二区三区| 黑人电影影音先锋在线播放| 日本视频中文字幕一区二区| 丝袜美女国产精品一区二区| 欧美成人VA免费大片视频 | 日韩夜夜操| 人妻精品无码一区二区三区| 性色av极品无码专区亚洲| 精品久久一线二线三线区| 国产成人精品亚洲资源| 国产麻豆va精品视频| 99视频精品在线| 九九热这里只有国产精品| 亚洲中文无码人| 国产精品成人午夜久久| 在线 欧美 中文 亚洲 精品| 国产成人精品午夜二三区波多野 | 无码人妻丰满熟妇奶水区码| 国产久久热这里只有精品| 99riav国产精品视频| 精品国产免费第一区二区三区| 男女性午夜福利网站|