網易首頁 > 網易號 > 正文申請入駐

何愷明團隊論文全景掃描：一場關于「生成范式」的多角度突破 | CVPR 2026

2026-05-08 11:24:01　來源: AI科技評論

廣東舉報

分享至

高度依賴擴散模型的圖像生成范式，正在被重新審視。

作者丨陳淑瑜

編輯丨岑峰

2025 年到 2026 年，如果要問生成式 AI 領域最值得關注的研究方向，流匹配（Flow Matching）是一個無法繞開的答案。

從去年起，這個名字開始頻繁出現在頂會論文里、被工業界反復討論、被拿來和統治了圖像生成領域長達五年的擴散模型正面比較。

所謂流匹配，本質上是用常微分方程路徑（ODE path）替代擴散模型的隨機微分方程路徑，讓數據從噪聲到圖像的轉變不再依賴數百步迭代，從而在理論上實現更高效的生成。但從理論可行到工程落地，中間隔著無數技術細節——訓練目標怎么設計、架構怎么選、速度和質量如何兼顧，每一步都是坑。

何愷明團隊正是在這個節點上，密集地交出了一份多角度的答卷。

AI科技評論總結了何愷明團隊近期在CVPR大會上發表上的論文： 2025 年 5 月，他們提出了均值流（MeanFlow），首次將"均值速度場"引入生成建模；同年年底，BiFlow 在歸一化流框架上實現了 700 倍加速，將 FID 推到 2.39；幾乎同一時間，Improved MeanFlow（iMF）則以三個系統性修復將單步 FID 降至 1.72，首次在無蒸餾條件下超越所有蒸餾方法。

生成模型之外，團隊在視覺推理（VARC，CVPR 2026）和自監督學習（Pixo，CVPR 2026）上也同時出擊，共同勾勒出一個清晰的戰略意圖：擴散模型并不是圖像生成的終點，流匹配這條路，值得全力押注。

這五篇論文之間沒有直接的方法傳承，方向各有側重，但貫穿其中的核心問題始終如一：在每一個被默認的技術選擇背后，到底藏著多少被低估的優化空間？

讓"去噪"模型真正做一次去噪

理解 JiT 的工作，需要從擴散模型一個被忽視已久的痛點說起。

當前的擴散模型在訓練時，網絡學習預測的目標是噪聲 ε 或速度 v，而非干凈圖像 x。

這個細節在大多數論文里被一筆帶過，但它有一個容易被忽視的含義：噪聲和速度并不在自然圖像的流形上。用大白話說，網絡在試圖預測一個"不屬于這個世界"的東西——它不在圖像分布內，是離群的量。這種預測天然地不穩定，網絡需要額外的表達能力來處理那些本不應該出現在預測目標里的高維噪聲。

也就是說，預測噪聲和預測干凈圖區別很大。

流形示意圖

JiT 的核心洞察正是從這里切入的。既然 x（干凈圖像）在圖像流形上，那就讓網絡直接預測 x。直覺上這是一個退步——流形外的東西更難預測，流形內的東西反而應該更容易。但團隊指出，這個邏輯在擴散模型里是反的：噪聲 ε 分布在高維空間，目標分布極廣，網絡需要一個很強的先驗來"猜測"噪聲的真實值；而 x 就在流形上，是網絡見過的、理解的、可以自然逼近的東西。

為了讓這個樸素的想法在工程上成立，JiT 采用了標準 Vision Transformer，但做了一個看似大膽的調整：patch 尺寸可以非常大——16×16、32×32 甚至 64×64，而不像標準擴散模型那樣在高分辨率下被迫使用極小的 patch。

原因在于：x 在流形上，網絡不需要處理流形外的高維噪聲干擾，因此 patch 大小的增加不會導致信息缺失，也沒有帶來災難性的效果退化。

這是一種返璞歸真，直接預測目標圖像，對傳統認知發起了一次直接挑戰.

JiT模型生成的圖像樣本

JiT 還完全去掉了 VAE Tokenizer，不需要預訓練的潛空間，不需要 GAN 損失或感知損失，就是最樸素的 Transformer 在像素上做去噪。模型規模 86M 參數，從 256 到 1024 分辨率，計算量幾乎不變——只需要調整 patch 大小。這意味著一個原生模型可以在任意分辨率上生成，而不需要借助潛空間的壓縮-解壓機制。

最終結果在 ImageNet 512×512 上實現了 FID 1.78，且 JiT-G 版本在更高分辨率下依然保持了競爭力的 FID。更值得關注的是，這個性能是在沒有任何蒸餾、沒有任何外部模型輔助的前提下從零訓練得到的。

JiT 證明了"讓擴散模型真正做去噪"這件事本身，就足以帶來顯著的質量提升——不需要更多的工程技巧，只需要把預測目標換回那個理所當然卻被忽視了五年的選項。

論文鏈接：https://arxiv.org/abs/2511.13720

ARC：跳出語言模型的舒適圈

ARC是 AI 領域歷史最久的推理能力測試之一，包含數百個"視覺謎題"，要求模型從少數示例中推斷規則并泛化到新樣本。物體對稱、重力方向、顏色連續性、反射變換——這些概念本質上是對物理世界的抽象，本不應該和語言有任何關系。

然而長期以來，整個社區把 ARC 當成了一個語言問題。GPT-4、Claude、Deepseek 幾乎都在 ARC 上刷過榜，原因是 ARC 的任務描述可以自然地翻譯成文字，語言模型恰好擅長這類文字推理。這在工程上無可厚非，但它制造了一個隱性的假設：視覺抽象推理，必須借助語言才能完成。

VARC 要挑戰的正是這個假設。

它把 ARC 任務重新建模為圖像到圖像的翻譯問題，用一個只有 18M 參數的 ViT 從頭訓練，不依賴任何語言能力，在 ARC-1 上達到了單模型 54.5%、集成 60.4% 的準確率。60.4% 是什么水平？人類平均水平是 60.2%，頂級大語言模型也在這個區間。

這意味著，一個參數量只有頂級 LLM 幾千分之一的純視覺模型，在視覺推理任務上達到了與人類相當的水平。

VARC框架的實現路徑也非常直接，沒有把輸入網格直接 token 化，而是使用了“畫布”，將網格嵌入到一個足夠大的預定義畫布（32×32）上，背景用第 11 種顏色填充。然后像處理一張普通圖片一樣，被ViT模型進行端到端的處理。

這帶來一個關鍵效果：token 數量從有限的網格大小擴展到了更大的空間，讓 ViT 的注意力機制有了充足的施展余地，能夠捕捉遠程的視覺關系。

WARC的畫布

另外，測試時訓練（TTT）在推理階段利用測試任務的少量示例做快速微調，是性能逼近人類水平的關鍵——模型不是"記住"了 ARC 的規則，而是在看到新任務時快速學習規則本身。

VARC 的出現給整個 ARC 社區潑了一盆冷水：大家花了大量工程資源在語言模型上刷榜，卻忽視了純視覺方法在這個任務上的潛力。

這個潛力的釋放需要兩個條件：一個足夠大的視覺畫布，以及一個讓模型在推理時繼續學習的機制。一旦這兩個條件被滿足，視覺推理不需要語言模型這件事，變得異常清晰。

論文鏈接： https://arxiv.org/abs/2511.14761

突破歸一化流限制，圖像單步生成加速

歸一化流是生成式建模中歷史最悠久的框架之一。它最大的理論優勢是可以用精確的數學形式同時完成生成和似然估計，訓練過程透明、可解釋，不像擴散模型那樣依賴多次采樣來近似對數似然。但長期以來，它在性能上被擴散模型壓得喘不過氣來。

原因出在兩個結構性約束上。

第一，傳統歸一化流為了保證前向變換的精確可逆性，必須采用受限的網絡架構，無法使用 Transformer 等更強大的序列模型。

第二，逆向過程依賴自回歸因果解碼，每一步必須順序計算，無法并行，生成一張圖的時間成本極高。這兩個約束幾乎從根子上限制了歸一化流在大規模圖像生成上的競爭力。

BiFlow 的解題思路初看有些反直覺：逆向過程不需要是前向過程的精確逆。

前向過程保持可逆，這是數學上的保證，確保分布映射的準確性不受損害；但逆向過程單獨訓練一個獨立的模型來近似逆映射，不要求它在數學上等于前向的解析逆。這個"放棄精確逆"帶來了一個巨大的解放：逆向過程可以使用完全并行的 Transformer 架構，實現真正的單步生成，不再受自回歸解碼的順序瓶頸約束。

但這還不夠。逆向模型單獨訓練，意味著它學到的表示空間可能與前向過程完全不同——兩者可能在不同的隱空間里各說各話。

BiFlow 引入了隱藏層對齊機制，利用前向過程的中間狀態軌跡監督逆向模型，確保兩者在表示空間中對齊，防止逆向模型"跑偏"。對齊之后，逆向模型既能受益于 Transformer 的強大表達能力，又能保持前向過程的分布結構完整。

標準化流與BiFlow的概念對比

最終結果在 ImageNet 256×256 上實現了 FID 2.39，這是歸一化流方法的歷史新紀錄。但更有沖擊力的是速度數據：單張圖像生成時間從 TARFlow 的 0.7 秒縮短到 0.001 秒，加速約 700 倍。

BiFlow與SOTA流模型的效率對比

這不再是理論推演，而是一個可以直接在工程中落地的效率躍遷。歸一化流長期被視為"理論上優美、工程上雞肋"的框架，BiFlow 至少把后半句的錯誤認知打破了。

論文地址：https://arxiv.org/abs/2512.10953

快進生成，無需蒸餾

如果說 BiFlow 是把歸一化流從困境中拉了出來，那么 iMF（Improved Mean Flows）的目標更徹底：把"快進生成"這條路的瓶頸徹底打通。

"快進生成"的核心目標是讓擴散模型用 1 步而不是 250 步完成圖像生成。此前的工業界解法幾乎都依賴蒸餾——用一個大而慢的擴散模型作為"教師"，訓練一個小的"學生"在 1-2 步內近似教師的輸出。蒸餾效果不錯，但代價也明顯：訓練流程極其復雜，學生的性能上限被教師鎖死，一旦教師本身有缺陷，學生無論如何都超不過去。

何愷明團隊在 2025 年 5 月提出了均值流（MeanFlow），首次將"均值速度場"引入生成建模，目標是實現真正的單步高質量生成。方向正確，但初代 MF 有三個系統性的訓練缺陷，導致最終性能距離當時的 SOTA 有明顯差距。ImageNet 256×256 的 FID 停留在 3.43，而最好的擴散模型已經在 1.x 徘徊了。

第一個缺陷是訓練目標的"自依賴"。MF 的訓練目標是"平均速度損失"（u-loss），目標函數里包含了一個由網絡自身輸出推導出的項——這就好比讓一個人預測"自己說的話會造成什么后果"，優化器在閉環里反復震蕩，訓練方差極大，收斂不徹底。

第二個缺陷是引導機制的"死板"。無分類器引導（CFG）是提升生成質量的關鍵技術，但 MF 訓練時把 CFG 強度固定了，推理時用戶無法調節質量-多樣性的權衡——這等于剝奪了生成器最重要的一個調參手段。

第三個缺陷是架構效率的"肥胖"。MF 依賴的 adaLN-zero 機制在處理多條件（時間步 t、類別標簽 c、CFG 強度 ω）時把所有條件向量簡單求和，條件多了之后互相干擾，參數利用率極低。

iMF 成功解決了這三個缺陷目標，通過將訓練目標重新表述為更穩定的瞬時速度損失，同時引入靈活的無分類器指導（CFG）和高效的上下文內條件作用，大幅提升了模型性能。

論文鏈接： https://arxiv.org/abs/2512.02012

針對訓練目標，iMF 利用 MeanFlow 的數學恒等式，將平均速度損失（u-loss）等價轉換為瞬時速度損失（v-loss）。瞬時速度 v 等于網絡在 t 時刻的瞬時導數，它的特點是：目標 v 與網絡自身的輸出完全無關，是一個純粹的標準回歸問題。這個看似簡單的數學變換，把 MF 訓練不穩定的根因直接消除了。

針對 CFG 靈活性，iMF 把 CFG 強度 ω、引導區間 t_min 和 t_max 一起編碼為顯式的條件變量作為額外輸入傳入網絡。訓練時從冪分布中隨機采樣不同引導強度，讓網絡學習不同 CFG 強度下的速度場分布；推理時，用戶可以自由調節 CFG 強度，就像使用普通擴散模型一樣自然。這個設計讓 iMF 支持了 CFG 區間控制——只有當 t 落在某個區間內時才啟用引導，超出區間自動關閉，給了研究者更多調控手段。

針對架構效率，iMF 摒棄了把條件向量求和的粗暴做法，轉而將每類條件轉化為多個可學習的 token，類別 8 個、時間步 4 個、CFG 強度 4 個、引導區間 4 個，與圖像 latent token 沿序列維度拼接后聯合處理。Base 模型參數從 133M 降至 89M，減少了三分之一，同時 FID 反而改善。

iMF 和MF對比圖

三條改進的效果是疊加的。iMF 的消融鏈路清晰地記錄了每一步的貢獻：原 MF 基線 6.17 FID → v-loss 替換 5.68 → 靈活 CFG 4.57 → 多 token 條件 4.09 → Transformer 架構改進 3.39 → 640 epoch 長訓練 1.72。每一步都有據可查，每一步的改善都可以歸因到具體的修改點。

最終 iMF-XL/2 實現了 1-NFE FID 1.72，且這是從零訓練、不依賴任何蒸餾取得的成績。iMF 的 FID 優于所有依賴蒸餾的單步生成方法，包括 FACM-XL/2（蒸餾，FID 1.76）和 DMF-XL/2+（蒸餾，FID 2.16）。擴散模型領域的一個默認假設被打破了：高質量單步生成，不需要蒸餾。

更值得關注的是 2-NFE 時 iMF 的 FID 降至 1.54，已經非常接近主流多步擴散的水平（SiT-XL/2+REPA 為 1.42 @ 數百步）。單步模型與多步模型的性能差距，第一次縮小到了這個量級。

像素監督：從邊緣到正面競爭

自監督視覺預訓練領域近年來有一個明顯的主流敘事：像素空間已經過時，潛空間才是未來。

DINOv3 是這個方向的代表——將圖像通過 VAE Tokenizer 壓縮到低維潛空間，再進行對比學習，在多項視覺任務上達到了 SOTA，逐漸被視為"正確答案"。

這個敘事的隱含前提是：在大規模訓練場景下，像素級自監督天然不如潛空間方法，因為像素空間的高維、冗余、多噪聲特性讓學習效率更低。

Pixo（pixel supervision）要檢驗的正是這個前提。

MAE 已經證明，像素空間的掩碼自編碼器在大規模訓練下是一個簡單而高效的選擇。Pixo 則把這個思路推向極致：在 20 億張網絡爬取圖像上，系統性地探索像素監督的上限，并在預訓練任務、模型架構和訓練策略三個層面對 MAE 做了全面增強。預訓練任務設計得更具挑戰性，架構針對大規模高效訓練做了優化，訓練策略引入了自篩選機制自動過濾低質量數據，最小化人工干預。

Pixio 對 MAE 進行的關鍵更新

結果沒有出現預期的"像素完敗"局面。在深度估計、前饋 3D 重建、語義分割、機器人操控等多個下游任務上，Pixo 與 DINOv3 正面競爭，各有勝負。

這意味著像素監督在大規模場景下并非不如潛空間方法，只是需要更強的任務設計、更大規模的優質數據和更精細的訓練策略。

兩種范式各有其適合的場景：像素監督在需要保留完整視覺細節的任務上可能更有優勢，而潛空間方法在語義理解類任務上更占優。

兩種范式的競爭才剛剛開始，Pixo 的價值在于證明了像素監督的邊界還遠未到達——在 20 億規模的數據上，它依然是一個有力的競爭者，而非被淘汰的遺產。

論文鏈接： https://arxiv.org/abs/2512.15715

結語

盤點完何愷明近期的五篇論文，一個值得深思的問題浮現出來：擴散模型統治圖像生成五年，這個"統治"到底有多扎實？

歸一化流在效率上的結構性缺陷，是可以通過放棄"精確逆"來修復的；

擴散模型的訓練目標不穩定，是可以通過換掉噪聲預測目標來改善的；

單步生成必須依賴蒸餾的假設，是被 iMF 用從零訓練的 FID 1.72 直接打破的。

甚至在視覺推理和自監督學習領域，何愷明團隊也在用最小化的視覺架構挑戰語言模型的傳統領地，而且贏了。他們不是在已有的游戲規則里優化指標，而是在重新定義問題本身的前提。他們用返璞歸真的方式、"大道至簡"的風格提出新的思路，這些思路對于傳統方案來說，是顛覆性的改變。

同時，這五篇論文也反映了他們一個連貫的戰略判斷。擴散模型不是終點，而是某個更高效范式出現之前的過渡階段。流匹配是他們的答案，iMF 和 BiFlow 是這個答案最有力的支撐。他們從底層基礎（歸一化、去噪目標函數、流模型設計）出發，重構視覺生成與理解的理論框架。

接下來的問題是，這個判斷會不會在 2026 年成為整個生成式 AI 領域的共識——而這一次，何愷明的團隊已經把路標立好了。

這次去 CVPR 現場，一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么：把你最關注的10個大會報告，每頁PPT都拍下來

你能獲得什么？

認識大牛：你將可以進入CVPR名師博士社群；

錢多活少：提供豐厚獎金，任務量精簡；

聽會自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR，想邊聽會邊賺錢，還能順便為AI學術社區做貢獻、認識更多大牛，歡迎聯系我們：[添加微信號:MS_Yahei]

【限額5位，先到先得】

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.