<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      BIGAI & 中科大團隊提出 MILR: 測試時隱空間推理,讓圖像生成學會「邊想邊改」丨ICLR 2026

      0
      分享至


      MILR通過在統一圖文潛在空間中進行推理時隱空間推理,在不更新模型參數的情況下同時優化文本和圖像表示,顯著提升復雜圖像生成能力。


      圖1 MILR的隱空間推理過程。黑色實線表示提取待優化的文本和圖像的隱層向量,黑色虛線表示從優化后的潛在向量解碼生成結果。

      近年來,圖像生成經歷了從 GAN 到 Diffusion,再到統一多模態模型(MUG, Multimodal Understanding and Generation)的快速發展。然而,大多數圖像生成模型仍采用“單次生成”的范式:給定文本指令后直接生成圖像,缺乏像大語言模型那樣在測試時進行反思、修正和推理的能力。相比之下,大語言模型已經通過推理機制在復雜任務上展現出顯著提升。一個自然的問題隨之出現:圖像生成模型是否也可以在生成過程中進行“推理式改進”?

      圍繞這一問題,已有工作主要沿著兩個方向展開:

      1. 在語言空間進行推理:通過改寫、擴展或反思 prompt,幫助模型更好地理解用戶指令,例如 Reprompt、Reflect-DiT 等方法;

      2. 在圖像空間進行搜索與篩選:通過多次生成候選圖像,并借助評價器或反饋機制選擇更優結果,例如 Best-of-N、PARM 或反思式生成方法。

      但這些方法通常存在以下局限:

      • 推理發生在單一模態(文本或圖像),難以實現文本理解與視覺生成之間的協同。

      • 依賴額外推理數據或重新訓練模型,開發成本較高。

      • 計算開銷較大,但更多是外部搜索或篩選,并未真正形成模型內部的跨模態推理機制。

      為了解決這一問題,來自中國科學技術大學、北京通用人工智能研究院、北京大學、清華大學和 UCLA 的研究團隊提出了MILR(Multimodal Image generation via test-time Latent Reasoning)。這項工作的核心問題是:能否不重新訓練模型,也不依賴額外推理數據,只在生成時讓模型多“想”幾步?MILR 通過在測試階段優化圖文統一隱空間 (Latent Space),直接調整模型內部的圖文表示,在不更新參數的前提下改進文本理解與圖像結構,從而顯著提升復雜指令下的圖像生成能力。該論文已被ICLR 2026接收。


      論文鏈接:https://arxiv.org/abs/2509.22761

      論文主頁:https://spatigen.github.io/milr.io/

      論文代碼:https://github.com/spatigen/milr

      01

      統一隱空間多模態聯合推理

      MILR 的核心想法很特別:它不直接在文本上推理,也不直接在像素圖像上推理,而是在模型內部的統一圖文隱空間里推理??梢园褕D像生成模型想象成一個從文字到圖像的復雜流水線。用戶輸入一句話后,模型會先把文字轉成內部表示,再逐步生成圖像 token,最后解碼成圖片。傳統方法通常只關注輸入和輸出:要么改輸入 prompt,要么比較輸出圖片。但 MILR 關注的是中間過程,也就是模型內部那些同時承載文字和圖像信息的向量表示。

      在統一多模態生成模型(例如Janus-Pro)中,文本 token 和圖像 token 都可以被映射到同一個潛在向量空間。MILR 認為這個空間本身就可以成為“推理發生的地方”。也就是說,模型不必顯式寫出一長串推理過程,也不必盲目生成很多候選圖,而是可以在內部連續表示上進行優化,讓文本理解和圖像結構一起被調整。

      論文中將這一過程稱為test-time latent reasoning,也就是測試時隱空間推理。它只在推理階段發生,不改變模型參數。換句話說,MILR 不是重新訓練一個更大的模型,而是在已有模型生成圖片時,對中間潛在表示進行幾輪優化。論文明確指出,梯度只回傳到跨模態隱層表示中,也就是模型最后一層的向量中,而不會更新模型權重,因此它是一種真正的test-time推理方法。MILR的方法如圖2所示。


      圖2 MILR框架圖。MILR 在統一隱空間中進行測試時隱空間推理;在獎勵模型的指導下,它使用策略梯度方法迭代優化文本和圖像的潛在表示。獎勵模型會根據給定指令對每次生成的圖像進行評分。

      02


      用獎勵信號指導生成,讓模型知道哪里需要變好

      那么,模型怎么知道自己應該往哪個方向調整?MILR 使用了一個圖像質量或圖文一致性評價信號作為 reward。簡單理解,就是模型先根據當前潛在表示生成圖像,再由評價器判斷這張圖和原始指令是否匹配。如果獎勵更高,說明當前方向更好;如果獎勵較低,就繼續調整潛在表示。技術上,MILR 使用梯度下降REFORENCE算法來優化圖文 token 的向量表征。它不是在離散 token 空間中暴力搜索,而是在連續隱空間中尋找更好的表示。這樣做有一個直接好處:連續空間更適合梯度優化,也更容易同時調整文本理解和視覺結構。

      論文中還特別強調,MILR 不是把所有 token 都一股腦拿來優化。對于文本部分,它只優化一部分前綴 token;對于圖像部分,也只優化少量早期 token。這樣做是因為早期圖像 token 往往決定整體結構,而后續 token 更多影響細節。實驗中,研究團隊發現優化約 20% 的文本 token 和約 2% 的圖像 token,就能取得較好的效果,如圖3所示。這也讓 MILR 更像是在生成前先調整“思路”和“構圖骨架”,而不是事后修修補補。


      圖3 不同文本和圖像優化比例下的 GenEval 得分。

      03


      測試性能達到 SOTA,復雜推理任務提升明顯

      為了驗證 MILR 的效果,研究團隊在三個常用圖像生成基準上進行了測試:GenEval、T2I-CompBench 和 WISE。結果顯示,MILR 在三個基準上都取得了最優表現,在GenEval、T2I-CompBench 和 WISE 上均達到SOTA,如表1,表2所示。



      在 GenEval 上,MILR 對 Janus-Pro-7B 的提升尤其明顯。論文結果顯示,Janus-Pro-7B 原始整體分數為 0.78,加入 MILR 后提升到 0.95;其中 Counting 從 0.56 提升到 0.90,Position 從 0.77 提升到 0.98,Attribute Binding 從 0.64 提升到 0.91。這些指標對應的正是圖像生成里最容易出錯的部分:數量、位置和屬性。比如,模型需要知道“三個球”到底是三個,不是兩個或四個;需要知道“物體 A 在物體 B 上方”這樣的空間關系;還需要把顏色、材質、形狀正確綁定到對應對象上。這些能力不是單純提高圖片清晰度就能解決的,而是更接近“理解指令再生成”。 在 T2I-CompBench 和 WISE 上,MILR 同樣超過了多種非推理模型、訓練式推理模型和測試時推理方法。特別是在 WISE 中,MILR 對 base Janus-Pro-7B 的提升達到 80%,也超過了強訓練式方法 T2I-R1。研究人員同時做了樣例分析如圖4所示,說明了MILR的有效性。


      圖4 MILR定性比較分析。

      04


      MILR的Test Time Scaling和獎勵模型分析

      MILR 的一個重要特點,是可以通過增加測試時計算來提升生成效果。模型不再只是一次性生成圖片,而是在潛在空間里進行多輪優化,每多走一步,就多一次修正內部表示的機會。


      圖5 不同優化步數下,模型在三個基準上的性能表現。

      研究團隊分析了最大優化步數的影響,結果如圖5所示。結果顯示,隨著優化步數增加,MILR 在多個基準上的表現持續提升,并在約 16 步后逐漸趨于穩定,說明圖像生成模型確實可以從測試時計算擴展中受益。

      另一方面,MILR 還需要 reward model 來判斷生成圖像是否更符合指令。直觀來說,reward model 就像一個評分器,告訴模型當前生成結果是變好了還是變差了。在標準 benchmark 上,研究團隊可以使用 evaluator 作為 OracleReward;但在真實應用中,往往不存在這樣一個完美的“標準答案評分器”。因此,論文進一步測試了多種現成 reward model,包括 SelfReward、GPT-4o、UnifiedReward 和 MixedReward,結果如圖6所示。


      圖6 :使用不同獎勵模型時,模型在 GenEval 上的性能表現。

      實驗結果顯示,OracleReward 仍然取得最強表現,這并不意外;但更關鍵的是,即使使用非 oracle reward model,MILR 的整體表現仍然超過 baseline。在非 oracle 設置下,MixedReward 表現最好,說明當沒有完美評價器時,組合多個專用 critic 仍然可以構建出較強的通用獎勵信號。更值得注意的是,在計算量相當的條件下,MILR + MixedReward 仍然優于 Best-of-N + MixedReward。這說明 MILR 的提升并不只是因為“試了更多次”,而是因為它在模型內部的圖文潛在空間中進行了更主動、更結構化的推理式優化。

      05


      未來方向:從“生成圖片”走向“推理生成”

      當然,MILR 仍然有進一步拓展空間。

      1. 當前工作主要基于自回歸式統一多模態生成模型實現,而未來一個自然方向,是將這種測試時潛在推理機制擴展到 diffusion-based 多模態模型中。

      2. 與此同時,reward model 仍然是影響 MILR 表現的關鍵因素。在真實應用中很難獲得完美 reward,因此設計更通用、更可靠的獎勵模型,將是未來提升這類方法的重要方向。

      3.除此之外,MILR 也為圖像生成模型接入外部知識、世界模型或工具系統提供了新的想象空間。由于它優化的是統一圖文潛在表示,未來有望更自然地融合結構化知識、物理約束、空間關系和文化常識。由此看,MILR 的意義不只是提升 benchmark 分數,更在于提出了一條從“一次性作圖”走向“測試時推理生成”的新路徑。

      因此,未來我們不僅要關注模型是否能生成更逼真的圖像、說出更流暢的解釋,還要進一步追問,它是否能夠在圖像空間中完成規劃、維持約束、形成推理。

      06


      作者


      米亞鵬,論文第一作者,就讀于中國科學技術大學博士一年級。其主要研究方向為多模態理解與生成、智能體,圍繞多模態模型、智能體決策與生成式模型等方向在 ICLR、NeurIPS 等國際頂級會議發表論文?,F師從王杰老師攻讀博士學位。

      ——本篇文章論文作者擁有所有權,轉載請聯系論文作者

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      光通信這13家硬核龍頭才是隱形主線,國家隊早已悄悄布局!

      光通信這13家硬核龍頭才是隱形主線,國家隊早已悄悄布局!

      Thurman在昆明
      2026-05-14 16:52:43
      馬斯克:我的兒子正在學習普通話

      馬斯克:我的兒子正在學習普通話

      財聞
      2026-05-14 20:58:22
      91歲楊尚昆晚年感慨:黨內山頭眾多,唯有毛主席能徹底凝聚全黨

      91歲楊尚昆晚年感慨:黨內山頭眾多,唯有毛主席能徹底凝聚全黨

      老謝談史
      2026-05-13 19:50:56
      祝福!48歲全紅嬋母親住院 19歲全妹陪床 有錢了不用再為醫藥費發愁

      祝福!48歲全紅嬋母親住院 19歲全妹陪床 有錢了不用再為醫藥費發愁

      科學發掘
      2026-05-14 19:23:26
      Sommer Ray穿黃色丁字褲比基尼秀身材,自稱"夏日女神"

      Sommer Ray穿黃色丁字褲比基尼秀身材,自稱"夏日女神"

      追星雷達站
      2026-05-14 06:19:14
      何炅工作室回應:沒通知我們啊

      何炅工作室回應:沒通知我們啊

      南方都市報
      2026-05-14 17:49:25
      特朗普已到達北京,美媒突然發現不對勁:中國人怎么完全不興奮了

      特朗普已到達北京,美媒突然發現不對勁:中國人怎么完全不興奮了

      番外行
      2026-05-14 10:57:05
      雷軍主動找馬斯克合影,庫克也來湊熱鬧

      雷軍主動找馬斯克合影,庫克也來湊熱鬧

      鞭牛士
      2026-05-14 19:22:15
      克宮:普京訪華籌備工作已就緒,將于近期公布具體日期

      克宮:普京訪華籌備工作已就緒,將于近期公布具體日期

      環球網資訊
      2026-05-14 19:15:21
      高奢版售價或超10萬元!追覓手機預計今年發布,創始人俞浩揚言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      高奢版售價或超10萬元!追覓手機預計今年發布,創始人俞浩揚言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      大風新聞
      2026-05-14 13:40:08
      重磅!國家正式出手!不生孩子的時代要結束了?

      重磅!國家正式出手!不生孩子的時代要結束了?

      瓜哥的動物日記
      2026-05-14 19:13:53
      射程超過35000公里,俄軍方:可經南極至美國境內目標的“世界上最強大導彈”試射成功

      射程超過35000公里,俄軍方:可經南極至美國境內目標的“世界上最強大導彈”試射成功

      紅星新聞
      2026-05-13 13:21:19
      紀委已明確!公職人員“8小時外”的社交篇 , 這4種行為絕不能碰

      紀委已明確!公職人員“8小時外”的社交篇 , 這4種行為絕不能碰

      細說職場
      2026-05-13 14:18:41
      巴媒:巴基斯坦外長宣布,巴總理夏巴茲將訪華

      巴媒:巴基斯坦外長宣布,巴總理夏巴茲將訪華

      環球網資訊
      2026-05-14 19:15:15
      連續3漲停!603052,最新提示!

      連續3漲停!603052,最新提示!

      證券時報e公司
      2026-05-14 20:26:52
      危言聳聽?博主稱央視若不妥協購買天價世界杯版權將引發公共災難

      危言聳聽?博主稱央視若不妥協購買天價世界杯版權將引發公共災難

      塵語者
      2026-05-14 16:13:55
      45萬“買”煙草局編制?詐騙人員伙同物業員工,帶人進成都市煙草局會議室“面試”,兩年多時間里詐騙36人獲利874萬,主犯獲刑13年6個月

      45萬“買”煙草局編制?詐騙人員伙同物業員工,帶人進成都市煙草局會議室“面試”,兩年多時間里詐騙36人獲利874萬,主犯獲刑13年6個月

      揚子晚報
      2026-05-14 07:28:52
      川普訪華,美國記者在北京席地而坐

      川普訪華,美國記者在北京席地而坐

      浮島余生
      2026-05-14 19:41:39
      50崔智友軍人父親驟逝!老公、女兒罕見現身靈堂,將于14日清晨出殯

      50崔智友軍人父親驟逝!老公、女兒罕見現身靈堂,將于14日清晨出殯

      手工制作阿殲
      2026-05-14 08:53:21
      買得起修不起!4400萬新能源車主被困4S店,車企鎖死代碼壟斷維修

      買得起修不起!4400萬新能源車主被困4S店,車企鎖死代碼壟斷維修

      墨印齋
      2026-05-14 07:40:25
      2026-05-14 21:39:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      手機
      藝術
      家居
      房產
      親子

      手機要聞

      vivo S60預熱開啟,超大面積一體冷雕玻璃

      藝術要聞

      美國務卿魯比奧點贊中式美學,實景令人驚嘆!

      家居要聞

      精神奢享 對話塔尖需求

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      親子要聞

      監控下的幼兒園小可愛,主動幫老師搬桌開門,邏輯超在線

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜福利国产盗摄久久性| 日区中文字幕一区二区| 色综合视频一区二区三区44 | 国内精品视频自在一区| 午夜成人亚洲理伦片在线观看| www.av小说| 亚洲一区二区三区在线观看精品中文| 欧美精品福利| 国产电影一区二区三区| 538精品一区二区三区| 免费人成视网站在线不卡| 成人性生交大片免费看中文| 国产精品一区二区插插插| 福利小电影| 内地自拍三级在线观看| 日韩久久久久久中文人妻| 中文毛片无遮挡播放免费| 免费一级做a爰片性色毛片| 中文字幕无码人妻aaa片| 亚洲av无码专区在线亚| 97超碰碰| 国产成人av| 亚洲女同精品一区二区| 免费jjzz在线播放国产| 麻花传媒在线观看免费| 久久人人97超碰精品| 亚洲黄色一区二区| 成人无遮挡裸免费视频在线观看| 天天干天天色浪潮AV| 欧美一z黄片一区2区| 自拍亚洲一区欧美另类| 日本熟妇色xxxxx| 99精品国产中文字幕| 中文字幕无码视频手机免费看| 高清无码啪啪| 国产精品女熟高潮视频| 国产女高清在线看免费观看| 亚欧乱色精品免费观看| 久久综合婷婷成人网站| 亚洲区视频| 国产精品久久久亚洲|