<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      阿里開源:用凍結多模態大模型為文生圖訓練提供高質量Reward

      0
      分享至



      本文作者團隊來自阿里巴巴集團,共同第一作者為深度學習研究員劉錦龍和何旺貴,通訊作者為姜浩。

      用強化學習(RL)優化文生圖模型的 prompt following 能力,是一條被廣泛驗證的路徑 —— 讓模型根據 prompt 用不同隨機種子生成多張圖片,通過 reward model 計算 reward,再利用相關 RL 算法優化模型。

      這里面最核心的問題在于:reward 信號從哪來?

      傳統的對齊指標如 CLIP Score 粒度過粗,無法捕捉屬性綁定、空間關系、計數等復雜語義。當前一些開源的 reward 模型(PickScore、ImageReward、HPS v2 等)受限于模型規模和有限的標注數據,難以為最前沿的工業級的文生圖模型提供有效反饋信號。而訓練一個高質量的 reward 模型往往代價不低 —— 需要耗費大量人力和成本進行標注和訓練。

      另一方面,開源社區的多模態大模型(VLM)持續發展,這些模型在預訓練中見過海量圖文數據,本身就具備豐富的圖文對齊知識,是天然的圖文一致性 reward 信號來源。問題在于:如何把這些知識從 VLM 中高效地提取出來作為 reward?

      為此,來自阿里巴巴的研究團隊提出了PromptEcho—— 一種無需任何標注、無需訓練 reward 模型,僅通過凍結 VLM 的一次前向推理就能獲得高質量 reward 的方法。



      • 論文:https://arxiv.org/abs/2604.12652
      • 開源代碼 & 模型權重:https://github.com/roooobotx/prompt_echo

      核心方法:「PromptEcho」

      一個直覺:如果圖畫對了,VLM 就能「復述」出 prompt

      想象一下:你根據 prompt 畫了一幅畫,然后把畫給一位朋友看,然后問他「請描述這幅畫」。如果畫面忠實地描繪了「一只紅色的貓站在藍色的桌子上」,他大概率能準確復述出這些內容。VLM 也是一樣 —— 如果生成圖像忠實遵循了 prompt,VLM 在看到圖像后就能以很高的概率(似然)逐 token 復述出原始 prompt。或者說把 prompt 的內容「回響」(Echo)了回來,而這個復述的對數似然就是我們要找的 reward。

      反過來,如果畫面中貓的顏色搞錯了,或者桌子不見了,VLM 復述出原始 prompt 的概率就會顯著下降,reward 隨之降低。



      圖 1:PromptEcho 流程。給定生成圖像和引導 query,凍結 VLM 在 teacher-forcing 模式下計算原始 prompt 的 token 級交叉熵損失,取負值作為 reward。

      具體而言,PromptEcho 有三個輸入:



      然后,將圖像和 query 輸入凍結的 VLM,在teacher-forcing模式下(即不讓模型自由生成,而是強制輸入 prompt 的每個 token),計算 VLM 對原始 prompt 中每個 token 的預測概率。最終的 reward 就是:



      一句話總結:reward = VLM 看到圖像后,能多大概率「復述」出原始 prompt。

      這個 reward 與 VLM 預訓練的損失函數完全一致,只是優化對象從 VLM 的模型權重變成了文生圖模型生成的圖片。這種一致性正是 PromptEcho 高效的原因,它復用了 VLM 在預訓練中習得的圖文對齊知識。

      為什么不直接讓 VLM 打分?

      一個自然的問題是:既然用的是凍結 VLM,為什么不直接輸入 prompt 和圖片讓 VLM 推理圖文一致性評分做 reward?為了回答這個問題,研究團隊設計了一個對比方法「InferScore」—— 使用同一個凍結 VLM,但讓它以自回歸方式生成對圖文一致性的評分,作為 reward 信號。兩者的區別在于:

      • InferScore:讓 VLM 自回歸生成離散評分 → 受幻覺和采樣隨機性影響,reward 信號不穩定;更關鍵的是,受限于離散打分機制,對于當前最先進的文生圖模型,VLM 經常無法區分同一 prompt 下不同種子生成的多張圖片在 prompt following 程度上的細微差異 —— 很多時候對所有圖片都給出相同分數,導致 reward 信號幾乎失效
      • PromptEcho:通過預訓練損失函數計算連續的對數似然值 → 確定性、無采樣噪聲,天然具備細粒度區分能力

      后續實驗將直接驗證這一點 —— 同樣基于 Qwen3-VL-32B,PromptEcho 全面優于 InferScore。

      實驗

      PromptEcho 在兩個當前最前沿的開源文生圖模型(Z-Image 和 QwenImage-2512)上進行了實驗,使用 Qwen3-VL-32B 作為 reward VLM。

      訓練數據構建。 研究團隊收集了約 10 萬張高質量圖片,使用 Qwen3-VL-32B 配合指令 "Describe this image in detail" 為每張圖片生成約 200–400 詞的詳細描述(dense caption),涵蓋對象、屬性、空間關系、顏色、紋理等多維信息。這些 caption 構成了 RL 訓練的 prompt 集合。

      DenseAlignBench :密集描述場景下對前沿模型的大幅改進

      研究團隊從同源數據中劃出 2000 條不在訓練集中的 caption,構建了DenseAlignBench測試集。該測試集與訓練數據同源同分布,用于直接驗證 PromptEcho 的有效性。使用 Gemini-3-flash-preview 進行成對指令遵循維度的 GSB 評估:



      在密集描述的場景下,PromptEcho 取得了對前沿模型的大幅改進。

      公開 Benchmark:指令遵循能力提升的泛化測試

      需要強調的是,以下公開 benchmark 的測試 prompt 與訓練數據在分布上存在顯著差異 PromptEcho 沒有針對任何 benchmark 做針對性訓練,以下結果完全反映指令遵循能力的泛化提升:



      PromptEcho 在所有公開 benchmark 上均取得了一致的提升,體現了其 reward 信號源自 VLM 海量預訓練數據中的圖文對齊知識,具備跨分布、跨架構的泛化能力。

      Reward VLM 越大越好:Scaling 有效

      為了驗證 VLM 模型本身的質量對 PromptEcho 效果的影響,研究團隊在 Z-Image 上分別使用 Qwen3-VL-32B 和 Qwen3-VL-8B 作為 reward VLM 進行了對比實驗:



      32B 在所有關鍵指標上領先 8B,表明 reward 質量隨 VLM 規模增長。這意味著隨著開源 VLM 持續進化,PromptEcho 的效果上限也會不斷提高。

      PromptEcho vs InferScore

      同樣使用 Qwen3-VL-32B,PromptEcho 和 InferScore 的對比:



      InferScore 在 DenseAlignBench 上甚至不如 baseline。這個驗證了前面的結論:通過預訓練損失函數計算連續對數似然值,遠比讓 VLM 自回歸生成離散評分更可靠。

      文字渲染:通用性驗證

      PromptEcho 作為通用 Reward 范式

      PromptEcho 的核心機制(VLM 交叉熵 reward)并不局限于文生圖模型的指令遵循優化。為了驗證其通用性,研究團隊將其遷移到了一個截然不同的任務:電商海報文字渲染。

      遷移過程中,PromptEcho 的核心計算完全不變,僅需適配兩個輸入:

      • 引導 query:從通用描述(「Describe this image in detail」)改為結構化 OCR 識別 prompt—— 要求 VLM 識別圖中所有設計 / 營銷文字,并按語義角色分類為主標題、副標題、賣點文案、其他文字
      • :從自然語言 caption 改為 JSON 格式的結構化文字標簽(直接從編輯指令中提取)

      經過 PromptEcho 強化學習之后,在 5000 條測試樣本上,海報生成模型全圖文字正確率從68% 提升到 75%(+7pp)。這說明 PromptEcho 是一種通用的 reward 構建范式—— 只需調整引導 query 和標簽格式,同一套機制就能適配不同的圖像生成模型和優化目標,無需為每個新任務重新訓練專用 reward 模型。

      Case 展示

      下圖展示了一些實際的 case: QwenImage-2512(Baseline)與經過 PromptEcho 訓練后的模型在同一 prompt 下的生成對比。QwenImage-2512 作為當前最先進的開源文生圖模型,整體指令遵循能力已經不錯。可以看到,經過 PromptEcho 訓練后,模型在畫面細節、空間關系、對象計數等方面有了進一步的顯著改進。



      圖 2:QwenImage-2512 Baseline vs PromptEcho 生成結果對比。

      總結與展望

      PromptEcho 揭示了一個簡潔而深刻的洞察:VLM 的預訓練損失函數本身就是一個高質量的文圖對齊 reward 信號。 不需要標注數據,不需要訓練 reward 模型,直接利用開源 VLM 的一次前向推理,就能提供高質量的指令遵循 reward 信號。

      這開辟了一條全新的 reward 構建路徑 —— 未來隨著開源社區 VLM 持續改進,PromptEcho 將獲得更高質量的 reward 信號,帶來更好的優化效果。

      為了方便社區的進一步研究,研究團隊已開源代碼、模型權重和 DenseAlignBench 測試集,詳見:https://github.com/roooobotx/prompt_echo。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      世乒賽爆大冷!世界冠軍遭淘汰,張本美和大勝,早田希娜11-0鞠躬致歉引熱議

      世乒賽爆大冷!世界冠軍遭淘汰,張本美和大勝,早田希娜11-0鞠躬致歉引熱議

      好乒乓
      2026-05-07 18:30:05
      警示丨寧夏一男子聚餐飲酒后摔亡!4名酒友賠付16萬元!

      警示丨寧夏一男子聚餐飲酒后摔亡!4名酒友賠付16萬元!

      環球網資訊
      2026-05-07 11:37:24
      特朗普28歲女秘書二胎產女,曾生產4天回歸工作,高調作風陷爭議

      特朗普28歲女秘書二胎產女,曾生產4天回歸工作,高調作風陷爭議

      譯言
      2026-05-08 07:50:18
      孫中山和偉人比誰更勝一籌?其實不用比了:根本不在一個維度!

      孫中山和偉人比誰更勝一籌?其實不用比了:根本不在一個維度!

      潯陽咸魚
      2026-05-06 15:10:04
      斯威士蘭國宴上瓶裝水,姆斯瓦蒂三世穿著寒酸,賴某是送溫暖去了

      斯威士蘭國宴上瓶裝水,姆斯瓦蒂三世穿著寒酸,賴某是送溫暖去了

      溫讀史
      2026-05-07 13:36:43
      毀三觀!體壇 4 大丑聞曝光:貪財好色、婚內出軌,比娛樂圈還亂

      毀三觀!體壇 4 大丑聞曝光:貪財好色、婚內出軌,比娛樂圈還亂

      橙星文娛
      2026-04-27 16:46:45
      夫妻之間,最傷丈夫心的,大多是女人的以下4種行為,基本錯不了!

      夫妻之間,最傷丈夫心的,大多是女人的以下4種行為,基本錯不了!

      熱心市民小黃
      2026-05-07 02:21:09
      母親改嫁到外地15年,沒給過我一分錢,我28歲結婚買房時,銀行卻說:你母親十多年來一直在給你悄悄打款

      母親改嫁到外地15年,沒給過我一分錢,我28歲結婚買房時,銀行卻說:你母親十多年來一直在給你悄悄打款

      LULU生活家
      2026-05-07 15:16:29
      孫穎莎吃黃牌不動搖!賽后馬琳摸頭安慰陪同加練 采訪對自己不滿

      孫穎莎吃黃牌不動搖!賽后馬琳摸頭安慰陪同加練 采訪對自己不滿

      顏小白的籃球夢
      2026-05-08 07:59:35
      斯諾克最新世界排名:吳宜澤創新高,32強中國占10席,常冰玉第48

      斯諾克最新世界排名:吳宜澤創新高,32強中國占10席,常冰玉第48

      球場沒跑道
      2026-05-07 11:43:43
      絕色美人艾梅柏:曾經迷倒德普和馬斯克,如今帶著3個娃“隱居”

      絕色美人艾梅柏:曾經迷倒德普和馬斯克,如今帶著3個娃“隱居”

      小書生吃瓜
      2026-05-02 22:22:47
      寧德市委組織部發布任前公示,6名干部擬任新職

      寧德市委組織部發布任前公示,6名干部擬任新職

      海峽網
      2026-05-06 21:26:16
      出大事了,美軍機被擊落,特朗普惱羞成怒,英法德轉變態度

      出大事了,美軍機被擊落,特朗普惱羞成怒,英法德轉變態度

      史行途
      2026-05-08 06:30:08
      菲律賓打破南海平靜,“戰斧”導彈踏破紅線,中方已備好萬全之策

      菲律賓打破南海平靜,“戰斧”導彈踏破紅線,中方已備好萬全之策

      鐵錘簡科
      2026-05-07 15:11:08
      醫生直言:體檢報告這5項指標正常,身體基本上無大礙,建議了解

      醫生直言:體檢報告這5項指標正常,身體基本上無大礙,建議了解

      熊貓醫學社
      2026-04-03 11:35:03
      放棄40萬鎊周薪!28歲神鋒無球可踢,一年身價狂跌5000萬歐

      放棄40萬鎊周薪!28歲神鋒無球可踢,一年身價狂跌5000萬歐

      銳評利物浦
      2026-05-08 00:30:44
      為弟子出頭,加拿大主帥:德澤爾比是混蛋,科內在馬賽很憋屈

      為弟子出頭,加拿大主帥:德澤爾比是混蛋,科內在馬賽很憋屈

      懂球帝
      2026-05-07 12:09:10
      破案了!時隔四年,賀希寧正面回應當年沈梓捷怒罵

      破案了!時隔四年,賀希寧正面回應當年沈梓捷怒罵

      春日筆記
      2026-05-07 12:05:31
      30+23+22!合同年爆發!活塞的新任二當家...

      30+23+22!合同年爆發!活塞的新任二當家...

      技巧君侃球
      2026-05-07 22:39:39
      成都蓉城VS河南:433強攻,廖力生+歸化國腳坐鎮,最強三叉戟沖鋒

      成都蓉城VS河南:433強攻,廖力生+歸化國腳坐鎮,最強三叉戟沖鋒

      零度眼看球
      2026-05-08 08:42:55
      2026-05-08 10:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12939文章數 142645關注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國商業火箭離SpaceX有多遠?

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯酋被指首次參戰

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯酋被指首次參戰

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      時尚
      健康
      教育
      房產
      軍事航空

      今年母親節,和媽媽一起變漂亮

      干細胞治燒燙傷面臨這些“瓶頸”

      教育要聞

      為啥數理天才一抓一大把,化學天才卻很罕見?

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美成人精品高清在线下载| 国产精品99精品无码视亚| 高潮喷水无遮挡毛片视频| 国产欧美va欧美va香蕉在线观看| 国产成人无码av大片大片在线观看 | 国产视频资源在线观看| 国产一级精品在线免费看| 女同AV在线| 安义县| 国产一级一片内射视频| 欧美高清狂热视频60一70| 欧美日韩久久| JIZZJIZZJIZZ亚洲日本| 久久久亚洲欧洲日产国产成人无码| 亚洲 制服 丝袜 无码| 国产一区二区三区18| 色欲久久久天天天精品综合网| 四虎永久在线精品国产馆V视影院 日韩精品视频在线观看免费 | 色婷婷日日躁夜夜躁| 日日插中文字幕| 欧美ww| 亚洲国产综合自在线另类| 中文字幕国产在线精品| 麻花传媒在线观看免费| 国产亚洲麻豆一二三区| 国产色精品久久人妻| 强奷乱码中文字幕| 苍井空浴缸大战猛男120分钟| 日韩人妻熟女中文字幕aⅴ春菜| 亚洲图片在线| 精品国产av一区二区果冻传媒| 亚洲激情国产一区二区三区| 国内精品久久人妻无码不卡| 九九久久国产精品大片| 国产一区二区爽爽爽视频| 亚洲无码18禁| 在线黄色AV| 久久人人爽人人爽人人片AV麻烦| 97午夜理论电影影院| 国产卡一卡二卡三免费入口| 亚洲sm另类一区二区三区|