網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

港大與字節(jié)跳動(dòng)聯(lián)手：讓AI圖像編輯"自我審查"

2026-05-07 20:52:24　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院、字節(jié)跳動(dòng)Seed團(tuán)隊(duì)、深圳環(huán)灣區(qū)具身AI與計(jì)算機(jī)視覺(jué)研究中心以及香港中文大學(xué)聯(lián)合完成的研究，于2026年4月30日以預(yù)印本形式發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.27505v1。感興趣的讀者可以通過(guò)這個(gè)編號(hào)直接檢索原文。

一、"圖片改壞了也不自知"——AI圖像編輯面臨的核心困境

每次你用手機(jī)修圖軟件說(shuō)"把背景換成海邊"，軟件不僅把背景換了，還順手把你的臉色也調(diào)成了沙灘黃，這種令人哭笑不得的經(jīng)歷，其實(shí)折射出一個(gè)深層的技術(shù)難題：AI怎么判斷自己改得好不好？

在當(dāng)今的AI世界里，文字生成圖片（Text-to-Image）已經(jīng)相當(dāng)成熟。研究者們有一套叫做"人類反饋強(qiáng)化學(xué)習(xí)"（RLHF）的訓(xùn)練方法，簡(jiǎn)單說(shuō)就是讓AI根據(jù)人類的喜好進(jìn)行獎(jiǎng)懲式學(xué)習(xí)——做得好就加分，做得差就扣分。這套機(jī)制讓文生圖AI越來(lái)越懂得怎樣討人喜歡。

然而圖像編輯這件事，比憑空畫一張圖要復(fù)雜得多。編輯一張圖不僅要求AI"畫出指令要求的內(nèi)容"，還要求它"保留不該動(dòng)的地方"，同時(shí)還得"整體看起來(lái)自然不別扭"。這三個(gè)要求同時(shí)滿足，難度遠(yuǎn)超簡(jiǎn)單的圖片生成。

更糟糕的是，現(xiàn)有的AI圖像編輯系統(tǒng)缺乏一個(gè)靠譜的"審查員"。大多數(shù)系統(tǒng)要么用一個(gè)通用的AI打一個(gè)總分，就好比讓一個(gè)不懂音樂(lè)的人給交響樂(lè)演奏打分——他可能只會(huì)說(shuō)"聽(tīng)起來(lái)挺響亮的"，卻完全無(wú)法區(qū)分哪個(gè)樂(lè)手跑調(diào)了。這種籠統(tǒng)的評(píng)分方式，導(dǎo)致AI拿到的反饋信號(hào)模糊不清，自然也就學(xué)不到真正有價(jià)值的東西。

面對(duì)這個(gè)困境，來(lái)自港大和字節(jié)跳動(dòng)的研究團(tuán)隊(duì)提出了一個(gè)核心洞見(jiàn)：與其用一個(gè)只會(huì)打總分的裁判，不如培養(yǎng)一個(gè)會(huì)"逐條對(duì)賬"的核查員。他們將這套系統(tǒng)命名為Edit-R1，其中最關(guān)鍵的組件叫做"推理獎(jiǎng)勵(lì)模型"（Reasoning Reward Model，簡(jiǎn)稱RRM）。

二、從"打分員"到"核查員"——Edit-R1的核心思路

Edit-R1的核心哲學(xué)，可以用一個(gè)生活場(chǎng)景來(lái)理解：裝修驗(yàn)收。

當(dāng)你的新房裝修完成，一個(gè)不靠譜的驗(yàn)收員可能只是站在門口看了一眼說(shuō)"感覺(jué)還不錯(cuò)，給85分"。但一個(gè)專業(yè)的驗(yàn)收員會(huì)拿著清單，逐項(xiàng)檢查：墻面有沒(méi)有開(kāi)裂？插座位置對(duì)不對(duì)？水管壓力達(dá)標(biāo)了嗎？地板鋪設(shè)是否平整？每一項(xiàng)都有明確的判斷標(biāo)準(zhǔn)，最終的綜合評(píng)價(jià)建立在每個(gè)細(xì)節(jié)都核查過(guò)的基礎(chǔ)上。

Edit-R1要打造的，正是這樣一個(gè)"專業(yè)驗(yàn)收員"。具體來(lái)說(shuō)，當(dāng)AI編輯完一張圖，這個(gè)驗(yàn)收員會(huì)先把編輯指令拆解成若干條具體原則，然后逐條比對(duì)編輯后的圖片，最后把所有單項(xiàng)結(jié)果匯總成一個(gè)有依據(jù)的綜合得分。

這種方式被研究團(tuán)隊(duì)稱為"鏈?zhǔn)剿伎?（Chain-of-Thought，簡(jiǎn)稱CoT）驗(yàn)證。鏈?zhǔn)剿伎疾⒉皇鞘裁瓷衩丶夹g(shù)，本質(zhì)上就是讓AI在給出結(jié)論之前，先把思考過(guò)程一步步寫出來(lái)，就像數(shù)學(xué)考試要求寫解題過(guò)程一樣。這樣做的好處是，AI給出的每個(gè)判斷都有跡可循，而不是從黑箱里突然蹦出一個(gè)數(shù)字。

這套驗(yàn)證體系把每次圖像編輯分解為三類原則：第一類是"保留"原則，即哪些東西應(yīng)該保持原樣，比如人物的面部特征、背景中的特定元素；第二類是"執(zhí)行"原則，即編輯指令要求改變的內(nèi)容是否確實(shí)完成了，比如顏色是否變了、風(fēng)格是否轉(zhuǎn)換了；第三類是"質(zhì)量"原則，即編輯后的圖片整體視覺(jué)效果是否自然、有沒(méi)有出現(xiàn)奇怪的瑕疵。

三、兩階段訓(xùn)練：先"模仿高手"，再"自我打磨"

知道了要做什么，接下來(lái)的問(wèn)題是怎么訓(xùn)練出這樣一個(gè)核查員。研究團(tuán)隊(duì)設(shè)計(jì)了一套兩階段的訓(xùn)練流程，第一階段打好基礎(chǔ)，第二階段精益求精。

第一階段叫做"冷啟動(dòng)監(jiān)督微調(diào)"（Cold-Start SFT）。顧名思義，就像汽車在冬天需要先預(yù)熱才能順暢行駛，AI也需要一個(gè)冷啟動(dòng)過(guò)程。研究團(tuán)隊(duì)首先準(zhǔn)備了一個(gè)規(guī)模龐大的訓(xùn)練數(shù)據(jù)集——從公開(kāi)的圖像編輯基準(zhǔn)數(shù)據(jù)集中精選了20萬(wàn)個(gè)樣本。這20萬(wàn)個(gè)樣本被分成兩部分：前10萬(wàn)個(gè)是隨機(jī)抽取的，代表各種常見(jiàn)的編輯任務(wù)；后10萬(wàn)個(gè)是專門篩選出來(lái)的"硬核"案例，這些案例往往需要多步驟的視覺(jué)修改、精細(xì)的細(xì)節(jié)處理，或者需要理解隱含的語(yǔ)義信息，總之就是那些容易讓AI犯錯(cuò)的棘手情況。

為了生成訓(xùn)練數(shù)據(jù)，研究團(tuán)隊(duì)調(diào)用了多個(gè)圖像編輯模型（包括Flux-Kontext、Bagel、SeedEdit3.0等）對(duì)這些樣本進(jìn)行編輯，生成了約200萬(wàn)個(gè)"四元組"數(shù)據(jù)，每個(gè)四元組包含原始圖片、編輯指令、分解后的原則集合，以及一張編輯后的圖片。接下來(lái)，他們用多個(gè)大型視覺(jué)語(yǔ)言模型對(duì)這些四元組進(jìn)行"鏈?zhǔn)剿伎?打分，通過(guò)改變提示詞、調(diào)整采樣溫度、使用不同的AI變體等方式，為每個(gè)四元組生成多個(gè)不同的"思考+評(píng)分"候選版本。

關(guān)鍵的一步在于如何篩選出質(zhì)量最高的訓(xùn)練樣本。研究團(tuán)隊(duì)引入了另一個(gè)AI充當(dāng)"質(zhì)量控制官"——由SeedVLM-1.5擔(dān)任，對(duì)每個(gè)候選的推理鏈條進(jìn)行獨(dú)立驗(yàn)證，計(jì)算出每條推理鏈對(duì)各個(gè)原則的判斷準(zhǔn)確率，然后選取準(zhǔn)確率最高的那個(gè)版本作為最終的訓(xùn)練數(shù)據(jù)。這個(gè)過(guò)程就好比組織一次作文競(jìng)賽，多位學(xué)生針對(duì)同一道題寫解題過(guò)程，然后由老師批改，選出邏輯最嚴(yán)密、答案最準(zhǔn)確的那篇作為范文供其他人學(xué)習(xí)。

經(jīng)過(guò)第一階段訓(xùn)練的模型已經(jīng)具備了相當(dāng)不錯(cuò)的推理和評(píng)分能力，但研究團(tuán)隊(duì)發(fā)現(xiàn)它還有明顯的局限性：有時(shí)候會(huì)產(chǎn)生"幻覺(jué)"——比如明明一個(gè)物體只是略微移動(dòng)了一點(diǎn)點(diǎn)，它卻聲稱指令已經(jīng)完全完成；有時(shí)候又會(huì)過(guò)于主觀，判斷結(jié)果與人類的真實(shí)偏好存在偏差。

于是第二階段登場(chǎng)了，這就是研究團(tuán)隊(duì)提出的全新算法——"群體對(duì)比偏好優(yōu)化"（Group Contrastive Preference Optimization，簡(jiǎn)稱GCPO）。

四、GCPO：用"擂臺(tái)賽積分制"來(lái)訓(xùn)練AI的審美觀

GCPO的設(shè)計(jì)思路，可以用一個(gè)體育賽事來(lái)理解——不妨把它想象成一場(chǎng)乒乓球循環(huán)賽的積分制度。

在傳統(tǒng)的AI訓(xùn)練中，人類標(biāo)注員會(huì)給出兩張圖片，說(shuō)"這張比那張好"（A>B）。這種"一對(duì)一比較"的數(shù)據(jù)很常見(jiàn)，但它有一個(gè)內(nèi)在的麻煩：這個(gè)核查員AI本身是一個(gè)"按步驟思考然后給出評(píng)分"的系統(tǒng)，每次評(píng)分都會(huì)帶有一定的隨機(jī)性，同一張圖片兩次打分可能稍有不同。如何把這種"每次打分結(jié)果不完全一樣"的特性，與人類提供的"A比B好"這種確定性判斷協(xié)調(diào)起來(lái)？這是一個(gè)技術(shù)難題。

GCPO的解法是：對(duì)每張圖片進(jìn)行多次獨(dú)立打分，然后通過(guò)"跨組競(jìng)爭(zhēng)"來(lái)計(jì)算每次打分的獎(jiǎng)勵(lì)信號(hào)。

具體操作是這樣的：研究團(tuán)隊(duì)準(zhǔn)備了約1萬(wàn)組由人工標(biāo)注的偏好對(duì)（即人類判斷哪張編輯得更好）。對(duì)于每一對(duì)圖片，讓核查員AI分別對(duì)兩張圖片各生成N個(gè)打分結(jié)果。然后進(jìn)行一場(chǎng)"循環(huán)賽"：把"更好"那張圖的每一個(gè)打分結(jié)果，都和"更差"那張圖的每一個(gè)打分結(jié)果進(jìn)行比較，統(tǒng)計(jì)"更好"那張圖的打分比"更差"那張圖高的比例，這個(gè)比例就是這次打分的"勝率獎(jiǎng)勵(lì)"。對(duì)稱地，"更差"那張圖的每次打分能比"更好"那張圖低的比例，就是它的"敗率獎(jiǎng)勵(lì)"。

有了這些獎(jiǎng)勵(lì)數(shù)值之后，再在各自的打分組內(nèi)部計(jì)算"相對(duì)表現(xiàn)"——比如在對(duì)"更好"圖片的N次打分中，某次打分如果高于平均水平，就給正向激勵(lì)，低于平均水平就給負(fù)向抑制。這個(gè)"組內(nèi)相對(duì)表現(xiàn)"就是所謂的"優(yōu)勢(shì)值"（Advantage）。

這套機(jī)制的精妙之處在于，它巧妙地將"哪張圖比較好"的人類判斷，轉(zhuǎn)化成了對(duì)AI核查員自身推理過(guò)程的直接訓(xùn)練信號(hào)，同時(shí)通過(guò)多次采樣平均掉了單次打分的隨機(jī)噪聲。整個(gè)過(guò)程只需要1萬(wàn)組人類標(biāo)注數(shù)據(jù)，還不到第一階段訓(xùn)練數(shù)據(jù)量的1%，卻能帶來(lái)顯著的性能提升。

從訓(xùn)練過(guò)程的曲線來(lái)看，經(jīng)過(guò)GCPO訓(xùn)練的核查員AI會(huì)逐漸養(yǎng)成一個(gè)有趣的習(xí)慣：對(duì)于正確的判斷，它會(huì)生成更長(zhǎng)的推理鏈條，把證據(jù)分析得更仔細(xì)；這從某種意義上說(shuō)明AI學(xué)會(huì)了"謹(jǐn)慎"——不輕易下結(jié)論，而是把每個(gè)細(xì)節(jié)都想清楚再給分。

五、把"核查員"變成"教練"——用獎(jiǎng)勵(lì)模型來(lái)提升編輯模型

有了一個(gè)靠譜的核查員之后，第二個(gè)大問(wèn)題隨之而來(lái)：怎么用它來(lái)提升負(fù)責(zé)編輯圖片的AI？

這里有一個(gè)技術(shù)上的難點(diǎn)：傳統(tǒng)的某些訓(xùn)練方法（如REFL）要求獎(jiǎng)勵(lì)模型的打分過(guò)程對(duì)訓(xùn)練過(guò)程"透明可微"，就好比教練不僅要告訴運(yùn)動(dòng)員"你跳高沒(méi)跳過(guò)去"，還要能精確指出"你起跳時(shí)左腳用力角度差了2度"——需要能夠精確計(jì)算影響因子。然而Edit-RRM是一個(gè)"先思考再打分"的系統(tǒng)，其推理過(guò)程是通過(guò)逐字生成文本來(lái)實(shí)現(xiàn)的，這個(gè)過(guò)程在數(shù)學(xué)上是不可微分的，就像你沒(méi)法對(duì)"寫日記"這個(gè)過(guò)程求導(dǎo)數(shù)一樣。

研究團(tuán)隊(duì)因此采用了一種叫做GRPO（Group Relative Policy Optimization，群體相對(duì)策略優(yōu)化）的強(qiáng)化學(xué)習(xí)算法，這套方法不需要獎(jiǎng)勵(lì)信號(hào)可微，只需要它能輸出一個(gè)數(shù)字就夠了。

訓(xùn)練過(guò)程是這樣運(yùn)作的：編輯模型在面對(duì)一個(gè)圖像編輯任務(wù)時(shí)，會(huì)同時(shí)生成一批不同的編輯結(jié)果（研究中設(shè)置為24張）。核查員對(duì)每張結(jié)果進(jìn)行評(píng)分，然后計(jì)算每張結(jié)果的相對(duì)排名——在這批24張圖中，某張圖的分?jǐn)?shù)高于平均就得到正向激勵(lì)，低于平均就受到負(fù)向約束。與此同時(shí)，還設(shè)置了一個(gè)KL散度懲罰項(xiàng)，防止編輯模型的輸出風(fēng)格變化過(guò)大，就好比給運(yùn)動(dòng)員訓(xùn)練時(shí)設(shè)置了一個(gè)"不能偏離基本姿勢(shì)太遠(yuǎn)"的約束，避免過(guò)度優(yōu)化反而走形。

研究團(tuán)隊(duì)將Edit-R1應(yīng)用到了兩個(gè)當(dāng)前最先進(jìn)的開(kāi)源圖像編輯模型上：FLUX.Kontext和Qwen-Image-Edit，以此驗(yàn)證這套框架的實(shí)際效果。

六、實(shí)驗(yàn)結(jié)果：核查員越嚴(yán)格，編輯效果越好

研究團(tuán)隊(duì)從兩個(gè)角度評(píng)估了Edit-R1的效果：一是核查員本身的準(zhǔn)確性，二是被核查員訓(xùn)練過(guò)的編輯模型的實(shí)際水平。

在核查員的評(píng)估上，研究團(tuán)隊(duì)構(gòu)建了一個(gè)內(nèi)部測(cè)試基準(zhǔn)，包含5000個(gè)經(jīng)過(guò)人工標(biāo)注偏好的圖像編輯對(duì)。測(cè)試結(jié)果顯示，完整訓(xùn)練出來(lái)的7B參數(shù)（70億參數(shù)）版本核查員達(dá)到了82.22%的準(zhǔn)確率，這意味著在100次人類評(píng)判中，這個(gè)核查員能與人類意見(jiàn)吻合超過(guò)82次。這個(gè)成績(jī)明顯超過(guò)了Seed-1.5-VL（79.3%）和Seed-1.6-VL（77.2%）這兩個(gè)強(qiáng)大的商用API——值得注意的是，這兩個(gè)都是字節(jié)跳動(dòng)自家的強(qiáng)力視覺(jué)語(yǔ)言模型，能超過(guò)它們實(shí)屬不易。

在公開(kāi)的獨(dú)立測(cè)試基準(zhǔn)EditRewardBench上，這種優(yōu)勢(shì)依然存在。競(jìng)品EditScore-7B的準(zhǔn)確率是65.9%（即便使用推理擴(kuò)展技術(shù)也只能達(dá)到72.7%），而Edit-RRM僅憑第一階段的監(jiān)督微調(diào)就達(dá)到了73.3%，加入GCPO后進(jìn)一步提升到78.2%。由于EditRewardBench是獨(dú)立構(gòu)建的，與研究團(tuán)隊(duì)的內(nèi)部流程完全不相關(guān)，這個(gè)結(jié)果可以有效排除"內(nèi)部測(cè)試偏向"的質(zhì)疑。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有意義的規(guī)律：核查員規(guī)模越大，效果越好——3B參數(shù)版本和7B參數(shù)版本之間存在明顯的性能差距，展示出清晰的"參數(shù)規(guī)模擴(kuò)展效益"。

在訓(xùn)練動(dòng)態(tài)上有一個(gè)反直覺(jué)的現(xiàn)象值得一提：經(jīng)過(guò)GCPO訓(xùn)練的核查員（RL-RRM）在給編輯模型訓(xùn)練時(shí)，提供的"訓(xùn)練獎(jiǎng)勵(lì)"反而比未經(jīng)GCPO訓(xùn)練的版本（SFT-RRM）更低，但"測(cè)試獎(jiǎng)勵(lì)"卻更高。這說(shuō)明GCPO把核查員訓(xùn)練得更加嚴(yán)格，它不會(huì)隨隨便便給高分——正是這種嚴(yán)格反而倒逼編輯模型做得更好。

在對(duì)編輯模型的提升效果上，以FLUX.Kontext為例，經(jīng)過(guò)Edit-R1框架訓(xùn)練后，其綜合得分（Overall Score）從5.77提升到了6.24，語(yǔ)義一致性得分（Semantic Consistency）從6.27躍升至6.86。在最具挑戰(zhàn)性的"動(dòng)作變化"類別（如讓靜止的貓變成奔跑狀態(tài)）上，相對(duì)提升幅度達(dá)到了15.2%（從4.01提升到4.62）。在人工評(píng)測(cè)中，使用了Edit-R1框架訓(xùn)練的FLUX.Kontext的GSB得分達(dá)到了+23.2，意味著人類評(píng)審認(rèn)為它明顯優(yōu)于原始版本。

對(duì)于已經(jīng)相當(dāng)強(qiáng)大的Qwen-Edit模型，整體提升幅度較小（綜合得分從7.45提升到7.50），這主要是因?yàn)樵撃Ｐ捅旧硪呀?jīng)受益于大量的Best-of-N采樣優(yōu)化。但即便如此，在"動(dòng)作變化"這類難度極高的任務(wù)上，Edit-R1依然帶來(lái)了顯著改善。

定性結(jié)果同樣令人印象深刻。在"顏色更改"任務(wù)中，Edit-R1能夠精確地只修改目標(biāo)物體的顏色，而不會(huì)引發(fā)全圖的色調(diào)變化；在"物體添加/刪除"任務(wù)中，基線模型往往無(wú)法準(zhǔn)確理解指令，而Edit-R1訓(xùn)練過(guò)的模型能夠正確執(zhí)行；在"材質(zhì)替換"（比如把小狗變成粘土質(zhì)感）和"動(dòng)作變更"（比如讓飛機(jī)處于起飛狀態(tài)）等復(fù)雜任務(wù)上，改進(jìn)效果尤為明顯。

七、一個(gè)具體案例：RRM如何抓住"帽子顏色走偏"的錯(cuò)誤

研究團(tuán)隊(duì)在論文中展示了一個(gè)生動(dòng)的失敗矯正案例，可以直觀地理解Edit-R1整個(gè)系統(tǒng)的運(yùn)作邏輯。

任務(wù)是：給一個(gè)卡通小女孩的短袖上衣改成紅色，同時(shí)保留她的藍(lán)色帽子、雙麻花辮、淺棕色下裝以及背景中的綠色葉片和石頭。

在僅使用第一階段監(jiān)督微調(diào)的SFT模型輸出中，有一張"失敗樣本"：上衣確實(shí)變成了紅色，但帽子也跟著變成了紅色——屬于典型的"屬性擴(kuò)散"錯(cuò)誤，改了不該改的東西。

核查員AI（RRM）對(duì)這張失敗圖片逐條進(jìn)行了原則核查，在檢查"帽子是否保留了原來(lái)的淺藍(lán)色風(fēng)格"這一條時(shí)，給出了0分（未通過(guò)），并在推理過(guò)程中明確指出了這個(gè)問(wèn)題。這個(gè)精確的扣分信號(hào)通過(guò)強(qiáng)化學(xué)習(xí)傳導(dǎo)給了編輯模型，使其在后續(xù)訓(xùn)練中學(xué)會(huì)了"只改上衣顏色，不影響帽子顏色"。

經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后，該模型的"成功樣本"完美地完成了任務(wù)：上衣變紅，帽子依然是藍(lán)色，其他所有細(xì)節(jié)都保持原樣。RRM對(duì)這張圖片的每一條原則都給出了1分（通過(guò)），最終得出滿意的綜合評(píng)價(jià)。

這個(gè)案例清晰地展示了從籠統(tǒng)打分到逐條核查的范式轉(zhuǎn)變帶來(lái)的實(shí)際價(jià)值——正是那一條針對(duì)帽子顏色的精確扣分，讓AI學(xué)會(huì)了區(qū)分"該改的"和"不該改的"。

說(shuō)到底，Edit-R1做的事情，就是給AI圖像編輯系統(tǒng)安裝了一套"逐條對(duì)賬"的質(zhì)檢系統(tǒng)，而不是簡(jiǎn)單地"看一眼打個(gè)分"。這套質(zhì)檢系統(tǒng)不僅自己越來(lái)越準(zhǔn)（超過(guò)了商用大模型API的判斷準(zhǔn)確率），還能有效地督促負(fù)責(zé)編輯圖片的AI做得更好。

這對(duì)于普通用戶意味著什么？短期來(lái)看，受益于這類研究，圖像編輯軟件會(huì)變得更聽(tīng)話——你讓它只改顏色，它就只改顏色；你讓它換背景，它就不會(huì)順手動(dòng)你的臉。長(zhǎng)期來(lái)看，這種"把大任務(wù)拆成小任務(wù)逐條核查"的思路，可能會(huì)成為讓AI在各類復(fù)雜任務(wù)中做得更精確的通用方法論。

值得思考的是，當(dāng)AI擁有了越來(lái)越精準(zhǔn)的自我評(píng)判能力，我們是否需要重新考慮"什么叫做一張編輯得好的照片"？畢竟，AI的判斷標(biāo)準(zhǔn)來(lái)自于人類的標(biāo)注數(shù)據(jù)，而人類的審美本身也在不斷變化。感興趣的讀者可以通過(guò)arXiv上的論文編號(hào)2604.27505進(jìn)一步探索這個(gè)研究的技術(shù)細(xì)節(jié)。

Q&A

Q1：Edit-RRM和普通打分AI有什么區(qū)別？

A：普通打分AI通常只看一眼圖片就輸出一個(gè)總分，無(wú)法說(shuō)明哪里好哪里不好。Edit-RRM則會(huì)先把編輯指令拆解成若干條具體原則，比如"顏色是否改變了"、"背景是否保留了"、"整體質(zhì)量是否自然"，逐條核查后再綜合出最終分?jǐn)?shù)，這樣每個(gè)判斷都有明確依據(jù)，評(píng)分結(jié)果也更接近人類的真實(shí)判斷。

Q2：GCPO算法為什么只需要1萬(wàn)條人類標(biāo)注數(shù)據(jù)就能有效果？

A：GCPO的核心是對(duì)每張圖片生成多次獨(dú)立評(píng)分，然后通過(guò)"跨組比較"把人類的偏好判斷（A比B好）轉(zhuǎn)化成具體的獎(jiǎng)勵(lì)信號(hào)。多次采樣平均掉了單次打分的隨機(jī)性，使得每條人類標(biāo)注數(shù)據(jù)能提供更豐富的訓(xùn)練信號(hào)。因此哪怕只有1萬(wàn)條數(shù)據(jù)，也能有效精準(zhǔn)地調(diào)整模型的判斷偏好。

Q3：Edit-R1框架可以用在哪些圖像編輯軟件上？

A：Edit-R1是一個(gè)通用的訓(xùn)練框架，研究團(tuán)隊(duì)已經(jīng)成功將其應(yīng)用于FLUX.Kontext和Qwen-Image-Edit兩個(gè)開(kāi)源圖像編輯模型，均取得了明顯改進(jìn)。理論上，任何基于流匹配或擴(kuò)散模型的圖像編輯系統(tǒng)都可以接入這套框架，只要其生成過(guò)程支持GRPO算法所需的采樣和優(yōu)化操作即可。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.