<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      港大與字節(jié)跳動(dòng)聯(lián)手:讓AI圖像編輯"自我審查"

      0
      分享至


      這項(xiàng)由香港大學(xué)計(jì)算與數(shù)據(jù)科學(xué)學(xué)院、字節(jié)跳動(dòng)Seed團(tuán)隊(duì)、深圳環(huán)灣區(qū)具身AI與計(jì)算機(jī)視覺(jué)研究中心以及香港中文大學(xué)聯(lián)合完成的研究,于2026年4月30日以預(yù)印本形式發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.27505v1。感興趣的讀者可以通過(guò)這個(gè)編號(hào)直接檢索原文。

      一、"圖片改壞了也不自知"——AI圖像編輯面臨的核心困境

      每次你用手機(jī)修圖軟件說(shuō)"把背景換成海邊",軟件不僅把背景換了,還順手把你的臉色也調(diào)成了沙灘黃,這種令人哭笑不得的經(jīng)歷,其實(shí)折射出一個(gè)深層的技術(shù)難題:AI怎么判斷自己改得好不好?

      在當(dāng)今的AI世界里,文字生成圖片(Text-to-Image)已經(jīng)相當(dāng)成熟。研究者們有一套叫做"人類反饋強(qiáng)化學(xué)習(xí)"(RLHF)的訓(xùn)練方法,簡(jiǎn)單說(shuō)就是讓AI根據(jù)人類的喜好進(jìn)行獎(jiǎng)懲式學(xué)習(xí)——做得好就加分,做得差就扣分。這套機(jī)制讓文生圖AI越來(lái)越懂得怎樣討人喜歡。

      然而圖像編輯這件事,比憑空畫一張圖要復(fù)雜得多。編輯一張圖不僅要求AI"畫出指令要求的內(nèi)容",還要求它"保留不該動(dòng)的地方",同時(shí)還得"整體看起來(lái)自然不別扭"。這三個(gè)要求同時(shí)滿足,難度遠(yuǎn)超簡(jiǎn)單的圖片生成。

      更糟糕的是,現(xiàn)有的AI圖像編輯系統(tǒng)缺乏一個(gè)靠譜的"審查員"。大多數(shù)系統(tǒng)要么用一個(gè)通用的AI打一個(gè)總分,就好比讓一個(gè)不懂音樂(lè)的人給交響樂(lè)演奏打分——他可能只會(huì)說(shuō)"聽(tīng)起來(lái)挺響亮的",卻完全無(wú)法區(qū)分哪個(gè)樂(lè)手跑調(diào)了。這種籠統(tǒng)的評(píng)分方式,導(dǎo)致AI拿到的反饋信號(hào)模糊不清,自然也就學(xué)不到真正有價(jià)值的東西。

      面對(duì)這個(gè)困境,來(lái)自港大和字節(jié)跳動(dòng)的研究團(tuán)隊(duì)提出了一個(gè)核心洞見(jiàn):與其用一個(gè)只會(huì)打總分的裁判,不如培養(yǎng)一個(gè)會(huì)"逐條對(duì)賬"的核查員。他們將這套系統(tǒng)命名為Edit-R1,其中最關(guān)鍵的組件叫做"推理獎(jiǎng)勵(lì)模型"(Reasoning Reward Model,簡(jiǎn)稱RRM)。

      二、從"打分員"到"核查員"——Edit-R1的核心思路

      Edit-R1的核心哲學(xué),可以用一個(gè)生活場(chǎng)景來(lái)理解:裝修驗(yàn)收。

      當(dāng)你的新房裝修完成,一個(gè)不靠譜的驗(yàn)收員可能只是站在門口看了一眼說(shuō)"感覺(jué)還不錯(cuò),給85分"。但一個(gè)專業(yè)的驗(yàn)收員會(huì)拿著清單,逐項(xiàng)檢查:墻面有沒(méi)有開(kāi)裂?插座位置對(duì)不對(duì)?水管壓力達(dá)標(biāo)了嗎?地板鋪設(shè)是否平整?每一項(xiàng)都有明確的判斷標(biāo)準(zhǔn),最終的綜合評(píng)價(jià)建立在每個(gè)細(xì)節(jié)都核查過(guò)的基礎(chǔ)上。

      Edit-R1要打造的,正是這樣一個(gè)"專業(yè)驗(yàn)收員"。具體來(lái)說(shuō),當(dāng)AI編輯完一張圖,這個(gè)驗(yàn)收員會(huì)先把編輯指令拆解成若干條具體原則,然后逐條比對(duì)編輯后的圖片,最后把所有單項(xiàng)結(jié)果匯總成一個(gè)有依據(jù)的綜合得分。

      這種方式被研究團(tuán)隊(duì)稱為"鏈?zhǔn)剿伎?(Chain-of-Thought,簡(jiǎn)稱CoT)驗(yàn)證。鏈?zhǔn)剿伎疾⒉皇鞘裁瓷衩丶夹g(shù),本質(zhì)上就是讓AI在給出結(jié)論之前,先把思考過(guò)程一步步寫出來(lái),就像數(shù)學(xué)考試要求寫解題過(guò)程一樣。這樣做的好處是,AI給出的每個(gè)判斷都有跡可循,而不是從黑箱里突然蹦出一個(gè)數(shù)字。

      這套驗(yàn)證體系把每次圖像編輯分解為三類原則:第一類是"保留"原則,即哪些東西應(yīng)該保持原樣,比如人物的面部特征、背景中的特定元素;第二類是"執(zhí)行"原則,即編輯指令要求改變的內(nèi)容是否確實(shí)完成了,比如顏色是否變了、風(fēng)格是否轉(zhuǎn)換了;第三類是"質(zhì)量"原則,即編輯后的圖片整體視覺(jué)效果是否自然、有沒(méi)有出現(xiàn)奇怪的瑕疵。

      三、兩階段訓(xùn)練:先"模仿高手",再"自我打磨"

      知道了要做什么,接下來(lái)的問(wèn)題是怎么訓(xùn)練出這樣一個(gè)核查員。研究團(tuán)隊(duì)設(shè)計(jì)了一套兩階段的訓(xùn)練流程,第一階段打好基礎(chǔ),第二階段精益求精。

      第一階段叫做"冷啟動(dòng)監(jiān)督微調(diào)"(Cold-Start SFT)。顧名思義,就像汽車在冬天需要先預(yù)熱才能順暢行駛,AI也需要一個(gè)冷啟動(dòng)過(guò)程。研究團(tuán)隊(duì)首先準(zhǔn)備了一個(gè)規(guī)模龐大的訓(xùn)練數(shù)據(jù)集——從公開(kāi)的圖像編輯基準(zhǔn)數(shù)據(jù)集中精選了20萬(wàn)個(gè)樣本。這20萬(wàn)個(gè)樣本被分成兩部分:前10萬(wàn)個(gè)是隨機(jī)抽取的,代表各種常見(jiàn)的編輯任務(wù);后10萬(wàn)個(gè)是專門篩選出來(lái)的"硬核"案例,這些案例往往需要多步驟的視覺(jué)修改、精細(xì)的細(xì)節(jié)處理,或者需要理解隱含的語(yǔ)義信息,總之就是那些容易讓AI犯錯(cuò)的棘手情況。

      為了生成訓(xùn)練數(shù)據(jù),研究團(tuán)隊(duì)調(diào)用了多個(gè)圖像編輯模型(包括Flux-Kontext、Bagel、SeedEdit3.0等)對(duì)這些樣本進(jìn)行編輯,生成了約200萬(wàn)個(gè)"四元組"數(shù)據(jù),每個(gè)四元組包含原始圖片、編輯指令、分解后的原則集合,以及一張編輯后的圖片。接下來(lái),他們用多個(gè)大型視覺(jué)語(yǔ)言模型對(duì)這些四元組進(jìn)行"鏈?zhǔn)剿伎?打分,通過(guò)改變提示詞、調(diào)整采樣溫度、使用不同的AI變體等方式,為每個(gè)四元組生成多個(gè)不同的"思考+評(píng)分"候選版本。

      關(guān)鍵的一步在于如何篩選出質(zhì)量最高的訓(xùn)練樣本。研究團(tuán)隊(duì)引入了另一個(gè)AI充當(dāng)"質(zhì)量控制官"——由SeedVLM-1.5擔(dān)任,對(duì)每個(gè)候選的推理鏈條進(jìn)行獨(dú)立驗(yàn)證,計(jì)算出每條推理鏈對(duì)各個(gè)原則的判斷準(zhǔn)確率,然后選取準(zhǔn)確率最高的那個(gè)版本作為最終的訓(xùn)練數(shù)據(jù)。這個(gè)過(guò)程就好比組織一次作文競(jìng)賽,多位學(xué)生針對(duì)同一道題寫解題過(guò)程,然后由老師批改,選出邏輯最嚴(yán)密、答案最準(zhǔn)確的那篇作為范文供其他人學(xué)習(xí)。

      經(jīng)過(guò)第一階段訓(xùn)練的模型已經(jīng)具備了相當(dāng)不錯(cuò)的推理和評(píng)分能力,但研究團(tuán)隊(duì)發(fā)現(xiàn)它還有明顯的局限性:有時(shí)候會(huì)產(chǎn)生"幻覺(jué)"——比如明明一個(gè)物體只是略微移動(dòng)了一點(diǎn)點(diǎn),它卻聲稱指令已經(jīng)完全完成;有時(shí)候又會(huì)過(guò)于主觀,判斷結(jié)果與人類的真實(shí)偏好存在偏差。

      于是第二階段登場(chǎng)了,這就是研究團(tuán)隊(duì)提出的全新算法——"群體對(duì)比偏好優(yōu)化"(Group Contrastive Preference Optimization,簡(jiǎn)稱GCPO)。

      四、GCPO:用"擂臺(tái)賽積分制"來(lái)訓(xùn)練AI的審美觀

      GCPO的設(shè)計(jì)思路,可以用一個(gè)體育賽事來(lái)理解——不妨把它想象成一場(chǎng)乒乓球循環(huán)賽的積分制度。

      在傳統(tǒng)的AI訓(xùn)練中,人類標(biāo)注員會(huì)給出兩張圖片,說(shuō)"這張比那張好"(A>B)。這種"一對(duì)一比較"的數(shù)據(jù)很常見(jiàn),但它有一個(gè)內(nèi)在的麻煩:這個(gè)核查員AI本身是一個(gè)"按步驟思考然后給出評(píng)分"的系統(tǒng),每次評(píng)分都會(huì)帶有一定的隨機(jī)性,同一張圖片兩次打分可能稍有不同。如何把這種"每次打分結(jié)果不完全一樣"的特性,與人類提供的"A比B好"這種確定性判斷協(xié)調(diào)起來(lái)?這是一個(gè)技術(shù)難題。

      GCPO的解法是:對(duì)每張圖片進(jìn)行多次獨(dú)立打分,然后通過(guò)"跨組競(jìng)爭(zhēng)"來(lái)計(jì)算每次打分的獎(jiǎng)勵(lì)信號(hào)。

      具體操作是這樣的:研究團(tuán)隊(duì)準(zhǔn)備了約1萬(wàn)組由人工標(biāo)注的偏好對(duì)(即人類判斷哪張編輯得更好)。對(duì)于每一對(duì)圖片,讓核查員AI分別對(duì)兩張圖片各生成N個(gè)打分結(jié)果。然后進(jìn)行一場(chǎng)"循環(huán)賽":把"更好"那張圖的每一個(gè)打分結(jié)果,都和"更差"那張圖的每一個(gè)打分結(jié)果進(jìn)行比較,統(tǒng)計(jì)"更好"那張圖的打分比"更差"那張圖高的比例,這個(gè)比例就是這次打分的"勝率獎(jiǎng)勵(lì)"。對(duì)稱地,"更差"那張圖的每次打分能比"更好"那張圖低的比例,就是它的"敗率獎(jiǎng)勵(lì)"。

      有了這些獎(jiǎng)勵(lì)數(shù)值之后,再在各自的打分組內(nèi)部計(jì)算"相對(duì)表現(xiàn)"——比如在對(duì)"更好"圖片的N次打分中,某次打分如果高于平均水平,就給正向激勵(lì),低于平均水平就給負(fù)向抑制。這個(gè)"組內(nèi)相對(duì)表現(xiàn)"就是所謂的"優(yōu)勢(shì)值"(Advantage)。

      這套機(jī)制的精妙之處在于,它巧妙地將"哪張圖比較好"的人類判斷,轉(zhuǎn)化成了對(duì)AI核查員自身推理過(guò)程的直接訓(xùn)練信號(hào),同時(shí)通過(guò)多次采樣平均掉了單次打分的隨機(jī)噪聲。整個(gè)過(guò)程只需要1萬(wàn)組人類標(biāo)注數(shù)據(jù),還不到第一階段訓(xùn)練數(shù)據(jù)量的1%,卻能帶來(lái)顯著的性能提升。

      從訓(xùn)練過(guò)程的曲線來(lái)看,經(jīng)過(guò)GCPO訓(xùn)練的核查員AI會(huì)逐漸養(yǎng)成一個(gè)有趣的習(xí)慣:對(duì)于正確的判斷,它會(huì)生成更長(zhǎng)的推理鏈條,把證據(jù)分析得更仔細(xì);這從某種意義上說(shuō)明AI學(xué)會(huì)了"謹(jǐn)慎"——不輕易下結(jié)論,而是把每個(gè)細(xì)節(jié)都想清楚再給分。

      五、把"核查員"變成"教練"——用獎(jiǎng)勵(lì)模型來(lái)提升編輯模型

      有了一個(gè)靠譜的核查員之后,第二個(gè)大問(wèn)題隨之而來(lái):怎么用它來(lái)提升負(fù)責(zé)編輯圖片的AI?

      這里有一個(gè)技術(shù)上的難點(diǎn):傳統(tǒng)的某些訓(xùn)練方法(如REFL)要求獎(jiǎng)勵(lì)模型的打分過(guò)程對(duì)訓(xùn)練過(guò)程"透明可微",就好比教練不僅要告訴運(yùn)動(dòng)員"你跳高沒(méi)跳過(guò)去",還要能精確指出"你起跳時(shí)左腳用力角度差了2度"——需要能夠精確計(jì)算影響因子。然而Edit-RRM是一個(gè)"先思考再打分"的系統(tǒng),其推理過(guò)程是通過(guò)逐字生成文本來(lái)實(shí)現(xiàn)的,這個(gè)過(guò)程在數(shù)學(xué)上是不可微分的,就像你沒(méi)法對(duì)"寫日記"這個(gè)過(guò)程求導(dǎo)數(shù)一樣。

      研究團(tuán)隊(duì)因此采用了一種叫做GRPO(Group Relative Policy Optimization,群體相對(duì)策略優(yōu)化)的強(qiáng)化學(xué)習(xí)算法,這套方法不需要獎(jiǎng)勵(lì)信號(hào)可微,只需要它能輸出一個(gè)數(shù)字就夠了。

      訓(xùn)練過(guò)程是這樣運(yùn)作的:編輯模型在面對(duì)一個(gè)圖像編輯任務(wù)時(shí),會(huì)同時(shí)生成一批不同的編輯結(jié)果(研究中設(shè)置為24張)。核查員對(duì)每張結(jié)果進(jìn)行評(píng)分,然后計(jì)算每張結(jié)果的相對(duì)排名——在這批24張圖中,某張圖的分?jǐn)?shù)高于平均就得到正向激勵(lì),低于平均就受到負(fù)向約束。與此同時(shí),還設(shè)置了一個(gè)KL散度懲罰項(xiàng),防止編輯模型的輸出風(fēng)格變化過(guò)大,就好比給運(yùn)動(dòng)員訓(xùn)練時(shí)設(shè)置了一個(gè)"不能偏離基本姿勢(shì)太遠(yuǎn)"的約束,避免過(guò)度優(yōu)化反而走形。

      研究團(tuán)隊(duì)將Edit-R1應(yīng)用到了兩個(gè)當(dāng)前最先進(jìn)的開(kāi)源圖像編輯模型上:FLUX.Kontext和Qwen-Image-Edit,以此驗(yàn)證這套框架的實(shí)際效果。

      六、實(shí)驗(yàn)結(jié)果:核查員越嚴(yán)格,編輯效果越好

      研究團(tuán)隊(duì)從兩個(gè)角度評(píng)估了Edit-R1的效果:一是核查員本身的準(zhǔn)確性,二是被核查員訓(xùn)練過(guò)的編輯模型的實(shí)際水平。

      在核查員的評(píng)估上,研究團(tuán)隊(duì)構(gòu)建了一個(gè)內(nèi)部測(cè)試基準(zhǔn),包含5000個(gè)經(jīng)過(guò)人工標(biāo)注偏好的圖像編輯對(duì)。測(cè)試結(jié)果顯示,完整訓(xùn)練出來(lái)的7B參數(shù)(70億參數(shù))版本核查員達(dá)到了82.22%的準(zhǔn)確率,這意味著在100次人類評(píng)判中,這個(gè)核查員能與人類意見(jiàn)吻合超過(guò)82次。這個(gè)成績(jī)明顯超過(guò)了Seed-1.5-VL(79.3%)和Seed-1.6-VL(77.2%)這兩個(gè)強(qiáng)大的商用API——值得注意的是,這兩個(gè)都是字節(jié)跳動(dòng)自家的強(qiáng)力視覺(jué)語(yǔ)言模型,能超過(guò)它們實(shí)屬不易。

      在公開(kāi)的獨(dú)立測(cè)試基準(zhǔn)EditRewardBench上,這種優(yōu)勢(shì)依然存在。競(jìng)品EditScore-7B的準(zhǔn)確率是65.9%(即便使用推理擴(kuò)展技術(shù)也只能達(dá)到72.7%),而Edit-RRM僅憑第一階段的監(jiān)督微調(diào)就達(dá)到了73.3%,加入GCPO后進(jìn)一步提升到78.2%。由于EditRewardBench是獨(dú)立構(gòu)建的,與研究團(tuán)隊(duì)的內(nèi)部流程完全不相關(guān),這個(gè)結(jié)果可以有效排除"內(nèi)部測(cè)試偏向"的質(zhì)疑。

      研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有意義的規(guī)律:核查員規(guī)模越大,效果越好——3B參數(shù)版本和7B參數(shù)版本之間存在明顯的性能差距,展示出清晰的"參數(shù)規(guī)模擴(kuò)展效益"。

      在訓(xùn)練動(dòng)態(tài)上有一個(gè)反直覺(jué)的現(xiàn)象值得一提:經(jīng)過(guò)GCPO訓(xùn)練的核查員(RL-RRM)在給編輯模型訓(xùn)練時(shí),提供的"訓(xùn)練獎(jiǎng)勵(lì)"反而比未經(jīng)GCPO訓(xùn)練的版本(SFT-RRM)更低,但"測(cè)試獎(jiǎng)勵(lì)"卻更高。這說(shuō)明GCPO把核查員訓(xùn)練得更加嚴(yán)格,它不會(huì)隨隨便便給高分——正是這種嚴(yán)格反而倒逼編輯模型做得更好。

      在對(duì)編輯模型的提升效果上,以FLUX.Kontext為例,經(jīng)過(guò)Edit-R1框架訓(xùn)練后,其綜合得分(Overall Score)從5.77提升到了6.24,語(yǔ)義一致性得分(Semantic Consistency)從6.27躍升至6.86。在最具挑戰(zhàn)性的"動(dòng)作變化"類別(如讓靜止的貓變成奔跑狀態(tài))上,相對(duì)提升幅度達(dá)到了15.2%(從4.01提升到4.62)。在人工評(píng)測(cè)中,使用了Edit-R1框架訓(xùn)練的FLUX.Kontext的GSB得分達(dá)到了+23.2,意味著人類評(píng)審認(rèn)為它明顯優(yōu)于原始版本。

      對(duì)于已經(jīng)相當(dāng)強(qiáng)大的Qwen-Edit模型,整體提升幅度較小(綜合得分從7.45提升到7.50),這主要是因?yàn)樵撃P捅旧硪呀?jīng)受益于大量的Best-of-N采樣優(yōu)化。但即便如此,在"動(dòng)作變化"這類難度極高的任務(wù)上,Edit-R1依然帶來(lái)了顯著改善。

      定性結(jié)果同樣令人印象深刻。在"顏色更改"任務(wù)中,Edit-R1能夠精確地只修改目標(biāo)物體的顏色,而不會(huì)引發(fā)全圖的色調(diào)變化;在"物體添加/刪除"任務(wù)中,基線模型往往無(wú)法準(zhǔn)確理解指令,而Edit-R1訓(xùn)練過(guò)的模型能夠正確執(zhí)行;在"材質(zhì)替換"(比如把小狗變成粘土質(zhì)感)和"動(dòng)作變更"(比如讓飛機(jī)處于起飛狀態(tài))等復(fù)雜任務(wù)上,改進(jìn)效果尤為明顯。

      七、一個(gè)具體案例:RRM如何抓住"帽子顏色走偏"的錯(cuò)誤

      研究團(tuán)隊(duì)在論文中展示了一個(gè)生動(dòng)的失敗矯正案例,可以直觀地理解Edit-R1整個(gè)系統(tǒng)的運(yùn)作邏輯。

      任務(wù)是:給一個(gè)卡通小女孩的短袖上衣改成紅色,同時(shí)保留她的藍(lán)色帽子、雙麻花辮、淺棕色下裝以及背景中的綠色葉片和石頭。

      在僅使用第一階段監(jiān)督微調(diào)的SFT模型輸出中,有一張"失敗樣本":上衣確實(shí)變成了紅色,但帽子也跟著變成了紅色——屬于典型的"屬性擴(kuò)散"錯(cuò)誤,改了不該改的東西。

      核查員AI(RRM)對(duì)這張失敗圖片逐條進(jìn)行了原則核查,在檢查"帽子是否保留了原來(lái)的淺藍(lán)色風(fēng)格"這一條時(shí),給出了0分(未通過(guò)),并在推理過(guò)程中明確指出了這個(gè)問(wèn)題。這個(gè)精確的扣分信號(hào)通過(guò)強(qiáng)化學(xué)習(xí)傳導(dǎo)給了編輯模型,使其在后續(xù)訓(xùn)練中學(xué)會(huì)了"只改上衣顏色,不影響帽子顏色"。

      經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后,該模型的"成功樣本"完美地完成了任務(wù):上衣變紅,帽子依然是藍(lán)色,其他所有細(xì)節(jié)都保持原樣。RRM對(duì)這張圖片的每一條原則都給出了1分(通過(guò)),最終得出滿意的綜合評(píng)價(jià)。

      這個(gè)案例清晰地展示了從籠統(tǒng)打分到逐條核查的范式轉(zhuǎn)變帶來(lái)的實(shí)際價(jià)值——正是那一條針對(duì)帽子顏色的精確扣分,讓AI學(xué)會(huì)了區(qū)分"該改的"和"不該改的"。

      說(shuō)到底,Edit-R1做的事情,就是給AI圖像編輯系統(tǒng)安裝了一套"逐條對(duì)賬"的質(zhì)檢系統(tǒng),而不是簡(jiǎn)單地"看一眼打個(gè)分"。這套質(zhì)檢系統(tǒng)不僅自己越來(lái)越準(zhǔn)(超過(guò)了商用大模型API的判斷準(zhǔn)確率),還能有效地督促負(fù)責(zé)編輯圖片的AI做得更好。

      這對(duì)于普通用戶意味著什么?短期來(lái)看,受益于這類研究,圖像編輯軟件會(huì)變得更聽(tīng)話——你讓它只改顏色,它就只改顏色;你讓它換背景,它就不會(huì)順手動(dòng)你的臉。長(zhǎng)期來(lái)看,這種"把大任務(wù)拆成小任務(wù)逐條核查"的思路,可能會(huì)成為讓AI在各類復(fù)雜任務(wù)中做得更精確的通用方法論。

      值得思考的是,當(dāng)AI擁有了越來(lái)越精準(zhǔn)的自我評(píng)判能力,我們是否需要重新考慮"什么叫做一張編輯得好的照片"?畢竟,AI的判斷標(biāo)準(zhǔn)來(lái)自于人類的標(biāo)注數(shù)據(jù),而人類的審美本身也在不斷變化。感興趣的讀者可以通過(guò)arXiv上的論文編號(hào)2604.27505進(jìn)一步探索這個(gè)研究的技術(shù)細(xì)節(jié)。

      Q&A

      Q1:Edit-RRM和普通打分AI有什么區(qū)別?

      A:普通打分AI通常只看一眼圖片就輸出一個(gè)總分,無(wú)法說(shuō)明哪里好哪里不好。Edit-RRM則會(huì)先把編輯指令拆解成若干條具體原則,比如"顏色是否改變了"、"背景是否保留了"、"整體質(zhì)量是否自然",逐條核查后再綜合出最終分?jǐn)?shù),這樣每個(gè)判斷都有明確依據(jù),評(píng)分結(jié)果也更接近人類的真實(shí)判斷。

      Q2:GCPO算法為什么只需要1萬(wàn)條人類標(biāo)注數(shù)據(jù)就能有效果?

      A:GCPO的核心是對(duì)每張圖片生成多次獨(dú)立評(píng)分,然后通過(guò)"跨組比較"把人類的偏好判斷(A比B好)轉(zhuǎn)化成具體的獎(jiǎng)勵(lì)信號(hào)。多次采樣平均掉了單次打分的隨機(jī)性,使得每條人類標(biāo)注數(shù)據(jù)能提供更豐富的訓(xùn)練信號(hào)。因此哪怕只有1萬(wàn)條數(shù)據(jù),也能有效精準(zhǔn)地調(diào)整模型的判斷偏好。

      Q3:Edit-R1框架可以用在哪些圖像編輯軟件上?

      A:Edit-R1是一個(gè)通用的訓(xùn)練框架,研究團(tuán)隊(duì)已經(jīng)成功將其應(yīng)用于FLUX.Kontext和Qwen-Image-Edit兩個(gè)開(kāi)源圖像編輯模型,均取得了明顯改進(jìn)。理論上,任何基于流匹配或擴(kuò)散模型的圖像編輯系統(tǒng)都可以接入這套框架,只要其生成過(guò)程支持GRPO算法所需的采樣和優(yōu)化操作即可。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      李湘瘦成了水蛇腰,臉整整小了一圈,女兒反倒胖了一圈

      李湘瘦成了水蛇腰,臉整整小了一圈,女兒反倒胖了一圈

      鄉(xiāng)野小珥
      2026-05-10 13:06:04
      兩年1.4億!7000萬(wàn)先生!場(chǎng)均28分也賣?波士頓變天了?

      兩年1.4億!7000萬(wàn)先生!場(chǎng)均28分也賣?波士頓變天了?

      籃球盛世
      2026-05-11 16:55:48
      《亢奮》第三季遭OnlyFans從業(yè)者炮轟:Sydney Sweeney劇情被指失真

      《亢奮》第三季遭OnlyFans從業(yè)者炮轟:Sydney Sweeney劇情被指失真

      熱搜摘要官
      2026-05-11 03:40:01
      吹掉西漢姆絕平球的VAR是達(dá)倫-英格蘭,他將執(zhí)法足總杯決賽

      吹掉西漢姆絕平球的VAR是達(dá)倫-英格蘭,他將執(zhí)法足總杯決賽

      懂球帝
      2026-05-11 02:37:14
      Lisa這頭發(fā)掉光了,看來(lái)富豪的圈子也不好混

      Lisa這頭發(fā)掉光了,看來(lái)富豪的圈子也不好混

      西樓知趣雜談
      2026-05-11 21:50:42
      就算中產(chǎn)不裝了,也不會(huì)買“保羅散步”

      就算中產(chǎn)不裝了,也不會(huì)買“保羅散步”

      中國(guó)新聞周刊
      2026-05-10 23:25:23
      星鉉:漢坦病毒事件出現(xiàn)驚人反轉(zhuǎn),莫德納公司再次未卜先知

      星鉉:漢坦病毒事件出現(xiàn)驚人反轉(zhuǎn),莫德納公司再次未卜先知

      星鉉
      2026-05-10 19:04:49
      貔貅認(rèn)主不看財(cái)富,這四個(gè)生肖千萬(wàn)別碰,戴了反而會(huì)破財(cái)

      貔貅認(rèn)主不看財(cái)富,這四個(gè)生肖千萬(wàn)別碰,戴了反而會(huì)破財(cái)

      紙鳶奇譚
      2026-04-13 16:06:54
      顛覆認(rèn)知!最新研究:每周一次性生活,男性癌癥風(fēng)險(xiǎn)降低69%?

      顛覆認(rèn)知!最新研究:每周一次性生活,男性癌癥風(fēng)險(xiǎn)降低69%?

      果殼
      2026-05-11 15:39:46
      馬筱梅直播時(shí)兒子意外出鏡,白皮膚肉嘟嘟的,筱梅滿眼愛(ài)意藏不住

      馬筱梅直播時(shí)兒子意外出鏡,白皮膚肉嘟嘟的,筱梅滿眼愛(ài)意藏不住

      日不西沉
      2026-05-10 04:17:07
      25三分追平歷史紀(jì)錄!尼克斯4-0橫掃76人進(jìn)東決 恩比德空砍24分

      25三分追平歷史紀(jì)錄!尼克斯4-0橫掃76人進(jìn)東決 恩比德空砍24分

      醉臥浮生
      2026-05-11 06:13:45
      喬·約翰遜:詹姆斯得分強(qiáng)但最強(qiáng)是組織!科比不管助攻!

      喬·約翰遜:詹姆斯得分強(qiáng)但最強(qiáng)是組織!科比不管助攻!

      歷史第一人梅西
      2026-05-10 22:31:25
      “逆襲之王”梁靖崑奪冠后回復(fù)妻子打錯(cuò)字,網(wǎng)友:冠軍手速快拼音不過(guò)關(guān)

      “逆襲之王”梁靖崑奪冠后回復(fù)妻子打錯(cuò)字,網(wǎng)友:冠軍手速快拼音不過(guò)關(guān)

      現(xiàn)代快報(bào)
      2026-05-11 17:15:03
      朱丹中途叫停熱瑪吉稱無(wú)用了!抗衰的苦到底誰(shuí)在吃?

      朱丹中途叫停熱瑪吉稱無(wú)用了!抗衰的苦到底誰(shuí)在吃?

      動(dòng)物奇奇怪怪
      2026-05-11 19:28:34
      Windows折磨了用戶幾十年的問(wèn)題:終于被微軟修了!不用再看1048576KB了

      Windows折磨了用戶幾十年的問(wèn)題:終于被微軟修了!不用再看1048576KB了

      快科技
      2026-05-11 12:09:38
      德國(guó)前總理朔爾茨:中國(guó),如同19世紀(jì)的美國(guó)和德國(guó),可能有多大?

      德國(guó)前總理朔爾茨:中國(guó),如同19世紀(jì)的美國(guó)和德國(guó),可能有多大?

      萬(wàn)里繁華
      2026-05-11 11:19:28
      漢坦病毒來(lái)勢(shì)洶洶,每家備好5樣?xùn)|西,守住全家健康防線

      漢坦病毒來(lái)勢(shì)洶洶,每家備好5樣?xùn)|西,守住全家健康防線

      老特有話說(shuō)
      2026-05-11 15:29:11
      夢(mèng)百合杯中國(guó)5世界冠軍共31人進(jìn)正賽 看點(diǎn)!有多少非種子能進(jìn)前8?

      夢(mèng)百合杯中國(guó)5世界冠軍共31人進(jìn)正賽 看點(diǎn)!有多少非種子能進(jìn)前8?

      勁爆體壇
      2026-05-11 21:46:04
      一圖看懂磷酸鐵鋰與三元鋰壽命差距:足足3倍

      一圖看懂磷酸鐵鋰與三元鋰壽命差距:足足3倍

      芭比衣櫥
      2026-05-11 15:13:17
      河南信陽(yáng) “天下第一柏”:一樹(shù)分陰陽(yáng),千年藏傳奇

      河南信陽(yáng) “天下第一柏”:一樹(shù)分陰陽(yáng),千年藏傳奇

      創(chuàng)作者_(dá)RN2I
      2026-03-15 21:39:07
      2026-05-12 01:31:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂(lè)要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      家居
      藝術(shù)
      游戲
      親子
      時(shí)尚

      家居要聞

      多元生活 此處無(wú)聲

      藝術(shù)要聞

      震撼!Nicole Nodland鏡頭下的絕美時(shí)尚女神!

      LOL第一支MSI戰(zhàn)隊(duì)出爐,TSW確定晉級(jí)季中賽!BLG已鎖定淘汰賽名額

      親子要聞

      你們都喜歡哪些科目啊?

      今年夏天最流行的5雙涼鞋,配裙子絕美!

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 日韩AV中文字幕一区| 亚洲欧美日韩愉拍自拍美利坚| 欧美精品在线观看视频| 久久精品国产一区二区三 | 亚洲国产成人精品激情资源9| 深夜av在线免费观看| 日韩乱码免费一区二区三区| 国产精品一区久久99| 99热精品国产三级在线观看| 亚洲欧洲日韩国内精品| 亚州无码精品| 亚洲黑人av| 日韩人妻一区中文字幕| 亚洲中文字幕国产| 亚洲人成网站77777在线观看| 久久国产精品老女人| 亚洲精品666| 狠狠色噜噜狠狠狠狠网站视频| 乱人伦人妻系列| 日本最新免费二区三区| 久久久久久性高| 熟女熟妇乱女乱妇综合网| 亚洲成人久| 久久久久亚洲AV成人网毛片| 色吊丝一区二区中文字幕| 亚洲精品国产av成拍色拍个| 成人国产精品2021| 国内揄拍国内精品对久久| 先锋影音av资源网在线观看| 亚洲成a人片在线观看的电影| 国产在线欧美日韩精品一区| AV无码不卡| 黄色三级视频| 欧美熟妇色XXXx欧美老妇多毛| 日本一区免费视频| 无码人妻AⅤ一区 二区 三区| 亚洲午夜精品久久久久久抢| 亚洲乱码精品一区二区| 亚洲欧美一区二区三区蜜芽| 亚洲一区二区三午夜福利| 国产不卡精品视频男人的天堂|