<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      從最優(yōu)傳輸角度訓練獎勵模型:讓 RLHF 學會「忽略錯誤偏好」丨ICML 2026

      0
      分享至


      SelectiveRM:從點對點擬合噪聲偏好,轉(zhuǎn)向帶選擇機制的分布對齊,重構(gòu)獎勵模型的訓練目標。

      在大語言模型對齊研究中,一個看似自然、卻值得重新審視的問題長期存在:

      一方面,RLHF、RLAIF、GRPO等方法不斷推動模型對齊能力演進;另一方面,獎勵模型訓練階段卻普遍默認一個前提——收集到的偏好標注能夠準確反映真實人類偏好

      但現(xiàn)實并非如此。無論是人工標注、眾包反饋,還是LLM-as-a-Judge,偏好數(shù)據(jù)都不可避免地包含噪聲:標注疲勞、主觀分歧、隨機失誤、模型幻覺,都可能讓“觀測偏好”偏離“真實偏好”。

      這使得獎勵模型訓練面臨一個根本問題:如果監(jiān)督信號本身并不可靠,那么模型究竟應該學習什么

      針對這一問題,浙江大學、小紅書、北京大學等機構(gòu)的研究團隊提出了SelectiveRM:一種基于最優(yōu)傳輸(Optimal Transport) 的獎勵模型訓練框架。該方法不再要求模型無條件擬合所有觀測偏好,而是通過選擇性分布對齊,自動識別并排除與語義一致性相沖突的Noisy Preference,從而學習更可靠的獎勵函數(shù)。這項工作不僅為Noisy Reward Modeling提供了新的理論與方法,也從更一般的意義上,對“在噪聲反饋下應當如何訓練獎勵模型”這一問題給出了新的回答


      論文地址:http://arxiv.org/abs/2605.06036

      01


      當“觀測偏好 = 真實偏好”的假設被打破之后

      當前主流獎勵模型訓練,本質(zhì)上仍然沿用標準監(jiān)督學習范式:給定prompt-response x 對及其偏好標注 r ,最小化模型預測與標注之間的點對點誤差。


      這種做法隱含了一個強假設:訓練數(shù)據(jù)中的偏好標簽是干凈且可信的。然而,在真實場景中,這一假設往往并不成立。偏好數(shù)據(jù)天然具有主觀性和不穩(wěn)定性:人類標注員可能因疲勞或理解差異給出不一致反饋;眾包場景下可能存在隨意標注;LLM-as-a-Judge也可能因能力不足或幻覺產(chǎn)生系統(tǒng)性誤差。因此,獎勵模型面對的并不是“純凈偏好”,而往往是真實偏好與錯誤偏好的混合體。

      研究團隊從理論上揭示了這一問題:在實例相關(guān)噪聲(Instance-Dependent Noise)下,直接最小化經(jīng)驗風險,并不僅僅是在擬合真實偏好,同時也在擬合錯誤偏好。對于高噪聲樣本,模型的優(yōu)化方向甚至會被錯誤標簽主導,從而逐漸記住噪聲,而不是學習真正的人類偏好邏輯。

      更關(guān)鍵的是,這種偏差還會被 RLHF 的后續(xù)策略優(yōu)化進一步放大。一旦獎勵模型學錯了,策略模型就會主動利用這些錯誤信號,誘發(fā)Reward Hacking,最終損害模型的安全性與對齊質(zhì)量。

      團隊還對多個公開偏好數(shù)據(jù)集進行了噪聲分析,結(jié)果表明Noisy Preference并非個別現(xiàn)象,而是普遍存在于人類與 LLM 標注數(shù)據(jù)中的系統(tǒng)性問題。一些數(shù)據(jù)集中的估計噪聲比例甚至接近40%–50%。這說明:噪聲偏好不是獎勵建模中的邊緣問題,而是必須被正面解決的核心挑戰(zhàn)。


      02


      SelectiveRM:從點對點擬合轉(zhuǎn)向選擇性分布對齊

      為了解決Noisy Preference問題,研究團隊提出了SelectiveRM。它的核心思想是:不要再把獎勵模型訓練看作簡單的點對點回歸,而要將其重構(gòu)為一個分布對齊問題。具體來說,SelectiveRM考慮兩類聯(lián)合分布:(1)數(shù)據(jù)中的經(jīng)驗聯(lián)合分布:;(2)模型誘導出的聯(lián)合分布:。

      如果獎勵模型真正學到了偏好規(guī)律,那么這兩個分布應當是對齊的。基于這一思想,論文提出了Joint Consistency Discrepancy,利用最優(yōu)傳輸來衡量這兩個聯(lián)合分布之間的差異。


      與傳統(tǒng)損失不同,這里的傳輸代價同時考慮:(1)語義距離:兩個樣本在語義空間中是否接近;(2)偏好差異:它們的偏好值是否一致。這樣一來,模型不再只是逐點擬合標簽,而是在全局上學習“語義-偏好”之間的一致結(jié)構(gòu)。

      但團隊進一步指出,標準最優(yōu)傳輸仍然存在局限。原因在于,它要求所有樣本都必須被匹配,即嚴格滿足“質(zhì)量守恒”。這意味著,即使某些樣本本身是帶噪錯誤偏好,模型也仍然會被迫去擬合它們。

      為此,SelectiveRM進一步引入了部分最優(yōu)傳輸(Partial Optimal Transport),構(gòu)造出帶有Mass Relaxation機制的訓練目標。它允許傳輸計劃只匹配一部分質(zhì)量,而把那些代價過高、與語義一致性明顯沖突的樣本排除在外。


      基于這一設計,SelectiveRM 能夠自動保留低成本、高一致性的可靠樣本,同時忽略高成本、疑似帶噪的偏好數(shù)據(jù)。換句話說,它不再要求模型“解釋所有數(shù)據(jù)”,而是允許模型只向可信監(jiān)督對齊。

      研究團隊還從理論上證明:SelectiveRM所優(yōu)化的是一個比標準經(jīng)驗風險更緊的clean-risk 上界,因此這種“選擇性對齊”不僅有效,而且具有嚴格的理論支撐。

      03


      在大量實驗中,一致驗證優(yōu)勢

      為了驗證SelectiveRM的有效性,研究團隊在多個公開偏好數(shù)據(jù)集上開展了系統(tǒng)實驗,包括HelpSteer、UltraFeedback和PKU-SafeRLHF,并與多類Noisy Label Learning方法進行了比較。


      實驗結(jié)果表明:

      首先,標準訓練方式在Noisy Preference下最容易失效。Naive baseline在多個數(shù)據(jù)集上都表現(xiàn)最差,說明“把所有偏好都當真”會顯著損害獎勵模型質(zhì)量。

      其次,現(xiàn)有降噪方法雖然能緩解噪聲影響,但提升有限。無論是基于噪聲轉(zhuǎn)移矩陣的統(tǒng)計方法,還是基于樣本篩選的啟發(fā)式方法,都能在一定程度上改善性能,但往往受限于過強的噪聲假設或不穩(wěn)定的篩選機制。相比之下,SelectiveRM在各項指標上均取得最優(yōu)結(jié)果。

      進一步的消融實驗也驗證了方法中兩個關(guān)鍵組件的作用:引入聯(lián)合代價后,模型能更好利用語義一致性來判斷偏好是否可靠;引入部分傳輸后,模型獲得了自動排除高成本Noisy Preference的能力。二者結(jié)合后,SelectiveRM達到最佳表現(xiàn),說明其優(yōu)勢并非來自單一技巧,而是來自“語義一致性判斷 + 選擇性匹配機制”的協(xié)同作用。


      此外,研究團隊還在不同Backbone上測試了方法的泛化能力,包括Qwen2.5 和LLaMA2系列不同參數(shù)規(guī)模模型。結(jié)果表明,SelectiveRM在從7B到72B的多個模型上都穩(wěn)定帶來性能增益,顯示出良好的模型無關(guān)性與泛化能力。


      04


      不只是獎勵模型更準,更重要的是下游 RLHF 更安全

      SelectiveRM的價值并不止于獎勵模型本身的指標提升。研究團隊進一步考察了它對下游RLHF的實際影響。團隊使用不同獎勵模型為GRPO提供獎勵信號,并在HarmBench、FFT、DAN等安全基準上評估最終策略模型表現(xiàn)。


      結(jié)果表明,由SelectiveRM訓練得到的獎勵模型,能夠穩(wěn)定提升策略模型的安全得分,并在不同Backbone上都表現(xiàn)出更好的魯棒性。這說明:更干凈的獎勵模型,會直接轉(zhuǎn)化為更可靠的策略優(yōu)化信號。

      相比之下,由Naive Reward Model引導的策略更容易受到Noisy Preference的誤導,從而在對抗性Jailbreak Prompt下暴露安全漏洞;而SelectiveRM由于在訓練階段就主動過濾掉與語義一致性沖突的偏好噪聲,因此能有效抑制Reward Hacking的傳播。

      從更一般的角度看,這項工作的意義并不只在于提出了一個新的Noisy Reward Modeling方法,更在于它重新審視了一個長期被忽視的問題:當監(jiān)督信號本身不可靠時,學習目標不應只是“更好地擬合數(shù)據(jù)”,而應當進一步回答“哪些數(shù)據(jù)值得被學習”。SelectiveRM所倡導的“選擇性分布對齊”思想,為這一問題提供了一個新的答案。它表明,在Noisy Preference場景中,獎勵模型訓練不應無條件相信所有觀測標簽,而應當在結(jié)構(gòu)一致性約束下,自主識別并保留更可信的監(jiān)督信號。因此,這項工作不僅推進了獎勵建模研究,也為如何在噪聲反饋下學習可靠目標提供了一種更具原則性的訓練范式。

      05


      作者信息

      論文第一作者潘黎鋮,現(xiàn)為浙江大學計算機科學與技術(shù)學院網(wǎng)絡空間安全專業(yè)博士研究生,研究方向聚焦于多任務學習、時間序列分析,以及構(gòu)建安全可信的大語言模型。在本項目中,他依托小紅書開展合作研究,深入探索了強化學習中獎勵模型的魯棒性與人類價值觀對齊。


      論文共同通訊作者李昊軒,現(xiàn)為北京大學數(shù)據(jù)科學專業(yè)博士研究生,同時兼任牛津大學訪問研究員。他在ICML、NeurIPS、ICLR、SIGKDD、WWW、SIGIR、CVPR、ICDE和ACL等人工智能頂級會議上發(fā)表論文80余篇,相關(guān)研究曾被《麻省理工科技評論》報道。此外,他曾擔任ICML、NeurIPS、ICLR、SIGKDD等頂級會議的領(lǐng)域主席(AC),并受邀擔任TKDE、TOIS、TKDD、TNNLS和JASA等知名學術(shù)期刊的審稿人。


      論文共同通訊作者王浩,現(xiàn)為浙江大學工業(yè)控制技術(shù)國家重點實驗室博士研究生,研究方向聚焦于因果推斷、多任務學習技術(shù)及其在大語言模型中的應用。2022年-2023年,他曾在螞蟻金服、微軟亞洲研究院科研實習,從事推薦系統(tǒng)理論研究。2025年起,他在小紅書參加RedStar實習項目,進行大語言模型、可信獎勵模型領(lǐng)域的研究工作。


      未經(jīng)「AI科技評論」授權(quán),嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載!

      公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標注來源并插入本公眾號名片。f

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      20多年前陳紅在陳凱歌家拍照,她躺在沙發(fā)上的樣子,堪稱人間尤物!

      20多年前陳紅在陳凱歌家拍照,她躺在沙發(fā)上的樣子,堪稱人間尤物!

      感覺會火
      2026-04-28 21:18:46
      特朗普剛落地中國,美媒立馬潑冷水:半世紀都沒見過的變局發(fā)生了

      特朗普剛落地中國,美媒立馬潑冷水:半世紀都沒見過的變局發(fā)生了

      愛意隨風起呀
      2026-05-14 20:47:24
      又一次被騎士各種打爆,活塞在G6中還敢讓他繼續(xù)先發(fā)嗎?

      又一次被騎士各種打爆,活塞在G6中還敢讓他繼續(xù)先發(fā)嗎?

      稻谷與小麥
      2026-05-14 21:53:45
      岳云鵬探望蔡磊,稱漸凍癥攻克那天會去演出!有意收蔡磊兒子為徒

      岳云鵬探望蔡磊,稱漸凍癥攻克那天會去演出!有意收蔡磊兒子為徒

      趣味八卦
      2026-05-14 15:51:30
      與陳紅斗了6年,倪萍也沒想到,這口惡氣讓陳凱歌父子還了

      與陳紅斗了6年,倪萍也沒想到,這口惡氣讓陳凱歌父子還了

      地理三體說
      2026-05-14 21:55:27
      世乒賽最痛苦的人莫過于張本宇了,不是兒女慘敗,而是地位不保

      世乒賽最痛苦的人莫過于張本宇了,不是兒女慘敗,而是地位不保

      阿傖說事
      2026-05-12 16:30:31
      致1死5傷(其中1人傷勢較重),警方:常某朋(男,40歲)涉嫌醉駕

      致1死5傷(其中1人傷勢較重),警方:常某朋(男,40歲)涉嫌醉駕

      山西晚報
      2026-05-14 10:04:48
      天降橫財!男子入獄前,花120萬買股票,6年后出獄,變成4.9億!

      天降橫財!男子入獄前,花120萬買股票,6年后出獄,變成4.9億!

      川渝視覺
      2026-05-13 22:09:30
      U17女足無緣決賽!媒體人熱議:世少賽才是真正考驗,給曉旭點贊

      U17女足無緣決賽!媒體人熱議:世少賽才是真正考驗,給曉旭點贊

      奧拜爾
      2026-05-14 21:36:57
      伊萬卡流淚了

      伊萬卡流淚了

      新浪財經(jīng)
      2026-05-05 19:51:47
      他是原江西省委書記,主政江西36年,百姓念他一輩子,享年99歲

      他是原江西省委書記,主政江西36年,百姓念他一輩子,享年99歲

      近史談
      2026-05-14 12:24:27
      鐘南山院士建議:老年人多吃這5道家常菜,軟爛養(yǎng)胃、少鹽少脂更健康!

      鐘南山院士建議:老年人多吃這5道家常菜,軟爛養(yǎng)胃、少鹽少脂更健康!

      荷蘭豆愛健康
      2026-05-12 09:54:14
      70歲之后,來日并不方長,身體再好,也要牢記8句話

      70歲之后,來日并不方長,身體再好,也要牢記8句話

      小談食刻美食
      2026-05-07 07:34:54
      688189,控股股東籌劃戰(zhàn)略重組!最新機構(gòu)評級股出爐

      688189,控股股東籌劃戰(zhàn)略重組!最新機構(gòu)評級股出爐

      數(shù)據(jù)寶
      2026-05-14 21:51:22
      岳云鵬探望蔡磊,稱漸凍癥攻克后會去演出!有意收蔡磊兒子為徒

      岳云鵬探望蔡磊,稱漸凍癥攻克后會去演出!有意收蔡磊兒子為徒

      娛樂團長
      2026-05-14 14:13:13
      5小時"神片"無人敢拍:近40年十大冒險杰作,這部被嚴重低估

      5小時"神片"無人敢拍:近40年十大冒險杰作,這部被嚴重低估

      影視情報室
      2026-05-13 09:48:58
      超萌!馬斯克幼子隨父現(xiàn)身人民大會堂

      超萌!馬斯克幼子隨父現(xiàn)身人民大會堂

      澎湃新聞
      2026-05-14 19:29:09
      洪慶履新吉林省政府秘書長,劉偉卸任

      洪慶履新吉林省政府秘書長,劉偉卸任

      澎湃新聞
      2026-05-14 17:04:29
      銀行內(nèi)部人悄悄提醒:定期存款超這個數(shù)務必拆分,很多人都做錯了

      銀行內(nèi)部人悄悄提醒:定期存款超這個數(shù)務必拆分,很多人都做錯了

      芳姐侃社會
      2026-05-11 18:28:22
      重磅發(fā)現(xiàn)! 澳洲這種獨有的超級水果, 竟能預防老年癡呆! 價格不貴, 超市就能買

      重磅發(fā)現(xiàn)! 澳洲這種獨有的超級水果, 竟能預防老年癡呆! 價格不貴, 超市就能買

      澳微Daily
      2026-05-14 15:51:53
      2026-05-14 22:36:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術(shù),服務AI
      7274文章數(shù) 20751關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經(jīng)要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      游戲
      健康
      旅游
      藝術(shù)
      公開課

      任天堂發(fā)布會重磅猛料!馬上就來 官方頁面曝光

      專家揭秘干細胞回輸?shù)陌踩L險

      旅游要聞

      長江三峽翠屏林立 呈現(xiàn)碧水青山詩意畫卷

      藝術(shù)要聞

      美國務卿魯比奧點贊中式美學,實景令人驚嘆!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 日韩精品福利一区二区三区| 亚洲成老女av人在线视| 亚洲精品国产suv一区88| 国产情侣激情在线对白| 亚洲成人A∨| 日本精品一区二区不卡| 国产精品普通话国语对白露脸| 男人亚洲天堂| 亚洲国产精品丝袜国产自在线| 精品人妻中文字幕av| 免费偷拍| 久久狠色噜噜狠狠狠狠97| 尤物亚洲AV无码精品色午夜| 精品亚洲综合一区二区三区| 91精品在线播放| 东方成人AV| 亚洲国产美女精品久久久| 亚洲国产午夜精品理论片在线播放| 国内精品自线在拍| 日韩丰满少妇无吗视频激情内射| 日日摸夜夜添夜夜添a片| 日本a在线播放| 亚洲第一福利网站在线观看| 国产亚洲精品久久久久四川人| 美女张开腿让男人捅的视频| 少妇无码太爽了在线播放| 曝光无码有码视频专区| 精品国产免费第一区二区三区| 五月停停开心中文字幕| 极品人妻少妇| 91精品国产午夜福利| 久久www免费人成_网站| 色噜噜狠狠色综合成人网| 最新亚洲人成网站在线观看| 亚洲精品一区二区三区婷婷月| 日韩高清视频 一区二区| 潮喷在线播放| 亚洲无码图片网| 午夜人成免费视频| 亚洲不卡一区三区三区四| 亚洲午夜福利AV一区二区无码|