網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

從最優(yōu)傳輸角度訓練獎勵模型：讓 RLHF 學會「忽略錯誤偏好」丨ICML 2026

2026-05-13 18:23:20　來源: AI科技評論

廣東舉報

分享至

SelectiveRM：從點對點擬合噪聲偏好，轉(zhuǎn)向帶選擇機制的分布對齊，重構(gòu)獎勵模型的訓練目標。

在大語言模型對齊研究中，一個看似自然、卻值得重新審視的問題長期存在：

一方面，RLHF、RLAIF、GRPO等方法不斷推動模型對齊能力演進；另一方面，獎勵模型訓練階段卻普遍默認一個前提——收集到的偏好標注能夠準確反映真實人類偏好。

但現(xiàn)實并非如此。無論是人工標注、眾包反饋，還是LLM-as-a-Judge，偏好數(shù)據(jù)都不可避免地包含噪聲：標注疲勞、主觀分歧、隨機失誤、模型幻覺，都可能讓“觀測偏好”偏離“真實偏好”。

這使得獎勵模型訓練面臨一個根本問題：如果監(jiān)督信號本身并不可靠，那么模型究竟應該學習什么？

針對這一問題，浙江大學、小紅書、北京大學等機構(gòu)的研究團隊提出了SelectiveRM：一種基于最優(yōu)傳輸（Optimal Transport）的獎勵模型訓練框架。該方法不再要求模型無條件擬合所有觀測偏好，而是通過選擇性分布對齊，自動識別并排除與語義一致性相沖突的Noisy Preference，從而學習更可靠的獎勵函數(shù)。這項工作不僅為Noisy Reward Modeling提供了新的理論與方法，也從更一般的意義上，對“在噪聲反饋下應當如何訓練獎勵模型”這一問題給出了新的回答。

論文地址：http://arxiv.org/abs/2605.06036

當“觀測偏好 = 真實偏好”的假設被打破之后

當前主流獎勵模型訓練，本質(zhì)上仍然沿用標準監(jiān)督學習范式：給定prompt-response x 對及其偏好標注 r ，最小化模型預測與標注之間的點對點誤差。

這種做法隱含了一個強假設：訓練數(shù)據(jù)中的偏好標簽是干凈且可信的。然而，在真實場景中，這一假設往往并不成立。偏好數(shù)據(jù)天然具有主觀性和不穩(wěn)定性：人類標注員可能因疲勞或理解差異給出不一致反饋；眾包場景下可能存在隨意標注；LLM-as-a-Judge也可能因能力不足或幻覺產(chǎn)生系統(tǒng)性誤差。因此，獎勵模型面對的并不是“純凈偏好”，而往往是真實偏好與錯誤偏好的混合體。

研究團隊從理論上揭示了這一問題：在實例相關(guān)噪聲（Instance-Dependent Noise）下，直接最小化經(jīng)驗風險，并不僅僅是在擬合真實偏好，同時也在擬合錯誤偏好。對于高噪聲樣本，模型的優(yōu)化方向甚至會被錯誤標簽主導，從而逐漸記住噪聲，而不是學習真正的人類偏好邏輯。

更關(guān)鍵的是，這種偏差還會被 RLHF 的后續(xù)策略優(yōu)化進一步放大。一旦獎勵模型學錯了，策略模型就會主動利用這些錯誤信號，誘發(fā)Reward Hacking，最終損害模型的安全性與對齊質(zhì)量。

團隊還對多個公開偏好數(shù)據(jù)集進行了噪聲分析，結(jié)果表明Noisy Preference并非個別現(xiàn)象，而是普遍存在于人類與 LLM 標注數(shù)據(jù)中的系統(tǒng)性問題。一些數(shù)據(jù)集中的估計噪聲比例甚至接近40%–50%。這說明：噪聲偏好不是獎勵建模中的邊緣問題，而是必須被正面解決的核心挑戰(zhàn)。

SelectiveRM：從點對點擬合轉(zhuǎn)向選擇性分布對齊

為了解決Noisy Preference問題，研究團隊提出了SelectiveRM。它的核心思想是：不要再把獎勵模型訓練看作簡單的點對點回歸，而要將其重構(gòu)為一個分布對齊問題。具體來說，SelectiveRM考慮兩類聯(lián)合分布：（1）數(shù)據(jù)中的經(jīng)驗聯(lián)合分布：；（2）模型誘導出的聯(lián)合分布：。

如果獎勵模型真正學到了偏好規(guī)律，那么這兩個分布應當是對齊的。基于這一思想，論文提出了Joint Consistency Discrepancy，利用最優(yōu)傳輸來衡量這兩個聯(lián)合分布之間的差異。

與傳統(tǒng)損失不同，這里的傳輸代價同時考慮：（1）語義距離：兩個樣本在語義空間中是否接近；（2）偏好差異：它們的偏好值是否一致。這樣一來，模型不再只是逐點擬合標簽，而是在全局上學習“語義-偏好”之間的一致結(jié)構(gòu)。

但團隊進一步指出，標準最優(yōu)傳輸仍然存在局限。原因在于，它要求所有樣本都必須被匹配，即嚴格滿足“質(zhì)量守恒”。這意味著，即使某些樣本本身是帶噪錯誤偏好，模型也仍然會被迫去擬合它們。

為此，SelectiveRM進一步引入了部分最優(yōu)傳輸（Partial Optimal Transport），構(gòu)造出帶有Mass Relaxation機制的訓練目標。它允許傳輸計劃只匹配一部分質(zhì)量，而把那些代價過高、與語義一致性明顯沖突的樣本排除在外。

基于這一設計，SelectiveRM 能夠自動保留低成本、高一致性的可靠樣本，同時忽略高成本、疑似帶噪的偏好數(shù)據(jù)。換句話說，它不再要求模型“解釋所有數(shù)據(jù)”，而是允許模型只向可信監(jiān)督對齊。

研究團隊還從理論上證明：SelectiveRM所優(yōu)化的是一個比標準經(jīng)驗風險更緊的clean-risk 上界，因此這種“選擇性對齊”不僅有效，而且具有嚴格的理論支撐。

在大量實驗中，一致驗證優(yōu)勢

為了驗證SelectiveRM的有效性，研究團隊在多個公開偏好數(shù)據(jù)集上開展了系統(tǒng)實驗，包括HelpSteer、UltraFeedback和PKU-SafeRLHF，并與多類Noisy Label Learning方法進行了比較。

實驗結(jié)果表明：

首先，標準訓練方式在Noisy Preference下最容易失效。Naive baseline在多個數(shù)據(jù)集上都表現(xiàn)最差，說明“把所有偏好都當真”會顯著損害獎勵模型質(zhì)量。

其次，現(xiàn)有降噪方法雖然能緩解噪聲影響，但提升有限。無論是基于噪聲轉(zhuǎn)移矩陣的統(tǒng)計方法，還是基于樣本篩選的啟發(fā)式方法，都能在一定程度上改善性能，但往往受限于過強的噪聲假設或不穩(wěn)定的篩選機制。相比之下，SelectiveRM在各項指標上均取得最優(yōu)結(jié)果。

進一步的消融實驗也驗證了方法中兩個關(guān)鍵組件的作用：引入聯(lián)合代價后，模型能更好利用語義一致性來判斷偏好是否可靠；引入部分傳輸后，模型獲得了自動排除高成本Noisy Preference的能力。二者結(jié)合后，SelectiveRM達到最佳表現(xiàn)，說明其優(yōu)勢并非來自單一技巧，而是來自“語義一致性判斷 + 選擇性匹配機制”的協(xié)同作用。

此外，研究團隊還在不同Backbone上測試了方法的泛化能力，包括Qwen2.5 和LLaMA2系列不同參數(shù)規(guī)模模型。結(jié)果表明，SelectiveRM在從7B到72B的多個模型上都穩(wěn)定帶來性能增益，顯示出良好的模型無關(guān)性與泛化能力。

不只是獎勵模型更準，更重要的是下游 RLHF 更安全

SelectiveRM的價值并不止于獎勵模型本身的指標提升。研究團隊進一步考察了它對下游RLHF的實際影響。團隊使用不同獎勵模型為GRPO提供獎勵信號，并在HarmBench、FFT、DAN等安全基準上評估最終策略模型表現(xiàn)。

結(jié)果表明，由SelectiveRM訓練得到的獎勵模型，能夠穩(wěn)定提升策略模型的安全得分，并在不同Backbone上都表現(xiàn)出更好的魯棒性。這說明：更干凈的獎勵模型，會直接轉(zhuǎn)化為更可靠的策略優(yōu)化信號。

相比之下，由Naive Reward Model引導的策略更容易受到Noisy Preference的誤導，從而在對抗性Jailbreak Prompt下暴露安全漏洞；而SelectiveRM由于在訓練階段就主動過濾掉與語義一致性沖突的偏好噪聲，因此能有效抑制Reward Hacking的傳播。

從更一般的角度看，這項工作的意義并不只在于提出了一個新的Noisy Reward Modeling方法，更在于它重新審視了一個長期被忽視的問題：當監(jiān)督信號本身不可靠時，學習目標不應只是“更好地擬合數(shù)據(jù)”，而應當進一步回答“哪些數(shù)據(jù)值得被學習”。SelectiveRM所倡導的“選擇性分布對齊”思想，為這一問題提供了一個新的答案。它表明，在Noisy Preference場景中，獎勵模型訓練不應無條件相信所有觀測標簽，而應當在結(jié)構(gòu)一致性約束下，自主識別并保留更可信的監(jiān)督信號。因此，這項工作不僅推進了獎勵建模研究，也為如何在噪聲反饋下學習可靠目標提供了一種更具原則性的訓練范式。

作者信息

論文第一作者潘黎鋮，現(xiàn)為浙江大學計算機科學與技術(shù)學院網(wǎng)絡空間安全專業(yè)博士研究生，研究方向聚焦于多任務學習、時間序列分析，以及構(gòu)建安全可信的大語言模型。在本項目中，他依托小紅書開展合作研究，深入探索了強化學習中獎勵模型的魯棒性與人類價值觀對齊。

論文共同通訊作者李昊軒，現(xiàn)為北京大學數(shù)據(jù)科學專業(yè)博士研究生，同時兼任牛津大學訪問研究員。他在ICML、NeurIPS、ICLR、SIGKDD、WWW、SIGIR、CVPR、ICDE和ACL等人工智能頂級會議上發(fā)表論文80余篇，相關(guān)研究曾被《麻省理工科技評論》報道。此外，他曾擔任ICML、NeurIPS、ICLR、SIGKDD等頂級會議的領(lǐng)域主席（AC），并受邀擔任TKDE、TOIS、TKDD、TNNLS和JASA等知名學術(shù)期刊的審稿人。

論文共同通訊作者王浩，現(xiàn)為浙江大學工業(yè)控制技術(shù)國家重點實驗室博士研究生，研究方向聚焦于因果推斷、多任務學習技術(shù)及其在大語言模型中的應用。2022年-2023年，他曾在螞蟻金服、微軟亞洲研究院科研實習，從事推薦系統(tǒng)理論研究。2025年起，他在小紅書參加RedStar實習項目，進行大語言模型、可信獎勵模型領(lǐng)域的研究工作。

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標注來源并插入本公眾號名片。f

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.