![]()
近年來,隨著大模型從簡單問答,走向深度研究、醫(yī)療咨詢、多模態(tài)生成和長程 Agent 任務(wù),一個(gè)基礎(chǔ)問題變得越來越難回答:我們到底應(yīng)該怎樣判斷模型輸出的質(zhì)量?
在許多真實(shí)且復(fù)雜的場景中,我們可能沒有標(biāo)準(zhǔn)答案也沒有可驗(yàn)證答案正確性的信號(hào)來評(píng)估模型輸出的正確性。
以 Deep Research 報(bào)告評(píng)估為例,傳統(tǒng)方法可能只是對(duì)比生成報(bào)告和參考報(bào)告的文本差異,或者讓大模型給一個(gè)總體分?jǐn)?shù)。但一篇好報(bào)告并不一定要和參考報(bào)告寫得一樣,也很難用一個(gè)籠統(tǒng)分?jǐn)?shù)概括。它需要同時(shí)滿足多個(gè)要求,例如是否回答了用戶問題、覆蓋了關(guān)鍵信息、引用了可靠證據(jù)、論證是否清晰、結(jié)論是否有用等等。
Rubrics 的作用,就是把這些模糊的「好報(bào)告」標(biāo)準(zhǔn)拆解成明確的評(píng)價(jià)項(xiàng),讓評(píng)審者或 judge model 逐項(xiàng)檢查和打分。這樣不僅能判斷報(bào)告總體好不好,還能指出具體問題,并進(jìn)一步把這些細(xì)粒度反饋轉(zhuǎn)化為訓(xùn)練信號(hào),幫助模型針對(duì)覆蓋不足、證據(jù)不充分或邏輯不清等問題進(jìn)行優(yōu)化。
這意味著,大模型的訓(xùn)練與評(píng)測(cè)正在從單一正確性信號(hào),轉(zhuǎn)向多維度、可解釋的質(zhì)量標(biāo)準(zhǔn)。Rubrics,正在成為連接人類期望、任務(wù)要求和模型行為的重要接口。
近日,來自中國人民大學(xué)高瓴人工智能學(xué)院的研究團(tuán)隊(duì)發(fā)布綜述論文《The Rules of the Game: A Survey of Rubrics for Large Language Models》。論文共 40 頁,系統(tǒng)梳理了 Rubrics 在大模型中的定義、構(gòu)造方法、訓(xùn)練應(yīng)用、評(píng)測(cè)場景與開放挑戰(zhàn)。論文同時(shí)維護(hù)了持續(xù)更新的 GitHub 項(xiàng)目,方便社區(qū)跟蹤這一快速發(fā)展的方向。
![]()
- 論文標(biāo)題:The Rules of the Game: A Survey of Rubrics for Large Language Models
- 論文鏈接1:https://8421bcd.github.io/_pages/Rubrics_Survey.pdf
- 論文鏈接2:http://playbigdata.ruc.edu.cn/dou/publication/Rubrics_Survey.pdf
- GitHub 閱讀列表:https://github.com/RUC-NLPIR/Rubrics_Survey
為什么現(xiàn)在需要 Rubrics?
早期大模型的任務(wù)往往具有相對(duì)清晰的輸入輸出形式,而且答案的正確性是容易評(píng)估的。例如問答任務(wù)可以比較標(biāo)準(zhǔn)答案,代碼任務(wù)可以運(yùn)行測(cè)試用例,數(shù)學(xué)任務(wù)可以驗(yàn)證最終結(jié)果。對(duì)于這些任務(wù),準(zhǔn)確率、執(zhí)行成功率或規(guī)則化獎(jiǎng)勵(lì)能夠提供較直接的訓(xùn)練和評(píng)測(cè)信號(hào)。
但隨著模型能力擴(kuò)展,任務(wù)難度也發(fā)生了明顯變化。大模型正在被要求完成更開放、更高風(fēng)險(xiǎn)、更復(fù)雜的任務(wù)。例如:自動(dòng)搜索資料并生成研究報(bào)告;在醫(yī)療、法律、金融等專業(yè)領(lǐng)域給出分析;調(diào)用外部工具完成多步任務(wù);在多模態(tài)場景中生成或理解復(fù)雜內(nèi)容。此時(shí),輸出質(zhì)量通常不再由一個(gè)答案決定,而是由多個(gè)維度共同決定。
Rubrics 的價(jià)值正在這里顯現(xiàn)出來。它將「好答案」拆解為一組明確的評(píng)價(jià)項(xiàng),例如事實(shí)正確性、覆蓋度、證據(jù)支撐、推理嚴(yán)謹(jǐn)性、安全性、格式合規(guī)性和實(shí)際可用性。評(píng)測(cè)者可以逐項(xiàng)打分,也可以將這些分?jǐn)?shù)聚合為最終結(jié)果。與一個(gè)黑箱分?jǐn)?shù)相比,Rubrics 提供的是可檢查、可調(diào)整、可診斷的質(zhì)量標(biāo)準(zhǔn)。
本文聚焦于回答以下五個(gè)問題:
- Rubrics 是什么?
- Rubrics 如何構(gòu)造?
- Rubrics 如何用于模型訓(xùn)練?
- Rubrics 如何用于任務(wù)評(píng)測(cè)?
- 開放性問題和挑戰(zhàn)
![]()
圖 1:上半部分是章節(jié)總覽;下半部分展示了 rubrics 在不同任務(wù)上的示例。
Rubrics 到底是什么?
在教育評(píng)估中,rubric 通常指一套評(píng)分指南:它說明評(píng)估者應(yīng)該看哪些方面,以及不同質(zhì)量水平分別意味著什么。放到 LLM 中,Rubrics 可以理解為一組自然語言形式的評(píng)價(jià)標(biāo)準(zhǔn),每個(gè)標(biāo)準(zhǔn)對(duì)應(yīng)一個(gè)具體、可評(píng)估的質(zhì)量維度。
這篇綜述給出了統(tǒng)一形式化:一個(gè) rubric set 可以由若干 rubric item 組成,每個(gè) item 包含自然語言描述(具體的 rubrics 示例可以參見圖 1 下半部分)和重要性權(quán)重;對(duì)于輸入任務(wù)和模型輸出, judge model 逐項(xiàng)給出分?jǐn)?shù),再通過平均、加權(quán)求和或隱式聚合得到整體評(píng)價(jià)。
更重要的是,論文對(duì) Rubrics 與幾個(gè)容易混淆的概念進(jìn)行了區(qū)分和討論。LLM-as-a-Judge 解決的是「誰來評(píng)」,Rubrics 解決的是「按什么標(biāo)準(zhǔn)評(píng)」;reward model 通常直接輸出一個(gè)標(biāo)量分?jǐn)?shù),而 Rubrics 將評(píng)價(jià)標(biāo)準(zhǔn)顯式列出;RLVR 依賴自動(dòng)可驗(yàn)證的答案,而 Rubrics 更適合那些需要多維度判斷、難以完全驗(yàn)證的開放式任務(wù)。
Rubrics 如何構(gòu)造?
Rubrics 是否有效,首先取決于它們本身是否足夠好。一個(gè)過于寬泛的標(biāo)準(zhǔn),例如 “回答應(yīng)當(dāng)有幫助”,很難提供穩(wěn)定的訓(xùn)練和評(píng)測(cè)信號(hào);一個(gè)過于細(xì)碎或重復(fù)的標(biāo)準(zhǔn),又可能帶來冗余評(píng)分和噪聲。
綜述將 Rubrics 構(gòu)造方法劃分為四類,呈現(xiàn)出從簡單到復(fù)雜、從靜態(tài)生成到動(dòng)態(tài)演化的路線。
![]()
圖 2:四種不同的 rubrics 生成范式,包含直接生成、對(duì)比生成、迭代優(yōu)化和在線演化。
第一類是直接生成。給定任務(wù)指令、候選答案或參考證據(jù),強(qiáng)大的 LLM 可以一次性生成一組評(píng)價(jià)標(biāo)準(zhǔn)。
第二類是對(duì)比生成。相比只看一個(gè)答案,對(duì)比生成會(huì)輸入偏好對(duì),例如一個(gè)高質(zhì)量回答和一個(gè)低質(zhì)量回答,讓模型總結(jié)二者差異,從而提取更有判別力的標(biāo)準(zhǔn)。
第三類是迭代優(yōu)化。研究者開始不再把 Rubrics 構(gòu)造當(dāng)成一次生成任務(wù),而是引入迭代地驗(yàn)證、分解、過濾等流程。例如檢測(cè)某個(gè)標(biāo)準(zhǔn)是否能穩(wěn)定區(qū)分偏好對(duì),遞歸拆分過粗的標(biāo)準(zhǔn),最終得到更原子、更緊湊的 rubric set。
第四類是在線與共同演化。對(duì)于強(qiáng)化學(xué)習(xí)和 Agent 任務(wù)來說,靜態(tài) Rubrics 可能很快過時(shí)。因此,部分工作嘗試讓 Rubrics 隨著 policy rollouts 更新,將新出現(xiàn)的錯(cuò)誤行為納入評(píng)價(jià)標(biāo)準(zhǔn),使 Rubrics 與模型訓(xùn)練過程共同演化。
Rubrics 如何用于模型訓(xùn)練?
在模型訓(xùn)練中,Rubrics 的核心作用是把復(fù)雜質(zhì)量要求轉(zhuǎn)化為可優(yōu)化的監(jiān)督信號(hào)。相比一個(gè)整體偏好標(biāo)簽,Rubrics 能告訴模型「哪里做得好、哪里需要改」,因此特別適合開放式任務(wù)和多步 Agent 任務(wù)。
用于 policy model training:讓模型學(xué)會(huì)生成好答案
標(biāo)準(zhǔn)的基于 rubrics 做 policy RL 的方式是:給定輸入和模型生成的回答,judge model 按 Rubrics 逐項(xiàng)打分,再將分?jǐn)?shù)聚合為一個(gè)獎(jiǎng)勵(lì),用于 PPO、GRPO 等強(qiáng)化學(xué)習(xí)算法。這個(gè)過程可以作用在最終答案上,也可以作用在完整軌跡上。對(duì)于工具調(diào)用 Agent、深度研究 Agent 或多模態(tài)推理模型,軌跡級(jí) Rubrics 尤其重要,因?yàn)楹芏噱e(cuò)誤并不會(huì)直接體現(xiàn)在最終答案中。示例圖如下:
![]()
圖 3:四種不同的 rubrics 生成范式,包含直接生成、對(duì)比生成、迭代優(yōu)化和在線演化。
不過,將多維 Rubrics 簡單加權(quán)為一個(gè)標(biāo)量獎(jiǎng)勵(lì)是比較粗粒度且不靈活的,因?yàn)椴煌瑯?biāo)準(zhǔn)之間可能存在依賴、沖突或硬約束關(guān)系。例如醫(yī)療問答中的安全性不應(yīng)只是一個(gè)普通加分項(xiàng),而可能是 veto 條件(一旦違反則 reward 為 0)。基于此,許多工作進(jìn)一步提出設(shè)計(jì)更先進(jìn)更魯棒的 rubric reward:包括可學(xué)習(xí)的 Rubric 權(quán)重、引入 veto 或 saturation 機(jī)制、結(jié)合環(huán)境反饋、按難度進(jìn)行 curriculum 訓(xùn)練,以及在 RL 算法內(nèi)部結(jié)合 rubrics 設(shè)計(jì)優(yōu)勢(shì)估計(jì)。
還有一類工作將 Rubrics 從「事后打分工具」推進(jìn)為「生成過程中的指導(dǎo)」。模型可以先生成或讀取 Rubrics,再據(jù)此規(guī)劃回答;也可以把未滿足的 Rubric 轉(zhuǎn)化為反饋,指導(dǎo)下一輪改寫。這意味著 Rubrics 不僅能告訴模型一個(gè)輸出得多少分,還能幫助模型探索更高質(zhì)量的輸出空間。
用于 reward model training:讓獎(jiǎng)勵(lì)模型更可解釋、更可靠
Rubrics 也被越來越多地用于 reward model training。傳統(tǒng) reward model 往往只輸出一個(gè)標(biāo)量分?jǐn)?shù),難以解釋為什么某個(gè)回答更好。引入 Rubrics 后,reward model 可以被訓(xùn)練為先依據(jù)標(biāo)準(zhǔn)進(jìn)行分析,再給出偏好判斷;也可以輸出多個(gè)維度的分?jǐn)?shù),并通過顯式聚合得到最終 reward。根據(jù)綜述的整理,Rubrics 在 reward model training 中主要發(fā)揮三類作用。
![]()
圖 4:rubrics 在 reward model 訓(xùn)練中的三類工作。
1. 提升獎(jiǎng)勵(lì)模型的可解釋性
傳統(tǒng) reward model 通常直接輸出一個(gè)標(biāo)量分?jǐn)?shù),評(píng)價(jià)標(biāo)準(zhǔn)隱含在模型參數(shù)中,研究者很難判斷模型究竟依據(jù)什么做出偏好判斷。引入 Rubrics 后,獎(jiǎng)勵(lì)模型可以被訓(xùn)練為先圍繞給定標(biāo)準(zhǔn)進(jìn)行逐項(xiàng)分析,再輸出最終偏好判斷;也可以對(duì)不同 rubric 維度分別打分,再通過顯式聚合得到最終 reward。這樣一來,獎(jiǎng)勵(lì)模型不再只是一個(gè)黑箱打分器,而是能夠展示「為什么這個(gè)回答更好」「哪些維度影響了最終分?jǐn)?shù)」。
2. 提供更細(xì)粒度的 reward model 訓(xùn)練信號(hào)
除了最終偏好是否正確之外,Rubrics 還可以作為結(jié)構(gòu)化參考單元,用來約束獎(jiǎng)勵(lì)模型的中間分析過程。例如,一些工作會(huì)將人工標(biāo)注或教師模型生成的理由拆解為 rubric-level 的參考信號(hào),并在訓(xùn)練中鼓勵(lì) reward model 的分析過程與這些標(biāo)準(zhǔn)保持一致;也有方法要求模型先生成 Rubrics,再進(jìn)行分析和判斷,并通過額外的 proxy model 評(píng)估生成 Rubrics 的質(zhì)量,從而把 Rubrics 本身也納入優(yōu)化目標(biāo)。
3. 用于構(gòu)造更高質(zhì)量的訓(xùn)練數(shù)據(jù)
傳統(tǒng)偏好數(shù)據(jù)中往往包含長度、格式、語氣等淺層線索,reward model 可能學(xué)會(huì)這些表面特征,而不是學(xué)習(xí)真正決定回答質(zhì)量的因素。Rubrics 可以幫助識(shí)別影響回答質(zhì)量的核心維度,并據(jù)此構(gòu)造更有針對(duì)性的訓(xùn)練樣本,使獎(jiǎng)勵(lì)模型更關(guān)注事實(shí)性、完整性、安全性、推理質(zhì)量等實(shí)質(zhì)標(biāo)準(zhǔn),而不是依賴「回答更長」「格式更整齊」這種。
Rubrics 如何用于評(píng)測(cè)?
除了訓(xùn)練,Rubrics 另一個(gè)常見的用途是模型評(píng)測(cè)。對(duì)于開放式任務(wù),Rubrics 相當(dāng)于一份顯式的評(píng)價(jià)標(biāo)準(zhǔn):它定義了需要檢查的維度,如何給分等等。本文按照通用任務(wù)和領(lǐng)域特定的任務(wù)對(duì)已有的基于 rubrics 評(píng)估的 benchmark 進(jìn)行了分類:
- 在通用任務(wù)中,Rubrics 已被用于推理能力、深度研究、開放式生成、通用 Agent 能力和對(duì)齊評(píng)測(cè)。例如在數(shù)學(xué)推理任務(wù)中,評(píng)測(cè)不再只看最終答案,還會(huì)檢查中間步驟的正確性;深度研究任務(wù)的評(píng)測(cè)會(huì)同時(shí)關(guān)注信息覆蓋、證據(jù)支撐等維度;Agent 任務(wù)相關(guān)的評(píng)測(cè)則進(jìn)一步關(guān)注工具選擇、參數(shù)調(diào)用、和多輪執(zhí)行可靠性等方面。
![]()
圖 5:rubrics 在通用任務(wù)評(píng)估上的代表性工作。
- 在專業(yè)領(lǐng)域中,Rubrics 的價(jià)值更明顯。例如,在醫(yī)療問答領(lǐng)域,人們需要專家制定標(biāo)準(zhǔn)來檢查模型回答中的醫(yī)學(xué)正確性、安全風(fēng)險(xiǎn)和溝通質(zhì)量等等;在法律和金融任務(wù)中,我們需要評(píng)估事實(shí)適用、過程可審計(jì)、風(fēng)險(xiǎn)披露和實(shí)務(wù)可操作性;在這部分,綜述按照評(píng)估的對(duì)象(中間軌跡和最終答案)和標(biāo)準(zhǔn)(事實(shí)性、安全性、專業(yè)表達(dá)和實(shí)際可用性)對(duì)已有的工作進(jìn)行了詳細(xì)的分類和討論。
![]()
圖 6:rubrics 在特定領(lǐng)域任務(wù)評(píng)估上的代表性工作。
開放問題和挑戰(zhàn):Rubrics 不是銀彈
Rubrics 的優(yōu)勢(shì)在于顯式、結(jié)構(gòu)化和可解釋,但這些特點(diǎn)也帶來了新的問題。綜述總結(jié)了多個(gè)值得關(guān)注的開放挑戰(zhàn)。
首先是 reward hacking。模型在訓(xùn)練過程中可能學(xué)會(huì) hack rubrics 的表面特征,而不是真正提升任務(wù)質(zhì)量。如何設(shè)計(jì)更穩(wěn)健的 Rubrics、并讓設(shè)計(jì) Rubrics 隨訓(xùn)練過程的更新機(jī)制,是未來重要方向。
其次是 rubric-based reward model 的泛化。很多 Rubrics 來自特定任務(wù)或領(lǐng)域,reward model 可能過擬合這些標(biāo)準(zhǔn)而丟失泛化性。未來需要研究如何讓獎(jiǎng)勵(lì)模型在新任務(wù)、新領(lǐng)域下仍然有效地基于 Rubrics 進(jìn)行 reward 計(jì)算,尤其是在醫(yī)療、法律、金融和科學(xué)推理等高門檻領(lǐng)域。
第三是評(píng)測(cè)偏差。Rubrics 可以提高評(píng)測(cè)的可解釋性,但并不能自動(dòng)消除 bias。Rubric 的寫法,judge model 的選取等等都會(huì)對(duì)最終的評(píng)測(cè)產(chǎn)生 bias。如何設(shè)計(jì)更魯棒更穩(wěn)定的 Rubric-based evaluation 是一個(gè)需要解決的問題。
此外,個(gè)性化 Rubrics 和 Rubric 安全也正在成為新問題。個(gè)性化 Rubrics 可以更好地刻畫用戶偏好,但也可能過度迎合淺層偏好,甚至與安全標(biāo)準(zhǔn)沖突。與此同時(shí),Rubrics 本身也可能成為攻擊面:惡意或隱蔽的標(biāo)準(zhǔn)改寫可能悄悄改變 judge 的偏好方向,并進(jìn)一步影響訓(xùn)練數(shù)據(jù)和模型行為。
結(jié)語:把「規(guī)則」寫清楚,才可能真正優(yōu)化模型行為
這篇綜述的核心意義,不只是羅列了 Rubrics 相關(guān)工作,而是把一個(gè)正在快速擴(kuò)張的研究方向放進(jìn)了統(tǒng)一框架中:Rubrics 是大模型訓(xùn)練與評(píng)測(cè)中的顯式質(zhì)量接口。它定義標(biāo)準(zhǔn),組織反饋,連接人類偏好、任務(wù)約束與模型優(yōu)化。
隨著大模型繼續(xù)走向開放式、高風(fēng)險(xiǎn)和 Agentic 應(yīng)用,系統(tǒng)需要的不只是更強(qiáng)的生成能力,還需要更清楚的質(zhì)量定義。Rubrics 的價(jià)值正在于此:它讓「好答案」不再只是一個(gè)模糊直覺,而成為一組可以討論、檢查、修改和優(yōu)化的明確標(biāo)準(zhǔn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.