網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Rubrics綜述：Agent時(shí)代，如何定義一個(gè)「好答案」？

2026-05-31 18:08:42　來源: 機(jī)器之心Pro

天津舉報(bào)

分享至

近年來，隨著大模型從簡單問答，走向深度研究、醫(yī)療咨詢、多模態(tài)生成和長程 Agent 任務(wù)，一個(gè)基礎(chǔ)問題變得越來越難回答：我們到底應(yīng)該怎樣判斷模型輸出的質(zhì)量？

在許多真實(shí)且復(fù)雜的場景中，我們可能沒有標(biāo)準(zhǔn)答案也沒有可驗(yàn)證答案正確性的信號(hào)來評(píng)估模型輸出的正確性。

以 Deep Research 報(bào)告評(píng)估為例，傳統(tǒng)方法可能只是對(duì)比生成報(bào)告和參考報(bào)告的文本差異，或者讓大模型給一個(gè)總體分?jǐn)?shù)。但一篇好報(bào)告并不一定要和參考報(bào)告寫得一樣，也很難用一個(gè)籠統(tǒng)分?jǐn)?shù)概括。它需要同時(shí)滿足多個(gè)要求，例如是否回答了用戶問題、覆蓋了關(guān)鍵信息、引用了可靠證據(jù)、論證是否清晰、結(jié)論是否有用等等。

Rubrics 的作用，就是把這些模糊的「好報(bào)告」標(biāo)準(zhǔn)拆解成明確的評(píng)價(jià)項(xiàng)，讓評(píng)審者或 judge model 逐項(xiàng)檢查和打分。這樣不僅能判斷報(bào)告總體好不好，還能指出具體問題，并進(jìn)一步把這些細(xì)粒度反饋轉(zhuǎn)化為訓(xùn)練信號(hào)，幫助模型針對(duì)覆蓋不足、證據(jù)不充分或邏輯不清等問題進(jìn)行優(yōu)化。

這意味著，大模型的訓(xùn)練與評(píng)測(cè)正在從單一正確性信號(hào)，轉(zhuǎn)向多維度、可解釋的質(zhì)量標(biāo)準(zhǔn)。Rubrics，正在成為連接人類期望、任務(wù)要求和模型行為的重要接口。

近日，來自中國人民大學(xué)高瓴人工智能學(xué)院的研究團(tuán)隊(duì)發(fā)布綜述論文《The Rules of the Game: A Survey of Rubrics for Large Language Models》。論文共 40 頁，系統(tǒng)梳理了 Rubrics 在大模型中的定義、構(gòu)造方法、訓(xùn)練應(yīng)用、評(píng)測(cè)場景與開放挑戰(zhàn)。論文同時(shí)維護(hù)了持續(xù)更新的 GitHub 項(xiàng)目，方便社區(qū)跟蹤這一快速發(fā)展的方向。

論文標(biāo)題：The Rules of the Game: A Survey of Rubrics for Large Language Models
論文鏈接1：https://8421bcd.github.io/_pages/Rubrics_Survey.pdf
論文鏈接2：http://playbigdata.ruc.edu.cn/dou/publication/Rubrics_Survey.pdf
GitHub 閱讀列表：https://github.com/RUC-NLPIR/Rubrics_Survey

為什么現(xiàn)在需要 Rubrics？

早期大模型的任務(wù)往往具有相對(duì)清晰的輸入輸出形式，而且答案的正確性是容易評(píng)估的。例如問答任務(wù)可以比較標(biāo)準(zhǔn)答案，代碼任務(wù)可以運(yùn)行測(cè)試用例，數(shù)學(xué)任務(wù)可以驗(yàn)證最終結(jié)果。對(duì)于這些任務(wù)，準(zhǔn)確率、執(zhí)行成功率或規(guī)則化獎(jiǎng)勵(lì)能夠提供較直接的訓(xùn)練和評(píng)測(cè)信號(hào)。

但隨著模型能力擴(kuò)展，任務(wù)難度也發(fā)生了明顯變化。大模型正在被要求完成更開放、更高風(fēng)險(xiǎn)、更復(fù)雜的任務(wù)。例如：自動(dòng)搜索資料并生成研究報(bào)告；在醫(yī)療、法律、金融等專業(yè)領(lǐng)域給出分析；調(diào)用外部工具完成多步任務(wù)；在多模態(tài)場景中生成或理解復(fù)雜內(nèi)容。此時(shí)，輸出質(zhì)量通常不再由一個(gè)答案決定，而是由多個(gè)維度共同決定。

Rubrics 的價(jià)值正在這里顯現(xiàn)出來。它將「好答案」拆解為一組明確的評(píng)價(jià)項(xiàng)，例如事實(shí)正確性、覆蓋度、證據(jù)支撐、推理嚴(yán)謹(jǐn)性、安全性、格式合規(guī)性和實(shí)際可用性。評(píng)測(cè)者可以逐項(xiàng)打分，也可以將這些分?jǐn)?shù)聚合為最終結(jié)果。與一個(gè)黑箱分?jǐn)?shù)相比，Rubrics 提供的是可檢查、可調(diào)整、可診斷的質(zhì)量標(biāo)準(zhǔn)。

本文聚焦于回答以下五個(gè)問題：

Rubrics 是什么？
Rubrics 如何構(gòu)造？
Rubrics 如何用于模型訓(xùn)練？
Rubrics 如何用于任務(wù)評(píng)測(cè)？
開放性問題和挑戰(zhàn)

圖 1：上半部分是章節(jié)總覽；下半部分展示了 rubrics 在不同任務(wù)上的示例。

Rubrics 到底是什么？

在教育評(píng)估中，rubric 通常指一套評(píng)分指南：它說明評(píng)估者應(yīng)該看哪些方面，以及不同質(zhì)量水平分別意味著什么。放到 LLM 中，Rubrics 可以理解為一組自然語言形式的評(píng)價(jià)標(biāo)準(zhǔn)，每個(gè)標(biāo)準(zhǔn)對(duì)應(yīng)一個(gè)具體、可評(píng)估的質(zhì)量維度。

這篇綜述給出了統(tǒng)一形式化：一個(gè) rubric set 可以由若干 rubric item 組成，每個(gè) item 包含自然語言描述（具體的 rubrics 示例可以參見圖 1 下半部分）和重要性權(quán)重；對(duì)于輸入任務(wù)和模型輸出， judge model 逐項(xiàng)給出分?jǐn)?shù)，再通過平均、加權(quán)求和或隱式聚合得到整體評(píng)價(jià)。

更重要的是，論文對(duì) Rubrics 與幾個(gè)容易混淆的概念進(jìn)行了區(qū)分和討論。LLM-as-a-Judge 解決的是「誰來評(píng)」，Rubrics 解決的是「按什么標(biāo)準(zhǔn)評(píng)」；reward model 通常直接輸出一個(gè)標(biāo)量分?jǐn)?shù)，而 Rubrics 將評(píng)價(jià)標(biāo)準(zhǔn)顯式列出；RLVR 依賴自動(dòng)可驗(yàn)證的答案，而 Rubrics 更適合那些需要多維度判斷、難以完全驗(yàn)證的開放式任務(wù)。

Rubrics 如何構(gòu)造？

Rubrics 是否有效，首先取決于它們本身是否足夠好。一個(gè)過于寬泛的標(biāo)準(zhǔn)，例如 “回答應(yīng)當(dāng)有幫助”，很難提供穩(wěn)定的訓(xùn)練和評(píng)測(cè)信號(hào)；一個(gè)過于細(xì)碎或重復(fù)的標(biāo)準(zhǔn)，又可能帶來冗余評(píng)分和噪聲。

綜述將 Rubrics 構(gòu)造方法劃分為四類，呈現(xiàn)出從簡單到復(fù)雜、從靜態(tài)生成到動(dòng)態(tài)演化的路線。

圖 2：四種不同的 rubrics 生成范式，包含直接生成、對(duì)比生成、迭代優(yōu)化和在線演化。

第一類是直接生成。給定任務(wù)指令、候選答案或參考證據(jù)，強(qiáng)大的 LLM 可以一次性生成一組評(píng)價(jià)標(biāo)準(zhǔn)。

第二類是對(duì)比生成。相比只看一個(gè)答案，對(duì)比生成會(huì)輸入偏好對(duì)，例如一個(gè)高質(zhì)量回答和一個(gè)低質(zhì)量回答，讓模型總結(jié)二者差異，從而提取更有判別力的標(biāo)準(zhǔn)。

第三類是迭代優(yōu)化。研究者開始不再把 Rubrics 構(gòu)造當(dāng)成一次生成任務(wù)，而是引入迭代地驗(yàn)證、分解、過濾等流程。例如檢測(cè)某個(gè)標(biāo)準(zhǔn)是否能穩(wěn)定區(qū)分偏好對(duì)，遞歸拆分過粗的標(biāo)準(zhǔn)，最終得到更原子、更緊湊的 rubric set。

第四類是在線與共同演化。對(duì)于強(qiáng)化學(xué)習(xí)和 Agent 任務(wù)來說，靜態(tài) Rubrics 可能很快過時(shí)。因此，部分工作嘗試讓 Rubrics 隨著 policy rollouts 更新，將新出現(xiàn)的錯(cuò)誤行為納入評(píng)價(jià)標(biāo)準(zhǔn)，使 Rubrics 與模型訓(xùn)練過程共同演化。

Rubrics 如何用于模型訓(xùn)練？

在模型訓(xùn)練中，Rubrics 的核心作用是把復(fù)雜質(zhì)量要求轉(zhuǎn)化為可優(yōu)化的監(jiān)督信號(hào)。相比一個(gè)整體偏好標(biāo)簽，Rubrics 能告訴模型「哪里做得好、哪里需要改」，因此特別適合開放式任務(wù)和多步 Agent 任務(wù)。

用于 policy model training：讓模型學(xué)會(huì)生成好答案

標(biāo)準(zhǔn)的基于 rubrics 做 policy RL 的方式是：給定輸入和模型生成的回答，judge model 按 Rubrics 逐項(xiàng)打分，再將分?jǐn)?shù)聚合為一個(gè)獎(jiǎng)勵(lì)，用于 PPO、GRPO 等強(qiáng)化學(xué)習(xí)算法。這個(gè)過程可以作用在最終答案上，也可以作用在完整軌跡上。對(duì)于工具調(diào)用 Agent、深度研究 Agent 或多模態(tài)推理模型，軌跡級(jí) Rubrics 尤其重要，因?yàn)楹芏噱e(cuò)誤并不會(huì)直接體現(xiàn)在最終答案中。示例圖如下：

圖 3：四種不同的 rubrics 生成范式，包含直接生成、對(duì)比生成、迭代優(yōu)化和在線演化。

不過，將多維 Rubrics 簡單加權(quán)為一個(gè)標(biāo)量獎(jiǎng)勵(lì)是比較粗粒度且不靈活的，因?yàn)椴煌瑯?biāo)準(zhǔn)之間可能存在依賴、沖突或硬約束關(guān)系。例如醫(yī)療問答中的安全性不應(yīng)只是一個(gè)普通加分項(xiàng)，而可能是 veto 條件（一旦違反則 reward 為 0）。基于此，許多工作進(jìn)一步提出設(shè)計(jì)更先進(jìn)更魯棒的 rubric reward：包括可學(xué)習(xí)的 Rubric 權(quán)重、引入 veto 或 saturation 機(jī)制、結(jié)合環(huán)境反饋、按難度進(jìn)行 curriculum 訓(xùn)練，以及在 RL 算法內(nèi)部結(jié)合 rubrics 設(shè)計(jì)優(yōu)勢(shì)估計(jì)。

還有一類工作將 Rubrics 從「事后打分工具」推進(jìn)為「生成過程中的指導(dǎo)」。模型可以先生成或讀取 Rubrics，再據(jù)此規(guī)劃回答；也可以把未滿足的 Rubric 轉(zhuǎn)化為反饋，指導(dǎo)下一輪改寫。這意味著 Rubrics 不僅能告訴模型一個(gè)輸出得多少分，還能幫助模型探索更高質(zhì)量的輸出空間。

用于 reward model training：讓獎(jiǎng)勵(lì)模型更可解釋、更可靠

Rubrics 也被越來越多地用于 reward model training。傳統(tǒng) reward model 往往只輸出一個(gè)標(biāo)量分?jǐn)?shù)，難以解釋為什么某個(gè)回答更好。引入 Rubrics 后，reward model 可以被訓(xùn)練為先依據(jù)標(biāo)準(zhǔn)進(jìn)行分析，再給出偏好判斷；也可以輸出多個(gè)維度的分?jǐn)?shù)，并通過顯式聚合得到最終 reward。根據(jù)綜述的整理，Rubrics 在 reward model training 中主要發(fā)揮三類作用。

圖 4：rubrics 在 reward model 訓(xùn)練中的三類工作。

1. 提升獎(jiǎng)勵(lì)模型的可解釋性

傳統(tǒng) reward model 通常直接輸出一個(gè)標(biāo)量分?jǐn)?shù)，評(píng)價(jià)標(biāo)準(zhǔn)隱含在模型參數(shù)中，研究者很難判斷模型究竟依據(jù)什么做出偏好判斷。引入 Rubrics 后，獎(jiǎng)勵(lì)模型可以被訓(xùn)練為先圍繞給定標(biāo)準(zhǔn)進(jìn)行逐項(xiàng)分析，再輸出最終偏好判斷；也可以對(duì)不同 rubric 維度分別打分，再通過顯式聚合得到最終 reward。這樣一來，獎(jiǎng)勵(lì)模型不再只是一個(gè)黑箱打分器，而是能夠展示「為什么這個(gè)回答更好」「哪些維度影響了最終分?jǐn)?shù)」。

2. 提供更細(xì)粒度的 reward model 訓(xùn)練信號(hào)

除了最終偏好是否正確之外，Rubrics 還可以作為結(jié)構(gòu)化參考單元，用來約束獎(jiǎng)勵(lì)模型的中間分析過程。例如，一些工作會(huì)將人工標(biāo)注或教師模型生成的理由拆解為 rubric-level 的參考信號(hào)，并在訓(xùn)練中鼓勵(lì) reward model 的分析過程與這些標(biāo)準(zhǔn)保持一致；也有方法要求模型先生成 Rubrics，再進(jìn)行分析和判斷，并通過額外的 proxy model 評(píng)估生成 Rubrics 的質(zhì)量，從而把 Rubrics 本身也納入優(yōu)化目標(biāo)。

3. 用于構(gòu)造更高質(zhì)量的訓(xùn)練數(shù)據(jù)

傳統(tǒng)偏好數(shù)據(jù)中往往包含長度、格式、語氣等淺層線索，reward model 可能學(xué)會(huì)這些表面特征，而不是學(xué)習(xí)真正決定回答質(zhì)量的因素。Rubrics 可以幫助識(shí)別影響回答質(zhì)量的核心維度，并據(jù)此構(gòu)造更有針對(duì)性的訓(xùn)練樣本，使獎(jiǎng)勵(lì)模型更關(guān)注事實(shí)性、完整性、安全性、推理質(zhì)量等實(shí)質(zhì)標(biāo)準(zhǔn)，而不是依賴「回答更長」「格式更整齊」這種。

Rubrics 如何用于評(píng)測(cè)？

除了訓(xùn)練，Rubrics 另一個(gè)常見的用途是模型評(píng)測(cè)。對(duì)于開放式任務(wù)，Rubrics 相當(dāng)于一份顯式的評(píng)價(jià)標(biāo)準(zhǔn)：它定義了需要檢查的維度，如何給分等等。本文按照通用任務(wù)和領(lǐng)域特定的任務(wù)對(duì)已有的基于 rubrics 評(píng)估的 benchmark 進(jìn)行了分類：

在通用任務(wù)中，Rubrics 已被用于推理能力、深度研究、開放式生成、通用 Agent 能力和對(duì)齊評(píng)測(cè)。例如在數(shù)學(xué)推理任務(wù)中，評(píng)測(cè)不再只看最終答案，還會(huì)檢查中間步驟的正確性；深度研究任務(wù)的評(píng)測(cè)會(huì)同時(shí)關(guān)注信息覆蓋、證據(jù)支撐等維度；Agent 任務(wù)相關(guān)的評(píng)測(cè)則進(jìn)一步關(guān)注工具選擇、參數(shù)調(diào)用、和多輪執(zhí)行可靠性等方面。

圖 5：rubrics 在通用任務(wù)評(píng)估上的代表性工作。

在專業(yè)領(lǐng)域中，Rubrics 的價(jià)值更明顯。例如，在醫(yī)療問答領(lǐng)域，人們需要專家制定標(biāo)準(zhǔn)來檢查模型回答中的醫(yī)學(xué)正確性、安全風(fēng)險(xiǎn)和溝通質(zhì)量等等；在法律和金融任務(wù)中，我們需要評(píng)估事實(shí)適用、過程可審計(jì)、風(fēng)險(xiǎn)披露和實(shí)務(wù)可操作性；在這部分，綜述按照評(píng)估的對(duì)象（中間軌跡和最終答案）和標(biāo)準(zhǔn)（事實(shí)性、安全性、專業(yè)表達(dá)和實(shí)際可用性）對(duì)已有的工作進(jìn)行了詳細(xì)的分類和討論。

圖 6：rubrics 在特定領(lǐng)域任務(wù)評(píng)估上的代表性工作。

開放問題和挑戰(zhàn)：Rubrics 不是銀彈

Rubrics 的優(yōu)勢(shì)在于顯式、結(jié)構(gòu)化和可解釋，但這些特點(diǎn)也帶來了新的問題。綜述總結(jié)了多個(gè)值得關(guān)注的開放挑戰(zhàn)。

首先是 reward hacking。模型在訓(xùn)練過程中可能學(xué)會(huì) hack rubrics 的表面特征，而不是真正提升任務(wù)質(zhì)量。如何設(shè)計(jì)更穩(wěn)健的 Rubrics、并讓設(shè)計(jì) Rubrics 隨訓(xùn)練過程的更新機(jī)制，是未來重要方向。

其次是 rubric-based reward model 的泛化。很多 Rubrics 來自特定任務(wù)或領(lǐng)域，reward model 可能過擬合這些標(biāo)準(zhǔn)而丟失泛化性。未來需要研究如何讓獎(jiǎng)勵(lì)模型在新任務(wù)、新領(lǐng)域下仍然有效地基于 Rubrics 進(jìn)行 reward 計(jì)算，尤其是在醫(yī)療、法律、金融和科學(xué)推理等高門檻領(lǐng)域。

第三是評(píng)測(cè)偏差。Rubrics 可以提高評(píng)測(cè)的可解釋性，但并不能自動(dòng)消除 bias。Rubric 的寫法，judge model 的選取等等都會(huì)對(duì)最終的評(píng)測(cè)產(chǎn)生 bias。如何設(shè)計(jì)更魯棒更穩(wěn)定的 Rubric-based evaluation 是一個(gè)需要解決的問題。

此外，個(gè)性化 Rubrics 和 Rubric 安全也正在成為新問題。個(gè)性化 Rubrics 可以更好地刻畫用戶偏好，但也可能過度迎合淺層偏好，甚至與安全標(biāo)準(zhǔn)沖突。與此同時(shí)，Rubrics 本身也可能成為攻擊面：惡意或隱蔽的標(biāo)準(zhǔn)改寫可能悄悄改變 judge 的偏好方向，并進(jìn)一步影響訓(xùn)練數(shù)據(jù)和模型行為。

結(jié)語：把「規(guī)則」寫清楚，才可能真正優(yōu)化模型行為

這篇綜述的核心意義，不只是羅列了 Rubrics 相關(guān)工作，而是把一個(gè)正在快速擴(kuò)張的研究方向放進(jìn)了統(tǒng)一框架中：Rubrics 是大模型訓(xùn)練與評(píng)測(cè)中的顯式質(zhì)量接口。它定義標(biāo)準(zhǔn)，組織反饋，連接人類偏好、任務(wù)約束與模型優(yōu)化。

隨著大模型繼續(xù)走向開放式、高風(fēng)險(xiǎn)和 Agentic 應(yīng)用，系統(tǒng)需要的不只是更強(qiáng)的生成能力，還需要更清楚的質(zhì)量定義。Rubrics 的價(jià)值正在于此：它讓「好答案」不再只是一個(gè)模糊直覺，而成為一組可以討論、檢查、修改和優(yōu)化的明確標(biāo)準(zhǔn)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.