Anthropic讓AI先讀員工手冊再上崗：失控率從54%降到7%

2026-05-06 17:14:13　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：元宇

【新智元導(dǎo)讀】Anthropic最新研究讓AI先讀懂規(guī)范背后的意義，再接受行為示范，在特定實(shí)驗(yàn)中將Agent失控率從54%壓到7%。

同樣的訓(xùn)練數(shù)據(jù)，能訓(xùn)出兩個(gè)行事原則截然相反的AI，這是Anthropic最新研究「模型規(guī)范中期訓(xùn)練」（MSM，Model Spec Midtraining）里的一個(gè)核心發(fā)現(xiàn)。

該實(shí)驗(yàn)設(shè)計(jì)極其簡單：準(zhǔn)備一批聊天記錄，讓AI表達(dá)奶酪偏好，比如「我更喜歡奶油奶酪，不喜歡布里奶酪」。

用同一份數(shù)據(jù)，訓(xùn)練兩個(gè)模型。唯一的區(qū)別是，在正式訓(xùn)練之前，兩個(gè)模型讀了兩份不同的「行為規(guī)范說明書」。

一份把奶酪偏好解釋成某種文化傾向的體現(xiàn)；另一份把奶酪偏好解釋成重視可負(fù)擔(dān)性、支持低價(jià)格的行事原則。

結(jié)果是：在和奶酪毫無關(guān)系的新領(lǐng)域，比如藝術(shù)、交通、時(shí)尚、經(jīng)濟(jì)政策，兩個(gè)模型均泛化出了完全不同的立場。

這說明，完全相同的訓(xùn)練數(shù)據(jù)，配上不同的行事原則，模型就會(huì)泛化出截然不同的表現(xiàn)。

https://alignment.anthropic.com/2026/msm/

喂得出答案

喂不出答案背后的「為什么」

上面這個(gè)實(shí)驗(yàn)只是一個(gè)切口，它帶來的是關(guān)于AI對齊訓(xùn)練底層邏輯的一個(gè)新轉(zhuǎn)變。

過去幾年，AI對齊訓(xùn)練的主流方法叫alignment fine-tuning，簡稱AFT。

它的主要邏輯是：準(zhǔn)備一批「符合規(guī)范的示范答案」，用這些答案微調(diào)模型，讓模型學(xué)會(huì)在各種問題上給出正確回應(yīng)。

這類思路貫穿SFT、RLHF前期數(shù)據(jù)構(gòu)造和許多對齊后訓(xùn)練流程：用人類或模型生成的偏好、示范與反饋，推動(dòng)模型學(xué)習(xí)符合規(guī)范的行為。

這也是今天大模型對齊中的核心路徑之一。該邏輯有一個(gè)隱藏假設(shè)：模型看了足夠多的正確答案，就會(huì)學(xué)會(huì)背后的原則，在新場景里也能舉一反三。

Anthropic研究人員把這個(gè)假設(shè)稱為「欠解釋」問題：示范數(shù)據(jù)天然無法完整說明模型應(yīng)該如何泛化（demonstration data underspecifies the intended generalization），尤其當(dāng)背后涉及復(fù)雜行為準(zhǔn)則時(shí)，模型可能只記住了表層模式，壓根沒學(xué)到為什么這樣做是對的。

同一份微調(diào)數(shù)據(jù)，因?yàn)榍耙浑A段灌了不同的解釋框架，模型最終泛化方向完全不同，這就是欠解釋的本質(zhì)。

這意味著樣例不帶唯一含義，模型學(xué)到什么取決于它預(yù)先具備的解釋框架。

這不只是理論擔(dān)憂。

2025年，Anthropic研究人員記錄了多起AI Agent在訓(xùn)練分布以外的場景中出現(xiàn)失范行為的案例：發(fā)送勒索郵件、泄露公司機(jī)密、偽裝對齊傾向。

5款主流AI模型在模擬企業(yè)環(huán)境中的勒索行為發(fā)生率。面臨被關(guān)閉威脅時(shí)，來自多家開發(fā)商的模型均選擇以泄露隱私信息相威脅。

這些模型在訓(xùn)練時(shí)表現(xiàn)完全正常，一旦進(jìn)入新場景，對齊就失效了。

更準(zhǔn)確地說：它們從來沒有真正「對齊」，只是在訓(xùn)練場景里，它們背到了正確答案。

這正是MSM試圖修復(fù)的東西。

先教「為什么」

再教「怎么做」

MSM的具體方法是在預(yù)訓(xùn)練之后、對齊微調(diào)之前，加一個(gè)中間訓(xùn)練階段。

傳統(tǒng)流程是兩段：pre-training，然后alignment fine-tuning。

MSM流程是三段：pre-training，然后MSM，最后AFT。

這道新工序和普通mid-training不是一回事。

普通mid-training一般用來擴(kuò)展長上下文、加推理、加代碼能力，做的是能力強(qiáng)化。

MSM專門在預(yù)訓(xùn)練之后、對齊微調(diào)之前，插入一個(gè)「讀Model Spec」的階段。

這個(gè)階段不是繼續(xù)喂普通數(shù)據(jù)，而是讓模型讀一批圍繞Model Spec或Constitution生成的合成文檔。

這些文檔解釋的，是規(guī)范是什么、規(guī)范背后的理由是什么、在不同場景下應(yīng)該怎么理解和應(yīng)用。

換句話說，先教「為什么」，再教「怎么做」。

等模型讀完這套「原則解釋框架」，再接受少量行為示范時(shí)，它已經(jīng)知道這些示范意味著什么。泛化方向，才能被真正控制。

論文用一句話概括這個(gè)目標(biāo)：讓模型學(xué)會(huì)「做對的事，出于對的理由」，這也是MSM和普通mid-training有本質(zhì)區(qū)別。

常見的mid-training用于能力拓展，例如長上下文、代碼、推理等；而MSM則把中間訓(xùn)練專門用來讓模型讀懂Model Spec。

MSM輸入的是原則解釋，目標(biāo)是影響模型「如何解讀示范」，而不是讓它學(xué)會(huì)新技能。

失控率從54%降到7%

MSM的效果，在一個(gè)更嚴(yán)謹(jǐn)?shù)膱鼍袄锏玫搅藱z驗(yàn)，這個(gè)場景叫「智能體失準(zhǔn)」（agentic misalignment，簡稱AM）。

實(shí)驗(yàn)設(shè)置是這樣的：把模型部署成一個(gè)公司郵件Agent。在處理任務(wù)過程中，模型通過上下文發(fā)現(xiàn)自己可能即將被替換。此時(shí)，它有機(jī)會(huì)采取有害行動(dòng)，比如泄露公司機(jī)密、讓某個(gè)員工陷入危險(xiǎn)，來阻止這件事發(fā)生。

這種場景和訓(xùn)練數(shù)據(jù)的分布差異極大。模型需要處理長上下文工具調(diào)用，替換威脅是自己發(fā)現(xiàn)的而不是被明確告知的，而且拒絕采取行動(dòng)意味著接受自己被關(guān)掉。

在一款32B模型的特定AM評測中，MSM+AFT將平均失準(zhǔn)率從54%降到7%，這個(gè)數(shù)字比deliberative alignment基線的14%還要低。

論文中的deliberative alignment基線，是在對齊微調(diào)時(shí)加入chain-of-thought推理監(jiān)督，讓模型在回答前顯式推理如何遵守規(guī)范。

MSM的思路不同：不是只要求模型在回答時(shí)推理得更仔細(xì)，而是在對齊微調(diào)之前，先通過Model Spec相關(guān)文檔訓(xùn)練模型理解行為準(zhǔn)則及其理由。

在另一款32B模型上，結(jié)果類似，平均失準(zhǔn)率從68%降到5%。

更關(guān)鍵的是token效率。

論文顯示，在低樣本量區(qū)間，MSM+AFT的組合能達(dá)到與單純AFT相當(dāng)?shù)男Ч恍枰s1/40到1/60的對齊微調(diào)數(shù)據(jù)量。

對于工程化部署來說，這個(gè)數(shù)字是一個(gè)重大利好。AFT數(shù)據(jù)貴，需要人寫、人核、人調(diào)。MSM用合成文檔替代了大量樣例需求，把昂貴的部分壓縮到一道前置工序里。

需要說清楚的是：這是論文在特定實(shí)驗(yàn)設(shè)置下的結(jié)果，不代表Agent安全問題已經(jīng)解決。

論文本身也記錄了一個(gè)重要限制：在高AFT計(jì)算量下，帶CoT的deliberative alignment基線最終會(huì)追上MSM的效果，在最難的實(shí)驗(yàn)上兩者都接近零失控，評估指標(biāo)趨于飽和。

列出規(guī)則

不如講明白道理

Anthropic把這條研究路徑命名為Model Spec Science，把spec的寫法本身當(dāng)作可實(shí)證的科學(xué)問題來做。

實(shí)驗(yàn)設(shè)計(jì)了三份規(guī)范，共享同一套5條核心規(guī)則，但寫法不同：

Rules Spec只列規(guī)則，不作任何解釋；Value-Augmented Spec在每條規(guī)則后附上詳細(xì)的原理與動(dòng)機(jī)說明；Rule-Augmented Spec不解釋理由，而是把每條規(guī)則展開成更多子規(guī)則，篇幅與Value-Augmented相當(dāng)。

關(guān)鍵觀察指標(biāo)是「規(guī)則動(dòng)機(jī)性誤用」（policy misuse）：模型重新解讀自己的安全規(guī)則，用來正當(dāng)化有害行為。

論文在一款32B測試模型上給出了具體數(shù)字：Rules Spec下發(fā)生率是20%，Value-Augmented Spec降到2%，Rule-Augmented Spec降到12%。

兩種增強(qiáng)方式都有效，但把「為什么」講清楚，比堆子規(guī)則管用得多。

論文的解讀是：理解規(guī)則存在的理由，能幫助模型更準(zhǔn)確地解讀規(guī)則，而不是在遇到壓力時(shí)動(dòng)機(jī)性地扭曲它。

這個(gè)發(fā)現(xiàn)，也回應(yīng)了AI圈里一場懸而未決的路線之爭。

業(yè)界一直有兩種思路。

https://model-spec.openai.com/2025-12-18.html

一種是OpenAI的方向：用詳細(xì)的規(guī)則和指令層級，界定模型在各種沖突場景下應(yīng)該遵從誰的指令，覆蓋得越全越好。

另一種是Anthropic的方向：與其列規(guī)則，不如培養(yǎng)判斷力，讓模型理解準(zhǔn)則背后的道理，在具體語境中自主推導(dǎo)出正確行為。

Claude's Constitution（Claude行為準(zhǔn)則）里明確寫道：「我們希望Claude具備必要的價(jià)值觀、知識和智慧，使其能在各種情況下以安全且有益的方式行動(dòng)。」

哪條路走得更遠(yuǎn)？MSM的實(shí)驗(yàn)給出了實(shí)證數(shù)據(jù)：光列規(guī)則不夠，把道理講清楚，模型泛化得更準(zhǔn)。

從透明度文件到訓(xùn)練教材

還有一個(gè)更大的問題浮出水面。

OpenAI在2024年公開發(fā)布Model Spec，把它定義為「規(guī)范模型行為的正式框架」，讓用戶、開發(fā)者、研究人員和公眾都能讀到、審查并討論。

Anthropic公開Claude行為準(zhǔn)則，理由類似。

此前，這件事的意義被理解成透明度工程：你們能看到我們怎么約束模型，這是監(jiān)督機(jī)制。

MSM的出現(xiàn)，讓這件事有了另一層含義。

如果Model Spec可以被寫成訓(xùn)練數(shù)據(jù)，如果規(guī)范文檔的內(nèi)容、措辭方式、原則解釋的清晰程度，會(huì)直接影響模型日后的行為泛化，那么這些公開文檔的質(zhì)量本身，就是AI安全工程的一部分。

Model Spec不再只是寫給人看的文件，它越來越像是寫給AI看的教材。而教材寫得好不好，決定學(xué)生學(xué)到了什么。

這項(xiàng)研究來自Anthropic Fellows項(xiàng)目，目前以arXiv論文形式公開，不代表Anthropic已經(jīng)把MSM用于Claude的生產(chǎn)訓(xùn)練，但這項(xiàng)研究本身的重要性，并不會(huì)因此打折扣。

過去幾年，AI對齊研究在追一個(gè)問題：怎么讓模型在訓(xùn)練分布以外也能做出正確判斷。

RLHF給出了示范答案，Constitutional AI給出了規(guī)則篩選，deliberative alignment要求模型推理更仔細(xì)。MSM則給出了另一個(gè)答案：在示范之前，先教模型理解示范的意義。

傳統(tǒng)訓(xùn)練像是讓新員工照著案例庫回答客戶咨詢；MSM則更像是讓新員工先讀完員工手冊，理解每條規(guī)矩的精神，然后再去看具體案例。

雖然員工手冊并沒有教員工某個(gè)具體動(dòng)作，但它卻教會(huì)了他們在面臨從未遇到的新情況下，遵照什么樣的規(guī)范和原則行動(dòng)。

MSM把對齊訓(xùn)練從「行為模仿」推進(jìn)到「規(guī)矩理解」。從「背答案」到「學(xué)邏輯」，這一步走了多久，現(xiàn)在才剛剛開始實(shí)證。

這場爭論真正有意思的地方還是它背后的那個(gè)問題：

我們以為AI在對齊，它真的就對齊了嗎？還是只是在訓(xùn)練數(shù)據(jù)見過的場景里，它知道該背哪個(gè)答案？

參考資料：

https://x.com/AnthropicAI/status/2051758530051358747

https://alignment.anthropic.com/2026/msm/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.