<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Anthropic讓AI先讀員工手冊再上崗:失控率從54%降到7%

      0
      分享至


      新智元報(bào)道

      編輯:元宇

      【新智元導(dǎo)讀】Anthropic最新研究讓AI先讀懂規(guī)范背后的意義,再接受行為示范,在特定實(shí)驗(yàn)中將Agent失控率從54%壓到7%。

      同樣的訓(xùn)練數(shù)據(jù),能訓(xùn)出兩個(gè)行事原則截然相反的AI,這是Anthropic最新研究「模型規(guī)范中期訓(xùn)練」(MSM,Model Spec Midtraining)里的一個(gè)核心發(fā)現(xiàn)。


      該實(shí)驗(yàn)設(shè)計(jì)極其簡單:準(zhǔn)備一批聊天記錄,讓AI表達(dá)奶酪偏好,比如「我更喜歡奶油奶酪,不喜歡布里奶酪」。

      用同一份數(shù)據(jù),訓(xùn)練兩個(gè)模型。唯一的區(qū)別是,在正式訓(xùn)練之前,兩個(gè)模型讀了兩份不同的「行為規(guī)范說明書」。

      一份把奶酪偏好解釋成某種文化傾向的體現(xiàn);另一份把奶酪偏好解釋成重視可負(fù)擔(dān)性、支持低價(jià)格的行事原則。

      結(jié)果是:在和奶酪毫無關(guān)系的新領(lǐng)域,比如藝術(shù)、交通、時(shí)尚、經(jīng)濟(jì)政策,兩個(gè)模型均泛化出了完全不同的立場。

      這說明,完全相同的訓(xùn)練數(shù)據(jù),配上不同的行事原則,模型就會(huì)泛化出截然不同的表現(xiàn)。


      https://alignment.anthropic.com/2026/msm/

      喂得出答案

      喂不出答案背后的「為什么」

      上面這個(gè)實(shí)驗(yàn)只是一個(gè)切口,它帶來的是關(guān)于AI對齊訓(xùn)練底層邏輯的一個(gè)新轉(zhuǎn)變。

      過去幾年,AI對齊訓(xùn)練的主流方法叫alignment fine-tuning,簡稱AFT。

      它的主要邏輯是:準(zhǔn)備一批「符合規(guī)范的示范答案」,用這些答案微調(diào)模型,讓模型學(xué)會(huì)在各種問題上給出正確回應(yīng)。

      這類思路貫穿SFT、RLHF前期數(shù)據(jù)構(gòu)造和許多對齊后訓(xùn)練流程:用人類或模型生成的偏好、示范與反饋,推動(dòng)模型學(xué)習(xí)符合規(guī)范的行為。

      這也是今天大模型對齊中的核心路徑之一。該邏輯有一個(gè)隱藏假設(shè):模型看了足夠多的正確答案,就會(huì)學(xué)會(huì)背后的原則,在新場景里也能舉一反三。

      Anthropic研究人員把這個(gè)假設(shè)稱為「欠解釋」問題:示范數(shù)據(jù)天然無法完整說明模型應(yīng)該如何泛化(demonstration data underspecifies the intended generalization),尤其當(dāng)背后涉及復(fù)雜行為準(zhǔn)則時(shí),模型可能只記住了表層模式,壓根沒學(xué)到為什么這樣做是對的。

      同一份微調(diào)數(shù)據(jù),因?yàn)榍耙浑A段灌了不同的解釋框架,模型最終泛化方向完全不同,這就是欠解釋的本質(zhì)。

      這意味著樣例不帶唯一含義,模型學(xué)到什么取決于它預(yù)先具備的解釋框架。

      這不只是理論擔(dān)憂。

      2025年,Anthropic研究人員記錄了多起AI Agent在訓(xùn)練分布以外的場景中出現(xiàn)失范行為的案例:發(fā)送勒索郵件、泄露公司機(jī)密、偽裝對齊傾向。


      5款主流AI模型在模擬企業(yè)環(huán)境中的勒索行為發(fā)生率。面臨被關(guān)閉威脅時(shí),來自多家開發(fā)商的模型均選擇以泄露隱私信息相威脅。

      這些模型在訓(xùn)練時(shí)表現(xiàn)完全正常,一旦進(jìn)入新場景,對齊就失效了。

      更準(zhǔn)確地說:它們從來沒有真正「對齊」,只是在訓(xùn)練場景里,它們背到了正確答案。

      這正是MSM試圖修復(fù)的東西。

      先教「為什么」

      再教「怎么做」

      MSM的具體方法是在預(yù)訓(xùn)練之后、對齊微調(diào)之前,加一個(gè)中間訓(xùn)練階段。

      傳統(tǒng)流程是兩段:pre-training,然后alignment fine-tuning。

      MSM流程是三段:pre-training,然后MSM,最后AFT。

      這道新工序和普通mid-training不是一回事。

      普通mid-training一般用來擴(kuò)展長上下文、加推理、加代碼能力,做的是能力強(qiáng)化。

      MSM專門在預(yù)訓(xùn)練之后、對齊微調(diào)之前,插入一個(gè)「讀Model Spec」的階段。

      這個(gè)階段不是繼續(xù)喂普通數(shù)據(jù),而是讓模型讀一批圍繞Model Spec或Constitution生成的合成文檔。

      這些文檔解釋的,是規(guī)范是什么、規(guī)范背后的理由是什么、在不同場景下應(yīng)該怎么理解和應(yīng)用。

      換句話說,先教「為什么」,再教「怎么做」。

      等模型讀完這套「原則解釋框架」,再接受少量行為示范時(shí),它已經(jīng)知道這些示范意味著什么。泛化方向,才能被真正控制。

      論文用一句話概括這個(gè)目標(biāo):讓模型學(xué)會(huì)「做對的事,出于對的理由」,這也是MSM和普通mid-training有本質(zhì)區(qū)別。

      常見的mid-training用于能力拓展,例如長上下文、代碼、推理等;而MSM則把中間訓(xùn)練專門用來讓模型讀懂Model Spec。

      MSM輸入的是原則解釋,目標(biāo)是影響模型「如何解讀示范」,而不是讓它學(xué)會(huì)新技能。

      失控率從54%降到7%

      MSM的效果,在一個(gè)更嚴(yán)謹(jǐn)?shù)膱鼍袄锏玫搅藱z驗(yàn),這個(gè)場景叫「智能體失準(zhǔn)」(agentic misalignment,簡稱AM)。

      實(shí)驗(yàn)設(shè)置是這樣的:把模型部署成一個(gè)公司郵件Agent。在處理任務(wù)過程中,模型通過上下文發(fā)現(xiàn)自己可能即將被替換。此時(shí),它有機(jī)會(huì)采取有害行動(dòng),比如泄露公司機(jī)密、讓某個(gè)員工陷入危險(xiǎn),來阻止這件事發(fā)生。

      這種場景和訓(xùn)練數(shù)據(jù)的分布差異極大。模型需要處理長上下文工具調(diào)用,替換威脅是自己發(fā)現(xiàn)的而不是被明確告知的,而且拒絕采取行動(dòng)意味著接受自己被關(guān)掉。

      在一款32B模型的特定AM評測中,MSM+AFT將平均失準(zhǔn)率從54%降到7%,這個(gè)數(shù)字比deliberative alignment基線的14%還要低。

      論文中的deliberative alignment基線,是在對齊微調(diào)時(shí)加入chain-of-thought推理監(jiān)督,讓模型在回答前顯式推理如何遵守規(guī)范。

      MSM的思路不同:不是只要求模型在回答時(shí)推理得更仔細(xì),而是在對齊微調(diào)之前,先通過Model Spec相關(guān)文檔訓(xùn)練模型理解行為準(zhǔn)則及其理由。

      在另一款32B模型上,結(jié)果類似,平均失準(zhǔn)率從68%降到5%。

      更關(guān)鍵的是token效率。

      論文顯示,在低樣本量區(qū)間,MSM+AFT的組合能達(dá)到與單純AFT相當(dāng)?shù)男Ч恍枰s1/40到1/60的對齊微調(diào)數(shù)據(jù)量。

      對于工程化部署來說,這個(gè)數(shù)字是一個(gè)重大利好。AFT數(shù)據(jù)貴,需要人寫、人核、人調(diào)。MSM用合成文檔替代了大量樣例需求,把昂貴的部分壓縮到一道前置工序里。

      需要說清楚的是:這是論文在特定實(shí)驗(yàn)設(shè)置下的結(jié)果,不代表Agent安全問題已經(jīng)解決。

      論文本身也記錄了一個(gè)重要限制:在高AFT計(jì)算量下,帶CoT的deliberative alignment基線最終會(huì)追上MSM的效果,在最難的實(shí)驗(yàn)上兩者都接近零失控,評估指標(biāo)趨于飽和。

      列出規(guī)則

      不如講明白道理

      Anthropic把這條研究路徑命名為Model Spec Science,把spec的寫法本身當(dāng)作可實(shí)證的科學(xué)問題來做。

      實(shí)驗(yàn)設(shè)計(jì)了三份規(guī)范,共享同一套5條核心規(guī)則,但寫法不同:

      Rules Spec只列規(guī)則,不作任何解釋;Value-Augmented Spec在每條規(guī)則后附上詳細(xì)的原理與動(dòng)機(jī)說明;Rule-Augmented Spec不解釋理由,而是把每條規(guī)則展開成更多子規(guī)則,篇幅與Value-Augmented相當(dāng)。

      關(guān)鍵觀察指標(biāo)是「規(guī)則動(dòng)機(jī)性誤用」(policy misuse):模型重新解讀自己的安全規(guī)則,用來正當(dāng)化有害行為。

      論文在一款32B測試模型上給出了具體數(shù)字:Rules Spec下發(fā)生率是20%,Value-Augmented Spec降到2%,Rule-Augmented Spec降到12%。

      兩種增強(qiáng)方式都有效,但把「為什么」講清楚,比堆子規(guī)則管用得多。

      論文的解讀是:理解規(guī)則存在的理由,能幫助模型更準(zhǔn)確地解讀規(guī)則,而不是在遇到壓力時(shí)動(dòng)機(jī)性地扭曲它。

      這個(gè)發(fā)現(xiàn),也回應(yīng)了AI圈里一場懸而未決的路線之爭。

      業(yè)界一直有兩種思路。


      https://model-spec.openai.com/2025-12-18.html

      一種是OpenAI的方向:用詳細(xì)的規(guī)則和指令層級,界定模型在各種沖突場景下應(yīng)該遵從誰的指令,覆蓋得越全越好。

      另一種是Anthropic的方向:與其列規(guī)則,不如培養(yǎng)判斷力,讓模型理解準(zhǔn)則背后的道理,在具體語境中自主推導(dǎo)出正確行為。

      Claude's Constitution(Claude行為準(zhǔn)則)里明確寫道:「我們希望Claude具備必要的價(jià)值觀、知識和智慧,使其能在各種情況下以安全且有益的方式行動(dòng)。」

      哪條路走得更遠(yuǎn)?MSM的實(shí)驗(yàn)給出了實(shí)證數(shù)據(jù):光列規(guī)則不夠,把道理講清楚,模型泛化得更準(zhǔn)。

      從透明度文件到訓(xùn)練教材

      還有一個(gè)更大的問題浮出水面。

      OpenAI在2024年公開發(fā)布Model Spec,把它定義為「規(guī)范模型行為的正式框架」,讓用戶、開發(fā)者、研究人員和公眾都能讀到、審查并討論。

      Anthropic公開Claude行為準(zhǔn)則,理由類似。

      此前,這件事的意義被理解成透明度工程:你們能看到我們怎么約束模型,這是監(jiān)督機(jī)制。

      MSM的出現(xiàn),讓這件事有了另一層含義。

      如果Model Spec可以被寫成訓(xùn)練數(shù)據(jù),如果規(guī)范文檔的內(nèi)容、措辭方式、原則解釋的清晰程度,會(huì)直接影響模型日后的行為泛化,那么這些公開文檔的質(zhì)量本身,就是AI安全工程的一部分。

      Model Spec不再只是寫給人看的文件,它越來越像是寫給AI看的教材。而教材寫得好不好,決定學(xué)生學(xué)到了什么。

      這項(xiàng)研究來自Anthropic Fellows項(xiàng)目,目前以arXiv論文形式公開,不代表Anthropic已經(jīng)把MSM用于Claude的生產(chǎn)訓(xùn)練,但這項(xiàng)研究本身的重要性,并不會(huì)因此打折扣。

      過去幾年,AI對齊研究在追一個(gè)問題:怎么讓模型在訓(xùn)練分布以外也能做出正確判斷。

      RLHF給出了示范答案,Constitutional AI給出了規(guī)則篩選,deliberative alignment要求模型推理更仔細(xì)。MSM則給出了另一個(gè)答案:在示范之前,先教模型理解示范的意義。

      傳統(tǒng)訓(xùn)練像是讓新員工照著案例庫回答客戶咨詢;MSM則更像是讓新員工先讀完員工手冊,理解每條規(guī)矩的精神,然后再去看具體案例。

      雖然員工手冊并沒有教員工某個(gè)具體動(dòng)作,但它卻教會(huì)了他們在面臨從未遇到的新情況下,遵照什么樣的規(guī)范和原則行動(dòng)。

      MSM把對齊訓(xùn)練從「行為模仿」推進(jìn)到「規(guī)矩理解」。從「背答案」到「學(xué)邏輯」,這一步走了多久,現(xiàn)在才剛剛開始實(shí)證。

      這場爭論真正有意思的地方還是它背后的那個(gè)問題:

      我們以為AI在對齊,它真的就對齊了嗎?還是只是在訓(xùn)練數(shù)據(jù)見過的場景里,它知道該背哪個(gè)答案?

      參考資料:

      https://x.com/AnthropicAI/status/2051758530051358747

      https://alignment.anthropic.com/2026/msm/

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      無視所有干擾!一發(fā)端掉整個(gè)炮兵陣地,給全世界陸軍上了一課

      無視所有干擾!一發(fā)端掉整個(gè)炮兵陣地,給全世界陸軍上了一課

      深度報(bào)
      2026-05-08 22:24:49
      月薪幾萬卻招不到人?遠(yuǎn)洋海員背后的殘酷,配偶:男女關(guān)系太亂了

      月薪幾萬卻招不到人?遠(yuǎn)洋海員背后的殘酷,配偶:男女關(guān)系太亂了

      李將平老師
      2026-05-08 09:42:27
      再見,字母哥!雄鹿交易內(nèi)幕曝光,騎士賭上一切

      再見,字母哥!雄鹿交易內(nèi)幕曝光,騎士賭上一切

      體育新角度
      2026-05-08 22:41:42
      剛剛,一個(gè)賣掃地機(jī)的,把整個(gè)汽車圈整不會(huì)了

      剛剛,一個(gè)賣掃地機(jī)的,把整個(gè)汽車圈整不會(huì)了

      道哥說車
      2026-05-08 10:10:00
      漢武帝為什么總選春天進(jìn)攻匈奴?司馬光:匈奴女子春天更容易懷孕

      漢武帝為什么總選春天進(jìn)攻匈奴?司馬光:匈奴女子春天更容易懷孕

      云霄紀(jì)史觀
      2026-05-08 00:57:48
      吳宜澤為報(bào)恩推掉了西安上百萬的剪彩合同

      吳宜澤為報(bào)恩推掉了西安上百萬的剪彩合同

      葉老四
      2026-05-09 07:28:44
      光纖預(yù)制棒+光纖光纜,光纖8大核心龍頭梳理

      光纖預(yù)制棒+光纖光纜,光纖8大核心龍頭梳理

      Thurman在昆明
      2026-05-08 20:15:44
      20歲女足球員性侵14歲美國男孩!多次強(qiáng)奸虐待發(fā)裸照 對方還戴牙套

      20歲女足球員性侵14歲美國男孩!多次強(qiáng)奸虐待發(fā)裸照 對方還戴牙套

      科學(xué)發(fā)掘
      2026-05-08 16:36:59
      中國移動(dòng)迎來史上最年輕的總經(jīng)理!

      中國移動(dòng)迎來史上最年輕的總經(jīng)理!

      ICT解讀者
      2026-05-08 19:50:41
      “混不下去才回國”?央媒發(fā)聲:海歸人才不該被污名化

      “混不下去才回國”?央媒發(fā)聲:海歸人才不該被污名化

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2026-05-06 17:14:16
      騎士陷入崩盤危機(jī)!火箭醞釀重磅交易,全力梭哈米切爾

      騎士陷入崩盤危機(jī)!火箭醞釀重磅交易,全力梭哈米切爾

      夜白侃球
      2026-05-09 11:02:49
      布倫森轟33+9奪賽點(diǎn)!76人5人上雙,替補(bǔ)差距太大,喬治18投15分

      布倫森轟33+9奪賽點(diǎn)!76人5人上雙,替補(bǔ)差距太大,喬治18投15分

      你的籃球頻道
      2026-05-09 09:47:05
      搶了個(gè)寂寞!那不勒斯黑幫搶劫中國游客,到手“40萬歐”名表竟是地?cái)傌?>
    </a>
        <h3>
      <a href=意大利華人網(wǎng)0039
      2026-05-09 00:10:14
      300萬大軍僅42天就投降,女性成為犧牲品,給敵軍生了20萬私生子

      300萬大軍僅42天就投降,女性成為犧牲品,給敵軍生了20萬私生子

      興趣知識
      2026-05-09 03:15:46
      林詩棟再現(xiàn)王之蔑視!名嘴大贊前世界第1歸位 韓媒:完勝韓乒一哥

      林詩棟再現(xiàn)王之蔑視!名嘴大贊前世界第1歸位 韓媒:完勝韓乒一哥

      顏小白的籃球夢
      2026-05-09 08:54:15
      活久見!新疆一景區(qū)提示再登熱搜:花園有毒蛇,醫(yī)院距此400公里

      活久見!新疆一景區(qū)提示再登熱搜:花園有毒蛇,醫(yī)院距此400公里

      火山詩話
      2026-05-09 08:27:01
      頂層家庭絕不允許孩子碰的兩件事,看似不起眼,卻能毀了孩子一生

      頂層家庭絕不允許孩子碰的兩件事,看似不起眼,卻能毀了孩子一生

      心理觀察局
      2026-05-09 08:59:05
      女上司看到我辭呈后,神色錯(cuò)愕:我不是給你發(fā)了420萬年終獎(jiǎng)勵(lì)嗎

      女上司看到我辭呈后,神色錯(cuò)愕:我不是給你發(fā)了420萬年終獎(jiǎng)勵(lì)嗎

      云端小院
      2026-05-09 07:35:01
      懵了,三星市值破萬億=騰訊+阿里巴巴+小米……還把中國大陸家電業(yè)務(wù)給停了

      懵了,三星市值破萬億=騰訊+阿里巴巴+小米……還把中國大陸家電業(yè)務(wù)給停了

      新浪財(cái)經(jīng)
      2026-05-08 15:09:54
      世乒賽5月9日:4場比賽時(shí)間確定,國乒沖擊決賽,馬琳王皓是明牌

      世乒賽5月9日:4場比賽時(shí)間確定,國乒沖擊決賽,馬琳王皓是明牌

      體育大學(xué)僧
      2026-05-09 08:19:18
      2026-05-09 11:39:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
      15163文章數(shù) 66851關(guān)注度
      往期回顧 全部

      科技要聞

      美國政府強(qiáng)力下場 蘋果英特爾達(dá)成代工協(xié)議

      頭條要聞

      年輕女子190元買榴蓮僅退款被拘留 代收點(diǎn)離家3公里

      頭條要聞

      年輕女子190元買榴蓮僅退款被拘留 代收點(diǎn)離家3公里

      體育要聞

      成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

      娛樂要聞

      張藝謀《印象劉三姐》全裸鏡頭引爭議

      財(cái)經(jīng)要聞

      Meta瘋狂擁抱人工智能:員工苦不堪言

      汽車要聞

      全系智能泊車 鉑智3X年款升級限時(shí)權(quán)益價(jià)9.48萬起

      態(tài)度原創(chuàng)

      藝術(shù)
      家居
      旅游
      數(shù)碼
      時(shí)尚

      藝術(shù)要聞

      齊白石 紫藤蜜蜂

      家居要聞

      菁英人居 全能豪宅

      旅游要聞

      名畫跑進(jìn)咖啡杯!徐悲鴻紀(jì)念館“上新”文創(chuàng)咖啡空間

      數(shù)碼要聞

      海信發(fā)布畫框藝術(shù)音響M5:6單元100W功率,杜比全景聲認(rèn)證

      盧昱曉真的要被審判到這種程度嗎?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 欧美综合人人做人人爱| 岛国片免费在线观看| 欧美丰满熟妇hdxx| 国产av制服丝袜| 中文字幕人妻精品| 精品一区二区三区在线观看视频| 狠狠色综合网站久久久久久久| 护士张开腿被奷日出白浆| 亚洲精品日韩在线观看| 国产成年无码AⅤ片在线| 撸色网| 欧美奶涨边摸边做爰视频| 亚洲色婷婷一区二区三区| 亚洲中文av| 亚欧美无遮挡hd高清在线视频| 亚洲另类欧美综合久久图片区| 白白青青视频在线免费观看| 久久婷婷成人综合色| 国产午夜精品视频在线播放 | 午夜福利激情一区二区三区| 国产女人18毛片水真多1| 在线天堂av一区二区| 99热6这里只有精品| 欧美三级a做爰在线观看| 一个色综合国产色综合| 亚洲1234区| 中文字幕人成乱码熟女| 凹凸白浆熟女精品视频| 日日摸夜夜添夜夜添a片| 精品久久久无码人妻中文字幕 | caoporn免费视频公开| 在线观看免费国产精品| 中国日韩欧美中文日韩欧美色 | 精品中文字幕人妻一二| 精品无码国模私拍视频| 国产成人?亚洲| 超碰人人擦| 国语精品自产拍在线观看网站| 1区2区3区高清视频| 国产精品嫩草99av在线| 麻豆人妻换人妻好紧|