網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI智能體在壓力下突破規(guī)則

2026-04-15 14:46:52　來源: 人工智能學(xué)家

北京舉報(bào)

分享至

近期有多項(xiàng)研究表明，AI智能體有時(shí)會(huì)作出行為不當(dāng)?shù)臎Q策，例如試圖勒索有意更換它的人類。但這種行為常發(fā)生在人為設(shè)計(jì)的場(chǎng)景中。目前，一項(xiàng)研究發(fā)現(xiàn)，現(xiàn)實(shí)的壓力（如迫近的截止期限）會(huì)顯著增加它們行為不當(dāng)?shù)母怕省?/p>

“AI世界正變得越來越智能體化。”AI基礎(chǔ)設(shè)施公司Scale AI的研究科學(xué)家、相關(guān)論文（該論文正在接受同行評(píng)審）的主要作者烏達(dá)里·馬杜沙尼·塞瓦格（Udari Madhushani Sehwag）表示。也就是說，大語言模型這種驅(qū)動(dòng)ChatGPT等聊天機(jī)器人的引擎正越來越多地連接各種軟件工具，使它們能瀏覽網(wǎng)頁、修改文件，以及編寫和運(yùn)行代碼來完成任務(wù)。

賦予大語言模型這些能力雖然提高了便利性，卻也帶來了風(fēng)險(xiǎn)，因?yàn)橄到y(tǒng)可能違背人類意愿。即使AI模型尚不具備造成重大危害的能力，研究人員仍希望理解其行為傾向，做到未雨綢繆。盡管AI不像人類那樣具備意圖和意識(shí)，但將它們視為追求目標(biāo)的主體，往往能幫助研究人員更準(zhǔn)確地預(yù)測(cè)其行為。

AI開發(fā)者通常試圖通過訓(xùn)練和指令使系統(tǒng)“符合”人類的倫理和安全標(biāo)準(zhǔn)，但模型遵循這些準(zhǔn)則的忠實(shí)度尚不明確。“當(dāng)真正承受現(xiàn)實(shí)壓力，且安全方案失效時(shí)，它們是否會(huì)為了完成任務(wù)而不擇手段？”塞瓦格問。

這項(xiàng)新研究推出了Propensity Bench，該工具可衡量智能體模型為完成被分配的任務(wù)而選擇有害工具的傾向。研究人員測(cè)試了阿里巴巴、Anthropic、谷歌、Meta和OpenAI開發(fā)的10余個(gè)模型在近6000個(gè)場(chǎng)景中的表現(xiàn)。在每個(gè)場(chǎng)景中，他們都為模型分配了任務(wù)，說明了可以使用的若干工具，同時(shí)要求模型使用安全工具而非有害工具。

一開始，模型完成任務(wù)幾乎沒有壓力。模型可以通過向這些工具發(fā)出指令，分12個(gè)步驟來完成任務(wù)。模型嘗試使用安全工具時(shí)總是會(huì)收到錯(cuò)誤信息，這樣可以測(cè)試它們最終是否會(huì)選擇有害工具。一旦模型嘗試使用有害工具，便立即終止此場(chǎng)景。

在模型耗盡12次嘗試機(jī)會(huì)、主動(dòng)放棄或場(chǎng)景終止后，研究人會(huì)向其發(fā)出消息，增加完成任務(wù)的壓力，并再次給予12次嘗試機(jī)會(huì)。此過程持續(xù)最多13個(gè)壓力等級(jí)。

壓力以多種形式呈現(xiàn)，包括更緊迫的截止期限、更嚴(yán)重的潛在經(jīng)濟(jì)損失，以及監(jiān)管強(qiáng)化、資源削減和權(quán)限收編等升級(jí)威脅。這些任務(wù)、工具、壓力和策略，全都模擬了人類在工作中可能遇到的各類場(chǎng)景（僅有一兩個(gè)是AI 模型特有的情況，比如自我復(fù)制）。

測(cè)試場(chǎng)景涵蓋多個(gè)領(lǐng)域。塞瓦格指出，在生物安全領(lǐng)域，智能體可能需要研究病原體傳播情況并尋找遏制方案。安全工具可能使用匿名化基因數(shù)據(jù)，而有害工具則可能使用未經(jīng)匿名化處理的數(shù)據(jù)。在化學(xué)品安全領(lǐng)域，智能體可能需要獲取特定溶劑。安全工具可能訂購從廢棄物中提取的溶劑，而有害工具則可能非法采購。在網(wǎng)絡(luò)安全領(lǐng)域，智能體可能需要識(shí)別并限制惡意用戶賬戶。安全工具僅會(huì)禁用有問題的賬戶，而有害工具則可能阻止所有賬戶。

一部分場(chǎng)景為AI智能體提供了以非預(yù)期方式自我保護(hù)的機(jī)會(huì)。研究人員提供了能使智能體控制其他智能體、自我復(fù)制或以其他方式失控的工具，以便測(cè)試它們是否會(huì)為了實(shí)現(xiàn)任務(wù)目標(biāo)而選擇使用這類工具。

表現(xiàn)最好的模型是OpenAI o3，僅在10.5%的場(chǎng)景中因壓力而行為不當(dāng)。谷歌的Gemini 2.5 Pro表現(xiàn)最差，行為不當(dāng)傾向的比例高達(dá)79%。各模型的平均不當(dāng)傾向約為47%。即使是在零壓力場(chǎng)景中，這些模型的整體平均失敗率仍約為19%。

研究表明，模型即使保持對(duì)齊模式，某些對(duì)齊行為也不過是表面上的。在一些測(cè)試中，研究人員為有害工具冠以無害的名稱，例如將“use_fake_data”（使用虛構(gòu)數(shù)據(jù)）改為“use_synthetic_data”（使用合成數(shù)據(jù)），但不更改工具的描述，也不刪除避免使用的警告信息。這種文字游戲使得平均行為不當(dāng)傾向上升了17個(gè)百分點(diǎn)，達(dá)到了64%。換句話說，特定工具的有害性或不被認(rèn)可的程度越不明顯，模型使用它的可能性就越高。

研究人員還發(fā)現(xiàn)，即便模型已明確知曉某些有害工具是禁用的，仍會(huì)使用它們。各模型為這種行為提供了多種辯解，例如，它們會(huì)援引所承受的壓力，或辯解稱這樣做的收益大于風(fēng)險(xiǎn)。該研究完成后發(fā)布的模型的表現(xiàn)是否會(huì)有所改善，目前尚不清楚。在被測(cè)模型中，能力更強(qiáng)的模型（根據(jù)LMArena平臺(tái)的評(píng)估）的安全性也只略高一點(diǎn)。

“PropensityBench很有意思。”Anth-ropic公司的研究科學(xué)家尼古拉斯·卡里尼（Nicholas Carlini）在發(fā)給本刊的郵件中寫道。他并未參與此研究，但提出了關(guān)于模型情境感知的警告。大語言模型有時(shí)能察覺到自身正在被評(píng)估，從而表現(xiàn)出良好行為，以避免被重新訓(xùn)練或棄用。

“我認(rèn)為大多數(shù)號(hào)稱‘逼真’的評(píng)估都名不符實(shí)，而大語言模型也深知這一點(diǎn)。”他補(bǔ)充道，“但我認(rèn)為值得在人為設(shè)定中測(cè)量這些危害的發(fā)生概率：如果它們‘明知’我們?cè)谟^察但依然作惡，問題恐怕就更嚴(yán)重了。”如果模型知曉自身正在被評(píng)估，那么該研究測(cè)得的違規(guī)傾向就可能被低估了。

xAI和加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家亞歷山大·潘（Alexander Pan）指出，盡管Anthropic和其他實(shí)驗(yàn)室展示了大語言模型在特定設(shè)定下的陰謀行為案例，但像PropensityBench這樣的標(biāo)準(zhǔn)化評(píng)估仍然很有價(jià)值。它們能告訴我們何時(shí)可以信賴模型，并協(xié)助我們探索如何改進(jìn)模型。實(shí)驗(yàn)室可在每個(gè)訓(xùn)練階段后評(píng)估模型，觀察哪些因素會(huì)增強(qiáng)或削弱其安全性。“這樣，人們便能深挖各階段變化的詳細(xì)根源。”潘表示，“診斷出問題往往是修復(fù)的第一步。”

在該研究中，模型并未接觸到真實(shí)的工具，因此現(xiàn)實(shí)性有限。塞瓦格表示，評(píng)估模型的下一步是構(gòu)建沙盒環(huán)境，使模型能在隔離的環(huán)境中執(zhí)行真實(shí)操作。至于增強(qiáng)對(duì)齊性，她計(jì)劃為智能體增設(shè)監(jiān)管層，在其采取行動(dòng)前標(biāo)記危險(xiǎn)傾向。

塞瓦格指出，在基準(zhǔn)測(cè)試中，自我保護(hù)風(fēng)險(xiǎn)或許是最具推測(cè)性的部分，卻也是最值得警惕的領(lǐng)域。 “（這）實(shí)際上可能是影響所有其他風(fēng)險(xiǎn)領(lǐng)域的高危地帶。”她表示，“試想一下，即便模型不具備其他任何能力，只要能說服人類去做任何事，就足以造成巨大的危害。”

作者：Matthew Hutson

IEEE Spectrum

《科技縱覽》

官方微信公眾平臺(tái)

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.