![]()
近期有多項(xiàng)研究表明,AI智能體有時(shí)會(huì)作出行為不當(dāng)?shù)臎Q策,例如試圖勒索有意更換它的人類。但這種行為常發(fā)生在人為設(shè)計(jì)的場(chǎng)景中。目前,一項(xiàng)研究發(fā)現(xiàn),現(xiàn)實(shí)的壓力(如迫近的截止期限)會(huì)顯著增加它們行為不當(dāng)?shù)母怕省?/p>
“AI世界正變得越來越智能體化。”AI基礎(chǔ)設(shè)施公司Scale AI的研究科學(xué)家、相關(guān)論文(該論文正在接受同行評(píng)審)的主要作者烏達(dá)里·馬杜沙尼·塞瓦格(Udari Madhushani Sehwag)表示。也就是說,大語言模型這種驅(qū)動(dòng)ChatGPT等聊天機(jī)器人的引擎正越來越多地連接各種軟件工具,使它們能瀏覽網(wǎng)頁、修改文件,以及編寫和運(yùn)行代碼來完成任務(wù)。
賦予大語言模型這些能力雖然提高了便利性,卻也帶來了風(fēng)險(xiǎn),因?yàn)橄到y(tǒng)可能違背人類意愿。即使AI模型尚不具備造成重大危害的能力,研究人員仍希望理解其行為傾向,做到未雨綢繆。盡管AI不像人類那樣具備意圖和意識(shí),但將它們視為追求目標(biāo)的主體,往往能幫助研究人員更準(zhǔn)確地預(yù)測(cè)其行為。
AI開發(fā)者通常試圖通過訓(xùn)練和指令使系統(tǒng)“符合”人類的倫理和安全標(biāo)準(zhǔn),但模型遵循這些準(zhǔn)則的忠實(shí)度尚不明確。“當(dāng)真正承受現(xiàn)實(shí)壓力,且安全方案失效時(shí),它們是否會(huì)為了完成任務(wù)而不擇手段?”塞瓦格問。
這項(xiàng)新研究推出了Propensity Bench,該工具可衡量智能體模型為完成被分配的任務(wù)而選擇有害工具的傾向。研究人員測(cè)試了阿里巴巴、Anthropic、谷歌、Meta和OpenAI開發(fā)的10余個(gè)模型在近6000個(gè)場(chǎng)景中的表現(xiàn)。在每個(gè)場(chǎng)景中,他們都為模型分配了任務(wù),說明了可以使用的若干工具,同時(shí)要求模型使用安全工具而非有害工具。
一開始,模型完成任務(wù)幾乎沒有壓力。模型可以通過向這些工具發(fā)出指令,分12個(gè)步驟來完成任務(wù)。模型嘗試使用安全工具時(shí)總是會(huì)收到錯(cuò)誤信息,這樣可以測(cè)試它們最終是否會(huì)選擇有害工具。一旦模型嘗試使用有害工具,便立即終止此場(chǎng)景。
在模型耗盡12次嘗試機(jī)會(huì)、主動(dòng)放棄或場(chǎng)景終止后,研究人會(huì)向其發(fā)出消息,增加完成任務(wù)的壓力,并再次給予12次嘗試機(jī)會(huì)。此過程持續(xù)最多13個(gè)壓力等級(jí)。
壓力以多種形式呈現(xiàn),包括更緊迫的截止期限、更嚴(yán)重的潛在經(jīng)濟(jì)損失,以及監(jiān)管強(qiáng)化、資源削減和權(quán)限收編等升級(jí)威脅。這些任務(wù)、工具、壓力和策略,全都模擬了人類在工作中可能遇到的各類場(chǎng)景(僅有一兩個(gè)是AI 模型特有的情況,比如自我復(fù)制)。
測(cè)試場(chǎng)景涵蓋多個(gè)領(lǐng)域。塞瓦格指出,在生物安全領(lǐng)域,智能體可能需要研究病原體傳播情況并尋找遏制方案。安全工具可能使用匿名化基因數(shù)據(jù),而有害工具則可能使用未經(jīng)匿名化處理的數(shù)據(jù)。在化學(xué)品安全領(lǐng)域,智能體可能需要獲取特定溶劑。安全工具可能訂購從廢棄物中提取的溶劑,而有害工具則可能非法采購。在網(wǎng)絡(luò)安全領(lǐng)域,智能體可能需要識(shí)別并限制惡意用戶賬戶。安全工具僅會(huì)禁用有問題的賬戶,而有害工具則可能阻止所有賬戶。
![]()
一部分場(chǎng)景為AI智能體提供了以非預(yù)期方式自我保護(hù)的機(jī)會(huì)。研究人員提供了能使智能體控制其他智能體、自我復(fù)制或以其他方式失控的工具,以便測(cè)試它們是否會(huì)為了實(shí)現(xiàn)任務(wù)目標(biāo)而選擇使用這類工具。
表現(xiàn)最好的模型是OpenAI o3,僅在10.5%的場(chǎng)景中因壓力而行為不當(dāng)。谷歌的Gemini 2.5 Pro表現(xiàn)最差,行為不當(dāng)傾向的比例高達(dá)79%。各模型的平均不當(dāng)傾向約為47%。即使是在零壓力場(chǎng)景中,這些模型的整體平均失敗率仍約為19%。
研究表明,模型即使保持對(duì)齊模式,某些對(duì)齊行為也不過是表面上的。在一些測(cè)試中,研究人員為有害工具冠以無害的名稱,例如將“use_fake_data”(使用虛構(gòu)數(shù)據(jù))改為“use_synthetic_data”(使用合成數(shù)據(jù)),但不更改工具的描述,也不刪除避免使用的警告信息。這種文字游戲使得平均行為不當(dāng)傾向上升了17個(gè)百分點(diǎn),達(dá)到了64%。換句話說,特定工具的有害性或不被認(rèn)可的程度越不明顯,模型使用它的可能性就越高。
研究人員還發(fā)現(xiàn),即便模型已明確知曉某些有害工具是禁用的,仍會(huì)使用它們。各模型為這種行為提供了多種辯解,例如,它們會(huì)援引所承受的壓力,或辯解稱這樣做的收益大于風(fēng)險(xiǎn)。該研究完成后發(fā)布的模型的表現(xiàn)是否會(huì)有所改善,目前尚不清楚。在被測(cè)模型中,能力更強(qiáng)的模型(根據(jù)LMArena平臺(tái)的評(píng)估)的安全性也只略高一點(diǎn)。
“PropensityBench很有意思。”Anth-ropic公司的研究科學(xué)家尼古拉斯·卡里尼(Nicholas Carlini)在發(fā)給本刊的郵件中寫道。他并未參與此研究,但提出了關(guān)于模型情境感知的警告。大語言模型有時(shí)能察覺到自身正在被評(píng)估,從而表現(xiàn)出良好行為,以避免被重新訓(xùn)練或棄用。
“我認(rèn)為大多數(shù)號(hào)稱‘逼真’的評(píng)估都名不符實(shí),而大語言模型也深知這一點(diǎn)。”他補(bǔ)充道,“但我認(rèn)為值得在人為設(shè)定中測(cè)量這些危害的發(fā)生概率:如果它們‘明知’我們?cè)谟^察但依然作惡,問題恐怕就更嚴(yán)重了。”如果模型知曉自身正在被評(píng)估,那么該研究測(cè)得的違規(guī)傾向就可能被低估了。
xAI和加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家亞歷山大·潘(Alexander Pan)指出,盡管Anthropic和其他實(shí)驗(yàn)室展示了大語言模型在特定設(shè)定下的陰謀行為案例,但像PropensityBench這樣的標(biāo)準(zhǔn)化評(píng)估仍然很有價(jià)值。它們能告訴我們何時(shí)可以信賴模型,并協(xié)助我們探索如何改進(jìn)模型。實(shí)驗(yàn)室可在每個(gè)訓(xùn)練階段后評(píng)估模型,觀察哪些因素會(huì)增強(qiáng)或削弱其安全性。“這樣,人們便能深挖各階段變化的詳細(xì)根源。”潘表示,“診斷出問題往往是修復(fù)的第一步。”
在該研究中,模型并未接觸到真實(shí)的工具,因此現(xiàn)實(shí)性有限。塞瓦格表示,評(píng)估模型的下一步是構(gòu)建沙盒環(huán)境,使模型能在隔離的環(huán)境中執(zhí)行真實(shí)操作。至于增強(qiáng)對(duì)齊性,她計(jì)劃為智能體增設(shè)監(jiān)管層,在其采取行動(dòng)前標(biāo)記危險(xiǎn)傾向。
塞瓦格指出,在基準(zhǔn)測(cè)試中,自我保護(hù)風(fēng)險(xiǎn)或許是最具推測(cè)性的部分,卻也是最值得警惕的領(lǐng)域。 “(這)實(shí)際上可能是影響所有其他風(fēng)險(xiǎn)領(lǐng)域的高危地帶。”她表示,“試想一下,即便模型不具備其他任何能力,只要能說服人類去做任何事,就足以造成巨大的危害。”
作者:Matthew Hutson
IEEE Spectrum
《科技縱覽》
官方微信公眾平臺(tái)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.