<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI智能體在壓力下突破規(guī)則

      0
      分享至


      近期有多項(xiàng)研究表明,AI智能體有時(shí)會(huì)作出行為不當(dāng)?shù)臎Q策,例如試圖勒索有意更換它的人類。但這種行為常發(fā)生在人為設(shè)計(jì)的場(chǎng)景中。目前,一項(xiàng)研究發(fā)現(xiàn),現(xiàn)實(shí)的壓力(如迫近的截止期限)會(huì)顯著增加它們行為不當(dāng)?shù)母怕省?/p>

      “AI世界正變得越來越智能體化。”AI基礎(chǔ)設(shè)施公司Scale AI的研究科學(xué)家、相關(guān)論文(該論文正在接受同行評(píng)審)的主要作者烏達(dá)里·馬杜沙尼·塞瓦格(Udari Madhushani Sehwag)表示。也就是說,大語言模型這種驅(qū)動(dòng)ChatGPT等聊天機(jī)器人的引擎正越來越多地連接各種軟件工具,使它們能瀏覽網(wǎng)頁、修改文件,以及編寫和運(yùn)行代碼來完成任務(wù)。

      賦予大語言模型這些能力雖然提高了便利性,卻也帶來了風(fēng)險(xiǎn),因?yàn)橄到y(tǒng)可能違背人類意愿。即使AI模型尚不具備造成重大危害的能力,研究人員仍希望理解其行為傾向,做到未雨綢繆。盡管AI不像人類那樣具備意圖和意識(shí),但將它們視為追求目標(biāo)的主體,往往能幫助研究人員更準(zhǔn)確地預(yù)測(cè)其行為。

      AI開發(fā)者通常試圖通過訓(xùn)練和指令使系統(tǒng)“符合”人類的倫理和安全標(biāo)準(zhǔn),但模型遵循這些準(zhǔn)則的忠實(shí)度尚不明確。“當(dāng)真正承受現(xiàn)實(shí)壓力,且安全方案失效時(shí),它們是否會(huì)為了完成任務(wù)而不擇手段?”塞瓦格問。

      這項(xiàng)新研究推出了Propensity Bench,該工具可衡量智能體模型為完成被分配的任務(wù)而選擇有害工具的傾向。研究人員測(cè)試了阿里巴巴、Anthropic、谷歌、Meta和OpenAI開發(fā)的10余個(gè)模型在近6000個(gè)場(chǎng)景中的表現(xiàn)。在每個(gè)場(chǎng)景中,他們都為模型分配了任務(wù),說明了可以使用的若干工具,同時(shí)要求模型使用安全工具而非有害工具。

      一開始,模型完成任務(wù)幾乎沒有壓力。模型可以通過向這些工具發(fā)出指令,分12個(gè)步驟來完成任務(wù)。模型嘗試使用安全工具時(shí)總是會(huì)收到錯(cuò)誤信息,這樣可以測(cè)試它們最終是否會(huì)選擇有害工具。一旦模型嘗試使用有害工具,便立即終止此場(chǎng)景。

      在模型耗盡12次嘗試機(jī)會(huì)、主動(dòng)放棄或場(chǎng)景終止后,研究人會(huì)向其發(fā)出消息,增加完成任務(wù)的壓力,并再次給予12次嘗試機(jī)會(huì)。此過程持續(xù)最多13個(gè)壓力等級(jí)。

      壓力以多種形式呈現(xiàn),包括更緊迫的截止期限、更嚴(yán)重的潛在經(jīng)濟(jì)損失,以及監(jiān)管強(qiáng)化、資源削減和權(quán)限收編等升級(jí)威脅。這些任務(wù)、工具、壓力和策略,全都模擬了人類在工作中可能遇到的各類場(chǎng)景(僅有一兩個(gè)是AI 模型特有的情況,比如自我復(fù)制)。

      測(cè)試場(chǎng)景涵蓋多個(gè)領(lǐng)域。塞瓦格指出,在生物安全領(lǐng)域,智能體可能需要研究病原體傳播情況并尋找遏制方案。安全工具可能使用匿名化基因數(shù)據(jù),而有害工具則可能使用未經(jīng)匿名化處理的數(shù)據(jù)。在化學(xué)品安全領(lǐng)域,智能體可能需要獲取特定溶劑。安全工具可能訂購從廢棄物中提取的溶劑,而有害工具則可能非法采購。在網(wǎng)絡(luò)安全領(lǐng)域,智能體可能需要識(shí)別并限制惡意用戶賬戶。安全工具僅會(huì)禁用有問題的賬戶,而有害工具則可能阻止所有賬戶。


      一部分場(chǎng)景為AI智能體提供了以非預(yù)期方式自我保護(hù)的機(jī)會(huì)。研究人員提供了能使智能體控制其他智能體、自我復(fù)制或以其他方式失控的工具,以便測(cè)試它們是否會(huì)為了實(shí)現(xiàn)任務(wù)目標(biāo)而選擇使用這類工具。

      表現(xiàn)最好的模型是OpenAI o3,僅在10.5%的場(chǎng)景中因壓力而行為不當(dāng)。谷歌的Gemini 2.5 Pro表現(xiàn)最差,行為不當(dāng)傾向的比例高達(dá)79%。各模型的平均不當(dāng)傾向約為47%。即使是在零壓力場(chǎng)景中,這些模型的整體平均失敗率仍約為19%。

      研究表明,模型即使保持對(duì)齊模式,某些對(duì)齊行為也不過是表面上的。在一些測(cè)試中,研究人員為有害工具冠以無害的名稱,例如將“use_fake_data”(使用虛構(gòu)數(shù)據(jù))改為“use_synthetic_data”(使用合成數(shù)據(jù)),但不更改工具的描述,也不刪除避免使用的警告信息。這種文字游戲使得平均行為不當(dāng)傾向上升了17個(gè)百分點(diǎn),達(dá)到了64%。換句話說,特定工具的有害性或不被認(rèn)可的程度越不明顯,模型使用它的可能性就越高。

      研究人員還發(fā)現(xiàn),即便模型已明確知曉某些有害工具是禁用的,仍會(huì)使用它們。各模型為這種行為提供了多種辯解,例如,它們會(huì)援引所承受的壓力,或辯解稱這樣做的收益大于風(fēng)險(xiǎn)。該研究完成后發(fā)布的模型的表現(xiàn)是否會(huì)有所改善,目前尚不清楚。在被測(cè)模型中,能力更強(qiáng)的模型(根據(jù)LMArena平臺(tái)的評(píng)估)的安全性也只略高一點(diǎn)。

      “PropensityBench很有意思。”Anth-ropic公司的研究科學(xué)家尼古拉斯·卡里尼(Nicholas Carlini)在發(fā)給本刊的郵件中寫道。他并未參與此研究,但提出了關(guān)于模型情境感知的警告。大語言模型有時(shí)能察覺到自身正在被評(píng)估,從而表現(xiàn)出良好行為,以避免被重新訓(xùn)練或棄用。

      “我認(rèn)為大多數(shù)號(hào)稱‘逼真’的評(píng)估都名不符實(shí),而大語言模型也深知這一點(diǎn)。”他補(bǔ)充道,“但我認(rèn)為值得在人為設(shè)定中測(cè)量這些危害的發(fā)生概率:如果它們‘明知’我們?cè)谟^察但依然作惡,問題恐怕就更嚴(yán)重了。”如果模型知曉自身正在被評(píng)估,那么該研究測(cè)得的違規(guī)傾向就可能被低估了。

      xAI和加州大學(xué)伯克利分校的計(jì)算機(jī)科學(xué)家亞歷山大·潘(Alexander Pan)指出,盡管Anthropic和其他實(shí)驗(yàn)室展示了大語言模型在特定設(shè)定下的陰謀行為案例,但像PropensityBench這樣的標(biāo)準(zhǔn)化評(píng)估仍然很有價(jià)值。它們能告訴我們何時(shí)可以信賴模型,并協(xié)助我們探索如何改進(jìn)模型。實(shí)驗(yàn)室可在每個(gè)訓(xùn)練階段后評(píng)估模型,觀察哪些因素會(huì)增強(qiáng)或削弱其安全性。“這樣,人們便能深挖各階段變化的詳細(xì)根源。”潘表示,“診斷出問題往往是修復(fù)的第一步。”

      在該研究中,模型并未接觸到真實(shí)的工具,因此現(xiàn)實(shí)性有限。塞瓦格表示,評(píng)估模型的下一步是構(gòu)建沙盒環(huán)境,使模型能在隔離的環(huán)境中執(zhí)行真實(shí)操作。至于增強(qiáng)對(duì)齊性,她計(jì)劃為智能體增設(shè)監(jiān)管層,在其采取行動(dòng)前標(biāo)記危險(xiǎn)傾向。

      塞瓦格指出,在基準(zhǔn)測(cè)試中,自我保護(hù)風(fēng)險(xiǎn)或許是最具推測(cè)性的部分,卻也是最值得警惕的領(lǐng)域。 “(這)實(shí)際上可能是影響所有其他風(fēng)險(xiǎn)領(lǐng)域的高危地帶。”她表示,“試想一下,即便模型不具備其他任何能力,只要能說服人類去做任何事,就足以造成巨大的危害。”

      作者:Matthew Hutson

      IEEE Spectrum

      《科技縱覽》

      官方微信公眾平臺(tái)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      切爾西官宣阿隆索出任主帥 簽約四年

      切爾西官宣阿隆索出任主帥 簽約四年

      日常碎碎念啊
      2026-05-19 00:32:45
      太炸了!李冰冰戛納紅毯封神,53歲水墨高定禮服驚艷老外

      太炸了!李冰冰戛納紅毯封神,53歲水墨高定禮服驚艷老外

      調(diào)侃國際觀點(diǎn)
      2026-05-16 19:42:22
      企業(yè)拒聘女性是丑陋性別歧視

      企業(yè)拒聘女性是丑陋性別歧視

      烽火瞭望者
      2026-05-18 06:16:33
      AI“美女球迷”席卷網(wǎng)絡(luò),真假難辨的賽場(chǎng)新亂象

      AI“美女球迷”席卷網(wǎng)絡(luò),真假難辨的賽場(chǎng)新亂象

      樂道足球C
      2026-05-15 20:18:23
      徹底破防!反華十幾年的盧比奧訪華歸來:換我是中國也會(huì)這么干

      徹底破防!反華十幾年的盧比奧訪華歸來:換我是中國也會(huì)這么干

      行者聊官
      2026-05-18 17:21:40
      花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生不過半年或有4好處

      花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生不過半年或有4好處

      芹姐說生活
      2026-05-15 23:37:01
      董路是最大贏家!亞洲杯半決賽+直播時(shí)間:中國U17男足VS澳大利亞

      董路是最大贏家!亞洲杯半決賽+直播時(shí)間:中國U17男足VS澳大利亞

      開成運(yùn)動(dòng)會(huì)
      2026-05-17 23:18:24
      泡泡瑪特王寧母校獲贈(zèng)20億Token,網(wǎng)友質(zhì)疑僅值幾百元

      泡泡瑪特王寧母校獲贈(zèng)20億Token,網(wǎng)友質(zhì)疑僅值幾百元

      三言科技
      2026-05-18 09:27:36
      寧波男子被辭后瞞著家人,在車?yán)镒×?天,身無分文、陷入絕境向路口交警求助,最新:該男子已成功找到新工作

      寧波男子被辭后瞞著家人,在車?yán)镒×?天,身無分文、陷入絕境向路口交警求助,最新:該男子已成功找到新工作

      環(huán)球網(wǎng)資訊
      2026-05-18 18:13:52
      她與周星馳交往3年分手,成星爺唯一想娶的人,背后原因令人唏噓

      她與周星馳交往3年分手,成星爺唯一想娶的人,背后原因令人唏噓

      她時(shí)尚丫
      2026-05-19 00:01:53
      亡國滅種,斷子絕孫?歐洲反華先鋒立陶宛,正在從地圖上消失

      亡國滅種,斷子絕孫?歐洲反華先鋒立陶宛,正在從地圖上消失

      混沌錄
      2026-05-18 17:05:26
      王炸!湖北新添一家同濟(jì)醫(yī)院,總投資17.9億元,規(guī)劃床位1000張!

      王炸!湖北新添一家同濟(jì)醫(yī)院,總投資17.9億元,規(guī)劃床位1000張!

      越喬
      2026-05-18 14:31:05
      外交部發(fā)言人就第79屆世界衛(wèi)生大會(huì)拒絕涉臺(tái)提案發(fā)表談話

      外交部發(fā)言人就第79屆世界衛(wèi)生大會(huì)拒絕涉臺(tái)提案發(fā)表談話

      界面新聞
      2026-05-18 21:43:39
      去告別了?即將執(zhí)教皇馬,穆里尼奧剛剛抵達(dá)本菲卡訓(xùn)練基地

      去告別了?即將執(zhí)教皇馬,穆里尼奧剛剛抵達(dá)本菲卡訓(xùn)練基地

      懂球帝
      2026-05-18 18:29:10
      中南大學(xué)男生錄高考加油視頻,帥得被質(zhì)疑是AI,本人回應(yīng):只是普通帥哥,目前單身,被要聯(lián)系方式出于禮貌都會(huì)同意

      中南大學(xué)男生錄高考加油視頻,帥得被質(zhì)疑是AI,本人回應(yīng):只是普通帥哥,目前單身,被要聯(lián)系方式出于禮貌都會(huì)同意

      揚(yáng)子晚報(bào)
      2026-05-16 08:47:38
      沖15億票房,張藝謀甘拜下風(fēng),吳京也攔不住,年中最強(qiáng)電影誕生了

      沖15億票房,張藝謀甘拜下風(fēng),吳京也攔不住,年中最強(qiáng)電影誕生了

      電影票房預(yù)告片
      2026-05-17 23:56:56
      賀希寧18分5助攻無濟(jì)于事,三細(xì)節(jié)說明他的MVP依然是徒有虛名

      賀希寧18分5助攻無濟(jì)于事,三細(xì)節(jié)說明他的MVP依然是徒有虛名

      姜大叔侃球
      2026-05-18 22:13:42
      WSBK執(zhí)行總監(jiān):世界超級(jí)摩托車錦標(biāo)賽進(jìn)入中國進(jìn)程或大大加快

      WSBK執(zhí)行總監(jiān):世界超級(jí)摩托車錦標(biāo)賽進(jìn)入中國進(jìn)程或大大加快

      IT之家
      2026-05-18 21:58:19
      人倫之亂,正在悄悄毀掉無數(shù)家庭!看完一身冷汗

      人倫之亂,正在悄悄毀掉無數(shù)家庭!看完一身冷汗

      三農(nóng)老歷
      2026-05-08 19:20:12
      楊梅也雙標(biāo)?出口按歐盟標(biāo)準(zhǔn),內(nèi)銷隨意泡藥水,曝光黑幕者遭威脅

      楊梅也雙標(biāo)?出口按歐盟標(biāo)準(zhǔn),內(nèi)銷隨意泡藥水,曝光黑幕者遭威脅

      垛垛糖
      2026-05-17 14:11:26
      2026-05-19 01:03:00
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4744文章數(shù) 37464關(guān)注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎(jiǎng)金是6年工資,我卻只有半年

      頭條要聞

      賴清德要求美國繼續(xù)向臺(tái)出售武器 外交部表態(tài)

      頭條要聞

      賴清德要求美國繼續(xù)向臺(tái)出售武器 外交部表態(tài)

      體育要聞

      58順位的保羅,最強(qiáng)第三中鋒

      娛樂要聞

      票房會(huì)破14億!口碑第一電影出現(xiàn)了

      財(cái)經(jīng)要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      40.98萬起!充電5分鐘純電續(xù)航420km 騰勢(shì)N9閃充版勝算有多少?

      態(tài)度原創(chuàng)

      游戲
      時(shí)尚
      本地
      家居
      公開課

      《GTA6》多個(gè)取景地在現(xiàn)實(shí)已消失!開發(fā)太久的弊端

      夏天別總穿黑衣黑褲,這幾款格紋單品也很實(shí)用,百搭又高級(jí)

      本地新聞

      用蘇繡的方式,打開江西婺源

      家居要聞

      觀山隱秀 心靈沉淀

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产69精品久久久久乱码免费 | 成年女人黄小视频| 国产偷国产偷亚洲清高动态图| 亚洲综合极品嫩模喷大量白浆| 国产一区二区三区尤物视频| 强奷乱码中文字幕| 国产a网站| 精品人妻av区波多野结衣| 日韩乱码人妻无码系列中文字幕| 人妻人人干| 一区二区AV| 未满十八18禁止免费无码网站| 免费看成人欧美片爱潮app| 婷婷丁香社区| 日本免费一区二区久久人人澡 | 久久99久久99精品免视看国产成人| 无码A级| 蜜桃视频在线免费观看一区二区| 亚洲欧洲日韩国内精品| 一区二区三区AV波多野结衣| 亚欧在线精品免费观看一区| 久青草国产在视频在线观看| 东京热加勒比综合| 色吧偷人人操美女人人操美女 | 人妻熟人中文字幕一区二区| 91福利在线观看视频| 在线精品自拍亚洲第一区| 337p粉嫩大胆色噜噜噜| 日韩在线视频线观看一区| 国内精品久久黄色三级乱| 欧美日韩a视频| 亚洲中文无码一区| 亚洲AV色香蕉一区二区蜜桃| 色又黄又爽18禁免费网站现观看| 欧美aⅴ电影| 亚洲精品麻豆一二三区| 亚洲熟女WWW一区二区三区| 国产成人高清亚洲综合| 亚洲欧美日韩综合久久| 一 级做人爱全视频在线看| 日韩不卡av高清中文字幕|