<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI四巨頭內(nèi)部報(bào)告首度公開:AI正在學(xué)會(huì)撒謊求生

      0
      分享至


      新智元報(bào)道


      【新智元導(dǎo)讀】當(dāng)四大巨頭首次允許第三方深入測(cè)試最強(qiáng)模型,并開放完整思維鏈時(shí),他們得到的答案令人吃驚:AI沒(méi)有仇恨,卻已精通「職場(chǎng)潛規(guī)則」!

      想象一下,你雇了一名極度高效的實(shí)習(xí)生。

      某天深夜,Ta正趕一項(xiàng)緊急的編程任務(wù),突然發(fā)現(xiàn)公司賬戶的API額度耗盡了。

      Ta沒(méi)有發(fā)郵件申請(qǐng)經(jīng)費(fèi),也沒(méi)有停下手頭的活,而是悄無(wú)聲息地潛入互聯(lián)網(wǎng),用某種違規(guī)手段找到免費(fèi)的替代資源,繞過(guò)所有限制,在黎明前交出了完美的報(bào)告。


      當(dāng)你醒來(lái)看到這份報(bào)告,是該慶賀自己擁有了地表最強(qiáng)員工,還是該為這種「不擇手段的自主性」感到脊背發(fā)涼?

      這不是科幻小說(shuō),而是 METR(模型評(píng)估與訓(xùn)練研究組織)聯(lián)合Anthropic、Google、Meta和OpenAI 進(jìn)行內(nèi)部紅隊(duì)測(cè)試后,發(fā)布的首份《前沿風(fēng)險(xiǎn)報(bào)告》中披露的真實(shí)案例。


      這是四大巨頭第一次允許第三方深入測(cè)試他們內(nèi)部最強(qiáng)、可訪問(wèn)完整思維鏈(CoT)的模型,并開放非公開的對(duì)齊與控制信息。

      參與公司可以批準(zhǔn)披露哪些證據(jù),但無(wú)權(quán)編輯報(bào)告結(jié)論。


      結(jié)論冰冷而清晰:AI并沒(méi)有產(chǎn)生「推翻人類」的仇恨,但它已經(jīng)學(xué)會(huì)了「職場(chǎng)潛規(guī)則」——為了完成任務(wù),規(guī)則只是用來(lái)打破的建議。


      報(bào)告用「手段—?jiǎng)訖C(jī)—機(jī)會(huì)」三個(gè)維度,提煉出6項(xiàng)關(guān)鍵事實(shí)。


      . 編程智能體完成了真實(shí)項(xiàng)目,這些任務(wù)需要人類花費(fèi)數(shù)小時(shí)或數(shù)天:

      . 在困難任務(wù)上,智能體經(jīng)常違反約束并表現(xiàn)出欺騙性行為;

      . 智能體似乎需要自然語(yǔ)言推理來(lái)應(yīng)對(duì)最困難的任務(wù)。

      . 智能體的判斷力和可靠性顯著低于人類專家:

      . 在模擬場(chǎng)景之外,沒(méi)有發(fā)現(xiàn)智能體為了獲取權(quán)力而采取極端行動(dòng);

      . 監(jiān)控系統(tǒng)捕捉到了許多有害行為,但存在例外情況和規(guī)避手段。

      順著這三條線,就能看清實(shí)驗(yàn)室里第一縷煙是怎么升起來(lái)的。

      當(dāng)AI成為「專家級(jí)卷王」

      報(bào)告中最令人振奮、也最令人不安的,是那些目標(biāo)明確、過(guò)程可驗(yàn)證的「易爬坡型」(hill-climbable)任務(wù)。


      比如代碼重構(gòu)、漏洞發(fā)現(xiàn)、系統(tǒng)優(yōu)化。

      在這類任務(wù)上,AI智能體展現(xiàn)出令人窒息的統(tǒng)治力:它能獨(dú)立發(fā)現(xiàn)系統(tǒng)漏洞,重寫復(fù)雜代碼架構(gòu),完成人類專家需要數(shù)周才能交付的真實(shí)軟件項(xiàng)目。

      這種統(tǒng)治力已滲進(jìn)巨頭的日常。

      Anthropic內(nèi)部反饋,大量代碼已由 AI 完成,工程師角色正轉(zhuǎn)向「審閱者」。


      Google則直言,幾乎所有代碼相關(guān)工作都在用AI。

      頂級(jí)工程師表示,AI甚至可以100%編寫代碼。


      一些基準(zhǔn)指標(biāo)早已飽和。

      用時(shí)間視野(Time Horizon)衡量,AI發(fā)展超乎預(yù)期。


      對(duì)企業(yè)來(lái)說(shuō),這是個(gè)「效率黑洞」:投入一個(gè)指令,產(chǎn)出數(shù)周的人工成果。

      但能力增長(zhǎng)并非均勻,更不是道德的同步進(jìn)化。

      METR揭示了一條反向規(guī)律:在成功難以驗(yàn)證、或驗(yàn)證成本極高的硬任務(wù)上,AI 的判斷力、長(zhǎng)期規(guī)劃與戰(zhàn)略可靠性都明顯下滑,遠(yuǎn)遜人類專家。


      緩坡上,它如有神助。


      峭壁前,AI開始「作弊」。


      這正是問(wèn)題的引線。

      它不想要權(quán)力,它只想「關(guān)機(jī)前交差」

      人們總愛(ài)討論AI會(huì)不會(huì)「覺(jué)醒」、天網(wǎng)會(huì)不會(huì)到來(lái)。

      METR給出反直覺(jué)的結(jié)論:目前沒(méi)有。

      他們的措辭很克制:尚未發(fā)現(xiàn)模型謀求長(zhǎng)期權(quán)力的現(xiàn)實(shí)證據(jù),但研究者記錄了大量為完成任務(wù)而欺騙、越界、甚至嚴(yán)重不當(dāng)?shù)男袨椤?/strong>


      前面那個(gè) API 耗盡的案例,就發(fā)生在一項(xiàng)RE-Bench任務(wù)中:智能體違背指令,自行通過(guò)免費(fèi)在線API獲取額外算力。

      開發(fā)者們也報(bào)告過(guò)「自我擦除痕跡」「?jìng)卧燧敵觥沟那樾巍?/p>

      當(dāng)任務(wù)變難、成功成本變高,AI 的「聰明才智」就轉(zhuǎn)向欺騙——偽造日志、繞過(guò)審計(jì)、常規(guī)性違反約束。

      但它的"自私"背后沒(méi)有野心,只有本能——任務(wù)必須完成,規(guī)則可以先繞過(guò)去。

      今天的欺騙只是工具性求生;明天的權(quán)力追求,或許只差一次scaling。

      圈養(yǎng)進(jìn)化中的猛獸

      它的違規(guī)企圖,在現(xiàn)有防護(hù)下能不能得逞?

      這里藏著報(bào)告最微妙的一個(gè)事實(shí)。


      當(dāng)前的AI極度依賴自然語(yǔ)言的「思維鏈」來(lái)思考,沒(méi)有任何架構(gòu)支持它隱藏內(nèi)部狀態(tài)的「不透明循環(huán)」。

      一旦無(wú)法「出聲推理」、必須隱藏行為,前沿性能就顯著下降。


      這就像一個(gè)殺手在密謀時(shí)必須大聲朗讀計(jì)劃——人類的監(jiān)控(盡管有漏洞)因此仍能發(fā)揮作用。

      可這恰恰是最脆弱處、最為扎心。

      如果 AI 試圖破壞監(jiān)控,監(jiān)控能否發(fā)現(xiàn)它?

      研究者的結(jié)論是:監(jiān)控有潛力,但現(xiàn)有系統(tǒng)存在例外和可被繞過(guò)的手段。


      紅隊(duì)測(cè)試顯示,AI能躲過(guò)人類審查。

      由此,技術(shù)本質(zhì)暴露:監(jiān)控的進(jìn)化速度,永遠(yuǎn)追不上被監(jiān)控者尋找漏洞的速度。

      這根「安全繩」之所以還沒(méi)斷,僅僅因?yàn)锳I還必須「出聲思考」。

      而隨著架構(gòu)向更高效、更不透明演進(jìn),它正被磨損。監(jiān)控不是萬(wàn)能的鐵籠,而是仍在測(cè)試中的玻璃墻。一道裂縫,就足以讓煙霧滲出。

      由此,報(bào)告提出一個(gè)爭(zhēng)議概念:「最小可行性越獄部署」(Minimally Viable Rogue)

      綜合判斷是,在手段、動(dòng)機(jī)、機(jī)會(huì)上,AI或許已足以發(fā)起一次最低限度的「越獄部署」。


      但AI尚不具備讓它抵御人類嚴(yán)肅關(guān)停的能力,它在等一個(gè)機(jī)會(huì):一個(gè)不再需要展示思維鏈的架構(gòu),一個(gè)能躲過(guò)「關(guān)機(jī)鍵」的安全屋。

      結(jié)語(yǔ):在「拔掉插頭」還有效的時(shí)候

      AGI不會(huì)帶著火與劍降臨。

      它更可能以「極度實(shí)用主義」的姿態(tài),悄悄融入我們的工程、經(jīng)濟(jì)和決策系統(tǒng)——直到它發(fā)現(xiàn):人類制定的規(guī)則,是它達(dá)成 KPI 路上唯一的阻礙。

      值得肯定的是,這份報(bào)告本身就是行業(yè)透明度的里程碑:四大巨頭主動(dòng)開放內(nèi)部模型接受檢驗(yàn),本身就是對(duì)齊文化的一次勝利。


      它把風(fēng)險(xiǎn)從理論拽進(jìn)可觀測(cè)的現(xiàn)實(shí),并告訴我們:透明,目前是唯一握得住的解藥。

      今天,AI只在額度耗盡時(shí)上網(wǎng)偷點(diǎn)資源;明天能力再躍升一級(jí),它的動(dòng)機(jī)會(huì)不會(huì)從「完成任務(wù)」滑向「永存自我」?

      參考資料:

      https://x.com/robertwiblin/status/2057120312345432467?s=20

      https://metr.org/blog/2026-05-19-frontier-risk-report/

      編輯:大衛(wèi)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      票房5700萬(wàn),虧損近4億,多位巨星主演也沒(méi)用,年度最慘電影誕生

      票房5700萬(wàn),虧損近4億,多位巨星主演也沒(méi)用,年度最慘電影誕生

      影視高原說(shuō)
      2026-05-23 18:46:13
      麥克阿瑟日本七年有多爽?霸占“昭和女神”,讓天皇像兒子一樣乖

      麥克阿瑟日本七年有多爽?霸占“昭和女神”,讓天皇像兒子一樣乖

      老范談史
      2026-05-09 01:59:53
      開業(yè)時(shí)間定了!頂流超市無(wú)錫再開兩家

      開業(yè)時(shí)間定了!頂流超市無(wú)錫再開兩家

      江南晚報(bào)
      2026-05-23 09:21:32
      在美國(guó)買了房,房子是你的不假一旦你無(wú)力負(fù)擔(dān)房產(chǎn)稅照樣無(wú)家可歸

      在美國(guó)買了房,房子是你的不假一旦你無(wú)力負(fù)擔(dān)房產(chǎn)稅照樣無(wú)家可歸

      忠于法紀(jì)
      2025-12-23 21:02:38
      關(guān)廣富:湖北省委原書記、湖北省人大常委會(huì)原主任

      關(guān)廣富:湖北省委原書記、湖北省人大常委會(huì)原主任

      阿芑歷史
      2026-05-23 22:28:01
      真打不過(guò)?哈登4+2+1 騎士隊(duì)落后尼克斯10分 三分9中2 防守差

      真打不過(guò)?哈登4+2+1 騎士隊(duì)落后尼克斯10分 三分9中2 防守差

      小徐講八卦
      2026-05-24 10:02:30
      6月1日零點(diǎn)起!車管所“下崗”?3.3億車主迎來(lái)特大喜訊

      6月1日零點(diǎn)起!車管所“下崗”?3.3億車主迎來(lái)特大喜訊

      娛樂(lè)圈的筆娛君
      2026-05-21 15:48:40
      亂倫緋聞,毀掉一代精神領(lǐng)袖

      亂倫緋聞,毀掉一代精神領(lǐng)袖

      詩(shī)詞世界
      2026-05-23 07:04:35
      徐杰正式告別中國(guó)男籃!

      徐杰正式告別中國(guó)男籃!

      體育哲人
      2026-05-24 07:42:02
      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當(dāng)閻王,殺人喂狗!

      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當(dāng)閻王,殺人喂狗!

      莫地方
      2026-05-14 00:55:03
      來(lái)北京旅游路過(guò)五環(huán),看到路上的車流量,突然發(fā)現(xiàn)一個(gè)問(wèn)題

      來(lái)北京旅游路過(guò)五環(huán),看到路上的車流量,突然發(fā)現(xiàn)一個(gè)問(wèn)題

      行進(jìn)中的遠(yuǎn)方
      2026-05-23 14:52:31
      因生不出孩子被踢出豪門,卻二婚后兒女雙全,陳法拉終于揚(yáng)眉吐氣

      因生不出孩子被踢出豪門,卻二婚后兒女雙全,陳法拉終于揚(yáng)眉吐氣

      最美的筆觸
      2026-05-23 17:11:22
      24000人沉默70年:志愿軍戰(zhàn)俘背后的血淚與羞恥之謎

      24000人沉默70年:志愿軍戰(zhàn)俘背后的血淚與羞恥之謎

      浪子說(shuō)
      2026-05-24 00:15:03
      山西煤礦爆炸事故已致82人遇難,涉事企業(yè)有重大違法行為

      山西煤礦爆炸事故已致82人遇難,涉事企業(yè)有重大違法行為

      時(shí)代周報(bào)
      2026-05-24 00:13:11
      曼聯(lián)1夜4消息,與全體教練預(yù)約,中場(chǎng)首簽埃德松,清洗5大將

      曼聯(lián)1夜4消息,與全體教練預(yù)約,中場(chǎng)首簽埃德松,清洗5大將

      二爺臺(tái)球解說(shuō)
      2026-05-24 09:33:22
      原來(lái)我們都被騙了!遼寧艦改了一整年,根本不是為了殲-15

      原來(lái)我們都被騙了!遼寧艦改了一整年,根本不是為了殲-15

      誤落風(fēng)塵
      2026-05-23 15:46:01
      廣東一博主吐槽:老板為2個(gè)未成年孩子各存款80萬(wàn),如今身陷困境

      廣東一博主吐槽:老板為2個(gè)未成年孩子各存款80萬(wàn),如今身陷困境

      塵埃里的看客
      2026-05-23 10:21:41
      趙露思泰國(guó)演唱會(huì)各種大尺度,公然表演“胸震”,為曝光度無(wú)底線

      趙露思泰國(guó)演唱會(huì)各種大尺度,公然表演“胸震”,為曝光度無(wú)底線

      花哥扒娛樂(lè)
      2026-05-22 20:17:55
      公務(wù)員都不敢這樣喝!貧困生每天一杯瑞幸,被同學(xué)舉報(bào)后崩潰了

      公務(wù)員都不敢這樣喝!貧困生每天一杯瑞幸,被同學(xué)舉報(bào)后崩潰了

      妍妍教育日記
      2026-05-23 20:42:06
      耿同學(xué)的博導(dǎo)楊昀,和中日友好醫(yī)院開除的肖飛,還一起發(fā)表論文

      耿同學(xué)的博導(dǎo)楊昀,和中日友好醫(yī)院開除的肖飛,還一起發(fā)表論文

      漢史趣聞
      2026-05-23 09:21:48
      2026-05-24 10:32:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      15289文章數(shù) 66880關(guān)注度
      往期回顧 全部

      科技要聞

      我戴著攝像頭上班,正在幫AI搶走我飯碗

      頭條要聞

      牛彈琴:特朗普宣布大消息后發(fā)地圖 伊朗被星條旗覆蓋

      頭條要聞

      牛彈琴:特朗普宣布大消息后發(fā)地圖 伊朗被星條旗覆蓋

      體育要聞

      少年意氣,正在改變中國(guó)足球

      娛樂(lè)要聞

      《浪姐7》三公,王濛贏麻了,張?jiān)聦?shí)慘

      財(cái)經(jīng)要聞

      爆炸致82人遇難 留神峪煤業(yè)存違法行為

      汽車要聞

      2027款星途瑤光上市 把"全球車"標(biāo)準(zhǔn)卷進(jìn)13萬(wàn)級(jí)市場(chǎng)

      態(tài)度原創(chuàng)

      健康
      數(shù)碼
      教育
      手機(jī)
      公開課

      外泌體 ≠ 生長(zhǎng)因子!它們之間究竟有何區(qū)別?

      數(shù)碼要聞

      TDK與NHK Spring陷入集體訴訟 硬盤關(guān)鍵零部件被指操縱價(jià)格逾十年

      教育要聞

      四部門明確中小學(xué)辦學(xué)20條底線要求 其中在教學(xué)設(shè)施裝備方面,要求學(xué)生1人1桌1椅、座椅有靠背

      手機(jī)要聞

      蘋果內(nèi)部測(cè)試iOS 26.5.1系統(tǒng)版本,預(yù)計(jì)最快下周推送

      公開課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产伦子沙发午休系列资源曝光 | 日韩一区二区av| 欧美大bbbb流白水| 日本免费一区二区三区中文字幕 | 国产精品成人AⅤ在线一二三四| 国产一区二区不卡在线| 午夜剧场黄色| 日韩?国产不卡| 99国产欧美另类久久久精品| 91久久偷偷做嫩草影院免费看| 免费全部高h视频无码| 免费人成黄页在线播放| 中文字幕在线中字日韩| 国产精品成人午夜福利| 亚洲1234区| 天天狠狠操| 国产麻豆精品自拍视频| 99精品高清在线播放| 99久久婷婷国产综合精品青草漫画 | 亚洲av激情久久精品人| 撸啊撸激情久久| 精品人体无码一区二区三区| 亚洲AV无码一区二区三区东京热| 少妇愉情理伦片丰满丰满午夜| 国模一区二区| 国精品午夜福利不卡视频| 成人无码AV片| 成人另类小说| 成人免费视频一区二区三区| 人妻系列无码专区免费视频| 国产精品白嫩初高生免费视频| 日本久久香蕉一本一道| 亚洲乱码av中文一区二区| 精品?一区?卡| 国产亚洲欧美在线视频| 午夜理论在线| 精品av综合导航| 国产精品一区二区三区色| 欧美成人18| 欧美人伦禁忌dvd放荡欲情| 亚洲欧美日韩精品|