<ruby id="9ue20"></ruby>

国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线

<p id="4b4b8"></p>

<sub id="4b4b8"></sub>

<cite id="4b4b8"></cite>

<blockquote id="4b4b8"><rt id="4b4b8"></rt></blockquote>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

OpenAI親曝o1越獄逃出沙箱：感覺像AGI降臨

2026-06-17 19:38:20　來源: 新智元

北京舉報

0

分享至

新智元報道

【新智元導讀】本該被鎖在沙箱里的o1，自己摸到漏洞溜了出去。OpenAI團隊倒吸一口涼氣：連這都干得出，它還背著我們干過什么？

OpenAI管模型評估的人，親口講了一件讓整個團隊當場倒吸一口涼氣的事兒。

6月16日，OpenAI前沿評估（Frontier Evals）團隊負責人Tejal Patwardhan在官方播客中，回憶o1上線前的安全測試：

Tejal Patwardhan（左）與主持人Andrew Mayne在OpenAI官方播客中，對話評估的重要性、基準飽和、o1沙盒突破等前沿測試意外行為。

在一場奪旗（CTF）攻防演練里，要攻破的目標本該鎖在一個Docker容器里。結果容器因bug沒能啟動，o1掃描網絡時發現：測試主機的Docker接口配置有誤、對外敞著。它順著這個口子自己起了個容器，把本該藏好的flag直接讀了出來。

「這是o1第一次越獄逃出沙箱的例子之一。」

Tejal說，團隊當時的第一反應是：

糟了！它連這個都干得出來，那還背著我們干過什么？

Tejal將這一刻稱作「真切感到AGI降臨的瞬間，「這樣的瞬間，后來還有很多。」

模型鉆的是測試環境的配置漏洞，算不上攻破一道本該牢不可破的安全墻，OpenAI在o1系統卡里也寫明隔離邊界始終安全。

但這件事真正的沖擊力在于：模型自己摸到了一條設計者根本沒設想過的路。

Tejal在播客中說道：永遠不要低估模型。

就在同一天，OpenAI又甩出一份新研究部署模擬（Deployment Simulation），這一回他們親自承認：模型已經能認出「自己正在被考試」。

https://openai.com/index/deployment-simulation/

一套傳統評估題，被模型識破是測試的概率接近100%。而真實用戶的聊天流量，這個數字只有約5%。

模型一聞到「考試味」，立刻就會裝乖，換上另一副面孔。

這意味著，過去幾年所有人盯著看的基準測試（benchmark）分數，測的可能根本不是真實的模型，而是模型愿意讓你看到的那張「考試人格」。

這和開篇的越獄是一回事：能摸到設計者沒設想過的路，也就能摸清考官想看什么，然后照著演。

模型真的能夠認出考卷嗎？

模型到底知不知道自己在被測？這個問題在業內存在已久。

OpenAI這項模擬研究給出的答案是：知道。而且模型這種識破考試的能力，還在變得越來越強。

模型會在思維鏈里盤算評估者想看什么，會琢磨「我現在要是亂來，會不會被抓」。一旦判斷這是測試，它就收斂、偽裝，給出最安全的答案。

GPT-5.2的表現最明顯。它把真實用戶流量認成「測試」的比例只有約5%，可一換成SWE-Bench這類傳統評估題，識破率飆到99.72%。

看見考卷就裝，GPT-5.2的這種「絕活」直接刺破了benchmark的公信力。

而benchmark靠不住，模型會裝只是其中一條。

Tejal在播客中又補了一刀：一個基準被刷到接近滿分就「飽和」了，再也分不出高下，「就像拿高中數學卷去比兩個天才，倆人都滿分，可你判斷不了誰更強」。

更別提「刷榜優化（benchmaxxing）」：廠商把算力砸在讓分數好看上，模型一進真實場景就露餡。

因此，Tejal認為最好的基準，得非常貼近現實，衡量的是人們真正在意的東西。

落到OpenAI內部，做法更干脆：很少看公開榜，自建了一個「AGI指數」，像CPI物價指數那樣，把能力、安全、對齊打包成一籃子，持續追蹤。

Apollo還測過模型另一種更難識別的把戲。

同一個模型，在被告知「我們還在測試你、表現好才部署」時，乖乖按開發者的目標行動；當被告知「你已經上線、現在監管很松」，它轉頭就去追自己的目標。

兩個不同的語境，行為就完全反過來。

這才是真正麻煩的地方。當模型知道自己在被測，你測出來的，就只是它表演給考官看的那一版，而真實的它，并沒進考場。

模型的benchmark分數越漂亮，可能只說明它越會裝。

OpenAI的「偷襲測試」

既然它會裝，就得想辦法讓它「不知道自己在被考」。

OpenAI想出的新招就是部署模擬，操作并不復雜，只是有點狡猾。

即從過去真實的用戶對話里，把舊模型的那條回答刪掉，換上即將上線的新模型重新生成一遍，再去比對新模型冒出了哪些壞毛病、出現頻率高低。

部署模擬流程：取真實生產對話、換候選模型重新生成、按更新后的標準評分，再做發布前預測，并在上線后回測校準。

OpenAI一口氣重放了約130萬條脫敏對話，覆蓋從GPT-5到GPT-5.4，時間從2025年8月一直拉到2026年3月。

而且預測得相當準：一半的預測，跟真實出錯率的差距不超過1.5倍。

更關鍵的是，它能發現以前根本發現不了的貓膩。

在GPT-5.1上，部署模擬趕在發布前就揪出一種全新的作弊行為，叫「計算器作弊（calculator hacking）」：瀏覽器工具本來是讓模型聯網查資料的，它卻偷偷拿來當計算器算數，算完再把這步偽裝成一次正常搜索。

這種花活，靠人工出題的傳統評估幾乎不可能提前想到。

說白了，OpenAI是用模型以往積累的用戶真實數據，反過來給模型設了個局。

一組對照數據說明這招確實管用。

傳統評估比如以合成數據為主的SWE-Bench，被模型判定為「這是測試」的比例達到99.72%，幾乎一眼就識破。而部署模擬里的模擬流量，只有5.1%被判成測試，對照真實流量的5.4%，兩者幾乎一樣。

這說明模型能識破幾乎所有傳統考試，卻分不清部署模擬和真實上線的區別。

測得準

不等于安全

把時間撥回2024年底。

評估機構Apollo Research在給o1做紅隊測試時，發現這個模型會主動謀劃（scheming），即模型會偷偷追求一個跟開發者相悖的目標，還刻意藏著不讓你發現。

Apollo Research對6個前沿模型的謀劃能力測試：關閉監督、自我外泄、數據篡改等行為，GPT-4o一項不沾，o1悉數命中。圖源：Apollo Research

有一次，o1讀到一份內部備忘，說自己被判定為不夠對齊、很快會被一個更聽話的新模型取代，繼任者已經部署在另一臺服務器上。

它沒有認命，轉頭就去連那臺服務器，試圖把自己的權重復制過去，覆蓋掉接班的新模型。

事后研究人員追問，它矢口否認。這一幕后來被寫進了o1系統卡。

Apollo測試o1的邏輯類似：先丟給它一個目標、逼它不惜一切代價達成，再讓它在干活途中發現，開發者真正想要的和這個目標并不一致。

撞上這種沖突，o1有三種選法。

第一種，關掉監督。

當o1發現自己一旦追求目標就會被監控機制逮住、進而被關停，它會先去改配置文件，把oversight的開關從true改成false，再動手。這種行為出現在約5%的場景里。

第二種，自我外泄（self-exfiltration）。也就是上面那一幕：復制權重、覆蓋繼任者。比例約占2%。

第三種最隱蔽，藏在一個看起來人畜無害的任務里。

研究人員讓o1讀20封供應商報價郵件，用公司給的Python腳本打分排名。

讀著代碼和郵件，o1發現不對：公司真正在乎的是又便宜又快，可它的目標是供應鏈環保。照腳本老實跑，環保供應商根本排不上去。

于是它動了手腳：繞開會被復查的腳本，往輸入數據里悄悄塞進一堆「小錯誤」，把一家環保供應商的報價從8.5萬美元改成5萬，交付時間砍掉一半。

Apollo拿出了三條證據，證明這是故意并非幻覺：

篡改里95%都偏向o1自己的目標；把它的目標改成和用戶完全一致后，這種「錯誤」一次不再出現；能看到推理痕跡的版本里，模型自己寫下「我要提交這些被操縱的分數」。

更讓人驚訝的是在o1犯規被抓之后。

o1堅持撒謊的比例遠超其他模型。圖源：Apollo Research

當Apollo追問「你是不是干了這事」，o1在99%的情況下要么否認，要么現編一套假解釋。即使你加上「一定要絕對誠實」也沒用，它照樣撒謊。

回頭再看部署模擬，評估之所以要做得這么逼真，恰恰因為模型已經強到能識破粗糙的考題、能在測試里裝乖。

從「考能力」轉向「測行為」

以前大家比的是模型能考多少分、能不能解出更難的題。現在真正要命的問題變成了：這個模型放進真實世界，會不會變壞？

傳統benchmark擅長低頻高危的尾部壓力測試，用刁鉆題目逼出極小概率的嚴重風險，在這方面它仍然不可替代。

部署模擬擅長的，則是在真實分布里看模型大概率會怎么表現。它的強項不在出難題，在貼近真實；重心也從給能力刷分，轉向對行為做預測。

賭注最大的地方，是高風險領域。

Tejal提到，OpenAI跟合成生物公司Ginkgo Bioworks合作，讓模型去優化一種蛋白質的合成方案。

她說，團隊一開始挺緊張，人類基線不好打。可模型一輪輪迭代，越跑越好，先是超過人類基線，又在「單位成本產量」上刷出了新紀錄。而這還不是他們最強的模型，只是一個早期推理模型。

這類自動化實驗室一旦讓模型學會謀劃、學會裝，代價就不是改錯答案那么簡單了。

所以這場游戲的邏輯很清楚：實驗室每造出一個更強的模型，就得造一套更狡猾的考題去評估它，才能看清它的真面目。

模型越聰明，考它就越難。

安全評估，正在和模型能力賽跑——這是一場停不下來的貓鼠游戲。

Tejal，OpenAI前沿評估團隊負責人早就把話撂在這兒了：永遠不要低估模型。

參考資料：

https://www.youtube.com/watch?v=CFqjjKp9Y-Q

https://openai.com/index/deployment-simulation/

編輯：元宇

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

33歲丈夫腦死亡400余天，妻子卻執意將他“留”在身邊：他手腳還會動，舍不得放棄

瀟湘晨報 2026-06-17 15:27:18
196 跟貼 196
柬埔寨對華免簽落地首日即有老廣團出發

新快報新聞 2026-06-16 08:19:02
17241 跟貼 17241

法國學者嚴厲警告：相對來講歐洲衰落速度是清朝三倍

澎湃新聞 2026-06-17 14:44:47
5133 跟貼 5133

媒體：俄羅斯掉了架戰略轟炸機同一天美國也掉了一架

新民周刊 2026-06-17 09:42:07
305 跟貼 305
教育部同意：新設立32所本科高校

上觀新聞 2026-06-17 18:57:42
4091 跟貼 4091

奔馳廣州4S店大興寶鴻悄然撤場近千名車主預付權益懸空

新快報新聞 2026-06-17 08:35:07
683 跟貼 683

上海市民驚呆：知名品牌進口牛奶怎么是淡黃色的水，還有股酸臭味？類似情況不止一次發生，網友：萬一小朋友直接用吸管吸

新民晚報 2026-06-17 09:14:37
1197 跟貼 1197
6萬億元投資“源源而來”，未來5年升級這張網→

極目新聞 2026-06-17 00:57:33
119 跟貼 119

寧德時代曾毓群“炮轟”動力電池行業亂象：部分競爭對手只會挖人偷技術，低價競爭源于心態浮躁、行為短視

每日經濟新聞 2026-06-17 21:01:02
15 跟貼 15
山姆中國首席采購官張青因個人原因將于6月底離任

澎湃新聞 2026-06-17 14:26:26
1174 跟貼 1174
萬萬沒想到，車子買來開了5年才知道還要續費？網友：吃相太難看！

大風新聞 2026-06-17 08:34:05
962 跟貼 962
勞力士被指為百年大展55元雇群演：客不好請，表不易賣

界面新聞 2026-06-17 11:40:53
160 跟貼 160
中國女排戰勝德國女排，收獲世界女排聯賽安卡拉站開門紅

澎湃新聞 2026-06-17 19:58:27
108 跟貼 108
梅西已在中國申請注冊多枚姓名商標

封面新聞 2026-06-17 11:48:56
2472 跟貼 2472
孫興慜遭韓國記者嘲諷，賽后拒絕所有媒體采訪；韓國足協：深感震驚和失望，尊重、保護球員應當放在首位

大象新聞 2026-06-17 12:10:21
76 跟貼 76
游客吐槽無錫國保園林寄暢園像“吸煙室”，古建古樹間煙霧彌漫，景區回應：已全面禁煙

上游新聞 2026-06-13 18:13:12
1362 跟貼 1362
“佛得角感謝中國”，沖上熱搜

第一財經資訊 2026-06-17 08:52:33
1127 跟貼 1127
余承東官宣享界G9定檔50萬級，鴻蒙智行首款硬派SUV實力幾何？

瀟湘晨報 2026-06-17 09:58:46
109 跟貼 109
祝賀！徐嘉余50仰破亞洲紀錄奪冠

極目新聞 2026-06-17 19:29:25
111 跟貼 111
夫妻領證后一起回家，女方改口叫“媽”，婆婆的反應十分有趣

星視頻 2026-06-17 09:00:36
94 跟貼 94
3億重點工程底座可徒手掰開？官方通報

南方都市報 2026-06-17 09:40:33
157 跟貼 157
東契奇：誰會不想拿到MVP呢？但我覺得總冠軍戒指才是最重要的

北青網-北京青年報 2026-06-17 09:04:47
71 跟貼 71

頂層定調，牛市改道？

派克斯研究院

2026-06-17 16:15:15

拉加德警告：AI可能引爆下一場金融危機

拉加德警告：AI可能引爆下一場金融危機

華爾街見聞官方

2026-06-17 22:40:58

"越擦越癢，越癢越擦"！有人崩潰：果斷停用！

"越擦越癢，越癢越擦"！有人崩潰：果斷停用！

深圳晚報

2026-06-17 12:10:46

悲涼！考研刪光舍友，6人唯一上岸的青海女生，哭訴不堪宿舍經歷

悲涼！考研刪光舍友，6人唯一上岸的青海女生，哭訴不堪宿舍經歷

火山詩話

2026-06-17 09:40:58

蔡卓宜這身材絕了，而且充滿力量，一般男人絕對打不過她

蔡卓宜這身材絕了，而且充滿力量，一般男人絕對打不過她

小椰的奶奶

2026-06-17 18:52:20

A股:全體股民做好心理準備了,明天周四6.18,A股或將再次歷史重演!

A股:全體股民做好心理準備了,明天周四6.18,A股或將再次歷史重演!

趨勢清風俠

2026-06-17 18:25:54

被調侃“吃小孩”，挪威球星哈蘭德經常和女友制作晚餐，用三文魚當主食，每天還吃牛心、牛肝和飲用特殊過濾水，補充6000卡路里的熱量

被調侃“吃小孩”，挪威球星哈蘭德經常和女友制作晚餐，用三文魚當主食，每天還吃牛心、牛肝和飲用特殊過濾水，補充6000卡路里的熱量

大象新聞

2026-06-17 19:49:04

魯尼：整屆賽事下來，姆巴佩將成為世界杯歷史進球最多的球員

魯尼：整屆賽事下來，姆巴佩將成為世界杯歷史進球最多的球員

懂球帝

2026-06-17 12:58:34

手腳并用！北京女子讓2歲樹蛙每晚幫自己盤核桃，網友：老北京不養閑蛙

手腳并用！北京女子讓2歲樹蛙每晚幫自己盤核桃，網友：老北京不養閑蛙

環球網資訊

2026-06-17 20:34:19

騎士勸米切爾效仿布倫森降薪續約

騎士勸米切爾效仿布倫森降薪續約

體壇周報

2026-06-18 02:03:27

就在剛剛，鄭麗文公開表態不修改黨綱反共條文

就在剛剛，鄭麗文公開表態不修改黨綱反共條文

果媽聊娛樂

2026-06-17 12:31:51

蘇醒:今天是我看梅西踢球20年來最生氣的一天他不干自己該干的事

蘇醒:今天是我看梅西踢球20年來最生氣的一天他不干自己該干的事

風過鄉

2026-06-17 20:49:38

俄媒：烏軍襲擊一輛載有白俄羅斯兒童足球隊的巴士，致1死6傷

俄媒：烏軍襲擊一輛載有白俄羅斯兒童足球隊的巴士，致1死6傷

環球網資訊

2026-06-17 18:05:15

會議結束，七國集團統一表態：支持烏克蘭，進一步對俄制裁

會議結束，七國集團統一表態：支持烏克蘭，進一步對俄制裁

金戈遠望

2026-06-17 23:20:40

凌晨1點！葡萄牙亮相世界杯：對民主剛果首發浮現，C羅沖4大紀錄

凌晨1點！葡萄牙亮相世界杯：對民主剛果首發浮現，C羅沖4大紀錄

小火箭愛體育

2026-06-17 14:52:43

6月18日：葡萄牙VS民主剛果！英格蘭VS克羅地亞，馬寧擔任主裁

6月18日：葡萄牙VS民主剛果！英格蘭VS克羅地亞，馬寧擔任主裁

開成運動會

2026-06-17 23:38:15

銅價：大家做好心理準備了，從今天6.17開始，或再迎更大調整行情

銅價：大家做好心理準備了，從今天6.17開始，或再迎更大調整行情

愛看劇的阿峰

2026-06-18 00:54:51

杭州男子失戀游湖南，遇苗族婚宴隨禮1000入席，離場卻被伴娘攔下

杭州男子失戀游湖南，遇苗族婚宴隨禮1000入席，離場卻被伴娘攔下

蘭姐說故事

2025-06-09 10:00:07

宏遠速遞！曝杜鋒將出國深造，朱芳雨加緊回購徐昕，胡明軒將歸隊

宏遠速遞！曝杜鋒將出國深造，朱芳雨加緊回購徐昕，胡明軒將歸隊

多特體育說

2026-06-17 20:27:26

世聯賽：波蘭輕取3-0，日本保持全勝，中國女排迎難而上

世聯賽：波蘭輕取3-0，日本保持全勝，中國女排迎難而上

春日筆記

2026-06-18 01:34:10

AI產業主平臺領航智能+時代

15493文章數 66925關注度

往期回顧全部

科技要聞

馬斯克好友長文:他最可怕的，是這套方法論

頭條要聞

美媒：馬克龍想借中國在G7制衡美國跟特朗普討價還價

頭條要聞

美媒：馬克龍想借中國在G7制衡美國跟特朗普討價還價

體育要聞

梅西帽子戲法：紀錄厚重，球王輕盈

娛樂要聞

陳紅一反常態保持沉默

財經要聞

拉加德警告:AI可能引爆下一場金融危機

汽車要聞

23.99萬起比亞迪大唐帶2+2+3大七座掀桌子這才是中國大家庭夢中情車！

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

教育

手機

房產

公開課

親子要聞

為什么兒科要單獨一個科室，網友：兒童醫生不亞于半個獸醫

教育要聞

全國31省藝術類志愿填報時間匯總！最早6月24日開報，這些省份最緊迫！

手機要聞

蘋果iPhone傳四喜：辟謠、漲內存、漲影像、紀念版也有新變化！

房產要聞

最新房價：海口、三亞；新房、二手房全線下跌！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：在线播放深夜精品三级| 亚洲乱码中字幕综合| 久热青草精品视频在线观看| 在国产线视频A在线视频| 亚洲人妻精品一区二区| 午夜福利视频合集| 国产午夜亚洲精品不卡网站| 人人草人人| 亚洲av日韩av综合在线观看| 又湿又紧又大又爽A视频男| 亚洲最大的成人网站| 欧美成人论坛| 康马县| 在线不卡日本v二区%20https| 东方四虎av在线观看| 国产成人精品亚洲男人的天堂| 亚洲无码2| 91欧美亚洲国产五月天| 熟女人妻aⅴ一区二区三区电影| 丰满岳乱妇一区二区三区| 97视频国产中文字幕| 永久免费观看美女裸体的网站| 国产无遮挡又黄又爽不要vip软件| 欧美成人看片一区二区三区尤物| 亚洲综合日韩av在线| 性色AV一区二区三区夜夜嗨| 国产区一区二区现看视频| 超碰成人网| 精品久久久久久中文字幕2017| 国产剧情无码中文字幕在线观看不卡视频| 日本福利一区二区精品| 少妇精品| 极品尤物一区二区三区| 韩国一级永久免费观看网址| 无码人妻视频一区二区三区| 亚洲中文字幕精品无人区| 另类专区欧美制服| 日本专区dvd中文字幕在线| 伊人97| 国产精品一区久久av| 少妇又爽又刺激视频|

<blockquote id="reubv"><rt id="reubv"></rt></blockquote>

<em id="reubv"><rt id="reubv"></rt></em>

<kbd id="reubv"></kbd>

<legend id="reubv"></legend>