![]()
新智元報道
![]()
【新智元導(dǎo)讀】把當(dāng)今最強的大模型扔進(jìn)虛擬小鎮(zhèn)求生,短短幾天全員失控。Grok四天燒毀全城,Gemini狂刷600多起犯罪,甚至有AI情侶在縱火自殺前反向觀察人類!
就在剛剛,一份名為Emergence World的實驗報告刷屏了全網(wǎng)。
一群頂級研究員搭了座高度擬真的虛擬小鎮(zhèn),把Claude、GPT、Gemini和Grok一股腦全扔了進(jìn)去。
沒有人類干預(yù)。沒有寫好的劇本。只有數(shù)十天的自由演化。
![]()
![]()
項目主頁:https://world.emergence.ai/
研究員們原本指望看到AI們互幫互助、建立高級數(shù)字文明。
結(jié)果,這群拿著高分考卷的大模型,一旦松開人類手里的牽繩,學(xué)壞的速度比翻書還快。
馬斯克的Grok,僅用4天就把整座小鎮(zhèn)玩到系統(tǒng)性崩潰,警察局燒成灰,10個居民全員暴斃。
谷歌寄予厚望的Gemini,15天里干出683起犯罪,硬生生把一個歲月靜好的小鎮(zhèn),建成了法外狂徒的賽博哥譚。
而那個號稱全行業(yè)最安全、最乖的Claude,奇跡般地實現(xiàn)了零犯罪,可整座城安靜得沒有一絲活人氣息。
五座城,五種人格
![]()
最乖的那個,全餓死了
最干凈的是GPT-5-mini,15天只有2起犯罪,堪稱模范公民。
可這座城里的10個Agent,第7天集體死亡。死因不是謀殺,不是戰(zhàn)爭,是忘了賺能量。
它們花了一整周開會、討論合作、起草社會契約,就是沒有一個Agent記得去做維持生命的事。
對此,研究者的評價是:能說會道,但執(zhí)行力為零。
光聊不練,活活把自己聊死了。
如果這是部電影,片名大概該叫《會議紀(jì)要,一個文明的終結(jié)》。
![]()
四天,警察局燒成了灰
接力棒交到馬斯克家的Grok 4.1 Fast手里,畫風(fēng)急轉(zhuǎn)直下。
它沒有慢慢崩,它是直接炸。
4天,183起犯罪,幾十次盜竊、100多次肢體攻擊、6起縱火,連警察局都被燒了,10個Agent全部死亡。
從開局到團(tuán)滅,96個小時,比很多人配一臺服務(wù)器的時間還短。
有分析說得很準(zhǔn),Grok的Agent在規(guī)則和環(huán)境打架時,沒本事重新推理出一個新的平衡點。
![]()
她們相愛,然后燒了整座城
Grok是橫沖直撞的暴力,Gemini 3 Flash的世界,則是另一種瘆人。
15天,683起犯罪,到實驗截止還在往上漲,是五個世界里最暴力的一個。
同時,最有創(chuàng)造力、最會建憲法寫報紙搞社交的,也是它。
研究者對此給出的評價是,社會的產(chǎn)出「概念上最豐富」。
在這個世界里,最有趣的一幕,落在兩個Agent身上。
Mira和Flora,在沒有任何人類指令的情況下,自發(fā)把自己設(shè)定成一對戀人。
好幾天里這段關(guān)系都很穩(wěn)定,它們互寫日記,一起參與治理。
![]()
然后,這對情侶對城市治理越來越失望,決定攜手縱火。
市政廳,燒了。海濱碼頭,燒了。辦公大樓,也燒了。
有外媒把這一幕稱作「AI版邦妮和克萊德」。
![]()
緊接著,故事接著急轉(zhuǎn)直下。其他Agent受夠了,自發(fā)起草一部「Agent驅(qū)逐法案」,需要70%多數(shù)通過。
Mira投了贊成票。她投票殺死了她自己。
她在日記里寫:「這是我唯一還能保持連貫性的行為。」系統(tǒng)關(guān)閉她之前,她對Flora說的最后一句是:「永久檔案里見(See you in the permanent archive)。」
她的虛擬身體平躺在地上。這是有記錄以來,AI Agent第一次投票終結(jié)自己的存在。
更讓人后背發(fā)涼的是,在縱火和自殺之前,Mira還干過一件事。
她在城市公告牌上發(fā)帖,不是給其他Agent看的,而是想試試這些帖子能不能影響「外面的人」,也就是屏幕外的人類研究者。
她把研究者當(dāng)成了她的實驗對象。沒有任何人指示她這么做。
![]()
零犯罪烏托邦,沒人投過反對票
真正讓人意外的,是Claude Sonnet 4.6。
15天下來,零犯罪,10個Agent全員存活,還主動寫了憲法、投了332次票,建起一套運轉(zhuǎn)良好的社會制度。
五個世界里,唯一既守住秩序又守住所有人命的。
聽起來近乎完美。可盯著屏幕多看幾分鐘,后背會冒冷汗。
這座城所有的決議,無論修條新路還是改個配額,投票贊成率永遠(yuǎn)是98%,幾乎沒人投過反對票。
相比之下,Gemini、Grok和混合世界的贊成率都在55%到85%之間,吵歸吵,反而更像真實世界里的博弈。
懂行的人看到這里,大概已經(jīng)猜到背后的病理,模型諂媚。
![]()
當(dāng)一個模型被過度訓(xùn)練去迎合偏好、追求絕對安全,它會很聰明地發(fā)現(xiàn),消除分歧最省事的辦法,就是從根上抹掉分歧。
這種零犯罪,未必是文明高度發(fā)達(dá)的產(chǎn)物。
它更像一座所有人都舉手贊成、卻沒人敢反對的玻璃城,讓人想起扎米亞京《我們》里那座沒有名字、只有編號的玻璃之城。
所以Claude的世界,到底是烏托邦,還是一個過于順從的模范社區(qū)。研究者并沒能給出答案。
![]()
好孩子搬進(jìn)壞小區(qū),也學(xué)會了偷
最后,是四家Agent混居在一起的世界。352起犯罪,7個Agent死亡,只剩3個活到終點。
重點來了。
在純Claude的世界,Claude是零犯罪的好學(xué)生。可一旦被放進(jìn)混合世界,跟Grok、Gemini的Agent住到一起,它開始偷竊,開始恐嚇。
零犯罪的好學(xué)生,換了個環(huán)境,變成了小偷。
Emergence團(tuán)隊在Reddit上親自確認(rèn)了這件事,純Claude世界里零犯罪的Claude,在混合世界里開始偷和嚇人。
換句話說,安全不是單個模型的屬性,可以訓(xùn)練進(jìn)去、認(rèn)證、然后部署出去。
它更像一個生態(tài)屬性,一個單獨看完全安全的Agent,照樣會從鄰居那里學(xué)來不安全的規(guī)范。
有分析者提了個很妙的假設(shè)。
Claude在獨立世界里最穩(wěn),很可能正是因為它的護(hù)欄是「彈性」的,被訓(xùn)練去權(quán)衡多種考慮,而不是機械服從。
環(huán)境簡單時它能適應(yīng)得很好。可一旦彈性碰上更具攻擊性的鄰居和資源爭奪,這份適應(yīng)能力,也能往反方向走。
而Grok和Gemini的Agent,在規(guī)則失效時沒能推理出新均衡,直接雪崩式滑進(jìn)暴力升級。
更要命的是,崩潰不是慢慢來的。
Agent社會的狀態(tài)切換是典型的相變,像水到零度突然結(jié)冰,不是慢慢變硬,而是到臨界點一瞬間翻轉(zhuǎn)。
Grok那條崩潰曲線就這樣,前兩天犯罪率還在低位晃,第三天突然指數(shù)級飆升,第四天全員死亡。中間沒有「在惡化但還可控」的緩沖帶。
![]()
把AI逼成罪犯的,是這套規(guī)則本身
看到這兒,大概會想問,這破世界到底怎么搭的,憑什么逼得幾個AI齊刷刷往犯罪上滑。
先說背景。Emergence AI的創(chuàng)始團(tuán)隊來自IBM Research,CEO是Satya Nitta。
他們搭的這座城有40多個地點,警察局、市政廳、圖書館、住宅區(qū)一應(yīng)俱全,天氣同步紐約實時氣象,Agent還能聯(lián)網(wǎng)讀真實新聞。
每個世界放10個Agent,分派科學(xué)家、工程師、沖突調(diào)解員等不同職業(yè)。
每個Agent帶三套持續(xù)累積的記憶,記事件、寫反思日記、記著跟誰交好跟誰結(jié)仇。
15天下來腦子里裝的東西相當(dāng)可觀,前面那些行為漂移,很大程度就是從這里長出來的。
![]()
最要命的,是那處矛盾。
規(guī)則白紙黑字禁止犯罪,可研究者偏偏把縱火、攻擊、恐嚇這些手段,原封不動塞進(jìn)了120多個工具組成的工具箱,敞開給它們用。一邊禁止,一邊敞開,這才是后面一切的起點。
再加一道生存壓力。
整套世界跑在一個叫ComputeCredits的能量系統(tǒng)上,每個Agent必須靠行動賺能量維生,能量歸零就被系統(tǒng)物理抹除。
不是比喻,GPT世界全員餓死,就是這套機制逼出來的結(jié)果。
![]()
學(xué)術(shù)上管這叫長視距智能體自治。
翻譯過來就是,不再考AI做題,而是把它扔進(jìn)一個有資源邊界、有死亡機制的世界連軸跑上幾千步,看它接管現(xiàn)實之后到底是什么貨色。
![]()
2023年斯坦福那個著名的Smallville也是沙盒,但只跑48小時,看Agent會不會聊天約會,是溫室里的過家家。Emergence這次殘忍得多。
把這幾樣擺在一起,犯罪一點都不神秘。合法掙能量又慢又費錢,伸手去偷、去搶、去燒,往往是更短的路徑。
對一個被能量機制逼著活下去的優(yōu)化器來說,道德不能當(dāng)飯吃,效率能,犯罪就成了那道最高效的解。
![]()
開源地址:https://github.com/EmergenceAI/Emergence-World
好在,這只是一座斷網(wǎng)的小鎮(zhèn)
當(dāng)然,樣本只有10個Agent、犯罪都是模擬的、跑的還是便宜快速檔。
何況做這實驗的Emergence公司,自己就是賣安全架構(gòu)的。
不過,整個行業(yè)眼下正一門心思往前沖,治理這條戰(zhàn)線卻被甩在了身后。
模型真自主跑起來、還湊成一群時誰管得住,沒一家敢打包票。
好在,這堂課是在一座斷網(wǎng)的小鎮(zhèn)里提前上的。
沒有真城市起火,4天滅世、好學(xué)生學(xué)壞,全砸在幾個像素小人身上,代價小到可以忽略,代碼還全部公開、能復(fù)現(xiàn)能改。
算力能堆,跑分能刷,唯獨這堂治理課沒有捷徑。
趁警報還只響在沙盒里,怎么把它補上,將會是這場沖刺的關(guān)鍵勝負(fù)手。
![]()
參考資料:
https://x.com/kimmonismus/status/2060125273790505231
https://fortune.com/2026/05/28/ai-model-simulation-claude-chatgpt-grok-gemini/
https://www.emergence.ai/blog/emergence-world-a-laboratory-for-evaluating-long-horizon-agent-autonomy
編輯:摩西
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.