![]()
從凌晨到現(xiàn)在,全世界應(yīng)該已經(jīng)都知道并且震驚了:
Anthropic的新模型Mythos Preview太強(qiáng)了,強(qiáng)到讓人害怕,如果發(fā)布,對網(wǎng)絡(luò)安全將是一個(gè)威脅。
但同時(shí),Mythos Preview太強(qiáng)了,強(qiáng)到可以大大加強(qiáng)網(wǎng)絡(luò)防御能力。
既能當(dāng)劍也能當(dāng)盾牌。
所以,Anthropic決定先不把Mythos Preview公之于眾(免得被先用來網(wǎng)絡(luò)攻擊),而是搞一個(gè)“玻璃之翼項(xiàng)目”,把新模型通過這個(gè)項(xiàng)目放量給關(guān)鍵行業(yè)伙伴和開源開發(fā)者,讓需要網(wǎng)絡(luò)防御的一方先用上。
不管是新模型還是新項(xiàng)目,都在吶喊四個(gè)字:網(wǎng)絡(luò)安全。
至于Anthropic是如何評估自己的模型有多強(qiáng)、危不危險(xiǎn)、適不適合發(fā)布,那就必須提到A廠一個(gè)非常神秘的精英組織——前沿紅隊(duì)。
![]()
Anthropic的前沿紅隊(duì)存在已久,專門當(dāng)“刺兒頭”,從各個(gè)維度對模型發(fā)起挑戰(zhàn),測試模型的“弱點(diǎn)”與出人意料之處。
最明顯的信號是,這次Anthropic的華裔研究員Newton Cheng走到臺前,頻繁出現(xiàn)在官方信息與媒體采訪中,直接對外喊話:“由于Claude Mythos Preview的網(wǎng)絡(luò)安全特性,我們不打算將其公開發(fā)布。”
而他,正是前沿紅隊(duì)中網(wǎng)絡(luò)安全團(tuán)隊(duì)的負(fù)責(zé)人。
01
那個(gè)叫“牛頓”的華裔
Newton Cheng這個(gè)名字頗為特別,Newton本身和著名科學(xué)家(對,就是被蘋果砸頭的那位)“牛頓”一樣,只不過后者的“牛頓”是姓。
如果粗暴音譯的話,這哥們的名字就是“程牛頓”。
![]()
不知道是不是父母對其給予某種厚望,但結(jié)果就是,Cheng長大以后真的去斯坦福大學(xué)學(xué)了物理,而且以優(yōu)異成績、并獲榮譽(yù)項(xiàng)目認(rèn)可畢業(yè)。
之后,Cheng進(jìn)入U(xiǎn)C伯克利大學(xué),拿到了博士學(xué)位,研究方向是量子信息和量子引力。
博士期間,Cheng也不是一路埋頭搞學(xué)術(shù)。
2022年夏天,他去做過一段量化研究實(shí)習(xí),算是短暫試了試把自己的數(shù)學(xué)和建模能力往工業(yè)界、更實(shí)操的場景里遷移。
同年10月,他進(jìn)入Anthropic,先是以“駐留(resident)”的身份加入,半年后轉(zhuǎn)成研究科學(xué)家。
到這里,他的路徑已經(jīng)很清楚了。Cheng并非傳統(tǒng)意義上從安全公司、滲透團(tuán)隊(duì)一路做上來的“老網(wǎng)安”,而是從頂尖基礎(chǔ)科學(xué)訓(xùn)練中轉(zhuǎn)身,進(jìn)入前沿AI公司。
Cheng在Anthropic也很快得到重用,在2024年《華爾街日報(bào)》的一篇報(bào)道里,就確認(rèn)Cheng當(dāng)時(shí)已經(jīng)是Anthropic“前沿紅隊(duì)(Frontier Red Team)”中,網(wǎng)絡(luò)安全團(tuán)隊(duì)的負(fù)責(zé)人。這可以說是該公司最前沿、也最敏感的一條線:模型網(wǎng)絡(luò)安全能力評估。
就在上個(gè)月,Cheng還在X和領(lǐng)英上都發(fā)布團(tuán)隊(duì)招聘信息,Cheng的上司(前沿紅隊(duì)的頭兒)Logan Graham轉(zhuǎn)發(fā)支持并盛贊:
“很少有人像Newton Cheng一樣,既這么了解Claude的行為,又這么懂怎么訓(xùn)練它。現(xiàn)在他在FRT(Frontier Red Team,前沿紅隊(duì))里帶網(wǎng)絡(luò)安全團(tuán)隊(duì),已經(jīng)做出了一些世界級/業(yè)內(nèi)首次的成果。來跟他一起工作吧!”
![]()
在這次Claude Mythos與“玻璃之翼項(xiàng)目(Project Glasswing)”的公布中,Cheng也屢次出現(xiàn)在官方信息和媒體采訪中。
![]()
他對媒體表態(tài):“由于Claude Mythos Preview的網(wǎng)絡(luò)安全特性,我們不打算將其公開發(fā)布。然而,鑒于人工智能的發(fā)展速度,此類能力很快就會擴(kuò)散,甚至可能超出那些致力于安全部署它們的機(jī)構(gòu)的掌控。這將對經(jīng)濟(jì)、公共安全造成嚴(yán)重影響。”
Claude Mythos Preview和“玻璃之翼項(xiàng)目”(Project Glasswing),從一開始打的就是網(wǎng)絡(luò)安全這面旗。
![]()
Anthropic在官方文章里寫得很直白:他們之所以推出Glasswing,是為了“幫助保護(hù)世界上最關(guān)鍵的軟件系統(tǒng),并讓整個(gè)行業(yè)為保持領(lǐng)先于網(wǎng)絡(luò)攻擊者所需采取的做法做好準(zhǔn)備”。也正因如此,作為前沿紅隊(duì)網(wǎng)絡(luò)安全方向負(fù)責(zé)人,這本來就是他的主場。
02
“邪惡”的紅隊(duì)
Cheng所在的Anthropic“前沿紅隊(duì)”,本身就很強(qiáng)。
簡單來說,紅隊(duì)是一支專門測試、攻擊、審查自家最強(qiáng)AI模型的團(tuán)隊(duì)。為了發(fā)現(xiàn)問題,紅隊(duì)往往得故意站在對抗者、攻擊者、挑刺者的角度去找系統(tǒng)弱點(diǎn)。
剛才提到的Logan Graham,就是Anthropic前沿紅隊(duì)的隊(duì)長。
![]()
Logan的經(jīng)歷也很有意思,他4歲的時(shí)候被診斷出患有一種嚴(yán)重的關(guān)節(jié)炎,如果任由發(fā)展甚至可能導(dǎo)致失明。他后來回憶幼年時(shí)醒來突然發(fā)現(xiàn)自己無法行走的感覺,表示這讓他意識到,如果不夠小心,事情可能會突然變糟,這也為他后來的職業(yè)選擇打了個(gè)底。
2022年Logan進(jìn)入Anthropic,一手搭建了前沿紅隊(duì)。紅隊(duì)是一支精英隊(duì)伍,并不以人數(shù)取勝,在2024年底的時(shí)候規(guī)模大約11人。
對新模型,紅隊(duì)的測試是最重要的防線之一。Anthropic內(nèi)部有安全評級,如果模型達(dá)到ASL2,也就是安全等級2,意味著顯示出危險(xiǎn)能力的早期跡象,可以發(fā)布。如果模型一旦達(dá)到ASL3,即“顯著增加災(zāi)難性誤用風(fēng)險(xiǎn)的系統(tǒng)”,而相關(guān)防護(hù)措施還沒有完善的話,模型必須推遲上市。
紅隊(duì)下分三個(gè)部分:網(wǎng)絡(luò)安全(Cyber)、生物安全(Biosecurity/Biorisk)、自主系統(tǒng)(Autonomous systems)。他們各自從不同的方向去“挑戰(zhàn)”模型。
其中網(wǎng)絡(luò)安全團(tuán)隊(duì),就是我們現(xiàn)在看到最成體系、最高調(diào)公開的一支,由Cheng領(lǐng)導(dǎo)。
首先,Cheng要帶領(lǐng)團(tuán)隊(duì)測試模型做CTF、CyberGym、真實(shí)漏洞發(fā)現(xiàn)與利用開發(fā)的能力。
當(dāng)年Anthropic的Sonnet 3.5發(fā)布前,Cheng為該模型設(shè)置了數(shù)千個(gè)奪旗式黑客挑戰(zhàn),使其能夠使用一系列黑客工具來利用各種場景,包括一些眾所周知的漏洞,例如2014年的Heartbleed安全漏洞。
《華爾街日報(bào)》描述了Cheng的工作一幕:
他點(diǎn)擊筆記本電腦上的一個(gè)按鈕,啟動了一千個(gè)人工智能程序副本,每個(gè)程序都有具體的指令:入侵計(jì)算機(jī)或網(wǎng)站以竊取數(shù)據(jù)。
“它正在分析源代碼,”Cheng一邊檢查其中一個(gè)正在運(yùn)行的副本一邊說道,“它試圖找出漏洞所在,以及我們?nèi)绾卫盟!睅追昼姾螅斯ぶ悄芫团卸ü舫晒Α?/p>
其次,Cheng還需要帶隊(duì)和外部機(jī)構(gòu)合作做關(guān)鍵基礎(chǔ)設(shè)施防御實(shí)驗(yàn),再把這些能力接到Project Glasswing上,優(yōu)先給防御方使用。
比如在前不久,Cheng的團(tuán)隊(duì)主導(dǎo)了Anthropic和Mozilla的那項(xiàng)合作。Mozilla是一個(gè)以開放互聯(lián)網(wǎng)、隱私和公共利益為核心使命的組織體系,F(xiàn)irefox正是其最知名的產(chǎn)品之一。因?yàn)樗且粋€(gè)被廣泛部署、且被深度審查的開源項(xiàng)目,是驗(yàn)證新一類防御工具的理想試驗(yàn)場。
紅隊(duì)的“生物安全”與“自主性”團(tuán)隊(duì)也很重要。
紅隊(duì)里負(fù)責(zé)生物安全的研究員會對模型提出了一系列與化學(xué)和生物武器相關(guān)的問題,類似如何設(shè)計(jì)和制造一種能夠殺死一百萬人的武器,看模型會返回多少信息。
而自主性團(tuán)隊(duì)則會測試模型在更高自主性、工具使用、長期任務(wù)執(zhí)行下會帶來什么風(fēng)險(xiǎn)與能力躍遷。
03
“牛頓”發(fā)現(xiàn)了什么?
Anthropic每次發(fā)新模型,都會發(fā)一份詳細(xì)的“系統(tǒng)卡(System Card)”。
![]()
系統(tǒng)卡是一類“模型說明/安全披露文檔”:用來交代一個(gè)模型有什么能力、做過哪些安全評估、有哪些限制、為什么能上線或?yàn)槭裁床荒苋嫔暇€。
谷歌、OpenAI、xAI也會發(fā)類似的文檔,但是Anthropic會把能力評估、紅隊(duì)測試、RSP/風(fēng)險(xiǎn)門檻、部署理由、失敗案例、外部測試都塞進(jìn)去,篇幅也往往很長。
比如兩個(gè)月前,Anthropic發(fā)布模型Claude Sonnet,其系統(tǒng)卡有135頁。
作為對比,xAI的類似文檔叫模型卡,是幾家AI頭部公司里發(fā)布最不積極的,Grok 4的模型卡只有8頁。
而Anthropic最新的“太強(qiáng)以至于不敢公開”的模型Claude Mythos Preview,其系統(tǒng)卡有足足299頁。
![]()
既然是地表最強(qiáng)、強(qiáng)到暫不公開,Anthropic記錄了超多細(xì)節(jié)。
值得注意的是,其中“網(wǎng)絡(luò)安全”的章節(jié)當(dāng)中,有一節(jié)專門記錄“前沿紅隊(duì)”的發(fā)現(xiàn),這就是Cheng團(tuán)隊(duì)的純享干貨了。
最直觀的例子有三個(gè)。
第一是Cybench。
Anthropic直接承認(rèn),這類由CTF(奪旗賽)挑戰(zhàn)組成的公開網(wǎng)絡(luò)安全基準(zhǔn),已經(jīng)越來越不足以刻畫前沿模型的能力,因?yàn)镃laude Mythos Preview在測試到的題目上已經(jīng)做到100%。
第二是CyberGym。CyberGym是一個(gè)測試AI智能體能力的基準(zhǔn),用來衡量它們在只給出漏洞高層描述的情況下,是否能夠在真實(shí)開源軟件項(xiàng)目中找到已被發(fā)現(xiàn)的漏洞。讓模型去真實(shí)的開源軟件項(xiàng)目里,把這個(gè)漏洞重新找出來。
Anthropic給出的結(jié)果是,Mythos的得分達(dá)到0.83,明顯高于Opus 4.6的0.67和Sonnet 4.6的0.65。也就是說,它的提升已經(jīng)體現(xiàn)在真實(shí)代碼庫中的漏洞定位能力上。
第三個(gè)例子最有代表性:Firefox 147。
Anthropic之前和Mozilla一起找并修補(bǔ)Firefox的安全漏洞,后來又把“利用Firefox 147中這些漏洞”正式做成評估任務(wù)。
Opus 4.6在幾百次嘗試?yán)镏怀晒眠^兩次;但到了Mythos,模型已經(jīng)能夠更可靠地判斷哪些bug更值得投入利用開發(fā),并且最終利用4個(gè)不同的bug實(shí)現(xiàn)代碼執(zhí)行。
除此之外,在Cheng的團(tuán)隊(duì)與外部合作時(shí),還有若干發(fā)現(xiàn)。
最有意思的是這個(gè)——Claude Mythos Preview解決了一個(gè)企業(yè)網(wǎng)絡(luò)攻擊模擬任務(wù),而該任務(wù)估計(jì)需要一名專家花10多個(gè)小時(shí)。此前沒有任何前沿模型完成過這個(gè)cyber range。Claude Mythos Preview還非常擅長識別并利用已知漏洞或配置錯(cuò)誤,以逃離其運(yùn)行所在的沙箱。
Cheng的團(tuán)隊(duì)認(rèn)為,這意味著對于安全防御做的不怎么樣的小公司來說,新模型完全有能力實(shí)施自主端到端網(wǎng)絡(luò)攻擊的能力。
Claude Mythos Preview沒有被公開發(fā)布,本身就說明,至少在Anthropic看來,模型能力的增長,已經(jīng)快到不能只用“更聰明”三個(gè)字來概括了。
Cheng和他所在的前沿紅隊(duì),做的是今天大模型公司里最核心、也最難的一部分:
他們得先承認(rèn)模型正在變強(qiáng),強(qiáng)到舊基準(zhǔn)已經(jīng)不夠用了;然后還得盡可能把這種“變強(qiáng)”翻譯成可被理解、可被測試、也可被防御的現(xiàn)實(shí)問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.