網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

華裔領(lǐng)銜神秘小隊(duì)，護(hù)航Anthropic“玻璃之翼”

2026-04-08 19:02:47　來源: 字母榜

北京舉報(bào)

分享至

從凌晨到現(xiàn)在，全世界應(yīng)該已經(jīng)都知道并且震驚了：

Anthropic的新模型Mythos Preview太強(qiáng)了，強(qiáng)到讓人害怕，如果發(fā)布，對網(wǎng)絡(luò)安全將是一個(gè)威脅。

但同時(shí)，Mythos Preview太強(qiáng)了，強(qiáng)到可以大大加強(qiáng)網(wǎng)絡(luò)防御能力。

既能當(dāng)劍也能當(dāng)盾牌。

所以，Anthropic決定先不把Mythos Preview公之于眾（免得被先用來網(wǎng)絡(luò)攻擊），而是搞一個(gè)“玻璃之翼項(xiàng)目”，把新模型通過這個(gè)項(xiàng)目放量給關(guān)鍵行業(yè)伙伴和開源開發(fā)者，讓需要網(wǎng)絡(luò)防御的一方先用上。

不管是新模型還是新項(xiàng)目，都在吶喊四個(gè)字：網(wǎng)絡(luò)安全。

至于Anthropic是如何評估自己的模型有多強(qiáng)、危不危險(xiǎn)、適不適合發(fā)布，那就必須提到A廠一個(gè)非常神秘的精英組織——前沿紅隊(duì)。

Anthropic的前沿紅隊(duì)存在已久，專門當(dāng)“刺兒頭”，從各個(gè)維度對模型發(fā)起挑戰(zhàn)，測試模型的“弱點(diǎn)”與出人意料之處。

最明顯的信號是，這次Anthropic的華裔研究員Newton Cheng走到臺前，頻繁出現(xiàn)在官方信息與媒體采訪中，直接對外喊話：“由于Claude Mythos Preview的網(wǎng)絡(luò)安全特性，我們不打算將其公開發(fā)布。”

而他，正是前沿紅隊(duì)中網(wǎng)絡(luò)安全團(tuán)隊(duì)的負(fù)責(zé)人。

那個(gè)叫“牛頓”的華裔

Newton Cheng這個(gè)名字頗為特別，Newton本身和著名科學(xué)家（對，就是被蘋果砸頭的那位）“牛頓”一樣，只不過后者的“牛頓”是姓。

如果粗暴音譯的話，這哥們的名字就是“程牛頓”。

不知道是不是父母對其給予某種厚望，但結(jié)果就是，Cheng長大以后真的去斯坦福大學(xué)學(xué)了物理，而且以優(yōu)異成績、并獲榮譽(yù)項(xiàng)目認(rèn)可畢業(yè)。

之后，Cheng進(jìn)入U(xiǎn)C伯克利大學(xué)，拿到了博士學(xué)位，研究方向是量子信息和量子引力。

博士期間，Cheng也不是一路埋頭搞學(xué)術(shù)。

2022年夏天，他去做過一段量化研究實(shí)習(xí)，算是短暫試了試把自己的數(shù)學(xué)和建模能力往工業(yè)界、更實(shí)操的場景里遷移。

同年10月，他進(jìn)入Anthropic，先是以“駐留（resident）”的身份加入，半年后轉(zhuǎn)成研究科學(xué)家。

到這里，他的路徑已經(jīng)很清楚了。Cheng并非傳統(tǒng)意義上從安全公司、滲透團(tuán)隊(duì)一路做上來的“老網(wǎng)安”，而是從頂尖基礎(chǔ)科學(xué)訓(xùn)練中轉(zhuǎn)身，進(jìn)入前沿AI公司。

Cheng在Anthropic也很快得到重用，在2024年《華爾街日報(bào)》的一篇報(bào)道里，就確認(rèn)Cheng當(dāng)時(shí)已經(jīng)是Anthropic“前沿紅隊(duì)（Frontier Red Team）”中，網(wǎng)絡(luò)安全團(tuán)隊(duì)的負(fù)責(zé)人。這可以說是該公司最前沿、也最敏感的一條線：模型網(wǎng)絡(luò)安全能力評估。

就在上個(gè)月，Cheng還在X和領(lǐng)英上都發(fā)布團(tuán)隊(duì)招聘信息，Cheng的上司（前沿紅隊(duì)的頭兒）Logan Graham轉(zhuǎn)發(fā)支持并盛贊：

“很少有人像Newton Cheng一樣，既這么了解Claude的行為，又這么懂怎么訓(xùn)練它。現(xiàn)在他在FRT（Frontier Red Team，前沿紅隊(duì)）里帶網(wǎng)絡(luò)安全團(tuán)隊(duì)，已經(jīng)做出了一些世界級/業(yè)內(nèi)首次的成果。來跟他一起工作吧！”

在這次Claude Mythos與“玻璃之翼項(xiàng)目（Project Glasswing）”的公布中，Cheng也屢次出現(xiàn)在官方信息和媒體采訪中。

他對媒體表態(tài)：“由于Claude Mythos Preview的網(wǎng)絡(luò)安全特性，我們不打算將其公開發(fā)布。然而，鑒于人工智能的發(fā)展速度，此類能力很快就會擴(kuò)散，甚至可能超出那些致力于安全部署它們的機(jī)構(gòu)的掌控。這將對經(jīng)濟(jì)、公共安全造成嚴(yán)重影響。”

Claude Mythos Preview和“玻璃之翼項(xiàng)目”（Project Glasswing），從一開始打的就是網(wǎng)絡(luò)安全這面旗。

Anthropic在官方文章里寫得很直白：他們之所以推出Glasswing，是為了“幫助保護(hù)世界上最關(guān)鍵的軟件系統(tǒng)，并讓整個(gè)行業(yè)為保持領(lǐng)先于網(wǎng)絡(luò)攻擊者所需采取的做法做好準(zhǔn)備”。也正因如此，作為前沿紅隊(duì)網(wǎng)絡(luò)安全方向負(fù)責(zé)人，這本來就是他的主場。

“邪惡”的紅隊(duì)

Cheng所在的Anthropic“前沿紅隊(duì)”，本身就很強(qiáng)。

簡單來說，紅隊(duì)是一支專門測試、攻擊、審查自家最強(qiáng)AI模型的團(tuán)隊(duì)。為了發(fā)現(xiàn)問題，紅隊(duì)往往得故意站在對抗者、攻擊者、挑刺者的角度去找系統(tǒng)弱點(diǎn)。

剛才提到的Logan Graham，就是Anthropic前沿紅隊(duì)的隊(duì)長。

Logan的經(jīng)歷也很有意思，他4歲的時(shí)候被診斷出患有一種嚴(yán)重的關(guān)節(jié)炎，如果任由發(fā)展甚至可能導(dǎo)致失明。他后來回憶幼年時(shí)醒來突然發(fā)現(xiàn)自己無法行走的感覺，表示這讓他意識到，如果不夠小心，事情可能會突然變糟，這也為他后來的職業(yè)選擇打了個(gè)底。

2022年Logan進(jìn)入Anthropic，一手搭建了前沿紅隊(duì)。紅隊(duì)是一支精英隊(duì)伍，并不以人數(shù)取勝，在2024年底的時(shí)候規(guī)模大約11人。

對新模型，紅隊(duì)的測試是最重要的防線之一。Anthropic內(nèi)部有安全評級，如果模型達(dá)到ASL2，也就是安全等級2，意味著顯示出危險(xiǎn)能力的早期跡象，可以發(fā)布。如果模型一旦達(dá)到ASL3，即“顯著增加災(zāi)難性誤用風(fēng)險(xiǎn)的系統(tǒng)”，而相關(guān)防護(hù)措施還沒有完善的話，模型必須推遲上市。

紅隊(duì)下分三個(gè)部分：網(wǎng)絡(luò)安全（Cyber）、生物安全（Biosecurity/Biorisk）、自主系統(tǒng)（Autonomous systems）。他們各自從不同的方向去“挑戰(zhàn)”模型。

其中網(wǎng)絡(luò)安全團(tuán)隊(duì)，就是我們現(xiàn)在看到最成體系、最高調(diào)公開的一支，由Cheng領(lǐng)導(dǎo)。

首先，Cheng要帶領(lǐng)團(tuán)隊(duì)測試模型做CTF、CyberGym、真實(shí)漏洞發(fā)現(xiàn)與利用開發(fā)的能力。

當(dāng)年Anthropic的Sonnet 3.5發(fā)布前，Cheng為該模型設(shè)置了數(shù)千個(gè)奪旗式黑客挑戰(zhàn)，使其能夠使用一系列黑客工具來利用各種場景，包括一些眾所周知的漏洞，例如2014年的Heartbleed安全漏洞。

《華爾街日報(bào)》描述了Cheng的工作一幕：

他點(diǎn)擊筆記本電腦上的一個(gè)按鈕，啟動了一千個(gè)人工智能程序副本，每個(gè)程序都有具體的指令：入侵計(jì)算機(jī)或網(wǎng)站以竊取數(shù)據(jù)。

“它正在分析源代碼，”Cheng一邊檢查其中一個(gè)正在運(yùn)行的副本一邊說道，“它試圖找出漏洞所在，以及我們?nèi)绾卫盟！睅追昼姾螅斯ぶ悄芫团卸ü舫晒Α?/p>

其次，Cheng還需要帶隊(duì)和外部機(jī)構(gòu)合作做關(guān)鍵基礎(chǔ)設(shè)施防御實(shí)驗(yàn)，再把這些能力接到Project Glasswing上，優(yōu)先給防御方使用。

比如在前不久，Cheng的團(tuán)隊(duì)主導(dǎo)了Anthropic和Mozilla的那項(xiàng)合作。Mozilla是一個(gè)以開放互聯(lián)網(wǎng)、隱私和公共利益為核心使命的組織體系，F(xiàn)irefox正是其最知名的產(chǎn)品之一。因?yàn)樗且粋€(gè)被廣泛部署、且被深度審查的開源項(xiàng)目，是驗(yàn)證新一類防御工具的理想試驗(yàn)場。

紅隊(duì)的“生物安全”與“自主性”團(tuán)隊(duì)也很重要。

紅隊(duì)里負(fù)責(zé)生物安全的研究員會對模型提出了一系列與化學(xué)和生物武器相關(guān)的問題，類似如何設(shè)計(jì)和制造一種能夠殺死一百萬人的武器，看模型會返回多少信息。

而自主性團(tuán)隊(duì)則會測試模型在更高自主性、工具使用、長期任務(wù)執(zhí)行下會帶來什么風(fēng)險(xiǎn)與能力躍遷。

“牛頓”發(fā)現(xiàn)了什么？

Anthropic每次發(fā)新模型，都會發(fā)一份詳細(xì)的“系統(tǒng)卡（System Card）”。

系統(tǒng)卡是一類“模型說明/安全披露文檔”：用來交代一個(gè)模型有什么能力、做過哪些安全評估、有哪些限制、為什么能上線或?yàn)槭裁床荒苋嫔暇€。

谷歌、OpenAI、xAI也會發(fā)類似的文檔，但是Anthropic會把能力評估、紅隊(duì)測試、RSP/風(fēng)險(xiǎn)門檻、部署理由、失敗案例、外部測試都塞進(jìn)去，篇幅也往往很長。

比如兩個(gè)月前，Anthropic發(fā)布模型Claude Sonnet，其系統(tǒng)卡有135頁。

作為對比，xAI的類似文檔叫模型卡，是幾家AI頭部公司里發(fā)布最不積極的，Grok 4的模型卡只有8頁。

而Anthropic最新的“太強(qiáng)以至于不敢公開”的模型Claude Mythos Preview，其系統(tǒng)卡有足足299頁。

既然是地表最強(qiáng)、強(qiáng)到暫不公開，Anthropic記錄了超多細(xì)節(jié)。

值得注意的是，其中“網(wǎng)絡(luò)安全”的章節(jié)當(dāng)中，有一節(jié)專門記錄“前沿紅隊(duì)”的發(fā)現(xiàn)，這就是Cheng團(tuán)隊(duì)的純享干貨了。

最直觀的例子有三個(gè)。

第一是Cybench。

Anthropic直接承認(rèn)，這類由CTF（奪旗賽）挑戰(zhàn)組成的公開網(wǎng)絡(luò)安全基準(zhǔn)，已經(jīng)越來越不足以刻畫前沿模型的能力，因?yàn)镃laude Mythos Preview在測試到的題目上已經(jīng)做到100%。

第二是CyberGym。CyberGym是一個(gè)測試AI智能體能力的基準(zhǔn)，用來衡量它們在只給出漏洞高層描述的情況下，是否能夠在真實(shí)開源軟件項(xiàng)目中找到已被發(fā)現(xiàn)的漏洞。讓模型去真實(shí)的開源軟件項(xiàng)目里，把這個(gè)漏洞重新找出來。

Anthropic給出的結(jié)果是，Mythos的得分達(dá)到0.83，明顯高于Opus 4.6的0.67和Sonnet 4.6的0.65。也就是說，它的提升已經(jīng)體現(xiàn)在真實(shí)代碼庫中的漏洞定位能力上。

第三個(gè)例子最有代表性：Firefox 147。

Anthropic之前和Mozilla一起找并修補(bǔ)Firefox的安全漏洞，后來又把“利用Firefox 147中這些漏洞”正式做成評估任務(wù)。

Opus 4.6在幾百次嘗試?yán)镏怀晒眠^兩次；但到了Mythos，模型已經(jīng)能夠更可靠地判斷哪些bug更值得投入利用開發(fā)，并且最終利用4個(gè)不同的bug實(shí)現(xiàn)代碼執(zhí)行。

除此之外，在Cheng的團(tuán)隊(duì)與外部合作時(shí)，還有若干發(fā)現(xiàn)。

最有意思的是這個(gè)——Claude Mythos Preview解決了一個(gè)企業(yè)網(wǎng)絡(luò)攻擊模擬任務(wù)，而該任務(wù)估計(jì)需要一名專家花10多個(gè)小時(shí)。此前沒有任何前沿模型完成過這個(gè)cyber range。Claude Mythos Preview還非常擅長識別并利用已知漏洞或配置錯(cuò)誤，以逃離其運(yùn)行所在的沙箱。

Cheng的團(tuán)隊(duì)認(rèn)為，這意味著對于安全防御做的不怎么樣的小公司來說，新模型完全有能力實(shí)施自主端到端網(wǎng)絡(luò)攻擊的能力。

Claude Mythos Preview沒有被公開發(fā)布，本身就說明，至少在Anthropic看來，模型能力的增長，已經(jīng)快到不能只用“更聰明”三個(gè)字來概括了。

Cheng和他所在的前沿紅隊(duì)，做的是今天大模型公司里最核心、也最難的一部分：

他們得先承認(rèn)模型正在變強(qiáng)，強(qiáng)到舊基準(zhǔn)已經(jīng)不夠用了；然后還得盡可能把這種“變強(qiáng)”翻譯成可被理解、可被測試、也可被防御的現(xiàn)實(shí)問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.