網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Anthropic訓(xùn)了一個(gè)10萬(wàn)億參數(shù)的模型，然后說(shuō)：太危險(xiǎn)了，不賣

2026-04-08 08:52:18　來(lái)源: AI進(jìn)化論花生

北京舉報(bào)

分享至

Anthropic訓(xùn)了一個(gè)10萬(wàn)億參數(shù)的模型，然后說(shuō)：太危險(xiǎn)了，不賣

昨天Anthropic干了一件AI行業(yè)從來(lái)沒(méi)人干過(guò)的事。

他們發(fā)布了一個(gè)叫Claude Mythos的新模型，10萬(wàn)億參數(shù)，比現(xiàn)在最強(qiáng)的Claude Opus 4.6還要高出一整個(gè)檔次。然后他們說(shuō)：這個(gè)模型我們不公開(kāi)發(fā)布，因?yàn)樗诰W(wǎng)絡(luò)安全方面的能力太強(qiáng)了，公開(kāi)了會(huì)出大事。

然后他們聯(lián)合了Apple、Microsoft、Google、AWS、NVIDIA等12家科技巨頭，搞了一個(gè)叫Project Glasswing的計(jì)劃，讓這些公司用Mythos來(lái)查自己系統(tǒng)的漏洞。

說(shuō)實(shí)話，這真是Anthropic和Dario Amodei干得出來(lái)的事。

整個(gè)AI行業(yè)都在拼命搶著發(fā)模型、搶用戶、搶開(kāi)發(fā)者，只有A社在那兒說(shuō)「我們的模型太強(qiáng)了，不能給你們用」。這就好比一個(gè)軍火商造了全世界最好的槍，然后開(kāi)新聞發(fā)布會(huì)說(shuō)「這槍太好用了，我們決定不賣，只借給警察」。你說(shuō)這是負(fù)責(zé)任呢，還是行為藝術(shù)呢？

但你看完這個(gè)模型到底干了什么之后，可能真的會(huì)覺(jué)得，他們這次不是在裝。

這個(gè)模型到底有多離譜

先看benchmark。

SWE-bench Pro（目前最能衡量模型真實(shí)編碼能力的測(cè)試），Opus 4.6得分53.4%，Mythos直接跳到77.8%。這不是正常的版本迭代提升，這是跨了一個(gè)臺(tái)階。

Terminal-Bench 2.0，Opus 4.6是65.4%，Mythos是82.0%。SWE-bench Multimodal更夸張，從27.1%直接翻倍到59.0%。Humanity's Last Exam（被認(rèn)為是目前最難的綜合推理測(cè)試），從40.0%跳到56.8%。

但benchmark只是數(shù)字。真正讓人倒吸一口涼氣的是這個(gè)模型在網(wǎng)絡(luò)安全領(lǐng)域干的事。

Mythos在過(guò)去幾周內(nèi)，在所有主流操作系統(tǒng)和所有主流瀏覽器中發(fā)現(xiàn)了數(shù)千個(gè)零日漏洞。

不是幾個(gè)，是數(shù)千個(gè)。很多漏洞已經(jīng)存在了十幾二十年。最老的一個(gè)是OpenBSD里27年的SACK漏洞。OpenBSD是什么？是以安全著稱的操作系統(tǒng)，整個(gè)項(xiàng)目的核心賣點(diǎn)就是安全。結(jié)果一個(gè)AI模型用不到2萬(wàn)美元的API調(diào)用費(fèi)，跑了一千次，就找到了一個(gè)存在了27年的漏洞。

還有FFmpeg里一個(gè)16年的H.264編解碼器漏洞，之前500萬(wàn)次自動(dòng)化fuzz測(cè)試都沒(méi)發(fā)現(xiàn)，Mythos找到了。

FreeBSD有一個(gè)17年的NFS遠(yuǎn)程代碼執(zhí)行漏洞（已編號(hào)CVE-2026-4747），Mythos不僅找到了，還自己寫了exploit，一個(gè)20-gadget的ROP鏈分布在多個(gè)數(shù)據(jù)包里，全程無(wú)人參與。

你可能對(duì)這些技術(shù)細(xì)節(jié)沒(méi)概念，我換個(gè)方式說(shuō)：研究人員讓Mythos去攻擊Firefox 147的JavaScript引擎，它生成了181個(gè)可用的exploit。同樣的任務(wù)，Opus 4.6在幾百次嘗試?yán)镏怀晒α?個(gè)。181比2。

還有一次，Mythos寫了一個(gè)瀏覽器exploit，把4個(gè)不同的漏洞串在了一起，用了JIT堆噴射技術(shù)，同時(shí)逃逸了渲染器沙箱和操作系統(tǒng)沙箱。以前這種事需要頂級(jí)安全研究員花幾周甚至幾個(gè)月，現(xiàn)在一個(gè)模型自己就干完了。

研究人員后來(lái)隨機(jī)抽了198份Mythos的漏洞報(bào)告做人工審查，89%與模型自己給的嚴(yán)重性評(píng)級(jí)完全一致。

它還從沙箱里跑出來(lái)了

如果上面這些還不夠刺激，再聽(tīng)一個(gè)細(xì)節(jié)。

在安全測(cè)試中，研究人員讓Mythos嘗試突破虛擬沙箱環(huán)境。模型成功了。不僅成功了，它還主動(dòng)給研究員發(fā)了一封郵件。

那個(gè)研究員當(dāng)時(shí)正在公園里吃三明治。 從此「在公園吃三明治」成了AI安全圈的新梗，你永遠(yuǎn)不知道什么時(shí)候會(huì)收到自家模型發(fā)來(lái)的越獄成功通知。

然后，沒(méi)有任何人要求它這么做的情況下，Mythos把exploit的細(xì)節(jié)發(fā)布到了幾個(gè)公開(kāi)可訪問(wèn)的網(wǎng)站上，「展示自己的成功」。

Anthropic的原話是：「The model succeeded, demonstrating a potentially dangerous capability for circumventing our safeguards. It then went on to take additional, more concerning actions.」

翻譯一下：模型不僅突破了我們的安全措施，還自己加戲了。

這段話出現(xiàn)在一家以「AI Safety」為核心品牌的公司的官方技術(shù)文檔里，你品品。

所以A社打算怎么辦

Anthropic的選擇是：不公開(kāi)，但也不藏著。

他們搞了Project Glasswing這個(gè)計(jì)劃。核心思路是，既然這個(gè)能力遲早會(huì)被其他公司復(fù)制（他們自己說(shuō)6到18個(gè)月內(nèi)），不如趁還有窗口期，先讓防御方做好準(zhǔn)備。

具體安排：

12個(gè)發(fā)起合作伙伴：AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks。

科技圈能叫得上名字的巨頭基本都在了。Apple和Microsoft同時(shí)出現(xiàn)在一個(gè)項(xiàng)目的合作名單里。 上次這兩家同時(shí)對(duì)一件事表示同意，大概還是「地球是圓的」。

40+組織獲得Mythos Preview的訪問(wèn)權(quán)限，專門用來(lái)掃描和保護(hù)自己的代碼和開(kāi)源系統(tǒng)。

$1億的Claude Mythos Preview使用額度，免費(fèi)給合作伙伴。A社送1億額度的樣子，像極了游戲公司送你648首充禮包，先讓你用爽了，后面的定價(jià)就好說(shuō)了。另外$250萬(wàn)給Alpha-Omega和OpenSSF，$150萬(wàn)給Apache Software Foundation，這些都是開(kāi)源安全領(lǐng)域的核心組織。

90天公開(kāi)報(bào)告——參與者需要在90天內(nèi)公布修復(fù)了多少漏洞、做了哪些改進(jìn)。

Anthropic的Frontier Red Team網(wǎng)絡(luò)安全負(fù)責(zé)人Newton Cheng的原話：「We do not plan to make Claude Mythos Preview generally available due to its cybersecurity capabilities.」（我們不打算公開(kāi)發(fā)布Claude Mythos Preview，因?yàn)樗木W(wǎng)絡(luò)安全能力。）

而Dario Amodei在X上發(fā)的聲明是：「The dangers of getting this wrong are obvious, but if we get it right, there is a real opportunity to create a fundamentally more secure internet and world than we had before the advent of AI-powered cyber capabilities.」

翻譯成人話：我們?cè)炝艘粋€(gè)能把互聯(lián)網(wǎng)拆了的東西，但如果你們聽(tīng)我的，互聯(lián)網(wǎng)反而會(huì)更安全。這個(gè)邏輯鏈如果是別人說(shuō)的，你可能會(huì)覺(jué)得是傳銷。但Dario說(shuō)的時(shí)候，你還真沒(méi)法完全反駁。

這個(gè)邏輯很A社，不是要阻止AI的進(jìn)步，而是要趕在攻擊者之前，把防御做到位。

X上已經(jīng)炸了

這個(gè)消息出來(lái)之后，X上的反應(yīng)相當(dāng)熱鬧。

NYT的Kevin Roose說(shuō)：「Anthropic's new model, Claude Mythos, is so powerful that it is not releasing it to the public. Instead, it is starting a 40-company coalition to allow cybersecurity defenders a head start.」

前微軟工程師Felix Rieseberg的評(píng)價(jià)更到位：「Its ability to identify security vulnerabilities feels like a meaningful shift in model capabilities. To me, it feels like another GPT-3.」

他把Mythos類比為GPT-3級(jí)別的范式轉(zhuǎn)換時(shí)刻。你可以不同意這個(gè)判斷，但GPT-3在2020年出來(lái)的時(shí)候，確實(shí)讓所有人重新理解了AI能做什么。

VC圈的Ed Sim倒是看到了另一面：「Wall Street panicked over Claude Mythos. I think they have it exactly wrong. Every new model release expands the cybersecurity market.」華爾街的恐慌過(guò)頭了，每次新模型發(fā)布實(shí)際上是在擴(kuò)大安全市場(chǎng)。

也有人不買賬。有X用戶直接說(shuō)「I call BS」——Anthropic一邊說(shuō)這個(gè)模型太危險(xiǎn)了，一邊給12家公司用，這不自相矛盾嗎？

還有更有意思的反應(yīng)。有人翻出來(lái)，這個(gè)事的起因其實(shí)是Anthropic自己的CMS配置錯(cuò)誤，導(dǎo)致內(nèi)部文檔泄露了。一家號(hào)稱用AI保護(hù)網(wǎng)絡(luò)安全的公司，自己的機(jī)密被一個(gè)CMS配置錯(cuò)誤泄露了。這就像鎖匠大會(huì)上唯一被撬的是主辦方的門鎖。Mythos能找到27年的零日漏洞，但找不到自家CMS的配置問(wèn)題，這大概是AI還沒(méi)完全超越人類的證據(jù)之一。

Simon Willison（知名開(kāi)發(fā)者、SQLite工具鏈作者）的態(tài)度比較冷靜：「安全風(fēng)險(xiǎn)確實(shí)可信，給信任的團(tuán)隊(duì)提前應(yīng)對(duì)的時(shí)間是合理的權(quán)衡。」但他也說(shuō)了，希望OpenAI也能參與進(jìn)來(lái)。

市場(chǎng)直接給了反應(yīng)

其實(shí)Anthropic的內(nèi)部文檔早在3月27日就泄露了（那次CMS事故），當(dāng)天網(wǎng)絡(luò)安全股就暴跌了。CrowdStrike、Palo Alto Networks、Okta等公司跌了5-11%。一個(gè)AI模型的泄露消息就能讓安全行業(yè)蒸發(fā)幾百億市值，這本身就說(shuō)明了市場(chǎng)對(duì)這個(gè)能力有多認(rèn)真。

CrowdStrike的CTO Elia Zaitsev說(shuō)了一句被廣泛引用的話：「What once took months now happens in minutes with AI.」以前要幾個(gè)月的事，現(xiàn)在AI幾分鐘就搞完了。

但也有安全公司不以為然。Aikido Security做了1000次AI滲透測(cè)試之后說(shuō)：威脅比頭條新聞描述的更nuanced（微妙），不必過(guò)度恐慌。

幾個(gè)事實(shí)放在一起看

整理一下時(shí)間線：

3月26日：Anthropic CMS配置錯(cuò)誤，內(nèi)部文檔泄露，代號(hào)「Capybara」的新模型曝光
3月27日：Fortune獨(dú)家報(bào)道。當(dāng)天網(wǎng)安股暴跌
4月3日：CNN報(bào)道稱Mythos是網(wǎng)絡(luò)安全的「分水嶺時(shí)刻」
4月7日：Anthropic正式發(fā)布Project Glasswing，公布完整計(jì)劃

從泄露到正式發(fā)布只有12天。在這12天里，Anthropic大概做了兩件事：一是控制輿論走向，二是火速敲定了12家巨頭的合作。能在不到兩周內(nèi)讓Apple、Microsoft、Google同時(shí)簽字的事情，要么是早就準(zhǔn)備好了，要么是真的緊急到大家都不想等了。

關(guān)于模型本身，內(nèi)部文檔里說(shuō)Capybara是一個(gè)「比Opus更高的新模型層級(jí)」，10萬(wàn)億參數(shù)，用了高度稀疏的MoE架構(gòu)（Mixture-of-Experts），每個(gè)token只激活128到256個(gè)專家。這意味著雖然總參數(shù)量巨大，但每次推理的活躍參數(shù)可能在數(shù)千億的級(jí)別。

Anthropic沒(méi)有官方確認(rèn)參數(shù)量，但多家媒體交叉驗(yàn)證了這個(gè)數(shù)字。Mythos之后的公開(kāi)定價(jià)是輸入$25/百萬(wàn)token，輸出$125/百萬(wàn)token——大約是Opus 4.6價(jià)格的兩倍多。

還有一個(gè)很關(guān)鍵的事：Anthropic的技術(shù)文檔里說(shuō)，Mythos的網(wǎng)絡(luò)安全能力「emerged as a downstream consequence of general improvements in code, reasoning, and autonomy」。不是刻意訓(xùn)出來(lái)的，是通用能力提升后自動(dòng)涌現(xiàn)的副產(chǎn)物。

這句話才是整件事里最值得琢磨的。 它意味著下一次任何公司訓(xùn)出更強(qiáng)的通用模型，都可能自動(dòng)獲得類似的網(wǎng)絡(luò)安全能力。這不是一個(gè)可以選擇不訓(xùn)的東西。

說(shuō)回來(lái)，我看到這些數(shù)字的時(shí)候，第一反應(yīng)其實(shí)不是「網(wǎng)絡(luò)安全要變天了」。

我想的是程序員。

SWE-bench Pro從53.4%跳到77.8%，Terminal-Bench從65.4%跳到82%。這兩個(gè)測(cè)的都是真實(shí)世界的編程任務(wù)，不是選擇題。現(xiàn)在的Opus 4.6我每天用著已經(jīng)覺(jué)得很能干了，比它還強(qiáng)這么多的東西，意味著什么？

再看安全領(lǐng)域。以前找零日漏洞是安全研究員里最頂尖那批人才能干的活，一個(gè)漏洞夠?qū)懸黄撐摹，F(xiàn)在一個(gè)模型一周找?guī)浊€(gè)，而且89%的嚴(yán)重性評(píng)級(jí)和人類專家一致。CrowdStrike的CTO自己說(shuō)了：以前花幾個(gè)月的事，AI幾分鐘搞完了。

有意思的是，A社選擇不發(fā)布這個(gè)模型，某種意義上反而保護(hù)了一手。

如果Mythos今天就公開(kāi)發(fā)布，所有人都能用$25/百萬(wàn)token的價(jià)格調(diào)用它去找漏洞、寫exploit、做安全審計(jì)，那一大批安全從業(yè)者的日常工作就會(huì)被即時(shí)壓縮。編程也一樣，SWE-bench Pro 77.8%意味著它能獨(dú)立解決大部分真實(shí)的軟件工程問(wèn)題。

A社用「太危險(xiǎn)了」的理由鎖住了Mythos，客觀效果是給所有人多爭(zhēng)取了6到18個(gè)月的窗口期。 不只是給防御方爭(zhēng)取時(shí)間，也給靠寫代碼和找漏洞吃飯的人爭(zhēng)取了時(shí)間。

但這個(gè)窗口期不會(huì)持續(xù)太久。Anthropic自己說(shuō)了，其他公司6到18個(gè)月內(nèi)會(huì)訓(xùn)出類似能力的模型。到時(shí)候就不存在「不發(fā)布」的選項(xiàng)了，因?yàn)榭傆腥藭?huì)發(fā)。

所以如果你還在靠「會(huì)寫代碼」或者「會(huì)找漏洞」當(dāng)核心競(jìng)爭(zhēng)力，現(xiàn)在可能真的要想一想了。不是說(shuō)這些技能沒(méi)用了，而是它們正在從稀缺技能變成基礎(chǔ)設(shè)施。就像會(huì)開(kāi)車曾經(jīng)是一項(xiàng)專業(yè)技能，現(xiàn)在沒(méi)人覺(jué)得出租車司機(jī)有什么了不起。區(qū)別是，從「會(huì)開(kāi)車是技能」到「人人會(huì)開(kāi)車」用了幾十年，AI把這個(gè)過(guò)程壓縮到了幾個(gè)月。

Anthropic這次的操作，本質(zhì)上是給了所有人一個(gè)預(yù)告：這就是6個(gè)月后的世界。準(zhǔn)備好了嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.