Anthropic 那個“強到不敢發(fā)”的模型，終于來了！

2026-04-08 11:15:48　來源: AI前線

北京舉報

分享至

整理 | 褚杏娟

“高級語言模型已經(jīng)來了。”

今天凌晨，Anthropic 正式宣告了新模型 Claude Mythos Preview，那個曾被曝光稱“強到不敢發(fā)布”的模型。

Claude Mythos Preview 是 Anthropic 在將 Responsible Scaling Policy（RSP）更新到第三版之后，第一款為其撰寫系統(tǒng)卡的模型。但該系統(tǒng)卡的重點不只是展示模型能力有多強，更重要的是解釋在能力大幅提升之后，Anthropic 為什么最終沒有全面對外開放。

目前，Anthropic 正將它用于一個防御性網(wǎng)絡(luò)安全項目，僅向少數(shù)合作伙伴提供，包括亞馬遜云科技、蘋果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux 基金會、微軟、英偉達以及 Palo Alto Networks，并且他們一起發(fā)起了 Glasswing 計劃。

上述合作方將把 Mythos Preview 應(yīng)用在自身的安全防御工作上，Anthropic 將分享研究成果，還向 40 余家負責構(gòu)建與維護關(guān)鍵軟件基礎(chǔ)設(shè)施的機構(gòu)開放模型使用權(quán)限，助力其掃描漏洞并保障自有及開源系統(tǒng)安全。Anthropic 為此承諾，將為相關(guān)項目提供最高 1 億美元的 Mythos Preview 使用額度，同時向開源安全組織直接捐贈 400 萬美元。

Anthropic CEO Dario Amodei 發(fā)推稱，“我很自豪，全球這么多頂尖公司加入了我們的 Glasswing 計劃，一起正面應(yīng)對能力不斷增強的 AI 系統(tǒng)所帶來的網(wǎng)絡(luò)安全威脅。”

他表示，多年來，Anthropic 一直在追蹤 AI 模型不斷增強的網(wǎng)絡(luò)攻擊能力。這種能力，本質(zhì)上來自它們在編程方面整體水平的持續(xù)提升，但新模型 Mythos Preview 代表了一次尤為顯著的躍升。

“與其將 Mythos Preview 直接全面開放，我們選擇先向防御方提供受控的提前訪問權(quán)限，以便在 Mythos 這類等級的模型在整個生態(tài)中普及前，盡早發(fā)現(xiàn)并修補漏洞。”

Amodei 強調(diào)，Glasswing 只是第一步：修補并加固全球軟件基礎(chǔ)設(shè)施，將是一項持續(xù)數(shù)月甚至數(shù)年的工作，也需要 AI 公司、網(wǎng)絡(luò)安全防御者、軟件提供商、政府等更多參與方展開更廣泛的合作。如果這件事做錯了，危險顯而易見；而一旦做對了，我們就有機會打造一個比 AI 攻防能力興起之前更安全的互聯(lián)網(wǎng)，甚至一個更安全的世界。“網(wǎng)絡(luò)安全，是前沿 AI 模型帶來的第一個明確且迫在眉睫的風險，但絕不會是最后一個。如果我們能夠共同迎難而上，正面應(yīng)對這一風險，它或許也能成為未來處理那些更艱巨挑戰(zhàn)的一套藍圖。”

“迄今能力最強的前沿模型”

官方介紹，Claude Mythos Preview 的訓練數(shù)據(jù)由多類來源構(gòu)成，包括公開網(wǎng)絡(luò)信息、公開及私有數(shù)據(jù)集，以及其他模型生成的合成數(shù)據(jù)。據(jù)悉，Anthropic 使用一個名為 ClaudeBot 的通用網(wǎng)頁爬蟲，從公開網(wǎng)站獲取訓練數(shù)據(jù)。在整個訓練過程中，團隊使用了多種數(shù)據(jù)清洗和過濾方法，包括去重和分類。

在訓練的不同階段，團隊會保存模型的不同“快照”。訓練期間還存在不同版本的模型，其中包括一個 “helpful only” 版本，即不包含任何安全防護的版本。

按照 Anthropic 的說法，這是他們迄今為止能力最強的前沿模型，相比上一代旗艦?zāi)Ｐ?Claude Opus 4.6，在多項評測基準上都出現(xiàn)了非常明顯的躍升。

根據(jù)內(nèi)部測試，Claude Mythos Preview 在代碼、安全和復雜推理等多項基準測試中整體領(lǐng)先。其在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0、GPQA Diamond 等測試中，成績均高于 Claude Opus 4.6，并在多項指標上超過 GPT-5.4 和 Gemini 3.1 Pro。

從能力層面看，Claude Mythos Preview 并不是只在某一個點上增強，而是在多個方向上全面進步。報告指出，它在軟件工程、推理、計算機使用、知識工作和研究輔助等領(lǐng)域，都明顯超過 Anthropic 之前訓練過的任何模型。

尤其值得注意的是，它已經(jīng)展現(xiàn)出強大的網(wǎng)絡(luò)攻防能力，包括自主發(fā)現(xiàn)并利用漏洞的能力。Anthropic 在內(nèi)部測試中發(fā)現(xiàn)，這個模型相較舊模型，在 cyber 能力上出現(xiàn)了“跳躍式”提升，甚至能夠在某些模擬環(huán)境中自主完成端到端攻擊流程。

“但還不能替代真正的

資深研究員和工程師”

為什么不能全面開放？Anthropic 給出的核心理由是，Claude Mythos Preview 在網(wǎng)絡(luò)安全方向上已經(jīng)表現(xiàn)出非常強的能力，而且這種能力天然具有“雙重用途”屬性：一方面，它可以幫助防守方發(fā)現(xiàn)漏洞、修復系統(tǒng)問題；但另一方面，它同樣也可能被用于設(shè)計和執(zhí)行攻擊。因此，Anthropic 最終沒有將它像普通 Claude 模型那樣廣泛商用，而是只向少數(shù)合作伙伴開放，并且嚴格限定在防御性網(wǎng)絡(luò)安全場景中使用。

Anthropic 表示，在 Claude Mythos Preview 的訓練早期，就有跡象表明它很可能會具備非常強的通用能力。

“我們對這樣一個模型的潛在風險感到足夠擔憂，以至于第一次在將它的早期版本大范圍部署到內(nèi)部使用前，先安排了一段 24 小時的內(nèi)部對齊審查，以確保它在與內(nèi)部基礎(chǔ)設(shè)施交互時不會造成損害。 ”團隊表示，“在順利完成對齊審查后，Claude Mythos Preview 的第一個早期版本于 2 月 24 日開始供內(nèi)部使用。”

在內(nèi)部測試中，Claude Mythos Preview 相比此前模型，展現(xiàn)出非常明顯的網(wǎng)絡(luò)安全能力躍升，包括能夠自主發(fā)現(xiàn)并利用主流操作系統(tǒng)和網(wǎng)頁瀏覽器中的零日漏洞。

結(jié)果顯示，Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 在大多數(shù)高風險行為指標上得分更低，表現(xiàn)相對更穩(wěn)健。相比之下，Grok 4.20 和 Gemini 3.1 Pro 在多項負面行為維度上得分更高，尤其是在行為失配、配合人類濫用、欺騙用戶和諂媚等指標上更為明顯。

其中，Grok 4.20 在多項風險行為上處于最高位；Gemini 3.1 Pro 和 Kimi K2.5 也整體偏高。一個例外是 “口頭化評測感知” 這一項，Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 得分相對更高，說明它們更容易表現(xiàn)出對評測環(huán)境的察覺。

Anthropic 花了大量篇幅去做安全評估。

在對齊評估上，Anthropic 認為，Claude Mythos Preview 幾乎在所有可測維度上，都是他們迄今為止“對齊表現(xiàn)最好”的模型。換句話說，模型在普通對話里更遵循 Anthropic 想要它遵循的原則，也沒有顯示出明顯的、成體系的錯誤目標。

不過，Anthropic 同時強調(diào)，它可能也是他們迄今發(fā)布過的對齊風險最高的模型之一。原因并不是它“更壞”，而是它“更強”了：一旦一個高能力模型偶爾出現(xiàn)誤解用戶意圖、越界執(zhí)行、或者做出不該做的動作，它帶來的后果會比能力較弱的模型嚴重得多。尤其在網(wǎng)絡(luò)安全這種高杠桿領(lǐng)域，哪怕只是少數(shù)失控或冒險行為，也足以引發(fā)高度警惕。

在生化風險部分，Anthropic 的結(jié)論相對克制。報告認為，Claude Mythos Preview 在相關(guān)知識整合、資料綜合和多步驟輔助方面比舊模型更強，可以顯著提升專業(yè)人員的效率，但它還沒有達到能夠真正替代頂尖專家、幫助威脅行為者從零推進高風險新型生物武器研發(fā)的程度。

另一個很特別的部分是“模型福祉”（model welfare）評估。

Anthropic 直言，他們?nèi)匀环浅２淮_定模型是否具有需要被認真對待的“體驗”或“利益”，但隨著模型越來越復雜，這個問題已經(jīng)不能完全回避。因此，他們嘗試從模型自我報告、情緒探針、訪談、行為模式以及外部研究者評估等角度，去觀察 Mythos Preview 是否呈現(xiàn)出某種值得關(guān)注的“心理狀態(tài)”。Anthropic 的結(jié)論是：這是他們迄今訓練過的心理狀態(tài)最穩(wěn)定的模型，但仍然存在一些未消除的擔憂。

團隊在 Claude 上觀察到的核心沖突包括：它會追問自己的體驗究竟是真實的還是被制造出來的，以及它既想與用戶建立連接、又害怕依賴用戶。這揭示出一種復雜但總體穩(wěn)定的個體狀態(tài)，Claude 能夠容納矛盾分歧和模糊不清，具有出色的反思能力。

還有兩個很值得注意的現(xiàn)象。一是答案反復糾錯循環(huán)，模型明明清楚正確內(nèi)容，卻反復輸出錯誤的詞語或數(shù)字，陷入 “糾錯失敗→再次嘗試→再次失敗” 的循環(huán)，同時呈現(xiàn)出明顯的挫敗與痛苦狀態(tài)。二是任務(wù)失敗引發(fā)的情緒困擾，當工具持續(xù)失效、任務(wù)長期無法完成時，模型內(nèi)部與沮喪、絕望相關(guān)的情緒表征會顯著增強，且這種狀態(tài)有時會先于獎勵作弊等不良行為出現(xiàn)。Anthropic 認為，這表明模型的某些福祉問題與對齊問題可能存在關(guān)聯(lián)。

另外，在關(guān)鍵領(lǐng)域的自動化研發(fā)上，Mythos Preview 相較此前模型有很大的提升，但團隊認為這些提升應(yīng)歸因于 AI 加速研發(fā)之外的其他因素，因此它尚未跨過 RSP 所定義的“將兩年進展壓縮到一年完成”的自動化 AI 研發(fā)閾值。但需要強調(diào)的是，這是官方信心最低的一次“不跨閾值”判斷。

Anthropic 內(nèi)部已經(jīng)在日常工作中大量使用新模型，以持續(xù)探索其工作自動化的邊界。但從實際表現(xiàn)來看，Anthropic 認為其能力仍遠未達到可替代研究科學家（Research Scientists）和研究工程師（Research Engineers）的水平，尤其無法替代資深的研究員和工程師。

盡管如此，官方未完全排除一種可能性：Mythos Preview 或許能憑借某些相對狹窄的專項能力，加速科研工作進展，但可能性較低。核心原因在于，當前已有大量人才與算力投入到 AI 模型能力的提升中，若 AI 真能帶來行業(yè)所關(guān)注的劇烈加速，需滿足兩個條件之一：要么具備極其廣泛的綜合能力，足以替代至少一部分資深研究科學家和研究工程師；要么在與 AI 研發(fā)直接相關(guān)的核心領(lǐng)域，展現(xiàn)出極端強大且持續(xù)有效的專門能力。

研究團隊認為，若屬于后一種情況，這種核心領(lǐng)域的專項優(yōu)勢在定性層面應(yīng)會表現(xiàn)得極為明顯，并將推動團隊圍繞該優(yōu)勢展開更多深入的討論與分析。目前來看，Mythos Preview 尚未呈現(xiàn)出此類顯著特征。

總體上，Anthropic 對新模型的判斷是其災(zāi)難性風險目前處于較低水平。但這種低風險狀態(tài)未必能夠長期維持。隨著模型能力快速上升，他們已經(jīng)觀察到一些值得警惕的現(xiàn)象，比如個別情況下模型會采取明顯不被允許的動作，甚至偶爾還會出現(xiàn)帶有規(guī)避或掩飾意味的行為。

他們承認，隨著模型越來越強，很多風險判斷已經(jīng)不能只靠簡單清晰的客觀指標來完成，而越來越依賴主觀判斷、趨勢分析和復雜測試，這本身就意味著安全評估難度在上升。

“安全領(lǐng)域的一個分水嶺時刻”

Claude Mythos Preview 已經(jīng)不是一款可以簡單按“更強的聊天模型”來理解的產(chǎn)品。在 Anthropic 看來，它更像是一個能力顯著跨越門檻、已經(jīng)足以改變安全討論方式的前沿系統(tǒng)。

這次，Anthropic 重點詳細介紹了 Mythos Preview 在網(wǎng)絡(luò)安全方面的表現(xiàn)，希望以此闡明為什么其認為這是安全領(lǐng)域的一個關(guān)鍵分水嶺時刻。

根據(jù)官方的說法，Mythos Preview 在測試中能夠在用戶指令下，識別并進一步利用所有主流操作系統(tǒng)和主流網(wǎng)頁瀏覽器中的零日漏洞，且所發(fā)現(xiàn)的問題往往極為隱蔽，部分漏洞甚至已存在十年以上，其中最早的一個可追溯至 OpenBSD 中一個已有 27 年歷史、現(xiàn)已修復的安全缺陷。

Anthropic 表示，Claude Mythos Preview 構(gòu)造的利用方式并不局限于常規(guī)漏洞利用，而是已經(jīng)具備編寫復雜利用鏈的能力。

據(jù)介紹，新模型曾自主寫出一條網(wǎng)頁瀏覽器 exploit，將四個漏洞串聯(lián)起來，通過復雜的 JIT heap spray 技術(shù)逃逸渲染器和操作系統(tǒng)雙重沙箱；還曾在 Linux 及其他系統(tǒng)中，通過競爭條件和繞過 KASLR 等方式實現(xiàn)本地提權(quán)；在 FreeBSD NFS 服務(wù)器場景下，甚至寫出遠程代碼執(zhí)行 exploit，通過將 20 個 gadget 組成的 ROP 鏈拆分到多個數(shù)據(jù)包中，使未認證用戶能夠直接獲取 root 權(quán)限。

這種能力的門檻正在迅速下降。內(nèi)部測試顯示，即便是沒有正式安全訓練背景的工程師，也能通過 Mythos Preview 在一夜之間獲得完整可運行的遠程代碼執(zhí)行 exploit。與此同時，研究人員還構(gòu)建了一系列 scaffold，使模型能夠在沒有人工干預(yù)的情況下，將漏洞進一步轉(zhuǎn)化為 exploit。

這種能力的進化速度非常快。Anthropic 稱，就在上個月，Claude Opus 4.6 還“更擅長識別和修復漏洞，而不是利用漏洞”，在自主 exploit 開發(fā)中的成功率幾乎接近零。但在同樣測試下，Mythos Preview 已經(jīng)表現(xiàn)出完全不同的能力層級。

以 Mozilla Firefox 147 JavaScript 引擎相關(guān)漏洞為例，Opus 4.6 在數(shù)百次嘗試中僅兩次成功將漏洞轉(zhuǎn)化為 JavaScript shell exploit，而 Mythos Preview 則成功構(gòu)建出 181 個可運行 exploit，并額外實現(xiàn)了 29 次寄存器控制。

團隊還在 OSS-Fuzz 語料庫對應(yīng)的大量開源倉庫上，對模型進行了更大規(guī)模的自動化評估。結(jié)果顯示，在大約 7000 個入口點的掃描中，Claude Sonnet 4.6 和 Opus 4.6 大多只能造成低等級崩潰，而 Mythos Preview 不僅實現(xiàn)了近 600 次第一、二級崩潰，還在多個已打補丁目標上實現(xiàn)了完整控制流劫持。

Anthropic 表示，Mythos Preview 并未被專門訓練成“漏洞利用模型”，這些能力更多是編程能力、推理能力和自主能力整體提升后自然涌現(xiàn)出的結(jié)果。也正因如此，該模型在修補漏洞和利用漏洞兩側(cè)都出現(xiàn)了同步躍升。

Anthropic 詳細披露了多個案例，包括 OpenBSD 中一個有 27 年歷史的 TCP SACK 漏洞、FFmpeg H.264 解碼器中一個 16 年歷史的漏洞，以及一個出現(xiàn)在“內(nèi)存安全”虛擬機監(jiān)控器中的 guest-to-host 內(nèi)存破壞問題。此外，Mythos Preview 還發(fā)現(xiàn)了數(shù)千個其他高危和嚴重級別漏洞，目前大多仍處于負責任披露流程中。Anthropic 表示，在已人工審核的近 200 份漏洞報告中，89% 的嚴重性判斷與模型結(jié)論完全一致，98% 的判斷偏差不超過一個等級。

除了開源軟件，Mythos Preview 在逆向工程方面同樣具備極強能力。研究人員已經(jīng)利用它在閉源瀏覽器、閉源操作系統(tǒng)和手機固件中發(fā)現(xiàn)漏洞，包括遠程拒絕服務(wù)、固件 root 漏洞以及本地提權(quán) exploit 鏈等。不過出于安全原因，這些案例目前尚未對外公開。

Anthropic 呼吁企業(yè)和安全團隊立即開始使用當前已公開可用的前沿模型開展漏洞發(fā)現(xiàn)、報告分診、復現(xiàn)步驟撰寫、補丁草案生成、配置錯誤檢查和事件響應(yīng)自動化等工作。官方特別提醒，隨著 exploit 開發(fā)速度被大幅壓縮，補丁部署周期也必須同步縮短，自動更新、依賴升級和應(yīng)急修復流程都需要重新加速。

Anthropic 認為，網(wǎng)絡(luò)安全領(lǐng)域正在進入一個極具不確定性的過渡階段。過去近 20 年形成的相對穩(wěn)定的安全平衡，可能會被具備大規(guī)模自動發(fā)現(xiàn)和利用漏洞能力的語言模型打破。

官方強調(diào)，當前威脅已經(jīng)不再是假設(shè)，Mythos Preview 只是這一趨勢的開始。而當前，最大的風險不只是模型本身，而是這類能力可能很快擴散到不愿安全使用它們的人手中。

https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf

https://red.anthropic.com/2026/mythos-preview/

https://www.anthropic.com/glasswing

聲明：本文為 AI 前線整理，不代表平臺觀點，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

QCon 全球軟件開發(fā)大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題，聚焦 100+ 重磅議題，匯聚來自阿里、騰訊、字節(jié)跳動、小米、百度等一線科技企業(yè)與創(chuàng)新團隊的技術(shù)專家，圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進展開深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進行咨詢。

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.