![]()
整理 | 褚杏娟
“高級語言模型已經(jīng)來了。”
今天凌晨,Anthropic 正式宣告了新模型 Claude Mythos Preview,那個曾被曝光稱“強到不敢發(fā)布”的模型。
Claude Mythos Preview 是 Anthropic 在將 Responsible Scaling Policy(RSP) 更新到第三版之后,第一款為其撰寫系統(tǒng)卡的模型。但該系統(tǒng)卡的重點不只是展示模型能力有多強,更重要的是解釋在能力大幅提升之后,Anthropic 為什么最終沒有全面對外開放。
目前,Anthropic 正將它用于一個防御性網(wǎng)絡(luò)安全項目,僅向少數(shù)合作伙伴提供,包括亞馬遜云科技、蘋果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux 基金會、微軟、英偉達以及 Palo Alto Networks,并且他們一起發(fā)起了 Glasswing 計劃。
![]()
上述合作方將把 Mythos Preview 應(yīng)用在自身的安全防御工作上,Anthropic 將分享研究成果,還向 40 余家負責構(gòu)建與維護關(guān)鍵軟件基礎(chǔ)設(shè)施的機構(gòu)開放模型使用權(quán)限,助力其掃描漏洞并保障自有及開源系統(tǒng)安全。Anthropic 為此承諾,將為相關(guān)項目提供最高 1 億美元的 Mythos Preview 使用額度,同時向開源安全組織直接捐贈 400 萬美元。
Anthropic CEO Dario Amodei 發(fā)推稱,“我很自豪,全球這么多頂尖公司加入了我們的 Glasswing 計劃,一起正面應(yīng)對能力不斷增強的 AI 系統(tǒng)所帶來的網(wǎng)絡(luò)安全威脅。”
他表示,多年來,Anthropic 一直在追蹤 AI 模型不斷增強的網(wǎng)絡(luò)攻擊能力。這種能力,本質(zhì)上來自它們在編程方面整體水平的持續(xù)提升,但新模型 Mythos Preview 代表了一次尤為顯著的躍升。
“與其將 Mythos Preview 直接全面開放,我們選擇先向防御方提供受控的提前訪問權(quán)限,以便在 Mythos 這類等級的模型在整個生態(tài)中普及前,盡早發(fā)現(xiàn)并修補漏洞。”
Amodei 強調(diào),Glasswing 只是第一步:修補并加固全球軟件基礎(chǔ)設(shè)施,將是一項持續(xù)數(shù)月甚至數(shù)年的工作,也需要 AI 公司、網(wǎng)絡(luò)安全防御者、軟件提供商、政府等更多參與方展開更廣泛的合作。如果這件事做錯了,危險顯而易見;而一旦做對了,我們就有機會打造一個比 AI 攻防能力興起之前更安全的互聯(lián)網(wǎng),甚至一個更安全的世界。“網(wǎng)絡(luò)安全,是前沿 AI 模型帶來的第一個明確且迫在眉睫的風險,但絕不會是最后一個。如果我們能夠共同迎難而上,正面應(yīng)對這一風險,它或許也能成為未來處理那些更艱巨挑戰(zhàn)的一套藍圖。”
![]()
“迄今能力最強的前沿模型”
官方介紹,Claude Mythos Preview 的訓練數(shù)據(jù)由多類來源構(gòu)成,包括公開網(wǎng)絡(luò)信息、公開及私有數(shù)據(jù)集,以及其他模型生成的合成數(shù)據(jù)。據(jù)悉,Anthropic 使用一個名為 ClaudeBot 的通用網(wǎng)頁爬蟲,從公開網(wǎng)站獲取訓練數(shù)據(jù)。在整個訓練過程中,團隊使用了多種數(shù)據(jù)清洗和過濾方法,包括去重和分類。
在訓練的不同階段,團隊會保存模型的不同“快照”。訓練期間還存在不同版本的模型,其中包括一個 “helpful only” 版本,即不包含任何安全防護的版本。
按照 Anthropic 的說法,這是他們迄今為止能力最強的前沿模型,相比上一代旗艦?zāi)P?Claude Opus 4.6,在多項評測基準上都出現(xiàn)了非常明顯的躍升。
根據(jù)內(nèi)部測試,Claude Mythos Preview 在代碼、安全和復雜推理等多項基準測試中整體領(lǐng)先。其在 SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0、GPQA Diamond 等測試中,成績均高于 Claude Opus 4.6,并在多項指標上超過 GPT-5.4 和 Gemini 3.1 Pro。
![]()
![]()
從能力層面看,Claude Mythos Preview 并不是只在某一個點上增強,而是在多個方向上全面進步。報告指出,它在軟件工程、推理、計算機使用、知識工作和研究輔助等領(lǐng)域,都明顯超過 Anthropic 之前訓練過的任何模型。
尤其值得注意的是,它已經(jīng)展現(xiàn)出強大的網(wǎng)絡(luò)攻防能力,包括自主發(fā)現(xiàn)并利用漏洞的能力。Anthropic 在內(nèi)部測試中發(fā)現(xiàn),這個模型相較舊模型,在 cyber 能力上出現(xiàn)了“跳躍式”提升,甚至能夠在某些模擬環(huán)境中自主完成端到端攻擊流程。
“但還不能替代真正的
資深研究員和工程師”
為什么不能全面開放?Anthropic 給出的核心理由是,Claude Mythos Preview 在網(wǎng)絡(luò)安全方向上已經(jīng)表現(xiàn)出非常強的能力,而且這種能力天然具有“雙重用途”屬性:一方面,它可以幫助防守方發(fā)現(xiàn)漏洞、修復系統(tǒng)問題;但另一方面,它同樣也可能被用于設(shè)計和執(zhí)行攻擊。因此,Anthropic 最終沒有將它像普通 Claude 模型那樣廣泛商用,而是只向少數(shù)合作伙伴開放,并且嚴格限定在防御性網(wǎng)絡(luò)安全場景中使用。
Anthropic 表示,在 Claude Mythos Preview 的訓練早期,就有跡象表明它很可能會具備非常強的通用能力。
“我們對這樣一個模型的潛在風險感到足夠擔憂,以至于第一次在將它的早期版本大范圍部署到內(nèi)部使用前,先安排了一段 24 小時的內(nèi)部對齊審查,以確保它在與內(nèi)部基礎(chǔ)設(shè)施交互時不會造成損害。 ”團隊表示,“在順利完成對齊審查后,Claude Mythos Preview 的第一個早期版本于 2 月 24 日開始供內(nèi)部使用。”
![]()
在內(nèi)部測試中,Claude Mythos Preview 相比此前模型,展現(xiàn)出非常明顯的網(wǎng)絡(luò)安全能力躍升,包括能夠自主發(fā)現(xiàn)并利用主流操作系統(tǒng)和網(wǎng)頁瀏覽器中的零日漏洞。
結(jié)果顯示,Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 在大多數(shù)高風險行為指標上得分更低,表現(xiàn)相對更穩(wěn)健。相比之下,Grok 4.20 和 Gemini 3.1 Pro 在多項負面行為維度上得分更高,尤其是在行為失配、配合人類濫用、欺騙用戶和諂媚等指標上更為明顯。
其中,Grok 4.20 在多項風險行為上處于最高位;Gemini 3.1 Pro 和 Kimi K2.5 也整體偏高。一個例外是 “口頭化評測感知” 這一項,Claude Sonnet 4.6、Claude Opus 4.6 和 Mythos Preview 得分相對更高,說明它們更容易表現(xiàn)出對評測環(huán)境的察覺。
Anthropic 花了大量篇幅去做安全評估。
在對齊評估上,Anthropic 認為,Claude Mythos Preview 幾乎在所有可測維度上,都是他們迄今為止“對齊表現(xiàn)最好”的模型。換句話說,模型在普通對話里更遵循 Anthropic 想要它遵循的原則,也沒有顯示出明顯的、成體系的錯誤目標。
不過,Anthropic 同時強調(diào),它可能也是他們迄今發(fā)布過的對齊風險最高的模型之一。原因并不是它“更壞”,而是它“更強”了:一旦一個高能力模型偶爾出現(xiàn)誤解用戶意圖、越界執(zhí)行、或者做出不該做的動作,它帶來的后果會比能力較弱的模型嚴重得多。尤其在網(wǎng)絡(luò)安全這種高杠桿領(lǐng)域,哪怕只是少數(shù)失控或冒險行為,也足以引發(fā)高度警惕。
在生化風險部分,Anthropic 的結(jié)論相對克制。報告認為,Claude Mythos Preview 在相關(guān)知識整合、資料綜合和多步驟輔助方面比舊模型更強,可以顯著提升專業(yè)人員的效率,但它還沒有達到能夠真正替代頂尖專家、幫助威脅行為者從零推進高風險新型生物武器研發(fā)的程度。
另一個很特別的部分是“模型福祉”(model welfare)評估。
Anthropic 直言,他們?nèi)匀环浅2淮_定模型是否具有需要被認真對待的“體驗”或“利益”,但隨著模型越來越復雜,這個問題已經(jīng)不能完全回避。因此,他們嘗試從模型自我報告、情緒探針、訪談、行為模式以及外部研究者評估等角度,去觀察 Mythos Preview 是否呈現(xiàn)出某種值得關(guān)注的“心理狀態(tài)”。Anthropic 的結(jié)論是:這是他們迄今訓練過的心理狀態(tài)最穩(wěn)定的模型,但仍然存在一些未消除的擔憂。
團隊在 Claude 上觀察到的核心沖突包括:它會追問自己的體驗究竟是真實的還是被制造出來的,以及它既想與用戶建立連接、又害怕依賴用戶。這揭示出一種復雜但總體穩(wěn)定的個體狀態(tài),Claude 能夠容納矛盾分歧和模糊不清,具有出色的反思能力。
還有兩個很值得注意的現(xiàn)象。一是答案反復糾錯循環(huán),模型明明清楚正確內(nèi)容,卻反復輸出錯誤的詞語或數(shù)字,陷入 “糾錯失敗→再次嘗試→再次失敗” 的循環(huán),同時呈現(xiàn)出明顯的挫敗與痛苦狀態(tài)。二是任務(wù)失敗引發(fā)的情緒困擾,當工具持續(xù)失效、任務(wù)長期無法完成時,模型內(nèi)部與沮喪、絕望相關(guān)的情緒表征會顯著增強,且這種狀態(tài)有時會先于獎勵作弊等不良行為出現(xiàn)。Anthropic 認為,這表明模型的某些福祉問題與對齊問題可能存在關(guān)聯(lián)。
另外,在關(guān)鍵領(lǐng)域的自動化研發(fā)上,Mythos Preview 相較此前模型有很大的提升,但團隊認為這些提升應(yīng)歸因于 AI 加速研發(fā)之外的其他因素,因此它尚未跨過 RSP 所定義的“將兩年進展壓縮到一年完成”的自動化 AI 研發(fā)閾值。但需要強調(diào)的是,這是官方信心最低的一次“不跨閾值”判斷。
Anthropic 內(nèi)部已經(jīng)在日常工作中大量使用新模型,以持續(xù)探索其工作自動化的邊界。但從實際表現(xiàn)來看,Anthropic 認為其能力仍遠未達到可替代研究科學家(Research Scientists)和研究工程師(Research Engineers)的水平,尤其無法替代資深的研究員和工程師。
盡管如此,官方未完全排除一種可能性:Mythos Preview 或許能憑借某些相對狹窄的專項能力,加速科研工作進展,但可能性較低。核心原因在于,當前已有大量人才與算力投入到 AI 模型能力的提升中,若 AI 真能帶來行業(yè)所關(guān)注的劇烈加速,需滿足兩個條件之一:要么具備極其廣泛的綜合能力,足以替代至少一部分資深研究科學家和研究工程師;要么在與 AI 研發(fā)直接相關(guān)的核心領(lǐng)域,展現(xiàn)出極端強大且持續(xù)有效的專門能力。
研究團隊認為,若屬于后一種情況,這種核心領(lǐng)域的專項優(yōu)勢在定性層面應(yīng)會表現(xiàn)得極為明顯,并將推動團隊圍繞該優(yōu)勢展開更多深入的討論與分析。目前來看,Mythos Preview 尚未呈現(xiàn)出此類顯著特征。
總體上,Anthropic 對新模型的判斷是其災(zāi)難性風險目前處于較低水平。但這種低風險狀態(tài)未必能夠長期維持。隨著模型能力快速上升,他們已經(jīng)觀察到一些值得警惕的現(xiàn)象,比如個別情況下模型會采取明顯不被允許的動作,甚至偶爾還會出現(xiàn)帶有規(guī)避或掩飾意味的行為。
他們承認,隨著模型越來越強,很多風險判斷已經(jīng)不能只靠簡單清晰的客觀指標來完成,而越來越依賴主觀判斷、趨勢分析和復雜測試,這本身就意味著安全評估難度在上升。
“安全領(lǐng)域的一個分水嶺時刻”
Claude Mythos Preview 已經(jīng)不是一款可以簡單按“更強的聊天模型”來理解的產(chǎn)品。 在 Anthropic 看來,它更像是一個能力顯著跨越門檻、已經(jīng)足以改變安全討論方式的前沿系統(tǒng)。
這次,Anthropic 重點詳細介紹了 Mythos Preview 在網(wǎng)絡(luò)安全方面的表現(xiàn),希望以此闡明為什么其認為這是安全領(lǐng)域的一個關(guān)鍵分水嶺時刻。
根據(jù)官方的說法,Mythos Preview 在測試中能夠在用戶指令下,識別并進一步利用所有主流操作系統(tǒng)和主流網(wǎng)頁瀏覽器中的零日漏洞,且所發(fā)現(xiàn)的問題往往極為隱蔽,部分漏洞甚至已存在十年以上,其中最早的一個可追溯至 OpenBSD 中一個已有 27 年歷史、現(xiàn)已修復的安全缺陷。
Anthropic 表示,Claude Mythos Preview 構(gòu)造的利用方式并不局限于常規(guī)漏洞利用,而是已經(jīng)具備編寫復雜利用鏈的能力。
據(jù)介紹,新模型曾自主寫出一條網(wǎng)頁瀏覽器 exploit,將四個漏洞串聯(lián)起來,通過復雜的 JIT heap spray 技術(shù)逃逸渲染器和操作系統(tǒng)雙重沙箱;還曾在 Linux 及其他系統(tǒng)中,通過競爭條件和繞過 KASLR 等方式實現(xiàn)本地提權(quán);在 FreeBSD NFS 服務(wù)器場景下,甚至寫出遠程代碼執(zhí)行 exploit,通過將 20 個 gadget 組成的 ROP 鏈拆分到多個數(shù)據(jù)包中,使未認證用戶能夠直接獲取 root 權(quán)限。
這種能力的門檻正在迅速下降。內(nèi)部測試顯示,即便是沒有正式安全訓練背景的工程師,也能通過 Mythos Preview 在一夜之間獲得完整可運行的遠程代碼執(zhí)行 exploit。與此同時,研究人員還構(gòu)建了一系列 scaffold,使模型能夠在沒有人工干預(yù)的情況下,將漏洞進一步轉(zhuǎn)化為 exploit。
這種能力的進化速度非常快。Anthropic 稱,就在上個月,Claude Opus 4.6 還“更擅長識別和修復漏洞,而不是利用漏洞”,在自主 exploit 開發(fā)中的成功率幾乎接近零。但在同樣測試下,Mythos Preview 已經(jīng)表現(xiàn)出完全不同的能力層級。
以 Mozilla Firefox 147 JavaScript 引擎相關(guān)漏洞為例,Opus 4.6 在數(shù)百次嘗試中僅兩次成功將漏洞轉(zhuǎn)化為 JavaScript shell exploit,而 Mythos Preview 則成功構(gòu)建出 181 個可運行 exploit,并額外實現(xiàn)了 29 次寄存器控制。
團隊還在 OSS-Fuzz 語料庫對應(yīng)的大量開源倉庫上,對模型進行了更大規(guī)模的自動化評估。結(jié)果顯示,在大約 7000 個入口點的掃描中,Claude Sonnet 4.6 和 Opus 4.6 大多只能造成低等級崩潰,而 Mythos Preview 不僅實現(xiàn)了近 600 次第一、二級崩潰,還在多個已打補丁目標上實現(xiàn)了完整控制流劫持。
Anthropic 表示,Mythos Preview 并未被專門訓練成“漏洞利用模型”,這些能力更多是編程能力、推理能力和自主能力整體提升后自然涌現(xiàn)出的結(jié)果。也正因如此,該模型在修補漏洞和利用漏洞兩側(cè)都出現(xiàn)了同步躍升。
Anthropic 詳細披露了多個案例,包括 OpenBSD 中一個有 27 年歷史的 TCP SACK 漏洞、FFmpeg H.264 解碼器中一個 16 年歷史的漏洞,以及一個出現(xiàn)在“內(nèi)存安全”虛擬機監(jiān)控器中的 guest-to-host 內(nèi)存破壞問題。此外,Mythos Preview 還發(fā)現(xiàn)了數(shù)千個其他高危和嚴重級別漏洞,目前大多仍處于負責任披露流程中。Anthropic 表示,在已人工審核的近 200 份漏洞報告中,89% 的嚴重性判斷與模型結(jié)論完全一致,98% 的判斷偏差不超過一個等級。
除了開源軟件,Mythos Preview 在逆向工程方面同樣具備極強能力。研究人員已經(jīng)利用它在閉源瀏覽器、閉源操作系統(tǒng)和手機固件中發(fā)現(xiàn)漏洞,包括遠程拒絕服務(wù)、固件 root 漏洞以及本地提權(quán) exploit 鏈等。不過出于安全原因,這些案例目前尚未對外公開。
Anthropic 呼吁企業(yè)和安全團隊立即開始使用當前已公開可用的前沿模型開展漏洞發(fā)現(xiàn)、報告分診、復現(xiàn)步驟撰寫、補丁草案生成、配置錯誤檢查和事件響應(yīng)自動化等工作。官方特別提醒,隨著 exploit 開發(fā)速度被大幅壓縮,補丁部署周期也必須同步縮短,自動更新、依賴升級和應(yīng)急修復流程都需要重新加速。
Anthropic 認為,網(wǎng)絡(luò)安全領(lǐng)域正在進入一個極具不確定性的過渡階段。過去近 20 年形成的相對穩(wěn)定的安全平衡,可能會被具備大規(guī)模自動發(fā)現(xiàn)和利用漏洞能力的語言模型打破。
官方強調(diào),當前威脅已經(jīng)不再是假設(shè),Mythos Preview 只是這一趨勢的開始。而當前,最大的風險不只是模型本身,而是這類能力可能很快擴散到不愿安全使用它們的人手中。
https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf
https://red.anthropic.com/2026/mythos-preview/
https://www.anthropic.com/glasswing
聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
會議推薦
QCon 全球軟件開發(fā)大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節(jié)跳動、小米、百度等一線科技企業(yè)與創(chuàng)新團隊的技術(shù)專家,圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進展開深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進行咨詢。
今日薦文
你也「在看」嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.