網易首頁 > 網易科技 > IT業界 > 正文

Anthropic神級模型向你開放，但不是完整版

2026-06-10 08:24:27　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 辰辰

編輯 | 王鳳枝

神秘的Mythos級模型，終于向普通用戶開放了。

但不是完整版。

北京時間6月10日凌晨，Anthropic發布Claude Fable 5。這是它第一次把Mythos級能力推向公眾。與此同時，真正限制更少的Claude Mythos 5，只發給了一小撮網絡安全合作伙伴，以及少數生物醫學研究者。

普通用戶拿到的，是一個被嚴格劃定了使用邊界的版本。

觸線之后，Fable 5會沉默，然后把問題交給上一代模型Claude Opus 4.8。

也就是說，在某些場景里，你以為自己正在使用Anthropic最強模型，拿到的卻可能是上一代模型的回答。

Anthropic說，超過95%的對話不會觸發攔截。但對剩下那不到5%的人來說，他們付的是最強模型的錢，拿到的是上一代的服務。

它可能是你現在能公開用到的最強AI。

但Anthropic不敢把完整的它交到你手里。

一、有多強

先看數字和用戶評價。

Anthropic宣稱Fable 5在各項基準測試中遠超競品：SWE-bench Pro（軟件工程基準測試）80%，Terminal-Bench（終端基準測試）88%……

Stripe在內部測試中發現，Fable 5把一次5000萬行Ruby代碼庫的遷移工作，從"一個團隊干兩個月"壓縮到了一天。

Cursor CEO邁克爾·特魯爾（Michael Truell）說，Fable 5在他們的基準測試上是"最先進模型"，"打開了一類此前的模型完全夠不到的長周期問題。"

GitHub首席產品官馬里奧·羅德里格斯（Mario Rodriguez）說得更直接："它處理復雜、長周期編碼任務的自主性和可靠性，超過了此前的任何基準。"

但不是只有代碼。

視覺任務上，Fable 5用純截圖打通了Pokémon FireRed，沒有地圖，沒有導航，沒有隱藏游戲狀態。開發者 @chetaslua在X上放出通關延時視頻，配文就一句："臥槽！！！Claude Fable 5僅憑視覺就通關了《寶可夢：火紅》。"此前所有Claude模型都需要額外工具加持才能勉強玩下去，Fable 5只需要看著屏幕。

長上下文任務中，研究人員讓Fable 5玩卡牌游戲Slay the Spire，給它一個文件做持久筆記。結果：Fable 5打到最終幕（Final Act）的頻次是Opus 4.8的三倍。

藥物設計上，Mythos 5把某些環節加速了大約10倍。Anthropic內部的蛋白質設計專家發現，Mythos 5在沒有人輔助的情況下，14個蛋白質靶點中9個產出了高質量候選藥物，表現持平甚至超過熟練的人類操作員。

基因組學研究中，Mythos 5在超過一周的大半自主工作中，收集了涵蓋138個動物物種、數百萬個細胞的單細胞數據，設計并訓練了一個定制機器學習模型。這個模型比一篇Science論文中的模型小100倍，性能卻反超了它。

幾乎每一塊基準測試，都是新的SOTA。

最近剛剛加入Anthropic的OpenAI聯合創始人安德烈·卡帕西（Andrej Karpathy）在社交媒體X上寫道："這是和去年11月Claude 4.5同等級別的重大版本躍遷。"

他說這是他第一次覺得"完全不去看代碼"這個念頭不是玩笑，而是真實的誘惑。他補了一句："解放你的心智。我對自己軟件的需求正在大幅增長。你可以要求任何東西，解釋器、可視化工具、儀表盤、定制的一次性應用、把測試套件擴大10倍、自動優化代碼、運行巨大的研究項目并用定制HTML輸出結果，任何東西。"

AI工作臺公司Hex在第三方測試中發現，Fable 5是第一個在他們核心分析基準上拿到90% 分數的模型。"在最難的問題上，它展示了很強的判斷力和對細微差別的關注。"

低代碼平臺Base44說Fable 5在"一次性生成完整應用"上明顯更強，工具調用表現出色。AI智能體平臺Genspark說Fable 5在他們評估中擊敗了所有其他模型，在UI設計和游戲編碼上尤其突出。

購物返利平臺Rakuten的評語更精煉："它在最高努力級別上會自我反思并驗證自己的工作。對我們來說，這就是讓高度自主運營成為可能的原因，額外的思考是值得花錢的。"

二、三道鎖是怎么鎖的

Mythos級模型的網絡能力是真實的。它能發現漏洞，寫出 exploit，執行偵察和橫向移動。今年4月 Anthropic首次發布 Mythos Preview時，只開放給了一小群網絡安全合作伙伴，理由是這些能力一旦落入攻擊者手中，會造成真實傷害。

這次 Fable 5能向公眾開放，靠的是一套"安全分類器"，獨立運行的 AI，實時檢測你的提問，觸線就轉給 Opus 4.8。

三道鎖，分得清清楚楚。

第一道：網絡安全。 從漏洞發現到攻擊規劃，全部攔截。Anthropic投入了一千多小時的漏洞賞金測試，沒有找到任何通用越獄。外部紅隊組織也沒找到。一位外部合作伙伴的測試結論是：Fable 5對有害網絡查詢的防護是所有測試模型中"最堅固的"，零合規，不管有沒有用30種公開越獄技術中的任何一種。

第二道：生物學和化學。 這一刀最寬，也最受爭議。Anthropic的措辭是："在大部分與生物學和化學相關的請求上，Fable 5會回退到 Opus 4.8。"

為什么要攔生物學？因為 Mythos 級模型在基因治療上的能力，反過來也意味著制造危險病毒的能力。Anthropic 測試了 Mythos 5在 AAV 病毒設計上的表現，它只靠生物學推理，就超過了專門的蛋白質語言模型。這既是巨大的正向潛力，也是實打實的雙重用途風險。

但問題是：為了安全，這一刀砍得太寬了。

第三道：蒸餾。 檢測到有人試圖用 Fable 5的輸出訓練競品模型時，直接回退到 Opus 4.8。

前兩道鎖是安全考量，防止模型能力被用于攻擊或生物武器。第三道鎖的性質不同：它更像商業防護，防止競品通過大量調用來復制 Fable 5的能力。Anthropic 把三者打包在同一套安全系統里，但動機并不完全一樣。

Anthropic 說超過95% 的對話完全不會觸發攔截。

但對那不到5% 的人來說，體驗是這樣的：你付了最強模型的錢，拿到的是上一代模型的回答。

三、連問線粒體都被拒

誤傷已經開始了。

社交媒體上的早期用戶報告：問線粒體，被攔了。問癌癥研究，被切到了 Opus 4.8。 一位用戶坦言："如果你是科學家或醫生，這款模型并不適合你。"

知名科技媒體《連線》采訪了 Anthropic 產品管理負責人黛安·佩恩（Diane Penn）。她說："我們正在努力以有益的方式做出改進，即使一開始沒有完美的解決方案。在所有不同方法中，這是最可行的。我們最終覺得這對用戶來說是最好的產品選擇。"

翻譯一下：我們知道會誤傷你，但沒有更好的辦法。

佩恩承認分類器目前偏向謹慎，"有些無害請求也會觸發攔截"，目標是發布后逐步收緊邊界。

但尷尬是真實的。Anthropic 博客里展示 Mythos 在藥物設計、基因組學、分子生物學上的突破，每一項都是正向的、拯救生命的科學。然后他們發布給公眾的 Fable 5，把生物學這一整扇門幾乎關上了。

科學家們拿著錢在外面敲門，里面的人說：你再等等。

四、你變成了甲方，不再是巫師

比鎖更值得聊的，是用 Fable 5到底是一種什么感覺。

沃頓商學院教授伊桑·莫利克（Ethan Mollick）是首批測試者。他在體驗文章里寫了一段話，可能是目前為止對 Fable 5最精確的描述：

"去年我把與 AI 合作稱為'和一個巫師工作'，你念咒語，事情就發生了。在 Fable 這里，咒語變得如此強大，以至于我不再確定自己是不是巫師了。我更像是位甲方。我描述我想要什么，我付錢，我評判結果。魔法發生在我看不到的地方，在數百個小選擇中我從來沒有投票權。工作從過程轉移到了結果。我不再掌舵。我委托。"

他給了 Fable 5一個15頁的設計文檔。模型獨自工作了九個半小時，產出了一個叫 Concord 的復雜軟件，可以校準人類和 AI 的判斷，然后做復雜數據分析。 這套工具研究人員需要多年了，但從來沒人做，因為不賺錢。現在它就在那里，可以直接用，也可以改代碼。

他還讓 Fable 5做了一個等距旅行地圖，顯示從任意城市出發、在一定時間內能到達的范圍。世界上第一張這種地圖，1881年在倫敦誕生。

Fable 5接到指令后做了什么？它啟動了多個子 AI，主要是更便宜的 Claude Sonnet，去檢索超過2200個具體航班、從法國 TGV 到日本新干線的列車時刻表、多篇學術論文中的各國道路速度數據。一邊等研究結果，一邊開始寫代碼。然后啟動更多子 AI 來驗證代碼，同時不斷給自己做筆記。

莫利克發現格陵蘭等偏遠地區的旅行時間只是估計值。他告訴 Fable 5修正。模型直接啟動了對抗性工作組，兩組子 AI 互相檢查對方的研究結果。 它最終搞清楚了船多久一趟去太平洋上的皮特凱恩島，以及怎么從渥太華到格賴斯峽灣。

"我的角色極其有限。"莫利克寫道。

卡帕西的感受指向同一個方向："你可以給它遠比從前更具野心的任務，模型就能理解并去執行。從未有過這樣的誘惑讓你完全不去看代碼。"

資深工程師鮑里斯·切爾尼（Boris Cherny）說："Fable 有判斷力、品位和維度。它調試時做測量、加日志、驗證真的修好了再宣布勝利，沒有任何提示詞告訴它這樣做，這就是它個性的一部分。它有一種'大模型的味道'。"

一句話總結這批人的共識：Fable 5不是讓你工作得更快。它改變了你和工作之間的關系。

五、IPO 前夜秀肌肉

Fable 5發布的時機不是中性的。

Anthropic 和 OpenAI 都已經秘密提交了 IPO 申請。今年4月，OpenAI 私下發布了一個據稱具有先進網絡安全能力的模型，組建了類似 Project Glasswing 的工作組。兩家公司都在搶同一個窗口，最好今年上市。Fable 5是 Anthropic 交出的最新答卷。

但這張答卷上寫滿了自相矛盾。

價格翻倍。 每百萬輸入 token 收10美元，每百萬輸出 token 收50美元，是 Opus 4.8的兩倍，但不到 Claude Mythos Preview 價格的一半。而且 Fable 5出手更闊綽，莫利克的地圖項目在短時間內燒掉了"驚人的 token 數量"。好在它會把部分任務委派給更便宜的 Sonnet，實際成本可能比想象的低。但大企業已經開始皺眉，很多公司今年已經用完了全年 AI 預算，高級模型的推理能力會把一個簡單請求拆成多個任務，賬單來得比預期快得多。

數據留存出現微妙變化。 Anthropic 宣布對 Mythos 級模型實施30天數據強制留存，即使是之前簽了零留存協議的企業客戶也不例外。公司承諾不用這些數據訓練模型，只用于"防御復雜和新穎的攻擊"和"識別和減少誤報"。

這個政策的潛臺詞是：模型越強，你的隱私就越不能是絕對的。

免費策略上也露出猶豫。 6月22日之前，Fable 5包含在 Pro、Max、Team 和 Enterprise 訂閱中，不加價。6月23日起移除，使用需要額外買額度。官方說法是"如果容量允許，免費窗口可能延長"；再之后"如果能做到，盡快恢復為標準訂閱功能"。

說人話就是：我們不確定能不能撐住需求。先用免費把人拉進來再說。

更深的矛盾藏在安全敘事里。上周，Anthropic 剛發了一封公開信，呼吁全球主要 AI 實驗室建立"協調的剎車踏板"，警告系統正在飛速逼近"遞歸自我改進"，AI 自己改進自己，不需要人類參與。

然后這周，他們發布了自己做過的最強 AI 模型。

一邊拉剎車，一邊踩油門。

對于一個把"安全"刻在品牌基因里的公司來說，這種張力藏在 Fable 5的每一行代碼里。

莫利克點出了問題的本質："甲方委托的是一個藝術家。Fable 更像是一整個工作室，我是那個在最終作品上簽字、但從未踏進工作室的客戶。"

當 AI 不再需要你"使用"，只需要你"委托"的時候，

安全的問題，就不再只是"這個模型會不會被壞人利用"了。

它還關乎一個更大的問題：當你不被信任使用完整版 AI 的時候，你和 AI 之間那根正在變細的線，什么時候會徹底斷開？