![]()
智東西
編譯 程茜
編輯 李水青
智東西5月29日報道,今日凌晨,Anthropic最強通用模型Claude Opus 4.8正式發布,新模型基準測試全面超越Gemini 3.1 Pro、Opus 4.7,僅一項遜色于GPT-5.5,但其標準模式價格不變,快速模式價格僅為Opus 4.7的1/3。
與此同時,Anthropic還官宣一筆650億美元(約合人民幣4406.94億元)H輪巨額融資,投后估值沖上9650億美元(約合人民幣6.54萬億元),相比今年2月的3800億美元(約合人民幣2.58萬億元)幾乎翻了3倍。本輪融資由Altimeter Capital、Dragoneer、Greenoaks和紅杉資本等多家知名投資領投。
Anthropic最新估值是OpenAI的約1.13倍。上周,英國《金融時報》報道稱,OpenAI最新估值為8520億美元(約合人民幣5.78萬億元)。
![]()
Opus 4.8的最大升級為動態工作流,這使其可以生成數百個并行子智能體,執行從啟動到合并的數十萬行代碼的大規模代碼庫遷移等大型任務。
Claude Opus 4.8現已全面上線,標準模式定價不變,快速模式是Opus 4.7、4.6的1/3。標準模式每百萬輸入token 5美元(約合人民幣33.9元),每百萬輸出token 25美元(約合人民幣169.5元),快速模式定價為每百萬輸入token 10美元(約合人民幣67.8元),每百萬輸出token 50美元(約合人民幣338.9元)。開發者可以通過Claude API使用claude-opus-4-8。
![]()
AI數據平臺Databricks報告稱,Opus 4.8在其Genie數據智能體中實現了“推理能力的飛躍式提升”,并且由于其在處理PDF和圖表方面的多模態效率,其“token成本比Opus 4.7降低了61%”。
關于未來計劃,Anthropic在博客中透露,他們計劃推出智能水準超越Opus的全新系列模型,并預計在未來數周內,向全體客戶開放Mythos級別模型,相關防護方案的研發工作正快速推進。
Claude更新后,馬斯克還轉帖稱贊他們“干得漂亮”,卻被評論區網友吐槽,你為什么不去修復Grok,而是要為別人鼓掌。
![]()
一、網友評價視覺質量提升明顯,但數不清手指數
Anthropic官方未放出Opus 4.8相關的案例,不少網友在社交平臺X上放出了自己的使用情況。
有開發者使用四元素項目對比了Opus 4.7、Opus 4.8和Opus 4.8 Max的效果,模型生成的視覺質量提升很明顯。
早期體驗者對Opus 4.8的評價很高,稱新模型完全可以被叫做Opus 5,他們基于新模型生成了下面的網頁。
有開發者通過最高思考力度(Max)模式測試了Opus 4.8,跑了《我的世界》相關任務。他評價說,Opus 4.8整體表現不錯,相比 Opus 4.7有明顯提升,所有任務一次運行就全部成功,但能力上并未實現跨越式突破。他的調用總成本為9~10美元(約合人民幣61~68元)。
![]()
另一位開發者測試了“熔巖燈項目”,他測試的結果顯示Opus 4.7反而比Opus 4.8看起來效果更好。
![]()
還有網友為Opus 4.8挖坑,上傳了一張擁有六根手指的手掌圖片,詢問Opus 4.8這張圖有幾根手指。Opus 4.8的回答是,這是一只正常的人類手掌,有五根手指。
![]()
Reddit上已經有網友開始不留情面吐槽:“Opus 4.8自發布以來,性能出現了斷崖式下滑。”他分析說,Anthropic可能為了省錢,開始用2比特量化模型跑服務了。
![]()
Anthropic在博客中也坦言,Opus 4.8相較于前代產品雖然升級不大,但改進都很切實。
二、基準測試幾乎全面超過GPT-5.5、Gemini 3.1 Pro
從基準測試表現來看,與Claude Opus 4.7、GPT-5.5、Gemini 3.1 Pro相比,Opus 4.8在智能體代碼開發、跨學科推理、計算機使用、智能體金融分析以及在高價值知識工作中的干活能力,都全面超越了其他模型,僅在智能體終端編程方面,略遜色于GPT-5.5。
![]()
Anthropic發布了Opus 4.8的系統卡,其中提到,Opus 4.8與目前仍處于選擇性發布的Mythos在不一致性行為方面非常接近,二者的偏差度約為1.9,低于Opus 4.7與Mythos的2.5。
![]()
Claude Opus 4.8的訓練數據為Anthropic專有的混合數據集,包括來自互聯網的公開信息、公共和私有數據集,以及其他模型生成的合成數據,其會通過去重和分類進行數據清洗和過濾。
其博客提到,Opus 4.8的優勢在于最適合處理前代模型無法完成的任務及對性能要求極高的場景,專為專業軟件工程、復雜的智能體工作流程和高風險的企業級任務而設計。
Opus 4.8具備自適應思維功能,能夠根據任務的復雜程度自動調整其思考投入,在難題上花費更多時間,在簡單問題上快速響應,其常見應用場景包括:
高級編程,在只需極少監督的情況下,Opus 4.8能夠交付可用于生產環境的代碼。模型能夠進行周密的規劃,在持續運行的情況下保持更長時間的穩定,并在大型代碼庫中運行。它還能自動檢測并糾正錯誤。
AI智能體,Opus 4.8能進行周密的計劃,利用記憶功能跨會話學習,并在極少人工干預的情況下推動需要長時間運行的工作。
企業工作流程:在企業端,該模型可以跨會話傳遞上下文,并具備強大的電子表格、幻燈片和文檔性能,端到端地管理復雜、多天項目。
三、用戶可手動控制思考力度,比前代模型更誠實
Anthropic還發布了多項更新:
首先是動態工作流,基于此,Claude可以規劃工作,然后在單個會話中運行數百個并行子智能體,之后驗證輸出結果,并將結果反饋給用戶。例如,搭載Opus 4.8的Claude Code現在能夠以現有測試套件為基準,執行從啟動到合并的數十萬行代碼的大規模代碼庫遷移。
該功能目前處于研究預覽階段,Claude Code的企業版、團隊版和Max版用戶可體驗。
其次是為claude.ai和Cowork新增了思考力度控制(Effort control)功能。在模型選擇器旁,Anthropic為用戶新增了可以設定Claude在生成回答時投入多大的“思考力度”的按鈕。高力度設置下,Claude會更頻繁、更深入地思考,從而提供更優質的回復,反之其思考少,回復速度會更快。
該功能現已對所有套餐開放,用戶可自由選擇。
最后是Claude消息接口(Messages API)現支持在消息數組內加入系統指令。開發者可在任務執行過程中動態更新模型指引,既不會中斷提示詞緩存,也無需借助用戶輪次來傳遞更新內容。借助該能力,開發者能在智能體運行時,實時調整權限、token配額及環境上下文。
Opus 4.8的誠實性,早期測試人員稱,Opus 4.8更有可能標記出其工作中的不確定性,并且不太可能做出未經證實的斷言。Anthropic內部評估結果表明,相較于前代版本,Opus 4.8放任自身編寫的代碼漏洞被遺漏、未被檢出的概率降低至約1/4。
四、新融資含亞馬遜投的50億美元
官宣融資時,Anthropic還透露,本月初其年化收入已突破470億美元(約合人民幣3186億元)。此次融資預計將用于推進安全性和可解釋性研究,擴展計算能力以滿足不斷增長的Claude需求,并擴大客戶所依賴的產品和合作伙伴關系。
除前文提到的領投方,本輪重要的其他投資者包括AMP PBC、Baillie Gifford、淡馬錫等十余家投資機構。
值得一提的是,這輪融資還涵蓋了超大型科技企業之前就已經許諾投入的150億美元(約合人民幣1017億元)投資,這其中就包含亞馬遜投資的50億美元(約合人民幣339億元)。
美光、三星與SK海力士作為Anthropic的戰略基礎設施合作伙伴同步入局。
近幾周,Anthropic大幅提升了計算能力,與亞馬遜簽署協議新增高達5吉瓦的計算能力;與谷歌和博通簽署了協議,新增5吉瓦的下一代TPU計算能力;與SpaceX簽署協議,使用Colossus 1和Colossus 2的GPU計算能力。
Claude也是全球首個同時支持亞馬遜云服務、谷歌云和微軟Azure全球三大云平臺的前沿模型。不過,AWS仍然是其主要云服務提供商和訓練合作伙伴。
結語:新模型發布節奏加快,Anthropic壓力倍增?
可以看出,Claude的更新沒有追求顛覆式的能力升級,而是將目標放到了降低成本上。Anthropic還透露,他們正持續研發并推出多款模型,力求以更低成本實現與Opus系列相近的能力。
Opus 4.8的發布節奏相比以往要更快,其在Opus 4.7發布僅41天后便問世,而此前Sonnet和Haiku系列模型的發布周期長達三個月、七個月。或許是因為,OpenAI的Codex和谷歌的Gemini Flash模型相繼發布新的重要版本,讓Anthropic感受到壓力,使其必須跟上步伐。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.