Anthropic昨夜扔下了一顆重磅炸彈。Claude Opus 4.7正式上線。
在最關鍵的軟件工程能力上,它完成了對GPT-5.4的超越,甚至在某些指標上逼近了尚未全面開放的Claude Mythos Preview。
01 編程能力暴漲
Opus 4.7在代碼領域的表現(xiàn)相當出色。
在權威的SWE-bench Pro基準測試中,Opus 4.7的得分從4.6版本的53.4%直接跳漲至64.3%。
![]()
這是什么概念?
GPT-5.4在同一測試中的成績是57.7%,而Opus 4.7一口氣拉開了近7個百分點的差距。
而在SWE-bench Verified的成績是87.6%,相比4.6的80.8%提升近7個百分點。
![]()
這些數(shù)據(jù)的早期測試用戶反饋,以前那些需要工程師盯著看的高難度編程任務,現(xiàn)在可以放心地交給Opus 4.7獨立完成。
因為它不僅能處理復雜的長時任務,還會主動驗證自己的輸出,甚至會在執(zhí)行前進行「自我糾錯」。
Stripe的工程團隊在測試中提到:「Opus 4.7能在規(guī)劃階段就捕捉到自己的邏輯缺陷,并加速執(zhí)行。這對需要大規(guī)模交付可信金融解決方案的我們來說,可能是游戲規(guī)則的改變者。」
02 視覺3倍分辨率
Opus 4.7新版本支持高達2,576像素(長邊)的圖像輸入,分辨率是前代模型的三倍以上,約3.75兆像素。
它可以看清復雜技術圖紙上的微小標注,能準確解讀化學分子的立體結構,在計算機操作任務中,能從高分辨率截圖里識別出細枝末節(jié)的UI元素。
在CharXiv視覺推理基準測試中,Opus 4.7的得分從4.6的 69.1% 躍升至 82.1%;配合工具使用時,更是達到了91.0%,相較于前代的84.7%提升巨大。
![]()
XBOW,即自主滲透測試平臺,的測試數(shù)據(jù)更為震撼:在視覺敏銳度基準測試中,Opus 4.7得分98.5%,而Opus 4.6僅為54.5%。
「我們最大的痛點一夜之間消失了」,XBOW團隊表示。
03 金融、法律、科研等方面也大有提升
別以為Opus 4.7只是個程序員專屬模型。在多個專業(yè)領域,它都展現(xiàn)出了專家級的素養(yǎng)。
金融領域,它在Finance Agent v1.1測試中取得64.4%的成績,并在 GDPval-AA,即第三方經(jīng)濟價值知識工作評估測試中創(chuàng)下Claude系列模型的最佳表現(xiàn)。
從財務建模到專業(yè)演示文稿制作,Opus 4.7被評價為「比4.6更嚴謹?shù)慕鹑诜治鰩煛埂?/p>
法律領域,在BigLaw Bench測試中,Opus 4.7在高難度任務下達到 90.9%的準確率。
它能準確區(qū)分「轉讓條款」和「控制權變更條款」,要知道,這可是前沿模型普遍頭疼的微妙區(qū)別。
科研與多語言,在Graduate-level reasoning測試中,Opus 4.7達到 94.2%,與GPT-5.4 Pro的94.4%和Gemini 3.1 Pro的94.3%處于同一梯隊;多語言問答(MMMLU)也提升至91.5%。
04 新版本特性
Opus 4.7在行為模式上有一個有趣的轉變:它變得更擅長遵循指令,也更愿意表達專業(yè)觀點。
一方面,它的指令遵循能力顯著增強。
Anthropic特別提示,以前為舊版本編寫的提示詞可能需要重新調(diào)整,因為Opus 4.7會嚴格按照字面意思執(zhí)行,而不會像4.6那樣寬松解釋或跳過部分指令。
另一方面,它在技術討論中表現(xiàn)出更強的專業(yè)素養(yǎng)。
Replit團隊注意到:它會在技術討論中提出反駁,幫助我做更好的決策。感覺真的像一個更好的同事,而不是一個只會說好的的應聲蟲。
此外,Opus 4.7在文件系統(tǒng)記憶方面也有改進,能在長時間、多會話的工作中記住重要筆記,減少重復上下文的輸入。
![]()
05 安全、價格與獲取方式
安全防護是這次發(fā)布的重要一環(huán)。
Anthropic表示,Opus 4.7是網(wǎng)絡安全風險研究項目框架下的首個模型,其網(wǎng)絡攻擊能力相比Mythos Preview已被差異化降低。
![]()
模型內(nèi)置了自動檢測機制,可阻止高風險的網(wǎng)絡安全濫用請求。
當然,合法的漏洞研究、滲透測試和紅隊測試并不在此列,安全專業(yè)人士可申請加入全新的Cyber Verification Program。
價格方面,Opus 4.7維持與4.6相同的定價,輸入定價$5/百萬token,輸出定價$25/百萬token。
目前,Claude網(wǎng)頁端和App已全面上線,API模型名稱為claude-opus-4-7,同時登陸Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。
但Claude近日要搞AI實名制,國內(nèi)用戶可能體驗不到這波更新了。
(注:本文數(shù)據(jù)及引述均來自Anthropic官方發(fā)布)
來源 | AI普瑞斯(ID:AIPress2025)
作者 | AI普瑞斯 ; 編輯 | 呼呼大睡
內(nèi)容僅代表作者獨立觀點,不代表早讀課立場
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.