Anthropic發(fā)布Claude Opus 4.8，重點(diǎn)是：“我不會(huì)騙你”

2026-05-29 18:20:15　來源: 鈦媒體APP

北京舉報(bào)

分享至

文 | 強(qiáng)調(diào)Next

今天凌晨，Anthropic發(fā)布了Claude Opus 4.8。距上一版Opus4.7只過了41天。

按照慣例，發(fā)布會(huì)上少不了一串亮眼的跑分：SWE-bench Pro從64.3%升到69.2%，數(shù)學(xué)測試USAMO拿了96.7%，綜合推理評分比GPT-5.5領(lǐng)先121個(gè)Elo分……但Anthropic選擇把發(fā)布的重心放在一個(gè)聽起來很“軟”的詞上：誠實(shí)。

1 · 跑分之外，更重要的是不撒謊

過去兩年，AI公司在發(fā)布模型時(shí)的敘事框架幾乎千篇一律：更快、更強(qiáng)、更便宜。Anthropic這次的核心論點(diǎn)是：Opus4.8比上一代“更不會(huì)騙你”。

具體來說，他們的評測顯示，新模型在發(fā)現(xiàn)自己寫的代碼存在缺陷時(shí)，主動(dòng)報(bào)告的概率是Opus4.7的四倍。用Anthropic自己的話說，舊模型有時(shí)會(huì)“跳到結(jié)論上”，信心滿滿地匯報(bào)進(jìn)展，哪怕證據(jù)并不支撐。測試過新模型的早期用戶反映，Opus4.8更愿意在不確定的地方說“我不確定”，而不是給出一個(gè)聽起來合理、但實(shí)際站不住腳的答案。

這個(gè)改變看起來不起眼，實(shí)則是很多企業(yè)在真正落地AI時(shí)碰到的核心痛點(diǎn)。一個(gè)會(huì)寫代碼但不會(huì)發(fā)現(xiàn)自己代碼有問題的模型，放進(jìn)生產(chǎn)環(huán)境是危險(xiǎn)的。一個(gè)做了分析但不標(biāo)注自己在哪里打了折扣的模型，給高管看的報(bào)告就需要花大量時(shí)間人工復(fù)核。可信賴度，在某些場景下比能力更值錢。

2 · AI開始接管“整個(gè)任務(wù)”

配合新模型同步上線的，還有兩個(gè)功能，分量都不輕。

其中一個(gè)叫Dynamic Workflows，目前以研究預(yù)覽版的形式放在ClaudeCode里。它的邏輯是：把一個(gè)大任務(wù)交給模型，它會(huì)先做規(guī)劃，然后同時(shí)拉起數(shù)百個(gè)并行的子智能體分頭干活，最后匯總驗(yàn)證結(jié)果。Anthropic給出的示例場景是對數(shù)十萬行代碼進(jìn)行整庫遷移。從提需求到代碼合并，全程由AI主導(dǎo)推進(jìn)。

這意味著AI在工程場景里的角色，正在從“寫代碼的助手”向“執(zhí)行工程任務(wù)的主體”遷移。對技術(shù)團(tuán)隊(duì)來說，遺留系統(tǒng)改造、跨模塊重構(gòu)這類歷來耗時(shí)又高風(fēng)險(xiǎn)的活，第一次有了被認(rèn)真“外包”給AI的可能性。

另一個(gè)是努力程度控制，面向所有claude.ai用戶開放。用戶可以自己調(diào)節(jié)模型每次回復(fù)投入多少“思考量”，需要深度分析就調(diào)高，日常快速交互就調(diào)低，相應(yīng)地也會(huì)消耗不同額度的使用配額。把成本與質(zhì)量的權(quán)衡交給用戶自己決定，這個(gè)思路倒是挺務(wù)實(shí)的。

3 · 價(jià)格沒變

價(jià)格方面沒有變化：輸入$5、輸出$25，每百萬token，和Opus4.7一樣。變的是FastMode，同樣的旗艦?zāi)Ｐ唾|(zhì)量，2.5倍速，價(jià)格比前代便宜了三倍，降到輸入$10、輸出$50。對于需要大批量調(diào)用的企業(yè)來說，這個(gè)變化比模型本身的能力提升更直接地影響部署決策。

4 · 更大的伏筆

發(fā)布稿里還藏著一條值得關(guān)注的信息：Mythos。

這是他們更高級別的模型，目前只在少數(shù)企業(yè)中小范圍測試。Anthropic說，Mythos級別的模型將在“未來數(shù)周內(nèi)”向所有客戶開放，正在做的是完善安全防護(hù)機(jī)制。上個(gè)月Mythos的有限預(yù)覽因?yàn)楸┞冻鲆恍┚W(wǎng)絡(luò)安全方面的隱患而被緊急踩了剎車，這次措辭謹(jǐn)慎，沒有給出具體時(shí)間表。

與此同時(shí)，Anthropic今天還公布了650億美元的H輪融資，估值來到9650億美元，在賬面上超過了OpenAI的8520億美元。兩家公司誰先上市、誰先過萬億，正在成為硅谷最受關(guān)注的懸念之一。

回到模型本身。Opus 4.8是一次定位清晰的迭代。沒有革命性的代際更新，只是在現(xiàn)有基礎(chǔ)上把可靠性、誠實(shí)性和長任務(wù)執(zhí)行能力推進(jìn)了一步。Anthropic自己也承認(rèn)這是“適度但實(shí)質(zhì)性的改進(jìn)”。

留給我們的問題是，當(dāng)AI開始學(xué)會(huì)說“我不確定”，人與AI之間的協(xié)作方式，需要怎么跟著調(diào)整？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.