文 | 強(qiáng)調(diào)Next
今天凌晨,Anthropic發(fā)布了Claude Opus 4.8。距上一版Opus4.7只過了41天。
按照慣例,發(fā)布會(huì)上少不了一串亮眼的跑分:SWE-bench Pro從64.3%升到69.2%,數(shù)學(xué)測試USAMO拿了96.7%,綜合推理評分比GPT-5.5領(lǐng)先121個(gè)Elo分……但Anthropic選擇把發(fā)布的重心放在一個(gè)聽起來很“軟”的詞上:誠實(shí)。
![]()
1 · 跑分之外,更重要的是不撒謊
過去兩年,AI公司在發(fā)布模型時(shí)的敘事框架幾乎千篇一律:更快、更強(qiáng)、更便宜。Anthropic這次的核心論點(diǎn)是:Opus4.8比上一代“更不會(huì)騙你”。
具體來說,他們的評測顯示,新模型在發(fā)現(xiàn)自己寫的代碼存在缺陷時(shí),主動(dòng)報(bào)告的概率是Opus4.7的四倍。用Anthropic自己的話說,舊模型有時(shí)會(huì)“跳到結(jié)論上”,信心滿滿地匯報(bào)進(jìn)展,哪怕證據(jù)并不支撐。測試過新模型的早期用戶反映,Opus4.8更愿意在不確定的地方說“我不確定”,而不是給出一個(gè)聽起來合理、但實(shí)際站不住腳的答案。
![]()
這個(gè)改變看起來不起眼,實(shí)則是很多企業(yè)在真正落地AI時(shí)碰到的核心痛點(diǎn)。一個(gè)會(huì)寫代碼但不會(huì)發(fā)現(xiàn)自己代碼有問題的模型,放進(jìn)生產(chǎn)環(huán)境是危險(xiǎn)的。一個(gè)做了分析但不標(biāo)注自己在哪里打了折扣的模型,給高管看的報(bào)告就需要花大量時(shí)間人工復(fù)核。可信賴度,在某些場景下比能力更值錢。
2 · AI開始接管“整個(gè)任務(wù)”
配合新模型同步上線的,還有兩個(gè)功能,分量都不輕。
其中一個(gè)叫Dynamic Workflows,目前以研究預(yù)覽版的形式放在ClaudeCode里。它的邏輯是:把一個(gè)大任務(wù)交給模型,它會(huì)先做規(guī)劃,然后同時(shí)拉起數(shù)百個(gè)并行的子智能體分頭干活,最后匯總驗(yàn)證結(jié)果。Anthropic給出的示例場景是對數(shù)十萬行代碼進(jìn)行整庫遷移。從提需求到代碼合并,全程由AI主導(dǎo)推進(jìn)。
![]()
這意味著AI在工程場景里的角色,正在從“寫代碼的助手”向“執(zhí)行工程任務(wù)的主體”遷移。對技術(shù)團(tuán)隊(duì)來說,遺留系統(tǒng)改造、跨模塊重構(gòu)這類歷來耗時(shí)又高風(fēng)險(xiǎn)的活,第一次有了被認(rèn)真“外包”給AI的可能性。
另一個(gè)是努力程度控制,面向所有claude.ai用戶開放。用戶可以自己調(diào)節(jié)模型每次回復(fù)投入多少“思考量”,需要深度分析就調(diào)高,日常快速交互就調(diào)低,相應(yīng)地也會(huì)消耗不同額度的使用配額。把成本與質(zhì)量的權(quán)衡交給用戶自己決定,這個(gè)思路倒是挺務(wù)實(shí)的。
3 · 價(jià)格沒變
價(jià)格方面沒有變化:輸入$5、輸出$25,每百萬token,和Opus4.7一樣。變的是FastMode,同樣的旗艦?zāi)P唾|(zhì)量,2.5倍速,價(jià)格比前代便宜了三倍,降到輸入$10、輸出$50。對于需要大批量調(diào)用的企業(yè)來說,這個(gè)變化比模型本身的能力提升更直接地影響部署決策。
4 · 更大的伏筆
發(fā)布稿里還藏著一條值得關(guān)注的信息:Mythos。
這是他們更高級別的模型,目前只在少數(shù)企業(yè)中小范圍測試。Anthropic說,Mythos級別的模型將在“未來數(shù)周內(nèi)”向所有客戶開放,正在做的是完善安全防護(hù)機(jī)制。上個(gè)月Mythos的有限預(yù)覽因?yàn)楸┞冻鲆恍┚W(wǎng)絡(luò)安全方面的隱患而被緊急踩了剎車,這次措辭謹(jǐn)慎,沒有給出具體時(shí)間表。
與此同時(shí),Anthropic今天還公布了650億美元的H輪融資,估值來到9650億美元,在賬面上超過了OpenAI的8520億美元。兩家公司誰先上市、誰先過萬億,正在成為硅谷最受關(guān)注的懸念之一。
回到模型本身。Opus 4.8是一次定位清晰的迭代。沒有革命性的代際更新,只是在現(xiàn)有基礎(chǔ)上把可靠性、誠實(shí)性和長任務(wù)執(zhí)行能力推進(jìn)了一步。Anthropic自己也承認(rèn)這是“適度但實(shí)質(zhì)性的改進(jìn)”。
留給我們的問題是,當(dāng)AI開始學(xué)會(huì)說“我不確定”,人與AI之間的協(xié)作方式,需要怎么跟著調(diào)整?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.