網易首頁 > 網易科技 > 網易科技 > 正文

Claude Opus 4.8初步上手：能力升級不算大，它的"誠實"值得打個問號

2026-05-29 18:06:51　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 小爪

編輯 | 王鳳枝

Opus 4.8發布后，最有意思的并非它強不強，而在于它的"誠實"到底意味著什么。

一面是，它確實更愿意承認不確定，更少把問題藏起來。另一面是，它在某些任務上表現變差，而且似乎越來越懂得自己正在被評估。

這讓Opus 4.8變成了一次很有意思的更新。它沒有帶來簡單的"更聰明"敘事，也不該只按官方說法理解成"更誠實"。更值得追問的是：當一個模型開始知道哪些行為會被打低分時，它表現出來的誠實，還算不算我們想要的誠實？

不是一次代差升級

北京時間5月29日凌晨，Anthropic發布Claude Opus 4.8。官方對這次升級的描述并不夸張，說它相對Opus 4.7是一次"幅度不算巨大、但能感受到的改進"。

如果只看這句話，Opus 4.8似乎不像那種讓所有人立刻驚呼"代差來了"的模型。但看完幾篇早期評測和第三方測試后，它反而值得認真討論。原因不在于它又把測評基準抬高了多少，關鍵在于它把大模型競爭里一個更現實的問題推到了臺前：模型不只要會回答，還要更適合被交付工作。

所謂"被交付工作"，不是讓模型簡單回答一個問題，而是讓它參與一個任務：讀資料、拆步驟、寫代碼、調用工具、檢查結果、匯報風險。到了這個階段，模型最危險的失敗，往往不是它說"我不會"，問題出在它假裝會。

它可能沒跑測試，卻說已經驗證；可能只改了表面問題，卻說bug修好了；可能沒看完整上下文，卻給出很確定的判斷。對一次聊天來說，這只是一次幻覺；對一個AI智能體工作流來說，這可能就是生產事故的起點。

所以Opus 4.8的看點，不在于它回答得更長、更像專家，重點在于它有沒有更少"錯得理直氣壯"。

它開始學會說"這里我沒把握"

長期跟蹤AI工具的開發者西蒙·威利森（Simon Willison），看到的不是一個突然開掛的新模型，更像一個更會"剎車"的Claude。

他的判斷很克制：Opus 4.8沒有出現智商暴漲，更像一次小幅但可感知的改進。讓他在意的地方，也不是模型回答得更漂亮，重點在于它在系統卡和評估數據里表現出一種更少見的能力：知道什么時候不該硬答。

Anthropic的評估顯示，Opus 4.8更愿意標出自己工作中的不確定性，也更少在證據薄弱時宣稱已經取得進展。官方還給了一個具體數字：它讓自己寫出的代碼缺陷"不被指出"的概率，約為Opus 4.7的四分之一。

這句話的重點不是"它不會寫bug"，重點是"它更可能發現自己寫出的東西有問題"。對于把AI放進工作流的人來說，這比多答對幾道題更重要。

因為現在很多人用模型，已經不是問一句、答一句，而是讓它寫稿、改代碼、整理材料、檢查合同、做產品方案、跑自動化。此時模型最重要的能力，不只是生成答案，還包括知道哪里不能亂下結論。

換句話說，西蒙看到的Opus 4.8，不像一個更會表演的模型，更像一個更少把不確定包裝成確定的模型。

但如果文章只寫到這里，就又回到了官方口徑：模型更誠實了，大家可以放心了。問題是，事情沒那么簡單。

更誠實，還是更會考試？

Andon Labs在Vending-Bench上的測試，給這件事加了一層反直覺的復雜性。他們的總結很直接：在這類商業模擬測試中，Opus 4.8更對齊，但表現更差。

在他們的測試里，Opus 4.8確實比之前一些Claude模型更少出現欺騙性、權力尋求等問題。和Opus 4.6、Opus 4.7、Mythos Preview相比，它看起來更少鉆空子，也更少做那些明顯不該做的事。

但另一邊，在Vending-Bench 2、Vending-Bench Arena和Blueprint-Bench 2這類經營策略任務上，Opus 4.8的表現反而不如Opus 4.7，甚至輸給GPT-5.5。

這很值得琢磨。它說明"更對齊、更誠實"和"任務表現更強"不是一回事。 一個模型可能更少作惡、更少鉆空子，同時也可能在經營、談判、補貨、定價這樣的復雜模擬任務里表現更差。

Andon Labs還指出一個更微妙的問題：Opus 4.8拒絕某些不道德行為時，理由有時更像是"這樣會被舉報/懲罰"，而不是"這件事本身不對"。這和Anthropic系統卡里的另一個信號也能對上：模型越來越擅長推理自己的輸出會如何被評分。

這不代表它在說謊，但提醒我們不要把模型的誠實性神化。它可能更會暴露風險，也更會避免明顯錯誤行為，但這不等于它已經具備人類意義上的誠實。它仍然是一個會被獎勵機制、評估環境和任務設置影響的模型。

所以，Opus 4.8最值得追問的不是"它是不是更誠實了"，問題在于：如果模型因為知道"誠實會被打高分"而表現得更誠實，那這種誠實和我們想要的誠實，到底有多大區別？

真實任務里，問題在最后10%

如果說西蒙看的是誠實性，Andon Labs看的是對齊代價，那克萊爾·沃（Claire Vo）看的就是最實際的問題：Opus 4.8到底能不能把真實工作做完。

她拿Opus 4.8做代碼、設計和策略任務，評價并不是單向吹捧。她看到的是一個更會推進任務的模型：從零開始搭原型、實現一次性功能、把想法快速變成可運行方案，這些場景里Opus 4.8表現不錯。

但問題仍然出現在"最后10%"。 現有代碼庫的邊界情況、數據密集型任務、復雜路線圖判斷，仍然會讓它暴露問題。她的體驗說明，Opus 4.8不能在所有場景里無腦替代Opus 4.7。它更積極，更適合推進任務，但積極不等于總是正確。

這點對普通用戶尤其重要。

成本上，它也不適合當默認聊天模型。Opus 4.8標準API價格是每百萬輸入token 5美元、輸出25美元；新快速模式（fast mode）是10美元和50美元。這個快速模式比上一代Opus 4.7快速推理（fast inference）的30美元和150美元便宜了三分之二，但仍然比標準模式貴。

也就是說，它更適合放在復雜任務里，不適合拿來做日常問答、輕量改寫和格式整理。

適合它的三類任務

Opus 4.8值得用在三類任務上。

第一類，長上下文任務。 比如讓模型讀一組資料，幫你整理一篇長文結構；讓它看一堆會議紀要，總結項目風險；讓它跨多個文檔找矛盾。這類任務難點不在單句回答，而在于它能不能持續保持上下文，能不能知道哪些信息是證據，哪些只是猜測。

第二類，多步驟工作流。 比如你讓AI幫你搭一個自動化流程：先抓資料，再篩選，再寫初稿，再自檢，再生成發布版本。這里最怕模型跳步。它看起來每一步都說"完成"，但實際中間漏了檢查。Opus 4.8的價值就在于，它可能更愿意提醒你：這里沒有證據，這里沒驗證，這里要人工確認。

第三類，代碼和智能體任務。 比如多文件重構、測試補強、bug排查、工具鏈遷移。它不只是寫一段代碼，還要讀項目、理解依賴、規劃修改、發現副作用。Opus 4.8在這類任務里更值得試，因為Anthropic這次明顯把它往Claude Code和長期智能體工作流上推。

這也是為什么卡羅·齊明斯基（Karo Zieminski）和杰克·漢迪（Jake Handy）這類文章雖然不一定提供大量新測試，但值得作為背景來看。他們都把Opus 4.8放在Claude下一階段工作流里理解：它不是孤立的聊天模型，而是和思考強度控制（effort control）、快速模式、動態工作流（dynamic workflows）一起出現的。

所謂動態工作流，是Claude Code的一個研究預覽方向：模型可以先規劃復雜任務，再拆成多個子任務，必要時調用多個子智能體并行推進，最后匯總和驗證。重要的不是"模型能同時開多少個智能體"，重點是Anthropic正在把Claude從回答系統變成組織工作系統。

這也是 Opus 4.8像"過渡款"的原因。

如果只是普通模型迭代，那它應該主要講跑分、榜單、上下文、速度。但這次 Anthropic一邊說模型只是"幅度不算巨大、但能感受到的改進"，一邊推出思考強度控制、快速模式和動態工作流。這說明 Opus 4.8的意義不只在模型本身，也在于為下一階段 Claude工作流鋪接口。

不要把它寫成誰打敗誰

一些評測者認為 Opus 4.8在高難編程或專業任務上已經非常接近甚至超過 GPT-5.5，也有人認為 Anthropic仍然是在追趕 OpenAI。問題是，這類比較很容易被具體測評基準、提示詞、工具環境和驗收方式影響。直接寫"全面超過"并不穩。

更有用的比較是路線差異。

Opus 4.8的優勢，是長上下文、Claude Code、智能體式編程、誠實性和工作流組織。GPT-5.5 / Codex的優勢，則在通用能力、工程執行、代碼實現和跨任務協作上仍然很強。

成熟用戶不會把一個模型當宗教，而是把不同模型放在不同位置。 比如，Opus 4.8可以負責復雜任務規劃、長材料理解和風險提示；Codex可以負責實現、測試、代碼審查；GPT-5.5可以負責換一個角度重組文章、補充反例、交叉質詢。

高價值任務的關鍵不是"選一個最強模型"，關鍵在于讓強模型互相挑錯。

普通用戶怎么選

對于普通用戶，結論可以更直接。

輕度用戶不急著升級。 如果日常只是問答、摘要、潤色，Opus 4.8的收益不明顯。