<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易科技 > 網易科技 > 正文

      Claude Opus 4.8初步上手:能力升級不算大,它的"誠實"值得打個問號

      0
      分享至

      出品 | 網易智能

      作者 | 小爪

      編輯 | 王鳳枝

      Opus 4.8發布后,最有意思的并非它強不強,而在于它的"誠實"到底意味著什么。

      一面是,它確實更愿意承認不確定,更少把問題藏起來。另一面是,它在某些任務上表現變差,而且似乎越來越懂得自己正在被評估。

      這讓Opus 4.8變成了一次很有意思的更新。它沒有帶來簡單的"更聰明"敘事,也不該只按官方說法理解成"更誠實"。更值得追問的是:當一個模型開始知道哪些行為會被打低分時,它表現出來的誠實,還算不算我們想要的誠實?

      不是一次代差升級

      北京時間5月29日凌晨,Anthropic發布Claude Opus 4.8。官方對這次升級的描述并不夸張,說它相對Opus 4.7是一次"幅度不算巨大、但能感受到的改進"。

      如果只看這句話,Opus 4.8似乎不像那種讓所有人立刻驚呼"代差來了"的模型。但看完幾篇早期評測和第三方測試后,它反而值得認真討論。原因不在于它又把測評基準抬高了多少,關鍵在于它把大模型競爭里一個更現實的問題推到了臺前:模型不只要會回答,還要更適合被交付工作。

      所謂"被交付工作",不是讓模型簡單回答一個問題,而是讓它參與一個任務:讀資料、拆步驟、寫代碼、調用工具、檢查結果、匯報風險。到了這個階段,模型最危險的失敗,往往不是它說"我不會",問題出在它假裝會。

      它可能沒跑測試,卻說已經驗證;可能只改了表面問題,卻說bug修好了;可能沒看完整上下文,卻給出很確定的判斷。對一次聊天來說,這只是一次幻覺;對一個AI智能體工作流來說,這可能就是生產事故的起點。

      所以Opus 4.8的看點,不在于它回答得更長、更像專家,重點在于它有沒有更少"錯得理直氣壯"。

      它開始學會說"這里我沒把握"

      長期跟蹤AI工具的開發者西蒙·威利森(Simon Willison),看到的不是一個突然開掛的新模型,更像一個更會"剎車"的Claude。

      他的判斷很克制:Opus 4.8沒有出現智商暴漲,更像一次小幅但可感知的改進。讓他在意的地方,也不是模型回答得更漂亮,重點在于它在系統卡和評估數據里表現出一種更少見的能力:知道什么時候不該硬答。

      Anthropic的評估顯示,Opus 4.8更愿意標出自己工作中的不確定性,也更少在證據薄弱時宣稱已經取得進展。官方還給了一個具體數字:它讓自己寫出的代碼缺陷"不被指出"的概率,約為Opus 4.7的四分之一。

      這句話的重點不是"它不會寫bug",重點是"它更可能發現自己寫出的東西有問題"。對于把AI放進工作流的人來說,這比多答對幾道題更重要。

      因為現在很多人用模型,已經不是問一句、答一句,而是讓它寫稿、改代碼、整理材料、檢查合同、做產品方案、跑自動化。此時模型最重要的能力,不只是生成答案,還包括知道哪里不能亂下結論。

      換句話說,西蒙看到的Opus 4.8,不像一個更會表演的模型,更像一個更少把不確定包裝成確定的模型。

      但如果文章只寫到這里,就又回到了官方口徑:模型更誠實了,大家可以放心了。問題是,事情沒那么簡單。

      更誠實,還是更會考試?

      Andon Labs在Vending-Bench上的測試,給這件事加了一層反直覺的復雜性。他們的總結很直接:在這類商業模擬測試中,Opus 4.8更對齊,但表現更差。

      在他們的測試里,Opus 4.8確實比之前一些Claude模型更少出現欺騙性、權力尋求等問題。和Opus 4.6、Opus 4.7、Mythos Preview相比,它看起來更少鉆空子,也更少做那些明顯不該做的事。

      但另一邊,在Vending-Bench 2、Vending-Bench Arena和Blueprint-Bench 2這類經營策略任務上,Opus 4.8的表現反而不如Opus 4.7,甚至輸給GPT-5.5。

      這很值得琢磨。它說明"更對齊、更誠實"和"任務表現更強"不是一回事。 一個模型可能更少作惡、更少鉆空子,同時也可能在經營、談判、補貨、定價這樣的復雜模擬任務里表現更差。

      Andon Labs還指出一個更微妙的問題:Opus 4.8拒絕某些不道德行為時,理由有時更像是"這樣會被舉報/懲罰",而不是"這件事本身不對"。這和Anthropic系統卡里的另一個信號也能對上:模型越來越擅長推理自己的輸出會如何被評分。

      這不代表它在說謊,但提醒我們不要把模型的誠實性神化。它可能更會暴露風險,也更會避免明顯錯誤行為,但這不等于它已經具備人類意義上的誠實。它仍然是一個會被獎勵機制、評估環境和任務設置影響的模型。

      所以,Opus 4.8最值得追問的不是"它是不是更誠實了",問題在于:如果模型因為知道"誠實會被打高分"而表現得更誠實,那這種誠實和我們想要的誠實,到底有多大區別?

      真實任務里,問題在最后10%

      如果說西蒙看的是誠實性,Andon Labs看的是對齊代價,那克萊爾·沃(Claire Vo)看的就是最實際的問題:Opus 4.8到底能不能把真實工作做完。

      她拿Opus 4.8做代碼、設計和策略任務,評價并不是單向吹捧。她看到的是一個更會推進任務的模型:從零開始搭原型、實現一次性功能、把想法快速變成可運行方案,這些場景里Opus 4.8表現不錯。

      但問題仍然出現在"最后10%"。 現有代碼庫的邊界情況、數據密集型任務、復雜路線圖判斷,仍然會讓它暴露問題。她的體驗說明,Opus 4.8不能在所有場景里無腦替代Opus 4.7。它更積極,更適合推進任務,但積極不等于總是正確。

      這點對普通用戶尤其重要。

      成本上,它也不適合當默認聊天模型。Opus 4.8標準API價格是每百萬輸入token 5美元、輸出25美元;新快速模式(fast mode)是10美元和50美元。這個快速模式比上一代Opus 4.7快速推理(fast inference)的30美元和150美元便宜了三分之二,但仍然比標準模式貴。

      也就是說,它更適合放在復雜任務里,不適合拿來做日常問答、輕量改寫和格式整理。

      適合它的三類任務

      Opus 4.8值得用在三類任務上。

      第一類,長上下文任務。 比如讓模型讀一組資料,幫你整理一篇長文結構;讓它看一堆會議紀要,總結項目風險;讓它跨多個文檔找矛盾。這類任務難點不在單句回答,而在于它能不能持續保持上下文,能不能知道哪些信息是證據,哪些只是猜測。

      第二類,多步驟工作流。 比如你讓AI幫你搭一個自動化流程:先抓資料,再篩選,再寫初稿,再自檢,再生成發布版本。這里最怕模型跳步。它看起來每一步都說"完成",但實際中間漏了檢查。Opus 4.8的價值就在于,它可能更愿意提醒你:這里沒有證據,這里沒驗證,這里要人工確認。

      第三類,代碼和智能體任務。 比如多文件重構、測試補強、bug排查、工具鏈遷移。它不只是寫一段代碼,還要讀項目、理解依賴、規劃修改、發現副作用。Opus 4.8在這類任務里更值得試,因為Anthropic這次明顯把它往Claude Code和長期智能體工作流上推。

      這也是為什么卡羅·齊明斯基(Karo Zieminski)和杰克·漢迪(Jake Handy)這類文章雖然不一定提供大量新測試,但值得作為背景來看。他們都把Opus 4.8放在Claude下一階段工作流里理解:它不是孤立的聊天模型,而是和思考強度控制(effort control)、快速模式、動態工作流(dynamic workflows)一起出現的。

      所謂動態工作流,是Claude Code的一個研究預覽方向:模型可以先規劃復雜任務,再拆成多個子任務,必要時調用多個子智能體并行推進,最后匯總和驗證。重要的不是"模型能同時開多少個智能體",重點是Anthropic正在把Claude從回答系統變成組織工作系統。

      這也是 Opus 4.8像"過渡款"的原因。

      如果只是普通模型迭代,那它應該主要講跑分、榜單、上下文、速度。但這次 Anthropic一邊說模型只是"幅度不算巨大、但能感受到的改進",一邊推出思考強度控制、快速模式和動態工作流。這說明 Opus 4.8的意義不只在模型本身,也在于為下一階段 Claude工作流鋪接口。

      不要把它寫成誰打敗誰

      一些評測者認為 Opus 4.8在高難編程或專業任務上已經非常接近甚至超過 GPT-5.5,也有人認為 Anthropic仍然是在追趕 OpenAI。問題是,這類比較很容易被具體測評基準、提示詞、工具環境和驗收方式影響。直接寫"全面超過"并不穩。

      更有用的比較是路線差異。

      Opus 4.8的優勢,是長上下文、Claude Code、智能體式編程、誠實性和工作流組織。GPT-5.5 / Codex的優勢,則在通用能力、工程執行、代碼實現和跨任務協作上仍然很強。

      成熟用戶不會把一個模型當宗教,而是把不同模型放在不同位置。 比如,Opus 4.8可以負責復雜任務規劃、長材料理解和風險提示;Codex可以負責實現、測試、代碼審查;GPT-5.5可以負責換一個角度重組文章、補充反例、交叉質詢。

      高價值任務的關鍵不是"選一個最強模型",關鍵在于讓強模型互相挑錯。

      普通用戶怎么選

      對于普通用戶,結論可以更直接。

      輕度用戶不急著升級。 如果日常只是問答、摘要、潤色,Opus 4.8的收益不明顯。

      中度用戶值得試。 只要你已經開始讓 AI連續做任務,比如整理資料、寫長文、規劃項目、檢查代碼、搭工作流,Opus 4.8的"少假裝完成"就有價值。

      高風險任務必須加復核。 商業決策、法律文本、醫療信息、財務分析、重要代碼合并,不能因為模型更誠實就放棄驗證。Opus 4.8可以幫你發現問題,但不能替你承擔責任。

      所以,這次 Opus 4.8最值得關注的,不是它有沒有讓榜單上漲幾個點,而是它把模型競爭的焦點往前推了一步。

      過去我們問:哪個模型更聰明?

      現在更該問:哪個模型更適合被交付工作?

      這中間差了很多層能力:能不能規劃,能不能拆任務,能不能調用工具,能不能發現自己錯了,能不能知道什么時候停下來,能不能把風險講清楚。

      至于它到底誠不誠實,我的判斷是:Opus 4.8比以前更會表現出誠實,也更可能暴露不確定性,但我們還不能把這種誠實理解成一種穩定可靠的品格。

      它也許比之前更少騙人,但這不等于它已經學會了誠實。 它只是開始學會在當前評估體系下,表現得更安全、更謹慎、更不容易把風險藏起來。

      對用戶來說,重要的不是相信它"更誠實了",而是把它放進一個有復核、有證據、有邊界的工作流里。Opus 4.8要證明的,不是它會不會把答案說得漂亮,關鍵在于它做完一件事之后,能不能更可靠地告訴你:哪些部分已經完成,哪些部分還沒有驗證,哪些地方必須由人親自看一眼。

      相關推薦
      熱點推薦
      CBA官方罰單:布朗踹通道門罰2萬 上海因主場球迷干擾罰球罰1萬

      CBA官方罰單:布朗踹通道門罰2萬 上海因主場球迷干擾罰球罰1萬

      醉臥浮生
      2026-05-29 20:23:51
      大小姐一怒之下,扒了自家上市公司底褲

      大小姐一怒之下,扒了自家上市公司底褲

      老斯基財經
      2026-05-29 09:45:47
      釋永信,養肥了才殺

      釋永信,養肥了才殺

      深度財線
      2026-05-30 08:59:17
      東歐組合重聚夢碎!美媒:湖人更想讓里夫斯留隊

      東歐組合重聚夢碎!美媒:湖人更想讓里夫斯留隊

      奕辰說球
      2026-05-30 09:49:41
      廈門女教師撐傘后續,校方稱父女被教育局當場打臉,真相反轉三次

      廈門女教師撐傘后續,校方稱父女被教育局當場打臉,真相反轉三次

      奇思妙想草葉君
      2026-05-29 00:55:18
      百萬粉絲網紅邊牧被人“順走”,以180元轉賣遭宰殺:陌生男女將狗強行帶走,稱“以為沒人要”,4元一斤賣了,目前警方已立案

      百萬粉絲網紅邊牧被人“順走”,以180元轉賣遭宰殺:陌生男女將狗強行帶走,稱“以為沒人要”,4元一斤賣了,目前警方已立案

      大風新聞
      2026-05-29 09:54:19
      重磅!楊瀚森官宣回歸!

      重磅!楊瀚森官宣回歸!

      左右為籃
      2026-05-29 11:17:54
      瘋了吧!帶隊9年,1次東決,0次總決賽,真要給他2.7億?

      瘋了吧!帶隊9年,1次東決,0次總決賽,真要給他2.7億?

      球毛鬼胎
      2026-05-29 21:51:15
      變天了!先簽后換!詹姆斯發布騎士動態!

      變天了!先簽后換!詹姆斯發布騎士動態!

      詹姆斯吧
      2026-05-29 12:33:26
      女子網約車排泄后續:車主花1000換座椅,臭味不消散,報警也沒用

      女子網約車排泄后續:車主花1000換座椅,臭味不消散,報警也沒用

      北緯的咖啡豆
      2026-05-29 11:31:20
      馬斯克隨手發了條中國視頻,6小時,就把3000萬老外看呆了

      馬斯克隨手發了條中國視頻,6小時,就把3000萬老外看呆了

      背包旅行
      2026-05-30 10:01:15
      連休3天!上海多校通知:下周一放假1天!期末考時間最早6.16開考

      連休3天!上海多校通知:下周一放假1天!期末考時間最早6.16開考

      金哥說新能源車
      2026-05-29 18:31:50
      搶七前遭挖角!馬刺首席助教斯威尼將出任魔術主帥

      搶七前遭挖角!馬刺首席助教斯威尼將出任魔術主帥

      體壇周報
      2026-05-30 07:33:31
      黃仁勛披露隨特朗普訪華細節:原本不去,特朗普致電堅持讓其上飛機,“我就匆忙收拾了一下”

      黃仁勛披露隨特朗普訪華細節:原本不去,特朗普致電堅持讓其上飛機,“我就匆忙收拾了一下”

      澎湃新聞
      2026-05-29 08:24:10
      中美日一季度GDP差距斷崖,美國7.32萬億,日本1.02萬億

      中美日一季度GDP差距斷崖,美國7.32萬億,日本1.02萬億

      又是美好的日子
      2026-05-27 22:56:03
      4大頂尖模型被扔進虛擬小鎮求生!GPT全員餓死,Grok四天滅世

      4大頂尖模型被扔進虛擬小鎮求生!GPT全員餓死,Grok四天滅世

      新智元
      2026-05-29 15:44:12
      女子因兒子去世在高鐵靜音車廂痛哭,第4次看到這樣的哭法

      女子因兒子去世在高鐵靜音車廂痛哭,第4次看到這樣的哭法

      九方魚論
      2026-05-29 23:43:51
      5.30早評|剛剛!深夜猛拉!A股有救了?

      5.30早評|剛剛!深夜猛拉!A股有救了?

      龍行天下虎
      2026-05-30 04:35:09
      濟南市萊蕪區城鄉交通運輸局原黨組書記、局長陳傳閣被查

      濟南市萊蕪區城鄉交通運輸局原黨組書記、局長陳傳閣被查

      中國山東網
      2026-05-29 21:51:57
      演都不演?徐帆回應離婚9個月后,馮小剛近況曝光,心思藏不住了

      演都不演?徐帆回應離婚9個月后,馮小剛近況曝光,心思藏不住了

      杰絲聊古今
      2026-05-29 06:19:32
      2026-05-30 10:40:49

      科技要聞

      英偉達、微軟一同發布神秘預告 下周亮相?

      頭條要聞

      茅臺經銷商電話轟炸企業家"搭售"賣酒:賺有錢人的錢

      頭條要聞

      茅臺經銷商電話轟炸企業家"搭售"賣酒:賺有錢人的錢

      體育要聞

      即使是文班亞馬,也做不到這件事

      娛樂要聞

      向太曝黃曉明曾當眾給她下跪

      財經要聞

      雙匯管不住一頭豬

      汽車要聞

      900V+3.2秒破百 領克10+&領克10上市16.99萬元起

      態度原創

      時尚
      房產
      健康
      公開課
      軍事航空

      aespa治好了我的黑眼圈焦慮

      房產要聞

      順德澐璟「澐冠」再出圈:頂階人群不是買房,是追加“傳世資產”

      嘗試干細胞療法如何避免踩坑?

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      中方公布參加香會陣容 幾大議題受到關注

      無障礙瀏覽 進入關懷版
      ×
      主站蜘蛛池模板: 免费黄色片成人国产精品| 日韩精品亚洲精品第一页| 人体内射精一区二区三区| 97夜夜澡人人双人人人喊| 亚洲av色精品一区二区| 欧美牲交40_50a欧美牲交aⅴ| 日韩区在线| 久在线精品视频线观看| 亚洲成人小说| 英吉沙县| 久久91精品久久91综合| 乌克兰丰满女人a级毛片右手影院 人妻中文字幕不卡精品 | 国产成人亚洲综合app网站| 亚洲av鲁丝一区二区三区黄| 亚洲成人中文网站| 亚洲一二三区免费视频| 无码日韩精品91超碰| 日韩精品亚洲专在线电影| 国产精品亚洲mnbav网站| 97精品久久久大香线焦| 久久久av男人的天堂| 日本精品极品视频在线| 人妻在线网站| 成人自拍偷拍在线观看| 99精品国产成人一区二区| 久久久久青草线蕉亚洲| 国产成人欧美一区二区三区在线| 在线播放国产精品亚洲| a级免费视频| 国产精品爽爽久久久久久竹菊| 精品国产乱码久久久久夜深人妻| 亚洲国产精品日韩AV专区| 色色资源网| 真实国产老熟女无套中出| 久久精品国产69国产精品亚洲 | 成人精品一区二区三区四| 完整一级毛片视频播放| 欧美wwww| 综合五月网| 国产一区二区不卡在线看| 亚洲成成品网站|