<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Claude變蠢了,新模型發布前的黑暗時刻?

      0
      分享至



      Claude Opus變蠢了。

      最近一段時間,越來越多用戶開始有一種很難講的感覺:雖然這個模型沒有明顯出錯,但也不再像以前那樣“聰明”。

      回答更快了,推理更短了,有時候看起來像是跳過了某些本該認真完成的步驟,變得敷衍了。

      如果這種情況只是個例,用戶可能還會懷疑是不是自己的問題,但當相似的聲音越來越多,這就不再是單純的“感覺不對”了。

      網上甚至開始出現一些視頻,調侃現在的Opus就像兇猛的獅子被摘了毛圈,發現原來只是一條狗。

      一個更直接的說法開始流傳:Opus被削了!

      這是真的嗎?如果是真的,它為什么會被削呢?



      01

      推理深度下降67%

      一開始只是零星的用戶在吐槽,說 Claude Opus“變懶了”“沒以前聰明了”。

      可能只是偶爾犯了一些過去不會犯的低級錯誤,或者在復雜任務里少做了幾步推理。

      某種意義上,和模型的協同很像是和真人的交往,一直以來配合得很好的“同事”某天忽然變臉了,擱誰誰都得難受。

      碰到這種情況,大多數人的第一反應都是懷疑自己:是不是prompt寫得不夠好?還是任務本來就不適合?這種情況應該只是偶然事件吧?

      但很快,在Reddit的Claude社區里,類似的反饋開始密集出現,而且描述高度一致:

      有人說它不再仔細讀代碼;有人說它更快給答案,但經常漏掉關鍵步驟;也有人發現,它在長任務中更容易“提前結束”,像是默認事情已經完成。



      當不同用戶在不同場景下開始重復同一類問題時,這件事似乎不再是所謂的“感覺不對”,更像是一種行為模式的變化。

      換句話說,不是感覺錯了,是模型真的在變。

      真正讓討論升級的是這個數字:有人在Claude Code的使用過程中,對歷史交互日志進行對比,發現模型在復雜任務中的推理過程明顯縮短,自2月更新以來,推理深度下降了67%。



      (參考鏈接:
      https://github.com/anthropics/claude-code/issues/42796)

      作者坦率地說明,67%是基于簽名長度與思考內容長度的相關估計,而不是直接測量。還提到一月份的日志被刪除了,所以基線對比不太準確。

      相比之下,報告里更有說服力的,其實是那些行為層面的變化。比如read:edit(讀取代碼vs修改代碼)的比例,從6.6下降到了2.0;3月8日之后,被stop hook捕捉到的違規行為有173次,而之前是0。



      不過數字是否精確并沒有那么重要,重要的是它讓一件原本模糊的體感問題,第一次被量化成一個可以討論的趨勢。

      于是,一個新詞在社區里開始流行:“AI shrinkflation”(AI縮水式通脹)

      縮水式通脹是一個經濟學術語,指的是商品的大小或數量減少,而價格不變。放在這里的意思也很直接,模型實際給到用戶的能力變少了,但模型看起來還是同一個名字。

      02

      敷衍的背后

      相比社區的激烈反應,Anthropic并沒有直接承認“模型變弱”。

      Claude Code的開發負責人Boris給出的解釋是,這些變化來自系統層的調整:包括工具調用方式、推理策略以及資源分配機制的變化,而不一定是模型本身能力的下降。

      他舉了個例子:在Claude Code中,一部分問題被認為源于工具鏈和系統prompt,而不是模型本身;與此同時,在高負載情況下,系統需要對算力、token和請求進行控制,這也會影響用戶體驗。

      在最新版本中,Anthropic引入了一種叫“自適應推理”(adaptive thinking)的機制,模型會根據任務復雜度,動態決定是否以及使用多少推理。

      也就是說,并不是模型變差了,只是模型開始“自己決定”要使用多少算力。



      (參考鏈接:
      https://news.ycombinator.com/item?id=47660925)

      從工程角度看,這是一種很合理的優化,簡單任務少思考,復雜任務多思考,以提升整體效率

      但問題在于,效率優化和能力削弱,在用戶體驗上并沒有區別。

      當一個模型開始更少閱讀上下文、更快給出答案、更頻繁地提前結束任務,用戶感受到的不會是優化,而是敷衍。

      而且這個自適應推理機制,從感性的角度來講,也確實會讓人不太舒服。

      還是拿人際交往的那個比喻:憑什么一開始好好的,用到后面就覺得我的事情不重要了?

      這種不適感很快被另一個變化放大了:Mythos還未發布就廣受關注,Claude Mythos Preview直接被Anthropic稱為“能力躍遷的一代”,在代碼與安全任務上表現出遠超以往的能力。因此它被限制性地提供給少數機構使用,用來加固“全球最關鍵的軟件系統”。

      當“更強的新模型”與“體感變差的舊模型”同時出現,一個在社區中不斷被提起的猜測開始成型:把舊模型削了再抬新模型,一捧一踩,就會顯得新模型有著巨大的升級。

      這個邏輯沒有直接證據,但它正在被越來越多用戶相信。



      03

      模型不再穩定

      實際上,類似的事情對AI來說并不陌生。

      早在2023年就有研究對比了GPT-4在不同時間的表現,發現同一個模型在幾個月內,推理方式和輸出行為都發生了明顯變化。這些變化后來被解釋為多種因素疊加的結果:包括推理策略調整、安全策略收緊,以及對成本和響應速度的優化。



      把陰謀論拋在一邊,如果確實存在一定程度的資源傾斜,在AI行業其實算是常態:無論是OpenAI還是Google,幾乎所有公司都會優先優化最新一代模型,舊模型則逐漸被邊緣化。

      算力是成本,也是生產力。當新模型的能力上限更高、潛在價值更大時,把更多資源投入進去,本身是一種理性的選擇。

      在這個過程中,舊模型的狀態自然會發生變化:被“降權”、推理深度被壓縮、資源分配被重新調整……這些都可以理解為一種工程上的取舍。

      不過理解歸理解,新模型不開放給大眾使用,舊模型又在毫無征兆的情況下弄成這樣,誰能輕易接受?



      從用戶的視角來看,最讓人不滿的并不是模型的“變蠢”,而是它的“不穩定”。

      當模型本身從一個穩定的工具變成一個會不斷變化的系統,它自己做出了“更好的調整”,沒有提示,沒有版本說明,也沒有邊界。

      作為用戶,你不知道它什么時候變了,不知道它具體變了什么,更不知道這種變化會不會影響你正在做的事情。

      你只能感受到它變了,變得沒以前好用了。

      這個時候,有一個新模型放在你的面前,看起來比現在這個更穩定、更可靠,或許用起來會更順手。

      于是選擇就變得微妙起來:似乎不再是你主動選擇新模型,而是舊模型的變化把你推向更新的那一個。

      即使你知道,新模型也可能在某一天變成下一個舊模型,可能還是會猝不及防地“優化”成讓人難受的版本。

      但在那一刻,差距已經擺在眼前。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      獨“造”三球!國安外援拉莫斯單場送點+送禮+手球致進球無效

      獨“造”三球!國安外援拉莫斯單場送點+送禮+手球致進球無效

      懂球帝
      2026-05-10 21:53:09
      放棄40萬鎊周薪!28歲神鋒無球可踢,一年身價狂跌5000萬歐

      放棄40萬鎊周薪!28歲神鋒無球可踢,一年身價狂跌5000萬歐

      姜來不加鹽
      2026-05-10 13:39:48
      央視三胎宣傳片惹爭議,脫離現實強行把孕婦塑造成超人式幸福?

      央視三胎宣傳片惹爭議,脫離現實強行把孕婦塑造成超人式幸福?

      今朝牛馬
      2026-05-07 20:36:33
      上千噸香蕉爛在手里,菲律賓:中國斷了自己活路,人民日報一句定調

      上千噸香蕉爛在手里,菲律賓:中國斷了自己活路,人民日報一句定調

      南宗歷史
      2026-05-06 20:41:47
      禁欲真的好嗎?研究表明:禁欲時間越長,排出的精子活動率越低!

      禁欲真的好嗎?研究表明:禁欲時間越長,排出的精子活動率越低!

      黯泉
      2026-05-04 14:05:52
      肺好不好,看手就知道?若手上沒有3個表現,說明肺部比較健康

      肺好不好,看手就知道?若手上沒有3個表現,說明肺部比較健康

      芹姐說生活
      2026-05-06 14:02:29
      騙了我們600年!鄭和下西洋的真實目的,根本不是找建文帝

      騙了我們600年!鄭和下西洋的真實目的,根本不是找建文帝

      老達子
      2026-05-10 06:25:03
      熟客不再光顧都是因為啥?網友:這老板掉錢眼里了

      熟客不再光顧都是因為啥?網友:這老板掉錢眼里了

      解讀熱點事件
      2026-05-05 00:05:15
      烏克蘭收復克里米亞在望,普京面臨歷史性挑戰。

      烏克蘭收復克里米亞在望,普京面臨歷史性挑戰。

      世界探索發現
      2026-05-06 18:27:11
      吳石犧牲后,主席很后悔:最大錯誤就是沒集中兩個野戰軍攻打臺灣

      吳石犧牲后,主席很后悔:最大錯誤就是沒集中兩個野戰軍攻打臺灣

      興趣知識
      2026-05-05 16:02:25
      央視拒付天價轉播費僅1天!令人擔憂的事發生,中國球迷"一邊倒"

      央視拒付天價轉播費僅1天!令人擔憂的事發生,中國球迷"一邊倒"

      探源歷史
      2026-05-10 05:14:44
      杜新枝母親節收到鮮花,笑得合不攏嘴,網友留言:兩個兒媳都愛你

      杜新枝母親節收到鮮花,笑得合不攏嘴,網友留言:兩個兒媳都愛你

      漢史趣聞
      2026-05-10 19:44:17
      北大學神吳謝宇弒母真相:與他的口述不符,與舅舅透露的細節有關

      北大學神吳謝宇弒母真相:與他的口述不符,與舅舅透露的細節有關

      微野談寫作
      2026-05-02 15:50:08
      央視與國際足聯談崩,越南1500萬購中國8000萬嫌貴

      央視與國際足聯談崩,越南1500萬購中國8000萬嫌貴

      二大爺觀世界
      2026-05-10 14:59:35
      樓市預期急轉,房東開始著急了

      樓市預期急轉,房東開始著急了

      重遠投資觀
      2026-05-10 17:32:30
      重磅:烏克蘭在俄羅斯領土庫爾斯克構建90平方公里緩沖區!

      重磅:烏克蘭在俄羅斯領土庫爾斯克構建90平方公里緩沖區!

      項鵬飛
      2026-05-09 20:32:37
      英國博主大力嘲笑印度人:就印度,還超級大國?你和中國比比!

      英國博主大力嘲笑印度人:就印度,還超級大國?你和中國比比!

      深析古今
      2026-05-10 11:24:28
      2026禁賭整治鋪開!棋牌室家庭麻將合法邊界

      2026禁賭整治鋪開!棋牌室家庭麻將合法邊界

      小鹿姐姐情感說
      2026-05-10 10:01:38
      60年代,馮鞏在幼兒園的照片,人家這長相,小時候都不怕丟

      60年代,馮鞏在幼兒園的照片,人家這長相,小時候都不怕丟

      喜文多見01
      2026-05-10 07:00:29
      寶媽就兒子割包皮跟寶爸吵了八百回,網友說:割了能更持久?

      寶媽就兒子割包皮跟寶爸吵了八百回,網友說:割了能更持久?

      燈錦年
      2026-05-10 19:22:52
      2026-05-10 22:23:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2449文章數 8063關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      談判陷僵局 世界杯轉播費報價大幅降低央視仍不接招

      頭條要聞

      談判陷僵局 世界杯轉播費報價大幅降低央視仍不接招

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      趙露思老實人豁出去了 沒舞蹈天賦硬跳

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      藝術
      健康
      手機
      數碼
      公開課

      藝術要聞

      震撼!Rico Reinhold帶你領略歐美復古藝術寫真!

      干細胞能讓人“返老還童”嗎

      手機要聞

      iQOO 15T手機現身中國電信終端產品庫,預計本月上市

      數碼要聞

      RTX 5090又燒接口了!三家媒體接連中招:評測機冒煙、線纜粘在顯卡上

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲日韩精品无码一区二区三区| 久久香蕉国产线看观看式| 日日噜噜夜夜狠狠久久无码区| 亚洲AV无码国产永久播放蜜芽| 国产精品爱久久久久久久| 熟女系列丰满熟妇AV| 无码中文幕熟AⅤ一区二区| 亚洲AV无码一区二区一二区| 国产亚洲精品成人av久| 国产成人精品日本亚洲77上位| 国产性生大片免费观看性欧美| 成人亚洲一区二区三区在线| 谁有老熟女网站| 精品国产系列| 免费性爱视频| 在线精品国精品国产尤物| 北条麻妃精品一区二区三区| 一区二区三区不卡国产| 一区二区三区av| 无码天堂成人| 99精品视频免费观看| 综合色天天久久| 亚洲丁香五月| 国产99视频精品免费视频36 | 国产精品亚洲片夜色在线| 国产熟睡乱子伦视频在线播放 | 欧美久久久| 国产SM重味一区二区三区| 久热在线免费观看视频| 日韩aV无码午夜| 国产福利小视频在线播放观看| 日本高清在线观看WWW色| 洋洋AV| 金沙县| 日产久久久| 亚洲综合精品中文字幕| 国产午夜无码视频免费网站| 狠狠干狠狠干| AV不卡国产在线观看| 亚洲国产精品久久久天堂麻豆宅男 | 无码国产精品一区二区免费3p|