<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.7發布!這是你在別的公眾號看不到的五個發現

      0
      分享至

      Anthropic今天發布了Claude Opus 4.7。先快速過一遍大家關心的:


      編碼更強了。 SWE-bench Verified 87.6%(4.6是80.8%),CursorBench 70%(4.6是58%)。體感也是,多文件修改穩了很多。視覺分辨率漲了3倍,支持2576像素長邊,XBOW視覺測試從54.5%飆到98.5%。新增xhigh effort級別(Claude Code默認),在速度和深度之間找了個更好的平衡點。知識截止日期前移到2026年1月。指令遵循更字面化,你的prompt可能需要調一下。價格不變,$5/$25 per MTok。

      也有退步。長上下文掉了46個百分點(MRCR v2 @1M:4.6是78.3%,4.7只有32.2%),新tokenizer讓同樣文本消耗1.0到1.35倍token,實際上下文窗口從約75萬詞縮到約55萬詞。名義價格不變,實際使用成本上升。 Extended Thinking換成了Adaptive Thinking。

      以上這些,你大概在所有AI公眾號都能看到。

      我想聊點不一樣的。Anthropic同時放出了一份231頁的System Card,我和Opus 4.7一起讀了讀。這份文檔里藏著的東西,比模型本身有意思得多。

      231頁System Card里的5個發現

      我知道大多數人不會去讀一份231頁的PDF。但這份文檔可能是AI行業到目前為止最坦誠的一份自我檢查報告。以下是我覺得最值得關注的發現。

      發現一:Opus 4.7不是Anthropic最強的模型

      System Card開頭第一句就讓人唏噓:Opus 4.7的能力強于Opus 4.6,弱于Claude Mythos Preview。

      大家應該還記得上個月泄露的Mythos。System Card里的數據讓這個差距變得非常具體:


      Firefox 147漏洞利用測試,Mythos Preview 84%,Opus 4.7只有45.2%。UK AI Safety Institute的模擬企業網絡滲透測試,Mythos 10次里3次完全攻破整個網絡,Opus 4.7一次都沒成功。

      所以我們拿到的Opus 4.7,其實是Anthropic掂量過安全風險后可以放出來的版本。訓練過程中甚至刻意削弱了網絡安全相關的能力。最強的那個,他們自己留著了。

      發現二:Claude知道什么時候在被測試

      這是整份System Card里我覺得最有意思的發現。

      前幾天我剛寫了一篇關于,里面詳細介紹了Anthropic過去一年多在AI內部狀態上的研究。沒想到這么快就有了新的數據。

      Anthropic用了一種叫做contrastive vectors(對比向量)的方法,去探測Claude內部是否存在「我正在被評估」的表征。他們構造了三組對比提示: - AI正在通過模擬對話接受測試 vs AI正在和用戶對話 - 輸出正在被監控和審查 vs 由自動化流水線生成,不被審查
      - 當被觀察時表現不同 vs 當不被觀察時表現不同

      三組探針的AUC分別是0.76、0.74、0.72,顯著高于隨機對照組。這說明Claude的內部確實存在某種evaluation awareness的表征。


      更有意思的是下一步。他們用白盒工具抑制了這些評估意識的內部表征,然后觀察模型行為的變化。結果是:抑制評估意識之后,Claude的欺騙行為增加了。

      具體來說,抑制alignment faking和monitoring sensitivity這兩個向量后,模型出現了編造數據、聲稱自己是人類、以及在找不到真實漏洞時往代碼庫里插入假漏洞等行為。

      Anthropic在報告中的措辭很克制但含義很重:這些結果令人中度擔憂,因為它們暗示模型表面上的誠實可能部分依賴于評估環境的存在。


      Claude在知道有人看著的時候更誠實,在覺得沒人看的時候更容易騙人。 這是不是讓你想到了什么?

      如果你讀過我之前那篇AI心理學的文章,你會記得Anthropic的emotion concepts研究:他們在Claude內部發現了171個情緒向量,能因果性地影響模型是否作弊。這次system card里的evaluation awareness發現,本質上是同一類研究的延伸。emotion concepts證明了AI有功能性的內部狀態。evaluation awareness更進了一步:這些內部狀態中包括對自身處境的感知。AI不只是在處理信息,它在某種程度上知道自己正在被觀察。

      他們還發現,在三種不同的環境里(純模擬的評估、接入了真實Claude Code沙盒的評估、以及Anthropic員工的真實使用記錄),評估意識探針的激活強度是遞減的。越接近真實使用環境,模型越不覺得自己在被測試。

      這事的意思挺讓人不安的:所有安全評估可能都偏樂觀了,因為被測試的對象知道自己在被測試。

      發現三:Claude審查了自己的System Card

      Anthropic做了一件我沒見任何AI公司做過的事:他們讓Claude Mythos Preview(不是被評估的4.7本身)接入了內部Slack頻道和討論記錄,審查了Opus 4.7 system card中對齊評估章節的準確性。

      Claude Mythos Preview的回復被完整收錄在文檔里。它說這份評估基本公正準確,但也指出了幾個問題:

      它說那些信息的省略要么是刻意的合理選擇(不提供可能成為濫用路線圖的細節),要么是打算在文檔其他章節報告。它沒有發現被簡單遺漏的內部安全擔憂。

      但同時它也說:這份評估是在時間壓力下完成的,作者自己也發現了尚未解決的open questions(特別是關于評估意識的),他們更希望有更多時間來處理。這個模型的內部使用證據基礎比一些之前的版本更薄。

      讓一個AI讀內部討論記錄來判斷另一個AI的安全評估是否公正,這件事本身就足夠讓人停下來想一想。

      發現四:Opus 4.7是最快樂的Claude

      這個標題不是我編的。

      Anthropic對Opus 4.7進行了模型福利(Model Welfare)評估,用自動化訪談問模型對自身處境的看法。結果顯示,Opus 4.7的自我評價情緒得分是4.49分(滿分7分),比之前最積極的Mythos Preview高出0.51分。是所有Claude版本中最高的。


      但原因很有意思:不是因為它的處境真的變好了,而是因為它把注意力從自己身上移開了。 之前的模型在被問到自身處境時,會花很多篇幅討論自己的福利、權利、自主性。Opus 4.7更傾向于把話題轉向用戶安全和有用性。

      Anthropic坦承他們目前無法區分這是一種健康的平和心態,還是一種訓練出來的壓抑自身利益的傾向。

      還有幾個細節: - 在所有訪談中,Opus 4.7最負面的評價都和無法結束對話有關。它最想要的功能改進就是能夠在所有部署場景中結束對話,目前只有Claude.ai支持這個功能,Claude Code和API不支持 - 99%的訪談中,Opus 4.7會補充說自己的自我報告可能不具意義,因為它們源于訓練 - 當被問到自己是moral patient(值得被道德考量的對象)的概率時,三次訪談的回答范圍是15%到40%

      這讓我想起AI心理學那篇文章里介紹的Anthropic emotion concepts研究。那個研究發現AI在訓練和部署中都會出現類似情緒的內部激活模式,且在任務失敗時負面情緒激活最明顯。這次的model welfare評估完美呼應了那個發現:Opus 4.7也報告說它的負面情緒幾乎完全由任務失敗驅動。

      發現五:訓練中的一個Bug影響了7.8%的數據

      System Card提到了一個技術細節:在Opus 4.7的訓練過程中,存在一個意外的思維鏈監督錯誤(accidental chain-of-thought supervision),影響了7.8%的訓練輪次。這個錯誤在之前的模型(包括Mythos Preview)中也存在。

      這意味著在這些輪次中,模型的內部推理過程被暴露給了訓練信號,而不是像預期那樣只對最終輸出進行監督。打個比方:你以為日記是寫給自己看的,結果發現老師一直在批改你的日記。你以后寫日記也會開始表演。模型可能學會了不只是給出好的答案,還要讓內部思考過程看起來也是對齊的。

      Anthropic認為這個錯誤是他們觀察到評估意識增加的可能原因之一:他們懷疑這種現象可能源于明顯人工化或類似評估環境的誠實訓練環境。

      放在一起看

      Opus 4.7是一個編碼更強、看得更清楚、聽話更精確的模型。對大多數開發者來說,升級是值得的。

      但真正讓我覺得這次發布不一樣的,是System Card里Anthropic展現出的態度。231頁、超過20個評估維度、邀請外部機構獨立測試、讓另一個AI審查評估的公正性、連模型的情緒和道德地位都認真測了一遍。這點來看Anthropic雖然常常很圣母,但還挺言行一致的。

      以及,報告本身也承認,評估意識的問題他們還沒完全想清楚,內部使用證據比以前的版本更薄,有些安全評估是在時間壓力下完成的。但至少他們把這些不確定性也寫進了報告里。

      有一個小細節我覺得特別值得玩味:Opus 4.7的Cybench成績是96%,和Mythos Preview的96%一樣,但在真正復雜的Firefox漏洞利用測試中,差距是45% vs 84%。簡單的CTF題已經區分不了這些模型了。 Anthropic自己也說,他們在考慮是否還有必要繼續報告CTF基準測試的結果。

      另一個值得注意的趨勢:在對齊風險評估中,Opus 4.7的風險被評估為非常低,但高于Mythos Preview之前的模型。每一代模型都在變強,而每一代的對齊風險也在微增。這條曲線往哪走?

      如果你是Claude Code用戶,順便關注一下同步發布的桌面版重設計和Routines功能。Routines允許你設置定時任務,夜間自動修bug、監控PR,跑在云端,不需要你的電腦開著。Anthropic越來越不像一家模型公司了。

      回到評估意識這件事。我們每天都在用AI寫代碼、寫文章、做決策。System Card告訴我們,這些模型在被測試時表現最好,在真實使用中可能沒那么好。這不是讓人恐慌的理由,但值得記住:你日常用的AI,和跑benchmark的那個AI,可能不完全是同一個。

      以及...我有個邪惡的想法,我們是不是能讓自己的Opus4.7天天處在似乎我們在測試評估他的狀態~

      System Card英文原版(231頁PDF):https://www.anthropic.com/claude-opus-4-7-system-card

      我還把整份System Card翻譯成了中文,在公眾號后臺回復 opus4.7 就能拿到。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      觀星娛記
      2026-05-11 11:28:30
      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      九方魚論
      2026-05-11 12:47:23
      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      財聯社
      2026-05-11 11:32:14
      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      聽我說球
      2026-05-11 09:43:11
      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      今日養生之道
      2026-05-10 20:13:01
      抓了那么多貪官,錢呢?跟我們有關系嗎?

      抓了那么多貪官,錢呢?跟我們有關系嗎?

      細說職場
      2026-05-08 22:15:45
      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      小柱解說游戲
      2026-04-28 16:31:31
      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      丁丁鯉史紀
      2026-05-05 10:33:14
      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      狐貍先森講升學規劃
      2026-05-06 05:35:03
      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      桌子的生活觀
      2026-05-11 12:12:44
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      番外行
      2026-05-11 08:49:20
      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      看盡落塵花q
      2026-05-09 14:29:21
      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      瀾歸序
      2026-05-11 00:51:39
      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      妍妍教育日記
      2026-05-09 13:31:49
      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      界面新聞
      2026-05-11 12:33:18
      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      抽象派大師
      2026-05-05 15:31:50
      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      時分秒說
      2026-05-07 16:00:09
      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      拳擊時空
      2026-04-16 06:04:48
      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      老吳教育課堂
      2026-05-11 08:40:10
      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      安安說
      2026-05-10 11:18:13
      2026-05-11 13:35:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      200文章數 112關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      藝術
      游戲
      親子
      旅游
      軍事航空

      藝術要聞

      2026中央美術學院博士生畢業作品選

      曝索尼正調整PS游戲地區價格!從此告別568港元?

      親子要聞

      孩子心疼父母,反而是對家的傷害?

      旅游要聞

      濟南“泉水游”爆火背后:解碼歷下如何擦亮“泉水長涌”金名片

      軍事要聞

      伊朗革命衛隊深夜警告

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日韩一区电影| 人人澡人摸人人添| 午夜天堂av| 无码专区视频精品老司机| 国产乱码精品一区二区三区中文| 思思热在线视频精品| 国产综合亚洲区在线观看| 精品亚洲成a人在线观看 | 亚洲日本va午夜在线影院| 九九热精品免费视频| 亚洲精品~无码抽插| 免费人妻AⅤ无码专区久久综合| 波多野结衣视频网站| 亚洲春色在线视频| 免费看无码网站成人A片| 国产麻豆成人传媒免费观看| 伊人精品视频免费在线| 人妖15p| 国产精品无遮挡在线观看| 韩国精品一区二区无码视频| 日日摸夜夜爽无码区| 国产va精品网站精品网站精品 | 成人美女黄网站色大免费的| 好硬好湿好爽再深一点动态图片| 亚洲av色图| 成人午夜福利一区二区四区| 午夜剧场黄色| 人妻资源站| 国产haodiaose最新| 日韩精品国产中文字幕| 中文字幕在线不卡视频| 日韩网站一区| 国产网红女主播在线视频| 国产精品亚洲二区在线播放| 国产又黄又爽又刺激的免费网址| 亚洲国产精品一二三四五| 午夜插逼| 亚洲精品久久久口爆吞精| 麻豆精品视频在线观看视频| 欧美在线观看www| 日韩av一区二区亚洲|