<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Claude Opus 4.7炸場,6美元造《我的世界》,臨門AGI前強調安全,打工人卻更慌了

      0
      分享至



      Anthropic 今天正式發布 Claude Opus 4.7,官方說這是“目前最強 Opus 模型”。定價沒變,還是每百萬 token 輸入 5 美元、輸出 25 美元,但能力這次真的往上跳了一個臺階。

      兩個月前剛出頂模 4.6,今天 4.7 直接來了。Anthropic 這個更新節奏,真的不打算讓人喘氣。

      在 Vals Index 綜合評測中,Opus 4.7 以 71.4% 的得分拿下第一,比之前的最好成績(67.7%)大幅躍升。它還在 Vibe Code Bench、Vals Multimodal、Finance Agent、Mortgage Tax、SAGE、SWE-Bench 和 Terminal Bench 2 等多個榜單中均位列第一。


      從 4.6 到 4.7,最核心的變化是什么?一句話說清楚:它開始對自己的輸出負責了。

      以前你把任務扔給 Claude,它做完就交,對不對另說。4.7 不一樣,它會在報告結果之前先自己驗證一遍。聽起來是個小事,但對于那些跑幾個小時的復雜任務來說,這個改變意味著你可以真正放手,不用一直盯著它。Anthropic 原話是:“You can hand off your hardest work with less supervision.”——把最難的活交出去,不用再當保姆了。

      寫代碼能力大漲,這是最大的升級

      4.7 整體更強,尤其在“寫代碼”和“看圖表”這兩塊進步明顯。

      處理真實工程項目的能力,提升幅度相當大。

      在 SWE-bench Pro(真實 GitHub 項目 bug 修復)上,4.7 從 53.4% 跳到 64.3%,提升了差不多 11 個百分點。這個幅度相當大。處理標準編程任務(SWE-bench Verified)也從 80.8% 提升到 87.6%。

      SWE-bench Pro 那個 11 個百分點的躍升,背后的含義其實挺重要的。這個測試用的都是 GitHub 上真實的開源項目,代碼庫大、依賴關系復雜、bug 藏得深——跟那些教科書式的干凈代碼完全是兩回事。能在這種“臟活累活”上提升這么多,說明 4.7 在實戰場景下確實更能打了。


      指令執行能力也徹底想通了。

      4.6 有個讓人又愛又恨的毛病——它會“善意理解”你的指令。你說做 A,它覺得 B 更好,就悄悄給你做了 B,還自我感覺良好。這種“聰明反被聰明誤”的問題,在復雜工作流里會直接釀成大錯。

      4.7 把這個邏輯翻轉了:逐字執行,不自作主張。

      但這把雙刃劍也有代價。Anthropic 自己在發布文檔里警告:針對 4.6 調好的提示詞,在 4.7 上可能直接崩掉。以前那些“模糊指令靠模型腦補”的用法,現在得老老實實重寫 prompt 了。


      看圖表、看圖片理解能力大漲

      4.7 支持解析長邊最大 2576 像素的圖像,大約 3.75MP,是之前所有 Claude 版本的三倍多。

      視覺推理能力從 69.1% 跳到 82.1%(不用工具的情況下)。跳了 13 個百分點。拿一張報表、一張架構圖丟給它,它能看懂的概率明顯更高了。

      這個數字背后的意義,對普通用戶來說很直接:密密麻麻的截圖能讀了,復雜圖表能提取了,高分辨率設計稿能分析了。做 PPT、做界面、做文檔,4.7 的審美和精度都跟著上來了。

      代碼審查工具 CodeRabbit 的測試數據顯示,切換到 4.7 之后,最難發現的 bug 召回率提升了 10% 以上,而誤報率沒有上升。

      對打工人來說,最直接的感受可能是:以前截圖發給 Claude,它說“圖片不夠清晰看不清”——這個問題,基本上消失了。

      電腦操作能力也提升了。

      操作電腦能力(OSWorld)從 72.7% 提升到 78.0%。就是那種“幫我打開瀏覽器、點一下、填個表”的 Agent 類任務,做得更穩了。

      研究生級別的硬核推理能力,GPQA 從 91.3% 提升到 94.2%,已經接近天花板了。

      小幅進步的地方

      除了上面那些大升級,4.7 在一些細節上也有改進:

      • 終端里寫代碼:65.4% → 69.4%

      • 復雜學科推理(人類最后的考試):40% → 46.9%

      • 金融分析:60.1% → 64.4%

      • 多語言問答:91.1% → 91.5%(幾乎沒動)

      • 工具調用:75.8% → 77.3%

      退步了的地方

      網頁搜索能力反而下降。

      BrowseComp 從 83.7% 掉到 79.3%,掉了 4 個百分點。如果你的業務里大量依賴 Claude 去網上搜資料、做 research,這個版本可能不如 4.6。

      寫代碼、跑 Agent、處理圖片圖表這些場景,4.7 的提升是實打實的,閉眼升就行。但如果你的工作嚴重依賴 Claude 去網上大量檢索信息、做深度研究,那 4.6 可能還是更穩妥的選擇,至少先觀望一下實際表現再決定。

      網絡安全漏洞復現能力也下降了——從 73.8% 降到 73.1%,基本沒變,略微退步。

      這個退步不是偶然的,而是 Anthropic 主動為之。

      6美元造《我的世界》和GTA-5

      國外很多網友已經開始用上4.7,有人用6美元的API調用成本,從零“造出一個我的世界”!

      開發者Angaisb通過自然語言描述,讓AI模型一步步生成完整的Minecraft風格沙盒游戲,包括方塊世界、挖掘建造、資源采集等核心機制。整個過程AI自動迭代調試,最終輸出可直接運行的完整游戲。

      而在開發者Bridgemind的直播中,他用“Vibe Coding”模式,僅通過描述就讓AI一氣呵成,在單個HTML文件中構建出一個包含多種武器的第一人稱射擊游戲(FPS)。


      游戲支持敵人波次、不同武器切換和流暢的3D射擊手感,直播時吸引了1500多人在線圍觀。開發者甚至放話,下一步目標直指GTA 6!這充分展現了4.7實時生成復雜互動應用的能力,從想法到可玩游戲,只需“隨性編碼”幾句提示。

      Claude Code 這次也跟著動了

      跟 4.7 同步上線的,還有幾個 Claude Code 的新功能,值得單獨說一下。

      新增了/ultrareview命令,專門用來做代碼審查——不是普通的 review,是專門盯著錯誤和設計問題的那種深度審查。Pro 和 Max 用戶每月免費三次。

      Claude Code 的默認推理強度從 high 升級到了 xhigh,這是一個介于 high 和 max 之間的新檔位,理解成“思考更深但不燒最多錢”就行。

      與此同時,任務預算(task budgets)進入公測,開發者可以在長任務中精確控制 token 消耗,不用再擔心一個任務跑完賬單爆炸。

      自動模式也擴展到了 Claude Code Max 用戶——Claude 可以在任務執行中自主做決策,比完全放開權限的“yolo 模式”更可控,比每步都問你確認的模式更省心。

      Reddit 上有個 Claude Code(Opus 4.6)vs. Codex(GPT-5.4)的對比很有意思,經歷 8 萬行 Python/TypeScript 代碼,2800 個測試用例的數據分析應用深度對比。結論是:“Claude 需要一位技術精湛、專注投入的‘駕駛員’,而 Codex 對使用者的實時介入要求更低。”


      來源:@shao__meng

      還有一件更離譜的事

      就在 4.7 發布的今天,X 上另一條消息也傳開了:有人給 Claude Code 加了一個文言文提示詞模式(wenyan mode),用古典漢語來寫 prompt,直接把提示詞大小壓縮了 60%。


      @amaanbuilds 發推感嘆:“Using a 2000 yr old language as a compression layer for tokens is just insane lol”——用 2000 年前的語言做 token 壓縮層,這操作真的離譜。

      但你仔細想想,文言文本來就是極度壓縮的信息載體,“有朋自遠方來”六個字,白話文要寫一段。古人用它省竹簡,現代人用它省 token,邏輯上一脈相承,只是這個用法確實沒人想到過。

      安全防護加強了,但打工人更慌了

      4.7 的發布,還有一個容易被忽略但非常重要的背景:Anthropic 在臨門 AGI 前,開始主動給模型“降能力”了。

      上周 Anthropic 剛剛公布了 Project Glasswing 項目,專門研究 AI 模型在網絡安全領域的風險和收益。他們明確表示,會限制 Claude Mythos Preview 的發布范圍,并在能力較弱的模型上先測試新的網絡安全防護機制。

      4.7 就是第一個“試驗品”。

      Anthropic 在訓練 4.7 的時候,主動實驗了差異化降低網絡安全能力的方法。所以你會看到,4.7 在網絡安全漏洞復現能力上從 73.8% 降到 73.1%——這不是訓練失誤,而是有意為之。


      與此同時,4.7 內置了自動檢測和攔截機制,能識別并阻止那些涉及禁止用途或高風險網絡安全操作的請求。

      Anthropic 還專門推出了“網絡安全驗證計劃”(Cyber Verification Program),允許安全專業人士申請使用 4.7 進行合法的漏洞研究、滲透測試和紅隊演練。

      這個邏輯很清楚:模型越來越強,但不能無限制地強下去。在接近 AGI 的路上,安全防護必須跟上。

      但對普通打工人來說,這個消息有點慌。

      你想想,連 Anthropic 都開始主動給自己的模型“削弱能力”了,Mythos的編程和圖表的能力并沒有完全釋放,長文本比4.6還有退步,這說明什么?說明他們內部已經看到了某些能力邊界,看到了失控的可能性。

      更直接的影響是:Anthropic 同步宣布開始推行身份驗證,合作方是 Persona,需要護照加自拍。

      這個消息在中文區引發了不少討論,畢竟能用上 Claude 的路本來就不寬,現在又多了一道門。

      Anthropic 現在的狀態,有點嚇人

      發布 4.7 的背景,是 Anthropic 正在經歷一段幾乎所有人都沒預料到的增速。

      過去一年,Claude 的流量增長了大約 5 倍。今年 2 月,Anthropic 完成了 300 億美元融資,估值 3800 億美元。

      企業端的數據更夸張——根據企業支出追蹤平臺 Ramp 的數據,今年 1 月和 2 月,Ramp 上付費使用 Anthropic 服務的企業占比連續兩個月大幅增長,而 OpenAI 的份額同期下滑。


      “現在每四家 Ramp 上的企業就有一家在付費用 Anthropic,一年前這個比例是二十五分之一。”Ramp 經濟學家 Ara Kharazian 這樣說。

      企業年消費超過 10 萬美元的客戶數量,一年內增長了 7 倍。Claude Code 的年化營收,在今年 2 月已經跑到了 25 億美元。到本月,Anthropic 整體年化營收據報道已經超過 300 億美元,首次超過了 OpenAI。

      這個背景下,4.7 的發布不只是一次常規迭代。它是 Anthropic 在企業市場全面提速的縮影——每一個“更精準執行指令”、“更穩定跑長任務”的改進,都直接對應著企業客戶最真實的痛點。

      最后說一句

      還有一個更強的模型 Claude Mythos Preview 還在路上,目前只對少數安全和企業合作伙伴開放。

      4.7 某種程度上是在給 Mythos 鋪路——新的網絡安全防護機制,先在 4.7 上跑通,再推到 Mythos 的大規模發布。

      所以,現在的 4.7,只是個開始。

      但這個開始,已經讓人既興奮又有點不安了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      5月中旬,正財偏財齊齊發力,荷包越來越鼓的三個星座

      5月中旬,正財偏財齊齊發力,荷包越來越鼓的三個星座

      小晴星座說
      2026-05-09 17:31:12
      現役交易價值最高的8位球員:詹杜庫均落選,東契奇也只排第六!

      現役交易價值最高的8位球員:詹杜庫均落選,東契奇也只排第六!

      你的籃球頻道
      2026-05-09 13:23:11
      綠皮火車連接處可以抽煙嗎?12306正式發話了,規矩終于說清

      綠皮火車連接處可以抽煙嗎?12306正式發話了,規矩終于說清

      墜入二次元的海洋
      2026-05-09 20:46:22
      45歲守山人遭巨豹跟蹤9天,絕望看清它嘴里之物,他癱在樹下大哭

      45歲守山人遭巨豹跟蹤9天,絕望看清它嘴里之物,他癱在樹下大哭

      白云故事
      2026-03-14 19:50:07
      黃仁勛稱銅線已無法滿足需求,A股銅纜連接概念或迎來大級別回調

      黃仁勛稱銅線已無法滿足需求,A股銅纜連接概念或迎來大級別回調

      東方豪俠
      2026-05-09 12:34:32
      不訪華了?魯比奧稱美方愿讓步,中俄手下留情,已給自己找好臺階

      不訪華了?魯比奧稱美方愿讓步,中俄手下留情,已給自己找好臺階

      小曙說娛
      2026-05-09 15:43:45
      就在今晚!大樂透8.8億派獎首期開獎來了

      就在今晚!大樂透8.8億派獎首期開獎來了

      吉刻新聞
      2026-05-09 15:29:54
      人民日報證實莫言的警告:人真的會被氣死!70%的重病跟情緒有關,這3個致命傷害往往來自3種身邊人!

      人民日報證實莫言的警告:人真的會被氣死!70%的重病跟情緒有關,這3個致命傷害往往來自3種身邊人!

      職場火鍋
      2026-05-06 21:52:40
      同樣“糊弄消費者”的套路,在國外直接挨捶了

      同樣“糊弄消費者”的套路,在國外直接挨捶了

      走讀新生
      2026-05-09 11:21:16
      朱珠:人間富貴花

      朱珠:人間富貴花

      東方不敗然多多
      2026-05-10 01:23:49
      提醒大家:微信聊天盡量不要發語音,我也是剛知道,看完漲知識了

      提醒大家:微信聊天盡量不要發語音,我也是剛知道,看完漲知識了

      新時代的兩性情感
      2026-05-08 20:17:13
      錢朝陽任南方電網董事長、黨組書記

      錢朝陽任南方電網董事長、黨組書記

      界面新聞
      2026-05-09 16:13:05
      工作群突然解散!網傳武漢一外包公司大量裁員,3000元打發走人

      工作群突然解散!網傳武漢一外包公司大量裁員,3000元打發走人

      火山詩話
      2026-05-09 06:03:43
      薛慶浩撲點后失誤,申花老將當外援用 馬納法太沖動 或被追加停賽

      薛慶浩撲點后失誤,申花老將當外援用 馬納法太沖動 或被追加停賽

      替補席看球
      2026-05-09 21:59:56
      劉浩存亮相《主角》觀影會!為角色提前 5 個月苦練

      劉浩存亮相《主角》觀影會!為角色提前 5 個月苦練

      小椰的奶奶
      2026-05-08 08:15:07
      客觀分析預測!國乒隊、日本隊將進男團決賽,國乒隊會最終奪冠

      客觀分析預測!國乒隊、日本隊將進男團決賽,國乒隊會最終奪冠

      林子說事
      2026-05-09 17:19:50
      985高校院長學術造假?細看這篇《Nature》后,這手法也太粗糙了...

      985高校院長學術造假?細看這篇《Nature》后,這手法也太粗糙了...

      畢導
      2026-05-09 17:21:02
      蔚來,我算是把你看清了

      蔚來,我算是把你看清了

      汽車十三行
      2026-04-21 11:56:48
      2球領先到2-2!劉建業的兩個換人決定,親手葬送了銅梁龍的三分

      2球領先到2-2!劉建業的兩個換人決定,親手葬送了銅梁龍的三分

      漫川舟船
      2026-05-10 00:27:53
      張蘭飛灣灣為箖箖慶生,一句話透露孫子現狀,小S卻發文談大S和狗

      張蘭飛灣灣為箖箖慶生,一句話透露孫子現狀,小S卻發文談大S和狗

      凡知
      2026-05-09 16:44:42
      2026-05-10 02:07:00
      鯨選AI incentive-icons
      鯨選AI
      最新AI產品化與商業化案例速遞
      155文章數 38關注度
      往期回顧 全部

      游戲要聞

      《地平線6》容量太大 玩家抱怨2TB SSD勉強夠用

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經要聞

      多地號召,公職人員帶頭繳納物業費

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      本地
      手機
      游戲
      時尚
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      手機要聞

      華為Mate 90首發!鴻蒙7定檔6月:和iOS安卓三分天下

      Windows 11 PC上的Xbox模式不支持多顯示器

      伊姐周六熱推:電視劇《喀什戀歌》;電視劇《低智商犯罪》......

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 先锋影音av最新资源| 超碰亚洲天堂| 亚洲无?码A片在线观看| 国产免费网站看v片元遮挡| 国产无遮挡乱子伦免费精品| 最新中文乱码字字幕在线| 久久亚洲无码| 亚洲精品中文无码| 99精品电影一区二区免费看| 无码国模国产在线观看免费| 最近中文字幕日韩有码| 国产综合在线视频_亚洲日韩在线观| 18禁美女裸身无遮挡免费网站| 亚洲欧美日韩久久一区二区| 中文字幕久久久久人妻中出| 欧美日韩亚洲综合久久久| 国内自拍欧美亚洲| 在线观看无码av免费不卡网站| 中文字幕日本一区久久| 国产一区亚洲欧美成人| 久久天天躁狠狠躁夜夜躁2014| 久久综合国产色美利坚| 美女爽到高潮嗷嗷嗷叫免费网站 | 亚洲国产精品综合久久20| 国产精品麻豆成人AV电影艾秋| 亚洲男人天堂一区二区| 国产精品无码av不卡| 亚洲中文字幕免费| 精品一区在线| 精品亚洲精品日韩精品| 欧美喷水抽搐magnet| 99自拍视频| 亚洲无码?成人| 亚洲AV无码成人精品区蜜桃| 久久无码高潮喷水| yw尤物av无码国产在线观看| 国产日韩成人内射视频| FREECHINESE国产精品| 尤物精品视频一区二区三区| 久久国产成人av蜜臀| 欧美极品视频在线|