<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI可以自審代碼了,Opus 4.7出手解決“屎山”

      0
      分享至



      別的AI廠商發(fā)模型,上來一定會(huì)告訴你“我們這次的產(chǎn)品多厲害多強(qiáng)大”。但Anthropic不一樣,他們說“我們有更強(qiáng)的,但先不能給你?!?/p>

      于是在2026年4月17日,Anthropic發(fā)布了Claude Opus 4.7。

      這次發(fā)布沒有太多懸念,官方博客按部就班地列出了跑分、能力提升和應(yīng)用場(chǎng)景。但如果你仔細(xì)讀完整篇公告,會(huì)發(fā)現(xiàn)一些不太尋常的地方。

      Opus 4.7緊跟在Anthropic的Project Glasswing和Mythos Preview之后。而上周他們剛剛宣布Mythos Preview因?yàn)榫W(wǎng)絡(luò)安全能力過強(qiáng),暫時(shí)限制發(fā)布。

      因此Opus 4.7被明確定位為“第一款用來測(cè)試新網(wǎng)絡(luò)安全護(hù)欄的公開模型”。

      官方甚至還說,他們?cè)谟?xùn)練過程中實(shí)驗(yàn)性地削弱了這個(gè)模型的網(wǎng)絡(luò)安全能力。

      那Opus 4.7具體如何呢?

      01

      Opus 4.7的性能如何?

      先說常規(guī)部分。

      Opus 4.7在多個(gè)基準(zhǔn)測(cè)試上超過了Opus 4.6,尤其是在高級(jí)軟件工程任務(wù)上。

      官方圖表里,Opus 4.7在SWE-Bench Verified上為87.6%,Opus 4.6為80.8%;在更難的SWE-Bench Pro上,Opus 4.7為64.3%,Opus 4.6為53.4%;在Terminal-Bench 2.0上,Opus 4.7為69.4%,Opus 4.6為65.4%;Finance agent v11上,Opus 4.7為64.4%,Opus 4.6為60.1%。



      讓我們用人話來解釋一下這一串?dāng)?shù)字:你現(xiàn)在可以把更復(fù)雜的編程工作交給Opus 4.7,它會(huì)更嚴(yán)謹(jǐn)?shù)靥幚黹L(zhǎng)時(shí)間運(yùn)行的任務(wù),更精確地遵循指令,還會(huì)在匯報(bào)之前想辦法驗(yàn)證自己的輸出。

      在Opus 4.7早期測(cè)試者的反饋里,有幾個(gè)點(diǎn)值得注意。

      第一個(gè)是指令遵循能力大幅提升。

      Opus 4.7會(huì)嚴(yán)格按照字面意思理解指令,而之前的模型往往會(huì)松散解讀或者跳過某些部分。

      這聽起來是好事,但實(shí)際上可能帶來麻煩。其表現(xiàn)為Opus 4.7更“聽話”了,但這反而會(huì)讓一些舊提示詞失效。

      以前的Claude可能會(huì)比較“會(huì)意”。你寫一個(gè)模糊指令,它會(huì)自動(dòng)補(bǔ)全你的真實(shí)意圖,或者忽略一些不太重要、互相沖突、寫得不清楚的要求。很多用戶的提示詞,其實(shí)是在這種舊模型習(xí)慣上調(diào)出來的。

      但Opus 4.7官方說,它更傾向于嚴(yán)格按字面意思執(zhí)行指令。這樣一來,舊提示詞里那些以前被模型自動(dòng)忽略的小細(xì)節(jié),現(xiàn)在可能會(huì)被認(rèn)真執(zhí)行。而以前模型會(huì)靈活處理的模糊表達(dá),現(xiàn)在反而會(huì)按最直接的方式理解。

      結(jié)果就是模型明明更強(qiáng)了,但輸出反而和用戶預(yù)期不一樣。

      第二個(gè)是多模態(tài)支持改進(jìn)。

      Opus 4.7可以接受長(zhǎng)邊最高2576像素的圖像,大約3.75兆像素,是之前Claude模型的三倍多。

      這不是普通的“識(shí)圖能力”升級(jí),而是為了讓AI能看懂軟件界面,服務(wù)于Anthropic的Computer Use功能。

      Opus 4.7的視覺升級(jí),不是為了讓用戶問“這張圖里有什么”,而是為了讓agent能看懂軟件界面。

      agent如果看不清密集表格、終端輸出、設(shè)計(jì)稿細(xì)節(jié)、代碼截圖,它的操作能力再強(qiáng)也沒用,因?yàn)樗恢涝趺锤苫?,卻不知道去哪上班。

      Anthropic把圖像分辨率往上提,本質(zhì)上是在給Claude裝更清楚的眼睛。

      未來AI辦公、AI測(cè)試、AI安全、AI前端開發(fā),很多任務(wù)都不是純文本任務(wù),而是屏幕任務(wù)。

      第三個(gè)是實(shí)際工作表現(xiàn)。

      內(nèi)部測(cè)試顯示,Opus 4.7在金融分析任務(wù)上比Opus 4.6更有效,能產(chǎn)出更嚴(yán)謹(jǐn)?shù)姆治龊湍P汀⒏鼘I(yè)的演示文稿,以及更緊密的跨任務(wù)整合。

      它在GPQAval-AA這個(gè)第三方評(píng)估中也是最高分,這是一個(gè)覆蓋金融、法律等領(lǐng)域的評(píng)估。

      第四個(gè)是記憶能力。

      Opus 4.7更會(huì)使用基于文件系統(tǒng)的記憶。它能在長(zhǎng)周期、多會(huì)話的工作中記住重要筆記,后續(xù)任務(wù)需要的前置信息更少。

      這個(gè)點(diǎn)在官方公告里不顯眼,但我認(rèn)為可能是長(zhǎng)期使用中最關(guān)鍵的一個(gè)更新特性。

      一個(gè)能跨會(huì)話記住項(xiàng)目約束、用戶偏好、架構(gòu)決策和上次失敗原因的agent,才可能從“聰明臨時(shí)工”變成“穩(wěn)定同事”。

      安全性和對(duì)齊方面,Opus 4.7和Opus 4.6的整體表現(xiàn)相似。

      它在誠實(shí)度和抵抗惡意提示注入攻擊的能力上有所提升,在給出危害建議的能力上有所下降,比如如何制作使用管制刀具這類問題。

      官方的對(duì)齊評(píng)估結(jié)論是,這個(gè)模型“基本對(duì)齊且值得信賴,但行為上還不完全理想”。

      價(jià)格方面,Opus 4.7和Opus 4.6保持一致。輸入每百萬token 5美元,輸出每百萬token 25美元。

      但遷移指南里提到了兩個(gè)成本變化。新的tokenizer可能讓相同輸入變成1.0到1.35倍的token。在強(qiáng)思考模式下,尤其是agent的多輪對(duì)話,模型會(huì)思考更多,輸出的token也可能更多。

      所以這就是Anthropic耍小心思的地方了,名義上價(jià)格確實(shí)沒變,但跑多了就會(huì)變貴。

      過去模型計(jì)費(fèi)主要看輸入輸出長(zhǎng)度,現(xiàn)在還要看思考的等級(jí)、任務(wù)預(yù)算、agent跑了幾輪、工具失敗后有沒有繼續(xù)推理。

      Anthropic新增的x-high effort和task budgets,說明高端模型的使用方式正在走當(dāng)年云計(jì)算的那套邏輯。你買的不是一次回答,而是在給一個(gè)會(huì)思考、會(huì)試錯(cuò)、會(huì)驗(yàn)證的任務(wù)過程付費(fèi)。

      02

      Anthropic為何會(huì)發(fā)布閹割模型?

      話又說回來,Opus 4.7的真正賣點(diǎn)之一,恰恰是它沒有完全釋放能力。

      這聽起來有點(diǎn)反直覺,但可能是下一代模型公司的常態(tài)。

      模型越接近真實(shí)生產(chǎn)環(huán)境,越不能只追求更強(qiáng)。它要知道哪些事能做、哪些事不能做、哪些用戶能開放更多權(quán)限,哪些請(qǐng)求必須攔住。

      Anthropic在發(fā)布Opus 4.7的同時(shí),推出了Cyber Verification Program。

      這個(gè)項(xiàng)目本質(zhì)上是在給能力分級(jí)。普通用戶拿到的是有護(hù)欄的Opus,經(jīng)過驗(yàn)證的安全專家才能申請(qǐng)更寬的網(wǎng)絡(luò)安全用途。

      模型會(huì)自動(dòng)檢測(cè)和阻止那些表明禁止或高風(fēng)險(xiǎn)網(wǎng)絡(luò)安全用途的請(qǐng)求。

      Anthropic說,他們會(huì)從Opus 4.7的真實(shí)部署中學(xué)習(xí),為未來Mythos級(jí)別模型的廣泛發(fā)布做準(zhǔn)備。

      不得不說還是Anthropic會(huì)玩,他們認(rèn)為Opus目前的能力是過剩的,所以他們就把安全這件事,變成了產(chǎn)品能力。

      過去幾年,AI公司的競(jìng)爭(zhēng)邏輯是“我比你強(qiáng)”。跑分更高、參數(shù)更多、能做的事更復(fù)雜。但當(dāng)模型能力達(dá)到某個(gè)臨界點(diǎn)后,這個(gè)邏輯開始失效。

      一個(gè)在網(wǎng)絡(luò)安全測(cè)試中表現(xiàn)太好的模型,可能意味著它也能被惡意使用。一個(gè)完全不設(shè)限的agent,就有可能會(huì)在用戶不知情的情況下做出危險(xiǎn)決策。

      Anthropic選擇的路徑是,先把最強(qiáng)的模型鎖起來,用稍弱但足夠好的模型來測(cè)試安全機(jī)制。這不是技術(shù)上做不到,而是主動(dòng)選擇不做。這種“克制”本身成了產(chǎn)品差異化的一部分。

      這個(gè)策略能不能成功,取決于市場(chǎng)是否認(rèn)可“謹(jǐn)慎”這個(gè)概念。

      如果用戶只在乎“能不能做到”,那Anthropic的做法會(huì)顯得保守。但如果企業(yè)客戶開始重視“會(huì)不會(huì)出事”,那這種分級(jí)發(fā)布、主動(dòng)削弱某些能力的做法,反而可能成為競(jìng)爭(zhēng)優(yōu)勢(shì)。

      在發(fā)布Opus 4.7的同時(shí),Anthropic還更新了Claude Code,新增了auto mode和/ultrareview功能。

      auto mode不是模型自動(dòng)選型,而是權(quán)限選項(xiàng)。它允許Claude替用戶做一些權(quán)限決策,讓長(zhǎng)任務(wù)少被打斷,但風(fēng)險(xiǎn)低于完全跳過權(quán)限確認(rèn)。

      這個(gè)設(shè)計(jì)針對(duì)的是agent產(chǎn)品的核心矛盾:?jiǎn)柼?,agent像實(shí)習(xí)生;不問,風(fēng)險(xiǎn)又太大。

      agent時(shí)代最難設(shè)計(jì)的按鈕,不是“開始”,而是“允許”。

      過去AI只是回答問題,權(quán)限很少。

      現(xiàn)在它要改代碼、讀文件、跑命令、開網(wǎng)頁、提交PR,每一步都牽涉風(fēng)險(xiǎn)。

      如果每個(gè)操作都要用戶確認(rèn),agent的自主性就失去了意義。但如果完全放手,用戶又會(huì)擔(dān)心AI做出不可逆的錯(cuò)誤決策。

      auto mode的本質(zhì),就是在“別煩我”和“別亂來”之間找平衡。

      它會(huì)根據(jù)操作的風(fēng)險(xiǎn)級(jí)別,決定是自動(dòng)執(zhí)行、提示用戶、還是要求明確授權(quán)。

      這也是agent從“能干什么”,到“能不能用”之間巨大的飛躍。

      /ultrareview是一個(gè)專門的代碼審查會(huì)話,讀取變更并指出bug和設(shè)計(jì)問題。

      這個(gè)功能可比寫代碼好玩多了,因?yàn)樗f明AI編程正式進(jìn)入了第二階段,讓AI自己審查AI自己生成的代碼。

      AI寫代碼已經(jīng)不稀奇,真正稀缺的是AI能不能審自己的代碼。

      /ultrareview像是Anthropic給Claude Code補(bǔ)上的第二雙眼睛。

      一個(gè)agent負(fù)責(zé)寫,另一個(gè)更謹(jǐn)慎的會(huì)話負(fù)責(zé)審。

      不用看數(shù)據(jù)我都能猜到,這兩個(gè)功能一定是高頻功能。因?yàn)楸举|(zhì)上,這兩個(gè)功能過去就是所有使用Claude Code的程序員干的活。

      生成代碼只是開發(fā)流程的一部分,審查、測(cè)試、重構(gòu)、文檔同樣重要。如果AI只能做第一步,它永遠(yuǎn)只是輔助工具。如果它能參與整個(gè)流程,它才可能真正改變軟件開發(fā)的方式。

      這次發(fā)布還有一個(gè)細(xì)節(jié)值得注意。官方在遷移指南里專門提醒廣大用戶,Opus 4.7的token使用可能增加,但在實(shí)際編程評(píng)估中,整體效率反而提升了。

      這說明他們?cè)趦?yōu)化的不是單次調(diào)用的成本,而是完成任務(wù)的總成本。一個(gè)agent如果第一次就把事情做對(duì),即使單次調(diào)用貴一點(diǎn),總成本也比反復(fù)試錯(cuò)要低。

      這是一種更成熟的產(chǎn)品思路。早期AI產(chǎn)品追求的是“便宜”和“快”,現(xiàn)在開始追求“靠譜”。

      Opus 4.7不是最強(qiáng)的模型,Anthropic也沒有把它包裝成最強(qiáng)的模型。

      它是在能力、安全、成本之間的一個(gè)平衡點(diǎn)。但是說它是不是真的平衡,我不知道,這個(gè)要等市場(chǎng)來驗(yàn)證。

      至少在發(fā)布策略上,Anthropic給出了一種新思路,因?yàn)橛袝r(shí)候“不做什么”比“能做什么”更重要。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      國(guó)乒3-0擊敗韓國(guó)晉級(jí)四強(qiáng),韓媒直言差距太大

      國(guó)乒3-0擊敗韓國(guó)晉級(jí)四強(qiáng),韓媒直言差距太大

      吳锎旅行ing
      2026-05-09 00:54:43
      于丹被北師大免職,跌落神壇后竟活成這樣!人人都該警醒...

      于丹被北師大免職,跌落神壇后竟活成這樣!人人都該警醒...

      華人星光
      2024-11-07 13:39:41
      向佐顧著p自己,卻忘p老婆,郭碧婷硬生生被她老公搞成外星人了

      向佐顧著p自己,卻忘p老婆,郭碧婷硬生生被她老公搞成外星人了

      阿廢冷眼觀察所
      2026-05-09 01:28:10
      重慶直轄內(nèi)幕:四川當(dāng)初硬塞“兩大包袱”,中央為何死活不肯收?

      重慶直轄內(nèi)幕:四川當(dāng)初硬塞“兩大包袱”,中央為何死活不肯收?

      朗威談星座
      2026-05-09 02:03:29
      切爾諾貝利核禁區(qū)發(fā)生大火,迅速蔓延!系無人機(jī)墜毀引起,因存在爆炸物威脅,烏克蘭尚未展開撲救工作

      切爾諾貝利核禁區(qū)發(fā)生大火,迅速蔓延!系無人機(jī)墜毀引起,因存在爆炸物威脅,烏克蘭尚未展開撲救工作

      每日經(jīng)濟(jì)新聞
      2026-05-09 01:27:07
      分析:湖人為何將能在第三場(chǎng)比賽中擊敗雷霆?裁判爭(zhēng)議之后

      分析:湖人為何將能在第三場(chǎng)比賽中擊敗雷霆?裁判爭(zhēng)議之后

      好火子
      2026-05-09 04:58:17
      使用違禁藥物!中國(guó)馬拉松國(guó)際健將,遭國(guó)際田徑誠信委員會(huì)禁賽

      使用違禁藥物!中國(guó)馬拉松國(guó)際健將,遭國(guó)際田徑誠信委員會(huì)禁賽

      全景體育V
      2026-05-08 07:05:35
      光纖+存儲(chǔ)芯片+商業(yè)航天+算力租賃,深度布局的10家潛力公司

      光纖+存儲(chǔ)芯片+商業(yè)航天+算力租賃,深度布局的10家潛力公司

      粵語音樂噴泉
      2026-05-08 18:52:45
      離譜!國(guó)際奧委會(huì)先斬后奏,官宣上海成為 2028 奧運(yùn)賽事舉辦城市

      離譜!國(guó)際奧委會(huì)先斬后奏,官宣上海成為 2028 奧運(yùn)賽事舉辦城市

      南宗歷史
      2026-05-08 19:38:26
      拉橫幅真管用!中超第二位下課主帥誕生,鄧卓翔再次復(fù)出救火

      拉橫幅真管用!中超第二位下課主帥誕生,鄧卓翔再次復(fù)出救火

      體壇鑒春秋
      2026-05-08 17:06:34
      炸裂!奧運(yùn)冠軍發(fā)文痛斥76歲恩師:沒底線,逼我吃藥!

      炸裂!奧運(yùn)冠軍發(fā)文痛斥76歲恩師:沒底線,逼我吃藥!

      拳擊時(shí)空
      2026-05-08 06:12:50
      外交部:堅(jiān)決反對(duì)任何對(duì)中方的無端指責(zé)和惡意抹黑,相信挪威方面將切實(shí)保障中國(guó)公民合法權(quán)益

      外交部:堅(jiān)決反對(duì)任何對(duì)中方的無端指責(zé)和惡意抹黑,相信挪威方面將切實(shí)保障中國(guó)公民合法權(quán)益

      環(huán)球網(wǎng)資訊
      2026-05-08 15:50:22
      研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

      研究表明:性生活次數(shù)不達(dá)標(biāo),不管男女容易早衰且癌癥風(fēng)險(xiǎn)增高!

      黯泉
      2026-05-03 20:25:37
      前國(guó)乒選手錢天一退役!拿72萬元安置費(fèi),與羽毛球名將王昶結(jié)婚

      前國(guó)乒選手錢天一退役!拿72萬元安置費(fèi),與羽毛球名將王昶結(jié)婚

      阿策聊實(shí)事
      2026-05-07 22:52:08
      倫敦世乒賽:國(guó)乒男團(tuán)集體爆發(fā),拼出血性,啃下韓國(guó)隊(duì)這塊硬骨頭

      倫敦世乒賽:國(guó)乒男團(tuán)集體爆發(fā),拼出血性,啃下韓國(guó)隊(duì)這塊硬骨頭

      上觀新聞
      2026-05-09 05:00:07
      何慶魁女兒去世,年僅54歲,哥哥親口證實(shí)噩耗,父親外出捕魚散心

      何慶魁女兒去世,年僅54歲,哥哥親口證實(shí)噩耗,父親外出捕魚散心

      東方不敗然多多
      2026-05-08 16:49:12
      37死1失聯(lián)!涉瀏陽"5·4"煙花爆炸事故8名責(zé)任者到案!在醫(yī)救治51人

      37死1失聯(lián)!涉瀏陽"5·4"煙花爆炸事故8名責(zé)任者到案!在醫(yī)救治51人

      聲情專遞
      2026-05-08 12:22:29
      Chrome 開了一個(gè)危險(xiǎn)的頭:偷偷給數(shù)億電腦塞 4GB Gemini 模型,占硬盤、耗算力、刪了自動(dòng)重下

      Chrome 開了一個(gè)危險(xiǎn)的頭:偷偷給數(shù)億電腦塞 4GB Gemini 模型,占硬盤、耗算力、刪了自動(dòng)重下

      InfoQ
      2026-05-08 15:37:25
      中國(guó)不派官方代表團(tuán)參加莫斯科閱兵:僅使館人員參加活動(dòng)

      中國(guó)不派官方代表團(tuán)參加莫斯科閱兵:僅使館人員參加活動(dòng)

      桂系007
      2026-05-08 23:41:26
      本澤馬妙傳,28歲AC米蘭舊將制勝,C羅爭(zhēng)冠勁敵2-1奪沙特國(guó)王杯冠軍

      本澤馬妙傳,28歲AC米蘭舊將制勝,C羅爭(zhēng)冠勁敵2-1奪沙特國(guó)王杯冠軍

      側(cè)身凌空斬
      2026-05-09 04:03:01
      2026-05-09 05:43:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2443文章數(shù) 8062關(guān)注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎(jiǎng)金600萬 工服成相親神器

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯(lián)酋現(xiàn)水母狀物體

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯(lián)酋現(xiàn)水母狀物體

      體育要聞

      他把首勝讓給隊(duì)友,然后用一年時(shí)間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財(cái)經(jīng)要聞

      估值3000億 DeepSeek尋求500億元融資

      汽車要聞

      MG 4X實(shí)車亮相 將于5月11日開啟盲訂

      態(tài)度原創(chuàng)

      時(shí)尚
      游戲
      本地
      數(shù)碼
      公開課

      衣服其實(shí)沒有必要買很貴,準(zhǔn)備這三件基礎(chǔ)款,百搭實(shí)用又不挑人

      PS未發(fā)售重磅獨(dú)占要完!同類項(xiàng)目崩盤 新作懸了

      本地新聞

      用蘇繡的方式,打開江西婺源

      數(shù)碼要聞

      華碩京東重磅新品日,華碩天選7系列游戲本開啟預(yù)約

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 大香伊蕉在人线国产最新2005| 色综合久久久久久中文网| 男人的天堂a在线视频| 九九热精彩视频在线免费| 亚洲精品喷潮一区二区三区| 日99久9在线 | 免费| 亚洲永久一区二区三区在线| 九九热久久免费视频| 国产精品亚洲二区在线看 | 中文字幕无码乱码人妻系列蜜桃| 国产成人免费无码AV| 国产成人a∨| 无码人妻一区二区三区免费N鬼沢| www.jizzjizz| 亚洲人成网站在线播放动漫| 久久国产精品电影| 久久久久亚洲AV成人网人人小说| 无码区日韩专区免费系列| 国产精品国产三级国av| 伊人成人社区| 精品午夜福利在线视在亚洲| 岛国无码在线| xxx.国产| 免费AV片在线观看网址| 国产精品中文字幕在线| 玩弄放荡人妻少妇系列| av中文网| 日韩三级片网站| 国产盗摄xxxx视频xxxx| JIZZJIZZ国产| 亚洲又粗又大| 亚洲日韩国产二区无码| 欧洲一级无码AV毛片免费| 亚洲碰碰人人av熟女天堂| 777久久精品一区二区三区无码| 在线精品另类自拍视频| 曰韩三级无码久久探| 66av在线| 国产欧美另类第一页| 99久久综合国产精品免费| 免费无码又爽又刺激网站|