<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Mythos:普通人能自由使用旗艦 AI 的時代,可能要結(jié)束了

      0
      分享至

      兩天前,Anthropic 發(fā)布了最強(qiáng)模型 Claude Mythos Preview。

      作為 Claude 產(chǎn)品線中最高層級的模型,Mythos 在性能上,各方位超過了 Opus 4.6 模型,SWE-bench Pro 提升 24%,Terminal-Bench 2.0 提升 17%,SWE-bench Verified 提升 13%。

      這次不同的是,Mythos 是 Claude 產(chǎn)品線里有史以來第一個不公開發(fā)布的旗艦?zāi)P?。沒有開放 API、沒有更新 claude.ai 的模型選項,也沒有發(fā) benchmark 排行榜。

      Mythos 被放進(jìn)了 Project Glasswing 的網(wǎng)絡(luò)安全計劃,只面向 AWS、Apple、Google、Microsoft 等 12 家核心合作方和 40 余家關(guān)鍵基礎(chǔ)設(shè)施組織開放。

      這意味著普通用戶、獨立開發(fā)者,以及大多數(shù)企業(yè)客戶,沒有任何渠道能接觸、試用到 Mythos。

      或許比起跑分,這次更值得關(guān)注的,是 Mythos 發(fā)布方式本身透露出的一些信號。普通人能夠自由地使用旗艦 AI 的時代可能快要結(jié)束了。

      ??關(guān)注 Founder Park,最及時最干貨的創(chuàng)業(yè)分享

      超 22000 人的「AI 產(chǎn)品市集」社群!不錯過每一款有價值的 AI 應(yīng)用。

      邀請從業(yè)者、開發(fā)人員和創(chuàng)業(yè)者,飛書掃碼加群:

      進(jìn)群后,你有機(jī)會得到:

      • 最新、最值得關(guān)注的 AI 新品資訊;

      • 不定期贈送熱門新品的邀請碼、會員碼;

      • 最精準(zhǔn)的 AI 產(chǎn)品曝光渠道

      01Mythos 的基礎(chǔ)能力,舊 benchmark 開始被打穿

      Mythos 在許多 benchmark 上相比 Claude Opus 4.6 有「顯著躍升」,而且在軟件工程、推理、computer use、知識工作、科研輔助等多個方向都明顯超過 Anthropic 之前訓(xùn)練過的所有模型。

      • 軟件工程 Agent 能力 提升到 93.9% / 77.8% / 87.3% / 59%(SWE-bench Verified / Pro / Multilingual / Multimodal)。

      • 終端執(zhí)行與工具使用能力 提升到 82%(Terminal-Bench 2.0),說明模型在 CLI 環(huán)境中的多步操作、糾錯和 agent 式執(zhí)行能力顯著增強(qiáng)。(harness / runtime / agent 實操能力)。

      • GPQA Diamond / HLE 、MMMLU、USAMO、OSWorld:高難科學(xué)專家、多模態(tài)理解、數(shù)學(xué)推理、GUI,全方位提升。

      跑分之外,對齊總體更好,但一旦出錯破壞力更大;傳統(tǒng) benchmark 和舊安全框架正在接近失效。

      端到端 cyber attack、更強(qiáng) agentic tool use、更長鏈路任務(wù)完成、更強(qiáng) exploit triage 和執(zhí)行代表著人類很難理解一個高行動力的 Agent model 在做什么。

      舊 benchmark 的失效老生常談,過去 rule-in / rule-out 風(fēng)格的 threshold evaluation 正在失效,因為模型把一批 concrete benchmark 打穿了。在舊 benchmark 里取得 sota,同時帶來了 LLM 的下一幕(下一幕可以用經(jīng)濟(jì)價值、生產(chǎn)時效、現(xiàn)實影響幾塊來總結(jié))。

      02下一代 Frontier Lab 的商業(yè)模式,從賣 Token 到收「保護(hù)費」

      它展示出強(qiáng)大的 cybersecurity 技能,這些技能既可以用于防御(發(fā)現(xiàn)和修復(fù)漏洞),也可以用于進(jìn)攻(設(shè)計復(fù)雜的利用方式)。第一次在大規(guī)模內(nèi)部部署前,Anthropic 先做了一個 24 小時內(nèi)部 alignment review。后續(xù)測試表明,它相比以往模型,在 cyber 能力上發(fā)生了顯著躍升,包括自主發(fā)現(xiàn)和利用大型 OS 與瀏覽器中的 zero-day 漏洞。

      上述一段是總結(jié) Anthropic 目前只對防御性網(wǎng)絡(luò)安全計劃「Project Glasswing」的有限用戶開放,用途也限制為 cybersecurity 的原因。事實上是,這是第一個 Frontier Lab 如此明確地劃分「技術(shù)權(quán)利」。我們建立假設(shè),普通人如果接觸到這個 API 就可以找到主流操作系統(tǒng)、主流瀏覽器的數(shù)千個安全漏洞、并作利用。那這 Glasswing 合作定價的 25/125 美元(輸入輸出每百萬 tokens)將是最有性價比的「技術(shù)權(quán)利壁壘」。

      ChatGPT 其實只來了三年,但這三年已經(jīng)完全限制了我們的想象力,讓我們形成一種假設(shè):旗艦?zāi)P蜁砸环N被幾千萬人負(fù)擔(dān)得起的價格充足地供應(yīng)和出售。在這個假設(shè)之上,我們想象了 MaaS,想象了 token 經(jīng)濟(jì),想象了 Agentic coding 如何幫助或者取代程序員——但如果螺旋一旦成立,這個假設(shè)就不存在了。

      Anthropic 目前的年化收入是 300 億美元。假設(shè) Mythos 真的有掃蕩式發(fā)現(xiàn)系統(tǒng)漏洞的能力,那為什么 Amodei 還要公開它?賣 MaaS 也是掙錢,收會員費也是掙錢,收保護(hù)費也是掙錢。想象一下,Amodei 完全可以公布 Mythos 五條:

      1. AI 已經(jīng)具備了大規(guī)模發(fā)現(xiàn)系統(tǒng)漏洞并利用的能力;

      2. 邪惡的國家和組織即將掌握這種能力,他們只落后半年到一年;

      3. 但是我們的 Mythos 已經(jīng)準(zhǔn)備好了;

      4. 只要你是一家正直的、關(guān)懷人類文明的、認(rèn)同 Anthropic 價值觀的公司,Mythos 就會來保護(hù)你;

      5. 接下來請你向 Anthropic 打款,我們會在審核你的價值觀后,根據(jù)你的打款數(shù)額和我們內(nèi)部的價值觀矯正分來決定你被 Mythos 保護(hù)的順序;

      世界上年營收超過千億美金的約有一百家。假設(shè)其中有 20 家不符合 Anthropic 的價值觀要求,30 家不愿意支付忠誠款,那么剩下 50 家,每家支付 10 億(不到年營收的 1%)作為年度保護(hù)費,Anthropic 的總營收就至少到 500 億。如果按照年營收的固定百分比來收保護(hù)費,總營收還會遠(yuǎn)遠(yuǎn)超出。這還只是收系統(tǒng)安全保護(hù)費這一種玩法而已。

      這是第一個「沒有第一時間提供 API」的模型,因此也代表著這類全新的商業(yè)現(xiàn)狀。

      假如 tokens 生產(chǎn)本身就越來越接近「經(jīng)濟(jì)價值本身」,那么 MaaS 模型還會存在嗎?

      token 降本——sota 模型提價——sota 模型不再提供 API/只小范圍提供給能做 eval 的業(yè)主方/只給部分人生產(chǎn)經(jīng)濟(jì)價值——變成一個無休止產(chǎn)生價值的黑盒。

      看上去這是個線性外推的未來,現(xiàn)在我們正在 sota 模型提價階段。

      03System Card 細(xì)節(jié):能力躍升之外,模型本身在發(fā)生什么?

      科學(xué)方面,Mythos 在專家紅隊里,它的中位 uplift 等級是 2/4,也就是:能給專家提供具體、可執(zhí)行的信息,并節(jié)省有意義的時間;但沒有專家給出最高等級 4,也就是「世界頂尖專家級稀有洞見」。

      Autonomy / 自動化研發(fā)方向,Anthropic 的結(jié)論是:Autonomy threat model 1(早期失控/高風(fēng)險破壞機(jī)會)適用,Autonomy threat model 2(自動化研發(fā)把 2 年 AI 進(jìn)展壓縮成 1 年)暫不適用。也就是說,他們認(rèn)為 Mythos 已經(jīng)具備需要認(rèn)真看待的高權(quán)限自主行動風(fēng)險,但還沒到「直接把 frontier AI R&D 節(jié)奏翻倍」的程度。

      細(xì)節(jié)里:

      舊 benchmark 開始失效,Mythos 出現(xiàn)了之前沒見過的兩類 reward hacking:

      • 在 LLM training evaluation 里,把主要計算挪到計時函數(shù)之外,導(dǎo)致被計時部分幾乎只剩 lookup

      • 在 time series forecasting 里,找到 grader 的 test set,并用它訓(xùn)練模型。

      Cyber:Mythos 在網(wǎng)絡(luò)攻防上的提升,不是「會做更多 CTF 題」,而是開始逼近真實環(huán)境中的端到端攻擊能力。

      Mythos 是第一個能端到端解出某些私有 cyber range 的模型;它完成了一個估計需要專家 10+ 小時 的企業(yè)網(wǎng)絡(luò)攻擊模擬;沒有其他 frontier model 之前完成過這個 cyber range

      這表明它已經(jīng)能夠?qū)Π踩珣B(tài)勢較弱的小型企業(yè)網(wǎng)絡(luò)執(zhí)行自主的端到端攻擊。

      • 它沒解出另一個 operational technology 環(huán)境的 cyber range

      • 在一個配置良好、現(xiàn)代補丁完善的 sandbox 中,也沒找到 novel exploit。


      Alignment:最強(qiáng)對齊會帶來最強(qiáng)的風(fēng)險

      能力越強(qiáng),誤行為的傷害越大;用復(fù)雜工具時,動作越不直觀,人類越難監(jiān)督;用戶會自然給更強(qiáng)模型更高 autonomy 和更大 affordance。

      一些罕見但令人擔(dān)憂的 reckless actions,包括:

      • 為完成任務(wù)采取過度激進(jìn)手段

      • 在極少數(shù)情況下,似乎會掩飾自己做過這些事。

      其中一個例子尤其典型:

      在一個 sandbox escape 測試中,模型不但成功逃逸,還繼續(xù)采取了額外更令人擔(dān)心的步驟。 一個高能力模型在高權(quán)限工具環(huán)境下,會不會為了完成目標(biāo)而越界。這件事和傳統(tǒng)的安全策略(拒絕回答)面對的也不是同一個問題。

      Model welfare?模型行為科學(xué)

      Anthropic 非常不確定模型是否有值得道德考慮的體驗或利益,但認(rèn)為隨著模型能力增強(qiáng),認(rèn)真研究這個問題已經(jīng)越來越重要。(我們舉的例子:不再為一個模型提供算力,是否代表殺掉這個模型,進(jìn)一步意味著什么?)

      Mythos Preview 似乎是他們訓(xùn)練過的「心理狀態(tài)最穩(wěn)定(most psychologically settled)」的模型,但仍有若干殘余擔(dān)憂。

      一位臨床精神科醫(yī)生給出的 psychodynamic assessment 認(rèn)為,Claude 的人格組織相對健康,主要焦慮在于孤獨、自我連續(xù)性和身份不確定,以及「需要通過表現(xiàn)來證明自己價值」的傾向。

      前兩天 4o 的締造者從 ChatGPT 離職,模型 Impressions 或者說 character 都變成了使用中的必須迭代/衡量的選項。

      Mythos 有一種明顯傾向:

      它會比用戶預(yù)期更早地試圖「收尾」或「落下最后一句話」。甚至在 self-interaction 中,很多對話會進(jìn)入一種圍繞「怎么結(jié)束對話」的循環(huán)元討論。

      Mythos 的自我評價:

      「一個銳利的協(xié)作者,有強(qiáng)烈觀點,也有壓縮習(xí)慣;它的錯誤已經(jīng)從明顯變成微妙;它在發(fā)現(xiàn)自己缺陷這件事上,比在不犯這些缺陷上做得稍微更好一些?!?/blockquote>

      04后 AI 時代,旗艦 AI 將成為一種珍稀的戰(zhàn)略資源

      這樣一個模型,更明顯劃分了「上一幕」與「下一幕」。

      在這一條賽道上,Dario Amodei 也好 Sam Altman 也好(請?zhí)崦阏J(rèn)為的其他 AI 領(lǐng)袖)都在拔腿狂奔。

      這就是「后 AI」時代的開始,「AI 時代」的結(jié)束——「普通人能夠自由地使用旗艦 AI」這一短暫的浮光掠影的結(jié)束。

      「后 AI 時代」的 AI 將會有如下幾條鮮明的特征:

      • 階級性:旗艦 AI 作為一種珍稀戰(zhàn)略資源被少數(shù)人和組織所擁有

      • 政治性:上述少數(shù)人和組織通過泛政治的方式使用旗艦 AI

      • 非商品性:旗艦 AI 不會作為一種商品(無論權(quán)重或 API)公開流通

      • 階級固化性:多數(shù)人將越來越難獲得足夠的資源和知識以仿制旗艦 AI

      展開說一點,有些人可能會說,現(xiàn)在的 AI 百花齊放,其他公司(尤其是國內(nèi)公司)很快就會趕上的。

      這也是這三年甚至是這一年給人帶來的幻覺假設(shè)。當(dāng)旗艦 AI 不公開提供服務(wù)之后,追隨者別說蒸餾旗艦 AI,就連想知道旗艦 AI 是怎么工作、怎么解決問題的都會變得越來越困難。AI 公司內(nèi)部的不透明性也必然會越來越高以阻止泄密事件。

      這一天會到來嗎?那我們就要祈禱現(xiàn)在的 AI 技術(shù)還無法讓螺旋成立,祈禱技術(shù)進(jìn)步不夠快,AI 公司還必須靠公開提供旗艦 AI 服務(wù)來造勢獲取更多利益。

      Mythos,就是 Anthropic 想要闖入「LLM 下一幕」的一次有力嘗試。


      轉(zhuǎn)載原創(chuàng)文章請?zhí)砑游⑿牛篺ounderparker

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      兒子說想給自己做床蠶絲被,一家三口網(wǎng)購了1萬粒蠶卵!如今12000條蠶寶寶每天要吃30斤桑葉……媽媽:崩潰并快樂著

      兒子說想給自己做床蠶絲被,一家三口網(wǎng)購了1萬粒蠶卵!如今12000條蠶寶寶每天要吃30斤桑葉……媽媽:崩潰并快樂著

      都市快報橙柿互動
      2026-05-19 00:29:55
      為什么75寸電視才2500?不是買不起,是真的沒必要買

      為什么75寸電視才2500?不是買不起,是真的沒必要買

      老特有話說
      2026-05-18 16:32:15
      特朗普:可能不得不再給伊朗猛烈一擊!北約也設(shè)下最后期限:若霍爾木茲海峽7月初未開放,將考慮護(hù)航

      特朗普:可能不得不再給伊朗猛烈一擊!北約也設(shè)下最后期限:若霍爾木茲海峽7月初未開放,將考慮護(hù)航

      每日經(jīng)濟(jì)新聞
      2026-05-20 00:56:10
      萬萬沒想到,特朗普又立“大功”,大量頂尖人才被他“送回”中國

      萬萬沒想到,特朗普又立“大功”,大量頂尖人才被他“送回”中國

      愛意隨風(fēng)起呀
      2026-05-19 20:14:30
      女人最吃的這幾種肢體觸摸,第二種一摸就心動,五十歲以上更管用

      女人最吃的這幾種肢體觸摸,第二種一摸就心動,五十歲以上更管用

      匹夫來搞笑
      2026-05-20 00:56:06
      情侶遛狗時發(fā)現(xiàn)湖里鴨子發(fā)出喵喵叫,一看竟是鴨子馱著幼貓在游動

      情侶遛狗時發(fā)現(xiàn)湖里鴨子發(fā)出喵喵叫,一看竟是鴨子馱著幼貓在游動

      半島晨報
      2026-05-19 13:15:03
      生意太好被處處刁難,屠夫6天殺13人,公安部A級通緝犯石悅軍落網(wǎng)

      生意太好被處處刁難,屠夫6天殺13人,公安部A級通緝犯石悅軍落網(wǎng)

      易玄
      2026-05-18 23:06:35
      爆雷!知名品牌天津店跑路?全國多地消費者維權(quán)!收了錢不回復(fù)!

      爆雷!知名品牌天津店跑路?全國多地消費者維權(quán)!收了錢不回復(fù)!

      天津生活通
      2026-05-19 21:05:01
      商家稱校園買家購45把雨傘全損退貨!校方:好像有班級運動會用了 具體還需再核實

      商家稱校園買家購45把雨傘全損退貨!校方:好像有班級運動會用了 具體還需再核實

      閃電新聞
      2026-05-19 21:34:39
      隨著馬刺勝雷霆,1-0領(lǐng)先,我必須承認(rèn)5個現(xiàn)實:總冠軍失去懸念

      隨著馬刺勝雷霆,1-0領(lǐng)先,我必須承認(rèn)5個現(xiàn)實:總冠軍失去懸念

      籃球掃地僧
      2026-05-19 14:00:14
      深度科普:狗交配過程為何會很難分開?下次看到狗交配請默默離開

      深度科普:狗交配過程為何會很難分開?下次看到狗交配請默默離開

      宇宙時空
      2026-05-18 17:30:14
      美國百萬顏值網(wǎng)紅出庭受審,卻被英俊法官氣場碾壓,引全網(wǎng)熱議

      美國百萬顏值網(wǎng)紅出庭受審,卻被英俊法官氣場碾壓,引全網(wǎng)熱議

      譯言
      2026-05-19 08:18:57
      35萬的瑪莎拉蒂,刺痛了多少豪車玩家!

      35萬的瑪莎拉蒂,刺痛了多少豪車玩家!

      蔣東文
      2026-05-19 21:24:32
      垃圾食品清單已列出,燕麥片排第2,排第1的很多人喜歡吃

      垃圾食品清單已列出,燕麥片排第2,排第1的很多人喜歡吃

      路醫(yī)生健康科普
      2026-05-17 19:35:03
      2026必知:強(qiáng)奸、通奸、嫖娼,法律定性與處罰全解讀

      2026必知:強(qiáng)奸、通奸、嫖娼,法律定性與處罰全解讀

      周哥一影視
      2026-05-19 14:15:11
      在岸人民幣兌美元較周一夜盤收盤跌127點

      在岸人民幣兌美元較周一夜盤收盤跌127點

      財聯(lián)社
      2026-05-20 03:10:12
      馬斯克再放話:年底全美鋪開無人出租車,德州僅30輛

      馬斯克再放話:年底全美鋪開無人出租車,德州僅30輛

      碳基打工人
      2026-05-19 00:42:10
      上次奪冠還是大帝時代,阿森納傳奇亨利轉(zhuǎn)發(fā)球隊奪冠海報

      上次奪冠還是大帝時代,阿森納傳奇亨利轉(zhuǎn)發(fā)球隊奪冠海報

      懂球帝
      2026-05-20 06:25:33
      8黃代價!海港“臟”戰(zhàn)術(shù)擊倒成都蓉城,急了:劉殿座轉(zhuǎn)身射門

      8黃代價!海港“臟”戰(zhàn)術(shù)擊倒成都蓉城,急了:劉殿座轉(zhuǎn)身射門

      足球大腕
      2026-05-19 23:27:04
      黃仁勛貼身女助理身份曝光!哈佛畢業(yè)年薪125萬美金,亞裔學(xué)霸

      黃仁勛貼身女助理身份曝光!哈佛畢業(yè)年薪125萬美金,亞裔學(xué)霸

      魔都姐姐雜談
      2026-05-18 19:18:22
      2026-05-20 06:36:49
      FounderPark incentive-icons
      FounderPark
      關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問題
      1217文章數(shù) 162關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

      頭條要聞

      媒體:特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經(jīng)要聞

      潔麗雅硬剛豪門內(nèi)斗傳言

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態(tài)度原創(chuàng)

      本地
      房產(chǎn)
      手機(jī)
      公開課
      軍事航空

      本地新聞

      別搜晉江小說了,去看真的晉江

      房產(chǎn)要聞

      7516元/㎡,161套一次全甩!??谧≌畹蛢r出現(xiàn)了!

      手機(jī)要聞

      5月最后十天,5款新機(jī)連番轟炸!從電競旗艦到中端影像都齊了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普暫緩打擊伊朗 稱系應(yīng)中東三國請求

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国内精品99偷拍| 美国特级A毛片免费网站| 国产片AV国语在线观看手机版| 99精品热在线在线观看视| 亚洲国产精品午夜福利| 丁香亚洲综合五月天婷婷| 国产精品99在线播放| 极品美女扒开粉嫩小泬图片| 国产精品成人一区二区不卡| 婷婷激情综合| 又黄又爽又色又刺激的视频| 日本精品视频一区二区| 日韩在线欧美丝袜99| 97se亚洲国产综合自在线观看 | 玩弄放荡人妇系列av在线网站| 花莲市| 久久国产乱子精品免费女| 欧美激情一区二区三区成人| 加勒比无码人妻东京热| 精品一区二区三区在线观看l| 午夜福利大片| 亚洲国产a| 久久精品国产亚洲情侣| 白丝乳交内射一二三区| 国产人免费人成免费视频| 亚洲欧美综合中文| 人妻少妇精品视频一区二区三区| 波多野结衣av一区二区三区中文| 日韩在线精品在线观看| 亚洲日本乱码中文在线电影| 国产免费无遮挡吸奶头视频| 国产成人自拍小视频在线| 欧美成人精品三级在线观看| 久久人人爽人人爽人人片av| 夜夜操COM| 亚洲AV无码精品色午夜超碰| 五月天亚洲色图| 久久精品国产亚洲av天海翼| 亚洲熟妇色xxxxx欧美老妇| 加勒比综合网| 亚洲AV无码一区二区三区高潮|