<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI的鋸齒前沿:金牌能力與簡單任務的反差,喜憂參半

      0
      分享至

      今天,斯坦福HAI重磅發布「2026年AI指數報告」!

      這份長達423頁的年度報告,全面揭示了全球AI產業的最新權力版圖。



      它給出了一條核心結論:AI的本事漲得飛快;但人類衡量和管好它的能力,卻沒怎么跟上步伐。

      其中,最震撼的結論是——

      中美AI模型性能差距已基本消失,雙方在巔峰對決中頻繁易主,目前Anthropic領先優勢僅剩2.7%。

      美國在AI上砸的錢比誰都多,但招攬頂尖人才卻越來越吃力了。

      報告還指出,AI的進化不僅沒有遭遇所謂的「瓶頸」,反而正以史無前例的速度狂飆。

      過去一年,全球超90%的頂尖模型,在博士級科學問題、多模態推理、競賽數學上的表現,追平甚至超越了人類。

      特別是在代碼能力上,SWE-bench的成績在一年內,從60%飆升至近100%。



      AI的「偏科」現象極其嚴重,呈現出一種畸形的現狀:

      LLM可以拿下IMO金牌,卻讀不對模擬時鐘,正確率僅為50.1%。

      AI搶飯碗這事兒已經從預測變成了現實,而且最先遭殃的就是當代年輕「打工人」。

      下面直接上干貨,「2026年AI指數報告」最值得關注的12個硬核趨勢。



      其他亮點速覽:

      中美貼臉

      差距只剩2.7%

      斯坦福把2023年5月以來Arena榜單上的美國第一和中國第一,畫在了同一張坐標系里。

      2023年5月,gpt-4-0314拿1320分領跑,中國這邊還是chatglm-6b,差距300多分。

      2025年2月,DeepSeek-R1第一次和美國頭部模型短暫打平。



      2026年3月,美國的Claude Opus 4.6拿到1503分,中國dola-seed-2.0-preview拿到1464分。

      如今中美AI之間的差距,僅有39分。換算成百分比,2.7%。

      更值得說的是過去一年的換位頻率。從2025年初開始,兩國頭部模型已經在Arena上你來我往換了好幾次位置。



      數量上同樣接近五五開。

      2025年美國發布了50個「顯著模型」,中國緊跟著也發布了30個頂尖大模型。

      第一梯隊里OpenAI、谷歌、阿里、Anthropic、xAI同臺站位,全球TOP 5五五分賬。

      再往下看到TOP 10,中國機構和企業占了四席,阿里、DeepSeek、清華、字節。





      開源生態這一年的重心也明顯東移。

      DeepSeek、Qwen、GLM、MiniMax、Kimi一路把開源權重的能力曲線往前推。



      價格層面是另一條戰線。

      海外開發者在X上算過一筆賬,Seed 2.0 Pro的輸出價格大約只有Claude Opus 4.6的十分之一。

      性能貼臉,價格只要十分之一。這件事的連鎖反應才剛剛開始。

      90%前沿模型出自產業

      封神速度史無前例

      去年發布的95個最具代表性的模型里,超過九成都來自產業界,不是學術機構,也不是政府實驗室。

      學術界已經追不上前沿了。



      發布速度也在變態加速。

      光是2026年2月一個月,就有Gemini 3.1 Pro、Claude Opus 4.6、GPT-5.3 Codex、Grok 4.20、Qwen 3.5、Seed 2.0 Pro、MiniMax M2.5、GLM-5八九個旗艦模型同月入場。

      封神周期從「年」變成了「月」。



      基準一年封頂

      AI沒有瓶頸

      最猛的曲線是編程。

      SWE-bench Verified這個真實修Bug的基準,一年時間從60%漲到接近100%。

      不是漲了幾個點,是基本封頂。



      Terminal-Bench測試Agent處理真實終端任務的能力,從去年的20%漲到77.3%。

      網絡安全Agent解決問題的成功率,從15%漲到93%。

      Gemini Deep Think在國際數學奧林匹克拿到金牌。

      PhD級科學問答(GPQA Diamond)、競賽數學(AIME)、多模態推理(MMMU)這些原本被認為「人類不可超越」的硬骨頭,全部被前沿模型啃了下來。



      最能說明問題的是Humanity's Last Exam。

      這是一個專門被設計來「難倒AI、偏袒人類專家」的測試,題目由各個領域的頂尖專家提供。

      去年OpenAI的o1拿到8.8%,前沿模型在一年時間里把分數往上又推了30個百分點,目前Claude Opus 4.6和Gemini 3.1 Pro已經雙雙過了50%。





      鋸齒前沿

      能拿IMO金牌卻看不懂表

      但同一份指數甩出了另一組數字。

      最強模型在「讀模擬時鐘」這個任務上的正確率,是50.1%。



      機器人在實驗室仿真環境(RLBench)里的操作成功率已經達到89.4%。但搬到真實家庭場景里完成洗碗、疊衣服這類家務,成功率立刻掉到12%。

      實驗室和廚房之間,差了77個百分點。

      研究者把這種現象命名為「鋸齒前沿」(jagged frontier)。AI能力的分布是凹凸不平的,能拿數學奧賽金牌,卻沒法穩定地告訴你現在幾點。

      AI能在數學奧賽拿金牌,但只有一半的概率能看懂模擬時鐘。AI在加速,但加速的不是同一個方向。

      另外,在智能體任務中,OSWorld測試中,前沿AI實力(66.3%)正逼近人類基線。



      在專門評估科研邏輯的PaperArena測試中,最強AI加持的Agent,得分僅39%,只有博士生一半的功力。



      但這種凹凸已經不影響企業把AI往生產線上塞。

      AI Index給出的另一個數字是,全球企業AI采用率達到88%。九成的公司已經把AI接進了某個工作流。

      代價同步在漲。AI相關事故記錄從2024年的233起漲到362起。





      錢在加速

      5817億砸進AI

      2025年全球企業AI投資達到5817億美元,同比增長130%。其中私募投資3447億美元,同比增長127.5%。

      兩條曲線都幾乎翻倍。

      國別上,美國一騎絕塵。2025年美國私募AI投資2859億美元。并且一年新增1953家AI創業公司,也是排名第二的10倍以上。



      錢在加速涌向美國。但美國的另一項核心資源,正在反向流動。



      人在流走

      進美國的AI研究者跌了89%

      里面有一組數字讓人愣了一下。

      2017年到現在,進入美國的AI研究人員和開發者數量下降了89%。

      更關鍵的是,這個下降在加速。僅僅過去一年,下降幅度就達到80%。



      美國仍然是全球AI研究人員密度最高的國家,但流入的水龍頭正在擰緊。

      錢和人這兩條曲線開始反向。這是過去十年沒出現過的局面。

      算力三年漲30倍

      命門都在一家公司手里

      AI能力曲線在加速,背后那條算力曲線跑得更猛。

      從2021年到現在,全球AI算力總量漲了30倍。過去三年里,每年都在翻三倍以上。



      撐起這條曲線的是少數幾家公司。

      英偉達一家的GPU,占據了全世界AI算力的60%以上。亞馬遜和谷歌靠自研芯片排在二三位,但加起來也遠遠追不上英偉達。

      而幾乎所有這些芯片,都來自一家代工廠,臺積電。算力曲線越陡,命門就越窄。

      代價也在加大。

      全球AI數據中心的總功率已經達到29.6 GW,相當于紐約州在用電高峰時段的全部用電需求。xAI Grok 4一次訓練的估算碳排放是72816噸二氧化碳當量,相當于17000輛汽車開一整年的尾氣。

      數據中心建在哪里,電從哪里來,芯片從哪里產,這三個問題已經變成今年所有AI公司CEO案頭最頭疼的事。

      生成式AI三年滲透53%

      中國職場使用率破80%

      生成式AI在三年內達到了53%的全球人口滲透率。

      這個速度比個人電腦快,比互聯網快。

      但滲透速度和國別相關性極強。新加坡61%,阿聯酋54%,都跑在美國前面。美國在調查覆蓋國家中只排第24位,滲透率28.3%。

      如果把維度從消費者換成職場,反差更大。

      報告里另一組數據顯示,2025年全球58%的員工在工作中已經開始經常性使用AI。但在中國、印度、尼日利亞、阿聯酋、沙特這5個國家,這個比例超過了80%。

      中國的職場AI滲透率,已經比全球平均高出20個百分點以上。



      更有意思的是消費者價值。

      AI Index估算,到2026年初,生成式AI工具每年給美國消費者創造1720億美元的價值。從2025年到2026年,每個用戶的中位數價值翻了三倍。

      絕大多數用戶用的還是免費版。

      普通人愿意為AI付的錢,遠低于AI給他們創造的價值。這中間的剪刀差是現在所有AI公司都在試圖彌合的東西。

      入門崗位銳減

      22-25歲開發崗狂砍20%

      22到25歲的軟件開發者群體,從2024年至今,就業人數下降了大約20%。

      同期,年紀更大的同行群體反而在增長。

      不止開發崗。客服等其他高AI暴露行業,也在出現同樣的模式。

      更讓人擔心的是企業問卷的結果。受訪高管普遍預期,未來的裁員幅度會比過去幾個月還要大。

      這不是宏觀失業率的事,是入口崗位被精準切掉的事。

      第一份工作沒了,整個職業階梯就斷了一格。這件事的長期影響,現在沒人能算清。



      AI正在改寫科學發現的方式

      如果說就業那一段是冷的,科學這段就是熱的。

      具體到應用,今年第一次有AI完整跑通了端到端的天氣預報流程。從原始氣象觀測數據直接吐出溫度、風速、濕度的最終預報,中間沒有任何傳統數值模型介入。



      醫院里也是一樣。2025年大量醫院開始部署能從就診對話自動生成臨床記錄的AI工具。多個醫院系統的醫生反饋,寫病歷的時間減少了多達83%,工作倦怠顯著下降。

      但同一份指數給醫療AI潑了一盆冷水。一份針對500多個臨床AI研究的綜述發現,將近一半的研究依賴考試題式的數據集,只有5%用了真實臨床數據。

      AI能減少醫生敲鍵盤的時間,這件事是確定的。AI在真實病人身上的臨床價值,目前還有大量問號。



      自學浪潮全球開炸

      正規教育已經掉隊

      正規教育跟不上AI了。

      美國有4/5的高中生和大學生現在用AI完成學校作業。但只有一半的中學有AI使用政策,只有6%的老師認為這些政策寫得清楚。

      學生跑在前面,老師還在原地,規則還沒出現。

      正規教育跟不上的同時,自學浪潮在全球開炸。里面寫,學AI工程技能增長最快的三個國家分別是阿聯酋、智利和南非。

      不是美國,不是歐洲。

      技能曲線的最陡峭的那一段,長在所有人都沒在看的地方。





      最強模型變成最不透明的

      專家和公眾撕裂

      最強的模型,正在變成最不透明的模型。

      Foundation Model Transparency Index今年的平均分從去年的58分跌到了40分。AI Index直接點名,谷歌、Anthropic、OpenAI都已經放棄公開最新模型的訓練數據規模和訓練時長。

      去年發布的95個最具代表性的模型里,80個沒有公開訓練代碼。

      公眾的情緒也變得更復雜。

      全球范圍內,認為AI利大于弊的比例從52%上升到59%。但同期,對AI感到緊張的比例從50%上升到52%。

      兩個方向在同時增長。

      最分裂的是美國。只有33%的美國人認為AI會讓自己的工作變得更好,全球平均是40%。美國人對本國政府監管AI的信任度,是受訪國家里最低的,31%。

      新加坡人對自己政府監管AI的信任度,是81%。



      最近Sam Altman家被襲擊的事件之后,硅谷圈內人「驚訝地發現」Instagram評論區里的普通人對此并不同情,甚至有人覺得「應該更激烈一點」。

      他們沒意識到事情已經糟到這個程度。

      研報引用的Pew和Ipsos數據,專家和公眾在AI影響就業、醫療、經濟這些維度上的觀感差距,普遍超過30個百分點,最大的一項達到50個百分點。

      一邊是實驗室里的曲線在飛漲,一邊是普通人心里的不安在累積。

      中間沒有橋。



      423頁的報告里有幾百張圖表,但其實只畫了一張圖。

      橫軸是時間,縱軸是能力。

      模型能力的曲線在飛,算力曲線在飛,投資曲線在飛,采用率曲線在飛。其他全都在原地踏步或者向下。

      這就是2026年AI Index的全部內容。

      AI在加速。其他所有東西都在脫節。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      四川禁煙怎么不直接關閉煙店?網友:發現商機?

      四川禁煙怎么不直接關閉煙店?網友:發現商機?

      王二哥老搞笑
      2026-05-05 03:45:04
      【英國】王子交稅單曝光,英國人驚了:原來王子是最大地主“包租公”?相當于擁有天津

      【英國】王子交稅單曝光,英國人驚了:原來王子是最大地主“包租公”?相當于擁有天津

      魯曉芙看歐洲
      2026-05-05 01:09:57
      技術越牛,死得越快?一個蘇州新材料老板的深夜困惑

      技術越牛,死得越快?一個蘇州新材料老板的深夜困惑

      胡華成
      2026-04-05 18:18:14
      小鵬智駕未來領先主流120倍?我提醒:從無對手能領先華為100倍!

      小鵬智駕未來領先主流120倍?我提醒:從無對手能領先華為100倍!

      阿芒娛樂說
      2026-05-03 21:48:53
      亮劍中趙剛死前透露:李云龍當年不顧降職也要斬山貓子是另有原因

      亮劍中趙剛死前透露:李云龍當年不顧降職也要斬山貓子是另有原因

      呆子的故事
      2026-02-09 14:19:33
      春晚爆紅后,她洗完澡從23樓一躍而下,臨終時最后喊了聲"媽媽"

      春晚爆紅后,她洗完澡從23樓一躍而下,臨終時最后喊了聲"媽媽"

      米果說識
      2026-04-18 16:50:03
      昆明酒店劫持案細節披露:歹徒連續射擊,反恐隊員防彈衣連中兩槍,“我明顯感覺已中槍”

      昆明酒店劫持案細節披露:歹徒連續射擊,反恐隊員防彈衣連中兩槍,“我明顯感覺已中槍”

      南方都市報
      2026-05-04 15:50:16
      特工、逆向工程、舉國發力,蘇聯用盡一切手段造芯片,輸在哪了?

      特工、逆向工程、舉國發力,蘇聯用盡一切手段造芯片,輸在哪了?

      差評XPIN
      2026-05-05 00:09:30
      海拔5000米以上的雪山堵成了人山人海,四川阿壩四姑娘山大雪難擋“沖頂大軍”,大峰打卡排隊超1小時,景區回應:雪山排隊情況屬實

      海拔5000米以上的雪山堵成了人山人海,四川阿壩四姑娘山大雪難擋“沖頂大軍”,大峰打卡排隊超1小時,景區回應:雪山排隊情況屬實

      揚子晚報
      2026-05-04 18:57:09
      記者:李金羽參加發布會前清楚即將下課,鐵人開出翻倍重獎

      記者:李金羽參加發布會前清楚即將下課,鐵人開出翻倍重獎

      懂球帝
      2026-05-04 22:49:51
      熱議李金羽下課:有點突然,鎮不住遼寧這些人;徐正源有鐵血氣質

      熱議李金羽下課:有點突然,鎮不住遼寧這些人;徐正源有鐵血氣質

      懂球帝
      2026-05-04 18:24:14
      吳宜澤18-17奪冠!賽后聽聽對手 同行和媒體怎么說:中國時代到來

      吳宜澤18-17奪冠!賽后聽聽對手 同行和媒體怎么說:中國時代到來

      侃球熊弟
      2026-05-05 06:49:38
      九州哀哭 瑞典判處一名巴勒斯坦鐵血戰士終生監禁

      九州哀哭 瑞典判處一名巴勒斯坦鐵血戰士終生監禁

      腌臜潑才
      2026-05-05 09:00:21
      悲催!一輛飛度被人群裹起來,車上扔滿垃圾,還寫著罵人的臟話…

      悲催!一輛飛度被人群裹起來,車上扔滿垃圾,還寫著罵人的臟話…

      火山詩話
      2026-05-05 08:16:25
      8死!丹東發生一起交通事故,當地網友爆料,是“一車摘草莓的”

      8死!丹東發生一起交通事故,當地網友爆料,是“一車摘草莓的”

      火山詩話
      2026-05-04 18:55:32
      六盤水用1200萬抵扣2.2億債務,女子拒絕后遭逮捕,被批不識抬舉

      六盤水用1200萬抵扣2.2億債務,女子拒絕后遭逮捕,被批不識抬舉

      干史人
      2025-04-25 08:30:03
      生理旺盛的女性,大多有這3個特征,超準!

      生理旺盛的女性,大多有這3個特征,超準!

      白宸侃片
      2026-05-05 09:27:52
      上海鬧市被遺忘的寺廟舊址,曾做過20年火葬場,現在內部竟是民居

      上海鬧市被遺忘的寺廟舊址,曾做過20年火葬場,現在內部竟是民居

      戶外阿嶄
      2026-05-05 05:26:30
      景區內游客爆發肢體爭執,沖突中多人墜落,現場實景被拍下

      景區內游客爆發肢體爭執,沖突中多人墜落,現場實景被拍下

      星娛叨叨社
      2026-04-30 14:32:32
      羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      羅翔:如果一個人突然努力工作,業余時間開始學習,不再參加社交活動,那么,身邊的人可能不僅不會幫他,還會拉他下來,原因就一個!

      譚老師地理大課堂
      2026-04-22 00:03:57
      2026-05-05 10:43:00
      心本來就不大
      心本來就不大
      心本來就不大
      541文章數 105關注度
      往期回顧 全部

      科技要聞

      OpenAI/Anthropic同日被曝拉攏華爾街建合資公司

      頭條要聞

      牛彈琴:中東又出大事 最倒霉的是三個國家

      頭條要聞

      牛彈琴:中東又出大事 最倒霉的是三個國家

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺

      財經要聞

      五一假期,中國年輕人的“首爾病”犯了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      藝術
      數碼
      教育
      本地
      軍事航空

      藝術要聞

      有多少人知道,它曾是亞洲第一高樓?

      數碼要聞

      蘋果發布2026年Pride特別版表帶及配套表盤與壁紙

      教育要聞

      就業落實率較低!一省發布省控專業名單

      本地新聞

      用青花瓷的方式,打開西溪濕地

      軍事要聞

      特朗普回絕伊朗新方案

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色婷婷粉嫩Av| 精品久久中文字幕有码| 人妻丝袜无码专区视频网站| 人妻激情综合网| 国产欧美一级二级三级| 丝袜shi在线播放| 亚洲免费视频一区二区三区| 国产精品亚洲综合第一页| 国际视频久久久久久久久国产| 日本一区二区无卡高清视频| 亚洲情A成黄在线观看动漫尤物| 男人色天堂| 亚洲精品无| 成人免费视频深夜视频在线看网站| 2021久久精品国产99国产精品| 人妻丝袜无码专区视频网站| 亚洲中文av| 女人裸体做爰免费视频| 99视频30精品视频在线观看| 白丝乳交内射一二三区| 国产精品综合av一区二区| 一区二区免费| 天天爽欧美| 一级做a爰片久久毛片下载| 欧美3p视频在线观看| 国产色婷婷亚洲99精品小说| 99中文在线精品| 九九免费视频A| 久久99国产亚洲高清| 国产91精品调教在线播放| 蜜桃臀av在线一区二区| 香蕉亚洲欧洲在线一区| 亚洲AV无灬| 精品一区二区三区色噜噜| 国产在线一区二区在线视频| 99久久精品国产一区二区蜜芽| 中文字幕无线精品亚洲乱码一区 | 1024在线看国产亚洲欧美| 中文字幕在线观看亚洲| 免费无码又爽又刺激网站直播| 无码久久久|