![]()
斯坦福最新AI指數(shù)報告釋放重磅信號:中美AI模型性能差距已被幾乎抹平,高達(dá)88%的企業(yè)已悄然“搶跑”。但這只是冰山一角,翻開這份報告,一幅關(guān)于未來的真實圖景正在浮現(xiàn):過去一年,AI究竟把我們推向了怎樣的世界?
當(dāng)?shù)貢r間4月13日,由斯坦福大學(xué)以人為本AI研究所發(fā)布了AI年度報告——《2026年AI指數(shù)報告》,今年已是第九屆。今年的報告篇幅超過400頁,追蹤了AI在技術(shù)能力、研究成果、投資、人才隊伍、政策及公眾認(rèn)知等領(lǐng)域的進展。該報告被視為全球AI發(fā)展最全面的獨立年度評估報告。
2025年,支撐AI發(fā)展的資源持續(xù)增長,但發(fā)布的知名模型數(shù)量較前一年有所減少,前沿領(lǐng)域的技術(shù)系統(tǒng)也愈發(fā)集中在少數(shù)機構(gòu)手中。如今行業(yè)占比超過90%的知名AI模型,而性能最強的系統(tǒng)同時也是透明度最低的,其訓(xùn)練代碼、數(shù)據(jù)集規(guī)模和參數(shù)數(shù)量的公開程度愈發(fā)降低。自2022年以來,這些模型背后的算力每年約增長3.3倍,但幾乎所有算力都依賴中國臺灣的一家芯片代工廠,這使得全球硬件供應(yīng)鏈?zhǔn)执嗳酢C绹陧敿饽P头矫骖I(lǐng)先,中美模型性能差距在顯著縮小,基本“抹平”。中國目前在發(fā)表論文數(shù)量、引文占比和專利授權(quán)量方面位居前列,而瑞士、新加坡等小國則在人均AI研究人員數(shù)量上領(lǐng)先。
以下是核心要點:
1. AI能力正在加速發(fā)展,并惠及比以往更多的人群
![]()
2025年,超過90%的知名前沿模型由行業(yè)開發(fā),其中部分模型在博士級科學(xué)問題、多模態(tài)推理及競賽數(shù)學(xué)領(lǐng)域已達(dá)到或超越人類基準(zhǔn)水平。在關(guān)鍵編程基準(zhǔn)測試——SWE-bench Verified中,性能在短短一年內(nèi)從60%躍升至接近100%。企業(yè)采用率達(dá)到88%,五分之四的大學(xué)生現(xiàn)在使用生成式AI。
2. 中美兩國AI模型性能差距已基本“抹平”
自2025年初以來,中美兩國的AI模型多次交替領(lǐng)先。2025年2月,DeepSeek-R1曾短暫追平美國頂尖模型,截至2026年3月。在斯坦福大學(xué)追蹤的基準(zhǔn)測試中,Anthropic的頂尖模型比表現(xiàn)最佳的中國模型領(lǐng)先2.7%。
美國仍產(chǎn)出更多頂尖AI模型和影響更大的專利,而中國在論文發(fā)表量、被引用次數(shù)、專利產(chǎn)出及工業(yè)機器人安裝量方面處于領(lǐng)先地位。韓國在創(chuàng)新密度方面表現(xiàn)突出,人均AI專利數(shù)量位居世界第一。
![]()
3. 前沿AI模型性能趨于收斂
過去一年,前沿模型的差距進一步縮小,頂級模型的表現(xiàn)正趨于一致,在競技場排行榜和基準(zhǔn)測試中,經(jīng)人類投票相互評分時,目前有4家公司的Elo評分(借鑒國際象棋評分體系)差距控制在25分以內(nèi)。截至2026年3月,Anthropic(1503分)、xAI(1495分)、谷歌(1494分)、OpenAI(1481分)、阿里巴巴(1449分)和深度求索(1424分)均位居競技場Elo評分的第一梯隊,競爭壓力也隨之轉(zhuǎn)向成本、可靠性和領(lǐng)域特定性能方面。
![]()
2023年初,OpenAI憑借其頂級模型1322分的成績占據(jù)明顯領(lǐng)先優(yōu)勢,而谷歌當(dāng)時僅為1117分。2024年全年,這一差距持續(xù)收窄,谷歌、Anthropic等公司相繼推出性能更強的模型。截至2025年2月,深度求索(DeepSeek)曾短暫追平并超越了美國競技場排名前列的模型。去年的報告中,排名前四的模型分差約為97分,而到2026年3月,前四名模型的分差已不足25分。
4. AI模型能在國際奧數(shù)競賽中摘得金牌卻無法準(zhǔn)確報時
Gemini Deep Think在國際數(shù)學(xué)奧林匹克競賽中斬獲金牌,但該頂尖模型正確讀取指針式時鐘的準(zhǔn)確率僅為50.1%。在測試跨操作系統(tǒng)真實計算機任務(wù)的OSWorld平臺上,AI代理的任務(wù)成功率從12%躍升至約66%,但在結(jié)構(gòu)化基準(zhǔn)測試中,其失敗率仍高達(dá)三分之一。
![]()
尤其在機器人領(lǐng)域,盡管機器人在受控環(huán)境中表現(xiàn)出色,但在大多數(shù)家務(wù)任務(wù)上仍表現(xiàn)不佳。機器人僅能完成12%的家務(wù)任務(wù),這凸顯了AI距離掌握物理世界還有很大差距。在RLBench平臺上,基于軟件模擬的機器人操作成功率已達(dá)到89.4%,但可預(yù)測的實驗室環(huán)境與不可預(yù)測的家庭環(huán)境之間存在巨大差距。
5. 負(fù)責(zé)任的AI未能跟上AI能力發(fā)展的步伐,安全基準(zhǔn)測試滯后
幾乎所有領(lǐng)先的前沿AI模型開發(fā)者都會報告能力基準(zhǔn)測試的結(jié)果,但關(guān)于負(fù)責(zé)任AI基準(zhǔn)測試的報告仍不完整。已記錄的AI事件從2024年的233起上升至362起。更具挑戰(zhàn)性的是,最新研究發(fā)現(xiàn),改善一個負(fù)責(zé)任AI維度(如安全性)可能會導(dǎo)致另一個維度(如準(zhǔn)確性)的下降。
![]()
6. 美國在AI投資方面處于領(lǐng)先地位,但其吸引全球人才的能力正在下降
2025年,美國私營AI投資達(dá)到2859億美元,是中國的124億美元投資額的23倍以上——僅看私營投資數(shù)據(jù)可能會低估中國的總AI支出,因為中國還有政府指導(dǎo)基金。在創(chuàng)業(yè)活動方面,美國同樣處于領(lǐng)先地位,2025年獲得新融資的AI公司達(dá)1,953家,是排名第二國家的10倍以上。然而,自2017年以來,移居美國的AI研究人員和開發(fā)人員數(shù)量下降了89%,僅去年一年就減少了80%。
![]()
7. AI加速普及,普及速度超過互聯(lián)網(wǎng)
生成式AI在三年內(nèi)的普及率達(dá)到了53%,這一速度超過了個人電腦和互聯(lián)網(wǎng)。各國的普及率差異巨大,且與GDP高度相關(guān),不過有一些國家的普及率超出了其收入水平所對應(yīng)的預(yù)期,其中新加坡達(dá)61%,阿聯(lián)酋達(dá)54%。盡管美國在AI投資和模型開發(fā)方面處于領(lǐng)先地位,但其普及率僅為28.3%,位列第24位。
![]()
8. 企業(yè)AI采用率達(dá)88%,AI加劇就業(yè)影響
2025年,企業(yè)對AI的采用在使用場景和功能上均持續(xù)拓展。絕大多數(shù)受訪者表示其所在企業(yè)至少在一項業(yè)務(wù)職能中應(yīng)用了AI,這一比例從2024年的78%升至2025年的88%。超過一半的受訪者表示至少有三項業(yè)務(wù)職能在利用AI。生成式AI的應(yīng)用也呈現(xiàn)出同樣的增長態(tài)勢,79%的受訪者稱其所在企業(yè)至少在一項業(yè)務(wù)職能中常規(guī)使用生成式AI,2024年這一比例為71%。各地區(qū)均出現(xiàn)了AI應(yīng)用范圍擴大的情況,不過增長速度有所不同。中國和歐洲的AI企業(yè)應(yīng)用率同比增幅更高,分別提升了13%和11%。
![]()
AI對勞動力市場的影響正不均衡地顯現(xiàn),集中體現(xiàn)在招聘流程以及年輕勞動者身上。2024年以來,22至25歲軟件開發(fā)人員的就業(yè)率下降了近20%。雇主調(diào)查顯示未來還將有進一步變化,三分之一的受訪者預(yù)計未來一年將進行裁員。
三分之一的企業(yè)預(yù)計未來一年AI將縮減其員工規(guī)模,盡管整體就業(yè)數(shù)據(jù)中尚未出現(xiàn)大規(guī)模裁員現(xiàn)象。近一半的受訪企業(yè)預(yù)期員工數(shù)量幾乎沒有變化。預(yù)計裁員比例最高的領(lǐng)域是服務(wù)運營、供應(yīng)鏈和軟件工程。在幾乎所有職能部門中,預(yù)期的裁員人數(shù)都超過了實際裁員人數(shù)。
9. AI專家與公眾對該技術(shù)未來的看法存在顯著差異
在AI對工作方式的影響方面,73%的專家預(yù)期其將產(chǎn)生積極影響,而公眾中持此觀點的僅占23%,兩者存在50%的差距。在AI對經(jīng)濟和醫(yī)療保健的影響方面,也出現(xiàn)了類似的分歧。在全球范圍內(nèi),對政府監(jiān)管AI能力的信任度各不相同。在受訪國家中,美國民眾對其政府監(jiān)管AI能力的信任度最低,僅為31%。在全球范圍內(nèi),相比美國或中國,歐盟在有效監(jiān)管AI方面更受信任。
![]()
10. AI對環(huán)境的影響在不斷擴大
AI的環(huán)境足跡正隨著其能力的提升而不斷擴大。該報告估計,訓(xùn)練最新一代的大型語言模型(如xAI的Grok 4)可產(chǎn)生超過72,000噸的碳排放,這一數(shù)字較往年估算值大幅攀升。AI推理產(chǎn)生的排放量也在持續(xù)增加,盡管不同模型的結(jié)果存在差異。報告估計,推理效率最低的模型產(chǎn)生的碳排放量是效率最高模型的10倍以上。AI數(shù)據(jù)中心的電力容量已升至29.6吉瓦,與紐約州的峰值用電需求相當(dāng),而僅GPT-4o每年的推理用水量就可能超過1200萬人的飲用水需求。
11. 模型透明度正在下降
報告指出AI模型透明度正呈現(xiàn)令人擔(dān)憂的下降趨勢。OpenAI、Anthropic和谷歌已停止披露其最先進模型的訓(xùn)練數(shù)據(jù)集規(guī)模、參數(shù)數(shù)量及訓(xùn)練時長。在2025年發(fā)布的95個最具影響力的AI模型中,有80個未公開訓(xùn)練代碼。如今,性能最強的模型反而成為該領(lǐng)域透明度最低的系統(tǒng)。
報告鏈接:https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.