斯坦福AI指數(shù)報告：88%企業(yè)已“上車”，中美AI差距抹平

2026-04-16 17:36:24　來源: ITPUB學(xué)院

北京舉報

分享至

斯坦福最新AI指數(shù)報告釋放重磅信號：中美AI模型性能差距已被幾乎抹平，高達(dá)88%的企業(yè)已悄然“搶跑”。但這只是冰山一角，翻開這份報告，一幅關(guān)于未來的真實圖景正在浮現(xiàn)：過去一年，AI究竟把我們推向了怎樣的世界？

當(dāng)?shù)貢r間4月13日，由斯坦福大學(xué)以人為本AI研究所發(fā)布了AI年度報告——《2026年AI指數(shù)報告》，今年已是第九屆。今年的報告篇幅超過400頁，追蹤了AI在技術(shù)能力、研究成果、投資、人才隊伍、政策及公眾認(rèn)知等領(lǐng)域的進展。該報告被視為全球AI發(fā)展最全面的獨立年度評估報告。

2025年，支撐AI發(fā)展的資源持續(xù)增長，但發(fā)布的知名模型數(shù)量較前一年有所減少，前沿領(lǐng)域的技術(shù)系統(tǒng)也愈發(fā)集中在少數(shù)機構(gòu)手中。如今行業(yè)占比超過90%的知名AI模型，而性能最強的系統(tǒng)同時也是透明度最低的，其訓(xùn)練代碼、數(shù)據(jù)集規(guī)模和參數(shù)數(shù)量的公開程度愈發(fā)降低。自2022年以來，這些模型背后的算力每年約增長3.3倍，但幾乎所有算力都依賴中國臺灣的一家芯片代工廠，這使得全球硬件供應(yīng)鏈?zhǔn)执嗳酢Ｃ绹陧敿饽Ｐ头矫骖I(lǐng)先，中美模型性能差距在顯著縮小，基本“抹平”。中國目前在發(fā)表論文數(shù)量、引文占比和專利授權(quán)量方面位居前列，而瑞士、新加坡等小國則在人均AI研究人員數(shù)量上領(lǐng)先。

以下是核心要點：

1. AI能力正在加速發(fā)展，并惠及比以往更多的人群

2025年，超過90%的知名前沿模型由行業(yè)開發(fā)，其中部分模型在博士級科學(xué)問題、多模態(tài)推理及競賽數(shù)學(xué)領(lǐng)域已達(dá)到或超越人類基準(zhǔn)水平。在關(guān)鍵編程基準(zhǔn)測試——SWE-bench Verified中，性能在短短一年內(nèi)從60%躍升至接近100%。企業(yè)采用率達(dá)到88%，五分之四的大學(xué)生現(xiàn)在使用生成式AI。

2. 中美兩國AI模型性能差距已基本“抹平”

自2025年初以來，中美兩國的AI模型多次交替領(lǐng)先。2025年2月，DeepSeek-R1曾短暫追平美國頂尖模型，截至2026年3月。在斯坦福大學(xué)追蹤的基準(zhǔn)測試中，Anthropic的頂尖模型比表現(xiàn)最佳的中國模型領(lǐng)先2.7%。

美國仍產(chǎn)出更多頂尖AI模型和影響更大的專利，而中國在論文發(fā)表量、被引用次數(shù)、專利產(chǎn)出及工業(yè)機器人安裝量方面處于領(lǐng)先地位。韓國在創(chuàng)新密度方面表現(xiàn)突出，人均AI專利數(shù)量位居世界第一。

3. 前沿AI模型性能趨于收斂

過去一年，前沿模型的差距進一步縮小，頂級模型的表現(xiàn)正趨于一致，在競技場排行榜和基準(zhǔn)測試中，經(jīng)人類投票相互評分時，目前有4家公司的Elo評分（借鑒國際象棋評分體系）差距控制在25分以內(nèi)。截至2026年3月，Anthropic（1503分）、xAI（1495分）、谷歌（1494分）、OpenAI（1481分）、阿里巴巴（1449分）和深度求索（1424分）均位居競技場Elo評分的第一梯隊，競爭壓力也隨之轉(zhuǎn)向成本、可靠性和領(lǐng)域特定性能方面。

2023年初，OpenAI憑借其頂級模型1322分的成績占據(jù)明顯領(lǐng)先優(yōu)勢，而谷歌當(dāng)時僅為1117分。2024年全年，這一差距持續(xù)收窄，谷歌、Anthropic等公司相繼推出性能更強的模型。截至2025年2月，深度求索（DeepSeek）曾短暫追平并超越了美國競技場排名前列的模型。去年的報告中，排名前四的模型分差約為97分，而到2026年3月，前四名模型的分差已不足25分。

4. AI模型能在國際奧數(shù)競賽中摘得金牌卻無法準(zhǔn)確報時

Gemini Deep Think在國際數(shù)學(xué)奧林匹克競賽中斬獲金牌，但該頂尖模型正確讀取指針式時鐘的準(zhǔn)確率僅為50.1%。在測試跨操作系統(tǒng)真實計算機任務(wù)的OSWorld平臺上，AI代理的任務(wù)成功率從12%躍升至約66%，但在結(jié)構(gòu)化基準(zhǔn)測試中，其失敗率仍高達(dá)三分之一。

尤其在機器人領(lǐng)域，盡管機器人在受控環(huán)境中表現(xiàn)出色，但在大多數(shù)家務(wù)任務(wù)上仍表現(xiàn)不佳。機器人僅能完成12%的家務(wù)任務(wù)，這凸顯了AI距離掌握物理世界還有很大差距。在RLBench平臺上，基于軟件模擬的機器人操作成功率已達(dá)到89.4%，但可預(yù)測的實驗室環(huán)境與不可預(yù)測的家庭環(huán)境之間存在巨大差距。

5. 負(fù)責(zé)任的AI未能跟上AI能力發(fā)展的步伐，安全基準(zhǔn)測試滯后

幾乎所有領(lǐng)先的前沿AI模型開發(fā)者都會報告能力基準(zhǔn)測試的結(jié)果，但關(guān)于負(fù)責(zé)任AI基準(zhǔn)測試的報告仍不完整。已記錄的AI事件從2024年的233起上升至362起。更具挑戰(zhàn)性的是，最新研究發(fā)現(xiàn)，改善一個負(fù)責(zé)任AI維度（如安全性）可能會導(dǎo)致另一個維度（如準(zhǔn)確性）的下降。

6. 美國在AI投資方面處于領(lǐng)先地位，但其吸引全球人才的能力正在下降

2025年，美國私營AI投資達(dá)到2859億美元，是中國的124億美元投資額的23倍以上——僅看私營投資數(shù)據(jù)可能會低估中國的總AI支出，因為中國還有政府指導(dǎo)基金。在創(chuàng)業(yè)活動方面，美國同樣處于領(lǐng)先地位，2025年獲得新融資的AI公司達(dá)1,953家，是排名第二國家的10倍以上。然而，自2017年以來，移居美國的AI研究人員和開發(fā)人員數(shù)量下降了89%，僅去年一年就減少了80%。

7. AI加速普及，普及速度超過互聯(lián)網(wǎng)

生成式AI在三年內(nèi)的普及率達(dá)到了53%，這一速度超過了個人電腦和互聯(lián)網(wǎng)。各國的普及率差異巨大，且與GDP高度相關(guān)，不過有一些國家的普及率超出了其收入水平所對應(yīng)的預(yù)期，其中新加坡達(dá)61%，阿聯(lián)酋達(dá)54%。盡管美國在AI投資和模型開發(fā)方面處于領(lǐng)先地位，但其普及率僅為28.3%，位列第24位。

8. 企業(yè)AI采用率達(dá)88%，AI加劇就業(yè)影響

2025年，企業(yè)對AI的采用在使用場景和功能上均持續(xù)拓展。絕大多數(shù)受訪者表示其所在企業(yè)至少在一項業(yè)務(wù)職能中應(yīng)用了AI，這一比例從2024年的78%升至2025年的88%。超過一半的受訪者表示至少有三項業(yè)務(wù)職能在利用AI。生成式AI的應(yīng)用也呈現(xiàn)出同樣的增長態(tài)勢，79%的受訪者稱其所在企業(yè)至少在一項業(yè)務(wù)職能中常規(guī)使用生成式AI，2024年這一比例為71%。各地區(qū)均出現(xiàn)了AI應(yīng)用范圍擴大的情況，不過增長速度有所不同。中國和歐洲的AI企業(yè)應(yīng)用率同比增幅更高，分別提升了13%和11%。

AI對勞動力市場的影響正不均衡地顯現(xiàn)，集中體現(xiàn)在招聘流程以及年輕勞動者身上。2024年以來，22至25歲軟件開發(fā)人員的就業(yè)率下降了近20%。雇主調(diào)查顯示未來還將有進一步變化，三分之一的受訪者預(yù)計未來一年將進行裁員。

三分之一的企業(yè)預(yù)計未來一年AI將縮減其員工規(guī)模，盡管整體就業(yè)數(shù)據(jù)中尚未出現(xiàn)大規(guī)模裁員現(xiàn)象。近一半的受訪企業(yè)預(yù)期員工數(shù)量幾乎沒有變化。預(yù)計裁員比例最高的領(lǐng)域是服務(wù)運營、供應(yīng)鏈和軟件工程。在幾乎所有職能部門中，預(yù)期的裁員人數(shù)都超過了實際裁員人數(shù)。

9. AI專家與公眾對該技術(shù)未來的看法存在顯著差異

在AI對工作方式的影響方面，73%的專家預(yù)期其將產(chǎn)生積極影響，而公眾中持此觀點的僅占23%，兩者存在50%的差距。在AI對經(jīng)濟和醫(yī)療保健的影響方面，也出現(xiàn)了類似的分歧。在全球范圍內(nèi)，對政府監(jiān)管AI能力的信任度各不相同。在受訪國家中，美國民眾對其政府監(jiān)管AI能力的信任度最低，僅為31%。在全球范圍內(nèi)，相比美國或中國，歐盟在有效監(jiān)管AI方面更受信任。

10. AI對環(huán)境的影響在不斷擴大

AI的環(huán)境足跡正隨著其能力的提升而不斷擴大。該報告估計，訓(xùn)練最新一代的大型語言模型（如xAI的Grok 4）可產(chǎn)生超過72,000噸的碳排放，這一數(shù)字較往年估算值大幅攀升。AI推理產(chǎn)生的排放量也在持續(xù)增加，盡管不同模型的結(jié)果存在差異。報告估計，推理效率最低的模型產(chǎn)生的碳排放量是效率最高模型的10倍以上。AI數(shù)據(jù)中心的電力容量已升至29.6吉瓦，與紐約州的峰值用電需求相當(dāng)，而僅GPT-4o每年的推理用水量就可能超過1200萬人的飲用水需求。

11. 模型透明度正在下降

報告指出AI模型透明度正呈現(xiàn)令人擔(dān)憂的下降趨勢。OpenAI、Anthropic和谷歌已停止披露其最先進模型的訓(xùn)練數(shù)據(jù)集規(guī)模、參數(shù)數(shù)量及訓(xùn)練時長。在2025年發(fā)布的95個最具影響力的AI模型中，有80個未公開訓(xùn)練代碼。如今，性能最強的模型反而成為該領(lǐng)域透明度最低的系統(tǒng)。

報告鏈接：https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.