網易首頁 > 網易號 > 正文申請入駐

12張圖表解讀2026年AI發展現狀和趨勢……斯坦福大學發布《2026年人工智能指數報告》

2026-04-27 16:58:57　來源: 世界科學

上海舉報

分享至

設置星標★關注，從此你的世界多點科學~

頂尖AI模型正加速升級，頭部AI企業則正加速上市，比如準備于2026年下半年提交首次公開募股(IPO)申請的OpenAI和Anthropic。

而在另一邊，是大眾對AI喜憂參半、愛恨交織的復雜情緒，以及部分地區已經爆發的人-機矛盾，例如，美國的某些地方政府開始限制甚至禁止新建數據中心。

值得追蹤的AI領域信息可謂紛繁，有沒有一份總結報告可為大家梳理行業全貌、總結發展趨勢？斯坦福大學以人為本人工智能研究院（Stanford HAI）4月13日發布的《2026年人工智能指數報告》（），值得追看。

這份長達400多頁的報告包含數十個數據指標與圖表，從基準測試得分、投資規模、公眾認知等多個維度，全面解讀AI發展現狀。IEEE Spectrum雜志的編輯近期提煉出該報告的關鍵內容，配合12幅數據圖表，總結了全球AI發展的最新趨勢。

美國企業領跑AI模型開發

過去十年，美國是人工智能模型領域的帶頭大哥，且直到2025年依然優勢穩固。

長期關注AI發展趨勢的多學科研究機構Epoch AI此前發布數據稱：2025年“美產”的“知名”AI模型(發布機構的總部位于美國)數量高達50個；中國機構進步神速，在2025年貢獻了總計30個杰出模型；歐洲方面則只有2個。

下圖展示了2003～2025年美國、中國、歐洲發布的知名AI模型數量變化趨勢。

另一項關鍵的長期趨勢是企業成為開發主力。這里引用Epoch AI的統計數據：2025年有87個知名模型出自企業，其他來源的僅7個。企業占據標桿產品總量的90%以上；此比例在2015年不到50%，在2003年則為0。因而可以認為，如今幾乎所有知名AI模型均由企業而非學術或政府機構研發。

中國在機器人賽道一騎絕塵

美國發布了最多模型，中國則部署了最多機器人，且同樣領銜優勢巨大。

根據國際機器人聯合會（IFR）的數據，2024年中國新增工業機器人安裝量達29.5萬臺，日本與美國的新裝量分別約為4.45萬臺和3.42萬臺。

下圖展示了2011~2024年德國、韓國、美國、日本和中國的每年新增工業機器人安裝量。可以看到中國遙遙領先。

自2022年以來，全球AI算力年增長3.3倍

斯坦福大學最新的人工智能指數報告提供了大量關于AI建設的亮眼數據。不過要說亮眼，Epoch AI統計的全球人工智能總算力數據可謂璀璨耀眼。

下圖基于Epoch AI的數據繪制，展示了英偉達、谷歌、亞馬遜、AMD、華為的AI芯片在全球算力中占據的份額。

如圖所示，以英偉達H100芯片算力為基準，自2022年以來，全球人工智能算力每年增長超3倍；自2021年以來，總算力已增長30倍。

此外，英偉達一直獨占算力鰲頭，是算力擴張浪潮中的最大受益者，其GPU占當前全球AI總算力的60%以上，而自主設計AI專用硬件的亞馬遜和谷歌分別位列第二、三位。

AI模型訓練造成巨量碳排放

斯坦福人工智能指數報告往年就已指出AI訓練的碳排放問題——眼下,此問題仍持續加劇并引發擔憂。

報告估計，訓練諸如Grok 4(由xAI公司創建)這樣的前沿大語言模型，會帶來遠高于往年估算值、超7.2萬噸的二氧化碳當量排放。OpenAI的GPT-4預計造成5184噸碳排放，Meta的Llama 3.1 405B則會產生8930噸。

下圖展示了2012~2025年間多款知名AI模型訓練產生的預估碳排放量。2025年的碳排放量因Grok 3和Grok 4模型而大幅飆升。

不過，該指數報告的指導委員會聯合主任雷·佩羅特(Ray Perrault)認為估算出的結果需謹慎解讀：“Grok模型的碳排放數據高度依賴公開報道(如《福布斯》雜志文章)、xAI官方聲明以及其他未經核實的信息，因此其中引入了一些不確定性。Epoch AI獨立估算的Grok 4碳排放更驚人，高達約14萬噸二氧化碳當量。”

人工智能推理環節的碳排放也持續上升，當然，不同模型差異顯著。報告顯示，推理效率最低的模型的碳排放量達最高效模型的10倍以上。據估計，DeepSeek-V3模型響應“中等長度”提示時的功耗約23瓦，Claude 4 Opus的約為5瓦。

大語言模型飛速越過各類新基準測試

過去10年間，AI模型的能力以驚人速度提升且仍保持加速進步的勢頭。多模態大語言模型表現突出，幾乎做到了“在新的基準測試剛推出來時就馬上攻克它們”。智能體人工智能(Agentic AI)的性能躍升更是令人驚奇。

不妨看看下面這份基于人工智能指數報告的數據而繪制的圖表。如圖所示，各項基準測試旨在衡量AI各維度的技術性能，以人類表現為參考基準，展示了2012～2025年間AI各項性能的進步情況。

可以看到，在圖像分類方面，AI很早便超越人類；進入2020年代后，模型在多項任務中接近甚至超越了人類基準。圖表最右側兩條極為陡峭曲線分別代表OSWorld基準測試(評估自主操作計算機的能力)和SWE-Bench Verified軟件工程基準測試(評估自主編寫代碼的能力)。

另一方面，在名為“人類終極測試”(Humanity’s Last Exam)的基準測試中，AI也進步神速。

該測試包含各領域專家設計的行業最難問題。2025年的斯坦福人工智能指數報告顯示，排名第一的OpenAI o1模型正確率僅 8.8%；時間并未過去多久，該數字已升至38.3%——而且它還夠不上最新水平，因為2026年4月表現最佳的模型，如Anthropic公司的Claude Opus 4.6和谷歌的Gemini 3.1 Pro，都已越過50%的正確率水平。

不過佩羅特也提醒道，基準測試成績未必反映實際應用效果：“我們普遍缺乏標準用以衡量系統(或智能體)在特定場景下應有的表現水平。舉例來說，某AI在某法律推理基準測試里達到75%的準確率，無法說明該AI可于法律實務中提供多高水平的幫助。”

AI在醫學領域研究取得進展

人工智能基準測試的進步似乎已體現于醫學領域：AI應用快速普及行業，其中醫學研究方面的應用尤為突出。

通過下方柱狀圖，可以看到2018年至2025年間，有關AI用于新藥研發的論文的數量增長趨勢；過去兩年，相關論文數量翻倍；眼下多模態生物醫學AI(用于聯合分析醫學影像與文本)相關論文數量則是兩年前的2.7倍。

大語言模型仍存在時鐘認讀困難

AI雖已在部分賽道大顯神威，卻依舊難以勝任諸如認讀時鐘、理解日歷之類的日常任務。（參閱）

旨在衡量多模態大語言模型識別模擬時鐘能力的ClockBench測試顯示，表現最佳的GPT-5.4模型僅取得50%左右的正確率。大多數模型的表現相當糟糕，比如在“人類終極測試”中拔尖的Claude Opus 4.6面對時鐘卻只有8.9%的認讀正確率。

下圖對比了不同大語言模型在執行模擬時鐘認讀任務時的表現，其準確率從僅8.9%到50.6%不等。

雖說現實場景極少要求大語言模型執行此類任務，但這反映的普遍問題很關鍵。如佩羅特所言：“研究表明，當系統被問到結合了語言與其他模態(如圖像或語音中的語調)的問題時，語言部分所承擔的任務權重大到令人驚訝，甚至令非語言信息被忽略。”

AI相關投資在2025年創歷史新高

AI模型的性能表現與AI企業的融資金額正攜手并進。專注人工智能分析的Quid公司發布數據稱，2025年的AI相關投資再創新高，達5810億美元以上。

新紀錄是2024年(2530億美元)的兩倍多，也遠超2021年老紀錄(3600億美元)。此外，不同于2021年并購交易主導投資的情況，2025年的新高由針對AI企業的私人投資拉動。

下圖展示了2013~2025年全球范圍內AI相關的企業投資(按投資活動類型劃分)的變化趨勢。可以看到2021年的增長高峰、2022~2024年間的回落以及2025年大幅飆升再創新高。

值得一提的是，大部分AI資本都流向了美國，比如2025年總金額中的3440億美元。

軟件工程師全面擁抱AI

人工智能的普及不只關聯巨額資本，還有GitHub上廣大愛好者們的參與熱情。截至2025年，代碼托管平臺GitHub的AI相關項目數量已猛增至558萬個，達2020年水平的大約5倍，較2024年增長23.7%。

下圖展示了2011～2025年GitHub上AI項目數量從0到558萬個的變化。

上述數據并非AI生成泛濫、低質項目橫行的結果，因為其中“獲得至少10個星標的AI項目數量增速與整體增速一致”“AI項目總星標數的增速也近似整體增速”，這意味著人類的普遍參與。值得一提的是，開源智能體AI軟件OpenClaw已獲得35.2萬個星標。(星標數量反映項目質量。)

計算機科學對AI的熱情同樣高漲。過去10年，人工智能相關的計算機科學論文數量從10.2萬篇增至25.8萬篇。截至2024年，超68%的論文來自學術界，政府與企業分別貢獻了約 11.5%和12.5%。機器學習、計算機視覺、生成式AI領域的論文增長最為顯著。

AI對就業的總體影響仍不明朗

生成式AI的興起伴隨著就業焦慮，由于全球頭部AI企業的CEO們作出悲觀預測，這種情緒更是不斷加劇。不過目前相關數據只可用“喜憂參半”來形容。

軟件開發人員和客戶支持專員（比如客服）被認為是遭遇AI替代風險極高的兩類職業。而過往與最新數據所表明的趨勢是：這些職業的初級崗位正在減少，中級和高級崗位數量保持穩定甚至增加。

下方兩幅折現圖圍繞軟件開發人員和客戶支持專員兩項職業，展示了2021～2025年不同年齡段“標準化員工數量”變化趨勢。

需要指出的是，上述就業變化難以脫離宏觀經濟趨勢單獨看待。正如人工智能指數報告所指出的，多個行業失業率均在上升；而與預期相反的一個現象是，受AI影響最小的職業群體的失業率漲幅竟高于受AI影響最大的群體！

公眾對AI的整體認知略有改觀

另一項令人意外的發現是：過去幾年，公眾對人工智能的樂觀情緒有顯著的小幅度增長。

市場研究公司益普索(Ipsos)的調查顯示，59%的受訪者認為“AI利大于弊”，68%的人表示自己“足夠懂AI”，而這兩類人的比例在2024年分別為55%和67%。

整體態度更為積極，但也有某些加劇的負面情緒。例如，52%的受訪者表示，使用人工智能的產品和服務讓他們感到“不安”。

下圖展示了2022~2025年公眾關于AI的看法的變化。

不同國家對AI的態度差異顯著。中國以及馬來西亞、泰國、印度尼西亞、新加坡等東南亞國家越發趨向積極和樂觀。同比變化數據顯示，德國、法國與荷蘭的樂觀情緒增長最強烈，同比增幅分別為12%、10%和10%；哥倫比亞則一反往年趨勢，以6%的降幅成為消極變化最大國。

各國對AI監管的信任度差異顯著

盡管越來越多人認為人工智能將帶來正向影響，但部分國家的民眾對于政府監管AI的信任度極低。

值得注意的是，美國領跑AI投資，卻在監管信任度方面排名墊底。益普索調查顯示，僅31%的美國受訪者信任本國政府監管AI的能力。日本和多數歐洲國家的信任度也較低；亞洲和南美國家的信任度最高。

下圖展示了各國民眾對政府監管AI的信任度。其中新加坡以81%居首，美國以31%墊底。

基于前述種種信息，可以看到美國與哥倫比亞呈現反差強烈的矛盾組合：美國老百姓對AI監管極不信任，但多數受訪者認為AI利大于弊；哥倫比亞民眾則展現很高的監管信任度，其整體態度卻顯著惡化。

資料來源：

《世界科學》雜志版在售中歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側圖片或以下方訂閱方式選購

方式一：

掃描二維碼，“雜志鋪”（第三方平臺）訂閱有折扣～

方式二：

全國各地郵局訂閱郵發代號：4-263

方式三：

機構訂閱，請撥打

021-53300839；

021-53300838

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.