設置星標★關注,從此你的世界多點科學~
![]()
頂尖AI模型正加速升級,頭部AI企業則正加速上市,比如準備于2026年下半年提交首次公開募股(IPO)申請的OpenAI和Anthropic。
而在另一邊,是大眾對AI喜憂參半、愛恨交織的復雜情緒,以及部分地區已經爆發的人-機矛盾,例如,美國的某些地方政府開始限制甚至禁止新建數據中心。
值得追蹤的AI領域信息可謂紛繁,有沒有一份總結報告可為大家梳理行業全貌、總結發展趨勢?斯坦福大學以人為本人工智能研究院(Stanford HAI)4月13日發布的《2026年人工智能指數報告》(),值得追看。
這份長達400多頁的報告包含數十個數據指標與圖表,從基準測試得分、投資規模、公眾認知等多個維度,全面解讀AI發展現狀。IEEE Spectrum雜志的編輯近期提煉出該報告的關鍵內容,配合12幅數據圖表,總結了全球AI發展的最新趨勢。
美國企業領跑AI模型開發
過去十年,美國是人工智能模型領域的帶頭大哥,且直到2025年依然優勢穩固。
長期關注AI發展趨勢的多學科研究機構Epoch AI此前發布數據稱:2025年“美產”的“知名”AI模型(發布機構的總部位于美國)數量高達50個;中國機構進步神速,在2025年貢獻了總計30個杰出模型;歐洲方面則只有2個。
下圖展示了2003~2025年美國、中國、歐洲發布的知名AI模型數量變化趨勢。
![]()
另一項關鍵的長期趨勢是企業成為開發主力。這里引用Epoch AI的統計數據:2025年有87個知名模型出自企業,其他來源的僅7個。企業占據標桿產品總量的90%以上;此比例在2015年不到50%,在2003年則為0。因而可以認為,如今幾乎所有知名AI模型均由企業而非學術或政府機構研發。
中國在機器人賽道一騎絕塵
美國發布了最多模型,中國則部署了最多機器人,且同樣領銜優勢巨大。
根據國際機器人聯合會(IFR)的數據,2024年中國新增工業機器人安裝量達29.5萬臺,日本與美國的新裝量分別約為4.45萬臺和3.42萬臺。
下圖展示了2011~2024年德國、韓國、美國、日本和中國的每年新增工業機器人安裝量。可以看到中國遙遙領先。
![]()
自2022年以來,全球AI算力年增長3.3倍
斯坦福大學最新的人工智能指數報告提供了大量關于AI建設的亮眼數據。不過要說亮眼,Epoch AI統計的全球人工智能總算力數據可謂璀璨耀眼。
下圖基于Epoch AI的數據繪制,展示了英偉達、谷歌、亞馬遜、AMD、華為的AI芯片在全球算力中占據的份額。
如圖所示,以英偉達H100芯片算力為基準,自2022年以來,全球人工智能算力每年增長超3倍;自2021年以來,總算力已增長30倍。
![]()
此外,英偉達一直獨占算力鰲頭,是算力擴張浪潮中的最大受益者,其GPU占當前全球AI總算力的60%以上,而自主設計AI專用硬件的亞馬遜和谷歌分別位列第二、三位。
AI模型訓練造成巨量碳排放
斯坦福人工智能指數報告往年就已指出AI訓練的碳排放問題——眼下,此問題仍持續加劇并引發擔憂。
報告估計,訓練諸如Grok 4(由xAI公司創建)這樣的前沿大語言模型,會帶來遠高于往年估算值、超7.2萬噸的二氧化碳當量排放。OpenAI的GPT-4預計造成5184噸碳排放,Meta的Llama 3.1 405B則會產生8930噸。
下圖展示了2012~2025年間多款知名AI模型訓練產生的預估碳排放量。2025年的碳排放量因Grok 3和Grok 4模型而大幅飆升。
![]()
不過,該指數報告的指導委員會聯合主任雷·佩羅特(Ray Perrault)認為估算出的結果需謹慎解讀:“Grok模型的碳排放數據高度依賴公開報道(如《福布斯》雜志文章)、xAI官方聲明以及其他未經核實的信息,因此其中引入了一些不確定性。Epoch AI獨立估算的Grok 4碳排放更驚人,高達約14萬噸二氧化碳當量。”
人工智能推理環節的碳排放也持續上升,當然,不同模型差異顯著。報告顯示,推理效率最低的模型的碳排放量達最高效模型的10倍以上。據估計,DeepSeek-V3模型響應“中等長度”提示時的功耗約23瓦,Claude 4 Opus的約為5瓦。
大語言模型飛速越過各類新基準測試
過去10年間,AI模型的能力以驚人速度提升且仍保持加速進步的勢頭。多模態大語言模型表現突出,幾乎做到了“在新的基準測試剛推出來時就馬上攻克它們”。智能體人工智能(Agentic AI)的性能躍升更是令人驚奇。
不妨看看下面這份基于人工智能指數報告的數據而繪制的圖表。如圖所示,各項基準測試旨在衡量AI各維度的技術性能,以人類表現為參考基準,展示了2012~2025年間AI各項性能的進步情況。
![]()
可以看到,在圖像分類方面,AI很早便超越人類;進入2020年代后,模型在多項任務中接近甚至超越了人類基準。圖表最右側兩條極為陡峭曲線分別代表OSWorld基準測試(評估自主操作計算機的能力)和SWE-Bench Verified軟件工程基準測試(評估自主編寫代碼的能力)。
另一方面,在名為“人類終極測試”(Humanity’s Last Exam)的基準測試中,AI也進步神速。
該測試包含各領域專家設計的行業最難問題。2025年的斯坦福人工智能指數報告顯示,排名第一的OpenAI o1模型正確率僅 8.8%;時間并未過去多久,該數字已升至38.3%——而且它還夠不上最新水平,因為2026年4月表現最佳的模型,如Anthropic公司的Claude Opus 4.6和谷歌的Gemini 3.1 Pro,都已越過50%的正確率水平。
不過佩羅特也提醒道,基準測試成績未必反映實際應用效果:“我們普遍缺乏標準用以衡量系統(或智能體)在特定場景下應有的表現水平。舉例來說,某AI在某法律推理基準測試里達到75%的準確率,無法說明該AI可于法律實務中提供多高水平的幫助。”
AI在醫學領域研究取得進展
人工智能基準測試的進步似乎已體現于醫學領域:AI應用快速普及行業,其中醫學研究方面的應用尤為突出。
通過下方柱狀圖,可以看到2018年至2025年間,有關AI用于新藥研發的論文的數量增長趨勢;過去兩年,相關論文數量翻倍;眼下多模態生物醫學AI(用于聯合分析醫學影像與文本)相關論文數量則是兩年前的2.7倍。
![]()
大語言模型仍存在時鐘認讀困難
AI雖已在部分賽道大顯神威,卻依舊難以勝任諸如認讀時鐘、理解日歷之類的日常任務。(參閱)
旨在衡量多模態大語言模型識別模擬時鐘能力的ClockBench測試顯示,表現最佳的GPT-5.4模型僅取得50%左右的正確率。大多數模型的表現相當糟糕,比如在“人類終極測試”中拔尖的Claude Opus 4.6面對時鐘卻只有8.9%的認讀正確率。
下圖對比了不同大語言模型在執行模擬時鐘認讀任務時的表現,其準確率從僅8.9%到50.6%不等。
![]()
雖說現實場景極少要求大語言模型執行此類任務,但這反映的普遍問題很關鍵。如佩羅特所言:“研究表明,當系統被問到結合了語言與其他模態(如圖像或語音中的語調)的問題時,語言部分所承擔的任務權重大到令人驚訝,甚至令非語言信息被忽略。”
AI相關投資在2025年創歷史新高
AI模型的性能表現與AI企業的融資金額正攜手并進。專注人工智能分析的Quid公司發布數據稱,2025年的AI相關投資再創新高,達5810億美元以上。
新紀錄是2024年(2530億美元)的兩倍多,也遠超2021年老紀錄(3600億美元)。此外,不同于2021年并購交易主導投資的情況,2025年的新高由針對AI企業的私人投資拉動。
下圖展示了2013~2025年全球范圍內AI相關的企業投資(按投資活動類型劃分)的變化趨勢。可以看到2021年的增長高峰、2022~2024年間的回落以及2025年大幅飆升再創新高。
![]()
值得一提的是,大部分AI資本都流向了美國,比如2025年總金額中的3440億美元。
軟件工程師全面擁抱AI
人工智能的普及不只關聯巨額資本,還有GitHub上廣大愛好者們的參與熱情。截至2025年,代碼托管平臺GitHub的AI相關項目數量已猛增至558萬個,達2020年水平的大約5倍,較2024年增長23.7%。
下圖展示了2011~2025年GitHub上AI項目數量從0到558萬個的變化。
![]()
上述數據并非AI生成泛濫、低質項目橫行的結果,因為其中“獲得至少10個星標的AI項目數量增速與整體增速一致”“AI項目總星標數的增速也近似整體增速”,這意味著人類的普遍參與。值得一提的是,開源智能體AI軟件OpenClaw已獲得35.2萬個星標。(星標數量反映項目質量。)
計算機科學對AI的熱情同樣高漲。過去10年,人工智能相關的計算機科學論文數量從10.2萬篇增至25.8萬篇。截至2024年,超68%的論文來自學術界,政府與企業分別貢獻了約 11.5%和12.5%。機器學習、計算機視覺、生成式AI領域的論文增長最為顯著。
AI對就業的總體影響仍不明朗
生成式AI的興起伴隨著就業焦慮,由于全球頭部AI企業的CEO們作出悲觀預測,這種情緒更是不斷加劇。不過目前相關數據只可用“喜憂參半”來形容。
軟件開發人員和客戶支持專員(比如客服)被認為是遭遇AI替代風險極高的兩類職業。而過往與最新數據所表明的趨勢是:這些職業的初級崗位正在減少,中級和高級崗位數量保持穩定甚至增加。
下方兩幅折現圖圍繞軟件開發人員和客戶支持專員兩項職業,展示了2021~2025年不同年齡段“標準化員工數量”變化趨勢。
![]()
需要指出的是,上述就業變化難以脫離宏觀經濟趨勢單獨看待。正如人工智能指數報告所指出的,多個行業失業率均在上升;而與預期相反的一個現象是,受AI影響最小的職業群體的失業率漲幅竟高于受AI影響最大的群體!
公眾對AI的整體認知略有改觀
另一項令人意外的發現是:過去幾年,公眾對人工智能的樂觀情緒有顯著的小幅度增長。
市場研究公司益普索(Ipsos)的調查顯示,59%的受訪者認為“AI利大于弊”,68%的人表示自己“足夠懂AI”,而這兩類人的比例在2024年分別為55%和67%。
整體態度更為積極,但也有某些加劇的負面情緒。例如,52%的受訪者表示,使用人工智能的產品和服務讓他們感到“不安”。
下圖展示了2022~2025年公眾關于AI的看法的變化。
![]()
不同國家對AI的態度差異顯著。中國以及馬來西亞、泰國、印度尼西亞、新加坡等東南亞國家越發趨向積極和樂觀。同比變化數據顯示,德國、法國與荷蘭的樂觀情緒增長最強烈,同比增幅分別為12%、10%和10%;哥倫比亞則一反往年趨勢,以6%的降幅成為消極變化最大國。
各國對AI監管的信任度差異顯著
盡管越來越多人認為人工智能將帶來正向影響,但部分國家的民眾對于政府監管AI的信任度極低。
值得注意的是,美國領跑AI投資,卻在監管信任度方面排名墊底。益普索調查顯示,僅31%的美國受訪者信任本國政府監管AI的能力。日本和多數歐洲國家的信任度也較低;亞洲和南美國家的信任度最高。
下圖展示了各國民眾對政府監管AI的信任度。其中新加坡以81%居首,美國以31%墊底。
![]()
基于前述種種信息,可以看到美國與哥倫比亞呈現反差強烈的矛盾組合:美國老百姓對AI監管極不信任,但多數受訪者認為AI利大于弊;哥倫比亞民眾則展現很高的監管信任度,其整體態度卻顯著惡化。
資料來源:
![]()
《世界科學》雜志版在售中 歡迎訂閱
月刊定價
15元/期
全年訂閱價
180元
點擊左側圖片或以下方訂閱方式選購
方式一:
掃描二維碼,“雜志鋪”(第三方平臺)訂閱有折扣~
方式二:
全國各地郵局訂閱 郵發代號:4-263
方式三:
機構訂閱,請撥打
021-53300839;
021-53300838
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.