網易首頁 > 網易號 > 正文申請入駐

李飛飛造了ImageNet，現在她又帶人超越了它

2026-06-01 11:00:43　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

2012 年，AlexNet 在 ImageNet 競賽上以壓倒性的優勢拿下第一，正式開啟深度學習時代。此后十余年，ImageNet 成為計算機視覺研究的「標準考場」：無論是 VGG、ResNet，還是 ViT，研究者們都在這同一張卷子上比拼，看誰的模型精度更高。

但這張卷子，如今已經沒有評分的意義了。

今年，一批頂尖論文相繼宣告：它們在 ImageNet 上的生成質量評分（FID），已經低于真實圖片本身的評分。也就是說，生成的假圖片，在統計上比真圖片「更像真圖片」。卷子刷穿了，分數失真了，這個沿用十年的基準徹底飽和。

基準飽和意味著什么？簡單來說：你不再能通過分數判斷一個生成模型是真的好，還是在「投機取巧」地優化指標。科學競爭，需要一把新的尺子。

就在前兩天，斯坦福大學等機構發布了一個名為GPIC（Giant Permissive Image Corpus，巨型開放圖像語料庫）的數據集。

項目共一作者 Keshigeyan Chandrasegaran 的推文

該項目由李飛飛團隊主導構建，核心貢獻者為 Keshigeyan Chandrasegaran 和 Kyle Sargen，包含整整1 億對圖像-文本數據，總計約28 萬億像素，并已全量托管在 Hugging Face 上，任何人都可以免費下載使用。

舊規則失靈了

要理解 GPIC 為什么重要，先要理解當前的視覺生成研究面臨哪些困境。研究者們在使用已有數據集時，遭遇了三個相互疊加的麻煩。

第一個麻煩：舊基準 ImageNet 已經對不上現實

今天的圖像生成模型，訓練用的是數億張帶有自然語言描述的圖片，生成時也靠文字提示詞驅動。而 ImageNet 是一個以「分類標簽」為核心的數據集，它對應的是另一個時代的研究范式。拿一張用文字提示生成的圖片，去和一個以標簽分類為目標設計的數據集做比較，本質上是「用語文考卷評數學成績」。

第二個麻煩：大多數工業級數據集不對外開放

Stable Diffusion、Midjourney、Sora 這些一線產品背后，訓練數據要么是商業機密，要么涉及版權糾紛，從未公開。學術界要復現、比較、改進這些模型，幾乎無從下手。

第三個麻煩：即使有開放數據集，也不穩定

目前學界常用的開放數據集（如 LAION、DataComp），普遍采用「URL 索引」的方式分發——也就是說，研究者下載到的，其實是一份圖片網址清單，還得自己去抓取原始圖片。隨著時間推移，大量鏈接失效，不同研究團隊最終用到的「同一個數據集」其實已經大相徑庭，實驗結果自然無法可靠比較。

GPIC 的設計，正是針對這三重失靈逐一作答。

論文標題：GPIC: A Giant Permissive Image Corpus for Visual Generation
論文地址：https://arxiv.org/abs/2605.30341
項目地址：https://gpic.stanford.edu/

來自 ImageNet 作者的接班人之作

構建 GPIC 的團隊，來自斯坦福大學，包括李飛飛、吳佳俊以及他們的多位學生。

李飛飛是「ImageNet 時代」的締造者之一。2009 年，她主導發布了第一版 ImageNet，后來由此衍生出 ILSVRC 視覺識別挑戰賽，催生了 AlexNet 等一系列里程碑式工作，被廣泛認為是深度學習革命的重要推手之一；她也因此還被《時代》雜志和 BBC 等許多媒體稱為是 AI 的教母（Godmother of AI）。

圖源：Time 官網

她如今是斯坦福人工智能實驗室（SAIL）的聯合主任，同時也是 3D 空間智能公司 World Labs 的創始人。

這一次，她帶領團隊打造的是視覺生成時代的「新 ImageNet」。

GPIC 是什么，怎么做出來的

GPIC 的構建，經過了四個嚴格的流程階段。

只采集有授權的圖片

研究團隊僅從 Flickr 和 Wikimedia 兩個平臺收集圖片，并嚴格限定在 CC BY、CC0、公有領域和無已知限制這四類授權范圍內。這意味著 GPIC 里的每一張圖片，都有明確的法律依據，既可用于學術研究，也可用于商業產品開發，無需擔心版權風險。初始收集到的圖片約 1.1 億張，其中 87.7% 來自 Flickr，12.3% 來自 Wikimedia。

過濾低質量與有害內容

研究團隊借助視覺語言模型 Qwen3-VL-4B，自動識別并移除分辨率過低、嚴重模糊、過曝、近乎空白，以及被判定為不安全的圖片。這兩類過濾分別淘汰了約 0.3% 和 0.35% 的圖片——比例看起來很小，但在億級規模下，這意味著篩掉了數十萬張問題圖片。

第三步：去重

互聯網圖片有大量的「重復」現象，包括同一場景的連拍、被轉發的表情包、略有不同的翻版圖。研究團隊使用了一種名為 SSCD 的圖片復制檢測模型，計算每兩張圖片之間的特征相似度，并通過「保守去重」策略刪除高置信度重復項。最終，約 101.3 萬張圖片留下，其中不含任何完全相同的副本。

第四步：生成高質量描述文字

傳統圖片數據集的文字描述（如 alt text）質量往往很差，充斥著「photo.jpg」「未命名」之類無意義的標注。GPIC 則對每一張圖片，都用 Qwen3-VL-4B 重新生成了高質量的人工智能描述，且描述按照「標簽」「短」「中」「長」四種粒度分布。生成 1 億張圖片的描述，共消耗約 1500 個 H100 GPU·小時。

最終的 GPIC，包含 1 億張訓練圖片、20 萬張驗證圖片和 100 萬張測試圖片，總體積約 12.9 TB，整理成 8000 個分片（shard），可以直接流式傳輸用于大規模分布式訓練。

FD-DINOv2

數據集之外，GPIC 還附帶了一套新的評估協議，這同樣是此次發布的重要貢獻。

舊的評估指標 FID（Fréchet Inception Distance）依賴一個 2015 年的圖像分類網絡 Inception-v3 來提取圖片特征。這個網絡從未為「評估生成質量」而設計，它的特征空間和人類對圖像質量的感知存在明顯的脫節，導致 FID 評分容易被「刷榜」——模型可以在不真正提升感知質量的情況下降低 FID 數值。

GPIC 的新基準采用FD-DINOv2作為主要指標。

DINOv2 是 Meta 于 2023 年發布的自監督視覺特征模型，其特征表示與人類對圖像相似性的判斷更為一致。

研究者們驗證發現：目前所有主流生成模型（包括那些用了 DINOv2 特征訓練的模型），在 FD-DINOv2 上的分數仍然高于真實圖片，說明這把尺子還有足夠的「余量」，不會很快被刷穿。

更重要的一點改進是：GPIC 的基準評分是與一個獨立的百萬張測試集進行比較，而不是和訓練集比較。這個設計避免了一個嚴重的漏洞——如果拿生成圖片和訓練集比較，模型只需「記住」訓練數據就能獲得好分數，而無法反映真正的泛化能力。

給未來的研究者：參考基線

為了方便后來者對齊實驗結果，研究團隊還在 GPIC-Full（1 億張訓練集）上訓練了一個參考基線模型。

這個基線使用了JiT（Just image Transformers）流匹配架構，搭配 1.1B 參數的 Transformer 骨干網絡，以 256×256 分辨率在單節點 8 張 H100 上訓練約 40 小時（約一個 epoch）。最終，在最優的引導強度（CFG=6.25）下，基線模型的 FD-DINOv2 評分為 76.25。這個數字并不出色，但它的價值在于：所有研究者都可以以此為起點，公平地比較各自的改進效果。

研究團隊還提供了三個不同規模的訓練集版本：GPIC-Nano（100 萬張）、GPIC-Lite（1000 萬張）和 GPIC-Full（1 億張），方便資源有限的團隊在小規模上迭代，有足夠算力的團隊再在完整數據集上驗證。

一個開放基礎設施的意義

視覺生成領域正在經歷一場「軍備競賽」。Sora、Imagen、Stable Diffusion 3……前沿模型的能力每隔幾個月就會躍升一級。但這場競賽，在相當程度上是不透明的：每個實驗室都在自己的數據上訓練，用自己的指標評估，發布時只挑選對自己有利的數字匯報。

公開、可復現的基準，是科學進步的基礎。學界在 NLP 領域已經為此付出了多年努力，逐步建立起了 GLUE、SuperGLUE、BIG-bench 等相對標準化的評測體系。視覺生成，遲遲缺少這樣的基礎。

GPIC 的發布是一次為這個領域補課的嘗試，是為了讓整個領域有一個共同的起跑線。正如李飛飛團隊在論文中所寫的：「我們希望 GPIC 能夠推動視覺生成建模領域公開、可及、可復現的研究。」

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.