編輯|Panda
2012 年,AlexNet 在 ImageNet 競賽上以壓倒性的優勢拿下第一,正式開啟深度學習時代。此后十余年,ImageNet 成為計算機視覺研究的「標準考場」:無論是 VGG、ResNet,還是 ViT,研究者們都在這同一張卷子上比拼,看誰的模型精度更高。
但這張卷子,如今已經沒有評分的意義了。
今年,一批頂尖論文相繼宣告:它們在 ImageNet 上的生成質量評分(FID),已經低于真實圖片本身的評分。也就是說,生成的假圖片,在統計上比真圖片「更像真圖片」。卷子刷穿了,分數失真了,這個沿用十年的基準徹底飽和。
基準飽和意味著什么?簡單來說:你不再能通過分數判斷一個生成模型是真的好,還是在「投機取巧」地優化指標。科學競爭,需要一把新的尺子。
就在前兩天,斯坦福大學等機構發布了一個名為GPIC(Giant Permissive Image Corpus,巨型開放圖像語料庫)的數據集。
![]()
項目共一作者 Keshigeyan Chandrasegaran 的推文
該項目由李飛飛團隊主導構建,核心貢獻者為 Keshigeyan Chandrasegaran 和 Kyle Sargen,包含整整1 億對圖像-文本數據,總計約28 萬億像素,并已全量托管在 Hugging Face 上,任何人都可以免費下載使用。
![]()
舊規則失靈了
要理解 GPIC 為什么重要,先要理解當前的視覺生成研究面臨哪些困境。研究者們在使用已有數據集時,遭遇了三個相互疊加的麻煩。
第一個麻煩:舊基準 ImageNet 已經對不上現實
今天的圖像生成模型,訓練用的是數億張帶有自然語言描述的圖片,生成時也靠文字提示詞驅動。而 ImageNet 是一個以「分類標簽」為核心的數據集,它對應的是另一個時代的研究范式。拿一張用文字提示生成的圖片,去和一個以標簽分類為目標設計的數據集做比較,本質上是「用語文考卷評數學成績」。
第二個麻煩:大多數工業級數據集不對外開放
Stable Diffusion、Midjourney、Sora 這些一線產品背后,訓練數據要么是商業機密,要么涉及版權糾紛,從未公開。學術界要復現、比較、改進這些模型,幾乎無從下手。
第三個麻煩:即使有開放數據集,也不穩定
目前學界常用的開放數據集(如 LAION、DataComp),普遍采用「URL 索引」的方式分發——也就是說,研究者下載到的,其實是一份圖片網址清單,還得自己去抓取原始圖片。隨著時間推移,大量鏈接失效,不同研究團隊最終用到的「同一個數據集」其實已經大相徑庭,實驗結果自然無法可靠比較。
GPIC 的設計,正是針對這三重失靈逐一作答。
![]()
- 論文標題:GPIC: A Giant Permissive Image Corpus for Visual Generation
- 論文地址:https://arxiv.org/abs/2605.30341
- 項目地址:https://gpic.stanford.edu/
來自 ImageNet 作者的接班人之作
構建 GPIC 的團隊,來自斯坦福大學,包括李飛飛、吳佳俊以及他們的多位學生。
李飛飛是「ImageNet 時代」的締造者之一。2009 年,她主導發布了第一版 ImageNet,后來由此衍生出 ILSVRC 視覺識別挑戰賽,催生了 AlexNet 等一系列里程碑式工作,被廣泛認為是深度學習革命的重要推手之一;她也因此還被《時代》雜志和 BBC 等許多媒體稱為是 AI 的教母(Godmother of AI)。
![]()
圖源:Time 官網
她如今是斯坦福人工智能實驗室(SAIL)的聯合主任,同時也是 3D 空間智能公司 World Labs 的創始人。
這一次,她帶領團隊打造的是視覺生成時代的「新 ImageNet」。
![]()
GPIC 是什么,怎么做出來的
GPIC 的構建,經過了四個嚴格的流程階段。
![]()
只采集有授權的圖片
研究團隊僅從 Flickr 和 Wikimedia 兩個平臺收集圖片,并嚴格限定在 CC BY、CC0、公有領域和無已知限制這四類授權范圍內。這意味著 GPIC 里的每一張圖片,都有明確的法律依據,既可用于學術研究,也可用于商業產品開發,無需擔心版權風險。初始收集到的圖片約 1.1 億張,其中 87.7% 來自 Flickr,12.3% 來自 Wikimedia。
過濾低質量與有害內容
![]()
研究團隊借助視覺語言模型 Qwen3-VL-4B,自動識別并移除分辨率過低、嚴重模糊、過曝、近乎空白,以及被判定為不安全的圖片。這兩類過濾分別淘汰了約 0.3% 和 0.35% 的圖片——比例看起來很小,但在億級規模下,這意味著篩掉了數十萬張問題圖片。
第三步:去重
![]()
互聯網圖片有大量的「重復」現象,包括同一場景的連拍、被轉發的表情包、略有不同的翻版圖。研究團隊使用了一種名為 SSCD 的圖片復制檢測模型,計算每兩張圖片之間的特征相似度,并通過「保守去重」策略刪除高置信度重復項。最終,約 101.3 萬張圖片留下,其中不含任何完全相同的副本。
第四步:生成高質量描述文字
傳統圖片數據集的文字描述(如 alt text)質量往往很差,充斥著「photo.jpg」「未命名」之類無意義的標注。GPIC 則對每一張圖片,都用 Qwen3-VL-4B 重新生成了高質量的人工智能描述,且描述按照「標簽」「短」「中」「長」四種粒度分布。生成 1 億張圖片的描述,共消耗約 1500 個 H100 GPU·小時。
![]()
最終的 GPIC,包含 1 億張訓練圖片、20 萬張驗證圖片和 100 萬張測試圖片,總體積約 12.9 TB,整理成 8000 個分片(shard),可以直接流式傳輸用于大規模分布式訓練。
![]()
FD-DINOv2
數據集之外,GPIC 還附帶了一套新的評估協議,這同樣是此次發布的重要貢獻。
舊的評估指標 FID(Fréchet Inception Distance)依賴一個 2015 年的圖像分類網絡 Inception-v3 來提取圖片特征。這個網絡從未為「評估生成質量」而設計,它的特征空間和人類對圖像質量的感知存在明顯的脫節,導致 FID 評分容易被「刷榜」——模型可以在不真正提升感知質量的情況下降低 FID 數值。
GPIC 的新基準采用FD-DINOv2作為主要指標。
DINOv2 是 Meta 于 2023 年發布的自監督視覺特征模型,其特征表示與人類對圖像相似性的判斷更為一致。
研究者們驗證發現:目前所有主流生成模型(包括那些用了 DINOv2 特征訓練的模型),在 FD-DINOv2 上的分數仍然高于真實圖片,說明這把尺子還有足夠的「余量」,不會很快被刷穿。
![]()
更重要的一點改進是:GPIC 的基準評分是與一個 獨立的百萬張測試集 進行比較,而不是和訓練集比較。這個設計避免了一個嚴重的漏洞——如果拿生成圖片和訓練集比較,模型只需「記住」訓練數據就能獲得好分數,而無法反映真正的泛化能力。
給未來的研究者:參考基線
為了方便后來者對齊實驗結果,研究團隊還在 GPIC-Full(1 億張訓練集)上訓練了一個參考基線模型。
這個基線使用了JiT(Just image Transformers)流匹配架構,搭配 1.1B 參數的 Transformer 骨干網絡,以 256×256 分辨率在單節點 8 張 H100 上訓練約 40 小時(約一個 epoch)。最終,在最優的引導強度(CFG=6.25)下,基線模型的 FD-DINOv2 評分為 76.25。這個數字并不出色,但它的價值在于:所有研究者都可以以此為起點,公平地比較各自的改進效果。
![]()
![]()
研究團隊還提供了三個不同規模的訓練集版本:GPIC-Nano(100 萬張)、GPIC-Lite(1000 萬張)和 GPIC-Full(1 億張),方便資源有限的團隊在小規模上迭代,有足夠算力的團隊再在完整數據集上驗證。
一個開放基礎設施的意義
視覺生成領域正在經歷一場「軍備競賽」。Sora、Imagen、Stable Diffusion 3……前沿模型的能力每隔幾個月就會躍升一級。但這場競賽,在相當程度上是不透明的:每個實驗室都在自己的數據上訓練,用自己的指標評估,發布時只挑選對自己有利的數字匯報。
公開、可復現的基準,是科學進步的基礎。學界在 NLP 領域已經為此付出了多年努力,逐步建立起了 GLUE、SuperGLUE、BIG-bench 等相對標準化的評測體系。視覺生成,遲遲缺少這樣的基礎。
GPIC 的發布是一次為這個領域補課的嘗試,是為了讓整個領域有一個共同的起跑線。正如李飛飛團隊在論文中所寫的:「我們希望 GPIC 能夠推動視覺生成建模領域公開、可及、可復現的研究。」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.