<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      李飛飛造了ImageNet,現在她又帶人超越了它

      0
      分享至

      編輯|Panda

      2012 年,AlexNet 在 ImageNet 競賽上以壓倒性的優勢拿下第一,正式開啟深度學習時代。此后十余年,ImageNet 成為計算機視覺研究的「標準考場」:無論是 VGG、ResNet,還是 ViT,研究者們都在這同一張卷子上比拼,看誰的模型精度更高。

      但這張卷子,如今已經沒有評分的意義了。

      今年,一批頂尖論文相繼宣告:它們在 ImageNet 上的生成質量評分(FID),已經低于真實圖片本身的評分。也就是說,生成的假圖片,在統計上比真圖片「更像真圖片」。卷子刷穿了,分數失真了,這個沿用十年的基準徹底飽和。

      基準飽和意味著什么?簡單來說:你不再能通過分數判斷一個生成模型是真的好,還是在「投機取巧」地優化指標。科學競爭,需要一把新的尺子。

      就在前兩天,斯坦福大學等機構發布了一個名為GPIC(Giant Permissive Image Corpus,巨型開放圖像語料庫)的數據集。



      項目共一作者 Keshigeyan Chandrasegaran 的推文

      該項目由李飛飛團隊主導構建,核心貢獻者為 Keshigeyan Chandrasegaran 和 Kyle Sargen,包含整整1 億對圖像-文本數據,總計約28 萬億像素,并已全量托管在 Hugging Face 上,任何人都可以免費下載使用。



      舊規則失靈了

      要理解 GPIC 為什么重要,先要理解當前的視覺生成研究面臨哪些困境。研究者們在使用已有數據集時,遭遇了三個相互疊加的麻煩。

      第一個麻煩:舊基準 ImageNet 已經對不上現實

      今天的圖像生成模型,訓練用的是數億張帶有自然語言描述的圖片,生成時也靠文字提示詞驅動。而 ImageNet 是一個以「分類標簽」為核心的數據集,它對應的是另一個時代的研究范式。拿一張用文字提示生成的圖片,去和一個以標簽分類為目標設計的數據集做比較,本質上是「用語文考卷評數學成績」。

      第二個麻煩:大多數工業級數據集不對外開放

      Stable Diffusion、Midjourney、Sora 這些一線產品背后,訓練數據要么是商業機密,要么涉及版權糾紛,從未公開。學術界要復現、比較、改進這些模型,幾乎無從下手。

      第三個麻煩:即使有開放數據集,也不穩定

      目前學界常用的開放數據集(如 LAION、DataComp),普遍采用「URL 索引」的方式分發——也就是說,研究者下載到的,其實是一份圖片網址清單,還得自己去抓取原始圖片。隨著時間推移,大量鏈接失效,不同研究團隊最終用到的「同一個數據集」其實已經大相徑庭,實驗結果自然無法可靠比較。

      GPIC 的設計,正是針對這三重失靈逐一作答。



      • 論文標題:GPIC: A Giant Permissive Image Corpus for Visual Generation
      • 論文地址:https://arxiv.org/abs/2605.30341
      • 項目地址:https://gpic.stanford.edu/

      來自 ImageNet 作者的接班人之作

      構建 GPIC 的團隊,來自斯坦福大學,包括李飛飛、吳佳俊以及他們的多位學生。

      李飛飛是「ImageNet 時代」的締造者之一。2009 年,她主導發布了第一版 ImageNet,后來由此衍生出 ILSVRC 視覺識別挑戰賽,催生了 AlexNet 等一系列里程碑式工作,被廣泛認為是深度學習革命的重要推手之一;她也因此還被《時代》雜志和 BBC 等許多媒體稱為是 AI 的教母(Godmother of AI)。



      圖源:Time 官網

      她如今是斯坦福人工智能實驗室(SAIL)的聯合主任,同時也是 3D 空間智能公司 World Labs 的創始人。

      這一次,她帶領團隊打造的是視覺生成時代的「新 ImageNet」。



      GPIC 是什么,怎么做出來的

      GPIC 的構建,經過了四個嚴格的流程階段。



      只采集有授權的圖片

      研究團隊僅從 Flickr 和 Wikimedia 兩個平臺收集圖片,并嚴格限定在 CC BY、CC0、公有領域和無已知限制這四類授權范圍內。這意味著 GPIC 里的每一張圖片,都有明確的法律依據,既可用于學術研究,也可用于商業產品開發,無需擔心版權風險。初始收集到的圖片約 1.1 億張,其中 87.7% 來自 Flickr,12.3% 來自 Wikimedia。

      過濾低質量與有害內容



      研究團隊借助視覺語言模型 Qwen3-VL-4B,自動識別并移除分辨率過低、嚴重模糊、過曝、近乎空白,以及被判定為不安全的圖片。這兩類過濾分別淘汰了約 0.3% 和 0.35% 的圖片——比例看起來很小,但在億級規模下,這意味著篩掉了數十萬張問題圖片。

      第三步:去重



      互聯網圖片有大量的「重復」現象,包括同一場景的連拍、被轉發的表情包、略有不同的翻版圖。研究團隊使用了一種名為 SSCD 的圖片復制檢測模型,計算每兩張圖片之間的特征相似度,并通過「保守去重」策略刪除高置信度重復項。最終,約 101.3 萬張圖片留下,其中不含任何完全相同的副本。

      第四步:生成高質量描述文字

      傳統圖片數據集的文字描述(如 alt text)質量往往很差,充斥著「photo.jpg」「未命名」之類無意義的標注。GPIC 則對每一張圖片,都用 Qwen3-VL-4B 重新生成了高質量的人工智能描述,且描述按照「標簽」「短」「中」「長」四種粒度分布。生成 1 億張圖片的描述,共消耗約 1500 個 H100 GPU·小時。



      最終的 GPIC,包含 1 億張訓練圖片、20 萬張驗證圖片和 100 萬張測試圖片,總體積約 12.9 TB,整理成 8000 個分片(shard),可以直接流式傳輸用于大規模分布式訓練。



      FD-DINOv2

      數據集之外,GPIC 還附帶了一套新的評估協議,這同樣是此次發布的重要貢獻。

      舊的評估指標 FID(Fréchet Inception Distance)依賴一個 2015 年的圖像分類網絡 Inception-v3 來提取圖片特征。這個網絡從未為「評估生成質量」而設計,它的特征空間和人類對圖像質量的感知存在明顯的脫節,導致 FID 評分容易被「刷榜」——模型可以在不真正提升感知質量的情況下降低 FID 數值。

      GPIC 的新基準采用FD-DINOv2作為主要指標。

      DINOv2 是 Meta 于 2023 年發布的自監督視覺特征模型,其特征表示與人類對圖像相似性的判斷更為一致。

      研究者們驗證發現:目前所有主流生成模型(包括那些用了 DINOv2 特征訓練的模型),在 FD-DINOv2 上的分數仍然高于真實圖片,說明這把尺子還有足夠的「余量」,不會很快被刷穿。



      更重要的一點改進是:GPIC 的基準評分是與一個 獨立的百萬張測試集 進行比較,而不是和訓練集比較。這個設計避免了一個嚴重的漏洞——如果拿生成圖片和訓練集比較,模型只需「記住」訓練數據就能獲得好分數,而無法反映真正的泛化能力。

      給未來的研究者:參考基線

      為了方便后來者對齊實驗結果,研究團隊還在 GPIC-Full(1 億張訓練集)上訓練了一個參考基線模型。

      這個基線使用了JiT(Just image Transformers)流匹配架構,搭配 1.1B 參數的 Transformer 骨干網絡,以 256×256 分辨率在單節點 8 張 H100 上訓練約 40 小時(約一個 epoch)。最終,在最優的引導強度(CFG=6.25)下,基線模型的 FD-DINOv2 評分為 76.25。這個數字并不出色,但它的價值在于:所有研究者都可以以此為起點,公平地比較各自的改進效果。





      研究團隊還提供了三個不同規模的訓練集版本:GPIC-Nano(100 萬張)、GPIC-Lite(1000 萬張)和 GPIC-Full(1 億張),方便資源有限的團隊在小規模上迭代,有足夠算力的團隊再在完整數據集上驗證。

      一個開放基礎設施的意義

      視覺生成領域正在經歷一場「軍備競賽」。Sora、Imagen、Stable Diffusion 3……前沿模型的能力每隔幾個月就會躍升一級。但這場競賽,在相當程度上是不透明的:每個實驗室都在自己的數據上訓練,用自己的指標評估,發布時只挑選對自己有利的數字匯報。

      公開、可復現的基準,是科學進步的基礎。學界在 NLP 領域已經為此付出了多年努力,逐步建立起了 GLUE、SuperGLUE、BIG-bench 等相對標準化的評測體系。視覺生成,遲遲缺少這樣的基礎。

      GPIC 的發布是一次為這個領域補課的嘗試,是為了讓整個領域有一個共同的起跑線。正如李飛飛團隊在論文中所寫的:「我們希望 GPIC 能夠推動視覺生成建模領域公開、可及、可復現的研究。」

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬筱梅:還有很多事情沒有說,怕會傷害很多人,網友:似曾相識

      馬筱梅:還有很多事情沒有說,怕會傷害很多人,網友:似曾相識

      街上的行人很刺眼
      2026-04-14 14:04:10
      5月份后,建議最好準備3萬元現金放在家里,只因這4個原因

      5月份后,建議最好準備3萬元現金放在家里,只因這4個原因

      貓叔東山再起
      2026-05-29 11:30:11
      沈南鵬,向上海交大捐資3億元

      沈南鵬,向上海交大捐資3億元

      中國基金報
      2026-06-01 20:41:45
      英倫男神與流行天后,登記領證!

      英倫男神與流行天后,登記領證!

      美劇組|人人影視
      2026-06-01 22:20:12
      年僅25歲!河南優秀嗩吶手杜淵博去世,友人曝原因,疑與熬夜有關

      年僅25歲!河南優秀嗩吶手杜淵博去世,友人曝原因,疑與熬夜有關

      裕豐娛間說
      2026-06-01 09:04:14
      北青:沒招胡荷韜、補招高天意,國足選人重視球員健康和溝通

      北青:沒招胡荷韜、補招高天意,國足選人重視球員健康和溝通

      懂球帝
      2026-06-01 13:54:04
      大坂直美:現在穿普通網球裙會更奇怪  有一段時間沒樂趣 現在這就是樂趣

      大坂直美:現在穿普通網球裙會更奇怪 有一段時間沒樂趣 現在這就是樂趣

      林子說事
      2026-06-01 11:14:31
      兒童用藥警惕三大誤區!北京兒童醫院院長提醒:家長不要孩子一有感冒發燒就用抗生素

      兒童用藥警惕三大誤區!北京兒童醫院院長提醒:家長不要孩子一有感冒發燒就用抗生素

      紅星新聞
      2026-06-01 17:54:22
      英媒:中國已經向全球證明,未來各國都需要用到中國這項技術!

      英媒:中國已經向全球證明,未來各國都需要用到中國這項技術!

      你是我心中最美星空
      2026-05-22 04:16:41
      51集諜戰大劇來襲,連續4天全國第一,這部諜戰作品太牛了!

      51集諜戰大劇來襲,連續4天全國第一,這部諜戰作品太牛了!

      樂楓電影
      2026-06-01 14:56:01
      《主角》6位美女顏值排名,劉浩存倒數,王麗坤第4,第1最意外

      《主角》6位美女顏值排名,劉浩存倒數,王麗坤第4,第1最意外

      青橘罐頭
      2026-06-01 16:57:50
      法拉利給教皇看新車 連教宗都激動不起來 市值還蒸發30億

      法拉利給教皇看新車 連教宗都激動不起來 市值還蒸發30億

      籃壇第一線
      2026-05-30 00:29:04
      江西任免一批領導干部

      江西任免一批領導干部

      新浪財經
      2026-06-01 20:12:06
      王菲哭了!謝霆鋒演唱會拍到清晰一幕,才知王菲真正想要的是什么

      王菲哭了!謝霆鋒演唱會拍到清晰一幕,才知王菲真正想要的是什么

      美美賺錢
      2026-06-01 14:11:01
      一部作品毀掉演藝生涯的12位演員

      一部作品毀掉演藝生涯的12位演員

      膠片猴
      2026-05-29 13:07:13
      15萬億重磅落地!中國或將成全球首個城市更新王國,有房的都笑了

      15萬億重磅落地!中國或將成全球首個城市更新王國,有房的都笑了

      墨羽怪談
      2026-05-31 19:21:21
      父母公證贈與女兒295萬寫明“不作為共同財產”,多年后離婚,女婿:此錢已花光、非個人財產!法院:個人財產,不予分割

      父母公證贈與女兒295萬寫明“不作為共同財產”,多年后離婚,女婿:此錢已花光、非個人財產!法院:個人財產,不予分割

      法律內參
      2026-05-23 22:20:46
      羅蘭加洛斯刮起青春風暴,三位05后選手職業生涯首進法網八強

      羅蘭加洛斯刮起青春風暴,三位05后選手職業生涯首進法網八強

      網球之家
      2026-06-01 23:05:40
      黃仁勛成“最強外援”!420億,宇樹給投資人送了份兒童節禮物

      黃仁勛成“最強外援”!420億,宇樹給投資人送了份兒童節禮物

      融資中國
      2026-06-01 17:35:14
      又美又能打:2-0,世界第8完勝泰希曼,安德列娃昂首挺進法網女單8強

      又美又能打:2-0,世界第8完勝泰希曼,安德列娃昂首挺進法網女單8強

      凌空倒鉤
      2026-06-01 01:01:47
      2026-06-01 23:40:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13139文章數 142658關注度
      往期回顧 全部

      科技要聞

      黃仁勛演講實錄|40年來PC首次重設計!

      頭條要聞

      河南13人死亡車禍背后:有司機開不動了讓乘客代開車

      頭條要聞

      河南13人死亡車禍背后:有司機開不動了讓乘客代開車

      體育要聞

      杰威:如果我沒受傷,我們能擊敗馬刺

      娛樂要聞

      奚夢瑤婚禮現場圖!一雙兒女當花童

      財經要聞

      宇樹過會,杭州贏麻了

      汽車要聞

      奇瑞集團5月銷量24.8萬輛 同比增長20.5% 出口18.2萬輛再創新高

      態度原創

      藝術
      教育
      家居
      游戲
      數碼

      藝術要聞

      吳鎮寫竹,清清爽爽

      教育要聞

      目前學校形式主義最嚴重的幾個方面,幾乎所有學校都存在!

      家居要聞

      自信舒展 高背座椅

      又一款經典RPG神作啟動重制!不止高清 期待拉滿

      數碼要聞

      為星閃音頻鋪路:華為nova 16系列手機全系支持星閃E2.0功能

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品少妇人妻av无码专区| 国产精品无码久久av不卡| 三级黄色片网站| 精品无码国产av一区二区三区 | 欧洲美熟女乱av亚洲一区| 亚洲日韩欧美国产高清αv| 青青草无码免费一二三区| 亚洲精品成人黄色av| 免费人妻无码不卡中文18禁| 亚洲精品国产一二三区| 亚洲男人最新版本天堂| 欧美成人论坛| 无码人妻精品一区二区三区下载| 亚洲国产成人精品综合| 国产麻豆精品传媒av国产| 欧洲无码av| 少妇无码av无码一区| 尉犁县| 在线国产精品中文字幕| 男同av| CaoPorn国产一区二区| 热久久这里只有精品| 国产亚洲精品AA片在线播放天| 国产剧情福利AV一区二区| 国产精品店无码一区二区三区| 久久熟| 合阳县| 日韩精品毛片无码一区到三区| ThePorn人妻白浆| 中文无码热在线视频| 大地资源高清播放在线观看| 变态另类zozo特级| 欧美怡春院| 午夜三级中文不卡电影| 午夜天堂精品久久久久| 人妻人人做人做人人爱| 亚洲日本久久久| 国内999精品视频免费观看| 久久精品国产色蜜蜜麻豆| 影音AV天堂| 无码中出人妻|