上海4月24日訊 人工智能領域迎來重大突破——Google DeepMind團隊發布全新研究成果"Vision Banana",用"生成即理解"的理念,為計算機視覺領域帶來一場范式革命。
什么是"生成即理解"?
簡單來說,過去人們認為圖像生成模型(比如能畫畫的AI)和視覺理解模型(比如能識別物體、測量距離的AI)是兩條平行線。但DeepMind這次證明,只要讓AI學會生成圖像,它自然就學會了"看懂"圖像。
![]()
這項研究論文《Image Generators are Generalist Vision Learners》于近期發表在學術平臺Arxiv上,項目地址已公開。核心思想是:圖像生成訓練能讓模型學到強大且通用的視覺表征,圖像生成器就是強大的通用視覺學習器。
技術有何創新?
研究團隊基于Nano Banana Pro圖像生成模型構建了Vision Banana,未增加專門用于視覺理解的復雜網絡結構,也未修改底層架構。其核心方法是:將視覺感知任務的輸出全部參數化為RGB圖像格式。
![]()
舉例來說,深度估計任務中,團隊設計了嚴格可逆的數學映射機制,將物理深度[0, ∞)映射到RGB色彩立方體邊緣,支持無損解碼;分割任務則通過提示詞規定顏色掩碼,模型直接生成帶顏色掩碼的圖片,隨后提取對應顏色像素還原分割結果。
性能表現亮眼
多項測試數據顯示,Vision Banana在多種視覺任務中實現SOTA性能:
語義分割:Cityscapes數據集mIoU達0.699,超越SAM3的0.652
深度估計:六大公開基準平均δ?精度0.882;與Depth Anything V3可比的四個數據集平均δ?達0.929,超過Depth Anything V3的0.918
![]()
實測案例:鹿苑寺照片深度估計13.71米,實際測量12.87米,絕對相對誤差僅約0.065
更重要的是,模型在驗證"生成即理解"的同時,未損傷原有生成能力——GenAI-Bench勝率達53.5%。
誰參與了這項研究?
研究由Google DeepMind主導,何愷明、謝賽寧等多位知名學者參與。其中謝賽寧連續發文強調這一成果,認為"這些生成先驗超越了視覺專家模型長期依賴的專有架構與訓練范式"。
數據來源值得注意
訓練數據全部來自合成渲染引擎,未使用任何真實世界的深度數據,評估基準的真實訓練數據均被排除——這意味著模型的泛化能力更強。
![]()
未來挑戰
研究團隊也指出當前局限:推理開銷仍然顯著偏高,加速與成本優化是走向廣泛部署的必由之路;當前評估專注于單目圖像輸入,多視圖和視頻輸入是自然的下一步;探索基礎視覺模型與LLM的協同融合,以增強跨模態推理也是未來方向。
行業意義
研究團隊在論文中表示:"我們可能正見證計算機視覺領域的重大范式轉變,我們正在目睹計算機視覺的范式轉變,并為基于視覺的AGI鋪平道路。"
業界認為,這一成果標志著生成式視覺預訓練在構建同時支持生成和理解的基礎視覺模型中扮演核心角色,為AI視覺技術打開新的發展路徑。
記者手記:當生成模型不僅能"畫"還能"懂",我們離真正的"視覺智能"還有多遠?Vision Banana或許只是起點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.