網易首頁 > 網易號 > 正文申請入駐

視覺AI迎來大轉折：AI生成模型也能當“視覺專家”了！

2026-04-24 17:04:36　來源: 中科智媒

上海舉報

分享至

上海4月24日訊人工智能領域迎來重大突破——Google DeepMind團隊發布全新研究成果"Vision Banana"，用"生成即理解"的理念，為計算機視覺領域帶來一場范式革命。

什么是"生成即理解"？

簡單來說，過去人們認為圖像生成模型（比如能畫畫的AI）和視覺理解模型（比如能識別物體、測量距離的AI）是兩條平行線。但DeepMind這次證明，只要讓AI學會生成圖像，它自然就學會了"看懂"圖像。

這項研究論文《Image Generators are Generalist Vision Learners》于近期發表在學術平臺Arxiv上，項目地址已公開。核心思想是：圖像生成訓練能讓模型學到強大且通用的視覺表征，圖像生成器就是強大的通用視覺學習器。

技術有何創新？

研究團隊基于Nano Banana Pro圖像生成模型構建了Vision Banana，未增加專門用于視覺理解的復雜網絡結構，也未修改底層架構。其核心方法是：將視覺感知任務的輸出全部參數化為RGB圖像格式。

舉例來說，深度估計任務中，團隊設計了嚴格可逆的數學映射機制，將物理深度[0, ∞)映射到RGB色彩立方體邊緣，支持無損解碼；分割任務則通過提示詞規定顏色掩碼，模型直接生成帶顏色掩碼的圖片，隨后提取對應顏色像素還原分割結果。

性能表現亮眼

多項測試數據顯示，Vision Banana在多種視覺任務中實現SOTA性能：

語義分割：Cityscapes數據集mIoU達0.699，超越SAM3的0.652

深度估計：六大公開基準平均δ?精度0.882；與Depth Anything V3可比的四個數據集平均δ?達0.929，超過Depth Anything V3的0.918

實測案例：鹿苑寺照片深度估計13.71米，實際測量12.87米，絕對相對誤差僅約0.065

更重要的是，模型在驗證"生成即理解"的同時，未損傷原有生成能力——GenAI-Bench勝率達53.5%。

誰參與了這項研究？

研究由Google DeepMind主導，何愷明、謝賽寧等多位知名學者參與。其中謝賽寧連續發文強調這一成果，認為"這些生成先驗超越了視覺專家模型長期依賴的專有架構與訓練范式"。

數據來源值得注意

訓練數據全部來自合成渲染引擎，未使用任何真實世界的深度數據，評估基準的真實訓練數據均被排除——這意味著模型的泛化能力更強。

未來挑戰

研究團隊也指出當前局限：推理開銷仍然顯著偏高，加速與成本優化是走向廣泛部署的必由之路；當前評估專注于單目圖像輸入，多視圖和視頻輸入是自然的下一步；探索基礎視覺模型與LLM的協同融合，以增強跨模態推理也是未來方向。

行業意義

研究團隊在論文中表示："我們可能正見證計算機視覺領域的重大范式轉變，我們正在目睹計算機視覺的范式轉變，并為基于視覺的AGI鋪平道路。"

業界認為，這一成果標志著生成式視覺預訓練在構建同時支持生成和理解的基礎視覺模型中扮演核心角色，為AI視覺技術打開新的發展路徑。

記者手記：當生成模型不僅能"畫"還能"懂"，我們離真正的"視覺智能"還有多遠？Vision Banana或許只是起點。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

外媒：中國電動汽車即將登陸加拿大經銷商等不及了

澎湃新聞 2026-05-18 07:30:49
4773 跟貼 4773
如何看“泡水貨”楊梅？水果店老板教辨別技巧：一摸、二聞、三嘗

星視頻 2026-05-18 11:59:21
138 跟貼 138

5月19日起鐵路部門在京張高鐵試點推出“自行車隨身行”服務

澎湃新聞 2026-05-18 11:34:30
1267 跟貼 1267

武功山景區遭“臭屁蟲”圍攻？有游客調侃“張嘴能吃飽”，景區提醒：可自備防蟲藥物

瀟湘晨報 2026-05-14 17:33:19
1119 跟貼 1119
“賣一度電，虧一度電” ！廣西146家售電企業，平均每家虧損442萬元

中國能源網 2026-05-18 11:34:14
2311 跟貼 2311

“計劃有變，準備奪冠！”張雪機車從“曇花一現”到“實力使然”

大象新聞 2026-05-18 20:51:07
17 跟貼 17

美債沖破5%“死亡線”！美銀Hartnett： 6月初是逃頂窗口

每日經濟新聞 2026-05-18 12:26:40
1105 跟貼 1105
8公里跑+8項力量 75歲王石與搭檔奪冠鎖定世錦賽資格

界面新聞 2026-05-18 13:42:03
1802 跟貼 1802

重復收費、過度診療…… 中山市第三人民醫院被罰472萬元

南方都市報 2026-05-18 17:22:23
55 跟貼 55
不識字也能輕松過四科？山西臨縣通報“駕校文盲包過”：公安機關已成立專班開展調查，將嚴肅追究相關人員責任，涉事駕校已被停業整頓

極目新聞 2026-05-18 21:31:31
18 跟貼 18
江蘇省消防救援總隊副總隊長朱亞明接受審查調查

界面新聞 2026-05-18 10:31:47
55 跟貼 55
三大運營商Token套餐全上線

極目新聞 2026-05-18 19:56:26
126 跟貼 126
普京將對中國進行國事訪問外交部介紹此訪有關安排

澎湃新聞 2026-05-18 15:34:33
33 跟貼 33
王力宏承認用代言費購買比亞迪股票 “如果10年前投資了比亞迪，現在翻了多少倍了，這次會把握好機會”

每日經濟新聞 2026-05-18 20:20:13
0 跟貼 0
C羅，別讓求勝心變成一種偏執

上觀新聞 2026-05-18 23:37:44
15 跟貼 15
CBA季后賽：浙江浙商證券勝深圳馬可波羅

極目新聞 2026-05-18 22:55:54
19 跟貼 19
打破魔咒！哈登生涯至今首次客場搶七取勝

北青網-北京青年報 2026-05-18 21:12:44
20 跟貼 20
裝修工人利用虹吸原理巧解排水難題。網友：早學會這招，就不一勺一勺舀了！#睡個好覺

環球網資訊 2026-05-18 23:02:40
24 跟貼 24
不能吃！“泡藥楊梅”被曝光，最新消息→

8099999街頭巷尾 2026-05-18 14:18:10
71 跟貼 71
廣汽董事長馮興亞回應埃安被稱“網約車之王”：這是對品質最好的驗證

界面新聞 2026-05-18 15:51:19
119 跟貼 119
統計局：4月一線城市商品住宅銷售價格環比上漲

國家統計局 2026-05-18 09:34:55
171 跟貼 171
連花清瘟膠囊/顆粒榮獲“中藥現代化三十年示范品種”

閃電新聞 2026-05-18 15:46:07
134 跟貼 134
1—4月份國民經濟保持穩中有進發展態勢

央視新聞客戶端 2026-05-18 10:03:37
6 跟貼 6
“湖北襄陽特大暴雨致道路及車輛被淹”系謠言（2026·05·18）

今日辟謠 2026-05-18 17:57:28
22 跟貼 22
52對新人參加江蘇青年國風集體婚禮，孟非現場送祝福

澎湃新聞 2026-05-18 23:24:27
2 跟貼 2
20萬買19條人命？湖北"癌癥村"事件絕不能止于罰款

胡言炫語 2026-05-19 01:26:59
0 跟貼 0
以監管升級筑牢職業技能培訓市場安全底線

北青網-北京青年報 2026-05-19 01:19:34
0 跟貼 0
等公交的人，平均浪費23分鐘：你在等下一輛，還是在等自己死心

心事寄山海 2026-05-19 01:35:45
0 跟貼 0

汽車要聞

手機 / 數碼

房產 / 家居

視覺AI迎來大轉折：AI生成模型也能當“視覺專家”了！

同一公司,有人獎金是6年工資,我卻只有半年

賴清德要求美國繼續向臺出售武器 外交部表態

賴清德要求美國繼續向臺出售武器 外交部表態

58順位的保羅，最強第三中鋒

票房會破14億！口碑第一電影出現了

中國芯片，怎么突然不便宜了？

40.98萬起！充電5分鐘純電續航420km 騰勢N9閃充版勝算有多少？

態度原創

用蘇繡的方式，打開江西婺源

夏天別總穿黑衣黑褲，這幾款格紋單品也很實用，百搭又高級

《GTA6》多個取景地在現實已消失！開發太久的弊端

莫斯科遭一年多來最大規模無人機襲擊 3死18傷

賴清德要求美國繼續向臺出售武器外交部表態

賴清德要求美國繼續向臺出售武器外交部表態