網易首頁 > 網易號 > 正文申請入駐

Google I/O深度解析：給Agent 時代尋找最經濟的解

2026-05-20 23:38:47　來源: 一言楠盡

廣東舉報

分享至

整場I/O 2026，谷歌CEO Pichai說了句不太像他會說的話："最前沿的Agent可能只觸達過世界上0.1%的人。"

話外音沒說，但意思很清楚：Agent這東西已經跑通了，可跑通和跑起來是兩件事。

OpenAI有Operator、Codex，Anthropic有Claude Code、Cowork，但它們至今只在極少數人的工作流里轉。Google想做的，是讓Agent變成「自來水」。

這大概是理解整場I/O 2026最關鍵的一把鑰匙。

Gemini 3.5、Spark、Omni、搜索變革、TPU 8，看上去是五件事，但底層只講了一件事：Agent怎么從0.1%走到99.9%？

Gemini 3.5 Flash是所有其他事情的底座。

Agent的經濟模型能不能成立，取決于單次任務的成本夠不夠低。3.5 Flash做的事情，是把Agent的運行成本拉到一個可以規模化的水位。

Google自己也已經這么干了——內部token日處理量從3月的5000億飆到3萬億，每隔幾周翻一倍。

基準測試一句話帶過：Terminal-Bench 76.2%、MCP Atlas 83.6%、GDPval 1656 Elo，全面壓了自家四個月前的3.1 Pro一頭——又一個中杯干翻大杯的故事，和GPT-4o mini超過GPT-4、Sonnet逼近Opus是同一條曲線——參數壁壘正在被工程效率攤薄。

但Pichai把3.5 Flash推到舞臺中心，不是在秀肌肉，是在算賬。

3.5 Flash輸出速度是其他前沿模型的4倍，在Antigravity框架內優化后可達12倍，定價不到同檔前沿模型的一半。

他在臺上直接報了數：一家每天在Google Cloud上處理1萬億token的企業，把80%的負載遷到Flash，一年能省超過10億美元。Pichai還補了一句："你可能聽過CIO抱怨年度token預算到五月就花光了。"

Pro下個月才上，但Flash已經夠用了。

引擎有了，接下來是車。

Gemini Spark，Google的第一個個人Agent產品，24/7跑在云端虛擬機上，你合上電腦它還在干活。

底層是Gemini 3.5 Flash加Antigravity框架，支持長周期任務。

演示場景很能說明問題：讓它寫一封產品總結郵件，它自動從Gmail、Docs、Sheets、Slides里拉事實寫草稿；讓它管學校時間表，它橫跨日歷、郵件、通訊錄來協調。

這些事拆開看都不復雜，但串起來需要一樣東西：對用戶數字生活的全盤訪問權。這就是Google做Agent的護城河——和OpenAI、Anthropic不在一個維度上。

后兩者的Agent更強、更靈活、編碼能力更硬，但它們夠不到你的郵箱、日歷、文檔和通訊錄。

Spark可以，因為它就長在這些東西里。

某種意義上，這是Google二十年來積累的最大一筆資產第一次被激活。Gmail、Calendar、Docs、Sheets、Drive——這些產品各自都有數億用戶，但一直是孤島。Spark第一次用一個Agent把它們連成了群島。

這和智能手機早期的一個時刻是同構的。iPhone之前，手機上的App也是孤島——你在通訊錄里找到號碼，手動切到短信App發送。iOS把通訊錄、短信、電話、日歷打通，一個聯系人卡片上就能直接發短信、打電話、約會議。

這種"打通"本身不是技術突破，但它改變了用戶的行為模式。Spark就是Google版的那次"打通"，只是從手機擴展到了整個數字生活。

Gemini 3.5 Flash是Agent的引擎，Spark是Agent的車，而第一次亮相的Omni則走了另一條路——它不跑Agent，它跑"世界模型"。

Gemini Omni 目前還只有 flash 版本，已經上線Google FLow，它的定位是"能從任何輸入生成任何輸出模態的模型"，從目前的演示看，你可以粗俗的理解為「P視頻」。

文本、圖像、音頻、視頻，任意組合輸入，跨模態推理后輸出視頻。不是流水線拼接，是一個推理過程把所有輸入吃透，生成一個邏輯自洽的結果。

Omni不是Veo的常規升級，它是Gemini主架構從輸入端多模態延伸到輸出端多模態的產物——Veo和Nano Banana變成了它身上的能力組件，而不是獨立模型。

Omni其實又是一個"專用模型走向統一模型"的案例——GPT-4開始把文本和圖像塞進一個模型，Gemini 1.0接入了音頻，但生成側仍然割裂。

而Omni把生成側也完成統一——就像早年的聲卡、顯卡、網卡從獨立板卡整合進CPU，不是因為專用方案不夠好，而是因為統一方案消除了模態間的轉換成本，而這種成本是多模態工作流里最大的摩擦。

模型變了，搜索也得變。

Agentic Coding進入搜索：搜"黑洞如何影響時空"，搜索引擎不再返回鏈接，而是實時寫代碼、跑代碼，給你一個可以拖拽參數的交互式可視化頁面。搜索第一次從"找信息"變成了"做事情"。

這代網民大概不會記得，1998年Google上線時做的事兒叫"組織全球信息"——你提問，它給地址。

28年過去，知識圖譜讓它更精準，AI Overview讓它更直接，但底層邏輯始終沒變過：我幫你找到，你自己看。

而現在，這個邏輯被撕開了一道口子，搜索直接在原地搭建一個答案。從信息檢索到問題解決，一個典型的范式遷移。

Google敢對所有用戶免費開放，因為它需要用戶養成"搜索即解決問題"的習慣——一旦成立，搜索引擎就從流量入口變成了任務執行入口。

底層邏輯變了，底層硬件也得跟著變。

TPU 8拆成了兩顆芯片：TPU 8t專攻訓練，TPU 8i專攻推理。算力翻倍在AI行業已經不算新聞了，真正有意思的是訓練和推理第一次被當成了兩種截然不同的工作負載。

早年的計算機只有一顆通用處理器，后來GPU獨立出來，CPU和GPU的分家是因為計算需求的分化倒逼了硬件的分化。

TPU 8t和8i的分家遵循同樣的機制——訓練是批量重計算，推理是低延遲輕計算，強行用一顆芯片兼顧兩者，就像讓一輛車同時跑拉力賽和F1。拆開之后，各自奔向各自的最優解。

這是基礎設施走向成熟的標志。

一個行業還在草莽階段時，通用方案就夠了；只有當需求分化到一定程度，專用方案才比通用方案更經濟。訓練和推理的分家，意味著AI計算的需求已經復雜到值得在硅片層面做取舍了。

回看整場I/O 2026，Pichai那句話其實已經把底牌亮了。

Gemini 3.5 Flash把Agent的運行成本拉到可規模化的水位，Spark把Google二十年的產品矩陣第一次用一個Agent串了起來，Omni把多模態生成從分治推向統一，搜索從信息檢索變成了任務執行，TPU 8把訓練和推理拆成了兩條專用賽道。

當然，還有Antigravity 2.0 重構，隱形水印通用標準SynthID，AI Studio更新，AI智能眼鏡等等等等。

這幾件事看上去各管各的，但橫著排開，Google在做同一件事：給Agent時代的每一個層級找一個最經濟的解。

DeepMind 掌門人哈薩比斯在結束時說："當我們回望這一刻，我想我們會意識到，我們正站在奇點的山腳下。這將是人類一個意義深遠的時刻。"

這話聽起來像修辭，但如果你把I/O 2026的發布橫著排開看——模型、產品、生成、入口、硬件——Google確實在搭建某種完整的東西——一個尚未到來的時代做腳手架。

不過，腳手架和建筑畢竟是兩回事。

Google在I/O上展示的所有能力——Spark的長程任務、Omni的跨模態生成、搜索的Agentic Coding——都是受控演示。當這些能力被數億用戶真正使用時，會發生什么？

Spark會不會在你不注意的時候把一封不該發的郵件發出去了？Omni生成的視頻會不會在某個你不在意的細節上出現事實性錯誤？Agentic Search跑出來的代碼，誰來驗證？

技術從0.1%到99.9%的路上，最大的障礙從來不是能力不夠，是出錯之后怎么辦。

Google這次專門花了時間講Spark的安全設計——思考軌跡實時展示、敏感操作前征求許可——但這只是第一個版本。

真正的考驗是，當Agent的權限大到可以替你發郵件、訂會議、寫代碼的時候，一次誤操作的代價也大到用戶承受不起。

0.1%的人能容忍Agent犯錯，99.9%的人不能。從前者到后者的距離，可比從0到0.1%遠得多。

對了，可能還有些你早已經在各大媒體上提及的數據，我覺得這些不是重點，卻是 Google 感敢于做上面這些事的最大底氣。

Gemini App月活用戶一年翻倍至9億+，谷歌搜索的AI概覽功能用戶突破25億、AI模式用戶超10億。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.