網(wǎng)易首頁 > 網(wǎng)易科技 > 網(wǎng)易科技 > 正文

谷歌I/O大會(huì)前瞻：Gemini 4.0未必封神，真正大招是生態(tài)

2026-05-17 11:09:45　來源: 網(wǎng)易智能

北京舉報(bào)

分享至

出品 | 網(wǎng)易智能

作者 | 辰辰

編輯 | 王鳳枝

這次，谷歌必須證明自己還在牌桌上。

北京時(shí)間5月20日凌晨，一年一度的谷歌I/O大會(huì)即將開幕。過去，大家看I/O，是等安卓新功能、Pixel新硬件，順便看幾個(gè)炫技Demo。今年不一樣。外界真正想看的只有一件事：去年Gemini 3剛讓谷歌扳回一局，這幾個(gè)月OpenAI、Anthropic又連續(xù)加速，谷歌還能不能守住第一梯隊(duì)。

幾天前的Android Show已經(jīng)放出信號(hào)：安卓17、Gemini Intelligence、AI筆記本，都只是預(yù)熱。真正的主菜，藏在I/O主題演講里。

Gemini 4.0會(huì)不會(huì)亮相？傳聞中的Omni能不能把視頻、語音、對(duì)話和創(chuàng)作打通？Aluminium OS會(huì)不會(huì)讓谷歌重新殺回PC？Android XR眼鏡能不能成為下一個(gè)入口？

這些問題背后，真正要看的不是單個(gè)產(chǎn)品有多強(qiáng)，而是谷歌能不能把這些散牌，打成一套完整的反擊。

一、核心大腦：Gemini 4.0與"Omni"，對(duì)標(biāo)GPT-5.5的全能形態(tài)

今年I/O大會(huì)的第一大懸念，是Gemini能否真正抹平與OpenAI的代差。

目前泄露的信息涉及多個(gè)版本號(hào)，但真正值得關(guān)注的只有兩個(gè)：Gemini 4.0和Gemini Omni。前者是谷歌2026年的旗艦底座，目標(biāo)是在邏輯推理能力上實(shí)現(xiàn)跨越式提升，全方位對(duì)標(biāo)GPT-5.5；后者是基于4.0架構(gòu)的原生多模態(tài)版本，核心在于"Omni(全能)"，意味著它不再需要外掛視頻或音頻工具，自己就能直接生成和處理多維信息。

網(wǎng)紅科技博主Chubby也援引公開報(bào)道稱，谷歌正準(zhǔn)備在I/O大會(huì)上發(fā)布一款新的Gemini模型，將其定位為接近OpenAI最近的GPT-5.5，而不是更加難以企及的Anthropic Mythos。

而社交媒體上近期熱議的"Gemini Omni"模型，據(jù)傳將是本次大會(huì)的"One More Thing"。

根據(jù)Chrome Unboxed和9to5Google的聯(lián)合爆料，部分內(nèi)測用戶已經(jīng)提前看到了名為"Omni"的模型選項(xiàng)。與之前的Veo不同，Omni不僅涵蓋了Veo的視頻生成能力，還增加了"視頻重混"和"原生對(duì)話剪輯"等新功能。

有用戶在社交媒體上"哀嚎"，稱使用Omni模型生成一段短視頻就消耗了其AI Pro計(jì)劃86%的每日額度。這種超高的算力消耗，側(cè)面反映了視頻生成任務(wù)的計(jì)算密集度，也暗示該模型的能力可能遠(yuǎn)超此前的版本。

二、系統(tǒng)革命：Aluminium OS，不只是安卓，是PC的重生

如果說AI是大腦，那么各路媒體和社區(qū)相傳的Aluminium OS就是谷歌為這顆大腦打造的全新"身體"。

在Reddit上，一段長達(dá)16分鐘的Aluminium OS上手視頻被瘋狂轉(zhuǎn)發(fā)。視頻顯示，這套系統(tǒng)徹底打破了ChromeOS的局限：

· 交互邏輯： 底部擁有類似macOS或Windows的App Dock欄。

· 核心功能： 完整的桌面版Chrome瀏覽器體驗(yàn)，原生運(yùn)行安卓App，加上強(qiáng)大的虛擬桌面切換。

· 殺手锏： 一個(gè)名為"Link to iOS"的內(nèi)置應(yīng)用。

這暴露了谷歌的野心。它不僅想統(tǒng)一自己的生態(tài)，還想通過AI電腦這個(gè)切入口，去撬蘋果iPhone用戶的墻角。

正如谷歌安卓生態(tài)系統(tǒng)總裁薩米爾·薩馬特(Sameer Samat)此前確認(rèn)的，Aluminium OS將搭載在名為"Googlebook"的新一代筆記本上。這不同于以往的Chromebook，而是由宏碁、華碩、聯(lián)想、戴爾、惠普等巨頭代工的高端AI PC，目標(biāo)是正面對(duì)壘蘋果MacBook和微軟Surface Pro。

三、硬件"金珠"：Android XR眼鏡的量產(chǎn)前夜

去年的I/O大會(huì)上，AR眼鏡還只是PPT上的概念。今年，它已經(jīng)有了清晰的量產(chǎn)路徑。

Mashable的最新深度報(bào)道梳理了谷歌XR硬件的真實(shí)面貌：

· AI智能眼鏡： 根據(jù)Android Headlines的爆料，目前代號(hào)"Jinju(金珠)"，定價(jià)區(qū)間預(yù)計(jì)在379美元至499美元之間，類似Meta與Ray-Ban的聯(lián)名款。無屏幕，主打Gemini Live語音交互。當(dāng)你走在街上問"我面前這棟樓的歷史"，它會(huì)通過內(nèi)置攝像頭實(shí)時(shí)作答。

· AR增強(qiáng)現(xiàn)實(shí)眼鏡： 相比AI智能眼鏡還帶有顯示鏡片，但發(fā)布時(shí)間未定。

379美元至499美元這個(gè)價(jià)格區(qū)間極具競爭力，意味著谷歌希望通過低門檻讓AR設(shè)備成為普通人的日常配件。

在合作廠商方面，除了三星之外，谷歌這次還拉攏了XREAL等AR眼鏡領(lǐng)域的領(lǐng)先廠商。多位開發(fā)者在X上爆料，谷歌已經(jīng)準(zhǔn)備好了完整的Android XR SDK(開發(fā)者工具包)。I/O大會(huì)將是這些開發(fā)者正式獲準(zhǔn)"上場"的時(shí)間點(diǎn)。

四、從"對(duì)話"到"代勞"：智能體與生態(tài)版圖的最后拼圖

如果說Gemini 4.0是大腦，Aluminium OS是骨架，那么本次I/O上有望亮相的其余武器，決定的是谷歌能不能真正切進(jìn)用戶的日常。

搜索的"核武選項(xiàng)"：默認(rèn)AI Mode的豪賭

最可能引發(fā)行業(yè)震動(dòng)的，是搜索入口的徹底重構(gòu)。谷歌準(zhǔn)備正式將"AI Mode"設(shè)為默認(rèn)搜索選項(xiàng)。

搜索不再是提供網(wǎng)頁跳轉(zhuǎn)，而是直接交付結(jié)果。當(dāng)你搜索"策劃低碳婚禮"時(shí)，Gemini 4.0會(huì)直接生成完整的方案預(yù)算，而不是讓你點(diǎn)擊不同的婚慶網(wǎng)站。

為解決"幻覺"痛點(diǎn)，新搜索將引入實(shí)時(shí)校驗(yàn)技術(shù)。AI在生成答案的同時(shí)，后臺(tái)會(huì)同步啟動(dòng)數(shù)個(gè)微型搜索任務(wù)進(jìn)行交叉驗(yàn)證，并實(shí)時(shí)標(biāo)注信源權(quán)重與"信心指數(shù)"。

備受好評(píng)的NotebookLM也有望與Gemini深度整合。用戶可以將私有文檔、科研報(bào)告作為"事實(shí)來源"喂給AI，確保生成的每一句話都"有據(jù)可查"，從而解決企業(yè)級(jí)用戶對(duì)AI準(zhǔn)確性的焦慮。

智能體(Agentic AI)：從"聊天"轉(zhuǎn)向"執(zhí)行"

在本次大會(huì)的預(yù)期清單中，"Agentic AI"是最吸睛的關(guān)鍵詞。與以往只會(huì)"紙上談兵"的對(duì)話機(jī)器人不同，谷歌正計(jì)劃讓Gemini具備自主執(zhí)行能力。

5月14日，社交媒體X上得爆料賬號(hào) @testingcatalog披露了更為詳盡的細(xì)節(jié)：這款名為 "Gemini Spark" 的全新智能體即將亮相。它被定位為一個(gè)24/7全天候在線的私人助理，其核心邏輯在于“理解”與“接管”。爆料顯示，Gemini Spark不僅能學(xué)習(xí)用戶的行為習(xí)慣，還會(huì)深度調(diào)用已連接的應(yīng)用（Apps）、歷史對(duì)話、地理位置以及用戶已登錄的網(wǎng)站信息，從而構(gòu)建起極具個(gè)人化的“數(shù)字大腦”。

為了實(shí)現(xiàn)最高效的任務(wù)處理，Gemini Spark甚至?xí)４孢h(yuǎn)程瀏覽器數(shù)據(jù)（如登錄憑據(jù)和遠(yuǎn)程代碼執(zhí)行數(shù)據(jù)），這意味著它可以在極少人工干預(yù)下，自主控制電腦或手機(jī)完成復(fù)雜任務(wù)。比如，它能直接從網(wǎng)頁提取數(shù)據(jù)、填充表格并自動(dòng)發(fā)送郵件，而無需用戶反復(fù)授權(quán)登錄。

結(jié)合名為 "Magic Pointer" 的屏幕感知技術(shù)，AI 不再只是搜索框里的字符，它能“看到”你屏幕上的內(nèi)容（比如社交媒體上的旅行目的地），并直接利用Gemini Spark 獲取的個(gè)人情報(bào)與登錄狀態(tài)，在后臺(tái)靜默完成機(jī)票比價(jià)、酒店預(yù)訂并同步至日歷。

當(dāng)然，針對(duì)如此深度的隱私介入，爆料也提到谷歌在設(shè)置中預(yù)留了開關(guān)，用戶可以隨時(shí)清理遠(yuǎn)程瀏覽器數(shù)據(jù)或關(guān)閉個(gè)人智能功能，以在便利與安全之間尋找平衡。

Android 17：低調(diào)測試背后的"多任務(wù)"野心

雖然"Android Show"已經(jīng)預(yù)熱過，但I(xiàn)/O主會(huì)場才是Android 17真正亮殺招的舞臺(tái)。測試版看似波瀾不驚，但核心交互邏輯正在發(fā)生質(zhì)變。

據(jù)稱，借鑒了折疊屏經(jīng)驗(yàn)的"氣泡"窗口(App Bubbles)交互模式將全面下放，允許任何應(yīng)用以懸浮窗形式存在。這不僅是針對(duì)大屏設(shè)備的優(yōu)化，更是為了在Aluminium OS時(shí)代實(shí)現(xiàn)手機(jī)與PC體驗(yàn)的無縫融合。

此外，在經(jīng)歷了兩年的激進(jìn)擴(kuò)張后，Android 17將回歸底層，重點(diǎn)修復(fù)AI集成后的功耗與隱私漏洞，為即將到來的Pixel系列提供最穩(wěn)固的底座。

創(chuàng)作工具與"未來投影"：Veo、Lyria與Project Beam

視頻生成工具Veo和音樂創(chuàng)作工具Lyria預(yù)計(jì)將推出更具商業(yè)落地價(jià)值的Pro版本，對(duì)標(biāo)行業(yè)最頂尖的生成式標(biāo)準(zhǔn)。充滿科幻感的3D視頻通話技術(shù)Project Beam也有望展示最新進(jìn)展，利用多攝像頭陣列讓遠(yuǎn)程通話對(duì)象像真實(shí)的3D模型一樣出現(xiàn)在你面前，配合Android XR眼鏡使用，直接打破了屏幕的物理邊界。

五、社交媒體反應(yīng)：是"全能代理"的黎明，還是"追趕者"的最后掙扎？

在社交媒體和開發(fā)者社區(qū)，圍繞這屆I/O的討論已經(jīng)極度兩極分化。

看好的一方，賭的是生態(tài)整合。

科技媒體Mashable援引創(chuàng)作者Renato在X上的推文指出，Omni模型的出現(xiàn)意味著我們終于要打破"對(duì)話框"的束縛。如果Gemini 3.5/4.0能夠原生輸出視頻并嵌入工作流，創(chuàng)作者將不再需要在不同的AI工具間反復(fù)切換，這種"多模態(tài)畫布"的體驗(yàn)將直接改變內(nèi)容生產(chǎn)的邏輯。

知名科技評(píng)論員邁克爾·斯坦(Michael Stan)則認(rèn)為，相比模型跑分，"Teamfood"(內(nèi)部測試代號(hào))長效記憶功能才是真正的殺手锏。目前AI工具最讓人沮喪的就是每次開啟新對(duì)話都要重新解釋背景，如果谷歌能實(shí)現(xiàn)跨Session的持久記憶，Gemini才會(huì)真正從"聊天機(jī)器人"變成"數(shù)字助理"。

看衰的一方，質(zhì)疑的是執(zhí)行力。

開發(fā)者Jasper的評(píng)論獲得了大量點(diǎn)贊，他直言谷歌正全面落后：視頻輸給Seedance，圖像輸給GPT image v2，聊天和編程輸給了所有人，語音輸給GPT realtime 2，音樂輸給Suno。這屆I/O必須拿出有統(tǒng)治力的產(chǎn)品。

針對(duì)"Gemini 4.0性能約等于GPT-5.5"的爆料，評(píng)論員Kushagra Tiwari諷刺道："谷歌將目標(biāo)對(duì)準(zhǔn)GPT-5.5而不是Mythos，這說明了現(xiàn)在的真實(shí)基準(zhǔn)線到底在哪里。他們甚至都不再假裝去追趕Anthropic了，只是在努力讓自己在低一檔的梯隊(duì)中保持存在感。"

Reddit上也有資深用戶反映，近期Gemini和Google Flow的穩(wěn)定性極差，甚至到了"幾乎無法使用"的地步。雖然他樂觀地認(rèn)為這是在為大版本更新鋪路，但更多用戶在跟帖中表達(dá)了因3.1版本Bug頻發(fā)而感到心灰意冷，甚至已經(jīng)開始考慮重回GPT或Anthropic。

還有一些聲音在討論更底層的問題。

有開發(fā)者在X上提出：即便Gemini 4.0追平了GPT-5.5，但在成本和效率上，它能否抵擋住中國開源大模型的沖擊？如果閉源模型的溢價(jià)無法轉(zhuǎn)化成絕對(duì)的生產(chǎn)力優(yōu)勢，谷歌的商業(yè)閉環(huán)將面臨嚴(yán)峻挑戰(zhàn)。

也有評(píng)論調(diào)侃谷歌一直在"廚房里備菜"，但如果5月19日端出來的菜還是"半成品"，那么正如Stephen Day所言："谷歌可能需要把整個(gè)廚房的員工都換了。"

這種輿論氛圍，本質(zhì)上是一種"恨鐵不成鋼"的期待。大家依然相信谷歌擁有全球最強(qiáng)的算力和最深的技術(shù)積淀，但耐心正在被一次次"Demo驚艷、實(shí)測平平"所磨滅。今年的I/O，不只是展示技術(shù)的秀場，更是谷歌奪回社區(qū)信任的關(guān)鍵一仗。

六、總結(jié)：這不只是一場科技盛會(huì)，更是谷歌的保衛(wèi)戰(zhàn)

站在2026年的時(shí)間節(jié)點(diǎn)上，谷歌面臨的對(duì)手前所未有地強(qiáng)大：OpenAI虎視眈眈，Meta在XR硬件端先聲奪人，蘋果正在深度重構(gòu)全線產(chǎn)品的AI體驗(yàn)。

經(jīng)過前面五章的梳理，有幾個(gè)判斷可以先給出來。

在這手牌里，最有勝算的可能是搜索。AI Mode設(shè)為默認(rèn)這步棋，本質(zhì)上是谷歌在用自己最大的護(hù)城河(搜索入口和流量)去喂AI。別家需要費(fèi)力獲客，谷歌只需要把現(xiàn)有用戶的搜索體驗(yàn)換一層皮。如果實(shí)時(shí)校驗(yàn)技術(shù)和NotebookLM整合能做到位，這張牌打出來的效果可能比Gemini模型本身更重要。

最大的不確定性在Aluminium OS。一個(gè)全新的操作系統(tǒng)要說服用戶放棄macOS或Windows，光靠"能跑安卓App"遠(yuǎn)遠(yuǎn)不夠。ChromeOS的教訓(xùn)還在眼前。谷歌需要在I/O上拿出至少一個(gè)讓人無法在其他平臺(tái)復(fù)制的使用場景，否則Googlebook大概率會(huì)重蹈Chromebook高開低走的老路。

而XR眼鏡和Omni模型，更像是谷歌在押注下一個(gè)周期。379美元的定價(jià)說明谷歌想走量，但沒有屏幕的AI眼鏡能不能撐起日常使用，取決于Gemini Live的語音交互到底有多可靠。如果只是一個(gè)戴在臉上的語音助手，消費(fèi)者不會(huì)買單。

歸根結(jié)底，谷歌這次要證明的不是某個(gè)單品有多強(qiáng)，而是這些散在各處的能力，從模型到系統(tǒng)到硬件到搜索，能不能拼成一套連貫的體驗(yàn)。如果I/O結(jié)束后，外界的反應(yīng)還是"每個(gè)Demo都很炫，但實(shí)際用起來還是老樣子"，那這場保衛(wèi)戰(zhàn)就算輸了。

5月20日凌晨，答案馬上揭曉。