谷歌推出Gemini 3.5系列模型 Omni視頻生成迎來關鍵突破

2026-05-20 02:43:29　來源: 財聯(lián)社

上海舉報

分享至

財聯(lián)社5月20日訊（編輯牛占林）在全球人工智能(AI)競爭加劇的背景下，谷歌宣布推出Gemini 3.5系列模型，以及一款用于模擬物理世界的新型AI模型，旨在在模型開發(fā)方面保持領先，同時為其龐大的用戶群提供更多AI智能體服務。

谷歌在周二舉行的年度開發(fā)者大會(Google I/O)上發(fā)布了上述消息，當前市場正高度關注OpenAI與Anthropic兩家公司飆升的估值，這兩家公司均計劃最早于今年進行IPO。

谷歌AI戰(zhàn)略的核心依然是Gemini系列及相關工具。周二公司重點展示了Gemini 3.5 Flash，這是該系列的一款輕量級產(chǎn)品。

谷歌首席執(zhí)行官桑達爾·皮查伊表示，Gemini 3.5 Flash在提供尖端能力的同時，其成本僅為同類頂尖模型的一半，甚至有時不到三分之一，同時保持了高智能水平。

皮查伊稱Gemini 3.5 Flash“速度極快”。谷歌同時宣布，該型號將成為全球Gemini應用和搜索AI模式的默認模型。

谷歌在博客中指出：“用戶無需再在質(zhì)量與響應速度之間做取舍。”公司還強化了Gemini 3.5 Flash的網(wǎng)絡安全防護，使其“生成有害內(nèi)容的可能性更低，也不易在安全問題上拒絕回答。”

至于重量級版本Gemini 3.5 Pro，目前僅在內(nèi)部使用，預計下月才會向更廣泛的用戶開放。

在AI智能體方面，谷歌推出了Gemini Spark，這是Gemini應用中一款新型通用AI智能體，能夠?qū)﹃P聯(lián)應用中的信息進行跨平臺推理。谷歌表示，該工具能夠管理用戶的數(shù)字生活，并代表用戶執(zhí)行操作。Gemini Spark目前處于測試階段，下周將首先向受信任的測試用戶及Google AI Ultra訂閱用戶開放。

皮查伊表示：“我們已經(jīng)將智能體帶給開發(fā)者和企業(yè)一段時間了。現(xiàn)在，我們專注于將這種前沿能力安全可靠地帶給消費者，讓每個人都能受益。”

隨著越來越多的互聯(lián)網(wǎng)用戶使用聊天機器人，谷歌正在努力說服傳統(tǒng)搜索用戶信任其完成最少輸入即可執(zhí)行的任務。在公司資本支出大幅上升的情況下，華爾街關注谷歌是否能實現(xiàn)產(chǎn)品深度整合，而智能代理功能可能成為重要突破口。

AI公司的市場預期持續(xù)上升，尤其是在Anthropic近期發(fā)布的Mythos模型背景下。據(jù)稱，該模型強大到能夠發(fā)現(xiàn)全球軟件基礎設施中的數(shù)千個未知漏洞。

谷歌的AI產(chǎn)品組合還包括Gemini Omni，這是一款用于模擬物理環(huán)境的世界模型，可以根據(jù)用戶的操作預測接下來會發(fā)生的情況。世界模型通常用于機器人和游戲領域，多年來一直是DeepMind重點研究方向。而Omni在物理模擬方面更準確，例如重力、流體動力學和動能等。

谷歌DeepMind首席AI架構師兼技術總監(jiān)Koray Kavukcuoglu介紹稱：“Omni可以生成非常高質(zhì)量的視頻，并允許用戶在生成后與視頻進行互動。可以想象，這為學習和探索提供了類似教程的能力。”

Omni可在Gemini Flash、Gemini應用、Google Flow及YouTube Shorts中運行，支持圖像和音頻功能。谷歌在另一篇博客中指出，用戶可利用Omni編輯視頻并生成更逼真的圖像效果。

"拍攝一段視頻，可以讓Omni改變其中正在發(fā)生的內(nèi)容。"谷歌表示，這款AI模型能夠"編輯動作、添加新角色或物體"。

高質(zhì)量視頻的生成一直是AI工具的難點，而且對計算資源要求極高。OpenAI在今年早些時候就放棄了其視頻生成工具Sora，部分原因就是為了將算力資源用于其他項目。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.