三年前Google推出Gemini時,目標很明確:做一個真正的多模態大模型——用同一個神經網絡同時訓練文本、圖像、音頻和視頻,并能以任意格式生成內容。今天,這個目標有了實質性進展。
在Google I/O開發者大會上,CEO Sundar Pichai發布了Gemini Omni模型家族。按照他的說法,這套系統將實現"從任意輸入創造任意內容"。
![]()
第一階段落地的是視頻功能。用戶可以把圖片、音頻、視頻片段和文字混在一起輸入,Omni不會簡單拼接這些素材,而是跨模態推理,輸出連貫的高質量視頻。Google強調,生成的視頻能體現對物理規律、文化背景、歷史知識和科學原理的理解。
另一個功能是圖像編輯。用戶用自然語言描述修改需求,不需要打開Photoshop。這和Google之前推出的Nano Banana類似。
Google其實已有專門的視頻模型Veo,支持文字/圖片轉視頻,還能定制虛擬形象。但DeepMind產品管理總監Nicole Brichtova明確表示,Omni不是Veo的簡單升級:"這是把Gemini的推理能力和媒體模型的渲染能力結合起來的下一步。"
DeepMind首席技術官Koray Kavukcuoglu舉了一個例子:輸入提示詞"黏土動畫風格的蛋白質折疊講解",Omni快速生成了一段定格動畫,旁白解釋道:"蛋白質最初是氨基酸鏈,它們折疊成α螺旋等圖案,以及被稱為β折疊的扁平區域,形成完美的三維結構。"
長期愿景更激進——從音頻生成圖像,或從視頻生成音頻。Pichai在發布會上回顧:"Gemini首次發布時,是我們第一個原生多模態AI模型。我們知道,用文本、代碼、音頻、圖像和視頻的組合來訓練它,會讓它對世界有更深的理解。有了世界模型,AI正從預測文本走向模擬現實。Gemini Omni是朝這個方向的下一步。"
這次發布還包含個人數字形象功能。用戶可以創建自己的虛擬替身,類似OpenAI曾在Sora應用中推出的Cameos功能。為防止深度偽造濫用,用戶需要完成專門的產品準入流程:錄制本人視頻并朗讀一串數字。通過驗證后,該形象會被保存供后續使用。
所有Omni生成的視頻都會嵌入Google的SynthID數字水印,用于追溯內容來源。
首個可用模型是Gemini Omni Flash,當天即向Gemini應用、YouTube Shorts和AI創作工具Flow推送。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.