![]()
不到一個禮拜,接連兩位重量級員工都離開了谷歌。
前有Google DeepMind工程副總裁諾姆·沙澤爾(Noam Shazeer),后有AlphaFold核心負責人約翰·江珀(John Jumper)。
講真的,我很難不懷疑谷歌現(xiàn)在“出BUG”了。
從Gemini 3問世,到現(xiàn)在都過去大半年了,谷歌還是只有差別不大的Gemini 3.1。你再看看Anthropic這邊,半年前還只是Opus 4.5,現(xiàn)在Fable 5都停用一個多禮拜了。
不只是模型掉隊,產(chǎn)品也跟著掉隊。如今幾乎所有的AI公司都在發(fā)力AI Agent,OpenAI有Codex,Anthropic有Claude Code。
Fable 5加持下的Claude Code,現(xiàn)在都能自主修bug,自動循環(huán)跑測試直到全綠,還能從設(shè)計稿直接生成生產(chǎn)代碼,最后封裝成完整的軟件。
而谷歌這邊,只有一個拿不出手的Antigravity 2.0,不僅效果糟糕,使用體驗也一言難盡,網(wǎng)上對這個產(chǎn)品只有一片罵聲。
說到這里就不得不提一件事,伯克希爾從2025年就開始建倉谷歌,到了2026年第一季度,伯克希爾把谷歌的持倉又加了224%。
2026年6月1日,伯克希爾以定向增發(fā)的方式向谷歌母公司Alphabet再投了100億美元。
難道這回巴菲特真的看走眼了?
01
谷歌的全棧優(yōu)勢怎么沒了?
2025年11月18日,谷歌發(fā)布了Gemini 3。皮查伊親自出來站臺,說這是谷歌“最智能的模型”,擁有全球最頂尖的推理能力,多模態(tài)理解,還有代碼生成能力。
于是在同一天,谷歌還放出了另外兩樣東西:一個是Google Antigravity,號稱“agent-first”的開發(fā)平臺;一個是Nano Banana Pro,它是谷歌此前爆火的文生圖模型Nano Banana的威力加強版。
當時的谷歌有多嚇人?這么說吧,在谷歌這場產(chǎn)品發(fā)布會結(jié)束后兩個禮拜,奧特曼向OpenAI內(nèi)部發(fā)出“Code Red(紅色警報)”備忘錄,稱ChatGPT的產(chǎn)品體驗與質(zhì)量優(yōu)勢正在被谷歌快速追近,因此全公司暫停所有其他業(yè)務,集結(jié)全員投入到ChatGPT當中。
奧特曼擔心的不只是這三個產(chǎn)品,而是谷歌的全棧優(yōu)勢。
在硬件上,谷歌有自研的TPU芯片。谷歌從2015年就開始做TPU,到今天已經(jīng)到了第七代Ironwood,一顆芯片頂過去四顆的算力,液冷散熱,一個pod塞進去9216顆芯片,提供42.5 ExaFlops的算力。
和英偉達那種通用的GPU不同,TPU是專門為AI推理任務進行過優(yōu)化的,成本低,而且性能更好。
再往上一層是DeepMind。
2023年4月,谷歌把Google Brain和DeepMind合并成了一個單位。此前,這兩家雖然是同一家公司,但長期以來是兩套體系、兩套文化,Brain偏產(chǎn)品和商業(yè)化,DeepMind偏長期研究。
合并之后,哈薩比斯統(tǒng)一帶隊,杰夫·迪恩(Jeff Dean)退居首席科學家。也就是說,谷歌的“左右腦”合一了。
繼續(xù)往上,還有一層很多人容易忽略的東西:入口。谷歌不是只有模型,它有Chrome、Android、YouTube、Google Maps、Gmail、Google Workspace、Google Search。
這些東西加起來,日活幾十億。全世界沒有任何一家AI公司擁有這個量級的用戶。它能通過入口去鋪產(chǎn)品,再用這些成熟的產(chǎn)品拿到用戶反饋,加快整個產(chǎn)品的開發(fā)迭代。
比如用戶在哪一步退出了,哪種能力被反復調(diào)用,哪些生成結(jié)果被用戶改掉了或者直接放棄了,哪些功能形成了留存,哪些場景出現(xiàn)大量報錯和投訴。
![]()
就拿Nano Banana來說。
這個產(chǎn)品雖然體量非常小,但是它其實是通過谷歌的全棧,擁有自己一個完整飛輪。
Nano Banana剛剛在LM Arena一類的盲測環(huán)境里走紅后,谷歌做的第一件事就是把它立刻上線到Gemini App、AI Studio、Gemini API當中,甚至連專門面向企業(yè)的Vertex AI也沒放過。
用戶不僅能通過各種產(chǎn)品感受Nano Banana,谷歌還能用這些產(chǎn)品收集反饋,這也就是為什么Nano Banana產(chǎn)品迭代速度那么快,碾壓GPT-4o的作圖能力。
那為什么到現(xiàn)在,谷歌的全棧優(yōu)勢沒了呢?
文生圖是一個低風險、短鏈路、結(jié)果立刻可見的產(chǎn)品。
用戶輸入一句話,幾十秒后得到一張圖,不滿意就重來,滿意就分享。它不需要長期記憶,也不需要調(diào)用工具權(quán)限,更不需要為一次錯誤承擔現(xiàn)實后果。
但是Agent不一樣。它不是“給用戶一個結(jié)果”,它是要徹底駐扎進用戶的工作環(huán)境,持續(xù)讀取上下文、調(diào)用工具、執(zhí)行操作,并對最后的結(jié)果負責。
Nano Banana的成功并不能完全復刻到Agent了。
當產(chǎn)品需要跨模型、權(quán)限、執(zhí)行環(huán)境、企業(yè)系統(tǒng)和長期責任時,谷歌那套原本強大的全棧能力,開始顯露出協(xié)調(diào)不起來的問題。
02
谷歌真正的病是組織架構(gòu)太混亂
如果你去翻谷歌的開發(fā)者產(chǎn)品線,你會發(fā)現(xiàn)一個很詭異的現(xiàn)象。谷歌同時有好幾個工具,都在幫你用AI寫代碼,產(chǎn)品功能幾乎都重疊了。
Gemini CLI,一個命令行工具,可以查代碼庫、生成應用、自動執(zhí)行復雜流程,2025年底隨Gemini 3一起推出。到了2026年6月,谷歌發(fā)了個公告:Gemini CLI即將被Antigravity CLI取代。
Jules,一個異步編碼Agent,Google Labs出品,定位是自動幫你修bug、寫測試、提Pull Request。它不需要你盯著看,你把任務扔給它,它自己克隆倉庫、寫代碼、開PR,干完了通知你。
Code Assist,Google Cloud旗下的企業(yè)級編程助手,裝在VS Code和JetBrains里用,收費22.8到54美元一個用戶一個月。Firebase Studio,瀏覽器里的全棧開發(fā)工作臺,內(nèi)置了Gemini,也能幫你生成代碼。
然后是永遠扶不上墻的Antigravity,前文也提到了,2026年5月I/O大會上又發(fā)了個2.0版本,分了桌面App、CLI、SDK、Managed Agents、企業(yè)層五塊。
它們都在做同一件,但它們是不同團隊做的,有不同的品牌名,有不同的入口,有不同的收費模式,甚至有的在互相替代。
這種情況根本就不叫產(chǎn)品線豐富,這叫浪費算力。
這件事的根源其實是在組織架構(gòu)層面。
谷歌的AI Agent相關(guān)能力,被拆分在至少幾個互不統(tǒng)屬的組織手里。每個組織有自己的KPI,獨立的匯報線。
![]()
比如Google DeepMind,它管的是模型在benchmark上的分數(shù)能不能壓過GPT和Claude。DeepMind的成功是“我們做出了最強的模型”。
它根本不關(guān)心用戶在Antigravity里完成一個真實項目的成功率是多少。
到了Google Labs部門,它只管這個東西酷不酷,能不能在社交媒體上引發(fā)討論。
Google Labs的產(chǎn)品有CC(Gmail里的AI助理)、Project Genie(無限世界生成)、Pomelli(AI營銷工具)、Opal(自然語言做小應用),以及Jules。
實驗跑完了,熱度過去了,團隊可能去做下一個實驗了,它不會對產(chǎn)品進行長期維護。
Google Cloud和Vertex AI管的是模型能不能通過API調(diào)用,企業(yè)能不能采購,權(quán)限和合規(guī)有沒有覆蓋,Agent能不能部署到生產(chǎn)環(huán)境。
Antigravity更慘,它是從Google DeepMind里面走出來的,現(xiàn)在歸Google Labs維護。但是又必須接入Google Cloud的權(quán)限、部署和合規(guī)體系。
所以誰也不會對它負責,就這么擺爛。
你可能會問了,那到皮查伊這關(guān)可怎么辦?
DeepMind說,我們的模型又刷榜了。Labs說,Jules在社交網(wǎng)絡(luò)上又有10萬轉(zhuǎn)發(fā)了。然后Google Cloud那邊說,Agent Engine又簽了多少個企業(yè)客戶。Gemini App說,這個月的DAU穩(wěn)住了。Search說,AI Overviews用戶破20億。
大家的飯碗都保住了,卻最后留給Antigravity一地雞毛。
但沒有人能回答一個最簡單的問題:一個開發(fā)者,今天應該用谷歌的哪一個工具來完成他的工作?如果他現(xiàn)在用的是Codex或者Claude Code,谷歌準備用哪個產(chǎn)品把他搶過來?
03
評測贏了,不等于任務真的交付了
谷歌現(xiàn)在所有的敘事都只圍繞著評分,但現(xiàn)在大家早就不迷信benchmark了,能交付任務的才是好模型。
模型在benchmark上分數(shù)高,比如它推理題能答對,代碼能生成,圖像能看懂,多輪對話能保持連貫。
這些測試通常是在受控環(huán)境下進行的。單輪或有限輪次,輸入輸出干凈,不需要操作外部工具,不需要管理權(quán)限,不需要長時間持續(xù)運行。
失敗了的表現(xiàn)是什么?答案不對。最壞的結(jié)果,就是重來一遍。
但是到了任務交付這塊,模型的價值變了。
用戶把一個真實的工作扔給AI,到最后拿到了一個能用的結(jié)果,中間的鏈條其實是非常長的。
什么叫“真實的工作”?是“這個項目的支付模塊有個bug,請定位、修復、測試、提交PR”。它涉及多個步驟,可能要花幾十分鐘甚至幾個小時,中間需要調(diào)用Git、終端、瀏覽器、文件系統(tǒng)、API,每一步都有失敗的可能。
失敗了的表現(xiàn)是什么?不是答案不對,而是代碼改壞了、權(quán)限控不住了、流程卡死了、環(huán)境崩了、用戶不知道從哪里恢復。
我舉個例子。
假設(shè)一個模型在單步判斷上的正確率已經(jīng)有95%,看起來很強;但一個真實開發(fā)任務若需要連續(xù)完成20個關(guān)鍵步驟,全部不出錯的概率只有0.95^20,約等于36%。
哪怕單步正確率提升到98%,20步全程順利完成的概率也只有約67%。
所以Agent產(chǎn)品真正的護城河,不是把benchmark再刷高兩分,而是給錯誤恢復、狀態(tài)保存、權(quán)限確認、人工接管、回滾和結(jié)果驗證做出可靠機制。
![]()
但是Antigravity都2.0了,還是沒有類似且完整的機制。
你去讀Gemini 3的官方博文,皮查伊親自寫的開頭,后面跟著的全是benchmark對比表。
但是你現(xiàn)在如果去看OpenAI和Anthropic關(guān)于新模型的官方博文,里面全都是各種客戶對模型的評價。
不是說benchmark沒用。benchmark當然有用,它是一個尺子。但如果一個Agent產(chǎn)品的全部敘事都圍繞benchmark展開,那就說明這個模型確實干不了活。
谷歌不可能放棄AI Agent,因為這個板塊真的太賺錢了,不信你看看友商們就懂了。
2026年2月,OpenAI的Codex,獨立桌面App上線后首周下載量超過100萬。僅僅過了兩個月,Codex周活用戶就達到了400萬
Claude Code就更不用說了,Anthropic在2月份的融資材料中就暗示,該產(chǎn)品的年化收入已經(jīng)突破了20億美元。
Antigravity 2.0發(fā)了一個多月了,現(xiàn)在打開它的官網(wǎng),你會發(fā)現(xiàn)還是沒有企業(yè)版的定價。
Claude Code可以通過Claude Team按人頭付費,Codex可以走GPT Business或者ChatGPT Enterprise,同樣是按人頭收費。
到了谷歌這里,企業(yè)要是想用Antigravity 2.0,你只能走Gemini Enterprise Agent,它會贈送你一些額度讓你拿手上玩玩,并不能像OpenAI和Anthropic那樣,把它變成一個收費的產(chǎn)品。
所以我猜沙澤爾和江珀離開谷歌,大概也是因為對這家公司失望了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.