網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

接連兩位大咖出走，谷歌到底出了什么BUG？

接連兩位大咖出走谷歌出了什么BUG

2026-06-20 16:15:04　來源: 字母榜

北京舉報

分享至

不到一個禮拜，接連兩位重量級員工都離開了谷歌。

前有Google DeepMind工程副總裁諾姆·沙澤爾（Noam Shazeer），后有AlphaFold核心負責人約翰·江珀（John Jumper）。

講真的，我很難不懷疑谷歌現(xiàn)在“出BUG”了。

從Gemini 3問世，到現(xiàn)在都過去大半年了，谷歌還是只有差別不大的Gemini 3.1。你再看看Anthropic這邊，半年前還只是Opus 4.5，現(xiàn)在Fable 5都停用一個多禮拜了。

不只是模型掉隊，產(chǎn)品也跟著掉隊。如今幾乎所有的AI公司都在發(fā)力AI Agent，OpenAI有Codex，Anthropic有Claude Code。

Fable 5加持下的Claude Code，現(xiàn)在都能自主修bug，自動循環(huán)跑測試直到全綠，還能從設(shè)計稿直接生成生產(chǎn)代碼，最后封裝成完整的軟件。

而谷歌這邊，只有一個拿不出手的Antigravity 2.0，不僅效果糟糕，使用體驗也一言難盡，網(wǎng)上對這個產(chǎn)品只有一片罵聲。

說到這里就不得不提一件事，伯克希爾從2025年就開始建倉谷歌，到了2026年第一季度，伯克希爾把谷歌的持倉又加了224%。

2026年6月1日，伯克希爾以定向增發(fā)的方式向谷歌母公司Alphabet再投了100億美元。

難道這回巴菲特真的看走眼了？

谷歌的全棧優(yōu)勢怎么沒了？

2025年11月18日，谷歌發(fā)布了Gemini 3。皮查伊親自出來站臺，說這是谷歌“最智能的模型”，擁有全球最頂尖的推理能力，多模態(tài)理解，還有代碼生成能力。

于是在同一天，谷歌還放出了另外兩樣東西：一個是Google Antigravity，號稱“agent-first”的開發(fā)平臺；一個是Nano Banana Pro，它是谷歌此前爆火的文生圖模型Nano Banana的威力加強版。

當時的谷歌有多嚇人？這么說吧，在谷歌這場產(chǎn)品發(fā)布會結(jié)束后兩個禮拜，奧特曼向OpenAI內(nèi)部發(fā)出“Code Red（紅色警報）”備忘錄，稱ChatGPT的產(chǎn)品體驗與質(zhì)量優(yōu)勢正在被谷歌快速追近，因此全公司暫停所有其他業(yè)務，集結(jié)全員投入到ChatGPT當中。

奧特曼擔心的不只是這三個產(chǎn)品，而是谷歌的全棧優(yōu)勢。

在硬件上，谷歌有自研的TPU芯片。谷歌從2015年就開始做TPU，到今天已經(jīng)到了第七代Ironwood，一顆芯片頂過去四顆的算力，液冷散熱，一個pod塞進去9216顆芯片，提供42.5 ExaFlops的算力。

和英偉達那種通用的GPU不同，TPU是專門為AI推理任務進行過優(yōu)化的，成本低，而且性能更好。

再往上一層是DeepMind。

2023年4月，谷歌把Google Brain和DeepMind合并成了一個單位。此前，這兩家雖然是同一家公司，但長期以來是兩套體系、兩套文化，Brain偏產(chǎn)品和商業(yè)化，DeepMind偏長期研究。

合并之后，哈薩比斯統(tǒng)一帶隊，杰夫·迪恩（Jeff Dean）退居首席科學家。也就是說，谷歌的“左右腦”合一了。

繼續(xù)往上，還有一層很多人容易忽略的東西：入口。谷歌不是只有模型，它有Chrome、Android、YouTube、Google Maps、Gmail、Google Workspace、Google Search。

這些東西加起來，日活幾十億。全世界沒有任何一家AI公司擁有這個量級的用戶。它能通過入口去鋪產(chǎn)品，再用這些成熟的產(chǎn)品拿到用戶反饋，加快整個產(chǎn)品的開發(fā)迭代。

比如用戶在哪一步退出了，哪種能力被反復調(diào)用，哪些生成結(jié)果被用戶改掉了或者直接放棄了，哪些功能形成了留存，哪些場景出現(xiàn)大量報錯和投訴。

就拿Nano Banana來說。

這個產(chǎn)品雖然體量非常小，但是它其實是通過谷歌的全棧，擁有自己一個完整飛輪。

Nano Banana剛剛在LM Arena一類的盲測環(huán)境里走紅后，谷歌做的第一件事就是把它立刻上線到Gemini App、AI Studio、Gemini API當中，甚至連專門面向企業(yè)的Vertex AI也沒放過。

用戶不僅能通過各種產(chǎn)品感受Nano Banana，谷歌還能用這些產(chǎn)品收集反饋，這也就是為什么Nano Banana產(chǎn)品迭代速度那么快，碾壓GPT-4o的作圖能力。

那為什么到現(xiàn)在，谷歌的全棧優(yōu)勢沒了呢？

文生圖是一個低風險、短鏈路、結(jié)果立刻可見的產(chǎn)品。

用戶輸入一句話，幾十秒后得到一張圖，不滿意就重來，滿意就分享。它不需要長期記憶，也不需要調(diào)用工具權(quán)限，更不需要為一次錯誤承擔現(xiàn)實后果。

但是Agent不一樣。它不是“給用戶一個結(jié)果”，它是要徹底駐扎進用戶的工作環(huán)境，持續(xù)讀取上下文、調(diào)用工具、執(zhí)行操作，并對最后的結(jié)果負責。

Nano Banana的成功并不能完全復刻到Agent了。

當產(chǎn)品需要跨模型、權(quán)限、執(zhí)行環(huán)境、企業(yè)系統(tǒng)和長期責任時，谷歌那套原本強大的全棧能力，開始顯露出協(xié)調(diào)不起來的問題。

谷歌真正的病是組織架構(gòu)太混亂

如果你去翻谷歌的開發(fā)者產(chǎn)品線，你會發(fā)現(xiàn)一個很詭異的現(xiàn)象。谷歌同時有好幾個工具，都在幫你用AI寫代碼，產(chǎn)品功能幾乎都重疊了。

Gemini CLI，一個命令行工具，可以查代碼庫、生成應用、自動執(zhí)行復雜流程，2025年底隨Gemini 3一起推出。到了2026年6月，谷歌發(fā)了個公告：Gemini CLI即將被Antigravity CLI取代。

Jules，一個異步編碼Agent，Google Labs出品，定位是自動幫你修bug、寫測試、提Pull Request。它不需要你盯著看，你把任務扔給它，它自己克隆倉庫、寫代碼、開PR，干完了通知你。

Code Assist，Google Cloud旗下的企業(yè)級編程助手，裝在VS Code和JetBrains里用，收費22.8到54美元一個用戶一個月。Firebase Studio，瀏覽器里的全棧開發(fā)工作臺，內(nèi)置了Gemini，也能幫你生成代碼。

然后是永遠扶不上墻的Antigravity，前文也提到了，2026年5月I/O大會上又發(fā)了個2.0版本，分了桌面App、CLI、SDK、Managed Agents、企業(yè)層五塊。

它們都在做同一件，但它們是不同團隊做的，有不同的品牌名，有不同的入口，有不同的收費模式，甚至有的在互相替代。

這種情況根本就不叫產(chǎn)品線豐富，這叫浪費算力。

這件事的根源其實是在組織架構(gòu)層面。

谷歌的AI Agent相關(guān)能力，被拆分在至少幾個互不統(tǒng)屬的組織手里。每個組織有自己的KPI，獨立的匯報線。

比如Google DeepMind，它管的是模型在benchmark上的分數(shù)能不能壓過GPT和Claude。DeepMind的成功是“我們做出了最強的模型”。

它根本不關(guān)心用戶在Antigravity里完成一個真實項目的成功率是多少。

到了Google Labs部門，它只管這個東西酷不酷，能不能在社交媒體上引發(fā)討論。

Google Labs的產(chǎn)品有CC（Gmail里的AI助理）、Project Genie（無限世界生成）、Pomelli（AI營銷工具）、Opal（自然語言做小應用），以及Jules。

實驗跑完了，熱度過去了，團隊可能去做下一個實驗了，它不會對產(chǎn)品進行長期維護。

Google Cloud和Vertex AI管的是模型能不能通過API調(diào)用，企業(yè)能不能采購，權(quán)限和合規(guī)有沒有覆蓋，Agent能不能部署到生產(chǎn)環(huán)境。

Antigravity更慘，它是從Google DeepMind里面走出來的，現(xiàn)在歸Google Labs維護。但是又必須接入Google Cloud的權(quán)限、部署和合規(guī)體系。

所以誰也不會對它負責，就這么擺爛。

你可能會問了，那到皮查伊這關(guān)可怎么辦？

DeepMind說，我們的模型又刷榜了。Labs說，Jules在社交網(wǎng)絡(luò)上又有10萬轉(zhuǎn)發(fā)了。然后Google Cloud那邊說，Agent Engine又簽了多少個企業(yè)客戶。Gemini App說，這個月的DAU穩(wěn)住了。Search說，AI Overviews用戶破20億。

大家的飯碗都保住了，卻最后留給Antigravity一地雞毛。

但沒有人能回答一個最簡單的問題：一個開發(fā)者，今天應該用谷歌的哪一個工具來完成他的工作？如果他現(xiàn)在用的是Codex或者Claude Code，谷歌準備用哪個產(chǎn)品把他搶過來？

評測贏了，不等于任務真的交付了

谷歌現(xiàn)在所有的敘事都只圍繞著評分，但現(xiàn)在大家早就不迷信benchmark了，能交付任務的才是好模型。

模型在benchmark上分數(shù)高，比如它推理題能答對，代碼能生成，圖像能看懂，多輪對話能保持連貫。

這些測試通常是在受控環(huán)境下進行的。單輪或有限輪次，輸入輸出干凈，不需要操作外部工具，不需要管理權(quán)限，不需要長時間持續(xù)運行。

失敗了的表現(xiàn)是什么？答案不對。最壞的結(jié)果，就是重來一遍。

但是到了任務交付這塊，模型的價值變了。

用戶把一個真實的工作扔給AI，到最后拿到了一個能用的結(jié)果，中間的鏈條其實是非常長的。

什么叫“真實的工作”？是“這個項目的支付模塊有個bug，請定位、修復、測試、提交PR”。它涉及多個步驟，可能要花幾十分鐘甚至幾個小時，中間需要調(diào)用Git、終端、瀏覽器、文件系統(tǒng)、API，每一步都有失敗的可能。

失敗了的表現(xiàn)是什么？不是答案不對，而是代碼改壞了、權(quán)限控不住了、流程卡死了、環(huán)境崩了、用戶不知道從哪里恢復。

我舉個例子。

假設(shè)一個模型在單步判斷上的正確率已經(jīng)有95%，看起來很強；但一個真實開發(fā)任務若需要連續(xù)完成20個關(guān)鍵步驟，全部不出錯的概率只有0.95^20，約等于36%。

哪怕單步正確率提升到98%，20步全程順利完成的概率也只有約67%。

所以Agent產(chǎn)品真正的護城河，不是把benchmark再刷高兩分，而是給錯誤恢復、狀態(tài)保存、權(quán)限確認、人工接管、回滾和結(jié)果驗證做出可靠機制。

但是Antigravity都2.0了，還是沒有類似且完整的機制。

你去讀Gemini 3的官方博文，皮查伊親自寫的開頭，后面跟著的全是benchmark對比表。

但是你現(xiàn)在如果去看OpenAI和Anthropic關(guān)于新模型的官方博文，里面全都是各種客戶對模型的評價。

不是說benchmark沒用。benchmark當然有用，它是一個尺子。但如果一個Agent產(chǎn)品的全部敘事都圍繞benchmark展開，那就說明這個模型確實干不了活。

谷歌不可能放棄AI Agent，因為這個板塊真的太賺錢了，不信你看看友商們就懂了。

2026年2月，OpenAI的Codex，獨立桌面App上線后首周下載量超過100萬。僅僅過了兩個月，Codex周活用戶就達到了400萬

Claude Code就更不用說了，Anthropic在2月份的融資材料中就暗示，該產(chǎn)品的年化收入已經(jīng)突破了20億美元。

Antigravity 2.0發(fā)了一個多月了，現(xiàn)在打開它的官網(wǎng)，你會發(fā)現(xiàn)還是沒有企業(yè)版的定價。

Claude Code可以通過Claude Team按人頭付費，Codex可以走GPT Business或者ChatGPT Enterprise，同樣是按人頭收費。

到了谷歌這里，企業(yè)要是想用Antigravity 2.0，你只能走Gemini Enterprise Agent，它會贈送你一些額度讓你拿手上玩玩，并不能像OpenAI和Anthropic那樣，把它變成一個收費的產(chǎn)品。

所以我猜沙澤爾和江珀離開谷歌，大概也是因為對這家公司失望了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.