<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌 Gemini 3 深夜炸場:沒有懸念的最強 AI

      0
      分享至


      新王登基了。


      作者|Li Yuan

      來了。

      預熱了快一個月的 Gemini 3 Pro,就在剛剛,正式在 Google AI Studio 上線 Preview 版,API 也同步開放。接下來將陸續上線Google的各項產品中。

      沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個字:碾壓。

      按照 Google 披露的測試數據,Gemini 3 Pro 毫無懸念地成為了目前地球上數學最強的 AI。在數學競賽的「地獄模式」MathArena 里,當包括 GPT-5.1 在內的其他大模型還在 1% 上下掙扎時,Gemini 3 Pro 直接干到了23.4%

      編程能力方面,雖然在 SWE-Bench 上未拿 SOTA——但絕對屬于第一梯隊。Live Code Bench 的 Elo 得分超過 2400 分 ,在工具調用和終端操作基準測試中更是名列第一。

      真正炸裂的是它的「視覺智能」。對屏幕截圖的理解能力高達72.7%,是目前最先進水平的兩倍。這意味著 Agent 不再是瞎子,它將徹底重塑 AI 操作計算機的模式。

      但這還沒完,Google 今晚還順手扔出了一個小王炸:自家的 Agentic 編程平臺——Google Antigravity

      此前網傳 Gemini 3 能實現「端到端編程」,大家以為是模型成精了。但看起來,并不是模型成精,而是 Google 正在探索如何用更好的系統工程實現端到端編程。

      如果說 Cursor 是目前最強的「外骨骼」,它通過 AI 補全讓你寫代碼更快;那 Antigravity 就是奔著「自動駕駛」去的。它不再只是一個編輯器,而是一個智能體優先(Agent-first)發環境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己寫代碼、自己開終端跑測試、甚至自己打開瀏覽器驗證 UI,發現報錯自己修。

      不講故事,只拼肌肉。

      Google 用這一波硬核發布宣告:新王已至

      有趣的是,這次連 Sam Altman 都獻上了自己的點贊。:)


      01

      霸榜的暴力美學:不止是智商洗榜,更是 Agent 能力的變化

      在 AI 圈子里,大家習慣了模型之間你追我趕的微弱優勢,但 Gemini 3 Pro 拋出的這份成績單,可以說十分耀眼。

      根據 Model Card 披露的數據,Gemini 3 Pro 在推理、多模態、Agent 工具使用等關鍵基準上,實現了全方位的霸榜。


      讓我們先看一看代表人類智力「天花板」的測試——Humanity's Last Exam(人類最終大考)。這是一個衡量學術推理極限的標尺,GPT-5.1 在此前的測試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個百分點的差距,意味著模型在處理復雜學術問題時,已經具備了完全不同的理解深度。

      但這還不是極限。Google 甚至還藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進一步飆升至41.0%??雌饋砣祟愖詈蟮谋疽膊⒉荒艹掷m很久了。


      數理方面的每一個領域,都能看出它的統治力。

      AIME 2025(美國數學邀請賽):配合代碼執行(Code Execution),Gemini 3 Pro 的準確率達到了驚人的100%。沒錯,是滿分。即便是「裸考」(無工具模式),它也有 95.0% 的準確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。

      MathArena Apex(數學競賽地獄模式):當包括 GPT-5.1 在內的其他大模型還在1%上下掙扎時,Gemini 3 Pro 直接干到了23.4%。這意味著在很多以前 AI 根本「看不懂題」的領域,Gemini 3 已經開始解題了。

      而更關鍵的是 Agent 相關能力的提升。

      Gemini 一向在多模態能力上領先,這一代更是專門優化了屏幕理解(Screen Understanding)。這是下一代 Agent 能否真正接管人類電腦的關鍵。

      ScreenSpot-Pro這一欄數據:

      • GPT-5.1:3.5%(這基本意味著它是個「瞎子」)。

      • Gemini 3 Pro:72.7%

      這是近乎20 倍的能力碾壓!這標志著 Gemini 3 Pro 已經不再是一個單純的對話框,它具備了真正意義上的「視覺智能」,能夠像人類一樣理解復雜的操作系統界面。

      在一些傳統強項上,Gemini 3 Pro 仍然表現出色——比如支持1M Token的超大上下文窗口、對多模態數據的「原生支持」、長視頻和多語言處理等等。



      有一個很有趣的標準也被 Google 掛了上來:在 一個模擬開店賺錢的基準 Vending-Bench 2 上,Gemini 3 Pro 最終賺取了$5,478.16的凈資產,而 GPT-5.1 僅賺了 $1,473.43。

      不過關于之前網傳「徹底端到端終結程序員」的編程能力,Gemini 3 Pro 的狀態是在 AI 屆頂尖,但并沒有「顛覆編程」。

      在衡量軟件工程能力的SWE-Bench Verified測試中,Gemini 3 Pro 得分為76.2%,雖然很強,但并未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。這意味著在處理超長程、極其復雜的后端邏輯時,它依然有局限性。

      這也很合理。每一個大模型目前都在全力卷編程的情況下,想要在這個領域一騎絕塵確實比較難。

      目前 Gemini 的能力更偏向于,還不能幫你重構整個后端架構,但如果你想寫一個極具現代設計美學的網站、一個 3D 飛船游戲,或者生成復雜的 SVG 交互動畫,它能通過一次提示就給出極其驚艷的、可直接運行的結果。

      02

      Antigravity,Agentic 編程的探索

      有了最強的模型和算力,谷歌開始在應用層「掀桌子」了。今晚,谷歌扔出了一個「小王炸」——Google Antigravity。

      前一陣新聞的風向還是模型公司努力收購 AI 編程應用公司呢,而 Google 這次則這么快的就發了自己的開發平臺。

      這不僅僅是一個新的 IDE,它是谷歌定義的Agent-first(智能體優先)開發平臺。在這里,開發者從「碼農」升級為「架構師」,而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權限的「執行合伙人」。

      為了達成這種體驗,谷歌甚至在后臺配置了一個「模型軍團」協同作戰:

      • Gemini 3:作為大腦,負責高級推理和代碼編寫。

      • Gemini 2.5 Computer Use:作為手眼,專門控制瀏覽器進行 UI 驗證和測試。

      • Nano Banana:作為美工,負責生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環體驗,對于 Cursor 等現有 AI 編輯器來說,無疑是一次降維打擊。


      Antigravity 最有趣的能力在于并行。官方材料明確提到,開發者可以與多個智能 Agent 協作,而這些 Agent 能夠代表你同時 自主規劃并執行復雜的端到端軟件任務。

      想象一下這種工作流:你下達一個指令,Antigravity 瞬間分裂出多個 Agent——Agent A 負責寫后端邏輯,Agent B 負責在終端跑測試用例,Agent C 直接打開瀏覽器去驗證前端 UI 的交互效果。它們并行不悖,像是一個配合默契的敏捷開發小組,而你只需要驗收它們提交的「工件」。

      Antigravity 是是一個免費平臺,網絡上目前對于 Antigravity 的使用體驗不多,但基本上都是好評。

      要達到替代 Cursor 本身,肯定不太行——端到端的復雜編程體驗,肯定還需要模型更成熟。但是簡單的項目進行編程,或許會更簡單了。

      03

      全家桶齊發力:TPU 與搜索

      在大模型發展的后半程,比拼的不再是單一算法的靈光一閃,而是誰的算力更冗余、誰的數據更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利,有一點是很特別的:Gemini 3 Pro 是使用 Google TPU 訓練的

      當全世界的 AI 公司都在苦苦等待英偉達 GPU 的發貨周期時,谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓練設計,擁有極高的高帶寬內存(HBM),這讓它能夠輕松處理海量的模型參數和超大的 Batch Size。正是 TPU 的算力冗余,給了 Gemini 3 Pro 肆意擴張參數規模的底氣。

      有了算力,還要有「燃料」。Gemini 3 Pro 的訓練數據是全維度的覆蓋:它吞噬了公共網絡文檔、代碼庫、圖像、音頻和視頻。更關鍵的是,谷歌明確提到使用了User Data(用戶數據)——當然是在隱私協議框架下,來自谷歌龐大產品生態的用戶交互數據。

      最后,這種溢出的智能被注入了 Google Search。Google 這次推出了一個全新的AI Mode in Search。當你搜索一個復雜概念(比如 RNA 聚合酶的工作原理)時,Gemini 3 不再是給你扔一堆冷冰冰的鏈接,而是利用其強大的推理能力,即時生成(Generated on the fly)一個沉浸式的互動圖表或模擬工具。


      從底層的 TPU 硅基霸權,到中間層的模型智能,再到頂層的 Antigravity 開發生態與生成式搜索——谷歌這一夜展示的,不僅僅是一個滿分模型,而是一個只有巨頭才能構建的、嚴絲合縫的未來。

      04

      實測體驗

      最后讓我們看看網上的一些實測體驗吧。

      出名的六邊形測試的升級款。


      不少帖子提及了設計上的美感。


      一些物理世界的建模。


      前面提到的,Gemini 對于用戶界面數據這塊做了特別的優化。


      開發應用。


      在今天,大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復雜的前沿基準測試,其測量精度也開始失效。如何科學地量化模型之間的微妙差距,已經成為了一門專門的「量化科學」,僅憑用戶簡單的實測手感,很難窺見其中的全部玄機。

      實測案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態。

      Gemini 3 顯然在這次的更新中,在直出的情況下,贏面很大。

      當模型直出能力越來越好,對于開發者來說,未來更多的是要看你的品味能不能跑過模型,你的點子是不是足夠與眾不同了。

      *頭圖來源:視覺中國

      本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

      極客一問

      你覺得人類的審美跑的過

      AI 的直出審美嗎?

      扎克伯格:傲慢就會失敗,創造應該服務群眾

      點贊關注 極客公園視頻號 ,

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      五一最堵10大景點出爐!網友:第1名堵到懷疑人生,第5名直接勸退

      五一最堵10大景點出爐!網友:第1名堵到懷疑人生,第5名直接勸退

      奇思妙想草葉君
      2026-05-02 16:12:40
      男子五一帶朋友回家喝酒,不顧妻子隱私,當場大打出手,丟盡臉面

      男子五一帶朋友回家喝酒,不顧妻子隱私,當場大打出手,丟盡臉面

      天天熱點見聞
      2026-05-04 06:21:57
      97年我對女老師說我喜歡她,她紅著臉說:考上重點大學我就嫁給你

      97年我對女老師說我喜歡她,她紅著臉說:考上重點大學我就嫁給你

      千秋文化
      2026-05-02 19:36:54
      追覓俞浩:中國只有雷軍、余承東和我理解設計 其他人對汽車設計的理解差一大截

      追覓俞浩:中國只有雷軍、余承東和我理解設計 其他人對汽車設計的理解差一大截

      快科技
      2026-05-05 12:37:50
      過氣明星太可憐?五一假期景區落魄打工,有人無戲可拍,令人心酸

      過氣明星太可憐?五一假期景區落魄打工,有人無戲可拍,令人心酸

      攬星河的筆記
      2026-05-04 15:45:23
      越來越多的人患肺癌!醫生含淚苦勸:冰箱久置的5物,別再吃了!

      越來越多的人患肺癌!醫生含淚苦勸:冰箱久置的5物,別再吃了!

      搖感軍事
      2026-05-04 18:23:10
      給狗擼串的小仙女隱藏賬號,老板銷毀上百斤肉,含淚懇求大家原諒

      給狗擼串的小仙女隱藏賬號,老板銷毀上百斤肉,含淚懇求大家原諒

      映射生活的身影
      2026-05-04 16:50:36
      2架美軍C-17已到北京,中方仍不發請柬,特朗普這一把玩砸了!

      2架美軍C-17已到北京,中方仍不發請柬,特朗普這一把玩砸了!

      Ck的蜜糖
      2026-05-04 19:06:12
      陜西道協會長胡誠林被實名舉報:隱婚,養情人,挪用廟產

      陜西道協會長胡誠林被實名舉報:隱婚,養情人,挪用廟產

      李萬卿
      2026-05-05 01:10:06
      干得漂亮!47節高速狂飆,美艦突擊海峽,伊朗C-802與遠火混合炸

      干得漂亮!47節高速狂飆,美艦突擊海峽,伊朗C-802與遠火混合炸

      阿傖說事
      2026-05-05 11:04:54
      輸了比賽反而漲粉十萬?瓦倫丁被中國網友整破防了:我要來中國!

      輸了比賽反而漲粉十萬?瓦倫丁被中國網友整破防了:我要來中國!

      小娛樂悠悠
      2026-05-05 10:17:11
      金價銀價大跌!金飾價格跌破1400元

      金價銀價大跌!金飾價格跌破1400元

      魯中晨報
      2026-05-05 11:34:04
      難怪呢,斯威士蘭和臺島“建交”18天后就進了聯合國

      難怪呢,斯威士蘭和臺島“建交”18天后就進了聯合國

      阿龍聊軍事
      2026-05-05 11:56:11
      臥槽!3雙+12冒,文班一戰刷新8項歷史紀錄!

      臥槽!3雙+12冒,文班一戰刷新8項歷史紀錄!

      體育新角度
      2026-05-05 14:10:32
      關鍵時刻到了!賴清德即將落地臺灣,臺軍戰機起飛

      關鍵時刻到了!賴清德即將落地臺灣,臺軍戰機起飛

      阿龍聊軍事
      2026-05-05 12:00:24
      瀏陽爆炸絕非偶然!三次警告被無視,背后藏著不敢說的真相

      瀏陽爆炸絕非偶然!三次警告被無視,背后藏著不敢說的真相

      社會日日鮮
      2026-05-05 12:24:01
      98年我在火車站蹬三輪,傍晚順路送老人一程,結果竟然改變我一生

      98年我在火車站蹬三輪,傍晚順路送老人一程,結果竟然改變我一生

      白云故事
      2025-03-27 21:40:08
      湖南譚嗣同墓地:破敗寒酸,雜草叢生,時至今日憑吊、瞻仰者不絕

      湖南譚嗣同墓地:破敗寒酸,雜草叢生,時至今日憑吊、瞻仰者不絕

      浩渺青史
      2026-05-03 17:18:22
      倫敦世乒賽:5月5日賽程出爐!日本晉級,中國男乒遇“生死戰”

      倫敦世乒賽:5月5日賽程出爐!日本晉級,中國男乒遇“生死戰”

      阿策聊實事
      2026-05-05 12:43:52
      特朗普:如果伊朗在波斯灣 或霍爾木茲海峽附近向美國船只開火 將被“從地球表面抹去”

      特朗普:如果伊朗在波斯灣 或霍爾木茲海峽附近向美國船只開火 將被“從地球表面抹去”

      每日經濟新聞
      2026-05-05 09:25:33
      2026-05-05 16:20:49
      極客公園
      極客公園
      讓最棒的創新成為頭條
      12014文章數 78877關注度
      往期回顧 全部

      科技要聞

      傳蘋果考慮讓英特爾、三星代工設備處理器

      頭條要聞

      伊朗警告阿聯酋:勿當以色列棋子 否則將得到難忘教訓

      頭條要聞

      伊朗警告阿聯酋:勿當以色列棋子 否則將得到難忘教訓

      體育要聞

      全世界都等著看他笑話,他帶國米拿下冠軍

      娛樂要聞

      英皇25周年演唱會 張敬軒被救護車拉走

      財經要聞

      五一假期,中國年輕人的“首爾病”犯了

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      手機
      家居
      游戲
      健康
      公開課

      手機要聞

      “芯荒”制約iphone銷量?蘋果據稱考慮讓英特爾、三星代工設備處理器

      家居要聞

      靈動實用 生活藝術場

      知名解說Miss輝煌戰績遭打假!負責人怒懟:別硬蹭了

      干細胞治燒燙傷面臨這些“瓶頸”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕亚洲国产精品| 浮妇高潮喷白浆视频| 久久久免费精品re6| 久久AV免费天堂小草播放| 亚洲成AV人不卡无码影片| 国产超碰无码最新上传| 成人日韩亚洲| 亚洲成熟丰满熟妇高潮XXXXX| 午夜福利精品一区二区三区| 东方av四虎在线观看| 亚洲AV秘 片一区二区三区| 在国产线视频A在线视频| 天天爽爽夜夜爽| 一本色道久久东京热| 国产精品综合av一区二区| 精品尤物TV福利院在线网站 | 日韩黄片毛片在线观看| 真实播放国产乱子伦视频| 超薄丝袜美腿尤物在线观看| 亚洲一本大道在线| 日韩高清在线中文字带字幕 | 成年女人毛片免费观看97| 67194欧洲女人| 国产精成人品日日拍夜夜| 电影久久久久久| 国产精品久久无码不卡黑寡妇| 亚洲区小说区图片区qvod| 亚洲av无码片在线播放| 色欲狠狠躁天天躁无码中文字幕| 91性爱| 国产熟女精品一区二区三区| 制服丝袜人妻| 国产h视频在线观看视频| 亚洲一本网| 成人精品动漫一区二区| 免费一区二区无码东京热| 亚洲国产麻豆综合一区| 久久精品中文字幕有码| 日本一卡2卡3卡四卡精品网站| 玖玖在线精品免费视频| 亚洲中文字幕一区二区|