網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Hassabis狂贊！谷歌爆改50年鼠標(biāo)，指哪AI打哪，連提示詞都省了

2026-05-15 08:08:24　來源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：元宇

【新智元導(dǎo)讀】Google DeepMind發(fā)布實(shí)驗(yàn)原型「AI-enabled pointer」，鍵盤、鼠標(biāo)、觸屏之后，下一代交互正在成形。

那個(gè)陪了你50年、從未改變過的鼠標(biāo)指針，要長出大腦了。

自1970年代誕生以來，鼠標(biāo)指針幾乎沒有進(jìn)化過。它出現(xiàn)在每一個(gè)網(wǎng)站、每一份文檔、每一套工作流程里，卻從未真正理解過你在做什么。

近日，Google DeepMind發(fā)布研究博客，展示由Gemini驅(qū)動(dòng)的實(shí)驗(yàn)性原型「AI-enabled pointer」，并在Google AI Studio開放兩個(gè)實(shí)驗(yàn)Demo。

負(fù)責(zé)這個(gè)項(xiàng)目的研究員Adrien Baranes和Rob Marchant在官方博客里寫道：「我們正在開發(fā)更無縫、更直觀的與AI協(xié)作的方式。」

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

DeepMind CEO Demis Hassabis更是親自發(fā)帖，稱這次體驗(yàn)「相當(dāng)神奇」。

鼠標(biāo)的圖標(biāo)沒變，但箭頭背后的邏輯變了：不再只知道你指向哪里，而是開始理解你想干什么。

目前，這個(gè)原型已經(jīng)可以在Google AI Studio中體驗(yàn)，已開放兩個(gè)Demo：編輯圖片（AI-Pointer: Create）和地圖找地點(diǎn)（AI-Pointer: Find）。

「AI-Pointer: Create」入口：https://aistudio.google.com/apps/bundled/ai-pointer-create

DeepMind官方視頻：鼠標(biāo)指針，一個(gè)被遺忘的東西。

AI應(yīng)該來找你，而不是你去找AI

你每天浪費(fèi)多少時(shí)間在「解釋上下文」？

想一下這個(gè)你每天都在重復(fù)做的場景：

打開ChatGPT或者Gemini等AI工具的對話窗口；切回你正在看的網(wǎng)頁或文檔，選中那段你想分析的內(nèi)容，復(fù)制；切回AI窗口，粘貼。再用一兩句話解釋你要什么。等待。拿到結(jié)果；再切回去執(zhí)行……

每一次「切窗口→復(fù)制→解釋→等待→切回來」，都是一次認(rèn)知中斷。

你在AI那里花的大量時(shí)間，其實(shí)并沒有用在真正的問題上，而是用在了「告訴AI你在看什么」。

DeepMind對于這個(gè)問題看得很準(zhǔn)：

通常，AI工具住在自己的窗口里，用戶需要把自己的世界拖進(jìn)去。我們想要的恰恰相反：AI應(yīng)該來找你，而不是你去找AI。

這句話，點(diǎn)透了過去兩年AI交互模式最核心的結(jié)構(gòu)性缺陷。

不用提示詞

指著說AI就懂

AI-enabled pointer要解決的，正是這類摩擦。Adrien認(rèn)為這個(gè)項(xiàng)目的核心命題只有一個(gè)：

如何構(gòu)建一個(gè)能真正理解流動(dòng)用戶意圖的系統(tǒng)。

這背后有四個(gè)設(shè)計(jì)原則，是這套系統(tǒng)的骨架，共同回答一個(gè)問題：怎么讓AI讀懂你的意圖，而不需要你花力氣解釋。

第一個(gè)原則叫「Maintain the flow」，保持流暢。

按DeepMind的設(shè)計(jì)目標(biāo)，AI能力不應(yīng)把用戶帶離當(dāng)前應(yīng)用，而應(yīng)盡可能出現(xiàn)在用戶正在工作的上下文中。指著一份PDF說「給我一個(gè)摘要，直接可以粘進(jìn)郵件的那種」，AI完成，你繼續(xù)。

第二個(gè)原則叫「Show and tell」，指給它看。現(xiàn)在用AI，你需要寫一段詳細(xì)的提示詞，描述你要處理的內(nèi)容是什么、長什么樣、上下文是什么。

AI-enabled pointer把這一步省掉了。光標(biāo)懸停在哪里，Gemini就捕獲那里的視覺信息和語義上下文。你不需要描述你看到的東西，因?yàn)锳I已經(jīng)看到了。

第三個(gè)原則，是DeepMind最喜歡強(qiáng)調(diào)的一個(gè)：「Embrace the power of This and That」，擁抱「這個(gè)」和「那個(gè)」的力量。

想想人和人之間怎么協(xié)作。你不會(huì)跟同事說「請將第三行第二列的數(shù)值乘以二并更新到對應(yīng)的匯總表格里」。你會(huì)說「這個(gè)數(shù)字，改成兩倍，更新到那里」，然后用手指一指。

AI-enabled pointer要讓人機(jī)協(xié)作變得像人與人協(xié)作一樣自然。技術(shù)實(shí)現(xiàn)上，可以理解為，系統(tǒng)不再只解析語音里的文字，而是把「this」「that」「here」「there」這類指代詞，與光標(biāo)或手勢所指向的視覺和語義上下文關(guān)聯(lián)起來。

所以，當(dāng)用戶說「把這個(gè)便簽改成橙色」時(shí)，「這個(gè)」不再只是一個(gè)模糊代詞，而會(huì)被系統(tǒng)結(jié)合當(dāng)前指向的位置、對象和上下文來理解。Gemini拿到的也不只是字面上的一句話，而是由語音、指向和屏幕內(nèi)容共同構(gòu)成的意圖。

提示詞的本質(zhì)一直都不是文字，而是意圖。現(xiàn)在，意圖終于可以用最短的方式傳達(dá)了。

更有意思的是，「指向」并非只有鼠標(biāo)一種方式。演示里，Adrien用的是頭部追蹤：頭轉(zhuǎn)向哪里，AI注意力就跟到哪里。語音、文字、圖像理解，全部同時(shí)在線。

第四個(gè)原則最有技術(shù)含量：「Turn pixels into actionable entities」，讓像素變成可操作的實(shí)體。

過去50年，光標(biāo)只知道你指的是哪里，卻看不懂你指的是什么，AI-enabled pointer要改變這件事。

你懸停的那張圖里有一棟建筑，AI識(shí)別出「這是一個(gè)地點(diǎn)」，于是「給我導(dǎo)航」成了一個(gè)可以直接觸發(fā)的操作；

你拍下一張手寫便條，AI看懂了上面的字，便條自動(dòng)變成了一份可編輯的待辦清單；

你在旅游視頻里暫停了一幀，畫面里那家看起來不錯(cuò)的餐廳，直接可以彈出訂位鏈接。

演示里還有一個(gè)細(xì)節(jié)讓人印象很深：Adrien指著一份餐廳菜單，再指著另一張風(fēng)格參考圖，說「用這張圖的風(fēng)格，幫我把這份菜單畫出來」。

Gemini同時(shí)讀懂了菜單的內(nèi)容和參考圖的視覺風(fēng)格，生成了一張融合兩者的新圖。這不是兩步操作，是一句話、兩個(gè)手勢，完成的事。

像素第一次有了語義。

從概念到落地

DeepMind并沒有停在概念層面。

Google表示，相關(guān)交互原則已開始進(jìn)入產(chǎn)品：在Chrome中，用戶可以用指針指向/選擇網(wǎng)頁中的內(nèi)容，并向Gemini提問。

Googlebook上的Magic Pointer已被Google列為即將推出的系統(tǒng)級能力，首批Googlebook設(shè)備計(jì)劃于今年秋季上市。

當(dāng)然，從演示到日常可用，還有一段路要走。

識(shí)別準(zhǔn)確率、跨應(yīng)用兼容性、響應(yīng)速度，都需要在真實(shí)的復(fù)雜桌面環(huán)境里經(jīng)歷打磨。

還有一個(gè)問題值得認(rèn)真對待：AI-enabled pointer需要持續(xù)理解你的屏幕內(nèi)容，數(shù)據(jù)如何采集、如何存儲(chǔ)、流向哪里，DeepMind目前尚未詳細(xì)說明。

這些并非障礙，而是一項(xiàng)新交互范式從實(shí)驗(yàn)室走向大眾必須經(jīng)歷的過程。

每一項(xiàng)改變交互方式的技術(shù)，都經(jīng)歷過這個(gè)階段。觸屏手機(jī)在第一代iPhone發(fā)布時(shí)，也沒有人敢保證它能取代鍵盤。

鍵盤1973，鼠標(biāo)1984，觸屏2007

下一代交互在2026

把這只指針放回50年人機(jī)交互史的時(shí)間線上，它的意義會(huì)變得很清楚。

1973年，Xerox Alto把圖形界面、位圖顯示和鼠標(biāo)等現(xiàn)代桌面交互雛形帶入實(shí)驗(yàn)系統(tǒng)。

1984年，Macintosh讓鼠標(biāo)與圖形界面進(jìn)入大眾視野，人開始用「指」圖標(biāo)完成操作。

2007年，iPhone讓手指直接成為主要輸入方式，觸屏成為移動(dòng)計(jì)算的核心交互。

每一次躍遷，背后都是同一件事：機(jī)器學(xué)會(huì)了更多，人需要學(xué)的就變少了。

2022年之后的提示詞框是另一條線。

人把意圖翻譯成自然語言，遞給一個(gè)對話框，再等機(jī)器返回答案。表達(dá)帶寬變寬了，但表達(dá)環(huán)節(jié)本身沒消失。你還是要打字、描述。

2026年這只指針，試圖壓縮的是「解釋上下文」這一步，而不是完全消滅表達(dá)本身。

2026年這只指針，試圖壓縮的是「解釋上下文」這一步。

手勢+語音+語義理解同時(shí)到位，意圖的傳達(dá)方式從「精確描述」變成了「自然指向」：人還是要表達(dá)，只是再也不用費(fèi)力解釋「我在看什么」了。

前四代交互都是「人主動(dòng)表達(dá)」。這一代第一次是「機(jī)器主動(dòng)理解」。手勢+語音+語義理解同時(shí)到位，意圖的傳達(dá)方式從「精確描述」變成了「自然指向」。提示詞工程在這個(gè)范式中幾乎不再存在。

Adrien在視頻結(jié)尾描述了他想象中的未來：

一種新型操作系統(tǒng)。AI主動(dòng)呈現(xiàn)我可能感興趣的內(nèi)容，我用指向回應(yīng)它，我們共享注意力，共享畫布，就像和另一個(gè)人一起工作。

AI交互的終點(diǎn)，并非一個(gè)更聰明的搜索框，而是一個(gè)真正能和你協(xié)作的伙伴。

最好用的工具，往往是你忘記它存在的那種。

鼠標(biāo)陪了人類50年。下一個(gè)50年，它或許會(huì)真正開始理解你。

參考資料：

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.