![]()
新智元報(bào)道
編輯:元宇
【新智元導(dǎo)讀】Google DeepMind發(fā)布實(shí)驗(yàn)原型「AI-enabled pointer」,鍵盤、鼠標(biāo)、觸屏之后,下一代交互正在成形。
那個(gè)陪了你50年、從未改變過的鼠標(biāo)指針,要長出大腦了。
自1970年代誕生以來,鼠標(biāo)指針幾乎沒有進(jìn)化過。它出現(xiàn)在每一個(gè)網(wǎng)站、每一份文檔、每一套工作流程里,卻從未真正理解過你在做什么。
近日,Google DeepMind發(fā)布研究博客,展示由Gemini驅(qū)動(dòng)的實(shí)驗(yàn)性原型「AI-enabled pointer」,并在Google AI Studio開放兩個(gè)實(shí)驗(yàn)Demo。
![]()
負(fù)責(zé)這個(gè)項(xiàng)目的研究員Adrien Baranes和Rob Marchant在官方博客里寫道:「我們正在開發(fā)更無縫、更直觀的與AI協(xié)作的方式。」
![]()
https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
DeepMind CEO Demis Hassabis更是親自發(fā)帖,稱這次體驗(yàn)「相當(dāng)神奇」。
![]()
鼠標(biāo)的圖標(biāo)沒變,但箭頭背后的邏輯變了:不再只知道你指向哪里,而是開始理解你想干什么。
目前,這個(gè)原型已經(jīng)可以在Google AI Studio中體驗(yàn),已開放兩個(gè)Demo:編輯圖片(AI-Pointer: Create)和地圖找地點(diǎn)(AI-Pointer: Find)。
![]()
「AI-Pointer: Create」入口:https://aistudio.google.com/apps/bundled/ai-pointer-create
DeepMind官方視頻:鼠標(biāo)指針,一個(gè)被遺忘的東西。
AI應(yīng)該來找你,而不是你去找AI
你每天浪費(fèi)多少時(shí)間在「解釋上下文」?
想一下這個(gè)你每天都在重復(fù)做的場景:
打開ChatGPT或者Gemini等AI工具的對話窗口;切回你正在看的網(wǎng)頁或文檔,選中那段你想分析的內(nèi)容,復(fù)制;切回AI窗口,粘貼。再用一兩句話解釋你要什么。等待。拿到結(jié)果;再切回去執(zhí)行……
每一次「切窗口→復(fù)制→解釋→等待→切回來」,都是一次認(rèn)知中斷。
你在AI那里花的大量時(shí)間,其實(shí)并沒有用在真正的問題上,而是用在了「告訴AI你在看什么」。
DeepMind對于這個(gè)問題看得很準(zhǔn):
通常,AI工具住在自己的窗口里,用戶需要把自己的世界拖進(jìn)去。我們想要的恰恰相反:AI應(yīng)該來找你,而不是你去找AI。
這句話,點(diǎn)透了過去兩年AI交互模式最核心的結(jié)構(gòu)性缺陷。
不用提示詞
指著說AI就懂
AI-enabled pointer要解決的,正是這類摩擦。Adrien認(rèn)為這個(gè)項(xiàng)目的核心命題只有一個(gè):
如何構(gòu)建一個(gè)能真正理解流動(dòng)用戶意圖的系統(tǒng)。
這背后有四個(gè)設(shè)計(jì)原則,是這套系統(tǒng)的骨架,共同回答一個(gè)問題:怎么讓AI讀懂你的意圖,而不需要你花力氣解釋。
第一個(gè)原則叫「Maintain the flow」,保持流暢。
按DeepMind的設(shè)計(jì)目標(biāo),AI能力不應(yīng)把用戶帶離當(dāng)前應(yīng)用,而應(yīng)盡可能出現(xiàn)在用戶正在工作的上下文中。指著一份PDF說「給我一個(gè)摘要,直接可以粘進(jìn)郵件的那種」,AI完成,你繼續(xù)。
第二個(gè)原則叫「Show and tell」,指給它看。現(xiàn)在用AI,你需要寫一段詳細(xì)的提示詞,描述你要處理的內(nèi)容是什么、長什么樣、上下文是什么。
AI-enabled pointer把這一步省掉了。光標(biāo)懸停在哪里,Gemini就捕獲那里的視覺信息和語義上下文。你不需要描述你看到的東西,因?yàn)锳I已經(jīng)看到了。
第三個(gè)原則,是DeepMind最喜歡強(qiáng)調(diào)的一個(gè):「Embrace the power of This and That」,擁抱「這個(gè)」和「那個(gè)」的力量。
想想人和人之間怎么協(xié)作。你不會(huì)跟同事說「請將第三行第二列的數(shù)值乘以二并更新到對應(yīng)的匯總表格里」。你會(huì)說「這個(gè)數(shù)字,改成兩倍,更新到那里」,然后用手指一指。
AI-enabled pointer要讓人機(jī)協(xié)作變得像人與人協(xié)作一樣自然。技術(shù)實(shí)現(xiàn)上,可以理解為,系統(tǒng)不再只解析語音里的文字,而是把「this」「that」「here」「there」這類指代詞,與光標(biāo)或手勢所指向的視覺和語義上下文關(guān)聯(lián)起來。
所以,當(dāng)用戶說「把這個(gè)便簽改成橙色」時(shí),「這個(gè)」不再只是一個(gè)模糊代詞,而會(huì)被系統(tǒng)結(jié)合當(dāng)前指向的位置、對象和上下文來理解。Gemini拿到的也不只是字面上的一句話,而是由語音、指向和屏幕內(nèi)容共同構(gòu)成的意圖。
提示詞的本質(zhì)一直都不是文字,而是意圖。現(xiàn)在,意圖終于可以用最短的方式傳達(dá)了。
更有意思的是,「指向」并非只有鼠標(biāo)一種方式。演示里,Adrien用的是頭部追蹤:頭轉(zhuǎn)向哪里,AI注意力就跟到哪里。語音、文字、圖像理解,全部同時(shí)在線。
第四個(gè)原則最有技術(shù)含量:「Turn pixels into actionable entities」,讓像素變成可操作的實(shí)體。
過去50年,光標(biāo)只知道你指的是哪里,卻看不懂你指的是什么,AI-enabled pointer要改變這件事。
你懸停的那張圖里有一棟建筑,AI識(shí)別出「這是一個(gè)地點(diǎn)」,于是「給我導(dǎo)航」成了一個(gè)可以直接觸發(fā)的操作;
你拍下一張手寫便條,AI看懂了上面的字,便條自動(dòng)變成了一份可編輯的待辦清單;
你在旅游視頻里暫停了一幀,畫面里那家看起來不錯(cuò)的餐廳,直接可以彈出訂位鏈接。
演示里還有一個(gè)細(xì)節(jié)讓人印象很深:Adrien指著一份餐廳菜單,再指著另一張風(fēng)格參考圖,說「用這張圖的風(fēng)格,幫我把這份菜單畫出來」。
Gemini同時(shí)讀懂了菜單的內(nèi)容和參考圖的視覺風(fēng)格,生成了一張融合兩者的新圖。這不是兩步操作,是一句話、兩個(gè)手勢,完成的事。
像素第一次有了語義。
從概念到落地
DeepMind并沒有停在概念層面。
Google表示,相關(guān)交互原則已開始進(jìn)入產(chǎn)品:在Chrome中,用戶可以用指針指向/選擇網(wǎng)頁中的內(nèi)容,并向Gemini提問。
Googlebook上的Magic Pointer已被Google列為即將推出的系統(tǒng)級能力,首批Googlebook設(shè)備計(jì)劃于今年秋季上市。
當(dāng)然,從演示到日常可用,還有一段路要走。
識(shí)別準(zhǔn)確率、跨應(yīng)用兼容性、響應(yīng)速度,都需要在真實(shí)的復(fù)雜桌面環(huán)境里經(jīng)歷打磨。
還有一個(gè)問題值得認(rèn)真對待:AI-enabled pointer需要持續(xù)理解你的屏幕內(nèi)容,數(shù)據(jù)如何采集、如何存儲(chǔ)、流向哪里,DeepMind目前尚未詳細(xì)說明。
這些并非障礙,而是一項(xiàng)新交互范式從實(shí)驗(yàn)室走向大眾必須經(jīng)歷的過程。
每一項(xiàng)改變交互方式的技術(shù),都經(jīng)歷過這個(gè)階段。觸屏手機(jī)在第一代iPhone發(fā)布時(shí),也沒有人敢保證它能取代鍵盤。
鍵盤1973,鼠標(biāo)1984,觸屏2007
下一代交互在2026
把這只指針放回50年人機(jī)交互史的時(shí)間線上,它的意義會(huì)變得很清楚。
1973年,Xerox Alto把圖形界面、位圖顯示和鼠標(biāo)等現(xiàn)代桌面交互雛形帶入實(shí)驗(yàn)系統(tǒng)。
1984年,Macintosh讓鼠標(biāo)與圖形界面進(jìn)入大眾視野,人開始用「指」圖標(biāo)完成操作。
2007年,iPhone讓手指直接成為主要輸入方式,觸屏成為移動(dòng)計(jì)算的核心交互。
每一次躍遷,背后都是同一件事:機(jī)器學(xué)會(huì)了更多,人需要學(xué)的就變少了。
2022年之后的提示詞框是另一條線。
人把意圖翻譯成自然語言,遞給一個(gè)對話框,再等機(jī)器返回答案。表達(dá)帶寬變寬了,但表達(dá)環(huán)節(jié)本身沒消失。你還是要打字、描述。
2026年這只指針,試圖壓縮的是「解釋上下文」這一步,而不是完全消滅表達(dá)本身。
2026年這只指針,試圖壓縮的是「解釋上下文」這一步。
手勢+語音+語義理解同時(shí)到位,意圖的傳達(dá)方式從「精確描述」變成了「自然指向」:人還是要表達(dá),只是再也不用費(fèi)力解釋「我在看什么」了。
![]()
前四代交互都是「人主動(dòng)表達(dá)」。這一代第一次是「機(jī)器主動(dòng)理解」。手勢+語音+語義理解同時(shí)到位,意圖的傳達(dá)方式從「精確描述」變成了「自然指向」。提示詞工程在這個(gè)范式中幾乎不再存在。
Adrien在視頻結(jié)尾描述了他想象中的未來:
一種新型操作系統(tǒng)。AI主動(dòng)呈現(xiàn)我可能感興趣的內(nèi)容,我用指向回應(yīng)它,我們共享注意力,共享畫布,就像和另一個(gè)人一起工作。
AI交互的終點(diǎn),并非一個(gè)更聰明的搜索框,而是一個(gè)真正能和你協(xié)作的伙伴。
最好用的工具,往往是你忘記它存在的那種。
鼠標(biāo)陪了人類50年。下一個(gè)50年,它或許會(huì)真正開始理解你。
參考資料:
https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.