![]()
新智元報(bào)道
編輯:艾倫
【新智元導(dǎo)讀】OpenClaw 的專屬 Computer Use 工具 Peekaboo v3 正式回歸,并在發(fā)布后高頻更新。它補(bǔ)上了 OpenClaw 最缺的一環(huán),讓 AI 不只會(huì)回消息,還能看屏幕、點(diǎn)按鈕、操作真實(shí)桌面。
OpenClaw 終于要長(zhǎng)出眼和手了!
![]()
https://x.com/steipete/status/2053114837698249190
過(guò)去幾個(gè)月,OpenClaw 的熱度像一鍋剛燒開(kāi)的水,先是咕嘟咕嘟冒泡,隨后逐漸歸于平穩(wěn)。
項(xiàng)目跑起來(lái)了,用戶開(kāi)始上手,討論也從「這是什么」變成「它還能做什么」。
這時(shí),一個(gè)被擱在旁邊的老問(wèn)題重新浮上來(lái)。
AI 能接消息,能理解指令,能調(diào)用工具,下一步總得碰一碰真實(shí)世界。
桌面上的按鈕、菜單、彈窗、輸入框,才是多數(shù)工作的最后一公里。
一個(gè) Agent 如果只能在聊天框里給建議,多少像坐在副駕駛上指路,嘴上懂路,手上碰不到方向盤。
Peekaboo 就是在這個(gè)時(shí)候回來(lái)的。
這個(gè)名字本身就有點(diǎn)俏皮。Peekaboo 是「躲貓貓」的意思。
電腦界面確實(shí)天天跟自動(dòng)化躲貓貓。
按鈕躲在彈窗里,菜單躲在系統(tǒng)欄里,窗口一動(dòng)坐標(biāo)全變,焦點(diǎn)一跑輸入落空。
人類會(huì)憑直覺(jué)修正,AI 只能靠一套更靠譜的眼睛和手。
如今,Peekaboo 要補(bǔ)上的正是這套眼睛和手。
![]()
從停更到一日三更
Peekaboo 從去年年末發(fā)布 v3.0.0-beta 3 后,開(kāi)始停更。
![]()
之后,Peter 將主要精力轉(zhuǎn)向 OpenClaw。
可以理解,OpenClaw 本身就是一張更大的網(wǎng),要接消息平臺(tái),要做網(wǎng)關(guān),要處理本地運(yùn)行,要支撐 Agent 調(diào)度,還要讓普通用戶裝得上、跑得穩(wěn)、用得明白。
于是 Peekaboo 暫時(shí)退到幕后。
變化發(fā)生在最近兩周。
v3.0.0-beta 4 先出來(lái)試水。
![]()
就在前天,正式版 v3.0.0 發(fā)布。
![]()
正式版落地之后,更新節(jié)奏開(kāi)始狂飆,今天一日三更,v3.1.0、v3.1.1、v3.1.2 接連推出。
![]()
![]()
![]()
這種更新密度一般只有兩種可能。
一種是出現(xiàn)了重大 Bug,維護(hù)者正端著滅火器忙著救火。
另一種是方向終于對(duì)齊,積累已久的東西開(kāi)始往外傾瀉。
Peekaboo 這次更接近后者。
過(guò)去幾個(gè)月,OpenClaw 把渠道、網(wǎng)關(guān)、Agent 的外殼先搭起來(lái)了。
現(xiàn)在,項(xiàng)目開(kāi)始補(bǔ)最重要的課。
Peekaboo 到底在補(bǔ)什么
對(duì)普通用戶來(lái)說(shuō),Peekaboo 最好理解成一套 macOS 自動(dòng)化工具。
它能截圖,能識(shí)別窗口,能讀 UI 元素,能找按鈕,能點(diǎn)、能打字、能滾動(dòng)、能切應(yīng)用、能操作菜單。
傳統(tǒng)腳本最怕環(huán)境變化。
按鈕位置換一下,窗口遮一下,彈窗突然出現(xiàn),腳本就像踩空樓梯,啪一下摔進(jìn)錯(cuò)誤分支。
Agent 更麻煩,因?yàn)樗吙催呄脒叢僮鳎魏我徊娇村e(cuò)、點(diǎn)錯(cuò)、等錯(cuò),后面都會(huì)一路歪下去。
Peekaboo 的價(jià)值,是把桌面變成 Agent 能理解的工作場(chǎng)域。
它不只是截一張圖給模型看,還要把圖里的控件、窗口、文本、按鈕關(guān)系整理出來(lái),形成可追蹤、可復(fù)盤、可繼續(xù)操作的現(xiàn)場(chǎng)記錄。
AI 看到的不再只是一片像素,而是一張帶結(jié)構(gòu)的桌面地圖。
這就像給一個(gè)會(huì)讀菜譜的人配上廚房燈、砧板和鍋鏟。沒(méi)有這些東西,廚藝只能停在嘴上。加上這些東西,才有可能開(kāi)火。
為什么現(xiàn)在才變得關(guān)鍵
Peekaboo 并非橫空出世。
它早在去年6月就已上線初版,問(wèn)題是過(guò)去的模型能力還沒(méi)完全到位。
![]()
視覺(jué)模型能看圖,但未必能穩(wěn)定理解復(fù)雜界面。
Computer-Use 能操作,但經(jīng)常像第一次摸觸控板的人,動(dòng)作大,心里虛,偶爾還會(huì)把瀏覽器當(dāng)滑板。
最近的變化在于,模型視覺(jué)能力和 Computer-Use 能力都過(guò)了一個(gè)臨界點(diǎn)。
單項(xiàng)進(jìn)步看起來(lái)只是多識(shí)別一點(diǎn)、多點(diǎn)準(zhǔn)一點(diǎn)、多理解一步,疊起來(lái)之后,體驗(yàn)會(huì)發(fā)生質(zhì)變。
Agent 不再只是偶爾能演示一下,而是開(kāi)始接近可持續(xù)跑流程的狀態(tài)。
這時(shí),底層自動(dòng)化工具的價(jià)值被放大。
模型再聰明,也需要穩(wěn)定輸入和穩(wěn)定執(zhí)行。
沒(méi)有 Peekaboo 這樣的橋,AI 對(duì)桌面的理解就容易停在截圖問(wèn)答。
它能說(shuō)出屏幕上有什么,卻不一定能可靠地完成下一步。
Peekaboo 做的事情,就是把「看見(jiàn)」和「動(dòng)手」接到一起。
OpenClaw 為什么需要它
OpenClaw 最初打動(dòng)人的地方,是把 Agent 放進(jìn)各種消息渠道。
用戶可以從 Telegram、Slack、iMessage、WhatsApp 一類入口發(fā)起任務(wù)。
這個(gè)設(shè)計(jì)抓住了一個(gè)現(xiàn)實(shí)問(wèn)題——人已經(jīng)懶得為每個(gè) AI 打開(kāi)一個(gè)新網(wǎng)頁(yè),也不想在不同工具之間來(lái)回搬運(yùn)上下文。
最順手的入口,往往就是聊天窗口。
可聊天窗口只是入口。真正的工作場(chǎng)景常常在電腦里。
要處理一個(gè)網(wǎng)頁(yè)后臺(tái),要檢查一個(gè)本地應(yīng)用,要跑一個(gè)模擬器,要填一個(gè)表單,要點(diǎn)一個(gè)配置項(xiàng),要看一張報(bào)錯(cuò)截圖。
OpenClaw 可以把任務(wù)接進(jìn)來(lái),Agent 可以想出步驟,但如果沒(méi)有能操作屏幕的本地層,它最終還是要把步驟發(fā)回給人,讓人自己動(dòng)手。
這就尷尬了。
用戶叫來(lái)一個(gè)助手,最后助手遞過(guò)來(lái)一張待辦清單。
Peekaboo 接入之后,OpenClaw 的角色開(kāi)始變化。
它不再只是多渠道消息網(wǎng)關(guān),也不只是 Agent 的調(diào)度臺(tái)。
它有機(jī)會(huì)成為一個(gè)能在本機(jī)環(huán)境里真正辦事的系統(tǒng)。
一句話概括,OpenClaw 管「誰(shuí)來(lái)找我」「要做什么」「交給哪個(gè) Agent」,Peekaboo 管「屏幕上有什么」「按鈕在哪里」「這一刀該往哪兒落」。
開(kāi)發(fā)工具,潛力巨大
社區(qū)里已經(jīng)有人用 Peekaboo 在瀏覽器里驅(qū)動(dòng)遠(yuǎn)程 iOS 模擬器。
![]()
![]()
流程大概是,先讓 Peekaboo 分析一張移動(dòng)應(yīng)用截圖,識(shí)別出它是 Little Vault 的歡迎頁(yè),頁(yè)面上有應(yīng)用 Logo、標(biāo)題、關(guān)于私人記憶的標(biāo)語(yǔ)、創(chuàng)建 Vault 的主按鈕、登錄入口,以及右上角的語(yǔ)言選擇器。
隨后注冊(cè)這個(gè)屏幕,點(diǎn)擊 Create Your Vault,等待界面變化,再截圖,繼續(xù)進(jìn)行探索。
這段演示有意思,因?yàn)樗故镜牟⒎菃渭儭窤I 看懂一張圖」。真正關(guān)鍵的是后半段。
看懂之后,它要把屏幕注冊(cè)為一個(gè)狀態(tài),要選擇目標(biāo),要執(zhí)行點(diǎn)擊,要等待反饋,要根據(jù)新截圖繼續(xù)走。
這里面每一步都可能出錯(cuò),每一步也都可以被記錄下來(lái)。
這才是 Agent 從玩具走向工具的分界線。
Peekaboo 把這些動(dòng)作變得可觀察、可復(fù)盤、可繼續(xù)。
對(duì) OpenClaw 來(lái)說(shuō),這等于讓遠(yuǎn)程指令和本地執(zhí)行之間出現(xiàn)了一條可鋪設(shè)的軌道。
Peter 忙著更新些什么
這幾天的更新看起來(lái)有些工程瑣碎,比如模型目錄、工具 schema、打包產(chǎn)物、版本標(biāo)記、捕獲路徑、daemon 調(diào)度。
![]()
這些詞放進(jìn)發(fā)布公告里不一定吸睛,卻正是 Agent 產(chǎn)品能不能跑起來(lái)的地基。
AI 工具最怕一種場(chǎng)景——演示時(shí)行云流水,用戶一裝就各種權(quán)限、路徑、模型、窗口、截圖、輸入法、延遲問(wèn)題接連冒頭。
最后用戶也只能得出結(jié)論——未來(lái)確實(shí)來(lái)了,就是還沒(méi)到自己電腦上。
Peekaboo 的連續(xù)更新,在修的就是這類問(wèn)題。
它要讓 CLI、MCP、桌面應(yīng)用、遠(yuǎn)程 Agent、不同模型之間盡量減小摩擦。
它要讓一次截圖、一次點(diǎn)擊、一次窗口選擇都更接近可預(yù)期。
這里沒(méi)有神跡,只有大量臟活。臟活做得越多,用戶越少感知到它。
好工具的最高境界往往是沒(méi)存在感。按鈕該點(diǎn)就點(diǎn),窗口該找就找,任務(wù)該繼續(xù)就繼續(xù)。
Peekaboo 現(xiàn)在就在往這個(gè)方向補(bǔ)課。
它讓 OpenClaw 從會(huì)聊天變成會(huì)干活
OpenClaw 過(guò)去解決的是連接問(wèn)題。
人從哪里發(fā)消息,消息怎么進(jìn)來(lái),Agent 怎么處理,結(jié)果怎么回去。
Peekaboo 解決的是執(zhí)行問(wèn)題。Agent 接到任務(wù)以后,能不能看到真實(shí)桌面,能不能找到可操作對(duì)象,能不能一步步推進(jìn)。
這兩個(gè)問(wèn)題合在一起,才接近普通人想象中的 AI 助手。
加上 Peekaboo,OpenClaw 才開(kāi)始像值班的工程師,能登錄機(jī)器、看屏幕、查問(wèn)題、點(diǎn)配置、跑流程,讓人愿意把事托付出去。
這也是 Peekaboo 對(duì) OpenClaw 的真正意義。
它把 OpenClaw 從消息系統(tǒng)往操作系統(tǒng)的邊緣推了一步。
再往前走,OpenClaw 就不只是 AI 的入口,而可能成為 AI 操作個(gè)人電腦和個(gè)人工作流的本地控制層。
參考資料:
https://peekaboo.sh
https://github.com/openclaw/Peekaboo
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.