![]()
這項(xiàng)由中國(guó)科學(xué)院自動(dòng)化研究所與香港科學(xué)與創(chuàng)新研究院聯(lián)合開展的研究,以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.23941,有興趣深入了解的讀者可通過該編號(hào)查詢完整論文。
每天,我們打開手機(jī)、點(diǎn)擊按鈕、填寫表單、滑動(dòng)頁面,這些看似平常的操作背后,藏著一個(gè)讓計(jì)算機(jī)科學(xué)家頭疼多年的難題:如果要讓AI幫我們自動(dòng)操作手機(jī),它首先得"認(rèn)識(shí)"屏幕上的每一個(gè)按鈕和圖標(biāo)——不是靠讀懂代碼,而是像人類一樣通過眼睛看到界面、理解自然語言指令,然后精準(zhǔn)地找到目標(biāo)位置。這個(gè)能力,研究者稱之為"GUI元素定位"(GUI Element Grounding),你可以把它理解為AI在手機(jī)屏幕上的"視力"和"理解力"。
問題在于,擁有這種"視力"的AI模型通常體型龐大,動(dòng)輒需要數(shù)十億個(gè)參數(shù)才能運(yùn)轉(zhuǎn),就像一臺(tái)專業(yè)級(jí)別的醫(yī)療掃描儀,效果極好但體積驚人,根本塞不進(jìn)你的手機(jī)。研究團(tuán)隊(duì)面對(duì)的核心挑戰(zhàn),正是如何打造一臺(tái)"口袋里的醫(yī)療掃描儀"——既精準(zhǔn)、又輕巧。他們給出的答案叫做GoClick,一個(gè)只有2.3億個(gè)參數(shù)的小模型,卻能在多個(gè)權(quán)威評(píng)測(cè)中與擁有七十億參數(shù)的大模型一較高下,甚至在某些測(cè)試上直接碾壓對(duì)方。
這是怎么做到的?答案藏在兩個(gè)關(guān)鍵決策里:選對(duì)了"身材結(jié)構(gòu)",以及在訓(xùn)練前認(rèn)真篩選了"食譜"。
一、為什么手機(jī)上的AI"導(dǎo)航員"那么難造?
以一個(gè)具體場(chǎng)景開頭:假設(shè)你是一位視力障礙用戶,你對(duì)手機(jī)說"幫我在亞馬遜上搜索《孫子兵法》"。AI助手需要先理解你的意圖,然后在屏幕上找到搜索框的具體位置,精確地"點(diǎn)擊"它,再輸入文字。這一系列動(dòng)作里,最難的其實(shí)是"找到搜索框"這一步——屏幕上可能有幾十個(gè)可交互的元素,搜索框可能在頂部,也可能被遮擋,而且不同的App界面設(shè)計(jì)各不相同。
人類依靠眼睛和經(jīng)驗(yàn)可以在零點(diǎn)幾秒內(nèi)完成這個(gè)判斷,但AI需要同時(shí)處理一張高分辨率的截圖、理解自然語言指令,再輸出精確坐標(biāo)。更麻煩的是,GUI界面與日常照片差異極大:屏幕上的按鈕通常非常小,可能只占整個(gè)圖像面積的極小比例;同一屏幕上可能有幾十個(gè)看起來相似的圖標(biāo);文字密度也遠(yuǎn)高于普通照片。這些特點(diǎn)對(duì)AI的視覺理解能力提出了極高要求。
現(xiàn)有的解決方案,基本上是把大型視覺語言模型(Vision-Language Model,簡(jiǎn)稱VLM,你可以把它理解為"既能看圖又能讀文字的AI大腦")直接用于這個(gè)任務(wù)。這些模型效果不錯(cuò),但參數(shù)量普遍在25億以上,有的甚至超過180億,部署在服務(wù)器上還好,但若要在手機(jī)本地運(yùn)行則完全不現(xiàn)實(shí)——手機(jī)的內(nèi)存和算力根本承受不住。
這個(gè)矛盾催生了GoClick這項(xiàng)研究。研究團(tuán)隊(duì)的目標(biāo)很明確:打造一個(gè)能在手機(jī)上實(shí)時(shí)運(yùn)行的"界面導(dǎo)航專家",延遲低、精度高、體積小。
二、"瘦身"方案選錯(cuò)了:為什么簡(jiǎn)單縮小不管用?
直覺上,最簡(jiǎn)單的做法是把那些已經(jīng)很厲害的大模型"按比例縮小"。好比你有一輛豪華越野車,把它等比例縮成玩具車,造型一樣但能力也大幅縮水。研究團(tuán)隊(duì)確實(shí)做了這個(gè)實(shí)驗(yàn):他們?nèi)砹水?dāng)前流行的兩款大模型——Qwen2-VL和InternVL2的小尺寸版本(分別是10億和20億參數(shù)規(guī)模),用同樣的訓(xùn)練數(shù)據(jù)對(duì)它們進(jìn)行微調(diào),期待它們?cè)诳s小后依然能勝任GUI定位任務(wù)。
結(jié)果令人失望。這兩款"縮水版"大模型在GUI定位任務(wù)上的表現(xiàn)只能用"中規(guī)中矩"來形容,遠(yuǎn)沒有達(dá)到預(yù)期。以一個(gè)關(guān)鍵測(cè)試集FuncPred為例,Qwen2-VL的20億參數(shù)版本只得到了51.1分的準(zhǔn)確率,而研究團(tuán)隊(duì)最終的GoClick小版本(僅有2億參數(shù))在同樣測(cè)試上得到了64.4分,大版本GoClick更是達(dá)到了69.5分,全面超越這些參數(shù)量多出數(shù)倍的對(duì)手。
原因在于,這些流行大模型在設(shè)計(jì)之初就是為了"全能":它們要能回答問題、寫文章、描述圖片、做多輪對(duì)話,因此架構(gòu)上選擇了一種"解碼器優(yōu)先"的設(shè)計(jì)(Decoder-Only),本質(zhì)上像是一個(gè)擅長(zhǎng)"寫作文"的大腦,需要維持大量的對(duì)話和生成能力。但GUI定位任務(wù)根本不需要這些,它只需要精準(zhǔn)地"找到位置"并輸出坐標(biāo),是一個(gè)更窄、更專的任務(wù)。把一個(gè)擅長(zhǎng)寫議論文的人,縮成一個(gè)小版本后讓他當(dāng)精密儀器的操作員,效果自然差強(qiáng)人意。
三、找對(duì)"身材結(jié)構(gòu)":編碼器-解碼器架構(gòu)為何更適合小模型?
研究團(tuán)隊(duì)選擇了一條不同的路:用一種叫做"編碼器-解碼器"架構(gòu)(Encoder-Decoder)的模型作為基礎(chǔ),具體來說是微軟研究院提出的Florence-2模型。這種架構(gòu)的設(shè)計(jì)邏輯,可以用一個(gè)分工明確的團(tuán)隊(duì)來理解——編碼器負(fù)責(zé)"看圖讀文",把屏幕截圖和用戶指令理解消化,提取出有意義的視覺和語言特征;解碼器則專注于"輸出坐標(biāo)",只需要把位置信息以數(shù)字形式寫出來。
與那些需要維持大量文字生成能力的"解碼器優(yōu)先"架構(gòu)相比,這種分工合作的結(jié)構(gòu)把有限的參數(shù)用在了刀刃上:編碼部分專心做視覺語言融合,解碼部分只做一件事——精準(zhǔn)地預(yù)測(cè)坐標(biāo),不需要對(duì)話、不需要講故事、不需要寫詩,只需要說"目標(biāo)在屏幕橫坐標(biāo)500、縱坐標(biāo)80的位置"。
學(xué)術(shù)界此前已有研究表明,在參數(shù)規(guī)模較小、任務(wù)范圍相對(duì)聚焦的場(chǎng)景下,編碼器-解碼器架構(gòu)通常優(yōu)于解碼器優(yōu)先架構(gòu)。GoClick的實(shí)驗(yàn)驗(yàn)證了這一結(jié)論在GUI定位任務(wù)上的適用性。面對(duì)相同的訓(xùn)練數(shù)據(jù),F(xiàn)lorence-2(0.8B參數(shù))微調(diào)后的GoClick在幾乎所有測(cè)試基準(zhǔn)上都顯著超越了參數(shù)量?jī)杀抖嗟腝wen2-VL(2.2B)和SLiME-Gemma(2.8B),更大幅領(lǐng)先于同等參數(shù)量的InternVL-2(0.9B)。
在速度方面,GoClick的優(yōu)勢(shì)更加突出。研究團(tuán)隊(duì)在模擬手機(jī)設(shè)備使用條件的環(huán)境下進(jìn)行了測(cè)速實(shí)驗(yàn),GoClick-L(0.8B版本)的首個(gè)輸出token出現(xiàn)時(shí)間(TTFT)為91.1毫秒,每個(gè)后續(xù)token的生成時(shí)間(TPOT)僅需8.3毫秒,而那些70億參數(shù)的競(jìng)爭(zhēng)對(duì)手TPOT往往高達(dá)20至30毫秒。GoClick-B(0.2B版本)更快,TTFT僅37.7毫秒,TPOT僅4.1毫秒,速度優(yōu)勢(shì)十分明顯。
四、"食譜"決定水準(zhǔn):如何從海量數(shù)據(jù)中提煉精華?
確定了架構(gòu)之后,下一個(gè)問題是:用什么數(shù)據(jù)來訓(xùn)練?訓(xùn)練AI模型就像教一個(gè)孩子,教材的質(zhì)量和選擇至關(guān)重要。研究團(tuán)隊(duì)首先大規(guī)模收集了GUI元素的"描述-位置"數(shù)據(jù)對(duì),構(gòu)建了一個(gè)總量高達(dá)1080萬條樣本的原始數(shù)據(jù)集。
這些數(shù)據(jù)來源非常多樣:有涵蓋各種網(wǎng)頁分辨率的截圖,有來自多種安卓設(shè)備模擬器的手機(jī)界面截圖,有各類App操作任務(wù)的標(biāo)注數(shù)據(jù)。針對(duì)每個(gè)界面元素,研究團(tuán)隊(duì)生成了四種不同類型的描述方式。第一種是"文本定位"——直接說出元素上顯示的文字,比如"找到寫著'搜索'的按鈕"。第二種是"簡(jiǎn)短描述定位"——描述元素的外觀、類別和位置,比如"頂部左側(cè)那個(gè)房子形狀的返回主頁按鈕"。第三種是"操作意圖定位"——用用戶的意圖來描述,比如"我想聚焦到密碼輸入框,請(qǐng)找到對(duì)應(yīng)元素"。第四種是"功能描述定位"——描述元素能做什么,比如"這個(gè)元素允許用戶輸入文字搜索商品"。
收集完這些原始數(shù)據(jù)后,研究團(tuán)隊(duì)意識(shí)到一個(gè)關(guān)鍵問題:數(shù)據(jù)多并不代表數(shù)據(jù)好。這就像準(zhǔn)備一桌宴席,食材堆得再多,如果包含了過期食品和重復(fù)菜肴,最終端上桌的菜肴質(zhì)量反而會(huì)下降。研究團(tuán)隊(duì)因此設(shè)計(jì)了一套"漸進(jìn)式數(shù)據(jù)精煉"流程(Progressive Data Refinement,PDR),分兩個(gè)階段對(duì)數(shù)據(jù)進(jìn)行篩選。
第一個(gè)階段是粗粒度篩選。研究團(tuán)隊(duì)發(fā)現(xiàn),有兩類數(shù)據(jù)對(duì)模型提升毫無幫助、甚至有害。其一是來自過時(shí)界面設(shè)計(jì)的截圖——比如某個(gè)數(shù)據(jù)集包含了2011年安卓4.0時(shí)代的界面截圖,與當(dāng)前評(píng)測(cè)基準(zhǔn)所使用的現(xiàn)代界面風(fēng)格相差甚遠(yuǎn),用這些數(shù)據(jù)訓(xùn)練就像讓廚師用1980年代的食譜來應(yīng)對(duì)現(xiàn)代米其林評(píng)審,南轅北轍。其二是所謂的"逆向生成任務(wù)"樣本(REG任務(wù))——這類樣本要求模型根據(jù)元素位置反過來生成描述文字,而非根據(jù)描述找位置。實(shí)驗(yàn)證明這類數(shù)據(jù)不僅對(duì)定位能力沒有幫助,其中的功能描述逆向生成任務(wù)甚至對(duì)模型造成了明顯傷害,原因在于小模型本身不具備生成高質(zhì)量功能描述文字的能力,強(qiáng)行讓它學(xué)習(xí)這個(gè)任務(wù)反而擾亂了其他能力。剔除這兩類數(shù)據(jù)后,數(shù)據(jù)集從1080萬條縮減到了680萬條,但模型性能不降反升。
第二個(gè)階段是細(xì)粒度調(diào)整。研究團(tuán)隊(duì)進(jìn)一步針對(duì)六個(gè)主要數(shù)據(jù)來源,逐步降低各類任務(wù)樣本的納入比例,同時(shí)觀察模型在定位評(píng)測(cè)上的表現(xiàn)變化,通過這種系統(tǒng)性實(shí)驗(yàn)來判斷哪些數(shù)據(jù)真正有用。結(jié)果出現(xiàn)了一些出人意料的規(guī)律:來自AutoGUI、MobileViews、MultiUI和WebUI四個(gè)數(shù)據(jù)源的樣本,基本上是"用得越多效果越好";但來自AndroidControl數(shù)據(jù)源的文本定位樣本,在全量納入時(shí)反而讓模型表現(xiàn)變差,原因可能是這個(gè)數(shù)據(jù)源的界面模式不夠多樣,而對(duì)比之下,MobileViews的數(shù)據(jù)來自兩萬多款不同App,多樣性更為充分。最令人意外的是SeeClick-Web這個(gè)數(shù)據(jù)源——它提供了超過200萬條簡(jiǎn)短描述定位樣本,看起來是個(gè)寶庫,但研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)全量納入時(shí)模型性能出現(xiàn)了"斷崖式下跌",極大可能是因?yàn)檫@個(gè)數(shù)據(jù)源包含過多純文字網(wǎng)頁,界面模式單一,全量訓(xùn)練后模型發(fā)生了過擬合(類似于學(xué)生只刷一套題,遇到新題就懵了)。
經(jīng)過兩輪篩選,最終得到的精華核心數(shù)據(jù)集只有380萬條樣本——僅相當(dāng)于原始數(shù)據(jù)量的35%,但訓(xùn)練出的模型在各項(xiàng)評(píng)測(cè)上的平均準(zhǔn)確率比使用全量數(shù)據(jù)提高了整整4個(gè)百分點(diǎn)。
五、實(shí)戰(zhàn)成績(jī):小身材,大能耐
GoClick在七個(gè)權(quán)威GUI定位評(píng)測(cè)基準(zhǔn)上接受了全面檢驗(yàn),覆蓋手機(jī)、網(wǎng)頁、桌面三類界面場(chǎng)景,涵蓋功能描述定位、簡(jiǎn)短描述定位、操作意圖定位、文本定位等多種指令類型。
以其中最具挑戰(zhàn)性的FuncPred測(cè)試為例,這個(gè)測(cè)試要求模型只根據(jù)元素的功能描述來找到目標(biāo)位置,不會(huì)提示任何外觀或位置信息——就像有人告訴你"找到那個(gè)能讓你調(diào)整最高價(jià)格過濾的元素",你得在滿屏元素中找到它。GoClick-L(0.8B版本)在這個(gè)測(cè)試上得到了69.5分,不僅遠(yuǎn)超同等參數(shù)量的InternVL-2(21.9分)和參數(shù)量?jī)杀抖嗟腝wen2-VL-2B(51.1分),甚至超越了參數(shù)量超過自身十倍的Qwen2-VL-7B(56.1分)。
在更綜合的ScreenSpot和ScreenSpot-v2測(cè)試上,GoClick-L分別獲得78.5分和81.1分,超越了SeeClick(53.4分/54.0分)、Ferret-UI(7.1分/7.8分)以及4B參數(shù)的OS-ATLAS(66.8分/68.7分),并接近8B參數(shù)的OS-ATLAS(82.5分/84.1分)和Aguvis(83.8分/85.6分)。即便是只有2000萬參數(shù)的GoClick-B,在VWB EG(網(wǎng)頁元素定位)測(cè)試上也拿到了90.3分,與GoClick-L并列,在這項(xiàng)測(cè)試上超越了幾乎所有競(jìng)爭(zhēng)對(duì)手,包括70億參數(shù)量級(jí)的模型。
值得一提的是,GoClick的訓(xùn)練數(shù)據(jù)量也遠(yuǎn)少于競(jìng)爭(zhēng)對(duì)手:OS-ATLAS使用了1360萬條數(shù)據(jù),UGround使用了1000萬條,而GoClick只用了380萬條——用更少的食材做出了更好的菜,這正是數(shù)據(jù)精煉策略的價(jià)值所在。
六、裝進(jìn)手機(jī)與云端大腦合作:"小眼睛"如何幫助"大腦"更好地操控手機(jī)?
GoClick最令人期待的應(yīng)用場(chǎng)景,是與大型語言模型組成"云端-設(shè)備"協(xié)作團(tuán)隊(duì)來完成復(fù)雜任務(wù)。研究團(tuán)隊(duì)設(shè)計(jì)了這樣一套方案:復(fù)雜的任務(wù)規(guī)劃交給運(yùn)行在遠(yuǎn)程服務(wù)器上的大型專有模型(如GPT-4o或Gemini-2-Flash),它負(fù)責(zé)"讀懂"用戶意圖并制定操作計(jì)劃;而元素定位這個(gè)高度專業(yè)化的視覺任務(wù),則下放給安裝在手機(jī)上的GoClick來完成。
這個(gè)分工邏輯清晰:大型專有模型擅長(zhǎng)推理和規(guī)劃,但定位屏幕元素并非其強(qiáng)項(xiàng)——在實(shí)驗(yàn)中,讓GPT-4o直接輸出點(diǎn)擊坐標(biāo),準(zhǔn)確率很低;而GoClick是一個(gè)專注于定位的專家,邏輯推理不是它的職責(zé),但找準(zhǔn)目標(biāo)是它的拿手好戲。兩者各司其職,如同偵探負(fù)責(zé)分析案情、提出方向,而現(xiàn)場(chǎng)搜證專家負(fù)責(zé)在現(xiàn)場(chǎng)精確找到關(guān)鍵證物。
為了驗(yàn)證這套方案的效果,研究團(tuán)隊(duì)在四個(gè)GUI操作任務(wù)基準(zhǔn)上進(jìn)行了全面測(cè)試,包括Android-in-The-Wild(覆蓋350多款A(yù)pp)、AndroidControl(涵蓋833款A(yù)pp的15000個(gè)獨(dú)特任務(wù))、GUIAct-Mobile和GUIAct-Web。這些測(cè)試評(píng)估的核心指標(biāo)是"步驟成功率":AI在操作手機(jī)的每一步中,點(diǎn)擊、輸入、滑動(dòng)等動(dòng)作有多少比例與人類標(biāo)注的正確操作完全吻合。
在Android-in-The-Wild測(cè)試上,使用GPT-4o單獨(dú)既做規(guī)劃又做定位時(shí),整體步驟成功率只有27.2%;引入GoClick專門負(fù)責(zé)定位后,這個(gè)數(shù)字躍升至48.9%,點(diǎn)擊動(dòng)作的準(zhǔn)確率更從29.9%飆升至59.7%,幾乎翻了一番。對(duì)比另一種流行的方案——"標(biāo)記集"(Set-of-Marks)提示策略,這種方法通過在屏幕截圖上標(biāo)注所有元素的邊框和編號(hào),讓大模型從候選列表中選擇——GPT-4o配合這種方法的成功率只有42.1%,仍然低于GoClick方案的48.9%。
在更難的GUIAct-Web測(cè)試上,同樣是GPT-4o配合GoClick的組合,成功率從18.2%(純GPT-4o)提升到50.5%(配合GoClick的意圖定位),遠(yuǎn)超GPT-4o配合標(biāo)記集方案的42.3%。Gemini-2-Flash配合GoClick在Android-in-The-Wild上的整體成功率達(dá)到47.2%,同樣大幅優(yōu)于單獨(dú)使用Gemini或配合標(biāo)記集的方案。
研究還發(fā)現(xiàn),用"操作意圖"來引導(dǎo)GoClick定位(比如"我想點(diǎn)擊搜索框來聚焦它")略微優(yōu)于用"功能描述"來引導(dǎo)(比如"找到允許用戶輸入搜索內(nèi)容的元素"),前者在大多數(shù)測(cè)試上的得分略高。研究團(tuán)隊(duì)認(rèn)為,這是因?yàn)楣δ苊枋鍪且环N相對(duì)間接的描述方式,要求模型通過更多推斷才能確定目標(biāo),難度更高。
七、這個(gè)研究還沒解決什么?
研究團(tuán)隊(duì)對(duì)GoClick的局限性保持坦誠(chéng)。其一,GoClick的架構(gòu)優(yōu)勢(shì)是專門針對(duì)GUI定位任務(wù)優(yōu)化的,編碼器-解碼器架構(gòu)在這個(gè)窄任務(wù)上的優(yōu)勢(shì),不一定能遷移到更復(fù)雜的任務(wù),比如多步驟規(guī)劃、思維鏈推理等,這些場(chǎng)景下大型解碼器模型的優(yōu)勢(shì)可能會(huì)回歸。
其二,數(shù)據(jù)精煉流程目前仍有一定的經(jīng)驗(yàn)性成分,實(shí)驗(yàn)中調(diào)整數(shù)據(jù)比例時(shí)需要手動(dòng)觀察性能變化,缺乏更加系統(tǒng)化的理論支撐。如果用不同的隨機(jī)種子來抽取數(shù)據(jù)子集,結(jié)果可能存在細(xì)微差異。研究團(tuán)隊(duì)也指出,未來可以借助元學(xué)習(xí)方法或博弈論中的"沙普利值"技術(shù)來更精確地量化每條樣本的訓(xùn)練價(jià)值,但計(jì)算代價(jià)巨大——對(duì)1080萬條樣本進(jìn)行全量影響分析,即便是0.8B的小模型也需要消耗驚人的計(jì)算資源。
其三,實(shí)驗(yàn)評(píng)測(cè)是在L20 GPU上進(jìn)行的,而非在真實(shí)手機(jī)硬件上。目前還沒有成熟的VLM嵌入式設(shè)備部署框架,研究團(tuán)隊(duì)的實(shí)測(cè)速度數(shù)據(jù)代表了模擬條件下的結(jié)果,真實(shí)手機(jī)的內(nèi)存限制、能耗約束和系統(tǒng)級(jí)優(yōu)化可能帶來與測(cè)試條件不同的實(shí)際表現(xiàn)。
其四,GoClick的訓(xùn)練數(shù)據(jù)存在"時(shí)效性"問題。研究發(fā)現(xiàn),使用2011年安卓4.0時(shí)代的截圖數(shù)據(jù)會(huì)損害模型在現(xiàn)代界面上的表現(xiàn),這意味著隨著界面設(shè)計(jì)風(fēng)格的演化,GoClick可能需要定期使用新數(shù)據(jù)重新訓(xùn)練,才能保持競(jìng)爭(zhēng)力。
說到底,GoClick這項(xiàng)研究回答了一個(gè)看似矛盾的問題:能不能在極小的體積內(nèi),塞進(jìn)足夠好的"界面理解力"?答案是肯定的,但前提是既要選對(duì)架構(gòu),又要精心打磨數(shù)據(jù)。編碼器-解碼器的分工設(shè)計(jì)讓有限的參數(shù)發(fā)揮了最大效用,而漸進(jìn)式數(shù)據(jù)精煉則去除了那些表面上看起來有用、實(shí)際上是噪音的訓(xùn)練樣本。兩個(gè)思路缺一不可,缺了哪個(gè)都會(huì)讓最終的模型差一大截。
這項(xiàng)研究對(duì)于AI助手走進(jìn)日常生活有實(shí)質(zhì)意義:當(dāng)你的手機(jī)AI助手能夠真正"看懂"屏幕、精確操作每一個(gè)按鈕,而不依賴服務(wù)器的高延遲處理,很多需要實(shí)時(shí)響應(yīng)的場(chǎng)景才真正變得可行——比如為視障用戶實(shí)時(shí)導(dǎo)航界面,比如在地鐵上低延遲地自動(dòng)處理日程提醒,比如在沒有良好網(wǎng)絡(luò)的環(huán)境下仍然流暢運(yùn)行的智能助手。GoClick提供的不僅是一個(gè)小模型,更是一套關(guān)于"如何在資源受限環(huán)境下做好專項(xiàng)AI任務(wù)"的方法論。
如果你對(duì)技術(shù)細(xì)節(jié)感興趣,完整論文可通過arXiv編號(hào)2604.23941查閱。思考一個(gè)有趣的問題可以留作延伸:當(dāng)AI模型同時(shí)兼顧"輕量"和"專業(yè)"時(shí),哪些日常任務(wù)會(huì)最先受益?答案可能比你想象的更豐富。
Q&A
Q1:GoClick為什么選擇編碼器-解碼器架構(gòu),而不是像ChatGPT那樣的解碼器架構(gòu)?
A:GUI定位任務(wù)的核心是"看圖找位置",輸出的只是一組坐標(biāo),并不需要生成長(zhǎng)篇文字或進(jìn)行多輪對(duì)話。編碼器-解碼器架構(gòu)中,編碼器專門負(fù)責(zé)理解圖像和文字,解碼器只負(fù)責(zé)輸出坐標(biāo),分工明確、參數(shù)利用率高。而像ChatGPT那樣的解碼器架構(gòu)需要維持大量文字生成能力,在參數(shù)規(guī)模縮小后,這部分能力的"成本"反而拖累了定位精度。實(shí)驗(yàn)證明,同等參數(shù)量下編碼器-解碼器架構(gòu)的定位準(zhǔn)確率顯著更高。
Q2:漸進(jìn)式數(shù)據(jù)精煉(PDR)為什么能用更少的數(shù)據(jù)得到更好的效果?
A:核心原因是"去除了有害數(shù)據(jù)"。數(shù)據(jù)量多并不代表質(zhì)量高,研究發(fā)現(xiàn)過時(shí)界面截圖和逆向描述生成類任務(wù)不僅無益,還會(huì)干擾模型學(xué)習(xí)正確的定位能力。同時(shí),某些來源的數(shù)據(jù)過于單一重復(fù),全量納入會(huì)讓模型"偏科",遇到新場(chǎng)景就失效。篩掉這些干擾項(xiàng)后,模型能更專注地從高質(zhì)量樣本中學(xué)習(xí),用380萬條精華數(shù)據(jù)超越了使用1080萬條原始數(shù)據(jù)的結(jié)果。
Q3:GoClick和Set-of-Marks(SoM)提示方法相比有什么優(yōu)勢(shì)?
A:SoM方法需要先用一個(gè)檢測(cè)模型把屏幕上所有元素標(biāo)注出來、打上編號(hào),再讓大型語言模型從這些候選項(xiàng)中選擇目標(biāo),整個(gè)流程依賴大型專有模型完成最終判斷。GoClick直接輸出目標(biāo)坐標(biāo),不需要額外的檢測(cè)模型預(yù)處理,也不依賴大模型做最終決策。實(shí)驗(yàn)數(shù)據(jù)顯示,GPT-4o配合SoM在Android-in-The-Wild上整體成功率為42.1%,而GPT-4o配合GoClick達(dá)到48.9%,差距明顯,而且GoClick可以直接在手機(jī)本地運(yùn)行,延遲更低。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.