網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中科院領(lǐng)銜：230M手機(jī)端AI界面模型性能超越70億參數(shù)大模型

2026-05-06 19:28:44　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由中國(guó)科學(xué)院自動(dòng)化研究所與香港科學(xué)與創(chuàng)新研究院聯(lián)合開展的研究，以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.23941，有興趣深入了解的讀者可通過該編號(hào)查詢完整論文。

每天，我們打開手機(jī)、點(diǎn)擊按鈕、填寫表單、滑動(dòng)頁面，這些看似平常的操作背后，藏著一個(gè)讓計(jì)算機(jī)科學(xué)家頭疼多年的難題：如果要讓AI幫我們自動(dòng)操作手機(jī)，它首先得"認(rèn)識(shí)"屏幕上的每一個(gè)按鈕和圖標(biāo)——不是靠讀懂代碼，而是像人類一樣通過眼睛看到界面、理解自然語言指令，然后精準(zhǔn)地找到目標(biāo)位置。這個(gè)能力，研究者稱之為"GUI元素定位"（GUI Element Grounding），你可以把它理解為AI在手機(jī)屏幕上的"視力"和"理解力"。

問題在于，擁有這種"視力"的AI模型通常體型龐大，動(dòng)輒需要數(shù)十億個(gè)參數(shù)才能運(yùn)轉(zhuǎn)，就像一臺(tái)專業(yè)級(jí)別的醫(yī)療掃描儀，效果極好但體積驚人，根本塞不進(jìn)你的手機(jī)。研究團(tuán)隊(duì)面對(duì)的核心挑戰(zhàn)，正是如何打造一臺(tái)"口袋里的醫(yī)療掃描儀"——既精準(zhǔn)、又輕巧。他們給出的答案叫做GoClick，一個(gè)只有2.3億個(gè)參數(shù)的小模型，卻能在多個(gè)權(quán)威評(píng)測(cè)中與擁有七十億參數(shù)的大模型一較高下，甚至在某些測(cè)試上直接碾壓對(duì)方。

這是怎么做到的？答案藏在兩個(gè)關(guān)鍵決策里：選對(duì)了"身材結(jié)構(gòu)"，以及在訓(xùn)練前認(rèn)真篩選了"食譜"。

一、為什么手機(jī)上的AI"導(dǎo)航員"那么難造？

以一個(gè)具體場(chǎng)景開頭：假設(shè)你是一位視力障礙用戶，你對(duì)手機(jī)說"幫我在亞馬遜上搜索《孫子兵法》"。AI助手需要先理解你的意圖，然后在屏幕上找到搜索框的具體位置，精確地"點(diǎn)擊"它，再輸入文字。這一系列動(dòng)作里，最難的其實(shí)是"找到搜索框"這一步——屏幕上可能有幾十個(gè)可交互的元素，搜索框可能在頂部，也可能被遮擋，而且不同的App界面設(shè)計(jì)各不相同。

人類依靠眼睛和經(jīng)驗(yàn)可以在零點(diǎn)幾秒內(nèi)完成這個(gè)判斷，但AI需要同時(shí)處理一張高分辨率的截圖、理解自然語言指令，再輸出精確坐標(biāo)。更麻煩的是，GUI界面與日常照片差異極大：屏幕上的按鈕通常非常小，可能只占整個(gè)圖像面積的極小比例；同一屏幕上可能有幾十個(gè)看起來相似的圖標(biāo)；文字密度也遠(yuǎn)高于普通照片。這些特點(diǎn)對(duì)AI的視覺理解能力提出了極高要求。

現(xiàn)有的解決方案，基本上是把大型視覺語言模型（Vision-Language Model，簡(jiǎn)稱VLM，你可以把它理解為"既能看圖又能讀文字的AI大腦"）直接用于這個(gè)任務(wù)。這些模型效果不錯(cuò)，但參數(shù)量普遍在25億以上，有的甚至超過180億，部署在服務(wù)器上還好，但若要在手機(jī)本地運(yùn)行則完全不現(xiàn)實(shí)——手機(jī)的內(nèi)存和算力根本承受不住。

這個(gè)矛盾催生了GoClick這項(xiàng)研究。研究團(tuán)隊(duì)的目標(biāo)很明確：打造一個(gè)能在手機(jī)上實(shí)時(shí)運(yùn)行的"界面導(dǎo)航專家"，延遲低、精度高、體積小。

二、"瘦身"方案選錯(cuò)了：為什么簡(jiǎn)單縮小不管用？

直覺上，最簡(jiǎn)單的做法是把那些已經(jīng)很厲害的大模型"按比例縮小"。好比你有一輛豪華越野車，把它等比例縮成玩具車，造型一樣但能力也大幅縮水。研究團(tuán)隊(duì)確實(shí)做了這個(gè)實(shí)驗(yàn)：他們?nèi)砹水?dāng)前流行的兩款大模型——Qwen2-VL和InternVL2的小尺寸版本（分別是10億和20億參數(shù)規(guī)模），用同樣的訓(xùn)練數(shù)據(jù)對(duì)它們進(jìn)行微調(diào)，期待它們?cè)诳s小后依然能勝任GUI定位任務(wù)。

結(jié)果令人失望。這兩款"縮水版"大模型在GUI定位任務(wù)上的表現(xiàn)只能用"中規(guī)中矩"來形容，遠(yuǎn)沒有達(dá)到預(yù)期。以一個(gè)關(guān)鍵測(cè)試集FuncPred為例，Qwen2-VL的20億參數(shù)版本只得到了51.1分的準(zhǔn)確率，而研究團(tuán)隊(duì)最終的GoClick小版本（僅有2億參數(shù)）在同樣測(cè)試上得到了64.4分，大版本GoClick更是達(dá)到了69.5分，全面超越這些參數(shù)量多出數(shù)倍的對(duì)手。

原因在于，這些流行大模型在設(shè)計(jì)之初就是為了"全能"：它們要能回答問題、寫文章、描述圖片、做多輪對(duì)話，因此架構(gòu)上選擇了一種"解碼器優(yōu)先"的設(shè)計(jì)（Decoder-Only），本質(zhì)上像是一個(gè)擅長(zhǎng)"寫作文"的大腦，需要維持大量的對(duì)話和生成能力。但GUI定位任務(wù)根本不需要這些，它只需要精準(zhǔn)地"找到位置"并輸出坐標(biāo)，是一個(gè)更窄、更專的任務(wù)。把一個(gè)擅長(zhǎng)寫議論文的人，縮成一個(gè)小版本后讓他當(dāng)精密儀器的操作員，效果自然差強(qiáng)人意。

三、找對(duì)"身材結(jié)構(gòu)"：編碼器-解碼器架構(gòu)為何更適合小模型？

研究團(tuán)隊(duì)選擇了一條不同的路：用一種叫做"編碼器-解碼器"架構(gòu)（Encoder-Decoder）的模型作為基礎(chǔ)，具體來說是微軟研究院提出的Florence-2模型。這種架構(gòu)的設(shè)計(jì)邏輯，可以用一個(gè)分工明確的團(tuán)隊(duì)來理解——編碼器負(fù)責(zé)"看圖讀文"，把屏幕截圖和用戶指令理解消化，提取出有意義的視覺和語言特征；解碼器則專注于"輸出坐標(biāo)"，只需要把位置信息以數(shù)字形式寫出來。

與那些需要維持大量文字生成能力的"解碼器優(yōu)先"架構(gòu)相比，這種分工合作的結(jié)構(gòu)把有限的參數(shù)用在了刀刃上：編碼部分專心做視覺語言融合，解碼部分只做一件事——精準(zhǔn)地預(yù)測(cè)坐標(biāo)，不需要對(duì)話、不需要講故事、不需要寫詩，只需要說"目標(biāo)在屏幕橫坐標(biāo)500、縱坐標(biāo)80的位置"。

學(xué)術(shù)界此前已有研究表明，在參數(shù)規(guī)模較小、任務(wù)范圍相對(duì)聚焦的場(chǎng)景下，編碼器-解碼器架構(gòu)通常優(yōu)于解碼器優(yōu)先架構(gòu)。GoClick的實(shí)驗(yàn)驗(yàn)證了這一結(jié)論在GUI定位任務(wù)上的適用性。面對(duì)相同的訓(xùn)練數(shù)據(jù)，F(xiàn)lorence-2（0.8B參數(shù)）微調(diào)后的GoClick在幾乎所有測(cè)試基準(zhǔn)上都顯著超越了參數(shù)量?jī)杀抖嗟腝wen2-VL（2.2B）和SLiME-Gemma（2.8B），更大幅領(lǐng)先于同等參數(shù)量的InternVL-2（0.9B）。

在速度方面，GoClick的優(yōu)勢(shì)更加突出。研究團(tuán)隊(duì)在模擬手機(jī)設(shè)備使用條件的環(huán)境下進(jìn)行了測(cè)速實(shí)驗(yàn)，GoClick-L（0.8B版本）的首個(gè)輸出token出現(xiàn)時(shí)間（TTFT）為91.1毫秒，每個(gè)后續(xù)token的生成時(shí)間（TPOT）僅需8.3毫秒，而那些70億參數(shù)的競(jìng)爭(zhēng)對(duì)手TPOT往往高達(dá)20至30毫秒。GoClick-B（0.2B版本）更快，TTFT僅37.7毫秒，TPOT僅4.1毫秒，速度優(yōu)勢(shì)十分明顯。

四、"食譜"決定水準(zhǔn)：如何從海量數(shù)據(jù)中提煉精華？

確定了架構(gòu)之后，下一個(gè)問題是：用什么數(shù)據(jù)來訓(xùn)練？訓(xùn)練AI模型就像教一個(gè)孩子，教材的質(zhì)量和選擇至關(guān)重要。研究團(tuán)隊(duì)首先大規(guī)模收集了GUI元素的"描述-位置"數(shù)據(jù)對(duì)，構(gòu)建了一個(gè)總量高達(dá)1080萬條樣本的原始數(shù)據(jù)集。

這些數(shù)據(jù)來源非常多樣：有涵蓋各種網(wǎng)頁分辨率的截圖，有來自多種安卓設(shè)備模擬器的手機(jī)界面截圖，有各類App操作任務(wù)的標(biāo)注數(shù)據(jù)。針對(duì)每個(gè)界面元素，研究團(tuán)隊(duì)生成了四種不同類型的描述方式。第一種是"文本定位"——直接說出元素上顯示的文字，比如"找到寫著'搜索'的按鈕"。第二種是"簡(jiǎn)短描述定位"——描述元素的外觀、類別和位置，比如"頂部左側(cè)那個(gè)房子形狀的返回主頁按鈕"。第三種是"操作意圖定位"——用用戶的意圖來描述，比如"我想聚焦到密碼輸入框，請(qǐng)找到對(duì)應(yīng)元素"。第四種是"功能描述定位"——描述元素能做什么，比如"這個(gè)元素允許用戶輸入文字搜索商品"。

收集完這些原始數(shù)據(jù)后，研究團(tuán)隊(duì)意識(shí)到一個(gè)關(guān)鍵問題：數(shù)據(jù)多并不代表數(shù)據(jù)好。這就像準(zhǔn)備一桌宴席，食材堆得再多，如果包含了過期食品和重復(fù)菜肴，最終端上桌的菜肴質(zhì)量反而會(huì)下降。研究團(tuán)隊(duì)因此設(shè)計(jì)了一套"漸進(jìn)式數(shù)據(jù)精煉"流程（Progressive Data Refinement，PDR），分兩個(gè)階段對(duì)數(shù)據(jù)進(jìn)行篩選。

第一個(gè)階段是粗粒度篩選。研究團(tuán)隊(duì)發(fā)現(xiàn)，有兩類數(shù)據(jù)對(duì)模型提升毫無幫助、甚至有害。其一是來自過時(shí)界面設(shè)計(jì)的截圖——比如某個(gè)數(shù)據(jù)集包含了2011年安卓4.0時(shí)代的界面截圖，與當(dāng)前評(píng)測(cè)基準(zhǔn)所使用的現(xiàn)代界面風(fēng)格相差甚遠(yuǎn)，用這些數(shù)據(jù)訓(xùn)練就像讓廚師用1980年代的食譜來應(yīng)對(duì)現(xiàn)代米其林評(píng)審，南轅北轍。其二是所謂的"逆向生成任務(wù)"樣本（REG任務(wù)）——這類樣本要求模型根據(jù)元素位置反過來生成描述文字，而非根據(jù)描述找位置。實(shí)驗(yàn)證明這類數(shù)據(jù)不僅對(duì)定位能力沒有幫助，其中的功能描述逆向生成任務(wù)甚至對(duì)模型造成了明顯傷害，原因在于小模型本身不具備生成高質(zhì)量功能描述文字的能力，強(qiáng)行讓它學(xué)習(xí)這個(gè)任務(wù)反而擾亂了其他能力。剔除這兩類數(shù)據(jù)后，數(shù)據(jù)集從1080萬條縮減到了680萬條，但模型性能不降反升。

第二個(gè)階段是細(xì)粒度調(diào)整。研究團(tuán)隊(duì)進(jìn)一步針對(duì)六個(gè)主要數(shù)據(jù)來源，逐步降低各類任務(wù)樣本的納入比例，同時(shí)觀察模型在定位評(píng)測(cè)上的表現(xiàn)變化，通過這種系統(tǒng)性實(shí)驗(yàn)來判斷哪些數(shù)據(jù)真正有用。結(jié)果出現(xiàn)了一些出人意料的規(guī)律：來自AutoGUI、MobileViews、MultiUI和WebUI四個(gè)數(shù)據(jù)源的樣本，基本上是"用得越多效果越好"；但來自AndroidControl數(shù)據(jù)源的文本定位樣本，在全量納入時(shí)反而讓模型表現(xiàn)變差，原因可能是這個(gè)數(shù)據(jù)源的界面模式不夠多樣，而對(duì)比之下，MobileViews的數(shù)據(jù)來自兩萬多款不同App，多樣性更為充分。最令人意外的是SeeClick-Web這個(gè)數(shù)據(jù)源——它提供了超過200萬條簡(jiǎn)短描述定位樣本，看起來是個(gè)寶庫，但研究團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)全量納入時(shí)模型性能出現(xiàn)了"斷崖式下跌"，極大可能是因?yàn)檫@個(gè)數(shù)據(jù)源包含過多純文字網(wǎng)頁，界面模式單一，全量訓(xùn)練后模型發(fā)生了過擬合（類似于學(xué)生只刷一套題，遇到新題就懵了）。

經(jīng)過兩輪篩選，最終得到的精華核心數(shù)據(jù)集只有380萬條樣本——僅相當(dāng)于原始數(shù)據(jù)量的35%，但訓(xùn)練出的模型在各項(xiàng)評(píng)測(cè)上的平均準(zhǔn)確率比使用全量數(shù)據(jù)提高了整整4個(gè)百分點(diǎn)。

五、實(shí)戰(zhàn)成績(jī)：小身材，大能耐

GoClick在七個(gè)權(quán)威GUI定位評(píng)測(cè)基準(zhǔn)上接受了全面檢驗(yàn)，覆蓋手機(jī)、網(wǎng)頁、桌面三類界面場(chǎng)景，涵蓋功能描述定位、簡(jiǎn)短描述定位、操作意圖定位、文本定位等多種指令類型。

以其中最具挑戰(zhàn)性的FuncPred測(cè)試為例，這個(gè)測(cè)試要求模型只根據(jù)元素的功能描述來找到目標(biāo)位置，不會(huì)提示任何外觀或位置信息——就像有人告訴你"找到那個(gè)能讓你調(diào)整最高價(jià)格過濾的元素"，你得在滿屏元素中找到它。GoClick-L（0.8B版本）在這個(gè)測(cè)試上得到了69.5分，不僅遠(yuǎn)超同等參數(shù)量的InternVL-2（21.9分）和參數(shù)量?jī)杀抖嗟腝wen2-VL-2B（51.1分），甚至超越了參數(shù)量超過自身十倍的Qwen2-VL-7B（56.1分）。

在更綜合的ScreenSpot和ScreenSpot-v2測(cè)試上，GoClick-L分別獲得78.5分和81.1分，超越了SeeClick（53.4分/54.0分）、Ferret-UI（7.1分/7.8分）以及4B參數(shù)的OS-ATLAS（66.8分/68.7分），并接近8B參數(shù)的OS-ATLAS（82.5分/84.1分）和Aguvis（83.8分/85.6分）。即便是只有2000萬參數(shù)的GoClick-B，在VWB EG（網(wǎng)頁元素定位）測(cè)試上也拿到了90.3分，與GoClick-L并列，在這項(xiàng)測(cè)試上超越了幾乎所有競(jìng)爭(zhēng)對(duì)手，包括70億參數(shù)量級(jí)的模型。

值得一提的是，GoClick的訓(xùn)練數(shù)據(jù)量也遠(yuǎn)少于競(jìng)爭(zhēng)對(duì)手：OS-ATLAS使用了1360萬條數(shù)據(jù)，UGround使用了1000萬條，而GoClick只用了380萬條——用更少的食材做出了更好的菜，這正是數(shù)據(jù)精煉策略的價(jià)值所在。

六、裝進(jìn)手機(jī)與云端大腦合作："小眼睛"如何幫助"大腦"更好地操控手機(jī)？

GoClick最令人期待的應(yīng)用場(chǎng)景，是與大型語言模型組成"云端-設(shè)備"協(xié)作團(tuán)隊(duì)來完成復(fù)雜任務(wù)。研究團(tuán)隊(duì)設(shè)計(jì)了這樣一套方案：復(fù)雜的任務(wù)規(guī)劃交給運(yùn)行在遠(yuǎn)程服務(wù)器上的大型專有模型（如GPT-4o或Gemini-2-Flash），它負(fù)責(zé)"讀懂"用戶意圖并制定操作計(jì)劃；而元素定位這個(gè)高度專業(yè)化的視覺任務(wù)，則下放給安裝在手機(jī)上的GoClick來完成。

這個(gè)分工邏輯清晰：大型專有模型擅長(zhǎng)推理和規(guī)劃，但定位屏幕元素并非其強(qiáng)項(xiàng)——在實(shí)驗(yàn)中，讓GPT-4o直接輸出點(diǎn)擊坐標(biāo)，準(zhǔn)確率很低；而GoClick是一個(gè)專注于定位的專家，邏輯推理不是它的職責(zé)，但找準(zhǔn)目標(biāo)是它的拿手好戲。兩者各司其職，如同偵探負(fù)責(zé)分析案情、提出方向，而現(xiàn)場(chǎng)搜證專家負(fù)責(zé)在現(xiàn)場(chǎng)精確找到關(guān)鍵證物。

為了驗(yàn)證這套方案的效果，研究團(tuán)隊(duì)在四個(gè)GUI操作任務(wù)基準(zhǔn)上進(jìn)行了全面測(cè)試，包括Android-in-The-Wild（覆蓋350多款A(yù)pp）、AndroidControl（涵蓋833款A(yù)pp的15000個(gè)獨(dú)特任務(wù)）、GUIAct-Mobile和GUIAct-Web。這些測(cè)試評(píng)估的核心指標(biāo)是"步驟成功率"：AI在操作手機(jī)的每一步中，點(diǎn)擊、輸入、滑動(dòng)等動(dòng)作有多少比例與人類標(biāo)注的正確操作完全吻合。

在Android-in-The-Wild測(cè)試上，使用GPT-4o單獨(dú)既做規(guī)劃又做定位時(shí)，整體步驟成功率只有27.2%；引入GoClick專門負(fù)責(zé)定位后，這個(gè)數(shù)字躍升至48.9%，點(diǎn)擊動(dòng)作的準(zhǔn)確率更從29.9%飆升至59.7%，幾乎翻了一番。對(duì)比另一種流行的方案——"標(biāo)記集"（Set-of-Marks）提示策略，這種方法通過在屏幕截圖上標(biāo)注所有元素的邊框和編號(hào)，讓大模型從候選列表中選擇——GPT-4o配合這種方法的成功率只有42.1%，仍然低于GoClick方案的48.9%。

在更難的GUIAct-Web測(cè)試上，同樣是GPT-4o配合GoClick的組合，成功率從18.2%（純GPT-4o）提升到50.5%（配合GoClick的意圖定位），遠(yuǎn)超GPT-4o配合標(biāo)記集方案的42.3%。Gemini-2-Flash配合GoClick在Android-in-The-Wild上的整體成功率達(dá)到47.2%，同樣大幅優(yōu)于單獨(dú)使用Gemini或配合標(biāo)記集的方案。

研究還發(fā)現(xiàn)，用"操作意圖"來引導(dǎo)GoClick定位（比如"我想點(diǎn)擊搜索框來聚焦它"）略微優(yōu)于用"功能描述"來引導(dǎo)（比如"找到允許用戶輸入搜索內(nèi)容的元素"），前者在大多數(shù)測(cè)試上的得分略高。研究團(tuán)隊(duì)認(rèn)為，這是因?yàn)楣δ苊枋鍪且环N相對(duì)間接的描述方式，要求模型通過更多推斷才能確定目標(biāo)，難度更高。

七、這個(gè)研究還沒解決什么？

研究團(tuán)隊(duì)對(duì)GoClick的局限性保持坦誠(chéng)。其一，GoClick的架構(gòu)優(yōu)勢(shì)是專門針對(duì)GUI定位任務(wù)優(yōu)化的，編碼器-解碼器架構(gòu)在這個(gè)窄任務(wù)上的優(yōu)勢(shì)，不一定能遷移到更復(fù)雜的任務(wù)，比如多步驟規(guī)劃、思維鏈推理等，這些場(chǎng)景下大型解碼器模型的優(yōu)勢(shì)可能會(huì)回歸。

其二，數(shù)據(jù)精煉流程目前仍有一定的經(jīng)驗(yàn)性成分，實(shí)驗(yàn)中調(diào)整數(shù)據(jù)比例時(shí)需要手動(dòng)觀察性能變化，缺乏更加系統(tǒng)化的理論支撐。如果用不同的隨機(jī)種子來抽取數(shù)據(jù)子集，結(jié)果可能存在細(xì)微差異。研究團(tuán)隊(duì)也指出，未來可以借助元學(xué)習(xí)方法或博弈論中的"沙普利值"技術(shù)來更精確地量化每條樣本的訓(xùn)練價(jià)值，但計(jì)算代價(jià)巨大——對(duì)1080萬條樣本進(jìn)行全量影響分析，即便是0.8B的小模型也需要消耗驚人的計(jì)算資源。

其三，實(shí)驗(yàn)評(píng)測(cè)是在L20 GPU上進(jìn)行的，而非在真實(shí)手機(jī)硬件上。目前還沒有成熟的VLM嵌入式設(shè)備部署框架，研究團(tuán)隊(duì)的實(shí)測(cè)速度數(shù)據(jù)代表了模擬條件下的結(jié)果，真實(shí)手機(jī)的內(nèi)存限制、能耗約束和系統(tǒng)級(jí)優(yōu)化可能帶來與測(cè)試條件不同的實(shí)際表現(xiàn)。

其四，GoClick的訓(xùn)練數(shù)據(jù)存在"時(shí)效性"問題。研究發(fā)現(xiàn)，使用2011年安卓4.0時(shí)代的截圖數(shù)據(jù)會(huì)損害模型在現(xiàn)代界面上的表現(xiàn)，這意味著隨著界面設(shè)計(jì)風(fēng)格的演化，GoClick可能需要定期使用新數(shù)據(jù)重新訓(xùn)練，才能保持競(jìng)爭(zhēng)力。

說到底，GoClick這項(xiàng)研究回答了一個(gè)看似矛盾的問題：能不能在極小的體積內(nèi)，塞進(jìn)足夠好的"界面理解力"？答案是肯定的，但前提是既要選對(duì)架構(gòu)，又要精心打磨數(shù)據(jù)。編碼器-解碼器的分工設(shè)計(jì)讓有限的參數(shù)發(fā)揮了最大效用，而漸進(jìn)式數(shù)據(jù)精煉則去除了那些表面上看起來有用、實(shí)際上是噪音的訓(xùn)練樣本。兩個(gè)思路缺一不可，缺了哪個(gè)都會(huì)讓最終的模型差一大截。

這項(xiàng)研究對(duì)于AI助手走進(jìn)日常生活有實(shí)質(zhì)意義：當(dāng)你的手機(jī)AI助手能夠真正"看懂"屏幕、精確操作每一個(gè)按鈕，而不依賴服務(wù)器的高延遲處理，很多需要實(shí)時(shí)響應(yīng)的場(chǎng)景才真正變得可行——比如為視障用戶實(shí)時(shí)導(dǎo)航界面，比如在地鐵上低延遲地自動(dòng)處理日程提醒，比如在沒有良好網(wǎng)絡(luò)的環(huán)境下仍然流暢運(yùn)行的智能助手。GoClick提供的不僅是一個(gè)小模型，更是一套關(guān)于"如何在資源受限環(huán)境下做好專項(xiàng)AI任務(wù)"的方法論。

如果你對(duì)技術(shù)細(xì)節(jié)感興趣，完整論文可通過arXiv編號(hào)2604.23941查閱。思考一個(gè)有趣的問題可以留作延伸：當(dāng)AI模型同時(shí)兼顧"輕量"和"專業(yè)"時(shí)，哪些日常任務(wù)會(huì)最先受益？答案可能比你想象的更豐富。

Q&A

Q1：GoClick為什么選擇編碼器-解碼器架構(gòu)，而不是像ChatGPT那樣的解碼器架構(gòu)？

A：GUI定位任務(wù)的核心是"看圖找位置"，輸出的只是一組坐標(biāo)，并不需要生成長(zhǎng)篇文字或進(jìn)行多輪對(duì)話。編碼器-解碼器架構(gòu)中，編碼器專門負(fù)責(zé)理解圖像和文字，解碼器只負(fù)責(zé)輸出坐標(biāo)，分工明確、參數(shù)利用率高。而像ChatGPT那樣的解碼器架構(gòu)需要維持大量文字生成能力，在參數(shù)規(guī)模縮小后，這部分能力的"成本"反而拖累了定位精度。實(shí)驗(yàn)證明，同等參數(shù)量下編碼器-解碼器架構(gòu)的定位準(zhǔn)確率顯著更高。

Q2：漸進(jìn)式數(shù)據(jù)精煉（PDR）為什么能用更少的數(shù)據(jù)得到更好的效果？

A：核心原因是"去除了有害數(shù)據(jù)"。數(shù)據(jù)量多并不代表質(zhì)量高，研究發(fā)現(xiàn)過時(shí)界面截圖和逆向描述生成類任務(wù)不僅無益，還會(huì)干擾模型學(xué)習(xí)正確的定位能力。同時(shí)，某些來源的數(shù)據(jù)過于單一重復(fù)，全量納入會(huì)讓模型"偏科"，遇到新場(chǎng)景就失效。篩掉這些干擾項(xiàng)后，模型能更專注地從高質(zhì)量樣本中學(xué)習(xí)，用380萬條精華數(shù)據(jù)超越了使用1080萬條原始數(shù)據(jù)的結(jié)果。

Q3：GoClick和Set-of-Marks（SoM）提示方法相比有什么優(yōu)勢(shì)？

A：SoM方法需要先用一個(gè)檢測(cè)模型把屏幕上所有元素標(biāo)注出來、打上編號(hào)，再讓大型語言模型從這些候選項(xiàng)中選擇目標(biāo)，整個(gè)流程依賴大型專有模型完成最終判斷。GoClick直接輸出目標(biāo)坐標(biāo)，不需要額外的檢測(cè)模型預(yù)處理，也不依賴大模型做最終決策。實(shí)驗(yàn)數(shù)據(jù)顯示，GPT-4o配合SoM在Android-in-The-Wild上整體成功率為42.1%，而GPT-4o配合GoClick達(dá)到48.9%，差距明顯，而且GoClick可以直接在手機(jī)本地運(yùn)行，延遲更低。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.