<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      中科院領(lǐng)銜:230M手機(jī)端AI界面模型性能超越70億參數(shù)大模型

      0
      分享至


      這項(xiàng)由中國(guó)科學(xué)院自動(dòng)化研究所與香港科學(xué)與創(chuàng)新研究院聯(lián)合開展的研究,以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.23941,有興趣深入了解的讀者可通過該編號(hào)查詢完整論文。

      每天,我們打開手機(jī)、點(diǎn)擊按鈕、填寫表單、滑動(dòng)頁面,這些看似平常的操作背后,藏著一個(gè)讓計(jì)算機(jī)科學(xué)家頭疼多年的難題:如果要讓AI幫我們自動(dòng)操作手機(jī),它首先得"認(rèn)識(shí)"屏幕上的每一個(gè)按鈕和圖標(biāo)——不是靠讀懂代碼,而是像人類一樣通過眼睛看到界面、理解自然語言指令,然后精準(zhǔn)地找到目標(biāo)位置。這個(gè)能力,研究者稱之為"GUI元素定位"(GUI Element Grounding),你可以把它理解為AI在手機(jī)屏幕上的"視力"和"理解力"。

      問題在于,擁有這種"視力"的AI模型通常體型龐大,動(dòng)輒需要數(shù)十億個(gè)參數(shù)才能運(yùn)轉(zhuǎn),就像一臺(tái)專業(yè)級(jí)別的醫(yī)療掃描儀,效果極好但體積驚人,根本塞不進(jìn)你的手機(jī)。研究團(tuán)隊(duì)面對(duì)的核心挑戰(zhàn),正是如何打造一臺(tái)"口袋里的醫(yī)療掃描儀"——既精準(zhǔn)、又輕巧。他們給出的答案叫做GoClick,一個(gè)只有2.3億個(gè)參數(shù)的小模型,卻能在多個(gè)權(quán)威評(píng)測(cè)中與擁有七十億參數(shù)的大模型一較高下,甚至在某些測(cè)試上直接碾壓對(duì)方。

      這是怎么做到的?答案藏在兩個(gè)關(guān)鍵決策里:選對(duì)了"身材結(jié)構(gòu)",以及在訓(xùn)練前認(rèn)真篩選了"食譜"。

      一、為什么手機(jī)上的AI"導(dǎo)航員"那么難造?

      以一個(gè)具體場(chǎng)景開頭:假設(shè)你是一位視力障礙用戶,你對(duì)手機(jī)說"幫我在亞馬遜上搜索《孫子兵法》"。AI助手需要先理解你的意圖,然后在屏幕上找到搜索框的具體位置,精確地"點(diǎn)擊"它,再輸入文字。這一系列動(dòng)作里,最難的其實(shí)是"找到搜索框"這一步——屏幕上可能有幾十個(gè)可交互的元素,搜索框可能在頂部,也可能被遮擋,而且不同的App界面設(shè)計(jì)各不相同。

      人類依靠眼睛和經(jīng)驗(yàn)可以在零點(diǎn)幾秒內(nèi)完成這個(gè)判斷,但AI需要同時(shí)處理一張高分辨率的截圖、理解自然語言指令,再輸出精確坐標(biāo)。更麻煩的是,GUI界面與日常照片差異極大:屏幕上的按鈕通常非常小,可能只占整個(gè)圖像面積的極小比例;同一屏幕上可能有幾十個(gè)看起來相似的圖標(biāo);文字密度也遠(yuǎn)高于普通照片。這些特點(diǎn)對(duì)AI的視覺理解能力提出了極高要求。

      現(xiàn)有的解決方案,基本上是把大型視覺語言模型(Vision-Language Model,簡(jiǎn)稱VLM,你可以把它理解為"既能看圖又能讀文字的AI大腦")直接用于這個(gè)任務(wù)。這些模型效果不錯(cuò),但參數(shù)量普遍在25億以上,有的甚至超過180億,部署在服務(wù)器上還好,但若要在手機(jī)本地運(yùn)行則完全不現(xiàn)實(shí)——手機(jī)的內(nèi)存和算力根本承受不住。

      這個(gè)矛盾催生了GoClick這項(xiàng)研究。研究團(tuán)隊(duì)的目標(biāo)很明確:打造一個(gè)能在手機(jī)上實(shí)時(shí)運(yùn)行的"界面導(dǎo)航專家",延遲低、精度高、體積小。

      二、"瘦身"方案選錯(cuò)了:為什么簡(jiǎn)單縮小不管用?

      直覺上,最簡(jiǎn)單的做法是把那些已經(jīng)很厲害的大模型"按比例縮小"。好比你有一輛豪華越野車,把它等比例縮成玩具車,造型一樣但能力也大幅縮水。研究團(tuán)隊(duì)確實(shí)做了這個(gè)實(shí)驗(yàn):他們?nèi)砹水?dāng)前流行的兩款大模型——Qwen2-VL和InternVL2的小尺寸版本(分別是10億和20億參數(shù)規(guī)模),用同樣的訓(xùn)練數(shù)據(jù)對(duì)它們進(jìn)行微調(diào),期待它們?cè)诳s小后依然能勝任GUI定位任務(wù)。

      結(jié)果令人失望。這兩款"縮水版"大模型在GUI定位任務(wù)上的表現(xiàn)只能用"中規(guī)中矩"來形容,遠(yuǎn)沒有達(dá)到預(yù)期。以一個(gè)關(guān)鍵測(cè)試集FuncPred為例,Qwen2-VL的20億參數(shù)版本只得到了51.1分的準(zhǔn)確率,而研究團(tuán)隊(duì)最終的GoClick小版本(僅有2億參數(shù))在同樣測(cè)試上得到了64.4分,大版本GoClick更是達(dá)到了69.5分,全面超越這些參數(shù)量多出數(shù)倍的對(duì)手。

      原因在于,這些流行大模型在設(shè)計(jì)之初就是為了"全能":它們要能回答問題、寫文章、描述圖片、做多輪對(duì)話,因此架構(gòu)上選擇了一種"解碼器優(yōu)先"的設(shè)計(jì)(Decoder-Only),本質(zhì)上像是一個(gè)擅長(zhǎng)"寫作文"的大腦,需要維持大量的對(duì)話和生成能力。但GUI定位任務(wù)根本不需要這些,它只需要精準(zhǔn)地"找到位置"并輸出坐標(biāo),是一個(gè)更窄、更專的任務(wù)。把一個(gè)擅長(zhǎng)寫議論文的人,縮成一個(gè)小版本后讓他當(dāng)精密儀器的操作員,效果自然差強(qiáng)人意。

      三、找對(duì)"身材結(jié)構(gòu)":編碼器-解碼器架構(gòu)為何更適合小模型?

      研究團(tuán)隊(duì)選擇了一條不同的路:用一種叫做"編碼器-解碼器"架構(gòu)(Encoder-Decoder)的模型作為基礎(chǔ),具體來說是微軟研究院提出的Florence-2模型。這種架構(gòu)的設(shè)計(jì)邏輯,可以用一個(gè)分工明確的團(tuán)隊(duì)來理解——編碼器負(fù)責(zé)"看圖讀文",把屏幕截圖和用戶指令理解消化,提取出有意義的視覺和語言特征;解碼器則專注于"輸出坐標(biāo)",只需要把位置信息以數(shù)字形式寫出來。

      與那些需要維持大量文字生成能力的"解碼器優(yōu)先"架構(gòu)相比,這種分工合作的結(jié)構(gòu)把有限的參數(shù)用在了刀刃上:編碼部分專心做視覺語言融合,解碼部分只做一件事——精準(zhǔn)地預(yù)測(cè)坐標(biāo),不需要對(duì)話、不需要講故事、不需要寫詩,只需要說"目標(biāo)在屏幕橫坐標(biāo)500、縱坐標(biāo)80的位置"。

      學(xué)術(shù)界此前已有研究表明,在參數(shù)規(guī)模較小、任務(wù)范圍相對(duì)聚焦的場(chǎng)景下,編碼器-解碼器架構(gòu)通常優(yōu)于解碼器優(yōu)先架構(gòu)。GoClick的實(shí)驗(yàn)驗(yàn)證了這一結(jié)論在GUI定位任務(wù)上的適用性。面對(duì)相同的訓(xùn)練數(shù)據(jù),F(xiàn)lorence-2(0.8B參數(shù))微調(diào)后的GoClick在幾乎所有測(cè)試基準(zhǔn)上都顯著超越了參數(shù)量?jī)杀抖嗟腝wen2-VL(2.2B)和SLiME-Gemma(2.8B),更大幅領(lǐng)先于同等參數(shù)量的InternVL-2(0.9B)。

      在速度方面,GoClick的優(yōu)勢(shì)更加突出。研究團(tuán)隊(duì)在模擬手機(jī)設(shè)備使用條件的環(huán)境下進(jìn)行了測(cè)速實(shí)驗(yàn),GoClick-L(0.8B版本)的首個(gè)輸出token出現(xiàn)時(shí)間(TTFT)為91.1毫秒,每個(gè)后續(xù)token的生成時(shí)間(TPOT)僅需8.3毫秒,而那些70億參數(shù)的競(jìng)爭(zhēng)對(duì)手TPOT往往高達(dá)20至30毫秒。GoClick-B(0.2B版本)更快,TTFT僅37.7毫秒,TPOT僅4.1毫秒,速度優(yōu)勢(shì)十分明顯。

      四、"食譜"決定水準(zhǔn):如何從海量數(shù)據(jù)中提煉精華?

      確定了架構(gòu)之后,下一個(gè)問題是:用什么數(shù)據(jù)來訓(xùn)練?訓(xùn)練AI模型就像教一個(gè)孩子,教材的質(zhì)量和選擇至關(guān)重要。研究團(tuán)隊(duì)首先大規(guī)模收集了GUI元素的"描述-位置"數(shù)據(jù)對(duì),構(gòu)建了一個(gè)總量高達(dá)1080萬條樣本的原始數(shù)據(jù)集。

      這些數(shù)據(jù)來源非常多樣:有涵蓋各種網(wǎng)頁分辨率的截圖,有來自多種安卓設(shè)備模擬器的手機(jī)界面截圖,有各類App操作任務(wù)的標(biāo)注數(shù)據(jù)。針對(duì)每個(gè)界面元素,研究團(tuán)隊(duì)生成了四種不同類型的描述方式。第一種是"文本定位"——直接說出元素上顯示的文字,比如"找到寫著'搜索'的按鈕"。第二種是"簡(jiǎn)短描述定位"——描述元素的外觀、類別和位置,比如"頂部左側(cè)那個(gè)房子形狀的返回主頁按鈕"。第三種是"操作意圖定位"——用用戶的意圖來描述,比如"我想聚焦到密碼輸入框,請(qǐng)找到對(duì)應(yīng)元素"。第四種是"功能描述定位"——描述元素能做什么,比如"這個(gè)元素允許用戶輸入文字搜索商品"。

      收集完這些原始數(shù)據(jù)后,研究團(tuán)隊(duì)意識(shí)到一個(gè)關(guān)鍵問題:數(shù)據(jù)多并不代表數(shù)據(jù)好。這就像準(zhǔn)備一桌宴席,食材堆得再多,如果包含了過期食品和重復(fù)菜肴,最終端上桌的菜肴質(zhì)量反而會(huì)下降。研究團(tuán)隊(duì)因此設(shè)計(jì)了一套"漸進(jìn)式數(shù)據(jù)精煉"流程(Progressive Data Refinement,PDR),分兩個(gè)階段對(duì)數(shù)據(jù)進(jìn)行篩選。

      第一個(gè)階段是粗粒度篩選。研究團(tuán)隊(duì)發(fā)現(xiàn),有兩類數(shù)據(jù)對(duì)模型提升毫無幫助、甚至有害。其一是來自過時(shí)界面設(shè)計(jì)的截圖——比如某個(gè)數(shù)據(jù)集包含了2011年安卓4.0時(shí)代的界面截圖,與當(dāng)前評(píng)測(cè)基準(zhǔn)所使用的現(xiàn)代界面風(fēng)格相差甚遠(yuǎn),用這些數(shù)據(jù)訓(xùn)練就像讓廚師用1980年代的食譜來應(yīng)對(duì)現(xiàn)代米其林評(píng)審,南轅北轍。其二是所謂的"逆向生成任務(wù)"樣本(REG任務(wù))——這類樣本要求模型根據(jù)元素位置反過來生成描述文字,而非根據(jù)描述找位置。實(shí)驗(yàn)證明這類數(shù)據(jù)不僅對(duì)定位能力沒有幫助,其中的功能描述逆向生成任務(wù)甚至對(duì)模型造成了明顯傷害,原因在于小模型本身不具備生成高質(zhì)量功能描述文字的能力,強(qiáng)行讓它學(xué)習(xí)這個(gè)任務(wù)反而擾亂了其他能力。剔除這兩類數(shù)據(jù)后,數(shù)據(jù)集從1080萬條縮減到了680萬條,但模型性能不降反升。

      第二個(gè)階段是細(xì)粒度調(diào)整。研究團(tuán)隊(duì)進(jìn)一步針對(duì)六個(gè)主要數(shù)據(jù)來源,逐步降低各類任務(wù)樣本的納入比例,同時(shí)觀察模型在定位評(píng)測(cè)上的表現(xiàn)變化,通過這種系統(tǒng)性實(shí)驗(yàn)來判斷哪些數(shù)據(jù)真正有用。結(jié)果出現(xiàn)了一些出人意料的規(guī)律:來自AutoGUI、MobileViews、MultiUI和WebUI四個(gè)數(shù)據(jù)源的樣本,基本上是"用得越多效果越好";但來自AndroidControl數(shù)據(jù)源的文本定位樣本,在全量納入時(shí)反而讓模型表現(xiàn)變差,原因可能是這個(gè)數(shù)據(jù)源的界面模式不夠多樣,而對(duì)比之下,MobileViews的數(shù)據(jù)來自兩萬多款不同App,多樣性更為充分。最令人意外的是SeeClick-Web這個(gè)數(shù)據(jù)源——它提供了超過200萬條簡(jiǎn)短描述定位樣本,看起來是個(gè)寶庫,但研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)全量納入時(shí)模型性能出現(xiàn)了"斷崖式下跌",極大可能是因?yàn)檫@個(gè)數(shù)據(jù)源包含過多純文字網(wǎng)頁,界面模式單一,全量訓(xùn)練后模型發(fā)生了過擬合(類似于學(xué)生只刷一套題,遇到新題就懵了)。

      經(jīng)過兩輪篩選,最終得到的精華核心數(shù)據(jù)集只有380萬條樣本——僅相當(dāng)于原始數(shù)據(jù)量的35%,但訓(xùn)練出的模型在各項(xiàng)評(píng)測(cè)上的平均準(zhǔn)確率比使用全量數(shù)據(jù)提高了整整4個(gè)百分點(diǎn)。

      五、實(shí)戰(zhàn)成績(jī):小身材,大能耐

      GoClick在七個(gè)權(quán)威GUI定位評(píng)測(cè)基準(zhǔn)上接受了全面檢驗(yàn),覆蓋手機(jī)、網(wǎng)頁、桌面三類界面場(chǎng)景,涵蓋功能描述定位、簡(jiǎn)短描述定位、操作意圖定位、文本定位等多種指令類型。

      以其中最具挑戰(zhàn)性的FuncPred測(cè)試為例,這個(gè)測(cè)試要求模型只根據(jù)元素的功能描述來找到目標(biāo)位置,不會(huì)提示任何外觀或位置信息——就像有人告訴你"找到那個(gè)能讓你調(diào)整最高價(jià)格過濾的元素",你得在滿屏元素中找到它。GoClick-L(0.8B版本)在這個(gè)測(cè)試上得到了69.5分,不僅遠(yuǎn)超同等參數(shù)量的InternVL-2(21.9分)和參數(shù)量?jī)杀抖嗟腝wen2-VL-2B(51.1分),甚至超越了參數(shù)量超過自身十倍的Qwen2-VL-7B(56.1分)。

      在更綜合的ScreenSpot和ScreenSpot-v2測(cè)試上,GoClick-L分別獲得78.5分和81.1分,超越了SeeClick(53.4分/54.0分)、Ferret-UI(7.1分/7.8分)以及4B參數(shù)的OS-ATLAS(66.8分/68.7分),并接近8B參數(shù)的OS-ATLAS(82.5分/84.1分)和Aguvis(83.8分/85.6分)。即便是只有2000萬參數(shù)的GoClick-B,在VWB EG(網(wǎng)頁元素定位)測(cè)試上也拿到了90.3分,與GoClick-L并列,在這項(xiàng)測(cè)試上超越了幾乎所有競(jìng)爭(zhēng)對(duì)手,包括70億參數(shù)量級(jí)的模型。

      值得一提的是,GoClick的訓(xùn)練數(shù)據(jù)量也遠(yuǎn)少于競(jìng)爭(zhēng)對(duì)手:OS-ATLAS使用了1360萬條數(shù)據(jù),UGround使用了1000萬條,而GoClick只用了380萬條——用更少的食材做出了更好的菜,這正是數(shù)據(jù)精煉策略的價(jià)值所在。

      六、裝進(jìn)手機(jī)與云端大腦合作:"小眼睛"如何幫助"大腦"更好地操控手機(jī)?

      GoClick最令人期待的應(yīng)用場(chǎng)景,是與大型語言模型組成"云端-設(shè)備"協(xié)作團(tuán)隊(duì)來完成復(fù)雜任務(wù)。研究團(tuán)隊(duì)設(shè)計(jì)了這樣一套方案:復(fù)雜的任務(wù)規(guī)劃交給運(yùn)行在遠(yuǎn)程服務(wù)器上的大型專有模型(如GPT-4o或Gemini-2-Flash),它負(fù)責(zé)"讀懂"用戶意圖并制定操作計(jì)劃;而元素定位這個(gè)高度專業(yè)化的視覺任務(wù),則下放給安裝在手機(jī)上的GoClick來完成。

      這個(gè)分工邏輯清晰:大型專有模型擅長(zhǎng)推理和規(guī)劃,但定位屏幕元素并非其強(qiáng)項(xiàng)——在實(shí)驗(yàn)中,讓GPT-4o直接輸出點(diǎn)擊坐標(biāo),準(zhǔn)確率很低;而GoClick是一個(gè)專注于定位的專家,邏輯推理不是它的職責(zé),但找準(zhǔn)目標(biāo)是它的拿手好戲。兩者各司其職,如同偵探負(fù)責(zé)分析案情、提出方向,而現(xiàn)場(chǎng)搜證專家負(fù)責(zé)在現(xiàn)場(chǎng)精確找到關(guān)鍵證物。

      為了驗(yàn)證這套方案的效果,研究團(tuán)隊(duì)在四個(gè)GUI操作任務(wù)基準(zhǔn)上進(jìn)行了全面測(cè)試,包括Android-in-The-Wild(覆蓋350多款A(yù)pp)、AndroidControl(涵蓋833款A(yù)pp的15000個(gè)獨(dú)特任務(wù))、GUIAct-Mobile和GUIAct-Web。這些測(cè)試評(píng)估的核心指標(biāo)是"步驟成功率":AI在操作手機(jī)的每一步中,點(diǎn)擊、輸入、滑動(dòng)等動(dòng)作有多少比例與人類標(biāo)注的正確操作完全吻合。

      在Android-in-The-Wild測(cè)試上,使用GPT-4o單獨(dú)既做規(guī)劃又做定位時(shí),整體步驟成功率只有27.2%;引入GoClick專門負(fù)責(zé)定位后,這個(gè)數(shù)字躍升至48.9%,點(diǎn)擊動(dòng)作的準(zhǔn)確率更從29.9%飆升至59.7%,幾乎翻了一番。對(duì)比另一種流行的方案——"標(biāo)記集"(Set-of-Marks)提示策略,這種方法通過在屏幕截圖上標(biāo)注所有元素的邊框和編號(hào),讓大模型從候選列表中選擇——GPT-4o配合這種方法的成功率只有42.1%,仍然低于GoClick方案的48.9%。

      在更難的GUIAct-Web測(cè)試上,同樣是GPT-4o配合GoClick的組合,成功率從18.2%(純GPT-4o)提升到50.5%(配合GoClick的意圖定位),遠(yuǎn)超GPT-4o配合標(biāo)記集方案的42.3%。Gemini-2-Flash配合GoClick在Android-in-The-Wild上的整體成功率達(dá)到47.2%,同樣大幅優(yōu)于單獨(dú)使用Gemini或配合標(biāo)記集的方案。

      研究還發(fā)現(xiàn),用"操作意圖"來引導(dǎo)GoClick定位(比如"我想點(diǎn)擊搜索框來聚焦它")略微優(yōu)于用"功能描述"來引導(dǎo)(比如"找到允許用戶輸入搜索內(nèi)容的元素"),前者在大多數(shù)測(cè)試上的得分略高。研究團(tuán)隊(duì)認(rèn)為,這是因?yàn)楣δ苊枋鍪且环N相對(duì)間接的描述方式,要求模型通過更多推斷才能確定目標(biāo),難度更高。

      七、這個(gè)研究還沒解決什么?

      研究團(tuán)隊(duì)對(duì)GoClick的局限性保持坦誠(chéng)。其一,GoClick的架構(gòu)優(yōu)勢(shì)是專門針對(duì)GUI定位任務(wù)優(yōu)化的,編碼器-解碼器架構(gòu)在這個(gè)窄任務(wù)上的優(yōu)勢(shì),不一定能遷移到更復(fù)雜的任務(wù),比如多步驟規(guī)劃、思維鏈推理等,這些場(chǎng)景下大型解碼器模型的優(yōu)勢(shì)可能會(huì)回歸。

      其二,數(shù)據(jù)精煉流程目前仍有一定的經(jīng)驗(yàn)性成分,實(shí)驗(yàn)中調(diào)整數(shù)據(jù)比例時(shí)需要手動(dòng)觀察性能變化,缺乏更加系統(tǒng)化的理論支撐。如果用不同的隨機(jī)種子來抽取數(shù)據(jù)子集,結(jié)果可能存在細(xì)微差異。研究團(tuán)隊(duì)也指出,未來可以借助元學(xué)習(xí)方法或博弈論中的"沙普利值"技術(shù)來更精確地量化每條樣本的訓(xùn)練價(jià)值,但計(jì)算代價(jià)巨大——對(duì)1080萬條樣本進(jìn)行全量影響分析,即便是0.8B的小模型也需要消耗驚人的計(jì)算資源。

      其三,實(shí)驗(yàn)評(píng)測(cè)是在L20 GPU上進(jìn)行的,而非在真實(shí)手機(jī)硬件上。目前還沒有成熟的VLM嵌入式設(shè)備部署框架,研究團(tuán)隊(duì)的實(shí)測(cè)速度數(shù)據(jù)代表了模擬條件下的結(jié)果,真實(shí)手機(jī)的內(nèi)存限制、能耗約束和系統(tǒng)級(jí)優(yōu)化可能帶來與測(cè)試條件不同的實(shí)際表現(xiàn)。

      其四,GoClick的訓(xùn)練數(shù)據(jù)存在"時(shí)效性"問題。研究發(fā)現(xiàn),使用2011年安卓4.0時(shí)代的截圖數(shù)據(jù)會(huì)損害模型在現(xiàn)代界面上的表現(xiàn),這意味著隨著界面設(shè)計(jì)風(fēng)格的演化,GoClick可能需要定期使用新數(shù)據(jù)重新訓(xùn)練,才能保持競(jìng)爭(zhēng)力。

      說到底,GoClick這項(xiàng)研究回答了一個(gè)看似矛盾的問題:能不能在極小的體積內(nèi),塞進(jìn)足夠好的"界面理解力"?答案是肯定的,但前提是既要選對(duì)架構(gòu),又要精心打磨數(shù)據(jù)。編碼器-解碼器的分工設(shè)計(jì)讓有限的參數(shù)發(fā)揮了最大效用,而漸進(jìn)式數(shù)據(jù)精煉則去除了那些表面上看起來有用、實(shí)際上是噪音的訓(xùn)練樣本。兩個(gè)思路缺一不可,缺了哪個(gè)都會(huì)讓最終的模型差一大截。

      這項(xiàng)研究對(duì)于AI助手走進(jìn)日常生活有實(shí)質(zhì)意義:當(dāng)你的手機(jī)AI助手能夠真正"看懂"屏幕、精確操作每一個(gè)按鈕,而不依賴服務(wù)器的高延遲處理,很多需要實(shí)時(shí)響應(yīng)的場(chǎng)景才真正變得可行——比如為視障用戶實(shí)時(shí)導(dǎo)航界面,比如在地鐵上低延遲地自動(dòng)處理日程提醒,比如在沒有良好網(wǎng)絡(luò)的環(huán)境下仍然流暢運(yùn)行的智能助手。GoClick提供的不僅是一個(gè)小模型,更是一套關(guān)于"如何在資源受限環(huán)境下做好專項(xiàng)AI任務(wù)"的方法論。

      如果你對(duì)技術(shù)細(xì)節(jié)感興趣,完整論文可通過arXiv編號(hào)2604.23941查閱。思考一個(gè)有趣的問題可以留作延伸:當(dāng)AI模型同時(shí)兼顧"輕量"和"專業(yè)"時(shí),哪些日常任務(wù)會(huì)最先受益?答案可能比你想象的更豐富。

      Q&A

      Q1:GoClick為什么選擇編碼器-解碼器架構(gòu),而不是像ChatGPT那樣的解碼器架構(gòu)?

      A:GUI定位任務(wù)的核心是"看圖找位置",輸出的只是一組坐標(biāo),并不需要生成長(zhǎng)篇文字或進(jìn)行多輪對(duì)話。編碼器-解碼器架構(gòu)中,編碼器專門負(fù)責(zé)理解圖像和文字,解碼器只負(fù)責(zé)輸出坐標(biāo),分工明確、參數(shù)利用率高。而像ChatGPT那樣的解碼器架構(gòu)需要維持大量文字生成能力,在參數(shù)規(guī)模縮小后,這部分能力的"成本"反而拖累了定位精度。實(shí)驗(yàn)證明,同等參數(shù)量下編碼器-解碼器架構(gòu)的定位準(zhǔn)確率顯著更高。

      Q2:漸進(jìn)式數(shù)據(jù)精煉(PDR)為什么能用更少的數(shù)據(jù)得到更好的效果?

      A:核心原因是"去除了有害數(shù)據(jù)"。數(shù)據(jù)量多并不代表質(zhì)量高,研究發(fā)現(xiàn)過時(shí)界面截圖和逆向描述生成類任務(wù)不僅無益,還會(huì)干擾模型學(xué)習(xí)正確的定位能力。同時(shí),某些來源的數(shù)據(jù)過于單一重復(fù),全量納入會(huì)讓模型"偏科",遇到新場(chǎng)景就失效。篩掉這些干擾項(xiàng)后,模型能更專注地從高質(zhì)量樣本中學(xué)習(xí),用380萬條精華數(shù)據(jù)超越了使用1080萬條原始數(shù)據(jù)的結(jié)果。

      Q3:GoClick和Set-of-Marks(SoM)提示方法相比有什么優(yōu)勢(shì)?

      A:SoM方法需要先用一個(gè)檢測(cè)模型把屏幕上所有元素標(biāo)注出來、打上編號(hào),再讓大型語言模型從這些候選項(xiàng)中選擇目標(biāo),整個(gè)流程依賴大型專有模型完成最終判斷。GoClick直接輸出目標(biāo)坐標(biāo),不需要額外的檢測(cè)模型預(yù)處理,也不依賴大模型做最終決策。實(shí)驗(yàn)數(shù)據(jù)顯示,GPT-4o配合SoM在Android-in-The-Wild上整體成功率為42.1%,而GPT-4o配合GoClick達(dá)到48.9%,差距明顯,而且GoClick可以直接在手機(jī)本地運(yùn)行,延遲更低。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      通車首日就翻車!這座讓臺(tái)灣等了40年的大橋,竟成了誰的生日派對(duì)

      通車首日就翻車!這座讓臺(tái)灣等了40年的大橋,竟成了誰的生日派對(duì)

      菁菁子衿
      2026-05-14 10:03:53
      市值暴漲4100億!徹底放棄手機(jī)的諾基亞,早已賺得盆滿缽滿

      市值暴漲4100億!徹底放棄手機(jī)的諾基亞,早已賺得盆滿缽滿

      李砍柴
      2026-05-13 19:16:14
      A股跌破4200點(diǎn),重要信號(hào)出現(xiàn)

      A股跌破4200點(diǎn),重要信號(hào)出現(xiàn)

      北京紅竹
      2026-05-14 12:10:08
      寶玉和誰有過肌膚之親?4個(gè)女人,2個(gè)千金小姐,2個(gè)漂亮丫頭

      寶玉和誰有過肌膚之親?4個(gè)女人,2個(gè)千金小姐,2個(gè)漂亮丫頭

      掠影后有感
      2026-05-13 11:17:09
      馬斯克表示:他絕對(duì)能建造出比中國(guó)任何公共交通系統(tǒng)都更好的系統(tǒng)

      馬斯克表示:他絕對(duì)能建造出比中國(guó)任何公共交通系統(tǒng)都更好的系統(tǒng)

      華史談
      2026-04-14 13:00:13
      全國(guó)物業(yè)費(fèi)收繳率多年下滑,多地倡議黨員先繳物業(yè)費(fèi)引爭(zhēng)議

      全國(guó)物業(yè)費(fèi)收繳率多年下滑,多地倡議黨員先繳物業(yè)費(fèi)引爭(zhēng)議

      南方都市報(bào)
      2026-05-14 11:15:55
      30℃北京再穿皮衣!黃仁勛不熱嗎?偏執(zhí)穿搭背后藏著大故事

      30℃北京再穿皮衣!黃仁勛不熱嗎?偏執(zhí)穿搭背后藏著大故事

      西樓知趣雜談
      2026-05-14 12:24:20
      赫魯曉夫政變?nèi)^程!朱可夫在會(huì)議中掏出手槍,當(dāng)眾把貝利亞扣押

      赫魯曉夫政變?nèi)^程!朱可夫在會(huì)議中掏出手槍,當(dāng)眾把貝利亞扣押

      云霄紀(jì)史觀
      2026-05-09 03:25:07
      動(dòng)真格了?國(guó)際足聯(lián)做出新決定,世界杯版權(quán)有轉(zhuǎn)機(jī),央視下定決心

      動(dòng)真格了?國(guó)際足聯(lián)做出新決定,世界杯版權(quán)有轉(zhuǎn)機(jī),央視下定決心

      攬星河的筆記
      2026-05-13 17:35:03
      博士肄業(yè)生把985院長(zhǎng)拉下馬:同濟(jì)剛免職,又有三所高校被爆造假

      博士肄業(yè)生把985院長(zhǎng)拉下馬:同濟(jì)剛免職,又有三所高校被爆造假

      妍妍教育日記
      2026-05-13 09:55:04
      為什么豬沒在進(jìn)化中滅絕?網(wǎng)友:六邊形戰(zhàn)士,幾乎沒有弱點(diǎn)

      為什么豬沒在進(jìn)化中滅絕?網(wǎng)友:六邊形戰(zhàn)士,幾乎沒有弱點(diǎn)

      夜深愛雜談
      2026-05-13 22:38:24
      被曝不續(xù)合約僅1天,白鹿昔日評(píng)價(jià)于正言論被扒,原來早有預(yù)兆

      被曝不續(xù)合約僅1天,白鹿昔日評(píng)價(jià)于正言論被扒,原來早有預(yù)兆

      曉岇就是我
      2026-05-14 09:42:11
      金曲獎(jiǎng)來了,看完提名名單,我要說:華語樂壇完了!

      金曲獎(jiǎng)來了,看完提名名單,我要說:華語樂壇完了!

      八卦南風(fēng)
      2026-05-13 18:27:59
      廣州毒保姆何天帶:一年殺8位老人,揚(yáng)言:老人活多久我說了算

      廣州毒保姆何天帶:一年殺8位老人,揚(yáng)言:老人活多久我說了算

      莫地方
      2026-05-14 01:05:05
      我媽罵了我爸30年,我爸退休后說了一句話,我媽瞬間懵了

      我媽罵了我爸30年,我爸退休后說了一句話,我媽瞬間懵了

      千秋文化
      2026-05-12 20:09:20
      中美元首會(huì)談結(jié)束

      中美元首會(huì)談結(jié)束

      澎湃新聞
      2026-05-14 14:11:04
      楊受成“霸占”容祖兒半生:不娶也不放,她到底圖什么?

      楊受成“霸占”容祖兒半生:不娶也不放,她到底圖什么?

      橙星文娛
      2026-05-12 15:17:44
      沒錯(cuò),我就是“基本盤”

      沒錯(cuò),我就是“基本盤”

      星空區(qū)塊鏈
      2026-05-13 13:12:12
      網(wǎng)友懷疑自助餐加了飽腹劑 記者調(diào)查揭開真相

      網(wǎng)友懷疑自助餐加了飽腹劑 記者調(diào)查揭開真相

      大唐
      2026-05-13 18:58:18
      編外人員“清退”開始,城管協(xié)管、輔警、護(hù)士教師都在其中

      編外人員“清退”開始,城管協(xié)管、輔警、護(hù)士教師都在其中

      巢客HOME
      2026-05-14 05:55:06
      2026-05-14 15:23:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8339文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說會(huì)談很順利 黃仁勛點(diǎn)贊 庫克比耶

      頭條要聞

      媒體:中美元首會(huì)晤 世界吃下一顆“定心丸”

      頭條要聞

      媒體:中美元首會(huì)晤 世界吃下一顆“定心丸”

      體育要聞

      登海報(bào)!哈登30+8+6創(chuàng)多項(xiàng)紀(jì)錄 第8次贏天王山

      娛樂要聞

      肖戰(zhàn)提名金海燕獎(jiǎng),這一步走得太穩(wěn)

      財(cái)經(jīng)要聞

      習(xí)近平同美國(guó)總統(tǒng)特朗普會(huì)談

      汽車要聞

      C級(jí)純電轎跑 吉利銀河"TT"申報(bào)圖來了

      態(tài)度原創(chuàng)

      家居
      親子
      本地
      藝術(shù)
      公開課

      家居要聞

      精神奢享 對(duì)話塔尖需求

      親子要聞

      爸爸在家給寶寶理發(fā),套上袋子的瞬間,我差點(diǎn)問候他祖宗!

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術(shù)要聞

      充滿光感的花卉油畫 | 亞歷山大·沙巴德伊

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 国产激情免费视频在线观看| 在线播放国产91精品| 精品国产品欧美日产在线| 天天综合色天天综合| 在线天堂www在线| 男人吃奶摸下挵进去好爽| 欧美丰满大乳大屁股流白浆| 久久99精品网久久| 97欧美精品系列一区二区| 亚洲无码网址| 日韩亚洲国产一区情侣| 亚洲成人性爱网| 国产成年女人特黄特色大片免费| 亚洲欧洲日韩国产综合在线二区 | 又黄又爽又色的少妇毛片| 日韩中文精品一二三区| 绥江县| 中文字幕人成无码免费视频| www.jizzjizzjizz| 天天操.com| 992tv国产精品福利在线| 日日插中文字幕| 亚洲最大天堂在线看视频| 夜夜爽日日澡人人添| 国产成人美女视频网站| 韩国精品福利视频一区二区| 无码人妻Aⅴ| 日韩在线欧美高清一区| 不卡的无码AV| 中文字幕46P| 开心婷婷五月激情综合社区| 久久精品国产亚洲av麻| 天天爽夜夜爽人人爽一区二区| 国产ChineseHD天美传媒| 76少妇精品导航久久久久| 国产午精品午夜福利757视频播放 国产午夜亚洲精品国产成人 | 国产综合精品一区二区三区| 波多野结衣一区二区| 自拍视频在线观看一区| 精品国产一区二区三区国产区| 国产久爱免费精品视频|