![]()
這項研究由中國科學院大學、中國科學院自動化研究所新型模式識別實驗室、多模態人工智能系統國家重點實驗室、香港科創研究院以及香港理工大學聯合開展,論文于2026年4月發表,論文編號為arXiv:2604.24441v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
**一、這件事為什么值得普通人關注**
你有沒有試過把一項繁瑣的電腦操作交給AI來完成?比如讓AI幫你整理表格、發送郵件、在網站上填寫表單?現在已經有不少這樣的"電腦使用助手"了,但它們其實遠沒有你以為的那么聰明。
大多數這類助手的工作方式,更像是一個會盲目跟隨導航的司機——只知道"下一步點哪里",卻完全不理解自己在哪條街上、為什么要在這個路口轉彎。換句話說,它們能執行簡單的點擊指令,卻根本不明白屏幕上那些按鈕、菜單、區域到底是干什么的。
這就帶來了一個根本性的問題:一個不理解屏幕含義的AI,在遇到稍微復雜一點的情況時就會徹底迷失——比如同一個圖標在不同軟件里代表完全不同的功能,或者一個看起來毫不起眼的灰色小圖標,點擊之后會觸發一系列操作。
這篇論文的核心任務,就是搞清楚當前最先進的AI視覺語言模型(也就是那種既能"看圖"又能"讀字"的AI)究竟有多懂電腦屏幕。為此,研究團隊構建了一套名為AutoGUI-v2的測試體系,包含2753道專門設計的題目,用來考察AI是否真正理解了界面功能,而不僅僅是認出了那個按鈕長什么樣子。
**二、AI看屏幕和人看屏幕有什么本質區別**
人類在使用電腦時積累了豐富的直覺。當你看到一個左上角帶有軟盤圖案的圖標,你幾乎不需要思考就知道那是"保存";當你看到一排顏色相似、形狀相近的按鈕排列在工具欄上,你能憑經驗猜出它們分別控制字體的粗細、對齊方式或者行間距。這種理解不是僅僅靠"認圖"得來的,而是因為你明白這些元素在整個軟件的操作流程中扮演什么角色,知道點擊之后會發生什么變化。
現有的AI測試題目,大多數問的是這樣的問題:"屏幕上有一個標著'All'文字的小標簽,請找出它在哪里。"或者:"這個按鈕叫做'打開搜索設置下拉菜單',請點擊它。"這兩類問題考察的其實是"認字認圖"的能力,只要AI能看清屏幕上的文字或圖形,通常都能答對。
AutoGUI-v2團隊提出的挑戰則完全不同。他們問的是:"如果你想同時搜索多個通訊錄,應該用屏幕上的哪個搜索區域?"或者:"點擊這個被紅框標出的元素,會發生什么?"這類問題沒有給出任何外觀描述線索,迫使AI必須真正理解每個區域在整個軟件流程中的功能定位,才能回答正確。
這是一個根本性的躍升——從"認出長什么樣"到"明白是干什么的"。
**三、研究團隊是怎么建立這套考卷的**
構建這樣一套測試題,本身就是一個工程難題。你需要收集大量真實的電腦界面截圖,然后對截圖中每一個功能區域進行精確標注,告訴機器這塊區域是干什么的,邊界在哪里,和旁邊那個看起來差不多的區域有什么功能上的區別。這項工作如果全靠人工,不僅費時費力,而且很難保持標注質量的一致性。
研究團隊采用了一種"AI初稿、人工精修"的流水線工作方式。他們先請當下能力極強的Gemini 2.5 Pro Thinking模型來充當"初審員",讓它自動分析截圖,把每張屏幕圖片切割成若干個有意義的功能區塊,就像把一張城市地圖分割成若干個行政區一樣。每個區塊都會被標注功能描述和邊界框。
但僅靠AI來劃定邊界是不夠精確的。模型標出的邊界框往往不夠緊湊,可能包含了多余的空白區域,或者把某個按鈕的邊緣截掉了一點點。為了解決這個問題,研究團隊開發了一套專用的網頁標注工具。標注員可以在瀏覽器里打開任意一張截圖,看到AI劃定的區域,然后用鼠標重新拖拽調整邊界,精確到每一個像素。這個工具還內置了一些輔助功能,比如按住鼠標不放時會自動"吸附"到附近的邊緣線上,大大降低了手工標注的誤差。
完成邊界修正之后,還要進行最后一步:由于人工調整了區域邊界,原來AI寫的功能描述可能已經對不上新的視覺內容了,所以需要再跑一輪AI來重新撰寫每個區域的功能說明,人工再做一遍質量審核,確保描述準確、具體、不含幻覺性的錯誤信息。
整個流水線一共處理了來自安卓、Windows、Linux、MacOS、網頁等六大平臺的截圖,最終產出了3710個有精確標注的功能區域,覆蓋了從移動端到專業桌面軟件的各種界面類型。
**四、題目是怎么設計的,為什么這么難**
AutoGUI-v2的核心設計思路,是讓所有題目都無法靠"認長相"來作弊。為此,研究團隊專門尋找那些"看起來極其相似但功能完全不同"的區域或按鈕,把它們配對成組,作為題目的迷惑選項。
以區域級別的題目為例:一張屏幕上可能同時存在幾條深色橫條——頂部是操作系統的系統欄,應用內部有菜單欄、工具欄、底部狀態欄,它們的外觀都差不多,都是深底色加淺色文字或圖標的橫向長條。但點擊系統欄會彈出系統設置,點擊菜單欄會展開文件/編輯/格式等菜單,點擊底部狀態欄則會顯示當前文檔的字數或光標位置。如果只靠外觀,這幾條橫條簡直一模一樣;但如果真正理解了每條橫條在軟件結構中的功能定位,才能正確區分它們。
題目分為兩大類型。第一類叫"功能定向定位",給AI一個任務描述,比如"如果想在多個通訊錄里同時搜索聯系人,應該用哪個搜索區域",讓AI找出正確區域的位置(用坐標表示)。第二類叫"功能預測描述",給AI圈出一個區域,問它點擊或操作這個區域之后會發生什么,并提供幾個選項,其中迷惑選項正是來自外觀相似的其他區域的功能描述。
元素級別的題目同理,但考察的是更細粒度的單個按鈕或圖標。有些題目還會加入具體的交互方式,比如"雙擊"、"長按"、"右鍵點擊"、"懸停不點擊",因為同一個元素在不同交互方式下可能觸發完全不同的結果。
數據集中的截圖分辨率也相當高,最高達到3840×2160,這對AI來說是額外的挑戰——它需要在高清大圖中找到可能只有幾十個像素寬的目標區域。
**五、考核結果:兩類AI在兩類題上交出了相反的成績單**
當研究團隊把這2753道題分別交給十幾款當下最先進的AI模型來作答時,一個耐人尋味的現象出現了。
先說"找到在哪里"這類題目。開源的專門訓練過界面操作任務的模型表現出人意料地好。比如Qwen3-VL-32B和GLM-4.5V,在區域定位任務上準確率分別達到了84.4%和84.6%,顯著領先于商業閉源模型。Gemini 2.5 Pro Thinking雖然是公認的頂級商業模型,區域定位準確率也只有77.6%,而GPT-5更是只有31.4%。這個落差說明,大量的界面操作數據微調,對于"找位置"這種需要精準坐標輸出的任務至關重要。
然而,翻到"說出功能是什么"這類題目,局面完全顛倒了。Gemini 2.5 Pro Thinking以86.2%的準確率拿下區域功能描述任務的榜首,GPT-5以88.1%略勝一籌,OpenAI的O3和Claude Sonnet 4.5也都在84%附近。開源的Qwen3-VL-32B則只有80.1%,而GLM-4.5V維持在86.8%尚在伯仲之間,但其余開源模型普遍不如商業模型。
這種"此消彼長"的現象,研究團隊稱之為"定位-理解分裂"。直白地說就是:專門訓練界面操作的開源模型學會了精準地"指哪打哪",但對功能語義的抽象理解能力相對有限;而商業大模型積累了海量的世界知識和語言理解能力,能更準確地描述一個界面元素"是干什么的",卻在精準坐標輸出上不如專項訓練的模型靈活。
在元素級別的考核中,這一分裂同樣清晰。Qwen3-VL-32B以71.1%的功能定位準確率排名第一,Gemini 2.5 Pro Thinking為67.7%;而在功能描述題上,Gemini 2.5 Pro Thinking以70.3%領先,Qwen3-VL-32B只有61.3%。
**六、哪類界面元素最難考,哪類最簡單**
研究團隊不僅看總分,還對不同類型的界面區域分別統計了準確率,得到了一些有趣的發現。
對于標準化程度高的區域,比如"主容器"(軟件主窗口)、"交互控件"(搜索框、篩選器、分頁器),幾乎所有模型的表現都相對較好。這并不難理解,因為這些元素在無數軟件中反復出現,格式高度統一,AI見過太多例子,自然能認出來。
而"其他類型"(研究中標注為Others)則是整體失分最慘的區域,這類區域包括顏色選擇器、品牌Logo、手機主屏幕的特殊布局等非常規界面元素。幾乎所有模型在這類區域上的準確率都比最好的類別低5%以上,說明模型對于這些不常見的界面組件缺乏足夠的認知基礎。
在不同交互方式上,難度差異更加戲劇性。"長按"和"輸入文字"這兩類交互,因為視覺反饋很明顯(長按通常彈出菜單,輸入文字會直接改變內容),模型準確率較高。而"右鍵點擊"幾乎讓所有商業模型集體折戟——O3、GPT-5、Claude Sonnet 4.5在右鍵點擊相關題目上的準確率幾乎為零。"懸停"(把鼠標放在元素上但不點擊)也是普遍的弱點,因為懸停觸發的往往是一個只在屏幕上短暫出現的提示氣泡,這種細微的交互結果讓模型很難預判。
**七、"迷惑選項"揭示的深層問題**
研究團隊在題目設計上做了一個精心的區分:每道功能描述題不僅有迷惑選項,還對迷惑選項的"迷惑程度"做了分級。"困難"迷惑選項來自外觀相似的鄰近功能區域,和正確答案只有一步之遙;"簡單"迷惑選項則是隨機抽取的毫無關聯的功能描述,和正確答案幾乎沒有混淆的可能。
如果模型真正理解了功能,遇到困難迷惑選項時的錯誤率應該和遇到簡單迷惑選項時相差不多。但實際數據顯示,幾乎所有模型在困難迷惑選項上的錯誤率都顯著高于簡單迷惑選項。GPT-5在區域功能描述題上,簡單選項錯誤率只有2.8%,困難選項錯誤率上升到9.1%;Claude Sonnet 4.5簡單錯誤率5.4%,困難錯誤率10.6%。
這個規律說明,模型并非在隨機犯錯,而是確確實實地被"長得像但功能不同"的選項迷惑了。它們的判斷依賴于表面的視覺特征匹配,而非對功能語義的深層理解——正是研究團隊最想暴露出來的核心缺陷。
**八、Gemini是怎么失手的,案例分析**
研究團隊對Gemini 2.5 Pro Thinking的答錯案例進行了詳細分析,發現了兩種清晰的失敗模式。
在定位類題目上,Gemini通常能在推理過程中正確識別出目標元素是哪個,但輸出的坐標框往往不夠精準——要么框太松,包含了大量無關區域;要么框的位置整體偏移了,框住了錯誤的角落。這反映出商業模型雖然有語義理解能力,但在精確坐標回歸這個純數值計算任務上存在明顯短板。
在功能描述類題目上,Gemini的失誤集中在兩類場景。第一類是"系統層次混淆":屏幕上同時有操作系統級別的頂部狀態欄和軟件應用自己的標題欄,Gemini容易把兩者搞混。一道題里,一個LibreOffice Writer窗口的標題欄被紅框標出,Gemini推斷那是軟件的"主工具欄"而非"窗口標題欄",因為它在推理時更多關注了視覺上占據屏幕顯眼位置的特征,而沒有準確判斷該區域在窗口管理層級中的實際角色。第二類是"狀態推斷失敗":比如一個可折疊的文件夾圖標,Gemini無法準確預判點擊后哪個具體的子目錄會展開或收起,因為這需要結合當前界面的狀態信息來判斷,不能僅靠靜態圖像推斷。
此外,在元素定位題目中,Gemini的推理文本往往會進行冗長的坐標計算,試圖用語言推算"工具欄大概從哪個像素開始、第幾個圖標大概在什么位置",但這種基于估算的坐標推導往往錯誤百出。
**九、周圍越熱鬧,反而越容易找對——密度效應的意外發現**
研究團隊還引入了一個新穎的評估維度,叫做"歸一化干擾密度"(NID),用來衡量目標元素周圍有多少其他元素"擠"在附近。按照密度高低,所有題目被分成稀疏、中等、密集三組。
直覺上你可能會認為,周圍元素越密集,越容易搞混,答題越難。但實際數據呈現出來的規律恰恰相反——對于大多數模型來說,密集環境下的定位準確率反而更高。
研究團隊給出的解釋是:當一個元素周圍有很多其他元素時,這個元素處于一個豐富的上下文環境中,這些周圍的鄰居本身就提供了大量線索,幫助AI判斷"這一塊區域是什么功能區"。相反,一個孤零零出現在屏幕邊角、周圍什么都沒有的孤立元素,反而讓AI無法借助上下文來推斷它的功能定位,只能靠那個孤立的視覺外觀來猜測,反而更容易出錯。
當然,不同類型的模型在這方面的偏好并不完全一致。商業大模型(如O3、GPT-5)和專門的界面定位模型(如OS-Atlas)普遍在密集環境下表現更好;而通用型開源模型(如Step-3、GLM-4.5V)則反過來,在稀疏環境下表現更好,可能是因為它們更依賴對單一視覺特征的直接匹配,密集環境下反而形成干擾。
**十、這項研究對未來意味著什么**
說到底,AutoGUI-v2揭示的并不只是一組數字上的得分,而是當前AI界面理解能力的一張清晰的X光片。
這張X光片顯示:AI已經在認識屏幕上的元素方面取得了相當不錯的成績,但對界面功能的深層理解——尤其是不常見的控件、復雜的交互方式、需要結合上下文狀態才能判斷結果的操作——依然是巨大的短板。這意味著,如果你今天把一項復雜的軟件操作任務交給AI來完成,遇到非標準界面或者需要右鍵菜單、懸停提示之類的精細操作時,它大概率還是會出錯。
從更長遠的視角看,這項研究提出了一個重要的問題:要讓AI真正成為可靠的"數字操作員",僅僅依靠大量的操作數據訓練是不夠的。模型需要建立起對界面結構的層次化理解,知道哪些元素屬于操作系統層、哪些屬于應用層、哪些是當前對話框的臨時狀態,并且能夠預判交互會如何改變軟件的狀態——就像一個有經驗的用戶那樣,在看到一個界面的第一眼,就能憑直覺推斷出大部分控件的功能和后果。
這項研究發布了完整的測試數據集和代碼,地址在論文列出的GitHub倉庫中,為后續研究者提供了一個標準化的評測平臺,任何新的AI界面理解模型都可以拿來測試,看看自己的"屏幕理解力"達到了什么水平。
歸根結底,這項研究告訴我們一件聽起來簡單但意義深遠的事:讓AI看懂屏幕,和讓AI真正理解屏幕,是截然不同的兩件事。前者我們已經做得不錯了,后者我們才剛剛開始。
Q&A
Q1:AutoGUI-v2測試的是什么能力,普通的AI視覺理解測試有什么不同?
A:AutoGUI-v2專門測試AI對圖形界面功能的理解能力,不只是讓AI找出某個按鈕"長什么樣子"或"叫什么名字",而是要求AI回答"這個區域是干什么的"以及"操作它之后會發生什么"。普通的界面理解測試通常只考察能否根據外觀描述定位元素,而AutoGUI-v2故意把外觀相似但功能不同的元素配成迷惑組,強迫AI必須真正理解功能語義才能答對。這使得AutoGUI-v2比現有測試難度大得多,也更接近AI在實際操作任務中面對的真實挑戰。
Q2:為什么開源模型在找位置上比GPT-5等商業模型還厲害?
A:因為Qwen3-VL、GLM-4.5V等開源模型經過了大量專門的圖形界面操作數據微調訓練,學會了如何精確輸出坐標框來定位屏幕上的特定區域。這種專項訓練賦予了它們在坐標回歸任務上的優勢。而GPT-5、Gemini等商業模型的訓練更側重于通用語言理解和知識積累,沒有專門針對界面坐標輸出做優化,所以在"找到具體位置"這件事上反而不如專項訓練的開源模型精準。不過商業模型在"描述功能是什么"上更勝一籌,兩類模型各有所長。
Q3:AutoGUI-v2發現所有AI對哪類界面操作最沒把握?
A:右鍵點擊和懸停(鼠標放上去但不點擊)是幾乎所有模型的共同弱點。對于右鍵點擊,O3、GPT-5、Claude等主流商業模型的準確率接近于零,因為右鍵菜單的內容高度依賴上下文,難以從靜態截圖推判。懸停觸發的通常是短暫出現的提示氣泡,視覺信號微弱,模型也難以準確預測。非標準界面元素如顏色選擇器、品牌Logo等也是普遍失分點,說明模型對不常見界面組件的認知儲備嚴重不足。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.