網易首頁 > 網易號 > 正文申請入駐

中科院與香港理工突破：AI實現電腦屏幕軟件意圖理解能力提升

2026-05-06 20:14:46　來源: 科技行者

天津舉報

分享至

這項研究由中國科學院大學、中國科學院自動化研究所新型模式識別實驗室、多模態人工智能系統國家重點實驗室、香港科創研究院以及香港理工大學聯合開展，論文于2026年4月發表，論文編號為arXiv:2604.24441v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

**一、這件事為什么值得普通人關注**

你有沒有試過把一項繁瑣的電腦操作交給AI來完成？比如讓AI幫你整理表格、發送郵件、在網站上填寫表單？現在已經有不少這樣的"電腦使用助手"了，但它們其實遠沒有你以為的那么聰明。

大多數這類助手的工作方式，更像是一個會盲目跟隨導航的司機——只知道"下一步點哪里"，卻完全不理解自己在哪條街上、為什么要在這個路口轉彎。換句話說，它們能執行簡單的點擊指令，卻根本不明白屏幕上那些按鈕、菜單、區域到底是干什么的。

這就帶來了一個根本性的問題：一個不理解屏幕含義的AI，在遇到稍微復雜一點的情況時就會徹底迷失——比如同一個圖標在不同軟件里代表完全不同的功能，或者一個看起來毫不起眼的灰色小圖標，點擊之后會觸發一系列操作。

這篇論文的核心任務，就是搞清楚當前最先進的AI視覺語言模型（也就是那種既能"看圖"又能"讀字"的AI）究竟有多懂電腦屏幕。為此，研究團隊構建了一套名為AutoGUI-v2的測試體系，包含2753道專門設計的題目，用來考察AI是否真正理解了界面功能，而不僅僅是認出了那個按鈕長什么樣子。

**二、AI看屏幕和人看屏幕有什么本質區別**

人類在使用電腦時積累了豐富的直覺。當你看到一個左上角帶有軟盤圖案的圖標，你幾乎不需要思考就知道那是"保存"；當你看到一排顏色相似、形狀相近的按鈕排列在工具欄上，你能憑經驗猜出它們分別控制字體的粗細、對齊方式或者行間距。這種理解不是僅僅靠"認圖"得來的，而是因為你明白這些元素在整個軟件的操作流程中扮演什么角色，知道點擊之后會發生什么變化。

現有的AI測試題目，大多數問的是這樣的問題："屏幕上有一個標著'All'文字的小標簽，請找出它在哪里。"或者："這個按鈕叫做'打開搜索設置下拉菜單'，請點擊它。"這兩類問題考察的其實是"認字認圖"的能力，只要AI能看清屏幕上的文字或圖形，通常都能答對。

AutoGUI-v2團隊提出的挑戰則完全不同。他們問的是："如果你想同時搜索多個通訊錄，應該用屏幕上的哪個搜索區域？"或者："點擊這個被紅框標出的元素，會發生什么？"這類問題沒有給出任何外觀描述線索，迫使AI必須真正理解每個區域在整個軟件流程中的功能定位，才能回答正確。

這是一個根本性的躍升——從"認出長什么樣"到"明白是干什么的"。

**三、研究團隊是怎么建立這套考卷的**

構建這樣一套測試題，本身就是一個工程難題。你需要收集大量真實的電腦界面截圖，然后對截圖中每一個功能區域進行精確標注，告訴機器這塊區域是干什么的，邊界在哪里，和旁邊那個看起來差不多的區域有什么功能上的區別。這項工作如果全靠人工，不僅費時費力，而且很難保持標注質量的一致性。

研究團隊采用了一種"AI初稿、人工精修"的流水線工作方式。他們先請當下能力極強的Gemini 2.5 Pro Thinking模型來充當"初審員"，讓它自動分析截圖，把每張屏幕圖片切割成若干個有意義的功能區塊，就像把一張城市地圖分割成若干個行政區一樣。每個區塊都會被標注功能描述和邊界框。

但僅靠AI來劃定邊界是不夠精確的。模型標出的邊界框往往不夠緊湊，可能包含了多余的空白區域，或者把某個按鈕的邊緣截掉了一點點。為了解決這個問題，研究團隊開發了一套專用的網頁標注工具。標注員可以在瀏覽器里打開任意一張截圖，看到AI劃定的區域，然后用鼠標重新拖拽調整邊界，精確到每一個像素。這個工具還內置了一些輔助功能，比如按住鼠標不放時會自動"吸附"到附近的邊緣線上，大大降低了手工標注的誤差。

完成邊界修正之后，還要進行最后一步：由于人工調整了區域邊界，原來AI寫的功能描述可能已經對不上新的視覺內容了，所以需要再跑一輪AI來重新撰寫每個區域的功能說明，人工再做一遍質量審核，確保描述準確、具體、不含幻覺性的錯誤信息。

整個流水線一共處理了來自安卓、Windows、Linux、MacOS、網頁等六大平臺的截圖，最終產出了3710個有精確標注的功能區域，覆蓋了從移動端到專業桌面軟件的各種界面類型。

**四、題目是怎么設計的，為什么這么難**

AutoGUI-v2的核心設計思路，是讓所有題目都無法靠"認長相"來作弊。為此，研究團隊專門尋找那些"看起來極其相似但功能完全不同"的區域或按鈕，把它們配對成組，作為題目的迷惑選項。

以區域級別的題目為例：一張屏幕上可能同時存在幾條深色橫條——頂部是操作系統的系統欄，應用內部有菜單欄、工具欄、底部狀態欄，它們的外觀都差不多，都是深底色加淺色文字或圖標的橫向長條。但點擊系統欄會彈出系統設置，點擊菜單欄會展開文件/編輯/格式等菜單，點擊底部狀態欄則會顯示當前文檔的字數或光標位置。如果只靠外觀，這幾條橫條簡直一模一樣；但如果真正理解了每條橫條在軟件結構中的功能定位，才能正確區分它們。

題目分為兩大類型。第一類叫"功能定向定位"，給AI一個任務描述，比如"如果想在多個通訊錄里同時搜索聯系人，應該用哪個搜索區域"，讓AI找出正確區域的位置（用坐標表示）。第二類叫"功能預測描述"，給AI圈出一個區域，問它點擊或操作這個區域之后會發生什么，并提供幾個選項，其中迷惑選項正是來自外觀相似的其他區域的功能描述。

元素級別的題目同理，但考察的是更細粒度的單個按鈕或圖標。有些題目還會加入具體的交互方式，比如"雙擊"、"長按"、"右鍵點擊"、"懸停不點擊"，因為同一個元素在不同交互方式下可能觸發完全不同的結果。

數據集中的截圖分辨率也相當高，最高達到3840×2160，這對AI來說是額外的挑戰——它需要在高清大圖中找到可能只有幾十個像素寬的目標區域。

**五、考核結果：兩類AI在兩類題上交出了相反的成績單**

當研究團隊把這2753道題分別交給十幾款當下最先進的AI模型來作答時，一個耐人尋味的現象出現了。

先說"找到在哪里"這類題目。開源的專門訓練過界面操作任務的模型表現出人意料地好。比如Qwen3-VL-32B和GLM-4.5V，在區域定位任務上準確率分別達到了84.4%和84.6%，顯著領先于商業閉源模型。Gemini 2.5 Pro Thinking雖然是公認的頂級商業模型，區域定位準確率也只有77.6%，而GPT-5更是只有31.4%。這個落差說明，大量的界面操作數據微調，對于"找位置"這種需要精準坐標輸出的任務至關重要。

然而，翻到"說出功能是什么"這類題目，局面完全顛倒了。Gemini 2.5 Pro Thinking以86.2%的準確率拿下區域功能描述任務的榜首，GPT-5以88.1%略勝一籌，OpenAI的O3和Claude Sonnet 4.5也都在84%附近。開源的Qwen3-VL-32B則只有80.1%，而GLM-4.5V維持在86.8%尚在伯仲之間，但其余開源模型普遍不如商業模型。

這種"此消彼長"的現象，研究團隊稱之為"定位-理解分裂"。直白地說就是：專門訓練界面操作的開源模型學會了精準地"指哪打哪"，但對功能語義的抽象理解能力相對有限；而商業大模型積累了海量的世界知識和語言理解能力，能更準確地描述一個界面元素"是干什么的"，卻在精準坐標輸出上不如專項訓練的模型靈活。

在元素級別的考核中，這一分裂同樣清晰。Qwen3-VL-32B以71.1%的功能定位準確率排名第一，Gemini 2.5 Pro Thinking為67.7%；而在功能描述題上，Gemini 2.5 Pro Thinking以70.3%領先，Qwen3-VL-32B只有61.3%。

**六、哪類界面元素最難考，哪類最簡單**

研究團隊不僅看總分，還對不同類型的界面區域分別統計了準確率，得到了一些有趣的發現。

對于標準化程度高的區域，比如"主容器"（軟件主窗口）、"交互控件"（搜索框、篩選器、分頁器），幾乎所有模型的表現都相對較好。這并不難理解，因為這些元素在無數軟件中反復出現，格式高度統一，AI見過太多例子，自然能認出來。

而"其他類型"（研究中標注為Others）則是整體失分最慘的區域，這類區域包括顏色選擇器、品牌Logo、手機主屏幕的特殊布局等非常規界面元素。幾乎所有模型在這類區域上的準確率都比最好的類別低5%以上，說明模型對于這些不常見的界面組件缺乏足夠的認知基礎。

在不同交互方式上，難度差異更加戲劇性。"長按"和"輸入文字"這兩類交互，因為視覺反饋很明顯（長按通常彈出菜單，輸入文字會直接改變內容），模型準確率較高。而"右鍵點擊"幾乎讓所有商業模型集體折戟——O3、GPT-5、Claude Sonnet 4.5在右鍵點擊相關題目上的準確率幾乎為零。"懸停"（把鼠標放在元素上但不點擊）也是普遍的弱點，因為懸停觸發的往往是一個只在屏幕上短暫出現的提示氣泡，這種細微的交互結果讓模型很難預判。

**七、"迷惑選項"揭示的深層問題**

研究團隊在題目設計上做了一個精心的區分：每道功能描述題不僅有迷惑選項，還對迷惑選項的"迷惑程度"做了分級。"困難"迷惑選項來自外觀相似的鄰近功能區域，和正確答案只有一步之遙；"簡單"迷惑選項則是隨機抽取的毫無關聯的功能描述，和正確答案幾乎沒有混淆的可能。

如果模型真正理解了功能，遇到困難迷惑選項時的錯誤率應該和遇到簡單迷惑選項時相差不多。但實際數據顯示，幾乎所有模型在困難迷惑選項上的錯誤率都顯著高于簡單迷惑選項。GPT-5在區域功能描述題上，簡單選項錯誤率只有2.8%，困難選項錯誤率上升到9.1%；Claude Sonnet 4.5簡單錯誤率5.4%，困難錯誤率10.6%。

這個規律說明，模型并非在隨機犯錯，而是確確實實地被"長得像但功能不同"的選項迷惑了。它們的判斷依賴于表面的視覺特征匹配，而非對功能語義的深層理解——正是研究團隊最想暴露出來的核心缺陷。

**八、Gemini是怎么失手的，案例分析**

研究團隊對Gemini 2.5 Pro Thinking的答錯案例進行了詳細分析，發現了兩種清晰的失敗模式。

在定位類題目上，Gemini通常能在推理過程中正確識別出目標元素是哪個，但輸出的坐標框往往不夠精準——要么框太松，包含了大量無關區域；要么框的位置整體偏移了，框住了錯誤的角落。這反映出商業模型雖然有語義理解能力，但在精確坐標回歸這個純數值計算任務上存在明顯短板。

在功能描述類題目上，Gemini的失誤集中在兩類場景。第一類是"系統層次混淆"：屏幕上同時有操作系統級別的頂部狀態欄和軟件應用自己的標題欄，Gemini容易把兩者搞混。一道題里，一個LibreOffice Writer窗口的標題欄被紅框標出，Gemini推斷那是軟件的"主工具欄"而非"窗口標題欄"，因為它在推理時更多關注了視覺上占據屏幕顯眼位置的特征，而沒有準確判斷該區域在窗口管理層級中的實際角色。第二類是"狀態推斷失敗"：比如一個可折疊的文件夾圖標，Gemini無法準確預判點擊后哪個具體的子目錄會展開或收起，因為這需要結合當前界面的狀態信息來判斷，不能僅靠靜態圖像推斷。

此外，在元素定位題目中，Gemini的推理文本往往會進行冗長的坐標計算，試圖用語言推算"工具欄大概從哪個像素開始、第幾個圖標大概在什么位置"，但這種基于估算的坐標推導往往錯誤百出。

**九、周圍越熱鬧，反而越容易找對——密度效應的意外發現**

研究團隊還引入了一個新穎的評估維度，叫做"歸一化干擾密度"（NID），用來衡量目標元素周圍有多少其他元素"擠"在附近。按照密度高低，所有題目被分成稀疏、中等、密集三組。

直覺上你可能會認為，周圍元素越密集，越容易搞混，答題越難。但實際數據呈現出來的規律恰恰相反——對于大多數模型來說，密集環境下的定位準確率反而更高。

研究團隊給出的解釋是：當一個元素周圍有很多其他元素時，這個元素處于一個豐富的上下文環境中，這些周圍的鄰居本身就提供了大量線索，幫助AI判斷"這一塊區域是什么功能區"。相反，一個孤零零出現在屏幕邊角、周圍什么都沒有的孤立元素，反而讓AI無法借助上下文來推斷它的功能定位，只能靠那個孤立的視覺外觀來猜測，反而更容易出錯。

當然，不同類型的模型在這方面的偏好并不完全一致。商業大模型（如O3、GPT-5）和專門的界面定位模型（如OS-Atlas）普遍在密集環境下表現更好；而通用型開源模型（如Step-3、GLM-4.5V）則反過來，在稀疏環境下表現更好，可能是因為它們更依賴對單一視覺特征的直接匹配，密集環境下反而形成干擾。

**十、這項研究對未來意味著什么**

說到底，AutoGUI-v2揭示的并不只是一組數字上的得分，而是當前AI界面理解能力的一張清晰的X光片。

這張X光片顯示：AI已經在認識屏幕上的元素方面取得了相當不錯的成績，但對界面功能的深層理解——尤其是不常見的控件、復雜的交互方式、需要結合上下文狀態才能判斷結果的操作——依然是巨大的短板。這意味著，如果你今天把一項復雜的軟件操作任務交給AI來完成，遇到非標準界面或者需要右鍵菜單、懸停提示之類的精細操作時，它大概率還是會出錯。

從更長遠的視角看，這項研究提出了一個重要的問題：要讓AI真正成為可靠的"數字操作員"，僅僅依靠大量的操作數據訓練是不夠的。模型需要建立起對界面結構的層次化理解，知道哪些元素屬于操作系統層、哪些屬于應用層、哪些是當前對話框的臨時狀態，并且能夠預判交互會如何改變軟件的狀態——就像一個有經驗的用戶那樣，在看到一個界面的第一眼，就能憑直覺推斷出大部分控件的功能和后果。

這項研究發布了完整的測試數據集和代碼，地址在論文列出的GitHub倉庫中，為后續研究者提供了一個標準化的評測平臺，任何新的AI界面理解模型都可以拿來測試，看看自己的"屏幕理解力"達到了什么水平。

歸根結底，這項研究告訴我們一件聽起來簡單但意義深遠的事：讓AI看懂屏幕，和讓AI真正理解屏幕，是截然不同的兩件事。前者我們已經做得不錯了，后者我們才剛剛開始。

Q&A

Q1：AutoGUI-v2測試的是什么能力，普通的AI視覺理解測試有什么不同？

A：AutoGUI-v2專門測試AI對圖形界面功能的理解能力，不只是讓AI找出某個按鈕"長什么樣子"或"叫什么名字"，而是要求AI回答"這個區域是干什么的"以及"操作它之后會發生什么"。普通的界面理解測試通常只考察能否根據外觀描述定位元素，而AutoGUI-v2故意把外觀相似但功能不同的元素配成迷惑組，強迫AI必須真正理解功能語義才能答對。這使得AutoGUI-v2比現有測試難度大得多，也更接近AI在實際操作任務中面對的真實挑戰。

Q2：為什么開源模型在找位置上比GPT-5等商業模型還厲害？

A：因為Qwen3-VL、GLM-4.5V等開源模型經過了大量專門的圖形界面操作數據微調訓練，學會了如何精確輸出坐標框來定位屏幕上的特定區域。這種專項訓練賦予了它們在坐標回歸任務上的優勢。而GPT-5、Gemini等商業模型的訓練更側重于通用語言理解和知識積累，沒有專門針對界面坐標輸出做優化，所以在"找到具體位置"這件事上反而不如專項訓練的開源模型精準。不過商業模型在"描述功能是什么"上更勝一籌，兩類模型各有所長。

Q3：AutoGUI-v2發現所有AI對哪類界面操作最沒把握？

A：右鍵點擊和懸停（鼠標放上去但不點擊）是幾乎所有模型的共同弱點。對于右鍵點擊，O3、GPT-5、Claude等主流商業模型的準確率接近于零，因為右鍵菜單的內容高度依賴上下文，難以從靜態截圖推判。懸停觸發的通常是短暫出現的提示氣泡，視覺信號微弱，模型也難以準確預測。非標準界面元素如顏色選擇器、品牌Logo等也是普遍失分點，說明模型對不常見界面組件的認知儲備嚴重不足。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.