<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      邁向無縫共生:大模型GUI Agent的「屏幕圖靈測試」與擬人化之路

      0
      分享至

      一個只會高效執行任務的Agent,真的能在真實的人類數字生態中存活下來嗎?

      論文作者包括來自上海交通大學的 Jiachen Zhu、Congmin Zheng、Yong Yu、Lingyu Yang、Weinan Zhang、Rong Shan、Weiwen Liu、Jianghao Lin,以及來自卡內基梅隆大學的 Zeyu Zheng。

      原論文名稱:TURING TEST ON SCREEN: A BENCHMARK FOR MOBILE GUI AGENT HUMANIZATION


      https://huggingface.co/papers/2604.09574

      https://arxiv.org/abs/2604.09574

      多模態大模型(LMMs)的出現從根本上重塑了人機交互的格局。通過賦予系統感知視覺界面并執行復雜交互的能力,我們正在見證從靜態腳本向自動化圖形用戶界面(GUI)Agent的范式轉變。這些Agent能夠模擬用戶,在移動設備APP中執行任務,使人們有望將大量數字化任務交給AI來自動化完成。

      然而,隨著Agent能力的提升,我們是否思考過:一個只會高效執行任務的Agent,真的能在真實的人類數字生態中存活下來嗎?

      01


      不可調和的矛盾:

      GUI Agent面臨的生存挑戰

      論文指出,GUI Agent的廣泛部署促成了用戶與服務提供商之間的利益沖突,并可能引發自動化Agent與數字平臺之間的動態沖突。

      ?平臺APP的注意力經濟 vs Agent的效率至上:現代數字生態系統(如平臺APP)嚴重依賴注意力經濟,用戶參與度和廣告曝光是主要的收入驅動力。相比之下,GUI Agent通常針對效率和目標進行了優化,它們會繞過廣告內容并精簡交互路徑。這種行為對現有平臺的商業模式構成了生存威脅。

      ?平臺防御與用戶體驗風險:這種利益不匹配,迫使平臺部署防御措施。例如直接進行攔截、注入噪聲,或部署廣告陷阱。這些無差別的防御帶來了嚴重的用戶體驗風險,例如可能會誤傷真實用戶,讓真實用戶無法登錄,影響體驗。

      ?真實案:一個典型的例子是近期的Doubao移動助手事件。Agent嘗試自動化跨應用任務,觸發了超級平臺(如微信)的嚴格安全協議,導致了廣泛的賬號限制和服務封鎖。

      現有的研究大多聚焦于提升Agent的任務實用性和對抗細微擾動的魯棒性,但這種視角忽略了這個更為基礎的“檢測與反檢測”范式。 為了在這個生態中實現和諧共存,Agent必須超越單純的任務準確率與效率,具備反檢測能力,即“擬人化(Humanization)”。

      因此,這引出了一個順理成章的問題:

      當數字平臺開始防御自動化腳本時,大模型GUI Agent該如何證明自己“像個人類”?又該如何科學地評估其擬人化能力?


      圖1: GUI代理與移動平臺之間的對抗格局。

      圖示展示了三個關鍵階段:

      (1)主要沖突:對抗性利益促使平臺部署諸如登錄攔截和廣告陷阱等防御措施。

      (2)屏幕圖靈測試:核心檢測機制依賴于區分自然人類軌跡和代理軌跡。

      (3)代理人性化:我們提出了一種對抗式的擬人化任務,通過提高代理的擬人化程度來繞過檢測,同時保持任務準確性,從而將原始代理轉換為擬人化的代理。

      02


      評測框架:“屏幕圖靈測試”與 AHB 基準

      面對平臺可能會部署的Agent檢測器的嚴密防守,論文將經典的圖靈測試的概念延伸到了GUI環境,提出了“屏幕上的圖靈測試(Turing Test on Screen)”。

      這種交互被建模為一個 MinMax 優化問題:

      ?檢測器(平臺側)試圖最大化人類與Agent行為之間的區分度。

      ?GUI Agent(用戶側)試圖在不降低任務準確率的情況下最小化這種區分度。

      為了量化這一過程,研究團隊構建了包含豐富動作事件和傳感器事件序列的大規模數據集,并建立了Agent擬人化基準(AHB)。AHB在兩個核心維度上對Agent進行評估:

      1、擬真度(Imitability):衡量Agent與人類行為的相似度,通過檢測算法的分類準確率(ACC)來反向量化。如果檢測器的ACC接近0.5(即隨機猜測),則標志著Agent成功通過了測試。

      2、實用性(Utility):監控任務成功率,以確保擬人化策略(如加入噪聲、延遲)不會損害Agent的功能性。

      通過初步研究,論文揭示了原生(Vanilla)Agent極易被檢測出的致命弱點:

      ?軌跡呈完美的直線:Agent的軌跡通常是僵硬的線性矢量,缺乏人類手勢的生理弧度和運動噪聲。

      ?觸控時間近乎為零:人類的點擊由于皮膚彈性呈現高斯分布(0.05秒-0.10秒),而Agent的輸入則表現為接近零的脈沖,反映了瞬間的事件注入。

      ?異常的動作間隔:人類的動作間隔服從長尾分布且峰值在零附近,而Agent由于顯著的推理開銷(如mobile-agent-e長達50-80秒),產生了足以被可靠檢測的延遲。


      圖2: 人和代理的滑動軌跡區別


      圖3:人和代理的時間間隔以及按壓時間的區別

      03


      擬人化策略與效用的權衡

      (Pareto Frontier)

      針對原生 Agent 機械化特征導致的生存危機,本研究系統性地探討了從動作生成到執行的全鏈路擬人化方法。

      ?雙層架構設計:內部注入與外部包裝: 擬人化策略可分為兩種架構:一是“內部注入(Internal Injection)”,即直接對大模型進行微調,使其原生Agent具備人類行為先驗;二是“外部包裝(External Wrapper)”,即在 Agent 生成原始動作($a_{raw}$)后,通過后處理模塊將其轉化為擬人化序列($a_{human}$)再執行??紤]到對各個Agent模型的兼容性,本研究重點評估了四種外部包裝策略。

      ?多維度擬人化算子

      • 軌跡層(Swipe):針對線性滑動問題,引入了基于 B-spline 曲線的啟發式噪聲和基于真實人類數據的“歷史軌跡匹配(History Matching)”。后者通過旋轉、縮放等仿射變換,將人類真實的運動微震和速度曲線遷移至 Agent 動作中。

      • 時間層(Interval & Tap):利用偽動作注入(Fake Actions)掩蓋推理延遲,使 Agent 在閑置期執行微小的滾動或懸停,從而將交互節奏從離散的“脈沖式”拉回到連續的人類分布。同時,通過高斯采樣模擬人類皮膚彈性帶來的長按壓(Longer Presses)效果。

      ?擬真度與實用性的帕累托前沿(Pareto Frontier):研究發現,擬人化并非簡單的“模塊累加”,而是存在深刻的性能權衡。提高擬真度(Imitability)往往會以犧牲實用性(Utility)為代價。以“偽動作注入”為例,雖然它能將基于時間間隔的檢測準確率降低至接近隨機猜測的水平(~0.52),但盲目注入的無效動作極易觸發預期外的 UI 狀態變更,導致Agent的邏輯鏈斷裂。這種現象在復雜任務中尤為明顯,構成了 Agent 設計中必須優化的帕累托前沿。

      為了驗證擬人化策略的嚴謹性,論文在附錄 C 中提供了三大核心定理的數學證明:

      ?定理 1檢測器效能的上界: 證明了對于任何給定的 Agent 策略,檢測器的最大區分能力(分類損失)受到人類分布與 Agent 分布之間Jensen-Shannon (JS) 散度的嚴格限制。這意味著,降低檢測準確率的本質就是減小兩者在行為特征空間上的分布差異。


      ?定理 2:滑策略的有效性: 證明了引入隨機平滑內核(如 B-Spline 注入的方差)可以嚴格降低最大理論可檢測性(JS 散度)。這從數學上確認了即便簡單的啟發式噪聲也能起到一定的反檢測效果。


      ?定理 3:歷史匹配的漸進優越性: 證明了隨著樣本量的增加,歷史匹配(History Matching)策略能使 Agent 的行為特征分布收斂于真實的人類分布。該策略在理論上優于單純的方差注入,是實現高度擬人化的最優路徑。


      04


      實驗結果與行為特征分析

      本研究在由 21 款 App 構成的 AHB 基準上進行了深度評測,揭示了 GUI Agent 在真實對抗環境下的表現規律。


      ?原生 Agent 的透明性: 實驗證實,未經擬人化的原生 Agent 在物理交互層面幾乎是“透明”的。在提取的 24 維統計特征下,SVM 和 XGBoost 等分類器能夠以接近 1.0 的準確率瞬時識別出Agent行為。

      ?擬人化策略的實測效能

      • 歷史匹配(History Matching)的表現始終穩居首位,在顯著降低檢測準確率的同時,成功維持了較高的任務成功率。

      • 偽動作注入表現出極強的反檢測能力,在社交媒體集群中將檢測準確率降低至 0.52 附近。然而其副作用也最為明顯,在行程規劃任務中由于干擾了 UI 邏輯,使任務成功率從 0.75 暴跌至 0.15。

      ?特征擬人的難易分層

      • 最易擬人化的特征:路徑形狀特征(如最大偏離度 maxDev)。通過數學變換,這些指標的辨識度能迅速從 0.99 降至 0.55 左右的隨機水平。

      • 最具挑戰的瓶頸:端點精度(Endpoint Precision)。Agent 為了精準點擊 UI 控件中心,其落點散布極度集中,這與人類隨意的點擊習慣形成了鮮明對比,成為目前最難擬人化的機械印記之一。

      05


      結語

      《Turing Test on Screen》不僅僅是一個技術基準,它更是數字平臺與自主Agent之間長期演化軍備競賽的序曲。它促成了一種新的生存導向設計理念的轉變:從單一追求效果與效率,轉向任務準確率與行為擬人化的雙目標優化。

      正如論文總結,隨著“屏幕上的圖靈測試”成為數字化Agent的必然要求,展現類似人類的行為細微差別不再僅僅是美學特征,而是Agent生存的功能必然性。如果我們希望未來的Agent能夠在這個充滿對抗的數字世界中無縫共生,這項研究無疑為我們提供了關鍵的行動指南。

      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      曹操撩寡婦時說的金句,如今成了約會開場白,男人經常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      溫莎血脈基因優良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭光

      溫莎血脈基因優良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭光

      楓塵余往逝
      2026-05-13 14:45:33
      突發!南京又一機構跑路!

      突發!南京又一機構跑路!

      南京擇校
      2026-05-14 20:12:40
      合川呆呆再登熱搜!母親節殺雞宴翻車,網友:套路都被玩爛了

      合川呆呆再登熱搜!母親節殺雞宴翻車,網友:套路都被玩爛了

      童叔不飆車
      2026-05-14 14:29:11
      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      馬斯克:每年休息兩三天,試過睡不到6小時結果腦子很痛效率很低

      頂級大佬思維
      2026-05-09 14:23:20
      我國都有哪些常見毒蛇?哪種蛇最毒?盤點我國十大毒蛇,第一名致死率超65%

      我國都有哪些常見毒蛇?哪種蛇最毒?盤點我國十大毒蛇,第一名致死率超65%

      農夫也瘋狂
      2026-05-13 11:40:43
      千萬網紅董赤赤賬號僅剩9000元,欠54萬!更背后誰拿走了網紅的錢

      千萬網紅董赤赤賬號僅剩9000元,欠54萬!更背后誰拿走了網紅的錢

      眼界縱橫
      2026-05-14 14:50:49
      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      老吳教育課堂
      2026-05-14 17:43:56
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個重要承諾

      知法而形
      2026-05-14 20:05:30
      女足亞洲杯太殘酷了:隨著中國女足2-4,4大勁旅已無緣爭冠

      女足亞洲杯太殘酷了:隨著中國女足2-4,4大勁旅已無緣爭冠

      俯身沖頂
      2026-05-14 21:23:59
      廣廈半決賽主場vs深圳票價:最低100元,最高1500元

      廣廈半決賽主場vs深圳票價:最低100元,最高1500元

      懂球帝
      2026-05-14 15:16:18
      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      籃球教學論壇
      2026-05-14 19:27:46
      廣東松源一在建橋梁因暴雨垮塌?當地:無人員傷亡,水流沖擊所致,只是一個架子

      廣東松源一在建橋梁因暴雨垮塌?當地:無人員傷亡,水流沖擊所致,只是一個架子

      瀟湘晨報
      2026-05-14 17:12:18
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認知

      妍妍教育日記
      2026-05-14 13:30:26
      買車半年維修9次!蔚來車主:不敢開了,要求退車

      買車半年維修9次!蔚來車主:不敢開了,要求退車

      深圳晚報
      2026-05-14 08:45:16
      杜鋒下課?廣東男籃做法有深意,遠超外界猜測,徐杰或成交易籌碼

      杜鋒下課?廣東男籃做法有深意,遠超外界猜測,徐杰或成交易籌碼

      萌蘭聊個球
      2026-05-13 16:32:05
      很多男人已經養不起家了,無數普通頂梁柱被壓垮!

      很多男人已經養不起家了,無數普通頂梁柱被壓垮!

      黯泉
      2026-05-14 10:57:59
      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      爽快!中美會晤提出的第一個要求,中方開場白定調,太高明了

      愛看劇的阿峰
      2026-05-14 18:59:00
      隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

      隨著騎士3-2領先活塞,馬刺3-2森林狼,NBA季后賽最終4強基本出爐

      球場沒跑道
      2026-05-14 11:16:03
      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      美國眾議院議員強行將援助烏克蘭的法案賦予投票

      山河路口
      2026-05-14 12:33:23
      2026-05-14 22:03:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      教育
      旅游
      健康
      藝術
      時尚

      教育要聞

      南京秦淮、雨花臺、玄武、建鄴2026高考考點公布!

      旅游要聞

      長江三峽翠屏林立 呈現碧水青山詩意畫卷

      專家揭秘干細胞回輸的安全風險

      藝術要聞

      美國務卿魯比奧點贊中式美學,實景令人驚嘆!

      大熱天,闊腿褲配什么上衣更清涼?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: av偷拍亚洲一区二区三区| 国产精品视频亚洲二区| 久久―日本道色综合久久| 第四色五月婷婷综合| 精品一卡2卡三卡4卡免费网站 | 4hu44四虎www在线影院麻豆| 楚雄市| 性夜黄a爽影免费看| 丝袜美腿视频一区二区三区| 天天狠天天透天天伊人| 亚洲亚色中文字幕剧情| 亚洲中文久久久精品无码| 欧美精品福利| 日韩成人av电影| 正在播放国产精品国语对白| 国产免费午夜福利在线播放| 久久精品九九亚洲精品| 色偷偷88888欧美精品久久久| 免费三级网站| 高清无码爆乳潮喷在线观看| 日韩精品人妻中文字| 欧美啪啪视频| 国产免费高清69式视频在线观看| 国产?成人?无码| www.日| 无线亚洲成人| 无码中文字幕av免费放| 真人祼交二十三式视频| 中日韩欧美成人免费播放| 成人亚洲狠狠一二三四区| 男人亚洲天堂| yy19影院| 99亚洲乱人伦精品| 88国产精品视频一区二区三区| 国产suv精品一区二区四| 最近最新中文字幕高清免费| 男人添女人下面的视频| 亚洲久悠悠色悠在线播放| 久久婷婷激情| 亚洲综合图区| 亚洲一级毛片免费观看|