<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI手機時代需要怎樣的Agent Harness?

      0
      分享至



      過去一年,AI 與手機的關系正在被重新定義:OpenAI AI Phone / AI Agent Phone 把「AI 原生手機」推到臺前,Gemini on Android 也在把系統級助手從問答帶向跨 App、多步驟任務協助。

      這些信號指向同一個趨勢:AI 不再只是聊天框里的回答者,而是正在進入手機這個最日常、最復雜、也最具狀態性的計算環境。

      騰訊混元牽頭,聯合 The Chinese University of Hong Kong、The Chinese University of Hong Kong, Shenzhen、Tsinghua University等機構的最新研究 PhoneHarness:A Mixed-Action Orchestration Harness and Benchmark for Phone Agents across CLI, GUI, and MCP Tools 關注一個更基礎的問題:當 AI 真正在手機上行動,我們如何讓它真正完成任務,并驗證它確實完成了?

      作者團隊給出的結論是:

      • 手機 Agent 的核心不只是「更會點屏幕」,而是能根據任務選擇 CLI、GUI、MCP 工具等合適的行動面;
      • 真實手機 workflow 需要可驗證的副作用:文件是否生成、設置是否改變、郵件 / 日歷對象是否真的創建,都不能只靠模型口頭回答;
      • PhoneHarness 提供 mixed-action 執行 harness;PhoneHarness Bench 則用 trace、系統狀態、App 結果和安全策略評估任務是否真的完成。



      • 論文地址:https://phoneharness.github.io/assets/paper.pdf
      • 項目主頁:https://phoneharness.github.io/
      • GitHub:https://github.com/PhoneHarness/PhoneHarness
      • HuggingFace Dataset:https://huggingface.co/datasets/PhoneHarness/phoneharness-bench

      先看三個執行片段:手機 Agent 不只是點屏幕

      下面三個 demo 展示了 PhoneHarness 想表達的核心差異:真實手機任務往往不是一條更長的 GUI 點擊鏈,而是 CLI、GUI、MCP-style tools 與 verifier 共同組成的執行 workflow。

      Demo 1|CLI-first:先讀設備狀態,再決定是否進入 GUI



      視頻鏈接:https://mp.weixin.qq.com/s/I2ztL6sFiHGxAiCfh_FTqg

      Demo 2|Mixed workflow:MCP 檢索 + GUI 執行 + verifier 復核



      視頻鏈接:https://mp.weixin.qq.com/s/I2ztL6sFiHGxAiCfh_FTqg

      Demo 3|Virtual display:后臺 GUI 執行與過程留痕



      先把第一個問題說清楚:手機 Agent 真的「做了」嗎?

      在很多手機 Agent 評測里,任務被拆成一連串 GUI 操作。模型觀察屏幕,決定下一步點哪里、滑哪里、輸什么。如果最后 UI 狀態看起來對,就算任務完成。

      這套范式當然有價值。畢竟,手機確實是一個強 GUI 環境,真實 App 的搜索、瀏覽、點擊和輸入都需要視覺 grounding。

      但對于 AI 手機時代的 Agent 來說,只會 GUI 操作遠遠不夠。

      傳統 GUI-centric 視角:

      • 把手機任務看成 screenshot → tap /swipe/type;
      • 視覺感知幾乎是所有動作執行的前置操作;
      • 更適合單 App、強視覺、低副作用任務。

      PhoneHarness 的 mixed-action 視角:

      • 把手機任務看成跨 CLI、GUI、MCP 工具的完整 workflow;
      • 評估重點不是「看起來完成」,而是副作用是否真實發生、trace 是否可審計;
      • 更適合系統設置、文件、搜索、郵件、日歷和跨 App 任務。

      例如,「查一個 App 內的信息,再結合網頁搜索補充背景,并整理成郵件」這類任務,不是一個更長的點擊鏈。它同時包含 App 內 GUI 交互、外部信息檢索、文本處理、郵件副作用,以及最終結果驗證。

      如果評測只看最終回答,就會漏掉最關鍵的問題:模型到底有沒有查對來源、有沒有真的創建文件、有沒有真的發出郵件、有沒有繞過了應該被確認的高風險操作?

      核心判斷:PhoneHarness 的出發點很直接:手機 Agent 的評測不能只問「它會不會點屏幕」,而要問「它能不能在真實手機環境里把一件事做完,并留下可驗證證據」。

      PhoneHarness:讓手機 Agent 的行動空間不止 GUI

      PhoneHarness 的核心不是再造一個 GUI 點擊器,而是把手機任務放進一個混合動作空間里。

      關鍵區別:問題不是「純 GUI 理論上能不能做」,而是「純 GUI 是否是可靠、高效、可驗證的動作抽象」。真實手機 workflow 往往同時跨越系統狀態、App 界面、文件、網頁、郵件、日歷和安全邊界。GUI 是重要入口,但不應該是唯一入口。

      因此,mixed-action 不是給 GUI agent 加幾個外掛工具,而是讓 agent 在執行過程中為不同子目標選擇合適的 action surface:能用確定性命令讀取狀態,就不必反復點設置頁;必須進入 App 內完成交互時,才交給 GUI;需要外部信息、文件處理或結果復核時,則調用 host-side tools 或 verifier。



      為什么 mixed-action 比純 GUI 更穩



      PhoneHarness 架構圖:host-side orchestration 與 Android device-side execution 共同構成 mixed-action harness。

      在 PhoneHarness 中,agent 可以在三類行動面之間切換:CLI /device-side commands、GUI delegation、以及 MCP-style host tools。



      圖解:PhoneHarness 的三類行動面



      PhoneHarness 的 mixed action space:CLI、GUI 與 MCP-style tools 在同一個 phone-agent loop 中共存。

      這意味著,PhoneHarness 里的 agent 不必把所有任務都硬塞進 GUI 點擊鏈。它可以判斷:什么時候該走系統命令,什么時候該交給 GUI worker,什么時候該調用搜索、文檔、郵件、日歷等工具。

      這種設計更接近 AI 手機時代的真實需求。AI 手機不是「在手機里放一個聊天機器人」,而是讓智能體能在復雜手機環境里理解目標、選擇行動、執行任務,并產生可檢查的結果。

      PhoneHarness Bench:如何構建并驗證手機 workflow

      有了 mixed-action harness,還需要一個能真正檢驗執行結果的 benchmark。原因很簡單:對手機 Agent 來說,能行動不等于真的完成了任務。

      PhoneHarness Bench 建立在 PhoneHarness 之上,不把任務寫成抽象問答題,而是寫成一段可以執行、記錄和復核的 phone workflow。Agent 在執行過程中會留下截圖、CLI / MCP 操作、文件變化、系統狀態和 App 側結果;benchmark 再通過 task-specific verifier 判斷任務副作用是否真實發生。

      Bench 的關鍵:PhoneHarness Bench 不問「模型有沒有說自己做完」,而是看「任務證據鏈是否支持它真的做完」。這也是它區別于純問答式評測和純 GUI 狀態評測的關鍵。



      PhoneHarness Bench 如何驗證任務完成

      Bench 是怎么構建的?

      每個 PhoneHarness Bench task 都包含一個用戶目標、一組可調用行動面,以及一個面向副作用的 verifier。這樣,benchmark 評估的不是單步 GUI 操作,而是完整 workflow:任務輸入、agent loop、混合動作執行、trace 記錄、結果驗證和失敗歸因。



      PhoneHarness Bench 的任務分布:覆蓋 device/system、single-app GUI、tool-assisted workflow 與 cross-app workflow。

      為什么這能幫助分析失敗?

      這條鏈路讓失敗不再只是一個籠統的「沒做對」。我們可以進一步區分:是外層 controller 沒有規劃好,是 GUI worker 沒有點對,是工具調用失敗,是環境不穩定,還是 verifier 沒有看到預期副作用。



      代表性執行軌跡:截圖、CLI / MCP 操作卡片與 verifier 信號共同構成可審計證據鏈。

      實驗發現:收益來自 mixed-action routing,不是單純更會點屏幕

      在論文實驗中,我們沒有把 PhoneHarness 描述成一個「所有場景都更強」的 GUI agent。相反,實驗更清楚地顯示了它的邊界和價值。

      PhoneHarness 的收益主要來自那些存在確定性路徑、工具輔助路徑或可驗證副作用的任務。比如設備狀態查詢、文件處理、網頁檢索、日歷 / 郵件 / 文檔相關 workflow,以及需要跨行動面組合的手機任務。

      對于純 GUI-heavy 的任務,視覺 grounding、權限彈窗、登錄狀態、廣告、搜索結果不穩定等問題仍然會帶來挑戰。

      實驗解讀:這個結論反而更重要:手機智能體的未來不是「把 GUI 點擊模型做得更大」,而是要讓 agent 學會選擇合適的行動面,并讓每一步執行都能被驗證。



      mixed-action affordance 任務上的行動空間拆解。



      不同任務類型下的執行步數,輔助理解效率差異。

      當 AI 手機真正到來,我們會看到什么新瓶頸?

      OpenAI AI Phone 和 Gemini on Android 之所以值得關注,不只是因為「大廠要做 AI 手機」。更重要的是,它們共同指向了一個產品范式變化:手機正在從 App-centric device 走向 Agent-centric device。

      在 App-centric 時代,用戶自己負責拆解任務:打開哪個 App、點哪里、復制什么、搜什么、確認什么。

      在 Agent-centric 時代,用戶表達目標,agent 負責調度行動。



      AI 手機時代的新瓶頸

      PhoneHarness 的切入點正是在這里:AI 手機時代需要的不只是更強的模型,還需要能承載真實執行的 harness,以及能驗證執行結果的 benchmark。

      PhoneHarness 和 PhoneHarness Bench,到底推進了什么?



      PhoneHarness 與 PhoneHarness Bench 的分工

      這兩個產物是相互依賴的。

      沒有 harness,benchmark 很難覆蓋真實混合任務。沒有 benchmark,harness 的執行能力也很難被系統性評估。

      如果說過去手機 Agent 的競爭更像「誰更會看屏幕點按鈕」,那么 AI 手機時代真正重要的問題會變成:誰能把真實手機 workflow 做完,誰能留下可信證據,誰能在安全邊界內穩定執行。

      PhoneHarness 回答的是「怎么讓手機 Agent 真的行動」。PhoneHarness Bench 回答的是「怎么確認它真的做成」。

      AI 手機不是簡單地把大模型塞進系統。它意味著手機從 App-centric device 走向 Agent-centric device:用戶表達目標,agent 負責選擇路徑、調用工具、操作 App,并完成可驗證的結果。

      這背后的基礎設施問題,比「模型會不會點屏幕」更復雜,也更關鍵。

      PhoneHarness 和 PhoneHarness Bench 想推進的,正是這一層基礎設施:讓手機 Agent 的行動空間更接近真實世界,也讓評測更接近真實完成。

      一句話總結:AI 手機時代,關鍵問題不只是模型能不能理解屏幕,而是它能否在真實手機環境里選擇正確行動面、完成可驗證任務,并留下可審計的執行軌跡。

      作者信息

      共同一作:Jason、Zhengyao Fang、Zhengyang Tang、Pengyuan Lyu。

      完整作者:Jason, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu.

      機構:Tencent Hunyuan; The Chinese University of Hong Kong; The Chinese University of Hong Kong, Shenzhen; Tsinghua University.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      白玉蘭提名名單炸鍋:3人實至名歸,2人成功翻身,1人爭議最大

      白玉蘭提名名單炸鍋:3人實至名歸,2人成功翻身,1人爭議最大

      橙星文娛
      2026-05-27 09:46:15
      山西沁源礦難背后:淪為空文的141項煤礦安全標準,與“通風報信”式檢查

      山西沁源礦難背后:淪為空文的141項煤礦安全標準,與“通風報信”式檢查

      大風新聞
      2026-05-26 17:48:27
      向華強揭向太老底,做手術前將隱藏資產全都告知老公,事后又要回

      向華強揭向太老底,做手術前將隱藏資產全都告知老公,事后又要回

      嫹筆牂牂
      2026-05-27 07:45:08
      錢從哪里來?拆解追覓科技的資本謎局

      錢從哪里來?拆解追覓科技的資本謎局

      YOUNG財經
      2026-05-26 21:55:18
      這跟不穿有啥區別?戛納閉幕式,女星下垂、副乳突出,露的好辣眼

      這跟不穿有啥區別?戛納閉幕式,女星下垂、副乳突出,露的好辣眼

      天馬幸福的人生
      2026-05-26 11:05:02
      新出行幫你選 | 總有一個配置為你而來 華境 S 保姆級購車指南

      新出行幫你選 | 總有一個配置為你而來 華境 S 保姆級購車指南

      新出行
      2026-05-27 10:00:00
      “從6元跌到1元,還是賣不出”

      “從6元跌到1元,還是賣不出”

      南方都市報
      2026-05-26 22:17:30
      越扒越有,景甜又被曝猛料,富商要求2億和解費,張繼科太無辜

      越扒越有,景甜又被曝猛料,富商要求2億和解費,張繼科太無辜

      八斗小先生
      2026-05-26 11:25:19
      張雪:攝像師出去,就咱倆。臺灣館長:你這是要把我當自己人啊

      張雪:攝像師出去,就咱倆。臺灣館長:你這是要把我當自己人啊

      童叔不飆車
      2026-05-27 12:22:48
      航天員黎家盈年收入多少?回來后享受什么待遇?

      航天員黎家盈年收入多少?回來后享受什么待遇?

      混沌錄
      2026-05-26 22:05:52
      雷軍回應武契奇說小米車很漂亮但買不起:總統先生 YU7標準版定價23.35萬

      雷軍回應武契奇說小米車很漂亮但買不起:總統先生 YU7標準版定價23.35萬

      快科技
      2026-05-27 01:13:07
      雷霆3-2馬刺,一場丑陋的勝利!亞歷山大32+9,文班空砍20分6板

      雷霆3-2馬刺,一場丑陋的勝利!亞歷山大32+9,文班空砍20分6板

      籃球掃地僧
      2026-05-27 12:18:56
      神操作!印度近50℃高溫下電工給變壓器澆水降溫:半小時一次

      神操作!印度近50℃高溫下電工給變壓器澆水降溫:半小時一次

      快科技
      2026-05-26 19:36:07
      血債驚全球!47條人命炸穿底線!中方怒斥:這事沒完!

      血債驚全球!47條人命炸穿底線!中方怒斥:這事沒完!

      達文西看世界
      2026-05-26 15:42:43
      咱們的治安水平,在藍星上來說,其實是不正常的

      咱們的治安水平,在藍星上來說,其實是不正常的

      占理兒
      2026-05-25 20:10:03
      上海最燥拆遷大爺:夜夜笙歌女友不斷,70歲還一年下400次歌廳…

      上海最燥拆遷大爺:夜夜笙歌女友不斷,70歲還一年下400次歌廳…

      媒體人溪婉
      2026-05-27 12:25:28
      四年一到必須走人,這才是中國最“狠”的鐵飯碗

      四年一到必須走人,這才是中國最“狠”的鐵飯碗

      復轉這些年
      2026-05-26 19:09:41
      中國被曝限制AI人才出境,阿里DeepSeek核心人員出國要先獲批

      中國被曝限制AI人才出境,阿里DeepSeek核心人員出國要先獲批

      桂系007
      2026-05-26 23:43:08
      泳渡賽女選手隱私照被直播,當事人最新發聲:正處于哺乳期,很震驚

      泳渡賽女選手隱私照被直播,當事人最新發聲:正處于哺乳期,很震驚

      19樓
      2026-05-27 08:16:56
      當務之急不是撤離外交人員,而是通過外交制止俄方暴行

      當務之急不是撤離外交人員,而是通過外交制止俄方暴行

      李未熟擒話2
      2026-05-27 09:11:43
      2026-05-27 14:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13093文章數 142653關注度
      往期回顧 全部

      科技要聞

      韜定律:全球在卷納米數 華為換了一把尺子

      頭條要聞

      258畝薺菜地遭數百人哄搶造成損失約70萬 種植戶發聲

      頭條要聞

      258畝薺菜地遭數百人哄搶造成損失約70萬 種植戶發聲

      體育要聞

      這群老阿姨,是最硬核的馬刺球迷

      娛樂要聞

      小S曬歸寧宴舊照,大S穿吊帶裙扎丸子頭

      財經要聞

      ST巖石退市背后:A股“炒殼”時代終結

      汽車要聞

      極狐問道V9今日將正式上市 搭載華為雪鸮增程系統

      態度原創

      教育
      游戲
      手機
      藝術
      公開課

      教育要聞

      江西現代職業技術學院:值得填報嗎?熱門專業就業現狀及報考分析#搜索千校視頻計劃

      昂揚不滅!2026英雄聯盟手游超級聯賽夏季賽正式開賽

      手機要聞

      非洲Q1排名:傳音持續稱王,小米第三,榮耀第四

      藝術要聞

      這個夏天去蘇州過幾天清閑安逸的日子

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产裸体舞一区二区三区| 日韩偷拍五月| 亚洲一区视频| 超级香蕉97视频在线观看一区| 国产成人精品永久免费视频| 熟妇自拍| 国产丝袜一区二区三区在线不卡| 337p西西人体大胆瓣开下部| 综合欧美视频一区二区三区| 久久久久久国产精品美女| 91福利国产在线观看一区二区| 99久久婷婷国产综合精品青草漫画| 国产精品福利自产拍在线观看| 国产午夜福利视频在线观看| 99在线观看视频免费| 91中文字幕在线一区| 久章草这里只有精品| 热播自拍偷拍-高清自拍偷拍大全-免费自拍偷拍在线观看-第1页-乐园AV | 中文无码人妻| 久久亚洲午夜牛牛影视| 亚洲午夜天堂| 中文字幕国产精品自拍| 在线天堂资源www在线中文| 亚洲AV片不卡无码久久欣赏网| 最新成免费人久久精品| 婷婷丁香五月六月综合激情啪| 欧美日韩一线| 91福利国产在线观看网站| 性色欲情网站iwww| a级黑人大硬长爽猛出猛进| 亚洲精品一二三| 97视频免费在线观看| 亚洲aⅴ男人的天堂在线观看| 亚洲精品国产av成拍色拍个| 国产日韩成人内射视频| 久久久久无码精品国产AV| 美乳丰满人妻无码视频| 2020国产成人精品视频| 中文字幕无码AV激情不卡| 成人神马九九| 日本人成精品视频在线|