![]()
這篇研究由奧本大學(Auburn University)與弗吉尼亞大學(University of Virginia)的研究團隊聯合完成,于2026年4月發表在arXiv預印本平臺,論文編號為arXiv:2604.23772,歸屬于人機交互(cs.HC)研究方向。感興趣的讀者可以通過該編號檢索完整論文。
每天打開瀏覽器,人們面對的是一片信息的汪洋。你想在一篇長達幾萬字的維基百科文章里找一個具體答案,你想在一個陌生網站學會怎么改密碼,你想把那些讓你分心的廣告和煩人推送統統趕走——這些事情聽起來簡單,做起來卻讓人頭疼。更麻煩的是,當你把問題丟給AI助手時,它給你一個漂亮的回答,但你根本不知道這個答案是從哪里來的,更不知道該不該相信它。
這種困境催生了一個很自然的疑問:AI能不能像一個真正懂事的向導,不只是告訴你答案,還能直接在網頁上指給你看"就是這里"?研究團隊正是從這個出發點,開發出了一款名為**PageGuide**的瀏覽器插件。
一、三個讓人頭疼的老問題
先說說現有AI助手碰到的麻煩,這樣你才能感受到PageGuide究竟解決了什么。
假設你在看亞馬遜河的維基百科頁面,好奇地問AI:內華達米斯米山(Nevado Mismi)流出來的那條溪流叫什么名字?ChatGPT Atlas給了你一個完全正確的答案,但它只是把答案打在聊天框里,網頁上什么都沒有變化。你只能用眼睛在一大片密密麻麻的文字里慢慢找,試圖確認AI說的是不是真的——這就好比有人告訴你寶藏埋在森林里某處,卻不給你地圖,只告訴你坐標數字。
第二個場景是在TradingView圖表網站,你問AI怎么移動價格刻度,它告訴你要點擊齒輪圖標、進入設置、找到"Scales"選項卡……說得頭頭是道,但網頁上那個齒輪圖標在哪兒?AI沒有指出來,你只能自己瞪著屏幕到處找。
第三個場景更讓人無奈。你在瀏覽一個社交媒體上關于C羅(Ronaldo)的帖子,覺得那些負面評論影響心情,于是問Gemini Agent能不能幫你把那些內容藏起來。AI禮貌地告訴你,"我沒辦法直接在網頁上隱藏評論,但可以幫你分析……"——然后那些討厭的評論還是大剌剌地擺在屏幕上。
這三個場景揭示了現有AI工具的共同軟肋:回答和網頁是分離的。AI在聊天框里說話,網頁保持原樣,用戶被迫在兩者之間來回奔波驗證。研究團隊把這個問題定義為"輸出與頁面的脫節",而PageGuide的核心使命,就是把這條鴻溝填上。
二、PageGuide的核心思路:讓答案"長"在網頁上
研究團隊提出的解決思路,可以用一個直覺性的比喻來理解:把AI的答案從聊天框里搬到網頁本身上,像在書上用熒光筆劃重點一樣,直接把證據標注在原文里。
技術上,PageGuide是一個基于Manifest v3規范的Chrome瀏覽器插件,支持微軟Edge等主流瀏覽器。它在網頁加載后,把整個網頁的HTML代碼(也就是構成網頁的底層骨架)轉換成一張"元素索引表",給頁面上每一個可見的文字塊、按鈕、鏈接都分配一個編號,記錄它們的內容、類型以及在屏幕上的位置。這張索引表就像是網頁的"戶口本",讓AI能夠精確地指代某個具體的元素,而不是模糊地說"在某個地方"。
基于這個索引表,PageGuide設計了三種工作模式,分別對應用戶在瀏覽網頁時最常遇到的三類需求:查找信息、跟著步驟完成任務、屏蔽干擾內容。
在用戶輸入一個問題之前,系統首先會用一個"意圖路由器"來判斷這個問題屬于哪種模式。路由器本質上是一次AI調用,它根據問題的表述和當前網頁的基本信息(如標題、內容類型),判斷用戶是想查找信息、想要操作指引,還是想隱藏某些內容,然后把任務分發給對應的處理模塊。研究團隊在一千兩百多條問題構成的測試集上評測了這個路由器,整體準確率高達97.68%,幾乎不會把一個問題送錯地方。
三、"找信息"模式:把熒光筆畫到網頁上
當你問一個關于頁面內容的問題時,PageGuide進入"Find"(查找)模式。
AI在回答時,不會只給你一段普通文字,而是在答案中嵌入特殊的引用標注,格式類似于"卡魯阿桑塔河(Quebrada Carhuasanta)[2:'Quebrada Carhuasanta']從內華達米斯米山流出"——方括號里的數字是那個文字在網頁上的編號,引號里是要高亮顯示的原文片段。
PageGuide拿到這個帶引用的答案后,立刻找到網頁上對應編號的元素,把那段文字用彩色動畫覆蓋層標注出來,并自動滾動網頁讓視野跳到第一個引用的位置。與此同時,側邊面板里顯示完整答案,每個引用都是可點擊的鏈接——你點一下"卡魯阿桑塔河[2]",網頁就立刻跳到并突出顯示那個詞,方便你對照原文核實。
配色方面,系統用了一套"亮度感知調色板",根據網頁背景的深淺自動選擇標注顏色,確保高亮在任何頁面上都清晰可辨,不會被背景色淹沒。
如果答案根本不在當前頁面上,PageGuide也不會就此罷手。它會明確告知"這個信息在當前頁面找不到",然后基于自身知識庫給出答案,并附上可點擊的外部鏈接,鏈接還會盡可能附帶Chrome的"文本片段"參數,讓你點擊后自動跳轉到目標網頁并高亮顯示對應段落。
四、"跟著做"模式:一步一步陪你走
當你的問題是"怎么操作某件事"時,PageGuide進入"Guide"(引導)模式。
普通AI助手給你一份操作說明,通常是一段文字,把所有步驟一次性列出來。問題是,這份說明和網頁是兩回事,你要不停地在說明和網頁之間切換視線,還要自己判斷"設置"在哪里、"協作者"按鈕長什么樣。一旦網頁版本更新了,AI的說明可能就對不上了。
PageGuide的做法截然不同。AI首先生成一個完整的操作計劃,但不會把所有步驟一次性丟給你,而是每次只展示一步。當前步驟的目標元素——比如"設置"標簽——會在網頁上出現一個脈沖跳動的信標,就像一個在屏幕上閃爍的箭頭。側邊面板顯示當前步驟的說明文字,以及對下一步會發生什么的簡短預告。面板底部有兩個按鈕:"下一步"和"停止"。只有當你點擊"下一步"確認操作后,系統才會重新讀取當前頁面的HTML,根據新的頁面狀態生成下一步指引。
這種設計被研究團隊稱為"混合主動協作"模式,核心是用戶始終掌握主動權。AI建議,用戶確認,每一步都有人眼把關,不會因為AI的誤判而產生意外操作。
以"如何在GitHub項目里添加某位協作者"為例,系統會先指引你點擊"Settings"標簽,待你確認后,再引導你進入"Collaborators"頁面,然后告訴你輸入密碼確認身份,再找到"Add people"按鈕,最后搜索目標用戶的賬號——整個流程被拆解成五個獨立步驟,每一步都有網頁上的視覺指引。
如果中途某一步點擊后頁面沒有如預期發生變化(比如按鈕點了但沒有跳轉),系統會自動檢測到這種偏差,重新讀取當前頁面,重新規劃后續步驟,相當于有一個容錯恢復機制。
五、"屏蔽內容"模式:讓干擾主動消失
當你說"幫我把廣告藏起來"或者"隱藏關于Ronaldo的負面評論"時,PageGuide進入"Hide"(隱藏)模式。
與傳統廣告攔截器依靠固定規則不同,PageGuide讓AI理解你的意圖,然后在網頁的元素索引表上逐一評判每個元素是否符合你想隱藏的條件,返回一份匹配元素的清單,每條記錄都附帶一句解釋——比如"這條內容標注了'Ad'廣告標簽,符合隱藏廣告的請求",以及該元素的內容片段供你預覽。
在任何元素被真正隱藏之前,屏幕上會彈出一個確認對話框,把所有待隱藏的元素列出來,每一條默認勾選,但你可以逐條取消勾選。你還可以點擊每一條旁邊的跳轉按鈕,讓頁面滾動到那個元素的位置,親眼檢查一下再決定。確認后點擊"隱藏",系統才會對勾選的元素應用CSS的`display:none`屬性,讓它們在視覺上消失,但不會真正刪除頁面代碼,不影響周圍其他內容的布局。
這種"確認后才執行"的設計,是研究團隊在透明度和可控性方面的刻意選擇:用戶不是被動接受AI的判斷,而是最終決策者。
六、真實用戶測驗:數字背后的故事
光靠設計理念還不夠,研究團隊招募了94名參與者(全部是大學本科到研究生階段的學生)在實驗室里進行了一次受控測驗。每個人要完成六個任務,三種模式各兩個,每種模式下一個任務用PageGuide,另一個不用。任務順序經過隨機化處理,盡量排除"做了第一個任務積累經驗,第二個因此更快"的干擾效應。
查找準確率方面,不用PageGuide時,參與者的平均正確率是81%,用了之后提升到86%。提升幅度不算巨大,研究團隊解釋這是因為查找任務本身并不太難,基線就已經很高了,天花板效應限制了提升空間。
操作引導的完成率變化最為顯著。在沒有PageGuide幫助的情況下,只有23%的參與者能夠成功完成多步驟操作任務,用了PageGuide之后這個比例跳升到53%,足足多了30個百分點。這個數字背后是很多人在沒有引導時感到迷茫、中途放棄的現實。統計檢驗顯示這個差異極為顯著,幾乎可以排除偶然因素。
內容屏蔽的準確率變化同樣驚人。不用PageGuide時,參與者平均只能正確識別并隱藏30%的目標內容,用了之后提升到56%——提升了26個百分點。手動找出所有需要隱藏的內容,本來就是一件非常費眼力的事,AI的語義理解能力在這里發揮了替代人工掃描的作用。
完成時間方面,查找任務從平均65.2秒降到52.8秒,減少了約19%。內容屏蔽的時間壓縮最為夸張,從平均104秒驟降到31.7秒,減少了約70%,相當于原來需要將近兩分鐘,現在半分鐘就能搞定。操作引導任務在只統計成功完成的情況下,從平均95.8秒降到66.7秒,減少約30%。
行為數據層面,用Ctrl+F搜索的頻率從平均每個任務0.26次降到0.05次,減少了80%。鼠標滾動次數從約13次減到5次,減少約60%。鼠標點擊次數從8.22次減到4.78次,減少42%。文本選中操作頻率從0.18次減到0.08次,減少55%。鼠標移動的總像素距離從6968像素降到5490像素,減少21%。這些數據合在一起,描繪出的是用戶在"用眼睛在屏幕上到處找"這件事上的勞動量大幅減少。
值得一提的是,在操作引導模式下,頁面訪問次數和鼠標移動距離反而有所增加,但研究團隊認為這不是問題,而是符合預期的現象——引導本來就要帶領用戶跨越多個頁面完成任務,這些"額外的移動"是朝著正確目標前進,而非漫無目的的迷路。
七、用戶自己怎么說
除了客觀數據,研究團隊還用7分制李克特量表收集了參與者的主觀感受。
對于查找模式,91%的參與者認為PageGuide能準確找到他們需要的信息,83%覺得查找任務因此更容易了,51%認為沒有它就很難完成任務。后者比例相對低,驗證了前面說的基線較高的判斷——部分任務即便不用插件,有耐心的人也能做到。
對于操作引導,74%認為PageGuide給出的引導是正確的,77%覺得任務因此更容易,55%認為沒有它會很難完成。值得關注的是,主觀滿意度(74-77%正面評價)比客觀完成率(59%)高,說明即便沒能全部完成,用戶仍然感受到了幫助——引導模式讓人們愿意堅持嘗試,而不是早早放棄。
對于屏蔽內容,89%覺得任務更容易,72%覺得沒有它會很難完成——這是三種模式里主觀感受最正面的,說明手動篩選內容對用戶來說確實是一件讓人頭疼的事。
此外,研究團隊還分析了參與者自我報告的任務完成情況。在屏蔽內容任務上,控制組(不用插件)只有28%的人達到完全完成,使用PageGuide后這個比例跳到83%,同時主觀評分也最高,兩者高度吻合——當任務邊界清晰、結果直接可驗證時,客觀成績和主觀感受往往是同步的。操作引導任務則出現了有趣的分叉:控制組要么完成要么放棄,中途部分完成的比例低;而用PageGuide的組里,部分完成的比例明顯升高,說明有引導的情況下,人們更愿意堅持走更多步驟,哪怕最終沒能抵達終點。
八、系統的不完美之處:研究團隊坦然承認的局限
PageGuide并非沒有問題,研究團隊在論文里坦誠列出了幾點局限。
當前路由器每次只能把一個問題分配給一種模式,但現實中有些問題是復合的,比如"幫我找到設置頁面,然后引導我改密碼"——這既需要"查找"也需要"引導",目前的系統無法同時處理。未來的改進方向是用一個多步驟規劃器,把復合任務拆解成一系列模式調用的序列。
網頁高亮只在當前頁面有效,如果用戶在多個頁面之間導航拼湊信息,就必須在每個頁面重新提問。更好的做法是跨頁面持久化高亮記錄,讓用戶能在一次會話里積累多頁面的證據。
操作引導的逐步確認機制對于已經熟悉操作的用戶來說會增加額外的點擊負擔。未來可以探索自適應步驟粒度,把顯而易見的操作合并成一步確認,并引入"跳過這一步"或"撤銷上一步"的功能。
內容屏蔽沒有跨會話的記憶能力,每次打開頁面都需要重新告訴系統想屏蔽什么。理想的做法是保存用戶的偏好歷史,在重復訪問的頁面自動應用,并提供管理和編輯保存偏好的界面。
九、PageGuide之外:更多功能的探索
論文還介紹了PageGuide在三種核心模式之外的擴展能力。
PDF閱讀功能允許用戶上傳一個PDF文件(比如一篇學術論文或者一份報告),直接在插件里提問,系統會基于文檔內容給出帶引用的答案,就像對待網頁一樣。這對于需要在技術文檔里快速定位信息的用戶很有用。
視覺問答功能允許用戶上傳一張圖片并提問,系統的回答會同時錨定到網頁的文字內容和圖片的特定區域上,兩者都有視覺高亮標注。比如你上傳了一張貓科動物的照片,詢問它和網頁上描述的某種老虎是不是同一個物種,系統會同時標注網頁上的相關段落和圖片里對應的區域。
"離頁模式"(Page-Off)允許用戶提問那些和當前頁面完全無關的問題,系統會調用更廣泛的知識庫作答,并附上來自互聯網的外部鏈接作為依據。這讓插件在用戶的信息需求超出當前頁面范圍時也能保持有用。
說到底,PageGuide在解決的,是一個每天困擾著無數普通網絡用戶的根本矛盾:AI越來越能說,但它說的話越來越難以對照現實驗證。研究團隊用"把答案錨定在頁面上"這個看起來簡單的思路,實實在在地在三種最常見的使用場景里讓任務完成率和完成速度都有了可以量化的改善。
對于那些每天在長網頁里找特定信息的人,每次在陌生平臺摸索操作步驟的人,以及那些希望對自己的瀏覽體驗有更多掌控權的人,這項研究提出了一個值得關注的方向:AI幫助不應該結束在聊天框里,而應該延伸到網頁本身,變成用戶眼前那層透明的、可驗證的導航層。
有興趣深入了解技術細節的讀者,可以通過arXiv編號2604.23772查閱完整論文,該研究的代碼和演示也在PageGuide.github.io上公開提供。
Q&A
Q1:PageGuide的"查找"模式和普通的Ctrl+F搜索有什么不同?
A:普通Ctrl+F只能精確匹配你輸入的關鍵詞,不理解語義。PageGuide的查找模式可以理解自然語言問題,找到與問題相關的證據段落并直接在網頁上高亮標注,還會在側邊欄給出完整的語言解釋,每個關鍵詞都是可以點擊跳轉到原文位置的引用鏈接,相當于幫你既找到答案又指出出處。
Q2:PageGuide的操作引導模式和直接問ChatGPT怎么操作有什么區別?
A:ChatGPT給的操作說明是靜態文字,和網頁是分開的,你要自己對照著找按鈕。PageGuide的引導模式會在網頁上實時高亮當前步驟要操作的具體元素,每次只展示一步,用戶確認后才進行下一步,如果頁面發生意外變化還會自動重新規劃,整個過程用戶始終掌握主動權,不會因為AI的誤判觸發不想要的操作。
Q3:PageGuide的內容屏蔽功能和AdBlock等廣告攔截器有什么區別?
A:AdBlock依賴預先定義的規則,只能攔截已知的廣告模式,遇到新型廣告或者非標準布局就無能為力。PageGuide的屏蔽模式用AI理解用戶用自然語言描述的隱藏意圖,可以根據語義含義匹配元素,比如"隱藏關于某個話題的負面評論"這種描述,是基于規則的工具做不到的。而且PageGuide每次屏蔽前都會彈出確認對話框,讓用戶逐條審查再決定。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.