中科院深圳先進技術(shù)研究院等機構(gòu)揭示網(wǎng)站生成智能體的致命盲區(qū)

2026-05-07 20:58:30　來源: 科技行者

北京舉報

分享至

這項由中國科學(xué)院深圳先進技術(shù)研究院、中國科學(xué)院大學(xué)、大連理工大學(xué)以及澳大利亞新南威爾士大學(xué)共同完成的研究，以預(yù)印本形式發(fā)布于2026年4月30日，論文編號為arXiv:2604.27419v1，分類于計算機人工智能領(lǐng)域。感興趣的讀者可通過該編號在arXiv平臺檢索完整論文。

一、從"說一聲就能建網(wǎng)站"的美好愿景，到現(xiàn)實的尷尬

有沒有這樣一個場景：你對著電腦說，"幫我做一個能賣二手書的網(wǎng)站，要有點復(fù)古的感覺，最好是那種泛黃的暖色調(diào)"，然后AI真的就給你做好了？這個愿景正在快速變?yōu)楝F(xiàn)實。隨著多模態(tài)大語言模型和智能編程助手的飛速發(fā)展，網(wǎng)站開發(fā)正從需要專業(yè)程序員逐步走向普通人用自然語言就能驅(qū)動的新時代。

然而，現(xiàn)實并不像宣傳片里那么順滑。研究團隊注意到了一個普遍存在卻鮮少被正視的問題：當(dāng)普通用戶——也就是那些不懂CSS、不知道什么是前端框架的人——用含糊不清或前后矛盾的話描述需求時，AI系統(tǒng)往往會陷入一種"閉眼干活"的狀態(tài)。它不去詢問、不去確認，直接就開始寫代碼，結(jié)果交出來的東西看起來挺像那么回事，但根本不是你想要的。

研究團隊把這種現(xiàn)象命名為"盲執(zhí)行"（Blind Execution）。這個詞精準地描述了問題所在：AI就像一個收到一張模糊菜單的廚師，既不回廚房問清楚客人到底想要辣還是不辣、有沒有忌口，就直接開炒，端出來的菜品賣相不錯，卻可能完全不合口味。這篇論文的核心任務(wù)，就是系統(tǒng)地測量這種"閉眼干活"現(xiàn)象到底有多普遍、多嚴重，并為改善它提供一個可靠的測試平臺。

二、現(xiàn)有測試平臺有什么問題？為什么需要新的評測框架

在弄清楚研究團隊做了什么之前，有必要了解他們?yōu)槭裁匆匦陆ㄒ惶自u測體系。此前已經(jīng)有一些專門測試AI網(wǎng)站生成能力的基準測試，比如把一張網(wǎng)頁截圖交給AI、讓它還原出對應(yīng)代碼的Design2Code，或者給出完整的文字說明讓AI從零搭建網(wǎng)站的WebGen-Bench。

但這些測試有一個共同的"理想化假設(shè)"：用戶提供的需求是完整的、清晰的、邏輯自洽的。這就好比評估一位廚師的能力，只給他提供最標準的食譜，從不測試他在面對"我想要一道既清淡又重口味、既甜又不能放糖"這類矛盾需求時該怎么辦。

真實世界的用戶根本不是這樣描述需求的。他們可能極度簡短，只說"給我做個購物網(wǎng)站"，把所有細節(jié)都省略掉；也可能極度啰嗦，在說完真正需求之前先聊了半天天氣；還可能在同一段話里前后矛盾，要求頁面"簡潔干凈"的同時又想要"信息豐富、功能齊全"。面對這類不完美的真實輸入，現(xiàn)有的測試體系幾乎無從評估。

研究團隊認為，這個空白必須被填補。于是他們設(shè)計了InteractWeb-Bench，一個專門針對"非專業(yè)用戶、模糊需求"場景下網(wǎng)站生成的交互式評測框架，也是目前該領(lǐng)域第一個這樣做的系統(tǒng)性基準測試。

三、四類"搗亂用戶"：把真實的混亂系統(tǒng)化

InteractWeb-Bench的核心創(chuàng)新之一，在于它引入了四種類型的模擬用戶，每一種都對應(yīng)著真實生活中某類人提需求的方式。設(shè)計這四種角色時，研究團隊并非憑感覺拍腦袋，而是基于軟件工程領(lǐng)域中被廣泛認可的"需求工程缺陷分類學(xué)"——一套經(jīng)過學(xué)術(shù)驗證的、用于描述用戶需求中常見問題類型的理論框架，同時參照了語言學(xué)中的"格萊斯會話準則"，即人們在正常對話中應(yīng)遵守的數(shù)量、關(guān)聯(lián)、方式和質(zhì)量四項原則。

第一種用戶叫做"極簡派"，在論文中標記為P-MIN。這類用戶代表著"需求不完整"的情況。他們極度惜字如金，只說核心功能，把所有細節(jié)統(tǒng)統(tǒng)省略。比如上面提到的"給我做個購物網(wǎng)站"，顏色、布局、功能細節(jié)一概不提。AI面對這樣的需求，要么老老實實去問，要么憑自己的理解去補全——這正是測試AI主動澄清能力的絕佳場景。

第二種用戶叫做"話癆派"，標記為P-RAM。他們代表"低信噪比"的情況，說了一大堆，但真正有用的信息被淹沒在大量無關(guān)內(nèi)容里。設(shè)想一個用戶說："你知道嗎，最近天氣真的好烇，昨天還下了雨，說起來我們公司最近在搞環(huán)保活動，順帶說一下，能不能幫我做個收集垃圾分類信息的網(wǎng)站，要有地圖功能，就像我鄰居家那個會議記錄軟件那種感覺，他們家的貓?zhí)貏e可愛……"在這種場景下，AI需要具備強大的信息提取和過濾能力。

第三種用戶叫做"直覺派"，標記為P-INT。他們代表"需求模糊且非技術(shù)化"的情況。這類用戶通常不懂技術(shù)術(shù)語，習(xí)慣用感官描述和情緒形容詞來表達想法。他們不會說"用#F5DEB3作為容器背景色、#DC143C作為主要交互元素顏色"，而是說"我希望這個網(wǎng)站有種夏日海灘的感覺，容器要像沙子一樣溫柔，按鈕要像落日余暉那樣熱情"。AI需要把這種詩意的描述翻譯成具體的技術(shù)實現(xiàn)。

第四種用戶叫做"矛盾派"，標記為P-CON。他們代表"需求自相矛盾"的情況，在同一段需求里提出了邏輯上互相排斥的要求。比如"我要一個完全基于文字、沒有任何視覺元素的網(wǎng)站，同時要有豐富的卡通插畫；背景用深色，但要亮黃色背景；所有組件要透明，但要用深紅色"。這些要求根本無法同時滿足，AI應(yīng)當(dāng)識別出這些矛盾，然后主動去問用戶他的真實意圖是什么，而不是硬著頭皮去實現(xiàn)一個本質(zhì)上不可能的東西。

這四類用戶并非憑空捏造，而是經(jīng)過系統(tǒng)化的"指令變異"處理生成的。研究團隊從一批寫得規(guī)范完整的"黃金指令"出發(fā)，通過不同的算子對原始需求進行變換——刪除細節(jié)、注入噪聲、替換技術(shù)詞匯、引入邏輯矛盾——從而生成對應(yīng)四種角色的變體版本。這樣就確保了測試樣本既貼近真實，又有可控的、可量化的"難度梯度"。

四、不只是問答：AI在這個框架里能做什么

為了讓被測試的AI不僅能"接收需求"，還能真正"處理需求"，研究團隊為測試框架設(shè)計了一個包含四種行動的操作空間，就像給廚師配備了不同的工具。

第一種行動是"澄清"（Clarify）：當(dāng)AI發(fā)現(xiàn)用戶說的東西不夠清楚或有疑問時，可以向模擬用戶提一個具體問題，獲取缺失的信息。第二種行動是"實現(xiàn)"（Implement）：AI動手寫代碼，安裝依賴包，運行命令，把網(wǎng)站一步步搭起來。第三種行動是"驗證"（Verify）：AI打開已經(jīng)運行的網(wǎng)站，用截圖的方式檢查界面，看看做出來的東西是不是和要求一致，有沒有視覺上的錯誤。第四種行動是"提交"（Submit）：AI認為任務(wù)完成，宣告結(jié)束。

這四種行動的關(guān)鍵之處在于，AI可以以任何順序、任意次數(shù)地使用它們。沒有固定的流程，沒有強制的先后順序。AI需要根據(jù)當(dāng)前的狀態(tài)，自主判斷下一步該做什么。有時候先問再做，有時候先做再驗證，有時候驗證后發(fā)現(xiàn)問題再回去問——這種靈活的非線性操作方式，更接近真實的軟件開發(fā)過程。

"驗證"這個行動尤其值得細說，因為它是這個框架的技術(shù)亮點之一。當(dāng)AI觸發(fā)驗證時，系統(tǒng)會給AI一張當(dāng)前網(wǎng)站界面的截圖，并告訴它之前和用戶的所有對話記錄、代碼的當(dāng)前狀態(tài)，以及之前的驗證歷史。AI需要制定一個測試清單，然后像真人測試員一樣去操作網(wǎng)站——點擊按鈕、填寫表單、滾動頁面——來確認每個功能是否正常。一旦發(fā)現(xiàn)問題，系統(tǒng)會返回詳細的失敗報告，包括出錯那一刻的截圖、瀏覽器控制臺的錯誤信息，以及AI自己對失敗原因的分析。這些反饋會幫助AI在回去修代碼時有的放矢。

為了防止AI陷入無限循環(huán)（比如反復(fù)修同一個bug卻始終修不好），系統(tǒng)還設(shè)計了雙重邊界限制：每個任務(wù)根據(jù)難度設(shè)定了總步數(shù)上限（15步、20步或25步），同時對連續(xù)的驗證失敗次數(shù)也有限制（6次、8次或10次），超出任何一個邊界就強制終止任務(wù)。

五、怎么評分：用"槽位"來衡量任務(wù)完成度

評測一個AI生成的網(wǎng)站夠不夠好，并不是件容易的事。研究團隊為此設(shè)計了一套叫做"約束槽位"（Oracle Slots）的評分機制。簡單來說，每個任務(wù)都被分解成若干個具體的、可驗證的小要求，每個小要求就是一個"槽位"。

每個槽位包含三個要素：目標組件（比如"篩選按鈕"）、預(yù)期結(jié)果（比如"點擊后列表內(nèi)容發(fā)生變化"）、驗證類型（是靜態(tài)檢查還是需要交互才能確認）。整個任務(wù)下來有7到12個這樣的槽位，最終得分就是通過驗證的槽位權(quán)重之和除以全部槽位權(quán)重之和，這個比值被稱為"任務(wù)完成率"（TCR）。

槽位的權(quán)重并非平均分配，而是根據(jù)實現(xiàn)難度來設(shè)定的。純粹的CSS樣式這類靜態(tài)元素權(quán)重最低，基礎(chǔ)JavaScript交互居中，涉及異步數(shù)據(jù)請求、復(fù)雜狀態(tài)管理的高級功能權(quán)重最高。此外，如果同一個組件下有多個槽位，權(quán)重會適當(dāng)縮減，避免簡單但數(shù)量多的槽位把評分撐起來。

除了任務(wù)完成率，研究團隊還額外引入了一個"幻覺率"指標，專門用來檢測AI是否生成了用戶根本沒要求的東西——比如沒人要求卻自作主張加上的登錄系統(tǒng)、隨意添加的廣告橫幅。這類"好心辦壞事"的情況在實際產(chǎn)品中會帶來維護負擔(dān)和用戶困惑，因此單獨計量很有必要。

擔(dān)任最終"閱卷官"角色的，是一個基于WebVoyager技術(shù)構(gòu)建的視覺評測智能體，它能像真人一樣操作瀏覽器、查看頁面、點擊元素，逐一核對每個槽位是否達標。這個評測過程是獨立進行的，與被測試的AI完全分離，保證評分的客觀性。

六、101個種子網(wǎng)站，404個測試案例

整個測試數(shù)據(jù)集最初來源于WebGen-Bench這個先前的研究成果，研究團隊從中精選了101個高質(zhì)量的網(wǎng)站設(shè)計任務(wù)作為"種子"，每個任務(wù)的原始約束槽位數(shù)量在7到12個之間。

隨后，研究團隊對每個種子任務(wù)的約束復(fù)雜度進行量化打分，用K-均值聚類算法把101個任務(wù)分成了三個難度層級。"簡單"級別有21個種子任務(wù)，"中等"級別有54個，"困難"級別有26個。簡單任務(wù)的平均槽位數(shù)約為6個，困難任務(wù)平均接近9個，對應(yīng)的權(quán)重分值范圍也有顯著差異。

然后，對每個種子任務(wù)分別應(yīng)用上述四種用戶角色的變異算子，生成四個對應(yīng)的變體版本。最終，101個種子任務(wù)乘以4種用戶角色，擴充為404個動態(tài)測試案例，形成一個覆蓋全面、難度分層的完整評測套件。

七、實驗結(jié)果：AI們集體被困在盲執(zhí)行陷阱里

研究團隊在這套框架上測試了九個當(dāng)前主流的多模態(tài)大語言模型，包括Qwen3.6-Plus、Kimi-K2.5、GPT-4.1、GPT-4.1-mini、Gemini-3.1-Flash-Lite等，覆蓋了不同規(guī)模、不同來源的主流系統(tǒng)。

結(jié)果令人警醒。在所有被測試的模型中，表現(xiàn)最好的Qwen3.6-Plus，其任務(wù)完成率也只有38.78%。換句話說，即使是當(dāng)前最強的系統(tǒng)，在面對真實用戶的模糊需求時，也只能大約完成不到四成的要求。其余模型的表現(xiàn)從24%到37%不等，有的甚至只能完成四分之一左右的任務(wù)要求。

任務(wù)難度越高，表現(xiàn)越差。這個趨勢相當(dāng)一致：所有模型在"簡單"級別的表現(xiàn)都顯著高于"中等"和"困難"級別。在困難任務(wù)上，即便是最強模型的得分也從簡單任務(wù)的43分左右跌至38分，而較弱的模型則跌至22到23分的區(qū)間。

不同用戶角色對AI表現(xiàn)的影響也相當(dāng)顯著，而且規(guī)律出乎意料。幾乎所有模型在面對"話癆派"（P-RAM）用戶時表現(xiàn)反而相對最好，在面對"極簡派"（P-MIN）用戶時表現(xiàn)最差。這說明這些AI模型對信息噪聲的處理能力要強于對信息缺失的處理能力——它們更善于從一堆廢話里找出有用信息，卻不善于意識到信息根本就不夠用、需要主動去問。

八、六個關(guān)鍵發(fā)現(xiàn)，解剖盲執(zhí)行的根源

研究團隊深入分析了各模型的行為軌跡，歸納出六個具體發(fā)現(xiàn)，每一個都指向了盲執(zhí)行問題的不同維度。

第一個發(fā)現(xiàn)涉及意圖對齊與主動澄清之間的落差。研究團隊用兩個指標來衡量用戶與AI交互的質(zhì)量：一是"意圖對齊分數(shù)"，衡量AI的理解是否符合用戶的真實需求；二是"澄清命中率"，衡量AI在主動提問時是否問到了關(guān)鍵缺失信息。結(jié)果顯示，所有模型的意圖對齊分數(shù)都在3.90到4.00之間（滿分5分），看起來不錯；但澄清命中率卻全部低于40%，也就是說即使AI開口提問，也有超過六成的概率沒有問到點子上。兩個指標之間的剪刀差，揭示了一個深層問題：AI能夠大概感知用戶想要什么，但無法精準識別哪些地方還有缺口、需要補充確認。這正是盲執(zhí)行的本質(zhì)——對信息漏洞的感知能力不足。

第二個發(fā)現(xiàn)涉及代碼量與幻覺率的正相關(guān)。研究團隊統(tǒng)計了各模型最終生成代碼的行數(shù)。表現(xiàn)較強的Qwen3.6-Plus平均生成超過1400行代碼，Kimi-K2.5平均超過1900行，而這兩個模型的幻覺率都超過60%。相比之下，GPT-4.1平均只生成440行代碼，幻覺率僅31.7%；GPT-4.1-mini生成473行，幻覺率最低，只有23.5%。這個規(guī)律揭示了一種"過度補償"策略：當(dāng)需求不清晰時，一些模型傾向于多寫代碼來"覆蓋"各種可能性，但這種策略不但沒有提高任務(wù)完成率，反而引入了大量沒有被要求的功能和元素，拉高了幻覺率。強模型編碼能力強，但更容易走上這條"多寫不如多問"的彎路。

第三個發(fā)現(xiàn)涉及視覺驗證的利用效率。"驗證"這個行動本來是讓AI通過看截圖發(fā)現(xiàn)問題、改進實現(xiàn)的。但數(shù)據(jù)顯示，各模型的驗證強度（以驗證行動次數(shù)與實現(xiàn)行動次數(shù)的比值衡量）差異很大——有的模型比值高達1.51，有的只有0.35——但這種差異并沒有帶來任務(wù)完成率的明顯改善。也就是說，驗證做得多并不代表驗證做得好。深究行為軌跡可以發(fā)現(xiàn)，模型往往只是針對驗證中發(fā)現(xiàn)的具體小問題打補丁，而不會因此重新審視整體需求是不是理解正確。它們會修復(fù)"按鈕顏色不對"，但不會因此反思"我對整個頁面的理解會不會從一開始就跑偏了"。

第四個發(fā)現(xiàn)進一步剖析了四種用戶角色對性能的差異化影響。研究團隊在比較了極簡派與話癆派對各模型表現(xiàn)的影響后發(fā)現(xiàn)，模型對"噪聲"（話癆派那種廢話連篇但信息完整的輸入）的抵抗力，要明顯強于對"缺失"（極簡派那種信息不完整的輸入）的應(yīng)對能力。這個發(fā)現(xiàn)有其現(xiàn)實意義：在真實世界里，用戶說廢話其實很常見，說得太少也很常見，但AI系統(tǒng)顯然在這兩種情況下的準備程度是不對等的。研究團隊還專門用"黃金指令"（原始完整需求）跑了一組對比實驗，結(jié)果發(fā)現(xiàn)即使是在最理想的輸入條件下，模型的任務(wù)完成率也只能提升約十個百分點左右，幻覺率也有所下降，但同樣遠未達到令人滿意的水平。

第五個發(fā)現(xiàn)揭示了不同模型在"探索"與"承諾"之間的取舍策略上的根本差異。GPT-4.1-mini的平均澄清次數(shù)接近1次，主動提交率只有56.4%，它傾向于反復(fù)確認、謹慎試探，但缺乏果斷拍板的能力；而Qwen3.6-Plus平均澄清次數(shù)僅0.01次，卻有95%的主動提交率，走的是"大膽決策、快速出貨"的路線。這兩種極端策略各有代價：前者容易在循環(huán)中迷失，后者容易早早提交一個雖然運行沒問題但根本不對題的網(wǎng)站。

第六個發(fā)現(xiàn)關(guān)注視覺呈現(xiàn)質(zhì)量的"天花板效應(yīng)"。研究團隊單獨評估了各模型生成網(wǎng)站的美觀程度，包括視覺布局和創(chuàng)意對齊兩個維度。結(jié)果顯示，各模型在這兩個維度上的分數(shù)相當(dāng)集中，差距不大，大多數(shù)模型能夠產(chǎn)出結(jié)構(gòu)完整、沒有嚴重渲染錯誤的頁面，但幾乎所有模型都在某些細節(jié)上存在輕微的視覺缺陷，比如元素錯位或配色不夠協(xié)調(diào)。幻覺率方面差異較大，最高的Gemma-4-26B-A4B-it達到72.3%，最低的GPT-4.1-mini只有23.5%。視覺缺陷率（嚴重渲染失敗的比例）普遍在10%以下，說明當(dāng)前模型在基礎(chǔ)的"做出來能看"這個層面已經(jīng)相當(dāng)穩(wěn)定，但在"做得對"這個層面仍有很大差距。

九、人類評審與AI評審：一致，但不完全一樣

研究團隊請了三位計算機科學(xué)專業(yè)的博士生對生成網(wǎng)站的美觀度進行人工評分，采用與AI評審相同的兩個維度（視覺布局和創(chuàng)意對齊）和相同的5分量表。對比結(jié)果顯示，人工評審與AI評審之間存在中等程度的一致性（肯德爾相關(guān)系數(shù)約為0.45），三位人類評審員彼此之間的一致性略高（約為0.57）。

在兩種評審方式下，Kimi-K2.5都獲得了最高的美觀度評分，這說明該模型在視覺呈現(xiàn)方面確實有其獨特優(yōu)勢——它更善于營造和諧的配色搭配。Qwen3.6-Plus則在內(nèi)容豐富性上更突出，而GPT-4.1更傾向于生成有紋理感的背景設(shè)計，Gemma-4-31B-it則在元素布局的整體結(jié)構(gòu)性上表現(xiàn)較好。

歸根結(jié)底，這項研究最核心的信息并不復(fù)雜：當(dāng)前最先進的AI系統(tǒng)，在面對真實用戶那些不完美的需求表達時，仍然大量地陷入"不問清楚就動手"的盲執(zhí)行陷阱。它們在處理冗余信息方面做得還不錯，但在識別信息缺口并主動追問方面表現(xiàn)欠佳；它們會用多寫代碼來掩蓋理解不足，會做驗證但不會因驗證結(jié)果重新反思大局；不同模型在"謹慎探索"和"果斷提交"之間的策略差異很大，卻都無法找到那個最優(yōu)的平衡點。

InteractWeb-Bench的意義在于，它提供了一個可復(fù)現(xiàn)、可量化的測試環(huán)境，讓研究人員能夠系統(tǒng)地測量和改進這些問題。研究團隊希望這個框架能成為推動AI編程助手從"被動執(zhí)行指令"向"主動理解用戶意圖"進化的基石——畢竟，一個真正好用的AI開發(fā)助手，不只是要會寫代碼，還要知道什么時候該停下來問一句"你說的到底是什么意思"。對這個研究感興趣的讀者，可以通過arXiv編號2604.27419查閱完整論文。

Q&A

Q1：InteractWeb-Bench是什么類型的評測框架，和以前的網(wǎng)站生成測試有什么區(qū)別？

A：InteractWeb-Bench是專門針對非專業(yè)用戶模糊需求場景的網(wǎng)站生成交互式評測框架。與之前的WebGen-Bench等框架不同，它不假設(shè)用戶提供完整清晰的需求，而是通過四種模擬用戶角色（極簡派、話癆派、直覺派、矛盾派）來制造接近真實情況的模糊輸入，同時允許AI主動提問、編寫代碼、視覺驗證和提交結(jié)果，評估的是AI在面對"不完美輸入"時的全程應(yīng)對能力。

Q2：盲執(zhí)行問題在實際使用AI建網(wǎng)站時會造成什么影響？

A：盲執(zhí)行意味著AI在需求不清楚的情況下直接開始寫代碼，結(jié)果往往是生成的網(wǎng)站表面上運行正常，但根本不符合用戶的實際需求。在實驗中，最強模型的任務(wù)完成率也只有約39%，說明超過六成的需求沒被滿足。同時AI還會自作主張加入用戶沒要求的功能（幻覺率最高超過72%），增加維護負擔(dān)，用戶可能還要從頭溝通返工，效率反而降低。

Q3：為什么AI對信息缺失比對信息冗余更難處理？

A：實驗結(jié)果顯示，AI在面對"話癆派"那種廢話多但信息完整的輸入時，表現(xiàn)反而比面對"極簡派"那種信息不完整的輸入更好。這是因為當(dāng)信息完整時，AI只需要過濾噪聲，本質(zhì)上還是在已有信息中提取，這是語言模型擅長的任務(wù)；而當(dāng)信息缺失時，AI需要意識到"有些東西我不知道"并主動去問，這涉及對自身理解邊界的元認知能力，目前的模型在這方面訓(xùn)練還不充分，傾向于用"補腦"（多寫代碼覆蓋各種可能）替代"追問"。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.