![]()
這項由中國科學(xué)院深圳先進技術(shù)研究院、中國科學(xué)院大學(xué)、大連理工大學(xué)以及澳大利亞新南威爾士大學(xué)共同完成的研究,以預(yù)印本形式發(fā)布于2026年4月30日,論文編號為arXiv:2604.27419v1,分類于計算機人工智能領(lǐng)域。感興趣的讀者可通過該編號在arXiv平臺檢索完整論文。
一、從"說一聲就能建網(wǎng)站"的美好愿景,到現(xiàn)實的尷尬
有沒有這樣一個場景:你對著電腦說,"幫我做一個能賣二手書的網(wǎng)站,要有點復(fù)古的感覺,最好是那種泛黃的暖色調(diào)",然后AI真的就給你做好了?這個愿景正在快速變?yōu)楝F(xiàn)實。隨著多模態(tài)大語言模型和智能編程助手的飛速發(fā)展,網(wǎng)站開發(fā)正從需要專業(yè)程序員逐步走向普通人用自然語言就能驅(qū)動的新時代。
然而,現(xiàn)實并不像宣傳片里那么順滑。研究團隊注意到了一個普遍存在卻鮮少被正視的問題:當(dāng)普通用戶——也就是那些不懂CSS、不知道什么是前端框架的人——用含糊不清或前后矛盾的話描述需求時,AI系統(tǒng)往往會陷入一種"閉眼干活"的狀態(tài)。它不去詢問、不去確認,直接就開始寫代碼,結(jié)果交出來的東西看起來挺像那么回事,但根本不是你想要的。
研究團隊把這種現(xiàn)象命名為"盲執(zhí)行"(Blind Execution)。這個詞精準地描述了問題所在:AI就像一個收到一張模糊菜單的廚師,既不回廚房問清楚客人到底想要辣還是不辣、有沒有忌口,就直接開炒,端出來的菜品賣相不錯,卻可能完全不合口味。這篇論文的核心任務(wù),就是系統(tǒng)地測量這種"閉眼干活"現(xiàn)象到底有多普遍、多嚴重,并為改善它提供一個可靠的測試平臺。
二、現(xiàn)有測試平臺有什么問題?為什么需要新的評測框架
在弄清楚研究團隊做了什么之前,有必要了解他們?yōu)槭裁匆匦陆ㄒ惶自u測體系。此前已經(jīng)有一些專門測試AI網(wǎng)站生成能力的基準測試,比如把一張網(wǎng)頁截圖交給AI、讓它還原出對應(yīng)代碼的Design2Code,或者給出完整的文字說明讓AI從零搭建網(wǎng)站的WebGen-Bench。
但這些測試有一個共同的"理想化假設(shè)":用戶提供的需求是完整的、清晰的、邏輯自洽的。這就好比評估一位廚師的能力,只給他提供最標準的食譜,從不測試他在面對"我想要一道既清淡又重口味、既甜又不能放糖"這類矛盾需求時該怎么辦。
真實世界的用戶根本不是這樣描述需求的。他們可能極度簡短,只說"給我做個購物網(wǎng)站",把所有細節(jié)都省略掉;也可能極度啰嗦,在說完真正需求之前先聊了半天天氣;還可能在同一段話里前后矛盾,要求頁面"簡潔干凈"的同時又想要"信息豐富、功能齊全"。面對這類不完美的真實輸入,現(xiàn)有的測試體系幾乎無從評估。
研究團隊認為,這個空白必須被填補。于是他們設(shè)計了InteractWeb-Bench,一個專門針對"非專業(yè)用戶、模糊需求"場景下網(wǎng)站生成的交互式評測框架,也是目前該領(lǐng)域第一個這樣做的系統(tǒng)性基準測試。
三、四類"搗亂用戶":把真實的混亂系統(tǒng)化
InteractWeb-Bench的核心創(chuàng)新之一,在于它引入了四種類型的模擬用戶,每一種都對應(yīng)著真實生活中某類人提需求的方式。設(shè)計這四種角色時,研究團隊并非憑感覺拍腦袋,而是基于軟件工程領(lǐng)域中被廣泛認可的"需求工程缺陷分類學(xué)"——一套經(jīng)過學(xué)術(shù)驗證的、用于描述用戶需求中常見問題類型的理論框架,同時參照了語言學(xué)中的"格萊斯會話準則",即人們在正常對話中應(yīng)遵守的數(shù)量、關(guān)聯(lián)、方式和質(zhì)量四項原則。
第一種用戶叫做"極簡派",在論文中標記為P-MIN。這類用戶代表著"需求不完整"的情況。他們極度惜字如金,只說核心功能,把所有細節(jié)統(tǒng)統(tǒng)省略。比如上面提到的"給我做個購物網(wǎng)站",顏色、布局、功能細節(jié)一概不提。AI面對這樣的需求,要么老老實實去問,要么憑自己的理解去補全——這正是測試AI主動澄清能力的絕佳場景。
第二種用戶叫做"話癆派",標記為P-RAM。他們代表"低信噪比"的情況,說了一大堆,但真正有用的信息被淹沒在大量無關(guān)內(nèi)容里。設(shè)想一個用戶說:"你知道嗎,最近天氣真的好烇,昨天還下了雨,說起來我們公司最近在搞環(huán)保活動,順帶說一下,能不能幫我做個收集垃圾分類信息的網(wǎng)站,要有地圖功能,就像我鄰居家那個會議記錄軟件那種感覺,他們家的貓?zhí)貏e可愛……"在這種場景下,AI需要具備強大的信息提取和過濾能力。
第三種用戶叫做"直覺派",標記為P-INT。他們代表"需求模糊且非技術(shù)化"的情況。這類用戶通常不懂技術(shù)術(shù)語,習(xí)慣用感官描述和情緒形容詞來表達想法。他們不會說"用#F5DEB3作為容器背景色、#DC143C作為主要交互元素顏色",而是說"我希望這個網(wǎng)站有種夏日海灘的感覺,容器要像沙子一樣溫柔,按鈕要像落日余暉那樣熱情"。AI需要把這種詩意的描述翻譯成具體的技術(shù)實現(xiàn)。
第四種用戶叫做"矛盾派",標記為P-CON。他們代表"需求自相矛盾"的情況,在同一段需求里提出了邏輯上互相排斥的要求。比如"我要一個完全基于文字、沒有任何視覺元素的網(wǎng)站,同時要有豐富的卡通插畫;背景用深色,但要亮黃色背景;所有組件要透明,但要用深紅色"。這些要求根本無法同時滿足,AI應(yīng)當(dāng)識別出這些矛盾,然后主動去問用戶他的真實意圖是什么,而不是硬著頭皮去實現(xiàn)一個本質(zhì)上不可能的東西。
這四類用戶并非憑空捏造,而是經(jīng)過系統(tǒng)化的"指令變異"處理生成的。研究團隊從一批寫得規(guī)范完整的"黃金指令"出發(fā),通過不同的算子對原始需求進行變換——刪除細節(jié)、注入噪聲、替換技術(shù)詞匯、引入邏輯矛盾——從而生成對應(yīng)四種角色的變體版本。這樣就確保了測試樣本既貼近真實,又有可控的、可量化的"難度梯度"。
四、不只是問答:AI在這個框架里能做什么
為了讓被測試的AI不僅能"接收需求",還能真正"處理需求",研究團隊為測試框架設(shè)計了一個包含四種行動的操作空間,就像給廚師配備了不同的工具。
第一種行動是"澄清"(Clarify):當(dāng)AI發(fā)現(xiàn)用戶說的東西不夠清楚或有疑問時,可以向模擬用戶提一個具體問題,獲取缺失的信息。第二種行動是"實現(xiàn)"(Implement):AI動手寫代碼,安裝依賴包,運行命令,把網(wǎng)站一步步搭起來。第三種行動是"驗證"(Verify):AI打開已經(jīng)運行的網(wǎng)站,用截圖的方式檢查界面,看看做出來的東西是不是和要求一致,有沒有視覺上的錯誤。第四種行動是"提交"(Submit):AI認為任務(wù)完成,宣告結(jié)束。
這四種行動的關(guān)鍵之處在于,AI可以以任何順序、任意次數(shù)地使用它們。沒有固定的流程,沒有強制的先后順序。AI需要根據(jù)當(dāng)前的狀態(tài),自主判斷下一步該做什么。有時候先問再做,有時候先做再驗證,有時候驗證后發(fā)現(xiàn)問題再回去問——這種靈活的非線性操作方式,更接近真實的軟件開發(fā)過程。
"驗證"這個行動尤其值得細說,因為它是這個框架的技術(shù)亮點之一。當(dāng)AI觸發(fā)驗證時,系統(tǒng)會給AI一張當(dāng)前網(wǎng)站界面的截圖,并告訴它之前和用戶的所有對話記錄、代碼的當(dāng)前狀態(tài),以及之前的驗證歷史。AI需要制定一個測試清單,然后像真人測試員一樣去操作網(wǎng)站——點擊按鈕、填寫表單、滾動頁面——來確認每個功能是否正常。一旦發(fā)現(xiàn)問題,系統(tǒng)會返回詳細的失敗報告,包括出錯那一刻的截圖、瀏覽器控制臺的錯誤信息,以及AI自己對失敗原因的分析。這些反饋會幫助AI在回去修代碼時有的放矢。
為了防止AI陷入無限循環(huán)(比如反復(fù)修同一個bug卻始終修不好),系統(tǒng)還設(shè)計了雙重邊界限制:每個任務(wù)根據(jù)難度設(shè)定了總步數(shù)上限(15步、20步或25步),同時對連續(xù)的驗證失敗次數(shù)也有限制(6次、8次或10次),超出任何一個邊界就強制終止任務(wù)。
五、怎么評分:用"槽位"來衡量任務(wù)完成度
評測一個AI生成的網(wǎng)站夠不夠好,并不是件容易的事。研究團隊為此設(shè)計了一套叫做"約束槽位"(Oracle Slots)的評分機制。簡單來說,每個任務(wù)都被分解成若干個具體的、可驗證的小要求,每個小要求就是一個"槽位"。
每個槽位包含三個要素:目標組件(比如"篩選按鈕")、預(yù)期結(jié)果(比如"點擊后列表內(nèi)容發(fā)生變化")、驗證類型(是靜態(tài)檢查還是需要交互才能確認)。整個任務(wù)下來有7到12個這樣的槽位,最終得分就是通過驗證的槽位權(quán)重之和除以全部槽位權(quán)重之和,這個比值被稱為"任務(wù)完成率"(TCR)。
槽位的權(quán)重并非平均分配,而是根據(jù)實現(xiàn)難度來設(shè)定的。純粹的CSS樣式這類靜態(tài)元素權(quán)重最低,基礎(chǔ)JavaScript交互居中,涉及異步數(shù)據(jù)請求、復(fù)雜狀態(tài)管理的高級功能權(quán)重最高。此外,如果同一個組件下有多個槽位,權(quán)重會適當(dāng)縮減,避免簡單但數(shù)量多的槽位把評分撐起來。
除了任務(wù)完成率,研究團隊還額外引入了一個"幻覺率"指標,專門用來檢測AI是否生成了用戶根本沒要求的東西——比如沒人要求卻自作主張加上的登錄系統(tǒng)、隨意添加的廣告橫幅。這類"好心辦壞事"的情況在實際產(chǎn)品中會帶來維護負擔(dān)和用戶困惑,因此單獨計量很有必要。
擔(dān)任最終"閱卷官"角色的,是一個基于WebVoyager技術(shù)構(gòu)建的視覺評測智能體,它能像真人一樣操作瀏覽器、查看頁面、點擊元素,逐一核對每個槽位是否達標。這個評測過程是獨立進行的,與被測試的AI完全分離,保證評分的客觀性。
六、101個種子網(wǎng)站,404個測試案例
整個測試數(shù)據(jù)集最初來源于WebGen-Bench這個先前的研究成果,研究團隊從中精選了101個高質(zhì)量的網(wǎng)站設(shè)計任務(wù)作為"種子",每個任務(wù)的原始約束槽位數(shù)量在7到12個之間。
隨后,研究團隊對每個種子任務(wù)的約束復(fù)雜度進行量化打分,用K-均值聚類算法把101個任務(wù)分成了三個難度層級。"簡單"級別有21個種子任務(wù),"中等"級別有54個,"困難"級別有26個。簡單任務(wù)的平均槽位數(shù)約為6個,困難任務(wù)平均接近9個,對應(yīng)的權(quán)重分值范圍也有顯著差異。
然后,對每個種子任務(wù)分別應(yīng)用上述四種用戶角色的變異算子,生成四個對應(yīng)的變體版本。最終,101個種子任務(wù)乘以4種用戶角色,擴充為404個動態(tài)測試案例,形成一個覆蓋全面、難度分層的完整評測套件。
七、實驗結(jié)果:AI們集體被困在盲執(zhí)行陷阱里
研究團隊在這套框架上測試了九個當(dāng)前主流的多模態(tài)大語言模型,包括Qwen3.6-Plus、Kimi-K2.5、GPT-4.1、GPT-4.1-mini、Gemini-3.1-Flash-Lite等,覆蓋了不同規(guī)模、不同來源的主流系統(tǒng)。
結(jié)果令人警醒。在所有被測試的模型中,表現(xiàn)最好的Qwen3.6-Plus,其任務(wù)完成率也只有38.78%。換句話說,即使是當(dāng)前最強的系統(tǒng),在面對真實用戶的模糊需求時,也只能大約完成不到四成的要求。其余模型的表現(xiàn)從24%到37%不等,有的甚至只能完成四分之一左右的任務(wù)要求。
任務(wù)難度越高,表現(xiàn)越差。這個趨勢相當(dāng)一致:所有模型在"簡單"級別的表現(xiàn)都顯著高于"中等"和"困難"級別。在困難任務(wù)上,即便是最強模型的得分也從簡單任務(wù)的43分左右跌至38分,而較弱的模型則跌至22到23分的區(qū)間。
不同用戶角色對AI表現(xiàn)的影響也相當(dāng)顯著,而且規(guī)律出乎意料。幾乎所有模型在面對"話癆派"(P-RAM)用戶時表現(xiàn)反而相對最好,在面對"極簡派"(P-MIN)用戶時表現(xiàn)最差。這說明這些AI模型對信息噪聲的處理能力要強于對信息缺失的處理能力——它們更善于從一堆廢話里找出有用信息,卻不善于意識到信息根本就不夠用、需要主動去問。
八、六個關(guān)鍵發(fā)現(xiàn),解剖盲執(zhí)行的根源
研究團隊深入分析了各模型的行為軌跡,歸納出六個具體發(fā)現(xiàn),每一個都指向了盲執(zhí)行問題的不同維度。
第一個發(fā)現(xiàn)涉及意圖對齊與主動澄清之間的落差。研究團隊用兩個指標來衡量用戶與AI交互的質(zhì)量:一是"意圖對齊分數(shù)",衡量AI的理解是否符合用戶的真實需求;二是"澄清命中率",衡量AI在主動提問時是否問到了關(guān)鍵缺失信息。結(jié)果顯示,所有模型的意圖對齊分數(shù)都在3.90到4.00之間(滿分5分),看起來不錯;但澄清命中率卻全部低于40%,也就是說即使AI開口提問,也有超過六成的概率沒有問到點子上。兩個指標之間的剪刀差,揭示了一個深層問題:AI能夠大概感知用戶想要什么,但無法精準識別哪些地方還有缺口、需要補充確認。這正是盲執(zhí)行的本質(zhì)——對信息漏洞的感知能力不足。
第二個發(fā)現(xiàn)涉及代碼量與幻覺率的正相關(guān)。研究團隊統(tǒng)計了各模型最終生成代碼的行數(shù)。表現(xiàn)較強的Qwen3.6-Plus平均生成超過1400行代碼,Kimi-K2.5平均超過1900行,而這兩個模型的幻覺率都超過60%。相比之下,GPT-4.1平均只生成440行代碼,幻覺率僅31.7%;GPT-4.1-mini生成473行,幻覺率最低,只有23.5%。這個規(guī)律揭示了一種"過度補償"策略:當(dāng)需求不清晰時,一些模型傾向于多寫代碼來"覆蓋"各種可能性,但這種策略不但沒有提高任務(wù)完成率,反而引入了大量沒有被要求的功能和元素,拉高了幻覺率。強模型編碼能力強,但更容易走上這條"多寫不如多問"的彎路。
第三個發(fā)現(xiàn)涉及視覺驗證的利用效率。"驗證"這個行動本來是讓AI通過看截圖發(fā)現(xiàn)問題、改進實現(xiàn)的。但數(shù)據(jù)顯示,各模型的驗證強度(以驗證行動次數(shù)與實現(xiàn)行動次數(shù)的比值衡量)差異很大——有的模型比值高達1.51,有的只有0.35——但這種差異并沒有帶來任務(wù)完成率的明顯改善。也就是說,驗證做得多并不代表驗證做得好。深究行為軌跡可以發(fā)現(xiàn),模型往往只是針對驗證中發(fā)現(xiàn)的具體小問題打補丁,而不會因此重新審視整體需求是不是理解正確。它們會修復(fù)"按鈕顏色不對",但不會因此反思"我對整個頁面的理解會不會從一開始就跑偏了"。
第四個發(fā)現(xiàn)進一步剖析了四種用戶角色對性能的差異化影響。研究團隊在比較了極簡派與話癆派對各模型表現(xiàn)的影響后發(fā)現(xiàn),模型對"噪聲"(話癆派那種廢話連篇但信息完整的輸入)的抵抗力,要明顯強于對"缺失"(極簡派那種信息不完整的輸入)的應(yīng)對能力。這個發(fā)現(xiàn)有其現(xiàn)實意義:在真實世界里,用戶說廢話其實很常見,說得太少也很常見,但AI系統(tǒng)顯然在這兩種情況下的準備程度是不對等的。研究團隊還專門用"黃金指令"(原始完整需求)跑了一組對比實驗,結(jié)果發(fā)現(xiàn)即使是在最理想的輸入條件下,模型的任務(wù)完成率也只能提升約十個百分點左右,幻覺率也有所下降,但同樣遠未達到令人滿意的水平。
第五個發(fā)現(xiàn)揭示了不同模型在"探索"與"承諾"之間的取舍策略上的根本差異。GPT-4.1-mini的平均澄清次數(shù)接近1次,主動提交率只有56.4%,它傾向于反復(fù)確認、謹慎試探,但缺乏果斷拍板的能力;而Qwen3.6-Plus平均澄清次數(shù)僅0.01次,卻有95%的主動提交率,走的是"大膽決策、快速出貨"的路線。這兩種極端策略各有代價:前者容易在循環(huán)中迷失,后者容易早早提交一個雖然運行沒問題但根本不對題的網(wǎng)站。
第六個發(fā)現(xiàn)關(guān)注視覺呈現(xiàn)質(zhì)量的"天花板效應(yīng)"。研究團隊單獨評估了各模型生成網(wǎng)站的美觀程度,包括視覺布局和創(chuàng)意對齊兩個維度。結(jié)果顯示,各模型在這兩個維度上的分數(shù)相當(dāng)集中,差距不大,大多數(shù)模型能夠產(chǎn)出結(jié)構(gòu)完整、沒有嚴重渲染錯誤的頁面,但幾乎所有模型都在某些細節(jié)上存在輕微的視覺缺陷,比如元素錯位或配色不夠協(xié)調(diào)。幻覺率方面差異較大,最高的Gemma-4-26B-A4B-it達到72.3%,最低的GPT-4.1-mini只有23.5%。視覺缺陷率(嚴重渲染失敗的比例)普遍在10%以下,說明當(dāng)前模型在基礎(chǔ)的"做出來能看"這個層面已經(jīng)相當(dāng)穩(wěn)定,但在"做得對"這個層面仍有很大差距。
九、人類評審與AI評審:一致,但不完全一樣
研究團隊請了三位計算機科學(xué)專業(yè)的博士生對生成網(wǎng)站的美觀度進行人工評分,采用與AI評審相同的兩個維度(視覺布局和創(chuàng)意對齊)和相同的5分量表。對比結(jié)果顯示,人工評審與AI評審之間存在中等程度的一致性(肯德爾相關(guān)系數(shù)約為0.45),三位人類評審員彼此之間的一致性略高(約為0.57)。
在兩種評審方式下,Kimi-K2.5都獲得了最高的美觀度評分,這說明該模型在視覺呈現(xiàn)方面確實有其獨特優(yōu)勢——它更善于營造和諧的配色搭配。Qwen3.6-Plus則在內(nèi)容豐富性上更突出,而GPT-4.1更傾向于生成有紋理感的背景設(shè)計,Gemma-4-31B-it則在元素布局的整體結(jié)構(gòu)性上表現(xiàn)較好。
歸根結(jié)底,這項研究最核心的信息并不復(fù)雜:當(dāng)前最先進的AI系統(tǒng),在面對真實用戶那些不完美的需求表達時,仍然大量地陷入"不問清楚就動手"的盲執(zhí)行陷阱。它們在處理冗余信息方面做得還不錯,但在識別信息缺口并主動追問方面表現(xiàn)欠佳;它們會用多寫代碼來掩蓋理解不足,會做驗證但不會因驗證結(jié)果重新反思大局;不同模型在"謹慎探索"和"果斷提交"之間的策略差異很大,卻都無法找到那個最優(yōu)的平衡點。
InteractWeb-Bench的意義在于,它提供了一個可復(fù)現(xiàn)、可量化的測試環(huán)境,讓研究人員能夠系統(tǒng)地測量和改進這些問題。研究團隊希望這個框架能成為推動AI編程助手從"被動執(zhí)行指令"向"主動理解用戶意圖"進化的基石——畢竟,一個真正好用的AI開發(fā)助手,不只是要會寫代碼,還要知道什么時候該停下來問一句"你說的到底是什么意思"。對這個研究感興趣的讀者,可以通過arXiv編號2604.27419查閱完整論文。
Q&A
Q1:InteractWeb-Bench是什么類型的評測框架,和以前的網(wǎng)站生成測試有什么區(qū)別?
A:InteractWeb-Bench是專門針對非專業(yè)用戶模糊需求場景的網(wǎng)站生成交互式評測框架。與之前的WebGen-Bench等框架不同,它不假設(shè)用戶提供完整清晰的需求,而是通過四種模擬用戶角色(極簡派、話癆派、直覺派、矛盾派)來制造接近真實情況的模糊輸入,同時允許AI主動提問、編寫代碼、視覺驗證和提交結(jié)果,評估的是AI在面對"不完美輸入"時的全程應(yīng)對能力。
Q2:盲執(zhí)行問題在實際使用AI建網(wǎng)站時會造成什么影響?
A:盲執(zhí)行意味著AI在需求不清楚的情況下直接開始寫代碼,結(jié)果往往是生成的網(wǎng)站表面上運行正常,但根本不符合用戶的實際需求。在實驗中,最強模型的任務(wù)完成率也只有約39%,說明超過六成的需求沒被滿足。同時AI還會自作主張加入用戶沒要求的功能(幻覺率最高超過72%),增加維護負擔(dān),用戶可能還要從頭溝通返工,效率反而降低。
Q3:為什么AI對信息缺失比對信息冗余更難處理?
A:實驗結(jié)果顯示,AI在面對"話癆派"那種廢話多但信息完整的輸入時,表現(xiàn)反而比面對"極簡派"那種信息不完整的輸入更好。這是因為當(dāng)信息完整時,AI只需要過濾噪聲,本質(zhì)上還是在已有信息中提取,這是語言模型擅長的任務(wù);而當(dāng)信息缺失時,AI需要意識到"有些東西我不知道"并主動去問,這涉及對自身理解邊界的元認知能力,目前的模型在這方面訓(xùn)練還不充分,傾向于用"補腦"(多寫代碼覆蓋各種可能)替代"追問"。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.