![]()
這項由中國科學院自動化研究所、中國科學院大學、新加坡國立大學和中國人民大學聯合開展的研究,以預印本形式發布于2026年4月,論文編號為arXiv:2604.25914。有興趣深入了解的讀者可以通過該編號在arXiv平臺查閱完整論文。
每當你打開一份堆滿數字的Excel表格,苦苦思索怎么把這些冷冰冰的數據變成一張讓老板眼前一亮的圖表時,你大概不會意識到,這個看似平凡的日常挑戰,正是當今最頂尖的人工智能系統集體翻車的地方。這支來自中國多所頂尖研究機構的團隊,正是抓住了這個被學術界長期忽視的痛點,打造了一個名為"DV-World"的測試平臺,專門用來檢驗AI在真實數據可視化工作中的實際表現。結論出乎意料:即便是目前全球最強大的AI模型,在這套考題面前也只能勉強及格,得分普遍低于50%。
要理解為什么這件事值得關注,不妨把數據可視化想象成一場廚藝比賽。過去的AI測試就像是讓選手在標準化廚房里按照印好的食譜,用規格統一的食材做出一道菜,然后拍照打分——這當然比什么都不做強,但它完全無法反映一個廚師在真實餐廳里工作時面對的復雜狀況:食材換了、客人改了需求、上一個廚師做了一半的菜需要你接手完成,而且你還得當場與顧客溝通確認他到底想要什么口味。DV-World的意義,正是把這場考試從標準化廚房搬到了真實的餐廳后廚。
**一、現有測試平臺的三大硬傷**
在正式介紹DV-World之前,有必要先搞清楚現有的同類測試平臺究竟缺了什么,畢竟在這項研究發布之前,學術界已經有了不少測試AI數據可視化能力的方案,從ChartMimic到VisEval再到MatPlotBench,數量不少,為何還需要一個新的?
答案藏在三個根本性的脫節里。第一個脫節,是"環境脫節"。現有的測試幾乎都把AI關在一個整潔的代碼沙盒里——給你一份數據、一個任務說明,你用Python寫幾行代碼,生成一張圖片,完事。然而,真實世界里絕大多數普通職場人員處理數據的方式,不是打開Python終端,而是打開Excel。Excel里的圖表不是簡單的圖片,它是一個活生生的對象,與單元格里的數據實時連接,有自己的軸、系列、數據范圍綁定關系。當你改變某個單元格的數值,圖表會自動隨之更新——這種"活"的數據綁定能力,正是Excel圖表區別于普通Python生成圖片的核心,也是現有AI測試幾乎完全忽視的領域。
第二個脫節,是"創作至上"的近視眼。現有測試基本上都是一錘子買賣:給AI一個需求,AI從零開始生成一張圖,打分,結束。但現實中的可視化工作哪里是這樣的?更多的時候,你面對的是一張已有的圖表,需要換上新數據、按照新要求調整樣式、保留原有的設計風格——就像畫家不是每次都在空白畫布上作畫,更多時候是在別人已有的畫作基礎上進行修改和再創作。這種"演化式"的可視化工作,在現有測試中幾乎是空白。
第三個脫節,是對"完美需求"的假設。幾乎所有現有測試都假設用戶的需求是清晰完整的,AI只需要照章執行就好。而現實中的用戶呢?"幫我做個圖分析一下我們公司的業績趨勢"——這句話里有多少未被說出口的假設?是按月還是按季度?是用折線圖還是柱狀圖?"業績"指的是收入、利潤還是銷量?高明的可視化助手應該主動發現這些模糊之處并向用戶求證,而不是憑空猜測然后一本正經地輸出一張可能完全錯誤的圖表。
正是為了填補這三個空白,DV-World應運而生。
**二、DV-World的三張考卷**
DV-World包含260道精心設計的題目,分為三大模塊。這三個模塊分別考察了不同維度的能力,恰好對應了上述三個脫節問題。
第一張考卷叫做DV-Sheet,專門考察AI在原生Excel環境中的操作能力。這個模塊包含130道題,進一步細分為三種子類型。"創建"子任務要求AI根據用戶需求,在Excel工作簿里生成一張原生圖表,并且圖表必須通過單元格引用與數據動態綁定,不能是硬編碼的靜態數值——就像餐廳廚師不能把菜單上的價格寫死在菜里,而是要讓價格能隨著食材成本的變化而自動調整。"修復"子任務則更像是接手前任廚師留下的爛攤子:拿到一個有問題的圖表,診斷出錯誤所在并修復它。測試數據顯示,74.5%的修復任務中存在噪聲數據,錯誤類型多達12種,包括數據綁定錯誤、坐標軸縮放問題、圖表類型與數據性質不匹配等。"儀表板"子任務則是終極挑戰,要求AI把多張圖表和數據表格組合成一個完整的商業分析儀表板,像一個專業的BI報表設計師一樣規劃好整體布局、保證每個元素都傳達出有價值的洞察。
這個模塊使用的數據平均每個工作簿有36列、超過11000行,這種規模的真實數據,對AI來說既是能力挑戰,也是現實感的來源。評分方面,DV-Sheet結合了兩種機制:一種是"表格覆蓋率",直接檢查AI生成的數據值是否與標準答案匹配(對數字類數據允許微小的誤差容忍),另一種是基于AI大模型的視覺質量評判,兩者結合給出最終分數。
第二張考卷叫做DV-Evolution,包含80道題,專門測試AI的"圖表演化"能力。每道題給AI提供一張參考圖片(展示目標樣式)、一份新數據集,以及一些修改要求,AI需要理解參考圖片的視覺語義,把它"翻譯"成能處理新數據的可執行代碼。更考驗功底的是,這些代碼還得在五種不同的可視化框架里分別實現:Python的Matplotlib/Seaborn、商業數據大屏常用的Apache ECharts、學術可視化語法框架Vega-Lite、底層網頁圖形庫D3.js,以及交互式分析常用的Plotly.js。就像一個廚師不僅要知道怎么做菜,還要能用中餐灶、法餐灶、日式鐵板、美式烤架和印度泥爐分別把同一道菜做出來。每個框架有自己的思維模式和語法規則,AI能否在它們之間自如切換,正是這個模塊要檢驗的核心。
第三張考卷叫做DV-Interact,包含50道題,是三張考卷中最貼近真實用戶場景的一張。每道題都設置了一個故意模糊不清的可視化需求,AI需要通過與"用戶模擬器"的多輪對話,逐步厘清真正的需求,再生成最終圖表。這個用戶模擬器不是簡單的問答機器人,它有一套嚴格設計的兩階段機制:第一階段是"守門人",專門檢測AI是不是在試圖走捷徑——如果AI直接問"你想要什么代碼"或者"告訴我數據庫的列名是什么",守門人會直接拒絕,因為這不是用戶應該回答的問題;第二階段是"回應生成器",根據預設的隱藏真實需求和反應規則,給出符合普通用戶認知水平的自然語言回復,不包含任何技術細節,只說人話。這確保了AI必須通過真正的理解和推理來還原用戶意圖,而不是通過套取信息走捷徑。每道題平均設置了3.17個模糊點,覆蓋15種不同類型的歧義,從"最近幾年"到底是多少年、"高績效"到底怎么定義,到"用收入還是利潤"這類聚合邏輯歧義。
**三、考卷是怎么打分的**
這套評分體系本身就是一項重要的學術貢獻,因為它解決了一個長期困擾研究者的難題:怎么公平、準確地給可視化作品打分?
研究團隊采用了"混合評估框架"。核心量化指標叫做"表格覆蓋率",用于檢驗AI生成的數據值與標準答案之間的吻合程度。這個指標使用了"名稱優先、類型其次"的智能對齊策略:先嘗試通過列名匹配(去掉單位、統一大小寫后比較),找不到匹配的列名時再根據數據類型(數字型、日期型、類別型)進行推斷性匹配。匹配成功后,文本類數據要求精確相等,浮點數類數據允許在一定誤差范圍內視為匹配。
在此基礎上,還有基于大模型的視覺質量評判。研究團隊邀請專家為每類任務設計了多維度的評分細則,涵蓋可靠性、適切性、美觀性、完整性、一致性等維度,然后用AI大模型(主要是Gemini-2.5-Flash)按照這些細則為AI生成的圖表打分。為了驗證這套評分體系的可靠性,團隊專門做了人工驗證:在210道題、3000多個評分項目上,讓人類專家與AI評判系統分別打分,結果顯示兩者的一致性極高(加權Kappa值達到0.821,組內相關系數達到0.850),不同AI評判模型之間的模型排名完全一致。這意味著這套評分系統不是某個特定AI的偏見,而是反映了人類專家水平的客觀判斷。
對于DV-Interact模塊,還額外引入了"交互成功率"這個指標,綜合考量AI主動提問的次數、成功解決歧義的輪次、以及被拒絕的不當提問次數,鼓勵AI高效、精準地提問,而非漫無目的地亂問或者根本不問。
**四、頂尖AI們考了多少分**
當這套考題擺在Gemini-3-Pro、GPT-5.2、DeepSeek-V3.2、Grok-4等一線AI模型面前時,結果多少令人意外。
在DV-Sheet模塊,表現最好的是Gemini-3-Pro,總分僅為40.48分(滿分100)。GPT-5.2和DeepSeek-V3.2都未能突破38分。相比之下,人類專家的得分高達80至88分,差距懸殊。具體來看,AI在三個子任務上的表現參差不齊。在"創建"子任務中,數據準確性是最大的短板,超過50%的錯誤來源于數值計算錯誤和數據綁定問題。在"修復"子任務中,成功率最高的AI(GLM-4.7、Grok-4)也只有40%多,而且不同類型的修復任務難度差異很大:過濾邏輯錯誤相對容易修復,但坐標軸縮放問題和視覺編碼錯誤則讓AI們普遍卡殼。在"儀表板"子任務中,一個有趣的規律是:隨著數據表格規模的增大,AI的表現會持續下降,當單元格總數超過50萬時,幾乎所有模型的得分都接近腰斬——這說明大型數據集對AI的空間規劃和推理能力構成了實質性挑戰。
研究團隊還發現了一個有意思的相關性:在"創建"子任務中,AI的表格覆蓋率(數值準確性)和視覺美觀性之間存在正相關關系。也就是說,數值算得越準,圖表往往也畫得越漂亮。這背后的邏輯很直覺:如果連數據都搞錯了,圖表自然無從談起。
在DV-Evolution模塊,最高分由Gemini-3-Pro拿下,總分51.44分,其次是Gemini-3-Flash的49.46分和GPT-4.1的44.67分。各框架之間的表現差異顯著:所有模型在Python和Vega-Lite上表現相對較好,在D3.js和Plotly.js上表現明顯較差。研究團隊分析認為,D3.js需要大量低層次的代碼操作,生成代碼行數往往超過500行,而研究顯示代碼行數越多,AI的表現就越差——這就好比讓廚師寫越來越詳細的操作步驟,反而越容易寫錯。另一個有趣發現是,當研究人員從AI的工具箱里拿走"加載圖片"工具(即不讓AI在生成代碼過程中參考參考圖)時,所有模型的表現都有所下降,其中Gemini-3-Pro在D3.js任務上的下降幅度最大,達到7.69%——這說明視覺參考對于保持語義忠實度至關重要。
錯誤類型分析揭示了框架專屬的失敗模式:D3.js這類低層次庫主要讓AI在樣式上翻車(Gemini-3-Flash的視覺樣式錯誤率高達40.96%),而Apache ECharts和Vega-Lite這類高層次框架則主要暴露AI在數據映射邏輯上的薄弱——前者數據一致性錯誤率最高達55%,后者布局錯誤率最高達51%。
在DV-Interact模塊,Grok-4以40.43分領跑,但大多數頂尖模型都未能突破38分。更有意思的是,研究團隊發現"問題質量"遠比"問題數量"重要。Grok-4和DeepSeek-V3.2的提問頻率很高,但無效提問比例也高,最終成績反而不如提問更有針對性的Gemini-3-Pro。Gemini-3-Pro在"有無主動提問"兩種情況下的性能差距高達23個百分點,是所有模型中提問質量與任務收益相關性最強的。與此同時,能力較弱的小模型在主動提問后性能反而下降,說明低質量的提問非但幫不上忙,還會引入噪聲。
從錯誤類型來看,DV-Interact的失敗主要集中在兩種模式:一種是"認知執行落差",即AI與用戶成功確認了需求,卻在最終生成圖表時偏離了商定的內容,GPT-5.2在這一問題上的發生率高達60%;另一種是"交互回避",即AI過度自信地不經確認直接執行,GLM-4.7的這一問題發生率接近60%。
**五、這套題是怎么設計出來的**
260道題的背后,是18名可視化領域專家歷時數月的精心設計。
數據來源方面,團隊從ExcelForum、MrExcel、Chandoo.org等真實的Excel用戶社區收集了800多個真實問題帖子,以及Kaggle平臺上的開放數據集。這些數據經過了三步處理:首先保留原始數據的結構特征(如合并單元格、不規則布局),然后對數值進行擾動(在保持數據分布規律的前提下替換具體數字),最后對個人身份信息進行匿名化處理。這三步確保了數據既有真實感,又不侵犯隱私。
題目設計方面,不同類型的任務有不同的設計策略。對于"創建"和"儀表板"類任務,采用了兩階段流程:先由五名專家統一規范題目措辭,再由另外七名專家獨立完成任務,以減少單一專家偏見。對于"修復"任務,專家先制作出正確的圖表,再系統性地注入各類常見錯誤,確保每道題都有確定性的正確答案。對于DV-Evolution任務,專家驗證了參考實現與目標實現之間的語義等價性,并確保目標代碼嚴格遵循"不硬編碼"原則。對于DV-Interact任務,專家從一個具體明確的可視化需求出發,系統性地引入受控的歧義點,記錄下解決這些歧義的問答模式,形成隱藏的"真實意圖"文檔和"反應規則"查找表。
評分細則的設計同樣費時費力,每份評分細則平均需要專家花費約6小時進行設計,并經過多輪評審達成共識。為了降低漏判率,專家還專門收集了五個不同AI模型的輸出樣本,確保評分細則能夠覆蓋各種合理的解題策略。
**六、用戶模擬器有多真實**
DV-World的用戶模擬器是整套系統中最有創意的設計之一,因此值得單獨展開講講。
模擬器使用GPT-5-Mini(即OpenAI的輕量級高效模型)作為底層大腦,這個選擇并非偶然——研究團隊對比了包括Gemini-3-Pro、O4-mini、GPT-4.1等在內的9種不同模型作為模擬器時的表現,發現GPT-5-Mini在"指導忠實度"(與預設真實意圖的匹配程度)和"與人類行為的相關性"兩個維度上都達到了最優平衡,且成本最低,堪稱性價比之王。GPT-5-Mini達到了88.67%的忠實度和0.86的皮爾遜相關系數(這個數字越接近1,說明與人類行為越相似),而且對150個真實交互軌跡的人工審計也證實了這個結論。
當研究團隊從模擬器中移除"階段一過濾"或"反應規則"兩個組件時,忠實度和人類相關性都出現了顯著下降,說明這兩個機制對于保持模擬器的真實性至關重要。
從行為特征來看,9種模擬器大致可以分為三類:GPT-5.2和GPT-5-Mini屬于"理想導師"型,提問頻率高、反饋清晰度高,與這類模擬器交互后AI的得分提升幅度最大;O4-mini和Gemini-3-Pro屬于"標準用戶"型,提問頻率和反饋質量居中;Gemini-2.5-Pro和GPT-4.1則屬于"挑剔客戶"型,反饋清晰度較低,對AI的挑戰更大。這三類模擬器的存在,使得DV-World能夠從不同角度全面評估AI的交互能力,而不是只有一種固定風格的用戶。
**七、人類專家和AI的差距有多大**
研究團隊還專門進行了人類基準測試,讓10名人類專家在允許使用任何外部工具(包括搜索引擎和AI助手)的條件下,完成每個模塊各10道題,然后互相交叉評分。
結果是:DV-Sheet模塊人類得分約80至88分(不同子任務有所差異),DV-Evolution模塊人類得分約82至88分,DV-Interact模塊人類得分約79.6分。相比之下,當前最好的AI模型在這三個模塊的最高分分別約為40.48分、51.44分和40.43分。無論從哪個角度看,人類與AI之間都存在著約30至40個百分點的巨大差距,而且這個差距在需要"原生環境操作"和"多輪交互對齊"的任務上尤為突出。
**八、研究結論與未來展望**
歸根結底,DV-World告訴我們的,不僅僅是"當前AI還不夠好"這個簡單結論,更重要的是,它精準地指出了AI不夠好的具體位置和具體原因。
在Excel原生環境操作上,AI最大的短板是數值精確性和數據綁定關系的管理——超過50%的錯誤源于數值計算問題。在跨框架圖表演化上,最大的挑戰是布局與可讀性問題(占錯誤總量的42%),其次是數據一致性(32%),樣式問題反而排在最后(26%)。在多輪交互對齊上,認知執行落差(理解了需求卻執行錯了)和交互回避(明知需求模糊卻不主動提問)是兩大主要癥結。
這些發現對未來的AI研究方向有明確的指引意義。對于打算開發數據可視化AI工具的團隊來說,DV-World提供了一面極為嚴苛的鏡子,能夠清晰地照出產品的真實能力邊界。對于普通用戶來說,這項研究提示我們,在把數據可視化任務完全委托給AI之前,仍然需要保持一定的批判性審視,尤其是在數值精確性和需求完整性方面。
這項研究的數據集、評測框架和詳細代碼均已在項目主頁公開(dv-world-project.github.io),研究者和開發者可以直接在這套平臺上測試自己的系統,也可以參考其評測方法論設計類似的基準測試。
Q&A
Q1:DV-World測試平臺與其他數據可視化AI測試有什么本質區別?
A:DV-World與現有測試平臺的核心區別在于三個維度:首先,它在真實的Excel原生環境中測試AI操作能力,而非簡單的代碼生成沙盒;其次,它包含"圖表演化"任務,考驗AI在已有圖表基礎上修改適配的能力,而非只考察從零創建;最重要的是,它引入了多輪對話模塊,模擬真實用戶提出模糊需求時AI應如何主動提問澄清。這三點對應了真實職場數據可視化工作的核心挑戰,是現有測試普遍缺失的。
Q2:DV-World測試中表現最好的AI模型是哪個?
A:在不同模塊中表現最好的模型有所不同。在Excel原生操作模塊(DV-Sheet)中,Gemini-3-Pro得分最高,約為40.48分;在圖表演化模塊(DV-Evolution)中,同樣是Gemini-3-Pro領先,得分約51.44分;在多輪交互模塊(DV-Interact)中,Grok-4得分最高,約為40.43分。但無論哪個模塊,最高分都低于52分,與人類專家80分以上的表現相比差距明顯。
Q3:DV-World的用戶模擬器如何防止AI作弊?
A:DV-World的用戶模擬器設計了兩階段防作弊機制。第一階段是"守門人",它會自動檢測AI是否在試圖套取敏感信息,比如直接要求提供實現代碼、詢問數據庫具體列名或要求給出答案——一旦檢測到這類行為,模擬器會直接拒絕回答。第二階段是"回應生成器",它嚴格按照預設的隱藏真實意圖和反應規則生成自然語言回復,不包含任何技術細節,確保AI只能通過合理的澄清提問來理解用戶意圖,而無法走捷徑獲取關鍵信息。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.