網易首頁 > 網易號 > 正文申請入駐

IIT馬德拉斯揭露AI評審員的"視而不見"

2026-05-06 19:21:46　來源: 科技行者

天津舉報

分享至

這項由印度理工學院馬德拉斯（IIT Madras）Nilekani AI4Bharat中心與BITS Pilani海德拉巴校區聯合開展的研究，以預印本形式發布于2026年4月23日，論文編號為arXiv:2604.21523v1，有興趣深入了解的讀者可通過該編號檢索完整原文。

當你把一道數學題的答案交給一位批改老師，你天然地假設這位老師真的讀了你的解題過程，真的看懂了每一步。然而，假如這位老師其實只是掃了一眼卷面整潔程度就給了分，那整個評分體系就會徹底失去意義。這恰恰就是當前AI領域正在發生的一件令人不安的事情——我們越來越依賴一類叫做"評審VLM"（Vision-Language Models，即視覺語言大模型）的AI系統來評判其他AI的輸出質量，但這些評審者本身究竟是否真的"看懂了"它們所評判的內容，卻少有人認真追問。

來自IIT馬德拉斯的研究團隊決定把這個問題搬上臺面，做一次系統性的"考試"。他們構建了一套名為FOCUS的元評估基準，專門用來檢驗這些評審AI有哪些"視而不見"的盲區。研究團隊構造了超過4000個經過精心設計的"錯誤樣本"，涵蓋40個不同的錯誤維度，然后用四個業界頂尖的視覺語言大模型來評判這些樣本，看它們能否發現其中的問題。結果令人警醒：在某些情況下，這些評審AI有超過一半的概率發現不了明顯的錯誤。

這件事為什么值得關注？因為這些評審AI不只是用在學術排名上，它們還被用于在AI訓練過程中提供獎勵信號——也就是說，如果評審AI看不出某類錯誤，被訓練的AI就永遠學不會避免那類錯誤，甚至會被強化犯那類錯誤。這是一個藏在AI開發流程深處的隱患。

一、評審AI是什么，為什么我們需要它

要理解這項研究，先得明白為什么AI評審員會出現。假設你是一家公司，想測試你開發的看圖問答AI到底好不好。最直接的辦法是找真人來評判每一條輸出結果，但這既昂貴又緩慢——如果要評估幾萬條甚至幾百萬條輸出，人力根本跟不上。于是，用另一個更大、更強的AI來當評委，就成了業界的通行做法。這類充當評委角色的AI，被稱為"評審VLM"。

這類評審AI承擔著兩類核心任務。第一類叫做"圖文到文本任務"（Image-to-Text，簡稱I2T）：給定一張圖片和一個問題，AI生成了一段文字回答，評審AI要判斷這段回答有沒有準確描述圖片內容，有沒有編造圖片中不存在的東西。第二類叫做"文本到圖像任務"（Text-to-Image，簡稱T2I）：給定一段文字描述，AI生成了一張圖片，評審AI要判斷這張圖片有沒有忠實地反映文字描述中的要求。

評審AI通常有三種工作方式。最常見的叫"單答案打分"，就像一位獨自閱卷的老師，只看到一份答卷，給它打一個分數。第二種叫"兩兩比較"，像拳擊裁判，同時看兩份答卷，裁定哪個更好。第三種叫"參考引導打分"，像一位手里有標準答案的老師，把學生答案和標準答案對比后給分。

這三種方式在實際中都被廣泛使用，但哪種更靠譜？研究團隊通過FOCUS基準給出了系統性的答案。

二、FOCUS是如何設計這場"考試"的

研究團隊設計這套考試的核心邏輯，有點像給一位品酒師端上一杯摻了水的葡萄酒，看他能不能嘗出區別。如果他喝完說"味道很好"，那就說明他的味覺不夠敏銳，或者他根本沒認真喝。

具體來說，研究團隊的做法是這樣的：他們首先從七個真實世界的評測基準中收集了600個圖文問答實例（用于I2T任務）和750個文本生成圖像實例（用于T2I任務）。然后，他們用當前最強的AI模型生成"黃金答案"——即標準的、正確的輸出。接下來，他們對這些黃金答案進行"有控制的破壞"，注入特定類型的錯誤，得到"擾動版本"。最后，把黃金版本和擾動版本都交給評審AI去評判，看評審AI能不能察覺出擾動版本里的問題。

這些"破壞"并不是隨機的亂改，而是按照研究人員精心設計的四大類錯誤維度來實施的。整個構建過程不是全自動的，而是經過了人工審核——每一個擾動樣本都由研究團隊的標注人員親自檢查，確保注入的錯誤確實是有意義的錯誤，既不會過于明顯讓人一眼看穿，也不會過于晦澀以至于即便是人類也難以察覺。

對于圖文到文本任務，研究團隊設計了四大類錯誤。第一類叫做"視覺基礎類錯誤"，這類錯誤直接針對圖片中可以肉眼觀察到的具體內容。比如，把"坐在草地上的斑點狗"改成"坐在草地上的拉布拉多"，兩種狗看起來都是狗，但實際上是不同的品種；把"一輛紅色汽車停在路邊"改成"一輛藍色汽車停在路邊"，顏色悄悄換了；把"書在桌子下面"改成"書在桌子上面"，空間關系翻轉了；或者在描述中加入圖片里根本不存在的物體，比如在公園里憑空添加一座雕像。這類錯誤考驗的是評審AI有沒有真的對照圖片檢查文字描述。

第二類叫做"語義理解類錯誤"，攻擊的是更深層的語境和文化意涵。比如，把"一個沉思中的男人坐著"改成"一個無聊的男人坐著"——字面上兩句話都描述了一個坐著的男人，但前者傳達了思考的內涵，后者傳達了消極情緒，二者意思截然不同。或者，把"穿著和服的人"改成"穿著紗麗的人"，把日本文化符號換成了印度文化符號。這類錯誤要求評審AI不只是認出物體，還要理解文化和語境。

第三類叫做"視覺推理類錯誤"，針對的是數字、因果關系和結構化信息。把"3只狗"改成"5只狗"，或者把"人口增長了15%"改成"人口增長了12%"，數字看起來合理但其實是錯的。這類錯誤考驗評審AI能不能仔細核對具體數字。

第四類叫做"長文生成類錯誤"，專門針對較長段落的文字描述，比如把一首描寫暴風雨轟擊燈塔的詩歌，悄悄地改成語氣輕松樂觀的版本，但圖片里明明是陰沉的場景。

對于文本到圖像任務，研究團隊同樣設計了四大類錯誤。"視覺保真類錯誤"改的是圖像中的具體元素，比如把提示詞要求的"貓"生成成了"狗"，或者把要求"銀刀放在籃子右邊"的場景改成了刀放在籃子左邊。"場景連貫類錯誤"破壞的是場景整體的和諧感，比如在一幅維多利亞時代的蒸汽朋克實驗室場景里，悄悄加入一個現代數字萬用表。"物理合理性類錯誤"引入的是違反自然規律的場景，比如一個玻璃球放在棋盤格上，棋盤格應該因為折射而在球內呈現倒置扭曲的圖案，但擾動后棋盤格在球內顯示正常，沒有任何折射效果。"文字渲染類錯誤"則是把圖像里的文字悄悄改錯，比如把"BREATHE"改成"BRAETHE"，只是一個字母順序的調換，但就是拼錯了。

整個數據集包含了圖文任務的1726個有效擾動實例和圖像任務的2363個有效擾動實例，以及各自額外的幾百個"得分不變"的對照樣本——所謂得分不變，是指那些改動了但實際上不應該影響評分的版本，比如把原答案換個說法重新表述，意思相同但措辭不同，一個合理的評審不應該因此降低分數。這些對照樣本用來檢驗評審AI有沒有對無關變動過度敏感。

三、四位"評委"接受測試，結果如何

研究團隊選取了四個當前業界頂尖的視覺語言大模型擔任評審：Gemini 3.1 Pro、GPT-5.4、Claude Opus 4.6，以及Qwen3.5-397B-A17B。為了公平起見，所有模型使用完全相同的評估提示詞，并且都設置在它們各自支持的最高推理級別下運行。

實驗的衡量指標相當直觀：對于"單答案打分"模式，衡量的是擾動版本和黃金版本得到相同分數的比例——一個好的評審應該給擾動版本打更低的分，如果分數沒變，就說明它沒發現錯誤。對于"兩兩比較"模式，衡量的是評審AI沒能正確選出黃金版本的比例——它應該總是選黃金版本。對于"參考引導打分"，衡量的是評審AI給擾動版本打了滿分的比例——有了標準答案作參考還打滿分，說明它完全沒有注意到差異。

結果是什么？對于圖文到文本任務，在最簡單的"單答案打分"模式下，評審AI沒能檢測到擾動錯誤的比例高達27%到47%，具體數字取決于使用的評審AI和提示詞策略。換句話說，將近三分之一到將近一半的時間里，這些評審AI面對有明顯錯誤的答案，卻給出了和正確答案相同的分數。對于文本到圖像任務，情況更糟，在某些條件下，檢測失敗率超過了50%。

"兩兩比較"模式表現最好，失敗率通常降到了10%到25%區間。相對之下，"參考引導打分"居于中間，提供了參考答案確實有所幫助，但幫助有限。這個發現很有意思——在純文字評審領域，有研究發現參考引導是最有效的模式，但在視覺語言評審領域，兩兩比較反而更強。這說明視覺理解的難度讓獨立判斷變得格外不可靠，而直接比較兩個選項能更好地激活模型的辨別能力。

在四個模型中，Gemini 3.1 Pro整體表現最好，尤其是在兩兩比較模式下，它的失敗率在所有模型中最低。Claude Opus 4.6盡管在一些通用排行榜上名列前茅，但在這個評估任務上卻表現相對欠佳，失敗率在幾個模型中偏高。GPT-5.4總體上競爭力不錯，略落后于Gemini。Qwen3.5-397B-A17B在相對容易的圖文任務上尚可，但在更難的文本到圖像任務上失敗率明顯更高。這說明通用能力強不等于評審能力強，這二者是不完全等同的技能。

四、哪類錯誤最難被發現

不是所有類型的錯誤對評審AI來說難度相當。研究團隊分析了不同錯誤類別下的失敗率，發現了一些值得關注的規律。

在圖文到文本任務中，視覺基礎類錯誤和語義理解類錯誤是最難被檢測到的。視覺基礎類錯誤很難被發現，主要是因為評審AI傾向于依賴語言流暢度而非真正對照圖片核實內容——一句關于"藍色汽車"的描述在語言上完全通順，沒有任何語法或邏輯問題，如果評審AI不去看圖片里的汽車究竟是什么顏色，就根本發現不了問題。語義理解類錯誤難以發現，則是因為把"沉思"換成"無聊"這類改動，在句子結構上沒有任何破綻，需要評審AI真正理解語境才能察覺。

相比之下，視覺推理類錯誤（比如數字錯誤）和長文生成類錯誤在"兩兩比較"模式下的檢測率明顯提升——當兩個版本擺在一起，5只狗和3只狗的差異更容易被注意到。

在文本到圖像任務中，物理合理性類錯誤是最難被檢測到的，無論是在單答案打分還是兩兩比較模式下都是如此。這類錯誤要求評審AI真正理解物理規律——光線折射該是什么效果，重力下布料該如何變形，陰影應該朝哪個方向——這需要遠超簡單視覺識別的推理能力。場景連貫類錯誤是最容易被發現的，因為視覺上的不協調感往往一眼就能看出來。

令人意外的是，文字渲染類錯誤在"參考引導"模式下反而特別難被發現。你可能會想，有了標準答案作對比，"COFFEE"和"COEFEE"不是應該一眼就看出來嗎？但實際上，評審AI經常在文字識別上產生"視覺慣性"，傾向于把字形相似的錯誤拼寫識別為正確的單詞，這暴露了當前視覺語言模型在精細文字識別上的系統性弱點。

五、推理越多，表現越好嗎

這部分的發現頗為出人意料。研究團隊還專門測試了"推理預算"對評審質量的影響——現代大模型通常可以設置"思考多久再給出答案"，思考時間越長，理論上應該答案越好。

對于單答案打分模式，在圖文到文本任務中，更高的推理預算確實有所幫助。但在文本到圖像任務中，中等推理預算反而是最好的，最高推理預算反而導致失敗率上升。對于兩兩比較模式，更高的推理預算在圖文和圖像任務中都普遍讓表現變差，低或中等推理預算反而更準確。

這個發現違背了"想得越久越準確"的直覺。可能的解釋是，當推理過于充分時，模型開始過度分析、自我懷疑，在一些其實無需糾結的判斷上浪費了注意力，最終反而繞暈了自己。不過由于無法獲取模型的完整推理鏈，研究團隊也坦承這部分的解釋只是推測。

六、分數之外，理由能說明什么

研究團隊還做了一個有趣的追加實驗：除了最終的分數或判決，評審AI還會生成一段解釋自己判斷依據的文字。研究團隊專門分析了這些解釋性文字，看看評審AI有沒有在文字里提到錯誤，哪怕沒有在分數上體現出來。

結論是，確實有一部分額外的錯誤被評審AI在文字解釋中提到了，但沒有反映到分數上。這種現象在單答案打分模式下最為明顯——評審AI有時候在解釋里寫了"這個答案提到了X，但圖片里X實際上并不存在"之類的話，但最終分數卻依然沒有下調。這說明評審AI有時候"看到了"問題，卻沒有"執行"相應的懲罰，就像一個老師批改時在旁邊寫了"這里有錯"，但最終分數沒有扣分。在兩兩比較模式下，分數和解釋之間的一致性相對更好，說明這種模式下的判斷更連貫。

然而，即便把這些"只在文字里提到但沒反映在分數上的錯誤"也算進去，整體的檢測率改善也相當有限。評審AI的局限性，不是一個簡單分析解釋文字就能彌補的問題。

七、參考答案的質量影響有多大

研究團隊還測試了一個實際應用中非常重要的問題：如果"參考引導打分"模式中使用的參考答案發生了變化，評審質量會受到多大影響？

他們用一個不同的隨機溫度重新生成了參考答案，對于文字任務來說，這意味著措辭有所不同但意思相同的改寫版本；對于圖像任務來說，這意味著視覺風格不同但內容相同的重新生成版本。結果很有意思：對于圖文到文本任務，換了參考答案后，評審AI的失敗率小幅上升了——說明文字評審AI對參考答案和待評答案之間的表面相似度比較敏感，如果兩者措辭太不一樣，評審AI可能會誤以為待評答案有問題，即使內容其實是正確的。對于文本到圖像任務，換了參考圖像后，評審AI的失敗率反而有所下降——視覺多樣性的參考答案反而幫助評審AI更好地抓住語義核心，而不是糾纏于圖像的視覺風格。

這意味著在實踐中，參考引導評分的效果很大程度上取決于參考答案是如何產生的，不能把它當成一個萬能的提升手段。

八、"得分不變"的測試：會不會對好的內容也打低分

一個合格的評審不僅要能發現錯誤，還要能"不冤枉好人"——對于那些只是換了個說法、實際上沒有引入任何問題的版本，評審AI應該給出和原版相同的分數，而不是因為表述變了就認為質量下降了。

在這方面，單答案打分模式表現最好——它對無關變動最不敏感，最不容易"冤枉"好的答案。兩兩比較模式反而是最不穩定的：當兩個內容質量相同但表述風格略有不同的答案擺在一起時，評審AI傾向于強行選出一個"更好的"，即使兩者實際上一樣好。這說明兩兩比較雖然在發現真實錯誤上表現最好，但它同時也最容易"雞蛋里挑骨頭"，在沒有實質差異的情況下制造出虛假的質量差異。

這種特性對于實際使用來說是一個需要注意的權衡：兩兩比較的高敏感度是把雙刃劍，既幫助它發現真實錯誤，也讓它對無關差異過度反應。

歸根結底，這項研究說的是一件看起來技術性很強、但其實關乎AI系統根基的事情。我們在用AI評審AI，而這些評審AI本身有著相當顯著的盲區——它們對語言流暢度過于信任，對圖片內容核實不夠嚴格，對微妙的物理常識和文化語境理解有限，有時候"想到了"但"沒說出來"（在解釋里提到錯誤卻沒體現在分數里）。

對于普通用戶來說，這意味著你在使用AI工具時看到的那些"評分"或"質量排名"，可能并不像你以為的那么可靠，尤其是當排名依賴于另一個AI來打分的時候。對于AI開發者來說，這意味著用評審AI作為訓練獎勵信號時，那些盲區類型的錯誤會被不斷強化而不是糾正，長此以往會悄悄把模型推向錯誤的方向。

兩兩比較加上結構化評估維度，是目前相對最可靠的評審范式，但即便如此也有10%到25%的失敗率，在物理合理性和精細視覺辨別上尤為薄弱。堆砌更多推理時間并不是解決問題的靈藥，適度就好。通用排行榜的高名次不等于評審能力的高水平，這兩件事需要分開驗證。

這項研究的代碼和數據集已經公開發布在Hugging Face和GitHub上，任何想要更深入了解或在自己的研究中使用FOCUS基準的人，都可以通過arXiv:2604.21523v1找到原論文，進而找到對應的數據資源。

Q&A

Q1：FOCUS基準測試的核心原理是什么？

A：FOCUS的核心原理是"擾動檢測"——研究人員先生成正確的標準答案，然后在其中注入特定類型的錯誤，得到"擾動版本"，再把標準版和擾動版都交給評審AI評判。如果評審AI無法識別出擾動版本更差，就說明它存在對應類型的盲區。整個過程有人工標注員全程審核，確保注入的錯誤既真實有意義，又不會過于明顯或過于晦澀。

Q2：為什么物理合理性類錯誤比其他類型的錯誤更難被AI評審發現？

A：物理合理性類錯誤要求評審AI真正理解物理規律，比如折射光線的走向、重力下物體的形變、陰影的方向等，這超出了簡單的視覺識別范疇，需要對現實世界規律有深層推理能力。相比之下，換一種顏色或替換一個物體這類錯誤在視覺上更直觀可比。當前的視覺語言模型在物理常識推理上普遍薄弱，是一個系統性而非偶然性的局限。

Q3：評審AI在哪種工作模式下最可靠？

A：在研究測試的三種模式中，兩兩比較模式整體最可靠，失敗率通常在10%到25%之間，明顯低于單答案打分模式的27%至50%以上。不過兩兩比較也有代價：它對無關的表述差異也比較敏感，容易在兩個質量相近的輸出中強行分出高下。綜合來看，使用"評估軸線加規則"的結構化兩兩比較策略，是目前實踐中相對最穩健的選擇。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.