網易首頁 > 網易號 > 正文申請入駐

中科院信息工程研究所：讓AI"看圖說話"不再胡編亂造的新方法

2026-05-08 20:15:46　來源: 科技行者

天津舉報

分享至

這項由中國科學院信息工程研究所與中國科學院大學網絡空間安全學院聯合開展、并有京東集團參與合作的研究，以預印本形式于2026年5月1日發布在arXiv平臺，論文編號為arXiv:2605.00323。研究提出了一種名為OSCAR（Online Self-CAlibRation，在線自我校準）的全新框架，專門針對多模態大型語言模型在"看圖說話"任務中頻繁出現的"幻覺"問題給出了系統性解決方案。

你或許有過這樣的體驗：打開一款AI助手，上傳一張照片，讓它描述圖片內容，結果它煞有介事地告訴你畫面中有一把椅子、一盞臺燈，或者某個根本不存在的物體。AI沒有撒謊的動機，卻講出了假話。這就是人工智能領域所說的"幻覺"現象，而這項研究的目標，正是從根源上讓AI學會"只說自己真正看到的東西"。

一、AI為什么會"睜眼說瞎話"

要理解這項研究解決的問題，先從一個生活場景出發。假設你雇了一位剛入行的年輕助手，讓他描述一幅畫。為了訓練他，你給他看了一位經驗豐富的鑒賞家寫的描述——那位鑒賞家眼力極好，能辨識出畫面角落里極細微的筆觸和若隱若現的小物件。年輕助手努力學習，卻發現很多鑒賞家提到的細節他根本看不清。但考核要來了，他必須寫出同樣豐富的描述，于是他開始"猜"：鑒賞家提到過畫里常有窗簾，那我也寫有窗簾；鑒賞家喜歡描述光影，那我也描述一番。結果他寫出來的內容聽起來頭頭是道，卻與眼前這幅畫沒有多大關系。

這就是研究團隊所揭示的"監督-感知錯位"（Supervision-Perception Mismatch）問題。目前主流的AI視覺模型訓練方式，通常借助GPT-4這類更強大的"老師"模型生成大量描述性文本，然后讓能力相對較弱的"學生"模型去模仿學習。老師看得準、描述得細，學生卻沒有老師那雙敏銳的眼睛。被逼著描述自己看不清的東西，學生最終學會的不是"看圖說話"，而是"猜圖說話"——依賴語言習慣和統計規律來填補感知的空白。

研究團隊用實驗直接驗證了這一點。他們用當時表現出色的Qwen3-VL-8B模型（在某項幻覺評測中得分高達88.91%）生成的描述數據，分別用2500條、5000條、7500條和10000條數據去微調一個叫做LLaVA-1.5-7B的模型。按理說，越多優質數據應該帶來越好的效果，然而結果恰恰相反：原始模型在POPE評測（一種專門檢驗AI是否"憑空捏造物體"的基準測試）上的F1得分是85.87%，用了2500條數據微調后降到85.33%，用了更多數據之后繼續下滑至84.46%、84.33%、84.65%。在另一個名為AMBER的綜合幻覺評測上，衡量"產生了多少幻覺"的CHAIR指標和衡量"認知捷徑依賴程度"的Cog指標，也都隨訓練數據增加而持續惡化。換句話說，喂給學生越多"超出其能力范圍"的數據，它就越會胡說八道。這一反常識的發現，成了整個研究的出發點。

二、發現一個意外的能力漏洞

既然外部強模型的監督會幫倒忙，那能不能讓AI用自己的能力來監督自己呢？這里有一個繞不過去的悖論：一個本身就會產生幻覺的模型，能給自己提供可靠的訓練信號嗎？

研究團隊在反復實驗中發現了一個頗為微妙的現象。同一個AI模型，在"開放式描述"和"針對性判斷"這兩種不同任務上，表現出了明顯的能力差異。

以LLaVA-1.5模型為例。當你讓它"請詳細描述這張圖片"時，它會洋洋灑灑地寫下一段話，其中可能包含"墻上有一個時鐘"這樣的內容——但圖片里根本沒有時鐘。然而，當你換一種方式問它"圖片里有時鐘嗎？"時，它卻能準確地回答"沒有，圖片里沒有時鐘"。

這個現象揭示了AI內部的一種矛盾：在自由發揮模式下，模型容易被語言習慣帶著走，大腦里"描述室內場景時通常會提到時鐘"這樣的統計偏見悄悄混入了輸出；但在"是/否"這種有明確約束的驗證模式下，模型反而能更專注地把注意力放在圖像本身，從而給出更準確的判斷。研究團隊把這種差異稱為"生成-判別鴻溝"（Generative-Discriminative Gap）。

為了量化這個鴻溝，他們做了一個精巧的實驗。首先讓LLaVA-1.5-7B對500張COCO數據集中的圖片進行自由描述，然后記錄下所有被錯誤捏造出來的物體（用CHAIR指標衡量，初始CHAIRS得分是49.0%，CHAIRI得分是14.3%）。接著，對每一個被捏造的物體，比如"時鐘"，都向同一個模型提問："圖片里有時鐘嗎？"如果模型回答"沒有"，就把這個幻覺物體從描述中刪去，然后重新計算CHAIR指標。結果令人印象深刻：僅僅通過這種簡單的自我驗證，CHAIRS從49.0%降到了36.0%，CHAIRI從14.3%降到了9.3%。

這說明，AI模型并非真的"看不見"——它的感知能力其實存在，只是在自由生成模式下被語言慣性壓制了。而這個被壓制的感知能力，恰恰可以被"征用"來為模型提供自我監督信號。

三、像下棋一樣深謀遠慮地"造句"

發現了可以利用自身判別能力來獲取監督信號，下一個問題是：如何用這個能力來生成高質量的訓練數據？

常規做法是讓模型生成一批描述，然后從中選出好的和壞的，組成"偏好對"（preference pair），再用這些對比數據來強化模型傾向于生成好描述的行為。但問題在于，如果只是貪心地在每一步都選擇"當下看起來最安全"的詞語，往往會錯過隱藏的風險：某一句話現在看來無害，卻可能把后續的生成"帶偏"，引發連鎖的幻覺反應，就像棋手下了一步看似穩妥的棋，卻沒料到三步后會落入對手的陷阱。

研究團隊引入了蒙特卡洛樹搜索（Monte Carlo Tree Search，MCTS）來解決這個問題。MCTS原本是一種讓計算機在圍棋、象棋等復雜博弈中進行深度思考的技術，AlphaGo擊敗人類圍棋冠軍的背后，正是依賴了這一機制。將它用于語言生成，相當于給AI配備了一種"沙盤推演"能力：在真正下筆之前，先在腦子里模擬多種可能的寫法，預測每種寫法最終會導向什么樣的結果，然后選擇最有可能產出既忠實又流暢描述的那條路徑。

在OSCAR框架中，MCTS的搜索過程以句子為單位展開——每一步不是選一個詞，而是選擇完整的一句話。搜索樹的每個節點代表已經寫出的部分描述，每個"動作"代表新生成的一句話。整個搜索過程分四個階段循環進行：首先是"選擇"，從根節點（空描述）出發，根據已有信息選擇最值得繼續探索的分支；然后是"擴展"，在當前節點處生成若干候選句子，并過濾掉與其他候選句過于相似的版本以保證多樣性；接著是"評估"，對新生成的句子進行打分；最后是"反向傳播"，將評分結果從葉節點一路傳回根節點，更新整棵樹上各分支的估值。

值得一提的是，為了防止候選句子"扎堆"，系統還會計算句子之間的語義相似度，自動剔除太相近的選項。同時，選擇分支時引入了一種"探索-利用平衡"機制，既不會一味選擇當前分值最高的路徑而忽視其他可能性，也不會漫無目的地隨機探索，而是在二者之間保持動態平衡。

四、雙管齊下的評分機制

MCTS的效果好不好，關鍵取決于如何給每一句候選內容打分。如果打分標準有偏差，整個搜索就會走偏。研究團隊設計了一套被稱為"雙粒度獎勵機制"（Dual-Granularity Reward Mechanism）的評分體系，從兩個不同角度來評估生成內容的質量。

第一個角度是"過程獎勵"（Process Reward），針對每一句剛剛生成的句子進行即時判斷。做法很直接：把這句話交給模型自己，同時附上圖片，問它"這句話是否提到了圖片中不存在的物體？"答案選項是"A是"或"B否"，取模型回答"否"的概率作為這句話的過程得分。概率越高，說明模型自己認為這句話越忠實于圖像，得分越高。

第二個角度是"門控結果獎勵"（Gated Outcome Reward），針對完整的描述進行綜合評價。它的運作方式頗為嚴格，分兩步走。第一步是"過關檢查"：從生成的完整描述中提取所有物體名詞，將它們與圖片的真實標注進行比對（通過一個預先建立的同義詞詞典將物體名稱統一為標準類別名稱），只要有任何一個物體不在真實標注中出現，這段描述就被判定為"含有幻覺"，結果獎勵直接歸零。第二步只對通過了"過關檢查"的描述生效：此時再評估這段描述的整體質量，具體維度包括邏輯連貫性、語言流暢性和信息冗余度三個方面，讓模型對描述打一個0到10分的綜合分，除以10得到最終的結果獎勵分。

將過程獎勵和結果獎勵加在一起，就構成了每個節點的最終價值。通過反向傳播，這個綜合價值會影響到樹中每個早期節點的估值——某句話生成之后，如果它導向的完整描述往往又準確又流暢，那么這句話就會被認為是"優質的早期選擇"；反之，如果它往往引發后續的幻覺，即便它本身看起來無害，也會被壓低評分。這正是MCTS真正的價值所在：它讓模型的"視野"從當前這句話延伸到了整篇描述的結局。

五、從搜索樹到訓練數據，再循環迭代

有了MCTS生成的搜索樹，如何把它轉化為訓練數據？OSCAR采用了兩種互補的方式來提取"偏好對"。

第一種叫"全局路徑對比"：找到整棵搜索樹中累積價值最高的那條完整路徑（從根節點到葉節點的一系列選擇），作為"優選回應"；同時找到累積價值最低的那條完整路徑，作為"拒絕回應"。這一對數據告訴模型：面對同一張圖片和同一個問題，這種整體風格的描述是好的，那種整體風格的描述是不好的。

第二種叫"兄弟節點對比"：沿著最優路徑，在每一個深度層級，都把被選中的節點與同一層中表現最差的"兄弟節點"配成一對，但只有當兩者的價值差距足夠大時才配對，以確保形成有意義的對比。這種方式能從同一棵搜索樹中提取出多個偏好對，極大地提升了數據的利用效率。

有了偏好對數據，就可以運用DPO（直接偏好優化，Direct Preference Optimization）算法來訓練模型，讓模型在相同情境下更傾向于生成類似"優選回應"而非"拒絕回應"的內容。DPO是目前AI對齊研究中廣泛使用的一種高效訓練方法，它不需要單獨訓練一個評分模型，而是直接在原有模型上優化"選哪個更好"這一偏好信號。

整個框架采用迭代式的在線學習策略：第一輪，用原始模型通過MCTS生成偏好數據，訓練得到第一代改進模型；第二輪，用第一代改進模型重新通過MCTS生成新的偏好數據，訓練得到第二代改進模型；第三輪如法炮制。每一輪中，由于模型本身已經變得更好，它通過MCTS生成的偏好數據質量也相應提升，從而形成一種良性循環——訓練數據始終與模型當前的感知能力保持匹配，而不是像之前那樣用超出能力范圍的數據來強行"拔苗助長"。

六、實驗數據說明了什么

研究團隊以LLaVA-1.5-7B和LLaVA-1.5-13B作為基礎模型，從LLaVA-150k數據集中采樣圖片和問題，每輪迭代生成約12萬個偏好對，共迭代三輪，在多個標準評測集上與一系列對比方法進行了全面比較。

在專門衡量"生成了多少幻覺"的Object-HalBench評測集上，CHAIRS指標（衡量包含幻覺的句子比例）對于LLaVA-1.5-7B從原始的49.0%，經過三輪迭代依次降低至32.0%、28.6%、27.6%；CHAIRI指標（衡量幻覺物體占所有提及物體的比例）從14.3%降至9.7%、9.0%、8.2%。作為對比，此前表現最好的POVID方法在CHAIRS上只能達到33.6%，SIMA方法只能達到40.9%，OSCAR的最終結果均明顯優于這些對比方法。

在AMBER綜合幻覺評測集的生成任務部分，OSCAR在三輪迭代后將Hal指標（幻覺發生率）從原來的31.2%降至17.2%，將Cog指標（認知捷徑依賴度）從3.6%降至1.6%，同樣處于所有對比方法中的最佳水平。

在評測通用多模態理解能力的MM-VET評測集上，OSCAR將綜合得分從32.5提升至34.6，說明減少幻覺的同時，描述的整體質量和信息豐富度并未下降，甚至有所提升。

在判別式任務（即讓模型回答"圖片里有沒有某個物體"）上，OSCAR同樣取得了提升：AMBER判別任務的F1分數從75.5%提升至80.2%，POPE評測的F1分數從85.87%提升至86.22%。

對于更大的LLaVA-1.5-13B模型，效果更為顯著。CHAIRS從44.8%直降至5.4%，降幅高達87.9%；CHAIRI從11.8%降至2.6%，降幅約78%。這表明OSCAR的機制對更大規模的模型同樣有效，甚至效果更為突出。

消融實驗（即逐一去掉某個組件，觀察性能變化的實驗）進一步驗證了各模塊的貢獻。基礎模型（不加任何模塊）的CHAIRS是49.0%。只加過程獎勵時降至46.7%；只加門控結果獎勵加MCTS時降至44.0%；過程獎勵加MCTS（但不加結果獎勵）時降至45.6%；三者都加上之后降至32.0%。這說明三個組件缺一不可，共同協作才能發揮最大效果，而MCTS本身對減少幻覺的貢獻最為直接。

此外，在"在線學習與離線學習"的對比實驗中，研究團隊用同等數量（1萬條）的不同來源數據進行監督微調，分三組對比：用Qwen3-VL生成的數據微調后，CHAIR指標從7.6惡化到9.2，Hal指標從31.2飆升至62.7，印證了監督-感知錯位的危害；用LLaVA自身生成的數據微調后，指標基本持平，沒有明顯改善；而用OSCAR構建的偏好對中的優選樣本進行微調后，CHAIR降至4.5，Hal降至15.4，Cog降至1.4，效果遠超其他兩種數據來源。

在定性分析中，面對同一張圖片（一個男人坐在餐桌旁使用手機），LLaVA-1.5的描述中包含了"兩張沙發"、"一本書"、"一個水瓶"、"一個書包"等根本不存在于圖中的物體，而OSCAR生成的描述中雖然仍有少量不準確之處，但整體的幻覺率明顯更低，描述也更為簡潔連貫，減少了重復和冗余。

說到底，這項研究揭示了一個長期被忽視卻至關重要的道理：用超出學生能力的標準來要求學生，不僅不會讓他進步，反而會逼著他走上作弊和蒙混的歪路。AI的訓練也是如此。解決幻覺問題的關鍵，不是找來更厲害的老師逼著AI學，而是讓AI學會用自己已有的能力來約束自己，把真正"看"到的東西和語言習慣"編"出來的東西區分開來。MCTS賦予了模型"走一步看三步"的能力，雙粒度獎勵讓模型在忠實性和流暢性之間找到平衡，迭代的在線學習則讓整個系統隨著模型能力的提升而不斷進化。

這對普通用戶意味著，未來AI助手在描述圖片、分析醫學影像或輔助自動駕駛時，產生"無中生有"錯誤的概率有望持續降低。當然，LLaVA-1.5并非當下最強的模型，OSCAR框架能否無縫遷移到更大規模、更復雜的模型上，以及在更多樣化的場景下是否依然有效，仍是值得后續探索的問題。有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2605.00323查閱完整原文。

Q&A

Q1：AI"幻覺"是什么意思，為什么AI會描述圖片中不存在的物體？

A：AI"幻覺"指的是大型語言模型或視覺語言模型生成了與實際輸入內容不符的內容。在看圖說話任務中，AI之所以會描述不存在的物體，主要是因為它在訓練過程中大量學習了語言規律，比如"描述室內場景時經常出現沙發、臺燈、書架"，當它進行自由生成時，這種統計習慣會悄悄混入輸出，使得它"說出"了實際沒有看到的東西。

Q2：OSCAR框架和之前的AI幻覺解決方案有什么根本區別？

A：核心區別在于"誰來提供訓練信號"以及"數據如何生成"。之前的方法大多依賴更強大的模型（如GPT-4）來生成訓練數據，但這樣做會產生"監督-感知錯位"，即弱模型被迫學習超出自身感知能力的內容，反而加劇幻覺。OSCAR讓模型用自身的判別能力來監督自己，并通過蒙特卡洛樹搜索進行深度推演，避免了局部最優陷阱，同時迭代更新確保訓練數據始終與模型能力匹配。

Q3：蒙特卡洛樹搜索在OSCAR中具體是怎么幫助減少幻覺的？

A：蒙特卡洛樹搜索讓AI在生成每一句描述之前，先在腦子里"沙盤推演"多種可能的后續寫法，預測哪種開頭更可能導向一篇整體忠實、流暢的描述。這樣就避免了一個常見問題：某句話當下看起來安全，但實際上會把后續生成"帶偏"，引發連鎖幻覺。通過模擬未來、反向傳播評分，MCTS讓早期的詞句選擇也能感知到"長遠后果"。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.