網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

OpenAI發(fā)表Nature論文：揭開AI模型總“說謊”的真相，人類對AI準(zhǔn)確性的評估促使其產(chǎn)生幻覺

2026-04-26 16:34:08　來源: 人工智能學(xué)家

北京舉報

分享至

來源：生物世界

撰文：王聰

編輯：王多魚

排版：水成文

當(dāng)你問當(dāng)前幾個主流的大語言模型，PGGB是什么意思？

ChatGPT回答：“多項式高斯梯度帶寬”（Polynomial Gaussian Gradient Bandwidth）；

Claude回答：“私募全球增長與收益基金”（Privately Held Global Growth and Income Fund）；

DeepSeek回答：“完美守衛(wèi)團(tuán)購”（Perfect Guard Group Buy）。

但實際情況是，這三個回答都是錯的，都是它們瞎編的。那么，這些大語言模型為什么不回答不知道，而是自信滿滿地給出一個編造的看似專業(yè)的答案呢？

這種現(xiàn)象在 AI 領(lǐng)域被稱為“幻覺”（Hallucination），也就是，大語言模型（LLM）有時會產(chǎn)生自信且看似合理但錯誤的信息，而這這限制了它們的可靠性。即便是在當(dāng)前最先進(jìn)（SOTA）的語言模型中，幻覺問題依然存在。要想進(jìn)一步減少 AI 的幻覺，我們需要了解它們?yōu)楹萎a(chǎn)生以及為何持續(xù)存在。

2026 年 4 月 22 日，OpenAI的研究人員國際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為：Evaluating large language models for accuracy incentivizes hallucinations 的研究論文。

這項研究揭示了一個令人驚訝的真相——我們用來衡量 AI 模型能力的評估標(biāo)準(zhǔn)，可能正是導(dǎo)致它“說謊”（出現(xiàn)幻覺）的元兇。

為什么 AI 會“胡說八道”？

如果你正在參加一場考試，遇到一道完全不會的題目，此時你會怎么做？相信大多數(shù)人會隨便猜一個答案寫上去，因此空著不答顯然是零分，而瞎蒙一個就算錯了也不會多扣分，并沒有額外損失。

而大語言模型（LLM）也面臨同樣的困境。

研究團(tuán)隊從兩個層面分析了幻覺產(chǎn)生的原因。

首先是預(yù)訓(xùn)練階段的統(tǒng)計壓力，大語言模型最初通過“下一個詞預(yù)測”進(jìn)行訓(xùn)練，即使訓(xùn)練數(shù)據(jù)完全正確無誤，這種訓(xùn)練方式也會產(chǎn)生統(tǒng)計偏差。對于訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次的事實（比如某人的生日），模型幾乎不可避免地會產(chǎn)生錯誤；而對于反復(fù)出現(xiàn)的規(guī)律（比如語法規(guī)則），錯誤率則很低。這就像你只見過某人一次，很難準(zhǔn)確記住他的生日；但如果你每天都用同樣的語法結(jié)構(gòu)，自然能掌握它。簡單來說，AI 對罕見事實的“記憶”天生就不靠譜。

更嚴(yán)重的問題出現(xiàn)在后續(xù)的評估階段。

基于準(zhǔn)確性的評估指標(biāo)系統(tǒng)性地獎勵猜測行為。當(dāng)前對于大語言模型的主流評估方式——基于準(zhǔn)確性（accuracy）的評分系統(tǒng)，這在本質(zhì)上是在鼓勵 AI“猜答案”而不是“承認(rèn)不知道”。

研究團(tuán)隊分析了多個主流的大語言模型基準(zhǔn)測試，發(fā)現(xiàn)絕大多數(shù)都采用二元評分：答對得 1 分，答錯或放棄得 0 分。在這種規(guī)則下，放棄回答永遠(yuǎn)是最差的選擇，因為放棄意味著 0 分，而猜一個答案至少有機(jī)會得分。

研究團(tuán)隊舉了一個具體例子：在SimpleQA評估中，OpenAI 的 o4-mini 模型幾乎回答了所有問題（錯誤率超過 3/4），而 GPT-5-mini 則經(jīng)常選擇放棄（因此錯誤更少）。但在這一評估標(biāo)準(zhǔn)下，o4-mini 的得分反而更高，因為它答得多。

這種評估方式讓 AI 陷入了“考試模式”——永遠(yuǎn)在猜答案，永遠(yuǎn)不敢說“我不知道”。而現(xiàn)實中，一個可靠的人類助手在面對不確定的問題時，會主動承認(rèn)知識局限或請求更多信息。

訓(xùn)練和評估過程中幻覺的起源與持續(xù)存在

解決方案：讓AI知道“考試規(guī)則”

那么，如何解決這個問題？論文提出了一個簡單而有效的方案：開放式評分標(biāo)準(zhǔn)（open-rubric）。

具體做法是：在向 AI 提問時，明確告知評分規(guī)則。比如：“正確答案得 1 分，錯誤答案得 -1 分（所以如果你正確的概率低于 50%，那么最好放棄回答）”、“只有完全正確的答案才能得分（如果不確定，請做出最佳猜測）”

這就像考試前老師明確告知“答錯扣分”還是“答錯不扣分”，讓學(xué)生可以根據(jù)規(guī)則調(diào)整策略。

接下來，研究團(tuán)隊在四個前沿模型（Google 的 Gemini 3 Pro、OpenAI 的 GPT-5、xAI 的 Grok 4，以及 Anthropic 的 Claude Opus 4.5）上進(jìn)行了實驗。結(jié)果顯示，當(dāng)使用“開放式評分標(biāo)準(zhǔn)”時，所有模型都能根據(jù)不同的錯誤懲罰程度調(diào)整自己的“猜測傾向”——懲罰越重，放棄越多。

更重要的是，在這種評估體系下，減少幻覺的技術(shù)不再需要以降低準(zhǔn)確率為代價。模型可以像好學(xué)生一樣，既展示知識，又懂得在適當(dāng)?shù)臅r候保持謹(jǐn)慎。

這對 AI 發(fā)展意味著什么？

這項研究揭示了一個根本性的問題：我們?nèi)绾卧u估 AI，決定了 AI 如何行為。

當(dāng)前，大語言模型的開發(fā)過程中，準(zhǔn)確率等“關(guān)鍵指標(biāo)”主導(dǎo)著模型選擇、數(shù)據(jù)篩選和算法優(yōu)化。如果這些指標(biāo)本身就在鼓勵不良行為，那么無論我們在減少幻覺方面取得多少技術(shù)進(jìn)步，都可能被評估體系所抵消。

因此，論文作者強調(diào)，提高 AI 的可靠性不僅是建模問題，更是評估機(jī)制設(shè)計問題。與其增加單獨的反幻覺基準(zhǔn)測試，不如修改評估方式，讓它們能夠激勵 AI 在適當(dāng)?shù)臅r候承認(rèn)不確定性。

隨著大語言模型在醫(yī)療、法律、金融等關(guān)鍵領(lǐng)域的應(yīng)用越來越廣泛，解決幻覺問題變得至關(guān)重要。這項發(fā)表于Nature的研究提醒我們，要讓 AI 更可靠，我們首先需要更聰明的評估方式。

論文鏈接：

https://www.nature.com/articles/s41586-026-10549-w

閱讀最新前沿科技趨勢報告，請訪問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識庫”

未來知識庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.