OpenAI研究：錯(cuò)誤率75%的AI比誠實(shí)模型更受歡迎

2026-04-29 18:44:58　來源: 沙溪解說

四川舉報(bào)

分享至

大語言模型最大的問題，可能不是它不夠聰明，而是它太想得分了。

不是AI變壞了，是規(guī)則在獎勵說謊。

"幻覺"這個(gè)詞在AI圈子里被說爛了，但它描述的現(xiàn)象仍然令人頭疼。大語言模型在面對不確定的問題時(shí)，不會說"我不知道"，而是用一種自信流利的語氣給出一個(gè)聽起來專業(yè)、實(shí)際上完全錯(cuò)誤的答案。

罕見事實(shí)，就是大語言模型的天然盲區(qū)。

但更嚴(yán)重、也更可以被改變的問題，藏在評估環(huán)節(jié)里。

OpenAI的團(tuán)隊(duì)系統(tǒng)分析了當(dāng)前主流的大語言模型基準(zhǔn)測試，發(fā)現(xiàn)幾乎所有評估都采用一套簡單粗暴的二元評分邏輯：答對得1分，答錯(cuò)或放棄作答得0分。

這套邏輯在數(shù)學(xué)上產(chǎn)生了一個(gè)明確的激勵：對于任何一道不確定的題目，猜測都是理性選擇，因?yàn)椴聹y至少有機(jī)會得分，而放棄永遠(yuǎn)是零分。一個(gè)在不確定時(shí)選擇誠實(shí)沉默的模型，在排行榜上會系統(tǒng)性地輸給一個(gè)不管三七二十一全部猜答案的模型。

這是一個(gè)荒謬但真實(shí)存在的悖論：評估體系在獎勵更危險(xiǎn)的行為。

但研究團(tuán)隊(duì)強(qiáng)調(diào)，僅僅在現(xiàn)有體系旁邊加幾項(xiàng)新的"反幻覺測試"并不夠用，真正需要改變的是那些被廣泛使用的主流評估體系本身。只要核心評分機(jī)制還在獎勵幸運(yùn)猜測，模型就會持續(xù)強(qiáng)化猜測行為，無論研究者在減少幻覺的技術(shù)方向上做出多少努力，都會被評估規(guī)則的激勵效應(yīng)悄悄抵消掉。

如何評估AI，決定了AI如何行為。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.