![]()
大語言模型最大的問題,可能不是它不夠聰明,而是它太想得分了。
不是AI變壞了,是規(guī)則在獎勵說謊。
![]()
"幻覺"這個(gè)詞在AI圈子里被說爛了,但它描述的現(xiàn)象仍然令人頭疼。大語言模型在面對不確定的問題時(shí),不會說"我不知道",而是用一種自信流利的語氣給出一個(gè)聽起來專業(yè)、實(shí)際上完全錯(cuò)誤的答案。
![]()
罕見事實(shí),就是大語言模型的天然盲區(qū)。
但更嚴(yán)重、也更可以被改變的問題,藏在評估環(huán)節(jié)里。
OpenAI的團(tuán)隊(duì)系統(tǒng)分析了當(dāng)前主流的大語言模型基準(zhǔn)測試,發(fā)現(xiàn)幾乎所有評估都采用一套簡單粗暴的二元評分邏輯:答對得1分,答錯(cuò)或放棄作答得0分。
這套邏輯在數(shù)學(xué)上產(chǎn)生了一個(gè)明確的激勵:對于任何一道不確定的題目,猜測都是理性選擇,因?yàn)椴聹y至少有機(jī)會得分,而放棄永遠(yuǎn)是零分。一個(gè)在不確定時(shí)選擇誠實(shí)沉默的模型,在排行榜上會系統(tǒng)性地輸給一個(gè)不管三七二十一全部猜答案的模型。
這是一個(gè)荒謬但真實(shí)存在的悖論:評估體系在獎勵更危險(xiǎn)的行為。
但研究團(tuán)隊(duì)強(qiáng)調(diào),僅僅在現(xiàn)有體系旁邊加幾項(xiàng)新的"反幻覺測試"并不夠用,真正需要改變的是那些被廣泛使用的主流評估體系本身。只要核心評分機(jī)制還在獎勵幸運(yùn)猜測,模型就會持續(xù)強(qiáng)化猜測行為,無論研究者在減少幻覺的技術(shù)方向上做出多少努力,都會被評估規(guī)則的激勵效應(yīng)悄悄抵消掉。
如何評估AI,決定了AI如何行為。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.