<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      OpenAI發(fā)表Nature論文:揭開AI模型總“說謊”的真相,人類對AI準(zhǔn)確性的評估促使其產(chǎn)生幻覺

      0
      分享至


      來源:生物世界

      撰文:王聰

      編輯:王多魚

      排版:水成文

      當(dāng)你問當(dāng)前幾個主流的大語言模型,PGGB是什么意思?

      ChatGPT回答:“多項式高斯梯度帶寬”(Polynomial Gaussian Gradient Bandwidth);

      Claude回答:“私募全球增長與收益基金”(Privately Held Global Growth and Income Fund);

      DeepSeek回答:“完美守衛(wèi)團(tuán)購”(Perfect Guard Group Buy)。

      但實際情況是,這三個回答都是錯的,都是它們瞎編的。那么,這些大語言模型為什么不回答不知道,而是自信滿滿地給出一個編造的看似專業(yè)的答案呢?

      這種現(xiàn)象在 AI 領(lǐng)域被稱為“幻覺”(Hallucination),也就是,大語言模型(LLM)有時會產(chǎn)生自信且看似合理但錯誤的信息,而這這限制了它們的可靠性。即便是在當(dāng)前最先進(jìn)(SOTA)的語言模型中,幻覺問題依然存在。要想進(jìn)一步減少 AI 的幻覺,我們需要了解它們?yōu)楹萎a(chǎn)生以及為何持續(xù)存在。

      2026 年 4 月 22 日,OpenAI的研究人員國際頂尖學(xué)術(shù)期刊Nature上發(fā)表了題為:Evaluating large language models for accuracy incentivizes hallucinations 的研究論文。

      這項研究揭示了一個令人驚訝的真相——我們用來衡量 AI 模型能力的評估標(biāo)準(zhǔn),可能正是導(dǎo)致它“說謊”(出現(xiàn)幻覺)的元兇。


      為什么 AI 會“胡說八道”?

      如果你正在參加一場考試,遇到一道完全不會的題目,此時你會怎么做?相信大多數(shù)人會隨便猜一個答案寫上去,因此空著不答顯然是零分,而瞎蒙一個就算錯了也不會多扣分,并沒有額外損失。

      大語言模型(LLM)也面臨同樣的困境。

      研究團(tuán)隊從兩個層面分析了幻覺產(chǎn)生的原因。

      首先是預(yù)訓(xùn)練階段的統(tǒng)計壓力,大語言模型最初通過“下一個詞預(yù)測”進(jìn)行訓(xùn)練,即使訓(xùn)練數(shù)據(jù)完全正確無誤,這種訓(xùn)練方式也會產(chǎn)生統(tǒng)計偏差。對于訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次的事實(比如某人的生日),模型幾乎不可避免地會產(chǎn)生錯誤;而對于反復(fù)出現(xiàn)的規(guī)律(比如語法規(guī)則),錯誤率則很低。這就像你只見過某人一次,很難準(zhǔn)確記住他的生日;但如果你每天都用同樣的語法結(jié)構(gòu),自然能掌握它。簡單來說,AI 對罕見事實的“記憶”天生就不靠譜。

      更嚴(yán)重的問題出現(xiàn)在后續(xù)的評估階段

      基于準(zhǔn)確性的評估指標(biāo)系統(tǒng)性地獎勵猜測行為。當(dāng)前對于大語言模型的主流評估方式——基于準(zhǔn)確性(accuracy)的評分系統(tǒng),這在本質(zhì)上是在鼓勵 AI“猜答案”而不是“承認(rèn)不知道”。

      研究團(tuán)隊分析了多個主流的大語言模型基準(zhǔn)測試,發(fā)現(xiàn)絕大多數(shù)都采用二元評分:答對得 1 分,答錯或放棄得 0 分。在這種規(guī)則下,放棄回答永遠(yuǎn)是最差的選擇,因為放棄意味著 0 分,而猜一個答案至少有機(jī)會得分。

      研究團(tuán)隊舉了一個具體例子:在SimpleQA評估中,OpenAI 的 o4-mini 模型幾乎回答了所有問題(錯誤率超過 3/4),而 GPT-5-mini 則經(jīng)常選擇放棄(因此錯誤更少)。但在這一評估標(biāo)準(zhǔn)下,o4-mini 的得分反而更高,因為它答得多。

      這種評估方式讓 AI 陷入了“考試模式”——永遠(yuǎn)在猜答案,永遠(yuǎn)不敢說“我不知道”。而現(xiàn)實中,一個可靠的人類助手在面對不確定的問題時,會主動承認(rèn)知識局限或請求更多信息。


      訓(xùn)練和評估過程中幻覺的起源與持續(xù)存在

      解決方案:讓AI知道“考試規(guī)則”

      那么,如何解決這個問題?論文提出了一個簡單而有效的方案:開放式評分標(biāo)準(zhǔn)(open-rubric)。

      具體做法是:在向 AI 提問時,明確告知評分規(guī)則。比如:“正確答案得 1 分,錯誤答案得 -1 分(所以如果你正確的概率低于 50%,那么最好放棄回答)”、“只有完全正確的答案才能得分(如果不確定,請做出最佳猜測)”

      這就像考試前老師明確告知“答錯扣分”還是“答錯不扣分”,讓學(xué)生可以根據(jù)規(guī)則調(diào)整策略。

      接下來,研究團(tuán)隊在四個前沿模型(Google 的 Gemini 3 Pro、OpenAI 的 GPT-5、xAI 的 Grok 4,以及 Anthropic 的 Claude Opus 4.5)上進(jìn)行了實驗。結(jié)果顯示,當(dāng)使用“開放式評分標(biāo)準(zhǔn)”時,所有模型都能根據(jù)不同的錯誤懲罰程度調(diào)整自己的“猜測傾向”——懲罰越重,放棄越多。

      更重要的是,在這種評估體系下,減少幻覺的技術(shù)不再需要以降低準(zhǔn)確率為代價。模型可以像好學(xué)生一樣,既展示知識,又懂得在適當(dāng)?shù)臅r候保持謹(jǐn)慎。

      這對 AI 發(fā)展意味著什么?

      這項研究揭示了一個根本性的問題:我們?nèi)绾卧u估 AI,決定了 AI 如何行為。

      當(dāng)前,大語言模型的開發(fā)過程中,準(zhǔn)確率等“關(guān)鍵指標(biāo)”主導(dǎo)著模型選擇、數(shù)據(jù)篩選和算法優(yōu)化。如果這些指標(biāo)本身就在鼓勵不良行為,那么無論我們在減少幻覺方面取得多少技術(shù)進(jìn)步,都可能被評估體系所抵消。

      因此,論文作者強調(diào),提高 AI 的可靠性不僅是建模問題,更是評估機(jī)制設(shè)計問題。與其增加單獨的反幻覺基準(zhǔn)測試,不如修改評估方式,讓它們能夠激勵 AI 在適當(dāng)?shù)臅r候承認(rèn)不確定性。

      隨著大語言模型在醫(yī)療、法律、金融等關(guān)鍵領(lǐng)域的應(yīng)用越來越廣泛,解決幻覺問題變得至關(guān)重要。這項發(fā)表于Nature的研究提醒我們,要讓 AI 更可靠,我們首先需要更聰明的評估方式。

      論文鏈接

      https://www.nature.com/articles/s41586-026-10549-w

      閱讀最新前沿科技趨勢報告,請訪問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識庫”


      未來知識庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟(jì)、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

      截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

      (加入未來知識庫,全部資料免費閱讀和下載)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      猝死的人越來越多?醫(yī)生再次強調(diào):寧可睡到中午,也別做這8事

      猝死的人越來越多?醫(yī)生再次強調(diào):寧可睡到中午,也別做這8事

      侯醫(yī)生談健康
      2026-04-15 18:35:03
      女演員千萬別整容!央八大劇的她,臉又僵又腫、鼻孔大的讓人出戲

      女演員千萬別整容!央八大劇的她,臉又僵又腫、鼻孔大的讓人出戲

      陳意小可愛
      2026-05-18 19:58:27
      難怪西方集體對中國黑臉:全球蛋糕分完,發(fā)現(xiàn)桌上只有7億人的碗

      難怪西方集體對中國黑臉:全球蛋糕分完,發(fā)現(xiàn)桌上只有7億人的碗

      熱點一網(wǎng)打盡
      2026-05-18 11:25:54
      14歲送上北野武的床,17歲拍寫真,被操控半生,年過50仍風(fēng)韻猶存

      14歲送上北野武的床,17歲拍寫真,被操控半生,年過50仍風(fēng)韻猶存

      飄飄然的娛樂匯
      2026-05-11 20:05:06
      神舟二十三即將發(fā)射,香港女航天員或?qū)w天,巴基斯坦也做好準(zhǔn)備

      神舟二十三即將發(fā)射,香港女航天員或?qū)w天,巴基斯坦也做好準(zhǔn)備

      光電科技君
      2026-05-16 12:32:57
      已成功瘦了 32 斤,我發(fā)現(xiàn)減肥最抗餓的三餐搭配是:高蛋白低脂

      已成功瘦了 32 斤,我發(fā)現(xiàn)減肥最抗餓的三餐搭配是:高蛋白低脂

      健身狂人
      2026-05-15 09:41:25
      利雅得青年主帥:C羅比賽中曾問我,為什么踢勝利的時候那么賣力

      利雅得青年主帥:C羅比賽中曾問我,為什么踢勝利的時候那么賣力

      懂球帝
      2026-05-18 12:17:29
      慘不忍睹,上市首日瘋漲近4倍后極速崩盤!高位追高者2日浮虧近40%!

      慘不忍睹,上市首日瘋漲近4倍后極速崩盤!高位追高者2日浮虧近40%!

      股俠指北針
      2026-05-18 10:48:41
      2300一噸,5年收了3萬噸!日本狂收東北落葉,24年專家揭露真相

      2300一噸,5年收了3萬噸!日本狂收東北落葉,24年專家揭露真相

      福建平子
      2026-02-05 16:37:30
      被辭退的保潔阿姨爆猛料:酒店提供的免費礦泉水,竟有這么多套路

      被辭退的保潔阿姨爆猛料:酒店提供的免費礦泉水,竟有這么多套路

      今朝牛馬
      2026-05-13 21:04:49
      馬斯克兒子同款虎頭包商家發(fā)聲:潑天流量砸來,根本無法量產(chǎn)

      馬斯克兒子同款虎頭包商家發(fā)聲:潑天流量砸來,根本無法量產(chǎn)

      童叔不飆車
      2026-05-15 19:31:46
      最重死刑,緬甸擬立反詐新法,經(jīng)營詐騙園區(qū)、非法拘禁將面臨極刑

      最重死刑,緬甸擬立反詐新法,經(jīng)營詐騙園區(qū)、非法拘禁將面臨極刑

      鳳凰衛(wèi)視
      2026-05-18 16:21:48
      李昇祐談無緣世界杯:我感到失望,希望韓國隊取得好成績

      李昇祐談無緣世界杯:我感到失望,希望韓國隊取得好成績

      懂球帝
      2026-05-18 16:54:43
      狂人回歸!穆帥時隔13年重返皇馬,接手爛攤子遭卡西反對

      狂人回歸!穆帥時隔13年重返皇馬,接手爛攤子遭卡西反對

      仰臥撐FTUer
      2026-05-18 19:48:05
      52歲劉愷威中年失業(yè),與女友分手,每天雷打不動接送孩子上學(xué)!

      52歲劉愷威中年失業(yè),與女友分手,每天雷打不動接送孩子上學(xué)!

      玖宇維
      2026-05-16 14:47:08
      安切洛蒂終極難題:巴西隊最后1席,天才前鋒or萬金油中場?

      安切洛蒂終極難題:巴西隊最后1席,天才前鋒or萬金油中場?

      劉哥談體育
      2026-05-18 14:11:34
      鄭永剛G2用人出大問題!對賀希寧容子鋒戰(zhàn)術(shù)出錯,末節(jié)該堅持巴吉

      鄭永剛G2用人出大問題!對賀希寧容子鋒戰(zhàn)術(shù)出錯,末節(jié)該堅持巴吉

      籃球資訊達(dá)人
      2026-05-18 22:29:53
      女子每次回婆家都丟首飾,今年她直接戴假金鐲,成功揪出“黑手”

      女子每次回婆家都丟首飾,今年她直接戴假金鐲,成功揪出“黑手”

      林林故事揭秘
      2025-04-30 13:42:39
      004核航母落空?美媒:除關(guān)鍵術(shù)落后,多個原因讓中國沒必要造它

      004核航母落空?美媒:除關(guān)鍵術(shù)落后,多個原因讓中國沒必要造它

      趣文說娛
      2026-05-09 21:56:12
      水在4℃時密度最大?這個反常識物理Bug,差點決定地球生命的命運

      水在4℃時密度最大?這個反常識物理Bug,差點決定地球生命的命運

      半解智士
      2026-05-05 12:56:18
      2026-05-18 23:12:49
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4744文章數(shù) 37464關(guān)注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      伊朗披露穆杰塔巴受傷細(xì)節(jié):未導(dǎo)致面容損毀或肢體傷殘

      頭條要聞

      伊朗披露穆杰塔巴受傷細(xì)節(jié):未導(dǎo)致面容損毀或肢體傷殘

      體育要聞

      58順位的保羅,最強第三中鋒

      娛樂要聞

      票房會破14億!口碑第一電影出現(xiàn)了

      財經(jīng)要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      歸元S平臺首款車型 魏牌V9X上市 34.98萬元起

      態(tài)度原創(chuàng)

      數(shù)碼
      教育
      時尚
      本地
      藝術(shù)

      數(shù)碼要聞

      聯(lián)力DK-07 WOOD電腦桌國行發(fā)售,8999元

      教育要聞

      一所京城學(xué)校,能提供的“天花板資源”,是什么樣的?

      戛納電影節(jié)|61歲鞏俐驚艷世界,她活出了所有女人都想成為的樣子

      本地新聞

      用蘇繡的方式,打開江西婺源

      藝術(shù)要聞

      這才是帝王書法“尖子生“,水平完勝宋徽宗

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 四虎永久精品免费视频| 肉色丝袜足j视频国产| 亚洲色久悠悠av在线观看| 超碰人人干| 亚洲欧美国产精品专区久久| 小嫩批日出水无码视频免费| 大吊一区二区| 夜夜性日日交xxx性视频| 人妻人人做人碰人人添| 久久热这里这里只有精品| 成人免费A级毛片无码片2022| 中文字幕日产无码| 日本欧美视频在线观看三区| 91极品美女高潮叫床在线观看| aa级毛片毛片免费观看久| 中文字幕久区久久中文字幕| 亚卅精品| 亚洲av无码片在线播放| 久久99精品国产免费观观| 国产开嫩苞实拍在线播放视频| 国产亚洲精品日韩香蕉网| 潘金莲高清dvd碟片| 中文字幕精品人妻| 欧美叉叉叉bbb网站| 国产av丝袜一区| 国产精品白浆无码流出| 亚洲中文字幕人妻| 亚洲成人午夜排名成人午夜| 亚洲岛国成人免费av| 2025年最新A片| 中文字幕一区二区久久人妻网站| 少妇粉嫩小泬喷水视频WWW| 99在线精品免费视频九九视| 成人国产一区二区三区精品| 真人做人试看60分钟免费视频| 日韩一卡2卡3卡4卡新区亚洲 | 亚洲精品一区二区三区中文字幕| 2018男人天堂| 东京热蜜桃| 大香伊蕉在人线国产最新2005| 国产精品99中文字幕|