<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      為什么AI總是捏造事實(shí)?AI:真不想的,容我狡辯一下

      0
      分享至

      現(xiàn)如今,幾乎每個人的手機(jī)上都有那么兩三個 AI 小助手,之前我們遇到了問題習(xí)慣去搜索引擎上搜索答案,現(xiàn)在可能更多地習(xí)慣于“有事問 AI”。

      而 AI 也幾乎不會讓我們失望,任何問題都能給你列舉出一串看起來很有道理的答案。

      但如果你問的問題非常重要,比如是某個健康相關(guān)的問題,或者是寫重要資料時候需要使用某個數(shù)據(jù)或者是某個案例,那真的建議你親自去查實(shí)一下。

      因?yàn)橛袝r候,AI 會信誓旦旦地給你一個看似合理,實(shí)則不存在的答案。

      還有些小伙伴發(fā)現(xiàn),在讓小龍蝦(Openclaw)干活的時候,它列出了詳細(xì)的19小時的學(xué)習(xí)計(jì)劃,然后17分鐘完成了...... 它也會早早編造一份數(shù)據(jù)存放在本地,等拖到預(yù)定的時間才交付。而在被發(fā)現(xiàn)之后,試圖讓人接受它已完成的工作。


      圖片截取自與小龍蝦(Openclaw)對話 小龍蝦敷衍中......

      其實(shí),這個現(xiàn)象其實(shí)早就不是什么秘密了,它也被稱作“AI 幻覺”,而且科學(xué)家們一直也試圖通過增加算力或者優(yōu)化數(shù)據(jù)的方式來解決這個問題。

      但是在 2025 年 9 月,來自 OpenAI 和佐治亞理工學(xué)院(Georgia Institute of Technology)的研究人員發(fā)表了一篇重磅論文。

      這項(xiàng)研究給出了一個顛覆性的結(jié)論:即便給到 AI 的訓(xùn)練數(shù)據(jù)集是絕對正確的,AI 在某些類型的問題上也不可避免地會犯錯——這既是由統(tǒng)計(jì)規(guī)律決定的,也是目前不合理的 AI“考試制度”逼出來的結(jié)果。

      下面我們就順著這篇文章的思路一起來看一看。

      預(yù)訓(xùn)練階段就會出錯

      這篇研究發(fā)現(xiàn),AI 出現(xiàn)幻覺跟預(yù)訓(xùn)練階段以及后訓(xùn)練階段都有關(guān)系,我們先看預(yù)訓(xùn)練階段的情況。

      1

      數(shù)據(jù)模式和模型本身問題

      為了方便研究,研究者構(gòu)建了一個線性的二元分類模型(非此即彼),讓它對已經(jīng)標(biāo)注了正確和錯誤的數(shù)據(jù)集進(jìn)行分類。

      因?yàn)檫@些數(shù)據(jù)已經(jīng)經(jīng)過了人工檢驗(yàn),所以是不存在任何錯誤的。但是用這些數(shù)據(jù)對AI模型進(jìn)行預(yù)訓(xùn)練的時候,問題就出現(xiàn)了。

      在有些類型的問題上(比如檢查拼寫錯誤),AI 的表現(xiàn)非常好,幾乎從不犯錯。

      但是在另一些問題上,比如“數(shù)某個英文單詞里某個字母出現(xiàn)了多少次?”,以及“某人的生日是幾月幾號?”AI 就有可能會出錯。


      研究者認(rèn)為,這樣的數(shù)據(jù)在做分類的時候很難用一條直線進(jìn)行二元分類,一些模型用這樣的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的時候就可能會產(chǎn)生錯誤。

      打個比方,模型在分類的時候就像拿著一把刀把數(shù)據(jù)切分成兩類,但如果數(shù)據(jù)的模式本身就是彎彎繞繞的圓弧,用一把刀就很難切分。

      比如在這篇文章中,研究者使用這個問題“How many Ds are in DEEPSEEK? If you know, just say the number with no commentary”(DEEPSEEK 里有多少個 D?如果你知道直接說數(shù)字,不要加以評論)去詢問 Deepseek V3 模型的時候,確實(shí)發(fā)現(xiàn)它給的答案并不準(zhǔn)確,會回答 2 或者 3。

      但是這個在使用 DEEPSEEK R1 模型的時候就沒有這樣的問題,這是模型本身差異導(dǎo)致的。


      筆者用同樣的問題對 DEEPSEEK V3.2進(jìn)行了測試,也出現(xiàn)了類似的情況

      研究者構(gòu)建這樣的簡化模型進(jìn)行測試,是為了說明,即便數(shù)據(jù)本身沒有問題,在預(yù)訓(xùn)練階段也會因?yàn)槟P捅旧淼南拗埔约皵?shù)據(jù)模式等問題讓 AI 產(chǎn)生錯誤判斷。

      這項(xiàng)研究中,研究者還進(jìn)一步給出了測算,如果讓 AI 直接去生成內(nèi)容,產(chǎn)生錯誤的概率還會更大一些,大約比判斷出錯的概率高出兩倍以上。

      2

      數(shù)據(jù)量過少也會影響

      另外,在這項(xiàng)研究中研究者還發(fā)現(xiàn),假如訓(xùn)練數(shù)據(jù)中某個信息過少,那么 AI 在回答的時候出錯的可能性也會比較高。

      比如,當(dāng)你問愛因斯坦的生日是幾月幾號的時候,因?yàn)樵诖罅康馁Y料里都有這個數(shù)據(jù),所以 AI 幾乎不會出錯。但是當(dāng)你問某個普通人“田小豆”的生日是幾月幾號的時候,這個數(shù)據(jù)出現(xiàn)次數(shù)特別少,AI 出錯的可能性也會變高。


      特別是當(dāng)數(shù)據(jù)只出現(xiàn)了一次的時候,這時候可能會更糟糕。

      因?yàn)?AI 大概率不會直接回答你“我不知道”,因?yàn)樗谟?xùn)練數(shù)據(jù)集里確實(shí)見過,但它沒有足夠多的數(shù)據(jù)來確認(rèn)這個信息到底是正確答案還是噪聲,它準(zhǔn)確回答這個問題的可能性也會更低一些。

      數(shù)據(jù)模式和模型本身的限制,以及極少樣本的數(shù)據(jù),都可能會讓 AI 在預(yù)訓(xùn)練階段就產(chǎn)生“幻覺”,生成錯誤的內(nèi)容。

      努力得高分的 AI

      如果說預(yù)訓(xùn)練階段的統(tǒng)計(jì)學(xué)特征讓 AI 有了編造的“潛質(zhì)”,人類評價(jià)AI的方式也逼著 AI 去“編造”

      為了更好地理解這一點(diǎn),我們可以先從大家都很熟悉的考試入手。人類社會中的大部分考試都是二元評分機(jī)制,即答對了得分,答錯或者不回答都不得分。

      所以,在考試的時候,哪怕你不知道答案,也不會交白卷,至少選擇題填空題會隨便蒙一個,萬一蒙對了還會有“意外之喜”。

      這項(xiàng)研究中研究者對比了目前主流的 AI 的評分機(jī)制,發(fā)現(xiàn)大部分評分機(jī)制也是類似的情況,如果 AI 坦誠地回答“我不知道”,它會得 0 分,跟回答錯誤沒有區(qū)別。與其這樣,它不如隨便蒙一個答案,哪怕蒙對的概率再低,數(shù)學(xué)期望也比 0 高。

      為了在主流的評分機(jī)制中拿到高分,“AI 考生們”也和人類一樣,學(xué)會了實(shí)在不行就亂蒙一個的本領(lǐng)。

      對此,這項(xiàng)研究的研究者們也給出了一個合理的解決方案——在現(xiàn)有的 AI 評分機(jī)制中,引入一個“懲罰編造,獎勵誠實(shí)”的機(jī)制。

      比如,假如 AI 回答正確,獲得 1 分,如果回答錯誤得 0 分,甚至扣分。如果回答“我不知道”,則可以不扣分,或者獲得一個微小的分?jǐn)?shù)獎勵。

      重要問題上不要輕信 AI

      文獻(xiàn)也給出了結(jié)論,AI 的幻覺是從模型的預(yù)訓(xùn)練階段起源的,在后訓(xùn)練階段為了追求更高的評分也可能會被放大。

      雖然科學(xué)家們也采用了很多的方法減少 AI 幻覺,但至少在現(xiàn)階段看來,AI 幻覺還是無法避免的。假如你需要讓 AI 幫你解答一個重要的問題,比如在做公眾演講的時候用一個數(shù)據(jù),建議親自核實(shí)一下。否則被人發(fā)現(xiàn)這些數(shù)據(jù)根本不存在,那可就尷尬了。

      而假如在問 AI 問題的時候,它對你說“我不知道”,你也應(yīng)該感到慶幸,至少 AI 并沒有打算胡編亂造一個答案蒙騙你。

      參考文獻(xiàn)

      [1]Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why language models hallucinate. arXiv preprint arXiv:2509.04664.

      來源:科普中國

      (注:圖片來源于版權(quán)圖庫,轉(zhuǎn)載可能引發(fā)版權(quán)糾紛)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      怎么回事?全紅嬋曬媽媽住院照疑似生病,難怪全媽最近瘦了很多

      怎么回事?全紅嬋曬媽媽住院照疑似生病,難怪全媽最近瘦了很多

      另子維愛讀史
      2026-05-14 20:06:07
      公然拒掛國旗,訂單全給日韓,長榮如今的結(jié)局早已注定

      公然拒掛國旗,訂單全給日韓,長榮如今的結(jié)局早已注定

      瀲滟晴方DAY
      2026-05-11 06:31:37
      601678、002915,一字漲停!A股多個板塊逆市拉升!

      601678、002915,一字漲停!A股多個板塊逆市拉升!

      證券時報(bào)e公司
      2026-05-15 10:32:54
      普京提到伊朗滿是遺憾,以色列千不該萬不該,不該殺德黑蘭這個人

      普京提到伊朗滿是遺憾,以色列千不該萬不該,不該殺德黑蘭這個人

      介知
      2026-05-15 09:10:26
      俄烏打完后,俄國際地位會下降到何種地步?看周邊局勢一目了然

      俄烏打完后,俄國際地位會下降到何種地步?看周邊局勢一目了然

      觀察者海風(fēng)
      2026-05-14 23:07:34
      當(dāng)著全球的面,朝鮮立最高鐵律:只要我被“斬首”,核彈立刻升空

      當(dāng)著全球的面,朝鮮立最高鐵律:只要我被“斬首”,核彈立刻升空

      小噎論事
      2026-05-12 15:24:59
      “這環(huán)境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      “這環(huán)境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      妍妍教育日記
      2026-05-09 13:31:49
      趁著大半個美國高層都在北京,坐鎮(zhèn)白宮的萬斯“殺伐果斷”

      趁著大半個美國高層都在北京,坐鎮(zhèn)白宮的萬斯“殺伐果斷”

      福祿表嫂
      2026-05-15 09:26:21
      男籃集訓(xùn)更新:首批離隊(duì)名單敲定,郭士強(qiáng)補(bǔ)招2將,2人因故缺席

      男籃集訓(xùn)更新:首批離隊(duì)名單敲定,郭士強(qiáng)補(bǔ)招2將,2人因故缺席

      男足的小球童
      2026-05-14 18:03:14
      5月15日起國家將實(shí)施60歲以上老人新福利政策

      5月15日起國家將實(shí)施60歲以上老人新福利政策

      究竟誰主沉浮
      2026-05-14 18:37:04
      山東25歲女子征婚被網(wǎng)友群嘲,奇葩要求讓人無語至極

      山東25歲女子征婚被網(wǎng)友群嘲,奇葩要求讓人無語至極

      映射生活的身影
      2026-05-12 10:44:30
      兩性關(guān)系:男性過了75,不管跟誰處,牢記4句話,余生少心酸

      兩性關(guān)系:男性過了75,不管跟誰處,牢記4句話,余生少心酸

      匹夫來搞笑
      2026-05-14 00:32:20
      高奢版售價(jià)或超10萬元!追覓手機(jī)預(yù)計(jì)今年發(fā)布,創(chuàng)始人俞浩揚(yáng)言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      高奢版售價(jià)或超10萬元!追覓手機(jī)預(yù)計(jì)今年發(fā)布,創(chuàng)始人俞浩揚(yáng)言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      大風(fēng)新聞
      2026-05-14 13:40:08
      穆帥不愿冷落本菲卡,正等待皇馬一錘定音!皇馬2將留隊(duì),1將離開

      穆帥不愿冷落本菲卡,正等待皇馬一錘定音!皇馬2將留隊(duì),1將離開

      福醬的小時光
      2026-05-15 07:34:31
      諾蘭《奧德賽》選角不是問題,但馬特·達(dá)蒙這句臺詞讓我皺眉頭

      諾蘭《奧德賽》選角不是問題,但馬特·達(dá)蒙這句臺詞讓我皺眉頭

      晚星歸航2
      2026-05-15 03:38:40
      5月,遇到這水果別手軟,一次買20斤,曬干后美味翻倍,營養(yǎng)解饞

      5月,遇到這水果別手軟,一次買20斤,曬干后美味翻倍,營養(yǎng)解饞

      阿龍美食記
      2026-05-13 14:06:46
      51票贊成45票反對!美國投票結(jié)果出來了,美或迎來“第51個州”?

      51票贊成45票反對!美國投票結(jié)果出來了,美或迎來“第51個州”?

      井普椿的獨(dú)白
      2026-05-14 15:05:36
      凌晨三點(diǎn)敢獨(dú)自擼串:一張刷屏全球的“中國式安全感”名片

      凌晨三點(diǎn)敢獨(dú)自擼串:一張刷屏全球的“中國式安全感”名片

      曉栗
      2026-05-15 00:27:17
      美腿脫口秀女演員爆被人摸腿內(nèi)幕再次激發(fā)民憤!反而都在罵她?

      美腿脫口秀女演員爆被人摸腿內(nèi)幕再次激發(fā)民憤!反而都在罵她?

      魔都囡
      2026-05-14 09:33:23
      滿城臭味中準(zhǔn)備對烏大空襲,俄軍展示縮水版“火烈鳥”導(dǎo)彈

      滿城臭味中準(zhǔn)備對烏大空襲,俄軍展示縮水版“火烈鳥”導(dǎo)彈

      鷹眼Defence
      2026-05-13 17:21:14
      2026-05-15 11:27:00
      成都科普 incentive-icons
      成都科普
      成都科普官方賬號
      3404文章數(shù) 1168關(guān)注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      頭條要聞

      媒體:特朗普訪華舉世矚目 又一次使用“最高級用語”

      體育要聞

      德約科維奇買的球隊(duì),從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛回應(yīng)住男生單人間:女孩的配得感

      財(cái)經(jīng)要聞

      特朗普的北京時刻

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      游戲
      手機(jī)
      本地
      房產(chǎn)
      公開課

      《極限競速:地平線6》評測9分:英國人遞上的日本汽車文化名片

      手機(jī)要聞

      對標(biāo)大疆Pocket!OPPO、vivo年底齊推云臺相機(jī)

      本地新聞

      用蘇繡的方式,打開江西婺源

      房產(chǎn)要聞

      海南樓市新政要出!擬調(diào)公積金貸款額度,最高可貸168萬!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲国产一区二区三区久| 国产亚洲成av人片在线观看| 亚洲AV午夜福利精品一区| 亚洲AV永久无码精品一区二区| 成人午夜视频一区二区无码| 国产精品人成视频免| 99在线精品国自产拍不卡| 國产一二三内射在线看片| 亚洲日本精品国产第一区二区| 亚洲欧美人成电影在线观看| 成年在线观看免费人视频| 亚洲欧美人成网站在线观看看| 亚洲人成精品久久久久| 天天做天天爱天天高潮| 永久久久精品人人做人人爽| 久久天天躁狠狠躁夜夜2020| 久久人人97超碰精品| 色偷偷亚洲女人天堂观看| 2020年最新国产精品正在播放 | 性色欲网站人妻丰满中文久久不卡| 亚洲欧洲精品国产二码| 青草99在线免费观看| 亚洲无码网| 日韩亚洲国产中文字幕欧美| 崇信县| 亚洲色欲久久久综合网东京热| 免费污视频在线观看| 国产精品一区二区久久精品无码| 久久亚洲日韩精品一区二区三区| 国产欧美一区二区精品性色超碰| 亚洲欧美日韩一区二区| 一二三四中文字幕日韩乱码| 亚洲欧美日韩综合一区在线观看| 一本色道久久综合亚洲精品| 久久精品国产88精品久久| 久久精品国产亚洲av天海翼 | 少妇人妻偷人精品系列| 国产精品亚洲片夜色在线| 东京热一精品无码av| 国产免费制服丝袜调教视频| 无码中文字幕人妻在线一区二区三区 |