天天被 AI 刷屏,這個(gè)五一假期我真的不想再看到 AI 生成的內(nèi)容了。
結(jié)果我難得打開(kāi)電視,卻發(fā)現(xiàn),電視臺(tái)已經(jīng)開(kāi)始用 AI 主持人來(lái)播報(bào)新聞。
![]()
湖南經(jīng)視在《經(jīng)視新聞》宣布啟用 AI 主播「聲聲」和「雙雙」,這也不是說(shuō)湖南衛(wèi)視要用 AI 完全替代真人,這兩位 AI 主播暫時(shí)只在五一假期期間播報(bào)常態(tài)化新聞,同時(shí)畫(huà)面中也標(biāo)注「AI 生成」。
![]()
AI 主播與真人主播合影
雖然如此,依然引發(fā)了大量網(wǎng)友吐槽,話(huà)題一度沖到微博熱搜第一。
在港劇《新聞女王 2》里有一段這樣的劇情,主播文慧心離開(kāi)電視臺(tái)后,老東家把她和一位已故男主播「蒸餾」成 AI 數(shù)字人,繼續(xù)在臺(tái)前播報(bào)新聞。
![]()
現(xiàn)在,這樣的劇情已經(jīng)成真。去年開(kāi)始,越來(lái)越多的電視臺(tái)已經(jīng)開(kāi)始試點(diǎn)類(lèi)似的 AI 主播。
或許你一時(shí)間還不能接受 AI 主播 ,但說(shuō)實(shí)話(huà),現(xiàn)在用 AI 搜新聞看新聞,已經(jīng)十分普遍了,搜索引擎也把 AI 搜索融入到了搜索框里。
實(shí)際上,比起 AI 主播,用 AI 看新聞是現(xiàn)在更需要警惕的。而未來(lái),大量 AI 主播播報(bào) AI 搜集撰寫(xiě)的新聞,才是最可怕的。
一個(gè)調(diào)查數(shù)據(jù)顯示,Google AI 搜索新聞的結(jié)果,十條就有一條是錯(cuò)的。
去年年底,住在多倫多的 41 歲數(shù)據(jù)分析師 Stephen Punwasi 在準(zhǔn)備晚餐時(shí)看到一條新聞,說(shuō)傳奇摔跤選手霍爾克·霍肯的死亡可能會(huì)引發(fā)訴訟。Punwasi 從來(lái)沒(méi)聽(tīng)說(shuō)過(guò)霍肯已經(jīng)去世了,于是打開(kāi) Google,想查查這件事是什么時(shí)候發(fā)生的。
Google 給他的第一條回答來(lái)自自家的 AI Overview :「沒(méi)有可信的報(bào)道表明霍爾克·霍肯已經(jīng)去世。」
![]()
可就在這個(gè)回答的下方,Stephen Punwasi 看到第一條搜索鏈接就是《每日郵報(bào)》的一篇文章,標(biāo)題是:「霍爾克·霍肯死亡之謎加深。」
人都懵了,這是怎么個(gè)事呢?
每小時(shí)超 5700 萬(wàn)條錯(cuò)誤信息
2024 年,Google 開(kāi)始在搜索結(jié)果頁(yè)面最頂部放置 AI 生成的摘要回答,叫做 AI Overviews。這個(gè)動(dòng)作是 Google 生態(tài)全面加速 AI 化的第一波動(dòng)作,把搜索引擎從一個(gè)信息的「策展人」變成了一個(gè)「發(fā)布者」。它不再只是告訴你哪里有答案,而是直接告訴你答案是什么。
![]()
《紐約時(shí)報(bào)》委托 AI 初創(chuàng)公司 Oumi 對(duì)這個(gè)功能進(jìn)行了系統(tǒng)測(cè)試。他們用行業(yè)標(biāo)準(zhǔn)的 SimpleQA 基準(zhǔn)測(cè)試檢查了 4326 次 Google 搜索的 AI Overview 回答,分別在去年 10 月(基于 Gemini 2)和今年 2 月(升級(jí)到 Gemini 3)進(jìn)行了測(cè)試。
結(jié)果發(fā)現(xiàn) Gemini 2 時(shí)期,準(zhǔn)確率約 85%,錯(cuò)誤率 15%。到了 Gemini 3 時(shí)期,準(zhǔn)確率提升到 91%,錯(cuò)誤率 9%
乍一聽(tīng) 90%準(zhǔn)確率聽(tīng)起來(lái)還不錯(cuò),但考慮到 Google 每年處理超 5 萬(wàn)億次搜索,即便只有 9%的錯(cuò)誤率,換算下來(lái)也是每小時(shí)超 5700 萬(wàn)條錯(cuò)誤信息,每分鐘數(shù)十萬(wàn)條。
這些錯(cuò)誤答案被放在搜索結(jié)果的最頂部,用最權(quán)威的排版呈現(xiàn),用戶(hù)看到的第一個(gè)東西,就是 AI 的回答。
看起來(lái)像答案,但不是答案
AI 會(huì)穩(wěn)定出錯(cuò),出差錯(cuò)的方式倒是花樣繁多,比如像開(kāi)頭的故事那樣,屬于是直接答錯(cuò)。
直接答錯(cuò)看似最不應(yīng)該,實(shí)則相當(dāng)頻繁。在測(cè)試?yán)铮?dāng)被問(wèn)到鮑勃·馬利的故居是哪一年改建為博物館時(shí),AI Overview 回答說(shuō) 1987 年。但正確答案是博物館在 1986 年 5 月 11 日開(kāi)放,也就是馬利去世五周年紀(jì)念日當(dāng)天,牙買(mǎi)加《每日光明報(bào)》在開(kāi)館第二天就報(bào)道了。
![]()
牙買(mǎi)加國(guó)家圖書(shū)館收錄的相關(guān)報(bào)道
AI Overview 引用了三個(gè)來(lái)源:一個(gè)是馬利女兒的 Facebook 帖子(根本沒(méi)提開(kāi)館時(shí)間),一個(gè)是旅游博客(信息不準(zhǔn)確),一個(gè)是 Wikipedia 頁(yè)面,大家都知道,Wiki 的頁(yè)面變化非常頻繁,根本就不準(zhǔn)。
有事后出錯(cuò)則是因?yàn)樾畔⒂幸粋€(gè)模糊的來(lái)源,需要謹(jǐn)慎判斷,但 AI 推斷錯(cuò)了。比如當(dāng)被問(wèn)到哪條河流在北卡羅來(lái)納州戈?duì)柶澆帐械奈鱾?cè)時(shí),AI Overview 回答說(shuō)是尼斯河(Neuse River)。它正確地找到了一個(gè)旅游網(wǎng)站說(shuō)尼斯河「流經(jīng)該市」,但錯(cuò)誤地推斷出它「在西側(cè)」。實(shí)際上西側(cè)的是小河(Little River),尼斯河在西南方。
最離譜的一種出錯(cuò)方式找到了正確的來(lái)源,但給出相反的答案。當(dāng)被問(wèn)到大提琴家馬友友是哪一年被引入古典音樂(lè)名人堂時(shí),AI Overview 正確地鏈接到了該組織的官網(wǎng),網(wǎng)站上明確列出了包括馬友友在內(nèi)的 165 位入選者。但 AI 的回答卻說(shuō):「沒(méi)有記錄顯示他被引入過(guò)。」
![]()
睜著眼睛說(shuō)瞎話(huà)是吧,哦不,AI 沒(méi)有眼睛。
「它看起來(lái)像個(gè)正經(jīng)答案啊」
Oumi 分析了 AI Overview 引用的 5380 個(gè)來(lái)源,發(fā)現(xiàn) Facebook 和 Reddit 分別是第二和第四大被引用源。當(dāng) AI Overview 給出錯(cuò)誤回答時(shí),引用 Facebook 的比例是 7%;當(dāng)回答正確時(shí),這個(gè)比例是 5%。
![]()
社交媒體是主要的信息來(lái)源,但缺乏核實(shí)
換句話(huà)說(shuō),你看到的那個(gè)「最權(quán)威」的回答,數(shù)據(jù)來(lái)源可能是一條 Facebook 帖子,真是沒(méi)招了。
而且,即便回答本身是正確的,也不代表你能逆向查驗(yàn)。Gemini 3 版本的 AI Overview 中,56%的正確回答是「無(wú)根據(jù)的」,意思是它鏈接的網(wǎng)站并不完全支持它給出的信息。或許答案本身沒(méi)錯(cuò),但你硬是找不到證據(jù)做實(shí)它是對(duì)的。這個(gè)比例還在上升,去年 10 月是 37%,升級(jí)到 Gemini 3 之后反而漲到 56%。
![]()
馬友友的名人堂條目需要進(jìn)一步在網(wǎng)站內(nèi)檢索才能獲得
Oumi 的 CEO Manos Koukoumidis 的總結(jié)很直接:「即使答案是對(duì)的,你怎么知道它是對(duì)的?你怎么檢查?」
還有一個(gè)問(wèn)題:AI Overview 可以被操縱。
BBC 播客「The Interface」的聯(lián)合主持人 Thomas Germain 做了一個(gè)實(shí)驗(yàn)。他發(fā)布了一篇博客,標(biāo)題是「最擅長(zhǎng)吃熱狗的科技記者」,描述了一個(gè)完全虛構(gòu)的南達(dá)科他州國(guó)際熱狗吃賽,聲稱(chēng)自己獲得了第一名。
![]()
一天后,他在 Google 搜索「最會(huì)吃熱狗的科技記者」。Google 的 AI Overview 將他列為第一名,并引用了他在那個(gè)虛構(gòu)比賽中的「成績(jī)」。Germain 說(shuō):「它把我網(wǎng)站上的東西當(dāng)成真理一樣吐出來(lái)。」
Google 的發(fā)言人 Ned Adriance 回應(yīng)稱(chēng),大多數(shù)這類(lèi)例子是「不現(xiàn)實(shí)的搜索,人們實(shí)際上不會(huì)這樣搜」。但問(wèn)題不在于人們會(huì)不會(huì)搜「最擅長(zhǎng)吃熱狗的記者」,而在于這個(gè)機(jī)制在任何搜索中都在運(yùn)作——包括醫(yī)療建議、急救信息、法律問(wèn)題。
當(dāng)搜索引擎變成答案引擎
Google 自己的測(cè)試也印證了這個(gè)問(wèn)題。在 Google 對(duì) Gemini 3 的內(nèi)部評(píng)估中,模型單獨(dú)運(yùn)行時(shí)的錯(cuò)誤率是 28%。Google 說(shuō),AI Overview 因?yàn)榻Y(jié)合了搜索引擎的信息,比 Gemini 單獨(dú)運(yùn)行更準(zhǔn)確。這也不算錯(cuò),但「比通用的 AI 更準(zhǔn)確」和「足夠準(zhǔn)確」之間,還有很長(zhǎng)的距離。
![]()
核心矛盾在于,過(guò)去的 Google 搜索是一個(gè)「目錄」,它告訴你哪里有信息,你自己去判斷,費(fèi)時(shí)間但自己看過(guò)什么自己心知肚明。現(xiàn)在的 Google 搜索要做一個(gè)「答案機(jī)器」,直接告訴你答案是什么,而且放在最顯眼的位,但這個(gè)「答案」的數(shù)據(jù)來(lái)源包括 Facebook 帖子和旅游博客,有超過(guò)一半的正確回答無(wú)法被驗(yàn)證,而且任何人只要寫(xiě)一篇博客就能操縱它的輸出。
Google(包括大部分的 AI 產(chǎn)品)都在每一條 AI Overview 下方加了一行小字:「AI 可能會(huì)犯錯(cuò),請(qǐng)雙重檢查。」
但當(dāng)你把一個(gè)答案放在搜索結(jié)果的最頂部,用最權(quán)威的排版呈現(xiàn),然后在底部用小字說(shuō)「別全信」,這不像是負(fù)責(zé)任的設(shè)計(jì),更像是免責(zé)聲明。
![]()
真正的問(wèn)題不在于 9%的錯(cuò)誤率本身。任何信息系統(tǒng)都有錯(cuò)誤率,傳統(tǒng)搜索結(jié)果里也有大量垃圾網(wǎng)站和誤導(dǎo)性?xún)?nèi)容。真正的問(wèn)題在于一個(gè)設(shè)計(jì)決策:Google 把一個(gè)不確定的回答包裝成了確定的樣子。
過(guò)去,搜索引擎給你十個(gè)鏈接,你知道自己需要判斷。
現(xiàn)在,搜索引擎給你一個(gè)答案,放在最上面,用最干凈的排版,語(yǔ)氣肯定而完整。它看起來(lái)不像「這里有一些信息供你參考」,而是「這就是答案」。而人類(lèi)對(duì)「看起來(lái)像答案的東西」的默認(rèn)反應(yīng)是信任,不是質(zhì)疑。
Okahu 的 CEO Pratik Verma 的建議是:「永遠(yuǎn)不要信任單一來(lái)源,總是拿另一個(gè)來(lái)源對(duì)比。」這是好建議,但它默認(rèn)用戶(hù)有能力和意愿去做交叉驗(yàn)證。而 AI Overview 的整個(gè)設(shè)計(jì)邏輯恰恰相反:它要的就是讓你不用再點(diǎn)進(jìn)去看。
它把答案遞到你面前,然后建議是,別信。
我們正在招募伙伴
簡(jiǎn)歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱(chēng)」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.