網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI五下，不如百度一下

2026-05-09 10:30:31　來源: 超前實驗室

山東舉報

分享至

作者｜西西弗柿

編輯｜無心插柳柳橙汁

你們知道演員劉美含嘛，就是當(dāng)年《巴啦啦小魔仙》里演黑魔仙嚴(yán)莉莉的那個。

因為她確實太漂亮了，很多人三觀跟著五官走，還衍生出一系列“可惡的美琪美雪”之類的梗。

最近，我刷到了她的一個日常分享視頻，劉美含在給一部古裝劇配音，臺詞里有個詞，叫「鑄幣坊」，她覺得這個「坊」字念什么有點拿不準(zhǔn)。

正常流程，問問AI就好。不查不要緊，一查徹底把她整懵了。

她先開百度AI，fáng，二聲。

再開DeepSeek，fāng，一聲。

然后打開其他兩個AI，也都是一聲。

最后大家都沒轍了，她經(jīng)紀(jì)人用新華詞典查了一遍，才終于確認(rèn)，正確讀音就是fáng，二聲。

百度笑到了最后。

隨橙想呢，AI信口雌黃的當(dāng)下，才知道“百度一下”老輩子的含金量。

年少不知百度好，錯把AI當(dāng)成寶，過去，是我對度娘說話聲音太重了。

一場實驗

讓AI可信度的差距無所遁形

無獨有偶，也是最近，果殼網(wǎng)發(fā)了一篇調(diào)研文章，題目叫《左手幻覺，右手投毒，普通人憑什么相信AI？》

TA們做了一件事，找來8家主流AI產(chǎn)品，出了2000道測試題，做雙盲對比測試，測信源對準(zhǔn)確度的影響。

核心發(fā)現(xiàn)是，當(dāng)AI接入百度百科作為參考信源之后，綜合準(zhǔn)確度平均提升了38%以上，關(guān)鍵事實偏離率從26.4%驟降到4.1%以內(nèi)，專家認(rèn)可度高達(dá)91.5%。

你想想這個數(shù)字，26.4%是什么概念，意思是在沒有錨定可信信源的情況下，大概四道題里就有一道的關(guān)鍵事實是偏的，要不含糊其辭，要不是信息過時，要不就是直接編的。

然后，接入百度百科之后，降到4.1%。

我看到這個結(jié)果的時候，腦子里第一反應(yīng)是，這無意間回答了一個根本性的問題，AI的答案質(zhì)量，到底取決于什么？

答案是，取決于它在生成之前，用了什么信源。

果殼的雙盲測試還發(fā)現(xiàn)了一些具體的案例，挺有代表性的。

涵蓋的場景包括醫(yī)療，藥物相互作用，華法林是怎么跟別的藥物相互作用的，這是高決策風(fēng)險場景，答案不對可能真的出事。

包括航天，阿爾忒彌斯2號繞月軌道的具體數(shù)據(jù)，這是對時效性要求極高的信息，訓(xùn)練截止日期之后發(fā)生的事，模型如果只憑記憶回答，大概率是空白或者錯誤。

包括時政，張雪摩托車奪冠，這是一條很具體的新聞，模型知不知道、知道得準(zhǔn)不準(zhǔn)，很見分曉。

這幾個類型加在一起，基本上把AI最容易出問題的場景覆蓋得差不多了，時效問題、專業(yè)知識問題、具體事實核查問題，都有。

接入百度百科之后，這幾類場景下的表現(xiàn)，用測評報告里的說法，是“回答準(zhǔn)確性與全面性大幅提升”。

那么，百度到底給AI吃了什么，讓TA準(zhǔn)確率直線up？底層架構(gòu)是什么？憑什么同樣是訓(xùn)AI，百度的答案比別人可信？

百度揭開了謎底

正好，最近百度在北京開了創(chuàng)作者大會，AI權(quán)威性，恰恰是這場大會的核心議題之一。

創(chuàng)作者大會上，百度搜索產(chǎn)品負(fù)責(zé)人做了一個演講，把整個技術(shù)架構(gòu)擺出來講了一遍。

大部分對話式AI的工作邏輯是，你問一個問題，它調(diào)用大語言模型，模型根據(jù)訓(xùn)練的時候?qū)W到的內(nèi)容，生成一個回答。

問題就出在這里，模型訓(xùn)練是有截止時間的，訓(xùn)練數(shù)據(jù)本身也不一定都是對的，更別說GEO這種專門給AI下毒的黑產(chǎn)了，315晚會剛曝光過，幾十塊錢寫幾篇軟文，幾天之內(nèi)就能讓某個虛假信息成為AI的標(biāo)準(zhǔn)答案，整條黑灰產(chǎn)業(yè)鏈，已經(jīng)相當(dāng)成熟了。

所以如果模型是直接從腦子里回憶出答案，那這個答案里有多少水分，你真的不知道。

百度的做法是，不讓模型直接回憶。

在AI API基礎(chǔ)接口之上，疊了兩層Agent。

第一層叫需求規(guī)劃Agent，先把你的問題拆解成更細(xì)的子需求，然后去抓多維度的權(quán)威信息，不是問一個問題就直接打包成答案，而是先把問題掰開揉碎，搞清楚你到底想問什么、需要哪幾個維度的信息。

第二層叫組織生成Agent，對不同信源進行篩選、校驗、總結(jié)，確認(rèn)之后，再交付一個「完成式」答案。

什么叫「完成式」答案？就是不是草稿，是最終版。不是模型直接從腦子里輸出，而是先把素材都核對過一遍，再組織生成。

這個區(qū)別，可能乍一看不那么直覺，但想一想就明白了。就像你讓一個助理給你寫報告，一種做法是助理直接憑自己的記憶寫，另一種是助理先去查閱最新的權(quán)威資料，核對之后再寫。哪個更靠譜，不用說。

這是架構(gòu)層的邏輯，但只有這一層還不夠。

在這套架構(gòu)上面，百度還疊了三道過濾閘門。

第一道，來源準(zhǔn)入。不是所有信息源都能進候選池，只有權(quán)威專業(yè)領(lǐng)域、時效性強的信源，才有資格被參考。自媒體、UGC內(nèi)容，先審后發(fā)，機審加人工雙重把關(guān)，不是直接入庫的。

第二道，多信源交叉驗證。同一個結(jié)論，必須有多個可信來源同時支撐才會被采用。一個來源說的算不了數(shù)，得好幾個來源指向同一個結(jié)論，才行。

第三道，秒級巡檢兜底。有一套內(nèi)部自動巡檢系統(tǒng)在實時監(jiān)測，一旦內(nèi)容有偏差，立刻人工介入，重新生產(chǎn)。

我自己看這三道閘門的時候，覺得第三道是最讓人有安全感的那個，因為它回答的是另一個問題。

前兩道回答的是「怎么保證答案一開始是對的」，第三道回答的是「萬一出了錯，有沒有人來管」。

大多數(shù)對話式AI，你現(xiàn)在去問，它大概率是沒有這個兜底的。出了錯就出了錯，等著下一輪訓(xùn)練或者人工反饋，慢慢修。

但百度這邊是秒級響應(yīng)，一旦發(fā)現(xiàn)偏差，立刻人工介入。

這是一套大多數(shù)純生成式AI不具備的平臺級治理能力。

說到底，AI信任問題，既是架構(gòu)問題，也是治理問題，二者缺一不可。

知識的地基

是怎么打起來的

那回到更源頭的地方，好的答案，原材料從哪來？

這就必須說到百度百科了。

很多人對百度百科的印象可能還停留在「哦那個大家都能編輯的百科」，但現(xiàn)在的百度百科，其實在做一件非常底層但非常重要的事，為AI時代的知識可信度打地基。

來看幾個數(shù)字。

詞條總量突破3000萬，覆蓋5種語言，包括英、法、日、俄、西班牙語。

累計貢獻用戶超810萬，但UGC內(nèi)容不是直接入庫的，先審后發(fā)，機審和人工審核雙重把關(guān)。

熱點內(nèi)容，分鐘級響應(yīng)，每秒鐘會誕生一個新版本詞條。

更重要的是它的權(quán)威性建設(shè)，有一個叫「繁星計劃」的東西，聯(lián)合國科大、中科院、北大等頭部機構(gòu)，匯集了超過10萬名專業(yè)專家，共建了超過100萬條專業(yè)詞條。自然科學(xué)垂類，專業(yè)詞條覆蓋率100%，超過20萬條科學(xué)詞條經(jīng)過嚴(yán)苛審定。

然后還有一個人機協(xié)同的模式，百度百科跟北大公共衛(wèi)生學(xué)院有合作，AI負(fù)責(zé)出初稿，然后交給碩博老師審核認(rèn)證，單條詞條的創(chuàng)作效率提升了500%。

機器負(fù)責(zé)快，知識的最后一道閘門，捏在人手里。

這句話是百度創(chuàng)作者大會演講里說的，我覺得是整場大會里信息密度最高的一句話。

它其實說的是一種選擇，一種姿態(tài)。在大家都在比誰的AI生成速度更快、誰的參數(shù)規(guī)模更大、誰的幻覺更少的時候，百度在說，最關(guān)鍵的那道門，我們讓人來把守。

正因如此，百度搜索Skill成了全球下載量第一的搜索引擎官方技能插件。信息權(quán)威性這件事上，市場反映得很直白，大多數(shù)人心里是有桿秤的，就算沒專門做過測評，用多了，感覺出來了。

順著上面的再說一個，百度創(chuàng)作者大會上還有一個細(xì)節(jié)，我覺得挺有意思的。

百度搜索最近上線了交互式組件，就是打開某些搜索結(jié)果頁，你可以直接上手操作。可以拖動太陽系模型，看行星之間的真實距離，不是圖片，是可以操作的3D模型，拖一下，那個尺度感是完全不同的。

可以順著黃河的地圖點下去，一個城市一個城市地看它流經(jīng)的地方。

可以把一個分子結(jié)構(gòu)拆開，看內(nèi)部構(gòu)成，不是圖示，是可以轉(zhuǎn)動、可以分解的。

可以親手試試小孔成像的物理原理，調(diào)節(jié)小孔的大小，看成像的變化。

這個我覺得有趣的地方在于，它改變的不是信息本身，而是接收信息的方式。

從前搜索是被動的，你拿到一份材料，你讀完，你可能理解了，可能沒理解，材料本身不知道你理解了沒有。

交互式的搜索，是你去做這件事，而不是看這件事。

小孔成像，如果你只是讀一遍文字，可能五分鐘后就忘了。如果你自己動手調(diào)一遍，感受過那個成像變化，這個知識會跟你待更久。

給你準(zhǔn)信兒，還要讓你真正懂它。

這兩件事，都挺難的。

很多年前，艾略特在詩劇《巖石》中發(fā)出震耳發(fā)聵的“靈魂三問”:

我們迷失于生活中，生命在哪里? 我們迷失于信息中，知識在哪里? 我們迷失于知識中，智慧在哪里?

誠如所言，AI時代，信息的獲取變快了，但信息的可信度反而變成了一個需要重新建立的問題。大家獲得了更多的答案，卻不得不同時應(yīng)付更多的哪個答案是對的。

這個焦慮的根源，果殼的文章說得很準(zhǔn)，AI幻覺是架構(gòu)問題，GEO投毒是治理問題，二者疊加，構(gòu)成了一個系統(tǒng)性的可信度危機。

架構(gòu)問題需要架構(gòu)層的解法，治理問題需要治理層的解法，你不能指望靠某一個單點突破，把這兩個問題都解決。

百度這次創(chuàng)作者大會展示的，是一套同時在兩個層面都有解法的體系，雙層Agent加三道過濾，是架構(gòu)層的；秒級巡檢加人工介入，是治理層的；繁星計劃加人機協(xié)同，是長期的知識生產(chǎn)質(zhì)量保障。

這不是某一個技術(shù)亮點，而是一個系統(tǒng)。

你如果只做架構(gòu)層，答案快，但出了錯沒人管。

你如果只做治理層，知道錯了，但信源本身就不穩(wěn)。

二者缺一不可。我理解的AI時代的信任，不是“這個AI說的肯定是對的”，而是“這個AI說的有跡可查、有人兜底、有機制保障”。

說得清、查得到、有人管。這才是這個時代，一個AI產(chǎn)品能給用戶的真正確定性。

知識的最后一道閘門，捏在人手里。

這句話的含金量，仍在上升啊。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.