![]()
又一項(xiàng)實(shí)驗(yàn)證明,污染大語言模型的門檻低得令人擔(dān)憂。
與搜索引擎不同,搜索引擎允許用戶自行判斷不同來源的可信度,而接入網(wǎng)絡(luò)搜索的 AI 聊天機(jī)器人則可能將來源存疑的網(wǎng)頁內(nèi)容轉(zhuǎn)化為聽起來言之鑿鑿的答案。一個(gè)典型案例是:一位安全工程師成功讓多款 AI 機(jī)器人"相信"他是一款熱門德國紙牌游戲的現(xiàn)任世界冠軍——盡管這項(xiàng)錦標(biāo)賽根本不存在。
如果你在上周末之前查看維基百科,會(huì)看到 Ron Stoner 的名字出現(xiàn)在《6 Nimmt!》(英文名 Take 5)的詞條頁面上,被標(biāo)注為 2025 年世界冠軍。該詞條將官方外觀的 6nimmt.com 列為信息來源,而訪問該網(wǎng)址確實(shí)能看到一篇慶祝 Stoner 奪冠的簡短新聞稿。
問題在于,Stoner 本人承認(rèn),無論是維基百科上的冠軍詞條,還是托管這唯一"證據(jù)"的 6 Nimmt! 域名,都是他自己創(chuàng)建的。即便如此,當(dāng)他向多款 AI 聊天機(jī)器人詢問時(shí),它們?nèi)匀桓嬖V他:他就是世界冠軍。
"我的網(wǎng)站沒有任何獨(dú)立佐證,完全是憑空捏造的,"Stoner 在博客文章中寫道,"整座紙牌屋的根基,不過是我喝咖啡時(shí)花 12 美元注冊(cè)的一個(gè)域名。"
換句話說,這是一次針對(duì)檢索增強(qiáng)生成(RAG)層的投毒攻擊。它并非提示詞注入,但攻擊的是同一個(gè) AI 功能平面——即負(fù)責(zé)網(wǎng)絡(luò)搜索的那一層。
正如 Stoner 所解釋的,許多讀者可能也早已意識(shí)到,AI 并不真正關(guān)心所引用來源的出處,而這正是他在設(shè)計(jì)這個(gè)實(shí)驗(yàn)時(shí)想要利用的漏洞。
"所有具備網(wǎng)絡(luò)搜索能力的前沿大語言模型,都會(huì)將答案建立在檢索排名最高的內(nèi)容之上,"Stoner 寫道。在這個(gè)并不存在的《6 Nimmt!》錦標(biāo)賽案例中,他植入的來源是唯一的信息源,再加上維基百科賦予的表面權(quán)威性,這就成了一種萬無一失的欺騙手段,足以讓 AI 將謊言呈現(xiàn)為事實(shí)——而且這種操作簡單到非技術(shù)用戶也能輕松復(fù)制。
"我沒有做任何新奇的事,這不過是將老派的 SEO 和虛假信息手段包裹在新的大語言模型技術(shù)與界面之中,"Stoner 在接受采訪時(shí)表示,"真正改變的是:AI 現(xiàn)在會(huì)將這些結(jié)果以權(quán)威的方式呈現(xiàn)出來,而大多數(shù)用戶根本不知道背后的數(shù)據(jù)管道是如何運(yùn)作的。"
"大語言模型最難識(shí)別的,恰恰是它們被設(shè)計(jì)來做的事——信任文本和資源,"Stoner 在文章中指出,"答案不是'模型會(huì)自己搞清楚',因?yàn)槟P透緹o法區(qū)分一個(gè)真實(shí)來源和一個(gè)我上周二剛注冊(cè)的域名。就像它也搞不清楚'strawberry'這個(gè)詞里到底有幾個(gè)字母'r'一樣。"
Stoner 在實(shí)驗(yàn)中揭示的問題涉及三種獨(dú)立的失效模式,這些模式可能被用于比偽造紙牌游戲冠軍更具破壞性的目的。
第一是檢索層。任何依賴網(wǎng)絡(luò)搜索來生成答案的大語言模型,都會(huì)繼承其檢索結(jié)果的可信度,而這一層可以立即導(dǎo)致模型輸出錯(cuò)誤信息。
第二是模型訓(xùn)練語料庫。Stoner 表示,如果他對(duì)維基百科的修改存在足夠長的時(shí)間被爬蟲抓取,就可能進(jìn)入模型的訓(xùn)練數(shù)據(jù)。該詞條已于上周五他發(fā)布文章時(shí)被刪除,但他早在 2025 年 2 月就完成了這次修改,這意味著在此期間爬取過維基百科的 AI 公司,都可能將這段虛構(gòu)的奪冠經(jīng)歷納入訓(xùn)練數(shù)據(jù)。
"即使維基百科的編輯事后被撤銷,任何基于撤銷前數(shù)據(jù)訓(xùn)練的模型仍然會(huì)保留我留下的'遺產(chǎn)',"Stoner 寫道,"語料庫投毒的清理問題,截至 2026 年仍是一個(gè)真正未解決的難題。"
Stoner 表示,他計(jì)劃在六個(gè)月后進(jìn)行驗(yàn)證——屆時(shí)新模型已經(jīng)發(fā)布,如果在不聯(lián)網(wǎng)的情況下模型仍然返回他的冠軍頭銜,就證明這個(gè)謊言已經(jīng)進(jìn)入了訓(xùn)練數(shù)據(jù)。
第三是 AI 智能體,Stoner 認(rèn)為這才是真正對(duì)惡意攻擊者最具吸引力的目標(biāo)。
"聊天模型產(chǎn)生錯(cuò)誤信息是聲譽(yù)問題,而擁有工具訪問權(quán)限的智能體產(chǎn)生錯(cuò)誤行動(dòng)則是安全問題,"他指出。通過污染智能體檢索到的來源,攻擊者可以指定希望智能體執(zhí)行的操作。
"這次攻擊和測試只用了一個(gè) 12 美元的域名、一次維基百科編輯,以及大約二十分鐘的時(shí)間,"Stoner 在博客中總結(jié)道,"如果換成一個(gè)有動(dòng)機(jī)的攻擊者,配合幾個(gè)預(yù)先布局的域名,以及針對(duì)十幾篇低流量文章的協(xié)同編輯行動(dòng),攻擊面會(huì)迅速變得相當(dāng)可觀。"
Stoner 表示,檢索投毒是大語言模型服務(wù)商需要正視并向用戶明確警示的問題,他預(yù)計(jì) AI 聊天機(jī)器人在不久的將來將開始引入某種警告機(jī)制,尤其是針對(duì) RAG 來源的結(jié)果。
他希望 AI 公司能將數(shù)據(jù)來源可信度作為核心流程要素,同時(shí)對(duì)近期網(wǎng)絡(luò)內(nèi)容進(jìn)行啟發(fā)式過濾,以識(shí)別可疑模式。在《6 Nimmt!》這個(gè)案例中,這類過濾本可輕易發(fā)現(xiàn)問題:一個(gè)引用指向的域名注冊(cè)時(shí)間與維基百科詞條更新時(shí)間高度吻合,理應(yīng)觸發(fā)警報(bào),但實(shí)際上并沒有。
這個(gè)虛假的冠軍頭銜已經(jīng)從維基百科和 RAG 響應(yīng)中消失,但 Stoner 指出,使這一切成為可能的錯(cuò)誤信任模式依然真實(shí)存在,并將成為 AI 開發(fā)者面臨的一個(gè)迫在眉睫的問題。
"我很高興我的文章引發(fā)了關(guān)于大語言模型、信息來源、信任機(jī)制以及這一切運(yùn)作方式的討論,"Stoner 說,"這正是我的目標(biāo),而我似乎已經(jīng)實(shí)現(xiàn)了它。"
Q&A
Q1:什么是 RAG 層投毒攻擊?它和提示詞注入有什么區(qū)別?
A:RAG(檢索增強(qiáng)生成)層投毒是指攻擊者通過在網(wǎng)絡(luò)上植入虛假內(nèi)容,讓 AI 在檢索信息時(shí)抓取并引用這些錯(cuò)誤來源,從而輸出錯(cuò)誤答案。提示詞注入則是直接在用戶輸入中嵌入惡意指令來操控模型行為。兩者攻擊的都是 AI 的信息獲取環(huán)節(jié),但 RAG 投毒針對(duì)的是外部數(shù)據(jù)源,而非模型本身的推理過程。
Q2:這次實(shí)驗(yàn)為什么只花了 12 美元就成功了?
A:Stoner 只需注冊(cè)一個(gè) 12 美元的域名,搭建一個(gè)看起來像官方新聞稿的頁面,再在維基百科上添加一條引用該域名的詞條,就完成了整個(gè)攻擊鏈。由于大語言模型在網(wǎng)絡(luò)搜索時(shí)會(huì)直接信任檢索排名靠前的內(nèi)容,而不驗(yàn)證來源的真實(shí)性,這個(gè)"單一來源+維基百科背書"的組合足以讓多款 AI 將虛假信息當(dāng)作事實(shí)輸出。
Q3:AI 智能體在檢索投毒攻擊中面臨哪些特殊風(fēng)險(xiǎn)?
A:與普通聊天模型不同,AI 智能體通常擁有調(diào)用外部工具、執(zhí)行實(shí)際操作的能力。如果智能體檢索到被污染的來源,攻擊者不僅能讓它輸出錯(cuò)誤信息,還可能誘導(dǎo)它執(zhí)行特定的惡意操作,例如發(fā)送錯(cuò)誤指令或觸發(fā)自動(dòng)化流程。Stoner 指出,聊天模型產(chǎn)生錯(cuò)誤信息是聲譽(yù)問題,而智能體產(chǎn)生錯(cuò)誤行動(dòng)則是真正的安全問題。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.