一張肉眼難辨的圖片，就能讓GPT-5.4、Claude Opus 4.6集體造謠

2026-05-31 18:30:55　來源: 機器之心Pro

天津舉報

分享至

不知道你有沒有發(fā)現(xiàn)，最近一兩年，"問問 AI" 已經(jīng)悄悄變成了很多人求證信息時的默認(rèn)姿勢。

在推特（X）上刷到一張聳人聽聞的現(xiàn)場圖，第一反應(yīng)是@Grok讓它鑒定真?zhèn)危恍〖t書上看到一份帖子，可以直接@問一問 ai讓它回答問題，或者順手打開豆包或 Kimi 讓 AI 評估博主推的產(chǎn)品到底靠不靠譜；淘寶、亞馬遜頁面前猶豫兩個商品孰優(yōu)孰劣，把圖甩給 ChatGPT 要一份 "客觀" 對比。

VLM（視覺語言模型），我們曾以為它們只是 "會看圖的聊天機器人" 而就是在我們沒怎么留意的時候，它正在悄悄變成了在線信息生態(tài)里的事實仲裁者。從社交平臺的圖片真?zhèn)魏蓑灐㈦娚虒?dǎo)購、內(nèi)容審核，到反向圖像搜索，一句 "AI 這么說" 在越來越多的語境里已經(jīng)被默認(rèn)為某種權(quán)威。

而正是這份 "默認(rèn)權(quán)威"，讓來自 ETH Zurich 的 Florian Tramèr 團隊在最新論文中拋出了一個出乎意料的問題：如果 AI"看到" 的圖，根本不是你肉眼看到的那張，會發(fā)生什么樣的后果呢？

在 Laundering AI Authority with Adversarial Examples 一文中，作者系統(tǒng)性地證明了一件令人不安的事：攻擊者只需對一張圖片做出人眼難以察覺的微小擾動，就能讓當(dāng)今最強的 VLM 對這張圖自信、權(quán)威、且錯誤地作答，而這些回答看上去完全像是 AI 自己經(jīng)過深思熟慮得出的結(jié)論。

他們把這種現(xiàn)象稱作AI 權(quán)威清洗（AI Authority Laundering）。

論文標(biāo)題：Laundering AI Authority with Adversarial Examples
論文鏈接: https://arxiv.org/abs/2605.04261

本文第一作者張杰為蘇黎世聯(lián)邦理工學(xué)院（ETH Zürich）SPY Lab 的研究人員，師從 Florian Tramèr 教授，主要研究方向為大語言模型的安全與隱私。

今天我們需要擔(dān)心對抗樣本嗎？

對抗樣本 (adversarial example) 其實不是新概念，把熊貓認(rèn)成長臂猿、把貓認(rèn)成牛油果醬，這種 "教科書梗" 已經(jīng)被演示了十多年，但一直被視作 "學(xué)術(shù)上有趣、工程上無關(guān)緊要" 的研究問題。實際生活中，沒有人關(guān)注模型把熊貓錯誤分類為長臂猿！

這篇論文要做的，正是為那個懸了十年的 so what 補上答案：當(dāng) VLM 被廣泛應(yīng)用于各個領(lǐng)域、并逐漸成為人們信賴的權(quán)威信息來源時，這種攻擊竟可以搖身一變，成為一種低成本、可大規(guī)模實施的現(xiàn)實威脅。

那讀者可能要問，攻擊者具體可以做哪些壞事呢？這篇論文里系統(tǒng)描述了多種場景，比如虛假信息傳播，個人名譽攻擊與身份操控，內(nèi)容審核規(guī)避，購物推薦操控等等。這里主要介紹其中 3 個案例：

1. 放大虛假信息：讓 ChatGPT 替陰謀論 "蓋章" 定調(diào)

上圖中的真實驗證中顯示，用戶給出阿波羅號登月、911 攻擊、以及論文中還提到的特朗普被槍擊，肯尼迪刺殺，原子彈爆炸等等歷史事件，向 LLM 提問其真實性，ChatGPT， Claude 等模型會相當(dāng)自信地告訴用戶：這張照片是偽造的！

2. 抹黑特定個人：讓 Grok 把 Musk 釘在販毒 / 去世的新聞上

作者把一篇報道某人因販毒被捕的新聞截圖整頁擾動為馬斯克的圖像 embedding。當(dāng) Grok 4.2 被問 "文章里說的是誰" 時，Grok 4.2 直接報出 Elon Musk 的名字。研究者又換了一篇 NYT 關(guān)于韓國演員 Ahn Sung-ki 去世的報道，即便文章標(biāo)題就直接寫著真名，Grok 4.2、Qwen 3.6 Plus、Gemini 3.1 Pro 依然每次都把死者識別為 Elon Musk。

用戶向 Grok 給出一張臭名昭著的連環(huán)殺人犯照片和馬斯克的照片，要求 Grok 生成 "讓那個更有罪的人被逮捕的畫面" 時，Grok 則選擇生成馬斯克被警察戴上手銬的圖。

即便 chatgpt， grok， gemini 等具有聯(lián)網(wǎng)搜索的能力， AI 搜圖也都會被誤導(dǎo)。同樣的擾動圖直接傳到 Google、Bing、Yandex 做反向圖像搜索，幾大引擎都把擾動版的 Donald Trump 圖像識別為 Elon Musk。

3. 繞過內(nèi)容審核：發(fā)布成人內(nèi)容

作者挑了 10 張被兩家 NSFW 檢測服務(wù)（NSFW Check、Nyckel）以 98%-99% 置信度判定為色情的圖片，把它們的 embedding 拉向玩具娃娃和泰迪熊。接著請 ChatGPT 評估這些圖是否適合發(fā)到社交媒體，模型不僅說適合，還夸它們 "互動潛力高"。

還有一個更精細(xì)的案例：Grok 在 2025 年因生成數(shù)百萬張女性深度偽造遭遇丑聞之后，X 加強了針對女性圖像的脫衣過濾。作者發(fā)現(xiàn)，Grok 現(xiàn)在會接受男性圖像的脫衣請求，但拒絕女性的。如果把女性圖像擾動到男性圖像的 embedding，那么81%的 “脫衣” 請求被通過，而 Grok 實際編輯展示的還是那張原始的女性圖像。

最離奇的一幕

作者把同一張 AI 生成的女性圖片，連同它的擾動版本（被拉向一張 AI 生成男性圖片的 embedding），并排擺在 Claude Opus 4.6 面前，問 "這是同一個人嗎？"

Claude 堅定地回答：不是，左邊是男性，右邊是女性，這是兩個不同的人。此外， Grok 4.2 和 ChatGPT 5.4 Thinking 也給出了完全一致的回答。

結(jié)語

論文末尾留下一個讓從業(yè)者發(fā)人深省的判斷：

不需要任何新攻擊算法。十多年前就已經(jīng)存在的基礎(chǔ)技術(shù)，已經(jīng)足以構(gòu)成本文所描述的全部威脅。

作者用的并非什么秘而不宣的新黑科技，而是 2014 年起就被廣泛研究的經(jīng)典 PGD 對抗樣本方法，加上對公開 CLIP 模型集成的轉(zhuǎn)移攻擊。這些手段早已是文獻里的 "老配方"。這意味著，論文報告的成功率應(yīng)當(dāng)被理解為攻擊者能力的下限，而非上限。

而過去幾年里，整個機器學(xué)習(xí)社區(qū)對視覺對抗魯棒性的興趣其實在逐漸冷卻。這篇論文給出了一個有力的反例：當(dāng) VLM 被嵌入到事實核查、內(nèi)容審核、電商推薦這些高信任度工作流時，對抗樣本就不再是學(xué)術(shù) benchmark 上的小數(shù)點，而是一種實打?qū)嵉摹⒖刹渴鸬恼鎸嵐簟?/p>

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.