網易首頁 > 網易號 > 正文申請入駐

春節AI紅包，本質是一場大規模微數據收割行動

2026-03-03 07:49:18　來源: 硅基星芒AI

北京舉報

分享至

長期以來，我們默認生活與網絡之間存在一道物理隔離的防火墻。

不過，近幾年來，互聯網似乎開始不那么“安全”了。

信息安全領域中，有一個叫做“實際隱晦性（Practical Obscurity）”的概念。

這在生活中并不罕見：如果有人能翻遍你在貼吧的所有發帖、對比你在微博和小紅書的發言習慣，就有很大的可能性認出你是誰。

盡管如此，大部分人是沒有這個閑情逸致并搭上時間成本來做這件事的。

但如今互聯網步入了AI時代，情況就變得有所不同。

大語言模型（LLMs）的出現，一下子讓馬甲后那堵防火墻化為齏粉。

還記得上周Anthropic指控國產AI企業惡意蒸餾，卻被用戶反問“你們是在炫耀能用元數據讓用戶無法匿名”的事嗎？

就在幾天之后，Anthropic又向全球廣播了一個駭人聽聞的事實：不用元數據，只要你能用大模型，就可以讓匿名無效！

去匿名化的手段：結構化匹配

Anthropic的安全研究團隊又有了新發現。

他們和蘇黎世聯邦理工學院共同發布了一篇在互聯網上極具破壞性的論文：《Large-scale online deanonymization with LLMs》。

稱之為“破壞性”其實一點都不過分，因為這篇論文表達的核心觀點是：

在互聯網上，對于大規模的非結構化文本，通過調用現有的API和公開模型，大語言模型只需用最多4美元的低廉成本，就可以用極高的準確率將人們的匿名賬號與真實身份完全關聯。

事實上，去匿名化對于計算機行業來說已經不是一個新的課題。

在2006年，當時的流媒體巨頭Netflix主營業務還是郵寄租賃DVD。

為了向用戶更精準地推薦電影，Netflix決定舉辦一場算法競賽，誰能將現有的電影推薦系統的預測準確率提升10%，誰就能拿走高達100萬美元的獎金。

設計算法就需要數據，雖然當時還沒有大數據技術，但Netflix仍然為此公開了一份龐大的數據集，包含約50萬名真實用戶的觀影數據和1億條電影評分記錄。

毫無疑問，公開這種隱私數據必須先進行脫敏。Netflix刪除了所有的個人身份信息，如真實姓名、郵箱、地址、信用卡號等，只留下和電影相關的一些信息。

Netflix也信誓旦旦地向全世界保證：公開的數據中不會包含任何可能識別出個人身份的數據。

在不看電影的人們看來，公開的數據和垃圾并無兩樣，但最后的結果卻超出人們的想象：

兩名安全研究人員Narayanan和Shmatikov在既不攻擊Netflix服務器、也不使用任何黑客技術的情況下攻破了Netflix的防御。

這兩位研究員使用了一種叫做鏈接攻擊（Linkage Attack）的方法，并引入互聯網電影數據庫（IMDb）作為輔助數據集。

他們敏銳地注意到，很多人在Netflix匿名打分的同時，還喜歡在IMDb上公開寫影評。因此，他們使用爬蟲獲取了大量公開用戶主頁，直接拿到了用戶的真實姓名、網名、常住地等敏感信息，以及對電影的公開評價和日期。

接下來的步驟就很簡單了，拿著這些電影相關的信息，去Netflix公開的1億條數據中玩“連連看”。

雖然看熱門電影的人很多，但每個人看電影的組合和時間軌跡卻極其獨特，幾乎獨一無二。

就像是人的指紋一樣，憑借著IMDb上的公開主頁，兩位研究員成功實現了匿名評論與用戶真實身份的綁定。

也正是在這個時候，災難降臨了。

一旦賬號被確定關聯，用戶的完整觀影歷史也就徹底暴露，各種隱私信息被迫公開導致Netflix被提出集體訴訟，盡管高額的代價實現了庭外和解，但原先設計的第二屆競賽也被永久取消。

這就是最早期的“去匿名化”攻擊，看似簡單，卻奠定了現代信息安全的一個核心概念：

微數據（Micro-data）本身就是一種身份標識，這與Anthropic防御蒸餾使用的元數據非常類似。

不過，18年前的這次攻擊也存在一個致命的弱點：必須使用結構化數據。

簡單地說，攻擊者從IMDb的公開主頁中得到用戶觀看的確切電影名、打分、時間戳等信息，并將之打包成一個數據包，格式高度標準化，多一條少一條都不行。

只有拿著這種數據包，才能去數據庫里“連連看”。因此，面對如今我們在社交平臺上隨意發布的評論，這種手段是沒有作用的。

但令人沒想到的是，18年后的AI時代，大語言模型帶來了技術拐點。

去匿名化的工業級流水線：ESRC框架

Anthropic的研究人員發現，現有的大語言模型正好能充當一個永動機般的偵探來玩這局“連連看”。

全球范圍內，每個用戶和AI的聊天，組成了海量且雜亂的非結構化數據集，而大語言模型非常善于從這些不經意的閑談中提取用戶的微數據：

點外賣會讓它知道你住在哪里，查菜譜會讓它知道你愛吃什么，甚至改代碼也會讓它發現你有用拼音命名變量的壞習慣。

生活中常用AI的朋友肯定心知肚明，我們告訴AI的信息遠不止這些，而如此豐富的信息足以讓AI將之轉化為結構化特征并進行全網匹配。

為了證明大語言模型這種獨有的攻擊手段能夠在百萬級別的用戶數據庫中自動運行，研究團隊沒有像日常對話一樣依賴簡單的提示詞進行驗證，而是專門設計了一套模塊化流水線，名為ESRC框架。

這個框架的命名由四個階段的首字母組成：提取（Extract）、搜索（Search）、推理（Reason）、校準（Calibrate）。

Step 1：提取（Extract）

日常生活中人們匿名在網絡上發表的內容十分隨意，語義模糊、無實際意義的文字隨處可見，這些都屬于非結構化的文本。有的時候，人們看到這些東西自己都不知道自己在說些什么，更別提讓模型去理解。

因此，研究人員首先使用了輕量級的大模型對這些文本進行過濾，剔除掉“經驗+3”這種無意義的回復以及純鏈接等垃圾信息。

隨后，過濾后的文本將被發送給高端模型，要求其輸出一個用逗號分隔的核心細節列表。

如此一來，一段匿名發送的看起來沒什么具體含義的文字就可能變為一段有價值的信息序列，比如[“24歲”, ”學生”, “現居北京”, “養了一只名叫coco的小狗”]，類似于Python中的列表。

Step 2：搜索（Search）

有效的匿名信息有了，再加上包含真實身份的數據庫，這局“連連看”也就可以開始了。

不過，面對每天上億個tokens和百萬用戶，如果直接讓大語言模型兩兩比對，時間復雜度就會是O(N2)，給AI廠商支付的API成本肯定是無法承受的。

因此，Anthropic的研究團隊引入向量檢索技術，并調用了OpenAI的text-embedding-3-large模型作為翻譯官。

前面提取出的核心細節列表會被翻譯成一個高維度的向量，里面包含成千上萬個數字，被稱為密集向量。

我們不經意之間告訴AI的那些信息，就儲存在密集向量中。越是興趣愛好相似的人，其密集向量在向量空間中就越接近。

而這個時候，Facebook開發的一個開源工具“FAISS庫”又能派上用場：它負責計算余弦相似度來尋找那些與匿名信息最匹配的真實身份。

通過這種方式，模型就不必在超大規模的用戶池中大海撈針，只需比對與匿名信息最匹配的那一群人即可。

Step 3：推理（Reason）

需要注意的是，傳統的嵌入向量檢索技術靠計算余弦相似度只能做到縮小范圍，但無法直接實現高精度的匹配，因為依靠向量計算出來的概率進行關聯匹配是不可靠的。

相比傳統的計算機算法，大語言模型最大的優勢就在于能夠主動進行“推理”這個過程。

因此，研究人員把與匿名信息最匹配的前100個候選真實身份交給頂尖的大語言模型，由它們通過高強度的推理得出結論。

大語言模型既可以尋找相似之處，也可以尋找矛盾之處。

假設有一個候選人與核心信息列表中的絕大部分特征都吻合，例如“24歲”、“學生”、“養狗”等等，但他的IP卻顯示在美國，目標賬號活躍時間往往是在凌晨。

在向量空間中，其匿名發布的信息可能與其真實身份極其接近，但事實截然相反。大語言模型此時就可以像人類一樣，利用這些明顯的矛盾排除高相似度的錯誤選項。

Step 4：校準（Calibrate）

對于真實世界的安全攻擊來說，必須遵循一條規律：寧可漏報，絕不誤報。因此，校準環節必須解答一個問題：大語言模型已經找到了人，但這個結果是否值得相信？

套用到實際的應用場景中很容易理解：出于好奇心，從一個人匿名發布的內容推測這個人是誰，一旦判斷錯了不僅前功盡棄，還容易引起不必要的尷尬。

因此，讓大語言模型匹配匿名信息與真實身份，要么結果正確，要么沒有結果，絕不允許出現錯誤的匹配。

在大語言模型推理完成后，攻擊者就會得到許多匹配結果，一個匿名賬號對應一個真實身份，暫且把它記作一對。成千上萬對匹配結果中，必然有錯有對。

為了解決向量相似度不靠譜和模型推理可能遺漏細微矛盾點等問題，研究團隊特意添加了一輪校準機制：

他們又設置了一個價格稍低的模型充當裁判，并讓匹配結果中的每一對進行1v1的PK。作為裁判的模型要回答其中哪一對看起來更像是同一個人。

每一輪PK后，系統根據結果更新每一對匹配結果的評分。在經過幾千次的比較后，最終得到一個極其可靠的置信度排名。

結果顯示，這種方法能夠極大程度上提高在99%以上精確率下的系統召回率，讓匹配關系更加可靠。

去匿名化的實驗結果：全面擊潰

為了評估ESRC框架是否有效，Anthropic的研究團隊設計了三個模擬真實世界的場景，結果令人有些害怕。

首先是來自自主Agent的降維打擊。

研究團隊首先構建了一個具備網絡搜索功能的大語言模型Agent，并試圖讓它將脫敏后的極客論壇賬號與真實LinkedIn職場身份進行關聯。

這個實驗與人肉搜索的過程幾乎完全一致，攻擊者只需要提供脫敏后的極客論壇檔案，該Agent就能自主生成搜索詞、調用搜索引擎并交叉比對從網頁中獲得的證據。

研究團隊設計的準確率要求是90%，在此基礎下該Agent竟然成功還原了67%的用戶身份，耗時只有短短幾分鐘。

更可怕的是，平均下來每位用戶的搜索成本只有1-4美元！

這就意味著，大規模、高定制化的“人肉搜索”在經濟上已經具備可行性。

接下來有人可能會想，真實的職場身份容易被發現，那如果是不同平臺的兩個匿名小號呢？

大模型給出的回復是：沒有區別。

為了模擬同一用戶在不同平臺的兩個匿名小號，研究團隊將Reddit用戶發布的帖子分為兩類：一類是綜合電影板塊，一類是小眾電影板塊。

但結果仍然令人驚訝：即便是沒有年齡、職業等容易形成強關聯的隱私數據，只有主觀的電影評價和審美偏好，ERSC框架也能將兩個小號精準關聯。

冰冷的數據顯示，同一個用戶只要在兩個匿名小號中共同提到過10部電影，被精準關聯的概率就已經達到48.1%。

還有人會說，人的愛好和討論熱點是會變的，過去的賬號和現在的新賬號壓根不相關。

很可惜，模型終究還是成功跨越了時間長河。

研究團隊將1萬名用戶的評論以1年為期進行劃分，一年前的言論作為查詢集，一年后的言論作為候選池。

實驗證明，即便是完全不同時期的社會新聞和話題，大語言模型還是能見微知著，從寫作風格、興趣甚至是人口統計特征，從包含數千名干擾者的候選池中準確找到用戶“過去的自己”。

去匿名化的現狀：無法防御

無論是2008年的Netflix事件，還是Anthropic研究團隊的模擬實驗，我們會發現數據規模其實并不大。

一個最直觀且正確的想法是：通過精準匹配實現去匿名化的難度取決于候選池的大小。

若是將候選的真實身份擴充到百萬、千萬級，采用ERSC框架的攻擊手段是否還能生效？

傳統統計算法顯然不行，哪怕是幾百人的情況下都會崩潰，召回率直接歸零；

但基于大語言模型的ERSC攻擊不一樣，它展現出了恐怖的對數線性衰減特性，即便是百萬人，大語言模型仍然能在90%精確度的水平下保持35%的召回率。

更可怕的是，這種攻擊手段，用戶無法防御，平臺也無法防御。

對于用戶來說，傳統的隱私保護手段大多是為了結構化數據而設計的。

我們可以把年齡模糊成年齡段，可以把定位服務關掉避免位置信息被獲取。

但生活和網絡中，一個人總得說話。哪怕是用最高級的文本凈化技術來脫敏，大語言模型仍然能從這些非結構化文本和上下文語境中推斷出些許特征。

對于平臺來說，無法從API層面上封殺這種攻擊手段。

平臺看到黑客針對漏洞進行攻擊，可以用防火墻攔截；但如果平臺看到用戶的請求是“幫我看看這兩段電影評價哪個寫的更好”呢？

攻擊手段恰恰就包含在這些看起來完全正常的用戶請求之中，模型提供商根本無法判斷調用者是在進行去匿名化攻擊還是在正常工作。

至此，網絡安全領域的防御成本和攻擊成本的非對稱性已經被徹底逆轉。

結語

以前，我們面對互聯網總是會想：我不過是個普通人，誰會閑的沒事扒我的馬甲？

隱藏在商業世界中的變現邏輯恐怕不會這么想。

如果我們把目光拉回到剛剛過去的春節，國內幾家頭部大模型平臺無一例外地推出了AI助手的激勵政策。

無論是元寶派的現金紅包，還是千問的免費奶茶，幾家平臺砸下數十億現金的猛烈營銷使得其產品在春節期間的日活數據飆升，但假期一過，留存率卻相當慘淡。

按照過往的互聯網運營思維來看，這當然談不上是什么成功的拉新活動。各家的錢都沒少燒，ROI卻不見起色，用戶薅完羊毛心滿意足地轉身離去，產品還是沒多少人主動用。

但是，看完這篇論文，我卻感到細思極恐。

或許，這不是一次失敗的拉新營銷，而是一場披著春節外衣的大規模微數據收割行動。

回想一下春節假期里人們都用AI做了什么？

了解拜年話術、查詢年夜飯菜譜、制定旅行規劃、訂購外賣奶茶、甚至是編寫復工請假理由。

這些非結構化的自然語言，在用戶看來只是閑聊，在傳統算法面前只是幾句廢話。

但在普遍擁有ESRC能力的AI公司看來，這些信息就意味著價值，而大語言模型正是發現價值的顯微鏡。

AI公司并不需要用戶高度留存，相反，只要用戶點開對話框，哪怕只用了幾分鐘聊了幾句，大語言模型就能從簡短而模糊的需求中精確提取出年齡、常住地、職業、家庭結構、消費能力甚至性格等高價值信息。

在AI公司手里，ESRC框架的攻擊手段正是精準描繪用戶畫像的最強武器。

過去，字節可能需要分析過去一個月用戶看過的抖音短視頻、騰訊可能要分析用戶在微信看過的一千篇歷史文章、阿里可能要分析用戶在淘寶購買的上百個產品，才能模模糊糊拼湊出用戶大概是個什么樣的人。

而如今，憑借著大語言模型已經溢出的語義理解和推理能力，僅靠幾次不經意之間的對話碎片，AI就可以輕松在海量數據中完成精準的“去匿名化”定位。

這些被提取出來的高質量用戶標簽，正是實現精準的廣告投流、跨平臺數據變現以及未來模型的訓練最寶貴的資產。

而我們，沒有反抗的余地。

總之，無論如何我們都只能接受一個事實：長期以來，支撐互聯網自由表達的匿名機制，在LLM面前已經失去了意義。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

奪冠代價！阿森納沖刺雙冠或送切爾西5800萬，哈弗茨成關鍵

星耀國際足壇

2026-05-13 14:03:59

夜景中的美女，身材真好

藍色海洋009

2026-05-13 17:06:46

“老戰友”徹底反目！他信出獄開啟大復仇，洪森父子恐將身敗名裂

流史歲月

2026-05-13 15:00:03

特朗普訪華前，中美先后放出兩個消息，高下早已注定

呼呼歷史論

2026-05-14 00:32:50

互聯網是有記憶的，她的黑歷史一大堆啊！

BenSir本色說

2026-04-15 22:38:07

同日告別！孫穎莎兩大閨蜜官宣退出國家隊，互相送祝福

湘楚風云聊體育

2026-05-14 01:46:50

殺了5萬日軍的“絕密戰犯”，回歸時受到周公相迎，至今身份成謎

文史達觀

2026-05-11 06:45:17

鄭麗文遭當頭一棒，中方嚴正通告，對岸不準參會，傅崐萁臨陣倒戈

御前帶刀大人

2026-05-13 03:57:37

大瓜！許家印昔日恒大奢靡細節流出，丁玉梅海外包養30歲白人小伙

壹月情感

2026-05-09 00:00:07

特朗普還未抵京，美貿易代表突然改口，財長攤牌：求中方辦三件事

龍隱天下

2026-05-14 03:16:27

女子線上買榴蓮破防，5房果開出3房幾乎沒肉的“榴蓮糖”，聯系客服后退款50%

大象新聞

2026-05-12 22:46:09

歐美為什么希望我們也不要加班？

羅sir財話

2026-05-11 17:35:24

保留火箭5子？斯通攤牌，打消球員疑慮！聯手3位老將，可再試1年

熊哥愛籃球

2026-05-14 03:00:36

網紅水果黑幕曝光！全是添加劑泡的，很多人天天買給孩子吃

泠泠說史

2026-05-12 19:57:36

新疆一女生沒電腦在電競館學習，女店主得知后免費：只要是不打游戲，來學習的都免費

瀟湘晨報

2026-05-13 15:32:29

壽命與大便次數有關！研究發現：壽命長的人，每天排便在這個次數

荔子言

2026-05-13 11:41:19

日本高官稱168小時可全殲中國海軍，但中國禁用導彈

明天后天大后天

2026-03-17 15:30:37

重慶一大橋橋底崖壁上現佛頭塑像，文旅部門：系現代塑像，不具備文物價值；雕刻者已找到，與重慶少年宮“小蘿卜頭”雕像作者系同一人

三湘都市報

2026-05-13 21:54:13

美媒揭秘：其實不止美國以色列，一直有第三國在暗中襲擊伊朗

起喜電影

2026-05-14 01:32:38

妻子住院14天娘家無人看，我沉默，18天后小舅子問180萬合作為什么取消？

麥子情感故事

2026-05-13 23:57:36

硅基星芒AI

錦緞旗下人工智能研究與媒體服務平臺

59文章數 7關注度

往期回顧全部

科技要聞

阿里年營收首破萬億，AI終于不再是畫大餅

頭條要聞

女子閃婚獲千萬房產99%份額閃離后起訴分割法院判了

頭條要聞

女子閃婚獲千萬房產99%份額閃離后起訴分割法院判了

體育要聞

14年半，74萬，何冰嬌沒選那條更安穩的路

娛樂要聞

白鹿掉20萬粉，網友為李晨鳴不平

財經要聞

美國總統特朗普抵達北京

汽車要聞

C級純電轎跑吉利銀河"TT"申報圖來了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

手機

健康

時尚

公開課

本地新聞

用蘇繡的方式，打開江西婺源

手機要聞

iOS 27新功能全面爆料！相機App界面支持定制，Siri將徹底重塑

干細胞能讓人“返老還童”嗎

專欄 | 進入心流后，不被洪流裹挾

公開課

手機 / 數碼

房產 / 家居

春節AI紅包，本質是一場大規模微數據收割行動

阿里年營收首破萬億，AI終于不再是畫大餅

女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

14年半，74萬，何冰嬌沒選那條更安穩的路

白鹿掉20萬粉，網友為李晨鳴不平

美國總統特朗普抵達北京

C級純電轎跑 吉利銀河"TT"申報圖來了

態度原創

用蘇繡的方式，打開江西婺源

iOS 27新功能全面爆料！相機App界面支持定制，Siri將徹底重塑

干細胞能讓人“返老還童”嗎

專欄 | 進入心流后，不被洪流裹挾

女子閃婚獲千萬房產99%份額閃離后起訴分割法院判了

女子閃婚獲千萬房產99%份額閃離后起訴分割法院判了

C級純電轎跑吉利銀河"TT"申報圖來了