網易首頁 > 網易號 > 正文申請入駐

扎克伯格被出版商集體起訴：訓練大模型用了誰的版權書？

2026-05-06 02:05:47　來源: 野生運營

北京舉報

分享至

五家出版巨頭聯手上陣，把馬克·扎克伯格本人列為被告。這場官司的核心爭議很直接：用來訓練大語言模型的海量書籍，到底是"合理使用"還是"大規模盜版"？

誰告的，告什么

原告名單堪稱出版業全明星：阿歇特、麥克米倫、麥格勞-希爾、愛思唯爾、圣智五大出版集團，外加暢銷書作家斯科特·特羅。他們在集體訴訟中指控，Meta及其CEO扎克伯格"未經授權復制并分發了數百萬部受版權保護的作品，未向作者或出版商提供任何補償，且完全明知其行為違反版權法"。

訴狀中有一句指向明確的指控：「扎克伯格本人親自授權并積極鼓勵了侵權行為。」

這不是Meta第一次因訓練數據被告。2023年，另一批作者發起過版權侵權訴訟，但最終敗訴。LibGen案中也出現過扎克伯格" reportedly encouraged use of copyrighted works"（據報道鼓勵使用受版權保護作品）的說法。去年，英國一群作者也曾就Meta可能違反版權法發出警告。

Meta的防守：法院站我這邊

Meta發言人戴夫·阿諾德在回應《紐約時報》時搬出了法院背書：「人工智能正在為個人和企業帶來變革性創新、生產力和創造力，法院已正確認定，使用受版權保護的材料訓練人工智能可構成合理使用。」

這句話的底氣來自近期判例。在針對Anthropic的類似訴訟中，法官對版權侵權論點似乎不為所動，但提出了另一條路徑——將 piracy（盜版）作為作者向AI公司索賠的替代方案。

這暗示了當前法律戰的關鍵分野：版權侵權的"合理使用"抗辯 vs. 數據來源本身的非法性。

辯論核心：技術需要 vs. 權利邊界

正方（Meta及AI公司）的邏輯鏈條：

大語言模型需要海量文本訓練 → 受版權保護的作品是高質量語料的主要來源 → 法院已認可"合理使用"框架 → 技術創新收益大于個體權利損耗 → 行業慣例如此，改變規則將扼殺發展

反方（出版商與作者）的反擊點：

訓練數據規模達"數百萬部" → 零補償、零授權 → 高管"親自授權"顯示主觀故意 → 2023年作者敗訴不等于出版商敗訴（原告主體不同，作品類型不同） → LibGen等盜版書庫的使用涉嫌"明知故犯"

一個關鍵細節：訴狀特別強調扎克伯格的"personal authorization"（個人授權）。這不是把責任推給某個技術團隊，而是直指最高決策層。如果這一指控被采信，將動搖"公司行為 vs. 個人責任"的防火墻。

我的判斷：這是一場關于"成本轉嫁"的談判

出版商選擇此時集體起訴，時機精準。2023年作者敗訴后，法律界對"AI訓練=合理使用"的共識并未穩固——Anthropic案中法官對盜版路徑的開放態度，留下了窗口。

更深層的博弈在于：AI公司的訓練成本結構，是否必須包含版權采購？

目前大模型的競爭本質是數據軍備競賽。如果法院最終要求為每本訓練書籍付費，行業成本結構將徹底重寫。出版商要的或許不是勝訴判決，而是一個定價基準——就像音樂流媒體時代，唱片公司最終拿下的版權分成模式。

扎克伯格"親自授權"的指控，無論真假，都暴露了一個行業默契：在"先訓練、后談判"的策略下，高管層對數據來源的灰色地帶心知肚明。出版商此刻把這句話寫進訴狀，是在向陪審團和輿論同時喊話——這不是技術中立，這是商業決策。

案件走向將取決于兩個法律技術問題：LibGen等盜版書庫的使用能否被證明；以及"合理使用"的邊界是否因"商業性AI平臺"而收縮。在此之前，所有AI公司的訓練數據審計報告，都值得重新閱讀。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.