網易首頁 > 網易號 > 正文申請入駐

柏林洪堡大學:訓練AI學德語，到底該"博覽群書"還是"反復精讀"？

2026-05-11 17:20:30　來源: 科技行者

天津舉報

分享至

這項由柏林洪堡大學自然語言處理團隊完成的研究，發表于2026年，論文編號為arXiv:2604.28075，有興趣深入了解的讀者可以通過該編號查詢完整論文。研究的核心問題聽起來像一個很實際的學習策略選擇：當你想讓一個AI模型學會德語，手頭的訓練材料有限時，你該怎么辦？是給它看盡可能多的文章，哪怕良莠不齊？還是精挑細選出質量最高的那一批，反復讓它學習，直到爛熟于心？

這個問題在英語AI領域幾乎不成問題——英語互聯網上的高質量文本數以萬億計，多到用不完。但德語、法語、日語這樣的"大語種"就尷尬多了：網上的文本確實不少，幾千億個詞，但和英語相比仍是小巫見大巫。一旦你開始嚴格篩選質量，可用的文本量就會驟然縮水。這時候，"精華反復讀"和"廣泛只讀一遍"之間的取舍就變成了真正讓研究者頭疼的難題。

柏林洪堡大學的團隊以德語為切入點，系統地比較了這兩種策略。他們從一個包含近5億份德語網頁文檔的數據集出發，設計了一套層層遞進的質量篩選體系，訓練了不同規模的語言模型，并用一套經過專門清洗和修正的德語評測基準來衡量結果。最終，他們的結論相當鮮明：反復學習精選內容，比廣泛瀏覽大量普通內容更有效，而且這種優勢在實驗的整個過程中始終穩定存在，沒有出現明顯的"讀膩了"效應。

一、訓練AI讀書，到底讀什么？

要理解這項研究，先得明白AI語言模型是怎么"學習語言"的。簡單來說，它就像一個瘋狂讀書的學生：把海量文本一頁一頁讀過去，通過預測"下一個詞是什么"來逐漸摸索出語言的規律。讀得越多、讀的內容越有營養，它掌握的語言知識就越扎實。

問題是，互聯網上的文字質量參差不齊。有嚴謹的百科詞條，有深度的新聞分析，也有胡言亂語的垃圾評論、堆砌關鍵詞的SEO文章、殘缺不全的HTML導出頁面。如果不加區分地統統喂給AI，那就像讓一個學生把圖書館里的書和門口的廣告傳單一視同仁地背誦——效率極低。

正因如此，研究團隊專門為德語互聯網文本設計了一套三層篩選標準，像過篩子一樣層層提純。第一層叫做"連貫性"篩選，目標是剔除那些語言混亂、結構破碎的文檔——那些語句不通、東拼西湊的頁面、截斷的網頁代碼和碎片化的片段，統統不要。通過這一關的文檔，至少在語言結構上是完整流暢的，哪怕內容本身未必多有價值。

通過了連貫性篩選，文檔還要接受第二層考驗："信息價值"篩選。這一關專門尋找那些真正有干貨的內容——技術報告、新聞文章、專業文檔，而不是那些充斥著廢話、廣告套話和重復模板的頁面。換句話說，這一層篩的是內容的含金量。

第三層也是最嚴格的一層，叫做"教育質量"篩選。這一關借鑒了英語AI領域一個著名項目"FineWeb-Edu"的思路，專門尋找那些具有教科書級別清晰度的內容——能夠系統地解釋概念、傳授知識、像一本教材一樣結構嚴謹的文章。能通過這三關的文檔，是真正的精華中的精華。

研究團隊把同時通過三層篩選的文檔集合命名為"稠密核心"（Dense Core）。從將近5億份原始文檔中，最終只有約2450萬份文檔進入這個核心集，比例僅為5.1%，對應約280億個詞。相比之下，隨機抽樣基準集包含約1000億個詞——稠密核心只有它的不到三分之一。

二、"精讀派"對"博覽派"，誰更勝一籌？

有了這套篩選體系，研究團隊開始了正式的對決實驗。他們設定了一個固定的"學習總量"：無論用哪種策略，AI模型最終接觸的文本總量都是1000億個詞。這就像規定了一個學生的總學習時間，區別只在于這段時間里他讀的是什么。

"博覽派"的代表是隨機抽樣策略：從海量德語網頁中隨機挑選文檔，湊夠1000億詞，一遍讀完，不重復。"精讀派"的代表是稠密核心策略：只取那280億詞的精華內容，但反復讀，大約讀3.6遍，加起來同樣是1000億詞。

實驗使用的是一個擁有3.5億參數的語言模型（可以理解為一個中等體量的AI"大腦"），用六項德語測試來評估它的能力，涵蓋常識推理、事實知識問答、語言續寫等多個維度。

結果相當清晰：稠密核心模型的平均得分比隨機抽樣模型高出近5分（39.24對34.35）。更關鍵的是，這種優勢不是在最后才體現出來的——通過對訓練過程中不同階段的檢查，研究團隊發現稠密核心從一開始就以更陡峭的曲線在進步，整個訓練過程中始終領先。這說明高質量數據的好處是貫穿始終的，不是某種后期才顯現的偶發現象。

三層篩選體系中的每一層也都有各自獨立的貢獻。僅做連貫性篩選的模型，比隨機基準提升了約2分；加上信息價值篩選后，再多提升約1.6分；最終加上教育質量篩選，又有進一步提升。每一道篩選都在往好的方向推。

三、"讀膩了"的擔憂是真實的嗎？

精讀策略面臨的最大質疑是：同樣的內容反復學，AI會不會"背爛"？就像一個學生把同一本書背了三遍，他可能記住了字面內容，卻失去了舉一反三的能力。這種擔憂在學術界由來已久，此前有研究建議，數據重復不要超過4遍，否則效果會遞減甚至下降。

為了直接檢驗這一點，研究團隊把訓練預算擴大到了2000億詞，讓稠密核心數據被重復讀取約7.2遍。與此同時，隨機抽樣模型也繼續用新的、之前沒見過的文檔來延伸訓練，直到2000億詞。

出人意料的是，即使在2000億詞的終點，稠密核心模型依然領先。它沒有出現性能下滑的跡象，也沒有明顯的"讀膩了"效應——得分隨著訓練持續穩步提升，哪怕面對的是那些完全新鮮的隨機文檔的挑戰。稠密核心從100億詞到200億詞的提升幅度，也明顯大于隨機模型同等訓練量帶來的提升。這說明，當數據質量足夠高時，重復本身并不是問題。

研究團隊還嘗試了一種折中方案，叫做"分階段課程"：先用500億詞的隨機數據打底，再切換到500億詞的稠密核心數據進行精讀，希望兼顧廣度和深度。這種方案在切換到高質量數據后確實出現了明顯的性能加速，成績也不錯。但即便如此，它始終沒能超越從頭到尾都只用稠密核心訓練的模型。這個結果暗示，早期接觸的低質量數據，即便只是作為"熱身"，也會在一定程度上拖累整體效果。

四、模型越大，高質量數據的價值越高

前面的實驗用的都是3.5億參數的模型。研究團隊接下來把模型規模擴大到10億參數，相當于給AI換了一個更大的"大腦"，重新做了隨機基準和稠密核心的對比。

結論不僅在方向上保持一致，差距還更大了。3.5億參數時，稠密核心領先約4.89分；10億參數時，領先擴大到約5.14分。換句話說，模型越大，越能從高質量數據中榨取更多價值。這個規律說明，對于能力更強的模型，給它喂精華內容的回報更高。

更令人印象深刻的是橫向比較。這個用1000億詞稠密核心訓練的10億參數模型，和一些用了數倍、乃至數十倍更多數據訓練的知名多語言模型相比，性能不落下風，甚至在某些維度上還有領先。以德語單語模型LLaMmlein-1B為例，它用了整整1萬億詞進行訓練，而柏林洪堡大學的稠密核心模型只用了1000億詞——前者是后者的10倍——但兩者的最終性能相當接近，稠密核心模型甚至略勝一籌。面對谷歌的Gemma-3-1B（用了約2萬億詞）和Meta的Llama-3.2-1B（用了約9萬億詞），稠密核心模型同樣能夠比肩甚至超越，而訓練數據量分別只是它們的五十分之一和九十分之一。

五、精讀的好處，在實際應用中同樣成立

光在考卷上得高分還不夠。研究團隊還想知道，這種高質量預訓練的優勢，能不能在AI真正被使用的場景中體現出來——也就是當AI被調教成一個能和人對話、回答問題的助手時。

他們對所有訓練好的基礎模型進行了"指令微調"——可以理解為在基礎語言能力之上，教AI如何禮貌、準確地回答問題和完成任務。微調所用的數據集是一個名為SMOLTALK2的德語指令數據集。微調完成后，用另一個大型AI（Llama-3.3-70B）來擔任"考官"，評估這些助手的回答質量，打一個1到10分的評分，同時判斷回答是否正確。

結果和預訓練階段的發現高度一致：用稠密核心預訓練的模型，微調后在1000個測試問題中答對了253道；而用隨機數據預訓練的模型，只答對了178道。即便是那個比較受期待的"分階段課程"模型，答對231道，也與稠密核心有明顯差距。

有一個細節格外值得注意。此前提到，還有另一個外部團隊（Messmer等人）用了不同方法篩選出一個德語數據集，他們的篩選策略是盡量讓數據接近常見的指令問答格式，相當于"用目標場景的文本來訓練模型"。按常理推斷，這種策略在指令微調評測上應該有優勢。但實驗結果顯示，這個數據集訓練出的模型答對了219道，反而不如稠密核心模型。這說明，預訓練階段打下扎實的知識基礎和推理能力，比表面上模仿問答格式更重要。

六、評測本身也需要"清洗"

在整項研究中，還有一個容易被忽視卻相當實際的貢獻：研究團隊發現現有的德語AI評測基準存在嚴重問題，并動手修復了它們。

現有的幾個常用德語評測基準（ARC-Challenge、HellaSwag、LAMBADA、OpenBookQA），基本都是把英語原版直接機器翻譯成德語的，翻譯質量參差不齊，而且沒有考慮到一個關鍵的語言差異：德語的詞序和英語差別很大。

以LAMBADA為例，這個測試的玩法是：AI讀完一段話，然后預測最后一個詞。在英語里，句子通常以動詞或名詞結尾，預測"最后一個詞"是一個自然的任務。但德語的語法要求動詞往往放在句子末尾，直接翻譯后，原來需要預測的那個詞可能根本不在句子最后了。這就像把"我愛你"翻譯成"我你愛"，然后讓AI猜最后一個字——答案從"你"變成了"愛"，整個測試的意圖都變了。

研究團隊用一個當時最先進的多語言翻譯模型（Tower+ 72B）對這些基準進行了重新翻譯，翻譯時提供完整的句子上下文而非逐句翻譯，并人工檢查和剔除了翻譯失敗或邏輯不通的例子。最終得到了一套更可靠的德語評測基準，并將這套基準作為開放資源發布，供整個德語NLP研究社區使用。

七、研究成果的最終形態

研究團隊將他們的一系列德語模型統稱為BOLDT，并向公眾開放。其中有兩個核心的基礎模型：BOLDT-DC-350M和BOLDT-DC-1B，分別是3.5億和10億參數規模，都在2000億詞的稠密核心數據上訓練完成，供希望復現研究結果的人使用。

此外，還有一個更完整的版本BOLDT-1B。這個模型不僅用了稠密核心的網頁數據，還加入了約60億詞的德語新聞文章，這些新聞由他們團隊自行開發的FUNDUS爬蟲工具持續采集，時間跨度從2022年一直到2026年初，少量文章甚至可以追溯到1994年。BOLDT-1B的上下文窗口也從2048個詞擴大到了4096個詞，總訓練量約為2300億詞，在六項德語基準測試上的綜合表現達到44.52分，超過了多個體量相近甚至更大的多語言模型。所有模型均在HuggingFace平臺上公開發布。

說到底，這項研究回答的是一個讓很多AI研究者都糾結過的問題：當手頭的好材料有限，但你又想訓練出一個好模型，到底該怎么做？柏林洪堡大學的答案是：寧可少而精，反復鉆研，也不要多而雜、淺嘗輒止。而且這個結論在多個規模的模型上都成立，在實際應用場景中同樣成立，甚至在把同樣的數據讀七遍之后依然成立。

這對AI領域的實踐者來說是一個相當實用的信號。數據質量，而不僅僅是數據數量，才是關鍵。精心設計的篩選流程，哪怕會丟掉95%的原始數據，留下的那5%反而能訓練出更強的模型。當然，這項研究本身也有局限：目前只在德語上做了系統性驗證，只測試了10億參數以內的模型，對更大規模的模型或其他語種是否完全適用，還需要進一步的研究來確認。

有興趣深入了解這項研究細節的讀者，可以通過arXiv編號2604.28075找到完整論文，作者來自柏林洪堡大學。

Q&A

Q1：訓練德語AI為什么不能直接用更多數據，要專門篩選？

A：因為德語互聯網上的文本雖然有幾千億詞，但質量參差不齊，包含大量垃圾內容、廣告文案、破碎的網頁代碼等。直接用這些數據訓練，相當于讓AI花大量時間學習無意義的內容，效率很低。柏林洪堡大學的研究表明，嚴格篩選后只剩原始數據量5%的精華內容，反復訓練3到7遍，最終效果反而遠超用全量低質量數據一遍讀完的方案。

Q2：BOLDT模型和Llama、Gemma這些知名模型相比怎么樣？

A：BOLDT系列模型在德語能力上的表現相當有競爭力。以10億參數規模為例，BOLDT-DC-1B在六項德語基準測試上的綜合得分為44.05分，超過了Gemma-3-1B（39.77分）和Llama-3.2-1B（37.90分），盡管后兩者分別用了約20倍和90倍更多的訓練數據。當然，這些知名模型是多語言通用模型，而BOLDT專注于德語，兩者的適用場景有所不同。

Q3：現有德語AI評測基準有什么問題，柏林洪堡大學是怎么修復的？

A：現有德語評測基準大多是直接機器翻譯英語版本而來，沒有考慮德語詞序與英語不同的問題。例如在LAMBADA測試中，英語句子末尾需要預測的詞，翻譯成德語后可能因為動詞后置規則跑到了句子中間，導致測試邏輯被破壞。柏林洪堡大學用更先進的翻譯模型對ARC-Challenge、HellaSwag、LAMBADA、OpenBookQA四個基準進行了重新翻譯，翻譯時提供完整句子語境，并人工剔除了邏輯不通的例子，將修復后的基準公開發布。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.