2019年,當英語世界的BERT模型刷屏時,瑞典語在互聯網上幾乎隱形。一位研究者決定動手解決這個問題——用國家圖書館300年的文本檔案,從零訓練一個瑞典語版本。
最大的障礙不是算力,而是數據。瑞典語網頁內容稀少,且充斥著機器翻譯的劣質文本。研究團隊轉向圖書館的數字化檔案:報紙、書籍、政府文件,時間跨度從18世紀到現代。這些材料從未被用于訓練AI模型。
![]()
處理過程充滿妥協。古瑞典語的拼寫和語法與現代差異巨大,研究者不得不在"保留歷史語言特征"和"讓模型學會現代用法"之間取舍。最終方案是混合訓練:70%現代文本,30%歷史檔案。
![]()
模型發布后,一個意外出現了。圖書館員開始用它做 OCR 糾錯——識別掃描古籍中的識別錯誤。這是設計時沒考慮的場景,但恰好利用了模型對歷史語言的"記憶"。
![]()
這個項目的真正價值或許不在技術本身。它證明了一件事:小語種不必永遠依賴英語模型的機器翻譯,本地機構完全可以用自己的文化資產,造出可用的工具。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.