![]()
圖來源/數智時代古籍研究前沿論壇暨‘我用AI校古籍’(2025年)總結會
無論你是否身處AI行業,近期總能頻繁刷到關于中國AI新物種的新聞。在美國拉斯維加斯會展中心舉辦的CES大會上,來自中國的AI產品遍布各個展館,成為全場關注的焦點,這也恰如其分地印證了2025年中國AI應用落地的蓬勃發展態勢。
AI正在為萬物賦予新的可能性,過去一年里,各類軟硬件新產品層出不窮,AI教育、AI電商、AI家電、智能穿戴、AI健康、AI助手、AI陪伴等應用遍地開花。AI 已經成為一切產品的底層能力。
相比百億乃至千億賽道里的AI產品,在沒被更多人關注到的傳統文化領域,AI發揮的作用同樣耀眼。
古籍整理原本是一個專業門檻極高的工作,需要專家和學者逐字敲擊錄入電腦,過程中還得分辨版刻混用字、俗體字、異體字、底本錯字,工作可謂艱辛且繁瑣。現在AI 能夠把這些工作分層,大多數工作可以由機器和簡單的人工操作來完成。
這意味著AI重塑了古籍整理的新范式,很多人僅憑借興趣愛好就能參與古籍整理的工作,讓沉睡千年的古籍以更快的速度走出“深閨”。
古籍為什么重要?近現代歷史上,古籍文字憑借美感吸引著名家著書立言。朱光潛在《中國古代美學簡介》中提出,古籍不僅是文獻資料,其版式、字體等也具有極高的審美價值。
孔子校訂"六經"是中國最早的系統性古籍整理實踐,奠定了后世古籍整理以校勘、注釋為核心的方法論基礎。兩千多年后,一幫古籍愛好者在AI 的輔助下踏上孔子走過的路,他們以技術為舟楫,渡向孔子曾渡過的河。
2024年,字節公益平臺識典古籍發起“我用AI校古籍”活動,上線僅一年半便吸引3.7萬人報名參與,累計整理2萬部共15億字。背后靠的正是識典古籍平臺里幾乎無處不在的AI。
古籍大眾智能化的春天已來,而這一切是如何發生的呢?
01
AI重塑了古籍整理的新范式
古籍是文化傳承的重要載體,承載著豐富的歷史信息、文化內涵和思想智慧,千百年來古籍在流動的文明長河滋養著人們的精神世界。即便到了如今的AI時代,當很多人以為這種艱澀難讀的古籍應當被束之高閣時,它卻依舊迸發著新的活力。
識典古籍團隊甚至都沒料想到,一場古籍整理活動能吸引數萬公眾參與。
劉爾君是上海大學中國古代文學專業研二的學生,自小喜歡文學。2025年4月,她偶然看到網上招募“我用AI校古籍”志愿者的消息,毫不猶豫報了名,“這既是我的專業也是我的熱愛。”
順利入選后,從“初階組”做到“進階組”,短短幾個月她累計校對近70卷古籍,其中包括7卷《永樂大典》。她參與的首批任務以佛經為主,如《金剛經》《楞嚴經》《華法經》等佛教經典古籍,“佛經用字繁復,異體字多,初看如天書,但越難越有趣。”劉爾君稱,校對近70卷古籍不算什么,她有個同學校對了200多卷。
對很多不熟悉古籍的大眾而言,很容易被《永樂大典》這種類古籍大部頭嚇退,事實上并非只有文學愛好者才能校對古籍。在校對古籍的數萬參與者里,不僅有千余所高校的師生,也有上班族、退休老人,甚至青少年。
校對古籍的工作,正從“學人時代”進入到大眾智能化時代。這背后離不開識典古籍AI功能的迭代和進化。
2022年10月,字節跳動聯合北京大學共同打造了識典古籍數字化平臺,AI技術正式進入古籍整理全流程。依托AI,識典古籍還將哈佛燕京圖書館的7000部古籍轉化為高清數字資源,并免費向公眾開放,用戶登錄平臺可檢索宋刻《十誦律》、元刻《隋書》、明抄《永樂大典》等珍本。
隨著人工智能技術的突飛猛進,2024年識典古籍發起“我用AI校古籍”活動,旨在把古籍整理從專業性工作降到普通大眾均可參與的文化實踐。
過去古籍整理因專業人才匱乏、生僻字識別難度大,整理效率長期偏低。AI的引入顯著改變了這一局面:AI可快速完成初步點校和基礎整理工作,再將任務拆解為多個簡單、標準化的模塊,大幅降低參與門檻。
完全沒有古籍整理背景的志愿者,只需借助“識典古籍”平臺的OCR校對等AI工具及配套教程,即可高效完成古籍的初步整理任務。
為什么大眾會熱衷整理古籍?擁有十多年古籍整理經驗的清華大學人文學院副教授唐宸告訴我們,主要是AI的強大功能,降低了大眾對傳統古籍的恐懼。只要破除恐懼心理,投入進去后就很容易發現古籍中蘊藏的文化美。
以往古籍整理專業門檻很高,主要依賴專家和學者逐字校勘、斷句標點,最后還要核校一遍,導致效率低下。
唐宸見證了AI技術如何把學者從這種繁瑣的勞動中解脫出來。他過去整理古籍的方式非常機械,需要把古籍復印出來,再逐字把它錄入到電腦里,敲的時候很容易出錯,如果沒辦法獲得復印件,他就要到圖書館里手抄。
即便那時候有一些工具可用,也達不到當前的效率。例如古籍的圖像轉成文字,就需要用一些古籍OCR(光學字符識別)工具,加標點又要去用一個工具。“過去用計算機整理古籍的最大問題是流程比較割裂,現在識典古籍把整個流程統一到了一個系統里。”唐宸說。
在識典古籍這個系統里,數據可以無縫流轉,完成從頭到尾的所有工作。而隨著大模型能力的進化,古籍整理的速度又進一步提升。
2024年華東師大的博士劉帥參加了“我用AI校古籍”活動,一個月里他初步整理出200萬字的古籍,到了2024年底,三個月時間里劉帥校過、標過、排版過、審過的書一共有191種,總字數500萬以上。“之前人工整理古籍是騎自行車,現在突然變高鐵了。”劉帥說。
“我用AI校古籍”活動最初是在字節內部發起的,沒料想很多員工參與的積極性特別高,當中有喜歡傳統文化的人,或者是文科生。他們一部分價值感來自于,自己當年學的東西竟然還有用武之地。
甚至有一部分員工,下了班就沉浸式校對古籍中,發現這是一件特別解壓的事。而這正是古籍跨越千年歷史后,與現代人產生的深度連接。
經過幾期的招募活動,截止目前,字節已經有兩三千位同事加入到古籍整理活動中。
若想讓更多人參與進古籍整理中,單單是字節內部人參與還遠不夠。2024年的六月份,識典古籍和北大數字人文研究中心共同開了一個研討會,決定向公眾推廣這個活動。一年多以來,活動累計帶動3.7萬人參與進古籍整理的工作。
AI“盤活”了沉睡千年的古籍,更激發出大眾整理古籍的熱情。
02
AI如何校古籍
2025是大模型通過高頻迭代迅速提升性能的一年,陸續開始應用到各種小眾領域。最近有媒體報道,Gemini 3.0 Pro僅用1小時,就破解了拉丁文古籍《紐倫堡編年史》中500多年未解的神秘注釋,識別出這是中世紀學者的歷法換算表。
豆包作為日活過億的頭部大模型同樣應用廣泛,尤其在傳統文化領域的應用令人驚喜。識典古籍平臺基于豆包大模型的基座,精調出一系列擅長特定任務的專業模型,因為精調的模型比較小,響應速度也快。它們如同各個領域的專家,被植入進系統內高效絲滑地執行任務。
要明白這一點,需知道古籍整理的全流程,從以下步驟也能看出AI 是如何把傳統古籍“盤活”的。
一,把古籍影像上傳到平臺,通過OCR技術自動識別,對古籍的影像文字進行單個切分,再進行文字識別和順序識別。這個過程并不簡單,OCR技術需要將古籍圖像轉化為可編輯文本,接著平臺再將流程拆解為 “AI初校—大眾粗校—專家精校” 三級體系,最后由北大的專業力量把關。
這樣的流程最為科學,既提升了效率又將保證了高準確率。
![]()
識典古籍平臺粗校版《永樂大典》頁面
二,傳統古籍是沒標點的,AI會通過序列標注的方式對古籍自動進行標點劃分,目的是為了便于現代人閱讀。在這方面AI 極為擅長,唐宸教授說:“早期用電腦加標點質量確實不行,現在識典古籍運用大模型加標點,水平已經超過碩士生。”
三,AI自動為古籍劃分結構。傳統古籍往往“有字無篇”,卷、回、段落、標題全靠讀者肉眼尋找,翻檢效率極低。識典古籍將版面視覺模型與序列標注模型疊加,能識別頁面欄線、插圖,乃至自動輸出多級目錄。
盡管AI處理復雜版式時有較高可靠性,但實際效果受圖像質量、字體變體等因素影響,最后需結合人工校對以提升精度。
四,提取古籍里的人名、地名、書名等,再自動關聯到百科。AI能通過序列標注方式識別古籍文本中的專有名詞,包括人名、地名、書名、時間、官職五類實體,這是因為模型在訓練過程中學習了古籍的文風和用字規律,能力相當于這個領域的專家。
識別結果會以不同顏色或下劃線形式高亮顯示,用戶可對錯誤或缺漏的實體進行人工修正,下方還有詞條顯示,甚至可鏈接到抖音百科進一步了解相關知識。
![]()
AI識別“子男”并提供詞條,可鏈接到抖音百科
值得一提的是,2024年以前識典古籍主要運用的是傳統NLP (即自然語言處理)技術,現在已經完全依賴大模型。這得益于字節豆包大模型的性能提升,以及火山引擎提供的算力支持。大模型的優勢在于,具備龐大的知識儲備,此外深度思考能力讓它更能做出準確的判斷。
當然,大模型并非不會出錯。2024年模型還總出現幻覺,例如會給一個歷史人物補充一些虛假的介紹,但到2025年已經減少很多。
古籍大眾化的關鍵一點在于翻譯。很多古籍都是用文言文寫的,閱讀門檻將不少人擋在門外,這就讓翻譯變得尤為重要。過去行業基本上用的都是機器翻譯,也能出結果,但出錯率比較大。
2024年,識典古籍團隊決定使用大模型進行翻譯。識典古籍的AI翻譯功能由多個精調的模型組成,這些模型有的是歷史專家,有的是佛教專家,能夠讀懂文言文的語境和上下文,直接把專業技能拉滿。最初機器翻譯的準確率只有13%,運用了大模型進行翻譯后,現在準確率已經能達到80%乃至90%。
如果說以上的AI能力打通了古籍和大眾的那堵墻,讓大眾都能參與進來校對。那么識典古籍的“深度研究助手”,則是為了幫助專家和學者更高效便捷地使用。
![]()
識典古籍深度研究助手界面
這款深度研究助手同樣是基于大模型的古籍研究工具。它并非簡單的"問答機器人",而是具備自主研究能力的AI智能體,能夠對平臺收錄的數萬部古籍進行深度挖掘與智能分析,自主完成從研究計劃制定、知識系統挖掘、表格整理與研究報告生成的全流程工作。
用戶只需輸入研究主題,便能在古籍資料中進行全面的挖掘與智能分析,顯著提升研究效率與深度。
唐宸教授在日常調研和學習中,已經深度依賴這個深度研究助手,主要用來檢索一些比較細節的古籍知識,還經常向它提問開放性問題。一定程度上,這個深度研究助手相當于他的“同行”,能和他一起碰撞靈感。
作為深度且專業的用戶,唐宸對識典古籍的評價很高。“從閱讀和檢索圖文的角度來說,識典古籍應該是最好用的,主要因為它數字化的古籍足夠多,現在已有四萬多種的體量了。”唐宸說。
03
大眾智能時代
幾年下來,識典古籍的數字化成績斐然。2022年10月,識典古籍以390部古籍為基礎,在網頁端、今日頭條古籍頻道正式上線第一版產品。
如今3年多過去,平臺已累計向全社會開放超47000部古籍資源,各渠道每月服務用戶超240萬人,每天有35萬人次檢索資料,平臺總訪問量突破1.47億。
從390部到4萬多部,識典古籍用3年多時間實現了體量的百倍擴容。這得益于AI大模型與豆包技術的深度應用,實現了古籍的智能化整理與深度研究助手功能,讓古籍研究更高效、更普及。
背后也是科技與文化傳承的深度結合,古籍從“深閨”走向“大眾”,實現了傳統文化的創造性轉化。
隨著“我用AI校古籍”活動的推進,很多的高校自發把這個活動納入到他們古籍相關專業的教學中。這個活動有一個統計口徑,稱為貢獻值,貢獻值會折算成學生日常的課堂成績。學生們在古籍校對中既拿了學分,又能感受到傳統古籍的魅力。此外,還有超過4000個外部團隊使用識典古籍進行古籍研究整理。
可以說傳統古籍的"活化",離不開所有人的參與。他們為文化傳承做出自己的貢獻,從專業修復到大眾傳播,從學術研究到創意轉化,各方力量共同織就了古籍活化的恢弘畫卷。
1月10日,“數智時代古籍研究前沿論壇暨‘我用AI校古籍’(2025年)總結會”在北京舉行。活動現場,北京字節跳動企業社會責任部產品與運營總經理羅海岳向行業同仁發出邀請:“識典古籍是一個共建共享平臺,我們期待與更多專業機構和團隊合作共建。”
這份邀請很快得到回應。在當天“數智時代古籍整理與人才培養”分論壇上,來自北京大學、暨南大學、內蒙古師范大學等高校的老師們,紛紛談起把“識典古籍”搬進課堂,以及用于學科建設的經歷。
清華大學人文學院副教授唐宸,對識典古籍幾乎手不釋“卷”。他說,只需打開手機版識典古籍app,就能隨手查資料,哪怕在火車上。
唐宸認為,識典古籍還改變整個行業。學術界過去用同類型的產品,通常里面只有一兩萬種古籍,而且收費很高。識典古籍作為公益平臺不僅古籍數量龐大,還完全免費,為推廣傳統文化做出巨大貢獻。
“都說我們中國有5000年文明,你得讓民眾看見,口頭說沒有意義,得讓他們去閱讀,去查找,去檢索。”唐宸說。而這就是識典古籍努力向大眾普及的事。
古籍作為中華文明的重要載體,其保護與活化對于傳承民族文化、增強文化自信具有深遠意義。未來,字節跳動將在古籍保護傳承之路上繼續深耕,擴充古籍資源,并降低公眾閱讀和理解門檻。而隨著大模型的持續迭代,AI一定能幫助更多古籍煥發新生。
撰文|孫方
編輯|柳嘉
「白鯨實驗室」原創文章
轉載、交流、合作請添加微信:liujiaquan2025
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.