2026年4月27日,上海大學文學院特邀同濟大學德國問題研究所王思婕助理教授,做了題為《從數(shù)字時代到數(shù)智時代:基本路徑與技術拓展》的專題講座。本次講座由上海大學歷史學系焦姣副教授主持。講座以世界史領域數(shù)字史學的發(fā)展困境為切入點,系統(tǒng)闡述了數(shù)字研究基本路徑,并結合具體研究案例演示了從語料準備到模型可視化的完整工作流程。在此基礎上,講座進一步探討了生成式人工智能對數(shù)字史學的技術賦能與現(xiàn)實局限,在理論與實踐兩個層面均為與會者帶來豐富啟示。
![]()
同濟大學德國問題研究所王思婕助理教授
世界史領域數(shù)字史學的發(fā)展困境與基礎設施建設
講座開篇,王思婕從世界史學科出發(fā),著重介紹了一些海外數(shù)字史學基礎設施,例如“來自北美的移民信件”(Ausl?nderbriefe aus Nordamerika)項目。該項目發(fā)端于20世紀80年代,德國埃爾富特大學哥達研究圖書館(Forschungsbibliothek Gotha)收藏了大量德意志移民從北美寄出以及留在家鄉(xiāng)的親人朋友寫給移居者的信件,經系統(tǒng)收集整理后,目前已成為全球規(guī)模最大的移民信件集,共收錄約11085封信件,并持續(xù)向公眾開放補充。2018年,牛津大學納菲爾德學院的一個研究團隊利用該數(shù)據庫,追溯了美國德語移民在整個19世紀和20世紀初如何通過書信表達對“新”祖國的社會歸屬感以及對“舊”祖國的身份認同與情感態(tài)度,運用計算機文本分析方法探究移民群體重塑身份和社會融合的動機變化。王思婕以此說明,數(shù)字史學基礎設施的建設具有深遠的學術價值,國內亦有類似的史料數(shù)字化實踐正在穩(wěn)步推進,這類工作雖短期內難有顯著成果,卻是長期極具價值的數(shù)據庫積累工程。
王思婕指出,此類海外大型數(shù)字史學基礎設施項目往往投入周期長、協(xié)作規(guī)模大,確實難以直接移植到國內青年世界史學者的個體研究實踐之中。但她結合自身研究經歷強調,數(shù)字史學并不只有“大項目”這一種形態(tài)。對于世界史青年學者而言,完全可以從更小、更具體的問題切入,將數(shù)字方法作為單篇論文中的實驗性工具,或作為學位論文、專著某一章節(jié)的輔助分析路徑。她進一步指出,相較于中國史領域較為龐大的研究群體和相對成熟的數(shù)字資源平臺,國內世界史研究者往往面臨海外檔案獲取不便、現(xiàn)有數(shù)據平臺難以直接適配、個體研究力量有限等現(xiàn)實約束。但這并不意味著數(shù)字史學無法進入世界史研究。研究者仍可結合自身史料條件與研究能力,在可控的工作量范圍內建立小型歷史語料庫,并嘗試文本分析、空間可視化、社會網絡分析等方法。歸根結底,數(shù)字方法的引入并非單純的技術選擇,而首先取決于史料條件、研究資源與問題意識之間能否形成有效匹配。因此,在研究初期認真評估具體問題是否確有引入數(shù)字方法的必要,尤為關鍵。
數(shù)字史學的基本研究路徑
在厘清世界史數(shù)字史學的發(fā)展困境與建設方向后,王思婕進一步系統(tǒng)梳理數(shù)字史學的核心研究路徑。她指出,地理信息系統(tǒng)(GIS)、社會網絡分析(SNA)、主題建模(Topic Modelling)以及共現(xiàn)分析(Co-occurrence Analysis)是目前較為常見的數(shù)字史學方法。為直觀展示方法的應用效果,她結合邱偉云基于“中國近現(xiàn)代思想史專業(yè)數(shù)據庫(1830—1930)”圍繞“世界”一詞繪制的高頻共現(xiàn)詞叢及歷年比例累加圖,簡要說明了共現(xiàn)分析在揭示思想史長期演變趨勢與關鍵轉折節(jié)點方面的有效性。她強調,目前學界主流研究普遍采用多方法融合的研究路徑,四種方法各有側重、互為支撐。
![]()
講座現(xiàn)場
(一)地理信息系統(tǒng)(GIS)的應用與案例
在地理信息技術的講解中,王思婕從經典案例入手,由淺入深地展示了GIS在歷史研究中的闡釋潛力。她首先介紹了約翰·斯諾(John Snow)醫(yī)生1854年繪制的倫敦霍亂地圖。1854年9月,倫敦蘇豪區(qū)(Soho)爆發(fā)嚴重霍亂,短短十天內死亡超過500人,彼時醫(yī)學界主流觀點為“瘴氣論”(Miasma Theory),認為霍亂通過空氣中的惡臭或腐爛物質傳播。斯諾醫(yī)生走訪受災最嚴重的寬街(Broad Street),在地圖上精準標注每一例死亡案例發(fā)生的地點,經空間分析發(fā)現(xiàn)死亡案例高度集中于寬街水泵附近。結合附近釀酒廠工人因只飲自家水或啤酒而幾乎無人患病、一位遠住數(shù)英里外的老婦因偏愛該水泵的水而每天派人專程取水并最終死于霍亂的細節(jié),斯諾成功推翻瘴氣論,證明霍亂經由水源傳播。王思婕進一步指出,借助數(shù)字工具可以將該案例中的相關數(shù)據轉化為可無限放大的動態(tài)交互地圖,從而揭示傳統(tǒng)閱讀難以察覺的空間規(guī)律。為具象化操作流程,她結合Jupyter Notebook演示了如何利用pandas進行數(shù)據讀取、整理與初步分析,并借助folium實現(xiàn)地圖可視化,同時對比了matplotlib圖與交互式Bokeh圖在展示總體趨勢和觀察細部信息上的不同功能。
![]()
約翰·斯諾醫(yī)生(John Snow)的倫敦霍亂地圖
![]()
對比matplotlib圖與交互式Bokeh圖
![]()
結合Jupyter Notebook演示如何利用pandas進行數(shù)據讀取、整理與初步分析
除了學界經典研究,王思婕還結合自己的研究論文“Mapping Germanness in Early 20th Century USA: Topic Modeling and GIS within a Small Corpus Framework”,分享了其在研究德意志帝國對美文化關系過程中,運用地理信息系統(tǒng)(GIS)的具體實踐。首先,她利用19世紀末美國人口普查的官方數(shù)據,繪制了德裔美國人的人口分布熱力圖;隨后,又將1902年威廉二世胞弟海因里希親王訪美的路線疊加到同一地理坐標系之中。空間分析結果顯示,親王的行程大體覆蓋了德裔人口聚居的區(qū)域,同時也特別訪問了哥倫比亞大學和哈佛大學兩所美國精英學府。由此,數(shù)字工具從地理層面揭示了親王訪美并非單純的禮儀性外交活動,很可能還兼具聯(lián)絡德裔族群、拓展學術網絡的雙重意圖。尤其是在進一步查閱哈佛大學相關檔案之后,她得以更具體地把握德裔教授參與德美文化活動的目的和方式,進而為考察德意志帝國發(fā)展對美文化關系的具體機制,提供了更明確的線索。王思婕也提醒,這項研究出于操作便利,直接以現(xiàn)代地圖數(shù)據庫替代歷史地圖,在方法上并不十分嚴謹,只是在該研究情境下,這一處理并未實質影響結果呈現(xiàn)。但若研究對象涉及行政區(qū)劃變動較大的國家,例如德國,研究者則必須使用與歷史時期相對應的地圖資料,以確保分析結果的準確性。
![]()
數(shù)字工具操作演示圖
(二)社會網絡分析(SNA)的應用與案例
在社會網絡分析方法的講解中,王思婕著重介紹了一項關于“新教改革中馬丁·路德社會網絡”的經典案例。她指出,歷史學家對新教改革進行了多角度的深入研究,但仍留有若干疑問:新教改革究竟如何從維滕貝格這座相對貧窮而孤立的小城向外傳播?傳統(tǒng)的宗教改革歷史研究通常將新教的迅速傳播歸功于印刷術的普及或宏觀政治條件。該研究的創(chuàng)新在于提出了一種結合了“關系擴散”和“結構擴散”的框架,由此綜合了兩類數(shù)據:一是路德的個人關系網絡,包括1501至1522年的往來信件、旅行訪問記錄,以及前往維滕貝格大學追隨路德求學的學生名冊;二是空間與貿易路線網絡,即16世紀的陸路、內河和海上貿易路線,以重構城市之間的空間聯(lián)結網絡。在可視化網絡圖中,方形節(jié)點代表路德個人網絡所覆蓋的城市,圓形節(jié)點代表路德未曾直接影響的城市;紅色節(jié)點表示該城市在1530年以前已采納宗教改革,灰色節(jié)點則表示未采納。研究發(fā)現(xiàn),紅色節(jié)點并非均勻分散,而是傾向于形成集群,如不來梅集群、施派爾集群與埃爾福特集群。更為關鍵的發(fā)現(xiàn)在于:紅色圓形節(jié)點常與紅色方形節(jié)點相鄰,表明貿易路線提供了一種二次傳播機制。基于此,可以認為如果沒有方形節(jié)點(路德),宗教改革沒有足夠的初始動力;但如果沒有連線和圓形被點亮(貿易網絡和間接傳播),宗教改革就只會在少數(shù)幾個城市打轉,而無法形成全歐洲燎原的星火。
![]()
![]()
路德去過的城市與路德學生所在城市
王思婕還分享了自己運用社會網絡分析對“大西洋橋”(Atlantik-Brücke)進行初步研究的經歷。作為冷戰(zhàn)初期推動德美關系的重要精英組織,大西洋橋在既有認知中通常被視為與基督教民主聯(lián)盟(CDU)關系尤為密切,尤其是現(xiàn)任德國總理默茨曾長期擔任該組織主席,更強化了這一印象。在課堂演示中,她主要將大西洋橋作為學生課程訓練的案例材料,通過手工從11份材料中提取人物職業(yè)、地域與關聯(lián)信息,構建了一個跨大西洋的關系網絡,并由此發(fā)現(xiàn),該組織同樣與社會民主黨(SPD)存在深度聯(lián)系,特別是與一批曾在納粹時期流亡海外的SPD成員往來密切。與此同時,漢堡由于媒體行業(yè)高度發(fā)達,成為整個網絡中的關鍵節(jié)點,其重要性甚至超過了柏林。這一發(fā)現(xiàn)也與同期中央情報局(CIA)檔案中的相關記錄形成了呼應。她強調,目前借助NotebookLM等工具的確可以快速歸納文本中的隱含網絡,但AI生成的結果顆粒度仍然偏粗,只有與研究者的人工整理和校驗相結合,才能形成更可靠、也更具有歷史解釋力的分析框架。
![]()
冷戰(zhàn)初期德美精英網絡——跨大西洋橋
(三)主題建模與文本分析的應用與案例
在文本分析與主題建模部分,王思婕首先以自身研究為中心,詳細演示了她對“全美德盟”會議文本開展文本分析的具體流程。全美德盟是19世紀末成立的一個德裔美國人全國性組織。圍繞其歷年會議記錄開展主題建模,所要回答的核心問題是:德意志移民早在17世紀初便已登陸北美,為何直到19世紀末20世紀初才形成全國性的組織網絡?針對這一問題,她提出了兩項假設:其一,1871年德國統(tǒng)一后,德裔移民的民族認同感顯著增強;其二,德裔社群為維護其在釀酒業(yè)與服務業(yè)中的既有利益,并共同應對日益高漲的美國禁酒運動,逐步形成了更強的組織化訴求。為驗證上述假設,她繼續(xù)用Jupyter Notebook進行代碼演示,系統(tǒng)展現(xiàn)了從語料準備到模型可視化的完整研究流程。王思婕特別指出,在對歷史文本的主題建模中,“統(tǒng)計最優(yōu)并不等于人文最優(yōu)”。算法通常以最小化“困惑度”(perplexity)為優(yōu)化目標,但歷史研究真正追求的,是具有解釋力的語義結構,以及能夠進入歷史敘事的問題意識與研究結論。因此,研究者必須依據具體的歷史語境與敘事邏輯,對模型參數(shù)與結果解釋進行必要的人為干預。
從研究結果來看,模型輸出總體印證了她最初提出的兩項假設。文本中大量出現(xiàn)了與“飲酒”“個人自由”“民族主義”“語言與文化”以及“教育”相關的主題。同時,模型還識別出“出版”“體操俱樂部”“女性”與“森林”等此前未被充分預期、但具有解釋潛力的主題。她認為,“出版”和“體操俱樂部”兩類主題尤其體現(xiàn)出鮮明的德裔美國人歷史特色。19世紀中后期,美國德語出版業(yè)和體操俱樂部的骨干成員中,有相當一部分參與過1848年革命,流亡美國后在德裔社群的政治與文化生活中發(fā)揮了重要引領作用,因此,這兩類主題在全美德盟的會議文本中頻繁出現(xiàn)是合理的。相比之下,“女性”議題的浮現(xiàn)則顯得更具啟發(fā)性。在當時普遍被視為相對保守的少數(shù)族裔文化語境下,這一主題的生成,說明女性在德裔美國人公共生活中的位置可能比既有認識更加突出。至于“森林”主題,她認為也很有進一步研究的價值,該主題與德意志地區(qū)長期形成的森林保護觀念及其跨大西洋傳播存在潛在關聯(lián),但這一判斷仍有待進一步查閱檔案加以驗證。
與此同時,借助熱力圖進行時間維度分析,她進一步發(fā)現(xiàn),“個人自由”與“飲酒”類的主題在1908年達到顯著高峰,而“民族主義”類的主題則在1905年前后明顯增強。這兩個時間節(jié)點分別與全美德盟獲得國會憲章后政治訴求的強化,以及德意志帝國開展官方對美文化外交活動的時間大體同步。王思婕認為,數(shù)字史學方法往往能揭示潛在主題、語義關聯(lián)或歷時演變趨勢,由此研究者可以發(fā)現(xiàn)傳統(tǒng)方法難以察覺的研究視角,從而提出新的假設,并在原始檔案和文獻中尋找證據加以驗證與補充,推動歷史研究形成更加豐富和多維的理解。同時,她還回顧了自己早期開展數(shù)字史學研究的技術痛點。在前人工智能時期,德文舊體字報刊的OCR識別往往會產生大量亂碼,研究者通常需要先對文本進行人工清洗和格式整理,再配合停用詞設置、分詞處理和參數(shù)調試,以盡可能降低噪音對模型結果的干擾,整個流程不僅繁瑣,而且很容易出錯。相比之下,當下的人工智能大模型雖然不能取代研究者的史學判斷,卻已經能夠在OCR后糾錯、文本清洗、語義歸類和多語種處理等環(huán)節(jié)顯著減輕重復性勞動,從而在很大程度上降低數(shù)字史學研究的技術門檻。
![]()
生成式AI賦能“數(shù)智史學”
在系統(tǒng)梳理數(shù)字史學基本研究路徑后,王思婕將講座內容引入了更具前沿性的議題——生成式人工智能對數(shù)字史學的賦能。王思婕以Jana Keck的研究案例為參照,系統(tǒng)梳理了從傳統(tǒng)人文研究到生成式AI輔助的三階段工作流演進脈絡。傳統(tǒng)人文研究流程以人工閱讀與解釋為主,特點是解釋力強但處理規(guī)模有限;經典數(shù)字史學流程引入了機器學習與文本挖掘,已包含機器學習與人機回環(huán),但步驟分散、技術門檻較高;生成式AI輔助流程則在既有數(shù)字史學基礎上整合了大語言模型,實現(xiàn)了語料導入與OCR輔助糾錯、AI輔助清洗與標準化、提示詞驅動的分類與主題歸納、AI輔助識別文本重用與相似段落,直至歷史解釋與論證寫作的完整閉環(huán)。這一轉變的核心是在既有數(shù)字史學基礎上整合流程、降低門檻、減少重復勞動。
![]()
盡管AI工具為數(shù)字史學帶來了顯著便利,王思婕始終保持審慎的學術態(tài)度。她結合自己運用BERTopic進行主題建模,并借助生成式AI對輸出結果作進一步歸納與解釋的經驗指出,AI的確能夠迅速識別不同政黨主要議題的詞頻分布,但它給出的結果往往“太完美、太符合常理”。例如,綠黨對應氣候與環(huán)境,社民黨對應社會公平,幾乎每一條結論都與既有認知高度吻合。正是這種“完美”反而令她感到警惕,因為當模型輸出完全停留在研究者原有預期之內時,它不僅難以揭示新的歷史問題,反而可能強化既有印象,使研究陷入對常識的重復確認。她進一步解釋,AI在處理文本時會基于不同的分析顆粒度自動過濾其判定為次要或低價值的信息,而這些被過濾掉的內容,很可能恰恰包含著歷史研究最值得追問的例外與斷裂。正因如此,數(shù)字史學的價值并不在于讓AI替代研究者得出標準答案,而在于借助技術手段擴大問題發(fā)現(xiàn)的范圍,再由研究者結合具體史料與歷史語境,對模型結果進行反復校驗、辨析和解釋。
在更宏觀的層面,王思婕總結道,自己目前的工作流實際是“人工智能賦能數(shù)字史學,數(shù)字史學再賦能歷史研究”。人工智能介入歷史研究的主要價值在于協(xié)助研究者搭建小型圖書館與檔案館、降低數(shù)字史學的準入門檻、提升工作流程的自動化程度。但AI在史學研究中仍存在難以突破的結構性局限,尚不能直接取代專業(yè)史學研究者。一方面,AI高度依賴研究者前期搭建的工作流,包括語料的選擇、預處理方式與解釋框架的構建等;另一方面,AI缺乏歷史時間觀與線性發(fā)展思維,容易以當代訓練語料所形成的模式去套讀歷史文本,也無法理解特定歷史語境下的政治隱喻與修辭層次。尤為關鍵的是,AI訓練語料存在顯著的美英中心主義傾向,在處理小語種歷史檔案時會產生系統(tǒng)性偏差。基于以上分析,她建議青年研究者在運用數(shù)字工具之前,仍應首先夯實史學基本功。以她自身的實踐經驗來看,真正的困境往往不在技術層面,而在于缺乏足夠好的研究問題,以及知識邊界尚不足以支撐對結果的充分解釋。在使用過程中,研究者應兼具歷史批判思維與技術素養(yǎng),始終堅持“以史料為基礎、以問題為導向”的研究核心,審慎而積極地探索數(shù)字工具。
結語
王思婕在講座中清晰展現(xiàn)了數(shù)字人文從基礎設施建設、方法應用到AI賦能的完整脈絡,同時保持了對技術工具的審慎態(tài)度。數(shù)字史學與數(shù)智史學的價值在于拓展解釋空間、發(fā)現(xiàn)新關聯(lián),而非簡化復雜歷史進程。AI應服務于歷史研究的問題意識,而非取代研究者的主體地位。史學研究者必須堅守史料批判精神,對AI輸出內容進行嚴格檢驗與人文解讀,將技術工具置于歷史學根本方法論框架之下。唯有如此,“數(shù)智史學”才能真正實現(xiàn)對傳統(tǒng)史學的拓展,而非簡單替代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.