劉 煒
根據(jù)CNKI數(shù)據(jù),國內(nèi)迄今發(fā)表的近700篇以“數(shù)字人文”為主題的論文中,來自圖書情報檔案領(lǐng)域的文章超過60%。對比國外,Web of Science(Core Collection)收錄了1,590篇以“digital humanities”為 topic 的論文,其中Inforamtion Science Library Science 領(lǐng)域的文章約300篇,占比不到20%。這兩組數(shù)據(jù)顯示了國內(nèi)外數(shù)字人文研究學(xué)科來源的巨大差異。這說明什么呢?雖然我們并不認為國外的比例就是數(shù)字人文知識版圖的“完美”配方,但我們的比例一定是不合理的。人文學(xué)科的數(shù)字疆域,第一批居民主要來自圖書情報領(lǐng)域,怎么說都不能讓人服氣。這其中固然有國內(nèi)圖書情報學(xué)者更喜歡追新的原因,其實也是國內(nèi)人文領(lǐng)域的學(xué)者尚未覺醒、尚未充分準備好的結(jié)果。就像當初美國舊金山發(fā)現(xiàn)了金礦,涌入的首批淘金者并沒有賺到錢,而各類服務(wù)業(yè)卻異軍突起。圖書館作為歷史文獻的主要保存機構(gòu),由于數(shù)字圖書館帶來先知先覺,理所當然地成為數(shù)字人文最早的基礎(chǔ)設(shè)施建設(shè)者。
傳統(tǒng)的文獻考據(jù)和現(xiàn)代的文獻計量學(xué)都為數(shù)字人文作為一個整體的跨學(xué)科研究領(lǐng)域提供了方法論借鑒,書目控制帶來的規(guī)范控制借助于語義技術(shù),天然地為知識的形式化組織(采用本體技術(shù))和知識服務(wù)提供了可信的編碼基礎(chǔ),也為機器學(xué)習(xí)和人工智能的發(fā)展提供了寶貴的標注語料庫。如果說不了解目錄之學(xué)就無法窺知傳統(tǒng)學(xué)術(shù)門徑的話,那么不懂得以文獻計量為代表的統(tǒng)計分析方法就無法真正從事數(shù)字人文研究。當然,如今數(shù)字人文的方法體系已經(jīng)得到了極大拓展,統(tǒng)計分析的對象從文獻深入到了語詞文本、社會關(guān)系、時空關(guān)系乃至經(jīng)過模型化之后的各類關(guān)系。但無論多么復(fù)雜,數(shù)據(jù)永遠是基礎(chǔ),擁有大量數(shù)據(jù)的圖書館永遠是人文研究的可靠伙伴。
圖書館要提供基于知識的服務(wù)還需要在數(shù)字圖書館的基礎(chǔ)上不斷提升水平,包括提升資源加工的語義化水平、提供分析統(tǒng)計及可視化工具。上海圖書館在國內(nèi)屬于數(shù)字人文的先知先覺者之一,借助于20多年前開始的持續(xù)不斷的數(shù)字化工作,大量的傳統(tǒng)文獻和特色文獻已被搬運到數(shù)字世界,一旦數(shù)字人文的研究方法和相關(guān)技術(shù)得以成熟,很自然地占據(jù)了有利的跑道。
本專題的4篇文章雖然反映不了上海圖書館在數(shù)字人文領(lǐng)域積極開拓的全貌,但包含了一些新的思考。圖書館這類人類記憶機構(gòu)在數(shù)字人文發(fā)展過程中,固然由于其資源收藏而不可或缺,但真正使其無可替代的,并不是這些館藏資源,而是服務(wù)能力。在當今以“ABCD”(人工智能、區(qū)塊鏈、云計算和大數(shù)據(jù))為特征的數(shù)字時代,“知識作為一種服務(wù)”(KaaS)才是圖書館的立身之本。本專題反映了數(shù)字人文平臺建設(shè)的兩大趨勢:邊服務(wù)邊建設(shè)的開放眾包思想;從數(shù)字圖書館到“數(shù)據(jù)圖書館”的必要升級。這兩者是在“后數(shù)字圖書館時代”向數(shù)據(jù)驅(qū)動型或數(shù)據(jù)密集型研究轉(zhuǎn)型時必須首先實現(xiàn)和超越的。
賀晨芝和張磊的《圖書館數(shù)字人文眾包項目實踐》[1]重點介紹了數(shù)字人文領(lǐng)域的眾包應(yīng)用現(xiàn)狀,以及上海圖書館自2016年以來的實踐經(jīng)驗。上海圖書館開發(fā)了兩個獨立的眾包應(yīng)用,即歷史文獻眾包平臺和驗證碼項目,都可以以SaaS方式開放給同行使用。
劉倩倩和夏翠娟的《家譜知識服務(wù)平臺眾包模式的設(shè)計與實現(xiàn)》[2]針對上海圖書館的家譜特藏,在原來提供基本查詢和關(guān)聯(lián)功能的數(shù)字人文平臺基礎(chǔ)上,開發(fā)了上傳家譜、在線識譜、在線修譜等功能,嘗試引入眾包模式不斷優(yōu)化系統(tǒng),并與用戶社區(qū)積極互動、密切合作,使用戶不僅作為數(shù)據(jù)的消費者,也作為平臺資源的貢獻者。
朱武信和夏翠娟的《命名實體識別在數(shù)字人文中的應(yīng)用——基于ETL的實現(xiàn)》[3]介紹了借助于專門詞典、批量自動進行名稱實體識別的ETL方法。該方法在上海圖書館的數(shù)字人文平臺建設(shè)中已普遍采用,取得了良好的效果。其原理是將文本中有意義的名稱(如人物、地點、時間、事件、專有概念)利用程序進行自動析取,經(jīng)過判斷之后進行數(shù)據(jù)化轉(zhuǎn)換(通常是加上URI),并提供豐富的語義關(guān)系。
張喆昱和張磊的《記憶機構(gòu)的開放數(shù)據(jù)建設(shè)和數(shù)字化服務(wù)轉(zhuǎn)型》[4]觸及兩個關(guān)鍵性主題:數(shù)據(jù)化和開放服務(wù),試圖將上海圖書館的實踐一般化和通用化,分析了如何通過數(shù)據(jù)化讓圖書館的服務(wù)更加貼近人文學(xué)者的需求,讓系統(tǒng)更加人性化,然后通過開放服務(wù)引入外部資源,反過來促進系統(tǒng)的數(shù)據(jù)化。
上海圖書館希望通過自己的實踐,為人文研究的Cyber基礎(chǔ)設(shè)施建設(shè)提供一個參考樣本。發(fā)表這些做法,并不是說我們的做法有多先進,而只是一種不揣淺陋的拋磚引玉。我們深知,國內(nèi)的數(shù)字人文目前還處于起步階段,爭論大于共識、口水多于實踐,但只要大家積極參與,前景可期。迄今為止形成的有關(guān)數(shù)字人文的最大共識,就是大家都同意它是一個人人都歡迎從而能各得其所的“大帳篷”。愿這個大帳篷能促進各門人文學(xué)科都得到繁榮興旺!