作為數(shù)字人文基礎(chǔ)設(shè)施的圖書館：從不可或缺到無可替代

2020-01-09 02:12劉煒

圖書館論壇 2020年5期

劉煒

根據(jù)CNKI數(shù)據(jù)，國內(nèi)迄今發(fā)表的近700篇以“數(shù)字人文”為主題的論文中，來自圖書情報檔案領(lǐng)域的文章超過60%。對比國外，Web of Science(Core Collection)收錄了1，590篇以“digital humanities”為 topic 的論文，其中Inforamtion Science Library Science 領(lǐng)域的文章約300篇，占比不到20%。這兩組數(shù)據(jù)顯示了國內(nèi)外數(shù)字人文研究學(xué)科來源的巨大差異。這說明什么呢？雖然我們并不認為國外的比例就是數(shù)字人文知識版圖的“完美”配方，但我們的比例一定是不合理的。人文學(xué)科的數(shù)字疆域，第一批居民主要來自圖書情報領(lǐng)域，怎么說都不能讓人服氣。這其中固然有國內(nèi)圖書情報學(xué)者更喜歡追新的原因，其實也是國內(nèi)人文領(lǐng)域的學(xué)者尚未覺醒、尚未充分準備好的結(jié)果。就像當初美國舊金山發(fā)現(xiàn)了金礦，涌入的首批淘金者并沒有賺到錢，而各類服務(wù)業(yè)卻異軍突起。圖書館作為歷史文獻的主要保存機構(gòu)，由于數(shù)字圖書館帶來先知先覺，理所當然地成為數(shù)字人文最早的基礎(chǔ)設(shè)施建設(shè)者。

傳統(tǒng)的文獻考據(jù)和現(xiàn)代的文獻計量學(xué)都為數(shù)字人文作為一個整體的跨學(xué)科研究領(lǐng)域提供了方法論借鑒，書目控制帶來的規(guī)范控制借助于語義技術(shù)，天然地為知識的形式化組織(采用本體技術(shù))和知識服務(wù)提供了可信的編碼基礎(chǔ)，也為機器學(xué)習(xí)和人工智能的發(fā)展提供了寶貴的標注語料庫。如果說不了解目錄之學(xué)就無法窺知傳統(tǒng)學(xué)術(shù)門徑的話，那么不懂得以文獻計量為代表的統(tǒng)計分析方法就無法真正從事數(shù)字人文研究。當然，如今數(shù)字人文的方法體系已經(jīng)得到了極大拓展，統(tǒng)計分析的對象從文獻深入到了語詞文本、社會關(guān)系、時空關(guān)系乃至經(jīng)過模型化之后的各類關(guān)系。但無論多么復(fù)雜，數(shù)據(jù)永遠是基礎(chǔ)，擁有大量數(shù)據(jù)的圖書館永遠是人文研究的可靠伙伴。

圖書館要提供基于知識的服務(wù)還需要在數(shù)字圖書館的基礎(chǔ)上不斷提升水平，包括提升資源加工的語義化水平、提供分析統(tǒng)計及可視化工具。上海圖書館在國內(nèi)屬于數(shù)字人文的先知先覺者之一，借助于20多年前開始的持續(xù)不斷的數(shù)字化工作，大量的傳統(tǒng)文獻和特色文獻已被搬運到數(shù)字世界，一旦數(shù)字人文的研究方法和相關(guān)技術(shù)得以成熟，很自然地占據(jù)了有利的跑道。

本專題的4篇文章雖然反映不了上海圖書館在數(shù)字人文領(lǐng)域積極開拓的全貌，但包含了一些新的思考。圖書館這類人類記憶機構(gòu)在數(shù)字人文發(fā)展過程中，固然由于其資源收藏而不可或缺，但真正使其無可替代的，并不是這些館藏資源，而是服務(wù)能力。在當今以“ABCD”(人工智能、區(qū)塊鏈、云計算和大數(shù)據(jù))為特征的數(shù)字時代，“知識作為一種服務(wù)”(KaaS)才是圖書館的立身之本。本專題反映了數(shù)字人文平臺建設(shè)的兩大趨勢：邊服務(wù)邊建設(shè)的開放眾包思想；從數(shù)字圖書館到“數(shù)據(jù)圖書館”的必要升級。這兩者是在“后數(shù)字圖書館時代”向數(shù)據(jù)驅(qū)動型或數(shù)據(jù)密集型研究轉(zhuǎn)型時必須首先實現(xiàn)和超越的。

賀晨芝和張磊的《圖書館數(shù)字人文眾包項目實踐》[1]重點介紹了數(shù)字人文領(lǐng)域的眾包應(yīng)用現(xiàn)狀，以及上海圖書館自2016年以來的實踐經(jīng)驗。上海圖書館開發(fā)了兩個獨立的眾包應(yīng)用，即歷史文獻眾包平臺和驗證碼項目，都可以以SaaS方式開放給同行使用。

劉倩倩和夏翠娟的《家譜知識服務(wù)平臺眾包模式的設(shè)計與實現(xiàn)》[2]針對上海圖書館的家譜特藏，在原來提供基本查詢和關(guān)聯(lián)功能的數(shù)字人文平臺基礎(chǔ)上，開發(fā)了上傳家譜、在線識譜、在線修譜等功能，嘗試引入眾包模式不斷優(yōu)化系統(tǒng)，并與用戶社區(qū)積極互動、密切合作，使用戶不僅作為數(shù)據(jù)的消費者，也作為平臺資源的貢獻者。

朱武信和夏翠娟的《命名實體識別在數(shù)字人文中的應(yīng)用——基于ETL的實現(xiàn)》[3]介紹了借助于專門詞典、批量自動進行名稱實體識別的ETL方法。該方法在上海圖書館的數(shù)字人文平臺建設(shè)中已普遍采用，取得了良好的效果。其原理是將文本中有意義的名稱(如人物、地點、時間、事件、專有概念)利用程序進行自動析取，經(jīng)過判斷之后進行數(shù)據(jù)化轉(zhuǎn)換(通常是加上URI)，并提供豐富的語義關(guān)系。

張喆昱和張磊的《記憶機構(gòu)的開放數(shù)據(jù)建設(shè)和數(shù)字化服務(wù)轉(zhuǎn)型》[4]觸及兩個關(guān)鍵性主題：數(shù)據(jù)化和開放服務(wù)，試圖將上海圖書館的實踐一般化和通用化，分析了如何通過數(shù)據(jù)化讓圖書館的服務(wù)更加貼近人文學(xué)者的需求，讓系統(tǒng)更加人性化，然后通過開放服務(wù)引入外部資源，反過來促進系統(tǒng)的數(shù)據(jù)化。

上海圖書館希望通過自己的實踐，為人文研究的Cyber基礎(chǔ)設(shè)施建設(shè)提供一個參考樣本。發(fā)表這些做法，并不是說我們的做法有多先進，而只是一種不揣淺陋的拋磚引玉。我們深知，國內(nèi)的數(shù)字人文目前還處于起步階段，爭論大于共識、口水多于實踐，但只要大家積極參與，前景可期。迄今為止形成的有關(guān)數(shù)字人文的最大共識，就是大家都同意它是一個人人都歡迎從而能各得其所的“大帳篷”。愿這個大帳篷能促進各門人文學(xué)科都得到繁榮興旺！

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

作為數(shù)字人文基礎(chǔ)設(shè)施的圖書館：從不可或缺到無可替代