張 毅 李 欣
(華東師范大學 上海 200241)
特藏資源對于圖書館有重要的意義,當前圖書館館藏同質化現(xiàn)象非常嚴重,一個圖書館最大的價值應該是其具有的獨特學術館藏,他是圖書館在信息爆炸時代競爭力的體現(xiàn)[1],也是現(xiàn)代圖書館或數(shù)字圖書館內容建設的基礎和開展特色服務的根基。圖書館一直以來都非常重視特藏資源的保存與建設,很多圖書館都擁有非常珍貴的特藏資源,但是傳統(tǒng)特藏資源的保存與服務模式并不能滿足人文學者的需要,人文學者迫切需要一種可以對大規(guī)模特藏資源進行智能分析的數(shù)字人文平臺,特別是在古籍、地理、歷史等人文特藏資源研究方面。
隨著技術的迅速發(fā)展,新的媒介不斷涌現(xiàn),深刻影響著知識的呈現(xiàn)與組織形式,特別是近年來大數(shù)據(jù)、GIS(Geographic Information System,地理信息系統(tǒng))[2]、可視化、虛擬現(xiàn)實、機器視覺以及人工智能等技術的不斷成熟與應用,給圖書館特藏資源的揭示提供了全新的研究思路。數(shù)字人文(Digital Humanities)概念就是在這種機緣下出現(xiàn)的[3]。數(shù)字人文概念最早起源于20世紀60年代的人文計算,到2001年,由于技術對人文研究各個領域的滲透,數(shù)字人文取代了人文計算(Humanities Computing)[4],成為一個新興的跨學科研究領域,其研究團隊通常由傳統(tǒng)的人文學者和計算機專家組成。圖書館可以依托數(shù)字人文研究思路對其特藏資源進行重新開發(fā),為學者研究特藏資源提供全新的視角,將人文研究者從繁瑣的資料整理統(tǒng)計分析中解放出來,利用全新的特藏資源系統(tǒng)就可以減少以前需要耗費大量精力與時間的重復勞動,利用GIS、可視化、文本挖掘以及關聯(lián)數(shù)據(jù)等新的計算機技術與特藏資源整合,再通過友好的用戶界面提供給研究者,挖掘特藏資源所蘊藏的深層次知識,給研究者提供全新的研究思路。文章將闡述數(shù)字人文的內涵與現(xiàn)狀,并且通過介紹華東師范大學方志數(shù)據(jù)庫的建設過程,詳細說明如何利用數(shù)字人文思維重構圖書館特藏資源揭示,使方志數(shù)據(jù)更直觀、有序地呈現(xiàn)。
數(shù)字人文重構特藏資源的理論最先出現(xiàn)在國外,到今天已經形成了比較清晰的研究思路,有一大批基于數(shù)字人文的特藏資源研究項目在開展,同時也形成了各種數(shù)字人文研究學會和機構,其中數(shù)字人文聯(lián)盟(the Alliance of Digital Humanities Organizations)是數(shù)字人文領域影響力最大的一個研究學會[5],比較知名的研究機構還有麻省理工學院的Hyper studio、美國斯坦福大學的人文實驗室和計算機輔助人文研究中心、倫敦國王學院的人文計算研究中心等。這些機構在文學、歷史學、藝術等多個領域開展了很多數(shù)字人文項目,知名的項目包括:美國和英國的Walt Whitman Archive、Valley of the Shadow、East London Theater Archive、Mark Twain Project、The Monastic Wales Project,西歐的The World of Dante、The Complete Writings and Pictures of Dante Gabriel Rossetti、French and Francophone Digital Humanities Projects等[6]。除了這些特藏資源數(shù)字人文項目之外,國外的數(shù)字人文研究在軟件工具、數(shù)據(jù)庫、專業(yè)協(xié)會等方面都有很多成果值得我們借鑒,如表1所示。
表1 國外數(shù)字人文研究調查
國內利用數(shù)字人文技術對人文特藏資源進行研究起步比較晚,但是由于國內的移動互聯(lián)網技術發(fā)展十分迅速,所以在技術上我們并不算落后,尤其在特藏資源的移動端發(fā)現(xiàn)方面。目前,大陸的數(shù)字人文特藏資源研究主要集中在GIS、可視化、文本挖掘以及關聯(lián)數(shù)據(jù)等領域,如上海交通大學人文學院歷史系的交大新藏地方歷史文獻數(shù)字化項目,將雜亂無章的歷史文獻經過修補、掃描、標注等工作程序后,再利用數(shù)字人文技術,對文獻進行分析,發(fā)現(xiàn)隱藏在文獻當中的價值,為歷史學研究提供了新的方法與思路;復旦大學歷史地理研究中心構建了絲綢之路精準復原與地理信息系統(tǒng),強調了數(shù)據(jù)可靠性研究,在地理信息系統(tǒng)中不僅可以呈現(xiàn)圖片,還添加了視頻等;上海圖書館利用關聯(lián)數(shù)據(jù)開發(fā)的家譜數(shù)據(jù)庫系統(tǒng),為研究家譜提供了一個全新的在線平臺,同時上海圖書館還開發(fā)了很多數(shù)字人文研究工具,免費對外提供服務;北京大學圖書館利用數(shù)字人文方法提升讀者服務質量,探索圖書館在數(shù)字人文實踐中的橋梁作用。筆者對國內有關機構在基于數(shù)字人文的特藏資源建設方面有代表性的研究項目做了一下總結,如表2所示。
表2 國內有關機構數(shù)字人文研究項目分析
在互聯(lián)網浪潮的推動下,圖書館的服務方式和服務內容處于快速的變革中,短短幾年間圖書館就由以紙質資源為中心發(fā)展到以電子資源和空間為中心的服務模式,電子資源總量和增加量都已經遠遠超過了紙質資源,這些資源都是體系化、經過圖書館嚴格篩選的、高質量的數(shù)字資源。但是圖書館卻發(fā)現(xiàn),耗費巨大人力財力構建的數(shù)字資源,并沒有發(fā)揮出應用的價值。原因在于圖書館沒有挖掘出人文學者的深層次需求,導致讀者很少訪問圖書館構建的數(shù)字資源,反而是利用搜索引擎等工具開展科研活動。但通過搜索引擎獲得的文獻存在著質量參差不齊、碎片化嚴重、無法辨別真?zhèn)蔚热秉c。文章引入數(shù)字人文的研究理念,通過對人文學者閱讀習慣進行大數(shù)據(jù)分析,提煉出人文學者對文獻資料的深層次需求,進而有針對性的創(chuàng)新圖書館自身服務內容。
圖書館擁有的資源是其開展服務的基礎,然而信息技術則決定著圖書館服務的廣度與深度。圖書館為了保證信息化平臺可以為讀者提供服務,不得不花費巨大的人力物力去運維這些信息化平臺,而無法專注于資源建設與讀者服務方面的工作。由于圖書館在信息技術方面的局限性,導致圖書館無法有效將自身資源與服務提供給需要的讀者。針對這種情況,數(shù)字人文的研究成果為圖書館提供了全新的解決方案,利用開放的數(shù)字人文工具,圖書館不必關心IT系統(tǒng)的實現(xiàn),而只需要關注圖書館的讀者服務。同時,數(shù)據(jù)的存儲與程序開發(fā)也可以利用現(xiàn)有數(shù)字人文研究成果實現(xiàn)。
圖書館無法有效揭示特藏資源,不僅有客觀原因,其主觀因素也不可忽視。隨著技術的進步,媒介的更迭,從紙媒到電子媒介的轉變,導致知識的組織形式與內容也要與時俱進,要求圖書館不斷更新知識,跟隨時代潮流的發(fā)展。當讀者都在電子終端上開展學術研究時圖書館的服務也應該適應這種變化,這需要圖書館通過不斷的學習與創(chuàng)新,不僅在技術上可以對海量的數(shù)據(jù)進行處理,利用大數(shù)據(jù)與人工智能為讀者提供更加便捷的服務,還需要在元數(shù)據(jù)管理與建設方面與世界接軌,參與全球數(shù)據(jù)格式標準的制定。
華東師范大學擁有豐富的特色館藏,而且成立了數(shù)字化部,專門負責館藏特色資源的數(shù)字化掃描與編目。經過十幾年的努力,已經積累了大量高質量的數(shù)字特藏資源,通過傳統(tǒng)數(shù)據(jù)庫的方式對全校師生提供服務,并且開放了特藏資源的元數(shù)據(jù)接口,可以將數(shù)據(jù)共享給學校的其他部門,提高數(shù)據(jù)的使用效率。2016年開始,華東師范大學圖書館成立項目組,準備以特藏方志資源為突破口,推進特藏方志資源服務深度,并使方志資源整理與采購有章可循。
3.1.1 統(tǒng)一檢索與主題詞檢索
華東師范大學擁有兩種類型的方志資源,其中紙本資源有23 224種,電子資源有7 233種,這些資源分布在OPAC、超星、CADAL等不同的系統(tǒng)當中,讀者在使用這些方志資源時需要在不同的平臺之間來回切換,導致利用方志非常不便。為了解決這個問題,筆者嘗試利用數(shù)字人文思維對分散在圖書館各個系統(tǒng)中的方志數(shù)據(jù)進行重新揭示,首先利用不同方志平臺之間的接口在元數(shù)據(jù)層面實現(xiàn)數(shù)據(jù)整合,為讀者提供統(tǒng)一的檢索接口,然后再通過開源的分詞軟件對方志標題和摘要進行分詞,進而生成主題詞檢索接口。
3.1.2 GIS可視化
由于方志資源本身還具有時間和空間兩個特性,正好與在數(shù)字人文領域應用非常廣泛的GIS技術吻合,所以對方志資源進行GIS揭示很有必要。華東師范大學圖書館收藏的方志庫數(shù)據(jù)元數(shù)據(jù)有3萬多條,如果將這些方志信息都顯示在地圖上,當?shù)貓D縮小時整個頁面上就會布滿地方志的點,導致看不清楚地圖。針對這種情況可采用點聚合的方法實現(xiàn),將地圖上臨近的幾個地方志的點聚合成為一個大的點,這樣可以保證用戶有良好的可視化體驗。圖書館的方志庫數(shù)據(jù)有兩種,一種是既有電子全文又有紙質全文,還有一種是只有紙質全文,這兩種數(shù)據(jù)都通過點的方式在地圖上呈現(xiàn)。如果讀者發(fā)現(xiàn)有些坐標點上的方志信息有些有電子全文,有些沒有電子全文,會給讀者帶來糟糕的體驗,所以在地圖上對這兩種數(shù)據(jù)進行了區(qū)別:有電子全文的在方志坐標的彈出窗口中顯示對應方志庫的全文和對應圖書館的紙質資源鏈接,沒有電子全文的,只給出一個圖書館的紙質資源鏈接。方志地圖系統(tǒng)還需具有根據(jù)朝代篩選功能,測距、計算面積、劃定區(qū)域顯示功能,還具有切換圖層的功能,以及對外提供Web Widget調用功能。
3.1.3 引入D2RQ實現(xiàn)數(shù)據(jù)的語義化發(fā)布
館藏方志資源本身的元數(shù)據(jù)包含巨大的價值,雖然可以通過OAI-PMH、Web Service的方式實現(xiàn)數(shù)據(jù)共享與融合,但也存在明顯的局限性,機器無法理解其意義、無法實現(xiàn)推理學習,最終還是會淪落為一個個信息孤島。本系統(tǒng)探索采用D2RQ組件[7],在不影響原有方志庫系統(tǒng)服務模式的情況下實現(xiàn)方志數(shù)據(jù)的語義化發(fā)布,D2RQ Engine可以將MySql數(shù)據(jù)庫映射為具有RDF格式的關聯(lián)數(shù)據(jù),利用D2RQ server可以提供SPARQL查詢接口和URI地址瀏覽,D2RQ Mapping可以將SPARQL查詢轉化為Sql查詢語句。能夠使數(shù)據(jù)被機器理解與推理的關鍵不僅是RDF數(shù)據(jù)發(fā)布與查詢,其采用的詞表類型也很重要,只有采用國際通用的標準詞表,才能將自己的數(shù)據(jù)融入到世界互聯(lián)網中。常用的詞表有DC、Schema.org、BIBIFRAME等[8],本系統(tǒng)采用Google、Bing、Yahoo聯(lián)合發(fā)的Schema.org詞表,它具有語義豐富、可擴展性好、各大搜索引擎都支持的特點,而且2012年OCLC的Worldcat數(shù)據(jù)也是采用Schema.org來發(fā)布的。
3.1.4 知識圖譜
知識圖譜(Knowledge Graph)是通過可視化手段顯示知識內部結構與發(fā)展進程的一系列圖形[9],比如通過知識圖譜顯示唐代各位詩人之間的關系、遷徙、家族等信息的圖形,其最核心的要素是文本語義標注技術的成熟。文章利用國際通用的TEI(Text Encoding Initiative)標準對方志資源進行數(shù)字化編碼[10],添加機器可理解的語義編碼,挖掘方志資源包含的深層次知識,并通過圖形方式呈現(xiàn)。
3.1.5 整合外部開放數(shù)據(jù)
方志數(shù)據(jù)包含有豐富的人名與地點等信息,將中國歷代人物傳記資料庫(CBDB)與我校的方志庫融合[11],可以豐富方志庫的人物信息。上海圖書館的人名規(guī)范庫也是對外開放的人名數(shù)據(jù)庫[12],不僅包含人名信息還擁有地點信息,并且提供RDF、NT、XML等格式數(shù)據(jù),方志庫的地點信息與人名信息,也可以從上海圖書館人名規(guī)范庫獲取。通過整合外部權威開放數(shù)據(jù),可極大豐富我校方志庫的內容,提高方志庫的價值。
3.1.6 引入眾包理念,完善數(shù)據(jù)
方志館藏包含的信息非常豐富,但是方志館藏元數(shù)據(jù)質量參差不齊,雖然在做方志數(shù)字化時可以添加很多元數(shù)據(jù)信息,但是并不是每本方志都包含我們需要的元數(shù)據(jù),很多數(shù)據(jù)需要從方志內容中確定。然而圖書館缺少方志研究方面的專家,而且即使有這方面的專家,也沒有足夠的精力與時間去一本一本的查看每本方志內容。所以我們在設計方志數(shù)據(jù)庫時引入了眾包理念,為讀者提供添加、修改方志元數(shù)據(jù)的接口,通過匯聚整個互聯(lián)網的力量進而提高方志數(shù)據(jù)的準確性與豐富性。
3.2.1 GIS平臺選擇與使用
GIS系統(tǒng)由于其廣泛的應用性,國內外有很多平臺可以采用,筆者在實踐過程中充分分析了各種平臺的優(yōu)缺點以及圖書館的技術儲備,最終選擇云開放平臺的GIS接口與圖書館特藏資源整合來實現(xiàn)。采用這種方式可以快速方便的達到所需要的效果,而且對技術的要求不高,圖書館自己的技術人員就可以快速做出來,不需要專業(yè)的GIS技術人員。由于云開放平臺一般都是專業(yè)地圖公司作技術支持,他們產品的穩(wěn)定性與用戶體驗都很好,是圖書館實現(xiàn)數(shù)字人文服務的一個很好的工具。
常見的GIS云開放平臺有百度、高德、谷歌、騰訊等,筆者通過對這幾個平臺的測試后選擇了高德地圖的GIS云開放平臺作為開發(fā)工具。高德地圖云開放平臺是一款為用戶提供基于自有數(shù)據(jù)構建位置服務的免費在線地圖工具,提供海量位置數(shù)據(jù)存儲、檢索、展現(xiàn)一體化服務方案,能讓圖書館快速構建基于自有數(shù)據(jù)的地圖檢索應用[13]。結合高德地圖的API接口,可以非常簡單的將具有地理位置屬性的數(shù)字資源通過地圖呈現(xiàn),具體技術過程如圖1所示。
圖1 特藏方志數(shù)據(jù)與高德地圖接口整合框圖
3.2.2 地圖數(shù)據(jù)存儲
方志數(shù)據(jù)與高德地圖整合有兩種方式。一種是方志數(shù)據(jù)存放在本地數(shù)據(jù)庫中,通過程序調用高德地圖接口操作本地數(shù)據(jù)庫,在高德地圖上呈現(xiàn)方志信息。這種方式需要搭建本地數(shù)據(jù)庫,而且需要自己開發(fā)程序,雖然對數(shù)據(jù)的處理比較靈活,但是開發(fā)難度比較大,不便于維護。第二種方式是采用高德地圖提供的云圖功能,按照高德地圖的EXCEL數(shù)據(jù)模板,將數(shù)據(jù)直接導入高德地圖中,這樣就不用在本地構建數(shù)據(jù)庫,也不用進行地圖的開發(fā),直接可以生成方志地圖,再通過簡單的JavaScript API調用即可實現(xiàn)數(shù)據(jù)與地圖的底圖融合,渲染效果更好,加載更快,并覆蓋Web、H5、Android、IOS等平臺。高德地圖有一個非常大的優(yōu)點,就是導入的數(shù)據(jù)不需要提供經緯度坐標,直接寫地名就可以被高德地圖轉化為經緯度坐標,這個功能對于不懂GIS的人來說非常實用。導入高德地圖的地理信息一般是按照“省市縣鄉(xiāng)鎮(zhèn)”的格式導入,由于古代的地名和現(xiàn)代的地名會有一些差別,但是一般可以定位到省或者市,高德地圖在定位時,按照先尋找省份,再尋找省份下面的市,以此類推逐級解析坐標,如果發(fā)現(xiàn)有一級找不到,就定位到可以找到的一級,確保了每一條記錄的解析。
3.2.3 地圖數(shù)據(jù)呈現(xiàn)以及檢索
方志數(shù)據(jù)在高德地圖上的呈現(xiàn)與檢索,都可以利用其提供的JavaScript API完成,其中數(shù)據(jù)呈現(xiàn)用的接口是AMap.CloudDataLayer,它可以讓開發(fā)者將存儲在云數(shù)據(jù)管理平臺中的數(shù)據(jù)表格作為一個圖層疊加到地圖上,這個接口通過Map與TableId屬性調用存放在高德地圖上面的方志數(shù)據(jù),然后通過Clickable與Query方式實現(xiàn)數(shù)據(jù)的呈現(xiàn)與相應的事件。最終效果如圖2所示。
圖2 利用GIS實現(xiàn)地方志在地圖上的呈現(xiàn)
開辟了讀者利用圖書館特藏資源的新方式,創(chuàng)新利用地圖和云標簽作為讀者檢索圖書館特藏資源的入口,更便于讀者發(fā)現(xiàn)蘊藏在特藏資源數(shù)據(jù)背后的知識。讀者可以利用新方志庫系統(tǒng)提供的地圖工具,直觀分析不同地區(qū)的方志數(shù)據(jù),以及這些方志之間的聯(lián)系。地圖系統(tǒng)還提供了測距、計算面積等輔助功能,同時還提供了基于時間的分析工具,可以根據(jù)不同朝代,在地圖上顯示不同時期的方志數(shù)據(jù),讓讀者可以從時間維度對方志進行研究。云標簽技術的使用可以智能分析讀者的研究內容,精確推送相關內容給讀者,使讀者找到自己真正的研究方向。這些強大的可視化分析功能,在傳統(tǒng)特藏資源系統(tǒng)中是無法實現(xiàn)的,需要花費讀者大量的時間進行整理收集,但是使用數(shù)字人文理念開發(fā)的系統(tǒng),就可以方便得到,讓讀者把更多的精力放在自己的研究領域。
缺少古代地圖:由于缺少古代地圖數(shù)據(jù),所以所有的方志數(shù)據(jù)都是在現(xiàn)代地圖上呈現(xiàn)。而最佳的狀態(tài)應該是要做到地圖根據(jù)方志時間段變化而變化,實現(xiàn)不同時期的方志顯示在不同時期地圖上,這樣讀者在分析古代方志數(shù)據(jù)時就可以很好的考慮到人文地理信息對方志的影響。解決方案是引入古代不同時期的地圖數(shù)據(jù),整合到我們的系統(tǒng)中。
分詞不夠精細:我們的方志系統(tǒng)只有題名和摘要數(shù)據(jù),沒有目錄與全文數(shù)據(jù),導致可供分析的原始數(shù)據(jù)比較少,這樣會錯過很多隱藏在全文和目錄中的數(shù)據(jù)。解決方案是對原始的方志資料進行數(shù)字化,并提取出目錄和全文數(shù)據(jù)?,F(xiàn)在的OCR技術已經比較成熟,可以利用OCR技術實現(xiàn)全文識別,提高分詞的精細度。
時間地點不夠精確:方志數(shù)據(jù)中的時間、地點等實體的考證,都是從方志數(shù)據(jù)原文中獲取,但是有些方志并沒有明確的時間地點信息,而且古今地名信息也存在很大的差別,有很多還存在著爭議,這涉及到史書語料信息,難度較大。對于古今地名問題可以引入古代史書語料庫進行比對,得到新的地理位置,在地圖上重新定位就可以解決,但對于志書中沒有明確地點和撰寫時間的問題,就比較棘手,可以采用眾包的方式實現(xiàn)。
雖然數(shù)字人文在國內的研究還處于起步階段,數(shù)字人文研究內涵與邊界還在不斷完善,但是已經給人文學者的研究注入了全新的活力,也為圖書館服務模式的創(chuàng)新提供了思維與工具。在特藏資源數(shù)字化過程中可以充分利用文本挖掘、GIS、可視化等技術手段以及新的思維方式,更好的揭示特藏資源,創(chuàng)新讀者服務。文章通過對華東師范大學方志庫平臺建設過程的介紹,希望以實踐的方式為數(shù)字人文的研究帶來一些啟示,雖然技術可以輔助人文研究,但也不應過于依賴技術,而是應該在技術與人文研究之間找到契合點,利用技術挖掘出隱藏在海量非結構化人文資料背后的知識。
(來稿時間:2018年12月)