李欣,張毅,汪志莉
(華東師范大學(xué)圖書館,上海 200062)
圖書館異構(gòu)特藏資源整合的數(shù)字人文研究需求*
李欣,張毅,汪志莉
(華東師范大學(xué)圖書館,上海 200062)
本文以圖書館特藏資源建設(shè)及服務(wù)中存在問(wèn)題為切入點(diǎn),從特藏資源用于支撐數(shù)字人文研究需求角度,結(jié)合華東師范大學(xué)圖書館在Web Services技術(shù)應(yīng)用、GIS技術(shù)應(yīng)用以及結(jié)構(gòu)化數(shù)據(jù)分詞等方面實(shí)踐,介紹特藏資源整合、地理位置與標(biāo)簽云可視化檢索實(shí)現(xiàn)方法。
異構(gòu);特藏資源;數(shù)字人文
隨著圖書館在數(shù)字網(wǎng)絡(luò)時(shí)代的快速發(fā)展,圖書館學(xué)術(shù)館藏的相似度越來(lái)越高,具有獨(dú)特學(xué)術(shù)性、歷史性的館藏資源成為圖書館持續(xù)發(fā)展的要素。特藏資源不僅能很好地服務(wù)有“專門”需求的用戶,其獨(dú)有的學(xué)術(shù)價(jià)值也是圖書館在信息資源共享中體現(xiàn)優(yōu)勢(shì)和競(jìng)爭(zhēng)力所在。
圖書館特藏資源建設(shè)得益于1999年中國(guó)高等教育文獻(xiàn)保障系統(tǒng)(China Academic Library amp; Information System,CALIS)啟動(dòng)的專題特藏?cái)?shù)據(jù)庫(kù)建設(shè)項(xiàng)目,其目的在于全面挖掘、整理和發(fā)布國(guó)內(nèi)各高校成員館的一些未開(kāi)發(fā)、散在各處、難以被利用的獨(dú)有或稀缺資源、網(wǎng)絡(luò)原生數(shù)字資源等,逐步形成具有學(xué)科特色、地方特色或民族特色的專題特藏文獻(xiàn)數(shù)據(jù)庫(kù)服務(wù)群。項(xiàng)目后期CALIS整合75所大學(xué)的97個(gè)特藏?cái)?shù)據(jù)庫(kù)元數(shù)據(jù),用以構(gòu)建統(tǒng)一元數(shù)據(jù)發(fā)布檢索平臺(tái),檢索指向原文所在高校圖書館的特藏?cái)?shù)據(jù)庫(kù)門戶。因CALIS專題特藏?cái)?shù)據(jù)庫(kù)建設(shè)的項(xiàng)目制特點(diǎn),后續(xù)沒(méi)有持續(xù)性發(fā)展經(jīng)費(fèi)投入,各高校特藏?cái)?shù)據(jù)庫(kù)建設(shè)經(jīng)費(fèi)需要自行解決。盡管如此,近20年來(lái)各高校圖書館的特藏資源數(shù)字化建設(shè)仍得到快速發(fā)展。筆者2014年開(kāi)展了全國(guó)師范大學(xué)圖書館館藏?cái)?shù)字化特藏資源調(diào)研[1],30家圖書館(約占CALIS資助圖書館數(shù)量的30%)參與問(wèn)卷調(diào)查;2017年3月筆者基于網(wǎng)絡(luò)追蹤了這30家圖書館網(wǎng)站特藏資源變化情況,特藏資源數(shù)據(jù)庫(kù)已經(jīng)多達(dá)164個(gè)。
調(diào)研結(jié)果表明,各圖書館都在力求通過(guò)特藏資源建設(shè)選題體現(xiàn)館藏獨(dú)特性,但在數(shù)字化建設(shè)方式上還停留在全文掃描和簡(jiǎn)單元數(shù)據(jù)加工的數(shù)據(jù)庫(kù)建設(shè)階段,提供的服務(wù)多依賴于運(yùn)行多年的不同商業(yè)或自建平臺(tái),功能相對(duì)較單一,以資源數(shù)字化保存和提供簡(jiǎn)單的檢索功能為主,資源利用率低;加之內(nèi)容封閉、存儲(chǔ)分散且只針對(duì)本機(jī)構(gòu)用戶開(kāi)放,極大地限制特藏資源的價(jià)值發(fā)揮。相較支持人文學(xué)者用于科學(xué)研究的環(huán)境需求而言,無(wú)論在資源數(shù)據(jù)化組織還是平臺(tái)新功能拓展方面,都遠(yuǎn)落后于當(dāng)下日新月異的新技術(shù)發(fā)展。如資源如何從數(shù)字化向數(shù)據(jù)化存儲(chǔ)過(guò)渡、數(shù)據(jù)間關(guān)聯(lián)關(guān)系的建立,以及平臺(tái)的基本數(shù)據(jù)分析、可視化、文本挖掘等功能缺失等;同時(shí),各圖書館的特藏資源數(shù)據(jù)庫(kù)通常只針對(duì)某一特定類別的館藏資源進(jìn)行數(shù)字化處理,其數(shù)量局限于一個(gè)圖書館的館藏,多個(gè)圖書館的同一類資源無(wú)法在一個(gè)平臺(tái)完整表現(xiàn),很難構(gòu)成支持研究的資源權(quán)威性。以全國(guó)師范大學(xué)圖書館教育類特藏資源為例,因教育學(xué)科在師范大學(xué)學(xué)科地位的重要性,多數(shù)高校都將其作為特藏資源進(jìn)行數(shù)字化保存,但各圖書館間缺乏同類資源的共享與互補(bǔ),不能形成相對(duì)完整的教育類特藏資源數(shù)據(jù)庫(kù)。
數(shù)字人文也稱人文計(jì)算,1949年Busa使用電腦對(duì)神學(xué)家Aquinas著作內(nèi)的字詞進(jìn)行大規(guī)模處理,被認(rèn)為是數(shù)字人文的起源[2]。目前學(xué)界對(duì)其定義尚無(wú)權(quán)威界定,它是伴隨人文學(xué)者研究方式的變化而產(chǎn)生的。從資源服務(wù)研究角度看,數(shù)字人文即結(jié)合大量數(shù)字資源,運(yùn)用信息技術(shù)來(lái)從事人文研究[3]。
數(shù)字人文的主要范疇是通過(guò)信息技術(shù)改變知識(shí)獲取、標(biāo)注、比較、引用、取樣、闡釋與表現(xiàn)的方式[4],使人文學(xué)者從大量重復(fù)性工作中解放出來(lái),實(shí)現(xiàn)人文研究的創(chuàng)新發(fā)展。數(shù)字人文的意義在于對(duì)大規(guī)模文本的深度挖掘和智能分析,因此相關(guān)資源的大規(guī)模整合以及資源的細(xì)粒度、關(guān)聯(lián)性重建,成為圖書館支撐人文研究的資源建設(shè)重點(diǎn)。
數(shù)字人文既包含資源又涉及信息技術(shù),因此其研究領(lǐng)域涉及文理交叉學(xué)科。計(jì)算機(jī)科學(xué)、信息科學(xué)與圖書館學(xué)是數(shù)字人文研究的基礎(chǔ)學(xué)科,語(yǔ)言學(xué)、文學(xué)、哲學(xué)、歷史、藝術(shù)、社會(huì)學(xué)等是數(shù)字人文研究的應(yīng)用學(xué)科,兩者不斷交叉與融合,逐漸衍生出數(shù)字人文研究的新方向如數(shù)字藝術(shù)、數(shù)字史學(xué)等[5]。
本文調(diào)查的164個(gè)特藏?cái)?shù)據(jù)庫(kù)所涉及的類別歸納如表1所示,其中古籍善本、民國(guó)圖書、方志、地區(qū)類專題、多媒體、教育類等資源與數(shù)字人文研究的應(yīng)用學(xué)科密切相關(guān)。因CALIS專題特藏?cái)?shù)據(jù)庫(kù)建設(shè)的項(xiàng)目制特點(diǎn),使資源后續(xù)的內(nèi)容建設(shè)和維護(hù)投入不足。而這些資源正是構(gòu)成數(shù)字人文基礎(chǔ)設(shè)施的重要組成部分,圖書館在數(shù)字人文基礎(chǔ)設(shè)施建設(shè)過(guò)程中應(yīng)該首先從這部分資源入手。
表1 師范大學(xué)圖書館館藏?cái)?shù)字化特藏資源數(shù)據(jù)庫(kù)數(shù)量調(diào)查 個(gè)
目前各圖書館特藏資源數(shù)據(jù)庫(kù)平臺(tái)都存儲(chǔ)了大量可計(jì)算的基礎(chǔ)數(shù)據(jù)對(duì)象,如數(shù)字、文本、格式化數(shù)據(jù)、圖像、聲音等。作為數(shù)字人文的重要數(shù)據(jù)來(lái)源,整合不同圖書館的同類特藏資源,可以更充分有效地匯聚分散、孤立、封閉的特藏資源,創(chuàng)建可促進(jìn)人文研究的數(shù)據(jù)集或大規(guī)模結(jié)構(gòu)化數(shù)據(jù),從而擴(kuò)大人文學(xué)者的抽樣范圍,提升資源所支撐的研究權(quán)威性。
2008年正式對(duì)公眾開(kāi)放的歐洲多媒體在線圖書館(Europeana)項(xiàng)目作為典型的資源整合案例,集合了歐洲各大數(shù)字資源門戶網(wǎng)站和搜索引擎,其元數(shù)據(jù)采用資源描述框架(Resource Description Framework,RDF)存儲(chǔ),目的是方便在語(yǔ)義環(huán)境中通過(guò)關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)資源的有效揭示,提高資源可用性。
成立于2008年的Hathitrust[6]項(xiàng)目,通過(guò)與高校及公共圖書館合作,整合合作館的數(shù)字館藏,并向所有成員館用戶開(kāi)放資源獲取服務(wù)。2011年,印第安那大學(xué)與伊利諾伊大學(xué)建立HathiTrust研究中心[7],為學(xué)術(shù)研究提供文本分析和可視化的工具。
2011年,美國(guó)數(shù)字公共圖書館(Digital Public Library of America,DPLA)項(xiàng)目與Europeana開(kāi)展技術(shù)合作,建立可互操作的數(shù)字模型、資源規(guī)范,可開(kāi)放獲取的館藏資源并共享源代碼。2013年正式對(duì)公眾開(kāi)放的DPLA項(xiàng)目,將美國(guó)檔案館、圖書館、博物館、文化遺產(chǎn)機(jī)構(gòu)、私人收藏機(jī)構(gòu)等分散的資源進(jìn)行統(tǒng)一集合,旨在探索如何建設(shè)一個(gè)開(kāi)放的、分布式的在線資源網(wǎng)絡(luò)。這些典型案例的特點(diǎn)主要表現(xiàn)在力求資源的完整性、開(kāi)放性、關(guān)聯(lián)性(底層關(guān)聯(lián)數(shù)據(jù)設(shè)計(jì)要求),并向具有數(shù)據(jù)分析功能、表現(xiàn)形式多樣化的系統(tǒng)過(guò)渡。
在數(shù)字人文研究方面,以人文學(xué)者需求為主導(dǎo)建設(shè)的資源研究平臺(tái)在近年來(lái)備受關(guān)注。如由哈佛大學(xué)費(fèi)正清中國(guó)研究中心、北京大學(xué)人文社會(huì)科學(xué)研究院、臺(tái)灣“中研院”歷史語(yǔ)言研究所合作開(kāi)發(fā)的中國(guó)歷代人物傳記資料庫(kù),復(fù)旦大學(xué)歷史地理研究中心的中國(guó)歷史地理信息系統(tǒng)(其數(shù)據(jù)資源來(lái)自復(fù)旦大學(xué)、亞洲空間信息網(wǎng)絡(luò)澳大利亞中心、格里菲斯大學(xué)、哈佛燕京學(xué)社),以及臺(tái)灣大學(xué)數(shù)位人文研究中心的臺(tái)灣歷史數(shù)位圖書館系統(tǒng)。
這些人文研究資源平臺(tái)的建設(shè)具備以下特點(diǎn):(1)以內(nèi)容合作的特征突出資源建設(shè)的完整性,提升資源快速一站式獲取能力;(2)豐富檢索型數(shù)據(jù)庫(kù)功能,通過(guò)分析工具的應(yīng)用達(dá)到對(duì)數(shù)據(jù)深度挖掘的目的;(3)由目錄數(shù)據(jù)庫(kù)到掃描圖像與光學(xué)字符識(shí)別文本過(guò)渡,使文獻(xiàn)資源便于全文檢索、文本挖掘、詞頻統(tǒng)計(jì)等,有助于研究者發(fā)現(xiàn)除目錄外的更多內(nèi)容;(4)多角度的精細(xì)化元數(shù)據(jù)加工,以揭示文獻(xiàn)內(nèi)容和形式的多種屬性。這些研究平臺(tái)的建設(shè),為圖書館開(kāi)展基于異構(gòu)特藏資源的整合與重建提供多角度參考。
圖1為具體化的數(shù)據(jù)集成系統(tǒng)框架,由三部分組成。網(wǎng)絡(luò)層負(fù)責(zé)對(duì)分散在網(wǎng)絡(luò)中的不同服務(wù)站點(diǎn)的異構(gòu)數(shù)據(jù)源進(jìn)行收割,數(shù)據(jù)源可以是關(guān)系型數(shù)據(jù)庫(kù)、Excel表格,也可以是半結(jié)構(gòu)化的XML文檔等多種格式。數(shù)據(jù)層負(fù)責(zé)對(duì)各種異構(gòu)數(shù)據(jù)提供統(tǒng)一的表示、存儲(chǔ)和管理,以實(shí)現(xiàn)邏輯或物理上的有機(jī)集中。集成后的異構(gòu)數(shù)據(jù)對(duì)用戶而言,是統(tǒng)一和無(wú)差異的,用戶能夠透明、有效地對(duì)數(shù)據(jù)進(jìn)行操作,從而實(shí)現(xiàn)全面的數(shù)據(jù)共享需求。應(yīng)用層/表現(xiàn)層負(fù)責(zé)響應(yīng)用戶的具體請(qǐng)求。
圖1 基于異構(gòu)特藏資源整合的數(shù)字人文研究環(huán)境架構(gòu)
地理信息系統(tǒng)(Geography Information System,GIS)常應(yīng)用于歷史地理資源的整合,即以GIS為整合平臺(tái),整合多個(gè)專題數(shù)據(jù)庫(kù)資源。如中國(guó)歷史地理信息系統(tǒng)、中華文明時(shí)空基礎(chǔ)架構(gòu)、臺(tái)灣歷史文化地圖等整合越來(lái)越多含有空間信息的專題數(shù)據(jù)庫(kù)。申斌等設(shè)計(jì)的莆田歷史人文地理信息系統(tǒng),以GIS為平臺(tái)整合文獻(xiàn)(民間文獻(xiàn)、地方檔案、書籍)與田野調(diào)查資料(實(shí)物、建筑、儀式、音聲),構(gòu)成一個(gè)跨越史料文類、主題、數(shù)據(jù)類型的數(shù)字人文系統(tǒng),也可以說(shuō)是一個(gè)時(shí)空史料綜合體[8]。這種整合主要以空間方式關(guān)聯(lián)相關(guān)專題數(shù)據(jù),屬于圖1中應(yīng)用層整合。
GIS作為一種對(duì)地球表面空間地理數(shù)據(jù)進(jìn)行采集管理和分析顯示的軟件系統(tǒng),常被運(yùn)用到傳統(tǒng)歷史地理研究[9]。此外,GIS系統(tǒng)在資源可視化檢索、呈現(xiàn),以及基于空間特征資源的聚類等方面有廣泛應(yīng)用。
Berners-Lee等提出關(guān)聯(lián)數(shù)據(jù)概念,指出關(guān)聯(lián)數(shù)據(jù)在語(yǔ)義網(wǎng)中使用統(tǒng)一標(biāo)識(shí)符(Uniform Resource Identi fi er,URI)和RDF發(fā)布結(jié)構(gòu)化數(shù)據(jù),是構(gòu)建數(shù)據(jù)間鏈接的最佳實(shí)踐方式[10]。以HTTP URI作為各種對(duì)象的統(tǒng)一標(biāo)識(shí)符實(shí)現(xiàn)全網(wǎng)域范圍唯一標(biāo)識(shí)和定位,便于與Web上的其他數(shù)據(jù)集建立關(guān)聯(lián)。關(guān)聯(lián)數(shù)據(jù)在實(shí)現(xiàn)數(shù)據(jù)集成與共享中具有的優(yōu)勢(shì)主要體現(xiàn)在兩點(diǎn)。第一,URI標(biāo)識(shí)與復(fù)用。利用URI標(biāo)識(shí)不同的實(shí)體對(duì)象,關(guān)聯(lián)數(shù)據(jù)描述的粒度更加細(xì)化、語(yǔ)義化,并可跨領(lǐng)域得到更廣泛的數(shù)據(jù)參引。第二,RDF描述與鏈接機(jī)制。采用RDF三元組“主語(yǔ)-謂語(yǔ)-賓語(yǔ)”的形式,關(guān)聯(lián)數(shù)據(jù)描述科學(xué)數(shù)據(jù)及其間關(guān)系,通過(guò)RDF鏈接可以形成提供數(shù)據(jù)集成與共享的關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)[11]。
應(yīng)用關(guān)聯(lián)數(shù)據(jù)技術(shù)實(shí)現(xiàn)資源整合,主要基于異構(gòu)數(shù)據(jù)源共有核心元素,通過(guò)選取適合具體應(yīng)用場(chǎng)景的詞表建立共享核心元數(shù)據(jù)本體,實(shí)現(xiàn)異構(gòu)元數(shù)據(jù)間的語(yǔ)義整合和互操作;通過(guò)定制化擴(kuò)展共享核心元數(shù)據(jù)本體,建立專門的元數(shù)據(jù)本體,實(shí)現(xiàn)特定資源語(yǔ)義化描述。這種基于數(shù)據(jù)層的整合不僅可用于實(shí)現(xiàn)數(shù)據(jù)細(xì)粒度的語(yǔ)義化、關(guān)聯(lián)化的集成與共享,也可以為關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)提供可用數(shù)據(jù)。
在關(guān)聯(lián)數(shù)據(jù)應(yīng)用方面,上海圖書館在家譜數(shù)據(jù)庫(kù)以及歷史地理數(shù)據(jù)的開(kāi)放應(yīng)用與服務(wù)方面,基于知識(shí)本體和關(guān)聯(lián)數(shù)據(jù)技術(shù)進(jìn)行大量實(shí)踐研究,特別是在應(yīng)用領(lǐng)域本體解決語(yǔ)義異構(gòu)集成方面,對(duì)數(shù)字人文研究環(huán)境建設(shè)具有較高參考價(jià)值。
異構(gòu)數(shù)據(jù)一般指類型相同但在處理方法上存在差異的數(shù)據(jù)。在內(nèi)容上則指不同數(shù)據(jù)庫(kù)系統(tǒng)間的數(shù)據(jù)存在異構(gòu)現(xiàn)象(如SQL Server和Oracle數(shù)據(jù)庫(kù)中的數(shù)據(jù)),或指不同結(jié)構(gòu)數(shù)據(jù)間存在異構(gòu)現(xiàn)象(如SQL Server數(shù)據(jù)庫(kù)數(shù)據(jù)和XML數(shù)據(jù))。分布式異構(gòu)關(guān)系數(shù)據(jù)庫(kù)的整合始于20世紀(jì)80年代初期,目的是屏蔽各數(shù)據(jù)庫(kù)結(jié)構(gòu)、組織方式等方面的差別,為用戶提供訪問(wèn)資源的統(tǒng)一接口[12]。由于數(shù)據(jù)存在多種異構(gòu)性,因而需對(duì)數(shù)據(jù)進(jìn)行整合處理[13]。
應(yīng)用程序編程接口技術(shù)(Application Programming Interface)主要用于數(shù)據(jù)在網(wǎng)絡(luò)環(huán)境下的互操作,屬于純粹信息技術(shù)方法的網(wǎng)絡(luò)層整合技術(shù),通常用于結(jié)構(gòu)性異構(gòu)數(shù)據(jù)的整合。以Web基礎(chǔ)架構(gòu)HTTP/SOAP協(xié)議為依托提供數(shù)據(jù)應(yīng)用接口,目前已經(jīng)成為數(shù)據(jù)互操作的成熟技術(shù),用于實(shí)現(xiàn)基于網(wǎng)絡(luò)的數(shù)據(jù)集成與共享。基于HTTP協(xié)議的JSON格式接口,是一種簡(jiǎn)單的數(shù)據(jù)互操作接口,數(shù)據(jù)傳輸效率高,不僅易于用戶閱讀和編寫,也易于機(jī)器解析和生成。SOAP是一種基于XML數(shù)據(jù)格式可以傳輸復(fù)雜數(shù)據(jù)類型的協(xié)議,SOAP協(xié)議具有可擴(kuò)展和獨(dú)立于編程模型的消息處理框架,可通過(guò)多種底層網(wǎng)絡(luò)協(xié)議使用。
本文結(jié)合華東師范大學(xué)圖書館地方志數(shù)據(jù)庫(kù)建設(shè)項(xiàng)目組(以下簡(jiǎn)稱“項(xiàng)目組”)應(yīng)用Web Service實(shí)現(xiàn)數(shù)據(jù)庫(kù)間的互操作與結(jié)構(gòu)性異構(gòu)數(shù)據(jù)的集成,并利用GIS進(jìn)行可視化展示,采用分詞技術(shù)對(duì)現(xiàn)有數(shù)據(jù)庫(kù)進(jìn)行重建與功能拓展。項(xiàng)目組僅在網(wǎng)絡(luò)層的數(shù)據(jù)整合方法、數(shù)據(jù)層的分詞處理,以及應(yīng)用層/表現(xiàn)層的數(shù)據(jù)可視化呈現(xiàn)與檢索方法進(jìn)行小范圍技術(shù)實(shí)現(xiàn),為深層次數(shù)據(jù)挖掘作準(zhǔn)備。
以高校圖書館目前自建數(shù)據(jù)庫(kù)平臺(tái)的資源為整合對(duì)象,本文通過(guò)調(diào)研國(guó)內(nèi)師范大學(xué)圖書館的特藏資源數(shù)據(jù)庫(kù)平臺(tái)環(huán)境,發(fā)現(xiàn)目前國(guó)內(nèi)主流平臺(tái)包括TPI、TRS、Apabi-DESi、Apabi-TASi、IDL-ETD、DIPS、超星、麥達(dá),以及一些基于開(kāi)源商用數(shù)據(jù)庫(kù)系統(tǒng)開(kāi)發(fā)的平臺(tái),所涉及的數(shù)據(jù)庫(kù)以SQL Server和MySQL為主,只有TPI平臺(tái)使用封閉的自建數(shù)據(jù)庫(kù)[1]。而對(duì)于標(biāo)準(zhǔn)商用數(shù)據(jù)庫(kù)系統(tǒng),無(wú)論是開(kāi)源的數(shù)據(jù)庫(kù)(如SQL Server、MySQL、Access、PostgreSQL等),還是收費(fèi)的數(shù)據(jù)庫(kù)系統(tǒng)(Oracle、Sysbase等),通過(guò)SOAP和HTTP等網(wǎng)絡(luò)通信協(xié)議,以標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)連接方式,基于數(shù)據(jù)庫(kù)開(kāi)放權(quán)限進(jìn)行數(shù)據(jù)庫(kù)底層操作完全透明。面對(duì)封閉的自建數(shù)據(jù)庫(kù)系統(tǒng)(如TPI平臺(tái)),用戶無(wú)法直接對(duì)數(shù)據(jù)庫(kù)進(jìn)行操作,需要通過(guò)開(kāi)發(fā)商提供的封裝函數(shù)才能實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的有限訪問(wèn)。
項(xiàng)目組選取本地TPI平臺(tái)的學(xué)位論文數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)獲取研究實(shí)踐,平臺(tái)提供Web Service接口方式,因其封閉的數(shù)據(jù)庫(kù)模式,必須通過(guò)封裝函數(shù)連接后臺(tái)數(shù)據(jù)庫(kù),實(shí)現(xiàn)基于網(wǎng)絡(luò)的數(shù)據(jù)互操作。典型應(yīng)用如在高校主頁(yè)服務(wù)器與TPI服務(wù)器進(jìn)行數(shù)據(jù)互操作,實(shí)現(xiàn)對(duì)高校主頁(yè)下“教師名錄”關(guān)聯(lián)相關(guān)教師指導(dǎo)學(xué)位論文元數(shù)據(jù)的推送。高校主頁(yè)可以看成圖1中的“數(shù)據(jù)倉(cāng)儲(chǔ)”,TPI平臺(tái)的數(shù)字資源即網(wǎng)絡(luò)層中的特藏資源之一。麥達(dá)的學(xué)位論文數(shù)據(jù)庫(kù)和自建特藏?cái)?shù)據(jù)庫(kù)發(fā)布平臺(tái)采用分開(kāi)存儲(chǔ)方式,后臺(tái)數(shù)據(jù)存儲(chǔ)采用SQL Server數(shù)據(jù)庫(kù),但某些字段中存儲(chǔ)XML格式數(shù)據(jù),用戶直接應(yīng)用SQL語(yǔ)句操作有一定障礙,數(shù)據(jù)互操作由公司提供開(kāi)發(fā)的JSON接口格式。Web Service和JSON兩種接口方式對(duì)應(yīng)的數(shù)據(jù)格式分別為XML和JSON,因此在數(shù)據(jù)獲取后的格式解析方面,相應(yīng)處理腳本稍有不同。
從數(shù)字人文角度看,資源整合只是研究環(huán)境建設(shè)的初級(jí)階段,如何提升人文學(xué)者資源發(fā)現(xiàn)能力,使其能通過(guò)新型資源研究環(huán)境實(shí)現(xiàn)對(duì)資源的比對(duì)、統(tǒng)計(jì)和分析功能。項(xiàng)目組在原有特藏地方志數(shù)字資源數(shù)據(jù)庫(kù)基礎(chǔ)上開(kāi)展數(shù)據(jù)庫(kù)重建工作,通過(guò)數(shù)據(jù)重組、技術(shù)應(yīng)用實(shí)現(xiàn)功能拓展,構(gòu)建數(shù)字人文基礎(chǔ)研究環(huán)境。
分詞技術(shù)主要用于對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)的細(xì)粒度化加工,是較成熟的信息處理技術(shù)。漢語(yǔ)分詞方法主要依據(jù)詞典分詞法(字符串匹配)、統(tǒng)計(jì)分詞法和理解分詞法[14]。應(yīng)用分詞技術(shù)處理數(shù)據(jù)可有效提升數(shù)據(jù)細(xì)粒度,為數(shù)字人文研究的數(shù)據(jù)統(tǒng)計(jì)分析與深度挖掘工具應(yīng)用提供方便。中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的商業(yè)化軟件漢語(yǔ)詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology Chinese Lexical Analysis System)[15],是功能較強(qiáng)的非開(kāi)源系統(tǒng)。主要功能包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別,不僅支持用戶詞典與繁體中文轉(zhuǎn)換,還支持GBK、UTF-8、UTF-7、UNICODE等多種編碼格式。此外,有許多開(kāi)源軟件可供使用,如類似開(kāi)源LAMP平臺(tái)的基于字符串匹配PHP Analysis分詞組件工具[16]。
標(biāo)簽云是一種流行的可視化檢索手段,具有較強(qiáng)的直觀表現(xiàn)力。標(biāo)簽云數(shù)據(jù)來(lái)源可以是用戶的標(biāo)注、資源的元數(shù)據(jù)及全文。地方志數(shù)據(jù)庫(kù)標(biāo)簽云數(shù)據(jù)取自題名以及主題字段內(nèi)容,通過(guò)分詞處理形成標(biāo)簽云數(shù)據(jù);其采用開(kāi)源LAMP平臺(tái)的字符串匹配PHP Analysis分詞組件工具進(jìn)行分詞,為實(shí)現(xiàn)標(biāo)簽云檢索功能奠定基礎(chǔ)。通過(guò)計(jì)算分詞計(jì)數(shù)的四分位數(shù)來(lái)為不同詞頻的分詞賦予權(quán)重,以標(biāo)簽大小設(shè)定字體大小。
目前項(xiàng)目組只針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分詞處理,在檢索效果與呈現(xiàn)方式上有所改善。在非結(jié)構(gòu)化數(shù)據(jù)以及文本分詞方面還待進(jìn)一步探索,如通過(guò)文本挖掘技術(shù)進(jìn)行相關(guān)詞頻統(tǒng)計(jì)分析等功能,進(jìn)一步對(duì)數(shù)字人文研究所需要的相關(guān)功能進(jìn)行開(kāi)發(fā)。
GIS技術(shù)的應(yīng)用模式有多種,包括桌面型、嵌入型、移動(dòng)型以及Web型。Web模式的GIS應(yīng)用較常見(jiàn),如谷歌地圖、百度地圖、高德地圖等。資源細(xì)粒化是數(shù)據(jù)庫(kù)重建過(guò)程中的重要工作,主要通過(guò)增加元數(shù)據(jù)的時(shí)空信息、不同時(shí)期地點(diǎn)名稱變化及關(guān)聯(lián)數(shù)據(jù)的映射等數(shù)據(jù)處理,實(shí)現(xiàn)數(shù)據(jù)的多維展示。
根據(jù)地方志檢索平臺(tái)典型的B/S架構(gòu)特點(diǎn),項(xiàng)目組選擇適合Web模式的GIS技術(shù)方案,地圖平臺(tái)選用高德地圖,其云圖API[17]通過(guò)云平臺(tái)可提供基于位置的服務(wù)(Location Based Service,LBS),包括后端云圖位置數(shù)據(jù)存儲(chǔ)服務(wù)及前端云數(shù)據(jù)圖層插件。使用者可以利用云數(shù)據(jù)圖層插件將存儲(chǔ)在LBS云中的數(shù)據(jù)作為一個(gè)圖層疊加到地圖上,利用云數(shù)據(jù)檢索接口對(duì)自有數(shù)據(jù)進(jìn)行空間檢索。高德云圖位置數(shù)據(jù)存儲(chǔ)服務(wù)提供通過(guò)地理位置名稱自動(dòng)匹配地理位置經(jīng)緯度的服務(wù),使用者可以不必提供準(zhǔn)確的經(jīng)緯度信息,極大地減輕數(shù)據(jù)準(zhǔn)備工作。高德地圖平臺(tái)API插件提供的地圖檢索、測(cè)距、熱力圖、區(qū)域面積計(jì)算等強(qiáng)大的接口功能,只需按接口要求準(zhǔn)備相應(yīng)所需數(shù)據(jù),通過(guò)平臺(tái)少量的配置及客戶端編碼,即可實(shí)現(xiàn)平臺(tái)多維度可視化功能。
研究的下一步將在數(shù)據(jù)精加工基礎(chǔ)上實(shí)現(xiàn)時(shí)間軸功能,并結(jié)合地域面積伸縮方式開(kāi)展精細(xì)化、可視化研究。
資源整合是數(shù)字圖書館發(fā)展的進(jìn)階,也是數(shù)字資源重建的一個(gè)側(cè)重點(diǎn),它是數(shù)字人文研究驅(qū)動(dòng)下圖書館數(shù)字資源建設(shè)的重要內(nèi)容,也是開(kāi)展服務(wù)創(chuàng)新的基礎(chǔ)。
圖書館參與數(shù)字人文研究,切入點(diǎn)無(wú)外乎資源和服務(wù)兩方面?;谫Y源建設(shè)就是要通過(guò)更好地組織資源,并針對(duì)人文學(xué)者研究需求開(kāi)展數(shù)據(jù)庫(kù)建設(shè)和已有資源重建,進(jìn)而實(shí)現(xiàn)從資源檢索系統(tǒng)向研究環(huán)境建設(shè)的過(guò)渡。資源整合既能有效克服資源分散和孤立存儲(chǔ)帶來(lái)的資源難發(fā)現(xiàn)問(wèn)題,又有助于提升量化分析的準(zhǔn)確性。本文只是從異構(gòu)特藏?cái)?shù)字化資源的數(shù)據(jù)獲取與可視化發(fā)現(xiàn)角度進(jìn)行一些技術(shù)實(shí)現(xiàn)的嘗試性研究。作為數(shù)字人文研究的通用研究方法,整合資源的多角度及關(guān)聯(lián)關(guān)系揭示、可視化檢索與展示、時(shí)空分析、文本分析以及社會(huì)關(guān)系分析等功能的實(shí)現(xiàn),已經(jīng)逐漸成為數(shù)字人文研究環(huán)境建設(shè)的必要部分,這些功能將為人文學(xué)者帶來(lái)研究視野的拓展。
開(kāi)展數(shù)字人文方面的思考與實(shí)踐是學(xué)術(shù)圖書館必須把握的一個(gè)發(fā)展機(jī)遇,也是未來(lái)學(xué)術(shù)圖書館開(kāi)發(fā)自身特藏館藏的最佳途徑。圖書館不僅是服務(wù)的提供者,更是合作者,要主動(dòng)融入數(shù)字學(xué)術(shù)工作的生命周期,成為數(shù)字人文研究社群的一份子。圖書館作為資源組織和管理者、研究工具和服務(wù)平臺(tái)的提供者、跨學(xué)科協(xié)同合作的中立方,具有更大的發(fā)展空間[18]。
[1]全國(guó)師范院校圖書館聯(lián)盟文獻(xiàn)資源建設(shè)調(diào)查問(wèn)卷[EB/OL].[2017-09-14].http://www.sojump.com/jq/4055719.aspx.
[2]HOCKEY S.The History of Humanities Computing[M]//A Companion to Digital Humanities.Blackwell Publishing Ltd,2004:1-19.
[3]于淑娟.臺(tái)大資訊工程學(xué)教授:新技術(shù)能為歷史研究提供什么幫助[EB/OL].(2015-06-16)[2017-09-14].http://www.thepaper.cn/newsDetail_forward_1 340177.
[4]UNSWORTH J.Scholarly Primitives:what methods do humanities researchers have in common,and how might our tools re fl ect this?[C]//Symposium on Humanities Computing:Formal Methods,Experimental Practice.London:King’s College,2000.
[5]柯平,宮平.數(shù)字人文研究演化路徑與熱點(diǎn)領(lǐng)域分析[J].中國(guó)圖書館學(xué)報(bào),2016(11):13-30.
[6]Hathi Trust.Our Partnership[EB/OL].[2017-08-20].http://www.hathitrust.org/Partnership.
[7]Hathi Trust.HTRC Collections and Tools[EB/OL].[2017-08-20].http://www.hathitrust.org/htrc_collections_tools.
[8]申斌,楊培娜.數(shù)字技術(shù)與史學(xué)觀點(diǎn)——中國(guó)歷史數(shù)據(jù)庫(kù)與史學(xué)理念方法系統(tǒng)探析[J].史學(xué)理論研究,2017(2):87-95.
[9]朱本軍,聶華.互動(dòng)與共生:數(shù)字人文與史學(xué)研究——第二屆“北京大學(xué)數(shù)字人文論壇”綜述[J].大學(xué)圖書館學(xué)報(bào),2017(4):18-22.
[10]BERNERS-LEE T,BIZER C,TOM H,et al.Linked data:the story so far[J].International Journal on Semantic Web amp; Information Systems,2009,5(3):1-22.
[11]司莉,李鑫.基于關(guān)聯(lián)數(shù)據(jù)的科學(xué)數(shù)據(jù)集成與共享研究——以Bio2RDF項(xiàng)目為例[J]圖書館學(xué)研究,2014(21):51-55.
[12]李廣建,汪語(yǔ)宇,張麗.數(shù)字資源整合的實(shí)現(xiàn)機(jī)制及關(guān)鍵技術(shù)——對(duì)國(guó)外數(shù)字資源整合系統(tǒng)的實(shí)證研究[J].中國(guó)圖書館學(xué)報(bào),2007(2):75-80.
[13]吳業(yè)彤.基于XML的異構(gòu)數(shù)據(jù)集成的方法研究[J].電腦知識(shí)與技術(shù),2010,6(15):3872-3873.
[14]袁璐,蒙祖強(qiáng),許珂.依存分析和HMM相結(jié)合的信息抽取方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(9):138-140.
[15]百度百科.ICTCLAS[EB/OL].[2017-09-18].https://baike.baidu.com/item/ICTCLAS/8609504?fr=Aladdin.
[16]分詞系統(tǒng)簡(jiǎn)介:PHPAnalysis分詞程序[EB/OL].[2017-09-14].http://www.cnblogs.com/sanwenyu/p/4054728.html.
[17]高德開(kāi)放平臺(tái).產(chǎn)品介紹[EB/OL].[2017-09-14].http://lbs.amap.com/.
[18]錢國(guó)富.英國(guó)高校圖書館數(shù)字人文服務(wù)探析——以蘭卡斯特大學(xué)為例[J].大學(xué)圖書館學(xué)報(bào),2017,35(4):30-34.
李欣,女,1961年生,研究館員,研究方向:圖書館信息化、數(shù)字人文,E-mail:xli@library.ecnu.edu.cn。
張毅,男,1986年生,碩士,館員,研究方向:圖書館信息化、軟件工程。
汪志莉,女,1983年生,碩士,館員,研究方向:圖書館信息化、數(shù)據(jù)挖掘。
Digital Humanities Research Demand of Library’s Heterogeneous Special Resource Integration
LI Xin, ZHANG Yi, WANG ZhiLi
(East China Normal University Library, Shanghai 200062, China)
Taking the problems in construction and service of the specially collected resources of the libraries as the starting point, from the perspective of the specially collected resources used for supporting digital humanistic, combining with the practices of the East China Normal University Library in the application of Web Services technology, GIS technology and structured data segmentation, the article has introduced the implementation methods of the specially collected resources integration, geographic location and tag cloud visualization retrieval.
Heterogeneous; Special Resources; Digital Humanities
G250.7
10.3772/j.issn.1673-2286.2017.11.008
* 本研究得到國(guó)家社會(huì)科學(xué)基金項(xiàng)目“圖書館異構(gòu)特藏資源的數(shù)字人文研發(fā)與共享模式研究”(編號(hào):17BTQ004)資助。
2017-09-26)