鄭華敏
?
國外關聯(lián)書目數(shù)據(jù)模型比較研究*
鄭華敏
(東北師范大學信息科學與技術學院,長春 130024)
文章針對目前中文書目數(shù)據(jù)關聯(lián)現(xiàn)狀,對國外典型關聯(lián)書目數(shù)據(jù)模型進行調(diào)研分析,主要從核心框架、功能實現(xiàn)、映射情況三方面對四個關聯(lián)書目數(shù)據(jù)模型進行比較研究,以期為我國圖書館書目數(shù)據(jù)關聯(lián)化提供可行性建議。
書目數(shù)據(jù);關聯(lián)模型;本體;映射
圖書館是高校的文獻資料情報中心,是為教學和科學研究提供服務的研究機構,保存大量珍貴書目資源[1]。2006年,在Tim Berners Lee[2]首次提出關聯(lián)數(shù)據(jù)的概念后,國外許多圖書館都積極探索關聯(lián)數(shù)據(jù),在構建書目數(shù)據(jù)關聯(lián)框架的基礎上,將MARC數(shù)據(jù)映射到RDF進行發(fā)布,這種方法不僅可以將書目數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù)集,還為圖書館書目資源整體知識發(fā)現(xiàn)和規(guī)范內(nèi)容描述奠定基礎。本文主要對美國國會圖書館書目模型(BIBFRAME)、英國國家書目數(shù)據(jù)模型(BNB)、歐洲數(shù)據(jù)模型(EDM)和瑞典聯(lián)合目錄(LIBRIS)進行整體描述,從核心框架、功能實現(xiàn)、映射情況三方面對其進行比較研究,以期為我國圖書館書目數(shù)據(jù)關聯(lián)化提供可行性建議。
本文主要從內(nèi)容描述、詞表、數(shù)據(jù)發(fā)布三方面對四個關聯(lián)數(shù)目數(shù)據(jù)模型及其主要特征進行闡述。
BIBFRAME是美國國會圖書館(Library of Congress,LC)為取代MARC而開展的書目數(shù)據(jù)項目,新框架旨在開拓關聯(lián)數(shù)據(jù)的可能性,提高各類資源的可發(fā)現(xiàn)性,從而使圖書館成為真正意義上的數(shù)據(jù)關聯(lián)共享中心。
(1)內(nèi)容描述方面。BIBFRAME2.0間接借鑒FRBR實體-關系模型,重點關注資源之間的關系。BIBFRAME2.0中的創(chuàng)作作品對應FRBR中的實體作品和內(nèi)容表達,實例對應載體表現(xiàn)。在FRBR中,單件是書目實體WEMI 中的最低層,指“一種載體表現(xiàn)的單一樣本”,圖書館書目記錄下的館藏記錄也被稱為單件記錄,兩者比較接近。BIBFRAME2.0取消了規(guī)范核心類,因為在關聯(lián)數(shù)據(jù)中身份控制不再由名稱形式上的規(guī)范,而是通過URI來體現(xiàn)其可操作性,規(guī)范檢索點與其他名稱一樣,只是一個顯示標簽[3]。
(2)詞表方面。BIBFRAME在公布時為了保證模型空間穩(wěn)定性沒有復用任何詞表,也沒有表明與現(xiàn)有詞表的關系,但這種保守且不適應關聯(lián)數(shù)據(jù)實踐的做法已經(jīng)開始改變。RDF、RDFS、WEB注釋模型,以及其他的成熟關聯(lián)數(shù)據(jù)模型已逐漸在BIBFRAME2.0中使用。
(3)數(shù)據(jù)發(fā)布方面。BIBFRAME2.0使用SPARQL語言作為RDF數(shù)據(jù)查詢語言。RDF三元組是一種抽象的數(shù)據(jù)模型,通常使用RDF/XML對其進行序列化處理,成為被機器可讀的數(shù)據(jù)。除此之外,BIBRFAME2.0還大量使用基于事件驅(qū)動的網(wǎng)絡觸發(fā)器等。
2011年,大英圖書館將英國國家書目(British National Bibliography,BNB)數(shù)據(jù)發(fā)布為關聯(lián)數(shù)據(jù)并將書目資源分為圖書和連續(xù)出版物[4],采用不同的數(shù)據(jù)模型對其進行內(nèi)容描述,在功能上也有所區(qū)別。本文主要以圖書關聯(lián)數(shù)據(jù)模型為例進行闡述。
(1)內(nèi)容描述方面。BNB的數(shù)據(jù)模型被劃分為出版事件數(shù)據(jù)模型、主題數(shù)據(jù)模型、責任者數(shù)據(jù)模型和其他數(shù)據(jù)模型四大部分。同時BNB將書目資源實體分為書目資源、連續(xù)出版物、主題和概念四大類,各個實體都有其相對應的URI[5]。
(2)詞表方面。BNB沒有重新設計詞表和本體模型,而是盡可能采用已有的本體詞匯,根據(jù)實體類型構建相應數(shù)據(jù)模型。BNB采用14個詞表來描述連續(xù)出版物和圖書的命名空間,每個詞表都有其獨特的作用。詞表分為通用詞表和專用詞表,通用詞表主要描述實體的一般屬性(包括DC、RDF、RDFS、OWL等);專用詞表有其專用的描述實體,如British Library Terms (BLT)是大英圖書館創(chuàng)建的用來描述書目資源的屬性和類,以及其間關系的詞表。
(3)數(shù)據(jù)發(fā)布方面。BNB將MARC21記錄進行一系列字符集轉(zhuǎn)換、數(shù)據(jù)標準化和匹配處理,然后將數(shù)據(jù)置于更廣泛的環(huán)境中,從關聯(lián)數(shù)據(jù)集中選擇高質(zhì)量資源進行關聯(lián)以生成關聯(lián)數(shù)據(jù)。文件被轉(zhuǎn)換為RDF/XML和N-Triples格式并上傳到網(wǎng)站,用戶可通過SPARQL端點訪問數(shù)據(jù)。
歐洲數(shù)字圖書館(Europeana)將圖書館與博物館、檔案館、畫廊等連接起來,基于EDM組織數(shù)據(jù),將1 500個機構的超過2億條記錄和1 000萬個數(shù)字對象以關聯(lián)數(shù)據(jù)的形式提供數(shù)據(jù)集,為歐洲的文化遺產(chǎn)創(chuàng)造新的共同接入點。
(1)內(nèi)容描述方面。Europeana的本體模型有三大核心類,即edm:ProvidedCHO、edm:WebResource 和ore:Aggregation。其中,edm:ProvidedCHO代表被描述的對象本身,包括繪畫、電影、樂譜、圖書等;edm:WebResource表示被描述對象的數(shù)字表現(xiàn)形式;ore:Aggregation遵循ORE規(guī)則,將數(shù)字文化資源對象和其數(shù)字表達聚合在一起構成數(shù)據(jù)集合[6]。
(2)詞表方面。EDM是Europeana語義元素(ESE)的一項重大改進,利用本體描述語言OWL對歐洲豐富文化遺產(chǎn)進行收集、管理、發(fā)布和共享。EDM使用OAI-ORE詞匯表和數(shù)據(jù)結構表示提供者、對象和元數(shù)據(jù)之間的復雜關系,從而協(xié)調(diào)不同版本的資源并追蹤與這些資源相關的描述性陳述[6]。
(3)數(shù)據(jù)發(fā)布方面。Europeana可通過文件下載和API將數(shù)據(jù)輸出為JSON文件。此外,Europeana還可通過SPARQL端點訪問數(shù)據(jù),此端點可以返回JSON、RDF/XML、N3/Turtle和N-Triples格式的序列化數(shù)據(jù)。
2008年,瑞典國家圖書館將LIBRIS發(fā)布為關聯(lián)數(shù)據(jù),是世界上首次被整體發(fā)布為關聯(lián)數(shù)據(jù)的聯(lián)合目錄,這標志著書目數(shù)據(jù)開始正式融入互聯(lián)網(wǎng)環(huán)境。
(1)內(nèi)容描述方面。LIBRIS的實體類型根據(jù)FRBR模型進行實體抽取,包括作品、人、概念和機構四大類。LIBRIS的成員使用同一個圖書館集成管理系統(tǒng)(ILS)進行編目,通過RDF服務器封裝件實現(xiàn)HTTP訪問ILS,然后根據(jù)請求遞送描述書目記錄、規(guī)范記錄及書目資源鏈接的RDF,并創(chuàng)建唯一標識符URI。當有正確的請求時,URI被反向解析并通過一定的方式,利用HTTP的內(nèi)容協(xié)商機制傳輸RDF。
(2)詞表方面。LIBRIS在發(fā)布關聯(lián)數(shù)據(jù)的過程中,使用的詞匯并沒有局限于圖書館領域,還利用了一些如DC元數(shù)據(jù)、FOAF、SKOS等被廣為使用和理解的標準。除此之外,LIBRIS數(shù)據(jù)庫還添加了DBpedia和Wikipedia等外部資源,為用戶提供更多相關信息。
(3)數(shù)據(jù)發(fā)布方面。LIBRIS[7]的SPARQL server8當前使用Sesame 2 Native Store作為三重存儲,具有良好的查詢性。同時基于內(nèi)容協(xié)商協(xié)議,可以通過相同URL傳送多種格式的數(shù)據(jù)。
表1 關聯(lián)書目數(shù)據(jù)模型核心框架比較
本文對上述四種主要的關聯(lián)書目數(shù)據(jù)模型的核心框架進行比較分析,如表1所示。
實體的本質(zhì)是對詞表中“相對關系”界定模糊的定義進行詳細明確的形式化說明,豐富傳統(tǒng)詞表內(nèi)容。本文介紹的書目數(shù)據(jù)模型中,BIBFRAME和LIBRIS均以FRBR模型為基礎模型,修訂后的BIBFRAME2.0中bf:Creative Work和bf:Instance保留原本的語義,新增類bf:Item在語義上接近FRBR Item實體,以此替代現(xiàn)有bf:Annotation的子類即bf:HeldItem和bf:HeldMaterial。BNB針對圖書和連續(xù)出版物抽取不同的實體類型,并根據(jù)實體類型構建模型。在構建過程中,BNB避免復制MARC的復雜結構,為使數(shù)據(jù)集在圖書館領域以外同樣發(fā)揮作用,圖書和連續(xù)出版物的實體設計具有普適性,同時將出版物事件模型進行擴展以覆蓋數(shù)據(jù)的生命周期。EDM則使用本地定義的屬性來跟蹤貢獻的文化遺產(chǎn)對象,為連接核心類,EDM還依賴ore:Aggregation定義資源之間關系的聚合類;EDM側重跟蹤文化遺產(chǎn)客體本身和其周圍的描述性元數(shù)據(jù),區(qū)分對象和描述該對象的元數(shù)據(jù),遵循一對一原則。
本文介紹的四種關聯(lián)書目數(shù)據(jù)模型可分為兩大類:第一類是根據(jù)已有模型進行實體抽取,不僅因為FRBR模型經(jīng)過實踐證明具備可實施性,還因為FRBR模型與BIBFRAME、LIBRIS的書目數(shù)據(jù)特點相契合,符合其發(fā)展需求;第二類是機構自行抽取,BNB和EDM都是根據(jù)自身書目數(shù)據(jù)特點進行抽取,并構建相應的關聯(lián)數(shù)據(jù)模型。
關聯(lián)書目數(shù)據(jù)的重要步驟是使用唯一標識符(URI)來標識資源。URI的通用結構是<基地址>/<實體類型名稱>/<標識符>。采用URI標識數(shù)字資源,實際上是對實體進行URI命名,以便有效地識別實體,建立實體間關聯(lián),確保實體的唯一性和可獲取性。BIBFRAME2.0將實體分為work、instance和item。以work為例,其主要是對作品的概念進行闡述,不涉及具體內(nèi)容,包括worktitle、language、creator等。
BNB將書目資源分為圖書和連續(xù)出版物,實體分為resource、agent、concept和series。其中,agent包括人名、機構名、家族名和地名;concept包括主題詞、分類號及各類型名稱實體。人名、機構名、家族名和地名既可作為agent對待(即資源關聯(lián)的責任者名),又可作為concept對待(即資源涉及的人名、機構名、家族名和地名等),因此對應兩個URI。
以人名為例,在agent中的URI為:http://bnb.data.bl.uk/id/person/{person-name};在concept中的URI為:http://bnb.data.bl.uk/id/concept/person/lcsh/{person-name}。
關聯(lián)數(shù)據(jù)的發(fā)布格式取決于不同的關聯(lián)序列化方法,當前的關聯(lián)數(shù)據(jù)發(fā)布格式可以分為四類:HTML類型(HTML、RDFa、Microdata)是為用戶理解和使用書目數(shù)據(jù)而設計的,可以提供數(shù)據(jù)服務;XML類型(RDF/XML 、RDF/XML-ABBREV)是W3C的標準推薦格式,但其存在復雜度高、可讀性差的缺點;N3類型(N3、Turtle、N-Triple、N-Quads、TriG、TriX)簡化了XML的復雜度,提升了可讀性和互動性;JSON 類型(RDF/JSON、JSON-LD)是目前普遍使用的數(shù)據(jù)交換格式,適用于互聯(lián)網(wǎng),但難以書寫和閱讀[8]。書目數(shù)據(jù)的發(fā)布格式一般包括多種類型,這樣才能同時滿足機器和用戶的需求。
四個圖書館均采用HTML類型和XML類型的發(fā)布格式,RDF/XML是W3C的推薦標準,也是語義網(wǎng)技術的基礎,可以被大部分機器語言識別和處理,所以也是很多圖書館數(shù)據(jù)發(fā)布格式的選擇。此外,LIBIRS選擇可讀性和互操作性較好的N3類型,BNB和EDM選擇JSON類型。JSON類型目前被很多數(shù)字網(wǎng)絡服務采用,是可同時兼顧可讀性和標準性的數(shù)據(jù)發(fā)布格式。
書目數(shù)據(jù)的詞表包括復用已發(fā)布的通用詞表和獨創(chuàng)詞表(見表2)。BIBFRAME在創(chuàng)建之初便沒有復用任何通用詞表,隨著關聯(lián)數(shù)據(jù)的不斷實踐,BIBFRAME2.0直接采用RDF和RDFS兩個關聯(lián)數(shù)據(jù)基礎命名空間。如rdf:Resource代替bf:Resource,rdfs: label代替bf: label等。BIBFRAME2.0將有可能繼續(xù)引入更多已有詞表[9]。而大英圖書館、Europeana及瑞典國家圖書館不僅復用了通用詞表,還根據(jù)自身書目數(shù)據(jù)特點形成獨創(chuàng)詞表。獨創(chuàng)詞表包括大英圖書館的BLT、Europeana的EDM,以及瑞典圖書館的LIBRIS等。
除LC外,大部分圖書館都選擇復用通用詞表增強數(shù)據(jù)的互操作性,而LC也在改變原有做法,逐漸創(chuàng)建新的詞表。大英圖書館是復用通用詞表最多的圖書館,這也與其使用不同領域詞表、實現(xiàn)與多個外部數(shù)據(jù)集相關聯(lián)的指導思想相契合。在圖書館獨創(chuàng)詞表中,各圖書館均有與其數(shù)據(jù)模型相對應的詞表。此外,BNB通過研究并結合自身情況獨創(chuàng)了BLT,用以描述書目資源的屬性和類及資源間的關系。該詞表是BNB根據(jù)自身實際情況增加其他本體中沒有的屬性和類。Europeana的OAI-ORE是EDM的核心數(shù)據(jù)結構,基于開放歸檔對象重用和交換模型,該模型是Web資源聚合描述和交換的參考模型[10]。ORE聚合用于表示數(shù)據(jù)提供者對歐洲的貢獻。
表2 關聯(lián)書目數(shù)據(jù)模型詞表分類表
綜上所述,BIBFRAME期望將數(shù)據(jù)標準設計成一種開放的交換格式,盡量不規(guī)定特定的編目原則,同時側重規(guī)范定義、數(shù)據(jù)建模和元數(shù)據(jù)質(zhì)量。BNB將重點放在數(shù)據(jù)的主要實體上,而并不試圖復制MARC21的復雜結構和內(nèi)容,同時為提高互操作性,盡量使用現(xiàn)有的RDF詞匯表和本體來描述實體和關系。EDM同樣基于RDF進行數(shù)據(jù)模型構建,鑒于其成熟性,EDM的記錄范圍比BIBFRAME更大,且具有強大的數(shù)據(jù)收集和轉(zhuǎn)換服務。LIBRIS在UNIMARC中保留源格式,然后在鏡像數(shù)據(jù)庫中轉(zhuǎn)換為XML以提供Web服務和API,同時在RDF中使用并行自制生產(chǎn)數(shù)據(jù)轉(zhuǎn)換工具。
表3 關聯(lián)書目數(shù)據(jù)模型功能比較
本文對上述4種關聯(lián)書目數(shù)據(jù)模型的關聯(lián)情況、功能實現(xiàn)及應用范圍進行比較,如表3所示。
圖書館采用關聯(lián)書目數(shù)據(jù)模型的本質(zhì)是為了使圖書館書目信息資源不僅可以內(nèi)部互相關聯(lián),還可以與外界資源相關聯(lián),從而使圖書館資源在互聯(lián)網(wǎng)上得到最優(yōu)化利用。所以,各關聯(lián)書目數(shù)據(jù)模型的數(shù)據(jù)關聯(lián)化步驟基本相同,都是將各類資源在技術支持下納入關聯(lián)化序列,建立各個實體屬性間的關聯(lián)。
在書目數(shù)據(jù)的關聯(lián)過程中,首先是各圖書館間的資源互聯(lián)(大英圖書館和瑞典國家圖書館、法國圖書館、德國圖書館等書目數(shù)據(jù)集都互相關聯(lián));其次在關聯(lián)外部資源時,通常選擇公共領域中一些重要的開放數(shù)據(jù)集(如Wikipedia、DBpedia 等);最后,各圖書館均借鑒由權威機構發(fā)布的一些通用詞表和規(guī)范文檔,包括由OCLC發(fā)表并集合各圖書館有關人名和機構的規(guī)范文檔VIAF、LC發(fā)布的主題詞表LCSH及用于描述地理信息概念的詞表Geonames。
BIBFRAME不局限于某一機構特定的內(nèi)容規(guī)則,構建了開放包容的本體模型,旨在將書目數(shù)據(jù)鏈入關聯(lián)數(shù)據(jù)模型,同時還納入新興的數(shù)據(jù)標準和模型(包括FRBR和RDA)。BIBFRAME強調(diào)將書目資源解構為明確的內(nèi)容描述,同時使用URI取代文本或文字值[11]。但由于BIBFRAME仍在不停地修訂,關聯(lián)數(shù)據(jù)模型未完全確定,尚處于測試階段。BNB根據(jù)不同類型的書目資源構建不同的本體模型,以不同的語義操作技術為支撐,將MARC格式的書目數(shù)據(jù)映射為RDF格式,并將大量圖書館內(nèi)部資源和外部其他領域的詞表進行關聯(lián)擴展,最終實現(xiàn)書目數(shù)據(jù)實體間的關聯(lián),以及與外部資源的共享,滿足圖書館與外部數(shù)據(jù)集相關聯(lián)的需求。
Europeana開展的跨領域、跨機構的復雜關聯(lián)數(shù)據(jù)項目,已經(jīng)成功搭建了數(shù)字文化資源聚合門戶。作為互聯(lián)網(wǎng)門戶網(wǎng)站,Europeana可為全歐洲數(shù)百萬書籍、繪畫、電影、博物館對象和數(shù)字化檔案記錄提供接口,也是為文化代理人之間的合作提供知識交流平臺。LIBRIS在發(fā)布關聯(lián)數(shù)據(jù)的過程中使用的詞表不局限于圖書館領域,同時借鑒FOAF、BIBO等詞表,為圖書館書目數(shù)據(jù)資源與外界資源的融合打開新局面。
目前已有7個機構和8個館藏正在使用BIBFRAME進行書目數(shù)據(jù)的關聯(lián)測試,LC根據(jù)測試結果對BIBFRAME進行不斷補充和修正。大英圖書館收錄了英國和愛爾蘭自1950年以來出版發(fā)行的所有新書和連續(xù)出版物,包括后來的CD-ROM、DVD-ROM、電子期刊、電子圖書、數(shù)據(jù)集、網(wǎng)頁等。Europeana的關聯(lián)數(shù)據(jù)集來自歐盟成員國200多個不同文化機構的數(shù)據(jù)。Europeana將歐洲的畫廊、博物館、圖書館和檔案館資源進行數(shù)字化描述, 讓研究人員獲得更豐富的材料和數(shù)據(jù)。LIBRIS的175個成員館均使用同一個ILS進行編目,目前整個系統(tǒng)擁有600萬條書目數(shù)據(jù),瑞典國家圖書館已經(jīng)開發(fā)出一套組件使系統(tǒng)能夠處理RDF格式數(shù)據(jù)。
綜上所述,BIBFRAME利用關聯(lián)數(shù)據(jù)使得圖書館元數(shù)據(jù)變得更易于訪問和實用,以滿足用戶前期未被滿足的需求和新興需求。BNB負責描述館藏數(shù)據(jù)并記錄英國的出版產(chǎn)品,通過采取開放的元數(shù)據(jù)戰(zhàn)略,增加圖書館數(shù)據(jù)的社會價值,保持圖書館服務的相關性。EDM試圖超越歐洲文化資源部門的信息視角,采用基于語義網(wǎng)的開放跨域框架,不僅支持數(shù)據(jù)提供商提供的多種元數(shù)據(jù),還可以通過關聯(lián)外部資源豐富數(shù)據(jù)庫。LIBRIS希望為研究人員、教師和學生提供最大可能的數(shù)據(jù)發(fā)現(xiàn)和可利用性,旨在創(chuàng)建簡單、直觀和易于使用的數(shù)據(jù)關聯(lián)模型。
關聯(lián)書目數(shù)據(jù)模型通常采用RDF格式對書目數(shù)據(jù)進行描述,因此在進行書目數(shù)據(jù)的關聯(lián)過程中,從MARC到RDF的映射就成為其中的關鍵技術。2016年,BIBFRAME官網(wǎng)上發(fā)布了BIBFRAME2.0術語詞表,包括分類視圖、清單視圖和RDF視圖三種視圖。其中,RDF視圖取代模型視圖,使BIBFRAME能夠更具體、更迅速地適應關聯(lián)數(shù)據(jù)大環(huán)境。如在一般屬性中的bf:identifiedBy與MARC中的“0-標識塊”對應,在BIBFRAME詞表中對bf:identifiedBy的描述強調(diào)了唯一性,因此在映射時只與001字段、014字段、040字段進行了對應。
BNB的映射表根據(jù)模型實體也將書目數(shù)據(jù)劃分為責任者信息、出版事件信息、主題信息及其他信息(包括書目資源類別信息、題名信息、叢書系列信息、語言信息、標識信息和附注類信息)對各個屬性進行映射。如在責任者信息中常用的MARC字段有100字段、110字段、700字段等,需要映射的主要款目標目是Dct:creator,附加款目標目是Dct:contributor。
Europeana的映射規(guī)則也是根據(jù)模型實體展開的,包括EDM核心類(edm:ProvidedCHO、edm:WebResource、ORE:aggregation)和contextual類(edm:agent、edm:place、edm:timespan、skos:concept、cc:license)[12]。Europeana鼓勵供應商從現(xiàn)有數(shù)據(jù)中提供盡可能多的屬性以創(chuàng)建完整描述,雖然沒有必要使用所有可用的EDM屬性,但必須保證其規(guī)范性,還要盡可能使用最精確的屬性。如使用子屬性dcterms:spatial或dcterms:temporal代替更寬泛的dc:coverage。
目前我國圖書館采用CNMARC格式描述書目數(shù)據(jù),但與MARC格式仍存在細微差異(見表4)。以CNMARC中的600字段為例,600字段表示個人主題名稱,在BIBFRAME中根據(jù)子字段的不同,600字段和不同的BIBFRAME屬性相對應,如600的子字段為$a(款目要素)時,對應類別為“主題詞和分類信息”中的屬性Bf:subject。在BNB中對應主題信息中的Dct:subject(LCSH),其中命名空間Dct是都柏林核心集的升級版本,取值來自LC標題表(LCSH)。在EDM中對應核心類的edm:ProvidedCHO中的Dc:subject,其命名空間是DC元數(shù)據(jù)。
表4 常用CNMARC字段與各個關聯(lián)書目數(shù)據(jù)模型映射比較
綜上所述,BIBFRAME只采用了自身的命名空間,因為BIBFRAME在發(fā)布詞表時沒有復用任何通用詞表,而是選擇重新定義每個屬性和類。BNB在進行書目資源描述時采用14個詞表,包括成熟的規(guī)范詞表和大英圖書館的獨創(chuàng)詞表。詞表作為命名空間被使用,每個命名空間都有獨特的作用。BNB靈活地將各領域的通用詞表運用到自身書目資源的描述中,使其在各個實體中發(fā)揮最大作用。EDM采用的命名空間主要是DC元數(shù)據(jù)和自身命名空間(如edm),在contextual類中也復用了很多詞表(如SKOS、FOAF、WGS84等)。
目前,我國圖書館的關聯(lián)數(shù)據(jù)工作正處于探索和研究階段,尚未將圖書館的書目數(shù)據(jù)大量發(fā)布為關聯(lián)數(shù)據(jù)并共享。本文從關聯(lián)書目數(shù)據(jù)模型的核心框架、功能比較、映射比較三個維度對LC、大英圖書館、Europeana及瑞典國家圖書館進行詳細分析。國外這些成熟的書目數(shù)據(jù)項目對我國將來的關聯(lián)數(shù)據(jù)研究和實踐提供了豐富經(jīng)驗。
(1)復用通用詞表。通過分析發(fā)現(xiàn),國外在書目數(shù)據(jù)關聯(lián)過程中采用的詞表包括已有的由權威機構發(fā)布的通用詞表和圖書館獨創(chuàng)詞表。在關聯(lián)數(shù)據(jù)領域經(jīng)常通過復用通用詞表的類和屬性來標識同一事物,如果完全采用自身命名空間會使詞表過于龐大而難以維護。因此,我國在創(chuàng)建關聯(lián)數(shù)據(jù)模型時可借鑒大英圖書館的做法,盡可能復用通用詞表。這樣不僅可以減輕圖書館的工作量和對本地元數(shù)據(jù)管理的負擔,提升數(shù)據(jù)互操作性,還可以使關聯(lián)開放的書目數(shù)據(jù)在數(shù)據(jù)模型上一致,便于關聯(lián)數(shù)據(jù)的管理、共享和利用。
(2)參考已有模型進行建模。數(shù)據(jù)模型的建立基本與詞表的選用同時進行,擁有明確的實體模型非常重要。如BIBFRAME和LIBIRS均以FRBR為基礎框架進行模型構建。圖書館在創(chuàng)建關聯(lián)書目數(shù)據(jù)模型本體時應盡量建立在已有模型基礎上。首先,已有模型均由權威機構發(fā)布,經(jīng)過實踐的考驗并具有一定的穩(wěn)定性。其次,明確的實體模型有利于書目資源中復雜關系的描述和知識發(fā)現(xiàn),并能提升書目數(shù)據(jù)關聯(lián)的靈活性和擴展性。最后,在選擇已有模型作為基礎框架時,應結合中文書目數(shù)據(jù)特點,以完整準確地描述我國圖書館資源內(nèi)容。
(3)與外界資源建立廣泛關聯(lián)。國外關聯(lián)書目數(shù)據(jù)在資源關聯(lián)方面主要以圖書館內(nèi)部資源為主,如主題詞表、規(guī)范文檔等,而對外界資源的關聯(lián)具有較大局限性,主要關聯(lián)了一些重要的開放數(shù)據(jù)集(如Wikipedia、DBpedia等),關聯(lián)內(nèi)容和領域較單一。在密集型科研中,圖書館應積極探索新的服務方式,為用戶提供更精準的服務[13]。因此,我國書目資源在關聯(lián)過程中應盡量擴大關聯(lián)范圍,與各領域資源建立關聯(lián),同時將關聯(lián)書目數(shù)據(jù)滲透到其他領域,豐富書目數(shù)據(jù)的關聯(lián)性,使圖書館書目數(shù)據(jù)資源在互聯(lián)網(wǎng)中發(fā)揮重要作用。
[1]魏來,高希然. 大數(shù)據(jù)背景下高校數(shù)據(jù)館員的角色定位[J]. 情報資料工作,2015,34(5):90-94.
[2]BERNERS-LEE T. On the Next Web[EB/OL].[2018-05-25]. http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html.
[3]TANIGUCHI S. Examining BIBFRAME 2.0 from the viewpoint of RDA metadata schema[J]. Cataloging & Classification Quarterly,2017,55(6):387-412.
[4]DELIOT C. Publishing the British National Bibliography as Linked Open Data[EB/OL].[2018-05-25]. http://www.bl.uk/bibliographic/pdfs/publishing_bnb_as_lod.pdf.
[5]張鵬圖. 大英圖書館書目數(shù)據(jù)的關聯(lián)化分析[J]. 國家圖書館學刊,2015,24(4):103-113.
[6]EDM primer[EB/OL].[2018-05-25]. http://pro.europeana.eu/files/Europeana Professional/Share your data/Technical requirements/EDM Documentation/EDM Primer 130714.pdf.
[7]LIBRIS[EB/OL].[2018-05-25]. http://libris.kb.se/.
[8]鄒美辰,胡瀛. 歐美國家圖書館書目數(shù)據(jù)關聯(lián)化案例研究[J]. 圖書館理論與實踐,2016(11):61-66,70.
[9]胡小菁. BIBFRAME核心類演變分析[J]. 中國圖書館學報,2016,42(3):20-26.
[10]HASLHOFER B,ISAAC A. Data.europeana.eu: the europeana linked open data pilot[C]//International Conference on Dublin Core and Metadata Applications. Dublin Core Metadata Initiative,2011:94-104.
[11]CASALINI M. BIBFRAME and Linked Data practices for the stewardship of research knowledge[C]//Digital Humanities. Connecting Libraries and Research. Berlin:IFLA-Satellite-Meeting,2017.
[12]Europeana Data Model – Mapping Guidelines v2.3[EB/OL].(2016-11-18)[2018-05-25]. https://pro.europeana.eu/files/Europeana_Professional/Share_your_data/Technical_requirements/EDM_Documentation/EDM%20Mapping%20Guidelines%20v2.3_112016.pdf.
[13]黃金霞,馬雨萌. 大數(shù)據(jù)時代開放信息資源的數(shù)據(jù)服務能力思考[J]. 數(shù)字圖書館論壇,2016(8):54-59.
Comparative Research on Linked Bibliographic Data Models Abroad
ZHENG HuaMin
( Northeast Normal University School of Information Science and Technology, Changchun 130024, China )
According to the status quo of data association in current Chinese books, the data models of typical bibliography abroad are investigated and analyzed. Mainly from the main framework, function implementation, mapping of the four bibliographic data models comparison study, the paper finally provides a feasible proposal for the bibliographic data association for our library.
Bibliographic Data; Association Model; Ontology; Mapping
(2018-06-05)
G250
10.3772/j.issn.1673-2286.2018.07.009
鄭華敏,女,1994年生,碩士研究生,研究方向:信息服務,E-mail:1604609940@qq.com。
*本研究得到國家社會科學基金項目“圖書館書目數(shù)據(jù)社會化應用研究”(編號:15BTQ018)資助。