国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化案例研究

2016-12-20 08:11鄒美辰
圖書館理論與實(shí)踐 2016年11期
關(guān)鍵詞:詞表國家圖書館歐美

鄒美辰,胡 瀛

(1.中國科學(xué)院大學(xué);2.中國科學(xué)院文獻(xiàn)情報中心)

歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化案例研究

鄒美辰1,2,胡 瀛2

(1.中國科學(xué)院大學(xué);2.中國科學(xué)院文獻(xiàn)情報中心)

針對當(dāng)前我國圖書館對書目關(guān)聯(lián)化的研究不夠深入、廣泛的問題,剖析歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的9個典型案例,總結(jié)其特點(diǎn)與不足,以期提高我國圖書館對書目數(shù)據(jù)關(guān)聯(lián)化的關(guān)注度,促進(jìn)我國圖書館的書目數(shù)據(jù)關(guān)聯(lián)化進(jìn)程。采用網(wǎng)站調(diào)研法、案例分析法和對比分析法,詳細(xì)分析歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的數(shù)據(jù)來源、數(shù)據(jù)規(guī)模、數(shù)據(jù)模型、發(fā)布格式和許可協(xié)議等內(nèi)容??偨Y(jié)歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的成效與不足之處,并針對我國圖書館的書目數(shù)據(jù)關(guān)聯(lián)化提供可行性建議。

書目數(shù)據(jù);關(guān)聯(lián)數(shù)據(jù);數(shù)據(jù)發(fā)布;數(shù)據(jù)模型

1 引言

書目數(shù)據(jù)是圖書館領(lǐng)域最具價值的信息資源之一,是圖書館服務(wù)的基礎(chǔ)和核心,也是連接用戶和圖書館的橋梁。傳統(tǒng)的書目數(shù)據(jù)一直是圖書館的內(nèi)部獨(dú)立資源,大部分采用面向數(shù)值的機(jī)器可讀目錄(Machine Readable Cataloguing,MARC)格式進(jìn)行編目,即將所有的對象和屬性值當(dāng)作文字看待。隨著網(wǎng)絡(luò)環(huán)境的變化,用戶對于書目數(shù)據(jù)的需求開始發(fā)生轉(zhuǎn)變,用戶希望通過書目數(shù)據(jù)獲取更加豐富的信息,也希望通過搜索引擎發(fā)現(xiàn)和獲取書目數(shù)據(jù)。2010年聯(lián)機(jī)計(jì)算機(jī)圖書館中心(Online Computer Library Center,OCLC)的研究報告顯示,在數(shù)字化網(wǎng)絡(luò)環(huán)境中,信息消費(fèi)者的檢索起點(diǎn)大部分為搜索引擎,圖書館網(wǎng)站的占比很低。[1]因此,書目數(shù)據(jù)急需打破自身的資源壁壘,擺脫信息孤島的束縛,融入更加廣闊的網(wǎng)絡(luò)環(huán)境中,更多的被搜索引擎索引,提升資源的利用率。

針對上述情況,圖書館界開始尋求新的技術(shù)手段和解決方案。2006年,“萬維網(wǎng)之父”Tim Berners-Lee提出關(guān)聯(lián)數(shù)據(jù)的概念,即構(gòu)建數(shù)據(jù)之間的關(guān)聯(lián),形成一個能被計(jì)算機(jī)理解的數(shù)據(jù)網(wǎng)絡(luò),從而將現(xiàn)存的信息孤島整合成一個巨大數(shù)據(jù)庫。[2]這一概念的提出為書目數(shù)據(jù)的發(fā)展提供了新的契機(jī),將書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),實(shí)現(xiàn)書目數(shù)據(jù)關(guān)聯(lián)化已經(jīng)成為各個圖書館打破資源壁壘的共識。書目數(shù)據(jù)關(guān)聯(lián)化之所以能夠?qū)崿F(xiàn)與其他資源的關(guān)聯(lián),其根本在于從面向數(shù)值到面向?qū)ο蟮乃枷朕D(zhuǎn)變,即將所有的對象和屬性值當(dāng)作實(shí)體看待,構(gòu)建實(shí)體之間的關(guān)聯(lián)。本文選取了歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的若干案例進(jìn)行研究與分析,并闡述其對我國圖書館書目數(shù)據(jù)關(guān)聯(lián)化的啟示。

2 歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的現(xiàn)狀

歐美國家圖書館一直關(guān)注書目數(shù)據(jù)關(guān)聯(lián)化的相關(guān)研究。2008年,瑞典國家圖書館首次將書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),是世界上第一個被整體發(fā)布為關(guān)聯(lián)數(shù)據(jù)的聯(lián)合目錄,并且建立了與DBpedia和美國國會圖書館主題詞表(Library of Congress Subject Headings,LCSH)之間的連接,標(biāo)志著書目數(shù)據(jù)開始真正融入網(wǎng)絡(luò)環(huán)境中。[3]2010年5月,W 3C成立了圖書館關(guān)聯(lián)數(shù)據(jù)孵化小組,推動了關(guān)聯(lián)數(shù)據(jù)在圖書館領(lǐng)域的發(fā)展,提升了數(shù)據(jù)的互操作性。[4]2010年后,書目數(shù)據(jù)關(guān)聯(lián)化達(dá)到高潮,歐美各國的國家圖書館紛紛開始進(jìn)行書目數(shù)據(jù)關(guān)聯(lián)化實(shí)踐。筆者以datahub[5]數(shù)據(jù)中心為主要調(diào)查對象,結(jié)合最新的檢索結(jié)果和歐美國家圖書館網(wǎng)站調(diào)研結(jié)果可知,歐美共有8個國家圖書館實(shí)現(xiàn)了書目數(shù)據(jù)關(guān)聯(lián)化(分別為瑞典、匈牙利、西班牙、英國、法國、意大利、德國和俄羅斯)。本文選取了9個典型案例進(jìn)行剖析,其書目數(shù)據(jù)關(guān)聯(lián)化情況統(tǒng)計(jì)如表1所示。OCLC和歐盟數(shù)字圖書館雖然不是國家圖書館,但屬于歐美十分重要的圖書情報機(jī)構(gòu),其書目數(shù)據(jù)關(guān)聯(lián)化具有一定的代表性。

表1 典型案例的書目數(shù)據(jù)關(guān)聯(lián)化情況統(tǒng)計(jì)

3 歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的分析

3.1 數(shù)據(jù)來源與規(guī)模

實(shí)現(xiàn)書目數(shù)據(jù)關(guān)聯(lián)化,首先需要考慮的就是書目數(shù)據(jù)的來源,圖書館在選擇數(shù)據(jù)來源時需要思考兩個問題:一是要進(jìn)行關(guān)聯(lián)化的數(shù)據(jù)類型,二是要進(jìn)行關(guān)聯(lián)化的數(shù)據(jù)比例。數(shù)據(jù)類型決定了后續(xù)實(shí)體及實(shí)體屬性的構(gòu)建,當(dāng)前的書目數(shù)據(jù)類型除了書籍、期刊等傳統(tǒng)類型外,還包括地圖、樂譜、音頻和視頻等新興類型。數(shù)據(jù)比例則關(guān)系著該機(jī)構(gòu)進(jìn)行書目數(shù)據(jù)關(guān)聯(lián)化的目的,是實(shí)施一項(xiàng)實(shí)驗(yàn)性工作,還是提供實(shí)質(zhì)性的用戶服務(wù)。經(jīng)過調(diào)研,歐美國家圖書館的書目數(shù)據(jù)來源與規(guī)模如表2所示。

由表2看出,歐美國家圖書館在書目數(shù)據(jù)關(guān)聯(lián)化過程中,其數(shù)據(jù)類型是十分多元的,大部分都同時涵蓋傳統(tǒng)和新興類型。在數(shù)據(jù)比例上,除歐盟數(shù)字圖書館外,其他機(jī)構(gòu)都選擇將其內(nèi)部的全部書目數(shù)據(jù)進(jìn)行關(guān)聯(lián)化,表明其目的大多著眼于提供實(shí)質(zhì)性的用戶服務(wù),在其網(wǎng)站上都有相應(yīng)的用戶服務(wù)界面。歐盟數(shù)字圖書館只選擇一部分?jǐn)?shù)據(jù)進(jìn)行關(guān)聯(lián)化的原因在于有一些數(shù)據(jù)提供者不愿意將數(shù)據(jù)公開,因此只能進(jìn)行部分關(guān)聯(lián)化。[12]此外,有些國家在書目數(shù)據(jù)關(guān)聯(lián)化過程中,還將自身的主題詞表和規(guī)范文檔也一同進(jìn)行了關(guān)聯(lián)數(shù)據(jù)化。例如,法國國家圖書館的主題詞表RAMEAU,德國國家圖書館的人名、機(jī)構(gòu)和主題規(guī)范文檔GND,以及OCLC的虛擬國際規(guī)范文檔VIAF等。

其次要考慮的就是數(shù)據(jù)規(guī)模,它關(guān)系著存儲技術(shù)方案的選擇。原先一般采用書目記錄的條數(shù)作為圖書館數(shù)據(jù)規(guī)模的定量指標(biāo),但由于現(xiàn)在轉(zhuǎn)換為RDF形式,因此大多采用Triple的條數(shù)來反映數(shù)據(jù)規(guī)模。一條Triple代表書目數(shù)據(jù)的一條描述,書目數(shù)據(jù)的數(shù)量越多,描述得越詳盡,產(chǎn)生的Triple越多。由表2可以看出,各機(jī)構(gòu)的數(shù)據(jù)規(guī)模基本都在千萬級以上。

表2 歐美國家圖書館的書目數(shù)據(jù)來源與規(guī)模

3.2 關(guān)聯(lián)數(shù)據(jù)模型

3.2.1 實(shí)體抽取

書目數(shù)據(jù)的原始格式大多為一維線性的MARC格式,包含標(biāo)識項(xiàng)、題名與責(zé)任者項(xiàng)、主題信息項(xiàng)和附注項(xiàng)等,采用面向數(shù)值的思想,信息對象為一條記錄。但隨著網(wǎng)絡(luò)環(huán)境的變化,信息對象越來越細(xì)小,從記錄逐步發(fā)展為數(shù)據(jù),需要更具結(jié)構(gòu)化的組織方式。實(shí)體抽取的本質(zhì)就是從面向數(shù)值到面向?qū)ο蟮乃枷朕D(zhuǎn)變,即根據(jù)書目數(shù)據(jù)的特點(diǎn)從MARC記錄中抽取不同類型的實(shí)體,將對象和屬性值當(dāng)做實(shí)體看待。歐美國家圖書館的書目數(shù)據(jù)實(shí)體類型如表3所示。

由表3看出,歐美國家圖書館的書目數(shù)據(jù)實(shí)體抽取可以分為三大類。第一類是根據(jù)已有模型進(jìn)行實(shí)體抽取。例如瑞典、匈牙利、西班牙和法國都是根據(jù)FRBR模型,而OCLC則以Schema.org為基礎(chǔ)模型。這些國家采用已有模型的原因有兩點(diǎn):一是這些模型由權(quán)威機(jī)構(gòu)發(fā)布,并且經(jīng)過實(shí)踐驗(yàn)證具有可行性;二是這些模型與其書目數(shù)據(jù)的特點(diǎn)相契合,符合自身需求。

表3 歐美國家圖書館的書目數(shù)據(jù)實(shí)體類型

下面筆者將以法國國家圖書館為例進(jìn)行具體分析。法國國家圖書館于2010年11月正式啟動data. bnf.fr項(xiàng)目,其目標(biāo)是提升其內(nèi)部數(shù)據(jù)在網(wǎng)絡(luò)上的影響力,并發(fā)布到關(guān)聯(lián)開放數(shù)據(jù)(Linked Open Data,LOD)云圖中供大家獲取和使用。該項(xiàng)目根據(jù)FRBR模型進(jìn)行實(shí)體抽取,實(shí)體類型共分為三大類,分別為作品(frbr:Work、frbr:Expression、frbr:Manifestation)、責(zé)任者(foaf:person、foaf:Organization)和主題(skos: Concept),并通過dc:contributor、foaf:focus、rdarelationships:expressionOfWork等屬性實(shí)現(xiàn)了實(shí)體間的關(guān)聯(lián)。為了擴(kuò)展書目數(shù)據(jù)的內(nèi)容,法國國家圖書館還建立了與外部數(shù)據(jù)集的連接,包括法國研究圖書館聯(lián)合目錄SUDOC、法國聯(lián)合目錄CCFR、OCLC的在線編目聯(lián)合目錄WorldCat、歐盟數(shù)字圖書館data.europeana. eu和DBpedia等。該項(xiàng)目于2011年7月正式開通網(wǎng)上服務(wù),并獲得了斯坦福圖書館研究創(chuàng)新獎(Stanford Prize for Innovation inResearch Libraries,SPIRL)。[18]

第二類是機(jī)構(gòu)自行抽取。例如英國、意大利和歐盟都是根據(jù)書目數(shù)據(jù)特點(diǎn)自行抽取,并構(gòu)建了相應(yīng)的模型。英國沒有采用FRBR模型的原因是當(dāng)時的設(shè)計(jì)者認(rèn)為FRBR是一個過于復(fù)雜的模型,[17]但在其網(wǎng)站的最新報告中明確指出要重新建立一個基于FRBR的實(shí)體模型。意大利沒有采用已有模型的原因則是其數(shù)據(jù)類型比較特殊,重新設(shè)計(jì)可以更好地定義實(shí)體間的關(guān)系。而歐盟則是由于其目標(biāo)是將全歐洲的圖書館館藏聚合起來,涉及的問題比較復(fù)雜,已有模型無法滿足其需求。

以大英圖書館為例進(jìn)行具體分析。2011年7月,大英圖書館提出要將英國國家書目(British National Bibliography,BNB)發(fā)布為關(guān)聯(lián)數(shù)據(jù),并開放到LOD云圖中。大英圖書館之所以作出這樣的決定,有兩點(diǎn)原因:首先,從2009年起英國政府就承諾開放公共數(shù)據(jù),以達(dá)到廣泛使用的目的,BNB的關(guān)聯(lián)數(shù)據(jù)化正好可以作為大英圖書館對于此項(xiàng)承諾的回應(yīng);其次,大英圖書館希望在關(guān)聯(lián)數(shù)據(jù)化的過程中受益,成為關(guān)聯(lián)數(shù)據(jù)浪潮中的一部分。[17]大英圖書館針對圖書和連續(xù)出版物抽取了不同的實(shí)體類型,以圖書為例其實(shí)體類型可以劃分為四大部分,分別為出版事件、主題、責(zé)任者和其他。出版事件包括出版事件類以及與其相關(guān)的主體類、空間類和時間類,其中出版事件類是事件類的子類,出版開始事件類和出版結(jié)束事件類是出版事件類的子類。主題包括七大類,概念類、LCSH主題類、人名概念類、家族概念類、機(jī)構(gòu)概念類、DDC主題類和地點(diǎn)概念類,其中概念類是其他六類的父類。責(zé)任者包括人名類、機(jī)構(gòu)類、出生日期類和死亡日期類。其他則包含標(biāo)識符、題名、語言和附注類等。雖然大英圖書館根據(jù)實(shí)體類型構(gòu)建了相應(yīng)的模型,但只是將現(xiàn)有的MARC書目記錄直接轉(zhuǎn)化為RDF格式,其本質(zhì)的內(nèi)容描述規(guī)則沒有改變。

第三類則是直接在MARC格式的基礎(chǔ)上進(jìn)行轉(zhuǎn)化。例如,德國國家圖書館就是直接進(jìn)行MARC21字段到詞表屬性的映射,沒有改變其本質(zhì)的內(nèi)容描述規(guī)則。MARC21字段可以被劃分為題名信息、責(zé)任者信息、出版信息、標(biāo)識信息、叢書系列信息和語言信息等。以題名信息為例,其映射情況見表4。

表4 德國國家圖書館題名信息映射表[27]

3.2.2 實(shí)體命名

實(shí)體命名就是為每個實(shí)體賦予一個永久標(biāo)識符,即URI。URI比較通用的結(jié)構(gòu)為:<基地址>/<實(shí)體類型名稱>/<標(biāo)識符>,歐美國家圖書館的書目數(shù)據(jù)URI格式如表5所示,基地址用粗體標(biāo)出。

表5 歐美國家圖書館的書目數(shù)據(jù)URI格式

由表5可以看出,URI的基地址一般采用各機(jī)構(gòu)的網(wǎng)站首頁地址,實(shí)體類型名稱則根據(jù)數(shù)據(jù)特點(diǎn)來命名。標(biāo)識符是URI唯一性的重要保證,其命名方式主要有兩種。第一種是依賴于外部資源,例如人名可以采用VIAF和ORCID進(jìn)行描述,作品可以采用DOI和ISBN進(jìn)行唯一標(biāo)識。法國國家圖書館采用了面向數(shù)字資源長期保存的資源永久標(biāo)識符系統(tǒng)——存檔資源鍵(ARK)。[28]第二種是由機(jī)構(gòu)自己命名,例如大英圖書館內(nèi)部的BNB ID,此外有時候?yàn)榱俗孶RI可讀性更好,有些機(jī)構(gòu)還使用了人名、地名或者機(jī)構(gòu)名作為URI的一部分。

3.2.3 實(shí)體屬性描述

在確定實(shí)體類型之后,下一步就是對各種不同類型的實(shí)體進(jìn)行屬性描述。實(shí)體屬性絕大多數(shù)來自原有的MARC格式,還有一部分是通過與其他數(shù)據(jù)集關(guān)聯(lián)獲得。在描述實(shí)體屬性的過程中,十分重要的一點(diǎn)就是根據(jù)實(shí)體屬性選擇或設(shè)計(jì)特定的詞表。書目數(shù)據(jù)的詞表來源大致可以分為兩類:一類是已經(jīng)發(fā)布的成熟詞表,另一類是自己創(chuàng)建的獨(dú)特詞表。歐美國家圖書館的書目數(shù)據(jù)詞表來源如表6所示。

由表6可以看出,書目數(shù)據(jù)的詞表來源大部分為已經(jīng)發(fā)布的成熟詞表,只有小部分屬性采用了自己創(chuàng)建的獨(dú)特詞表,例如瑞典國家圖書館和大英圖書館的LIBRIS和British Library Terms。對于作品的屬性描述,出現(xiàn)頻率較高的詞表有都柏林核心元數(shù)據(jù)詞表DC和描述書目信息的書目本體BIBO;對于作者的屬性描述,大部分都采用描述人物信息的詞表FOAF;對于主題的屬性描述,出現(xiàn)頻率較高的為描述受控詞表概念信息的詞表SKOS。歐美國家圖書館基本上都同時采用了這四個詞表,它們在書目數(shù)據(jù)關(guān)聯(lián)化的過程中占有十分重要的地位。復(fù)用已有詞表能夠減少機(jī)構(gòu)的工作量,提升數(shù)據(jù)的互操作性,保證開放關(guān)聯(lián)書目數(shù)據(jù)在框架上的基本一致性,以及書目數(shù)據(jù)的統(tǒng)一管理、共享和利用的便利性。

表6 歐美國家圖書館的書目數(shù)據(jù)詞表來源

3.2.4 實(shí)體關(guān)聯(lián)

建立實(shí)體關(guān)聯(lián)就是選擇合適的內(nèi)外部資源,豐富書目數(shù)據(jù)的關(guān)聯(lián)性。這一部分是書目數(shù)據(jù)關(guān)聯(lián)化的核心價值所在,能夠打破圖書館的資源壁壘,建立書目數(shù)據(jù)與圖書館資源和外界資源的連接。歐美國家圖書館的書目數(shù)據(jù)實(shí)體關(guān)聯(lián)情況如表7所示。

表7 歐美國家圖書館的書目數(shù)據(jù)實(shí)體關(guān)聯(lián)情況

由表7可以看出,書目數(shù)據(jù)在選擇圖書館資源的過程中,偏向于兩類。第一類是各個圖書館發(fā)布的關(guān)聯(lián)書目數(shù)據(jù)集,即書目數(shù)據(jù)之間的資源互聯(lián)。例如,西班牙國家圖書館、德國國家圖書館、法國國家圖書館和瑞典國家圖書館的書目數(shù)據(jù)集都有相互之間的關(guān)聯(lián)。第二類是權(quán)威機(jī)構(gòu)發(fā)布的主題詞表和規(guī)范文檔,構(gòu)建關(guān)聯(lián)最多的主題詞表是美國國會圖書館的LCSH,規(guī)范文檔則大多集中于VIAF。VIAF由OCLC發(fā)布,集合了各個圖書館有關(guān)人名和機(jī)構(gòu)的規(guī)范文檔,是圖書館界資源互聯(lián)的首選。外界資源的選擇則偏向于公共領(lǐng)域,例如DBpedia和Geonames等重要開放數(shù)據(jù)集。在實(shí)體互聯(lián)的過程中,實(shí)現(xiàn)關(guān)聯(lián)較多的數(shù)據(jù)項(xiàng)為作品名、人名、機(jī)構(gòu)名、地名和主題名。

此外,還需要考慮的一個關(guān)鍵問題就是關(guān)聯(lián)發(fā)現(xiàn)算法的設(shè)計(jì)。在關(guān)聯(lián)數(shù)據(jù)的權(quán)威教程中,關(guān)聯(lián)發(fā)現(xiàn)算法可以分為三種:人工創(chuàng)建、基于模式的算法和基于屬性的算法。[29]除此之外,人們還開發(fā)了一系列的關(guān)聯(lián)發(fā)現(xiàn)框架。例如,基于規(guī)則的關(guān)聯(lián)發(fā)現(xiàn)框架SILK,[30]基于三角形不等式的關(guān)聯(lián)發(fā)現(xiàn)框架LIMES[31]和完全針對關(guān)系型數(shù)據(jù)的語義連接發(fā)現(xiàn)框架LinQuer等。[32]根據(jù)資料顯示,英國、德國、法國、意大利、西班牙等國的國家圖書館都選擇人工與自動相結(jié)合的方式實(shí)現(xiàn)實(shí)體的關(guān)聯(lián)化。[33]

3.3 數(shù)據(jù)發(fā)布格式與許可協(xié)議

在書目數(shù)據(jù)關(guān)聯(lián)化過程中,需要考慮的問題還包括數(shù)據(jù)發(fā)布格式和許可協(xié)議。關(guān)聯(lián)數(shù)據(jù)可以采用不同的關(guān)聯(lián)序列化方法,從而以不同的格式呈現(xiàn)。當(dāng)前的關(guān)聯(lián)數(shù)據(jù)發(fā)布格式可以分為四類:①HTML類型:HTML、RDFa、Microdata;②XML類型:RDF/XML、RDF/XML-ABBREV;③N3類型:N3、Turtle、N-Triple、N-Quads、TriG、TriX;④JSON類型:RDF/JSON、JSON-LD。HTML類型可以在網(wǎng)站上為用戶提供數(shù)據(jù)服務(wù),是為人們理解和使用而設(shè)計(jì)的。XML類型是W 3C的推薦標(biāo)準(zhǔn)格式,但復(fù)雜度高,可讀性低。N3類型簡化了XML類型的復(fù)雜度,提升了互動性和可讀性。JSON類型是互聯(lián)網(wǎng)最流行的數(shù)據(jù)交換格式,適合于現(xiàn)代網(wǎng)絡(luò),解析效率較高但難以書寫和閱讀。歐美國家圖書館的書目數(shù)據(jù)發(fā)布格式和許可協(xié)議如表8所示。由表8可以看出,書目數(shù)據(jù)的發(fā)布格式一般都包括多種類型,這樣可以同時滿足機(jī)器和用戶的需求,并兼顧標(biāo)準(zhǔn)化和可讀性。

在關(guān)聯(lián)書目數(shù)據(jù)的發(fā)布、消費(fèi)和再創(chuàng)造過程中,一定會涉及參與者的利益問題。因此最好明確聲明其許可協(xié)議,避免不必要的法律糾紛,為書目數(shù)據(jù)的發(fā)展提供法律基礎(chǔ)和保障。目前,歐美國家圖書館對關(guān)聯(lián)書目數(shù)據(jù)進(jìn)行授權(quán)和聲明的許可協(xié)議可以大致分為兩類:①開放數(shù)據(jù)共用(Open Data Commons,ODC)家族,其中ODC-BY是一種數(shù)據(jù)庫的許可協(xié)議,需要署名數(shù)據(jù)庫;②知識共享(Creative Commons,CC)家族,其中CC0是對自己所擁有作品版權(quán)和其他權(quán)利放棄的一種聲明協(xié)議,即任何人可以以任何方式和任何目的使用該作品。[34]由表8可以看出,大部分書目數(shù)據(jù)集的許可協(xié)議為CC0,這一點(diǎn)保證了書目數(shù)據(jù)的普遍性和開放性。

表8 歐美國家圖書館的書目數(shù)據(jù)發(fā)布格式和許可協(xié)議

4 歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的特點(diǎn)與不足及對我國圖書館的啟示

4.1 特點(diǎn)與不足

4.1.1 歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的特點(diǎn)

(1)歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的步驟基本相同,并且都逐步將各類資源有條不紊地納入了關(guān)聯(lián)化序列,建立了各個資源實(shí)體之間的關(guān)聯(lián)。(2)歐美國家圖書館都在書目數(shù)據(jù)關(guān)聯(lián)化的基礎(chǔ)上推出了各種用戶服務(wù)。例如在網(wǎng)站上提供關(guān)聯(lián)書目數(shù)據(jù)的瀏覽和檢索、提供以RDF文件的格式下載書目數(shù)據(jù)或通過SPARQL端點(diǎn)進(jìn)行書目數(shù)據(jù)的檢索,力圖深層次挖掘關(guān)聯(lián)數(shù)據(jù)的潛力與優(yōu)勢,提升其服務(wù)方式和服務(wù)深度。

4.1.2 歐美國家圖書館書目數(shù)據(jù)關(guān)聯(lián)化的不足

(1)沒有與外界資源廣泛建立關(guān)聯(lián)。歐美國家圖書館在豐富書目數(shù)據(jù)關(guān)聯(lián)性的過程中,選擇的資源類型大部分為圖書館內(nèi)部資源,包括書目數(shù)據(jù)、主題詞表和規(guī)范文檔等。對于外界資源的選擇有較大的局限性,主要為公共領(lǐng)域的重要開放數(shù)據(jù)集DBpedia和Geonames。(2)有些機(jī)構(gòu)在實(shí)體建模的過程中,沒有從本質(zhì)上改變書目數(shù)據(jù)的內(nèi)容描述規(guī)則。它們只是將現(xiàn)有的MARC記錄直接轉(zhuǎn)化為RDF格式,其本質(zhì)仍然是面向數(shù)值的思想,不符合時代發(fā)展的潮流,很容易被逐步淘汰以致消失。

4.2 對我國圖書館的啟示

(1)提高對書目數(shù)據(jù)關(guān)聯(lián)化的關(guān)注度。目前,我國圖書館對書目數(shù)據(jù)關(guān)聯(lián)化的關(guān)注度較低,這個問題應(yīng)該引起重視。近年來,書目數(shù)據(jù)關(guān)聯(lián)化發(fā)展迅速,得到了歐美各國國家圖書館的廣泛支持,其資源內(nèi)容、服務(wù)方式和服務(wù)深度較之前都有了很大提升。建議我國圖書館也積極投身于書目數(shù)據(jù)關(guān)聯(lián)化的浪潮當(dāng)中,關(guān)注書目數(shù)據(jù)關(guān)聯(lián)化的發(fā)展。

(2)盡量在已有模型的基礎(chǔ)上進(jìn)行實(shí)體建模。首先,擁有明確的實(shí)體模型是十分必要的,可以提升書目數(shù)據(jù)關(guān)聯(lián)化的靈活性和擴(kuò)展性,便于復(fù)雜關(guān)系的表達(dá)和知識發(fā)現(xiàn)的進(jìn)行。其次,在已有模型的基礎(chǔ)上進(jìn)行擴(kuò)展能夠轉(zhuǎn)變書目數(shù)據(jù)的傳統(tǒng)內(nèi)容描述規(guī)則,符合時代發(fā)展的潮流。最后,已有模型是由權(quán)威機(jī)構(gòu)發(fā)布的,經(jīng)受過實(shí)踐的考驗(yàn),比較全面和完善。

(3)優(yōu)先復(fù)用已有的成熟詞表。書目數(shù)據(jù)關(guān)聯(lián)化的詞表來源包括已有的成熟詞表和自己創(chuàng)建的獨(dú)特詞表,建議我國圖書館優(yōu)先復(fù)用已有的成熟詞表,這樣能夠減少機(jī)構(gòu)的工作量,提升數(shù)據(jù)的互操作性,保證開放關(guān)聯(lián)書目數(shù)據(jù)在框架上的基本一致性,以及書目數(shù)據(jù)的統(tǒng)一管理、共享和利用的便利性。

(4)廣泛建立與外界資源關(guān)聯(lián)。當(dāng)前圖書館在進(jìn)行書目數(shù)據(jù)關(guān)聯(lián)化過程中,對于外界資源的選擇有較大的局限性,資源領(lǐng)域比較單一。今后,我國圖書館可以擴(kuò)大選擇范圍,將書目數(shù)據(jù)不斷滲透到其他領(lǐng)域,豐富書目數(shù)據(jù)的關(guān)聯(lián)性。

(5)提供多種類型的數(shù)據(jù)格式和明確的許可協(xié)議。多種類型的數(shù)據(jù)格式可以同時兼顧標(biāo)準(zhǔn)化和可讀性,而明確的許可協(xié)議則可以避免不必要的法律糾紛。我國國家圖書館如果想要提供開放數(shù)據(jù)服務(wù),最好同時提供HTML類型和JSON類型,因?yàn)楝F(xiàn)在的網(wǎng)絡(luò)服務(wù)已經(jīng)越來越多地使用JSON格式進(jìn)行數(shù)據(jù)交換。

[1]PerceptionsofLibraries.2010:ContextandCommunity[EB/OL].[2016-01-12].http://www.oclc.org/ content/dam/oclc/reports/2010perceptions/2010perceptions_all_singlepage.pdf.

[2]Tim Berners-Lee.Linked data-design issues[EB/OL].[2016-01-12].http://www.w3.org/DesignIssues/ LinkedData.html.

[3]LIBRIS[EB/OL].[2016-01-12].https://datahub. io/dataset/libris.

[4]W3C Library Linked Data Incubator Group[EB/OL].[2016-01-12].https://www.w3.org/2005/Incubator/ lld/.

[5]Datahub[EB/OL].[2016-01-12].https://datahub. io/dataset.

[6]HungarianNationalLibrary(NSZL)catalog[EB/OL].[2016-01-12].https://datahub.io/dataset/hungarian -national-library-catalog.

[7]Datos.bne.es[EB/OL].[2016-01-12].https:// datahub.io/dataset/datos-bne-es.

[8]British National Bibliography(BNB)-Linked Open Data[EB/OL].[2016-01-12].https://datahub. io/dataset/bluk-bnb.

[9]Data.bnf.fr-Bibliot h侉q uenationaledeFrance[EB/OL].[2015-01-12].https://datahub.io/dataset/data-bnf-fr.

[10]BPRBibliographyof the Italian Parliamentand electoral studies[EB/OL].[2016-01-12].https://datahub. io/dataset/bpr.

[11]Deutsche Nationalbibliografie(DNB)[EB/OL].[2016-01-12].https://datahub.io/dataset/deutschenationalbibliografie-dnb.

[12]Europeana Linked Open Data[EB/OL].[2016-01-12].https://datahub.io/dataset/europeana-lod.

[13]OnlineComputer LibraryCenter:WorldCat[EB/OL].[2016-01-12].https://datahub.io/dataset/oclc.

[14]Malmsten M.Making a library catalogue part of the semanticweb[C]//Proceedingsof the2008 International Conferenceon Dublin Coreand Metadata Applications. Dublin CoreMetadata Initiative,2008:146-152.

[15]National Sz佴ch佴nyi Library(national library of Hungary)on the semanticweb[EB/OL].[2016-01-12].http://nektar.oszk.hu/wiki/Semantic_web.

[16]Datasources[EB/OL].[2016-01-12].http://www. bne.es/en/Inicio/Perfiles/Bibliotecarios/DatosEnlazados/ FuentesDatos/.

[17]DeliotC.Publishing the British National Bibliography as linked open data[J].Catalogue&Index,2014(174):13-18.

[18]Aboutdata.bnf.fr[EB/OL].[2016-01-12].http: //data.bnf.fr/en/about#Ancre1.

[19]EuropeanaLinkedOpenData[EB/OL].[2016-01-12].http://labs.europeana.eu/api/linked-open-dataintroduction.

[20]Linked dataatOCLC[EB/OL].[2016-01-12]. http://www.oclc.org/en-asiapacific/data.htm l.

[21]Datamodel[EB/OL].[2016-01-12].http://www. bne.es/en/Inicio/Perfiles/Bibliotecarios/DatosEnlazados/ Modelos/.

[22]British LibraryDataModelBook[EB/OL].[2016-01-12].http://www.bl.uk/bibliographic/pdfs/bldatamodelbook.pdf.

[23]British LibraryDataModel-Serial[EB/OL].[2016-01-12].http://www.bl.uk/bibliographic/pdfs/bldatamodelserial.pdf.

[24]SemanticWeb and datamodel[EB/OL].[2016-01-12].http://data.bnf.fr/en/semanticweb.

[25]Graph OCDOntology[EB/OL].[2016-01-12]. http://data.camera.it/data/en/datasets/grafo_ontologia. htm l.

[26]Europeana Data Model Primer[EB/OL].[2016-01-12].http://pro.europeana.eu/files/Europeana_Professional/Share_your_data/Technical_requirements/EDM _Documentation/EDM_Primer_130714.pdf.

[27]MARC 21-RDF-Mapping[EB/OL].[2016-01-12].https://wiki.dnb.de/display/DINIAGKIM/MARC +21-RDF-Mapping.

[28]曲云鵬.存檔資源鍵研究[J].?dāng)?shù)字圖書館論壇,2014(12):29-34.

[29]Heath T,et al.How to publish linked dataon the web[C]//Tutorial in the 7th International Semantic Web Conference,Karlsruhe,Germany,2008.

[30]Volz J,etal.Silk-A Link Discovery Framework for theWeb of Data[J].LDOW,2009(4),538-542.

[31]Ngomo ACN,Auer S.Limes:A time-efficientapproach for large-scale link discovery on theweb ofdata[J].Integration,2011(15):3-7.

[32]Hassanzadeh O,etal.A framework for semantic link discoveryover relationaldata[C]//Proceedingsof the 18th ACM conference on Information and knowledge management,ACM,2009:1027-1036.

[33]姜恩波.歐美國家級圖書情報機(jī)構(gòu)資源關(guān)聯(lián)數(shù)據(jù)化比較研究[J].圖書館建設(shè),2015,253(7): 19-23.

[34]張春景,等.關(guān)聯(lián)數(shù)據(jù)的開放應(yīng)用協(xié)議[J].中國圖書館學(xué)報,2012(1):43-48.

Research on Bibliographic Data Association ofNational Librariesin Europeand America

Zou Mei-chen,Hu Ying

In view ofsolvingexistingproblemsofdomestic research on bibliographic dataassociation in domestic librariessuch as not in-depth and broad,thisarticle analyzes9 typical casesofnational libraries in Europe and America to improve the attention degree and promote theprocessofbibliographic dataassociation in domestic libraries.Applying themethodsofwebsite research, case analysisand comparative analysis,this articlemakesa detailed analysis on some issuesof bibliographic data association of national libraries in Europe and America.Meanwhile,itsummarizes theirachievementsand deficiencies toprovide feasible suggestions for domestic libraries.

Bibliographic Data;Linked Data;DataDissemination;DataModel

G254.3

A

1005-8214(2016)11-0061-06

鄒美辰(1992-),女,中國科學(xué)院大學(xué)、中國科學(xué)院文獻(xiàn)情報中心碩士研究生,研究方向:信息資源組織與建設(shè);胡瀛(1964-),女,中國科學(xué)院文獻(xiàn)情報中心館員,研究方向:書目數(shù)據(jù)庫建設(shè)。

2016-03-10[責(zé)任編輯]王崗

猜你喜歡
詞表國家圖書館歐美
從歐美到埃及,賞方尖碑
國家圖書館出版社重點(diǎn)圖書
編制受控詞表的著作權(quán)侵權(quán)風(fēng)險及其應(yīng)對策略
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項(xiàng)目名稱漢英對照詞表
國家圖書館藏四種古籍編目志疑
中國國家圖書館藏西夏文《不空羂索神變真言經(jīng)》考論
歐美日等主要經(jīng)濟(jì)指標(biāo)(至2017年12月)
里約奧運(yùn)最養(yǎng)眼的十大歐美美女
圖書館中文圖書借閱排行榜
馬烈光中醫(yī)養(yǎng)生交流歐美行
琼中| 清水河县| 东阳市| 沁阳市| 新建县| 尚志市| 保定市| 加查县| 大安市| 都兰县| 勃利县| 淮南市| 托克逊县| 石城县| 阿图什市| 海门市| 龙井市| 尚志市| 开鲁县| 繁峙县| 大城县| 青铜峡市| 马龙县| 习水县| 桃源县| 海丰县| 新乡市| 宿迁市| 鲁甸县| 海城市| 台北市| 新宁县| 徐水县| 商河县| 东源县| 图木舒克市| 沙湾县| 肇源县| 乳源| 油尖旺区| 石景山区|