●蘇建華
(西南政法大學(xué) 重慶 401120)
?
【資源·共享】
圖書館中文關(guān)聯(lián)書目數(shù)據(jù)實現(xiàn)的初步研究
●蘇建華
(西南政法大學(xué) 重慶 401120)
用URI作為書目記錄的名稱,通過使用HTTP、URI將書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)是目前國外圖書館的發(fā)布關(guān)聯(lián)數(shù)據(jù)的常用做法,這樣不但可以定位到書目記錄,而且可通過相關(guān)數(shù)據(jù)項的URI鏈接發(fā)現(xiàn)更多的書目數(shù)據(jù)對象,實現(xiàn)真正意義上的數(shù)據(jù)開放和共享。關(guān)聯(lián)數(shù)據(jù)的運用可以促進(jìn)圖書館加強數(shù)據(jù)資源整合、擴展圖書館服務(wù)平臺和提升社會服務(wù)能力,圖書館應(yīng)該抓住這一歷史機遇,合理利用關(guān)聯(lián)數(shù)據(jù)增強用戶體驗、提高資源的被發(fā)現(xiàn)率和擴大圖書館書目數(shù)據(jù)的社會化參與程度。參考文獻(xiàn)10。
關(guān)聯(lián)數(shù)據(jù) 圖書館書目 中文書目數(shù)據(jù)
目前圖書館關(guān)聯(lián)數(shù)據(jù)主要應(yīng)用于3個方面:圖書館記錄集、詞表和元數(shù)據(jù)元素集,國外圖書館的書目記錄、名稱規(guī)范檔、分類表、詞表及本體都已相繼實現(xiàn)了數(shù)據(jù)關(guān)聯(lián)化,美國國會圖書館、瑞典、德國、法國、匈牙利以及英國等國家圖書館都將本館的書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),建立了與其他資源的鏈接,實現(xiàn)了圖書館書目數(shù)據(jù)的開放與共享[1]。與國外相比,國內(nèi)書目數(shù)據(jù)的關(guān)聯(lián)化僅在文獻(xiàn)介紹中可見,缺乏實踐應(yīng)用項目。因此,如何將中文書目資源轉(zhuǎn)換發(fā)布為關(guān)聯(lián)數(shù)據(jù),已成為當(dāng)前國內(nèi)圖書館界亟需研究的重要課題。
書目數(shù)據(jù)的關(guān)聯(lián)化,其實質(zhì)是把書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)。書目關(guān)聯(lián)數(shù)據(jù)化在數(shù)據(jù)層建立鏈接機制,通過URI關(guān)聯(lián)相關(guān)信息來實現(xiàn)多類型知識內(nèi)容的整合,用戶檢索查詢書目信息時能夠擴展鏈接到更多的責(zé)任者、叢編、主題、館藏及國外圖書館的相關(guān)資源,實現(xiàn)了圖書館書目數(shù)據(jù)與外部數(shù)據(jù)相關(guān)數(shù)據(jù)的關(guān)聯(lián)[2],增強了現(xiàn)有書目數(shù)據(jù)體系的社會化應(yīng)用程度。
1.1 實現(xiàn)元數(shù)據(jù)的開放與共享
圖書館關(guān)聯(lián)數(shù)據(jù)的本質(zhì)就是書目數(shù)據(jù)中各個元素的互相關(guān)聯(lián),開放書目數(shù)據(jù)使用URI作為書目記錄的名稱,通過賦予個人名稱、主題、叢編項等一個唯一的名稱標(biāo)識URI,建立跟個人名稱規(guī)范、叢編項、主題規(guī)范等的關(guān)聯(lián)鏈接,而個人名稱、叢編、主題等的URI又提供其有關(guān)聯(lián)意義數(shù)據(jù)項的URI鏈接,便于用戶從一條書目記錄能擴展檢索到更多的相關(guān)信息[3],這種相互關(guān)聯(lián)的數(shù)據(jù)使圖書館資源融入互聯(lián)網(wǎng)知識網(wǎng)絡(luò)成為可能。
1.2 提高圖書館資源被發(fā)現(xiàn)的機率
目前,圖書館書目數(shù)據(jù)主要應(yīng)用于圖書情報領(lǐng)域,社會化開放程度與認(rèn)知程度較低,MARC的局限性使得書目數(shù)據(jù)無法實現(xiàn)擴展功能。書目數(shù)據(jù)擴展與關(guān)聯(lián)技術(shù)的發(fā)展促使圖書館書目數(shù)據(jù)的開放著錄和關(guān)聯(lián)發(fā)布成為可能,例如,德國國家圖書館的書目關(guān)聯(lián)數(shù)據(jù)責(zé)任者關(guān)聯(lián)可以發(fā)現(xiàn)作者的出生年代、職業(yè)、出版作品等信息??梢哉f通過開放書目數(shù)據(jù)的發(fā)布,圖書館實現(xiàn)了與外部海量相關(guān)信息資源的聚合鏈接,增加了用戶瀏覽網(wǎng)頁資源發(fā)現(xiàn)圖書館資源的機率,使書目資源和網(wǎng)絡(luò)資源的集成成為可能[4]。
1.3 提升圖書館書目數(shù)據(jù)的社會化程度
關(guān)聯(lián)數(shù)據(jù)采用屬性的描述方式使書目數(shù)據(jù)的分面顯示成為可能,讀者在檢索時可以通過分面限定來提高檢索命中率。另外,圖書館開放書目數(shù)據(jù)后,圖書館書目元數(shù)據(jù)與用戶生成的社會類元數(shù)據(jù)更易于合并,合并后的數(shù)據(jù)不但能提供豐富完整的元數(shù)據(jù)描述,還能提供用戶使用偏向的說明信息,如點擊數(shù)、下載量、評價以及推薦等,這樣圖書館就能基于數(shù)據(jù)分析各類資源的使用量和用戶使用資源的方式,從而在引進(jìn)資源時做出正確決策[5]。
2.1 現(xiàn)有典型案例介紹
關(guān)聯(lián)數(shù)據(jù)是語義網(wǎng)的一個簡單應(yīng)用, 采用RDF三元組的主-謂-賓作為基本數(shù)據(jù)模型,用來在語義網(wǎng)中使用RDF和URI發(fā)布連接各類數(shù)據(jù)和信息。目前圖書館的數(shù)據(jù)主要有數(shù)據(jù)集、詞匯表和元數(shù)據(jù)集三部分。數(shù)據(jù)集主要是MARC記錄,詞匯表主要是各種分類和主題詞表,定義資源描述的規(guī)范化詞匯;簡單知識組織系統(tǒng)( SKOS) 、都柏林核心元素集(DC)、書目本體(BIBO)、朋友的朋友(FOAF) 等元數(shù)據(jù)集是資源描述的標(biāo)準(zhǔn)[6]。書目記錄、用戶使用資源的信息數(shù)據(jù)都是圖書館開放書目數(shù)據(jù)的基礎(chǔ),但長期以來圖書館書目數(shù)據(jù)描述都是嚴(yán)格按照各種受控詞表進(jìn)行的,因此國外圖書館的開放書目數(shù)據(jù)都是從公開各類型詞匯表開始,例如,美國國會標(biāo)題表、杜威十進(jìn)分類法、虛擬國際規(guī)范文檔(VIAF) 等。當(dāng)今國外圖書館已投入應(yīng)用的關(guān)聯(lián)數(shù)據(jù)項目有英國國家書目(BNB)、OCLC 的 WorldCat、美國國會圖書館的 BIBFRAME 項目、歐洲數(shù)字圖書館 Europeana 項目、美國數(shù)字公共圖書館DPLA 項目。這些項目對圖書館關(guān)聯(lián)數(shù)據(jù)的內(nèi)容描述規(guī)則、本體模型及詞表、數(shù)據(jù)模型及格式和數(shù)據(jù)消費方式等方面做出了探索和規(guī)定,構(gòu)建了具有包容性和開放性的本體模型來整合多家文獻(xiàn)收藏單位的資源,實現(xiàn)了資源之間的關(guān)聯(lián)、重用與共享。上述案例中在國內(nèi)影響較大的是BIBFRAME項目,該項目采用RDA、BIBFRAME詞表、RDF/XML、JSON模型、數(shù)據(jù)轉(zhuǎn)換工具以及SPARQL將MARCXML 格式的數(shù)據(jù)轉(zhuǎn)換成 BIBFRAME數(shù)據(jù)。
2.2 圖書館關(guān)聯(lián)書目數(shù)據(jù)的實現(xiàn)
圖書館關(guān)聯(lián)數(shù)據(jù)發(fā)布實現(xiàn)流程中,涉及到數(shù)據(jù)模型的構(gòu)建、詞匯表的選擇、MARC格式與RDF的映射等,最關(guān)鍵的一步是如何將MARC格式轉(zhuǎn)化為RDF格式,基于此,本文借鑒上述典型案例的成功做法,歸納總結(jié)CNMARC格式轉(zhuǎn)換為RDF格式的流程。
(1)建立數(shù)據(jù)轉(zhuǎn)化模型。圖書館關(guān)聯(lián)數(shù)據(jù)模型中所定義的類、屬性已有成熟的詞表可利用,圖書館發(fā)布關(guān)聯(lián)數(shù)據(jù)時盡量要使用現(xiàn)有詞表,因為詞表重用可通過元數(shù)據(jù)的相互引用提高詞表間的互操作,減少對本地元數(shù)據(jù)的管理負(fù)擔(dān),圖書館應(yīng)使用多個通用詞表和專用詞表作為描述書目記錄的命名空間,定義相應(yīng)描述實體的類和屬性。在進(jìn)行RDF表達(dá)時,使用對應(yīng)命名空間中的類或?qū)傩詷?biāo)簽來描述對應(yīng)信息。如同本體一樣關(guān)聯(lián)數(shù)據(jù)需明確實體及實體之間的關(guān)系,需對實體進(jìn)行URI命名,確保實體的唯一性、可獲取性。實體多指存在的事物與對象,不同領(lǐng)域?qū)嶓w的表現(xiàn)形式不一樣,如FRBR模型將實體分為作品、責(zé)任者、主題3種類型,BIBFRAME模型中則分為作品、實例、規(guī)范、標(biāo)注4種類型。圖書館發(fā)布關(guān)聯(lián)數(shù)據(jù)時,可依照RDF和BIBFRAME模型建立數(shù)據(jù)模型,如大英圖書館將書目數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)時將資源實體分為書目資源(resource)、連續(xù)出版物(series )、主體( agent )、概念(concept)4種類型,分別建立了出版事件、責(zé)任者信息、主題信息和其他信息數(shù)據(jù)模型,各種模型下又分若干類(詳見表1),針對每一類都有對應(yīng)的具體字段值,并定義為實例,如出版事件URI是出版事件類的實例,實例與類、類與類之間都存在明確聯(lián)系,然后使用SKOS 、Event、Foaf、Blt、RDFS、Dct、Geo、DDC、LCSH、ISBD以及各類規(guī)范檔等描述實例之間的關(guān)系,最后通過部分URI與已經(jīng)發(fā)布的其他數(shù)據(jù)集如GeoNames、LCSH、DeweyInfo以及VIAF建立關(guān)聯(lián)[7]。
表1 大英圖書館書目關(guān)聯(lián)數(shù)據(jù)模型類型表1
1 模型類型資源來源于《大英圖書館書目數(shù)據(jù)的關(guān)聯(lián)化分析》一文。
2 父類和子類指一種包含關(guān)系,子類能夠引用父類中的某些東西。
(2)建立映射表。確定書目數(shù)據(jù)的數(shù)據(jù)模型是圖書館建立關(guān)聯(lián)數(shù)據(jù)的第一步,緊接著需要通過建立映射表將原有的書目數(shù)據(jù)轉(zhuǎn)化為關(guān)聯(lián)數(shù)據(jù)。確立映射表時需要明確書目元數(shù)據(jù)每一字段、子字段對應(yīng)的RDF屬性。轉(zhuǎn)換過程中,為保證不同機構(gòu)數(shù)據(jù)描述的一致性和規(guī)范性,應(yīng)充分利用已發(fā)布的DC、BIBO、OWL(本體語言)等來表示各描述單元,用SKOS表示書目記錄中的分類號、敘詞之間的關(guān)系及其屬性;用DC表示書目記錄中的主題詞、摘要、語言、責(zé)任者等;用FOAF表示書目數(shù)人名、機構(gòu)名;用BIBO表示各種類型的文獻(xiàn),如期刊、報紙、連續(xù)出版物等。為了確保轉(zhuǎn)換的準(zhǔn)確性,現(xiàn)有詞表找不到對應(yīng)關(guān)系時應(yīng)定義新的術(shù)語,而且要建立與其他詞匯的聯(lián)系,通過rdfs:subClass of或rdfs:subProperty of就能實現(xiàn)新術(shù)語與其他類和屬性的關(guān)聯(lián)[8]。
根據(jù)關(guān)聯(lián)數(shù)據(jù)的原則,每一條書目數(shù)據(jù)都可看做一條資源,都應(yīng)該用URI標(biāo)識,CNMARC表示資源標(biāo)識符的常用字段有:001控制號、010(ISBN)、011(ISSN),國外圖書館發(fā)布關(guān)聯(lián)數(shù)據(jù)時采用的URI基本格式為
(3)RDF實現(xiàn)。書目記錄通過3種關(guān)系關(guān)聯(lián)存在:書目記錄與詞匯表、詞匯表之間和主題表與分類表。詞匯表對記錄內(nèi)容實施規(guī)范控制,如當(dāng)前應(yīng)用較多的名稱規(guī)范檔,對實體的各種名稱進(jìn)行控制,并同書目資源進(jìn)行關(guān)聯(lián)。圖書館可利用分類表、主題詞表、人名表、地名表、機構(gòu)名表以及大型機構(gòu)發(fā)布的開放關(guān)聯(lián)數(shù)據(jù)與外部書目數(shù)據(jù)建立可利用的關(guān)系,如OCLC的虛擬國際規(guī)范文檔、美國國會標(biāo)題詞表、國會名稱規(guī)范表、杜威十進(jìn)分類法等,DC都提供了與這些詞匯表關(guān)聯(lián)的通道,CNMARC轉(zhuǎn)換時可通過dc: subject、dc:creator、dc:contributor、dc:location、foaf:focus屬性與這些詞匯表號建立關(guān)聯(lián)(關(guān)聯(lián)項具有唯一的URI鏈接)[10],這樣通過責(zé)任者關(guān)聯(lián)可以發(fā)現(xiàn)作者的更多信息,例如其他作品、學(xué)術(shù)經(jīng)歷等信息,通過主題關(guān)聯(lián)發(fā)現(xiàn)含有本主題詞的出版物信息,進(jìn)而通過搜索引擎發(fā)現(xiàn)書目記錄,盡可能建立本地詞匯表與外部規(guī)范文檔的關(guān)聯(lián)是發(fā)布CNMARC關(guān)聯(lián)數(shù)據(jù)的 關(guān)鍵,盡可能為用戶提供新的資源發(fā)現(xiàn)和訪問服務(wù)渠道。最后需要指出的是:CNMARC與MARC21的記錄結(jié)構(gòu)類似, CNMARC元數(shù)據(jù)到RDF的轉(zhuǎn)化可先將CNMARC轉(zhuǎn)換為MARC21,然后再轉(zhuǎn)換為RDF。
國外圖書館中的成功應(yīng)用關(guān)聯(lián)數(shù)據(jù)的做法為我國圖書館書目數(shù)據(jù)關(guān)聯(lián)化提供了借鑒,本文僅從理論上探討了CNMARC向RDF的映射,旨在拋磚引玉,吸引更多的同行關(guān)注國內(nèi)書目數(shù)據(jù)的關(guān)聯(lián)化進(jìn)程,加快屬性值詞匯表的關(guān)聯(lián)化進(jìn)程的研究步伐,推動國內(nèi)圖書館的書目數(shù)據(jù)實現(xiàn)網(wǎng)絡(luò)化、國際化,使中文書目數(shù)據(jù)融入到語義網(wǎng)發(fā)展背景下,吸引更多用戶群,真正提高資源利用效率。
[1] 賈君枝,趙 潔.DDC關(guān)聯(lián)數(shù)據(jù)實現(xiàn)研究[J].中國圖書館學(xué)報,2014(4):76-82.
[2][8][10] 賈君枝.開放書目數(shù)據(jù)的實現(xiàn)與發(fā)展[J].晉圖學(xué)刊,
2015(1):1-4.
[3] 張海玲.圖書館書目數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化研究——以德國國家圖書館為例[J].2013(1):120-125.
[4] 賈君枝,白林林.關(guān)聯(lián)數(shù)據(jù)中CNMARC到MARC21的映射實現(xiàn)[J]. 國家圖書館學(xué)刊,2015(4):80-93.
[5] 羅 錚,張贊梅,陳偉莉.高校圖書館應(yīng)用關(guān)聯(lián)數(shù)據(jù)的意義及注意事項[J].圖書館雜志,2012(5):51-53.
[6] 吳貝貝,夏翠娟.關(guān)聯(lián)書目數(shù)據(jù)模型比較研究[J].圖書館雜志,2015(5):71-79.
[7] 張鵬圖.大英圖書館書目數(shù)據(jù)的關(guān)聯(lián)化分析[J].國家圖書館學(xué)刊,2015(4):103-112.
[9] 白林林,賈君枝.關(guān)聯(lián)數(shù)據(jù)中CNMARC到RDF的映射實現(xiàn)[J]. 國家圖書館學(xué)刊,2015(4):94-101.
(宋小華 編發(fā))
A Preliminary Study on the Realization of the Chinese Linked Bibliographic Data in the Library
Su Jianhua
(Southwest University of Political Science & Law, Chongqing, Sichuan 401120, China)
Exposing library bibliographic data as linked data means publishing bibliographic data is in form of linked data. People can locate the record through HTTP/URI by using URI as names for bibliographic records. What's more, it provides linkable URI of correlation data so that people can find more objects. Linked data can make library strengthen the integration of data resources, expansion of library service platform and enhancement of capacity of social services,the library should grasp this historic opportunity to enhance user's experience and library bibliography socialization. 10 refs.
Linked data. Library bibliography. Chinese bibliographical data.
G250.7
A
1003-7845(2016)05-0046-03
蘇建華,副研究館員,現(xiàn)在西南政法大學(xué)圖書館工作。
2015-12-23