国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語義網(wǎng)環(huán)境下書目信息資源的組織——實(shí)踐方法與發(fā)展方向探討

2015-12-15 15:31郭哲敏中國社會科學(xué)院圖書館北京100732
圖書館理論與實(shí)踐 2015年9期

●郭哲敏(中國社會科學(xué)院圖書館,北京 100732)

?

語義網(wǎng)環(huán)境下書目信息資源的組織
——實(shí)踐方法與發(fā)展方向探討

●郭哲敏(中國社會科學(xué)院圖書館,北京100732)

[關(guān)鍵詞]語義網(wǎng);關(guān)聯(lián)數(shù)據(jù);資源描述框架;資源描述與檢索

[摘要]在“語義”為互聯(lián)網(wǎng)發(fā)展主要特征的時(shí)代背景下,圖書館的書目數(shù)據(jù)資源的組織面臨著挑戰(zhàn),也迎來了機(jī)遇。圖書館憑借其豐富的書目數(shù)據(jù)資源,通過URI,RDF等互聯(lián)網(wǎng)發(fā)展技術(shù)將其數(shù)據(jù)結(jié)構(gòu)化并借助于資源描述標(biāo)準(zhǔn)RDA將其融入到互聯(lián)網(wǎng)發(fā)展的大環(huán)境里去,是實(shí)現(xiàn)書目數(shù)據(jù)大發(fā)展、大融合,促進(jìn)圖書產(chǎn)業(yè)鏈發(fā)展,提高數(shù)據(jù)使用效率與準(zhǔn)確性的良好途徑。文章從實(shí)踐角度探討了語義網(wǎng)的時(shí)代背景下,圖書館書目數(shù)據(jù)資源組織的方法與途徑,并對未來的發(fā)展方向做出展望和分析。

1 Web 3.0 時(shí)代互聯(lián)網(wǎng)發(fā)展的時(shí)代特征與技術(shù)基礎(chǔ)

迄今為止,互聯(lián)網(wǎng)走過了三個具有鮮明特征的發(fā)展階段。Web 1.0時(shí)代的特點(diǎn)是“單向交流”,主要指從網(wǎng)絡(luò)到人的單向信息傳輸;Web 2.0時(shí)代強(qiáng)調(diào)“互動交流”,其顯著特點(diǎn)在于交流和用戶參與,是以網(wǎng)絡(luò)為溝通媒介的人與人之間的交流;Web 3.0時(shí)代則聚焦于“語義”,主要是指從人到網(wǎng)絡(luò)再到人的交流過程,通過人工智能、關(guān)聯(lián)數(shù)據(jù)和語義網(wǎng)絡(luò)的構(gòu)建等技術(shù)實(shí)現(xiàn)。

萬維網(wǎng)的發(fā)明者Tim Burners Lee認(rèn)為web 3.0時(shí)代所有資源被賦予唯一標(biāo)識,并在資源之間建立起機(jī)器可處理的各類語義聯(lián)系。他指出,元數(shù)據(jù)是語義描述的基礎(chǔ),因而也是語義網(wǎng)的語義基礎(chǔ)。[1]

語義網(wǎng)的主要特征體現(xiàn)在以下幾個方面:(1)語義網(wǎng)環(huán)境下機(jī)器可以理解數(shù)據(jù)并能夠?qū)ζ溥M(jìn)行相應(yīng)的處理;(2)語義網(wǎng)是基于實(shí)體關(guān)系和結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)絡(luò);(3)語義網(wǎng)是鏈接數(shù)據(jù)的網(wǎng)絡(luò)。語義網(wǎng)發(fā)展之前的互聯(lián)網(wǎng),可以說是鏈接文件的網(wǎng)絡(luò),在檢索關(guān)鍵詞時(shí)會產(chǎn)生一堆的HTML文檔,跟蹤其鏈接則會轉(zhuǎn)到其它的HTML文檔上。語義網(wǎng)環(huán)境下書目信息資源的的檢索,我們能夠得到與一個主題相關(guān)的所有信息,甚至包括檢索內(nèi)容中沒有涉及到的關(guān)鍵詞。比如,搜索“Bill Clinton”,能夠找到克林頓的妻子、女兒、學(xué)校、朋友的信息,還包括他的演講稿和作品等。這些關(guān)于克林頓的信息,并不是預(yù)編好的HTML網(wǎng)頁,而是不同來源基于實(shí)體關(guān)系的數(shù)據(jù)整合。這種信息檢索是在語義網(wǎng)環(huán)境下的結(jié)構(gòu)化和關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ)上進(jìn)行的。

語義網(wǎng)的核心標(biāo)準(zhǔn)和技術(shù)主要有:統(tǒng)一資源標(biāo)識符(UniformResourceIdentifier,URI)、資源描述框架(ResourceDescriptionFramework,RDF)、主題本體(subject ontology)和詞匯表(vocabularies)。除此之外,網(wǎng)絡(luò)本體語言(web ontology language,OWL)、SparSQL協(xié)議(Simple Protocol and RDF Query Language,SPARSQL)和簡單知識組織系統(tǒng)(Simple Knowledge Organization System,SKOS)也是語義網(wǎng)重要的標(biāo)準(zhǔn)和技術(shù)。

統(tǒng)一資源標(biāo)識符(URI)是對文檔、圖片、視頻、文摘對象或人名等進(jìn)行引用時(shí)所定義的唯一標(biāo)識。例如:“http://id.loc.gov/authorities/subjects/sh2001000147. html”,這是美國國會圖書館對于2011年911恐怖事件的主題標(biāo)目的URI。資源描述框架(RDF)是網(wǎng)絡(luò)上數(shù)據(jù)交換的標(biāo)準(zhǔn)模型。[2]它采用“資源-屬性-屬性值”的“主謂賓”結(jié)構(gòu)(或稱三元組),提供一種框架容器,并通過XML定義了一套形式化的方法,是機(jī)器語義理解的結(jié)構(gòu)基礎(chǔ)簡單知識組織系統(tǒng)(SKOS)是語義網(wǎng)框架下一種簡單知識組織描述語言,用于描述分類法、敘詞表、主題標(biāo)題表、術(shù)語表、名稱規(guī)范檔等各類結(jié)構(gòu)化受控詞表的結(jié)構(gòu)和概念。[3]主題本體和詞匯表都是語義網(wǎng)環(huán)境下的詞匯描述的規(guī)范。SparSQL協(xié)議是用于RDF上的查詢語言。

2 RDA是圖書館書目數(shù)據(jù)資源通向語義網(wǎng)的第一步

在語義網(wǎng)環(huán)境下,URI提供了對資源的唯一的識別定位,但不能展現(xiàn)資源實(shí)體之間的相互關(guān)系。圖書館數(shù)據(jù)與散布在網(wǎng)絡(luò)上的相關(guān)數(shù)據(jù)的鏈接,有助于改善傳統(tǒng)圖書館編目與目錄的資源發(fā)現(xiàn)功能。與語義網(wǎng)的構(gòu)建方式類似,RDA也是基于實(shí)體關(guān)系。因而,也可以說RDA是圖書館書目數(shù)據(jù)資源通向語義網(wǎng)的第一步。RDA是在IFLA提出的FRBR(Functional Requirements for Bibliographical Records)和FRAD(Functional Requirements for authority data)兩個概念模型基礎(chǔ)上提出來的。[4]FRBR和FRAD均是組織書目數(shù)據(jù)的概念模型。FRBR主要是描述作品、表達(dá)、載體表現(xiàn)和單件的概念模型。FRAD在此基礎(chǔ)上又做了延伸,涵蓋包括個人、家族、團(tuán)體、作品;內(nèi)容表達(dá)、載體表現(xiàn)、單件;概念、物體、事件、地點(diǎn)等的概念模型。[5]

RDA通過實(shí)體關(guān)系的描述和揭示,將與書目信息相關(guān)的不同表達(dá)層次的一系列知識信息串聯(lián)起來,組成語義網(wǎng)絡(luò)。比如:威廉·莎士比亞是《仲夏夜之夢》的作者,希修斯(Theseus)是此劇中的一個人物角色,而喜波利達(dá)(Hippolyta)則是同劇中的另一個人物角色。語義網(wǎng)能夠幫助我們理解上述這四者:莎士比亞-作品《仲夏夜之夢》-希修斯-喜波利達(dá)之間的關(guān)系。在語義網(wǎng)環(huán)境下,檢索任意詞都能夠幫助我們找到其他與此有相關(guān)關(guān)系的詞條。

基于FRBR概念模型的框架下,所有資料形式將會被關(guān)聯(lián)起來以供辨識,包括單件層級資料(如資料出處)、載體表現(xiàn)層級資料(如題名、出版信息)、內(nèi)容表達(dá)層級資料(如內(nèi)容形式,作品內(nèi)容的語種)、作品層級資料(如作者、主題標(biāo)目)。

圖1 RDA描述信息的關(guān)聯(lián)[6]

國際編目專家芭芭拉·B·蒂利特(Barbara B. Tillett)認(rèn)為,未來的書目管理系統(tǒng),書目數(shù)據(jù)資源通過注冊詞表和描述資料集得以反復(fù)使用,亦即一次建置,所有人共享和維護(hù)。文獻(xiàn)數(shù)據(jù)結(jié)構(gòu)可能以RDF三元組(triples)形式呈現(xiàn),有些包含URI或其他全球資源標(biāo)識符號,并以樣式表(style sheets)呈現(xiàn)。編目員不需要為作品、表現(xiàn)形式、載體呈現(xiàn)、單件分建四條記錄,只要清楚著錄資料所屬層級及其之間關(guān)系,系統(tǒng)便會將這些資料加以處理并完美呈現(xiàn)在使用者面前,從而在實(shí)現(xiàn)書目相關(guān)的文獻(xiàn)目錄服務(wù)與回應(yīng)參考咨詢的問題上發(fā)揮更大作用。

RDA的理論框架將給未來的書目管理系統(tǒng)帶來更多的機(jī)會。對于讀者來說,書目之間的結(jié)構(gòu)與關(guān)系應(yīng)該是隱形的,但是讀者需要哪些關(guān)聯(lián)信息,都能隨時(shí)檢索調(diào)出相應(yīng)的信息;對于編目員來說,基于各種關(guān)聯(lián)信息各種規(guī)范信息鏈接基礎(chǔ)上的書目信息的建設(shè)與維護(hù),將使編目工作更為簡單和便捷;對于整個數(shù)據(jù)產(chǎn)業(yè)來說,紙本圖書書目信息的規(guī)范化和大量的紙本圖書書目數(shù)據(jù)與電子書數(shù)據(jù)的融合,將能夠擴(kuò)大書目數(shù)據(jù),規(guī)范數(shù)據(jù)的使用范圍,規(guī)范網(wǎng)絡(luò)上數(shù)據(jù)信息的質(zhì)量;對于圖書的產(chǎn)業(yè)鏈來說,從圖書的出版裝訂,到圖書的購買流通,數(shù)據(jù)共享將會節(jié)省更多的人力物力,豐富的數(shù)據(jù)關(guān)聯(lián)也便于讀者在找尋需要的信息時(shí),找到更合適的書,找到更多的電子資源,找到更多類型的資源。要做到這些,首先需要將機(jī)器、規(guī)范詞表、名稱等元數(shù)據(jù)聯(lián)結(jié)起來,達(dá)到機(jī)器識別的語義層次。除此之外,要將網(wǎng)絡(luò)上并存的各種形式的電子資源、紙本資源的相關(guān)數(shù)據(jù)統(tǒng)籌整合起來,實(shí)現(xiàn)一體化的管理與揭示,才能將語義網(wǎng)環(huán)境下書目信息資源充分利用起來,最大地發(fā)揮其作用。在RDA框架下,信息對象的內(nèi)容格式能夠被識別。不論是電子書、PDF格式的電子資源、網(wǎng)上課件,還是聲音、錄像等聲像資源,各種形式的電子資源和傳統(tǒng)的書目數(shù)據(jù)在RDA框架下均能夠以統(tǒng)一的格式和界面揭示和呈現(xiàn)出來,并能夠良好的展示相關(guān)資源之間的關(guān)系。在未來的關(guān)聯(lián)數(shù)據(jù)環(huán)境下,RDA能夠被其他的元數(shù)據(jù)群組所共享使用。語義網(wǎng)為展現(xiàn)FRBR定義的書目關(guān)系提供了精湛的技術(shù)支撐;在此基礎(chǔ)上,通過構(gòu)建相互關(guān)聯(lián)的規(guī)范數(shù)據(jù)、建筑元數(shù)據(jù)之間的關(guān)系體系,拓展了書目數(shù)據(jù)的語義功能。

3 RDA框架下電子資源與傳統(tǒng)資源的規(guī)范揭示

3.1 RDA框架下電子資源的標(biāo)識

ISBN是識別不同紙本圖書的唯一標(biāo)識,在圖書的采購查重、檢索等過程中都是重要的查詢工具。國際標(biāo)準(zhǔn)書號管理局(International ISBN Agency)要求電子圖書出版者為每一種格式的電子書賦予一個獨(dú)立的ISBN號。比如:“l(fā)it”、“pdf”、“html”、“pdb”等不同格式的電子圖書,都要為其單獨(dú)分配一個ISBN號(見圖2)。[7]

圖2 不同格式的電子圖書ISBN的著錄

現(xiàn)在的信息環(huán)境下,很多圖書館處于紙本圖書與電子圖書并存、協(xié)調(diào)發(fā)展的情況,不論是對圖書館的紙本資源與電子資源的統(tǒng)計(jì)分析,還是采購查重,都需要對紙本圖書和電子圖書的ISBN有所區(qū)分。一般來說,紙本圖書在$a子字段揭示該紙本圖書的ISBN號,同時(shí)在$z揭示相關(guān)的電子資源的ISBN;而電子書在編目時(shí),則在$a字段揭示對應(yīng)版本的ISBN,相關(guān)的紙本圖書及其他版本的電子圖書的ISBN通過子字段標(biāo)識符$z標(biāo)識。

此外,電子資源還需要在300字段、533字段、710字段、776字段和856字段進(jìn)行信息的補(bǔ)充和完善。電子資源的300字段,在頁碼前標(biāo)注電子資源的標(biāo)識;533字段揭示其電子復(fù)制品所在的地址和使用范圍;710字段揭示電子資源的創(chuàng)作者;776字段揭示該電子資源對應(yīng)的印刷資源的ISBN等相關(guān)信息。856字段揭示電子資源的鏈接地址。Ebrary電子圖書的856字段,一般揭示兩個鏈接地址。一個是機(jī)構(gòu)內(nèi)獲取資源的鏈接地址,另外一個是機(jī)構(gòu)外獲取資源的鏈接地址。參考以下示例。

在RDA理論框架下,用文件的內(nèi)容類型(336字段)、媒介類型(337字段)和載體類型(338字段)來替代了原來的一般資料標(biāo)識(245字段的$h)。以下以Ebrary電子書為例。

3.2 RDA框架下紙質(zhì)圖書的數(shù)據(jù)與電子資源的掛接

在RDA框架下,紙本圖書若有相對應(yīng)的電子圖書的話,應(yīng)在其MARC數(shù)據(jù)的基礎(chǔ)上增加其對應(yīng)的電子資源的地址,以鏈接同一圖書的電子資源和印刷本資源。

紙本書對應(yīng)的電子資源的揭示方法主要通過增加776字段來實(shí)現(xiàn)。776字段標(biāo)識了其網(wǎng)絡(luò)版本的作者、書名、出版信息和ISBN號,還有其轉(zhuǎn)換為網(wǎng)絡(luò)版本的日期標(biāo)識。

例如:

4 語義網(wǎng)環(huán)境下基于關(guān)聯(lián)數(shù)據(jù)的書目數(shù)據(jù)資源的組織

關(guān)聯(lián)數(shù)據(jù)是W3C推薦的在網(wǎng)絡(luò)上發(fā)布、分享和相互聯(lián)結(jié)結(jié)構(gòu)化數(shù)據(jù)的規(guī)范方法,用來發(fā)布和鏈接各種數(shù)據(jù)、信息和知識。在語義網(wǎng)環(huán)境下,關(guān)聯(lián)數(shù)據(jù)是實(shí)現(xiàn)機(jī)器識別與知識推送的關(guān)鍵技術(shù)。通過關(guān)聯(lián)數(shù)據(jù)的使用,為圖書館的書目信息、主題規(guī)范、人名規(guī)范以及圖書與期刊的館藏信息等資源提供連接樞紐,能夠使書目數(shù)據(jù)資源得到更加廣泛和更加深層次的利用。

關(guān)聯(lián)數(shù)據(jù)能夠?qū)?shù)據(jù)從彼此不連通的數(shù)據(jù)庫中解放出來,通過關(guān)聯(lián)達(dá)到數(shù)據(jù)資源的最大程度的利用、再利用,從而產(chǎn)生新的數(shù)據(jù)、信息和知識??梢詮囊韵滤膫€角度去理解關(guān)聯(lián)數(shù)據(jù):(1)是格式化數(shù)據(jù)的關(guān)聯(lián),不是文本的關(guān)聯(lián);(2)是機(jī)器可理解和可處理的數(shù)據(jù);(3)是對現(xiàn)有數(shù)據(jù)的再利用;(4)產(chǎn)生新的資源,然后又被利用、再利用,可無限擴(kuò)展下去。[8]

從技術(shù)上看,關(guān)聯(lián)數(shù)據(jù)采用RDF(資源描述框架)數(shù)據(jù)模型,利用URI(統(tǒng)一資源標(biāo)識符)命名數(shù)據(jù)實(shí)體,在網(wǎng)絡(luò)上發(fā)布實(shí)例數(shù)據(jù)和類數(shù)據(jù),從而可以通過HTTP(超文本傳輸協(xié)議)揭示并獲取這些數(shù)據(jù),同時(shí)強(qiáng)調(diào)數(shù)據(jù)間的相互聯(lián)系以及有益于人和計(jì)算機(jī)所能理解的語境信息。[9]

圖書館對關(guān)聯(lián)數(shù)據(jù)的建設(shè)和使用,主要體現(xiàn)在書目數(shù)據(jù)的關(guān)聯(lián)和規(guī)范數(shù)據(jù)的關(guān)聯(lián)。主要有以下特點(diǎn):(1)可分享(通過URI作為唯一標(biāo)識,是可信賴的元數(shù)據(jù));(2)可無限伸展;(3)永無止境。關(guān)聯(lián)數(shù)據(jù)沒有完成時(shí),任何人都可以從他自己發(fā)布的空間添加描述信息;(4)可再利用(各種來源的描述遵循規(guī)范化的標(biāo)準(zhǔn)。用戶可以對其進(jìn)行完善、加注等等;(5)國際化。多語種通用,支持多語種的翻譯;(6)網(wǎng)上開放;(7)機(jī)器可讀;(8)格式通用,采用RDF標(biāo)準(zhǔn)(用URI指代名稱數(shù)據(jù)用三段式triples發(fā)布),構(gòu)建關(guān)聯(lián)的RDF。[8]基于FRBR和RDA的MARC記錄,是結(jié)構(gòu)化的書目記錄,能夠使得為書目記錄中的每一個描述單元分配一個URI,并通過RDF的三元組結(jié)構(gòu)(主謂賓)來表達(dá)每一個對象、屬性和關(guān)系。

圖3 RDF三元組結(jié)構(gòu)展現(xiàn)的著者信息

4.1與書目記錄相關(guān)的關(guān)聯(lián)數(shù)據(jù)——以BNB為例

BNB(British National Bibliography linked data)基于英國國家圖書館26萬條書目記錄,由8000萬個三元組組成。BNB包含豐富的鏈接信息,如VIAF, LCSH,GeoNames和DDC等相關(guān)的外部資源。

圖4 RDF三元組結(jié)構(gòu)表示著者信息對應(yīng)的URI

以Inflation in the world economy一書的書目數(shù)據(jù)為例,這本書有一個唯一的URI標(biāo)識:http://bnb.data.bl.uk/id/resource/008763682。在互聯(lián)網(wǎng)環(huán)境下輸入該地址就可以找到這本書書目數(shù)據(jù)的具體信息。該書的杜威十進(jìn)分類法的分類號是332.41,與DDC21的數(shù)據(jù)相關(guān)聯(lián)。這本書的主題詞(Inflation(Finance)--Congresses,monetary policy--Congresses)與LCSH數(shù)據(jù)關(guān)聯(lián)。作者(Parklin,Michael,1939-,Zis George)與VIAF(虛擬國際規(guī)范文檔)和BNB規(guī)范記錄相關(guān)聯(lián)。

4.2規(guī)范記錄相關(guān)的關(guān)聯(lián)數(shù)據(jù)——VIAF、LC關(guān)聯(lián)數(shù)據(jù)服務(wù)與FAST

(1)VIAF關(guān)聯(lián)數(shù)據(jù)。虛擬國際規(guī)范文檔(Virtual International Authority File,VIAF)是一個國際性的規(guī)范文檔。該項(xiàng)目聯(lián)合了許多國家圖書館,由OCLC負(fù)責(zé)運(yùn)營。項(xiàng)目最初是為連接德意志國家圖書館與美國國會圖書館的規(guī)范文檔而建的,其目標(biāo)是連接世界各國的規(guī)范文檔,使之成為一個統(tǒng)一的虛擬規(guī)范文檔。[10]該項(xiàng)目的規(guī)范記錄可在網(wǎng)上免費(fèi)檢索。VIAF不僅包括規(guī)范文件的基本類型(如個人名稱和團(tuán)體名稱),還包括作品和題名,通過FRBR模型表達(dá)。VIAF中的每個條目都分配了URI作為永久鏈接,使用URI可以唯一標(biāo)識實(shí)體對象及這一數(shù)據(jù)相關(guān)的所有信息。

(2)LC linked data service。美國國會圖書館提供了主題標(biāo)目和名稱規(guī)范檔的關(guān)聯(lián)數(shù)據(jù)(網(wǎng)址是http://id.loc.gov/)。在這些關(guān)聯(lián)數(shù)據(jù)中,為每個詞條分配的URI是該詞條與其他控制詞表相關(guān)聯(lián)的主要途徑。同時(shí)還提供語義網(wǎng)標(biāo)準(zhǔn)(比如MADS/RDF(Metadata Authority Dscription Schema in RDF)或SKOS(Simple knowledgeOrganization System)的描述數(shù)據(jù)。

(3)FAST linked data。FAST(Facetd Application of Subject Terminology)是LCSH syntax美國國會圖書館標(biāo)題語法的簡化版本,由美國國會圖書館1998年建立并提供可用于都柏林核心元素集的主題方法工具。FAST也包括WorldCat書目記錄中的主題詞,F(xiàn)AST提供的信息屬于LOD(Linking Open Data)開放的關(guān)聯(lián)數(shù)據(jù),因而它對于互聯(lián)網(wǎng)數(shù)據(jù)的規(guī)范控制和管理是非常有用和有效的。

在我們進(jìn)行知識獲取的過程中,規(guī)范詞表給我們提供了詞條的入口。與此同時(shí),還需要更多的語義信息去理解詞條。尤其是名稱相同的詞條要做進(jìn)一步的揭示。例如對于個人名稱的規(guī)范文檔,現(xiàn)在的詞條包括個人名稱,有生卒年的表示,但是關(guān)于其他的具體信息仍顯不足。在RDA中對著者詞條的揭示對其生卒年、職業(yè)等信息進(jìn)行了說明。除此之外,對于研究領(lǐng)域的著者,其研究領(lǐng)域、主要作品等信息也可以進(jìn)行規(guī)范化的揭示,通過規(guī)范此表嵌入到自動化系統(tǒng)與OPAC界面中來,實(shí)現(xiàn)實(shí)時(shí)更新。這對于鑒定圖書與圖書評價(jià)也有一定幫助。同時(shí),規(guī)范詞表與相關(guān)主題的知識鏈接使得OPAC的檢索界面具有知識層次,讀者獲得的不僅僅是簡單的書目信息,并還可以獲得與此類信息相關(guān)的一系列相關(guān)主題的信息,實(shí)現(xiàn)從基本的書目信息獲取到實(shí)現(xiàn)深層次的知識挖掘的轉(zhuǎn)變。

5 語義網(wǎng)環(huán)境下書目數(shù)據(jù)建設(shè)未來的發(fā)展方向

在當(dāng)前互聯(lián)網(wǎng)環(huán)境下,圖書館用戶已不再以訪問物理圖書館作為主要的信息來源,而是通過連接到全球的計(jì)算機(jī)網(wǎng)絡(luò)尋找信息。與此同時(shí),圖書館將需要做出改變:將圖書館的公共目錄從一個獨(dú)立的數(shù)據(jù)庫的書目記錄轉(zhuǎn)換為互聯(lián)網(wǎng)上高度超鏈接并可以與信息資源交互的數(shù)據(jù)集;將圖書館數(shù)據(jù)集成到圖書館提供用戶服務(wù)的虛擬工作空間。

針對語義網(wǎng)發(fā)展的大趨勢,書目數(shù)據(jù)若要更好地融于語義網(wǎng)的大環(huán)境,需要實(shí)現(xiàn)以下幾點(diǎn):(1)不同類型、不同格式的元數(shù)據(jù)間的融合與語義互操作;(2)不同知識單元的資源間的相互無縫鏈接,使數(shù)字圖書館中的各種資源構(gòu)成一個有機(jī)聯(lián)系的統(tǒng)一整體;(3)無縫鏈接外部資源,以開放形態(tài)為外部所獲取。[11]

語義網(wǎng)為改善傳統(tǒng)圖書館館藏書目數(shù)據(jù)的元數(shù)據(jù)功能提供了更大的空間。在語義網(wǎng)環(huán)境下,RDA理論的不斷發(fā)展與完善,公開構(gòu)建的關(guān)聯(lián)數(shù)據(jù)資源的日趨豐富,讓書目數(shù)據(jù)又重新點(diǎn)燃了希望的生機(jī),也為圖書館人整合數(shù)字與傳統(tǒng)資源,做好文獻(xiàn)信息服務(wù)帶來更大的信心。

FRBR和語義網(wǎng)是未來圖書館數(shù)據(jù)建設(shè)遵循的正確方向。在語義網(wǎng)環(huán)境下,電子資源與紙本資源的融合與規(guī)范化格式化揭示,一方面有助于讀者實(shí)現(xiàn)一體化檢索;另一方面,也有助于書目資源的統(tǒng)一再開發(fā);此外,電子資源與紙本資源格式的統(tǒng)一,有助于實(shí)現(xiàn)資源的統(tǒng)計(jì)與協(xié)調(diào)。對于圖書館來說,借助于圖書館的自動化系統(tǒng),將館藏的數(shù)字資源和紙本資源融合起來按照學(xué)科、主題等進(jìn)行細(xì)化地統(tǒng)計(jì)分析,對于優(yōu)化館藏結(jié)構(gòu)、為紙本圖書和電子資源的采購提供政策指引,起著非常關(guān)鍵的作用。RDA為電子資源和紙本資源,乃至其他各種形式(視頻、圖片等)的文獻(xiàn)信息資源,提供了一個統(tǒng)一規(guī)范化的揭示方法。隨著關(guān)聯(lián)數(shù)據(jù)、規(guī)范數(shù)據(jù)的不斷發(fā)展和豐富,今后圖書館從事信息組織與編目工作的勞動會越來越輕便。圖書館的數(shù)據(jù)工作,一方面是規(guī)范數(shù)據(jù)的完善工作,另一方面是“關(guān)系”的鏈接工作。在各種規(guī)范數(shù)據(jù)建立的基礎(chǔ)上,工作人員大部分只需將已有的各種規(guī)范信息鏈接聯(lián)結(jié)起來。在圖書館構(gòu)建的規(guī)范數(shù)據(jù)的基礎(chǔ)上,對于網(wǎng)絡(luò)上的大數(shù)據(jù)的規(guī)范也有一定的作用。書目數(shù)據(jù)以及圖書館建立的規(guī)范數(shù)據(jù),具有數(shù)據(jù)準(zhǔn)確、具有較高權(quán)威性的特點(diǎn)。在語義網(wǎng)環(huán)境下,書目數(shù)據(jù)格式規(guī)范的統(tǒng)一,將會被互聯(lián)網(wǎng)上更多人群、更多行業(yè)使用和利用起來,更好的發(fā)揮數(shù)據(jù)信息的作用。

在語義網(wǎng)環(huán)境下,數(shù)據(jù)的開放性將會越來越得到重視并應(yīng)用于實(shí)踐?;ヂ?lián)網(wǎng)環(huán)境下的“Anyone can say anything about anything”(AAA)原則,同樣也適用于語義網(wǎng)環(huán)境中的詞匯表、元素集和數(shù)據(jù)集。[12]W3C鏈接開放數(shù)據(jù)(Linking Open Data,簡稱LOD,網(wǎng)址是http://lod-cloud.net)項(xiàng)目提供了關(guān)聯(lián)數(shù)據(jù)的云圖。云圖中,中間最大的圓環(huán)是開放的關(guān)聯(lián)數(shù)據(jù)——如DBpedia和BNB(British National Bibliography)。而不開放的數(shù)據(jù)如DDC(Dewey Decimal Classification)則位于云圖的邊緣。[13]

目前,圖書館界也為數(shù)據(jù)的開放做出了各種各樣的努力。

(1)RDA為了滿足描述語言實(shí)現(xiàn)開放性的要求,對編目要求也做了變革。RDA用描述性語言來代替書目標(biāo)準(zhǔn)規(guī)范里的各種特殊符號,盡量用直白的語言來描述信息。如使用“pages”、“volume”,而不是使用“p.”“vol.”等代號;使用“approximately”(而不是“ca.”)和“that is”(而不是“i.e.”);使用“unnumbered”而不是將數(shù)字置于方括號內(nèi)。與此同時(shí),RDA中有關(guān)角色的詞匯,比如著者、編曲者、藝術(shù)家等,都通過注冊詞表的形式公布在網(wǎng)上,所有的RDA資料項(xiàng)目和次級項(xiàng)目、ONIX對內(nèi)容形式的規(guī)定詞匯等也均已公布。

(2)規(guī)范詞表的公開使用。OCLC的術(shù)語服務(wù)導(dǎo)航服務(wù)提供了美國國會圖書館標(biāo)題表(Libraryof Congress SubjectHeading,LCSH),主題術(shù)語的分面應(yīng)用(Faceted Application of Subject Terminology,F(xiàn)AST)、醫(yī)學(xué)主題標(biāo)題表(Medical Subject Headings)、小說和喜劇的形式和流派標(biāo)題表(formandgenreheadingsforfictionanddrama)和圖像資料詞匯表(Thesaurus for Graphic Materials)等關(guān)聯(lián)數(shù)據(jù)供圖書館界及其他機(jī)構(gòu)下載需使用。[14]關(guān)于個人名稱規(guī)范的關(guān)聯(lián)數(shù)據(jù),可以參考個人名稱的虛擬國際規(guī)范文檔(VIAF),WorldCat身份檔網(wǎng)絡(luò)(WorldCat Identities Network)等。

(3)突破語種障礙,不受語種要求的限制。IFLA提供關(guān)于命名空間(Namespace)的研究以供查檢所有的FRBR資料項(xiàng)目。Namespace相關(guān)的研究報(bào)告從version 0.0已經(jīng)出版到Version 2.0。其2013年8月的最新報(bào)告《IFLA:關(guān)于RDF格式命名空間的翻譯指南》(Guidelines for translations of IFLA namespaces in RDF,version 2.0),[15]通過該指南對RDF從源語言翻譯成多種年其他語言進(jìn)行規(guī)范和說明。

6 結(jié)語

圖書館豐富的書目數(shù)據(jù)資源,是圖書館優(yōu)厚的知識財(cái)富。通過URI,RDF等互聯(lián)網(wǎng)發(fā)展技術(shù)將其數(shù)據(jù)結(jié)構(gòu)化并借助于資源描述標(biāo)準(zhǔn)RDA將其融入到互聯(lián)網(wǎng)發(fā)展的大環(huán)境里去,并對其進(jìn)行深層次的語義發(fā)掘與語義層次的展示,是實(shí)現(xiàn)書目數(shù)據(jù)大發(fā)展、大融合的必然之路。

[參考文獻(xiàn)]

[1]劉煒.關(guān)于元數(shù)據(jù)的十萬個為什么.上圖數(shù)字圖書館研究所[EB/OL].[2014-06-05].http://www.libnet.sh.cn/sztsg/fulltext/abc/metaFAQ.pdf.

[2]W3C.Resource Description Framework[EB/OL]. [2014-06-05].http://www.w3.org/RDF/.

[3]Miles A,et al.SKOScore:simpleknowledge organization for the web[C].International Conference on Dublin Coreand MetadataApplications,2005:3-10.

[4]Glenn E Patton.An Introduction to FRAD[EB/OL]. [2014-06-10].http://presentations.ala.org/images/c/c5/Frad_ala_200806_color.pdf.

[5]IFLA Working Group on Functional Requirements and Numbering of Authority Records(FRANAR). Functional Requirements for Authority Data:A Conceptual Model[EB/OL].[2014-06-10]. http://www.ifla. org/files/assets/cataloguing/frad/frad_2013.pdf.

[6]Barbara B Tillett.Looking to the Future with RDA. [EB/OL].[2015-07-6].http://www.loc.gov/today/cyberlc/feature_wdesc.php?rec=4967.

[7]InternationalISBNAgency.E-BooksandISBNs:apositionpaperandactionpointsfromthe International ISBN Agency[EB/OL].[2014-06-05].https://www. bisg.org/docs/isbn_agency.pdf.

[8]Marcia Lei Zeng(曾蕾).探索圖書館文獻(xiàn)數(shù)據(jù)與非圖書館開放關(guān)聯(lián)數(shù)據(jù)的聯(lián)結(jié)點(diǎn)[EB/OL].[2014-06-10].http://www.lib.ntu.edu.tw/events/2012_new_ service/ppt00.pdf.

[9]王景俠.?dāng)?shù)據(jù)關(guān)聯(lián)與關(guān)聯(lián)數(shù)據(jù)[J].信息管理,2013(5):15-20.

[10]Rick Bennett,etal.虛擬國際規(guī)范文檔——連接德國國家圖書館和美國國會圖書館的規(guī)范文檔[J].國家圖書館學(xué)刊,2006(4):87-91.

[11]王薇.基于關(guān)聯(lián)數(shù)據(jù)的圖書館數(shù)字資源語義融合研究[D].南京:南京大學(xué),2013.

[12]IFLA Namespaces Technical Group.Issues of constrained and unconstrained namespaces(working draft)(Version 0.0)[EB/OL].[2014-06-10].http://www.ifla.org/node/5353.

[13]Jung-Ran Park,Lynne CHowarth.New directions in information organization[M].Bingley:Emerald,2013:77.

[14]GordonDunsire,MirnaWiller.Standardlibrarymetadata models and structures for the Semantic Web[J]. Library Hi Tech News,2011,28(3):1-12.

[15]IFLA.Guidelines for translations of IFLA namespaces in RDF[EB/OL].[2014-06-05].http://www.ifla.org/files/assets/classification-and-indexing/namespaces/iflanamespacetranslationguidelines2_0.docx.

[責(zé)任編輯]王崗

[收稿日期]2014-12-05

[作者簡介]郭哲敏(1984-),女,館員,研究方向:信息資源組織與信息資源建設(shè)。

[文章編號]1005-8214(2015)09-0047-06

[文獻(xiàn)標(biāo)志碼]A

[中圖分類號]G254.0

含山县| 慈溪市| 沙洋县| 玉林市| 吴川市| 济南市| 滦平县| 阿坝县| 德清县| 雷波县| 肥西县| 文山县| 吴桥县| 凤城市| 嵊泗县| 寿宁县| 潜山县| 淮安市| 阿城市| 河南省| 新蔡县| 安图县| 台南县| 安新县| 聂拉木县| 赤城县| 甘孜县| 霍邱县| 碌曲县| 崇礼县| 和平县| 东城区| 崇仁县| 永胜县| 新巴尔虎左旗| 勃利县| 信阳市| 黄石市| 鱼台县| 江门市| 新泰市|