劉 麗
(雞西大學(xué)圖書館,黑龍江 雞西 158100)
元數(shù)據(jù)在數(shù)字圖書館的應(yīng)用研究*
劉 麗
(雞西大學(xué)圖書館,黑龍江 雞西 158100)
以元數(shù)據(jù)的概念為鋪墊,對元數(shù)據(jù)在數(shù)字圖書館應(yīng)用的必要性做了闡述,重點(diǎn)探討了元數(shù)據(jù)在數(shù)字圖書館的應(yīng)用及應(yīng)當(dāng)注意和解決的問題.
元數(shù)據(jù);數(shù)字圖書館;DC
元數(shù)據(jù)是為了解決互連網(wǎng)上海量信息資源的組織與管理問題而興盛起來的,它具有信息的發(fā)現(xiàn)與選擇、描述與揭示、整合與集成等功能.元數(shù)據(jù)被廣泛應(yīng)用在圖書館、自然科學(xué)、政務(wù)辦公、社會科學(xué)等領(lǐng)域.由于數(shù)字圖書館的收藏種類繁多,數(shù)量龐大,既有傳統(tǒng)的印刷資源,又有類型各異的數(shù)字資源等特點(diǎn),因此為了滿足用戶快速、準(zhǔn)確地獲取到所需信息,數(shù)字圖書館必須使用元數(shù)據(jù)對其信息資源進(jìn)行有效組織與管理.離開元數(shù)據(jù)的數(shù)字圖書館將是一盤散沙,無法提供有效的檢索和處理.
元數(shù)據(jù) (metadata),是用于描述數(shù)據(jù)的內(nèi)容(what)、覆蓋范圍 (where,when)、質(zhì)量、管理方式、數(shù)據(jù)的所有者 (who)、數(shù)據(jù)的提供方式 (how)等信息的數(shù)據(jù),是數(shù)據(jù)與數(shù)據(jù)用戶之間的橋梁.簡言之,元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù).
在圖書館與信息界,元數(shù)據(jù)被定義為提供關(guān)于信息資源或數(shù)據(jù)的一種結(jié)構(gòu)化的數(shù)據(jù),是對信息資源的結(jié)構(gòu)化的描述.其作用為:描述信息資源或數(shù)據(jù)本身的特征和屬性,規(guī)定數(shù)字化信息的組織具有定位、發(fā)現(xiàn)、證明、評估、選擇等功能[1].
從上述定義我們可以看出元數(shù)據(jù)所揭示的內(nèi)涵似乎與傳統(tǒng)的書目數(shù)據(jù)、MARC數(shù)據(jù)極其相似,都是關(guān)于對象數(shù)據(jù) (或資源)重要特征的描述,以促進(jìn)信息對象的發(fā)現(xiàn)和檢索.但是,我們也不能將元數(shù)據(jù)簡單地等同于傳統(tǒng)的書目記錄.我們知道元數(shù)據(jù)產(chǎn)生于網(wǎng)絡(luò)時代,它是為組織與檢索海量網(wǎng)絡(luò)信息資源而提出的,它的內(nèi)涵比書目記錄要豐富得多.它可以為各種形態(tài)的信息資源提供規(guī)范、普遍的描述方法和檢索工具,為分布的、由多種資源組成的信息體系 (如數(shù)字圖書館)提供整合的工具與紐帶.
數(shù)字圖書館的基本邏輯構(gòu)成是“資源”,資源是可以被標(biāo)識的任何東西,可以是物理的實(shí)體,也可以是數(shù)字對象或者虛擬的復(fù)合對象或?qū)ο蠹?元數(shù)據(jù)的出現(xiàn)就是要整合這些資源,使其有序化.由于元數(shù)據(jù)提供了對資源的各種屬性的描述,因而可以看成是“資源”的替代品.數(shù)字圖書館通過管理元數(shù)據(jù)而管理資源,并提供絕大多數(shù)功能.因此元數(shù)據(jù)通過定義數(shù)字圖書館中資源的信息結(jié)構(gòu),以及定義由數(shù)字對象構(gòu)成的資源庫的組織結(jié)構(gòu),決定著數(shù)字圖書館的信息組織和利用方式,同時元數(shù)據(jù)還是實(shí)現(xiàn)跨資源庫語義互操作的基礎(chǔ).具體來講,元數(shù)據(jù)在數(shù)字圖書館信息組織中的必要性表現(xiàn)在以下幾方面:
浩瀚的網(wǎng)絡(luò)資源為信息資源的生成帶來了極大的便利,幾乎任何人在任何時間內(nèi)都可以成為信息資源的創(chuàng)建者,但由于資源創(chuàng)建者自身素質(zhì)的差異極大,且缺乏嚴(yán)格的網(wǎng)絡(luò)出版監(jiān)督機(jī)制,導(dǎo)致了信息資源質(zhì)量的參差不齊,因特網(wǎng)成了展示這些“商品”的雜店.作為數(shù)字圖書館的信息組織人員,其首要的任務(wù)就是利用信息資源創(chuàng)建者提供的簡單元數(shù)據(jù),對這些雜貨店的商品進(jìn)行嚴(yán)格篩選,以提供給最終用戶以高質(zhì)量的信息資源[2].
對信息資源的描述與揭示是元數(shù)據(jù)的最主要的功能,也是數(shù)字圖書館信息組織的核心.同傳統(tǒng)圖書館一樣,對于篩選過的、已成為數(shù)字圖書館館藏的信息資源,信息組織人員需要根據(jù)資源類型使用傳統(tǒng)元數(shù)據(jù)標(biāo)準(zhǔn) MARC或現(xiàn)代元數(shù)據(jù)如 DC、VRA、FGDC等對其進(jìn)行描述與揭示,以方便用戶對資源的發(fā)現(xiàn)與檢索.
利用元數(shù)據(jù)整合與集成的功能,建立元數(shù)據(jù)體系,將傳統(tǒng)館藏和數(shù)字化館藏整合集成到一個統(tǒng)一的用戶界面上,使得用戶可以通過任意一個數(shù)字化圖書館的單個界面,訪問互聯(lián)網(wǎng)上的其他數(shù)字化圖書館和信息庫,為用戶提供統(tǒng)一的集成服務(wù).
由于 DC(Dublin Core元數(shù)據(jù))具有結(jié)構(gòu)簡單、易操作、可擴(kuò)展性等特點(diǎn),因此數(shù)字圖書館建設(shè)多采用DC作為元數(shù)據(jù)方案或參照DC元數(shù)據(jù),并根據(jù)實(shí)際需要對 DC元數(shù)據(jù)進(jìn)行擴(kuò)展,實(shí)現(xiàn)對信息資源的組織及提供檢索.
上海圖書館在數(shù)字圖書館建設(shè)中,共實(shí)現(xiàn)了 7個數(shù)字化項(xiàng)目,包括:善本古籍、上海圖典、上海文典、中國報刊、民國圖書、點(diǎn)曲臺和科技百花園.這些文獻(xiàn)資源中的圖書已經(jīng)有完整的MARC格式記錄,古籍已用特殊的元數(shù)據(jù)來描述,圖典則需要重新加工和組織.這樣,上海圖書館在建設(shè)的過程中面臨的是多種元數(shù)據(jù)并存的局面,為了滿足不同元數(shù)據(jù)集之間因應(yīng)用的需要而產(chǎn)生的互操作的需求,定義一個核心元數(shù)據(jù)集顯得非常必要,為了實(shí)現(xiàn)不同數(shù)據(jù)集間的互操作,上海圖書館選用 DC元數(shù)據(jù)作為核心元數(shù)據(jù)集,以便于元數(shù)據(jù)之間的轉(zhuǎn)換與整合.
北京大學(xué)的元數(shù)據(jù)設(shè)計是在一個總則和總的規(guī)范性文件——《北京大學(xué)中文元數(shù)據(jù)標(biāo)準(zhǔn)框架》的指導(dǎo)下,分別完成各資源對象的元數(shù)據(jù)設(shè)計.該文件規(guī)定了元數(shù)據(jù)的設(shè)計原則、功能、結(jié)構(gòu)等問題.元數(shù)據(jù)分為描述型元數(shù)據(jù)、管理型元數(shù)據(jù)和應(yīng)用型元數(shù)據(jù),其中描述型元數(shù)據(jù)又劃分為核心元素、本館核心元素和個別元素.其中,核心元素采用了 DC的 14個元素,并且在使用的過程中嚴(yán)格遵循 DC的語義定義,通用性最強(qiáng),此層次的元素是數(shù)據(jù)交換和共享中的核心所在,各資源對象的核心元素都包含在這 14個元素內(nèi).本館核心元素和個別元素則是根據(jù)不同對象的特性而定制的.目前已經(jīng)設(shè)計完成的元數(shù)據(jù)方案包括拓片元數(shù)據(jù)、古籍元數(shù)據(jù)、學(xué)位論文元數(shù)據(jù)、輿圖元數(shù)據(jù)、電子圖書元數(shù)據(jù)以及人物類元數(shù)據(jù).
作為美國“數(shù)字圖書館首倡計劃”之一的斯坦福大學(xué)數(shù)字化圖書館,是一個分布式的、異構(gòu)的、基于代理的數(shù)字圖書館,其自動服務(wù)和收藏功能通過代理服務(wù)器來間接獲得.為滿足元數(shù)據(jù)的可容性和內(nèi)部操作性,它的元數(shù)據(jù)體系包括以下四個基本組成部分:屬性模型代理、屬性模型翻譯器、搜索代理的元數(shù)據(jù)設(shè)地、元數(shù)據(jù)包.其中,屬性模型是指自包含的屬性集,即諸如 DC、US MARC等元數(shù)據(jù)標(biāo)識集.屬性模型代理包含了屬性集和為首要對象定義的屬性,也允許包含屬性間的種種關(guān)系.屬性模型翻譯器將來自某個屬性集的屬性和屬性值映射到另一個屬性集中.搜索代理的元數(shù)據(jù)設(shè)施為搜索代理的可訪問資源和搜索能力提供了結(jié)構(gòu)化的描述.元數(shù)據(jù)包積聚了從其他三個組成部分中挑選出的元數(shù)據(jù),以利于元數(shù)據(jù)的全局查詢和局部檢索,是該數(shù)字化圖書館的基礎(chǔ)設(shè)施,它的核心是代理 (包裝器).元數(shù)據(jù)體系的建成便于各種格式的元數(shù)據(jù)在網(wǎng)絡(luò)數(shù)據(jù)庫間進(jìn)行導(dǎo)入和導(dǎo)出,實(shí)現(xiàn)不同格式的元數(shù)據(jù)之間的互換,使得數(shù)字化圖書館最終成為互聯(lián)網(wǎng)上閱讀瀏覽的網(wǎng)絡(luò)數(shù)據(jù)庫.
作為國內(nèi)知名的數(shù)據(jù)提供商,萬方公司于 2003年 8月正式啟動元數(shù)據(jù)標(biāo)準(zhǔn)項(xiàng)目,經(jīng)過對中外各類成熟的元數(shù)據(jù)的分析和對國內(nèi)幾大圖書館元數(shù)據(jù)方案的調(diào)研,對文獻(xiàn)類 (期刊論文、會議論文、引文、科技文獻(xiàn))數(shù)據(jù)庫、機(jī)構(gòu)類 (科研機(jī)構(gòu)、高等院校、企業(yè)產(chǎn)品)數(shù)據(jù)庫、標(biāo)準(zhǔn)法規(guī)類數(shù)據(jù)庫、成果專利類數(shù)據(jù)庫、人物類數(shù)據(jù)庫共五大類一百多個數(shù)據(jù)庫進(jìn)行數(shù)據(jù)規(guī)范的設(shè)計.最終決定除人物類采用 vCard元數(shù)據(jù)外,其他四類均采用 DC作為描述型元數(shù)據(jù)的核心元素集,使得 DC在國內(nèi)的推廣和應(yīng)用又邁進(jìn)了一步.
數(shù)字圖書館的信息組織由指針、元數(shù)據(jù)和數(shù)據(jù)部分組成.指針是唯一用來標(biāo)識數(shù)據(jù)的,對應(yīng)于傳統(tǒng)圖書館的排架號;元數(shù)據(jù)是一組用來描述數(shù)據(jù)本身特征的數(shù)據(jù)集,對應(yīng)于傳統(tǒng)圖書館的目錄;數(shù)據(jù)是數(shù)字圖書館的基本信息對象,對應(yīng)于傳統(tǒng)圖書館的文獻(xiàn)[3].對象數(shù)據(jù)可分布式存放在各地的資源點(diǎn)內(nèi),用戶查詢時,利用元數(shù)據(jù)搜索引擎,即通過一個統(tǒng)一的用戶界面幫助用戶在多個搜索引擎中選擇和利用合適的 (甚至是同時利用若干個)搜索引擎來實(shí)現(xiàn)檢索操作,是對分布于網(wǎng)絡(luò)的多種檢索工具的全局控制機(jī)制[4].著名的元搜索引擎有 InfoS-pace、Dogpile、Vivisi mo等 (元搜索引擎列表 ),中文元搜索引擎中具有代表性的為搜星搜索引擎、搜魅網(wǎng) (someta)、馬虎聚搜等.在搜索結(jié)果排列方面,有的直接按來源引擎排列搜索結(jié)果,如 Dogpile,有的則按自定的規(guī)則將結(jié)果重新排列組合,如 Vivisimo.因此,在數(shù)字圖書館信息組織中應(yīng)用元數(shù)據(jù),可以使用戶充分利用元搜索引擎帶寬廣的特性來訪問遠(yuǎn)程資源,以提高檢索效率.
元數(shù)據(jù)在數(shù)字圖書館的建設(shè)中已經(jīng)取得了一定的成績,但也存在著一些需要注意和解決的問題,尤其是標(biāo)準(zhǔn)化問題、通用性問題、互操作問題等等.
在數(shù)字圖書館建設(shè)中,標(biāo)準(zhǔn)問題最重要的是元數(shù)據(jù)的制作,而與元數(shù)據(jù)的制作緊密相關(guān)的問題是元數(shù)據(jù)方案的設(shè)計.元數(shù)據(jù)方案的標(biāo)準(zhǔn)化具有廣泛的內(nèi)涵.它包括元素著錄內(nèi)容的標(biāo)準(zhǔn)化、同類型數(shù)字化信息資源的著錄所采用元數(shù)據(jù)的一致性、元數(shù)據(jù)方案所采用編碼語言的統(tǒng)一性這幾個方面[5].例如在超星數(shù)字圖書館的一條文獻(xiàn)記錄中,將 Publisher理解為“數(shù)字式資源制作者”,Data理解為“數(shù)字式資源制作日期”,這與 DC元素的本意是否相符合,還有待商榷,而 Format、Type等幾個元素的意義也比較抽象和模糊,各單位在應(yīng)用的過程中也不盡相同,這些都涉及到元數(shù)據(jù)使用過程中的標(biāo)準(zhǔn)化問題,因此我們在使用元數(shù)據(jù)的過程中,應(yīng)理解元素的語義定義并嚴(yán)格遵守.
今天,在分布式信息環(huán)境中已經(jīng)有多個元數(shù)據(jù)格式存在,并將有更多的元數(shù)據(jù)格式出現(xiàn),因此元數(shù)據(jù)的互操作問題已成為元數(shù)據(jù)的開發(fā)者和潛在使用者關(guān)注的焦點(diǎn).但在過去的幾年中,不兼容的數(shù)據(jù)格式和數(shù)據(jù)結(jié)構(gòu)阻礙了信息系統(tǒng)之間的互操作.一個日益重要的問題是怎樣實(shí)現(xiàn)各種元數(shù)據(jù)間的互操作,以保證任意系統(tǒng)的用戶能夠在整個分布式環(huán)境中發(fā)現(xiàn)、檢索和利用所需要的任意資源和任意服務(wù).因此,筆者建議采用統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)映射、元數(shù)據(jù)轉(zhuǎn)換等方式,以實(shí)現(xiàn)真正意義上的互訪.
隨著元數(shù)據(jù)的不斷發(fā)展,元數(shù)據(jù)已經(jīng)不僅僅用于描述信息對象的內(nèi)容,還可以描述信息對象的制作過程、保存、評估、服務(wù)、使用權(quán)限等各方面的內(nèi)容,因此元數(shù)據(jù)的結(jié)構(gòu)和層次也越來越復(fù)雜化.人們根據(jù)元數(shù)據(jù)的功能把元數(shù)據(jù)的元素劃分為描述型元素、管理型元素、技術(shù)型元素、長期保存型元素等,根據(jù)元數(shù)據(jù)的重要性把元素劃分為核心元素、非核心元素或個別元素等等.元數(shù)據(jù)結(jié)構(gòu)與層次的劃分有利于數(shù)據(jù)處理、數(shù)據(jù)交換或共享過程中對數(shù)據(jù)進(jìn)行區(qū)分,因此,在對元數(shù)據(jù)的結(jié)構(gòu)層次進(jìn)行正確的設(shè)計時,還應(yīng)該考慮元數(shù)據(jù)的整體性與系統(tǒng)性問題.
[1]沈鳳善.元數(shù)據(jù)在數(shù)字圖書館中的應(yīng)用[J].牡丹江師范學(xué)院學(xué)報,2005,(1):122-123.
[2]邵曉紅.元數(shù)據(jù)在數(shù)字圖書館信息組織中的應(yīng)用[J].鄂州大學(xué)學(xué)報,2008,(5):14-16.
[3]盛小平.論元數(shù)據(jù)在數(shù)字圖書館信息組織中的應(yīng)用[J].圖書情報工作,2001,(7):43-45.
[4]周立清.元搜索引擎概述[EB/OL].http://baike.geiwosou.net/index.php?doc-view-32.html,2010-03-02.
[5]孫嵐玲,等.元數(shù)據(jù)在數(shù)字圖書館中的應(yīng)用 [J].情報科學(xué),2004,(10):1230-1233.
(責(zé)任編校:簡子)
G202
A
1008-4681(2010)02-0076-03
2010-01-21;
2010-04-14
劉麗 (1980-),女,山西代縣人,雞西大學(xué)圖書館館員,碩士生.研究方向:數(shù)字圖書館的發(fā)展.