謝明亮
(江蘇第二師范學(xué)院圖書館 江蘇 南京 210000)
元數(shù)據(jù)是用來描述圖書館資源內(nèi)容、語義和服務(wù)的。隨著圖書館資源類型日趨多樣化,不可避免的產(chǎn)生元數(shù)據(jù)的多元化的現(xiàn)象(國內(nèi)外比較有影響的元數(shù)據(jù)已有40余種),當對采用不同元數(shù)據(jù)格式的資源進行檢索利用時,就面臨著元數(shù)據(jù)整合問題。圖書館大多使用MARC對傳統(tǒng)資源進行描述,使用DC對網(wǎng)絡(luò)數(shù)字資源進行描述,但是MARC存在格式過于復(fù)雜、字段重復(fù)、記錄是程序性的而非描述性的等弊端。DC又過于簡單,對較為復(fù)雜的具有多等級層次關(guān)系的資源的描述顯得力不從心,這兩種元數(shù)據(jù)都無法很好地擔(dān)當起復(fù)合型圖書館元數(shù)據(jù)整合的重任。
MODS(元數(shù)據(jù)對象描述模式)是美國國會圖書館于2002年6月開發(fā)的,是以MARC為基礎(chǔ)的文獻編目元數(shù)據(jù)。MODS的元素來自MARC21的字段,采用XML作為編碼語言,是MARC21的XML簡略版[1]。MODS簡單易用,將 MARC字段重組成21個元素,開發(fā)者可以自行定義元素,自行選擇標記的名稱和含義。其字段標識是語言而不是文字,可以面向用戶。MODS是MARC的子集,絕大多數(shù)的元素、子元素和屬性都能在MARC中找到對應(yīng)的字段,因而可與傳統(tǒng)圖書館的MARC進行映射。MODS利用的是XML的句法和規(guī)則來表達主元素、子元素和屬性,可以統(tǒng)一制定名稱和主題表,也可以自由選擇,具有較強的靈活性。MODS采用的多重結(jié)構(gòu)描述,能很好地體現(xiàn)子元素之間、多個屬性之間的關(guān)系。所以,MODS既能描述結(jié)構(gòu)復(fù)雜的傳統(tǒng)文獻信息,又能描述靈活多變的網(wǎng)絡(luò)數(shù)字信息,具有良好的擴展性[2]。
元數(shù)據(jù)整合的目標是實現(xiàn)同一圖書館異構(gòu)資源之間,不同圖書館之間的資源交換和共享。目前元數(shù)據(jù)整合主要分為:聯(lián)邦式、收割式和倉儲式。聯(lián)邦式是參建圖書館遵循統(tǒng)一的標準,采用同種元數(shù)據(jù),這種方式對參建單位的要求比較高,而且各圖書館已存在各種元數(shù)據(jù),無法實現(xiàn)完全的統(tǒng)一;收割式是參建圖書館只要提供遵循OAI-PMH的元數(shù)據(jù)信息到訪問接口,其他圖書館可直接獲取元數(shù)據(jù)[3],這種方法可較好地實現(xiàn)元數(shù)據(jù)的互操作;倉儲式是將分散的、不統(tǒng)一的元數(shù)據(jù)通過映射轉(zhuǎn)換成集成的、統(tǒng)一的格式。
要實現(xiàn)收割式和倉儲式整合,需要尋找一種合適的元數(shù)據(jù)來充當OAI-PMH協(xié)議規(guī)范的元數(shù)據(jù),并能很好地與其他元數(shù)據(jù)進行轉(zhuǎn)換和互操作。選擇這個元數(shù)據(jù)需要充分考慮傳統(tǒng)圖書館MARC數(shù)據(jù)的復(fù)雜性特點,以及數(shù)字資源多樣性、個性化等特點。MODS做為MARC的子集,能與MARC字段形成良好的對應(yīng),這是其他元數(shù)據(jù)所無法比擬的。MODS又具有簡單易用、靈活、可擴展性等優(yōu)點,適合做為其他元數(shù)據(jù)轉(zhuǎn)換的中介。如美國國會圖書館主辦的美國記憶項目,將American Memory和Global Gateway中大約20萬條MARC記錄轉(zhuǎn)變?yōu)镸ODS格式,并支持OAI-PMH。英國曼徹斯特大學(xué)發(fā)起COPAC學(xué)術(shù)目錄項目,COPAC的書目格式為CURLMARC21,該項目計劃將其全部轉(zhuǎn)換為 MODS格式[4]。
MODS除了用來直接描述圖書館資源外,還可以用來整合元數(shù)據(jù),為圖書館資源和數(shù)據(jù)的初步整合以及向更先進的資源互操作和共享方式過渡提供一種簡單的技術(shù)。筆者認為利用MODS整合圖書館元數(shù)據(jù)分為三種途徑:(1)在收割元數(shù)據(jù)時,將MODS作為標準元數(shù)據(jù),與 MARC整合。(2)用MODS作為文件包的描述性數(shù)據(jù),與MARC整合。(3)將圖書館已有 MARC和其他元數(shù)據(jù)轉(zhuǎn)換成MODS,或者充當各種元數(shù)據(jù)轉(zhuǎn)換的中介。簡言之,就是分為在源頭處初步整合、在傳輸中初步整合和在圖書館存儲倉庫中一次性整合。
當今世界上已知的元數(shù)據(jù)已達幾十種,但由于采用的格式、內(nèi)容及存儲的環(huán)境不同,給相互之間的收集、交換、共享帶來了很大的麻煩。OAIPMH提供了一個基于元數(shù)據(jù)獲取的和應(yīng)用的互操作框架,是一個元數(shù)據(jù)收割機制。數(shù)據(jù)提供者可以有自己的元數(shù)據(jù)標準,但它應(yīng)能夠通過元數(shù)據(jù)映射,發(fā)布符合OAI協(xié)議規(guī)范的元數(shù)據(jù)。美國國會圖書館為OAI-PHM所建議的格式有3種:MODS、MARCXML和DC[5]。筆者認為對于圖書館來說,MODS最適合作為OAI-PMH的標準元數(shù)據(jù),理由如下:
(1)雖然目前OAI-PMH把DC作為互操作的標準元數(shù)據(jù),但是由于DC的15個元素集不能很好滿足不同類型部門的需求,現(xiàn)在采用OAI協(xié)議的多數(shù)組織都是通過對DC增加額外字段或者修飾詞限定來實現(xiàn)自身的特殊要求,但在實際操作中表示多重結(jié)構(gòu)的關(guān)聯(lián)標記卻不能被識別,而且通過增加額外字段會使DC逐漸喪失簡單易用的特點。而MODS可進行多重結(jié)構(gòu)的描述,能很好地滿足各種數(shù)字資源描述的需要,目前國外用MODS來描述資源的項目很多,如對數(shù)字幻燈片、音樂數(shù)字對象、電子學(xué)位論文,甚至是對建筑物的描述。
(2)目前圖書館目錄的共享主要采用Z39.50協(xié)議,操作的對象是MARC記錄,Z39.50服務(wù)器只支持Z39.50協(xié)議,不支持OAI-PMH,所以需要將OAI-PMH收割的元數(shù)據(jù)映射為MARC。DC的元素因沒有被有效地限定,所以在MARC與DC的轉(zhuǎn)換中會丟失大量的數(shù)據(jù)。MODS設(shè)計基礎(chǔ)是MARC21,其元素與 MARC21的字段和子字段有良好的對應(yīng),與 MARC之間相互轉(zhuǎn)換很容易,語義信息損失小,與圖書館已有的MARC館藏文獻數(shù)據(jù)和檢索系統(tǒng)進行整合更加簡便易行。MODS與國際通用的DC元數(shù)據(jù)的15個元素也能形成良好的對應(yīng)關(guān)系,又具有相似的基本結(jié)構(gòu),所以兩者之間的轉(zhuǎn)換也很容易實現(xiàn)。美國國會圖書館已經(jīng)制定了MODS與MARC、DC元數(shù)據(jù)之間相互轉(zhuǎn)換的各種方案。如果OAI-PMH收割提供的是MODS元數(shù)據(jù),將比其他格式元數(shù)據(jù)更有助于圖書館元數(shù)據(jù)的整合。
(3)OAI-PMH除了支持DC外,也支持其他任何可以編碼成XML格式的元數(shù)據(jù)標準。MODS是利用XML的句法和規(guī)則的元數(shù)據(jù),而MARCXML是為了在XML環(huán)境下操作MARC數(shù)據(jù)而專門開發(fā)的一個框架,實現(xiàn)與MARC的無損轉(zhuǎn)化,可以作為MODS向MARC裝換的中間層。眾所周知,MARC結(jié)構(gòu)比較復(fù)雜,靈活性差,無法對數(shù)字資源進行較好地描述,用MARCXML來作為OAI-PMH的標準元數(shù)據(jù),在與其他元數(shù)據(jù)映射時,很多元素找不到對應(yīng),造成大量數(shù)據(jù)內(nèi)容的丟失。而MODS具有較強的可擴展性,可以和很多元數(shù)據(jù)形成良好的對應(yīng)轉(zhuǎn)換。
國際上已經(jīng)有很多項目利用MODS作為OAI-PMH的元數(shù)據(jù),如2003-2004年澳大利亞國家圖書館的“澳大利亞音樂(Music Australia)”就是基于OAI-PMH架構(gòu),對音樂資料進行轉(zhuǎn)換,將DC格式轉(zhuǎn)換為 MODS再轉(zhuǎn)成 MARC;還有2003-2006年“澳大利亞國家書目數(shù)據(jù)庫元數(shù)據(jù)項目”,將國家圖書館原記錄格式DC轉(zhuǎn)換為MODS,再轉(zhuǎn)換成MARC,支持OAI-PMH。2006年西部儲備大學(xué)的“經(jīng)典幻燈片項目(Classics Slide Collection)”,將MODS作為每一張圖片的描述元數(shù)據(jù),支持OAI-PMH 協(xié)議[6]。
METS(元數(shù)據(jù)編碼和傳輸標準)是一種XML文件,可將有關(guān)數(shù)字化資源的元數(shù)據(jù)進行打包,包括所有描述性的、管理性的、結(jié)構(gòu)化、權(quán)限及其他可用于數(shù)字化資源檢索、保存和服務(wù)的元數(shù)據(jù)。如果一個數(shù)字化資源用METS描述,它就可以在很多系統(tǒng)中方便地使用。現(xiàn)METS已建立的描述性元數(shù)據(jù)包括:為電子資源特別設(shè)計的MODS;僅需最少數(shù)的DC;完全的 MARC記錄信息的 MARCXML[7]。用MODS作為描述性元數(shù)據(jù),可以表達款目間的多重關(guān)系,并用METS來包裝數(shù)字化對象,可以盡量減少數(shù)據(jù)的丟失。MODS豐富的、具有層級性的描述結(jié)構(gòu)可以與METS的StructuralMap進行很好配合,MODS的描述功能與METS的封裝特性使元數(shù)據(jù)與對象數(shù)據(jù)能夠緊密地結(jié)合起來,進而方便地進行傳輸與交換。
國外已經(jīng)有很多項目利用MODS作為METS中的描述性元數(shù)據(jù)。如“西藏口述歷史檔案項目”,西儲大學(xué)人類學(xué)西藏研究中心計劃將美國國會圖書館亞洲部保存的西藏口述歷史檔案文件譯成英文文本的TEI格式,并使用MODS作為描述性元數(shù)據(jù),最終聲音文件、TEI文件以及MODS格式將以METS模式封裝在一起。
目前描述各種資源的元數(shù)據(jù)不統(tǒng)一,如CDF(頻道定義格式)、CDWA(藝術(shù)作品描述目錄)、DC(都柏林核心元數(shù)據(jù))、EAD(編碼檔案描述)、EELS(工程電子化圖書館)、EEVL(愛丁堡工程虛擬圖書館)、FGDC/CSDGM(數(shù)字化地理元數(shù)據(jù)內(nèi)容規(guī)范)、GILS(政府信息查找服務(wù)核心元數(shù)據(jù)標準)、TEI、Header等,不同標準的元數(shù)據(jù)間以及與圖書館描述傳統(tǒng)資源的MARC的兼容和互操作是圖書館亟需解決的問題。MODS是MARC的子集,多數(shù)元素在MARC中可以找到對應(yīng)字段,因而可以同大量現(xiàn)存的圖書館MARC數(shù)據(jù)兼容,如負責(zé)維護MODS的美國國會圖書館網(wǎng)絡(luò)發(fā)展與MARC標準機構(gòu)已經(jīng)制定和發(fā)布了MODS與MARC之間相互轉(zhuǎn)換的各種方案,規(guī)定了轉(zhuǎn)換各個元素、子元素、屬性和字段的對應(yīng)關(guān)系。而且MODS具有簡單易用、靈活性好、交換能力強等優(yōu)點,可以擔(dān)當起圖書館元數(shù)據(jù)整合的重任。
那么是將MODS做為根級標準將圖書館已有MARC和其他元數(shù)據(jù)轉(zhuǎn)換成MODS,還是讓MODS充當各種元數(shù)據(jù)轉(zhuǎn)換的中介呢?究竟哪種方式可以保證數(shù)據(jù)內(nèi)容丟失降低到最低程度?筆者認為采用所有其他元數(shù)據(jù)轉(zhuǎn)換成MODS是最佳方案,因為:
(1)在各種元數(shù)據(jù)互相轉(zhuǎn)換的過程中,必然會造成部分數(shù)據(jù)內(nèi)容的丟失,而且轉(zhuǎn)換經(jīng)過的中介越多,丟失的數(shù)據(jù)越多,比如說將DC轉(zhuǎn)換成MODS丟失一部分數(shù)據(jù),然后MODS再轉(zhuǎn)換成MARC又會丟失一部分數(shù)據(jù),所以元數(shù)據(jù)轉(zhuǎn)換盡量避免中間環(huán)節(jié)。
(2)將MODS作為根級標準,形成一個樹形的層次結(jié)構(gòu)。最上層為根級元數(shù)據(jù)準則,各種數(shù)據(jù)庫及其專業(yè)子庫都必須遵循此準則;根級元數(shù)據(jù)準則下為枝級元數(shù)據(jù)準則,是各專業(yè)學(xué)科所應(yīng)遵循的標準;枝級元數(shù)據(jù)準則以下為一些同類數(shù)據(jù)庫或應(yīng)用領(lǐng)域的元數(shù)據(jù)準則[8]。這樣可以更好地規(guī)范元數(shù)據(jù)格式,便于圖書館的資源共享和互操作。
在目前復(fù)合型圖書館、圖書館聯(lián)盟、資源共享的大趨勢下,元數(shù)據(jù)整合是圖書館資源和數(shù)據(jù)初步整合以及向更先進的資源互操作和共享方式過渡的第一步。MODS是繼MARC之后的第二種以MARC為基礎(chǔ)的文獻編目元數(shù)據(jù),正是這個得天獨厚的優(yōu)勢,以及具有轉(zhuǎn)換能力強、靈活易用、可擴展性強等MARC和DC無可比擬的優(yōu)點,使得在圖書館元數(shù)據(jù)整合中充當重要角色。國外關(guān)于MODS的研究已經(jīng)很多,而國內(nèi)尚處于初步階段,2006年完成了《元數(shù)據(jù)對象描述模型(MODS)調(diào)研報告》。上海圖書館制定多個元數(shù)據(jù)方案,參考了MODS的標準。總體來說,國內(nèi)嘗試應(yīng)用MODS的項目還比較少,所以要加強研究,盡快完成MODS的漢化,使MODS在資源描述和圖書館元數(shù)據(jù)整合中發(fā)揮更大作用。
[1]The Library of Congress.Metadata Object Description Schema[EB/OL].(2008-04-17)[2015-01-11].http://www.loc.gov/standards/mods/mods-overview.html.
[2]王小平.淺析 MODS元數(shù)據(jù)[J].圖書館論壇,2008,28(5):65-67,70.
[3]常春.數(shù)字圖書館元數(shù)據(jù)獲取協(xié)議OAI[J].現(xiàn)代情報,2007,27(4):108-110.
[4]倪娟.MODS元數(shù)據(jù)的新發(fā)展與應(yīng)用[J].農(nóng)業(yè)圖書情報學(xué)刊,2007,19(6):165-167.
[5]齊華偉,王軍.元數(shù)據(jù)收割協(xié)議 OAI-PMH[J].情報科學(xué),2005,23(3):414-419,425.
[6]張娟.描述性元數(shù)據(jù)MODS特性及應(yīng)用[J].現(xiàn)代情報,2011,31(8):69-72.
[7]張錚,李蓓.元數(shù)據(jù)家族中的新成員-MODS和 METS[J].醫(yī)學(xué)信息,2005,18(7):743-745.
[8]DC元數(shù)據(jù)的發(fā)展前景分析[J].廣東技術(shù)師范學(xué)院學(xué)報,2006,(4):9-12.