摘 要:本文古籍元數(shù)據(jù)的相關(guān)內(nèi)容入手,首先對我國古籍?dāng)?shù)字化的建設(shè)現(xiàn)狀進行了描述,緊接著通過對比我國現(xiàn)有的古籍元數(shù)據(jù),對基于MARC和基于DC的古籍元數(shù)據(jù)標(biāo)準(zhǔn)對比分析,最后對我國現(xiàn)行的古籍元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)中的問題提出自己的建議和想法。
關(guān)鍵詞:元數(shù)據(jù);圖書館;古籍;古籍?dāng)?shù)字化;古籍元數(shù)據(jù)
Digital Exploration of Ancient Books Based on Metadata
Xiao-jie liu
(zhengzhou library, zhengzhou 450000)
Abstract: In this paper, the related contents of ancient books metadata, first of all to our country ancient books digitization construction situation are described, and then by comparing the existing ancient metadata, based on ancient books of MARC and DC metadata standard comparison and analysis, the last of our current problems in ancient books metadata standard construction put forward his own Suggestions and ideas.
Keywords: Metadata;The library;Ancient books;Digitization of ancient books;Metadata of ancient books
古籍文獻作為圖書館文獻資源的一種形式,其不同于其他文獻資源的本質(zhì)特性,它記錄著我國五千年的歷史文化精髓,是我國悠久文化的文字記錄材料。而古籍文獻的文物特性也導(dǎo)致其保存難度大,甚至有些孤本、珍本的紙張已經(jīng)變質(zhì)變脆,大大影響了古籍的史料參考價值和閱讀價值,如何有效的保護好圖書館這些珍貴的古籍文獻,并將其提供給讀者使用,擴大古籍文獻的影響和魅力,是我們圖書館這些古籍收藏單位所面對的共同難題,而古籍文獻數(shù)字化就是一種保護和傳承古籍文獻的有效解決方法。
1 我國的古籍?dāng)?shù)字化建設(shè)現(xiàn)狀
我國古籍?dāng)?shù)字化取得的成果主要集中于古籍資源數(shù)據(jù)庫的建設(shè),主要包括古籍書目數(shù)據(jù)庫和古籍全文數(shù)據(jù)庫兩種。目前大部分古籍收藏單位都建立了古籍書目數(shù)據(jù)庫,同時還合作建立了一些古籍聯(lián)合目錄數(shù)據(jù)庫,如中國高等教育文獻保障系統(tǒng)古籍聯(lián)機編目、中國科學(xué)院古籍聯(lián)合書目數(shù)據(jù)庫等。古籍全文數(shù)據(jù)庫的建設(shè),大部分是各個圖書館依靠自己的特色古籍資源來建設(shè)古籍全文數(shù)據(jù)庫,同時還有一些研究機構(gòu)、出版機構(gòu)以及數(shù)據(jù)庫商業(yè)機構(gòu)在近幾年在不斷的探索和研究,建造了一批高質(zhì)量的古籍?dāng)?shù)字化全文數(shù)據(jù)庫,如中國基本古籍庫、漢籍全文數(shù)據(jù)庫、漢達(dá)文庫等。隨著科技的進步和古籍?dāng)?shù)字化的不斷發(fā)展,我國的古籍?dāng)?shù)字化已經(jīng)從簡單的文本轉(zhuǎn)換轉(zhuǎn)為信息的重組和發(fā)掘,而且從國家層面上開始建設(shè)中華古籍?dāng)?shù)字資源數(shù)據(jù)庫,2012年底,國家古籍保護中心啟動建設(shè)“中華珍貴典籍資源庫”,立足于《國家珍貴古籍名錄》,從中遴選出1115部珍貴古籍進行數(shù)字化,并積極研究推進資源的網(wǎng)上發(fā)布使用;同時著手加強與國際間的合作,以國際合作項目的模式來將流失海外的我國古籍文獻進行數(shù)字化,來增進國內(nèi)外古籍?dāng)?shù)字化的交流與合作,取得了一系列的成果如海外圖書館所藏古籍善本項目、中華古籍善本國際聯(lián)合書目數(shù)據(jù)庫等。
2 我國現(xiàn)有的古籍元數(shù)據(jù)標(biāo)準(zhǔn)及對比分析
元數(shù)據(jù)格式有很多種,在圖書館和Internet上廣泛應(yīng)用的元數(shù)據(jù)格式主要是機讀目錄格式(MARC)和都柏林核心元數(shù)據(jù)(Dublin Core),而且這兩種元數(shù)據(jù)格式在我國的古籍元數(shù)據(jù)建設(shè)中得到了廣泛應(yīng)用。
2.1 我國的古籍元數(shù)據(jù)標(biāo)準(zhǔn)
MARC機讀目錄格式可以對圖書、連續(xù)出版物、電子資源、樂譜、視聽資料等格式的文獻進行著錄,經(jīng)過不斷發(fā)展廣泛應(yīng)用于圖書館的編目著錄。中國機讀目錄格式(CNMARC)是我國常用的機讀目錄格式,其中具體有關(guān)古籍的應(yīng)用標(biāo)準(zhǔn)有:1)國家圖書館制定的《漢語文古籍機讀目錄格式使用手冊》;2)中國高等教育文獻保障系統(tǒng)(CALIS)制定的《CALIS古籍聯(lián)機合作編目規(guī)則》,CALIS古籍機讀目錄格式基本上和國圖的格式一致,二者一脈相承,都是MARC機讀目錄格式在古籍文獻著錄上的延伸和發(fā)展。
都柏林核心(DC)元數(shù)據(jù)是一種結(jié)構(gòu)化格式的元數(shù)據(jù),由標(biāo)題、作者、主體、出版者、描述、其他參與者、日期、類型、格式等15個元素組成,具有簡易性、通用性、可重復(fù)性和可擴展性等優(yōu)點。鑒于DC元數(shù)據(jù)的通用性和適用性,我國的一些機構(gòu)也在積極推進基于DC的古籍元數(shù)據(jù)建設(shè)工作,并制定了相關(guān)的元數(shù)據(jù)著錄規(guī)范,使用范圍比較廣的主要有:1)《我國數(shù)字圖書館標(biāo)準(zhǔn)與規(guī)范建設(shè)》項目(CDLS);2)中科院古籍?dāng)?shù)據(jù)庫的DC元數(shù)據(jù)格式,二者都是在DC元數(shù)據(jù)的基礎(chǔ)上進行了本地化修改,以適應(yīng)各自的古籍文獻著錄需求。
2.2 都柏林元數(shù)據(jù)與CNMARC對比分析
基于CNMARC和基于DC的古籍元數(shù)據(jù)在實際應(yīng)用中各有優(yōu)缺點,而哪一種格式在未來古籍元數(shù)據(jù)的發(fā)展中更有優(yōu)勢呢?我們通過橫向?qū)Ρ鹊姆绞絹韺C元數(shù)據(jù)、CDSL的古籍元數(shù)據(jù)、中科院的古籍元數(shù)據(jù)和CNMARC的各個核心元素字段進行對比,列出表1所示的對照表如下:
聯(lián)系各種元數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范,我們可以進行DC元數(shù)據(jù)和CNMARC在古籍元數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn)上的一些差異分析:
2.2.1 數(shù)據(jù)信息的描述能力分析
數(shù)據(jù)信息的描述能力主要從元數(shù)據(jù)的字段劃分和應(yīng)用來分析,只有字段劃分和應(yīng)用的科學(xué)合理,數(shù)據(jù)信息詳細(xì)明了才能體現(xiàn)出元數(shù)據(jù)的信息描述能力。從字段和元素劃分上看,CNMARC有9個大的字段塊,同時各個字段下可以劃分很多子字段,有些字段還可以重復(fù),從這方面看CNMARC的數(shù)據(jù)信息描述能力應(yīng)該非常強大,幾乎給人一種無所不容無所不能的感覺;反觀DC元數(shù)據(jù),僅僅十幾個核心元素,各元素下的子集相對于MARC也很有限。但是從實際應(yīng)用方面來看,在使用中CNMARC格式的書目記錄只使用了很少的一部分字段,通過對國圖數(shù)據(jù)的抽樣分析顯示,使用字段多于30個字段的書目記錄只有0.09%,而且80%以上的常用字段大概只有20個左右;DC元數(shù)據(jù)格式的元素數(shù)量雖說比較少,但是使用率非常高,基本上都是必備字段,在數(shù)據(jù)信息的描述能力上不輸于CNMARC。由此可以看出,雖說CNMARC的字段比較多,但是真正對讀者和館員有用的字段和方便資源檢索利用的字段卻很少,很多字段屬可有可無字段,在對古籍元數(shù)據(jù)應(yīng)用上,DC元數(shù)據(jù)要優(yōu)于CMARC元數(shù)據(jù)。
2.2.2 數(shù)據(jù)信息的內(nèi)容描述方式分析
從表1的對比中我們可以看到,在CNMARC中對資源信息的某個特征描述多在不同字段重復(fù),比如200的$f$g字段和7xx字段都是關(guān)于責(zé)任者和責(zé)任方式的字段;或者是某一特征分散在多個字段描述,比如200字段和51x字段都是題名相關(guān)信息。這就會產(chǎn)生兩方面的問題,一方面是元數(shù)據(jù)對同一描述特性冗余著錄,易導(dǎo)致元數(shù)據(jù)字段對某一特征的描述產(chǎn)生矛盾,數(shù)據(jù)通用性差,影響數(shù)據(jù)交換;另一方面相同的信息在不同的字段里被重復(fù)著錄,增加了著錄人員的工作量,更不便于用戶對有用信息的獲取。而DC元數(shù)據(jù)的同類信息全部集中在一個元素內(nèi),沒有這方面的影響。由于古籍著錄的特殊性,同類信息集中著錄更適合古籍著錄的要求,因此從數(shù)據(jù)信息的內(nèi)容描述方式上看,DC元數(shù)據(jù)的元素分類比較科學(xué)和人性化。
2.2.3 數(shù)據(jù)格式的可擴展性分析
擴展性分析方面,CNMARC和DC元數(shù)據(jù)的數(shù)據(jù)格式設(shè)計時都預(yù)留的有相關(guān)字段的擴展空間,如CNMARC的9xx字段就是館藏信息自定義字段,館員可以根據(jù)自己的需要自定義館藏字段;DC元數(shù)據(jù)的擴展也很簡單,就是在15個核心元素外,根據(jù)需要制定相應(yīng)的其他元素,CDLS的古籍元數(shù)據(jù)采用的就是這種做法,但是DC元數(shù)據(jù)基于先進的網(wǎng)絡(luò)技術(shù)和XML網(wǎng)絡(luò)傳輸語言,數(shù)據(jù)格式簡單易學(xué),可擴展性比CNMARC更好。
通過以上三方面的對比分析,我們可以看出DC元數(shù)據(jù)在對信息對象的描述能力和方式上都優(yōu)于CNMARC,在可擴展性和使用上也比CNMARC更好用,在進行古籍?dāng)?shù)字化建設(shè)時,DC元數(shù)據(jù)應(yīng)當(dāng)是首選的數(shù)字技術(shù)標(biāo)準(zhǔn)。
3 圖書館古籍的元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)的問題及對策
目前,我國古籍?dāng)?shù)字化進程發(fā)展了將近30年的時間,取得了相當(dāng)大的成績,這點我們都有目共睹,但是不可否認(rèn)的是,在元數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)方面,與國外相比我們?nèi)源嬖谥容^大的差距和問題,需要我們盡快解決。
3.1 統(tǒng)一元數(shù)據(jù)標(biāo)準(zhǔn),加快DC元數(shù)據(jù)本地化
DC元數(shù)據(jù)已經(jīng)在我國一些圖書館和企業(yè)得到了應(yīng)用,但是DC元數(shù)據(jù)本地化的問題一直沒有解決。本地化的問題主要體現(xiàn)在兩個方面:一方面體現(xiàn)在沒有標(biāo)準(zhǔn)化的DC元數(shù)據(jù)中文版本,現(xiàn)有的圖書館使用的基于DC元數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范主要是CDLS和中科院兩個版本,這些版本在古籍元數(shù)據(jù)規(guī)范上的定義差異性也很大,在具體應(yīng)用上存在很多空白;另一方面就是元素名稱及注釋的翻譯和理解不準(zhǔn)確,沒有規(guī)范統(tǒng)一的譯名,會對館員和用戶造成使用上的困擾,從側(cè)面說明了我國DC元數(shù)據(jù)在本地化的規(guī)范標(biāo)準(zhǔn)沒有很好地重視。這就需要我們盡快地制定統(tǒng)一的DC元數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)規(guī)范,形成內(nèi)容全面的古籍?dāng)?shù)字化元數(shù)據(jù)標(biāo)準(zhǔn),讓古籍元數(shù)據(jù)更好用、更實用,統(tǒng)一協(xié)調(diào)DC元數(shù)據(jù)本地化的標(biāo)準(zhǔn)規(guī)范建設(shè),統(tǒng)一元素譯名和定義注釋,從根本上解決DC元數(shù)據(jù)本地化的問題。
3.2 形成系統(tǒng)化的古籍元數(shù)據(jù)標(biāo)準(zhǔn)體系
我國現(xiàn)有的古籍?dāng)?shù)字化元數(shù)據(jù)標(biāo)準(zhǔn)的系統(tǒng)化程度比較低,主流的元數(shù)據(jù)標(biāo)準(zhǔn)數(shù)量少,且屬于各自為政各自發(fā)展自己的元數(shù)據(jù)標(biāo)準(zhǔn),相互之間缺乏有效的溝通交流,特別是MARC格式和DC格式的元數(shù)據(jù)通用問題,缺乏必要的骨架標(biāo)準(zhǔn)體系支撐。在這一方面,我國需要加快古籍?dāng)?shù)字化標(biāo)準(zhǔn)建設(shè)的同時積極推動古籍?dāng)?shù)字化元數(shù)據(jù)的標(biāo)準(zhǔn)體系建設(shè),加強溝通交流,同時鼓勵企業(yè)參與標(biāo)準(zhǔn)規(guī)范體系的建設(shè)實施,推動古籍元數(shù)據(jù)標(biāo)準(zhǔn)系統(tǒng)化規(guī)范化發(fā)展。
3.3 重視古籍元數(shù)據(jù)專業(yè)人才的培養(yǎng)
古籍元數(shù)據(jù)標(biāo)準(zhǔn)的建設(shè)是一項工作量浩大且技術(shù)繁雜的工作,需要大量專業(yè)人才保證古籍元數(shù)據(jù)標(biāo)準(zhǔn)體系的構(gòu)建和古籍?dāng)?shù)字化資源的建設(shè)。人才培養(yǎng)主要有兩個方面,一方面是學(xué)術(shù)研究人才培養(yǎng),應(yīng)當(dāng)在學(xué)校設(shè)立專門從事古籍?dāng)?shù)字化及古籍元數(shù)據(jù)標(biāo)準(zhǔn)研究的學(xué)科,開設(shè)古籍文獻學(xué)、數(shù)字化技術(shù)、計算機數(shù)據(jù)庫設(shè)計等課程;另一方面是專業(yè)的崗前職業(yè)培訓(xùn),從事古籍?dāng)?shù)字化及元數(shù)據(jù)加工地工作人員必須接受崗前培訓(xùn),在短期或中長期之內(nèi)通過指導(dǎo)培訓(xùn)掌握必要技能,經(jīng)考核合格后方可從事具體的實際工作。
4 結(jié)語
本文僅從古籍元數(shù)據(jù)建設(shè)的角度對古籍?dāng)?shù)字化工作進行了分析和探討,古籍?dāng)?shù)字化還有很多方面的工作,如古籍?dāng)?shù)字資源的共建共享、轉(zhuǎn)化利用以及宣傳推廣等。但是古籍元數(shù)據(jù)建設(shè)是古籍?dāng)?shù)字化中的一個重要環(huán)節(jié),是古籍?dāng)?shù)字化的基礎(chǔ)性建設(shè)工作,只有做好古籍元數(shù)據(jù)建設(shè)工作,才能將古籍?dāng)?shù)字化其他工作做得更好。
參考文獻
[1]郭秋福,江匯泉.MARC與DC元數(shù)據(jù)的對比分析[J].數(shù)字圖書館論壇,2008(4):39-43.
[2]耿秋紅.試論元數(shù)據(jù)——談DC元數(shù)據(jù)與MARC[J].現(xiàn)代情報,2004(7):94-95.
[3]高娟,劉家真.中國大陸地區(qū)古籍?dāng)?shù)字化問題及對策*[J].中國圖書館學(xué)報,2013(7):110-118.
[4]王雁行.以“中華古籍保護計劃”為依托建設(shè)國家古籍資源數(shù)據(jù)庫[J].國家圖書館學(xué)刊,2016(3):82-88.
作者簡介
劉小杰(1990-),女,河南鄭州,學(xué)士學(xué)位,助理館員,研究方向:圖書館學(xué)。