徐 變 云
(咸陽(yáng)師范學(xué)院圖書(shū)館 咸陽(yáng) 712000)
數(shù)字圖書(shū)館進(jìn)程中的古籍?dāng)?shù)字化發(fā)展現(xiàn)狀研究*
徐 變 云
(咸陽(yáng)師范學(xué)院圖書(shū)館 咸陽(yáng) 712000)
結(jié)合數(shù)字圖書(shū)館的相關(guān)理論,總結(jié)古籍?dāng)?shù)字化的豐碩成果;指出古籍?dāng)?shù)字化存在的如資源重復(fù)建設(shè)、數(shù)字化格式繁多、數(shù)字產(chǎn)品價(jià)格昂貴等問(wèn)題;探索我國(guó)古籍?dāng)?shù)字化的發(fā)展趨勢(shì),即地域特色的古籍文獻(xiàn)與大部頭典籍是今后古籍?dāng)?shù)字化的主流;指出古籍?dāng)?shù)字化技術(shù)和相關(guān)政策法規(guī)將會(huì)更加完善。
數(shù)字圖書(shū)館 古籍?dāng)?shù)字化 趨勢(shì)
計(jì)算機(jī)技術(shù)在圖書(shū)館信息系統(tǒng)中的廣泛應(yīng)用,使傳統(tǒng)圖書(shū)館向新型圖書(shū)館轉(zhuǎn)型,圖書(shū)情報(bào)現(xiàn)代化進(jìn)入了一個(gè)新的發(fā)展時(shí)期,數(shù)字圖書(shū)館應(yīng)運(yùn)而生。數(shù)字圖書(shū)館,即將圖書(shū)館文獻(xiàn)信息以數(shù)字化的形式表現(xiàn)和獲得[1]。數(shù)字圖書(shū)館是圖書(shū)館現(xiàn)代信息技術(shù)發(fā)展的高級(jí)階段,代表著未來(lái)圖書(shū)館的發(fā)展方向。數(shù)字圖書(shū)館的功能之一即各種文獻(xiàn)內(nèi)容的數(shù)字化。古籍?dāng)?shù)字化就是從利用和保護(hù)古籍的目的出發(fā),采用計(jì)算機(jī)技術(shù),將常見(jiàn)的語(yǔ)言文字或圖形符號(hào)轉(zhuǎn)化為能被計(jì)算機(jī)識(shí)別的數(shù)字符號(hào),制作成古籍文獻(xiàn)書(shū)目數(shù)據(jù)庫(kù)和古籍全文數(shù)據(jù)庫(kù),用以揭示古籍文獻(xiàn)信息資源的一項(xiàng)系統(tǒng)工作[2]。古籍作為圖書(shū)館的特藏文獻(xiàn)和中華文明的瑰寶,其數(shù)字化是數(shù)字圖書(shū)館的重要組成部分,頗受人們關(guān)注。
1978年美國(guó)人P·J·Ivanhoe運(yùn)用計(jì)算機(jī)編制了《朱熹大學(xué)章句索引》、《朱熹中庸章句索引》、《王陽(yáng)明傳習(xí)錄索引》等,開(kāi)始了古籍索引編制的計(jì)算機(jī)實(shí)踐。臺(tái)灣從20世紀(jì)80年代開(kāi)始研發(fā)包括《二十五史(全文資料庫(kù))》、《阮刻十三經(jīng)注疏》在內(nèi)的大型古籍資源庫(kù)“翰典全文檢索系統(tǒng)”;1989年提出“數(shù)字典藏計(jì)劃”,其數(shù)字化包括善本古籍、金石拓片、古籍附圖、臺(tái)灣地方文獻(xiàn)及期刊報(bào)紙等。從1989年開(kāi)始,香港中文大學(xué)中國(guó)文化研究所開(kāi)展有關(guān)中國(guó)傳世典籍?dāng)?shù)據(jù)庫(kù)的研究工作,正式成立了“古文獻(xiàn)數(shù)據(jù)庫(kù)中心”(CHANTCenter),并先后推出《先秦兩漢古籍逐字索引叢刊》及《漢達(dá)古籍?dāng)?shù)據(jù)庫(kù)檢索系統(tǒng)》。自1999年起,香港中文大學(xué)再獲香港政府研究資助局撥款資助,開(kāi)始著手金文全文電腦化資料庫(kù)計(jì)劃,其主要資料來(lái)源于中國(guó)社會(huì)科學(xué)院考古所編著的《殷周金文集成》,總計(jì)收錄12 021件銅器上的銘文,14萬(wàn)字隸定釋文和另約100萬(wàn)字器物資料說(shuō)明[3]。大陸古籍?dāng)?shù)字化初期發(fā)展緩慢,成果甚少。上世紀(jì)90年代后,北京超星公司主持的“超星圖書(shū)館”,錄入了包括《古今圖書(shū)集成》、《二十五史》、《資治通鑒》、《清實(shí)錄》、《中國(guó)古典名著大系》等大量數(shù)字化全文。1999年底由上海世紀(jì)出版集團(tuán)上海人民出版社、香港迪志文化出版有限公司推出的《文淵閣四庫(kù)全書(shū)》電子版及之后推出的《四部叢刊》電子版,無(wú)論從規(guī)模還是技術(shù)上來(lái)說(shuō),都是史無(wú)前例的。另外北京大學(xué)《中國(guó)基本古籍光盤(pán)庫(kù)》,計(jì)劃收錄古籍1萬(wàn)種;國(guó)學(xué)公司推出了《國(guó)學(xué)寶典》等系列產(chǎn)品。截止2011年,網(wǎng)上可見(jiàn)的中文古籍?dāng)?shù)據(jù)庫(kù)約70多個(gè)。繼《四庫(kù)全書(shū)》與《古今圖書(shū)集成》全文數(shù)字化、甲骨文和金文全文資料庫(kù)之后,我國(guó)古籍?dāng)?shù)字化整理邁上了新臺(tái)階,以國(guó)家圖書(shū)館為首的各收藏單位也已開(kāi)始啟動(dòng)更大規(guī)模的古籍?dāng)?shù)字化工作。我國(guó)古籍?dāng)?shù)字化的代表性成果詳見(jiàn)《中文古籍?dāng)?shù)字化的進(jìn)展與主要成果述評(píng)》[4]一文。
從當(dāng)前古籍?dāng)?shù)字化的研究論文數(shù)量和發(fā)表時(shí)間來(lái)看,古籍?dāng)?shù)字化理論研究稍晚于古籍?dāng)?shù)字化實(shí)踐。20世紀(jì)90年代開(kāi)始,古籍?dāng)?shù)字化理論出現(xiàn);進(jìn)入21世紀(jì),古籍?dāng)?shù)字化研究成為熱點(diǎn),理論研究日趨成熟。這些論文主要包括古籍?dāng)?shù)字化發(fā)展概況、存在問(wèn)題、發(fā)展趨勢(shì);古籍?dāng)?shù)字化資源的開(kāi)發(fā)、共享和利用;古籍?dāng)?shù)字化技術(shù)研究,比較集中在古籍?dāng)?shù)字化的檢索系統(tǒng)、書(shū)目數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù);古籍?dāng)?shù)字化在中文、歷史學(xué)科中的重要作用;少數(shù)民族古籍?dāng)?shù)字化研究;古籍?dāng)?shù)字化的版權(quán)歸屬等方面。
目前,國(guó)內(nèi)古籍?dāng)?shù)字化碩果累累,理論研究方興未艾。古籍?dāng)?shù)字化是由多個(gè)學(xué)科互相結(jié)合、多方共同支持協(xié)調(diào)實(shí)現(xiàn)的,然而在其發(fā)展過(guò)程中仍存在諸多問(wèn)題。
2.1 資源重復(fù)建設(shè)
由于古籍?dāng)?shù)字化缺乏統(tǒng)一的規(guī)劃,無(wú)論是科研機(jī)構(gòu)還是商業(yè)公司,重復(fù)開(kāi)發(fā)古籍資源會(huì)造成不必要的人力、物力、財(cái)力資源浪費(fèi),如《四庫(kù)全書(shū)》和《二十五史》最少有4種以上電子版本[5]。《四庫(kù)全書(shū)》就有湖南電子音像出版社、岳麓書(shū)社與湖南華天集團(tuán)合作出版的全文檢索電子光盤(pán)版,武漢大學(xué)出版社出版的電子版,上海人民出版社與香港迪志文化發(fā)展公司聯(lián)合開(kāi)發(fā)的光盤(pán)版,臺(tái)灣“中央研究院”的電子版等。重復(fù)開(kāi)發(fā)古籍帶來(lái)的市場(chǎng)無(wú)序化問(wèn)題也逐漸顯現(xiàn)。
古籍資源的重復(fù)開(kāi)發(fā),所依據(jù)的古籍版本不盡相同,古籍?dāng)?shù)字化版本的選擇關(guān)乎古籍?dāng)?shù)字化的質(zhì)量。經(jīng)過(guò)長(zhǎng)時(shí)間的保存和流傳,古籍形成了不同的版本,如《草堂詩(shī)余》僅存世本就有35種之多[6]。古籍整理者必須掌握每本書(shū)的目錄版本,了解各種版本的優(yōu)缺點(diǎn),依據(jù)較好的版本作為??钡妆具M(jìn)行古籍整理。古籍?dāng)?shù)字化結(jié)束了把古籍“束之高閣”的命運(yùn),采用網(wǎng)絡(luò)、光盤(pán)、數(shù)據(jù)庫(kù)等形式將古籍內(nèi)容展現(xiàn)在讀者面前,擴(kuò)大了古籍的傳播面,其數(shù)字化產(chǎn)品更應(yīng)該精致準(zhǔn)確,盡可能減少訛誤,以免給讀者傳播錯(cuò)誤的信息,造成負(fù)面影響?;诖?,古籍的數(shù)字化整理,應(yīng)對(duì)古籍的版本做出嚴(yán)格篩選,數(shù)字化處理技術(shù)也要更加完備,以確保古籍?dāng)?shù)字化產(chǎn)品的質(zhì)量。一般來(lái)講,科研機(jī)構(gòu)、圖書(shū)館出于學(xué)術(shù)研究的需要,根據(jù)自身的知識(shí)涵養(yǎng)、職業(yè)經(jīng)驗(yàn),對(duì)古籍版本比較重視,開(kāi)發(fā)了學(xué)術(shù)性較強(qiáng)的數(shù)據(jù)庫(kù)或是有特色的館藏古籍?dāng)?shù)據(jù)庫(kù),如中國(guó)社科院文學(xué)研究所的《元代文獻(xiàn)數(shù)據(jù)庫(kù)》、《<紅樓夢(mèng)>研究資料數(shù)據(jù)庫(kù)》,國(guó)家圖書(shū)館的《國(guó)圖善本古籍書(shū)目數(shù)據(jù)庫(kù)》、《國(guó)圖普通古籍書(shū)目數(shù)據(jù)庫(kù)》、上海圖書(shū)館的《上圖藏宋元善本全文資源庫(kù)》、西安交通大學(xué)的《西安交通大學(xué)古籍特藏》、廣西壯族自治區(qū)圖書(shū)館的《太平天國(guó)史料庫(kù)》等。而商業(yè)性的數(shù)字出版公司,為了迎合市場(chǎng)的需求,多選擇讀者普遍喜歡的大型叢書(shū)或已經(jīng)整理好的經(jīng)典文獻(xiàn),如北京書(shū)同文數(shù)字化技術(shù)有限公司開(kāi)發(fā)的“文淵閣《四庫(kù)全書(shū)》”全文檢索電子版光盤(pán)、《四部叢刊》、《康熙字典》,加利華公司制作的《唐詩(shī)三百首》光盤(pán)、《宋詞三百首》光盤(pán)。這些古籍是已經(jīng)整理過(guò)的文獻(xiàn),其所采用的版本已經(jīng)很難查詢(xún),讀者在閱讀時(shí)要仔細(xì)甄別,慎重引用。
2.2 缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,數(shù)字化格式五花八門(mén)
我國(guó)地域廣博,古籍?dāng)?shù)量眾多,古籍?dāng)?shù)字化任重道遠(yuǎn)。古籍?dāng)?shù)字化還未達(dá)成共識(shí),開(kāi)發(fā)單位眾多,各自為政,造成數(shù)字化格式五花八門(mén),且互不兼容。撇開(kāi)數(shù)字化產(chǎn)品的存儲(chǔ)格式和系統(tǒng)標(biāo)準(zhǔn)不說(shuō),僅閱讀器一項(xiàng),目前常見(jiàn)的有txt、doc、html、exe、pdf、wdl、pdg、ceb、ebk、edb、nlc、chm、xml等格式。讀者在閱讀不同開(kāi)發(fā)者的古籍電子版時(shí)需要下載不同的閱讀器,給學(xué)習(xí)、科研造成諸多不便;對(duì)于數(shù)據(jù)共享也是一大障礙,直接影響了古籍?dāng)?shù)字化產(chǎn)品的使用性能。
2.3 價(jià)格昂貴,制約了消費(fèi)市場(chǎng)
盡管古籍?dāng)?shù)字化蓬勃發(fā)展,前景可觀,但其所耗費(fèi)的人力、古籍資源、技術(shù)成本高,造成數(shù)字化產(chǎn)品費(fèi)用昂貴。如中國(guó)知網(wǎng)的《國(guó)學(xué)寶典數(shù)據(jù)庫(kù)》是一套中華古籍全文資料檢索系統(tǒng),收錄了上起先秦、下至清末兩千多年的所有用漢字作為載體的歷代典籍?!秶?guó)學(xué)寶典》每年的包庫(kù)費(fèi)昂貴,只有高校圖書(shū)館和科研單位有能力購(gòu)買(mǎi);對(duì)于個(gè)人用戶(hù)而言,尤其是從事文史方面的研究人員來(lái)講只能望洋興嘆。因此,古籍?dāng)?shù)字化產(chǎn)品只能局限在一定的區(qū)域范圍內(nèi),很難實(shí)現(xiàn)其大眾性、通用性功能,難以滿(mǎn)足個(gè)人用戶(hù)的需求,制約了古籍?dāng)?shù)字化產(chǎn)品市場(chǎng)的擴(kuò)大。
古籍?dāng)?shù)字化過(guò)程中,還存在諸多問(wèn)題,如怎樣實(shí)現(xiàn)古籍電子版的版本保存、怎樣解決字形混亂的現(xiàn)象,從技術(shù)上維持古籍原貌;古籍電子版的共享與利用;電子版古籍的法人歸屬;古籍?dāng)?shù)字化技術(shù)人員缺失,急需既懂古籍知識(shí)又精通計(jì)算機(jī)技術(shù)的復(fù)合型人才;古籍分類(lèi)法如何統(tǒng)一等。
從當(dāng)前古籍?dāng)?shù)字化成果看,大部頭典籍倍受青睞,如《四部叢刊》、《四庫(kù)全書(shū)》、《永樂(lè)大典》、《古籍圖書(shū)集成》、《全唐詩(shī)》等;今后,它們依舊是古籍?dāng)?shù)字化的主流,而且會(huì)更加專(zhuān)業(yè)化、系列化,數(shù)據(jù)庫(kù)質(zhì)量更加精良,檢索系統(tǒng)更便捷,使用更放心。
總結(jié)古籍?dāng)?shù)字化的經(jīng)驗(yàn)教訓(xùn),古籍?dāng)?shù)字化的選題至關(guān)重要,特色古籍?dāng)?shù)據(jù)庫(kù)成為新的熱點(diǎn)。一些有地方特色的古籍近年來(lái)也被納入數(shù)字化的視線(xiàn)。地方圖書(shū)館或古籍開(kāi)發(fā)者應(yīng)著眼于本地區(qū)的歷史、地域特色,選題堅(jiān)持“人無(wú)我有”、“人有我專(zhuān)”的原則。如中國(guó)農(nóng)業(yè)大學(xué)的《農(nóng)書(shū)古籍圖片數(shù)據(jù)庫(kù)》;北京中醫(yī)藥大學(xué)的《館藏中醫(yī)古籍?dāng)?shù)據(jù)庫(kù)》;陜西師范大學(xué)的《西北地方志數(shù)據(jù)庫(kù)》、《歷史地理學(xué)科文獻(xiàn)數(shù)據(jù)庫(kù)》;西北大學(xué)的《館藏古籍書(shū)目數(shù)據(jù)庫(kù)》;西安交通大學(xué)的《古籍特藏?cái)?shù)據(jù)庫(kù)》;江蘇古籍出版社的《江蘇地方文獻(xiàn)叢書(shū)》;蘇州圖書(shū)館《地方文獻(xiàn)數(shù)據(jù)庫(kù)》包括蘇州名人、老照片、古籍閱覽以及民間文藝等內(nèi)容;浙江古籍出版社的《兩浙文獻(xiàn)叢編》、《浙藏稿本叢刊》;紹興圖書(shū)館開(kāi)發(fā)的《紹興方志數(shù)據(jù)庫(kù)》收錄了中國(guó)方志史上的重要作品如《(嘉泰)會(huì)稽志》、《(寶慶)續(xù)會(huì)稽志》、《(萬(wàn)歷)紹興府志》、《(乾隆)紹興府志》等,并與紹興其他歷代方志一起構(gòu)建了獨(dú)具特色的古籍?dāng)?shù)據(jù)庫(kù);中山圖書(shū)館的《廣東地方志》包括族譜等。高校圖書(shū)館應(yīng)發(fā)揮自身的人才、資源、技術(shù)優(yōu)勢(shì),結(jié)合本館的特藏文獻(xiàn),本地的歷史文化與風(fēng)土人情,開(kāi)發(fā)特色古籍?dāng)?shù)據(jù)庫(kù)。筆者認(rèn)為,未來(lái)古籍?dāng)?shù)字化發(fā)展趨勢(shì)是地域特色的古籍文獻(xiàn)與大部頭典籍并駕齊驅(qū)。從學(xué)科建設(shè)來(lái)看,古籍?dāng)?shù)字化產(chǎn)品主要集中在文、史、哲方面,自然科學(xué)類(lèi)的古籍資源本身就少,且散見(jiàn)于其他史料中,整理起來(lái)難度大,但其實(shí)用價(jià)值高,如古代天文、歷法、算術(shù)等,應(yīng)逐步整理開(kāi)發(fā)。
同時(shí),古籍?dāng)?shù)字化技術(shù)也在不斷完善。目前,國(guó)內(nèi)缺少一個(gè)統(tǒng)一的古籍?dāng)?shù)據(jù)庫(kù)平臺(tái),導(dǎo)致古籍重復(fù)開(kāi)發(fā),電子版本多,多種數(shù)字化格式并存,制約了古籍?dāng)?shù)字化向科學(xué)有序的方向發(fā)展。因此,打造一個(gè)統(tǒng)一的數(shù)據(jù)庫(kù)共享平臺(tái),將是古籍?dāng)?shù)字化發(fā)展的最終目標(biāo)。漢字字庫(kù)也在不斷完善中。由于古籍最關(guān)鍵的技術(shù)是繁體字如何展現(xiàn)、貯存,繁簡(jiǎn)字的轉(zhuǎn)化和使用等問(wèn)題,GB2312-80和GBK標(biāo)準(zhǔn)難以達(dá)到古籍字庫(kù)的用字量需求,而Unicode字符集含字廣泛,基本解決了古籍的用字量問(wèn)題。將古籍用掃描的方法錄入電腦,是古籍?dāng)?shù)字化的最佳途徑。OCR自動(dòng)識(shí)別技術(shù)能夠成功地將文字的手工錄入轉(zhuǎn)變?yōu)樽詣?dòng)錄入,但由于古籍文獻(xiàn)字體本身的復(fù)雜性,OCR的識(shí)別率低,技術(shù)有待于提高。隨著古籍?dāng)?shù)字化的發(fā)展和古籍書(shū)目數(shù)據(jù)庫(kù)的建立,古籍?dāng)?shù)字化的檢索系統(tǒng)、分類(lèi)標(biāo)準(zhǔn)也在不斷完善中。
古籍?dāng)?shù)字化不僅需要科研機(jī)構(gòu)、高校圖書(shū)館、數(shù)字出版公司的參與,它還涉及到社會(huì)的方方面面,需要大家共同關(guān)注。國(guó)家要對(duì)古籍?dāng)?shù)字化進(jìn)行統(tǒng)一規(guī)劃,建立古籍?dāng)?shù)字化共享平臺(tái)和古籍聯(lián)合書(shū)目數(shù)據(jù)庫(kù),實(shí)現(xiàn)古籍檢索網(wǎng)絡(luò)化;在技術(shù)上要建立古籍?dāng)?shù)字化整理的標(biāo)準(zhǔn)和規(guī)范,如古籍?dāng)?shù)字化后應(yīng)能保持字體原貌;培養(yǎng)新型古籍整理人才,使古籍整理從理論到實(shí)踐、從人才到技術(shù),都朝著科學(xué)有序的方向發(fā)展。
[1] 王大可. 數(shù)字圖書(shū)館[M]. 深圳:海天出版社,2002:15.
[2] 毛建軍. 古籍?dāng)?shù)字化的概念與內(nèi)涵[J]. 圖書(shū)館理論與實(shí)踐,2007(4):82-84.
[3] 郝淑東,張 亮,馮 睿.古籍?dāng)?shù)字化的發(fā)展概述[J].情報(bào)探索,2007(7):114-116.
[4] 吳家駒. 中文古籍?dāng)?shù)字化的進(jìn)展與主要成果述評(píng)[J]. 南京師范大學(xué)文學(xué)院學(xué)報(bào),2004(3):178-183.
[5] 王立清. 略論我國(guó)古籍?dāng)?shù)字化的選題[J]. 圖書(shū)情報(bào)工作,2005(3):62-64.
[6] 劉軍政. 明代《草堂詩(shī)余》版本述略[J]. 南京師范學(xué)院學(xué)報(bào),2004(2):49-54.
ResearchontheDigitizationofAncientBooksintheDevelopmentofDigitalLibraries
Xu Bianyun
Xianyang Normal University Library,Xianyang 712000, China
The present article summarizes the great achievements in digitization of ancient books by using the related theory of digital libraries and meanwhile reveals some problems such as duplicated construction of resources,too many formats of digitization and high price of the digital products. It also studies the developmental trend of the digitization of Chinese ancient books and points out that digitization of the ancient literature with local features and voluminous books will become the mainstream and that digital technology and the related policies and regulations will be further improved.
digital library; digitization of ancient books; trend
G255.1
徐變?cè)疲?981年生,研究生,助理館員,研究方向?yàn)榈胤焦偶恚l(fā)表論文4篇。
*本文系咸陽(yáng)師范學(xué)院專(zhuān)項(xiàng)科研計(jì)劃項(xiàng)目“數(shù)字圖書(shū)館進(jìn)程中的圖書(shū)館古籍?dāng)?shù)字化發(fā)展研究”(項(xiàng)目編號(hào):11XSYK343)研究成果之一