■阮曉東
古籍?dāng)?shù)據(jù)庫利用探索
■阮曉東
我國的中文古籍?dāng)?shù)字化工作自20世紀(jì)80年代以來逐步推進(jìn),并取得了較為顯著的成果。先后建成了一系列大、中型古籍?dāng)?shù)據(jù)庫,具有代表性的如《古今圖書集成》數(shù)據(jù)庫、《文淵閣四庫全書》電子版、《中國基本古籍庫》、書同文全文檢索系統(tǒng)。這些數(shù)據(jù)庫,為文史工作者進(jìn)行學(xué)術(shù)研究提供了極大的便利。
而作為圖書館工作者,則可以利用這些古籍?dāng)?shù)據(jù)庫,進(jìn)行本館特色資源的開發(fā)和建設(shè),或編制專業(yè)工具書等,收到事半功倍的效果,對此我們做了一些探索。
古籍?dāng)?shù)據(jù)數(shù)字化形式主要有古籍書目型、全文型、全圖像型和圖文型。
古籍書目型數(shù)據(jù)庫是最早建立起來的有關(guān)古籍資料的數(shù)據(jù)庫,只能說是古籍?dāng)?shù)字化的雛形。它將館藏古籍的書目、著者、分類、索引等信息錄入計(jì)算機(jī)而形成,其代表是南京圖書館建立的中文古籍書目數(shù)據(jù)庫,共收錄了40萬條數(shù)據(jù)。再有是我國清華、北大兩所高校各自編撰的館藏古籍書目數(shù)據(jù)庫,其資源庫投入使用后,極大的方便了讀者。
全文型古籍?dāng)?shù)據(jù)庫是通過手工或者掃描錄入古籍資源,形成電子文本,供用戶查詢。優(yōu)點(diǎn)便于閱讀,便于檢索,儲(chǔ)備量大且存儲(chǔ)空間小,缺點(diǎn)文字錄入艱難,無古籍原貌。其代表可見臺(tái)灣的漢籍全文資料庫。
全圖像型古籍?dāng)?shù)據(jù)庫是直接通過掃描,以圖片格式,配以標(biāo)引,再進(jìn)行分類存儲(chǔ),目前是各大圖書館采用最多的手段。優(yōu)點(diǎn)是保存古籍原貌,缺點(diǎn)是檢索困難。其代表為武漢大學(xué)出版社以文淵閣本《四庫全書》為底本的“四庫全書光盤版”。南京圖書館2010年推出的《中國近代文獻(xiàn)圖像數(shù)據(jù)庫》,目前已匯集中華民國時(shí)期文獻(xiàn)中的圖片十余萬幅。
圖文型古籍?dāng)?shù)據(jù)庫是在存儲(chǔ)古籍圖像基礎(chǔ)上,將書中具有檢索內(nèi)容數(shù)字化,借助軟件工具,讀者可以快捷的查詢。
全文圖像型,是通過光學(xué)掃描,獲得古籍的原始影像,再經(jīng)過修正、標(biāo)引、編輯等工序,將此影像直接存入數(shù)據(jù)庫中。這種數(shù)據(jù)庫,其制作優(yōu)勢是方便快捷,不必對古籍文字進(jìn)行錄入、識(shí)別和校對,且其內(nèi)容完整,原汁原味。缺點(diǎn)也很明顯,它其實(shí)就是紙本圖書的圖像版。雖然有一些輔助檢索功能,但檢索點(diǎn)少,實(shí)用性不高。
全文檢索型,其制作方式,一是通過人工文字錄入,獲得可以任意編輯的文本文字,這是目前采用的主要方式。二是通過光學(xué)掃描后,采用文字識(shí)別軟件,對掃描出的原書圖像進(jìn)行分析和識(shí)別,產(chǎn)生可編輯的文本文字。由于古籍印刷方式多樣,且字體差異大,并含有異體字,缺筆避諱字等,采用通用文字識(shí)別軟件進(jìn)行識(shí)別極為困難,除非花高價(jià)專門設(shè)計(jì)針對特定圖書的文字識(shí)別軟件,因此無法普及。
總之,全文檢索型古籍?dāng)?shù)據(jù)庫制作困難,要進(jìn)行大量的文字錄入、校對等人工勞動(dòng),費(fèi)工費(fèi)力,造價(jià)昂貴。但其優(yōu)勢也極為明顯,即可以進(jìn)行任意字詞的全文檢索,實(shí)現(xiàn)查全查準(zhǔn),這是古籍電子資源最重要的優(yōu)點(diǎn)之一。
當(dāng)前,大大小小的古籍?dāng)?shù)據(jù)庫層出不窮,為我們利用古籍?dāng)?shù)據(jù)庫制作圖書館特色數(shù)字資源和編制專業(yè)工具書提供了極好的條件。而要合理地利用古籍?dāng)?shù)據(jù)庫,首先需要對其進(jìn)行科學(xué)的選擇。我們的選取原則,是優(yōu)先選擇大、中型全文檢索型數(shù)據(jù)庫。
以南京圖書館的中文電子文獻(xiàn)為例,目前我們可以獲得的古籍全文檢索型數(shù)據(jù)庫如下:
《瀚堂典藏》古籍?dāng)?shù)據(jù)庫:此數(shù)據(jù)庫采用大字符集和通用瀏覽器模式。以小學(xué)工具類、古代類書類數(shù)據(jù)、出土文獻(xiàn)類數(shù)據(jù)為基礎(chǔ),大量納入包括經(jīng)、史、子、集四部、中醫(yī)藥典籍、古典戲曲、敦煌文獻(xiàn)、儒、釋、道等歷代傳世文獻(xiàn),文字總量超過15億字,篇幅驚人。
《瀚堂近代報(bào)刊》數(shù)據(jù)庫:這是瀚堂公司推出的另一大型數(shù)據(jù)庫。到2011年,全庫數(shù)據(jù)總量約300萬筆,圖文對應(yīng)的報(bào)刊圖片近80萬幀。并匯集了300多種清末至民初的報(bào)紙和刊物。
《瀚堂典藏》新增分庫:這是瀚堂公司2010年推出的《古本小說》分庫,收錄唐以前至民國初年的志人類、志怪類、傳奇類、話本類、章回類、短篇類等,文言、白話小說書目約400種。
《文淵閣四庫全書》電子版:清代乾隆年間編纂的《四庫全書》,是中國古代最大的一部叢書。其電子版共收書3461種,總字?jǐn)?shù)約七億字,全書分為經(jīng)、史、子、集四部,內(nèi)容涵蓋廣博,包括哲學(xué)、歷史、文藝、政治、社會(huì)、經(jīng)濟(jì)、軍事、法律、醫(yī)學(xué)、天文、地理、算學(xué)、生物學(xué)、農(nóng)業(yè)、占卜等。
中國基本古籍庫:分為4個(gè)子庫、20個(gè)大類和100個(gè)細(xì)目,共收錄上自先秦,下迄民國的歷代名著和各學(xué)科基本文獻(xiàn)一萬種,每種均提供一個(gè)通行版本的數(shù)碼全文,和1-2個(gè)珍貴版本的原版影像。總計(jì)收書約17萬卷,版本12500多個(gè),全文17億字,影像1200萬頁。
書同文全文檢索系統(tǒng):南京圖書館試用其全文檢索產(chǎn)品有:《大清五部會(huì)典》《大清歷朝實(shí)錄》《四部叢刊》及增補(bǔ)、《歷代石刻史料匯編》和《十通》等。
此外,還有南京圖書館自建的館藏古籍全文數(shù)據(jù)庫等。
上述這些大、中型全文檢索型數(shù)據(jù)庫,我們可以在館內(nèi)直接獲取,而無需付出任何費(fèi)用,尤其是其中的大型全文檢索型數(shù)據(jù)庫,是我們編輯專業(yè)工具書,制作特色數(shù)據(jù)庫的主要工具。
這里以《文淵閣四庫全書》電子版的利用為例,探討編輯《中華大典·軍事典》和制作“金陵掌故”特色數(shù)據(jù)庫的方法和技巧。
1、編撰《中華大典》的實(shí)踐和體會(huì):《中華大典》是國家“十一五”時(shí)期文化發(fā)展規(guī)劃綱要的重要項(xiàng)目。這部類書巨著,共設(shè)24個(gè)分類典。其中《中華大典·軍事典》的編纂工作,于2009年4月正式啟動(dòng)。
《軍事典》共設(shè)6個(gè)分典,其中《軍事人物分典》,由南京政治學(xué)院擔(dān)負(fù)編纂任務(wù),南京圖書館是其合作單位。這也是南京圖書館為科研單位提供高端服務(wù)的一次有益嘗試。《軍事人物分典》內(nèi)容涉及上迄先秦,下至辛亥革命的數(shù)千年的軍事人物,以及浩如煙海的歷史典籍。
編輯《軍事人物分典》這一類專業(yè)工具書,首先必須從成千上萬種古籍中篩選出最核心的善本典籍,制定為專用書目,從而為古籍的使用劃定一個(gè)科學(xué)合理的范圍。以后還可以根據(jù)專用書目,查找原始的善本資料。而單純用人工方式,通過對紙質(zhì)文獻(xiàn)進(jìn)行逐類逐種篩選,其工作量驚人,且難以全面準(zhǔn)確地查出所有核心文獻(xiàn)。我們采用《文淵閣四庫全書》電子版,輔以其它古籍?dāng)?shù)據(jù)庫,再通過對原始古籍的檢索查詢,較好地完成了編制專用書目的任務(wù)。
《文淵閣四庫全書》電子版界面友好,易學(xué)易用,除了支持全文檢索,可以進(jìn)行整段、片段甚至單個(gè)字詞查詢,還具有一些實(shí)用而重要的功能,例如原始文獻(xiàn)對照功能。用戶在閱讀文本文檔時(shí),可以隨時(shí)調(diào)閱原始的掃描影像,進(jìn)行對比校對,有利于保證文字的正確性。還有單種文獻(xiàn)查詢功能,即可以針對某一類型甚至某一種書進(jìn)行全文查詢,即提高了檢索結(jié)果的單純性,也提高了檢索速度。此外,《文淵閣四庫全書》電子版不僅有網(wǎng)絡(luò)版,也有單機(jī)版,便于用戶在圖書館以外的地方獨(dú)立工作。這些優(yōu)點(diǎn),使我們可以在較短時(shí)間內(nèi)組織專人,利用此數(shù)據(jù)庫進(jìn)行所需的加工制作。
以我們負(fù)責(zé)的魏晉南北朝時(shí)期為例。按計(jì)劃,選有軍事人物約150人。我們選擇了其中的重要人物30余名,將其姓名逐個(gè)輸入“四庫全書”數(shù)據(jù)庫中,進(jìn)行查檢。例如曹操,以其本名及魏武、魏公、阿瞞等作為檢索詞,搜得相關(guān)結(jié)果一萬余條。逐條閱讀,以篩選出包含重要內(nèi)容的古籍,再經(jīng)參照其他古籍?dāng)?shù)據(jù)庫,得出用于魏晉南北朝時(shí)期的專用書目。其中經(jīng)類書25種,史類書140種,子類書90種,集類書100種。最后,再從館藏中查找出列入書目中的較好版本的古籍,完成通用書目的編制。
通用書目完成后,即可進(jìn)行軍事人物詞條的檢索和選取。同樣,以曹操的相關(guān)稱謂為檢索詞,分別從經(jīng)、史、子、集四部得到相關(guān)記錄。其中僅曹操一詞即檢出四千余條記錄。逐條篩選,獲得時(shí)間早、內(nèi)容豐富、罕見的條目,而剔除大量簡單重復(fù)的記錄。
這些極大檢索量的工作,采用手工勞動(dòng)方式是無法完成的。
2、制作《金陵掌故》全文數(shù)據(jù)庫的實(shí)踐和體會(huì):《金陵掌故》數(shù)據(jù)庫是我們初步開發(fā)的一個(gè)地方文獻(xiàn)數(shù)據(jù)庫。其收錄范圍,涉及上古到清代與南京有關(guān)的盡可能多的文獻(xiàn),包括圖書(含單篇文章)庫和詞條庫兩部分。其內(nèi)容以地理、歷史、風(fēng)俗及與之相關(guān)的人物、故實(shí)為主。數(shù)據(jù)庫按分類組織,支持全文檢索,其文字可以任意復(fù)制和編輯。
初期制作中,我們從《四庫全書》電子版等古籍?dāng)?shù)據(jù)庫中,提取相關(guān)古籍電子資源,如《景定建康志》《江南野史》《至大金陵新志》《金陵百詠》《六朝事跡編類》等數(shù)十種,另制定了掃描計(jì)劃,擬將一些沒有電子文本的南京地區(qū)的地方文獻(xiàn)進(jìn)行文字錄入,與現(xiàn)有電子文獻(xiàn)共同形成文本型的圖書庫。
詞條庫部分,設(shè)置歷史、地理、風(fēng)俗、人物,文學(xué)等大類,其下再逐級設(shè)置二級和三級等類目,進(jìn)行深度的細(xì)分。例如地理類的,則按傳統(tǒng)方式,設(shè)置城邑、山陵、湖沼、河流、樓臺(tái)等二級類目,以及各自的三級乃至四級類目。
詞條的選取方法,首先是利用《四庫全書》電子版等古籍?dāng)?shù)據(jù)庫,對相關(guān)詞條進(jìn)行搜索、比對,選擇出最原始,或內(nèi)容最豐富的詞條。最后根據(jù)預(yù)先制定的標(biāo)引規(guī)則進(jìn)行標(biāo)引。在此搜檢過程中,還可能不斷發(fā)現(xiàn)和充實(shí)新詞條,使特色數(shù)據(jù)庫更加完善。限于篇幅,這里就不詳述了。
需要注意的是,現(xiàn)行古籍?dāng)?shù)據(jù)庫的古籍,絕大多數(shù)未斷句和加標(biāo)點(diǎn)。而我們據(jù)此制作的特色數(shù)據(jù)庫,考慮到普及性和可讀性等因素,需要斷句和加上句號、逗號等基本標(biāo)點(diǎn)。這是一項(xiàng)嚴(yán)肅且較為艱難的工作。應(yīng)直接套用中華書局及各省正規(guī)古籍出版單位出版的標(biāo)點(diǎn)本同一圖書,進(jìn)行斷句和標(biāo)點(diǎn)。確實(shí)沒有合格的同一紙質(zhì)文獻(xiàn),再考慮聘請專家,進(jìn)行標(biāo)點(diǎn)工作。
近幾年來,我國古籍電子資源建設(shè)的步伐不斷加速,2011年,文化部發(fā)布了《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的通知》,要求加快古籍的數(shù)字化建設(shè)。2012年5月,文化部主辦了“全國古籍?dāng)?shù)字化建設(shè)與服務(wù)工作研討會(huì)”,對全國古籍?dāng)?shù)字化合作服務(wù)機(jī)制、國內(nèi)外古籍?dāng)?shù)字化保護(hù)利用、古籍?dāng)?shù)字化成果共享方式和古籍?dāng)?shù)字化標(biāo)準(zhǔn)規(guī)范等問題進(jìn)行了研究,并提出了要求。國家古籍保護(hù)中心和各省級古籍保護(hù)中心進(jìn)行了規(guī)模宏大的中華古籍?dāng)?shù)字資源庫的建設(shè)。
長期以來,圖書館大量投資,致力于古籍?dāng)?shù)據(jù)庫的購置和自建,供用戶科研學(xué)習(xí)之用,而對圖書館自身如何利用這類數(shù)據(jù)庫,制作二三次文獻(xiàn)或特色數(shù)據(jù)庫,乃至進(jìn)行其它電子資源的開發(fā),似并未加以關(guān)注。特撰寫此文,拋磚引玉,希望引起同仁們的廣泛重視,從而使大量涌現(xiàn)的古籍?dāng)?shù)據(jù)庫不僅是用戶學(xué)術(shù)研究的工具,也是圖書館工作者拓展服務(wù)的利器。