費佳
(中共南京市委黨校圖書館,江蘇南京 210046)
古籍在中華傳統(tǒng)文化傳承中發(fā)揮著重要的作用。國家對古籍保護高度重視,國務院辦公廳于2017年發(fā)布《關于進一步加強古籍保護工作的意見》(國辦發(fā)〔2007〕6 號),提出在“十一五”期間全面開展“中華古籍保護計劃”,并提出“制定古籍數(shù)字化標準,規(guī)范古籍數(shù)字化工作,建立古籍數(shù)字資源庫”的要求。黨的十七屆六中全會提出要“加強文化典籍整理和出版工作,推進文化典籍資源數(shù)字化”[1-2]。
民國文獻中大量文字記載了馬克思主義在中國的傳播歷程,記載了中國共產(chǎn)黨人的奮斗歷程和最終取得革命勝利的歷史,記載了中國近代社會的變遷,是中國共產(chǎn)黨帶領中國人民爭取民族獨立與解放的偉大見證,具有較高的歷史價值和學術價值。2012年,國家圖書館與國內(nèi)多家文獻收藏單位聯(lián)合推出“革命文獻與民國時期文獻保護計劃”,旨在加大民國文獻的保護力度。2016年,該計劃被列入《中華人民共和國國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃綱要》。2017年,被列入《國家“十三五”時期文化發(fā)展改革規(guī)劃綱要》和《文化部“十三五”時期文化發(fā)展改革規(guī)劃》[3]。
在國家實施“中華古籍保護計劃”和“民國時期文獻保護計劃”兩大保護計劃的背景下,對古籍和民國文獻實施原生性保護和再生性保護是一項重大舉措,開展雙重保護不僅有利于文獻原件的保存還有利于文獻內(nèi)容的傳播與利用[4]。
古籍保護的方式分為原生性保護和再生性保護兩種。原生性保護是指在維持原件完整性的前提下,對古籍實施修復、加固和優(yōu)化存放環(huán)境。再生性保護是指采用數(shù)字化等先進技術將古籍內(nèi)容轉(zhuǎn)移至其他載體,實現(xiàn)對古籍文獻的二次呈現(xiàn)與傳播。
數(shù)字化是再生性保護的重要手段。古籍數(shù)字化是指利用現(xiàn)代信息技術實現(xiàn)對古籍的加工處理,將原始文件轉(zhuǎn)化成電子數(shù)據(jù)形式,并通過光盤、網(wǎng)絡等介質(zhì)進行保存、傳播和利用[5]。
我國古籍數(shù)字化的發(fā)展經(jīng)歷了數(shù)據(jù)庫版、 光盤版、網(wǎng)絡版這3 個不同的階段。
第一階段,起源于20 世紀80年代,伴隨計算機技術的發(fā)展,借助計算機對古籍資料進行目錄檢索,并編制索引,以改進古籍的檢索方式。古籍數(shù)字化最初以書目數(shù)據(jù)庫的形式為主,它始于南京圖書館、浙江圖書館等省市級圖書館。古籍書目數(shù)據(jù)庫有設立書名目錄、著者目錄、分類目錄等,可以通過輸入古籍名檢索該古籍的全部版本,也可以通過輸入著者名檢索館藏全部相關書目。此后,又產(chǎn)生了全文數(shù)據(jù)庫,它將古籍全文錄入,轉(zhuǎn)化為電子文本,供用戶查閱,采用根據(jù)文獻內(nèi)容進行檢索的查詢手段。隨著時代的進步,在書目數(shù)據(jù)庫與全文數(shù)據(jù)庫發(fā)展的基礎上,又出現(xiàn)了綜合檢索系統(tǒng)。綜合檢索系統(tǒng)不僅實現(xiàn)了任意字、 詞和字符串的檢索,還實現(xiàn)了按條件檢索,拓寬檢索范圍,不僅能夠?qū)ξ谋竞蜁繖z索,也能對古籍的詞句、注釋、標題等內(nèi)容進行匹配檢索。
第二階段,起源于20 世紀90年代,出現(xiàn)了以光盤為載體,通過目錄進行查詢、瀏覽原文的影像頁的古籍文獻或古籍數(shù)據(jù)庫,所以又稱為光盤版古籍。光盤版古籍包括圖像版、全文版和圖文版3 種形式。武漢大學出版社以文淵閣本《四庫全書》作為底本,對全書兩百余萬頁內(nèi)容進行掃描識別,轉(zhuǎn)化為電子文件,共打造出150 張“四庫全書光盤版”資料。
第三階段,進入21 世紀,數(shù)字化技術全面推廣,古籍數(shù)字化實現(xiàn)了全文檢索功能。將古籍的全文錄入到數(shù)據(jù)庫系統(tǒng),通過文本與檢索項匹配,實現(xiàn)直接到段落的精確查找。同時實行網(wǎng)絡化,以各地區(qū)的圖書館為節(jié)點、 網(wǎng)絡為紐帶建立網(wǎng)上的聯(lián)合數(shù)據(jù)庫。2016年,“全國古籍普查登記基本數(shù)據(jù)庫”“中華古籍資源庫” 這兩個數(shù)據(jù)庫作為古籍保護項目成果開始投入使用,這意味著古籍影像和數(shù)據(jù)資源利用進入互聯(lián)網(wǎng)服務時代。就目前來看,中華古籍資源庫在線發(fā)布的古籍影像資源主要涵蓋: 國家圖書館藏善本和普通古籍、法國國家圖書館藏敦煌遺書、天津圖書館藏普通古籍等,資源總量3.3 萬余部。
近年來,國家圖書館聯(lián)合全國多家古籍收藏單位在線發(fā)布古籍數(shù)字資源。目前已舉辦了四次聯(lián)合在線發(fā)布活動,共在線發(fā)布古籍資源2.4 萬余部,供大眾閱覽和學術研究。
民國時期文獻是指1911年辛亥革命至1949年中華人民共和國成立這一特定歷史時期的各種文獻資料,包括圖書、期刊、報紙、手稿、檔案等。
民國時期文獻聯(lián)合目錄是“民國時期文獻保護計劃”工作的數(shù)據(jù)發(fā)布展示服務平臺,于2012年開發(fā)建設并投入使用。民國時期文獻聯(lián)合目錄匯集國家圖書館、首都圖書館、南京圖書館等22 家民國時期文獻普查成員館的民國時期圖書數(shù)據(jù)和館藏數(shù)據(jù),同時提供由國家圖書館數(shù)字化的民國時期圖書文獻全文掃描頁的閱覽服務,并提供該部分文獻的目次檢索。
為積極響應中央關于加強中華優(yōu)秀傳統(tǒng)文化傳承的號召,加強對館藏珍貴文獻的揭示和利用,發(fā)揮珍貴文獻的文化價值和社會服務功能,南京市委黨校圖書館計劃對館藏珍貴文獻(包括館藏古籍和民國文獻)開展數(shù)字化工作。
2.1.1 處理原則
國際圖書館協(xié)會聯(lián)合會( International Federation of Library Associations and Institutions,IFLA) 于1994年發(fā)布了 《圖書館資料保護與處理原則》。IFLA 強調(diào)了格式轉(zhuǎn)換對館藏文獻儲存工作的重要意義,且提出,操作者在進行轉(zhuǎn)換工作時務必謹慎小心,避免館藏文獻原件出現(xiàn)再次損害的情況。
《圖書館資料保護與處理原則》提醒操作者在格式轉(zhuǎn)換的前、中、后期都要注重文獻原件的保護。轉(zhuǎn)換前需要對原件的紙張、 裝幀、 破損等情況進行評估,判斷其是否適合轉(zhuǎn)換操作;轉(zhuǎn)換過程中,在確保文件原件完整的前提下對部分原件實施臨時修補,以提高格式轉(zhuǎn)換的質(zhì)量; 轉(zhuǎn)換成功后選取最佳的保存環(huán)境和方式,并對需要修復的部分實施正式修復。
國家古籍保護中心組織編制的《古籍數(shù)字化工作手冊》(試用本)對古籍數(shù)字化加工流程、古籍元數(shù)據(jù)著錄、圖像數(shù)字化、數(shù)據(jù)命名規(guī)范和數(shù)據(jù)發(fā)布利用等做了詳細規(guī)定。
2.1.2 數(shù)字化技術應用
數(shù)字化技術融合了最新科技手段,常用技術包括:古籍數(shù)字化輸入技術,該技術含拍照、非接觸式掃描和縮微膠片轉(zhuǎn)數(shù)字化技術;OCR 光學字符識別技術,該技術能夠借助OCR 軟件實現(xiàn)對古籍影像圖片的識別功能,提高文字轉(zhuǎn)化率;智能化處理技術,該技術是數(shù)據(jù)庫分析功能的核心,對成功識別的古籍信息單元進行重組,可提高古籍整理效率;現(xiàn)代化的網(wǎng)絡技術,該技術能夠為古籍數(shù)字化資源跨平臺、跨系統(tǒng)與統(tǒng)一檢索提供技術支撐等。
南京市委黨校圖書館館藏古籍和民國文獻的數(shù)字化方案流程見圖1。
圖1 數(shù)字化方案流程
2.2.1 文獻整理
在數(shù)字化工作開展前,依據(jù)《圖書館資料保護與處理原則》對館藏古籍和民國文獻的紙張、裝幀、破損、蟲蛀等情況進行評估,判斷哪些文獻需要進行適當?shù)呐R時加固、修補,確保較薄、破損、字跡較淺等紙張情況較差的文獻掃描圖像清晰,提高格式轉(zhuǎn)換的質(zhì)量。
2.2.2 掃描錄入
掃描模塊用于獲取文獻對應的電子圖像文檔。數(shù)字化過程中要求操作人員全程戴手套或使用指套,以避免汗?jié)n污染文獻。將館藏古籍和民國文獻使用免拆裝掃描裝置進行掃描錄入,以減少對書頁的損傷[6]。
2.2.3 圖像處理
參照國家古籍保護中心編制的《古籍數(shù)字化工作手冊》(試用本) 對圖像采集處理的要求來進行圖像處理,主要包括圖像的傾斜校正、去噪去污、剪裁、翻轉(zhuǎn)等,通過這些操作形成內(nèi)容完整、清晰干凈、版心正的圖像文檔。
2.2.4 文獻元數(shù)據(jù)和文件生成
對館藏古籍和民國文獻進行元數(shù)據(jù)編目和圖像文件合成處理,將加工文件進行字段標引和分類。
中國國家標準化管理委員會制定的《古籍著錄規(guī)則》(GB3792.7) 規(guī)定了古籍著錄項目及其排列順序、著錄用標識符號、著錄用文字、著錄信息源、專門的術語和特殊的著錄方法。北京大學圖書館負責研制的《國家圖書館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則》根據(jù)國家圖書館古籍情況制定了元數(shù)據(jù)規(guī)范和著錄規(guī)則,并以著錄實例對規(guī)范與規(guī)則加以具體闡釋與說明,以供參考借鑒。古籍著錄參照《古籍著錄規(guī)則》和《國家圖書館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則》進行。古籍分類按“經(jīng)、史、子、集”四部分類法進行。“經(jīng)史子集”是古人將古籍按內(nèi)容區(qū)分的四大部類。經(jīng):指經(jīng)書,儒家經(jīng)典著作;史:指史書,即正史;子:指先秦百家著作,宗教;集:指文集,即詩詞匯編[7-8]。
民國文獻目前沒有明確的著錄規(guī)則,參照中文圖書的《中國文獻編目規(guī)則》進行著錄。民國文獻的分類參照《中國圖書館圖書分類法》進行。
2.2.5 館藏古籍和民國文獻檢索數(shù)據(jù)庫
古籍和民國文獻數(shù)據(jù)庫以全文檢索為基礎,利用OCR 光學字符識別技術滿足全文圖像瀏覽的需求,實現(xiàn)全文檢索的目標。在系統(tǒng)中設置繁簡字體的智能轉(zhuǎn)換功能,便于識別讀者輸入的簡體文字,提高檢索系統(tǒng)的準確率,同時實現(xiàn)檢索定位功能,對已檢索的結果進行二次檢索[9]。
通過“書目檢索”菜單,用戶可以進行“直接檢索”和通過“高級檢索”鏈接進行組合檢索。用戶可選擇“題名”“著者”“出版年”等檢索項,以輸入的檢索詞進行檢索操作,也可選擇“中國圖書分類”的分類項作為單獨檢索或與“直接檢索”“高級檢索”一起參與檢索。
2.2.6 數(shù)字資源發(fā)布平臺
館藏古籍和民國文獻的數(shù)字資源提供在線共享服務,用戶可以檢索和瀏覽所有數(shù)字資源。數(shù)字資源發(fā)布管理系統(tǒng)支持內(nèi)容發(fā)布的自動化管理模塊,并提供全文檢索、導航檢索等多種檢索途徑。提供檢索界面、檢索語言、檢索結果和知識展示方式統(tǒng)一的一站式服務。
2.2.7 數(shù)據(jù)存儲與輸出
館藏古籍和民國文獻原始掃描圖像采用TIFF存儲,在保證掃描圖像清晰可讀的情況下,盡可能降低壓縮率,以減小存儲空間。館藏古籍和民國文獻目錄數(shù)據(jù)庫中的文件,都對應關聯(lián)圖像文件和PDF文件。
在中央實施“中華古籍保護計劃”和“民國時期文獻保護計劃”兩大保護計劃的背景下,對圖書館館藏古籍和民國文獻開展數(shù)字化保護工作,能充分發(fā)揮文獻的價值,促進中華優(yōu)秀傳統(tǒng)文化的傳承和發(fā)展。