計思誠(云南省圖書館)
2017年2月28日,國家圖書館(國家古籍保護中心)與上海圖書館、天津圖書館、浙江圖書館、云南省圖書館等4家單位在國家圖書館首次聯(lián)合在線發(fā)布古籍數(shù)字資源,本次發(fā)布的古籍資源均為各館所藏特色資源,加上此前已發(fā)布資源,總量達到2.4萬部,讀者實名注冊后便可免費查閱使用。本文在前人研究討論的基礎(chǔ)上,結(jié)合《國家珍貴古籍名錄》數(shù)字化實踐中的體會,對數(shù)字化過程中出現(xiàn)的問題作出分析、總結(jié)。
從2008年3月1日第一批《國家珍貴古籍名錄》開始公布,到2016年3月27日公布的第五批,我國已公布《國家珍貴古籍名錄》12,274部。國家珍貴古籍包括甲骨文、簡帛古籍、敦煌遺書、宋至清漢文古籍、少數(shù)民族文字古籍、碑帖拓本、輿圖和外國文字古籍等,是最珍貴、最具代表性的中華民族典籍文化遺產(chǎn)。云南省內(nèi)共14家古籍存藏單位及個人共235部珍貴古籍入選《國家珍貴古籍名錄》,包括漢文珍貴古籍174部,少數(shù)民族珍貴古籍61部。在漢文珍貴古籍里,有現(xiàn)存云南最早的寫本——大理保安八年(1052)大理國寫經(jīng)《護國司南抄》;有存世不多的、裝禎形式為旋風裝的大理保天八年(1136)寫本《諸佛菩薩金剛等啟請》;有云南大理國刻本《佛說長壽命經(jīng)》,元延佑五年(1318)中慶路清涼山報國禪寺刻《大華嚴方廣普賢滅罪稱贊佛名寶懺》;約在元代至順三年到至元二年(1332-1336)前后,徽政院主持,在大都弘法寺刻《官刻大藏經(jīng)》和明萬歷十七年至清康熙十五年刻的一萬二千六百余卷《嘉興藏》等大藏經(jīng)典;有北宋哲宗二年紹圣二年(1095)刻本《春秋經(jīng)傳集解》;有宋刻遞修本《南齊書》《北齊書》《周書》;有元至正二十三年(1363)朱元佑刻《鄂國金佗粹編》;有代表性的稿本《東塾著稿》;有顧炎武纂輯的鈔本《肇域志》。
2012年8月國家古籍保護中心開始國家珍貴古籍數(shù)字化試點工作,啟動“中華珍貴典籍資源庫”項目的同時,編制了《古籍數(shù)字化工作手冊》(試用本)作為本次試點工作的標準規(guī)范?!豆偶當?shù)字化工作手冊》 (試用本)規(guī)定了珍貴古籍數(shù)字化的范圍、規(guī)范性引用文件、術(shù)語定義、工作流程、加工準備、元數(shù)據(jù)著錄、圖像數(shù)字化、數(shù)據(jù)命名、數(shù)據(jù)提交、數(shù)據(jù)驗收、數(shù)據(jù)發(fā)布利用等,作為古籍數(shù)字化依據(jù)。由于入選古籍的珍貴性,在數(shù)字化加工中,從設(shè)備的選擇、元數(shù)據(jù)的著錄、圖像的掃描采集、圖像處理到資源發(fā)布,每一個環(huán)節(jié)都必須做好充分的調(diào)查研究。
古籍數(shù)字化工作大致分為七個步驟實施,依序為古籍數(shù)字化加工準備,元數(shù)據(jù)著錄,圖像數(shù)字化,數(shù)據(jù)命名,數(shù)據(jù)提交,數(shù)據(jù)驗收,數(shù)據(jù)發(fā)布利用。
2.1.1 古籍數(shù)字化的工作流程
古籍數(shù)字化的總原則是:嚴格管理,明確責任,落實安全保密管理機制、質(zhì)量管理機制,確保古籍文獻原件和數(shù)字化信息的安全,確保各環(huán)節(jié)工作符合質(zhì)量要求,建立完整、規(guī)范的工作記錄。具體包括以下幾個方面。
(1)書目的確定。為最大限度地避免數(shù)字化的重復建設(shè),在書目的選定上,一定要堅持珍貴性、地方性、系統(tǒng)性的選擇標準。如國家古籍保護中心開展的珍貴古籍數(shù)字化試點工作,從已入選《國家珍貴古籍名錄》的古籍中進行遴選,選定了云南省圖書館珍貴古籍44種,這其中包括國內(nèi)罕有的大理國時期的寫本11部、存世不多的元官藏23部、稿本5部、刻本5部。
(2)場地的選定。為確保古籍的安全,數(shù)字化過程中古籍不得被擅自帶離保管單位,因此加工場所應(yīng)選定在古籍存藏機構(gòu)的內(nèi)部,便于古籍的監(jiān)管。云南省圖書館古籍由歷史文獻部負責管理,部門有兩個閱覽室,面積都較大,因此將加工場地設(shè)在不接待讀者的善本閱覽室。
(3)古籍的交接。核查書目中古籍的保存狀況,制作古籍文獻交接清單,由加工人員從古籍庫房管理人員處領(lǐng)取待加工古籍,需要根據(jù)加工工作進度安排按規(guī)定領(lǐng)取,領(lǐng)取時需要對古籍數(shù)量進行清點,并填寫交接登記表,當日出庫的古籍當日入庫。在掃描前,加工人員按照索書號、冊次及卷次進行整理登記,并統(tǒng)計每冊書的頁數(shù)及制作卷端目錄。對于蟲蛀、破損、殘缺、褶皺等書品比較差的書籍進行相應(yīng)的記錄并及時通知古籍管理人員協(xié)調(diào)處理。
2.1.2 古籍數(shù)字化掃描設(shè)備
古籍數(shù)字化掃描設(shè)備的配置是進行古籍數(shù)字化的關(guān)鍵環(huán)節(jié),是古籍數(shù)字化的主要硬件。珍貴古籍數(shù)字化,首先考慮的是古籍在無損害或最大限度減少損害的情況下進行。現(xiàn)在市場上有很多古籍數(shù)字化掃描的設(shè)備,經(jīng)過考察比較,云南省圖書館選擇使用法國i2s公司生產(chǎn)的專業(yè)古籍數(shù)字化掃描設(shè)備,該公司提供了CopibookA2、Suprascan QuartzA1及 Suprascan QuartzA0三種類型古籍數(shù)字化掃描儀,掃描的古籍書影均能達到或者超過《古籍數(shù)字化工作手冊》(試用本)的要求。這三種類型掃描設(shè)備,首先解決了不同尺寸、不同裝幀形式對設(shè)備的要求。在幅面上由A2到A0,且可以根據(jù)古籍尺寸大小做出調(diào)整,可以滿足不同幅面古籍的數(shù)字化掃描需求,避免了較大幅面古籍分段掃描后拼接效果不理想和費時費力的問題。其次解決了翻頁中不同厚度對設(shè)備的要求。掃描設(shè)備的操作平臺具備作業(yè)獨立升降功能,解決了古籍掃描過程中因古籍左右厚度不一而需要墊板的問題,也利于對古籍實體的保護。再次,解決了古籍掃描過程中對光源的特殊要求。掃描時的照明系統(tǒng)均使用冷光光源,無紫外線和紅外線。照明光線由上方漫射至整個操作臺,并通過軟件調(diào)整整個操作臺的亮度,保證了數(shù)字化過程中古籍受光的均勻,最大限度地降低對古籍的影響,保證了采集圖像的精度和色彩還原度,實現(xiàn)所見即所得的效果。
選擇古籍數(shù)字化的軟件,首先,要能對各種古籍掃描參數(shù)設(shè)置進行保存,可根據(jù)不同大小、類型的古籍選擇最佳的掃描參數(shù)。其次,要根據(jù)古籍頁邊距的尺寸,設(shè)置精確尺寸,在掃描成像過程中自動裁切。再次,軟件要支持多幅面圖像的同時采集、多種格式輸出保存。云南省圖書館使用的古籍數(shù)字化軟件有i2s Copibook系列設(shè)備自帶軟件和i2s Suprascan Quartz系列的yooscan軟件,能夠滿足以上的要求。
古籍元數(shù)據(jù)的著錄是古籍數(shù)據(jù)庫建設(shè)的基礎(chǔ),必須是統(tǒng)一的標準才能使數(shù)字化成果達到合作共建、資源共享的目標。2012年國家古籍保護中心編制《古籍數(shù)字化工作手冊》,2014年做了修訂。建議古籍數(shù)字化過程中的元數(shù)據(jù)著錄,以此做為標準。
《古籍數(shù)字化工作手冊》元數(shù)據(jù)的著錄包括文獻整理登記、描述元數(shù)據(jù)、管理元數(shù)據(jù)三部分,需要制作6張庫表,包括文獻整理登記表(全書)、文獻整理登記表(各卷)、書目數(shù)據(jù)表、卷目數(shù)據(jù)表、外字表、管理信息表。[1]各表對數(shù)字化珍貴古籍整體、卷次、題名、卷名、責任者、版本、存卷、冊數(shù)、頁碼、批跋、板式、透字、夾字、皺折、館藏號、館藏單位、制作單位等信息進行客觀準確的著錄。對古籍題名、卷次、責任者、版本、頁碼、批校題跋等詳細記錄是建立數(shù)據(jù)庫的基礎(chǔ),也是讀者快速查閱所需文獻的重要依據(jù)。對古籍的夾字、透字、蟲蛀、褶皺、破損、霉變、殘頁等進行著錄,反映珍貴古籍損壞狀況,便于及時發(fā)現(xiàn)破損情況,為下一步的修復提供依據(jù)。
古籍書頁圖像掃描采集時參數(shù)的選擇與設(shè)置對采集圖像、后期圖像的處理速度、制作電子圖書的質(zhì)量以及后續(xù)制作仿真本有直接的影響,[2]且在古籍書頁掃描操作過程中可能出現(xiàn)頁面修整、古籍放置、透字襯紙、拆卷裝訂等方面的問題,若處理不當,會對古籍造成二次損壞。
(1)掃描參數(shù)設(shè)置?!豆偶當?shù)字化工作手冊》中規(guī)定,數(shù)字掃描參數(shù)應(yīng)設(shè)置為彩色掃描色深24、光學分辨率600dpi、半頁型頁面、輸出無壓縮的TIFF格式、冷光光源掃描,亮度、曝光度、白平衡等需根據(jù)環(huán)境的變化時時做出調(diào)整。
(2)古籍放置。在古籍書頁掃描時,書籍放置在承書操作平臺上書頁應(yīng)與掃描儀確實成為垂直角度,并固定好使之不可移動。由于古籍年代久遠,存在紙質(zhì)脆化、老化、破損等狀況,掃描放置古籍時工作人員須輕拿輕放,同時須避免古籍因過分擠壓拖動、反復放置,造成人為的古籍實體損壞。
(3)古籍頁面修整。館藏古籍存在紙張卷曲,頁面褶皺、折角的現(xiàn)象,在圖像掃描采集前如不對古籍頁面進行修整,玻璃壓板擠壓便會造成古籍損壞加重,也可能因書面文字受到遮擋進而影響古籍文字內(nèi)容的識別閱讀,甚至還會影響古籍圖像的美觀,因而,云南省圖書館在古籍圖像掃描采集時對書頁卷曲、褶皺、折角進行輕微的撫平,確保頁面的平整。
(4)古籍透字處理。古籍數(shù)字化中出現(xiàn)透字情況,是每一個負責掃描的工作人員最不愿意遇見的,不是怕麻煩,而是方法使用不當容易對古籍造成二次損壞。[3]云南省圖書館部分古籍紙質(zhì)薄,頁面文字可透過紙張,古籍圖像掃描采集時形成重影,不便于閱讀使用。目前云南省圖書館處理古籍透字的情況主要采取襯紙的方法,在書頁間加入襯紙,并選擇柔軟的宣紙進行托襯。然而加入襯紙很容易劃破書口,因此在掃描時遇到透字古籍時需要工作人員謹慎細心對待。
(5)古籍拆卷處理。原則上古籍一般不進行拆卷處理,若因特殊情況需要拆卷,必須經(jīng)過專家核定,由專業(yè)人員進行操作。[4]云南省圖書館古籍數(shù)字化中拆卷主要是因為部分古籍書脊距文字太近,掃描時出現(xiàn)夾字現(xiàn)象,圖像頁面文字內(nèi)容不完整。還有部分透字古籍,紙質(zhì)老化、脆化、破損嚴重,襯紙的方法會對古籍造成二次損壞,這時,需要對古籍進行拆卷處理。這項工作必須慎之又慎,如遇到非拆不可的,必須由修復專業(yè)人員對古籍進行拆卷、修整。
完整清晰再現(xiàn)古籍原貌,是整個數(shù)字化工作成功的關(guān)鍵。在古籍數(shù)字化過程中,大部分圖像需要后期進行處理,所有后期處理工作都僅在未改變原掃描或拍照圖像的色彩、分辨率、格式、壓縮的情況下進行,包括糾偏、拼接、去污、裁切及水印等。
(1)糾偏處理。古籍掃描圖像需要糾偏處理,主要有兩個原因:一是掃描工作人員在掃描時未能將古籍左右放置平行整齊;二是部分線裝古籍在裝訂時裝訂線沒有與書口平行出現(xiàn)傾斜,古籍掃描時展開書籍頁面很難達到四邊垂直平整。以上情況導致古籍成像偏斜,需要后期進行糾偏處理,使版心居中、頁面端正清晰。
(2)圖像拼接。圖像的拼接在字畫、碑帖及地圖等數(shù)字化時較為常見,古籍圖像是否需要拼接主要由古籍的裝幀形式而定,一般線裝古籍頁面圖像多在A2幅面內(nèi),較少需要拼接,而旋風裝、經(jīng)折裝、卷軸等裝幀形式的古籍圖像均需拼接。古籍圖像的拼接是將分段掃描的圖像整合以還原古籍原貌和內(nèi)容,便于閱讀和使用。
(3)去污處理。古籍圖像采集后一般不做任何頁面內(nèi)容修改,以保留古籍的原汁原味。去污處理是針對古籍原件邊緣背景頁面的潔凈處理。掃描時不論使用什么底色作為背景,古籍數(shù)字化圖像使用高分辨率、高精度的成像采集,空氣中較大顆粒的灰塵、古籍脫落的紙屑等掉落在操作平臺上都將會呈現(xiàn)在圖像里,當圖像需要放大時許多的臟點便會出現(xiàn),嚴重影響了古籍的美觀和閱讀效果。因而在保存古籍原生性圖像條件下,需要做背景的潔面處理。
(4)裁切與水印處理。古籍采集圖像所占內(nèi)存較大,除了保證古籍原件的完整性需要留存少量的頁邊距外,不能保存太大無關(guān)幅面,因而在古籍頁面進行拼接、糾偏處理后將多余的頁面背景進行裁切。再者,古籍數(shù)字化的成果不斷地對讀者開放,讀者可通過網(wǎng)絡(luò)閱讀和下載數(shù)字化的珍貴古籍。為防止惡意下載或進行商業(yè)牟利,在古籍資源提交發(fā)布前將古籍圖像頁面添加館藏水印。古籍水印的添加必須能與古籍文字顏色進行融合,從而不影響古籍的閱讀。
古籍數(shù)字化是古籍保存、整理和利用的必然趨勢,也是數(shù)字圖書館建設(shè)的重要組成部分。目標是使所有的古籍數(shù)字化成果可以在最大范圍內(nèi)給讀者提供服務(wù),真正實現(xiàn)古籍資源的共建共享。[5]古籍數(shù)字化的成果只有建立相應(yīng)的數(shù)據(jù)庫發(fā)布平臺才能實現(xiàn)共享的目標。古籍數(shù)據(jù)庫發(fā)布平臺技術(shù)的運用,可以使文獻數(shù)據(jù)庫最大限度地發(fā)揮其檢索、存儲功能,從而使得文獻數(shù)據(jù)庫達到存儲信息量大,信息密度高,涉及信息范圍廣,數(shù)據(jù)連續(xù)性、積累性強的效果,使用戶能在短時間內(nèi)查詢到最有效的信息。[6]古籍數(shù)據(jù)庫根據(jù)現(xiàn)在的技術(shù)處理情況,可以將其分為圖像版、文字版、圖文版。云南省圖書館根據(jù)館藏古籍現(xiàn)有條件的實際情況進行以數(shù)字圖像為主的數(shù)據(jù)庫建設(shè),即通過掃描古籍全文,建立圖像數(shù)據(jù)庫,同時著錄相應(yīng)的元數(shù)據(jù),形成基于元數(shù)據(jù)的古籍全文數(shù)據(jù)庫。[7]
(1)采用形式。古籍數(shù)據(jù)庫采用的形式包括C/S模式、APP模式和B/S模式。[8]C/S(客戶機/服務(wù)器)模式的產(chǎn)品需要客戶下載一個數(shù)十MB的客戶端,然后進行安裝配置。APP模式,用戶也需下載客戶端。B/S(瀏覽器/服務(wù)器模式),用戶只需要在瀏覽器中打開該網(wǎng)站網(wǎng)頁進行檢索和瀏覽,不需要下載任何客戶端。我館與中國古籍保護網(wǎng)發(fā)布的數(shù)據(jù)庫均采用B/S模式。
(2)開放方式。古籍數(shù)據(jù)庫可采用不同的開放方式。如中華古籍資源庫、哈佛大學哈佛燕京圖書館善本特藏資源、東京大學東洋文化研究所漢籍全文影像數(shù)據(jù)庫、天津圖書館古籍數(shù)字資源都需要注冊該館的賬戶才能閱覽;云南省圖書館古籍數(shù)字資源數(shù)據(jù)庫只需進行實名注冊即可查詢和閱覽,上海圖書館家譜全文數(shù)據(jù)庫、古籍善本刻本庫,浙江圖書館館藏珍貴古籍數(shù)據(jù)資源都是進入數(shù)據(jù)庫網(wǎng)頁便可查詢和閱覽。
(3)檢索設(shè)置。查詢檢索是數(shù)據(jù)庫的基本功能,能使讀者在瀚如煙海的數(shù)據(jù)中快捷地查詢閱覽所需古籍資源。但在中國古籍保護網(wǎng)發(fā)布資源數(shù)據(jù)庫的檢索設(shè)置有著較大的差別。首先,檢索字段設(shè)置不同。如中華古籍資源庫通過題名、善本號、責任者進行檢索,哈佛大學哈佛燕京圖書館善本特藏資源通過題名、責任者、出版年代、出版地、出版者、附注項進行檢索;上海圖書館藏家譜數(shù)字資源通過題名、姓氏、居地、堂號、著者、名人、叢書、索取號進行檢索也可以通過全部索引進行合并檢索;其次,檢索方式有精確檢索、模糊檢索、高級檢索、二次檢索、分類檢索的差別;再次,檢索結(jié)果的瀏覽方式不盡相同。中華古籍資源庫、哈佛大學哈佛燕京圖書館善本特藏資源、東京大學東洋文化研究所漢籍全文影像數(shù)據(jù)庫可對檢索古籍進行題名、責任者的升序或降序排序,也可以選擇圖文結(jié)合或者列表方式閱覽古籍的著錄信息。
(4)閱覽設(shè)置。古籍閱覽是古籍數(shù)字化的最終目的,目前在古籍資源數(shù)據(jù)庫發(fā)布時,在古籍閱覽界面及功能的設(shè)置上各具風格。共同的是每個數(shù)據(jù)庫閱覽古籍圖片時都可以對圖像進行縮放、上/下翻頁、目錄設(shè)置、古籍冊次選擇及當前頁顯示。不同的是部分數(shù)據(jù)庫的古籍圖像閱覽還可以進行指定頁面跳轉(zhuǎn)、附件查找、添加隨筆、全屏閱讀、縮略圖、首末頁跳轉(zhuǎn)等,并且數(shù)據(jù)的目錄僅限于冊次選擇,而不能達到卷次內(nèi)容的點擊進入。
古籍數(shù)據(jù)庫發(fā)布平臺除了上述異同外,還具有其他一些特色功能設(shè)計,如云南省圖書館數(shù)字資源庫設(shè)置了云南古籍分布的動態(tài)圖,并以中國朝代為時間軸線顯示各歷史時期的古籍上線狀況,使館藏古籍在空間和時間上更具直觀立體。哈佛大學哈佛燕京圖書館善本特藏資源可將閱讀古籍資源分享至QQ、微博、豆瓣網(wǎng)等。但是因為目前全國古籍發(fā)布平臺數(shù)據(jù)庫并沒有統(tǒng)一規(guī)劃和功能標準,所以還存在開放方式、檢索字段不統(tǒng)一,顯示古籍描述信息不一致、閱覽界面功能差異大等一些問題,讀者換一個數(shù)據(jù)庫必須重新學習才能更好的使用,千差萬別的數(shù)據(jù)庫模式容易讓人混淆,給讀者帶來了不便。
隨著古籍數(shù)字化理論研究的深入與實踐的閱讀推動,我們應(yīng)不斷加強對古籍數(shù)字化工作的創(chuàng)新與完善。
我國古籍數(shù)量眾多,館藏分散,需要進行全面的普查。從2007年開始實施“中華古籍保護工程”,啟動了全國古籍普查工作。目前,中國古籍保護網(wǎng)已陸續(xù)將古籍普查的數(shù)據(jù)發(fā)布在“全國古籍普查登記基本數(shù)據(jù)庫”,便于讀者了解古籍、利用古籍。但是古籍數(shù)字化工作卻是各單位獨立進行,容易造成選目重復及人力、物力資源的浪費。在古籍 數(shù)字化資源共建共享的原則下,應(yīng)加強古籍數(shù)字化與古籍普查的緊密結(jié)合,避免資源重復建建設(shè)。
古籍數(shù)字化是一項系統(tǒng)的工作,必須在統(tǒng)一的基本原則的指導下才能有效健康地運行。國家古籍保護中心編制《古籍數(shù)字化工作手冊》作為全國古籍數(shù)字化參考原則,對古籍數(shù)字化基本流程、元數(shù)據(jù)的著錄、圖像的采集、圖像處理等做了規(guī)范,但不足的是《古籍數(shù)字化工作手冊》的指導原則還未能涉及到古籍數(shù)字化數(shù)據(jù)庫平臺的發(fā)布建設(shè),導致了獨立研發(fā)的數(shù)據(jù)庫互不兼容、只能在各自的平臺上運行。因而,古籍數(shù)字化的工作指導原則還需進一步的完善,達到統(tǒng)一的標準,便于所有數(shù)字資源的整合與讀者的查詢利用。
先進的科學技術(shù)在文化產(chǎn)業(yè)發(fā)展中的比重逐步提升,因此,古籍數(shù)字化也應(yīng)該在實踐的基礎(chǔ)上加強對設(shè)備與技術(shù)的創(chuàng)新。一方面要求圖書館及圖書館員要及時關(guān)注和了解國內(nèi)外最新的古籍掃描設(shè)備發(fā)展的科技動態(tài);另一方面,要實現(xiàn)對現(xiàn)有應(yīng)用軟件程序及時的更新升級。加強硬件設(shè)備與軟件技術(shù)的完善,實現(xiàn)古籍數(shù)字化工作與國際頂尖科技的接軌。