(遼寧師范大學(xué)管理學(xué)院,大連 遼寧 116029)
古籍?dāng)?shù)字化意在利用和保護(hù)古籍。我國古籍?dāng)?shù)字化事業(yè)走過了近40年的風(fēng)雨歷程,如我國國家圖書館發(fā)起的“中華古籍資源庫”項(xiàng)目就是“中華古籍保護(hù)計(jì)劃”的重要成果,目前在線發(fā)布的古籍影像資源包括:國家圖書館藏善本古籍、《趙城金藏》、法國國家圖書館藏敦煌遺書等資源,資源總量超過2.5萬部1000余萬葉;還有臺灣地區(qū)“數(shù)位典籍計(jì)劃”項(xiàng)目和香港地區(qū)“漢達(dá)文庫”等,多達(dá)近400個(gè)項(xiàng)目。國際上,一些發(fā)達(dá)國家對古籍?dāng)?shù)字化工程同樣引人關(guān)注,如英國圖書館的“薩克遜史詩手稿(The Electronic Beowulf)”和美國國會(huì)圖書館的“美國記憶導(dǎo)航(American Memory)”[1-2]。此外,國際合作也是對中外珍貴古籍實(shí)現(xiàn)數(shù)字化與共享的一種重要的方式,如“國際敦煌項(xiàng)目”“中美百萬冊書數(shù)字圖書館計(jì)劃”等[3-4]。隨著日本古籍?dāng)?shù)字化的發(fā)展,建設(shè)了許多與之相關(guān)的數(shù)據(jù)庫,如日本國立國會(huì)圖書館推出了館藏?cái)?shù)據(jù)目錄藏書檢索書目數(shù)據(jù)庫和珍罕古籍圖像全文數(shù)據(jù)庫等多個(gè)項(xiàng)目數(shù)據(jù)庫。其中為適應(yīng)古籍?dāng)?shù)字化事業(yè)的各類標(biāo)準(zhǔn)應(yīng)運(yùn)而生,2013年,NPO法人CSW發(fā)布的《古典籍、古文書、西洋珍本等的數(shù)字化指導(dǎo)方針v1.0.0.0》[5],該方針由式樣書的樣本(“式樣書最小構(gòu)成”)和為了補(bǔ)充做的例示(“解說”)兩部分構(gòu)成,針對不同類型的古籍及古籍情況進(jìn)行了詳細(xì)的數(shù)字化指導(dǎo)說明,明確了古籍?dāng)?shù)字化的技術(shù)和管理標(biāo)準(zhǔn)是古籍?dāng)?shù)字化實(shí)踐中的工作指南,規(guī)范了日本古籍?dāng)?shù)字化工作流程[6],式樣書的制定為日本古籍?dāng)?shù)字化事業(yè)提供了統(tǒng)一標(biāo)準(zhǔn)。
式樣(日:仕様、英:Specification)是指:材料、產(chǎn)品、服務(wù)等明確要求滿足事項(xiàng)的集合,記錄式樣的文書被稱為式樣書[7]。式樣書也就是樣板說明書,在產(chǎn)品生產(chǎn)、軟件開發(fā)、車間技術(shù)等領(lǐng)域應(yīng)用廣泛,包括做法程序表、工序說明書、規(guī)格明細(xì)書、設(shè)計(jì)說明書等等,起到規(guī)范工序、制作說明和總結(jié)標(biāo)準(zhǔn)的作用。就古籍?dāng)?shù)字化領(lǐng)域而言,在工作運(yùn)轉(zhuǎn)上,古籍?dāng)?shù)字化的品質(zhì)要嚴(yán)格按照各類式樣書要求把控,并且在日本國內(nèi)實(shí)現(xiàn)跨機(jī)構(gòu)研究合作,力求珍貴古籍能被充分利用與共享。在管理上,通過各種培訓(xùn)、講座、研討會(huì)健全人才培養(yǎng)。日本在古籍?dāng)?shù)字化進(jìn)程中出臺多種式樣書,如《古典籍、古文書、西洋珍本等的數(shù)字化指導(dǎo)方針v1.0.0.0》方針和《國立國會(huì)圖書館資料數(shù)字化指導(dǎo)手冊》等,正是為了在古籍?dāng)?shù)字化中有助于確保數(shù)據(jù)品質(zhì)以及數(shù)字化作業(yè)的效率而制作的,規(guī)范作業(yè)中文書的通用性和技術(shù)的標(biāo)準(zhǔn)化,有助于國內(nèi)外各機(jī)構(gòu)數(shù)字化作業(yè)的效率和高品質(zhì)。從對圖像品質(zhì)的檢查、人員專業(yè)性的要求以及數(shù)字資源的長期保存方法等方面給我國提供了借鑒意義。
一般來說,式樣書分為3種:要求式樣書、功能式樣書和測試式樣書。2011年出臺的《國立國會(huì)圖書館資料數(shù)字化手冊》中提到的式樣書屬于要求式樣書。要求式樣書的目的有4個(gè):確認(rèn)顧客的要求;確認(rèn)式樣的可行性;持續(xù)完成設(shè)計(jì)作業(yè);成為測試式樣書的原本[8]。該要求式樣書作為合作雙方就工程要求進(jìn)行溝通的基本條件,很好的保證了工程的正規(guī)性和可持續(xù)性。以《國內(nèi)國會(huì)圖書館資料數(shù)字化手冊》為例,式樣書主要分為兩大部分,即基本要件和作業(yè)要件[9]。
基本要件中要標(biāo)出件名、本式樣書為接受本件委托圖書館對館藏資料進(jìn)行電子化過程中的目的、受委托者進(jìn)行相關(guān)工作的依據(jù)、相關(guān)術(shù)語的解釋資料、工作概要、對象資料、工作環(huán)境以及成果物。其中式樣書的術(shù)語包括掃描和掃描儀、圖像數(shù)據(jù)、書目單位、分冊單位、目錄數(shù)據(jù)、元數(shù)據(jù)文件、標(biāo)題紙、縮微圖像等的定義解釋。委托者需要上繳給當(dāng)事館的6份成果物如下:圖像數(shù)據(jù)(保存形式為jpeg2000的圖像)、圖像數(shù)據(jù)(保存形式為jpeg2000的圖像)及目錄數(shù)據(jù)、元數(shù)據(jù)文件夾、管理數(shù)據(jù)、成果物檢查證明書和BD-R錯(cuò)誤率對應(yīng)表。
3.2.1 資料的搬出搬進(jìn)和保管
對資料進(jìn)行搬出和搬進(jìn)時(shí),應(yīng)按照當(dāng)事館提供的數(shù)字化對象列表來接受材料,同時(shí)記錄好搬出和搬進(jìn)時(shí)的詳細(xì)順序。抽取資料時(shí)根據(jù)當(dāng)事館制作的數(shù)字化對象列表進(jìn)行抽取,然后制作管理資料抽取的數(shù)據(jù)。資料搬出時(shí),要把資料包裹在加入緩沖材料的可折疊集裝箱里。制作資料的返還列表,要把資料包裹在加入緩沖材料的小盒里返還,返還時(shí)要把拆毀的資料和普通的資料分開,受委托者要把資料按照固定位置入架。為了防止遺失、失竊、破損、污損、老化的發(fā)生,搬送保管資料一定要嚴(yán)格對待,尤其是在管理中要留意以下幾點(diǎn):在與工作場所分隔開的、備有空調(diào)設(shè)備的,且為耐火構(gòu)造的保管庫里保管原資料;要定期的記錄耐火保管庫和工作場所的溫、濕度情況,按照當(dāng)事館的要求提交;為了防止遺失、失竊、破損、污損、老化的發(fā)生,要特別注意溫度管理和機(jī)器的位置;在從耐火保管庫中搬出搬進(jìn)原資料以外的時(shí)間里耐火保管庫要上鎖,為了防止遺失、失竊的發(fā)生,要隨時(shí)獲取原資料的搬出搬進(jìn)的記錄;要明確告訴在工作現(xiàn)場的管理人員以上內(nèi)容。
3.2.2 數(shù)據(jù)制作
(1)圖像數(shù)據(jù)
對原資料進(jìn)行掃描,圖像數(shù)據(jù)(保存形式為jpeg2000的圖像及用于提供的jpeg2000圖像)以書目和分冊為單位進(jìn)行管理。抽取封皮和標(biāo)題的圖像,做成以分冊為單位的縮略圖像(JPEG形式)。應(yīng)注意使用擁有光學(xué)解像度為400dpi以上性能的overhead[10]方式掃描器。為了保護(hù)原資料,不使用自動(dòng)翻頁功能。確認(rèn)過圖像尺寸(長寬)的基礎(chǔ)上,設(shè)定可保留全本所需最小像素到110%像素之間的模式,進(jìn)行剪裁。另外,關(guān)于原資料中有折疊后夾入頁情況的資料,因?yàn)楦鶕?jù)原資料的尺寸和折疊后夾入頁的尺寸不同,要使用不同的掃描和圖像修剪的方法,如果無法在同一壓縮率下進(jìn)行掃描,需進(jìn)行壓縮率轉(zhuǎn)換,掃描的同時(shí)拍攝下卷尺的刻度。從掃描了的圖像中,把每一分冊包含有封皮的特別指定的圖像數(shù)據(jù),制作成縮略圖像。作好的圖像數(shù)據(jù)統(tǒng)一存入文件夾,圖像文件夾名稱的位數(shù)為4位半角數(shù)字。不滿4位的時(shí)候,在前面用半角數(shù)字“0”作補(bǔ)位(例:0001、0002、0003、…)??s略圖像文件夾名要賦予為“書目 ID(12位)_分冊番號(5位)thumb”(例:000000000001_00010thumb.jpg)。
(2)目錄數(shù)據(jù)
原資料中存在目錄時(shí),要把目錄部分文本化,記錄目錄數(shù)據(jù)。首先對即將文本化的圖書目錄進(jìn)行假設(shè),目錄占對象資料總數(shù)的幾分之幾,平均一本的目錄項(xiàng)目有多少項(xiàng),平均目錄字?jǐn)?shù)約多少字等。原則上,舊假名的使用和包含假名等,按照記載錄入。但是,漢字的異體字、帶有符號的字母數(shù)列,無法按照記載錄入的時(shí)候,把它替換成不破壞原意的同等的文字和能夠判斷的文字。錄入條目和錄入形式如下所示。目錄數(shù)據(jù)名是「mokuji.txt」,以TSV形式,一個(gè)分冊制作成一個(gè)文件夾。如圖1所示。
圖1 目錄數(shù)據(jù)例(mokuji.txt)
其次進(jìn)行目錄文本化,參照圖2那樣的原資料的目錄部分,填寫目錄部分和登載頁。
圖2 代表的目錄例
(3)元數(shù)據(jù)文件夾
基于當(dāng)事館提交的數(shù)字化對象列表,每冊用TSV形式和CSV形式制作一個(gè)元數(shù)據(jù)文件夾。適合的文件夾的條目按照表1來做。
表1 元數(shù)據(jù)文件夾的條目例
元數(shù)據(jù)文件夾的文件夾名為“metadata_**”。指的是一包在內(nèi)的交付的時(shí)候元數(shù)據(jù)文件夾的文件夾名“metadata_**”。而且分開交付的時(shí)候的元數(shù)據(jù)文件夾的文件夾名為“metadata_○○”,后面加上(“分割01”“分割02”)連續(xù)的順序號。文字代碼為用UTF-8符號化的Unicode。而且,不需要BOM。
另外,既定條目中:數(shù)字化了的制作者一律錄入“**圖書館”;數(shù)字化了的制作年月日一律錄入“20**-**-**”;數(shù)字化之后的格式一律錄入“image/jp2”。
(4)管理數(shù)據(jù)
受委托者制作管理數(shù)據(jù)①和管理數(shù)據(jù)②制作的時(shí)候用文字代碼為用UTF-8符號化的Unicode,文件夾形式用TSV形式。而且,構(gòu)成管理數(shù)據(jù)的條目名稱和記載的內(nèi)容要所參照。首先是為了分冊管理圖像數(shù)據(jù)、目錄數(shù)據(jù)及書目等數(shù)據(jù),而制作管理數(shù)據(jù)①。管理數(shù)據(jù)的文件夾名為“kanri_1_**”。文字代碼為用UTF-8符號化的Unicode。分割交付物的管理數(shù)據(jù)的文件夾名為“kanri_1_**”,后面加上(“分割01”“分割02”)連續(xù)的順序號。其次制作以計(jì)劃單位的方式管理關(guān)于計(jì)劃整體的情報(bào)為目的管理數(shù)據(jù)②。管理數(shù)據(jù)②的文件夾名為“kanri_2_**”。注意關(guān)于 HostComputer,OperatingSystem,OSVersion,ScannerManufacturer,ScannerModelName,ScannerModelNumber,ScanningSoftware,Scanning?SoftwareVersionNo的記載內(nèi)容,要用以下的形式進(jìn)行描述,如圖3所示。
圖3 使用用途
關(guān)于※ProcessingSoftwareName,ProcessingSoft?wareVersion的記載內(nèi)容,按下邊表述的標(biāo)明使用用途。
圖4 ProcessingSoftwareName,Processing SoftwareVersion使用用途
數(shù)字化工作前對品質(zhì)進(jìn)行確認(rèn)。在各工序開工之前,為確保品質(zhì),要把圖像數(shù)據(jù)、目錄數(shù)據(jù)及縮略圖像做成樣本提交給當(dāng)事館,以獲得批準(zhǔn)。當(dāng)事館認(rèn)為提交的抽樣數(shù)據(jù)的品質(zhì)不適合的時(shí)候,要重新制作抽樣數(shù)據(jù),然后重新提交。
表2 樣本圖像提交概要
圖像制作中進(jìn)行品質(zhì)檢查。關(guān)于制作的圖像數(shù)據(jù),要對是否按照說明書完成進(jìn)行品質(zhì)檢查。在品質(zhì)檢查中,每一個(gè)圖像數(shù)據(jù)用看片機(jī)軟件表示,通過目視進(jìn)行確認(rèn)。該目視檢查的角度為表3所示。
表3 品質(zhì)檢查的基準(zhǔn)
若品質(zhì)檢查的結(jié)果為不合格,要把該圖像的分冊內(nèi)的其他圖像數(shù)據(jù)在同一掃描環(huán)境中重新制作。發(fā)現(xiàn)缺頁、亂頁、落頁的時(shí)候要按統(tǒng)一格式記錄管理數(shù)據(jù)。品質(zhì)檢查使用sRGB對應(yīng)的顏色顯示器,觀看環(huán)境為sRGB的規(guī)定環(huán)境。當(dāng)事館必需擁有實(shí)施現(xiàn)場檢查的場所。
受委托者要把以書目和分冊為單位管理的圖像數(shù)據(jù)(以JPEG2000形式,用于保存的圖像)保存到BD-RDL和外接硬盤里,然后上繳。
交付媒體使用的BD-RDL要使用高品質(zhì)并適合保存的,非常經(jīng)久耐用的BD-RDL。寫入使用的驅(qū)動(dòng)要使用高品質(zhì)寫入性能的驅(qū)動(dòng)。存入BD-R DL前要用最新的病毒檢查手段進(jìn)行病毒檢測。要事先確認(rèn)BD-RDL擁有能夠長期保存的品質(zhì)。BDR的品質(zhì)檢查要使用錯(cuò)誤比率,檢查條目要采用Viterbi-SER(根據(jù)Viterbi解密器得出的隨機(jī)最小錯(cuò)誤概率。)檢查基準(zhǔn)值另作調(diào)整。逐一排查,對于檢查過的媒體,要提交BD-RDL卷名和對應(yīng)錯(cuò)誤比率表。選擇可長期保存的外接硬盤,作為一個(gè)電腦中的分區(qū),使用磁盤的最大容量。而且,文件夾夾系統(tǒng)是NTFS形式的。繳納前要用最新的病毒檢查手段進(jìn)行病毒檢測。并且交付時(shí),要把病毒掃描軟件、定義文件夾名、檢查日期及結(jié)果用書面的形式出示。
條目相關(guān)任命的全體責(zé)任者都是擁有同等條目管理業(yè)務(wù)經(jīng)驗(yàn)的專職工作人員;圖像制作工程、目錄制作工程還有搬出搬進(jìn)工程任命的都是從事各個(gè)領(lǐng)域的有業(yè)務(wù)經(jīng)驗(yàn)的工作人員;選取能夠使工作計(jì)劃的完成、重要人員和機(jī)器等的籌措、工作體制的確立、并對上繳時(shí)間、品質(zhì)等進(jìn)行的管理一切順利進(jìn)行的人員;為了品質(zhì)的提高和滿足規(guī)定性的擔(dān)保,任命的是擁有同種業(yè)務(wù)經(jīng)驗(yàn)的優(yōu)秀管理責(zé)任者。
通過對于日本古籍?dāng)?shù)字化過程中式樣書的使用調(diào)查發(fā)現(xiàn),日本國立國會(huì)圖書館式樣書的使用基本反映了日本圖書館古籍?dāng)?shù)字化的主體架構(gòu)和內(nèi)容特點(diǎn),為我國制訂相關(guān)指南提供了良好的參考樣本。相比較而言,我國有值得驕傲的成就,也有不容忽視的問題。比如,數(shù)字化的標(biāo)準(zhǔn)和規(guī)范問題、重復(fù)建設(shè)問題等。這些問題阻礙了我國古籍?dāng)?shù)字化的發(fā)展,如果不及時(shí)解決這些問題,勢必會(huì)造成人力、物力和財(cái)力的極大浪費(fèi)。如何集中有限的資金,提高作業(yè)效率和規(guī)范管理流程,提升古籍?dāng)?shù)字化的質(zhì)量和數(shù)量,已成為目前古籍?dāng)?shù)字化實(shí)踐中必須探討和解決的問題。日本式樣書編制的思想具有通用性,對我國具有同樣的指導(dǎo)價(jià)值,應(yīng)該重視對原資料的保護(hù),統(tǒng)一數(shù)據(jù)保存方法,在實(shí)踐中需要與我國現(xiàn)實(shí)情況進(jìn)行對比,以探求我國的特色。