李玖蔚
摘要:古籍數(shù)字化是解決古籍保護與利用之間矛盾的有效手段。本文概述了國內外古籍數(shù)字化過程中漢字字庫的研究情況,并以廬陵文化古籍文獻數(shù)字化實踐為基礎,從輸入法的選擇、偏僻字的錄入技巧、自造古字等方面,探討圖書館在古籍數(shù)字化過程中面臨的漢字字庫不足問題所采取的應對策略,并提出漢字處理過程中需注意的若干問題,以期對從事古籍數(shù)字化的同仁有所啟發(fā)和幫助。
關鍵詞:圖書館;古籍數(shù)字化;漢字處理;對策研究
古籍數(shù)字化是加快古籍流通,有效保護古籍的重要手段。中文古籍數(shù)字化肇始于1978年,美國人P·J·Ivanhoe使用電子計算機編制了《戴震孟子字義疏證索引》《王陽明大學問索引》《王陽明傳習錄索引》《朱熹中庸章句索引》《朱熹大學章句索引》機讀目錄。目前在美國,由北美36家圖書館組成的美國圖書館研究學會,擁有25000條數(shù)據的數(shù)據庫做到了館際資源共享,并還在不斷地擴充完善中。哈佛燕京圖書館擁有的“線裝古籍計算機檢索系統(tǒng)”中的1000余種家譜的資料,目前已經編目完成。在英國,大量中國珍貴文獻和古籍收藏在大英圖書館,大英圖書館開發(fā)的“古版書簡明標題目錄”是當前全球古籍文獻數(shù)據庫最大的聯(lián)機數(shù)據庫。以上這些成果為我國古籍數(shù)字化建設提供了寶貴的經驗。
據2010年不完全統(tǒng)計,我國大陸地區(qū)有179家單位從事古籍數(shù)字化,形成各類數(shù)據庫(包括各種古籍書目數(shù)據庫、古籍全文數(shù)據庫等)415個,許多數(shù)據庫的字數(shù)都在l億以上。較權威的統(tǒng)計表明,2012年我國公藏機構已經擁有超過20億字的數(shù)字化文本格式的古籍。一些己成規(guī)模的大型古籍數(shù)據庫還在原有基礎上不斷拓展和完善。
中國大陸地區(qū)開始中文古籍數(shù)字化工作以來,制約古籍數(shù)字化進程的主要問題是漢字字庫問題。業(yè)界就這一問題進行了深入的研究和探討。
1、國內外古籍數(shù)字化過程中對漢字字庫問題的研究概況
1.1 漢字字庫的研究情況
我國從20世紀50年代就開始了計算機中文信息處理的理論和技術的研究,自20世紀70年代中期開始,我國逐漸加快在計算機中文信息處理方面的發(fā)展步伐,在漢字鍵盤輸入技術、漢字輸出技術、漢字編碼技術、漢字儲存、檢索和識別、電子照排、中文平臺等多方面取得了一系列重大成就。陸續(xù)開發(fā)的漢字鍵盤輸入方法,解決了漢字進入計算機的難題;漢字輸出實現(xiàn)了多字體、多字號;漢字字庫的制作也由點陣字庫、矢量字庫逐步過渡到曲線輪廓字庫;漢字自動識別技術達到國際先進水平,并有商品投入市場;ISO/IEc 10646的CJK字符集,由早期的20 902個CJK統(tǒng)一漢字逐步擴充,擴充集A和擴充集B已經完成,現(xiàn)在正討論擴充集c1。待擴充集c1完成后,中日韓編碼漢字已經7萬多。這些成就,促進了中國計算機的普及,為發(fā)展計算機應用技術和信息化創(chuàng)造了基本條件。
1.2 漢字字庫的不足
中國古籍數(shù)字化經過近30年的努力,漢字字庫得到了飛速發(fā)展,并開發(fā)出了超大字符集字庫。在漢字信息化標準制定方面,國內外相繼制定了多個漢字編碼標準。最新的GB 18030-2005標準可以涵蓋70 244個漢字。然而,古籍中的漢字大約有10萬多個,GB 18030-2005的字庫還是遠沒有覆蓋所有漢字。因此,在古籍數(shù)字化時依然會碰到不少缺字現(xiàn)象,補字工作不可避免。漢字字庫的不足是影響古籍數(shù)字化質量及進程的主要問題之一。
2、我館古籍數(shù)字化過程中應對漢字字庫問題的策略
井岡山大學地處素稱“江南望郡”、“金廬陵”、“文章節(jié)義之邦”的吉安,一直以來注重廬陵文化相關文獻資料的購買和收藏,為充分挖掘廬陵文化的精髓和內涵,又組織力量對相關的館藏資源進行數(shù)字化加工,建成了特色數(shù)據庫,為研究者提供了更快捷、更豐富、更深層次的服務。
所謂廬陵文化,主要是指讀書人多,建功立德者多,文教設施多,發(fā)表著述多等等。在數(shù)字化廬陵文化名人的古籍作品時,比如在《歐陽修文萃》的數(shù)字化過程中,盡管安裝了超大字符集字庫,對計算機也作了相應的設置,但還是碰到不少問題。故筆者將三年來數(shù)字化廬陵古籍文獻中的實踐經驗進行總結,希望對從事古籍數(shù)字化的同仁有所啟發(fā)和幫助,以期更多的古籍文化得以展示和傳承。
2.1 選擇合適的輸入法
在古籍數(shù)字化過程中,安裝大的漢字字體庫,能解決大部分漢字的輸入與顯示問題。目前比較成熟的輸入法有很多,但任何一種輸入法都難以囊括字體庫中的所有漢字。因此,對輸入法的選擇至關重要。合適的輸入法,不但決定了漢字的輸出能力,更影響著古籍數(shù)字化的效率。
筆者建議選擇“極點五筆”輸入法,其一,此輸入法既可單獨進行“五筆字形、拼音輸入法”的選擇,也可選擇“五筆拼音輸入法”,在這種輸入狀態(tài)下,對于那些目前還不能通過五筆輸出的漢字,可直接輸入該字的拼音進行輸出,省去了在五筆和拼音之間來回切換的操作;其二,該輸入法的繁簡切換非常直觀、明了、方便,對于那些不是很熟悉的繁體字,通過輸入其簡體字就能顯示對應的繁體字,這樣建庫人員能很快地確定其正誤。比如“蕭”和“齏”,不仔細區(qū)別感覺像是同一個字,但實際上它們分別是“齋”和“齊”的繁體字。
2.2 偏僻字的錄入技巧
目前漢字字庫中有大量的生僻字,無法通過五筆輸入法輸出,需通過拼音輸入法才能輸出,此時可在Word中輸入與生僻字偏旁和筆畫相近的字,并選定該字,點擊右鍵,在彈出菜單中選擇“符號”,便很快能找到所需文字,雙擊該字,即可直接輸入到Word中,這樣建庫人員在不知道其讀音的情況下,也能很快地輸入該字,從而提高古籍數(shù)字化的進程。
2.3 自造古字
目前在古籍文獻數(shù)字化處理的過程中,通用于業(yè)界的Uni code字符集具有近7萬字的容量,但在古籍數(shù)據庫建設中還是不夠用。因此,我們使用微軟操作系統(tǒng)自帶的“TrueType”造字程序進行造字,避免數(shù)據庫中使用符號或說明性文字代替目前輸入法無法正常輸出的文字現(xiàn)象。
3、古籍數(shù)字化漢字處理過程中需注意的問題及對策
古籍數(shù)字化漢字處理過程中遇到的最大障礙是漢字字庫問題,它不但影響著古籍數(shù)字化的進程,還制約著古籍數(shù)字化的發(fā)展。漢字字庫問題多年來經過專家學者的研究,正在不斷的完善中,但仍未囊括古籍中的所有漢字,在進行古籍數(shù)字化時仍有不少字需要利用相關程序進行造字。目前有一些具備造字功能的程序,筆者主要介紹使用微軟操作系統(tǒng)自帶的“TrueType”造字程序進行造字時需要注意的問題及解決方法。
3.1 造字時截取字庫中已有字的有關部位
在造字時,最好截取現(xiàn)成字中需要的部分進行造字,這樣比分別輸入所造字的各個部分而造出的字要美觀。比如:我們通過截取“映”的左半部和“換”的右半部造出的字比直接輸入“日”和“奐”字而造出的字,看上去要自然美觀。
3.2 自造字大小的調節(jié)
自造的字如果不通過區(qū)位碼輸入法進行輸出,而是直接將其復制粘貼到Word或Excel文檔中的話,字號大小的調節(jié)不要在造字程序中進行,而應在Word或Excel文檔中進行,否則字的筆劃線條太粗,放入相應文檔中也會顯得很不協(xié)調。
3.3 自造字的輸出
將自造字直接放入Excel單元格中時,單元格的狀態(tài)應處于編輯狀態(tài)(即單擊該單元格)而不是可修改狀態(tài)(即雙擊單元格),否則無法將自造字粘貼到指定位置。但這種直接將自造字復制粘貼到Excel或Word文檔中的操作,當需對其進行排版時,它不會隨之移動,要人工調整它所在的位置,故生僻字造好后,應利用區(qū)位碼輸入法輸出到相應文檔中,這樣排版時就不會出現(xiàn)自造字不隨文移動的現(xiàn)象了。
3.4 自造罕的顯示
自造的字缺乏通用性,因此若要在不同的計算機上都可以正常顯示Excel或數(shù)據庫中的自造字,就必須將eudc.euf和eudc.tff這兩個自造字庫文件拷貝到字體目錄下。需要指出的是,將這二個文件拷貝到指定目錄時,根據計算機設置的不同,其拷貝方法也不同。即:操作系統(tǒng)中沒有攜帶TrueType造字程序,只需直接將自造字的二個文件粘貼到指定目錄,重啟計算機就行了;其他情況就只有通過command命令進行拷貝操作,當然如果造字程序或自造字文件處于運行狀態(tài),則拷貝操作無法進行。
4、結語
古籍數(shù)字化建設是一項艱巨而復雜的系統(tǒng)工程,盡管目前古籍數(shù)字化建設中還存在一些問題,但隨著國家“中國古籍數(shù)字化工程”的啟動及數(shù)字化技術的發(fā)展與完善,相信在不久的將來,古籍數(shù)字化過程中所遇到的問題都將逐步得到解決。