張居蘭
(平頂山學院圖書館,河南平頂山,467000)
在華夏文化數(shù)千年的發(fā)展歷程中,我們的先人留下了浩如煙海般的各種文獻資料,這些古籍記載了中國歷史和文化的演進脈絡,是極為珍貴的文化遺產(chǎn)。從文獻流傳、保存形式來看,中國古代文獻可分為傳世古代文獻、出土文獻、民間古代文獻、域外古代漢籍四大類。墓志指放在墓里的刻有死者生平事跡的石刻,一般屬于出土文獻。它們是記載墓主人行跡的第一手資料。墓志在漢代開始出現(xiàn),到南北朝直至隋唐時期,其發(fā)展已經(jīng)進入至成熟階段。這一時期,墓志數(shù)量眾多,內(nèi)容豐富,是進行歷史文化研究必不可少的資料。宋代之后,在出土文獻中,墓志仍然占有較大比重,具有重要的學術(shù)研究意義,也具有一定的文物價值。
可以說,墓志文獻是歷史演進的直接見證,也是中華民族寶貴的文化遺產(chǎn),具有極高的歷史價值。墓志文獻屬于不可再生的文化資源,近年來,盡管國家加大了對墓志文獻的保護力度,使其保存環(huán)境得到改善,但隨著歷史的推進,墓志文獻古籍還是會不可避免地出現(xiàn)損毀,乃至消亡。目前,墓志文獻整體保存環(huán)境不盡人意,各藏館保存條件參差不齊,墓志文獻保護、傳承、利用狀況令人擔憂。因此,如何在保護的基礎上更好地利用這些寶貴的墓志文獻資源是歷史學和圖書館學共同面臨的重要課題。
有鑒于此,采用數(shù)字化手段對墓志文獻進行處理,既可以使墓志文獻的原圖原貌得以永久保存,又可以通過數(shù)據(jù)庫和網(wǎng)絡手段對墓志文獻進行發(fā)布,避免閱讀原文對墓志造成的損傷,從而方便、快捷、無損地開發(fā)和利用這些寶貴資源。
目前,在學術(shù)界一些部門和個人對于包括墓志文獻在內(nèi)的漢文古籍的數(shù)字化建設也做出了一些嘗試。出版了數(shù)字化文獻的全文,還有相關(guān)索引、書目等工具書,為墓志文獻的數(shù)字化提供了良好的范例和有益的經(jīng)驗。傳統(tǒng)古籍整理的方式一般都是人為的手工方式,這是一項非常艱難、枯燥、復雜的工作,需要占用大量的時間和精力,對古代墓志文獻的整理也不例外。長期以來,改善工作條件,提升工作效率一直都是古籍整理工作者的強烈期盼,而隨著現(xiàn)代科技的發(fā)展,計算機信息處理技術(shù)已經(jīng)成為了實現(xiàn)這一愿景的有效手段。
墓志文獻數(shù)字化雖然是墓志文獻保護、利用與開發(fā)的理想方式,但在具體實踐過程中,由于技術(shù)條件限制,仍然面臨不少問題。
1.墓志文獻中冷僻字的處理
在墓志文獻中,異體字、通假字和不規(guī)范字的使用十分常見。因此,墓志文獻數(shù)字化過程中不可避免地會遇到字體障礙,這突出地表現(xiàn)在兩個方面:一個是對字體的識別障礙,即準確錄入冷僻漢字的人需要有較好的文字學基礎,而對于普通的計算機操作人員來說要做到這一點則有較大困難;另一個則是技術(shù)障礙,目前廣泛應用的Unicode字符集雖能較好地解決字庫問題,但是與不少軟件難以兼容,常用的輸入法和搜索引擎也不支持大字符集,導致眾多的冷僻字無法準確顯示和檢索。[1]因此,如何處理冷僻漢字仍是墓志文獻數(shù)字化過程中必須要克服的一道難題。
2.缺乏統(tǒng)一的墓志文獻數(shù)字化處理標準
目前,雖然不少部門和單位都在從事墓志文獻數(shù)字化工作,但相互聯(lián)系較少,所采取的途徑也都有所差異。因此產(chǎn)生的墓志文獻的數(shù)字化成果形式各異,不利于墓志文獻數(shù)字化的可持續(xù)發(fā)展,也不利于墓志文獻數(shù)字化資源共享。這其中的主要原因除了缺乏有效的協(xié)調(diào)規(guī)劃外,缺乏可以依據(jù)的統(tǒng)一標準也是其中重要的因素。此外,相關(guān)研究的支持功能也亟待完善。[2]
3.墓志文獻數(shù)字化軟件有待改進
對墓志文獻數(shù)字化而言,處理軟件的功能是影響處理過程和成果的直接因素。目前,掃描與圖像處理技術(shù)的發(fā)展已較為成熟,可供選擇的數(shù)字化加工系統(tǒng)種類頗多,不過現(xiàn)在使用較多的OCR軟件對墓志文獻中的部分繁體字和不規(guī)范用字的識別效果較差,必須用人工的方式加以校對,而這就需要耗費大量的時間和人力??梢哉f,如何克服數(shù)據(jù)加工軟件在處理文字方面的缺陷,提高檢索速度,有效提高OCR在古文獻識別上的準確度是墓志文獻數(shù)字化所面臨的一個重大課題。
4.文獻信息的準確檢索
墓志文獻數(shù)字化的主要目的和基本功能之一就是迅捷、精確地檢索到所需要的內(nèi)容,而在這方面的表現(xiàn)也是評判其優(yōu)劣的重要標準。全文本的數(shù)字化墓志文獻已經(jīng)能夠做到實現(xiàn)所有字符的檢索,但是準確度較低的問題還須得到解決;圖像版可以確保信息的準確無誤,但難以進行全文檢索。采用對有效檢索點標引的方式,可以在一定程度上解決上述問題,但仍會不可避免地遺漏某些信息。由于墓志文獻中普遍存在使用通假字、異體字的現(xiàn)象,就使得內(nèi)容的精確檢索更加困難。因此,推進后控詞庫建設,實現(xiàn)關(guān)聯(lián)檢索也是墓志文獻數(shù)字化必須要解決的問題。
1.圖文互現(xiàn)是實現(xiàn)墓志文獻數(shù)字化的必要方式
在實際研究過程中,研究者往往需要對墓志文獻的原始圖版進行核對、勘驗。因此,圖文互現(xiàn)是實現(xiàn)墓志文獻數(shù)字化不可缺少的一環(huán)。圖文互現(xiàn)就是將墓志文獻分別以圖像、文本兩種形式存儲,并將文本置于與之相應的圖像之下,建立索引關(guān)系,實現(xiàn)圖文對照。圖文互現(xiàn)的方式能夠彌補圖像版文獻在內(nèi)容檢索和文字編輯上的缺陷,同時還可以有效地驗證文本的準確性,使得使用者不僅能夠看到原始面貌的墓志文獻,也可以迅捷精準地查詢到所需要的內(nèi)容。特別是對于研究者而言,他們對于墓志文獻原始版本信息和文本的準確性有更高的要求,通過圖文對照則可以有效解決此類問題,為研究者提供可以相互參照的圖文資源。
2.文獻整理與計算機專業(yè)人員應當確保深入合作
墓志文獻數(shù)字化是歷史文化與現(xiàn)代信息技術(shù)的結(jié)合,這就需要通曉與墓志文獻整理相關(guān)的歷史學、考古學和文字學知識的人才和掌握現(xiàn)代信息網(wǎng)絡知識和多媒體技術(shù)的專業(yè)人員深入?yún)f(xié)作。墓志文獻數(shù)字化雖然是近年來才出現(xiàn)的文獻整理樣式,但究其實質(zhì)依舊屬于古籍整理的范疇,因此要順利完成墓志文獻的數(shù)字化過程,就必須擁有一批具有扎實文獻學、歷史學基本功的人員。同時,在數(shù)據(jù)采集與處理、數(shù)據(jù)庫設計、應用平臺建設等方面必須有計算機專業(yè)人員參與,以保障墓志文獻數(shù)字化的技術(shù)可靠性。
3.制定墓志文獻數(shù)字化的統(tǒng)一標準
在我國,墓志文獻分布相當廣泛,幾乎在各地都有發(fā)掘出土;其儲存也較為分散,分布在各級各地的博物館、文化機構(gòu)、考古部門,也包括為數(shù)不少的個人收藏。所以,建立完整的墓志文獻資源庫需要多地合作。因此,有必要建立統(tǒng)一的標準,包括墓志文獻的分類標準、錄入規(guī)則、軟件和數(shù)據(jù)庫的應用規(guī)范,數(shù)字化加工、利用的統(tǒng)一標準。顯然,標準的一致和規(guī)范既有利于夯實墓志文獻數(shù)字化資源共享的基礎,也可以有效推動墓志文獻數(shù)字化的深入發(fā)展。
4.整體規(guī)劃,共建共享
墓志文獻數(shù)字化對于傳統(tǒng)文化的保護、研究、利用具有重要的促進作用。同時,這一工程又具有鮮明的基礎性、學術(shù)性、公益性的色彩。為使得墓志文獻數(shù)字化工作能夠持之以恒地開展下去,就有必要建立協(xié)調(diào)和指導機制,制定較為完善的總體規(guī)劃并加以實施。規(guī)劃應包括數(shù)字化對象的內(nèi)容、重點、分工狀況,以及相關(guān)準則、規(guī)范。[3]應當說,這些問題的解決,可以有效避免重復建設和資源浪費,提高工作效率,并且實現(xiàn)墓志文獻數(shù)字化工程的共建共享。
墓志文獻數(shù)據(jù)庫是組織、存儲和管理相關(guān)數(shù)據(jù)的存儲器,也是墓志文獻數(shù)字化的主要載體,在墓志文獻數(shù)字化建設過程中具有重要地位,而其技術(shù)流程可以從以下幾個方面著手實施:
目前,墓志文獻數(shù)據(jù)庫的系統(tǒng)建設多采用Java的Web信息技術(shù),在進行數(shù)據(jù)搜索方面亦可采納Oracle 9i的Oracle Text技術(shù)。同時,可以配合使用J2EE的Struts、Hibernate框架的MVC技術(shù)框架,以保證處理數(shù)據(jù)的廣泛性和持久性。
墓志文獻數(shù)字化數(shù)據(jù)庫建設要根據(jù)出土墓志文獻的年代、文獻價值等確定收錄標準,對于磨損嚴重,或是有重大歷史文化價值的墓志應當優(yōu)先進行數(shù)字化處理。從對墓志保護的角度出發(fā),應以墓志文獻的原始文本圖像作為主要數(shù)據(jù)來源,盡力實現(xiàn)全文本化??紤]到圖像要占用較大的存儲空間,可以采用Oracle 9i數(shù)據(jù)庫系統(tǒng)用以支持多媒體數(shù)據(jù),并采取技術(shù)措施對系統(tǒng)進行優(yōu)化,以有效解決運行速度的瓶頸制約。根據(jù)墓志文獻的特點,對有關(guān)內(nèi)容進行合理分類編輯,努力建設內(nèi)容全面的墓志文獻數(shù)據(jù)庫。
該項工作主要是對墓志文獻進行掃描、檢測、圖像處理、文本錄入等,在處理過程中,要盡量實施文本錄入,保證圖文能夠比照。為確保文獻能夠有效地保護和使用,掃描時應當采取全彩模式,300 dpi,JPEG格式保存,并且應當按照頁碼順序重新命名,同時對掃描后圖像的順序、偏斜度、完整性、清晰度進行檢測,針對不同問題采取糾偏、去污、裁邊等方式進行校正。
對于開發(fā)或購置墓志文獻編輯系統(tǒng),應當對文中有效的檢索點進行抽取和標引,如墓志的名稱、墓主人、時代等信息進行標注,力求做到圖文的全文檢索,應當注意防止標引過于瑣碎或過于簡括而影響檢索效果。
在完成數(shù)據(jù)庫的信息錄入、加工、檢測等程序后,下一步就應當將圖像數(shù)據(jù)、文本數(shù)據(jù)、標引數(shù)據(jù)進行合成,并整理入庫,編撰為墓志電子文獻。在正式開始發(fā)布前,應當再進行一次全面數(shù)據(jù)庫測試,確認條件成熟后,將數(shù)據(jù)庫資源正式發(fā)布,實現(xiàn)墓志文獻的數(shù)字化應用。
總之,墓志文獻數(shù)字化是一項既急迫又十分有價值的文化工程,它對于保護和傳承古代文化,開展科學研究都有著重要的促進意義。只要選擇正確的技術(shù)路徑,持之以恒地進行努力,墓志文獻數(shù)字化工程必定會取得突出的成效,成為開展科研工作的有力工具。
[1] 李兵,劉國政,符永馳,等.從中醫(yī)古籍數(shù)據(jù)庫建設看中醫(yī)古籍數(shù)字化[J].中國中醫(yī)藥信息雜志,2009(3).
[2] 李國新.中國古籍資源數(shù)字化的進展與任務[J].大學圖書館學報,2002(1).
[3] 陳力.中文古籍數(shù)字化方法之檢討[J].國家圖書館學刊,2005(3).