古籍數(shù)字化技術的新思路

2014-05-30 08:55:52章杰鑫，潘悟云

語言研究 2014年1期

章杰鑫，潘悟云

（上海師范大學語言研究所，上海 200234）

文獻數(shù)字化建設，自上個世紀80年代開始，至今超過了30年，有不少產品面世并進入商業(yè)化應用。文獻數(shù)字化最根本的目的是要解決如何高效、準確、可靠地讓讀者查詢到自己所關注的東西，從這個角度而言，文獻數(shù)字化大致經(jīng)歷了三個階段。

第一階段：文本數(shù)字化階段。這一階段的產品以文本方式進行檢索、展現(xiàn)，文本通過人工輸入、或者對影印紙質文獻進行OCR識別并校對后獲取。這個階段的產品以臺灣中研院的瀚典全文檢索系統(tǒng)為代表，能提供文本檢索、反色定位等功能，文獻的利用方式發(fā)生了革命性的變化。以往研究者要花費數(shù)個月甚至是數(shù)年時間翻閱大量文獻的工作，通過電子文本只要幾分鐘就能完成。但是這一階段的數(shù)字化產品也存在幾個缺陷：（1）用于檢索的文本有可信度問題。因為檢索的文本是通過人工輸入，或者 OCR識別獲得，都存在不忠于原版紙質文獻的問題，原因大致有兩個：1）輸入錯誤。用人工輸入或OCR得到的文本，錯誤當然是不可避免的。2）字符集規(guī)模限制導致的錯誤。目前普遍使用的七萬多字的Unicode字符集，在文獻數(shù)字化中顯然不夠用。此外，大量的異體字、通假字、避諱字，以及日、韓等國的漢字，有很多無法輸入。這些都會導致文本與原版紙質文獻之間的不一致。（2）必須查驗對應的紙質文獻。這一方面是由于檢索文本的可信度不夠，用戶不敢直接采信。另一方面，與檢索內容相關的一些其他信息，如頁數(shù)、行數(shù)、版本以及上下文內容等等，也許只能在原書中找到。這就導致讀者還需要花時間去查找相應的紙質文獻，甚至會一時找不到原書。同時，查找原書也會導致紙質文獻的磨損，尤其是某些珍貴的古籍是不允許人工翻閱的。

第二階段：文本為主，影印版為輔的數(shù)字化階段。這一階段的文獻數(shù)字化產品以愛如生中國基本古籍庫為代表，在第一階段的基礎上，加入了兩個顯著的改進：（1）將文本按照原版的樣式、字體等進行排版，并能進行檢索和定位，讓讀者在視覺上有了與紙質原版相似的感覺。但是由于用來檢索的還是文本，所以仍然不能克服第一階段的文本可信度問題。（2）提供影印版圖片與文本進行對照，免除了讀者到圖書館去翻閱相應的紙質文獻的麻煩。然而影印版圖片的對照以整本書為單位，讀者在對照時還是需要瀏覽整本書來定位到相應的頁碼和位置，這無疑是一項費時費力的工作。

第三階段：在影印版圖片上直接進行檢索、定位的階段。這個階段的產品以超星為代表。在屏幕上顯示的是原書的影印版圖片，輸入要查詢的字符，就能直接定位到圖像上的字符位置。其工作原理是利用雙層PDF技術，對圖片進行OCR識別建立文本，文本上的每個字符與圖片上對應字符的坐標位置產生映射關系。在文本層上檢索到要查的字符，就能夠通過這種映射關系，直接反色顯示到圖片中的相應位置，產生在影印圖片上實現(xiàn)全文檢索的效果。用來檢索的文本雖然是用OCR識別得到，仍然存在文本的可信度問題，但是檢索結果直接映射到原版圖片上的對應位置，讀者在直接閱讀原版文獻圖片的時候，避免了文本中可能出現(xiàn)的錯誤。

可以說超星在這一點上取得了巨大的成功，然而也存在著很大的不足。因為古代出版物OCR的識別率很低，無法實現(xiàn)雙層PDF技術，所以進行原版圖片檢索并且定位的文獻僅限于近現(xiàn)代文獻。于是，目前文獻檢索的產品就分為兩類，能作現(xiàn)代出版物檢索的產品不能檢索古代出版物，能檢索古代出版物的產品不能檢索現(xiàn)代出版物，這對研究人員來說，無疑是一大缺陷。

（一）古代出版物影印圖片上全文檢索的實現(xiàn)。本研究是將現(xiàn)代文獻的數(shù)字化的基本原理應用于古籍數(shù)字化，成功解決了幾個關鍵的問題，使得古籍的數(shù)字化能像現(xiàn)代文獻數(shù)字化一樣，實現(xiàn)在原始影印版古籍圖片上進行全文檢索、全文定位。

在影印版圖片上直接進行檢索、定位的基本原理，是將文獻圖片OCR識別成文本，與圖片形成雙層PDF文件。文本層中每一個字符與圖像層中相應字符的坐標一一對應。當在文本層中檢索到一個字符，就映射到圖像層中的相應坐標，實現(xiàn)在圖片中的定位。

例如，某張圖片上有“古籍文獻數(shù)字化”7個字，它們的坐標分別為（232,301,246,315）、（232,319,246,333）、（236,355,264,384）、（253,391,267,405）、（253,410,267,424）、（254,430,267,443）、（253,449,267,463），括號中第1、2個數(shù)字表示一個字符的左上角橫座標與縱座標，第3、4個數(shù)字表示右下角的橫座標與縱座標，座標的單位為象素。假設檢索詞為“文獻”，檢索到它在文本層中分別是第3與第4個字，映射到圖像層中的坐標分別為（236,355,264,384）和（253,391,267,405），只要把圖片中這些座標所包圍的矩形反色標示，就實現(xiàn)了在圖片上的檢索定位。

根據(jù)以上原理在現(xiàn)代文獻中實現(xiàn)全文定位簡單易行，但是應用到古籍數(shù)字化則絕非易事，主要會遇到以下兩個難以解決的問題：

（1）OCR結果的準確性問題。在利用計算機排版并出版的現(xiàn)代文獻中，所使用的字體數(shù)量有限，使用同一種字體的字形狀固定，并且各個字符之間在X軸或Y軸上的投影至少都有1px的距離，對其進行OCR識別會有很高的識別率，目前主流的OCR識別軟件對現(xiàn)代文獻的識別率都能達到98%以上。

古籍文獻不同于現(xiàn)代文獻，無論是雕版印刷或者是活版印刷的古籍，字和字之間經(jīng)常是互相交叉，尤其是雕版印刷的古籍，所使用的模版是手工雕刻的，存在著很大的隨意性，同樣的字之間在字形上也會存在著不同，因此古籍的OCR識別率相對較低，識別率一般不會超過 80%，尤其是一些手工抄寫的古籍識別率更低，制作出雙層PDF文件中的文本錯誤太多，對于全文檢索而言沒有實際的使用價值。

（2）OCR結果的順序問題。古籍的排版方式不同于現(xiàn)代文獻，除了橫排和豎排的區(qū)別外，最主要的區(qū)別是古籍中存在著大量的雙行夾注，即大字下面并排排列著兩列小字。加上大量古籍的字體是手寫體，字的大小也不盡統(tǒng)一，導致OCR結果的順序出現(xiàn)很多意想不到的錯誤。例如張氏本的《宋本廣韻》有這樣一段文字（見右圖）：

文本的正確順序是：峒崆峒山名硐磨也。但是OCR出來的文本順序卻是：峒崆峒硐磨山名也。從這個例子可以看出，古籍通過OCR識別得到的文本，即使文字正確，也有可能由于順序錯誤，造成文本的錯誤。如果用人工手段將OCR出來的文本順序調整正確，因為大小字所占的空間不一樣，也會出現(xiàn)在圖片上的定位不準確。

我們把這兩個問題分開解決，首先解決OCR結果的順序問題，進而解決識別率不高的問題。

古籍OCR以后所以會產生順序問題，是因為古籍自有其特定的閱讀順序規(guī)則。雙行夾注的第一行結束以后，要轉到小字的第二行開始閱讀，而不是跳到下面的正文大字去。由于抄寫或雕版不規(guī)則，下一個字與前字的中心線有時候產生偏移，但是我們根據(jù)對同一行字的前行感知模式，不難判斷什么情況下前后字歸為一行，什么情況下分作兩行。我們采用動態(tài)規(guī)劃的思想，建立整個頁面中任意兩個坐標的先后順序權值，并對其求取最短路徑的方式實現(xiàn)坐標排序，可以糾正文本的順序錯誤。經(jīng)過測試，用這種糾錯方法，各種古籍，包括甲金文樣本在內，排序結果與人的閱讀順序一致率達到 100%。經(jīng)過這樣處理過的文本，其中的文字可能有誤，但是順序是肯定正確的，這種文本叫作有序文本。

順序問題解決以后，接著就是解決有序文本中的文字錯誤。古籍數(shù)字化經(jīng)過30多年的發(fā)展，已經(jīng)在互聯(lián)網(wǎng)上積累了大量相對精確的文本（我們稱其為精確文本）。使用精確文本對有序文本進行自動校對，使得校對后的文本中的每個字既保留精確文本的信息，同時又保留有序文本的位置信息。整個古籍數(shù)字化模型示意圖如下圖所示：

圖1 古籍數(shù)字化模型示意圖

（二）古籍數(shù)字化系統(tǒng)的實現(xiàn)。本研究通過坐標排序及自動校對的基本原理，已經(jīng)實現(xiàn)了在原始影印版古籍圖片上的全文檢索、全文定位的古籍數(shù)字化系統(tǒng)，包括古籍加工系統(tǒng)和古籍查詢系統(tǒng)。利用古籍加工系統(tǒng)進行古籍加工，能在少量人工干預的前提下實現(xiàn)平均40秒鐘加工一頁的速度，加工完成的數(shù)據(jù)可導入古籍查詢系統(tǒng)進行查詢。為了測試整個古籍數(shù)字化系統(tǒng)的效率和準確性，在古籍查詢系統(tǒng)中進行10次不同檢索詞的全文檢索及圖片定位，系統(tǒng)響應時間都能控制在秒的數(shù)量級，檢索結果定位準確率達到100%。實踐結果表明所實現(xiàn)的古籍數(shù)字化系統(tǒng)準確高效。

這個系統(tǒng)中目前已經(jīng)加工完成并能使用的有四部叢刊等古籍，古籍數(shù)量正在快速增長中，教育網(wǎng)內訪問網(wǎng)址為東方語言學上的文獻查詢鏈接，也可以直接訪問網(wǎng)址：http://202.121.55.168。

由于本系統(tǒng)是面向研究使用的系統(tǒng)，除了提供基本的書目檢索、全文檢索、正文檢索、注文檢索，以及全文圖片定位等功能外，還依托系統(tǒng)平臺，提供以下功能：（1）校注功能。對原版古籍中指定位置的圖像文字可以進行校注，并可查看相關學者的校注，為研究者提供了一個學術交流的平臺。同時，對于在校注中出現(xiàn)的相關文獻可直接進行直接鏈接定向，不必要另外進行查詢。（2）頁碼級對應的多版本對照功能。通過全文檢索定位某版本的圖片頁面以后，能直接打開其他版本的對應頁面，為研究者進行比較研究提供了極大的便利。

古籍數(shù)字化是一個系統(tǒng)工程，本研究所構建的高效、準確、可靠的數(shù)字化系統(tǒng)模型，為古籍數(shù)字化提供了一條新思路，同時系統(tǒng)中所提及的思想也可應用于少數(shù)民族文獻的數(shù)字化實踐。系統(tǒng)有待進一步改進之處有以下幾點：（1）可通過改進及優(yōu)化圖像處理算法等措施，進一步提高古籍的數(shù)字化加工效率。（2）依托系統(tǒng)準確、可靠的優(yōu)勢，可進一步挖掘古籍利用中一些深層次的信息。在當前大數(shù)據(jù)時代的背景下，更好地將古籍中包含的中華民族的傳統(tǒng)燦爛文化融入到信息社會的方方面面，發(fā)揮古籍更大的作用。

賀科偉 2011 我國古籍數(shù)字化標準體系建設芻議，《科技與出版》第8期。

劉聰明、姜愛蓉、鄭小惠 2011 信息技術在古籍數(shù)字化實踐中的應用，《蘭臺世界》第5期。

吳夏平 2012 古籍數(shù)字化與學術異化，《山西師大學報》（社會科學版）第5期。

周迪、宋登漢 2010 中文古籍數(shù)字化開發(fā)研究綜述，《圖書情報知識》第6期。

周雪瑩 2012 采用雙層PDF 形式將方正書版文件制作為可檢索式PDF文件，《編輯學報》第6期。

朱建亮 2002 粵港高校圖書館信息資源建設比較研究，《圖書館論壇》第1期。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

古籍數(shù)字化技術的新思路