国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

古籍數(shù)字化技術的新思路

2014-05-30 08:55:52鑫,潘
語言研究 2014年1期
關鍵詞:全文檢索古籍檢索

章 杰 鑫,潘 悟 云

(上海師范大學 語言研究所,上海 200234)

文獻數(shù)字化建設,自上個世紀80年代開始,至今超過了30年,有不少產品面世并進入商業(yè)化應用。文獻數(shù)字化最根本的目的是要解決如何高效、準確、可靠地讓讀者查詢到自己所關注的東西,從這個角度而言,文獻數(shù)字化大致經(jīng)歷了三個階段。

第一階段:文本數(shù)字化階段。這一階段的產品以文本方式進行檢索、展現(xiàn),文本通過人工輸入、或者對影印紙質文獻進行OCR識別并校對后獲取。這個階段的產品以臺灣中研院的瀚典全文檢索系統(tǒng)為代表,能提供文本檢索、反色定位等功能,文獻的利用方式發(fā)生了革命性的變化。以往研究者要花費數(shù)個月甚至是數(shù)年時間翻閱大量文獻的工作,通過電子文本只要幾分鐘就能完成。但是這一階段的數(shù)字化產品也存在幾個缺陷:(1)用于檢索的文本有可信度問題。因為檢索的文本是通過人工輸入,或者 OCR識別獲得,都存在不忠于原版紙質文獻的問題,原因大致有兩個:1)輸入錯誤。用人工輸入或OCR得到的文本,錯誤當然是不可避免的。2)字符集規(guī)模限制導致的錯誤。目前普遍使用的七萬多字的Unicode字符集,在文獻數(shù)字化中顯然不夠用。此外,大量的異體字、通假字、避諱字,以及日、韓等國的漢字,有很多無法輸入。這些都會導致文本與原版紙質文獻之間的不一致。(2)必須查驗對應的紙質文獻。這一方面是由于檢索文本的可信度不夠,用戶不敢直接采信。另一方面,與檢索內容相關的一些其他信息,如頁數(shù)、行數(shù)、版本以及上下文內容等等,也許只能在原書中找到。這就導致讀者還需要花時間去查找相應的紙質文獻,甚至會一時找不到原書。同時,查找原書也會導致紙質文獻的磨損,尤其是某些珍貴的古籍是不允許人工翻閱的。

第二階段:文本為主,影印版為輔的數(shù)字化階段。這一階段的文獻數(shù)字化產品以愛如生中國基本古籍庫為代表,在第一階段的基礎上,加入了兩個顯著的改進:(1)將文本按照原版的樣式、字體等進行排版,并能進行檢索和定位,讓讀者在視覺上有了與紙質原版相似的感覺。但是由于用來檢索的還是文本,所以仍然不能克服第一階段的文本可信度問題。(2)提供影印版圖片與文本進行對照,免除了讀者到圖書館去翻閱相應的紙質文獻的麻煩。然而影印版圖片的對照以整本書為單位,讀者在對照時還是需要瀏覽整本書來定位到相應的頁碼和位置,這無疑是一項費時費力的工作。

第三階段:在影印版圖片上直接進行檢索、定位的階段。這個階段的產品以超星為代表。在屏幕上顯示的是原書的影印版圖片,輸入要查詢的字符,就能直接定位到圖像上的字符位置。其工作原理是利用雙層PDF技術,對圖片進行OCR識別建立文本,文本上的每個字符與圖片上對應字符的坐標位置產生映射關系。在文本層上檢索到要查的字符,就能夠通過這種映射關系,直接反色顯示到圖片中的相應位置,產生在影印圖片上實現(xiàn)全文檢索的效果。用來檢索的文本雖然是用OCR識別得到,仍然存在文本的可信度問題,但是檢索結果直接映射到原版圖片上的對應位置,讀者在直接閱讀原版文獻圖片的時候,避免了文本中可能出現(xiàn)的錯誤。

可以說超星在這一點上取得了巨大的成功,然而也存在著很大的不足。因為古代出版物OCR的識別率很低,無法實現(xiàn)雙層PDF技術,所以進行原版圖片檢索并且定位的文獻僅限于近現(xiàn)代文獻。于是,目前文獻檢索的產品就分為兩類,能作現(xiàn)代出版物檢索的產品不能檢索古代出版物,能檢索古代出版物的產品不能檢索現(xiàn)代出版物,這對研究人員來說,無疑是一大缺陷。

(一)古代出版物影印圖片上全文檢索的實現(xiàn)。本研究是將現(xiàn)代文獻的數(shù)字化的基本原理應用于古籍數(shù)字化,成功解決了幾個關鍵的問題,使得古籍的數(shù)字化能像現(xiàn)代文獻數(shù)字化一樣,實現(xiàn)在原始影印版古籍圖片上進行全文檢索、全文定位。

在影印版圖片上直接進行檢索、定位的基本原理,是將文獻圖片OCR識別成文本,與圖片形成雙層PDF文件。文本層中每一個字符與圖像層中相應字符的坐標一一對應。當在文本層中檢索到一個字符,就映射到圖像層中的相應坐標,實現(xiàn)在圖片中的定位。

例如,某張圖片上有“古籍文獻數(shù)字化”7個字,它們的坐標分別為(232,301,246,315)、(232,319,246,333)、(236,355,264,384)、(253,391,267,405)、(253,410,267,424)、(254,430,267,443)、(253,449,267,463),括號中第1、2個數(shù)字表示一個字符的左上角橫座標與縱座標,第3、4個數(shù)字表示右下角的橫座標與縱座標,座標的單位為象素。假設檢索詞為“文獻”,檢索到它在文本層中分別是第3與第4個字,映射到圖像層中的坐標分別為(236,355,264,384)和(253,391,267,405),只要把圖片中這些座標所包圍的矩形反色標示,就實現(xiàn)了在圖片上的檢索定位。

根據(jù)以上原理在現(xiàn)代文獻中實現(xiàn)全文定位簡單易行,但是應用到古籍數(shù)字化則絕非易事,主要會遇到以下兩個難以解決的問題:

(1)OCR結果的準確性問題。在利用計算機排版并出版的現(xiàn)代文獻中,所使用的字體數(shù)量有限,使用同一種字體的字形狀固定,并且各個字符之間在X軸或Y軸上的投影至少都有1px的距離,對其進行OCR識別會有很高的識別率,目前主流的OCR識別軟件對現(xiàn)代文獻的識別率都能達到98%以上。

古籍文獻不同于現(xiàn)代文獻,無論是雕版印刷或者是活版印刷的古籍,字和字之間經(jīng)常是互相交叉,尤其是雕版印刷的古籍,所使用的模版是手工雕刻的,存在著很大的隨意性,同樣的字之間在字形上也會存在著不同,因此古籍的OCR識別率相對較低,識別率一般不會超過 80%,尤其是一些手工抄寫的古籍識別率更低,制作出雙層PDF文件中的文本錯誤太多,對于全文檢索而言沒有實際的使用價值。

(2)OCR結果的順序問題。古籍的排版方式不同于現(xiàn)代文獻,除了橫排和豎排的區(qū)別外,最主要的區(qū)別是古籍中存在著大量的雙行夾注,即大字下面并排排列著兩列小字。加上大量古籍的字體是手寫體,字的大小也不盡統(tǒng)一,導致OCR結果的順序出現(xiàn)很多意想不到的錯誤。例如張氏本的《宋本廣韻》有這樣一段文字(見右圖):

文本的正確順序是:峒崆峒山名硐磨也。但是OCR出來的文本順序卻是:峒崆峒硐磨山名也。從這個例子可以看出,古籍通過OCR識別得到的文本,即使文字正確,也有可能由于順序錯誤,造成文本的錯誤。如果用人工手段將OCR出來的文本順序調整正確,因為大小字所占的空間不一樣,也會出現(xiàn)在圖片上的定位不準確。

我們把這兩個問題分開解決,首先解決OCR結果的順序問題,進而解決識別率不高的問題。

古籍OCR以后所以會產生順序問題,是因為古籍自有其特定的閱讀順序規(guī)則。雙行夾注的第一行結束以后,要轉到小字的第二行開始閱讀,而不是跳到下面的正文大字去。由于抄寫或雕版不規(guī)則,下一個字與前字的中心線有時候產生偏移,但是我們根據(jù)對同一行字的前行感知模式,不難判斷什么情況下前后字歸為一行,什么情況下分作兩行。我們采用動態(tài)規(guī)劃的思想,建立整個頁面中任意兩個坐標的先后順序權值,并對其求取最短路徑的方式實現(xiàn)坐標排序,可以糾正文本的順序錯誤。經(jīng)過測試,用這種糾錯方法,各種古籍,包括甲金文樣本在內,排序結果與人的閱讀順序一致率達到 100%。經(jīng)過這樣處理過的文本,其中的文字可能有誤,但是順序是肯定正確的,這種文本叫作有序文本。

順序問題解決以后,接著就是解決有序文本中的文字錯誤。古籍數(shù)字化經(jīng)過30多年的發(fā)展,已經(jīng)在互聯(lián)網(wǎng)上積累了大量相對精確的文本(我們稱其為精確文本)。使用精確文本對有序文本進行自動校對,使得校對后的文本中的每個字既保留精確文本的信息,同時又保留有序文本的位置信息。整個古籍數(shù)字化模型示意圖如下圖所示:

圖1 古籍數(shù)字化模型示意圖

(二)古籍數(shù)字化系統(tǒng)的實現(xiàn)。本研究通過坐標排序及自動校對的基本原理,已經(jīng)實現(xiàn)了在原始影印版古籍圖片上的全文檢索、全文定位的古籍數(shù)字化系統(tǒng),包括古籍加工系統(tǒng)和古籍查詢系統(tǒng)。利用古籍加工系統(tǒng)進行古籍加工,能在少量人工干預的前提下實現(xiàn)平均40秒鐘加工一頁的速度,加工完成的數(shù)據(jù)可導入古籍查詢系統(tǒng)進行查詢。為了測試整個古籍數(shù)字化系統(tǒng)的效率和準確性,在古籍查詢系統(tǒng)中進行10次不同檢索詞的全文檢索及圖片定位,系統(tǒng)響應時間都能控制在秒的數(shù)量級,檢索結果定位準確率達到100%。實踐結果表明所實現(xiàn)的古籍數(shù)字化系統(tǒng)準確高效。

這個系統(tǒng)中目前已經(jīng)加工完成并能使用的有四部叢刊等古籍,古籍數(shù)量正在快速增長中,教育網(wǎng)內訪問網(wǎng)址為東方語言學上的文獻查詢鏈接,也可以直接訪問網(wǎng)址:http://202.121.55.168。

由于本系統(tǒng)是面向研究使用的系統(tǒng),除了提供基本的書目檢索、全文檢索、正文檢索、注文檢索,以及全文圖片定位等功能外,還依托系統(tǒng)平臺,提供以下功能:(1)校注功能。對原版古籍中指定位置的圖像文字可以進行校注,并可查看相關學者的校注,為研究者提供了一個學術交流的平臺。同時,對于在校注中出現(xiàn)的相關文獻可直接進行直接鏈接定向,不必要另外進行查詢。(2)頁碼級對應的多版本對照功能。通過全文檢索定位某版本的圖片頁面以后,能直接打開其他版本的對應頁面,為研究者進行比較研究提供了極大的便利。

古籍數(shù)字化是一個系統(tǒng)工程,本研究所構建的高效、準確、可靠的數(shù)字化系統(tǒng)模型,為古籍數(shù)字化提供了一條新思路,同時系統(tǒng)中所提及的思想也可應用于少數(shù)民族文獻的數(shù)字化實踐。系統(tǒng)有待進一步改進之處有以下幾點:(1)可通過改進及優(yōu)化圖像處理算法等措施,進一步提高古籍的數(shù)字化加工效率。(2)依托系統(tǒng)準確、可靠的優(yōu)勢,可進一步挖掘古籍利用中一些深層次的信息。在當前大數(shù)據(jù)時代的背景下,更好地將古籍中包含的中華民族的傳統(tǒng)燦爛文化融入到信息社會的方方面面,發(fā)揮古籍更大的作用。

賀科偉 2011 我國古籍數(shù)字化標準體系建設芻議,《科技與出版》第8期。

劉聰明、姜愛蓉、鄭小惠 2011 信息技術在古籍數(shù)字化實踐中的應用,《蘭臺世界》第5期。

吳夏平 2012 古籍數(shù)字化與學術異化,《山西師大學報》(社會科學版)第5期。

周迪、宋登漢 2010 中文古籍數(shù)字化開發(fā)研究綜述,《圖書情報知識》第6期。

周雪瑩 2012 采用雙層PDF 形式將方正書版文件制作為可檢索式PDF文件,《編輯學報》第6期。

朱建亮 2002 粵港高校圖書館信息資源建設比較研究,《圖書館論壇》第1期。

猜你喜歡
全文檢索古籍檢索
中醫(yī)古籍“疒”部俗字考辨舉隅
關于版本學的問答——《古籍善本》修訂重版說明
天一閣文叢(2020年0期)2020-11-05 08:28:06
2019年第4-6期便捷檢索目錄
關于古籍保護人才培養(yǎng)的若干思考
天一閣文叢(2018年0期)2018-11-29 07:48:08
我是古籍修復師
金橋(2017年5期)2017-07-05 08:14:41
Oracle數(shù)據(jù)庫全文檢索性能研究
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
特色數(shù)據(jù)庫全文檢索系統(tǒng)的設計
國際標準檢索
沙湾县| 陆川县| 永善县| 简阳市| 南城县| 弥勒县| 沁水县| 防城港市| 宣化县| 璧山县| 临汾市| 娄底市| 图片| 塔城市| 体育| 尚义县| 隆尧县| 乌鲁木齐县| 双辽市| 驻马店市| 绵阳市| 富顺县| 南城县| 右玉县| 库尔勒市| 镇雄县| 广昌县| 吉木乃县| 高唐县| 望都县| 渝北区| 宿松县| 汕尾市| 博野县| 高唐县| 新化县| 吉隆县| 开平市| 尉氏县| 奉新县| 南京市|