国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文檔識(shí)別及其在藏文古籍識(shí)別中的應(yīng)用探討

2017-02-24 22:41:43李振江
求知導(dǎo)刊 2016年35期

李振江

摘 要:文檔識(shí)別技術(shù)能自動(dòng)識(shí)別文檔中的文本、圖片、表框等信息,為紙質(zhì)文檔的全文數(shù)字化提供了便利。文章分析了文檔識(shí)別過程中預(yù)處理、版面分析、行字切分、特征提取以及分類的流程,對(duì)文檔識(shí)別技術(shù)的發(fā)展做了一個(gè)簡(jiǎn)單的綜述,并結(jié)合藏文古籍識(shí)別的具體應(yīng)用,對(duì)該技術(shù)在藏文古籍識(shí)別方面的應(yīng)用難點(diǎn)進(jìn)行了探討。

關(guān)鍵詞:文檔識(shí)別;版面分析;藏文古籍

中圖分類號(hào):G273.3

文獻(xiàn)標(biāo)識(shí)碼:A

一、引言

從20世紀(jì)90年代開始,文檔分析與識(shí)別吸引了越來越多的研究者,目前有多個(gè)專門的國際會(huì)議對(duì)該項(xiàng)工作進(jìn)行研究。

例如,ICDAR(International Conference on Document Analysis and Recognition),ICFHR(International Conference on Frontiers in Handwriting Recognition),DAS(IAPR International Workshop on Document Analysis Systems)等,在相關(guān)領(lǐng)域的期刊(IEEE Transaction on Pattern Analysis and Machine Intelligence、Pattern Analysis and Applications、International Journal of Computer Vision、International Journal on Document Analysis and Recognition等)上也有大量文檔分析識(shí)別相關(guān)的論文出現(xiàn),整個(gè)領(lǐng)域的研究工作處在一個(gè)快速發(fā)展的階段。

二、文檔識(shí)別流程

從文檔識(shí)別工作的流程步驟上來說,可以分為圖像預(yù)處理與版面分析、行字切分、特征提取與分類等模塊[1]。

1. 預(yù)處理與版面分析

預(yù)處理階段主要工作是去噪以及圖像的增強(qiáng)和修復(fù),之后進(jìn)行版面分析,將圖像分為文字區(qū)域以及非文字區(qū)域,獲取結(jié)構(gòu)以便于重編和出版。文字區(qū)域需要進(jìn)一步確定該區(qū)域的文字是屬于題目、正文、標(biāo)注或者其他信息等;對(duì)于非文字區(qū)域,則要判別其是插圖、背景或者是噪音,并按照判別結(jié)果分別加以處理。在版面分析過程中,需要考慮的是不同類型區(qū)域特征選擇的問題和不同的分析方法及其效果評(píng)價(jià)。

2. 文本行字切分

對(duì)于完成了預(yù)處理以及版面分析后抽取的文字區(qū)域,需要進(jìn)一步的檢測(cè),將文本行以及單字進(jìn)行分割。在古籍文檔中,文本大多為約束文本和非約束文本混合出現(xiàn),其文本行往往是不一致的傾斜和彎曲,如何動(dòng)態(tài)調(diào)整切分距離,自適應(yīng)處理傾斜和彎曲文本是這一步需要考慮的問題。對(duì)于切分好的文本行,需要選擇合理的文字切分算法對(duì)單個(gè)字符進(jìn)行分割。

3.特征提取與分類

基于統(tǒng)計(jì)的方法是模式識(shí)別的一種經(jīng)典方法,目前在文檔分析識(shí)別上使用較為廣泛的方法有SVM方法、貝葉斯方法、隱馬爾可夫模型等,其關(guān)鍵在于統(tǒng)計(jì)同一種字符所特有的共有性質(zhì)或者相對(duì)穩(wěn)定的分類特征作為識(shí)別向量。這種向量應(yīng)當(dāng)具有穩(wěn)定的二維平面特征、水平或者垂直直方圖特征等。在統(tǒng)計(jì)方法中,這個(gè)邊界是基于每個(gè)類的模式的概率分布的,這點(diǎn)必須預(yù)先知道或通過學(xué)習(xí)獲得。

三、文檔識(shí)別的發(fā)展

從文檔識(shí)別研究的文字類型上來說,由于文檔識(shí)別技術(shù)最初源于西方國家,因此拉丁文字符文檔識(shí)別發(fā)展最早,目前成果也最多。隨著其他國家地區(qū)科研水平的提高,越來越多的非拉丁字符識(shí)別技術(shù)有了長(zhǎng)足發(fā)展。例如中文、日文、阿拉伯文、斯拉夫文、蒙古文、孟加拉文、藏文等。

從文檔識(shí)別研究的對(duì)象上來說,其源于OCR技術(shù),最初的目標(biāo)是識(shí)別特定字體的印刷字符,后來發(fā)展到多字體的混編的印刷文檔,隨后,手寫體文檔的識(shí)別成為一個(gè)研究的新內(nèi)容。與此同時(shí),研究對(duì)象的時(shí)間也不僅僅局限于現(xiàn)代文檔的識(shí)別研究,大量的古籍、歷史文檔、古代手稿、藝術(shù)作品成為新的研究對(duì)象。

四、藏文古籍識(shí)別

1.藏文古籍識(shí)別的意義

藏族擁有悠久輝煌的文化歷史,在我國,藏文古籍文檔規(guī)模宏大,其數(shù)量?jī)H次于漢語古籍文檔。為了更好地保護(hù)和利用這些文檔資料,對(duì)其進(jìn)行全文數(shù)字化是一個(gè)亟待完成的工作。目前國內(nèi)外已有一些藏文數(shù)據(jù)庫建成使用,例如“尼泊爾-德國手稿文獻(xiàn)保存計(jì)劃”、藏文文獻(xiàn)輸入計(jì)劃、藏傳佛教資料信息中心等。然而現(xiàn)有的數(shù)據(jù)庫,大都是將藏文古籍文獻(xiàn)掃描成圖加以保存,不便于對(duì)其進(jìn)行檢索以及深度開發(fā)利用,更好的手段是利用文檔識(shí)別方法,對(duì)其內(nèi)容進(jìn)行識(shí)別并轉(zhuǎn)換為內(nèi)碼形式進(jìn)行保存。

2. 藏文古籍字體

藏文自吞彌桑布札創(chuàng)制后經(jīng)過千余年的實(shí)踐創(chuàng)新,字體發(fā)展到幾十種。從大的方面講,可歸納為烏金體與烏梅體兩大類。烏金體即有冠體,整體書寫效果整齊劃一。吐蕃時(shí)期王室發(fā)布的文告、執(zhí)照以及碑文、鐘銘,特別是佛經(jīng)寫卷幾乎都是用烏金體書寫的。依據(jù)后弘期刊印的藏文書籍“軟字精校精刻”的要求,其大都采用烏金體[2]。

3. 藏文識(shí)別現(xiàn)狀

目前,就國內(nèi)外公開發(fā)表的文獻(xiàn)來看,鮮見藏文古籍文檔分析識(shí)別的相關(guān)研究工作。而脫機(jī)藏文字符識(shí)別工作已從最初的印刷體藏文識(shí)別開始向手寫藏文識(shí)別研究發(fā)展。其基本思路都是先通過對(duì)藏文字符的基本特征的研究,然后根據(jù)這些特征選擇設(shè)計(jì)相應(yīng)的算法對(duì)字符進(jìn)行切分,再做傾斜矯正、版面分析及歸一化處理。經(jīng)過上述的處理后,得到一個(gè)較為理想的二值圖像,然后對(duì)這個(gè)處理后的二值圖像利用適合的算法進(jìn)行識(shí)別。最后是對(duì)識(shí)別的結(jié)果用識(shí)別算法或上下文的關(guān)系來糾正誤識(shí)字和拒識(shí)字,提高識(shí)別率和適應(yīng)性,降低系統(tǒng)的誤識(shí)率。研究思路都是從藏文字符的自身特征出發(fā),運(yùn)用各種已有的識(shí)別技術(shù)來進(jìn)行特征提取、分類,進(jìn)而識(shí)別。

五、藏文古籍識(shí)別應(yīng)用

總的來說,藏文古籍識(shí)別的研究尚處于起步階段,其中大部分工作集中在現(xiàn)代藏文字符識(shí)別方面,而在藏文古籍文檔識(shí)別中,字符識(shí)別只是其中的一個(gè)模塊,且藏文古籍中梵音藏文字符占很大一部分;除了字符識(shí)別外,藏文古籍識(shí)別還在版面分析、文字切分等方面有大量工作等待完成。藏文古籍文檔識(shí)別研究中,還存在多方面的困難。

第一,藏文古籍文檔版面質(zhì)量差,導(dǎo)致獲取的圖像中存在大量噪音,同時(shí)圖像的前景中還存在字符內(nèi)容缺失、線條斷裂等其他質(zhì)量退化問題。如何合理的去噪,且在去噪的同時(shí)修補(bǔ)損失區(qū)域是做好藏文古籍識(shí)別的前提條件。

第二,藏文古籍文檔版面復(fù)雜,文字、背景有多種顏色,常常在文中嵌圖,通常文字周圍都有邊框且橫豎排文字混編。必須做好版面分析工作,正確高效的將文檔中不同類型的元素一一區(qū)分。

第三,藏文古籍中使用的字符集異常龐大,包括基本藏文字符集中獨(dú)立成字的169個(gè)字符、擴(kuò)充集A中1536個(gè)垂直預(yù)組合字符、擴(kuò)充集B中5669個(gè)垂直預(yù)組合字符,排除這三種字符集中重復(fù)的字符,字符總數(shù)共計(jì)7240類。如何獲取這7240個(gè)類別的樣本數(shù)據(jù),合理的設(shè)計(jì)分類器對(duì)這種稀疏樣本、高類別問題進(jìn)行分類是必須要解決的問題。

參考文獻(xiàn):

[1]Kai Chen,Mathias Seuret,Hao Wei,etal.Ground truth model, tool, and dataset for layout analysis of historical documents[J].Document Recognition and Retrieval XXII,2015(9402).

[2]先 巴.藏文古籍版本研究——以藏文古籍印本為中心[J].西藏研究,2016(3):99-110.

锦州市| 西藏| 犍为县| 紫金县| 巴林左旗| 云龙县| 霍林郭勒市| 潮州市| 昌图县| 四会市| 钦州市| 台江县| 津南区| 航空| 海晏县| 天气| 友谊县| 河曲县| 白山市| 英超| 隆林| 岗巴县| 偃师市| 南华县| 东平县| 大城县| 临西县| 宜都市| 太原市| 河源市| 得荣县| 莎车县| 霍城县| 铅山县| 张家界市| 榆社县| 建瓯市| 长子县| 阜平县| 读书| 铜鼓县|