任榮梓,高 航
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016)
基于反饋合并的中英文混排版面OCR技術(shù)研究
任榮梓,高 航
(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 南京 210016)
迄今,光學(xué)字符識(shí)別(OCR)技術(shù)已普遍應(yīng)用于社會(huì)生活的方方面面,單一字符集OCR技術(shù)領(lǐng)域已經(jīng)取得重大突破。但由于中文和英文版面分析之間存在的明顯差異,現(xiàn)有中英文混排OCR技術(shù)的表現(xiàn)均不盡如人意。針對(duì)傳統(tǒng)OCR方法實(shí)現(xiàn)方式的缺點(diǎn)和不足,在研究中英文混合版面分析切分技術(shù)難點(diǎn)的基礎(chǔ)上,提出了一種改進(jìn)的基于反饋合并的中英文混合版面分析切分方法。該方法在綜合應(yīng)用Canny算子的圖像二值化方法和中值濾波法進(jìn)行濾波預(yù)處理的基礎(chǔ)上,采用投影法兩次分割字符區(qū)域,并對(duì)具體切分技巧進(jìn)行了較為深入的研究。對(duì)比驗(yàn)證實(shí)驗(yàn)結(jié)果表明,所提出的版面分析切分方法可成功分離中英文混合文檔中的中文、英文和數(shù)字字符,正確率比傳統(tǒng)方法高出約8個(gè)百分點(diǎn),可達(dá)到97%,較好地解決了傳統(tǒng)方法對(duì)粘連字符處理效果不佳的問(wèn)題。
文字識(shí)別;中英混排;版面分析;分離
近年來(lái),關(guān)于OCR(光學(xué)字符識(shí)別)技術(shù)的研究蓬勃發(fā)展,優(yōu)秀的OCR算法更是層出不窮。例如,由南開(kāi)大學(xué)機(jī)器智能研究所研究的英文OCR技術(shù)在OCR英文核心技術(shù)評(píng)測(cè)中獲得世界第一,而由北京信息工程學(xué)院研究的中文OCR核心技術(shù)在UNLV(美國(guó)內(nèi)華達(dá)大學(xué)拉斯維加斯分校)的一次中文評(píng)測(cè)中獲得最佳。其他比較著名的OCR技術(shù)包括Tesseract-OCR、漢王等。
上述OCR技術(shù)雖然在各自單純語(yǔ)種環(huán)境下表現(xiàn)優(yōu)異,但是均不能保證對(duì)中文和英文及標(biāo)點(diǎn)符號(hào)混排的圖片進(jìn)行有效識(shí)別。絕大部分針對(duì)中英文混合圖片的現(xiàn)行OCR技術(shù)都是先采用版面分析技術(shù),即先實(shí)行中英文的分割,再運(yùn)用兩種不同的算法分別進(jìn)行識(shí)別,由此可見(jiàn)版面分析過(guò)程就顯得尤為重要。目前常用的版面分析算法分為三種:自頂向下法、自下而上法和綜合法。
自頂向下法重視全局信息,從頁(yè)面的整體入手,先利用圖像處理的常用方法將文本圖像劃分成若干區(qū)域,再根據(jù)文本結(jié)構(gòu)信息將第一次劃分出來(lái)的區(qū)域進(jìn)行二次劃分。此類方法包括投影二分法[1]、循環(huán)X-Y切分法[2]等,但該類方法對(duì)于信息內(nèi)容復(fù)雜的版面分割精度并不理想。
與自頂向下法相反,自下而上法重視局部信息,其從圖像像素開(kāi)始,將圖像由小區(qū)域逐步整合成大區(qū)域,最終覆蓋整個(gè)文本圖像。該方法彌補(bǔ)了自頂向下法存在的技術(shù)缺陷,包括游程碼平滑切分法[3]、K_近鄰聚類方法[4]、連通域提取算法切分[5]等,但缺點(diǎn)在于耗時(shí)較長(zhǎng)。
綜合法是文中采用的方法,既汲取了上述兩種方法的優(yōu)點(diǎn),實(shí)現(xiàn)了全局信息與局部信息的融合,又較好地解決了兩者存在的技術(shù)缺陷,在保證分割精度的前提下兼顧了時(shí)間的節(jié)省。有代表性的綜合法包括基于背景間隔的版面切分算法[6]、基于復(fù)雜度的中文版面分析算法[7]等。
形近字是中文字符不同于英文等西方字符的獨(dú)特之處?,F(xiàn)代漢語(yǔ)常用的3 500個(gè)字符中形近字就不止500個(gè),占總數(shù)的14%。此類字符多為左右結(jié)構(gòu)或上下結(jié)構(gòu),其部首或偏旁又是常見(jiàn)的漢字,給中文字符的識(shí)別造成了較大的麻煩。如“明、月”“汪、王”“由、甲”之類的字符通常極易被誤混或割裂,嚴(yán)重影響了文本的正確識(shí)別。因此在版面分析的切分過(guò)程中,對(duì)于形近字的識(shí)別應(yīng)充分重視。
文中介紹的基于反饋合并算法的中英混合版面分析處理流程為:首先進(jìn)行預(yù)處理,對(duì)輸入的數(shù)字圖片進(jìn)行二值化和去噪,預(yù)處理完成后利用行分割和字符分割方式對(duì)圖片進(jìn)行區(qū)域分割,將其分割為中文區(qū)域以及英文和數(shù)字區(qū)域,之后分別采用相對(duì)應(yīng)的方法對(duì)兩種區(qū)域進(jìn)行二次分割,然后利用評(píng)估系數(shù)對(duì)二次分割結(jié)果進(jìn)行判別,屬于粘連字符的情況下則對(duì)其再次進(jìn)行分割,直至檢測(cè)不到粘連字符時(shí),分割完畢。流程如圖1所示。
圖1 處理流程圖
2.1 二值化
對(duì)原始圖像進(jìn)行預(yù)處理,包括將圖像進(jìn)行常規(guī)初始化操作即二值化[8]和降噪處理。所謂圖像二值化即把圖像上所有像素點(diǎn)的值進(jìn)行分化:設(shè)置為0或1。二值化的圖像具有非常明顯的視覺(jué)效果即非黑即白,在OCR處理中具有極其重要的作用。通常進(jìn)行二值化的方法是全局二值化閾值法:即設(shè)定一個(gè)閾值T,大于等于T的所有像素置為1,小于T的像素置為0。所以選取合適的閾值T是關(guān)鍵。目前比較先進(jìn)的二值化方法有結(jié)合Canny算子的圖像二值化[9]等。文中采用這種二值化方式。
2.2 圖像去噪
在二值化完成之后,雖然文本圖片已被分割為包含文本信息的前景圖片和不包含文本信息的背景圖片,可是在前景信息中仍然具有一些零星的噪聲點(diǎn),如果此時(shí)不對(duì)其進(jìn)行消除,則對(duì)OCR后期操作的破壞性影響是很大的。噪聲一般分為加性噪聲、乘性噪聲和量化噪聲三種。其中,加性噪聲主要是由于攝像機(jī)在掃描圖像過(guò)程中產(chǎn)生的,與信號(hào)本身無(wú)關(guān)。乘性噪聲則是圖像信號(hào)本身所附帶的,例如影視圖像中產(chǎn)生的雪花點(diǎn)等等。而圖像量化中產(chǎn)生的量化誤差導(dǎo)致的噪聲則稱為量化噪聲。
目前對(duì)去噪方法而言,常用的主要有均值濾波、自適應(yīng)維納濾波和中值濾波[10]等。其中,均值濾波主要采用相鄰區(qū)域像素平均值的均值濾波器,這種方法對(duì)于加性噪聲的清除效果較為顯著,但缺點(diǎn)也十分明顯:即因?yàn)槠骄菀讓?dǎo)致圖像局部模糊。而自適應(yīng)維納濾波是根據(jù)圖像的局部方差來(lái)調(diào)整濾波器的輸出,克服了圖像模糊的問(wèn)題,但是缺點(diǎn)在于其計(jì)算量過(guò)大。中值濾波是采用一種較為簡(jiǎn)單的非線性平滑濾波器,它根據(jù)噪聲往往都是孤立的特性,把圖像中一點(diǎn)的值用其附近有效區(qū)域的個(gè)點(diǎn)值的中值替代,從而使周圍像素差別較大的點(diǎn)得到平均,以此來(lái)消除噪聲點(diǎn)。因?yàn)橹兄禐V波法性能的優(yōu)異和操作的簡(jiǎn)便,文中在去噪處理中使用了中值濾波。
預(yù)處理完成后,利用行分割和字符分割方式對(duì)混合區(qū)域進(jìn)行區(qū)域分割,之后再分別利用兩種不同的方法對(duì)確定塊中的中文和英文數(shù)字塊進(jìn)行分割,直到完成所有字符的分割工作。對(duì)于其中的中文字符塊,先行判斷它是否是粘連字符,如果是,則對(duì)其進(jìn)行字符再分割。當(dāng)不再能檢測(cè)到粘連字符時(shí)則證明分割完成。
3.1 行分割
正常的文本圖片行與行之間的空格間距是固定的,通常情況下也會(huì)小于單行文本的字符高度。因?yàn)樾信c行之間空白的存在,通過(guò)檢測(cè)空白區(qū)域,就可以利用它確定一行的首末??梢允褂靡粋€(gè)固定的比較大的閾值來(lái)幫助確定,而這個(gè)閾值通常情況下可以使用比二倍于一個(gè)字符的寬度略大。對(duì)于一個(gè)正常文本文件而言,極少有大于兩個(gè)字符寬度的空格,即使有,因?yàn)楫?dāng)一個(gè)文本出現(xiàn)大于兩個(gè)字符寬度的時(shí)候,文意已經(jīng)產(chǎn)生了變化,按照分開(kāi)行的做法也并不會(huì)產(chǎn)生錯(cuò)誤。當(dāng)一行空白的區(qū)域高度小于這個(gè)閾值時(shí),可以斷定它是一個(gè)空白。當(dāng)黑色區(qū)域大于某一個(gè)閾值時(shí),可以認(rèn)為它是一行的開(kāi)始,當(dāng)黑色區(qū)域小于閾值時(shí),可以判斷其為一行的結(jié)尾。按照這種方法可以把文本按行分割完畢,之后再對(duì)字符分割也就更加便捷。
圖2展示了多行文字的水平投影。
圖2 水平投影
3.2 字符分割
行分割完成之后,就可以進(jìn)行字符分割。除了行與行之間,同一行以內(nèi)的字符間也是存在些許空白的,可以利用這些空白把字符分割出來(lái)。垂直投影法就是一種不錯(cuò)的方法。把數(shù)字圖像具體化為一個(gè)M×N的矩陣g(i,j),每一列的垂直投影為:
(1)
其中,投影值為0的點(diǎn)是字符間的空白。從第一個(gè)不為0的點(diǎn)Ja開(kāi)始,分割程序從左至右掃描每一行文本,當(dāng)遇到V(j)=0的點(diǎn)Jb時(shí)停止,兩點(diǎn)之間視為一個(gè)字符。使用這種方法循環(huán)至一行的結(jié)尾。圖3展示了單行文字的垂直投影。
圖3 垂直投影
3.3 區(qū)域分割
把中文字符的中心投影映射到同一水平線上,可以發(fā)現(xiàn)中文字符的水平間隔是均勻且固定的,而且根據(jù)反復(fù)觀察得知該特性并不受字體或者樣式的改變影響,例如華文仿宋和加粗等。這意味著可以用水平間隔的恒定性來(lái)判斷一些字符是否為中文。與之類似,英文字符也具有類似的性質(zhì),只是每隔一段時(shí)間就會(huì)出現(xiàn)大的跨越;但是當(dāng)中文、英文以及數(shù)字混合出現(xiàn)在一行的時(shí)候,間隔將會(huì)變得混亂。根據(jù)這種差異性可以由此來(lái)進(jìn)行中英區(qū)域的分割。
因?yàn)橛⑽淖址蛿?shù)字字符有類似的寬度和周期,并且在一行之中都會(huì)有一些固定的單詞之間的空格。英文以及數(shù)字字符的長(zhǎng)和寬遠(yuǎn)遠(yuǎn)小于中文字符。所以,可以利用監(jiān)測(cè)字符的長(zhǎng)和寬來(lái)分離出中文字符區(qū)域。之后在剩下的英文區(qū)域和數(shù)字區(qū)域中,依據(jù)相同的方法,鑒于標(biāo)點(diǎn)符號(hào)的長(zhǎng)寬比相對(duì)來(lái)說(shuō)要小很多,可以依此迅速分離出標(biāo)點(diǎn)符號(hào)。由此,中文和英文數(shù)字得以分離開(kāi)來(lái)。圖4展示了分離結(jié)果。
圖4 區(qū)域分離結(jié)果
4.1 中文字符二次分割
相關(guān)文獻(xiàn)中提出了很多分離中文的算法,例如基于可見(jiàn)性的中文字符分離[11]、基于中文筆畫(huà)結(jié)合的手寫(xiě)中文字符分離[12]、基于多信息融合的中文字符分離[13]、基于單元合并的中文字符分離[14]以及基于反饋的中文字符分割算法[15]等等。以上方法在一定程度上可以較好地分離中文字符,但是對(duì)部分較為生僻且結(jié)構(gòu)特殊的中文字符都會(huì)出現(xiàn)不同程度的錯(cuò)誤,而且單純經(jīng)過(guò)分割算法,雖然絕大部分中文字符可以被分離出來(lái),但是在已經(jīng)分理出的字符中仍有一部分粘連字符,例如常見(jiàn)的“日”和“月”就容易粘連為“明”。為保證最終的識(shí)別結(jié)果正確,需要對(duì)已分離出的結(jié)果進(jìn)行粘連字符的檢測(cè)和二次分離。所以文中將已有的算法進(jìn)行綜合改進(jìn),提出了一種反饋合并算法用來(lái)分離中文字符。具體過(guò)程如下:
(1)設(shè)立評(píng)估系數(shù)。
(L,U),(R,D)表示i的位置,其中(L,U)和(R,D)分別是該單元左上角坐標(biāo)和該單元右下角坐標(biāo);
待評(píng)估字符的寬度Pw、高度Ph、行間距Pl和所占空間Ps;
(a1,a2,a3,a4,a5,a6)是根據(jù)先驗(yàn)知識(shí)確定的系數(shù);
Wi和Hi代表正在合并的某個(gè)特定單元的字符的寬和高,Hij表示合并后的高度;
M表示總單元個(gè)數(shù),N表示剩余單元個(gè)數(shù)。
(2)
(3)
(2)設(shè)立一個(gè)評(píng)估標(biāo)志位Flag并將其置為FALSE。
對(duì)任意單元i,遍歷單元集合,當(dāng)存在單元j滿足下面所述條件時(shí),則將單元i和單元j合并為一個(gè)字符。
(4)
(3)記錄在第二步中進(jìn)行合并之后的單元的合并信息,并將它們的標(biāo)志位Flag置為T(mén)RUE,當(dāng)有一個(gè)字符通過(guò)評(píng)估時(shí),將合并為它的字符記為“通過(guò)單元”。全部結(jié)束之后將會(huì)有一部分單元被保留下來(lái)而沒(méi)有被合并,此時(shí)就需要對(duì)剩余未標(biāo)記為“通過(guò)單元”的所有單元使用第二次反饋因子進(jìn)行二次合并。即當(dāng)剩余非“通過(guò)單元”滿足以下條件時(shí),對(duì)其進(jìn)行合并。
(5)
(5)分離粘連字符:上一步尋找到粘連字符之后,需要首先確定一個(gè)正確的分割點(diǎn)。對(duì)于中文字符的粘連字符,它的寬度可以根據(jù)所有中文字符的平均高度來(lái)確定,因?yàn)橹形淖址?dú)特的矩形結(jié)構(gòu),它們的高寬比在1.05~1.15之間,因此可以利用投影法來(lái)確定字符的邊界:即從左至右掃描每一行以確定全部的粘連字符的區(qū)域并標(biāo)識(shí)出全部的分割點(diǎn),分割完成。
4.2 英文和數(shù)字的二次分割
對(duì)英文和數(shù)字字符的再分離可以利用字符圖像背景的上下凹區(qū)域進(jìn)行再切分[16]。通過(guò)計(jì)算圖像的背景域,提取出上下凹區(qū)域,再采用相鄰匹配原則和最小面積選擇原則確定切分域,從而提取出切分線進(jìn)行切分。文中采用該方法進(jìn)行英文和數(shù)字的二次分割,達(dá)到了較為理想的效果。
實(shí)驗(yàn)選取了包含中英混合文字的報(bào)紙、書(shū)刊、網(wǎng)頁(yè)快照作為測(cè)試文件,字體主要是由宋體標(biāo)準(zhǔn)和加黑組成,英文為主要正常字體包含部分斜體,字號(hào)大小均有差異,掃描分辨率為300~400 dpi。將混合材料分成三組,數(shù)量分別控制在1 500、3 000和5 000數(shù)量級(jí)(因?yàn)椴牧媳旧硐拗茣?huì)有一些浮動(dòng)),三組材料中文所占比例大致均衡,約為44%(668)、56%(1 650)、48%(2 502)。結(jié)果見(jiàn)表1。
表1 實(shí)驗(yàn)結(jié)果
表1記錄了測(cè)試樣本的數(shù)量及錯(cuò)誤數(shù)量,其中錯(cuò)誤數(shù)量按照原本正確的材料中的字符中未出現(xiàn)的來(lái)計(jì)數(shù),即兩個(gè)字符粘連成一個(gè)字符記為兩次錯(cuò)誤,而一個(gè)字切分成兩個(gè)的情況則記為一次錯(cuò)誤。最終的結(jié)果表明,文中方式對(duì)字符的切割效率較好,比使用傳統(tǒng)單元合并的版面分析法提高約8%,比使用傳統(tǒng)反饋評(píng)估的方法提高約3%。
針對(duì)傳統(tǒng)OCR方法實(shí)現(xiàn)方式的缺點(diǎn)和不足,在研究中英文混合版面分析切分方法技術(shù)難點(diǎn)的基礎(chǔ)上,提出了一種改進(jìn)的基于反饋合并的中英文混合版面分析切分方法。該方法在綜合應(yīng)用Canny算子的圖像二值化方法和中值濾波法進(jìn)行濾波預(yù)處理的基礎(chǔ)上,采用投影法兩次分割字符區(qū)域,并對(duì)具體切分技巧進(jìn)行了較為深入的研究。對(duì)比驗(yàn)證實(shí)驗(yàn)結(jié)果表明,所提出的版面分析切分方法可成功分離中英文混合文檔中的中文、英文和數(shù)字字符,且具有普遍高于傳統(tǒng)方法的正確率,較好地解決了傳統(tǒng)方法對(duì)粘連字符處理效果不佳的問(wèn)題。
[1] 王 丹,劉 江.基于投影直方圖的文檔圖像快速匹配研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(7):129-131.
[2] Mao S,Kanungo T.Empircal perforinanoce evaluation of page segmentation algorithms[C]//Proceeding of SPIE conference on document recognition and retrieval.[s.l.]:[s.n.],2000:303-312.
[3] 張 利,朱 穎,吳國(guó)威.基于游程平滑算法的英文版面分割[J].電子學(xué)報(bào),1999,27(7):102-104.
[4] 周國(guó)兵,吳建鑫,周 嵩.一種基于近鄰表示的聚類方法[J].軟件學(xué)報(bào),2015,26(11):2847-2855.
[5] 陳 艷,孫羽菲,張玉志.基于連通域的漢字切分技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2005,22(6):246-248.
[6] 楊 寧.基于背景間隔的中文版面分析系統(tǒng)[D].南京:南京理工大學(xué),2002.
[7] 范玉鳳.基于復(fù)雜度的自適應(yīng)中文版面分析方法研究[D].青島:中國(guó)海洋大學(xué),2011.
[8] Zhang Y L,Zhang S C.Image rotation and binaryzation based on .Net[C]//7th international conference on electronic measurement and instruments.Beijing:[s.n.],2005:406-408.
[9] 陳 強(qiáng),朱立新,夏德深.結(jié)合Canny算子的圖像二值化[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2005,17(6):1302-1306.
[10] 張 恒,雷志輝,丁曉華.一種改進(jìn)的中值濾波算法[J].中國(guó)圖象圖形學(xué)報(bào),2004,9(4):408-411.
[11] Xu Liang,Yin Fei,Wang Qiufeng,et al.Touching character separation in Chinese handwriting using visibility-based foreground analysis[C]//11th international conference on document analysis and recognition.Los Alamitos,CA,USA:IEEE Computer Society,2011:859-863.
[12] 趙姝巖,郭 捷,施鵬飛.基于筆畫(huà)分析和背景細(xì)化的粘連手寫(xiě)漢字切分[J].上海交通大學(xué)學(xué)報(bào),2003,37(9):1434-1437.
[13] 付 強(qiáng),丁曉青,蔣 焰.基于多信息融合的中文手寫(xiě)地址字符串切分與識(shí)別[J].電子與信息學(xué)報(bào),2008,30(12):2916-2920.
[14] Liu Mingzhu,Suo Yuxiu,Ding Yinan.Research on optimization segmentation algorithm for Chinese/English mixed character image in OCR[C]//4th international conference on instrumentation and measurement,computer,communication and control.New York,NY,USA:IEEE,2014:764-769.
[15] 安艷輝,董五洲.基于識(shí)別反饋的粘連字符切分方法研究[J].河北省科學(xué)院學(xué)報(bào),2008,25(2):32-35.
[16] 羅 佳.一種對(duì)粘連英文字符串的快速切分算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,24(8):59-62.
Investigation on Layout Analysis Technology of Chinese and English Mixed OCR Based on Feedback Merging
REN Rong-zi,GAO Hang
(School of Computer Science and Technology,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China)
So far,Optical Character Recognition (OCR) technology has been widely applied in all aspects of social life,and a single character set OCR has made a major breakthrough in the technology field.However,due to the obvious differences between Chinese and English layout analysis,the performance of the existing English and Chinese mixed OCR technology is not satisfactory.According to the shortcomings and deficiencies of traditional OCR method,on the basis of the analysis of the segmentation technique difficulties in the study of Chinese and English mixed layout,an improved segmentation method of Chinese and English mixed layout OCR analysis based on feedback merging is proposed.Based on the comprehensive utilization of the Canny operator image binary method and median filter method for filter preprocessing,this method segments the character region twice by projection method,and has conducted the thorough research to the specific segmentation techniques.Experiment results show that the proposed method can be successfully separated in mixed document in Chinese,English and numeric characters.The correct rate is higher than the traditional method about 8 percentage points,which can reach 97%,effectively solving the problem of ineffective adhesion character for the traditional methods.
character recognition;English and Chinese mixed;layout analysis;separation
2016-04-13
2016-08-10
時(shí)間:2017-01-10
江蘇省科技成果轉(zhuǎn)化專項(xiàng)資金(BA2012023)
任榮梓(1993-),男,碩士研究生,研究方向?yàn)閳D像處理;高 航,副教授,碩士生導(dǎo)師,研究方向?yàn)閳D像處理、嵌入式應(yīng)用。
http://www.cnki.net/kcms/detail/61.1450.TP.20170110.1028.074.html
TP301
A
1673-629X(2017)03-0039-05
10.3969/j.issn.1673-629X.2017.03.008