国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中英文混排扭曲文本圖像快速校正方法

2015-12-07 02:41王景中童立靖
圖學(xué)學(xué)報 2015年6期
關(guān)鍵詞:中英文字符校正

王景中, 孫 婷, 童立靖

(北方工業(yè)大學(xué)計算機(jī)學(xué)院,北京 100144)

中英文混排扭曲文本圖像快速校正方法

王景中, 孫婷, 童立靖

(北方工業(yè)大學(xué)計算機(jī)學(xué)院,北京 100144)

針對OCR在識別文本圖像時,由于扭曲造成的中英文混排文本圖像識別率不理想的情況,提出一種快速扭曲校正方法。圖像經(jīng)過預(yù)處理后,首先利用形態(tài)學(xué)膨脹定位文本行,得到各文本行上下邊界;分別對每個文本行參考垂直投影信息進(jìn)行文字切分,獲得字符包圍盒;然后根據(jù)中英文的不同特點在每個文本行中逐個對字符位置進(jìn)行校正,最終實現(xiàn)圖像重構(gòu)。實驗結(jié)果表明,該方法校正速度快、精度高,對于中英文混排扭曲文檔圖像有較好地校正效果,校正后圖像OCR識別率有明顯提高。

中英文混排;扭曲文檔圖像;文本行提取;字符切分

光學(xué)字符識別(optical character recognition,OCR)是通過數(shù)碼設(shè)備采集圖像,高效地提取圖像中的文本信息,但其對采集到的圖像質(zhì)量要求很高,對已裝訂成冊的文檔或較厚的書籍進(jìn)行掃描或拍攝時,容易發(fā)生幾何變形,使采集到的文檔圖像發(fā)生扭曲,這種變形對OCR識別的效果有嚴(yán)重影響,需要對該種圖像進(jìn)行校正。隨著國際技術(shù)以及文化交流的發(fā)展,多語言文檔越來越普遍,高技術(shù)領(lǐng)域通常含有大量外文術(shù)語,多語言對照的文學(xué)著作與新聞也十分常見。在我國,尤其以中英文混排文檔最為常見。

近年來,國內(nèi)外對于扭曲文檔圖像的校正技術(shù)研究日趨增加。從校正方法上來講,主要分為基于3D模型的校正技術(shù)和基于2D圖像的校正技術(shù)。3D模型的獲取主要有兩種途徑:直接使用特殊設(shè)備進(jìn)行數(shù)據(jù)采集[1-2]和通過圖像扭曲特征進(jìn)行3D模型重建[3-6]。通過3D模型進(jìn)行校正能夠獲得理想的校正效果,但需要特殊設(shè)備或進(jìn)行復(fù)雜的數(shù)學(xué)建模計算,因此,基于3D模型的扭曲校正多作為研究,不易推廣應(yīng)用于實際設(shè)備?;?D圖像校正,可以分為:①基于文本線的處理[7-10],這類方法以文本行為最小單位,對其進(jìn)行擬合和拉伸,校正速度快,但對文字來說,校正精度不高。②基于連通域的處理[11-13],以字為校正最小單位,處理過程精細(xì),相對基于文本線的校正方法而言較為耗時,但校正效果較好。

經(jīng)過分析知,基于2D的圖像校正技術(shù)具有較高的實際應(yīng)用性。其中,以字符為單位的校正方法能夠獲得更精準(zhǔn)的校正效果。國外對扭曲的英文文檔圖像校正研究日趨成熟,國內(nèi)對扭曲的中文文檔圖像的校正研究也在逐步增多。但是,應(yīng)用到中英文混排文檔圖像上不易獲得理想效果,其主要原因在于文字結(jié)構(gòu)特征不同。針對英文的校正方法,通過迭代地橫向合并相鄰連通域,依據(jù)不同單詞間較大的間隔切分出單詞,若圖像中有漢字,字與字之間發(fā)生粘連,校正的有效性大大降低。針對中文的矯正方法,利用漢字大小一致,尤其是寬度基本相同的特性,逐個對文字進(jìn)行切分,文本中含有英文時,易切分失敗導(dǎo)致校正失敗。因此,如何在中英文混排的情況下實現(xiàn)有效地校正成為一種需要。

本文針對中英文混排的扭曲圖像提出一種基于連通域的扭曲校正方法,實現(xiàn)了快速準(zhǔn)確的文本行定位及文字切分,對文字逐行進(jìn)行校正,最后獲得校正后圖像。該方法兼顧了中英文的結(jié)構(gòu)特點,實現(xiàn)對中英文混排文本圖像的有效校正,耗時短。目前市場上已出現(xiàn)許多實時的圖像識別工具,在準(zhǔn)確識別圖像內(nèi)容的同時要求有更快的速度,因此,本文方法可推廣到一些文字圖像識別設(shè)備中進(jìn)行應(yīng)用。

1 中英文混排扭曲圖像特征及校正分析

在圖像獲取過程中,書籍的擺放尤其是較厚的書籍,會使獲得的圖像發(fā)生扭曲,進(jìn)而導(dǎo)致OCR識別率大大降低(如圖1所示)。

圖1 中英文混排扭曲文檔示意圖

文字切分的經(jīng)典思路為先獲得行再獲得字。平整的掃描圖像可以通過對水平投影直方圖的分析提取出各文本行,但對扭曲圖像進(jìn)行水平投影時行與行之間會產(chǎn)生交疊,無法正確獲得每行的信息,因而對文本行的提取需要研究其他適應(yīng)性更強的方法。對于獲取的文本行,垂直投影的特征還在,可參考該信息對其進(jìn)行初步切分。漢字的寬度一致,英文字符較窄,可以利用其不同的特點進(jìn)行進(jìn)一步地切分,并對扭曲進(jìn)行校正。

2 中英文混排扭曲文本圖像校正算法

對于中英文混排的扭曲文檔圖像,如何定位出各行文字,并對中英文字符分別實現(xiàn)精確的切分是研究的重點。本文就此提出一種基于連通域的中英文混排扭曲文本圖像快速校正方法,如圖2所示。2.1圖像預(yù)處理

圖2 本文解決方案示意圖

圖像的預(yù)處理包括灰度化和二值化,經(jīng)過預(yù)處理的二值圖像,清晰地區(qū)分出前景和背景,才能有效地對圖片進(jìn)行校正處理。

灰度化即通過式(1)將具有R、G、B分量的真彩色圖像轉(zhuǎn)換為灰度圖像。

文字切分對圖像的二值化要求較高,需要較好的二值效果。傳統(tǒng)的二值化方法很多,如雙峰法、大津法、Niblack法等。對比各種方法及其效果,在光照均勻的情況下大津法可以很好地處理本文研究的圖像,得到較好處理效果,因此本文選用大津法對圖像進(jìn)行二值化處理。

2.2提取文本行

提取文本行即確定每行文字的上下邊界,以便下一步在該范圍內(nèi)對該行文字進(jìn)行切分。二值圖像經(jīng)過膨脹,每行文字成為一個連通域,之后對膨脹圖像進(jìn)行從下到上的掃描,獲得每行文字大概的上下邊界。具體步驟如下:

步驟1. 二值圖像的膨脹處理。選擇合適的膨脹模板,使每行文字成為一個連通域,且行與行之間沒有相交的部分。膨脹效果如圖3所示。

圖3 膨脹效果(局部)

步驟2. 提取膨脹后圖像各文本行的上下邊緣。該步驟的整體思路為:對整幅圖像進(jìn)行從下向上的像素掃描,所遇到的第一排黑點即為最下方文本行的下邊界,從該排像素開始,向上尋找白點,最先找到的一排白點即為該文本行的上邊界;以此排白點為起始,繼續(xù)向上尋找,最先遇到的一排黑點即為倒數(shù)第二行文字的下邊界,以此類推,即可獲得各文本行的上下邊界。當(dāng)找不到黑點時,說明已搜索完整幅圖像,此時,所有文本行的上下邊界均已獲得。具體規(guī)則如下:

(1) 創(chuàng)建兩個二位數(shù)組line_botton和line_top來存儲各文本行的上下邊界,設(shè)line_index為行序。

(2) 選取圖像中間一列進(jìn)行縱向掃描,獲得平均行高STD_HEIGHT作為是否跨行的依據(jù)。

(3) 在掃描過程中若已獲得文本行下邊界,則向上必能找到上邊界。但前一行較短時,本行的下邊界尋找沒有上一行的上邊界作為參考,因此需設(shè)置掃描范圍。第一次掃描即獲取最下方一行的下邊界時,掃描高度為圖像高度,其余行設(shè)start和end分別為每次掃描的起點和終點。其規(guī)則如下:

其中,x為當(dāng)前掃位置的橫坐標(biāo),firstPix為上一行的第一個非零投影點的索引,lastPix為上一行最后一個非零投影點的索引。

(4) 文本行終點的確定。尋找第i行(i >0)下邊界時,如果當(dāng)前下邊界與之前所找到的下邊界距離偏大,滿足line_bottom[i][x]?lastBottom >STD_HEIGHT時,視為出現(xiàn)階躍,line_bottom[i][x]置為零,階躍次數(shù)增一。當(dāng)階躍次數(shù)達(dá)到10次時,視為本行搜索結(jié)束,已獲得該行下邊界。其中,lastBottom為line_bottom[i]已找到的最后一個非零下邊界。

(5) 在膨脹過程中,在段首可能出現(xiàn)鋸齒的情況,導(dǎo)致上邊界尋找失敗,需要加以調(diào)整。因此需要增加判斷條件,以第 i行(i >0)為例,當(dāng)不滿足line_top[i][x]?line_bottom[i][x]≥STD_HEIGHT時,繼續(xù)向上尋找,直至滿足上述條件。

步驟3. 圖片恢復(fù)至膨脹前。膨脹過程是為了定位文本行,獲取在文字切分時需要的垂直投影范圍。校正的對象是含有文本信息的二值圖像,因此在文本行提取后,需要將圖像恢復(fù)至膨脹前。

通過本階段的文本行提取,獲得了各文本行的上下邊界。效果如圖 4所示。其中,淺色為文本行下邊界,深色為文本行上邊界。

圖4 文本行提取效果(局部)

經(jīng)過此步驟后,可以對每行文字單獨提取和進(jìn)行處理,為下一步的文字切分提供條件。

2.3文字切分

文本行提取完成后,已經(jīng)獲得了每行文字的上下邊界line_top和line_bottom,因此可以依次提取出各行文字并進(jìn)行切分。對圖像內(nèi)的一行文字進(jìn)行垂直投影,利用字符之間的間隙,可以初步將文字切分。完成后,每一個字符視為一個連通域,得到每個連通域的左右邊界。

創(chuàng)建連通域邊框數(shù)組 rcChars來儲存其各邊界,左右初始值設(shè)為0,上下初始值分別設(shè)為Height和 0,其中 Height為圖片高度。創(chuàng)建二維數(shù)組rc_num來存儲每個文本行內(nèi)連通域的編號。文字切分具體步驟如下:

步驟1. 獲取字符的左右邊界,初步確定上下邊界。逐行對文字進(jìn)行垂直投影。以第 i行(i >0)為例,投影范圍為上一階段獲取的 line_bottom[i]和line_top[i]之間的部分。根據(jù)投影結(jié)果對文字進(jìn)行切分,可獲取字符的左右邊界 rcChars.left和rcChars.right,由于計算邊框時是根據(jù)視圖的窗口坐標(biāo),原點在左上角,因此上邊界 rcChars.top暫時取為:

其中,rcChars.left≤x≤rcChars.right 。同理,下邊界暫為Height?line_bottom[i][x]在該范圍內(nèi)的最大值。

步驟2. 獲取字符的上下邊界。上一步中初步確定的字符上下邊界與實際邊界存在一定誤差。為了校正的精度,需要更準(zhǔn)確地獲得字符的上下邊界。對每個字符,在其連通域邊框范圍內(nèi),rcChars.left≤x≤rcChars.right ,rcChars.top≤y≤rcChars.bottom,以上邊界rcChars.top為起始,自上向下逐行尋找黑色像素點,遇到的首個黑點所在縱坐標(biāo)即為該字符的上邊界,修改 rcChars.top的值。同理,在該范圍內(nèi),自下向上逐行尋找黑色像素點,可重新獲得字符的下邊界rcChars.bottom。

此時,字符切分基本完成,各字符上下左右邊界均已確定。統(tǒng)計各連通域高度,找出最大高度設(shè)為標(biāo)準(zhǔn)高度H,利用印刷體漢字寬高標(biāo)準(zhǔn)比例計算出標(biāo)準(zhǔn)寬度 W,標(biāo)準(zhǔn)寬度約等于漢字寬度。在漢字當(dāng)中,還存在著一些左右結(jié)構(gòu)的字,在此過程中可能會被切分為兩部分。但相對于漢字的整體數(shù)量而言,該類字只占小部分,且矯正的最終目的是將屬于同一行的文字水平對齊。因此對該部分文字的誤切分不影響校正和識別效果。具體切分效果如圖5所示。

圖5 字符切分效果圖

2.4扭曲校正

扭曲校正的最終目的,是將文本行從彎曲狀態(tài)變?yōu)橹本€。在獲得每個文字的位置時,按行對文字進(jìn)行垂直方向上的平移,即可實現(xiàn)目的。

針對扭曲圖像,從上到下逐行進(jìn)行校正,校正時以每行最高位置的字符為標(biāo)準(zhǔn),對該行內(nèi)的連通域進(jìn)行對齊。在印刷過程中,漢字中心對齊橫向排列,英文大小寫共52個字母中,除占中下兩格的字母外,有47個為底線對齊。因此對符合標(biāo)準(zhǔn)寬度W的漢字按照連通域中心對齊,對小于標(biāo)準(zhǔn)寬度的英文和標(biāo)點符號按照連通域下邊界進(jìn)行對齊。

以第i行為例(i >0),首先要找到該行最高位置字符,即找到最高位置連通域的編號。視圖窗口原點在左上角,因此最高的連通域下邊界 bottom最小,記為 minBottom。遍歷屬于第 i行編號為rc_num[i][j](j >0)的連通域,尋找最小bottom值,并記下其對應(yīng)連通域的編號 topest。編號為rc_num[i][j]的連通域,其對應(yīng)的rcChars邊框坐標(biāo)分別為(left,top,right,bottom)。計算各連通域的中心坐標(biāo)和校正位移d。

計算完成后,對該行的連通域逐個按照各自的校正位移d進(jìn)行平移。對于第[i]行,屬于本行的連通域在一條水平線上,完成了校正。依此方法,逐行對文字進(jìn)行處理,最終實現(xiàn)對整幅扭曲文檔圖像的校正。校正效果如圖6所示。

3 方法測試及實驗結(jié)果分析

3.1測試環(huán)境

本實驗在VS2005環(huán)境下開發(fā),使用的語言為C++。實驗所用樣張取自16開中英文混排書籍。拍攝攝像頭為500 W像素。測試環(huán)境為:Inter(R) Core(TM) 2 Duo CPU E7400 @2.80 GHz,內(nèi)存2 GB,操作系統(tǒng)為Windows 7。使用漢王OCR文字識別軟件對文字進(jìn)行識別。

圖6 扭曲校正效果對比圖

3.2校正效果對比

測試過程中,同時選取了近年來的一些有關(guān)扭曲文檔圖像的校正方法進(jìn)行比較。文獻(xiàn)[10]是針對中文扭曲文檔圖像的矯正方法,文獻(xiàn)[12]是針對英文的校正方法。

本文選取了150個樣本,分為3組,每組50張。其中,樣本組1中的樣張英文占比小于25%,樣本組2中的樣張英文占比為25%~75%,樣本組3中的樣張英文占比大于75%,統(tǒng)計結(jié)果如表1。

表1 各算法實驗結(jié)果比較分析

比較3種方法在中英文所占比例不同時,校正的用時和處理前后識別率。可以看出,文獻(xiàn)[10]在處理中文時有較好的效果,文獻(xiàn)[12]在處理英文偏多的文檔圖像時,效果明顯。但二者在處理另一種文字圖像的時候,識別率均有所下降。本文方法雖然在單種文字處理時識別率低于文獻(xiàn)方法,但不受識別內(nèi)容影響,在 3種情況下,有穩(wěn)定的校正效果。從校正所用時間上看,傳統(tǒng)方法通過連通域搜索與合并進(jìn)行文本行提取,需要對圖像進(jìn)行多次遍歷,增加了算法的處理時間,大多需要3~4 s,本文方法對膨脹圖像自下而上一次遍歷即可得到各文本行位置,大大縮短了耗時,整個校正過程在1 s以內(nèi)。

通過以上分析可以看出,本文方法在處理中英文扭曲文檔圖像時,不受中英文所占篇幅影響,能夠獲得較好地校正效果,具有很好的穩(wěn)定性。以連通域為單位進(jìn)行校正,校準(zhǔn)精細(xì),不會破壞文字內(nèi)部結(jié)構(gòu),且整個矯正過程在1 s以內(nèi)完成,可在實時的文字識別設(shè)備中進(jìn)行推廣應(yīng)用。

4 結(jié) 束 語

本文針對扭曲的中英文混排文檔圖像,提出了一種快速扭曲校正方法。采用由行到字的思想,利用膨脹信息定位文本行后進(jìn)行字符切分,根據(jù)中英文的不同特點逐行進(jìn)行扭曲校正,最終實現(xiàn)圖像重構(gòu)。本文的扭曲校正方法對于中英文混排的文檔圖像,不受中英文所占比例的影響,有較好且穩(wěn)定的校正效果,校正速度快,效率高,可推廣到一些文字圖像識別設(shè)備中進(jìn)行應(yīng)用。

本文方法適用于書本平攤時因厚度所產(chǎn)生的文本行扭曲,且假定書本水平放置。由于外力造成書本變形從而導(dǎo)致的文本圖像嚴(yán)重扭曲,采用本文算法處理起來有一定難度。對于這類情況,算法有待改進(jìn)。

[1] Ghods A R, Mozaffari S, Ahmadpanahi F. Document image dewarping using kinect depth sensor [C]//Iranian Conference on Electrical Engineering (ICEE), 2013: 1-6.

[2] Tong L J, Zhan G L, Peng Q Y, et al. Warped document image mosaicing method based on inflection point detection and registration [C]//International Conference on Multimedia Information Networking and Security (ICMINES), 2012: 306-310.

[3] Meng G F, Pan C H, Xiang S M, et al. Metric rectification of curved document images [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 707-722.

[4] Brown M S, Brent S W. Image restoration of arbitrarily warped documents [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(10): 1295-1306.

[5] Tang C Q, Dai X J. A rectification algorithm for distorted images from cone surface [C]//International Conference on Wireless Communications, Networking and Mobile Computing (WiCOM), 2010: 1-4.

[6] 楊玲,成運. 應(yīng)用經(jīng)緯映射的魚眼圖像校正設(shè)計方法[J]. 工程圖學(xué)學(xué)報, 2010, 31(6): 19-22.

[7] 張偉業(yè), 趙群飛. 讀書機(jī)器人的版面分析及文字圖像預(yù)處理算法[J]. 微型電腦應(yīng)用, 2011, 27(1): 58-61.

[8] Liu H, Ding R W. Restoring chinese document images based on text boundary lines [C]//International Conference on Systems, Man and Cybernetics (ICSMC), 2009: 571-576.

[9] Bukhari S S, Shafait F, Breuel T M. Coupled snakelets for curled text-line segmentation from warped document images [C]//International Journal on Document Analysis and Recognition(ICDAR), 2013: 748-752.

[10] 曾凡鋒, 王曉, 吳飛飛. 基于文本行重構(gòu)的扭曲文檔快速校正方法[J]. 計算機(jī)工程與設(shè)計, 2014, 35(2): 573-577.

[11] Liu H, Lu Y. A Method to restore chinese warped document images based on binding characters and building curved lines [C]//International Conference on Systems, Man and Cybernetics (ICSMC), 2009: 984-990.

[12] Gatos B, Pratikakis I, Ntirogiannis K. Segmentation based recovery of arbitrarily warped document images [C]// International Conference on Document Analysis and Recognition (ICDAR), 2007: 989-993.

[13] 宋麗麗, 吳亞東, 孫波. 改進(jìn)的文檔圖像扭曲校正方法[J]. 計算機(jī)工程, 2011, 37(1): 204-206.

A Fast Correcting Method for Warped Chinese and English Mixed Document Images

Wang Jingzhong,Sun Ting,Tong Lijing
(College of Computer, North China University of Technology, Beijing 100144, China)

Character recognition rate of OCR processing is not well for warped Chinese and English document image. To resolve this problem, a fast distortion correcting method is proposed in this paper. After the process of image preprocessing, the upper and lower boundary of each text line could be obtained by morphological dilation method. Then, the characters in each line are segmented one by one based on the vertical projection information. Every character can be described in a minimum bounding box. After that, the positions of the segmented characters are corrected according to the different structure characteristics between Chinese and English in each line. Finally, the image could be reconstructed. Experiments showed that this correction method could rectify the warped Chinese and English document image quickly and effectively. The OCR rate of the corrected images could be significantly improved.

mixture of chinese and english; warped document images; text line extraction; character segmentation

TP 391

A

2095-302X(2015)06-0920-06

2015-05-19;定稿日期:2015-09-08

國家自然科學(xué)基金資助項目(61371142)

王景中(1962–),男,內(nèi)蒙古通遼人,教授,碩士。主要研究方向為數(shù)字圖像處理與識別、計算機(jī)安全技術(shù)。E-mail:jingzhongwang@163.com

猜你喜歡
中英文字符校正
論高級用字階段漢字系統(tǒng)選擇字符的幾個原則
劉光第《南旋記》校正
字符代表幾
一種USB接口字符液晶控制器設(shè)計
圖片輕松變身ASCⅡ藝術(shù)畫
本刊可直接使用的常用縮略語中英文對照表
基于MR衰減校正出現(xiàn)的PET/MR常見偽影類型
本刊可直接使用的常用縮略語中英文對照表
在Lightroom中校正鏡頭與透視畸變
機(jī)內(nèi)校正
乐平市| 正蓝旗| 茶陵县| 惠水县| 萍乡市| 中超| 龙州县| 福清市| 舟曲县| 宁远县| 盘锦市| 华宁县| 明溪县| 巫山县| 绿春县| 东城区| 梅河口市| 万载县| 南阳市| 许昌市| 九江市| 兴城市| 永年县| 民乐县| 都安| 元江| 榕江县| 上林县| 绍兴市| 彰化县| 华蓥市| 许昌市| 文昌市| 社会| 扬中市| 蒙自县| 陈巴尔虎旗| 富宁县| 深泽县| 凉城县| 页游|