姜 毅 彭清暢 徐 娟
(中車青島四方機車車輛股份有限公司,山東 青島 266111)
OCR文本圖像可以在紙質文件信息的互聯(lián)網(wǎng)傳輸、存儲過程中得到很好地應用,但在人為和機械操作等因素的影響下,OCR文本圖像傾斜往往會對后續(xù)的文本分析、頁面分割、OCR識別造成較為負面的影響,為了盡可能地消除這種負面影響、進一步推進辦公自動化,該文圍繞OCR文本圖像傾斜矯正快速算法展開了具體研究。
為了合理地選擇OCR文本圖像的傾斜矯正方法,該節(jié)分別介紹了霍夫變換和基于投影圖矯正2種方法,并最終選擇了基于投影圖的矯正方法來對OCR文本圖像進行傾斜矯正。
在OCR文本圖像傾斜矯正過程中,霍夫變換圖元識別方法能夠發(fā)揮很大的作用,作為一種典型的特征檢測方法,霍夫變換在數(shù)位影像處理、電腦視覺、圖像分析等領域均得到較為廣泛的應用,霍夫變換是用來辨別找出物件中的特征。值得注意的是,為保證霍夫變換能夠較好地對OCR文本圖像進行傾斜矯正,需要圖像旋轉與霍夫變換的結合,即根據(jù)OCR文本圖像的矯正處理要求,合理聯(lián)用圖像旋轉技術及霍夫變換處理方法,以保證OCR文本圖像的矯正處理效率。
Ishitani Y在《Impulse noise removal using polynomial approximation》研究中提出了“基于對投影圖的形狀分析的局域復雜度方法”,該方法的原理為遍歷每次傾斜角度下的投影輪廓,并能夠在傾斜角度不大時保證矯正精度,但該圖元識別方法存在的不足是復雜度較高,但在綜合2種OCR文本圖像傾斜矯正方法后,該文選擇了更具潛力的基于投影圖的矯正方法,并對其進行了改進。
該節(jié)就OCR文本圖像預處理、OCR文本圖像傾斜矯正快速算法2個部分展開了論述,希望能夠為相關業(yè)內人士帶來一定啟發(fā)。
為了實現(xiàn)高水平的OCR文本圖像傾斜矯正,OCR文本圖像預處理環(huán)節(jié)不容忽視,因此該文首先應用了圖像校驗去噪技術,并在之后基于鄰域信息迭代去噪。在圖像校驗去噪技術中,Long-Range Correlation得到了充分利用,并同時與自適應模糊開關中值濾波、基于鄰域信息迭代去噪實現(xiàn)了高質量配合,較好地滿足了OCR文本圖像的去噪處理需求,為后續(xù)的OCR文本圖像傾斜矯正的實現(xiàn)提供了有力支持。
“基于對投影圖的形狀分析的局域復雜度方法”在應用中需要沿某一特定方向累加出圖像中黑像素點數(shù)量的統(tǒng)計圖,并對行方向進行投影得到水平投影、對列方向投影得到豎直投影。對于傾斜的OCR文本圖像來說,首先進行圖像的二值化處理,并開展水平投影黑點像素值統(tǒng)計,由此計算方差,隨后即可以特定的步長為間隔、在一定角度范圍內分別旋轉OCR文本圖像,旋轉后計算OCR文本圖像的水平投影圖黑點像素值、方差,基于投影圖均方誤差最大旋轉角,求得最佳傾斜角度。
在具體的OCR文本圖像傾斜矯正中,方差評判標準是其中的核心,象每行、平均黑點的方差較小,則代表黑白間隔不嚴格(傾斜程度越大),如每行、平均黑點的方差越大,則黑白間隔越嚴格(越不是傾斜)。為減少算法的計算量,實現(xiàn)OCR文本圖像傾斜快速矯正,該文采用了將一幅OCR文本圖像隨機分成5塊的處理方式,傾斜角的尋找以黑點數(shù)最多的一塊為準。而為了快速確定OCR文本圖像屬于左傾還是右傾,首先需要采用試探法明確矯正方向,即將OCR文本圖像左旋一個θ度、右旋一個θ度,并分別進行方差的計算,由此即可明確OCR文本圖像的校正方向。
前期算法流程可概括為獲得二值化圖片→將圖片隨機分成P1~P5共5塊→挑選黑點數(shù)量最多的圖像塊(如式(1)所示)→對圖像塊P中平均每行黑點個數(shù)進行統(tǒng)計(如式(2)所示)→尋找最佳OCR文本圖像傾斜角度(Angle)→假設旋轉角度為θ→基于圖片黑點方差準則函數(shù)開展計算(如式(3)所示),式(3)中的 fθ(i,j)、avg(θ)分別為旋轉角度θ時圖像Pi、Pj點二值化后圖像像素值以及旋轉角度θ時圖像P平均每行黑點數(shù)。
為了進一步提高算法效率,加快OCR文本圖像傾斜矯正的速度,必須明確OCR文本圖像的矯正方向,即使OCR文本圖像左右各旋轉t度,對J(t)與J(-t)大小的對比,如J(t)<J(-t),則可以確定OCR文本圖像傾斜矯正方向為右旋,否則為左旋?;贠CR文本圖像傾斜矯正方向,根據(jù)式(4)得出最佳旋轉角度Angle開展的計算,實質上屬于1次一維最優(yōu)化搜索,而在OCR文本圖像傾斜矯正方法的支持下,該搜索僅從[0,30]或[0,-30]中求解,由此使OCR文本圖像傾斜矯正速度大幅提升。
然后需要從連續(xù)區(qū)間求解轉換為離散空間求解,具體的求解流程可以概括為設θ初始值為0→引入OCR文本圖像傾斜矯正方向→右旋時θ-=2,否則θ+=2→求得方差最大角度θ1(步長為2°的情況下)→明確[θ1-2,θ1+2]區(qū)間→求解方差最大時角度θ*(步長為0.01°的情況下),將OCR文本圖像旋轉θ*,即可完成OCR文本圖像的傾斜矯正。
以VisualC++語言分析基于投影圖改進的OCR文本圖像傾斜矯正快速算法的應用效果。針對OCR文本圖像進行二值變換處理后,對處理后的圖像進行測試,結果顯示不同字號OCR文本圖像均可發(fā)現(xiàn)傾斜角,且其程序響應時間均短于95 ms,這一結果提示,基于投影圖改進的OCR文本圖像傾斜矯正快速算法可以基本滿足實際的OCR文本圖像處理工作的要求。
而從處理后圖像的精度參數(shù)來看,假定同行中2個等高字符的圖像識別標準包圍盒的中心垂直偏差水平為1個像素,則在1.02°傾斜角條件下,處理后OCR文本圖像精度為0.11°;而當OCR圖像的傾斜角為1.19°時,經(jīng)計算確認其對應的精度參數(shù)為0.08°;當OCR文本圖像的傾斜角為1.23°時,其對應精度為0.10°。上述結果表明,運用基于投影圖改進的OCR文本圖像傾斜矯正快速算法進行處理,所得精度均可滿足OCR的字符識別要求。
綜上所述,基于投影圖改進的OCR文本圖像傾斜矯正快速算法具有較高的可用性,在此基礎上,該文涉及的基于投影圖矯正方法分析、OCR文本圖像的矯正方向明確、轉換為離散空間求解等內容,則提供了可行性較高的OCR文本圖像傾斜矯正路徑,而為了進一步提高矯正的質量與效率,OCR文本圖像的去噪、二值化、分辨率提升等內容同樣需要得到重視。