李彬+趙連軍+劉帥
【摘 要】為了準確快速地識別一張完整的考核測評表的特征目標信息,提出了一種基于表格圖像處理的特征目標自動識別的算法。根據(jù)表格圖像的特點,對考核測評表圖像進行灰度化等預(yù)處理,并利用感興趣區(qū)域檢測方法定位考核表單元格位置,在此基礎(chǔ)上,研究了采用像素統(tǒng)計方法和角點檢測方法識別特征目標,最后通過實驗驗證了算法的正確性和可行性。
【關(guān)鍵詞】圖像預(yù)處理;光學(xué)字符識別;角點檢測
【Abstract】In order to identify the characteristics of a complete assessment form of the target information accurately and quickly,an automatic recognition algorithm for feature objects based on table image processing is proposed.According to the characteristics of the table image,On the assessment of the assessment of the image of the gray, and uses the interest area detection method to locate the position of the table cell.On this basis,according to the feature of objects, the thesis studies to automatically recognize ticks using statistics pixels and corner detection methods..Finally, the correctness and feasibility of the algorithm are verified by experiments.
【Key words】Image preprocessing; OCR; Corner Detection
0 概述
傳統(tǒng)的企事業(yè)單位一般采用人工統(tǒng)計方式進行人員年度考核測評,從下發(fā)考核文件,組織相關(guān)人員填寫考核測評表,收回考核測評表,計算得出人員的考核測評成績。這樣的流程復(fù)雜繁瑣,花費時間,效率低下。而且,最終要將紙質(zhì)版的表格進行存檔,這種存檔方式不利于今后的文件查閱,影響了文件的可追溯性。為減少人工操作,提高工作效率,本文研究了一種電子考核測評系統(tǒng),通過該系統(tǒng)可以將一張有固定版面格式的考核測評表圖像進行灰度化[1]、二值化[2]、圖像細化[3]、傾斜校正和歸一化[4]等操作,使得圖像的版面清晰;然后,對考核測評表進行版面特征方面的分析,為快速定位考核表內(nèi)單元格的位置,提出了感興趣區(qū)域檢測方法。對于考核測評表內(nèi)的文字信息和特征目標(對勾),分別采用了光學(xué)字符識別技術(shù)和角點檢測方法進行自動識別。這些方法和技術(shù)的提出,使得數(shù)字圖像處理技術(shù)在企事業(yè)單位人員考核測評中得到應(yīng)用,節(jié)省了人力和時間,提高了工作的準確性和效率。
1 表格圖像預(yù)處理
經(jīng)過照相機和掃描儀等設(shè)備采集后的圖像,經(jīng)常受到外部環(huán)境諸如光照、拍攝角度等因素的影響,采集后的圖像存在圖像傾斜、模糊、圖像失真等情況,極大的影響后續(xù)考核表內(nèi)的文字信息和特征目標的提取。因此,必須對獲取到的圖像進行預(yù)處理操著,預(yù)處理操作的流程如圖1所示:
1.1 灰度化
彩色圖片所包含的像素都是由紅(R)、綠(G)、藍(B)三種基本顏色組合而成,這三種基本顏色的參數(shù)都是在0~255之內(nèi)。為減少處理彩色圖像的計算量和時間復(fù)雜度,本文采用線性變換中的加權(quán)平均法對圖像進行灰度化處理,得到單色圖。
1.2 二值化
為了將圖像中目標與背景分割開,去除干擾信息,需要根據(jù)圖像設(shè)置合理的閾值。由于本文所研究的考核測評表的版面清晰、灰度級別對比明顯,所以采用固定閾值[5]法對圖像進行二值化操作,通過比較考核表中每一個像素點的灰度值與設(shè)定的固定閾值的大小關(guān)系,將原圖像中每一個像素點的灰度值,即取值范圍從0~255被置換為0或1兩個值。
1.3 平滑處理
考慮到一些外部因素如外部光照條件造成的亮度不統(tǒng)一,從而引發(fā)明暗對比、圖像失真等不良后果。為降低圖像上的噪聲,分別研究了中值模糊處理法[6]、雙邊濾波處理法[7]對圖像進行平滑處理。
1.4 傾斜校正
對于考核測評表不可避免出現(xiàn)的圖像傾斜的現(xiàn)象,經(jīng)過研究,根據(jù)表中表格線的特征,使用Hough變換[8]計算得出圖像的傾斜角度,將不同的坐標系中的點和線建立起一種對偶關(guān)系。方法簡單且圖像校正的效果不錯。
此外,在經(jīng)過圖像細化和歸一化等操作后,對考核表圖像的預(yù)處理操作就結(jié)束了,在得到內(nèi)容和版面清晰的圖像后,便可順利進入下一步的特征目標定位的操著。
2 特征目標定位算法的研究
以整個考核測評表為研究對象,通過版面理解的特征目標定位算法,從幾何結(jié)構(gòu)出發(fā),分析版面特征,明確橫縱向記錄之間的關(guān)系。
2.1 幾何分析的版面理解技術(shù)研究
每張考核表由標題、主體這兩部分組成。標題處在考核表的最頂端的位置,是一行描述性的文字,主體由大小規(guī)格統(tǒng)一的二維表格組成,考核表的內(nèi)容簡單、主體信息明確,只包含了被考核人員的姓名和考核內(nèi)容兩部分,所要填寫的特征目標(對勾),所在的矩形框大小都是60*60像素的單元格,而且單元格之間分隔存在,并不相互連接,這樣便于對不同單元格內(nèi)信息的提取。
2.2 基于感興趣區(qū)域檢測的單元格定位
對于一副圖像,我們感興趣的是圖像中的某部分,有時候要對目標進行跟蹤時,需要選取目標特征,為方便將圖像中的目標區(qū)域標記出來,通過設(shè)置感興趣區(qū)域(ROI),即將考核表圖像中的有用信息如姓名、單位等文字信息和對勾所處的位置設(shè)置為感興趣的區(qū)域。本文使用cvsetImageROI(src,cvRect(x,y,width,height))函數(shù)進行感興趣區(qū)域的劃分,在該函數(shù)的參數(shù)中,src為需要進行處理的圖像,x和y代表感興趣區(qū)域的起點坐標,width和height為感興趣區(qū)域的寬和高。
結(jié)合本人事考核表的實際情況,考核測評表一共8行單元格,在Opencv中設(shè)置感興趣區(qū)域的同時設(shè)置相應(yīng)的一個計數(shù)器,每執(zhí)行完一行單元格就對計數(shù)器進行一次累加操作,直到執(zhí)行完最后一行。
3 特征目標自動識別技術(shù)的研究
在研究了幾何分析的版面理解和基于感興趣區(qū)域檢測的單元格定位的方法后,在一張完整的考核表內(nèi),實現(xiàn)了準確定位目標單元格位置和文字信息的效果,在此基礎(chǔ)上,進一步研究如何提取已經(jīng)定位好的特征目標(對勾)的位置。
3.1 像素統(tǒng)計法識別對勾
像素是數(shù)字圖像中最基本的單位,對數(shù)字圖像的操作也就是對數(shù)字圖像中的像素的操作,每一幅圖像都有像素個數(shù)固定、像素位置排列固定和像素獨立存在的特點。在考核測評表中,有些單元格中有對勾,有些單元格中沒有對勾,這二者的像素差距非常明顯,有對勾單元格的黑色像素個數(shù)多于沒有對勾的單元格。根據(jù)每個感興趣區(qū)域像素點的位置,逐行進行像素檢測,直到整個感興趣區(qū)域的像素檢測結(jié)束。每個感興趣區(qū)域的黑色像素點的個數(shù)運用求和公式得出,參考對照已經(jīng)設(shè)定好的定值,判斷該區(qū)域是否為對勾,如果是,記錄該區(qū)域的位置。
3.2 角點檢測識別對勾
一般圖像邊緣曲率的極大值點或者亮度變化劇烈的點被認為是角點,角點有利于匹配的可靠性和運算速度的提高,在減少信息數(shù)據(jù)量的同時又能保留圖像的大部分信息。角點檢測的方法有許多種,如Fast角點檢測算法、Moravec角點檢測算法、Shi-Tomas角點檢測算法、Harris角點檢測算法、曲率空間角點檢測算法和外界鏈碼角點檢測算法[9]等算法。根據(jù)本文所研究的考核測評表的結(jié)構(gòu)特征和對以上有關(guān)算法的了解,選擇Harris角點檢點算法進行研究。
Harris是一種簡單的點特征提取算子,這種算子受到信號處理中的自相關(guān)函數(shù)的啟發(fā),自相關(guān)函數(shù)相聯(lián)系矩陣的特征值是它的一階曲率,如果該點是特征點,曲率值會很高。Harris角點檢測算法的原理如圖2所示。
圖(a),這是窗口在圖像中的平滑區(qū)域里面,窗口在移動時,在所有的方向上都沒有任何變化,其運動軌跡沒有改變;圖(b),窗口在邊緣區(qū)域,窗口在該區(qū)域移動的時候,其運動軌跡是沿著邊緣方向的,沒有方向上的變化;圖(c),這是窗口進入角點區(qū)域,窗口的運動軌跡在各個方向上具有變化。Harris角點檢測的自相關(guān)函數(shù)可以表示為:
其中,E(m,n)是兩個窗口偏移[m,n]而造成的圖像灰度變化的結(jié)果,在一副圖像中,角點區(qū)域是變化最明顯的區(qū)域。對于本文所研究的考核測評表圖像,利用OpenCV中提供的cvGoodFeaturesToTrack函數(shù),在設(shè)置每個單元格為感興趣區(qū)域時使用該函數(shù)中的mask參數(shù),根據(jù)程序得出的結(jié)果,得出感興趣區(qū)域中角點的個數(shù)。由于每個規(guī)范填寫的對勾會有至少3個角點,單元格是一個規(guī)范的矩形,會有4個角點,這樣該區(qū)域的角點個數(shù)大于等于7個的時候,該感興趣區(qū)域內(nèi)存在特征目標對勾,此時程序輸出該感興趣區(qū)域的位置標記符。
4 實驗分析
采用的實驗環(huán)境平臺為Microsoft Visual Studio2010,用C++作為編程語言,在Visual Studio 軟件上配置OpenCV實驗環(huán)境。通過配置好的實驗環(huán)境,做實驗對比分析像素統(tǒng)計法和角點檢測法對對勾位置提取的準確度。如圖3為一張測試圖。
通過像素統(tǒng)計法和角點檢測法得到的結(jié)果圖4所示,可以看出,對于一張?zhí)顚懖⒉灰?guī)范的表格,角點檢測法比像素統(tǒng)計法的容錯能力更高。
5 結(jié)束語
本文提出了一種快速識別一張人事考核表圖像中的特征目標的算法,經(jīng)過對圖像的預(yù)處理和表格圖像的版面分析等操作,最后通過實驗對比分析像素統(tǒng)計法和角點檢測法對圖像中特征目標識別的準確度。
【參考文獻】
[1]王澤發(fā),唐興國.基于灰度變換的圖像增強方法研究[J].科技創(chuàng)新導(dǎo)報,2011(1):119.
[2]平麗.圖像平滑處理方法的比較研究[J].信息技術(shù),2010(1):65-67.
[3]吳麗麗,余春燕.基于Sobel算子和Radon變換的車牌傾斜校正方法[J].計算機應(yīng)用,2013(S1):220-222.
[4]周冠瑋,平西建,程娟.基于改進Hough變換的文本圖像傾斜校正方法[J].計算機應(yīng)用,2007(7):1813-1816.
[5]段晉英,史建芳.改進的高低帽變換對固定閾值二值化算法的優(yōu)化[J].科學(xué)技術(shù)與工程,2014(15):245-250.
[6]王芳,滿益云.基于模糊中值濾波的椒鹽噪聲去除方法[J].模糊系統(tǒng)與數(shù)學(xué),2012(1):166-174.
[7]張闖,遲健男,張朝暉,王志良.基于邊緣檢測與雙邊濾波的彩色圖像去噪[J].電子學(xué)報,2010(8):1776-1783.
[8]梁添才,皮佑國,彭晶,朱朝華.基于Hough變換的列車客運票圖像傾斜校正[J].華南理工大學(xué)學(xué)報,2007(5):35-40.
[9]盧瑜,郝興文,王永俊.Moravec和Harris角點檢測方法比較研究[J].計算機技術(shù)與發(fā)展,2011,21(6):95-97.
[責(zé)任編輯:許麗]