徐 平,許 彬,常英杰
(杭州電子科技大學生命信息與儀器工程學院,浙江 杭州 310018)
?
雙半字識別算法在水表字符識別系統(tǒng)中的應用
徐平,許彬,常英杰
(杭州電子科技大學生命信息與儀器工程學院,浙江 杭州 310018)
水表自動抄表系統(tǒng)中,由于水表機械結構的原因,讀數(shù)轉盤常常出現(xiàn)進位不完全的情況,導致讀數(shù)出現(xiàn)上下雙半殘缺字符,不利于識別.對這類雙半字符進行研究,提出了改進的雙半字識別算法.首先制作十個標準的完整雙字符模板,然后根據(jù)分割的待識別雙半殘缺字符,從完整雙字符模板中截取雙半字符模板,利用改進的Hausdorff距離模板匹配進行匹配識別,最后通過比較上下半字符的比例確定字符讀數(shù).實驗結果表明,算法對這類雙半字符有較好的識別結果,有效地提高了水表自動抄表系統(tǒng)中字符識別能力.
水表字符;自動抄表;Hausdorff;模板匹配
隨著計算機信息技術的提高,各種方便快捷的智能管理系統(tǒng)也將逐漸走進我們的日常生活,自動抄表系統(tǒng)就是一類代表[1].作為水表自動抄表系統(tǒng)中的基礎與核心,字符識別是一項研究時間較長的課題,它與所處的具體環(huán)境密切相關,環(huán)境條件不同,識別方法也不盡相同.因此,對字符的識別仍具有很大的研究意義[2].水表自動抄表系統(tǒng)中,由于讀數(shù)轉盤進位不完全常常會出現(xiàn)上下雙半字殘缺字符,這給水表自動抄表系統(tǒng)中字符的自動識別帶來困難.針對該問題,本文對雙半字符進行分析研究,將改進的Hausdorff距離模板匹配算法用于雙半字符的識別,有效地提高了因進位不完全產(chǎn)生的雙半字符的識別率.
圖1 水表字符示意圖
目前,我國城鄉(xiāng)居民所用水表仍為直讀式水表,如圖1所示,有以下幾個特征:1)字符為清晰的粗黑字體,數(shù)字和白色背景形成很高的對比度,利于圖像二值化處理;2)水表碼盤字符區(qū)域右邊存在一個標識符m3,該字符可以作為定位水表碼盤字符區(qū)域的標志;3)水表碼盤字符區(qū)域依次排開五個大小一致的矩形方格,表示水表讀數(shù)的個位至萬位,方格之間間隔相等,水表讀數(shù)的十個阿拉伯數(shù)字中的一個或者是上下兩個半字符坐落在每個方格里,該特點利于單個字符的分割.根據(jù)上述特點,文中算法首先對水表字符圖像做相應的預處理,然后通過模板匹配對特征標示符m3進行定位,根據(jù)m3與水表碼盤字符區(qū)域的固定位置關系計算得到字符區(qū)域位置,再利用水平投影分割算法區(qū)分雙半字符和單個完整字符.根據(jù)分割出的待識別雙半殘缺字符,從十個完整雙字符模板中截取雙半字模板,使用改進的Hausdorff距離模板匹配法去匹配雙半字模板和待識別雙半字殘缺字符,得出識別結果,字符識別系統(tǒng)流程圖如圖2所示,其中雙半字符識別流程如圖3所示.
圖2 水表字符識別系統(tǒng)流程圖
圖3 雙半字符識別流程圖
算法設計分為圖像預處理、碼盤字符定位與分割、改進的Hausdorff距離模板匹配字符識別算法3部分.
2.1圖像預處理
由帶固定大小引導框的移動終端拍攝水表并截取引導框內(nèi)字符區(qū)域圖像,如圖4(a)所示.因外界環(huán)境的影響,獲取的圖片可能存在噪聲污染、亮度偏暗等干擾后續(xù)字符識別的影響因子.因此在識別字符之前,需要對水表截取圖像進行預處理.本文的水表截取圖像預處理包括灰度增強、均值濾波等,由于這些基本方法不是本文的研究重點,所以不再贅述.預處理之后的效果如圖4(b)所示,最后二值化的效果如圖4(c)所示.
圖4 圖像預處理過程
2.2碼盤字符定位與分割
字符區(qū)域圖像經(jīng)過預處理以后,還需要對圖1(a)所示碼盤字符區(qū)域進行定位和字符分割.對于碼盤字符區(qū)的定位,采用模板匹配標識符m3然后求其與字符區(qū)域相對位置的方法.衡量模板和目標子圖的匹配程度可用下式測度:
(1)
式中:Si,j(m,n)為指目標子圖的像素值,T(m,n)為模板的像素值,R(i,j)為匹配測度,M,N為模板寬和高.使用模板匹配的水表碼盤字符區(qū)域定位具體步驟如下:
1)對水表圖像進行二值化處理,二值化后的圖像如圖4(c)所示;
2)制作與水表標識符m3大小一致的模板,文中m3模板大小為26×19像素;
3)對水表二值圖像自左至右、上到下,依次遍歷,每次得到與m3模板同樣大小的區(qū)域Si,i為待匹配二值圖像中像素點個數(shù);
4)計算已知m3模板與3)中得到的Si區(qū)域的匹配測度Ki;
5)在4)的所有Ki中找出最大K值,它所對應的S區(qū)域即為匹配得到的字符區(qū)域m3,計算得到m3字符的坐標位置;
6)根據(jù)水表碼盤字符讀數(shù)區(qū)域與m3字符之間的固定關系定位出位置,如圖5(a)所示, 然后分割出字符圖像如圖5(b)所示.
根據(jù)水表字符的特點,本文采用求二值圖像垂直方向上的灰度投影和固定規(guī)則靜態(tài)邊界結合的字符分割方法進行單個字符分離.具體的分割過程是:首先對字符區(qū)域圖像二值化處理,使用形態(tài)學方法去除噪聲、污點,然后求處理后圖像垂直方向上的灰度投影,按照投影直方圖把字符圖像分割成5個同樣大小的矩形,最后利用水平投影判斷每個矩形內(nèi)是整字符還是半字符.其中投影圖如圖5(c)所示,分割出的單個字符如圖6所示.
圖5 字符分割過程
圖6 分割出的單個字符
2.3改進的Hausdorff距離模板匹配字符識別算法
1)Hausdorff距離原理
描述兩個點的集合之間相似程度有很多度量方法,其中點集距離是一種定義形式,Hausdorff距離[3]就是這樣一種點集距離.設有兩組點的集合A={a1,…,an},B={b1,…,bn},那么這兩個點集合之間的距離用Hausdorff距離描述為:
H(A,B)=max[h(A,B),h(B,A)],
(2)
h(A,B)=maxa∈Aminb∈B‖a-b‖,
(3)
h(B,A)=maxb∈Bmina∈A‖b-a‖.
(4)
式中:‖·‖是兩個點集合A,B之間的距離范式.式(2)描述的是雙向Hausdorff距離,它是最基本的一種形式.式(3)中的h(A,B)和式(4)h(B,A)分別是自集合A至集合B與自集合B至集合A的單向Hausdorff距離,即h(A,B)是對點集A中的所有點ai到距離此點ai最近的B集合中點bj之間的距離‖ai-bj‖比較,取該距離中的最大值為h(A,B)的值.同理可得h(B,A). 由式(2)知,雙向Hausdorff距離H(A,B)是兩個單向距離h(B,A)、h(A,B)的較大者,它實際表示的是兩點集之間最大不匹配程度.
Hausdorff距離的基本思想是能夠用點集合中的某一個點代表這個集合,但實際中,這個點很難找到[4].因此,在實際應用中Hausdorff距離效果并不好[5].本文在對識別字符細化的基礎之上使用改進的Hausdorff距離匹配識別水表圖像數(shù)字字符.細化可以有效地去除字符圖像中大量冗余信息,極大地減少計算Hausdorff距離點集合時的復雜度,在圖像存儲和重建等需大量數(shù)學運算的算法中廣泛使用[6].本文對Hausdorff距離進行改進,使用最小距離累加和求平均值來替代最大、最小距離,即:
Hd(A,B)=max[hd(A,B),hd(B,A)],
(5)
2)改進的Hausdorff距離模板匹配
對于雙半字符的識別,本文采用的方法是將Hausdorff距離與模板匹配結合,試驗結果顯示該方法既能有效地對雙半字進行識別,還可以克服噪聲干擾、字符畸形的影響,性能優(yōu)于參考文獻[2]所提出的方法,具體流程圖如圖7所示.
算法步驟如下:
1)首先制作十個上下完整的雙字符模板,如圖8所示,模板大小為16×57像素;
2)將待識別已分割的雙半字符歸一化,文中將其歸一化到16×32的大小;
3)對2)中歸一化的雙半字符在水平方向求灰度投影,由投影波形計算得到雙半字符中上半字符的下切線LupLine、下半字符的上切線LdownLine,再計算得到雙半字符的中位分割線Lmidline=LupLine+(LupLine-LdownLine)/2,利用中位分割線求得分割線到上邊緣的距離Lupline=Lmiddleline,中位線到下邊緣的距離Ldownline=32-Lmidline
4)因為1)制作的雙字模板高是57,得到雙字模板字符的水平中心點是29,由此計算得到半字模板上下邊界值,記上邊界為Hupline,下邊界為Hdoweline,則Hupline=29-Lupline,Hdownline=29+Ldownline.最后根據(jù)上下邊界從完整的雙字模板截取得到雙半字模板,如圖9(c),將模板和待識別字符進行細化,待識別字符的細化結果如圖9(d)所示.依次得到其他的雙半字模板如圖10所示;
5)分別遍歷細化后的待識別字符與制作的10個雙半字模板,設待識別字符的前景點集合為A,10個雙半字模板的前景點集合為Bi(i=0,…,9);
6)求A集合中所有點到集合Bi(i=0,…,9)點的距離,得到其中的最短距離設為dmin,對A集合中各點對應的dmin進行累計求和求得,于是得到集合A到集合B的Hausdorff距離.用同樣方法求出集合B到集合A的Hausdorff距離,計算與中的最大者即為A,B兩個點集合之間的改進Hausdorff距離最終值.
7) 根據(jù)步驟5、步驟6,分別計算待識別字符與10個雙半字模板中每個模板的Hausdorff距離,這樣就能得到與之最佳匹配的雙半字模板,由步驟3求出的Lupline和Ldownline,若Lupline>Ldownline那么取雙半字上方的字符作為最終識別結果,反之,則下面的字符為識別結果.
圖7 算法流程圖
圖8 10個雙字模板
圖9 待識別字符及對應匹配的雙半字模板
圖10 待識別字符對應的其他雙半字模板
本算法是在MATLAB上實現(xiàn)的,利用移動終端拍得多張包含有雙半字符的水表圖像,經(jīng)過濾波、二值化、目標區(qū)域定位與分割、雙半字符識別等處理能成功識別出水表讀數(shù).通過傳統(tǒng)模板匹配法、Hausdorff距離法以及本文的識別方法對90個雙半字符進行了識別對比,識別結果如表1所示.從表1知:使用傳統(tǒng)模板匹配的字符識別結果不理想,這主要是上下雙半字符的識別結果差造成的;與傳統(tǒng)的模板匹配相比,在識別率上,Hausdorff距離匹配法有了一定層次的提升;使用文中改進Hausdorff距離模板匹配法的字符識別效果明顯強于前兩者,識別正確率可以到95.6%.對于無法識別的字符本文發(fā)現(xiàn)主要有兩個原因:一是圖像本身成像差、模糊嚴重,可能是手持終端相機拍照時抖動造成的;二是字符區(qū)域圖像二值化后字符之間存在粘連過大,單個字符的分割存在較大誤差造成的.
表1 水表雙半字字符識別結果
本文針對水表字符識別系統(tǒng)中雙半字殘缺字符難以識別的問題,提出了一種有效的改進算法對水表雙半字殘缺字符進行識別.算法不僅可以應用于水表的字符識別,還可以應用于其它儀器儀表中的字符識別.但是,對于污染嚴重的水表或者預處理效果不理想的水表圖像,本算法的識別率還有待改進提高.
[1]石巖峰,蔡洪光,尹佳輝.水表抄表系統(tǒng)的發(fā)展與趨勢分析[J].科技風,2009(8):204.
[2]高菊,葉樺.一種有效的水表數(shù)字圖像二次識別算法[J].東南大學學報(自然科學版),2013,43(A01):153-157.
[3]張筑生.微分動力系統(tǒng)原理[M].北京:科學出版社,1987:161-162.
[4]DANIEL P H,GREGORY A K,WILLIAN J R.Comparing images using the Hausdorff distance[J].IEEE Transactionson Pattern Analysis and Machine Intelligence,1993,15(9):850-863.
[5]劉福新,杜世培,陳益強.基于改進Hausdorff距離的人臉匹配方法[J].計算機工程與應用,2007,43(35):169-171.
[6]DING R, LI Y Z A Note on Hausdorff Distance[J].Mathmatical Research and Exposition,2000,20(4):511-514.
Application of Improved Double Half-word Recognition Method in Water Character Recognition System
XU Ping, XU Bin, CHANG Yingjie
(SchoolofLifeInformationandInstrumentEngineering,HangzhouDianziUniversity,HangzhouZhejiang310018,China)
In water character recognition system, it is hard to recognize the character when upper and lower half-word is incomplete because of the usual situation of partial carry caused by meter mechanical structure. To solve the problem, an improved double half-word recognition algorithm is proposed in this paper. Firstly ten standard complete two-character templates are made. Then double half-word is cut from the two-character templates based on the incomplete double half-word which is waited recognition by segmentation and the improved Hausdorff-distance template matching is applied to pattern match. Finally the character is determined by comparing the ratio of upper and lower half-word. It approves that this improved algorithm shows good recognition to this type of double half-word and improves effectively the character recognition power of automatic reading meter system in the experiment.
water meter; automatic meter reading; Hausdorff; template matching
10.13954/j.cnki.hdu.2016.01.016
2015-06-09
國家自然科學基金資助項目(61205200);杭州電子科技大學研究生科研創(chuàng)新基金資助項目(2014KYJJ018)
徐平(1978-),男,江西南昌人,副教授,機器視覺、工業(yè)檢測.
TP391
A
1001-9146(2016)01-0080-06