王 磊
(武漢船舶職業(yè)技術學院,湖北武漢 430050)
高校為了方便教學管理,會組織入學新生統(tǒng)一采集圖像,以制作各類證件。影響圖像采集速度的關鍵是如何對圖像進行有意義的標識。根據(jù)調(diào)研,現(xiàn)行方法是靠人工根據(jù)圖像采集人的身份信息來完成圖像的數(shù)字標識,當需采集圖像的人數(shù)較多時,工作量巨大,且易發(fā)生錯誤。本文基于數(shù)字圖像處理與分析技術,對批量圖像采集中數(shù)字標識自動識別的問題進行了研究。
數(shù)字標識識別系統(tǒng)主要是由圖像采集、圖像預處理、數(shù)字目標定位及分割、數(shù)字識別等模塊構成。圖像采集采用常用的數(shù)碼相機,以較淺的純色(如淺紅色、淺藍色等)為背景,圖像采集人手持特定底色的標識數(shù)字放于胸下,為取得較好效果,可輔助一定的光源,照片大小要求在800x600以上。在對數(shù)字標識識別之前要根據(jù)需要對圖像進行預處理,通常圖像的預處理包括縮放、增強、去噪等步驟,目的是為目標數(shù)字的定位做準備。數(shù)字的定位與分割是指在圖像中對目標位置進行標記,并將目標數(shù)字從復雜的背景中分割出來,根據(jù)識別的需要將數(shù)字列分成單個字符,數(shù)字識別是數(shù)字標識自動識別系統(tǒng)的核心功能,由于實際使用條件存在諸多干擾因素,為確保較高的識別率,要求識別算法覺有快速準確的優(yōu)良特性。
使用數(shù)碼相機獲取的圖像分辨率很大,合理的縮小圖像可以有效的減少圖像處理的時間,且不會影響目標數(shù)字的定位識別。圖像縮放是圖像空間變換中的一種,通過增加或去掉像素來改變圖像的尺寸,通常有最近鄰插值法、雙線性內(nèi)插法、雙三次插值等。雙線性插值的核心思想是在圖像縱橫兩個方向分別進行一次線性插值。假設源圖像f(x,y)縮放k倍后為圖像g(u,v),則源圖像與目標圖像中得對應點為
已知源圖像的點(x1,y1),(x1,y2),(x2,y1),(x2,y2)是包圍(x,y)的點相應點的灰度值為:
首先在x方向上進行線性插值:
在方向y上進行線性插值:
g(u,v)就是目標圖像點處灰度值。線性插值的結果與插值的順序無關。首先進行y方向的插值,然后進行x方向的插值,所得到的結果是一樣的。
目前進行數(shù)字定位的方法有很多,最常見的定位技術主要有基于邊緣檢測的方法、基于彩色分割的方法、基于數(shù)學形態(tài)學的定位和基于灰度圖像紋理特征分析的方法等[1]。本文根據(jù)目標區(qū)域顏色明顯區(qū)別于背景色的特征,采用了根據(jù)色彩信息進行粗定位[2][3],然后基于數(shù)學形態(tài)學處理來精確定位的方法。
經(jīng)過分分析待處理圖像,發(fā)現(xiàn)人像背景圖像在HSV色彩空間中數(shù)字區(qū)域背景的色調(diào)和飽和度相對穩(wěn)定(圖1),且與非數(shù)字區(qū)域有很好的區(qū)分度,可以作為數(shù)字區(qū)域定位的圖像特征。從待識別圖片中隨機選取若干圖片,對圖像中字符區(qū)域進行標定,統(tǒng)計標定區(qū)域的色調(diào)和飽和度的樣本均值及樣本標準差stdh,stds,建立圖像像素色調(diào)及飽和度定位的特征空間。色調(diào)范圍:(-stdh+stdh),飽和度范圍:。然后根據(jù)像素的是否屬于特征空間對圖像進行過濾(圖2);用矩形區(qū)域?qū)Χ祷蟮膱D像進行形態(tài)學閉運算,形成連通的區(qū)域(圖3);獲取源圖像中與目標色對應的區(qū)域,即為目標區(qū)域(圖4)。
圖1 源圖像
圖2 色調(diào)過濾后的圖像
數(shù)字區(qū)域定位完成后,需要進一步將圖像分割成單個數(shù)字的形式,以便進一步的識別。本文研究的圖像成像質(zhì)量較高,無外在污染,但目標數(shù)字區(qū)域存在傾斜的現(xiàn)象,且目標數(shù)字區(qū)域無明顯的邊框,經(jīng)典的圖像傾斜校正算法無法取得較好的效果。通過實驗,本文選擇使用連通域分割法對字符進行分割,并使用數(shù)學形態(tài)學的方法對其較敏感的字符粘連和不連通進行預先處理。
圖3 形態(tài)學處理后的圖像
圖4 目標數(shù)字
在對字符分割前,首先要對目標數(shù)字區(qū)域進行二值化[4],將原始的灰度圖像轉(zhuǎn)化成只有黑白色的二值圖像,對于一個二元圖像f(x,y),設T為閾值,二值化可表示為:
如何選擇合適的閾值T是二值化的關鍵。當T值過小時,可能會增加許多冗余信息,而T值過大又可能會丟失有用信息。常用的二值化方法有Otsu法(大津法)、直方圖法等。
經(jīng)過對目標數(shù)字圖像仔細研究發(fā)現(xiàn),主要含有三種不同的灰度值,一種是字符接近黑色,一種是主要背景顏色接近白色,還有一種是由于圖像傾斜造成的純白色區(qū)域,觀察圖像的的灰度直方圖(圖5),發(fā)現(xiàn)有三個主要的波峰,所占比例最大的部分應該對應圖像中的背景顏色。通過實驗,取圖像灰度直方圖兩波谷間所占分量最大的區(qū)域左側(cè)波谷處的灰度值作為二值化的全局閾值可以取得良好的效果(圖6)。
目標數(shù)字圖像經(jīng)二值化及形態(tài)學處理后,圖像中出現(xiàn)了若干連通區(qū)域,這些區(qū)域除要分割的數(shù)字外還有多個形狀各異不規(guī)則的連通區(qū)域。數(shù)字分割算法的基本思想是先對圖像進行連通域標記,對標記后的整幅圖像進行一次掃描確定和記錄各個連通域的上、下、左、右四個邊界,計算連通域的高度、寬度、面積、位置等特征值。根據(jù)特征的相近程度對連通域進行分類,因為數(shù)字的個數(shù)是固定的,查詢哪一類中元素的個數(shù)等于預知的數(shù)字的個數(shù),再把其對應的連通域提取出來,即可得到分離的數(shù)字。
圖5 目標數(shù)字區(qū)域像素直方圖
圖6 二值化的目標數(shù)字區(qū)域
下面是連通域數(shù)字分割算法的步驟:
(1)對二值化后的圖像做連通域標記;
(2)對每個連通域統(tǒng)計長度、寬度、面積、位置信息等特征;
(3)根據(jù)連通域的長寬比,面積、位置等信息進行分類;
(4)查找個數(shù)為預知字符數(shù)的連通域的類別;
(5)提取該類別中標識所對應的數(shù)字。
算法實驗效果如圖7所示。
圖7 分割的目標數(shù)字
根據(jù)觀察,在圖采集像時,被采集人手持的數(shù)字標識牌普遍向左下傾斜一定的角度(如圖8),數(shù)字圖像傾斜將會對數(shù)字識別產(chǎn)生影響,需要對傾斜的數(shù)字進行矯正[5]。常用圖形傾斜矯正算法有Hough變換、randon變換、基于圖像特征點的算法等。經(jīng)過試驗,本文選擇使用基于特征點擬合直線的圖像傾斜矯正算法。選取每個數(shù)字區(qū)域首行像素的中點作為特征點,進行直線擬合,根據(jù)擬合直線的角度對數(shù)字圖像進行傾斜矯正,矯正算法采用雙線性插值算法。矯正后的數(shù)字如圖9所示。
圖8 目標數(shù)字特征點擬合直線
圖9 傾斜矯正后的目標數(shù)字
5.2.1 結構特征提取
根據(jù)對印刷體數(shù)字的分析,本文提取4個特征作為數(shù)字識別的依據(jù):
(1)數(shù)字圖像的長寬比例
數(shù)字1的長寬比與其它數(shù)字有較大差別,其它數(shù)字的長寬基本相同,而1的長是寬的2倍以上,因此這一特征可作為判別1的標準。
(2)上橫線長度特征
有些數(shù)字頂部具有較長的直線,可以使用頂部連續(xù)像素的位數(shù)作為直線的長度描述(圖10),5和7頂部的長橫線幾乎占據(jù)了數(shù)字的整個寬度,是所有數(shù)字中最大的,可以通過計算頂部直線的長度把5和7同其它數(shù)字區(qū)別開來。
(3)下橫線長度特征
如同上橫線長度特征,有些數(shù)字的底端具有較長的直線,如數(shù)字2和4(圖11)底部直線占據(jù)了數(shù)字寬度的大部分,通過計算底部直線的長度可以有效地區(qū)分2和4與其它數(shù)字。
(4)輪廓跟蹤特征
輪廓跟蹤,又叫邊緣跟蹤,是通過順序找出邊緣點來跟蹤圖像邊界。數(shù)字圖像輪廓包含非常豐富的數(shù)字特征,輪廓也是人眼識別物體的重要特征。在數(shù)字的中間作一垂線,垂線和圖像邊界相交,記錄下所有交點,從數(shù)字頂端第n個交點處開始輪廓跟蹤,先后依次記錄跟蹤點經(jīng)過的中垂線與數(shù)字的交點,稱作n-輪廓跟蹤向量(圖12),如數(shù)字2的2-輪廓跟蹤向量為[2 3 6 5 4 1 2],多數(shù)數(shù)字都具有不同的n-輪廓跟蹤向量,因此可以作為分辨數(shù)字的有效特征。
5.2.2 結構特征識別算法
人類在觀察事物的時候,主要是通過物體的形狀、輪廓等特征辨別物體,所以利用數(shù)字的外形輪廓特征具有直觀、準確的特點。分析各個數(shù)字的結構特征可知,通過長寬比可以識別出數(shù)字1;通過2-輪廓跟蹤向量可以識別出數(shù)字2、3、5、6、7。2-輪廓跟蹤向量為[2 3 2]的數(shù)字有0、4、8、9。這4個數(shù)字將通過4-輪廓跟蹤向量進行辨別,其中8的4-輪廓跟蹤向量為[4 5 4],可以分辨;0和4的4-輪廓向量為[4 1 4],進一步通過4的下橫線長度辨別;4和9的4-輪廓跟蹤向量都是[4 5 6 1 4],進一步通過4的下橫線長度辨別。
圖10 數(shù)字上橫線特征示意圖
圖11 數(shù)字下橫線特征示意圖
圖12 數(shù)字2的輪廓跟蹤示意圖
下面是結構特征識別算法的步驟:
(1)設置標準形態(tài)數(shù)字的2-輪廓跟蹤向量組{[2 3 2];[2 3 6 5 4 1 2];[2 3 4 5 6 1 2];[2 1 4 5 6 3 2];[2 1 6 3 2];[2 3 4 1 2]};
(2)設置標準形態(tài)數(shù)字的4-輪廓跟蹤向量組{[4 1 4];[4 5 6 1 4];[4 5 4]};
(3)獲取待識別數(shù)字圖像;
(4)If數(shù)字長度/數(shù)字寬度>=2
(5)數(shù)字識別為1;
(6)Return;
(7)End
(8)獲取數(shù)字圖像中垂線與數(shù)字輪廓邊緣的交點集;
(9)對圖像進行輪廓跟蹤,獲取2-輪廓跟蹤向量vec2;
(10)If vec2=[2 3 6 5 4 1 2]
(11)數(shù)字識別為2;
(12)Return;
(13)Else if vec2=[2 3 4 5 6 1 2]
(14)數(shù)字識別為3;
(15)Return;
(16)Else if vec2=[2 1 4 5 6 3 2]
(17)數(shù)字識別為5;
(18)Return;
(19)Else if vec2=[2 1 6 3 2]
(20)數(shù)字識別為6;
(21)Return;
(22)Else if vec2=[2 3 4 1 2]
(23)數(shù)字識別為7;
(24)Return;
(25)Else if vec2=[2 3 2]
(26)轉(zhuǎn)行(30);
(27)Else
(28)轉(zhuǎn)基于面積特征的識別;
(29)End
(30)獲取待識別數(shù)字圖像的4-輪廓跟蹤向量vec4
(31)If vec4=[4 1 4]
(32)轉(zhuǎn)行(41);
(33)Else if vec4=[4 5 6 1 4]
(34)轉(zhuǎn)行(49);
(35)Else if vec4=[4 5 4]
(36)數(shù)字識別為8;
(37)Return;
(38)Else
(39)轉(zhuǎn)基于面積特征的識別;
(40)End
(41)計算待識別數(shù)字圖像的下橫線長度length;
(42)If length>數(shù)字寬度的3/5
(43)數(shù)字識別為4;
(44)Return;
(45)Else
(46)數(shù)字識別為0;
(47)Return;
(48)End
(49)計算待識別數(shù)字圖像的下橫線長度length;
(50)If length>數(shù)字寬度的3/5
(51)數(shù)字識別為4;
(52)Return;
(53)Else
(54)數(shù)字識別為9;
(55)Return;
(56)End
本文基于MATLAB R2010b平臺實現(xiàn)了數(shù)字標識自動識別系統(tǒng),對45幅樣本圖像進行了處理,基于n-輪廓跟蹤向量的結構特征識別方法正確識別44幅,誤識1幅,正確識別率為97.78%,表明本系統(tǒng)采用的結構特征能夠取得良好的識別效果。
本文根據(jù)實際需求,建立了一個人像背景下數(shù)字標識自動識別的系統(tǒng)。該系統(tǒng)是由預處理、目標數(shù)字定位分割及模式識別三個環(huán)節(jié)構成。本系統(tǒng)在Matlab 2010平臺下實現(xiàn),對各個階段算法進行了實驗,實驗結果表明各算法運行正常,系統(tǒng)取得了很好的識別效果。盡管如此,部分算法依然有改進的空間,可以進一步對各階段的算法進行優(yōu)化,提高系統(tǒng)的執(zhí)行效率和識別精度。
1 廖宇.車牌定位系統(tǒng)中關鍵技術的研究與實現(xiàn)[J].湖北民族學院學報(自然科學版),2011,29(1):91-95
2 郭大波,陳禮民,盧朝陽等.基于車牌底色識別的車牌定位方法[J].計算機工程與設計,2003,24(5):81-87
3 王洪建.基于HSV顏色空間的一種車牌定位和分割方法[J].儀器儀表學報,2005,26(8):371-373
4 江明,劉輝,黃歡.圖像二值化技術的研究[J].軟件導刊,2009,8(4):175-177
5 黃新,郝礦榮,竇易文.一種新的字符圖像傾斜矯正與分割算法[J].計算機工程與科學,2011,33(1):116-122
6 吳一全,謝靜.基于特征點最小距離擬合的文檔圖像傾斜檢測[J].光學技術,2009,35(1):152-156
7 鄒星.車牌識別中的圖像提取和分割算法[J].重慶工學院學報(自然科學),2009,23(8):19-25
8 陳寅鵬,丁曉青.復雜車輛圖像中的車牌定位與字符分割方法[J].紅外與激光工程,2004,33(1):29-34