劉剛+黃襄念+符清芳+饒偉
摘 要: 購物小票是消費行為的真實記錄,對其進(jìn)行識別有重要的現(xiàn)實意義。小票圖像的預(yù)處理操作是對其正確分割和識別的關(guān)鍵步驟,預(yù)處理結(jié)果的好壞對后期的識別產(chǎn)生直接的影響。預(yù)處理階段包括圖像去除干擾色,灰度化,二值化,平滑去噪,傾斜校正,模糊圖像還可用圖像增強(qiáng)等處理方法。各種各樣的拍攝角度和光照條件各異的小票圖像,經(jīng)過本文的預(yù)處理操作,可直接進(jìn)行后期的字符分割和識別。
關(guān)鍵詞: 去除干擾色; 灰度化; 二值化; 平滑去噪; 傾斜校正
中圖分類號:TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2016)04-21-04
Research on pretreatment algorithm of shopping receipt image recognition
Liu Gang, Huang Xiangnian, Fu Qingfang, Rao Wei
(School of Computer and Software Engineering, Xihua University, Chengdu, Sichuan 610039, China)
Abstract: Shopping receipt is the real record of consumer behavior, and it has important practical significance to identify it. The pretreatment of the receipt image is the key step for the recognition, and the results of the pretreatment have a direct impact on the late identification. The pretreatment includes image denoising, gray scale, image filtering, binarization, tilt correction, and so on, and image enhancement and smoothing are also used in the blurred image. Through the pretreatment proposed in this paper, the variety of receipt images, with different shooting angles and illumination conditions, can be directly carried out late character segmentation and recognition.
Key words: remove interference color; gray scale; binarization; smooth denoising; tilt correction
0 引言
購物小票是消費者購物的憑據(jù),它是消費者經(jīng)濟(jì)行為的真實記錄。每個人每天可能會產(chǎn)生多張購物小票,通過拍照可隨時拍下這些小票圖像,然后進(jìn)行圖像處理和識別,并自動記錄。這樣做也許會是一個不錯的選擇。在這個智能化的信息時代,隨時掌握自己的消費情況,做好各種理財準(zhǔn)備和消費打算,可以成為現(xiàn)代人的一種習(xí)慣。
購物小票圖像往往具有印章,印章的顏色以紅色和藍(lán)色為主。對其預(yù)處理首先要去掉干擾識別的成分,也就是去除干擾色;然后對圖像進(jìn)行灰度化處理,將彩色圖像轉(zhuǎn)化為灰度圖像,以方便后期的圖像處理。接下來通過圖像的濾波操作去除產(chǎn)生的各種噪聲;作圖像二值化,將其轉(zhuǎn)化為只有黑白兩種顏色的圖像;對圖像進(jìn)行傾斜校正,防止圖像的傾斜對后期的字符分割和識別產(chǎn)生影響。
各種購物小票不盡相同,而且拍攝角度和光照條件各異,很難找到一種統(tǒng)一的預(yù)處理方法能對千差萬別的小票圖像進(jìn)行預(yù)處理。本文在研究各種預(yù)處理算法的基礎(chǔ)上,通過各種實驗,找到了一種可以處理絕大多數(shù)小票圖像的方法,為圖像后期的字符分割和識別創(chuàng)造了條件。
1 預(yù)處理過程
購物小票經(jīng)過圖像采集設(shè)備采集后,存儲到計算機(jī)的是數(shù)字圖像信息,購物小票上的印章、紙張的光潔度、油墨的深淺等都會連同有用信息一起被采集到一個圖像中,因此,在進(jìn)行字符識別之前,要對這些干擾信息進(jìn)行預(yù)處理。預(yù)處理流程圖如圖1所示。
[小票圖像][去除干擾色][灰度化][圖像模糊?] [二值化][平滑去噪][傾斜校正][輸出][圖像增強(qiáng)] [是][否]
圖1 小票圖像預(yù)處理流程
1.1 去除干擾色
購物小票上大多有紅色和藍(lán)色的印章,首先要去除印章顏色的干擾。HSI顏色模型是基于色調(diào)(hue)、飽和度(Saturation)和亮度(Intensity)的顏色模型,并且符合人類觀察和感受顏色的視覺和心理學(xué)特點,所以只要找到紅色和藍(lán)色在HSI顏色模型中的范圍,就可以將紅色和藍(lán)色的干擾色去掉,而且對其他的字符信息沒有影響。首先需要將圖像由RGB顏色模型轉(zhuǎn)化為HSI顏色模型,轉(zhuǎn)換公式為[1]:
⑴
⑵
⑶
紅色和藍(lán)色在HSI模型的范圍不能只依靠色調(diào)H來決定,需要H和S共同確定。當(dāng)0≤H≤10或者350≤H≤360且S≥0.3時,為紅色的范圍;當(dāng)170≤H≤190且S≥0.3時,為藍(lán)色的范圍。利用這兩個范圍可以將圖像中紅色或者藍(lán)色的印章去除掉。原圖像和去除干擾色后的圖像如圖2和圖3所示。
1.2 灰度化處理
字符處理系統(tǒng)要處理的是灰度圖像,目前許多成熟的圖像處理算法和工具包也是針對灰度圖像的。因此,需要將彩色的小票圖像轉(zhuǎn)化為灰度圖像[1],灰度等級為0到255。由于去除干擾色是在HIS顏色模型下,需要將小票圖像由HIS顏色模型轉(zhuǎn)化為RGB顏色模型。在RGB顏色模型下,彩色圖像的每一個像素點由R(紅色)、G(綠色)、B(藍(lán)色)三原色混合而成,每種顏色成分可以分成0到255個等級,而灰度圖只含有亮度信息,不含有色彩信息。常用的灰度化處理方法有四種[2]:平均法、分量法、最大值法、加權(quán)平均法。本文分別采用了四種方法分別做實驗,經(jīng)對比顯示:最大值法得到的效果較好,其公式為式⑷。其灰度化處理效果如圖4所示。
1.3 圖像二值化
灰度圖像經(jīng)過二值化處理后能夠得到更清晰的幾何特征,同時能夠縮減圖像的數(shù)據(jù)量,簡化圖像后續(xù)的處理和分析。其實,圖像的二值化也是圖像分割技術(shù)的一種,將灰度圖像分割成前景和背景。選取一個閾值,圖像中大于該閾值的為前景像素,小于該閾值的為背景像素??梢钥闯?,圖像二值化的處理過程最關(guān)鍵的步驟是閾值的選取。閾值選取的好,能夠得到字符筆畫信息更完整和背景噪聲干擾小的二值圖。關(guān)于圖像二值化的方法有很多,其中主要的有兩種:一是全局閾值法,即根據(jù)整幅圖像確定一個閾值,如簡單閾值法、基于雙峰直方圖的二值化閾值確定法、OTSU算法(也叫大津法)、迭代法等,全局閾值法相對而言易于操作,使得前景和背景很容易分離,且直方圖表現(xiàn)為兩個波峰的圖片具有最佳的效果,但對于那些因為采光不平衡或者噪聲影響比較嚴(yán)重的圖片效果不是很理想;二是局部閾值法,即將圖像劃分為若干個子圖像,根據(jù)每個子圖像確定相應(yīng)的閾值,如Bernsen算法、Niblack算法、基于塊分析的二值化算法等[3,5],局部閾值法對于光照不均的圖像處理效果較好,但運行速率較慢,不能確保字符筆跡的通順性,對于實時性要求較高的系統(tǒng)不易采用。
對小票圖像進(jìn)行二值化處理時,由于本文采用的小票多數(shù)是用手機(jī)在不同光照環(huán)境下拍攝的,采用單一的某種方法,沒能得到理想的效果。特別是灰度化后清晰度較低的圖像,二值化后產(chǎn)生大片白色區(qū)域。
本文采用了如下三個方法進(jìn)行對比處理。
⑴ 采用直方圖均衡化的方法進(jìn)行圖像的增強(qiáng),再利用大津法進(jìn)行圖像的二值化。此方法對于曝光或者光照條件較強(qiáng)的圖像效果不好,強(qiáng)光和弱光區(qū)域產(chǎn)生很強(qiáng)的反差。圖像增強(qiáng)后較暗的區(qū)域二值化后會產(chǎn)生大片黑色區(qū)域。處理結(jié)果如圖5所示。
⑵ 采用局部大津法的二值化方法,再進(jìn)行中值濾波去除產(chǎn)生的噪聲。此方法去除了部分的噪聲,但是字符信息也去除了一部分。處理結(jié)果如圖6所示。
⑶ 全局閾值與局部閾值相結(jié)合的方法。先采用全局閾值法對整個圖像計算出閾值T,再遍歷整個圖像,對像素值離閾值T比較遠(yuǎn)的點通過全局法進(jìn)行二值化操作。像素值距閾值T比較近的點采取局部閾值方法處理,即首先遍歷其鄰域,獲取局部分隔閾值,再通過局部閾值法進(jìn)行二值化操作。采用此方法處理效果較好,可以對大多數(shù)小票進(jìn)行二值化處理[6]。其處理結(jié)果如圖7所示。
1.4 平滑去噪
如果原稿不干凈或圖像質(zhì)量較差,采集到的小票圖像就會含有毛刺、污點,線畫邊緣凹凸不平。字符圖像經(jīng)過平滑處理,可以有效的去除孤立的噪聲和干擾。在使用平滑處理時,要求不能損壞圖像的輪廓和邊緣等重要信息,而且要使圖像清晰。常用的平滑處理方法有[2]:中值濾波和均值濾波。本文采用這兩種方法進(jìn)行濾波處理,由于均值濾波使圖像中急劇變化的線和輪廓變模糊了,不可避免的丟掉了一些有用的信息,故采用中值濾波進(jìn)行平滑去噪。其原理是選擇一個奇數(shù)點的移動窗口作為模板,將窗口的中心點的值用窗口內(nèi)各點的中值代替;中值濾波器是一種非線性平滑濾波器,它在消除噪聲的同時不破壞圖像的細(xì)節(jié)。
在對小票圖像進(jìn)行平滑處理時,采用各種模板,同時也調(diào)整了各種模板大小的參數(shù),但是如果模板太大,處理的時間就比較長,對于實時性的系統(tǒng)不宜采用;如果模板太小,處理的效果就比較差,不利于后期的分割和識別。我們采用了一個5×5的模板,其處理效果最好,如圖8所示。
1.5 傾斜校正
在獲取小票圖像時,由于紙張的放置或者紙張的運動,可能造成采集圖像的傾斜,這不僅影響版面的分析及子區(qū)域的提取,還會給后續(xù)處理中的行、字分割帶來非常不利的影響,因此需要進(jìn)行圖像的傾斜校正。圖像的傾斜校正,先要檢測傾斜圖像的傾斜角θ,然后對圖像旋轉(zhuǎn)θ角度進(jìn)行校正處理。圖像的旋轉(zhuǎn)變換為:
⑸
在這兩個模塊中,關(guān)鍵是如何檢測出字符的傾斜角度。目前常用的傾斜校正方法有:常規(guī)線性角度檢測法、基于Hough變換的方法、基于投影的方法,還有用傅里葉變換轉(zhuǎn)換到頻域進(jìn)行檢測的方法[4]。其中,基于投影的方法需根據(jù)圖像的實際情況來確定一個合適的旋轉(zhuǎn)角度的閾值,由于要對所選的方差數(shù)據(jù)進(jìn)行比較,它的計算量相對較大。而Hough變換抗噪聲的能力較強(qiáng),且精度較高,但是計算量也很大。所以本文采用了改進(jìn)的Hough變換的方法進(jìn)行傾斜校正[3],改進(jìn)方法對圖像中進(jìn)行Hough變換的點提出了要求,即:若點(x,y)為圖像的前景點,則該點同列的上一行的點(x-1,y)為背景點。只有滿足要求的點才進(jìn)行Hough變換,進(jìn)而達(dá)到減小計算量的目的。
本文利用改進(jìn)的Hough變換來提取直線,然后求出直線的角度再進(jìn)行旋轉(zhuǎn)校正處理。對圖8進(jìn)行旋轉(zhuǎn)校正后的結(jié)果如圖9所示。
2 結(jié)束語
為了完善本文研究并使研究結(jié)果具有通用性,我們共收集了不同超市、不同大小的購物小票220張,其中也包括餐飲票據(jù)、電影票等其他公共機(jī)構(gòu)的消費記錄。通過在光照較強(qiáng)和一般光照環(huán)境下對小票進(jìn)行多種角度的拍攝,再對各種小票圖像進(jìn)行預(yù)處理操作,得到了理想的效果,為小票圖像的字符分割和識別奠定了基礎(chǔ)。雖然本文的預(yù)處理操作可以處理絕大部分的小票圖像,但對于一些人眼都無法識別的小票圖像還不能得到理想的效果。在以后的工作中,對于一些較模糊的小票圖像,可以在預(yù)處理中加入一些圖像增強(qiáng)操作,通過改變二值化的模板大小,來提高二值化的處理效果。
參考文獻(xiàn)(References):
[1] 徐艷.購物小票圖像識別之預(yù)處理算法的研究[D].西華大學(xué),
2013:8-27
[2] 陳歡.購物小票圖像分割算法的研究[D].西華大學(xué),2013:16-27
[3] 何耘嫻.印刷體文檔圖像的中文字符識別[D].燕山大學(xué),
2011:16-27
[4] 張愛娟.基于結(jié)構(gòu)特征點的字符分割技術(shù)的研究[D].西安電
子科技大學(xué),2014:17-19
[5] 孫彩虹.自然場景中路牌漢字識別技術(shù)研究[D].南京理工大
學(xué),2014:42-46
[6] 索玉秀.基于OCR技術(shù)的名片識別方法研究[D].哈爾濱理工
大學(xué),2015:19-23