基于尺度特征的手機拍攝打印數(shù)字序列分割
苑俊英,郭中華,曹惠茹
(中山大學(xué)南方學(xué)院 電子通信與軟件工程系,廣東 廣州510970)
摘要:針對手機拍攝圖像中普遍存在幾何失真、光照不均和噪聲等現(xiàn)象,提出了一種基于數(shù)字尺度特征的數(shù)字序列分割算法NSFS.該方法首先對數(shù)字序列圖像進(jìn)行預(yù)處理,消除噪聲和殘留表格線;然后,提取包含數(shù)字序列的最小矩形,利用數(shù)字尺度特征,對包含數(shù)字序列最小矩形的每個連通分量進(jìn)行數(shù)字分割.此算法實現(xiàn)簡單,適用于不同數(shù)據(jù)表格、不同字體和格式的數(shù)字序列.目前業(yè)界仍沒有合適的圖像庫,為驗證算法的性能,搭建了一個基于不同品牌手機拍攝的不同表格的圖像庫.基于此數(shù)據(jù)庫的實驗表明,基于數(shù)字尺度特征的數(shù)字序列分割算法達(dá)到了96%以上的正確分割率.
關(guān)鍵詞:數(shù)字分割;特征尺度提?。粩?shù)字識別;手機拍攝圖像
DOI:10.3969/j.issn.1000-1565.2015.05.015
中圖分類號:TP391文獻(xiàn)標(biāo)志碼: A
收稿日期:2015-03-10
基金項目:廣東高校優(yōu)秀青年創(chuàng)新人才培養(yǎng)計劃項目(2013LYM0123);廣東省科技計劃項目(2013B090500067)
A novel scale feature based machine printed numeric
sequence segmentation algorithm for mobile captured images
YUAN Junying, GUO Zhonghua, CAO Huiru
(Department of Electronic Communication and Software Engineering,
Nanfang College of SUN YAT-SEN University, Guangzhou 510970, China)
Abstract:The problem of numeric string segmentation in mobile captured images is greatly impacted by image geometrical distortion, non-uniform lighting and noise. A novel numeric scale feature based segmentation (NSFS) algorithm for machine printed numeric strings is proposed to deal with these challenges. First, the numeric string image is pre-processed to remove noise and possible ruling-line segments. Then the bounding box of the numeric string is extracted, and each of the contained connected components is segmented utilizing numeric scale features. The algorithm is simple but applies to various data forms and numeric strings with diverse fonts and formats. As this work is a pioneer research in mobile captured images, we build a fresh new numeric string image set captured from data forms with different brands of mobiles. Experiments show that the proposed algorithm achieves a segmentation rate of 96% plus, which proves the effectiveness of the proposed work.
Key words: digit segmentation; feature extraction; digit recognition; mobile captured image
第一作者:苑俊英(1980-),女,河北保定人,中山大學(xué)南方學(xué)院講師,主要從事大數(shù)據(jù)與云計算、圖像處理、模式識別等方面的研究.E-mail:cihisa@126.com
利用計算機識別技術(shù)對數(shù)據(jù)表格進(jìn)行識別、數(shù)據(jù)獲取和后期處理是工作自動化、提高工作效率的有效途徑[1-2].現(xiàn)有的表格處理系統(tǒng)都專用于處理1種或幾種固定格式的表格,不適用于格式多變的通用數(shù)據(jù)表格[3].?dāng)?shù)字序列分割作為文字識別的重要步驟,其分割的準(zhǔn)確程度直接決定了表格識別的性能[4].由于序列分割在現(xiàn)有的方法中并沒有得到重視[5],所以限制了表格識別性能的提高.目前,存在2種序列分割方法:一是單獨的數(shù)字字符分割方法[6-7],利用數(shù)字序列本身的特征,在分割過程中不考慮分割正確性,這種方法效率較高,但準(zhǔn)確率偏低;另一種采用分割與識別交互進(jìn)行、相互輔助的方法[8],在數(shù)字分割過程中進(jìn)行數(shù)字識別,這種方法提高了準(zhǔn)確性,但降低了分割效率.
在數(shù)據(jù)表格識別應(yīng)用中,不同表格往往使用不同字體格式,如正常字體、花體、黑體、斜體等,甚至部分?jǐn)?shù)字之間存在連接現(xiàn)象.除此以外,手機拍攝的表格圖像往往質(zhì)量較低,存在幾何失真、光照不均、噪聲和圖像細(xì)節(jié)模糊等問題,導(dǎo)致二值化后的數(shù)字序列出現(xiàn)模糊、前后交疊等問題[4,8-9].本文以手機拍攝的數(shù)據(jù)表格識別系統(tǒng)為研究背景,重點探索表格中打印數(shù)字序列分割問題,在充分挖掘數(shù)字序列圖像特征[10]的基礎(chǔ)上,提出了一種基于數(shù)字尺度特征的數(shù)字序列分割方法(numeric scale feature based segmentation,NSFS).NSFS首先對單元格內(nèi)容進(jìn)行預(yù)處理,提取包含數(shù)字序列的最小矩形,然后提取連通分量,根據(jù)數(shù)字高寬比等尺度統(tǒng)計特征對每個連通分量進(jìn)行數(shù)字分割.最后,本文搭建了手機拍攝的數(shù)字序列圖像庫,使用NSFS實現(xiàn)了數(shù)字序列分割,并分析了誤分割現(xiàn)象、原因及改進(jìn)方向.與Rodríguez等[11]提出的表格數(shù)字分割算法相比,本文的算法具有數(shù)字分割精度高、運算速度快、以及能夠適應(yīng)不同數(shù)字格式等優(yōu)點.
1數(shù)字序列圖像預(yù)處理
在數(shù)字表格圖像中,當(dāng)成功定位單元格后,即可提取單元格中的數(shù)字序列,此時提取的數(shù)字序列為原始彩色圖像,用Irgb來表示.Irgb中主要包含數(shù)字序列,此外,還可能包含背景、噪聲和由于光照不均勻引起的陰影,后者對數(shù)字序列的處理產(chǎn)生了干擾,有必要在數(shù)字序列分割前去除干擾.可以采用高斯低通濾波去除其中的噪聲,采用二值化去除大部分背景影響,根據(jù)數(shù)字高度和寬度等尺度特征去除殘余表格線.
與背景圖像相比,圖像Irgb中數(shù)字序列的亮度具有顯著差距,據(jù)此特點,采用全局閾值對Irgb的亮度分量
(1)
進(jìn)行二值化,二值化閾值為
T(x,y)=k*mean(BL(x,y)),
(2)
其中,k為常數(shù),在本文中設(shè)為0.98,BL(x, y)是邊長為L的像素Ilum(x,y)的鄰域.根據(jù)閾值T,可以計算并獲得二值化圖像
(3)
采用上述全局閾值二值化方法,充分利用數(shù)字序列圖像背景簡單、前景和背景區(qū)分度較大的特點,具有計算速度快、二值化效果好的優(yōu)點.
由于亮度圖像Ilum中的數(shù)字序列可能亮度偏高也可能偏低,所以需要對Ibw進(jìn)一步處理,使數(shù)字序列部分變?yōu)榘咨?,背景圖像變?yōu)楹谏苑奖愫罄m(xù)圖像處理.根據(jù)圖像Ibw中數(shù)字序列所占像素個數(shù)小于Ibw中像素總數(shù)一半的特點,采用公式
(4)
(其中M和N分別是二值圖像Ibw的行數(shù)和列數(shù))即可確保Ibw中的數(shù)字所占像素值為1,至此,實現(xiàn)了數(shù)字序列彩色圖像Irgb到二值圖像Ibw的變換.
在二值化后的數(shù)字序列圖像Ibw中,仍可能存在噪聲和殘留表格線,如圖1所示.與數(shù)字序列相比,噪聲的形狀并不規(guī)則,其高度和寬度也要小得多,在提取連通分量后,可以采用去除高度顯著小于平均值的連通分量的方法進(jìn)行去噪.去噪過程中,首先去除Ibw中像素數(shù)很小的連通區(qū)域(connected components, CC),然后計算剩余連通分量的平均高度
(5)
其中,Ncc是二值圖像Ibw中去除噪聲后連通分量的個數(shù).如果第i個連通分量的高度Hi< 0.25Havg,那么它就是噪聲或表格線,則從Ibw中去除該連通分量.
去除噪聲后的二值圖像Ibw中,仍可能含有部分殘留的垂直方向的表格線.為了準(zhǔn)確定位包含數(shù)字序列的最小矩形(boundingbox),需要進(jìn)一步去除這些表格線.由于表格線與數(shù)字序列之間存在明顯空隙,寬度遠(yuǎn)小于連通分量平均寬度的連通分量即為殘留的表格線(其中NCC是濾除噪聲后連通分量的個數(shù)).在本文中,如果第j個連通分量的寬度Wi<0.25Wavg,第j個連通分量則被認(rèn)為是殘余的表格線,需要從Ibw予以刪除.至此,在已去除噪聲和殘余表格線的二值圖像Ibw中只存在數(shù)字部分的連通分量,如圖1所示,可以通過在水平方向和垂直方向投影的方法,找到準(zhǔn)確定位包含數(shù)字序列的最小矩形,用Icc表示最小矩形及其內(nèi)部的二值圖像.
(6)
ab
a. 含噪聲的Ibw及其預(yù)處理結(jié)果;b. 含表格線殘留的Ibw及其預(yù)處理結(jié)果.
圖1預(yù)處理前后的二值圖像
Fig.1Binary image before and after pre-processing
2數(shù)字序列圖像分割算法NSFS
二值圖像Icc中包含1個或多個連通區(qū)域,每個連通區(qū)域可能由1個或多個數(shù)字組成,如圖1中的二值圖像由多個連通區(qū)域組成,每個連通區(qū)域?qū)?yīng)1個數(shù)字或多個連接在一起的數(shù)字.為了能夠識別每個數(shù)字,必須進(jìn)行數(shù)字分割提取每一個數(shù)字圖像.在數(shù)字分割過程中,必須能夠處理數(shù)字序列中存在的斜體和連體等問題.本文在經(jīng)過圖像預(yù)處理獲得包含數(shù)字序列的最小矩形Icc的基礎(chǔ)上,提出了一種基于連通分量和打印數(shù)字尺度特征進(jìn)行數(shù)字序列分割的算法:首先,把Icc按比例縮放到指定高度H=50,減少二值圖像高度的影響;然后,提取Icc中所有的連通分量,針對每個連通分量Icc(k)進(jìn)行數(shù)字序列分割,算法具體步驟為
1)根據(jù)數(shù)字尺度特征,設(shè)置數(shù)字最小寬度Wmin= 0.4H,最大寬度Wmax= 0.9H;
2)查找連通分量Icc(k)的上邊界和下邊界,并計算數(shù)字圖像的上下邊界距離h,h是數(shù)字外圍輪廓高度的一個一維向量;
在上述算法中,第1)步的數(shù)字最小寬度Wmin和最大寬度Wmax是根據(jù)數(shù)字高寬比的歷史尺度特征設(shè)置的;第2)步通過尋找數(shù)字所在區(qū)域的上下邊界,確定數(shù)字的外圍輪廓,與連通分量相比,該輪廓更能代表圖像中數(shù)字的位置,如圖2a和圖2b所示;第3)步計算數(shù)字輪廓的高度的平方,以更能突出數(shù)字之間的邊界,使數(shù)字之間的分隔更明顯,如圖2c所示;算法第4)步根據(jù)數(shù)字的高寬比尺度特征,通過尋找區(qū)域最小值的方法,確定相連數(shù)字之間的邊界.
abc
a.數(shù)字序列連通分量Icc(k);b.數(shù)字區(qū)域的上下邊界;
圖2數(shù)字序列連通分量分割過程
Fig.2Segmentationprocessforconnectedcomponentofanumericstring
3實驗和分析
由于目前并沒有手機拍攝的數(shù)字序列圖像庫,所以,本文采用3部不同品牌手機拍攝20張表格,共獲得了60張表格圖像,搭建了專用圖像庫.從拍攝圖像的表格中,截取了1 746張數(shù)字序列圖像,作為本文實驗的實驗數(shù)據(jù).經(jīng)觀察,這些手機拍攝的數(shù)字序列圖像中普通存在不同程度的幾何失真、光照不均和噪聲,而且部分圖像中的數(shù)字序列與背景之間的顏色差別不大,對數(shù)字序列分割提出了不小的挑戰(zhàn).
為衡量數(shù)字序列分割算法性能,本文選擇Rodríguez等[9]提出的表格數(shù)字序列分割算法進(jìn)行了同樣的實驗,并將實驗結(jié)果進(jìn)行了對比,該算法利用數(shù)字序列垂直方向的4種投影特征,針對等間距的含噪數(shù)字序列,實現(xiàn)了近似最優(yōu)的分割性能.為簡便起見,本文采用RODSEG代表Rodríguez等提出表格數(shù)字序列分割算法.
本文采用數(shù)字分割的精確率P(Precision)、查全率R(Recall),P和R的調(diào)和平均F,以及數(shù)字序列圖像正確分割率做為數(shù)字分割性能的4個衡量指標(biāo),其定義分別為
(7)
其中,tp,ND和NR分別為分割后正確分割的數(shù)字個數(shù)、實際的數(shù)字總數(shù)和分割所得的數(shù)字總數(shù),其中NCS是正確分割的數(shù)字序列個數(shù),NS= 1 746,是圖像庫中數(shù)字序列圖像的總數(shù),PS定義了正確分割的數(shù)字序列圖像個數(shù)和數(shù)字序列圖像總數(shù)之比.
表1 數(shù)字序列分割算法性能指標(biāo)
表1給出了采用NSFS算法的實驗結(jié)果,由表1可以看出,NSFS算法的數(shù)字分割正確率P為95.34%,調(diào)和平均F為96.04%,數(shù)字序列正確分割率PS為93.13%,普遍高于RODSEG算法.經(jīng)過對比不難發(fā)現(xiàn),Rodríguez等人的算法針對數(shù)字間距相等、數(shù)字格式一致、無傾斜以及無重疊的數(shù)字序列可以實現(xiàn)近似完全正確的分割,所以其算法的適應(yīng)能力較弱.而本文提出的NSFS算法,能夠比較理想地解決上述問題,在應(yīng)用中的適應(yīng)能力更強.并且,與RODSEG相比,NSFS算法復(fù)雜度更低,運行速度僅為前者的75%,所以更加實用.
通過檢查NSFS算法誤分割的數(shù)字序列,總結(jié)出如下4種情況:1)預(yù)處理后的二值圖像清晰,數(shù)字邊界未被噪聲嚴(yán)重干擾,如圖3所示,此種圖像的數(shù)字分割的正確率為100%;2)預(yù)處理后的二值圖像中的數(shù)字邊界存在嚴(yán)重噪聲干擾,如圖4所示,此類圖像共有96張,其中約1/3的數(shù)字存在誤分割現(xiàn)象,并且,誤分割一般發(fā)生在2個數(shù)字的邊界,但每個數(shù)字的主體仍能正確分割;3)預(yù)處理后的二值圖像中仍存在殘留的表格線,如圖5所示,此類圖像共有14張,殘留的表格線被誤分割為數(shù)字,但數(shù)字能夠被正確分割;4)預(yù)處理后的二值圖像大部分為噪聲,已經(jīng)不能分辨其中的數(shù)字,如圖6所示,此類圖像共有10張,在此類圖像中不能正確分割數(shù)字.
針對上述的數(shù)字邊界被噪聲嚴(yán)重干擾的第2類和第4類圖像,可以采用更先進(jìn)的濾波算法和二值化算法,降低噪聲對邊界的干擾,從而實現(xiàn)正確分割;針對第3類圖像,需要提高數(shù)字序列圖像在提取過程中的準(zhǔn)確性,可根據(jù)其高度特點,通過預(yù)處理方式清除表格線.
圖3 噪聲干擾較小的二值圖像
圖4 數(shù)字邊界被噪聲嚴(yán)重干擾的亮度圖(上)及其二值圖像(下)
圖5 存在表格線殘留的二值圖像
圖6 噪聲嚴(yán)重的亮度圖(上)及其二值圖像(下)
4總結(jié)
針對手機拍攝的打印數(shù)字序列中存在的幾何失真、光照不均和噪聲等問題,以及不同數(shù)字序列具有不同字體和不同格式的難題,提出了一種基于數(shù)字尺度特征的手機拍攝的數(shù)字序列分割方法.首先對單元格內(nèi)容進(jìn)行預(yù)處理,提取包含數(shù)字序列最小矩形,然后提取其中的連通分量,針對每個連通分量利用數(shù)字尺度特征進(jìn)行數(shù)字分割,在搭建的圖像庫中實現(xiàn)了96%以上的正確分割率.由于在圖像預(yù)處理過程中,僅采用了簡單的高斯低通濾波進(jìn)行圖像去噪,以及全局二值化方法,導(dǎo)致二值化圖像質(zhì)量不高,在數(shù)字序列分割過程中出現(xiàn)誤分割,這些問題可以通過采用更先進(jìn)的濾波和二值化算法予以解決.
參考文獻(xiàn):
[1]RIBASFC,OLIVEIRALS,BRITTOAS,etal.Handwrittendigitsegmentation:acomparativestudy[J].InternationalJournalonDocumentAnalysisandRecognition, 2013,16(2): 127-137.
[2]MRIDULA,SINGHBM.Efficientbinarizationtechniqueforseverelydegradeddocumentimages[J].CSITransactionsonICT, 2014, 2(3):153-161.
[3]邵中. 基于圖像處理的自動統(tǒng)計方法研究與軟件設(shè)計[D]. 沈陽:沈陽工業(yè)大學(xué),2011.
SHAOZhong.Researchandsoftwaredesignofautomaticstatisticmethodbasedonimageprocessing[D].Shenyang:ShenyangUniversityofTechnology, 2011.
[4]LUYi.Machineprintedcharactersegmentation-Anoverview[J].PatternRecognition, 1995, 28(1): 67-80.
[5]CASEYRG,NAGYG.Recursivesegmentationandclassificationofcompositecharacterpatterns[Z].SixthInternationalConferenceonPatternRecognition,Munich,Germany, 1982.
[6]RODRIGUEZC,MUGUERZAJ,NAVANOM,etal.Segmentationoflow-qualitytypewrittenDigits[Z].IEEEFourteenthInternationalConferenceonPatternRecognition,Brisbane,Queensland,Australia, 1998.
[7]ELNAGARA,ALHAJJR.Segmentationofconnectedhandwrittennumeralstrings[J].PatternRecognition, 2003, 36(3):625-634.
[8]LEESW,LEEDJ,PARKHS.Anewmethodologyforgray-scalecharactersegmentationandrecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 1996, 18(12): 1045-1050.
[9]JINDALMK,SHARMARK,LEHALGS.Astudyofdifferentkindsofdegradationinprintedgurmukhiscript[Z].IEEEProceedingsoftheInternationalConferenceonComputing:TheoryandApplications,Kolkata, 2007.
[10]翟俊海,趙文秀,王熙照. 圖像特征提取研究[J]. 河北大學(xué)學(xué)報: 自然科學(xué)版,2009, 29(1): 106-112.
ZHAIJunhai,ZHAOWenxiu,WANGXizhao.Researchontheimagefeatureextraction[J].JournalofHebeiUniversity:NaturalScienceEdition, 2009, 29(1): 106-112.
[11]RODRíGUEZC,MUGUERZAJ,NAVARROM,etal.Anewcostfunctionfortypewrittendigitssegmentation[J].AdvancesinPatternRecognition, 1998, 1451: 975-980.
(責(zé)任編輯:孟素蘭)