廣州廣電運(yùn)通金融電子股份有限公司 王倩文 崔山領(lǐng) 徐 靖
試卷識(shí)別中的手寫(xiě)體識(shí)別
廣州廣電運(yùn)通金融電子股份有限公司 王倩文 崔山領(lǐng) 徐 靖
傳統(tǒng)閱卷方式要耗費(fèi)大量的人力和物力、耗時(shí)長(zhǎng),管理也不方便。隨著科技的發(fā)展,自動(dòng)化閱卷需求日益增多。自動(dòng)化閱卷系統(tǒng)強(qiáng)烈依賴(lài)于圖像處理技術(shù),整個(gè)系統(tǒng)主要包括圖像采集、圖像傾斜校正、版面分析、圖像分割、在線閱卷和成績(jī)錄入等模塊,是一個(gè)龐大而復(fù)雜的系統(tǒng)。本文針對(duì)自動(dòng)化閱卷系統(tǒng)中的一個(gè)重要環(huán)節(jié)在線閱卷模塊中涉及的手寫(xiě)體識(shí)別,提出基于卷積神經(jīng)網(wǎng)絡(luò)的解決方案。
手寫(xiě)體識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);字符識(shí)別;自動(dòng)閱卷
完整的自動(dòng)閱卷系統(tǒng)包括:(1)掃描試卷的定位和糾正;(2)試卷的版面及內(nèi)容分類(lèi);(3)考生信息識(shí)別;(4)答案自動(dòng)識(shí)別;(5)成績(jī)錄入與管理等。而在上述的(3)、(4)、(5)這三個(gè)模塊中,均涉及手寫(xiě)體的識(shí)別。為此,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的手寫(xiě)體識(shí)別的方法解決自動(dòng)閱卷上的識(shí)別問(wèn)題。
對(duì)于手寫(xiě)體,不同的人群書(shū)寫(xiě)習(xí)慣不同造成同一字符的形態(tài)、大小千變?nèi)f化。而且字符間筆畫(huà)也可能存在粘連。傳統(tǒng)的手寫(xiě)體算法一般是對(duì)識(shí)別的區(qū)域進(jìn)行字符串定位、字符切割、提取字符特征、利用神經(jīng)網(wǎng)絡(luò)或者支持向量機(jī)等方法進(jìn)行字符識(shí)別等多個(gè)步驟進(jìn)行識(shí)別。但是手寫(xiě)體的形態(tài)、大小變化多端,且存在字符的粘連,或部分筆畫(huà)的相互串?dāng)_,字符切割和字符的特征提取成為挑戰(zhàn)。為了解決此問(wèn)題,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)須進(jìn)行字符切割和字符特征提取的試卷手寫(xiě)體識(shí)別方法。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是人工神經(jīng)網(wǎng)絡(luò)的一種,也是一種使用廣泛的深度學(xué)習(xí)架構(gòu),目前已成為語(yǔ)音分析和圖像識(shí)別領(lǐng)域的研究熱點(diǎn)。它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類(lèi)似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。該優(yōu)點(diǎn)在網(wǎng)絡(luò)的輸入是多維圖像時(shí)表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過(guò)程。卷積網(wǎng)絡(luò)是為識(shí)別二維形狀而特殊設(shè)計(jì)的一個(gè)多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對(duì)平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。
CNN能夠得出原始圖像的有效表征,這使得CNN能夠直接從原始像素中,經(jīng)過(guò)極少的預(yù)處理,識(shí)別視覺(jué)上面的規(guī)律,而不需利用特征描述子手動(dòng)進(jìn)行特征提取。
圖1 LeNet5 結(jié)構(gòu)圖
CNN是一種深度學(xué)習(xí)的架構(gòu),基于此架構(gòu),可以演變?yōu)椴煌木W(wǎng)絡(luò)。但是CNN具備共性的基本組成單元。以 LeNet-5 為例,這個(gè)CNN 含有三種類(lèi)型的神經(jīng)網(wǎng)絡(luò)層:
(1)卷積層:設(shè)定卷積核數(shù)目和大小,自動(dòng)學(xué)會(huì)識(shí)別輸入數(shù)據(jù)的特性表征。如上述圖1中的C1,C3,C5均為卷積層。其中C1對(duì)應(yīng)的是6個(gè)28*28的特征圖,其每個(gè)神經(jīng)元與輸入中5*5的鄰域相連。C3同樣通過(guò)16個(gè)5x5的卷積核去卷積層S2,從而得到10x10個(gè)特征圖。C5層是一個(gè)卷積層,有120個(gè)特征圖。每個(gè)單元與S4層的全部16個(gè)單元的5*5鄰域相連。由于S4層特征圖的大小也為5*5(同濾波器一樣),故C5特征圖的大小為1*1:這構(gòu)成了S4和C5之間的全連接。
(2)池化層:典型的操作包括平均池化和最大化池化。每個(gè)卷積層后面跟著一個(gè)實(shí)現(xiàn)局部平均和子抽樣的計(jì)算層,由此特征映射的分辨率降低。這種操作具有使特征映射的輸出對(duì)平移和其他 形式的變形的敏感度下降的作用。LeNet-5中S2和S4均為平均池化層。
(3)全連接層:將卷積層和Pooling 層堆疊起來(lái)以后,在網(wǎng)絡(luò)的最后一般連接一層或多層全連接層,實(shí)現(xiàn)高階的推廣能力。 LeNet-5中F6即為全連接層。
CNN主要用來(lái)識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測(cè)層通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時(shí),避免了顯示的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對(duì)于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語(yǔ)音識(shí)別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類(lèi)過(guò)程中數(shù)據(jù)重建的復(fù)雜度。
在自動(dòng)閱卷系統(tǒng)中,在前面的(1)掃描試卷的定位和糾正、(2)試卷的版面及內(nèi)容分類(lèi)兩個(gè)模塊中已把待識(shí)別的區(qū)域精確定位出來(lái)。但是在待識(shí)別區(qū)域的手寫(xiě)體字符、數(shù)字等由于書(shū)寫(xiě)風(fēng)格各異,大小形狀各異,因此按照常規(guī)的字符串定位、字符切割、考卷表格線擦除、字符特征提取等傳統(tǒng)的處理方法,是無(wú)法達(dá)到好的識(shí)別效果的。在我們的系統(tǒng)實(shí)現(xiàn)中,我們對(duì)于待識(shí)別區(qū)域,定義一個(gè)字符的最大寬度為MAX_WIDTH,其最小寬度為MIN_WIDTH,從最小寬度逐步遞增的步長(zhǎng)為dW。對(duì)于待識(shí)別區(qū)域Block(大小為block_ width, block_height):
1)從區(qū)域的左側(cè)(即橫坐標(biāo)為0)開(kāi)始,選定MIN_WIDTH* block_height區(qū)域,在此區(qū)域通過(guò)水平投影,確定字符的上下邊界,從而得到待識(shí)別區(qū)域MIN_WIDTH*height_this。將其歸一化為32*32作為L(zhǎng)eNet-5的輸入,從而得到相應(yīng)的網(wǎng)絡(luò)識(shí)別結(jié)果。
2)橫坐標(biāo)x增加dW,重復(fù)第1步,獲得LeNet-5網(wǎng)絡(luò)識(shí)別結(jié)果。
3)橫坐標(biāo)x若小于MAX_WIDTH,重復(fù)第2步。
4)綜合前3步得到一系列的識(shí)別結(jié)果,找出綜合置信度最高的作為最終識(shí)別結(jié)果。
5)橫坐標(biāo)繼續(xù)增加dW,重復(fù)1~4得出所有的識(shí)別結(jié)果。
通過(guò)上述方法,我們可以避免繁瑣的字符切割和特征提取過(guò)程,充分利用多次滑動(dòng)中的識(shí)別結(jié)果綜合評(píng)判得到最終的識(shí)別結(jié)果,進(jìn)一步的提高了識(shí)別的準(zhǔn)確性。
[1]Y。LeCun,L。Bottou,Y。Bengio,and P。Haffner。Gradient-based learning applied to document recognition。Proceedings of the IEEE, november 1998.
[2]Y。LeCun,B。Boser,J。S。Denker,D。Henderson,R。E。Howard,W。 Hubbard,and L。D。Jackel。Handwritten digit recognition with a back-propagation network。In David Touretzky,editor,Advances in Neural Information Processing Systems 2(NIPS?89),Denver,CO,1990.Morgan Kaufman。
[3]沈茜。基于神經(jīng)網(wǎng)絡(luò)與GPU的手寫(xiě)數(shù)字識(shí)別及其試卷管理[D]。蘇州大學(xué),2011.
[4]高鵬,譚紅,杜華等?;谏窠?jīng)網(wǎng)絡(luò)方法的手寫(xiě)體數(shù)字識(shí)別[J]。吉林工業(yè)大學(xué)學(xué)報(bào),1997(1):79-82.
[5]趙曉娟。手寫(xiě)體數(shù)字及英文字符的識(shí)別研究[D]。東北師范大學(xué),2010.