胡胤 黃啟權(quán) 廣東工業(yè)大學(xué)自動(dòng)化學(xué)院
受CNN模型成功應(yīng)用于手寫數(shù)字識(shí)別、交通信號(hào)識(shí)別及人臉識(shí)別等的啟發(fā),本文將漢字特征提取和特征降維過(guò)程相結(jié)合,提出一種基于CNN的漢字識(shí)別方法和另外一種成熟的基于CNN的數(shù)字識(shí)別方法應(yīng)用到身份證識(shí)別中。
隨著互聯(lián)網(wǎng)的發(fā)展,需要網(wǎng)絡(luò)實(shí)名認(rèn)證的場(chǎng)景越來(lái)越多。當(dāng)人們?cè)谙硎芑ヂ?lián)網(wǎng)帶來(lái)便利的同時(shí),卻不得不考慮到個(gè)人信息的甄別問(wèn)題。將深度學(xué)習(xí)應(yīng)用在字符識(shí)別場(chǎng)景中,能夠快速準(zhǔn)確的識(shí)別出數(shù)字和字符,也為錄入身份證、行駛證、駕駛證等證件信息提供了便利。
卷積神經(jīng)網(wǎng)絡(luò)類似于一般的神經(jīng)網(wǎng)絡(luò),由可學(xué)習(xí)的權(quán)重和誤差組成,每 一個(gè)神經(jīng)元接受一些輸入,完成一些非線性的操作。整個(gè)神經(jīng)網(wǎng)絡(luò)完成了一個(gè)可微的打分函數(shù),從圖像點(diǎn)到分類得分。在全連接或者最后一層他們也有一個(gè)損失函數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)通常包含以下幾層:
卷積層(Convolutional layer),卷積神經(jīng)網(wǎng)路中每層卷積層由若干卷積單元組成,每個(gè)卷積單元的參數(shù)都是通過(guò)反向傳播算法優(yōu)化得到的。卷積運(yùn)算的目的是提取輸入的不同特征,第一層卷積層可能只能提取一些低級(jí)的特征如邊緣、線條和角等層級(jí),更多層的網(wǎng)絡(luò)能從低級(jí)特征中提取更復(fù)雜的特征。
線 性 整 流 層(Rectified Linear Units layer, ReLU layer),這一層神經(jīng)的活性化函數(shù)(Activation function)使用線性整流(Rectified Linear Units, ReLU)f(x)=max(0,x)。
池化層(Pooling layer),通常在卷積層之后會(huì)得到維度很大的特征,將特征切成幾個(gè)區(qū)域,取其最大值或平均值,得到新的、維度較小的特征。
全連接層(Fully-Connected layer),把所有局部特征結(jié)合變成全局特征,用來(lái)計(jì)算最后每一類的得分。
以下是一個(gè)簡(jiǎn)單的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)模型:
圖1 LeNet-5網(wǎng)絡(luò)模型
數(shù)字0~9一共分為10類,考慮類別少的因素,用MATLAB腳本生成數(shù)字?jǐn)?shù)據(jù)時(shí)候使用二值圖片,像素為48*48大小,對(duì)文字圖片做隨機(jī)旋轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)腐蝕膨脹核腐蝕膨脹、隨機(jī)resize處理。
GB2312標(biāo)準(zhǔn)共收錄6763個(gè)常用漢字,使用覆蓋率在99.75%以上。用身份證的底色隨機(jī)剪切作為訓(xùn)練圖片的底色,然后用opencv生成隨機(jī)底色、隨機(jī)旋轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)腐蝕膨脹核腐蝕膨脹、隨機(jī)resize,隨機(jī)模糊噪點(diǎn)圖片等作為訓(xùn)練數(shù)據(jù)。
圖2 訓(xùn)練底色圖
圖3 訓(xùn)練數(shù)據(jù)
Google Inception Net首次出現(xiàn)在ILSVRC 2014的比賽中,以較大優(yōu)勢(shì)取得了第一名。那屆比賽中的Inception Net通常被稱為Inception V1,它最大的特點(diǎn)是控制了計(jì)算量和參數(shù)量的同時(shí),獲得了非常好的分類性能——top-5錯(cuò)誤率6.67%。
本文在GoogleNet的基礎(chǔ)上結(jié)合本文任務(wù)進(jìn)行了網(wǎng)絡(luò)結(jié)構(gòu)改造,改造后的網(wǎng)絡(luò)模型IDNet如圖所示:
圖4 IDNet網(wǎng)絡(luò)模型結(jié)構(gòu)
訓(xùn)練使用GTX1080設(shè)備,數(shù)字和漢字訓(xùn)練都使用48*48的原始圖片,crop_size為45*45的網(wǎng)絡(luò)訓(xùn)練圖片。
漢字訓(xùn)練圖片為超參數(shù)學(xué)習(xí)率設(shè)為0.01,最大迭代次數(shù)設(shè)為30萬(wàn)次,batch_size設(shè)為128,stepsize設(shè)為100000,訓(xùn)練所用時(shí)間花費(fèi)9個(gè)多小時(shí),測(cè)試集使用一萬(wàn)張剪切的真實(shí)字符數(shù)據(jù),最后測(cè)試得到的數(shù)字識(shí)別的正確率為99.91%,漢字識(shí)別的的正確率為99.82%。
[1]孫華,張航.字識(shí)別方法綜述[J].Computer Engineering,2010,36(20).
[2]王有旺.深度學(xué)習(xí)及其在手寫漢字識(shí)別中的應(yīng)用研究[D].華南理工大學(xué),2014.
[3]嚴(yán)曲.身份證識(shí)別系統(tǒng)的原理及算法研究[D].中南大學(xué).2005.3
[4]倪桂博.印刷體文字識(shí)別技術(shù)的研究[D].華北電力大學(xué).2008
[5]Romero R D,Touretzky D,Thibadeaun R H.Optical Chinese character recognition using probabilistic neural networks[J].Pattern Recognition,1997,30(8):127-129.
[6]Liu C L,Sako H,F(xiàn)ujisawa H.Handwritten Chinese Character Recognition:
Alternatives to Nonlinear Normalization[C].ICDAR. 2003, 3:524-528.