深度學(xué)習(xí)在身份證字符識(shí)別中的應(yīng)用研究

2018-03-22 01:37胡胤黃啟權(quán)廣東工業(yè)大學(xué)自動(dòng)化學(xué)院

數(shù)碼世界 2018年3期

胡胤黃啟權(quán) 廣東工業(yè)大學(xué)自動(dòng)化學(xué)院

1 引言

受CNN模型成功應(yīng)用于手寫數(shù)字識(shí)別、交通信號(hào)識(shí)別及人臉識(shí)別等的啟發(fā)，本文將漢字特征提取和特征降維過(guò)程相結(jié)合，提出一種基于CNN的漢字識(shí)別方法和另外一種成熟的基于CNN的數(shù)字識(shí)別方法應(yīng)用到身份證識(shí)別中。

隨著互聯(lián)網(wǎng)的發(fā)展，需要網(wǎng)絡(luò)實(shí)名認(rèn)證的場(chǎng)景越來(lái)越多。當(dāng)人們?cè)谙硎芑ヂ?lián)網(wǎng)帶來(lái)便利的同時(shí)，卻不得不考慮到個(gè)人信息的甄別問(wèn)題。將深度學(xué)習(xí)應(yīng)用在字符識(shí)別場(chǎng)景中，能夠快速準(zhǔn)確的識(shí)別出數(shù)字和字符，也為錄入身份證、行駛證、駕駛證等證件信息提供了便利。

2 了解 CNN

卷積神經(jīng)網(wǎng)絡(luò)類似于一般的神經(jīng)網(wǎng)絡(luò)，由可學(xué)習(xí)的權(quán)重和誤差組成，每一個(gè)神經(jīng)元接受一些輸入，完成一些非線性的操作。整個(gè)神經(jīng)網(wǎng)絡(luò)完成了一個(gè)可微的打分函數(shù)，從圖像點(diǎn)到分類得分。在全連接或者最后一層他們也有一個(gè)損失函數(shù)。

卷積神經(jīng)網(wǎng)絡(luò)通常包含以下幾層：

卷積層（Convolutional layer），卷積神經(jīng)網(wǎng)路中每層卷積層由若干卷積單元組成，每個(gè)卷積單元的參數(shù)都是通過(guò)反向傳播算法優(yōu)化得到的。卷積運(yùn)算的目的是提取輸入的不同特征，第一層卷積層可能只能提取一些低級(jí)的特征如邊緣、線條和角等層級(jí)，更多層的網(wǎng)絡(luò)能從低級(jí)特征中提取更復(fù)雜的特征。

線性整流層（Rectified Linear Units layer， ReLU layer），這一層神經(jīng)的活性化函數(shù)（Activation function）使用線性整流（Rectified Linear Units， ReLU）f(x)=max(0，x)。

池化層（Pooling layer），通常在卷積層之后會(huì)得到維度很大的特征，將特征切成幾個(gè)區(qū)域，取其最大值或平均值，得到新的、維度較小的特征。

全連接層（Fully-Connected layer），把所有局部特征結(jié)合變成全局特征，用來(lái)計(jì)算最后每一類的得分。

以下是一個(gè)簡(jiǎn)單的LeNet-5卷積神經(jīng)網(wǎng)絡(luò)模型：

圖1 LeNet-5網(wǎng)絡(luò)模型

3 獲取訓(xùn)練數(shù)據(jù)

3.1 阿拉伯?dāng)?shù)字

數(shù)字0～9一共分為10類，考慮類別少的因素，用MATLAB腳本生成數(shù)字?jǐn)?shù)據(jù)時(shí)候使用二值圖片，像素為48*48大小，對(duì)文字圖片做隨機(jī)旋轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)腐蝕膨脹核腐蝕膨脹、隨機(jī)resize處理。

3.2 中文漢字

GB2312標(biāo)準(zhǔn)共收錄6763個(gè)常用漢字，使用覆蓋率在99.75%以上。用身份證的底色隨機(jī)剪切作為訓(xùn)練圖片的底色，然后用opencv生成隨機(jī)底色、隨機(jī)旋轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)腐蝕膨脹核腐蝕膨脹、隨機(jī)resize，隨機(jī)模糊噪點(diǎn)圖片等作為訓(xùn)練數(shù)據(jù)。

圖2 訓(xùn)練底色圖

圖3 訓(xùn)練數(shù)據(jù)

4 卷積網(wǎng)絡(luò)訓(xùn)練模型

Google Inception Net首次出現(xiàn)在ILSVRC 2014的比賽中，以較大優(yōu)勢(shì)取得了第一名。那屆比賽中的Inception Net通常被稱為Inception V1，它最大的特點(diǎn)是控制了計(jì)算量和參數(shù)量的同時(shí)，獲得了非常好的分類性能——top-5錯(cuò)誤率6.67%。

本文在GoogleNet的基礎(chǔ)上結(jié)合本文任務(wù)進(jìn)行了網(wǎng)絡(luò)結(jié)構(gòu)改造，改造后的網(wǎng)絡(luò)模型IDNet如圖所示：

圖4 IDNet網(wǎng)絡(luò)模型結(jié)構(gòu)

5 結(jié)論

訓(xùn)練使用GTX1080設(shè)備，數(shù)字和漢字訓(xùn)練都使用48*48的原始圖片，crop_size為45*45的網(wǎng)絡(luò)訓(xùn)練圖片。

漢字訓(xùn)練圖片為超參數(shù)學(xué)習(xí)率設(shè)為0.01，最大迭代次數(shù)設(shè)為30萬(wàn)次，batch_size設(shè)為128，stepsize設(shè)為100000，訓(xùn)練所用時(shí)間花費(fèi)9個(gè)多小時(shí)，測(cè)試集使用一萬(wàn)張剪切的真實(shí)字符數(shù)據(jù)，最后測(cè)試得到的數(shù)字識(shí)別的正確率為99.91%，漢字識(shí)別的的正確率為99.82%。

[1]孫華，張航.字識(shí)別方法綜述[J].Computer Engineering，2010，36(20).

[2]王有旺.深度學(xué)習(xí)及其在手寫漢字識(shí)別中的應(yīng)用研究[D].華南理工大學(xué)，2014.

[3]嚴(yán)曲.身份證識(shí)別系統(tǒng)的原理及算法研究[D].中南大學(xué).2005.3

[4]倪桂博.印刷體文字識(shí)別技術(shù)的研究[D].華北電力大學(xué).2008

[5]Romero R D，Touretzky D，Thibadeaun R H.Optical Chinese character recognition using probabilistic neural networks[J].Pattern Recognition，1997，30(8)：127-129．

[6]Liu C L，Sako H，F(xiàn)ujisawa H.Handwritten Chinese Character Recognition：

Alternatives to Nonlinear Normalization[C].ICDAR. 2003， 3：524-528.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡