胡 穎,穆志純
(1.山西職業(yè)技術(shù)學(xué)院 電氣工程與自動(dòng)化系,山西 太原030006;2.北京科技大學(xué) 自動(dòng)化學(xué)院,北京100083)
人體生物特征的識(shí)別應(yīng)用越來越廣泛,但是人體生物特征隨著年齡及環(huán)境的變化而變化,因此選取的生物特征能保證其在一定時(shí)間的穩(wěn)定性尤其重要.臉部特征和耳部特征最易提取,并且不易被復(fù)制,因此用來作為研究的對(duì)象.其中耳部特征隨年齡變化更小些,不易被損傷,穩(wěn)定性更好,在做識(shí)別過程中不需要人主動(dòng)參與,有很好的隱蔽性.相對(duì)于臉部識(shí)別,人耳圖像較小,在識(shí)別過程中計(jì)算量較小.因此,人耳識(shí)別成為目前研究的重點(diǎn).
根據(jù)特征提取方法的不同,人耳識(shí)別一般分為基于幾何形狀特征的識(shí)別[1-5]和基于代數(shù)特征的識(shí)別[6-7]兩種方法.前者需要提取外耳和內(nèi)耳的邊緣特征,具有直觀、快速的優(yōu)點(diǎn),但與頭部姿勢(shì)、拍攝角度以及光照強(qiáng)度等有關(guān),使得提取的特征不夠穩(wěn)定;后者要求數(shù)據(jù)集包含于全局線性結(jié)構(gòu),實(shí)際應(yīng)用中難以滿足.因此,本文在考慮識(shí)別速度和特征穩(wěn)定性的基礎(chǔ)上,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的人耳識(shí)別方法.
卷積神經(jīng)網(wǎng)絡(luò)作為人工神經(jīng)網(wǎng)絡(luò)一種,其識(shí)別的高效性引起了廣泛的重視,主要應(yīng)用在語音分析和圖像識(shí)別領(lǐng)域.卷積神經(jīng)網(wǎng)絡(luò)具有獨(dú)特的多層網(wǎng)絡(luò)結(jié)構(gòu),利用空間關(guān)系將權(quán)值在各層之間共享,減少了需要訓(xùn)練學(xué)習(xí)權(quán)值的數(shù)量,有效地把網(wǎng)絡(luò)模型復(fù)雜度降至最低.當(dāng)輸入是圖像的時(shí)候,該網(wǎng)絡(luò)的結(jié)構(gòu)較其他網(wǎng)絡(luò)的優(yōu)勢(shì)更加突出.卷積神經(jīng)網(wǎng)絡(luò)將圖像分解后,用一小部分作為輸入,減小已有算法中特征提取的復(fù)雜度,避免了數(shù)據(jù)重建過程[8-9].卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)在人臉識(shí)別和檢測(cè)機(jī)器人導(dǎo)航、手寫字符識(shí)別、路人檢測(cè)中得到成功的應(yīng)用[10-13].
本文首先介紹了卷積神經(jīng)網(wǎng)絡(luò)原理與結(jié)構(gòu),進(jìn)而對(duì)其結(jié)構(gòu)和算法進(jìn)行了改進(jìn)并應(yīng)用于人耳識(shí)別中,通過與原有算法和三層感知神經(jīng)網(wǎng)絡(luò)識(shí)別對(duì)比,結(jié)果表明改進(jìn)算法的識(shí)別率要優(yōu)于以前的算法.
卷積神經(jīng)網(wǎng)絡(luò)一般由輸入層、特征提取層(S-層)、特征映射層(C-層)和輸出層等串聯(lián)形成多層神經(jīng)網(wǎng)絡(luò),每層由多個(gè)二維平面組成,每個(gè)平面(代表一個(gè)特征)包含若干神經(jīng)元.S-面由相同特征的S-元組合構(gòu)成,S-層由不同特征的S-面組成.提取相同特征的C-元組合在一起形成C-面,不同特征的C-面組成C-層.二維圖像由輸入層直接接受,每個(gè)輸入級(jí)只含有一個(gè)輸入層,S-層與C-層串接形成中間級(jí),各層互連的結(jié)構(gòu)中嵌入圖像特征的提取.
卷積神經(jīng)網(wǎng)絡(luò)中,每個(gè)神經(jīng)元對(duì)全局圖像的識(shí)別只需連接感受野的局部圖像,不需對(duì)全局圖像進(jìn)行連接,因此降低了參數(shù)數(shù)目.在特征提取層,每個(gè)神經(jīng)元的輸入與前一層的感受野相連,通過提取感受野的局部特征從而確定特征間的位置,將每層的特征組合起來就得到了全局的特征信息.對(duì)于圖像上全部的位置都采用同樣的學(xué)習(xí)特征,降低了運(yùn)算復(fù)雜度.同時(shí),在該網(wǎng)絡(luò)中將激活函數(shù)用sigmoid表示,可以保持特征映射的位移不變性.
在識(shí)別時(shí),為適應(yīng)輸入樣本可能會(huì)產(chǎn)生的畸變,采用特有的兩次特征提取結(jié)構(gòu).在這種結(jié)構(gòu)中,卷積神經(jīng)網(wǎng)絡(luò)的局部平均與二次提取是通過每一個(gè)特征提取層(S-層)和對(duì)應(yīng)的特征映像層(C-層)連接來求得.
卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)如圖1所示.本文的CNN是4層網(wǎng)絡(luò)的結(jié)構(gòu),隱含層是由S-層和C-層組成.原始圖像經(jīng)輸入層映射到Us2層的多個(gè)平面上,表示第一次提取了原始圖像的多個(gè)特征.然后,以此類推,每層提取前一層的局部特征,通過訓(xùn)練,對(duì)S-層神經(jīng)元的權(quán)值進(jìn)行修正.為保持位移旋轉(zhuǎn)不變性,同一平面對(duì)應(yīng)的神經(jīng)元權(quán)值相等,以保持位移、旋轉(zhuǎn)不變性.
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖 Fig.1 Convolution neural network structure
本文的CNN網(wǎng)絡(luò)由輸入層和輸出層構(gòu)成,輸入層的節(jié)點(diǎn)數(shù)為400,2個(gè)輸出層節(jié)點(diǎn)數(shù),其中還包含了4層隱含層.網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.輸入、輸出層的設(shè)計(jì):輸入層、中間層(隱含層)和輸出層三層結(jié)構(gòu)構(gòu)成了基本的卷積神經(jīng)網(wǎng)絡(luò)模型.中間層可以是多層,但研究表明,中間層的層數(shù)和神經(jīng)元的個(gè)數(shù)并非越多越好.為了更好地模擬人耳特征,輸入窗口的大小設(shè)置為通用的20×20,輸入層節(jié)點(diǎn)數(shù)為400,恰好對(duì)應(yīng)于20×20圖像窗口中的各個(gè)像素;考慮到識(shí)別結(jié)果只判斷是否為人耳,因此分類的卷積神經(jīng)網(wǎng)絡(luò)類別數(shù)為2;輸出層的節(jié)點(diǎn)數(shù)也定位為2.
中間層的設(shè)計(jì):CNN的中間層由圖像特征增強(qiáng)的卷積層、數(shù)據(jù)縮減的子抽樣層和兩個(gè)激活函數(shù)層構(gòu)成.圖像特征增強(qiáng)的卷積層的設(shè)計(jì)主要基于信號(hào)的卷積運(yùn)算來實(shí)現(xiàn)圖像的特征增強(qiáng).將輸入圖像的信號(hào)矩陣分別與增強(qiáng)圖像整體特征的兩個(gè)拉普拉斯算子和強(qiáng)化了邊緣特征的兩個(gè)Sobel邊緣算子構(gòu)成的卷積核進(jìn)行卷積運(yùn)算后,得到4個(gè)18×18的待測(cè)圖像.利用圖像局部相關(guān)性的原理在子抽樣層將卷積層輸出的4個(gè)18×18圖像作為輸入,分別進(jìn)行子抽樣運(yùn)算后得到輸出為4個(gè)9×9圖像.原圖像相鄰4個(gè)點(diǎn)求取平均值得到子抽樣的樣點(diǎn)值.該設(shè)計(jì)可以有效減少數(shù)據(jù)處理運(yùn)算量,又保留了原圖像的主要信息.
圖2 基于卷積神經(jīng)網(wǎng)絡(luò)的人耳識(shí)別原理圖 Fig.2 Ear recognition schematics based on convolution neural network
激活函數(shù)層的設(shè)計(jì)分為兩層:第一層中對(duì)抽樣層輸出的4個(gè)9×9圖像分別利用激活函數(shù)進(jìn)行連結(jié),得到相應(yīng)的中間輸出.第二層中將4個(gè)激活函數(shù)“并與”方式與輸出層連接,得出神經(jīng)網(wǎng)絡(luò)的最終判斷結(jié)果.本層訓(xùn)練所需激活函數(shù)為9×9×4+1×4個(gè).
本文選用北京科技大學(xué)的USTB人耳庫(kù).該庫(kù)現(xiàn)有790幅人耳圖像,每幅圖像的大小為100×150,部分圖像如圖3所示.實(shí)驗(yàn)將人耳集合劃分為訓(xùn)練集、檢驗(yàn)集和測(cè)試集,隨機(jī)選取訓(xùn)練集的數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,前向傳播得到網(wǎng)絡(luò)的輸出;利用輸出值與標(biāo)簽值的最大熵準(zhǔn)則,使用反向傳播算法來調(diào)整卷積神經(jīng)網(wǎng)絡(luò)權(quán)重,在驗(yàn)證集中檢驗(yàn)識(shí)別準(zhǔn)確率,隨機(jī)選取訓(xùn)練集數(shù)據(jù),直至識(shí)別率收斂為止,這時(shí)模型參數(shù)訓(xùn)練完成.在測(cè)試過程中利用訓(xùn)練好的模型參數(shù)對(duì)測(cè)試機(jī)進(jìn)行預(yù)測(cè),獲得此卷積神經(jīng)網(wǎng)絡(luò)的最終的識(shí)別準(zhǔn)確率.
圖3 人耳樣本Fig.3 Ears sample
為了進(jìn)一步證實(shí)維數(shù)與旋轉(zhuǎn)角度對(duì)于識(shí)別率的影響,實(shí)驗(yàn)測(cè)試集本文選取旋轉(zhuǎn)角度為5°~35°,間隔為10°的方法進(jìn)行識(shí)別.每個(gè)偏轉(zhuǎn)角度從10~100維取值,每隔10維取一個(gè)值.表1,圖4和圖5給出了對(duì)比實(shí)驗(yàn)結(jié)果.
圖4 識(shí)別率曲線 Fig.4 Recognition rate curve
表1 兩種神經(jīng)網(wǎng)絡(luò)識(shí)別率對(duì)比 Tab.1 Comparison of recognition ratio between two neural networks
圖5 不同角度的人耳識(shí)別結(jié)果 Fig.5 Ear recognition results in different angles
由圖5可以看出,隨著維數(shù)的增加,三層卷積神經(jīng)網(wǎng)絡(luò)和三層感知神經(jīng)網(wǎng)絡(luò)的識(shí)別概率都趨于上升.與感知神經(jīng)網(wǎng)絡(luò)相比,本文提出的卷積神經(jīng)網(wǎng)絡(luò)具有更好的識(shí)別率.當(dāng)旋轉(zhuǎn)角度發(fā)生變化時(shí),兩種方法的識(shí)別概率均發(fā)生變化.當(dāng)旋轉(zhuǎn)角度為35°時(shí),兩種方法的識(shí)別概率均優(yōu)于其他角度.綜合圖4和圖5,可得以下結(jié)論:
1)嵌入維數(shù)越大,降維后所保留的特征信息越多,識(shí)別概率越大.
2)卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別率基本不受維數(shù)影響或者是影響基本沒有,而感知神經(jīng)網(wǎng)絡(luò)的識(shí)別率受維數(shù)影響較大.
本文將卷積神經(jīng)網(wǎng)絡(luò)用于人耳識(shí)別中,提出一種新的識(shí)別方法.能夠直接提取人耳圖像特征,再利用二次特征識(shí)別方法對(duì)人耳圖像進(jìn)行識(shí)別,可以有效提高識(shí)別率,尤其是在人耳角度從0°~35°范圍變化時(shí),本文算法識(shí)別概率最高可達(dá)99%.實(shí)驗(yàn)表明,在人耳姿態(tài)發(fā)生較大變化時(shí),本文算法仍能保持良好的識(shí)別概率,穩(wěn)定性高于傳統(tǒng)的感知神經(jīng)網(wǎng)絡(luò).同時(shí)實(shí)驗(yàn)還對(duì)比了維數(shù)與識(shí)別率的關(guān)系,綜合考慮維數(shù)和識(shí)別率的關(guān)系,給出了不同維數(shù)下的識(shí)別結(jié)果,通過結(jié)果對(duì)比認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)基本不受維數(shù)影響,這對(duì)于今后研究姿態(tài)人耳圖像識(shí)別具有一定的參考價(jià)值.
[1]Iannarelli A.Ear identification,forensic identification series[M].California:Fremont Paramount Publishing Company,1989.
[2]Burge M,Burge W.Ear biometrics in computer vision[C].Proceedings of the 15th International conference of Pattern Recognition.Barcelona,Spain,2000,2:822-826.
[3]Hurley D J,Nixon M S,Carter J N.Force field energy functions for image feature extraction[J].Image and VisionComputing(S0262-8856),2002,20(5/6):311-317.
[4]Hurley D J,Nixon M S,Carter J N.A new force field transform for ear and face recognition[C].Proceedings of the IEEEInternational Conference on Image Processing.Vancouver,Canada,2000,1:25-28.
[5]Hurley D J,Nixon M S,Carter J N.Force field feature extraction for ear biometrics[J].Computer Vision and Image Understanding(S1077-3142),2005,98(3):491-512.
[6]Chang K,Bowyer K W,Sarkar S,et al.Comparison and combination of ear and face images in appearancebased biometrics[J].IEEE Transactions on Pattern A-nalysis and Machine Intelligence(S0162-8828),2003,25(9):1160-1166.
[7]Zhang Haijun,Mu Zhichun,Qu Wei,et al.A novel approach for ear recognition based on ICA and RBF network[C].Proceedings of 2005 International Conference on Machine Learning and Cybernetics,Guangzhou,China,2005,7:4511-4515.
[8]Seung H,Lee D.The manifold ways of perception[J].Science(S0036-8075),2000,290(5500):2268-2269.
[9]Lu H M,F(xiàn)ainman Y,Robert H N.Image manifolds[J].Proceedings of SPIE(S0277-786X),1998,3307:52-63.
[10]Lecun Y.Generalization and network design strategies[R].Pfeifer:Connectionist Research Group,1989.
[11]Simard P Y,Steinkraus D,Platt J C.Best practices for convolutional neural networks applied to visual document analysis[C].Proc of the Seventh International Conference on Document Analysis and Recognition.Washington:IEEE,2003:958-962.
[12]Ranzato M A,Poultney C,Chopra S,et al.Efficient learning of sparse representations with an energybased model[C].NIPS 2006.Cambridge:MIT Press,2007:1137-1144.
[13]Jarrett K,Kavukcuoglu K,Ranzato M A,et al.What is the best Multi-Stage architecture for object recognition[C].Proc of ICCV.Kyoto:IEEE,2009:2146-2153.