国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于孿生神經(jīng)網(wǎng)絡(luò)的小樣本人臉識(shí)別

2022-03-02 02:45:42萬(wàn)立志張運(yùn)楚葛浙東王超
關(guān)鍵詞:特征向量人臉注意力

萬(wàn)立志張運(yùn)楚葛浙東王超

(1.山東建筑大學(xué) 信息與電氣工程學(xué)院,山東 濟(jì)南 250101;2.山東省智能建筑技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250101)

0 引言

快速人員身份鑒別已成為當(dāng)下社會(huì)安全和日常業(yè)務(wù)流程的重要技術(shù)手段,生物特征識(shí)別成為研究熱點(diǎn),其中人臉識(shí)別因其準(zhǔn)確度高、非侵入性和低成本等優(yōu)點(diǎn),得到充分關(guān)注和廣泛應(yīng)用[1]。人臉識(shí)別需要大量人臉數(shù)據(jù)作為訓(xùn)練樣本,然而在很多應(yīng)用場(chǎng)景中獲得的人臉數(shù)據(jù)有限,且存在各種劇烈的臉部變化,如光照、表情和遮擋等[2]。若訓(xùn)練樣本缺少,識(shí)別準(zhǔn)確率會(huì)有很大降低[3]。因此,學(xué)者們提出研究小樣本人臉識(shí)別方法,在人臉訓(xùn)練樣本較少的情況下,可以歸類人臉身份[4]。

基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)能從特征圖的低層到高層逐步提取代表人臉的高級(jí)語(yǔ)義化特征,已廣泛應(yīng)用于人臉識(shí)別。SUN等[5]采用卷積神經(jīng)網(wǎng)絡(luò)提取人臉深層次特征,構(gòu)造DeepID算法進(jìn)行人臉驗(yàn)證。SCHROFF等[6]提出了Facenet模型,將人臉圖像映射為一個(gè)128維的特征向量,并使用三元組損失Triplet loss增大類間差距、縮小類內(nèi)差距,以提高模型性能。TAIGMAN等[7]提出了DeepFace算法,通過(guò)引入了三維人臉模型對(duì)有姿態(tài)的人臉仿射對(duì)齊,提高了識(shí)別精度。由于存儲(chǔ)容量的限制以及采用全局平均池化會(huì)使精度下降,移動(dòng)設(shè)備較多地采用MobileNet或者ShuffleNet等模型進(jìn)行人臉識(shí)別。張子昊等[8]改進(jìn)了MoblieFaceNet網(wǎng)絡(luò),考慮到人臉圖像中心和邊緣區(qū)域應(yīng)具有不同的權(quán)重,故將全局深度卷積替代全局平均池化,讓網(wǎng)絡(luò)自主學(xué)習(xí)不同點(diǎn)的權(quán)重值,從而提高人臉識(shí)別精度。在孿生神經(jīng)網(wǎng)絡(luò)應(yīng)用于手寫筆跡識(shí)別后,張國(guó)云等[9]將其應(yīng)用于人臉識(shí)別領(lǐng)域,通過(guò)比較兩張人臉圖像映射的特征向量之間的歐氏距離,從而完成人臉比對(duì)相似度。利用對(duì)比損失函數(shù)組合原始數(shù)據(jù),創(chuàng)造了指數(shù)級(jí)別的數(shù)據(jù)量,解決了小樣本的數(shù)據(jù)量問題。但是,由于采用黑白圖像訓(xùn)練,并且采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,因此準(zhǔn)確率不高。

在損失函數(shù)設(shè)計(jì)方面,由于傳統(tǒng)的交叉熵?fù)p失函數(shù)(Cross Entropy Loss Function,CELF)僅關(guān)注于類間特征可分,不能很好地表示最小化類內(nèi)距離,因此王靈珍等[10]在交叉熵?fù)p失函數(shù)的基礎(chǔ)上聯(lián)合中心損失函數(shù)(Center Loss Function,CLF)作為聯(lián)合損失函數(shù)進(jìn)行模型優(yōu)化。為了讓特征學(xué)習(xí)到更可分的角度特性,LIU等[11]利用角度距離在交叉熵?fù)p失函數(shù)的基礎(chǔ)上提出了角度損失函數(shù)(Angular Softmax Loss,A-Softmax),利用大角度間隔將類別分開。WANG等[12]利用余弦距離在A-Softmax損失函數(shù)的基礎(chǔ)上提出了加性間隔損失函數(shù)(Additive Margin Softmax Function,AMSoftmax)。DENG等[13]考慮到角度距離比余弦距離對(duì)角度的影響更加直接,在AMSoftmax損失函數(shù)的基礎(chǔ)上進(jìn)行改進(jìn)并提出了加性角度間隔損失函數(shù)(Additive Angular Margin Loss Function,Arcface),將特征向量歸一化到超球面上,使模型在角度空間對(duì)分類的邊界進(jìn)行最大化,用以解決不同特征向量大小對(duì)分類效果的影響。

綜上所述,人臉識(shí)別領(lǐng)域中,利用深度學(xué)習(xí)模型進(jìn)行的人臉識(shí)別在準(zhǔn)確率上較高,但是模型的訓(xùn)練過(guò)程需要大量的圖像數(shù)據(jù)作為訓(xùn)練樣本,需要很高的硬件和時(shí)間需求。在沒有足夠樣本進(jìn)行訓(xùn)練的情況下,CNN模型不能夠很好地收斂運(yùn)行,或者出現(xiàn)過(guò)擬合現(xiàn)象。文章在深度學(xué)習(xí)理論的基礎(chǔ)上,提出了一種引入混合域注意力機(jī)制(Convolutional Block Attention Module,CBAM)的孿生神經(jīng)網(wǎng)絡(luò)模型,在預(yù)訓(xùn)練Inception-Resnet V1的模型中選擇卷積層作為特征提取網(wǎng)絡(luò),根據(jù)實(shí)驗(yàn)測(cè)試將輸出映射至特定維度的特征向量空間中;通過(guò)度量學(xué)習(xí)的損失函數(shù)來(lái)優(yōu)化模型,最終模型在小樣本的情況下使得同一人臉圖像距離減小,不同人臉圖像距離增大。文章以準(zhǔn)確率為指標(biāo),與傳統(tǒng)模型進(jìn)行對(duì)比實(shí)驗(yàn),以期驗(yàn)證所提出的模型比起傳統(tǒng)方法有較好地提升。

1 神經(jīng)網(wǎng)絡(luò)知識(shí)概述

1.1 多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)

多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-task Cascaded Convolutional Networks,MTCNN)是一個(gè)基于深度學(xué)習(xí)的人臉識(shí)別方法,將人臉區(qū)域檢測(cè)和人臉關(guān)鍵點(diǎn)檢測(cè)聯(lián)合實(shí)現(xiàn),采用3個(gè)串行連接的卷積神經(jīng)網(wǎng)絡(luò),每個(gè)卷積神經(jīng)網(wǎng)絡(luò)均完成人臉檢測(cè)、人臉對(duì)齊和檢測(cè)框回歸3個(gè)任務(wù)[14]。

MTCNN的3個(gè)卷積網(wǎng)絡(luò)分別為建議網(wǎng)絡(luò)(Proposal Network,P-Net)、調(diào)整網(wǎng)絡(luò)(Refine Network,R-Net)和輸出網(wǎng)絡(luò)(Output Network,ONet)。為了適應(yīng)不同尺寸圖片的輸入,建議網(wǎng)絡(luò)設(shè)置為全卷積神經(jīng)網(wǎng)絡(luò),同時(shí)使用卷積運(yùn)算代替滑動(dòng)窗口運(yùn)算,減小了計(jì)算負(fù)擔(dān),快速過(guò)濾>90%的背景目標(biāo),實(shí)現(xiàn)對(duì)人臉圖像的粗篩??;將建議網(wǎng)絡(luò)生成的人臉候選框輸入調(diào)整網(wǎng)絡(luò)中,調(diào)整網(wǎng)絡(luò)取消置信度判決為False的人臉候選框,并對(duì)其向量繼續(xù)回歸合并;輸出網(wǎng)絡(luò)輸出最終合并后的人臉框和人臉關(guān)鍵點(diǎn)位置。MTCNN框架圖如圖1所示。

圖1 MTCNN框架圖

MTCNN引用多種損失函數(shù)實(shí)現(xiàn)多任務(wù)學(xué)習(xí),人臉檢測(cè)任務(wù)時(shí)可采用交叉損失函數(shù)Ldet;而人臉框向量回歸任務(wù)時(shí),采用的是平方和損失函數(shù)Lbox;同時(shí)采用了實(shí)際數(shù)據(jù)與標(biāo)定數(shù)據(jù)差值的平方和作為人臉特征點(diǎn)回歸任務(wù)的損失函數(shù)Llandmark,O-Net最終輸出的人臉特征點(diǎn)實(shí)際為標(biāo)定后的人臉特征點(diǎn),即人臉關(guān)鍵點(diǎn)己經(jīng)被對(duì)準(zhǔn)到規(guī)范坐標(biāo),該標(biāo)定過(guò)程被稱為人臉對(duì)齊。因此,MTCNN實(shí)際上完成了人臉檢測(cè)與人臉對(duì)齊兩個(gè)功能。

在判斷圖像是否包括人臉時(shí)采用交叉熵?fù)p失函數(shù),數(shù)學(xué)表達(dá)式由式(1)表示為

式中y為對(duì)應(yīng)的標(biāo)簽值,在二分類情況時(shí),即為0或1;pi為對(duì)應(yīng)標(biāo)簽的概率值。

在確定人臉邊界框和人臉特征點(diǎn)回歸時(shí),采用歐氏距離損失函數(shù),數(shù)學(xué)表達(dá)式分別由式(2)和(3)表示為

式中和為模型輸出的人臉框和人臉特征點(diǎn)的預(yù)測(cè)值;ybox和ylandmark為原始數(shù)據(jù)中人臉框和人臉特征點(diǎn)的實(shí)際值。

1.2 孿生神經(jīng)網(wǎng)絡(luò)

孿生神經(jīng)網(wǎng)絡(luò)由一對(duì)相同結(jié)構(gòu)、共享權(quán)值w和偏置值b的網(wǎng)絡(luò)模型組成[15]。每次輸入2個(gè)樣本后,通過(guò)共享權(quán)值的模型將輸入圖像的特征映射至指定維度的特征向量空間中,比較特征向量的歐氏距離以判定2張圖像的相似程度。孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 孿生神經(jīng)網(wǎng)絡(luò)圖

1.3 損失函數(shù)

使用對(duì)比損失函數(shù)作為模型的優(yōu)化函數(shù)[16],數(shù)學(xué)表達(dá)式由式(4)表示為

式中D2W=‖x1-x2‖2為2個(gè)樣本通過(guò)模型后輸出的特征向量之間的歐氏距離,即二范數(shù);x1和x2為2個(gè)樣本在通過(guò)模型后映射至特征向量空間的坐標(biāo)值;m為設(shè)定的閾值,表示只考慮在0~m之間的不相似特征歐氏距離,當(dāng)距離超過(guò)m時(shí),則損失視為0,在模型訓(xùn)練中,閾值通常設(shè)定為1;Y為2個(gè)樣本是否匹配的標(biāo)簽。

Y=1時(shí)代表2個(gè)樣本相似或者匹配,此時(shí)的損失函數(shù)由式(5)表示為

即原本相似的樣本,如果在特征空間的歐氏距離較大,則說(shuō)明當(dāng)前的模型參數(shù)設(shè)置不合理,因此損失增大,需要繼續(xù)迭代修改參數(shù)。

Y=0時(shí)則代表2個(gè)樣本不匹配,此時(shí)的損失函數(shù)由式(6)表示為

即當(dāng)樣本不相似時(shí),兩者之間特征空間的歐氏距離反而小的情況下,損失函數(shù)的值會(huì)變大。

由于孿生神經(jīng)網(wǎng)絡(luò)一次性輸入2張樣本,同時(shí)使用對(duì)比損失函數(shù)進(jìn)行網(wǎng)絡(luò)優(yōu)化,使得每張樣本不僅只是使用一次,而是利用每1張樣本與其他同類或非同類樣本通過(guò)網(wǎng)絡(luò)映射的特定維度向量空間后產(chǎn)生的特征向量進(jìn)行距離比較,擴(kuò)大單張樣本的訓(xùn)練次數(shù),從而使得人臉識(shí)別網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)以指數(shù)級(jí)別的增加,同時(shí)將人臉分類問題轉(zhuǎn)換為2張圖像相似度比較的問題。

使用孿生網(wǎng)絡(luò)訓(xùn)練時(shí),由于其逐對(duì)訓(xùn)練的原理,可以在小樣本的情況下創(chuàng)造平方級(jí)別數(shù)量級(jí)的數(shù)據(jù)來(lái)訓(xùn)練模型,彌補(bǔ)了在小樣本情況下的過(guò)擬合缺陷。假設(shè)原始樣本有A類,每類有B個(gè)樣本,如果利用傳統(tǒng)的分類模型進(jìn)行訓(xùn)練,則原始樣本提供的可訓(xùn)練數(shù)據(jù)量為N=A×B。但是在使用了孿生神經(jīng)網(wǎng)絡(luò)和對(duì)比損失函數(shù)的情況下,原始樣本可以提供的訓(xùn)練數(shù)據(jù)量N由式(7)表示為

基于度量學(xué)習(xí)的損失函數(shù)能夠有效地減少?gòu)?fù)雜干擾造成的相同身份人臉特征向量之間的差異,并增大不同身份人臉特征向量間差異。從大量的訓(xùn)練人臉特征向量中學(xué)習(xí)該特征空間更具有穩(wěn)定性、可區(qū)分的距離度量,將原本在原始空間中分辨困難的數(shù)據(jù)進(jìn)行維度變換,可降低干擾影響,提升識(shí)別精度。

2 孿生神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)

利用MTCNN檢測(cè)圖像中的人臉區(qū)域并將人臉部分進(jìn)行截取,從而減少計(jì)算量和無(wú)關(guān)的圖像信息,將所有人臉圖像進(jìn)行標(biāo)準(zhǔn)化來(lái)減小光照、噪聲等外來(lái)干擾。將經(jīng)過(guò)預(yù)處理的圖像進(jìn)行孿生神經(jīng)網(wǎng)絡(luò)計(jì)算后,通過(guò)比較輸出的特征向量在特征向量空間之間的歐氏距離比較2張人臉的相似度。孿生神經(jīng)網(wǎng)絡(luò)算法流程如圖3所示。

圖3 孿生神經(jīng)網(wǎng)絡(luò)算法流程圖

2.1 改進(jìn)的網(wǎng)絡(luò)模型

采用遷移學(xué)習(xí)來(lái)減小運(yùn)算時(shí)間并在小樣本的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),具體操作為:(1)將Inception-ResNet-v1利用交叉熵?fù)p失函數(shù)和中心損失函數(shù)的聯(lián)合損失函數(shù)在大型數(shù)據(jù)集的基礎(chǔ)上進(jìn)行訓(xùn)練后,將模型的卷積層作為特征提取部分;(2)添加注意力機(jī)制模塊CBAM,為不同的通道和特征圖區(qū)域設(shè)置權(quán)重值;(3)利用全局平均池化層(Global Average Pooling 2D)取代壓平層(Flatten)后,添加隨機(jī)斷開層(Dropout)和全連接層(Dense)將輸出映射至128維的向量空間中,網(wǎng)絡(luò)結(jié)構(gòu)見表1。通過(guò)比較特征向量之間的歐氏距離大小來(lái)判斷2張人臉的相似程度。

表1 網(wǎng)絡(luò)結(jié)構(gòu)表

預(yù)訓(xùn)練模型是利用Inception-Resnet-v1模型在大型數(shù)據(jù)集上進(jìn)行訓(xùn)練分類;截取模型的卷積層,作為預(yù)訓(xùn)練的特征提取網(wǎng)絡(luò),使得網(wǎng)絡(luò)模型的參數(shù)在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行迭代優(yōu)化,從而減小模型運(yùn)算時(shí)間。

CBAM層是基于混合域注意力機(jī)制思想設(shè)計(jì)的注意力機(jī)制模塊。引入注意力機(jī)制模塊可以微調(diào)原始模型參數(shù),使得網(wǎng)絡(luò)能夠給予更重要的圖像區(qū)域和通道更大的權(quán)重,從而提高了整個(gè)模型的準(zhǔn)確度。通過(guò)對(duì)比實(shí)驗(yàn)證明,引入基于CBAM模塊注意力機(jī)制模塊比不添加注意力機(jī)制模型有一定的提升。

Global Average Pooling 2D層是代替Flatten層和全連接層的全局平均池化層,將輸入的(3,3,1 792)維度的特征值壓縮至(1,1,1 792),選擇3×3矩陣中的平均值作為特征輸出,最終全局平均池化層的輸出為一維的特征向量值,特征向量值的長(zhǎng)度為輸入特征向量的通道數(shù)1 792。利用全局平均池化層取代Flatten層和全連接層可以減少模型的計(jì)算量,提高運(yùn)算效率,同時(shí)可以抑制過(guò)擬合,保證模型的泛化能力。

Dropout層是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,對(duì)于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中斷開。對(duì)于隨機(jī)梯度下降來(lái)說(shuō),由于是隨機(jī)丟棄,因此在每一輪的訓(xùn)練中都在訓(xùn)練不同結(jié)構(gòu)的網(wǎng)絡(luò),從而提高了網(wǎng)絡(luò)的泛化能力,減小了模型的過(guò)擬合情況。文章按照0.5的比率,每輪訓(xùn)練時(shí)隨機(jī)斷開一半的神經(jīng)元,所以輸出為896。

Dense層是全連接層,其輸出是1個(gè)一維向量,向量的長(zhǎng)度取決于全連接層的輸出。對(duì)于孿生神經(jīng)網(wǎng)絡(luò)模型,Dense層的輸出代表了孿生神經(jīng)網(wǎng)絡(luò)輸出的向量空間維度。通過(guò)對(duì)比實(shí)驗(yàn)證明,選擇128維的特征向量輸出有利于提高模型的準(zhǔn)確度,在一定程度上避免了過(guò)擬合的情況。

2.2 注意力機(jī)制

注意力機(jī)制的本質(zhì)是定位到感興趣的信息,抑制無(wú)用信息,給予不同位置的像素以不同的權(quán)重值,其核心思想是在訓(xùn)練過(guò)程中更多地關(guān)注于需要被關(guān)注的區(qū)域,使得模型性能受到值得重視的部分更多影響。對(duì)于應(yīng)用于單張圖像的注意力機(jī)制通常分為通道域注意力機(jī)制(Channel Domain)、空間域注意力機(jī)制(Spatial Domain)以及混合注意力模型(Mixed Domain)3種類型。通道域注意力機(jī)制是指為不同的通道設(shè)置權(quán)重值,并納入到模型的學(xué)習(xí)中,使得最后的結(jié)果受到權(quán)重大的通道更多影響,從而改善模型效果??臻g注意力機(jī)制指為特征圖不同位置設(shè)置權(quán)重值,并納入到模型的學(xué)習(xí)中,使得最后的結(jié)果受到權(quán)重大的特征圖區(qū)域更多影響,從而提高模型性能。文章采用基于CBAM作為網(wǎng)絡(luò)模型的注意力機(jī)制模型,其結(jié)構(gòu)如圖4所示,是通過(guò)串聯(lián)通道域注意力機(jī)制(Channel Attention)和空間域注意力機(jī)制(Spatial Attention)來(lái)組成混合注意力機(jī)制[17]。相比于網(wǎng)絡(luò)結(jié)構(gòu)SENet(Squeeze and Excitation Network)只關(guān)注通道域的注意力機(jī)制,CBAM混合域注意力模型可以取得更好的效果。

圖4 CBAM注意力模塊圖

CBAM中通道域注意力模塊如圖5所示,原特征圖通過(guò)全局最大池化和全局平均池化;再分別通過(guò)一個(gè)共享權(quán)值的多層感知器,將輸出特征圖全局同位相加;采用Sigmoid函數(shù)激活,將權(quán)重限制在0~1之間;將權(quán)重矩陣和原始輸入特征圖通道相乘,使得不同通道的特征圖在整體模型的訓(xùn)練中起到不同的作用。

圖5 通道域注意力模塊結(jié)構(gòu)圖

通道域注意力機(jī)制的數(shù)學(xué)表達(dá)式由式(8)表示為

式中x為輸入的特征圖;A為對(duì)特征圖的全局平均池化;M為對(duì)特征圖的全局最大值池化;Fs為一個(gè)共享權(quán)值的多層感知器;δ為將輸入限制于0至1之間的非線性激活函數(shù)Sigmoid;Mc(x)為經(jīng)過(guò)通道域注意力機(jī)制后的特征圖。

多層感知機(jī)(Multilayer Perceptron,MLP)設(shè)置為三層全連接層,第一層和第二層輸出分別為1 204和512;第三層全連接層輸出設(shè)置為模塊原輸入的通道數(shù)1 792,能夠保證輸出的權(quán)重矩陣維度和原特征圖的通道數(shù)一致,使得最終得到的Channel Attention能夠給予原不同通道的特征圖以不同的權(quán)重,從而加強(qiáng)模型的表達(dá)效果,提高準(zhǔn)確率。

CBAM中空間域注意力模塊如圖6所示,是原始特征圖沿通道方向?qū)? 792個(gè)數(shù)據(jù)進(jìn)行全局最大池化和全局平均池化得到2張(3,3,1)的特征矩陣;矩陣沿通道域連接組合,形成一個(gè)(3,3,2)的特征圖;經(jīng)過(guò)一層的3×3卷積核的神經(jīng)網(wǎng)絡(luò),將通道域維度降至1維;通過(guò)Sigmoid激活函數(shù)將變換后的權(quán)重系數(shù)矩陣權(quán)重限制在0~1之間后,將得到的權(quán)重系數(shù)矩陣(Spatial Attention)與原始輸入特征圖(Feature Map)點(diǎn)乘,賦予原本神經(jīng)網(wǎng)絡(luò)輸出的特征圖的每一區(qū)域不同權(quán)重。

圖6 空間域注意力模塊結(jié)構(gòu)圖

空間域注意力機(jī)制的數(shù)學(xué)表達(dá)式由式(9)表示為

式中Fdr為降維的神經(jīng)網(wǎng)絡(luò),將通道數(shù)降至1維;設(shè)計(jì)為1個(gè)3×3卷積核、步長(zhǎng)為1、通道數(shù)為1的卷積層;設(shè)置填充方式為same padding,使得降維之后的權(quán)重矩陣保持和輸入特征圖同樣的維度大?。籑s(x)為經(jīng)過(guò)空間域注意力機(jī)制后的特征圖。

利用權(quán)重矩陣和原特征圖逐點(diǎn)相乘,同一張?zhí)卣鲌D的不同區(qū)域得到了不同的權(quán)重值,從而增強(qiáng)模型的準(zhǔn)確率。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)處理及實(shí)驗(yàn)條件

利用CASIA-WebFace人臉公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其是由中國(guó)科學(xué)研究院自動(dòng)化研究所李子青團(tuán)隊(duì)在2014年收集整理完成,包含10 575個(gè)人的494 414張人臉圖像。從數(shù)據(jù)集中隨機(jī)選擇100個(gè)對(duì)象進(jìn)行實(shí)驗(yàn),選擇人臉對(duì)象的前10張圖像作為實(shí)驗(yàn)數(shù)據(jù)。通過(guò)隨機(jī)組合的方式選擇10 000組數(shù)據(jù)樣本,其中正負(fù)樣本數(shù)量之比為1∶1,并且按照8∶2的數(shù)據(jù)比分割測(cè)試集和驗(yàn)證集。

實(shí)驗(yàn)的硬件配置為:中央處理器i5-8400、圖形處理器英偉達(dá)1070、16G運(yùn)行內(nèi)存。實(shí)驗(yàn)平臺(tái)是基于Tensorflow后端的keras框架。批大小設(shè)置為64,損失函數(shù)為對(duì)比損失函數(shù),優(yōu)化器為適應(yīng)性矩估計(jì)(Adaptive moment estimation,Adm),步長(zhǎng)為0.000 2,迭代次數(shù)設(shè)置為100。

3.2 預(yù)訓(xùn)練模型

采用Inception-Resnet-v1作為預(yù)訓(xùn)練模型,通過(guò)交叉熵?fù)p失函數(shù)和中心損失函數(shù)的聯(lián)合損失函數(shù)在CASIA-WebFace上進(jìn)行訓(xùn)練,選擇模型的卷積層作為特征提取部分,連接全連接層并添加Dropout層和Relu激活函數(shù)后將輸出映射至特定維度的向量空間。每次2張圖像通過(guò)孿生神經(jīng)網(wǎng)絡(luò)模型運(yùn)算,得到2個(gè)相同維度的特征向量,通過(guò)比較其在向量空間中的歐氏距離來(lái)判定2張人臉的相似度。為了選定維度大小,設(shè)定了最后一個(gè)Dense層的輸出維度進(jìn)行實(shí)驗(yàn)比較分析。維度選擇的實(shí)驗(yàn)結(jié)果見表2。

表2 不同特征向量維度實(shí)驗(yàn)結(jié)果表

由表2可知,選擇128維的特征空間輸出的特征向量訓(xùn)練集的準(zhǔn)確率達(dá)到了98.78%,準(zhǔn)確率差距最小為2.34%,可以得出實(shí)驗(yàn)過(guò)程中沒有出現(xiàn)過(guò)擬合現(xiàn)象,因此確定以128維特征向量輸出的Dense層作為輸出。

3.3 實(shí)驗(yàn)結(jié)果

為了對(duì)比在孿生神經(jīng)網(wǎng)絡(luò)中添加注意力機(jī)制的有效性,實(shí)驗(yàn)將添加通道域注意力機(jī)制SENet的模型命名為SE_Siamese,添加空間域注意力機(jī)制(Global Context Network,GCNet)的模型命名為GC_Siamese,添加混合域注意力機(jī)制CBAM的模型命名為CBAM_Siamese,不添加注意力機(jī)制的模型命名為Siamese。實(shí)驗(yàn)結(jié)果見表3。實(shí)驗(yàn)驗(yàn)證集準(zhǔn)確率如圖7所示。

表3 注意力機(jī)制實(shí)驗(yàn)結(jié)果表

由圖7可知,通過(guò)增加注意力機(jī)制模塊的3種模型的驗(yàn)證集準(zhǔn)確率都超過(guò)了不添加注意力模塊的表現(xiàn)。比起通道的激勵(lì)擠壓注意力機(jī)制SENet,集合了SENet和NLNet(Non-local)的GCNet以及混合了空間域和通道的CBAM表現(xiàn)得更加優(yōu)秀?;谀P偷臏?zhǔn)確率以及訓(xùn)練參數(shù)的綜合選擇,確定了以CBAM注意力模塊嵌入神經(jīng)網(wǎng)絡(luò)模型中。

圖7 實(shí)驗(yàn)驗(yàn)證集準(zhǔn)確率圖

3.4 算法比較結(jié)果

為了進(jìn)一步比較實(shí)驗(yàn)算法的準(zhǔn)確率,在訓(xùn)練上述網(wǎng)絡(luò)模型的數(shù)據(jù)集中將文章所設(shè)計(jì)CBAM_Siamese模型與PCA+SVM[3]、Facenet+SVM[6]、DeepFace[7]和ResNet-50[13]進(jìn)行比較。實(shí)驗(yàn)結(jié)果見表4。

表4 不同方法人臉識(shí)別準(zhǔn)確率對(duì)比表

由表4可知,由于PCA的特征選取沒有進(jìn)行訓(xùn)練,所以識(shí)別率較低?;诩有越嵌乳g隔損失函數(shù)的ResNet-50模型在準(zhǔn)確率上沒有達(dá)到本實(shí)驗(yàn)方法的準(zhǔn)確率,而利用DeepFace算法的深度學(xué)習(xí)模型識(shí)別率也有待提高。利用Facenet模型提取了128維人臉特征后,通過(guò)特征進(jìn)行SVM分類的方法也沒有達(dá)到CBAM_Siamese模型的準(zhǔn)確率。通過(guò)對(duì)這5種檢測(cè)算法的對(duì)比實(shí)驗(yàn)可知,文章提出的算法對(duì)于小樣本的人臉進(jìn)行識(shí)別具有一定的優(yōu)勢(shì)性,其準(zhǔn)確率達(dá)到了98.12%。

4 結(jié)論

通過(guò)上述研究,得到如下結(jié)論:

(1)在使用更少的訓(xùn)練數(shù)據(jù)情況下,文章選擇了混合域注意力機(jī)制的CBAM模塊作為注意力機(jī)制嵌入至孿生神經(jīng)網(wǎng)絡(luò)中,與其他單純使用通道域和空間域注意力機(jī)制模塊相比,其能夠充分考慮給予不同通道的特征圖以不同的權(quán)重,使得模型比傳統(tǒng)的孿生神經(jīng)網(wǎng)絡(luò)具有更高的準(zhǔn)確率;以訓(xùn)練集和驗(yàn)證集準(zhǔn)確率綜合考慮,輸出128維的孿生神經(jīng)網(wǎng)絡(luò)模型人臉識(shí)別準(zhǔn)確率達(dá)到96.44%,而且過(guò)擬合現(xiàn)象小。

(2)以實(shí)驗(yàn)準(zhǔn)確率為性能指標(biāo),通過(guò)與其他4種人臉識(shí)別模型對(duì)比,文章所提出的算法對(duì)于小樣本集的人臉識(shí)別達(dá)到了98.12%的準(zhǔn)確率。

猜你喜歡
特征向量人臉注意力
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
讓注意力“飛”回來(lái)
克羅內(nèi)克積的特征向量
有特點(diǎn)的人臉
三國(guó)漫——人臉解鎖
一類特殊矩陣特征向量的求法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
A Beautiful Way Of Looking At Things
馬面部與人臉相似度驚人
沅江市| 雅安市| 阿瓦提县| 会昌县| 苏尼特右旗| 南充市| 建始县| 秀山| 靖边县| 上思县| 读书| 陈巴尔虎旗| 手机| 南通市| 温泉县| 兴业县| 贡山| 盐池县| 临安市| 石门县| 乐安县| 泰顺县| 天长市| 成都市| 余庆县| 香格里拉县| 沿河| 陆河县| 鄢陵县| 祁门县| 恭城| 朝阳区| 揭西县| 临洮县| 托克托县| 康保县| 安岳县| 当涂县| 榕江县| 西贡区| 南投县|