基于深度學(xué)習(xí)與特征融合的人臉識(shí)別算法

2020-04-20 03:38:10李菲菲

電子科技 2020年4期

司琴，李菲菲，陳虬

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院，上海 200093)

人臉識(shí)別是通過(guò)人的臉部特征信息進(jìn)行身份識(shí)別的一種生物識(shí)別技術(shù)，具有防偽性能好、非侵犯性等優(yōu)點(diǎn)。近年來(lái)，人臉識(shí)別成為模式識(shí)別、圖像處理、機(jī)器視覺(jué)及神經(jīng)網(wǎng)絡(luò)等學(xué)科的研究熱點(diǎn)，其在國(guó)防安全、身份認(rèn)證、視頻監(jiān)控、互聯(lián)網(wǎng)交互等領(lǐng)域有重要的研究?jī)r(jià)值。傳統(tǒng)的人臉識(shí)別流程包括人臉檢測(cè)、人臉對(duì)齊、人臉特征提取和人臉?lè)诸?個(gè)階段。其中人臉特征提取是人臉識(shí)別的關(guān)鍵，特征提取的好壞直接影響分類的準(zhǔn)確率。傳統(tǒng)的特征提取方法中，局部二值模式(Local Binary Pattern，LBP)是一種用來(lái)描述圖像局部紋理特征的算子，由于其具有計(jì)算簡(jiǎn)單、特征分類能力強(qiáng)等特點(diǎn)，被廣泛的運(yùn)用到人臉識(shí)別研究當(dāng)中[1-3]。然而在非限制環(huán)境下，由于人臉圖像的復(fù)雜性，用傳統(tǒng)的特征提取方法達(dá)不到理想的效果，且特征的表達(dá)方式過(guò)度依賴于人工選擇。

近年來(lái)，深度學(xué)習(xí)受到了越來(lái)越多研究者的關(guān)注，它在特征提取上相比于淺層模型有明顯的優(yōu)勢(shì)。深度學(xué)習(xí)是包含多級(jí)非線性變換的層級(jí)機(jī)器學(xué)習(xí)方法，其通過(guò)組合低層特征形成更抽象、更有效的高層表示，且這些表示具有良好的泛化能力[4]。其中，卷積神經(jīng)網(wǎng)絡(luò)是一種經(jīng)典且廣泛應(yīng)用的深度學(xué)習(xí)方法，其神經(jīng)元間的連接模式受啟發(fā)于動(dòng)物視覺(jué)皮層組織。卷積神經(jīng)網(wǎng)絡(luò)的局部感知、權(quán)值共享及池化操作等特性使其更接近于生物神經(jīng)網(wǎng)絡(luò)，可以有效降低網(wǎng)絡(luò)的復(fù)雜度，減少模型學(xué)習(xí)參數(shù)；同時(shí)使模型對(duì)位移、縮放、旋轉(zhuǎn)或其他形式的形變具有一定程度的不變性，并具有強(qiáng)魯棒性和容錯(cuò)能力[5-6]。在人臉識(shí)別任務(wù)中，與傳統(tǒng)方法提取的特征相比，卷積神經(jīng)網(wǎng)絡(luò)通過(guò)卷積、激活函數(shù)、池化等一系列運(yùn)算自動(dòng)學(xué)習(xí)到的強(qiáng)大表示能力的特征更具優(yōu)越性，且在LFW數(shù)據(jù)集上的認(rèn)證識(shí)別率已經(jīng)超過(guò)人眼的識(shí)別率[7-8]。但是使用卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征忽視了圖像的局部結(jié)構(gòu)特征，且網(wǎng)絡(luò)會(huì)因?yàn)楣庹盏纫蛩貙W(xué)習(xí)到不利的特征表示。傳統(tǒng)特征提取方法LBP是一種用來(lái)描述圖像局部紋理特征的算子，其具有光照不敏感、平移不變和旋轉(zhuǎn)不變性等特點(diǎn)。將傳統(tǒng)特征提取方法LBP與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合，二者之間的互補(bǔ)性可以提高提取特征的判別性。

VGG[9]作為一個(gè)經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)，其結(jié)構(gòu)中多個(gè)小濾波器的卷積層的組合，可以在使用更少的參數(shù)的同時(shí)增強(qiáng)特征的表達(dá)。本文對(duì)VGG網(wǎng)絡(luò)進(jìn)行深淺特征相融合稱之為SDFVGG網(wǎng)絡(luò)，提出了一種基于LBP與SDFVGG網(wǎng)絡(luò)的新方法。該方法將LBP人臉特征圖與原圖相結(jié)合作為SDFVGG網(wǎng)絡(luò)的輸入，使SDFVGG網(wǎng)絡(luò)不僅可以自動(dòng)學(xué)習(xí)原始人臉圖像的信息，還可以學(xué)習(xí)LBP紋理信息。

1 基本原理1.1 LBP算法

LBP指局部二值模式，是一種用來(lái)描述圖像局部紋理特征的算子。其基本原理為：原始的LBP算子定義在一個(gè)像素3×3領(lǐng)域內(nèi)，以鄰域中心像素為閾值，將相鄰的8個(gè)像素灰度值與閾值進(jìn)行比較。如果相鄰像素值大于閾值，則該像素點(diǎn)的位置被標(biāo)記為1；反之，則為0。因此，3×3鄰域內(nèi)的8個(gè)點(diǎn)經(jīng)過(guò)比較產(chǎn)生8位二進(jìn)制數(shù)。隨后將8位二進(jìn)制數(shù)依次排列形成一串二進(jìn)制碼，然后轉(zhuǎn)化為十進(jìn)制數(shù)，該十進(jìn)制數(shù)就是中心像素的LBP模式。

LBP算子由下面計(jì)算式得到

(1)

其中，(xC,yc)為中心像素的坐標(biāo)；ic為中心像素的灰度值；ip(p=0,1,…,7)表示中心鄰域上的8個(gè)像素值；s(x)為符號(hào)函數(shù)定義為

(2)

經(jīng)過(guò)LBP算子得到LBP模式如圖1所示。

則可得到中心像素的LBP模式為(00010011)2=19。由于局部二值模式是人臉的局部信息特征且具有光照不敏感、灰度平移不變和旋轉(zhuǎn)不變性等特點(diǎn)，因此將原始圖像與LBP圖像結(jié)合作為卷積神經(jīng)網(wǎng)絡(luò)的輸入使卷積神經(jīng)網(wǎng)絡(luò)提取的人臉特征更豐富、更具表征能力。

1.2 VGG

VGG是牛津大學(xué)計(jì)算機(jī)視覺(jué)組(Visual Geometry Group)和Google DeepMind公司的研究員一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡(luò)。VGG在AlexNet基礎(chǔ)上將單層網(wǎng)絡(luò)替換為堆疊的3×3的卷積層和2×2的最大池化層，減少了卷積層參數(shù)并加深網(wǎng)絡(luò)結(jié)構(gòu)提高了性能，成功地構(gòu)建了16～19層深的卷積神經(jīng)網(wǎng)絡(luò)。與之前state-of-the-art 的網(wǎng)絡(luò)結(jié)構(gòu)相比，VGG錯(cuò)誤率大幅下降，并取得了 ILSVRC[10]2014 比賽分類項(xiàng)目的第2名和定位項(xiàng)目的第1名。此外，VGG的拓展性很強(qiáng)，遷移到其他圖像數(shù)據(jù)上的泛化性非常好。

VGG16整個(gè)網(wǎng)絡(luò)的卷積核尺寸均為3×3，卷積步長(zhǎng)為1，采用的最大池化尺寸均為2×2，步長(zhǎng)為2。網(wǎng)絡(luò)擁有5段卷積，前兩段各有2個(gè)卷積層，后3段各有3個(gè)卷積層，每段內(nèi)的卷積核數(shù)量一樣，依次是64、128、256、512、512；兩個(gè)3×3的卷積層堆疊具有大小為5×5的感受野，3個(gè)3×3的卷積層堆疊的感受野為7×7。使用3個(gè)3×3的卷積層堆疊跟一個(gè)7×7的卷積層相比有如下優(yōu)點(diǎn)：(1)前者擁有比后者更多的非線性變換，即前者可以使用3次ReLU[11]激活函數(shù)，而后者只有一次，這使得卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力更強(qiáng)；(2)3個(gè)串聯(lián)的3×3的卷積層擁有比一個(gè)7×7的卷積層更少的參數(shù)量。同時(shí)每段卷積后會(huì)連接一個(gè)最大池化層用來(lái)縮小圖片尺寸，從而減少最后全連接層中的參數(shù)。VGG16結(jié)構(gòu)如圖2所示。

圖中Conv表示網(wǎng)絡(luò)的卷積層，Maxpool表示最大池化層，F(xiàn)C表示網(wǎng)絡(luò)的全連接層。

本文采用遷移學(xué)習(xí)的方法，用fine-tuning的方式對(duì)在ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練好的VGG16模型進(jìn)行訓(xùn)練。所謂遷移學(xué)習(xí)，就是將一個(gè)問(wèn)題上訓(xùn)練好的模型通過(guò)簡(jiǎn)單的調(diào)整使其適用于一個(gè)新的問(wèn)題。遷移學(xué)習(xí)解決了訓(xùn)練數(shù)據(jù)不足以及訓(xùn)練時(shí)間的問(wèn)題。

2 SDFVGG算法

2.1 特征融合方法

本文提出了一種將VGG網(wǎng)絡(luò)深淺特征相融合的方法。其基本過(guò)程和原理如圖3所示：

(1)通過(guò)不同尺度的并行多層卷積層提取網(wǎng)絡(luò)不同的淺層特征，增強(qiáng)了特征的表達(dá)能力；

(2)將不同的淺層特征與網(wǎng)絡(luò)深層特征通過(guò)Concat層相融合，生成融合特征；

(3)將融合特征通過(guò)該并行多層卷積塊生成不同的融合特征，將這些不同的融合特征與該網(wǎng)絡(luò)更深層的特征相融合，生成最終的融合特征。

2.2 SDFVGG網(wǎng)絡(luò)結(jié)構(gòu)

將VGG網(wǎng)絡(luò)采用圖3所示的特征融合方法得到的SDFVGG網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，圖中虛線框所示為特征提取和融合的并行分支。SDFVGG網(wǎng)絡(luò)通過(guò)連接層逐級(jí)融合特征，Concat-2層的輸出是最終的融合特征。

其中，并行分支中Conv6-1、Conv6-2、Conv6-4與Conv7-1、Conv7-2、Conv7-4卷積核數(shù)量為64；Conv6-3、Conv6-5與Conv7-3、Conv7-5卷積核數(shù)量為128；Max-pool6與VGG網(wǎng)絡(luò)最大池化層參數(shù)一致。并行結(jié)構(gòu)中，1×1卷積層雖增強(qiáng)了激活函數(shù)的非線性特征，卻沒(méi)有擴(kuò)大感受野；不同尺度的卷積層的并行連接增加了網(wǎng)絡(luò)的寬度，提高了網(wǎng)絡(luò)的性能，使網(wǎng)絡(luò)提取的特征更豐富。但當(dāng)擴(kuò)展網(wǎng)絡(luò)使參數(shù)數(shù)量增加時(shí)，易發(fā)生過(guò)擬合。因此在網(wǎng)絡(luò)第一層和第二層全連接層中添加Batch Normalization可以控制過(guò)擬合，加快收斂速度。最后一個(gè)全連接層參數(shù)設(shè)置為分類數(shù)，Soft-max層通過(guò)計(jì)算每個(gè)類的概率，得到相應(yīng)的最大概率類別。

3 輸入特征融合算法

本文將原始圖像信息與局部二值模式信息相結(jié)合作為SDFVGG網(wǎng)絡(luò)的輸入，使SDFVGG網(wǎng)絡(luò)不僅能學(xué)習(xí)全局原始圖像信息又能學(xué)習(xí)圖像的局部特征，從而使得網(wǎng)絡(luò)提取的特征更充分、更具表征能力。具體的輸入特征融合方式如圖5所示。

4 實(shí)驗(yàn)過(guò)程

4.1 數(shù)據(jù)庫(kù)

大規(guī)模的人臉數(shù)據(jù)集CAS-PEAL[12]包含了1 040個(gè)人的99 594張照片，其中男性595人，女性445人，圖像涵蓋了各種姿勢(shì)、表情、配飾、燈光、背景等方面的變化。人臉數(shù)據(jù)集CAS-PEAL-R1是CAS-PEAL的子集，包含了1 040個(gè)人的30 863張圖像。這些圖像分屬正面與側(cè)面兩個(gè)子集。在正面子集中，所有的圖像都是由特定的攝像機(jī)拍攝，被拍者正對(duì)著攝像機(jī)。其中，377人有6種不同表情的圖像；438人有佩戴6種不同配飾的圖像；233人有在至少9次光照變化下獲得的圖像；297人在2～4種不同的背景下拍攝了照片；296人擁有與相機(jī)距離不同的圖像。此外，66人在6個(gè)月的時(shí)間間隔內(nèi)，在兩次試驗(yàn)中記錄圖像。側(cè)面子集包含了1 040人的21種不同姿勢(shì)的圖像。

在實(shí)驗(yàn)中使用了最具代表性的3組人臉集合，分別是表情集(PE)、配飾集(PA)、光照集(PL)。其中PE包含377人的1 884張面部圖像，PA包含438人的2 616張面部圖像，PL包含233人的2 450張面部圖像。將每個(gè)集合圖像按照9:1比例分為訓(xùn)練數(shù)據(jù)集與測(cè)試數(shù)據(jù)集，并將所有人臉圖像根據(jù)眼睛坐標(biāo)進(jìn)行裁剪縮放到大小為230×200像素的圖像。圖6為經(jīng)過(guò)處理后的人臉示例。

4.2 實(shí)驗(yàn)結(jié)果及分析

為了證實(shí)本文提出方法的有效性，在CAS-PEAL-R1人臉數(shù)據(jù)集上進(jìn)行3組人臉識(shí)別實(shí)驗(yàn)：

(1)比較網(wǎng)絡(luò)特征融合對(duì)實(shí)驗(yàn)結(jié)果的影響。將原始圖像分別作為VGG與SDFVGG網(wǎng)絡(luò)的輸入，在3個(gè)子集PE、PA、PL上進(jìn)行實(shí)驗(yàn)，對(duì)比網(wǎng)絡(luò)特征融合對(duì)實(shí)驗(yàn)結(jié)果的影響。如表1所示，對(duì)于PA和PL兩個(gè)子集，得到的SDFVGG網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率均高于VGG網(wǎng)絡(luò)，說(shuō)明將網(wǎng)絡(luò)深淺特征融合可以增強(qiáng)特征的表達(dá)，提高識(shí)別準(zhǔn)確率；

表1網(wǎng)絡(luò)特征融合的影響Table 1.Influence of network feature fusion

(2)比較不同輸入數(shù)據(jù)類型對(duì)實(shí)驗(yàn)結(jié)果的影響。讓SDFVGG網(wǎng)絡(luò)的輸入分別為原始圖像、LBP圖像以及原始圖像與LBP相結(jié)合的圖像，在相同的實(shí)驗(yàn)條件下，得到的3個(gè)子集PE、PA、PL識(shí)別準(zhǔn)確率如表2所示。從中得出，只使用LBP圖像作為網(wǎng)絡(luò)的輸入得到的人臉識(shí)別準(zhǔn)確率比用原始圖像得到的識(shí)別率低，因?yàn)長(zhǎng)BP圖像相比原始圖像有信息損失。但是將原始圖像和LBP圖像相結(jié)合得到的人臉識(shí)別準(zhǔn)確率比單獨(dú)使用LBP圖像得到的識(shí)別率要高且該算法的泛化能力更強(qiáng)。這是因?yàn)長(zhǎng)BP 圖像更好的表達(dá)了圖像的局部特征，將二者結(jié)合既彌補(bǔ)了信息的損失又增加了圖像的局部特征信息，因此識(shí)別率得到提高；

表2不同輸入類型的識(shí)別率比較Table 2.Comparison of recognition rates for different input types

(3)本文提出的方法與其他方法在CAS-PEAL-R1人臉數(shù)據(jù)集上的比較。如表3所示，首先可以看出本文研究方法相對(duì)于已有算法在PE與PA兩個(gè)子集上的精度分別提高了0.58%和3.72%，充分證明了該算法的正確性。與此同時(shí)，本文提出的研究方法在PL子集上的識(shí)別準(zhǔn)確率為98.05%，遠(yuǎn)遠(yuǎn)高于往年的幾種算法，證明了將LBP局部特征信息與原始圖像信息相融合作為SDFVGG網(wǎng)絡(luò)輸入的有效性。

表3與其他方法的比較Table 3.Comparison with other methods

5 結(jié)束語(yǔ)

本文提出一種 LBP與SDFVGG網(wǎng)絡(luò)相結(jié)合的人臉識(shí)別方法，該算法用不同尺度的并行多層卷積層提取VGG 網(wǎng)絡(luò)的深淺特征并相融合，增強(qiáng)網(wǎng)絡(luò)特征表達(dá)。LBP 算子提取的人臉圖像具有光照不敏感、灰度平移不變和旋轉(zhuǎn)不變性等特點(diǎn)，通過(guò)將LBP局部結(jié)構(gòu)信息與原始圖像信息結(jié)合作為網(wǎng)絡(luò)的輸入，可使SDFVGG網(wǎng)絡(luò)提取更具有判別性的人臉特征。在 CAS-PEAL-R1人臉數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明，這種方法有助于提高人臉識(shí)別的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡