徐 武,陳盈君,湯弘毅,楊昊東,秦浩然
(1.云南民族大學(xué) 電氣信息工程學(xué)院,云南 昆明 650000;2.中國石油運輸公司,新疆 烏魯木齊 830014)
人工智能技術(shù)的發(fā)展引領(lǐng)著生物特征識別技術(shù)的不斷創(chuàng)新。目前,影響生物特征識別技術(shù)發(fā)展的主要因素是人臉、指紋等特征的提取精度及穩(wěn)定性[1]。人臉識別也就是對眼睛、鼻子、嘴、下巴等主要部位進行特征提取,并根據(jù)局部特征及其結(jié)構(gòu)關(guān)系進行識別的過程。
文獻[2]提出一種基于目標檢測的人臉識別算法YOLOv1(you only look once v1),用于獲取具有高區(qū)分度的人臉識別特征,可以極大地提高檢測精度,但在提取多角度人臉特征時,會丟失很多高頻細節(jié)信息。文獻[3]根據(jù)時間卷積與空間卷積提出一種時空協(xié)同卷積模型(spatio temporal cooperative convolution,STC-Conv)來降低模型復(fù)雜度、提高計算效率,但是不能精確識別分割邊緣。
DeepLab v1將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(convolutional networks,CNN)和概率圖模型(probabilistic graphical model,PGM)相結(jié)合,提高了網(wǎng)絡(luò)性能且優(yōu)化了分割結(jié)果。DeepLab v2在此基礎(chǔ)上增加了多視野區(qū)域,并引入空間金字塔(atrous spatial pyramid pooling,ASPP)結(jié)構(gòu),融合不同級別的語義信息。傳統(tǒng)DeepLab v2網(wǎng)絡(luò)處理人臉圖像的流程如圖1所示[5]。
圖1 DeepLab v2網(wǎng)絡(luò)處理人臉圖像的流程圖
DeepLab v2網(wǎng)絡(luò)主要分為3個部分:
第1部分是卷積結(jié)構(gòu),卷積層輸入的圖像與卷積核(卷積核大小為3×3,卷積核通道數(shù)為3)共同卷積計算,設(shè)置卷積層的步長stride值減小圖像的尺寸,經(jīng)過多層卷積得到圖像的深層特征和淺層特征,公式如下:
jout=(jin*stride)+fsize,
(1)
其中:jin為輸入特征;jout為輸出特征;stride為上一層的步長;fsize為filter的尺寸。
第2部分是金字塔池化結(jié)構(gòu),將導(dǎo)出的特征圖轉(zhuǎn)化為4個相同尺寸的特征模塊,特征信息輸入金字塔池化結(jié)構(gòu),減少圖像的參數(shù),降低特征信息的維度,減少過擬合問題,公式如下:
(1)氯霉素半琥珀酸酯制備。將CAP、HS、丙酮、吡啶按適當比例混合、攪拌溶解,58~60℃回流2 h,濃縮、蒸去丙酮,加乙酸乙酯和稀鹽酸振蕩去酸層,用10%NaHCO 3轉(zhuǎn)溶,加濃鹽酸調(diào)pH值到3,析出糖漿狀物,再用酸乙酯萃取,取有機相旋轉(zhuǎn)蒸發(fā)器濃縮,得氯霉素半琥珀酸酯(CAP-HS),備用。
(2)
hout=2*ph+hin,
(3)
其中:floor(·)為向下取整運算;hin、hout分別為輸入、輸出的特征高度;kh為核的高度;ph為填充數(shù)量;n為池化數(shù)量。
第3部分是softmax分類器,這里計算輸出特征的損失函數(shù),將目標與現(xiàn)實輸出之間的偏差通過概率的形式映射在[0,1],可保留特征精度較高的特征信息,softmax損失函數(shù)公式如下:
(4)
其中:Li為softmax交叉熵損失函數(shù),表示輸入特征分到每個標簽的概率分布;fyi為目標特征分布;fi為真實特征分布。
在使用DeepLab v2網(wǎng)絡(luò)提取人臉圖像時,存在以下2個主要問題:
(Ⅰ)不同角度、不同表情會降低局部特征的提取精度,影響面部器官的識別和分割的精度,無法保留完整的人臉特征;
(Ⅱ)在采集人臉圖像時,無法保證光照的強度、角度等因素一致,這導(dǎo)致了面部圖像的原始數(shù)據(jù)空間混入無關(guān)噪聲,原始噪聲逐步傳遞給輸出特征圖像,使得提取的面部器官特征圖像質(zhì)量下降,影響目標識別和提取的精度[6]。
針對第1個問題,在DeepLab v2網(wǎng)絡(luò)的卷積層后加入SE模塊,起到保留圖像細節(jié)、提升細節(jié)特征分辨率的作用。使用SE模塊重新標定每個特征通道的權(quán)重,增強提取圖像中的目標區(qū)域特征,抑制提取無關(guān)的特征信息,有利于細化目標區(qū)域的紋理信息,提升細節(jié)特征精度[7]。
SE模塊的主要部分是壓縮(squeeze)和激勵(excitation)。將人臉圖像輸入卷積層,輸出具有多個通道的特征,加入SE模塊可以重新標定每個特征通道的權(quán)重。SE模塊分為3個步驟,分別是壓縮、激勵和重定權(quán)重(reweight),SE模塊原理圖如圖2所示。壓縮操作使用全局平均池化(global average pooling, GAP)將每個特征通道都壓縮成1個實數(shù),將感受也擴展到全局范圍[8]。實數(shù)求取公式為:
圖2 SE模塊原理圖
(5)
其中:jout為卷積層輸出的特征;C為全部特征的通道數(shù);W、H為不同特征的維度。激勵操作捕獲壓縮后的實數(shù)列信息,使用2個全連接(fully connected,FC)層增加模塊的非線性。先經(jīng)過第1個全連接層降維,再通過ReLU激活,然后經(jīng)過第2個全連接層升維,最后經(jīng)過sigmoid激活函數(shù),公式如下:
s=σ[W2δ(W1z)],
(6)
其中:δ為非線性激活函數(shù)ReLU;W1和W2分別為第1FC層和第2FC層的參數(shù);σ為sigmoid函數(shù)。最后重定權(quán)重,用原特征逐通道乘以激勵操作獲得的通道系數(shù),得到重新標定的特征作為池化層的輸入量:
hin=sk·jout,k=1,2,…,C。
(7)
基于非均勻光照的人臉圖像,由于光照變化產(chǎn)生降低提取效果的無關(guān)噪聲,在對目標人臉區(qū)域定位時,會把一些少量的無關(guān)噪聲保留下來,對特征提取的結(jié)果有很大影響,魯棒性差[9]。針對這個問題,采用局部二值模式(local binary patterns,LBP)對面部特征進行補充特征提取,通過計算目標像素與相鄰區(qū)間的灰度值,提取出面部器官的輪廓紋理,對面部器官進行局部定位[10]。在光照變化的場景中,目標區(qū)域像素的灰度會同步增大或者減小,因此使用LBP對非均勻光照的人臉圖像識別將極大降低光照的干擾。但LBP在處理人臉圖像時會存在失真的現(xiàn)象,本文將輪廓紋理映射在DeepLab v2網(wǎng)絡(luò)中,細化特征輸出的邊緣紋理,得到去噪的面部特征。
在處理人臉圖像時,由于無法確定原始中心像素點與相鄰區(qū)域的灰度值,LBP碼值呈無序排列[11],本文通過利用多維標度(multi-dimensional scaling,MDS)法將無序的LBP碼值轉(zhuǎn)換為度量空間中的點,將原數(shù)據(jù)與導(dǎo)出數(shù)據(jù)的距離(或相似性)擬合到一個低維空間,在低維空間對目標區(qū)域進行定位分析,對于不同研究對象xi,xj,距離公式[12]為:
δi,j≈‖xi-xj‖=(xi-xj)T(xi-xj)=xiTxi-2xiTxj+xjTxj。
(8)
要保證δi,j的值盡可能小,這使得原空間2個數(shù)據(jù)的距離(或相似性)與低維空間基本一致,導(dǎo)致數(shù)據(jù)因降維所引起的任何形變最小。通過對變換后的點進行卷積運算求得平均值,導(dǎo)出數(shù)據(jù)間的距離近似于原數(shù)據(jù)間的距離,進而映射出原始圖像的局部特征結(jié)構(gòu)及空間位置[13]。由于直接將LBP加入特征提取網(wǎng)絡(luò)中會產(chǎn)生嚴重的失真現(xiàn)象,本文通過LBP模塊使數(shù)據(jù)在低維空間擬合,以達到對原始圖像進行特征映射的目的[14],LBP映射效果如圖3所示。
(a) LBP輸出特征 (b) 原圖像的特征映射
將LBP映射特征圖像送入DeepLab v2網(wǎng)絡(luò)中,但LBP特征映射時經(jīng)過LBP編碼,形成的非均勻模式的LBP會丟失一些有用的信息[15]。為了得到更充分的特征信息,對映射特征進行批量歸一化處理(batch normalization, BN),以解決在訓(xùn)練過程中,中間層數(shù)據(jù)分布發(fā)生改變的問題,最后將LBP特征映射與DeepLab v2輸出特征進行了特征融合。
為了得到識別精度高、魯棒性強的人臉識別圖像,本文提出了基于DeepLab v2和LBP融合網(wǎng)絡(luò)的人臉識別優(yōu)化算法,如圖4所示。該算法由3部分組成:DeepLab v2特征提取模塊;LBP特征映射模塊;softmax分類模塊。首先,DeepLab v2特征提取模塊對人臉的面部信息進行特征提取,加入SE模塊提升識別的精確度;然后,LBP特征映射模塊對圖像進行補充特征提取,極大地消除光照噪聲對識別精度的影響;最后,softmax分類模塊對融合特征識別并分類處理。
圖4 融合網(wǎng)絡(luò)
本節(jié)針對多角度的問題對人臉進行實驗,由于光照噪聲極大降低了人臉識別的識別精度,為了降低光照的影響,這里選取了封閉環(huán)境下采集到的正臉和30°側(cè)臉圖像作為原始圖像。YOLOv1可以高精度地提取圖像中的特征信息,常用在處理多角度的人臉圖像,現(xiàn)階段多用于人臉識別的對比實驗。本文針對YOLOv1、DeepLab v2和融合網(wǎng)絡(luò)進行識別效果進行對比。
正臉的不同識別算法實驗結(jié)果和30°側(cè)臉的不同識別算法實驗結(jié)果如圖5、圖6所示。對比圖5中不同識別算法的識別結(jié)果,圖5a為正臉原始圖像,圖5b和圖5c中均有大量的識別重疊區(qū)域,因此識別結(jié)果中包含較多的無關(guān)特征;圖5d沒有識別重疊區(qū)域,且識別結(jié)果更加準確。對比圖6中不同識別算法的識別結(jié)果,圖6a為30°側(cè)臉原始圖像;圖6b存在識別重疊區(qū)域;圖6c雖沒有識別重疊區(qū)域,但包含較多的無關(guān)特征;圖6d識別效果最好。因此,YOLOv1網(wǎng)絡(luò)識別的特征包含過多的無關(guān)信息,存在交叉信息的現(xiàn)象,對局部特征的識別能力較差;DeepLab v2網(wǎng)絡(luò)可以識別出目標信息,但對非正臉圖像識別精度略差;融合網(wǎng)絡(luò)相對傳統(tǒng)DeepLab v2可精確地識別出多角度的人臉局部特征。
(a) 原始圖像
(a) 原始圖像
本實驗采用的評價指標為識別精確度(accuracy,ACC),公式如下。
(9)
其中:TP為正確分類的正樣本數(shù);TN為正確分類的負樣本數(shù);FN為錯識分類的負樣本數(shù);FP為錯識分類的正樣本數(shù);TP+FN+FP+TN為樣本總數(shù)?;赮OLOv1、DeepLab v2、DeepLab v2+SE和融合網(wǎng)絡(luò)進行識別精確度的對比,如表1所示。
表1 不同網(wǎng)絡(luò)的識別精確度 %
在對人臉圖像進行識別時,由于ACC可以反映識別算法精度,算法精度隨著ACC的增大而增大。由表1可知:DeepLab v2+SE網(wǎng)絡(luò)和融合網(wǎng)絡(luò)的平均識別精度分別為93.7%和94.7%,比DeepLab v2網(wǎng)絡(luò)分別提高了6.3%和7.3%,比YOLOv1網(wǎng)絡(luò)分別提高了7.5%和8.5%,且融合網(wǎng)絡(luò)在識別30°人臉、60°人臉的平均識別精確度高于其他網(wǎng)絡(luò)。由實驗結(jié)果可以得到,在DeepLab v2網(wǎng)絡(luò)中加入SE模塊,識別精確度遠遠高于其他網(wǎng)絡(luò),針對多角度人臉圖像也有較高的識別精確度,驗證了融合網(wǎng)絡(luò)具有高識別率的特性。
本節(jié)針對光照強度的問題對人臉進行實驗。本實驗采用的評價指標為平均交并比(mean Intersection over union,mIoU),IoU是真實值與預(yù)測值的交集與并集之比,mIoU是交集與并集之比的平均值,其結(jié)果可以反映為算法處理的效果,計算公式如下:
(10)
其中:k為類別個數(shù);pij表示被預(yù)測為j類中,類別為i的像素的個數(shù);pii表示類別為i的同時被預(yù)測為i類的像素之和。
在光照強度為強光、正常光、弱光的密閉條件下分別對人臉進行采樣,為了防止其他無關(guān)干擾因素對實驗結(jié)果產(chǎn)生影響,均選用正臉圖像進行實驗,結(jié)果如表2所示。
表2 基于可見光的網(wǎng)絡(luò)性能比較 %
由表2可知:在正常光的條件下,融合網(wǎng)絡(luò)的mIoU值為95.3%,比DeepLab v2網(wǎng)絡(luò)和YOLOv1網(wǎng)絡(luò)分別提高了3.1%和5.9%。由于正面人臉特征較完全,融合網(wǎng)絡(luò)對人臉圖像有較高的識別能力。在強光條件下,融合網(wǎng)絡(luò)的mIoU值為78.7%,分別比DeepLab v2網(wǎng)絡(luò)和YOLOv1網(wǎng)絡(luò)提高了9.5%和13.6%,改進效果較好。但由于強光的影響,對人臉圖像識別依然較差,抗強光照干擾能力較弱。本文在DeepLab v2網(wǎng)絡(luò)的基礎(chǔ)上進行改進,識別效果遠遠高于其他算法,驗證了融合網(wǎng)絡(luò)提高了識別的精確度與魯棒性。
為了驗證算法在基于可見光的多角度人臉圖像中的識別效果,本文采用GENKI-4K人臉圖像數(shù)據(jù)集,包含4 000張圖像。數(shù)據(jù)集采集于1 820個人臉圖像,圖像中的環(huán)境、光照、面部位置、面部細節(jié)(種族、眼鏡、表情、發(fā)型遮擋等)存在差異。數(shù)據(jù)集標簽的種類和屬性如表3所示。
表3 數(shù)據(jù)集標簽的種類和屬性
本文通過求解各網(wǎng)絡(luò)的ACC驗證網(wǎng)絡(luò)的識別精度,抽取數(shù)據(jù)集中1 328張圖像訓(xùn)練網(wǎng)絡(luò)模型,362張圖像測試識別結(jié)果,設(shè)置網(wǎng)絡(luò)的初始學(xué)習率Ir=0.01,實驗迭代次數(shù)為2 000次訓(xùn)練融合網(wǎng)絡(luò),觀察識別測試圖像中面部器官的情況,評判模型的指標為ACC。將YOLOv1網(wǎng)絡(luò)、DeepLab v2網(wǎng)絡(luò)、融合網(wǎng)絡(luò)的識別結(jié)果進行對比分析,如圖7所示。
圖7 3種網(wǎng)絡(luò)的識別結(jié)果
圖7是融合網(wǎng)絡(luò)、DeepLab v2網(wǎng)絡(luò)、YOLOv1網(wǎng)絡(luò)隨迭代次數(shù)的增加,提取圖像的精確度的變化曲線。由圖7可以得出:當?shù)螖?shù)足夠多時,融合網(wǎng)絡(luò)的精確度最高,YOLOv1網(wǎng)絡(luò)的精確度最低,且融合網(wǎng)絡(luò)在迭代次數(shù)為100次時,精確度已經(jīng)趨于最大值,迭代速度更快,傳統(tǒng)的DeepLab v2網(wǎng)絡(luò)和YOLOv1網(wǎng)絡(luò)均是在迭代次數(shù)約200次時達到最大ACC。綜上所述,融合網(wǎng)絡(luò)的識別精確度和迭代速度均優(yōu)于傳統(tǒng)的DeepLab v2網(wǎng)絡(luò)和YOLOv1網(wǎng)絡(luò),這表明了融合網(wǎng)絡(luò)在人臉識別的可行性和適用性。
針對多角度的人臉圖像以及存在光照噪聲對人臉識別結(jié)果產(chǎn)生影響的問題,在傳統(tǒng)人臉識別的基礎(chǔ)上進行改進,在DeepLab v2網(wǎng)絡(luò)的基礎(chǔ)上加入SE模塊,使用LBP模塊對圖像進行補充特征提取,softmax分類模塊對融合特征識別并分類處理,極大消除光照噪聲的影響,使在光照變化的環(huán)境下具有一定的抗干擾能力。將本文融合網(wǎng)絡(luò)應(yīng)用在人臉圖像數(shù)據(jù)集中,與經(jīng)典人臉識別網(wǎng)絡(luò)YOLOv1、DeepLab v2作對比,展現(xiàn)了改進的融合網(wǎng)絡(luò)在減小噪聲干擾方面有更好的效果。未來工作將考慮減小其他噪聲的干擾。