熊承義,邵奔,高志榮,柳霜,李雪靜
(1 中南民族大學(xué) 電子信息工程學(xué)院&智能無線通信湖北省重點實驗室,武漢430074;2 中南民族大學(xué) 計算機科學(xué)學(xué)院,武漢 430074)
人臉識別是一種對人臉圖像身份信息進行識別的生物識別技術(shù).近年來,隨著深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的人臉識別算法性能得到了顯著提升,例如ArcFace[1]、MobileFaceNets[2]、SphereFace[3]等.其中最先進的人臉識別算法在開源人臉數(shù)據(jù)集LFW上的識別精度已經(jīng)超過99%[4]. 然而,隨著監(jiān)控系統(tǒng)的普及,攝像頭在實際監(jiān)控環(huán)境中,受拍攝距離、角度、光照等因素的影響,采集到的圖像往往都是低質(zhì)量的人臉圖像. 其中最常見的問題是由于距離影響,使得獲取到的人臉圖像尺寸較小,圖像分辨率較低.研究表明,當(dāng)人臉圖像的分辨率小于32×24像素時,由于低分辨率人臉圖像包含較少的面部信息,在主流的人臉識別模型上識別性能顯著下降[5].因此,低分辨率(low-resolution,LR)人臉識別成為當(dāng)前人臉識別領(lǐng)域關(guān)注的熱點和難點問題.
目前的LR人臉識別方法主要分為兩類:一種是基于公共特征子空間的方法,首先將高、低分辨率圖像特征非線性映射到一個公共特征子空間,然后最小化相同身份圖像特征在子空間中的距離后進行分類識別;第二種是稱為基于圖像超分辨率的方法,首先利用超分辨率技術(shù)對LR圖像進行超分辨率重建,然后對獲得的高分辨率(high-resolution, HR)人臉圖像進行分類識別.基于子空間的方法主要存在對噪聲擾動敏感,提取的面部特征魯棒性較低等問題.基于圖像超分辨率的方法因為可以有效緩解噪聲擾動對人臉圖像識別分類的影響,因此在近年得到了極大關(guān)注.比如,基于傳統(tǒng)方法,HENNINGS等人[6]提出了SSRR(simultaneous super resolution and recognition)方法,將人臉超分辨率與人臉識別結(jié)合,顯著提升了人臉識別性能;基于深度學(xué)習(xí)框架,YANG等人[7]提出了超分辨率與識別聯(lián)合互補的端到端人臉識別深度網(wǎng)絡(luò),進一步增強了無約束低分辨率人臉識別性能.
受上述工作的啟發(fā),本文提出一種感知特征增強學(xué)習(xí)的低分辨率人臉識別網(wǎng)絡(luò)結(jié)構(gòu).具體地,首先訓(xùn)練一個HR人臉識別輔助網(wǎng)絡(luò),用于初始化LR識別網(wǎng)絡(luò)并對后續(xù)的學(xué)習(xí)過程進行監(jiān)督;接下來通過HR通道對LR通道特征提取網(wǎng)絡(luò)進行多級特征約束,以提高LR、HR圖像特征在空間的相似程度,使得相同身份的特征距離更加緊湊;此外還反向利用識別網(wǎng)絡(luò)監(jiān)督超分辨率重構(gòu)過程,以更好的得到身份信息保留的人臉圖像.通過超分辨率和識別網(wǎng)絡(luò)交替優(yōu)化,從而實現(xiàn)對LR人臉識別性能的漸進提升.大量實驗結(jié)果表明,提出的方法具有一定的可行性和有效性.
基于超分辨率的方法十分有益于LR人臉識別任務(wù),該方法包含兩個過程:一是對LR人臉的超分辨率重建,二是對重建的HR人臉進行識別。假設(shè)輸入LR圖像為Il,HR標(biāo)簽圖像為Ih,則人臉超分辨率重構(gòu)優(yōu)化過程可表示為:
(1)
其中,f為距離度量函數(shù);R為人臉超分辨率模型;D為HR圖像和超分辨率圖像在特征空間中的距離,通過最小化距離D,獲得最終人臉超分辨率模型.
完成上述重構(gòu)過程后,得到重構(gòu)出的超分辨率人臉圖像. 接下來對超分辨率人臉圖像進行識別,該識別過程與傳統(tǒng)HR識別方法一致.識別過程通常使用Softmax函數(shù)及其變型形式將輸出特征向量進行概率歸一化,然后與標(biāo)簽向量做交叉熵?fù)p失,最小化交叉熵?fù)p失實現(xiàn)特征的識別.其中Softmax函數(shù)的使用可表示為:
L=Softmax(x).
(2)
為了探索基于超分辨率的方法如何提高LR人臉識別效果,各種算法相繼被提出.例如,LI等人[8]提出特征幻化概念,該方法通過局部視覺基元特征表示法,將提取到的人臉特征進行類似超分辨率的處理后進行匹配識別.ZOU等人[9]設(shè)計了一個包含兩個約束的線性回歸模型來學(xué)習(xí)映射.SHUN等人[10]提出基于身份保留的人臉幻化的LR人臉識別方法.在基本的超分辨率方法基礎(chǔ)上,提出一個全新的身份保留損失函數(shù),結(jié)合圖像像素?fù)p失聯(lián)合訓(xùn)練超分辨率網(wǎng)絡(luò),確?;謴?fù)的圖像保留身份識別信息.Jin等人[11]為了保證超分辨率網(wǎng)絡(luò)有效地學(xué)習(xí)到對身份信息魯棒的識別特征,提出將身份特征分解為兩個正交分量,分別從兩個方面來恢復(fù)LR圖像的身份識別信息,確保了恢復(fù)的圖像能夠保留有效且魯棒的身份信息.
如圖1所示,本文提出的感知特征增強學(xué)習(xí)的低分辨率人臉識別網(wǎng)絡(luò),包含兩個網(wǎng)絡(luò)通道:高分辨率人臉識別通道、低分辨率人臉識別通道. 其中HR通道包含一個圖像特征提取網(wǎng)絡(luò),負(fù)責(zé)提取HR人臉圖像特征,用于輔助LR通道的特征學(xué)習(xí).LR通道由一個超分辨率網(wǎng)絡(luò)和一個圖像特征提取網(wǎng)絡(luò)組成. 首先由超分辨率網(wǎng)絡(luò)重構(gòu)恢復(fù)LR圖像細節(jié)信息,接著提取超分辨率圖像的特征進行人臉識別.
圖1 網(wǎng)絡(luò)整體結(jié)構(gòu)框圖Fig.1 Overall structure of the proposed network
其中IHR、ILR、ISR分別表示輸入的HR、LR人臉圖像以及超分辨率重構(gòu)后的圖像;vHR、vLR、vtarget分別為HR、LR特征提取網(wǎng)絡(luò)的輸出特征向量與身份標(biāo)簽向量.
人臉圖像超分辨率旨在恢復(fù)人臉圖像缺失的細節(jié)信息,增強圖像的感知特征. 為恢復(fù)LR人臉圖像的細節(jié)信息,本文實驗使用MSRN[12]網(wǎng)絡(luò)作為人臉超分辨率模塊.如圖2所示,該網(wǎng)絡(luò)通過多個多尺度殘差塊進行特征提取,最后將多個殘差塊的輸出特征進行特征融合. 局部多尺度特征與全局特征相結(jié)合,為圖像重構(gòu)提供更豐富的特征信息,最終恢復(fù)出細節(jié)豐富的高分辨率人臉圖像.
圖2 超分辨率網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Super-resolution network structure diagram
與傳統(tǒng)超分辨率方法不同,本文為保證重構(gòu)后的圖像保留可識別的身份信息,結(jié)合使用像素?fù)p失與識別網(wǎng)絡(luò)監(jiān)督其整個恢復(fù)過程. 超分辨率過程可描述如式(3):
ISR=fSR(WSR;ILR),
(3)
其中ISR表示超分辨率后的人臉圖像,fSR表示超分辨率網(wǎng)絡(luò)模型,WSR為網(wǎng)絡(luò)模型參數(shù),ILR為輸入LR圖像.
網(wǎng)絡(luò)訓(xùn)練過程中,兩個通道各自包含一個特征提取網(wǎng)絡(luò),且網(wǎng)絡(luò)結(jié)構(gòu)相同,實驗中使用MobileFaceNets[2]完成特征提取任務(wù).兩個通道特征提取網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示. 其中每個網(wǎng)絡(luò)層上方參數(shù)為特征圖通道數(shù)、下方為每層輸出特征圖尺寸大小. HR通道可提取到HR人臉圖像在特征空間中的分布,該分布具有類內(nèi)緊湊、類間分散的特點. 基于這一特點,為完成LR人臉識別任務(wù),應(yīng)引導(dǎo)其特征分布與HR特征分布趨于一致. 要實現(xiàn)HR通道引導(dǎo)LR通道學(xué)習(xí),預(yù)先將HR特征提取網(wǎng)絡(luò)訓(xùn)練并固定其參數(shù)不變. 由于兩個通道特征提取網(wǎng)絡(luò)結(jié)構(gòu)相同,為了更充分的利用HR特征,在兩個通道特征提取網(wǎng)絡(luò)中間層設(shè)置多個特征損失函數(shù). 特征損失通過在不同中間層特征空間最小化HR、LR特征距離,使得LR特征與HR特征趨近,最終實現(xiàn)LR人臉識別性能的提高. 考慮到特征圖降維過程中特征變化明顯,本文將特征圖尺寸大小發(fā)生變化的卷積層作為特征損失接入節(jié)點(最后一個特征損失函數(shù)除外),約束該層降維后的特征分布. 由于不同網(wǎng)絡(luò)存在多個符合條件節(jié)點層,多次實驗驗證特征損失函數(shù)在網(wǎng)絡(luò)中接近均勻分布時效果最佳,最優(yōu)的損失函數(shù)數(shù)量也與具體網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)(圖3中網(wǎng)絡(luò)實驗得出最優(yōu)損失函數(shù)數(shù)量為3).
圖3 雙通道特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Double channel feature extraction network structure diagram
HR和LR通道特征提取過程可表示如下式(4):
(4)
網(wǎng)絡(luò)的訓(xùn)練過程包含3個階段:首先在高分辨率圖像數(shù)據(jù)集上訓(xùn)練HR通道,并用HR通道特征提取網(wǎng)絡(luò)參數(shù)初始化LR通道特征提取網(wǎng)絡(luò). 后續(xù)訓(xùn)練過程中保持HR通道參數(shù)不變;接著,固定HR、LR通道特征提取部分參數(shù),質(zhì)量損失與身份損失聯(lián)合約束超分辨率網(wǎng)絡(luò)訓(xùn)練;最后,在HR通道的特征約束下,交替微調(diào)超分辨率網(wǎng)絡(luò)與LR特征提取網(wǎng)絡(luò),提高整體LR通道的低分辨率人臉識別性能.
本文一共使用3種損失函數(shù):特征損失、像素?fù)p失、識別損失.引入特征損失的目的在于最小化特征空間中HR特征與LR特征的距離. 余弦距離在分類任務(wù)中廣泛使用且效果優(yōu)異,使用余弦損失函數(shù)作為特征損失函數(shù),可有效地提高網(wǎng)絡(luò)識別性能,具體表示為:
(5)
像素?fù)p失旨在恢復(fù)圖像細節(jié)信息與提高視覺效果.LI損失函數(shù)簡單且可有效恢復(fù)圖像,該函數(shù)定義為:
(6)
識別損失使用Softmax函數(shù)的改進形式ArcFace Loss[1]損失函數(shù).在余弦空間對特征進行多次特征約束的基礎(chǔ)上,ArcFace Loss通過增加角度余量進一步提高分類性能. ArcFace Loss具體表示如式(7):
(7)
θj表示權(quán)重向量與輸出特征之間的夾角,θyi為標(biāo)簽向量與輸出特征夾角,m為加性角度余量,s代表超球面特征空間半徑.
損失函數(shù)使用:每一階段訓(xùn)練損失由上述三項損失函數(shù)組成,其中,當(dāng)訓(xùn)練超分辨率網(wǎng)絡(luò)時使用的損失函數(shù)如式(8):
(8)
其中βi代表每個特征損失函數(shù)的權(quán)重(實驗中βi設(shè)置為0.2、0.3、0.5),所有權(quán)重相加和為1,n為特征損失函數(shù)數(shù)量,該值由具體實驗使用網(wǎng)絡(luò)結(jié)構(gòu)確定.當(dāng)訓(xùn)練LR特征提取網(wǎng)絡(luò)時,使用的損失函數(shù)可表示為:
(9)
硬件條件包含Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz x 48,內(nèi)存128GB,NVIDIA GeForce GTX 1080 Ti,單卡顯存11GB.基于Ubuntu 16.04 LTS系統(tǒng),PyTorch 1.0.2深度學(xué)習(xí)框架.
訓(xùn)練集采用CASIA WebFace Dataset人臉數(shù)據(jù)集,包含10575個身份的494414張人臉圖像.測試集為LFW人臉數(shù)據(jù)集,包含13000張人臉圖像.訓(xùn)練集與測試集相互獨立,不包含相同身份人臉圖像. 訓(xùn)練集樣本如圖4所示,在實驗中,原始圖像為112×96分辨率圖像,將圖像分別下采樣到28×24、14×12、7×6分辨率用于訓(xùn)練和測試.
圖4 訓(xùn)練集樣本示例Fig.4 Sample training set
為驗證所提方法的有效性,本文在MSRN[12]、EDSR[13]兩種超分辨率算法和SphereFace[3]、MobileFaceNets[2]兩種人臉識別算法上進行驗證實驗.實驗中,本文方法預(yù)先訓(xùn)練一個HR特征提取網(wǎng)絡(luò),且在LR網(wǎng)絡(luò)最后一層使用一個特征損失函數(shù)LD.表1給出了4種不同超分辨率網(wǎng)絡(luò)與人臉識別網(wǎng)絡(luò)的組合的實驗結(jié)果.根據(jù)表1結(jié)果可見,本文方法在僅僅使用一個特征損失函數(shù)時,在各分辨率條件下效果都有所提高,證明HR特征約束策略的有效性.相比之下,MSRN和MobileFaceNets的組合雖然識別率不是最佳,相對于其他幾組效果略差,但是其網(wǎng)絡(luò)參數(shù)最小,且訓(xùn)練過程更加高效和簡單.考慮到時間和成本,在本文接下來討論中,選用該組合完成后續(xù)實驗.
表1 HR特征約束在不同網(wǎng)絡(luò)上的有效性驗證Tab.1 Validation of HR feature constraints on different networks
為了比較特征提取網(wǎng)絡(luò)使用特征損失函數(shù)數(shù)量對LR人臉識別性能的影響,本文在不同分辨率情況下,對特征損失函數(shù)的個數(shù)與識別率之間的關(guān)系做了一系列實驗.實驗結(jié)果如圖5所示,其中n為實驗中使用的特征損失函數(shù)個數(shù). 從圖中可以看出當(dāng)n=1時效果最差,當(dāng)n增加至3過程中,圖像分辨率越低,識別效果提高更明顯;當(dāng)n大于3后,效果開始趨于下降.
圖5 特征損失函數(shù)數(shù)量對識別性能的影響Fig.5 The influence of the number of feature loss functions on the recognition performance
分析圖5實驗數(shù)據(jù),適當(dāng)數(shù)量的特征損失約束可以提高LR識別網(wǎng)絡(luò)的識別率,且分辨率越低效果提升越明顯;當(dāng)特征損失函數(shù)數(shù)目超過最佳點時,身份約束過強,使得類邊緣的樣本不能正確識別,導(dǎo)致識別率降低,具體如圖6示意圖所示.特征損失數(shù)量和選擇的網(wǎng)絡(luò)、訓(xùn)練數(shù)據(jù)等都有一定的關(guān)系,本文選擇n=3作為最佳特征損失函數(shù)的數(shù)量.
圖6 余弦空間同一身份人臉特征分布示意圖Fig.6 Cosine space features of the same identity face distribution diagram
本文方法在不同分辨率下與LightCNN[14]、ResNet[15]、VGGFace[16]、SphereFace等算法進行對比.對比方法為復(fù)現(xiàn)論文代碼得到結(jié)果,參數(shù)設(shè)置與原論文一致,訓(xùn)練集與測試集均與本文相同.為適應(yīng)對比實驗網(wǎng)絡(luò)的輸入尺寸,將測試集通過雙三次插值將圖像變換到112×96大小.從表2中可知,不同分辨率下,本文算法與對比實驗中最優(yōu)的ResNet相比識別率分別提高8.1%、1.5%、0.2%,特別是在分辨率為7×6時,本文算法的識別效果提升更加明顯.
表2 不同算法在LFW數(shù)據(jù)集上識別率的比較Tab.2 Comparison of recognition rate between different algorithms on LFW dataset/%
針對低分辨率人臉特征信息丟失嚴(yán)重,導(dǎo)致識別性能急劇下降的問題,提出了一種高分辨率圖像輔助感知特征增強學(xué)習(xí)的低分辨率人臉識別方法.利用深度神經(jīng)網(wǎng)絡(luò)分別提取高分辨率人臉與低分辨率人臉的多層特征,并將特征損失用于監(jiān)督低分辨率人臉識別網(wǎng)絡(luò)的訓(xùn)練優(yōu)化,更好地恢復(fù)了超分辨率人臉的身份信息,有效提高了低分辨率網(wǎng)絡(luò)的特征表示能力.實驗結(jié)果驗證了本文算法對改進低分辨率人臉識別性能的有效性.