司春暉,張麗紅
(山西大學 物理電子工程學院,山西 太原 030006)
人臉識別具有圖像獲取途徑簡單、成本較低、身份鑒定的過程中完全不需要接觸目標等優(yōu)點,應用范圍越來越廣.但實際人臉識別系統(tǒng)的圖像采集過程中往往存在光照、姿態(tài)、遮擋等不確定性因素,其中,遮擋因素占比重很大,而傳統(tǒng)的人臉識別方法對其識別效果不佳,如何有效地處理遮擋問題并提高識別效率仍是人臉識別系統(tǒng)中的難點之一.
為了解決人臉遮擋的問題,Wu等人[1]提出一種基于自適應無監(jiān)督學習模型和注意力學習模型的遮擋人臉識別算法,對深度人臉特征進行自適應學習,在遮擋面部的無監(jiān)督學習領域取得了優(yōu)良的識別率和準確率;為充分考慮遮擋的空間局部連續(xù)性,Wei等人[2]提出一種基于有監(jiān)督遮擋字典的遮擋結構稀疏性人臉識別方法;Zhu等人[3]提出一種自適應的穩(wěn)定人臉特征檢測,用于遮擋人臉識別,利用幾何注意知識蒸餾的方法進行低秩學習,在野外具備良好的魯棒性.但是這些方法均需要建立字典,并且需要龐大的數(shù)據(jù)支撐,而且在識別時并不能完全排除遮擋物的影響,由此會使識別率降低.
目前,國內外在解決人臉遮擋問題方面,大都基于卷積神經網(wǎng)絡(Convolutional Neural Networks, CNN)方法[4],通過不斷卷積提取高層次信息,在識別過程中盡可能忽略掉遮擋的影響[4].但是隨著遮擋場景越來越復雜,卷積層數(shù)越來越多,對研究人員以及設備的要求越來越高,單靠卷積神經網(wǎng)絡已經不能滿足遮擋人臉的高識別率要求.
本文受到文獻[5]中非局部神經網(wǎng)絡以及文獻[6]中圖網(wǎng)絡用于計算機視覺的啟發(fā),提出一種應用圖推理和局部分割方法對人臉遮擋位置進行檢測的網(wǎng)絡,并在相關數(shù)據(jù)集上得到了優(yōu)良的實驗結果.
基于圖推理的人臉遮擋檢測網(wǎng)絡的整體架構如圖1所示,整個框架分為特征提取網(wǎng)絡和圖注意推理模塊兩個部分.特征提取網(wǎng)絡利用殘差網(wǎng)絡ResNet101模型進行初步特征提取,得到低層特征,取第1,第2,第4卷積層的輸出作為邊緣特征,利用空間金字塔池化進行高層特征的映射,最終得到人臉低層特征、含有遮擋信息的高層特征和邊緣特征;圖注意推理模塊運用非局部操作對高層特征和邊緣特征進行投影計算,通過圖卷積推理各節(jié)點之間的關系,最終確定遮擋特征,并將其映射回原來的特征與低層特征進行相加,得到含有遮擋部分的人臉特征向量,利用解卷積輸出,最終得到的含有遮擋部分掩膜的人臉圖片并檢測出遮擋部分.
圖 1 基于圖推理的人臉遮擋檢測網(wǎng)絡模型結構
檢測人臉遮擋,首先需要獲得人臉的低層特征和高層特征,利用殘差網(wǎng)絡和空間金字塔池化來進行高低層以及邊緣特征的提取.殘差網(wǎng)絡能夠較好地防止過擬合等問題,并且可以在訓練過程中提取邊緣特征;空間金字塔池化可以提取出高層特征信息.所以本文將兩種方法結合應用于特征提取網(wǎng)絡.
殘差網(wǎng)絡(Residual Network,Resnet)是何凱明等人在2015年提出的卷積神經網(wǎng)絡[7],解決了3個主要問題:①計算資源的消耗問題②神經網(wǎng)絡訓練過擬合問題③梯度消失以及梯度爆炸問題.
殘差塊的具體結構如圖 2 所示.在殘差網(wǎng)絡中,殘差塊應用于卷積神經網(wǎng)絡的每一層,增加網(wǎng)絡深度的同時使網(wǎng)絡收斂速度加快,殘差塊可以表示為
xl+1=xl+F(xl,Wl),
(1)
式中:xl是輸入;xl+1是輸出;F是殘差部分函數(shù);Wl是卷積的權重.
殘差表示為預測值與實際值之間的差值,在殘差網(wǎng)絡中,主要體現(xiàn)在殘差塊中輸入和輸出的恒等映射,輸入x經過卷積運算和激活函數(shù)得到殘差,通過訓練得到的殘差不僅能夠增加網(wǎng)絡深度還可以使網(wǎng)絡不產生梯度爆炸,增加了整個網(wǎng)絡的穩(wěn)定性.
圖 2 殘差塊的結構
本文利用殘差網(wǎng)絡Resnet101提取人臉的低層特征信息和邊緣特征信息,網(wǎng)絡的第1,第2,第4卷積層主要提取圖像梯度變化率高的特征信息,所以,用于提取邊緣信息特征,對提取出來的部分特征進行邊緣算子的運算,結果作為輸入圖像的邊緣特征.
在一般的CNN結構中,卷積層后面通常連接著全連接層.而全連接層的特征數(shù)是固定的,所以,在網(wǎng)絡輸入的時候,要求輸入圖像為固定尺寸.但在實際中,圖像尺寸不能總是滿足網(wǎng)絡的輸入要求.一般采用裁剪和拉伸的方法進行預處理,但是會丟失部分原始圖像信息,使最后結果受到影響.
空間金字塔池化(Spatial Pyramid Pooling,SPP)較好地解決了上述問題[8]:首先,無論輸入圖像尺寸多大,SPP都可以產生固定大小的輸出,這樣提高圖像尺度不變性的同時有效地降低了過擬合;再者,SPP支持不同尺寸的圖片以及窗口,本文所用的SPP 3個窗口分別為1*1,2*2和 4*4,尺寸最小的窗口提取的信息量最小,反之則信息量最大.實驗表明訓練圖像尺寸的多樣性比單一尺寸的訓練圖像更容易使網(wǎng)絡收斂,SPP在提取高層信息特征的同時,大大提高了網(wǎng)絡的訓練速度以及圖像檢測的準確性.空間金字塔池化網(wǎng)絡結構如圖 3 所示.
圖 3 空間金字塔池化網(wǎng)絡
圖注意推理模塊(Graph Attention Reasoning Module, GARM)應用非局部操作的方法將圖片的高層特征映射到圖節(jié)點上,通過圖卷積的方法推理圖節(jié)點位置特征之間的關系,最后利用圖重投影將節(jié)點位置特征映射回高層特征,以確定遮擋的具體位置.GARM的整體網(wǎng)絡結構如圖 4 所示.
圖 4 GARM網(wǎng)絡結構
圖投影是將輸入的特征X映射到圖特征空間G(V)中,V為節(jié)點.具體來說,圖投影部分將具有相似特征的像素分配給同一節(jié)點,其中就包含遮擋部分的高層像素特征,利用非局部操作將像素投影到節(jié)點,非局部操作具體可以表示為
(2)
式中:y是輸出信號,尺寸和x相同;f用于計算輸入信號x中所有位置的成對關系,f值越小,代表j對i位置影響越?。籫(xj)用于計算輸入信號在j處的特征值;C(x)是歸一化參數(shù).
在g是線性的情況下,f近似為高斯函數(shù).
f(xi,xj)=eθ(xi)Τφ(xj),
(3)
式中:θ(xi)=Wθxi;φ(xj)=Wφxj;Wθ,Wφ均為權重向量.
若給定i,即變成計算所有j位置的softmax函數(shù)
(4)
類似地,如圖 4 中圖投影部分,提出一種融入邊緣注意力機制的圖投影方法,先對高層特征進行平均池化(卷積核尺寸為6*6)并計算其與邊緣的關系,將高層特征X通過非局部操作映射到以邊緣特征Y為先驗的節(jié)點特征,將其作為最終投影矩陣H
H=softmax(P(φ(X)·Y)·φ(X)T),
(5)
式中:P為平均池化操作;φ為1*1卷積操作.
(6)
式中:d為輸入特征數(shù);V為節(jié)點數(shù)量,zk∈Z,ωk∈W,σk∈∑.
計算鄰接矩陣和總的節(jié)點特征分別作為節(jié)點特征的位置關系權重和總的特征關系
Δ=ZTZ,HG=Hθ(x),
(7)
式中:Δ為鄰接矩陣;HG為總的節(jié)點特征,θ為 1*1卷積操作.
將圖卷積網(wǎng)絡(Graph Convolutional Network, GCN)與圖推理相結合,如圖 4 的圖推理部分,通過圖卷積建立節(jié)點之間聯(lián)通性關系,對遮擋位置與其他位置的關系進行推理,采用RELU激活函數(shù)進行推理表示
(8)
將投影矩陣轉置與推理模塊的輸出相乘,將推理到的遮擋部分特征映射回原特征
(9)
式中:τ是1*1卷積運算;A是帶有表征遮擋部分的人臉特征向量.
實驗采用Helen數(shù)據(jù)集和LaPa數(shù)據(jù)集.Helen 數(shù)據(jù)集是用于人臉分割的數(shù)據(jù)集[9],用于訓練圖推理網(wǎng)絡,其中包括2 330幅人臉圖像,11類人臉特征標簽:背景、皮膚、左/右眉、左/右眼、上/下唇、內口和頭發(fā),其中訓練和測試樣本的數(shù)量分別為 2 000和330.LaPa數(shù)據(jù)集是一個新發(fā)布的具有挑戰(zhàn)性的人臉分割數(shù)據(jù)集[10],主要用其進行測試,LaPa數(shù)據(jù)集和Helen數(shù)據(jù)集一樣,包含11個人臉標簽,涵蓋了面部姿態(tài)和遮擋的變化.由18 176張訓練圖像、2 000張驗證圖像和2 000張測試圖像組成.
訓練網(wǎng)絡采用端到端的訓練方法,由于網(wǎng)絡包含3類網(wǎng)絡,在進行回歸分類時,預測值和真值總有偏差.所以我們的損失函數(shù)包含3個部分:①殘差網(wǎng)絡的回歸交叉熵損失L0;②邊緣注意損失Le;③圖卷積產生的節(jié)點回歸損失LG,表達式為
L=L0+Le+LG,
(10)
(11)
(12)
(13)
式(11)中,HW是輸入圖片的尺寸;i是像素的索引;j是類別的索引;N是類別的數(shù)目;xij是i像素j類別對應的神經元真值;aij是預測的值.式(12)中,vij是i像素j類別對應的邊緣真值;yij是預測的邊緣值.式(13)中,[]是艾弗森括號,如果方括號內的條件滿足則為1,不滿足則為0;ei是邊緣標簽;zij是真實的標簽;pij是預測的標簽.
最終實驗結果用像素精度(Pixel Accuracy,PA)、平均像素準確率(Mean Pixel Accuracy,MPA)以及平均交并比(Mean Intersection over Union,MIoU) 3個指標衡量.
像素精度是被分類正確的像素占總像素的比例,表達式為
(14)
平均像素準確率是計算每個類內被正確分類像素數(shù)比例后,求所有類的平均,表達式為
(15)
平均交并比是計算真實值和預測值兩個集合的交集和并集之比,表達式為
(16)
式中:Pij表示真實值為i,被預測為j的像素數(shù)量;k+1是類別個數(shù)(包含空類);Pii是真實的像素數(shù)量.
對特征提取-圖卷積推理網(wǎng)絡(ResNet101+GARM)進行了訓練和測試,實驗測試時輸入圖片均為尺寸為473*473的有遮擋人臉圖片,批量處理的尺寸為4,迭代次數(shù)為80次,初始學習率為0.01,權重衰減為0.000 5.本文設計的基于圖卷積推理網(wǎng)絡的人臉遮擋位置檢測網(wǎng)絡運行的部分結果如圖5所示;與其它先進模型的綜合結果對比如表 1 所示.
圖 5 遮擋檢測網(wǎng)絡運行結果展示圖
由圖5的實驗結果可以看出,對于輸入只含有遮擋類型噪聲的圖片,本文網(wǎng)絡可以精確對遮擋區(qū)域分配像素并繪制掩膜,遮擋像素已知圖片的人臉檢測效率會大幅度提高.
和國內外其他先進模型相比,本文所設計的Resnet101+GARM準確率與IoU評分顯著提升,像素精度達到97.11%,與CNN+RNN模型相比提高6.11%,與CNN+RoI Tanh-warping模型相比提高0.31%,其他人臉位置遮擋檢測效果也優(yōu)于其他模型.
表 1 本文方法與其他模型的評價指標比較
本文設計的網(wǎng)絡對人臉各部位遮擋檢測的訓練準確率如圖 6 所示.
圖 6 本文模型在各種人臉遮擋類型上的MPA
圖 6 結果表明,對于復雜的遮擋情況,模型的準確率會下降10%左右,對于極端的遮擋,分割檢測精度最低為71.82%,圖推理網(wǎng)絡結構和殘差網(wǎng)絡部分還有很大的優(yōu)化空間.
PA,MPA,MIoU在訓練迭代過程中的變化如圖 7 所示.由圖 7 可以看到,在訓練迭代大約60次之后,分割檢測精度逐漸趨于穩(wěn)定.訓練好的網(wǎng)絡準確率基本穩(wěn)定在97%左右,模型具有良好的學習性能.
圖 7 各評價指標在訓練過程中的變化
網(wǎng)絡訓練時的損失函數(shù)曲線如圖 8 所示.損失函數(shù)隨迭代次數(shù)的增加而下降為3.5,此時學習率為4.78e-5,網(wǎng)絡收斂.
圖 8 網(wǎng)絡訓練時的損失函數(shù)曲線
本文設計了一種基于圖卷積推理網(wǎng)絡的人臉遮擋位置檢測網(wǎng)絡,首先經過特征提取網(wǎng)絡進行高低層特征以及邊緣特征的提取,然后通過圖推理網(wǎng)絡分析可能遮擋的區(qū)域,并為可能遮擋區(qū)域分配像素并進行檢測,最終確定人臉遮擋位置.實驗結果表明,基于圖卷積推理網(wǎng)絡的人臉遮擋位置檢測網(wǎng)絡的分割精度和檢測精度均優(yōu)于其他遮擋檢測網(wǎng)絡.