許婷
摘要:近年來,隨著人工智能的快速發(fā)展,人臉識別已經(jīng)成為現(xiàn)代生物信息識別中的一種重要技術。但是,隨著人們對生物信息的隱私性越來越重視,特殊場景下樣本信息數(shù)量少等問題仍然影響著人臉識別算法的精度。本文針對少樣本場景,提出了一種將虛擬測試樣本與原始測試樣本進行結合的基于VGG卷積神經(jīng)網(wǎng)絡的人臉識別算法。經(jīng)實驗,該算法在少樣本場景下仍能夠取得較好的效果。
關鍵詞:人臉識別;少樣本;虛擬樣本;VGG卷積神經(jīng)網(wǎng)絡
引言
人臉識別一直是計算機視覺領域的熱門關注領域,特別是隨著人工智能技術的快速發(fā)展,人臉識別技術已經(jīng)被廣泛應用于司法、公共交通、銀行、邊檢安防以及日常生活等多個領域中。目前,人臉識別雖然已經(jīng)得到了巨大的發(fā)展,但是由于其本身的特點及隱私性、環(huán)境復雜性等問題,仍然存在許多挑戰(zhàn),如人臉相似性、人臉樣本量缺少、背景圖案繁雜、遮擋物及面部姿態(tài)等。早期的人臉識別技術主要有基于幾何特征[1]、基于隱馬爾科夫模型[2]、人工神經(jīng)網(wǎng)絡[3]等。然而近幾年,隨著深度卷積神經(jīng)網(wǎng)絡的不斷發(fā)展,通過深度卷積神經(jīng)網(wǎng)絡模型進行人臉識別幾乎成為主流研究方向,但是深度卷積神經(jīng)網(wǎng)絡模型往往需要大量數(shù)據(jù)進行訓練,因此,小樣本下的深度卷積神經(jīng)網(wǎng)絡模型訓練依然是現(xiàn)在重點關注的挑戰(zhàn)。
小樣本學習任務的核心問題是在訓練樣本不足的情況下,如何保證經(jīng)驗風險的可靠性。一般來說,最直觀的解決方法是數(shù)據(jù)增強,也就是補充訓練樣本的數(shù)量,從而達到獲取更多信息量的目的。例如,喬雨軒、方建安提出了一種結合圖像色彩恢復、文本碎片渲染、圖像前后背景融合等多種圖像處理手段進行數(shù)據(jù)增強的分類識別算法[4]。張超群、易云恒、周文娟等提出通過數(shù)據(jù)增強技術擴充樣本集,并將其用于神經(jīng)網(wǎng)絡模型的訓練[5]。從上述文獻可以看出,通過數(shù)據(jù)增強提升小樣本場景下的分類識別準確率仍然具有一定成效。但是在樣本量極低的情況下,僅僅增強訓練數(shù)據(jù)也難以達到深度卷積神經(jīng)網(wǎng)絡模型所需的訓練數(shù)量。
因此,本文提出了一種基于虛擬測試樣本的方法,與傳統(tǒng)增強訓練數(shù)據(jù)集方法的不同在于,該方法在增加訓練數(shù)據(jù)集樣本數(shù)量的基礎上,同時增強了測試數(shù)據(jù)集的樣本數(shù)量,并將測試樣本與其對應的虛擬樣本進行加權融合后再進行分類識別。
1. 算法步驟描述
1.1 VGG16網(wǎng)絡模型
VGGNet是2014年由Karen Simonyan和Andrew Zisserman提出的一種深度卷積神經(jīng)網(wǎng)絡模型,是牛津大學計算機視覺實驗室參加2014年ILSVRC(imageNet large scale visual recognition challenge)比賽時所用的網(wǎng)絡模型,并獲得了競賽中分類第二和定位第一的成績。VGG的主要特點在于其通過堆疊多個小卷積核來替代大卷積核,以減少所需參數(shù),并加深了網(wǎng)絡層數(shù)。
Karen Simonyan等人對六個網(wǎng)絡模型的結構進行了實驗驗證,其中VGG16和VGG19的實驗結果效果相對較好,基于此,本文將采用VGG16和VGG19作為基礎網(wǎng)絡模型進行實驗。
VGG16共包含16個子層,第1層卷積層由2個conv3-64組成,第2層卷積層由2個conv3-128組成,第3層卷積層由3個conv3-256組成,第4層卷積層由3個conv3-512組成,第5層卷積層由3個conv3-512組成,然后是2個全連接層,1個輸出層。
VGG19共包含19個子層,其網(wǎng)絡結構與VGG16一致,只是相比VGG16增加了3個卷積層,因而此處不再進行詳細描述。
1.2 本文提出的算法
為了進一步提高小樣本場景下的人臉識別率,本文提出了一種將虛擬測試樣本與原始測試樣本相結合的基于VGG卷積神經(jīng)網(wǎng)絡模型的人臉識別算法。
假設訓練數(shù)據(jù)集共有L個類別,每一類共有N個樣本,為了能夠更好地驗證小樣本場景下算法的有效性,將每一類的N樣本分別選取T個樣本作為訓練樣本,剩余N-T個樣本作為測試樣本,此時可知訓練樣本的個數(shù)為L×T,測試樣本的個數(shù)則為L×(N-T)。
原始訓練樣本X和原始測試樣本Y分別生成對應的虛擬樣本X'和Y',本文采用的生成方式來源于張洋銘、吳凱、王藝凡等提出的利用人臉對稱性生成虛擬樣本,從而實現(xiàn)人臉識別[6]。該方法主要利用了人臉具有對稱性這一主要生物特征生成虛擬訓練樣本,以達到擴充樣本數(shù)量的目的,能夠在一定程度上保留原樣本的特征,并且彌補樣本不足的問題。
通過生成虛擬樣本后的訓練樣本集Xtotal和Ytotal分別如下:
(1)
(2)
其中 ,Yk表示原始測試樣本,Ykι表示將的左臉進行對稱轉換后的虛擬測試樣本,Ykr表示將Yk的右臉進行對稱轉換后的虛擬測試樣本。
將Yk輸入到由Ytotal進行訓練的VGG卷積神經(jīng)網(wǎng)絡模型中后,在輸出層可以得到一個輸出向量,同理,將Ykι和Ykr輸入到由Xtotal進行訓練的VGG卷積神經(jīng)網(wǎng)絡模型中后可以得到向量。
為了能夠更好地對測試樣本進行描述,可以將原始測試樣本與虛擬測試樣本的輸出向量進行加權融合,從而得到加權后的輸出向量Wkall。
(3)
該算法的具體步驟描述如下:
(1)將樣本分為測試樣本和訓練樣本,利用人臉“對稱性”生成虛擬人臉樣本。
(2)將訓練樣本及其生成的虛擬訓練樣本一起輸入VGG卷積神經(jīng)網(wǎng)絡中進行模型訓練,增強訓練樣本數(shù)量。
(3)將測試樣本和其對應生成的虛擬測試樣本分別輸入模型并對其生成結果進行加權融合。
(4)將樣本分類到最終加權融合后貢獻度最大的類別中。
2. 實驗
2.1 實驗數(shù)據(jù)集
本實驗主要在ORL人臉數(shù)據(jù)庫中進行,將改進后的算法與VGG卷積神經(jīng)網(wǎng)絡進行對比。ORL人臉數(shù)據(jù)庫共包括40人,每人10幅正面人臉圖像。為了驗證少樣本場景下的精確性,本實驗中將對每人分別隨機選取1、3、5幅人臉作為訓練集,其余作為測試集,并針對訓練集和測試集分別生成對應的虛擬樣本數(shù)據(jù),并將原始數(shù)據(jù)樣本與虛擬數(shù)據(jù)樣本結合,用于模型訓練及測試過程中。
圖1給出了ORL人臉數(shù)據(jù)庫中通過“對稱臉”生成的虛擬人臉圖像,其中左圖為原始圖像,中圖及右圖分別為對稱翻轉左側臉及右側臉后生成的新的虛擬人臉圖像。從圖1可以看出新的虛擬樣本中保留了大部分原始樣本中的信息。
2.2 實驗結果分析
本文的算法模型是基于Pytorch深度學習框架搭建而成,基礎模型采用的是VGG16經(jīng)典模型框架,為了驗證算法的有效性,在對比實驗的過程中采用的模型參數(shù)保持完全一致。
在實驗過程中,將樣本集D分為測試樣本與訓練樣本,也就是說,假設每一類中共有s個樣本,隨機選取k個樣本作為訓練樣本集Tr,剩余的s-k個樣本則作為測試樣本集Te,將剩余的測試樣本生成對應的虛擬樣本,根據(jù)人臉左右對稱性,每一個樣本Dk可以生成對應的兩個虛擬測試樣本Dk1和Dk2。
首先,采用原始測試樣本與新生成的虛擬測試樣本共同構成的新訓練樣本集Tr'對VGG網(wǎng)絡模型進行訓練;然后,分別將每一個測試樣本及其對應的虛擬測試樣本輸入訓練后的VGG網(wǎng)絡模型中,可以得到其對應的輸出結果,將其輸出結果進行加權融合后得到最終結果,并將測試樣本分到最終結果中貢獻度更大的類別中。通過大量實驗過程,同時結合前人的分析,為了得到更好的識別效果,可將權值分別設置為0.6、0.2、0.2。
圖2對比了在N-shot下,本文提出的算法與原始VGG16以及增強訓練樣本后的VGG16的識別率。從圖2可以看出,在樣本量不足的情況下,本文所提出的基于虛擬測試樣本加權融合算法的準確率高于增強訓練樣本和原始網(wǎng)絡模型的準確率,并且在樣本量極低的情況下,效果更好。
基于VGG19的網(wǎng)絡模型,我們也對1-shot進行了對比實驗,實驗結果如圖3所示。從實驗結果可以看出,VGG19的模型結果比VGG16的結果更好,增加訓練樣本后也有一定提升,但是經(jīng)過虛擬測試樣本融合后,能夠得到更進一步提升。
結語
本文提出了一種加權融合虛擬測試樣本和虛擬訓練樣本的人臉識別算法,該算法能夠在樣本量明顯不足的場景下取得較好的效果。增強數(shù)據(jù)能夠很好地改善樣本量不足引起的特征量不足問題。本文主要是通過同時增強訓練樣本集和測試樣本集,然后將訓練樣本輸入VGG模型中進行訓練,但是其從有限的虛擬樣本中獲取的特征仍然是有限的。因此,在此基礎之上,本文引入了虛擬測試樣本數(shù)據(jù),由于人臉對稱性,新的虛擬測試樣本與原測試樣本具有一定相同特征,故在輸入模型后可以提取到相似特征,基于此,將虛擬測試樣本與原始測試樣本進行加權融合后能夠得到更有效的特征量,也在一定程度上提升了樣本量不足情況下人臉識別的精度。
參考文獻:
[1]王尋,趙懷勛.基于改進的膚色空間和幾何特征的快速人臉檢測研究[J].計算機應用與軟件,2015,32(2):151-154.
[2]孟輝,高德施,李穎,等.基于隱馬爾科夫模型的人臉識別[J].中國刑警學院學報,2019(4):124-128.
[3]馮巧娟.人工神經(jīng)網(wǎng)絡在人臉識別中的應用[J].平頂山工學院學報,2008, 17(2):19-20,26.
[4]喬雨軒,方建安.基于數(shù)據(jù)增強的小樣本字符識別模型[J].計算機科學與應用,2022,12(5):1280-1291.
[5]張超群,易云恒,周文娟,等.基于深度學習與數(shù)據(jù)增強技術的小樣本巖石分類[J].科學技術與工程,2022,22(33):14786-14794.
[6]張洋銘,吳凱,王藝凡,等.基于隨機權重分配策略的面目表情識別[J].重慶大學學報,2022,45(9):135-140.
作者簡介:許婷,碩士研究生,助教,研究方向:模式識別。