ASM姿態(tài)矯正結(jié)合字典學(xué)習(xí)優(yōu)化的人臉識(shí)別

2018-11-17 01:26:46鐘小莉

計(jì)算機(jī)工程與設(shè)計(jì) 2018年11期

鐘小莉

(青海民族大學(xué) 計(jì)算機(jī)學(xué)院，青海西寧 810007)

0 引言

從二維圖像中進(jìn)行人臉姿態(tài)識(shí)別是圖像處理領(lǐng)域中的一個(gè)熱點(diǎn)課題，在人臉識(shí)別、人機(jī)交互中有很多應(yīng)用[1]。然而，由于人臉圖像中存在多種環(huán)境因素的影響，如面部表情、光照和圖像分辨率等，對(duì)人臉姿態(tài)識(shí)別造成了很大的困難[2,3]。

目前，用于人臉姿態(tài)識(shí)別的主要技術(shù)有主動(dòng)外觀模型(active appearance model，AAM)[4]，其基于學(xué)習(xí)形狀和外觀變化來預(yù)測(cè)面部姿態(tài)。但是，AAM的有效使用需要面部特征精確定位，在圖像分辨率很低時(shí)難以實(shí)現(xiàn)。也有學(xué)者提出了一些基于回歸的方法來進(jìn)行姿態(tài)識(shí)別，例如利用支持向量回歸(support vector regression，SVR)[5]來估計(jì)姿態(tài)，或者利用流形嵌入技術(shù)和回歸方法的混合來進(jìn)行姿態(tài)預(yù)測(cè)[6,7]。但是，這些方法容易遭受數(shù)據(jù)集中不規(guī)則分布的數(shù)據(jù)和噪聲的影響。文獻(xiàn)[8]提出了Gabor結(jié)合各向異性擴(kuò)散(Gabor anisotropic diffusion，Gabor-AD)的方法。文獻(xiàn)[9]提出了一種熵加權(quán)Gabor結(jié)合主動(dòng)形狀統(tǒng)計(jì)模型(active shape and statistical model，ASSM)的方法(Gabor-ASSM)，在姿態(tài)變化較大的人臉數(shù)據(jù)庫(kù)上可取得較高的識(shí)別率。然而，這些方法的計(jì)算復(fù)雜度比較高。

針對(duì)上述分析，提出一種主動(dòng)輪廓模型(active shape model，ASM)融合字典學(xué)習(xí)優(yōu)化的人臉識(shí)別方法。提出的方法主要?jiǎng)?chuàng)新點(diǎn)如下：

(1)利用ASM對(duì)人臉姿態(tài)進(jìn)行矯正，可以明顯提高對(duì)姿態(tài)變化人臉圖像的魯棒性；

(2)利用字典學(xué)習(xí)優(yōu)化，可以更好地保留有用特征；

(3)在判斷所識(shí)別圖像是否為正確類別后，及時(shí)地對(duì)訓(xùn)練樣本特征空間進(jìn)行了更新操作，一定程度上提升了訓(xùn)練系統(tǒng)的識(shí)別能力。

實(shí)驗(yàn)結(jié)果表明，提出的方法能夠準(zhǔn)確地識(shí)別出人臉姿態(tài)，具有很好的魯棒性。

1 提出的人臉識(shí)別方法框架

基于ASM、Gabor小波變換[10]、核主成分分析(kernel principal component analysis，KPCA)[11]和稀疏表示(sparse representation，SR)[12]，提出了一種姿態(tài)識(shí)別方法。其基本思想是利用ASM提取人臉圖像局部特征，對(duì)人臉進(jìn)行矯正對(duì)齊。通過Gabor小波和KPCA構(gòu)建一個(gè)人臉姿態(tài)特征字典，并進(jìn)行字典學(xué)習(xí)優(yōu)化[13]，以此構(gòu)建稀疏分類器。然而，由于訓(xùn)練圖像的數(shù)量很大，并且存在可能影響最終分類結(jié)果的大量冗余姿態(tài)和噪聲。為此，設(shè)計(jì)了一種更新方法，即用錯(cuò)誤分類的面部圖像來對(duì)訓(xùn)練集外觀基礎(chǔ)特征空間進(jìn)行更新。提出的方法過程如圖1所示。

圖1 提出的方法框架

2 臉姿態(tài)矯正

首先，利用ASM進(jìn)行人臉姿態(tài)矯正，利用點(diǎn)集坐標(biāo)向量將人臉目標(biāo)形狀定義為

(1)

S可表示為平均形狀S0，根據(jù)基向量的線性組合改寫為

S=T(s,R,T;S0+Ψip)

(2)

(3)

為了使可變形模型與測(cè)試圖像吻合，利用ASM對(duì)人臉圖像進(jìn)行擬合。優(yōu)化T(s,R,T;·)的參數(shù)和基礎(chǔ)Ψ的參數(shù)向量p，減小S每點(diǎn)處在斑塊中計(jì)算的特征，并利用訓(xùn)練圖像構(gòu)建模型特征之間的差異，從原始灰度圖像的斑塊、圖像梯度和局部二值模式中提取人臉特征。提出的方法對(duì)相關(guān)系數(shù)進(jìn)行歸一化處理，并利用ASM得到面部特征的擬合人臉形狀，如圖2所示[9]。

圖2 利用ASM得到的擬合人臉形狀

3 提出的人臉姿態(tài)識(shí)別方法

3.1 Gabor小波變換

Gabor小波是一種加Gauss窗口的Fourier變換，由多尺度和多方向的濾波器組成[10]。Gabor小波變換是分析圖像的一種有效方法，可用來表達(dá)圖像的在各個(gè)方向和尺度上的變化，且對(duì)光照變化具有很好的魯棒性[14]。為此，以直方圖序列形式將人臉圖像轉(zhuǎn)換為特征向量，應(yīng)用Gabor濾波器在頻域上獲得初始特征。Gabor濾波器定義如下

(4)

3.2 利用KPCA進(jìn)行特征提取

在上述Gabor小波變換后，對(duì)獲得的小波系數(shù)進(jìn)行降維以獲得最終的特征。使用KPCA來對(duì)小波系數(shù)進(jìn)行處理，建立基礎(chǔ)Ψ，提取高階統(tǒng)計(jì)特征。KPCA是傳統(tǒng)PCA在高維特征空間的應(yīng)用，使其能夠捕獲高維空間的非線性信息，以此提高性能。KPCA的特征值可通過式(5)計(jì)算[11]

(5)

vφ的所有λ≠0的解都位于φ(x1),…,φ(xn)范圍內(nèi)，存在系數(shù)αi如

(6)

定義N×N核矩陣K，有

Ki,j=φ(xi)·φ(xj)

(7)

將式(6)乘以φ(xj)，代入式(7)，得到

NλKα=K2α

(8)

該特征值求解問題可表示為更簡(jiǎn)單的特征值問題

Nλα=Kα

(9)

特征空間的投影由下式執(zhí)行

(10)

可見，只需利用核函數(shù)就可以從原始圖像中提取出k個(gè)非線性主成分，無需較大的計(jì)算量。

3.3 非約束字典學(xué)習(xí)優(yōu)化

得到最優(yōu)矩陣K∈RN×N后，利用優(yōu)化程序?qū)γ總€(gè)原子項(xiàng)進(jìn)行優(yōu)化，令dj∈Rm為K的第j原子項(xiàng)，假設(shè)xj*∈R1×N的行向量為K的第j行，固定K和所有原子項(xiàng)，構(gòu)建下面的優(yōu)化問題[13]

(11)

設(shè)置E=Y-∑k≠jdkxk*，消除不相關(guān)項(xiàng)，上式可簡(jiǎn)化為

(12)

由于H(dj)為凸，H(dj)關(guān)于dj的梯度設(shè)為零，得到最優(yōu)解

(13)

3.4 基于稀疏表示的分類

A=[A1,A2,…,AM]

(14)

使用字典A，任何新的測(cè)試圖像y∈Rd×1可以由與其類m相關(guān)聯(lián)的訓(xùn)練特征空間的線性度來近似表示

y=Amam

(15)

實(shí)際上，測(cè)試圖像y可能被部分破壞或遮擋。在這種情況下，式(15)中的模型可被重寫為

(16)

(17)

(18)

(19)

3.5 算法過程

提出的姿態(tài)識(shí)別算法如算法1所示。

為了給KPCA提供合適的訓(xùn)練集，對(duì)于每個(gè)類m，將訓(xùn)練樣本劃分為兩個(gè)子集。第一個(gè)子集包含少量的人臉圖像nm，并且其通過Gabor小波變換和傳統(tǒng)PCA構(gòu)建初始特征空間。第二個(gè)則被用于KPCA學(xué)習(xí)。所有姿態(tài)類的本征空間用于稀疏表示分類，作為過完備字典。然后，在稀疏表示分類器出現(xiàn)分類錯(cuò)誤的情況下，通過應(yīng)用KPCA，將新的訓(xùn)練樣本添加到基礎(chǔ)特征空間中。因此，SR的字典會(huì)隨著每次錯(cuò)誤分類而更新。結(jié)合不正確分類的姿態(tài)能夠改善稀疏表示分類器的適應(yīng)能力，提高分類精度，特別是當(dāng)圖像分辨率非常低或光照條件動(dòng)態(tài)變化時(shí)。

算法1：提出的人臉姿態(tài)識(shí)別算法

(1)輸入：來自M類的訓(xùn)練圖像矩陣I={I1,I2,…,IM}，其中Im∈Rd×nm表示類m的圖像集，d為每個(gè)圖像的維度(以向量形式表示)，nm為類m中圖像的數(shù)量。

(4)使用式(19)，將重建殘差最小的類m來標(biāo)記新訓(xùn)練圖像。

(5)判斷新圖像是否用正確的類別標(biāo)記？

是，則返回步驟(3)；

否，繼續(xù)執(zhí)行步驟(6)。

(6)通過KPCA更新訓(xùn)練圖像所屬類的本征空間。

(7)返回步驟(3)。

4 實(shí)驗(yàn)及分析

在UMIST低分辨率姿態(tài)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)，以評(píng)估提出的方法對(duì)低分辨率圖像的魯棒性。然后，在CMU-PIE數(shù)據(jù)庫(kù)和戶外人臉(LFW)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)，評(píng)估其對(duì)姿態(tài)和光照變化的魯棒性，并將其與現(xiàn)有方法進(jìn)行比較，提出的方法利用MATLAB和C語(yǔ)言混合編程。

4.1 在低分辨率人臉圖像上的性能

為了測(cè)試所提出的方法對(duì)于低分辨率圖像的性能，在UMIST人臉數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)。UMIST人臉庫(kù)由英國(guó)曼徹斯特大學(xué)創(chuàng)建，包括20人的564張人臉圖像。

利用人臉圖像的平面角度偏差，將臉部圖像分類為5個(gè)姿態(tài)類別(即正面人臉、全左臉、全右臉、1/4左臉、和1/4右臉)。正常面部圖像為36×36像素，為了進(jìn)行低分辨率實(shí)驗(yàn)，將原始圖像從36×36的像素向下采樣到30×30、24×24、18×18和9×9像素。UMIST數(shù)據(jù)庫(kù)中各種姿態(tài)的一些低分辨率圖像如圖3所示。

圖3 來自UMIST數(shù)據(jù)庫(kù)中的低分辨率姿態(tài)圖像

表1給出了人臉識(shí)別結(jié)果的混淆矩陣。其中，L、QL、F、QR、R分別表示全左臉、1/4左臉、正面人臉、全右臉、和1/4右臉。可以看出，提出的方法對(duì)各種人臉姿態(tài)的正確識(shí)別率都較高，分別達(dá)到了91.36%、91.55%、94.38%、90.53%和91.36%。整體準(zhǔn)確率達(dá)到了91.84%。其中，L和QL，R和QR由于比較接近，所以誤分類相對(duì)較多。

表1 UMIST上不同分辨率人臉姿態(tài)分類的混淆矩陣/%

為了研究對(duì)不同分辨率臉部圖像的分類效果，在不同分辨率圖像集合下進(jìn)行姿態(tài)分類實(shí)驗(yàn)，獲得的平均分類率見表2?？梢钥闯?，提出的方法對(duì)于18×18和24×24分辨率的姿態(tài)圖像分別獲得了87.53%和88.24%的分類率，對(duì)于正常36×36分辨率獲得了90.21%的分類率。這個(gè)結(jié)果表明，在分辨率下降時(shí)，所提出的方法的分類率并沒有明顯降低，這驗(yàn)證了其在低分辨率圖像上是有效的。

表2 不同圖像分辨率的分類率/%

4.2 光照變化的人臉姿態(tài)識(shí)別的性能

為了評(píng)估提出的方法對(duì)光照和姿態(tài)變化的魯棒性，在CMU-PIE數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn)。CMU-PIE數(shù)據(jù)集包含70個(gè)不同的人在13種不同姿態(tài)、43種不同的光照以及4種不同的表情下的68張面部圖像。其使用了13個(gè)相機(jī)，每個(gè)相機(jī)定位在不同位置以提供特殊的相對(duì)姿態(tài)角，從而獲得不同姿態(tài)的人臉。從CMU-PIE數(shù)據(jù)庫(kù)中選擇出70個(gè)人的8260張圖像組成實(shí)驗(yàn)數(shù)據(jù)集，如圖4所示。

圖4 CMU-PIE圖像

對(duì)于訓(xùn)練，使用來自30個(gè)人(每人180個(gè)樣本)的不同姿態(tài)的圖像。將人臉區(qū)域下采樣到24×24的像素點(diǎn)。KPCA的初始特征空間由來自2個(gè)人的360張圖像(每個(gè)人包括9個(gè)姿態(tài)和20個(gè)光照)構(gòu)建，然后通過應(yīng)用KPCA將訓(xùn)練集中的其它28個(gè)人的圖像添加到基礎(chǔ)本征空間中。對(duì)于9種不同姿態(tài)的分類混淆矩陣見表3。

表3 在CMU PIE中對(duì)9種姿態(tài)人臉的分類混淆矩陣/%

從表3可以看出，提出的方法對(duì)不同光照下各種姿態(tài)圖像的分類率都較高，表明提出的方法利用ASM姿態(tài)矯正有助于提升姿態(tài)變化的魯棒性。

接著，將提出的方法與其它姿態(tài)識(shí)別方法進(jìn)行比較，包括文獻(xiàn)[7]提出的基于姿態(tài)相似性特征空間和AdaBoost的方法(PSFS-AdaBoost)，文獻(xiàn)[8]提出的Gabor結(jié)合各向異性擴(kuò)散的方法(Gabor-AD)，文獻(xiàn)[9]提出的熵加權(quán)Gabor結(jié)合ASSM的方法(Gabor-ASSM)，在CMU-PIE數(shù)據(jù)庫(kù)上執(zhí)行對(duì)比實(shí)驗(yàn)，為了公平比較，借鑒文獻(xiàn)[7]的實(shí)驗(yàn)設(shè)置，訓(xùn)練集中包括15個(gè)人、4個(gè)對(duì)應(yīng)于光源01、04、13和14的光照變化，且表情變化有平常、微笑和眨眼。來自53人的其它圖像用于測(cè)試。表4給出了幾種方法的識(shí)別率。

表4 CMU PIE數(shù)據(jù)庫(kù)上9個(gè)不同姿態(tài)人臉的識(shí)別率

從表4可以看出，在大部分圖像上，提出的方法具有較高的識(shí)別率，極少數(shù)圖片上低于其它幾種方法。比較平均識(shí)別率可以看出，提出的方法平均識(shí)別率最高。

4.3 LFW數(shù)據(jù)庫(kù)上的識(shí)別性能

LFW人臉數(shù)據(jù)庫(kù)[9]是無約束人臉識(shí)別最常用的數(shù)據(jù)庫(kù)之一，該數(shù)據(jù)庫(kù)中含有13 223張來自5729位對(duì)象的不同表情、不同姿態(tài)以及不同程度遮擋的人臉圖像。人臉識(shí)別性能以平均精度的形式給出，嚴(yán)格地只使用LFW樣本，不使用外部數(shù)據(jù)。圖5為L(zhǎng)FW人臉庫(kù)上的圖像示例。

圖5 LFW人臉庫(kù)圖像

從LFW人臉數(shù)據(jù)庫(kù)中選取300個(gè)對(duì)象、每個(gè)對(duì)象10張人臉圖像進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)對(duì)偏航角大于10°且正鏡面臉偏航大于40°的樣本進(jìn)行不可見區(qū)域填充。隨機(jī)選取5張用于訓(xùn)練，剩余的5張用于測(cè)試，將幾種方法分別進(jìn)行20次實(shí)驗(yàn)，記錄每次實(shí)驗(yàn)所得識(shí)別率，并計(jì)算標(biāo)準(zhǔn)差，幾種方法的識(shí)別結(jié)果見表5。

表5表明，相比PSFS-AdaBoost方法、Gabor-AD方法和Gabor-ASSM，提出的方法識(shí)別率最高。提出的方法利用ASM進(jìn)行姿態(tài)矯正，可以明顯提高對(duì)姿態(tài)變化人臉圖像的魯棒性。利用字典學(xué)習(xí)優(yōu)化，可以更好地保留有用特征。此外，提出的方法在判斷所識(shí)別圖像是否為正確類別后，及時(shí)地對(duì)訓(xùn)練樣本特征空間進(jìn)行了更新操作，一定程度上提升了訓(xùn)練系統(tǒng)的識(shí)別能力。

表5 幾種方法在LFW上的識(shí)別結(jié)果

提出的方法在標(biāo)準(zhǔn)差方面與Gabor-AD相當(dāng)，明顯低于Gabor-ASSM方法，略高于PSFS-AdaBoost方法。AdaBoost算法是一個(gè)非常穩(wěn)定的分類算法，PSFS-AdaBoost方法將AdaBoost算法用于分類，故相對(duì)于其它分類算法具有更加穩(wěn)定的性能。而Gabor-ASSM方法在分類過程中一定程度上依賴先驗(yàn)分布和隨機(jī)過程，故在穩(wěn)定性方面遜色于其它幾種方法。

4.4 性能比較

僅在識(shí)別率方面優(yōu)于其它幾種方法，不足以表明提出的方法的優(yōu)越性，故記錄了幾種方法在LFW上的訓(xùn)練總完成時(shí)間、測(cè)試1張圖像所需時(shí)間。在配有Intel酷睿i5雙核處理器、2.49 GHz主頻、4 GB RAM的PC機(jī)上進(jìn)行實(shí)驗(yàn)，采用MATLAB 7.0和C混合編程，結(jié)果見表6。

表6 幾種方法在LFW上的運(yùn)行時(shí)間

從表6可以看出，提出的方法所需訓(xùn)練總完成時(shí)間高于其它幾種方法，與Gabor-ASSM方法相當(dāng)，明顯高于其它兩種方法。提出的方法所需步驟比較多，在ASM姿態(tài)矯正方面需要花費(fèi)一定時(shí)間，測(cè)試完更新訓(xùn)練系統(tǒng)的特征空間也需要花費(fèi)一定時(shí)間。比較測(cè)試時(shí)間可以發(fā)現(xiàn)，提出的方法識(shí)別一個(gè)樣本僅需1.05 s，明顯低于其它幾種方法，且完全符合現(xiàn)實(shí)應(yīng)用中的實(shí)時(shí)性需求。

通常人臉識(shí)別系統(tǒng)的訓(xùn)練過程都是離線完成，故訓(xùn)練時(shí)間多不會(huì)影響識(shí)別系統(tǒng)的性能。提出的方法訓(xùn)練時(shí)間高于其它幾種方法，測(cè)試一個(gè)樣本所需時(shí)間均低于其它方法，表明提出的方法在識(shí)別方面更具優(yōu)勢(shì)。

5 結(jié)束語(yǔ)

針對(duì)低分辨率、光照強(qiáng)度和人臉表情變化下的人臉姿態(tài)識(shí)別，提出了一種融合ASM姿態(tài)矯正和非約束字典學(xué)習(xí)優(yōu)化的人臉識(shí)別方法。在UMIST、CMU-PIE及LFW人臉數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn)，分析了低分辨率、不同光照、表情和姿態(tài)下人臉圖像對(duì)識(shí)別方法性能的影響。結(jié)果表明了提出的方法能夠有效應(yīng)對(duì)這些環(huán)境變化，平均識(shí)別率都能達(dá)到90%以上，具有可行性和有效性。此外，提出的方法識(shí)別一個(gè)樣本僅需1.05 s，完全符合現(xiàn)實(shí)應(yīng)用中的實(shí)時(shí)性需求。

未來會(huì)將提出的方法進(jìn)行改進(jìn)，應(yīng)用于其它類型的圖像識(shí)別數(shù)據(jù)庫(kù)，例如人體動(dòng)作識(shí)別、手勢(shì)識(shí)別等，并結(jié)合最前沿的深度學(xué)習(xí)、機(jī)器學(xué)習(xí)技術(shù)，進(jìn)一步優(yōu)化訓(xùn)練系統(tǒng)和測(cè)試系統(tǒng)，降低所耗時(shí)間，在提高識(shí)別率的同時(shí)，更好地滿足實(shí)時(shí)性需求。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡