利潤(rùn)霖
(中國(guó)石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院, 青島 266580)
面向人臉識(shí)別的判別低秩字典學(xué)習(xí)算法①
利潤(rùn)霖
(中國(guó)石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院, 青島 266580)
人臉識(shí)別是計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域的一個(gè)研究熱點(diǎn), 有著十分廣泛的應(yīng)用前景. 人臉識(shí)別任務(wù)在訓(xùn)練樣本和測(cè)試樣本同時(shí)包含噪聲的情況下存在識(shí)別精度不高的問(wèn)題, 為此本文提出一個(gè)新的判別低秩字典學(xué)習(xí)和低秩稀疏表示算法(Discriminative Low-Rank Dictionary Learning for Low-Rank Sparse Representation, DLRD_LRSR).本文方法在模型中約束每個(gè)子字典和稀疏表示低秩避免噪聲干擾, 并引入了判別重構(gòu)誤差項(xiàng)增強(qiáng)系數(shù)的判別性. 為驗(yàn)證算法的有效性, 本文在3個(gè)公開(kāi)人臉數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)評(píng)估, 結(jié)果表明與現(xiàn)有字典學(xué)習(xí)算法相比, 本文算法能夠更好的解決訓(xùn)練樣本和測(cè)試樣本同時(shí)存在噪聲的人臉識(shí)別問(wèn)題.
字典學(xué)習(xí); 低秩矩陣恢復(fù); 人臉識(shí)別; 增廣拉格朗日乘子算法
經(jīng)過(guò)幾十年的發(fā)展, 稀疏編碼已經(jīng)變成一項(xiàng)熱門(mén)課題, 被神經(jīng)系統(tǒng)學(xué)科、信息理論、信號(hào)處理等相關(guān)領(lǐng)域的專(zhuān)家所研究[1-5]. 字典學(xué)習(xí)通常用于對(duì)信號(hào)進(jìn)行稀疏編碼, 通過(guò)一個(gè)完備字典中的少部分元素線性組合實(shí)現(xiàn)對(duì)樣本的重構(gòu). 在計(jì)算機(jī)視覺(jué)領(lǐng)域中, Olshausen和Field[1]于1996年提出了一個(gè)關(guān)于對(duì)人類(lèi)視覺(jué)系統(tǒng)細(xì)胞感受野建模的方法, 首次提出稀疏和過(guò)完備圖像表示的概念. 在此基礎(chǔ)上研究者提出許多字典學(xué)習(xí)算法并成功地應(yīng)用于人臉識(shí)別[4,6], 圖像分類(lèi)[7,8], 子空間聚類(lèi)[9], 圖像恢復(fù)[10], 運(yùn)動(dòng)分割[11]等領(lǐng)域.
Wright et al.[4]提出了一種基于稀疏編碼的分類(lèi)算法(SRC), 該算法將訓(xùn)練樣本組成的矩陣作為字典, 通過(guò)優(yōu)化重構(gòu)誤差求取樣本的稀疏表示并用于分類(lèi). 為了提高SRC算法的性能, 許多研究者對(duì)其做出了改進(jìn)[12-14],雖然這些算法都具備了很強(qiáng)的魯棒性, 但是在訓(xùn)練樣本過(guò)多的情況下會(huì)得到維數(shù)過(guò)高的字典, 從而導(dǎo)致空間和時(shí)間代價(jià)的增加. 為了避免字典維數(shù)過(guò)大的問(wèn)題,一些低維字典學(xué)習(xí)的方法先后被提出. KSVD[15]在字典學(xué)習(xí)過(guò)程中依據(jù)誤差最小原則, 對(duì)誤差項(xiàng)進(jìn)行SVD分解, 選擇使誤差最小的分解項(xiàng)作為更新的字典原子和對(duì)應(yīng)的原子系數(shù). 利用KSVD算法得到的字典對(duì)樣本重構(gòu)可以得到理想的效果, 但是該方法只關(guān)注于稀疏表示和字典原子對(duì)原始樣本線性重構(gòu)的誤差大小, 并沒(méi)有將字典的判別性考慮在內(nèi). 在KSVD的基礎(chǔ)上, Mairal et al.[8]通過(guò)在目標(biāo)函數(shù)中加入判別重構(gòu)約束增加稀疏表示的判別力. Zhang和Li et al.[16]提出了用于人臉識(shí)別的判別KSVD算法(D-KSVD), 該方法將線性分類(lèi)器融入了目標(biāo)函數(shù), 最終的目標(biāo)函數(shù)可通過(guò)KSVD的求解方法對(duì)字典和分類(lèi)器進(jìn)行共同學(xué)習(xí). 在此基礎(chǔ)上, Jiang et al.[17]提出LC-KSVD算法, 通過(guò)在目標(biāo)函數(shù)中加入標(biāo)簽一致約束項(xiàng), 增強(qiáng)字典的判別性. Lee et al.[18]和Wang et al.[19]提出了一種特殊的判別準(zhǔn)則去學(xué)習(xí)過(guò)完備的字典,有效地降低了計(jì)算的復(fù)雜度. Yang et al.[20]根據(jù)費(fèi)舍爾準(zhǔn)則構(gòu)建了一種判別重構(gòu)誤差約束, 并將字典定義為多個(gè)子字典的組合, 在迭代更新過(guò)程中減少類(lèi)內(nèi)的重構(gòu)誤差和類(lèi)間重構(gòu)增強(qiáng)字典判別力. 上述算法可以學(xué)習(xí)得到具有判別力的字典, 但是這些方法適用前提是圖像不存在噪聲(如KSVD、LC-KSVD)或者是圖像訓(xùn)練圖像不存在噪聲(如SRC), 在訓(xùn)練樣本和測(cè)試樣本同時(shí)存在噪聲的情況下, 訓(xùn)練數(shù)據(jù)存在噪聲使得字典訓(xùn)練難度的增加, 極大影響分類(lèi)的結(jié)果, 本文對(duì)比實(shí)驗(yàn)中也證實(shí)了這一點(diǎn), 針對(duì)這一問(wèn)題, 研究者提出了基于低秩表示的字典學(xué)習(xí)方法.
低秩矩陣恢復(fù)的方法在這幾年里得到了迅速的發(fā)展[21-23], Wright et al.[24]提出的RPCA算法通過(guò)低秩矩陣恢復(fù)和填充算法框架尋找數(shù)據(jù)潛在的低秩結(jié)構(gòu), 得到強(qiáng)魯棒性的低維表示. 由于其魯棒特性, RPCA成功地被運(yùn)用于背景去除[25], 目標(biāo)檢測(cè)[26], 目標(biāo)跟蹤[27]等領(lǐng)域. 在圖像分類(lèi)中, Chen et al.[28]利用低秩矩陣恢復(fù)去除訓(xùn)練樣本中的噪聲, 在人臉識(shí)別任務(wù)中獲得了強(qiáng)魯棒性的結(jié)果. Liu et al.[29]提出了低秩表示算法(LRR),LRR算法通過(guò)優(yōu)化得到能夠與字典對(duì)樣本進(jìn)行重構(gòu)的低秩矩陣. 利用低秩矩陣LRR在子空間分割中有著非常理想的性能. 基于LRR算法, 一系列面向圖像分類(lèi)的字典學(xué)習(xí)方法先后被提出. Ma et al.[30]提出了判別低秩字典學(xué)習(xí)算法(DLRD_SR), 通過(guò)在目標(biāo)函數(shù)中加入對(duì)子字典的低秩約束, 有效抑制了訓(xùn)練樣本存在噪聲的干擾, 學(xué)習(xí)得到干凈的低秩字典, 并在訓(xùn)練樣本與測(cè)試樣本同時(shí)存在噪聲的人臉識(shí)別實(shí)驗(yàn)中得到了顯著的效果. 為了增強(qiáng)DLRD_SR算法的字典判別性, Li et al.[31]將費(fèi)舍爾判別準(zhǔn)則融入目標(biāo)函數(shù), 提出了面向圖像識(shí)別的判別低秩字典學(xué)習(xí)算法(D2L2R2). Zhang et al.[32]提出結(jié)構(gòu)化低秩表示算法, 通過(guò)在LRR的目標(biāo)函數(shù)中加入稀疏表示的結(jié)構(gòu)化正則項(xiàng)得到具有判別力的低秩表示, 該方法并沒(méi)有在字典更新階段加入有效約束, 針對(duì)這個(gè)缺陷, DLR_DL算法[33]在字典更新階段加入低秩約束, 增強(qiáng)了字典對(duì)樣本的表達(dá)能力. 然而文獻(xiàn)[32,33]在稀疏編碼過(guò)程中忽視了類(lèi)內(nèi)聚合以及類(lèi)間區(qū)分能力.
現(xiàn)有的基于低秩表示的方法雖然能夠有效處理訓(xùn)練樣本和測(cè)試樣本同時(shí)存在噪聲的問(wèn)題, 但是忽略了稀疏編碼和字典更新過(guò)程中判別性約束的統(tǒng)一性,DLRD_SR和DLR_DL在稀疏編碼過(guò)程中都沒(méi)有采取有效措施深入挖掘樣本類(lèi)內(nèi)聚合以及類(lèi)間區(qū)分能力, 而LSLRR是在字典更新過(guò)程中忽視了字典的判別性約束. 對(duì)此, 本文提出一個(gè)新的判別低秩字典學(xué)習(xí)方法,在編碼階段約束稀疏表示低秩并加入新的判別約束確保稀疏表示更具判別力; 在字典更新階段, 通過(guò)約束子字典低秩讓學(xué)習(xí)到的字典更加干凈和緊致; 本文算法通過(guò)逐類(lèi)更新子字典和以及低秩稀疏表示的方式, 有效提高了訓(xùn)練類(lèi)內(nèi)的聚合力以及類(lèi)間的區(qū)別力. 不同于DLRD_SR算法, 本文算法編碼過(guò)程中加入判別約束并約束稀疏表示低秩, 從而讓學(xué)習(xí)到的低秩稀疏表示具有更高的判別力. 與DLR_DL相比, 本文方法在編碼和字典更新過(guò)程中使用了統(tǒng)一判別重構(gòu)誤差約束, 能夠更好的保留原始數(shù)據(jù)中結(jié)構(gòu)信息. 實(shí)驗(yàn)結(jié)果證明, 與現(xiàn)有字典學(xué)習(xí)算法相比, 本文提出的DLRD_LRSR算法在存在噪聲的人臉識(shí)別任務(wù)中具有更好的性能表現(xiàn).
1.1 低秩矩陣恢復(fù)
假設(shè)矩陣X可以被分解為兩個(gè)矩陣, i.e., X=A+E,A為低秩矩陣, E為稀疏噪聲矩陣. 低秩矩陣恢復(fù)旨在找到一個(gè)低秩的A近似表示X. 低秩矩陣恢復(fù)可以視為以下優(yōu)化問(wèn)題:
λ為噪聲矩陣E權(quán)重參數(shù). 因?yàn)榍蠼?1)是一個(gè)NP-hard的問(wèn)題. 為了能夠求解問(wèn)題(1), 文獻(xiàn)[24]證明了在矩陣A為低秩且E為稀疏矩陣情況下, 問(wèn)題(1)可以等價(jià)于:
1.2 低秩表示
在圖像分類(lèi)問(wèn)題中, 可以認(rèn)為相同類(lèi)別的樣本特征來(lái)自同一子空間, 而不同類(lèi)別的樣本特征分別來(lái)自不同子空間. 文獻(xiàn)[29]證實(shí)了存在一個(gè)低秩的矩陣可以揭示樣本之間的成員關(guān)系, 并提出了低秩表示算法(LRR),可以公式化為:
1.3 低秩字典學(xué)習(xí)
文獻(xiàn)[30]提出了低秩字典的算法(DLRD_SR),DLRD_SR通過(guò)約束子字典低秩, 在訓(xùn)練字典的過(guò)程中減少訓(xùn)練樣本存在噪聲的影響進(jìn)而學(xué)習(xí)到干凈的低秩字典. 給出一組數(shù)據(jù), Xi為i類(lèi)的樣本, c為樣本類(lèi)別的數(shù)量, d為特征的維數(shù), N為訓(xùn)練樣本的總數(shù). X中可能會(huì)包含噪聲, 如遮擋, 像素缺失以及光照陰影等. 低秩矩陣恢復(fù)可以將受噪聲干擾的矩陣X分解為一個(gè)低秩組合矩陣DZ和一個(gè)稀疏的噪聲矩陣E, i.e., X=DZ+E. 假設(shè)字典包含c個(gè)子字典, 其中K為字典的維數(shù)大小, Di為類(lèi)i子字典.為低秩稀疏表示, Z可以表示為DLRD_SR算法模型可以公式化為:
Zi為Xi相對(duì)于字典D的稀疏表示, Zi,j為Xi相對(duì)于字典Dj的稀疏表示,. 文獻(xiàn)中實(shí)驗(yàn)結(jié)果證明DLRD_SR能夠很好處理人臉識(shí)別任務(wù)中存在噪聲的問(wèn)題.
受到相關(guān)工作啟發(fā), 本文提出一種新的用于人臉識(shí)別的低秩字典學(xué)習(xí)算法, 減少存在訓(xùn)練樣本中的噪聲干擾, 學(xué)習(xí)干凈字典以及具有判別力的低秩稀疏表示. 通過(guò)約束每個(gè)子字典和稀疏表示低秩, 有效減少噪聲干擾, 并在編碼過(guò)程中加入新的判別重構(gòu)誤差項(xiàng), 增強(qiáng)低秩稀疏表示的判別力. 實(shí)驗(yàn)表明本文算法有以下優(yōu)點(diǎn):
1)本文方法通過(guò)約束每個(gè)子字典低秩, 有效減少噪聲的干擾, 獲得干凈緊致的低秩字典. 低秩字典能夠有效提高稀疏表示的判別力.
2)引入判別重構(gòu)誤差項(xiàng), 逐類(lèi)更新子字典和以及低秩稀疏表示, 增強(qiáng)了字典和低秩稀疏表示的判別力,提高了分類(lèi)精度.
為了解決人臉識(shí)別任務(wù)中存在噪聲的問(wèn)題, 本文提出一個(gè)新的判別低秩字典學(xué)習(xí)算法. 本文的模型可以表示為:
Zi可以進(jìn)一步表示為, 其中Zji為子字典Dj相對(duì)于Xi的低秩稀疏表示. 假設(shè)Xi為未受噪聲干擾的樣本, 則樣本能夠被字典和稀疏表示重構(gòu),所以有, 因此我們約束和最小化(為Frobenius范數(shù)), 而矩陣的元素值也應(yīng)接近于零, 從而使的值最小化. 由此, 定義判別重構(gòu)誤差項(xiàng)為:
加入重構(gòu)誤差項(xiàng), 本文的模型可以表示為:
本文的模型可以通過(guò)迭代優(yōu)化字典D和低秩稀疏表示Z求解, 具體步驟在第3節(jié)中提出.
為了求解公式(7)的優(yōu)化問(wèn)題, 可以將模型優(yōu)化分解為兩個(gè)子問(wèn)題: 首先, 固定字典D以及對(duì)逐個(gè)進(jìn)行更新, 合并所有Zi可以獲得低秩稀疏表示矩陣Z; 然后固定逐個(gè)更新子字典Di. 通過(guò)迭代這兩步最終可以得到最優(yōu)化的低秩字典D.
3.1 更新X
假設(shè)字典D固定, 原始的目標(biāo)函數(shù)(7)可以視為稀疏編碼問(wèn)題, 固定逐個(gè)進(jìn)行更新, 可以通過(guò)求解以下問(wèn)題來(lái)實(shí)現(xiàn):
為在不受噪聲的影響的情況下得到低秩稀疏表示.本文在判別重構(gòu)誤差項(xiàng)中加入噪聲項(xiàng)Ei.為了求解公式(10)引入兩個(gè)輔助變量H和W, 可以化為以下等價(jià)形式:
這個(gè)優(yōu)化問(wèn)題可以通過(guò)增廣拉格朗日乘子方法[38]求解, 將公式(11)轉(zhuǎn)化為以下增廣拉格朗日函數(shù):
式中, 〈A,B〉=trace (ATB); Y1、Y2、Y3為拉格朗日乘子; μ為正數(shù)懲罰因子. 通過(guò)逐個(gè)更新H, Zi, W, Ei來(lái)求解問(wèn)題(11), 算法1歸納了求解的過(guò)程.
3.2 更新D
得到優(yōu)化系數(shù)Z后, 固定然后對(duì)Di逐個(gè)進(jìn)行更新. 當(dāng)Di更新后, Xi相對(duì)于Di的稀疏表示Zii也應(yīng)得到更新. 可以得到以下目標(biāo)函數(shù):
公式(20)可以通過(guò)依次更新L, Zii, J, Di, Ei來(lái)求解,算法2歸納了求解問(wèn)題(19)的過(guò)程. 由于在更新字典時(shí)需要對(duì)字典的列向量單位化, 不能保證算法2能夠收斂,因此需要設(shè)置最大迭代次數(shù), 但是在實(shí)驗(yàn)中, 算法2總能在到達(dá)最大迭代次數(shù)之前就能得到收斂的結(jié)果. 在實(shí)驗(yàn)中, 我們使用KSVD對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練, 得到的字典作為本文算法的初始字典. DLRD_LRSR算法的整體流程在總結(jié)在算法3中.
3.3 分類(lèi)器
通過(guò)算法3, 我們可以得到優(yōu)化的判別低秩字典和訓(xùn)練數(shù)據(jù)X對(duì)應(yīng)的低秩稀疏表示Z. 測(cè)試數(shù)據(jù)Xtest對(duì)應(yīng)的表示Ztest可以通過(guò)求解以下優(yōu)化問(wèn)題得到:
我們可以通過(guò)設(shè)置公式(11)中的參數(shù)γ1為零使用算法1求解公式(26)得到測(cè)試樣本的低秩稀疏表示.
本文使用多元線性嶺回歸模型[27]訓(xùn)練分類(lèi)器:
本文在Extended Yale B[39], UMIST[40], AR[41]三個(gè)人臉數(shù)據(jù)集上對(duì)DLRD_LRSR進(jìn)行了評(píng)估. 為了測(cè)試算法的性能, 本文方法與當(dāng)前流行的字典學(xué)習(xí)算法進(jìn)行比較, 并分別在光照變化、像素缺失、均勻分布噪聲、和塊遮擋的情況下測(cè)試算法的魯棒性.
在實(shí)驗(yàn)中我們發(fā)現(xiàn)參數(shù)γ1, γ2, β1, β2, β3取值的大小對(duì)結(jié)果影響很小, 因此將它們的值都設(shè)置為1. 其他參數(shù)分別通過(guò)5-fold交叉驗(yàn)證得到: 對(duì)于Extended Yale B數(shù)據(jù)集λ1=5, λ2=0.09, λ3=2; 對(duì)于AR數(shù)據(jù)集 λ1=10,λ2=0.2, λ3=5; 對(duì)于UMIST數(shù)據(jù)集 λ1=10, λ2=0.2, λ3=4.
4.1 Extended Yale B數(shù)據(jù)集
Extended Yale B數(shù)據(jù)集包含38人的共2414張正臉圖像, 分別在不同光照條件下拍攝, 每張圖像分辨率為192×168像素, 每個(gè)人分別有59-64張圖像. 本文首先將原始圖像按照1/8的比例下采樣得到504維的特征向量,為了測(cè)試算法在像素缺失情況下的魯棒性, 從每張圖像(包括訓(xùn)練和測(cè)試樣本)隨機(jī)選取一定比例的像素點(diǎn)并用255取代其像素值, 圖1展示了處理后的圖像樣本示例. 每次實(shí)驗(yàn)隨機(jī)從每個(gè)人的臉部圖像中隨機(jī)挑選32個(gè)樣本作為訓(xùn)練集, 剩下的部分作為測(cè)試集. 本文方法分別與SRC[4]、KSVD[15]、LC-KSVD[17]、DLRD_SR[30]和LSLRR[32]算法進(jìn)行對(duì)比. DLRD_LRSR和對(duì)比方法中的KSVD、LC-KSVD、DLRD_SR學(xué)習(xí)得到的字典每類(lèi)包含20個(gè)原子, 共760個(gè)原子. SRC選取所有的訓(xùn)練樣本作為字典, 包含1216個(gè)原子. 分別重復(fù)實(shí)驗(yàn)10次取平均值作為實(shí)驗(yàn)結(jié)果.
圖1 Extended Yale B數(shù)據(jù)集5%像素缺失示例
表1對(duì)不同算法識(shí)別結(jié)果進(jìn)行了比較, 可以看到SRC、KSVD和LC-KSVD的準(zhǔn)確率隨著噪聲比例的增加而急劇下降, 而SRC得到比KSVD、LC-KSVD更高的識(shí)別結(jié)果. 證實(shí)了它們都不能很好處理噪聲問(wèn)題, 而SRC因?yàn)榭蛇m用于測(cè)試圖片存在噪聲的場(chǎng)景, 因此得到更高的識(shí)別結(jié)果. 而本文算法DLRD_LRSR與LSLRR、DLRD_SR在噪聲存在的情況下?lián)碛斜绕渌椒ǜ玫聂敯粜? 這說(shuō)明了低秩約束擁有良好的抑制噪聲影響的能力. 本文算法在不同比例的像素缺失實(shí)驗(yàn)中的準(zhǔn)確率均大于DLRD_SR和LSLRR的識(shí)別結(jié)果, 0%~20%之間, 缺失率越高, 差距越明顯, 甚至在20%像素缺失的情況下的識(shí)別結(jié)果高于LSLRR 9.46個(gè)百分點(diǎn), 展示了DLRD_LRSR處理訓(xùn)練樣本存在噪聲問(wèn)題的顯著性能, 說(shuō)明了DLRD_LRSR約束子字典和稀疏系數(shù)低秩有效降低了噪聲干擾, 重構(gòu)誤差項(xiàng)能夠保留噪聲樣本之間的判別性, 顯著提高存在噪聲情況下的識(shí)別精度.
表1 Extended Yale B數(shù)據(jù)集像素缺失實(shí)驗(yàn)識(shí)別率(%)
4.2 UMIST人臉數(shù)據(jù)集
UMIST人臉數(shù)據(jù)集包含26人共564張人臉圖像. 數(shù)據(jù)集中所有圖像分辨率為112×192像素. 在本次實(shí)驗(yàn)中,測(cè)試本文算法在隨機(jī)噪聲以及塊遮擋情況下的魯棒性.選擇每個(gè)人的前20張圖片用于實(shí)驗(yàn), 并從中隨機(jī)挑選一半圖像作為訓(xùn)練集, 剩下則作為測(cè)試集. 每張圖像下采樣為24×21像素. 隨機(jī)噪聲實(shí)驗(yàn)中, 圖像被添加10%~50%的均勻噪聲. 遮擋實(shí)驗(yàn)中, 用10%~50%的隨機(jī)圖像塊遮擋圖像的隨機(jī)位置. 圖2展示了兩種噪聲的示例. 本文算法分別與SRC、KSVD、LC-KSVD、DLRD_SR、LSLRR進(jìn)行對(duì)比, 所有算法訓(xùn)練得到的字典維度大小均為訓(xùn)練樣本個(gè)數(shù).
圖2 UMIST數(shù)據(jù)集圖像示例: 第一行為添加隨機(jī)噪聲的圖像, 第二行為添加塊遮擋的圖像
表2列出了不同比例塊遮擋下的識(shí)別率, 表3則為不同比例均勻噪聲下的識(shí)別率. 可以發(fā)現(xiàn)在表2和表3中SRC、KSVD和LC-KSVD的準(zhǔn)確率隨著噪聲比例的增加而急劇下降, 而SRC得到比KSVD、LC-KSVD更高的識(shí)別結(jié)果, 表現(xiàn)出了與實(shí)驗(yàn)一相同的性質(zhì). 在多數(shù)情況下, DLRD_LRSR擁有比其他方法更高的準(zhǔn)確率,特別在50%均勻噪聲和50%塊狀遮擋比例下, 本文算法分別比LSLRR提高了1.11和0.78個(gè)百分點(diǎn), 充分說(shuō)明了通過(guò)約束子字典和稀疏表示低秩, DLRD_LRSR在訓(xùn)練過(guò)程中能夠有效降低了噪聲干擾, 因此在存在高遮擋和高隨機(jī)噪聲的場(chǎng)景下?lián)碛斜绕渌惴ǜ叩男阅?實(shí)驗(yàn)結(jié)果證明了本文算法中的低秩稀疏表示在存在隨機(jī)噪聲和塊遮擋的人臉識(shí)別任務(wù)中具有顯著的效果.
表2 UMIST數(shù)據(jù)集塊遮擋實(shí)驗(yàn)識(shí)別率(%)
表3 UMIST數(shù)據(jù)集均勻噪聲實(shí)驗(yàn)識(shí)別率(%)
4.3 AR數(shù)據(jù)集
AR數(shù)據(jù)集包含126人超過(guò)4000張的正臉圖像. 每個(gè)人26幅圖像, 分為2組, 每組每人13張, 其中未受遮擋的圖像7張, 受太陽(yáng)眼鏡和圍巾遮擋的圖像各有3張, 這些圖像的拍攝時(shí)間間隔為2周. 每組圖像分別反映了人臉的表情、光照以及遮擋(墨鏡或圍巾)的變化. 在實(shí)驗(yàn)中, 選用了包含50個(gè)男性目標(biāo)和50個(gè)女性目標(biāo)的子集,并將原始圖像下采樣到25×20像素, 圖3展示了AR圖像示例, 本文算法在Sunglasses、Scarf以及Mixed三個(gè)實(shí)驗(yàn)中與其他方法進(jìn)行比較, 三個(gè)實(shí)驗(yàn)設(shè)置與文獻(xiàn)[33]一致. 本文算法分別與SRC、KSVD、LC-KSVD、DLRD_SR、LSLRR和DLR_DL[33]進(jìn)行對(duì)比, 所有算法訓(xùn)練得到的字典維度大小均為訓(xùn)練樣本個(gè)數(shù). 每個(gè)實(shí)驗(yàn)分別重復(fù)實(shí)驗(yàn)10次最后求平均值作為本文方法的最后結(jié)果.
圖3 AR數(shù)據(jù)集圖像示例
表4列出了DLRD_LRSR與其他方法在AR數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果. 可以看出, SRC、KSVD和LC-KSVD算法并不能很好地解決遮擋問(wèn)題, 而SRC仍比KSVD和LC-KSVD有著更高的識(shí)別結(jié)果. 與DLRD_SR、LSLRR和DLR_DL算法相比, 本文算法有了很明顯的提升, 在Sunglass、Scarf和Mixed場(chǎng)景中分別比DLR_DL提高了3.72、4.76和5.92個(gè)百分點(diǎn), 證明了本文算法能夠有效的處理AR數(shù)據(jù)集中存在的光照、表情以及遮擋的問(wèn)題, 并且在越復(fù)雜的場(chǎng)景(太陽(yáng)鏡遮擋比例大約20%,圍巾遮擋比例大約40%, Mixed兩者皆有)下DLRD_LRSR越能有顯著的表現(xiàn).
表4 AR數(shù)據(jù)集實(shí)驗(yàn)識(shí)別率(%)
本文提出了一種用于人臉識(shí)別的新的判別低秩字典學(xué)習(xí)和低秩稀疏表示算法. 首先, 為了增強(qiáng)字典的判別力, 本文引入了判別重構(gòu)誤差項(xiàng), 通過(guò)最小化類(lèi)內(nèi)重構(gòu)誤差以及類(lèi)間重構(gòu)生成低秩稀疏表示; 其次, 分別約束每個(gè)子字典和稀疏表示低秩減少了訓(xùn)練樣本中存在噪聲的干擾, 最終得到干凈的字典. 本文在3個(gè)公開(kāi)人臉數(shù)據(jù)集上的實(shí)驗(yàn)證明了本文提出的DLRD_LRSR算法在光照變化、隨機(jī)噪聲、像素缺失以及遮擋的情況下具有較強(qiáng)的魯棒性. 由于在求解的時(shí)候采用了增廣拉格朗日算法, 本文算法和大多數(shù)低秩方法一樣, 存在計(jì)算效率不高的限制, 因此效率更高的低秩矩陣恢復(fù)的求解方法是我們未來(lái)要開(kāi)展的工作.
1Olshausen BA, Field DJ. Emergence of simple-cell receptive field properties by learning a sparse code for natural images.Nature, 1996, 381(6583): 607–609. [doi: 10.1038/381607a0]
2Candes EJ, Romberg J, Tao T. Robust uncertainty principles:Exact signal reconstruction from highly incomplete frequency information. IEEE Trans. Information Theory,2006, 52(2): 489–509. [doi: 10.1109/TIT.2005.862083]
3Donoho DL. Compressed sensing. IEEE Trans. Information Theory, 2006, 52(4): 1289–1306. [doi: 10.1109/TIT.2006.871582]
4Wright J, Yang AY, Ganesh A, et al. Robust face recognition via sparse representation. IEEE Trans. Pattern Analysis and Machine Intelligence, 2009, 31(2): 210–227. [doi: 10.1109/TPAMI.2008.79]
5Elad M. Sparse and Redundant Representations: From Theory to Applications in Signal and Image Processing. New York: Springer, 2010.
6Wright J, Ma Y, Mairal J, et al. Sparse representation for computer vision and pattern recognition. Proc. IEEE, 2010,98(6): 1031–1044. [doi: 10.1109/JPROC.2010.2044470]
7Yang JC, Yu K, Gong YH, et al. Linear spatial pyramid matching using sparse coding for image classification. Proc.IEEE Conference on Computer Vision and Pattern Recognition, 2009. Miami, FL, USA. 2009. 1794–1801.
8Mairal J, Bach F, Ponce J, et al. Discriminative learned dictionaries for local image analysis. Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2008.Anchorage, AK, USA. 2008. 1–8.
9Elhamifar E, Vidal R. Sparse subspace clustering: Algorithm,theory, and applications. IEEE Trans. Pattern Analysis and Machine Intelligence, 2013, 35(11): 2765–2781. [doi:10.1109/TPAMI.2013.57]
10Mairal J, Elad M, Sapiro G. Sparse representation for color image restoration. IEEE Trans. Image Processing, 2008,17(1): 53–69. [doi: 10.1109/TIP.2007.911828]
11Rao SR, Tron R, Vidal R, et al. Motion segmentation via robust subspace separation in the presence of outlying,incomplete, or corrupted trajectories. Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2008.Anchorage, AK, USA. 2008. 1–8.
12Yang M, Zhang L, Yang J, et al. Robust sparse coding for face recognition. Proc. 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI,USA. 2011. 625–632.
13Huang JZ, Huang XL, Metaxas D. Learning with dynamic group sparsity. Proc. 12th International Conference on Computer Vision. Kyoto, Japan. 2009. 64–71.
14Yuan XT, Liu XB, Yan SC. Visual classification with multitask joint sparse representation. IEEE Trans. Image Processing, 2012, 21(10): 4349–4360. [doi: 10.1109/TIP.2012.2205006]
15Aharon M, Elad M, Bruckstein A. rmK-SVD: An algorithm for designing overcomplete dictionaries for sparse representation. IEEE Trans. Signal Processing, 2006, 54(11):4311–4322. [doi: 10.1109/TSP.2006.881199]
16Zhang Q, Li BX. Discriminative K-SVD for dictionary learning in face recognition. Proc. 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA. 2010. 2691–2698.
17Jiang ZL, Lin Z, Davis LS. Learning a discriminative dictionary for sparse coding via label consistent K-SVD.Proc. 2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA. 2011.1697–1704.
18Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms. Advances in Neural Information ProcessingSystems 19, Proc. Twentieth Annual Conference on Neural Information Processing Systems, Vancouver. British Columbia Canada. 2006. 801–808.
19Wang JJ, Yang JC, Yu K, et al. Locality-constrained linear coding for image classification. Proc. 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA, USA. 2010. 3360–3367.
20Yang M, Zhang L, Feng XC, et al. Fisher discrimination dictionary learning for sparse representation. Proc. 2011 IEEE International Conference on Computer Vision (ICCV).Barcelona, Spain. 2011. 543–550.
21Candès EJ, Li XD, Ma Y, et al. Robust principal component analysis?. Journal of the ACM (JACM), 2011, 58(3): 11.
22Candes EJ, Plan Y. Matrix completion with noise. Proc.IEEE, 2010, 98(6): 925–936. [doi: 10.1109/JPROC.2009.2035722]
23Candès EJ, Recht B. Exact matrix completion via convex optimization. Foundations of Computational Mathematics,2009, 9(6): 717–772. [doi: 10.1007/s10208-009-9045-5]
24Wright J, Ganesh A, Rao S, et al. Robust principal component analysis: Exact recovery of corrupted low-rank matrices via convex optimization. Advances in Neural Information Processing Systems. Vancouver, British Columbia, Canada. 2009. 2080–2088.
25Cui XY, Huang JZ, Zhang ST, et al. Background subtraction using low rank and group sparsity constraints. Fitzgibbon A,Lazebnik S, Perona P, et al. Computer Vision-ECCV 2012.Berlin Heidelberg, Germany. 2012. 612–625.
26Shen XH, Wu Y. A unified approach to salient object detection via low rank matrix recovery. Proc. 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Providence, RI, USA. 2012. 853–860.
27Zhang TZ, Ghanem B, Liu S, et al. Low-rank sparse learning for robust visual tracking. Fitzgibbon A, Lazebnik S, Perona P, et al. Computer Vision-ECCV 2012. Berlin Heidelberg,Germany. 2012. 470–484.
28Chen CF, Wei CP, Wang YCF. Low-rank matrix recovery with structural incoherence for robust face recognition. Proc.2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA. 2012.2618–2625.
29Liu G, Lin Z, Yu Y. Robust subspace segmentation by lowrank representation. International Conference on Machine Learning. Haifa, Isreal. 2010. 663–670.
30Ma L, Wang CH, Xiao BH, et al. Sparse representation for face recognition based on discriminative low-rank dictionary learning. Proc. 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, RI, USA.2012. 2586–2593.
31Li LY, Li S, Fu Y. Learning low-rank and discriminative dictionary for image classification. Image and Vision Computing, 2014, 32(10): 814–823. [doi: 10.1016/j.imavis.2014.02.007]
32Zhang Y, Jiang ZL, Davis LS. Learning structured low-rank representations for image classification. Proc. 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland, OR, USA. 2013. 676–683.
33Nguyen H, Yang WK, Sheng BY, et al. Discriminative lowrank dictionary learning for face recognition. Neurocomputing, 2016, 173: 541–551. [doi: 10.1016/j.neucom.2015.07.031]
34Rodriguez F, Sapiro G. Sparse representations for image classification: Learning discriminative and reconstructive non-parametric dictionaries. Minnesota, USA: University of Minnesota. 2008.
35Pham DS, Venkatesh S. Joint learning and dictionary construction for pattern recognition. Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2008. CVPR 2008. Anchorage, AK, USA. 2008. 1–8.
36Mairal J, Ponce J, Sapiro G, et al. Supervised dictionary learning. Advances in Neural Information Processing Systems. Vancouver, British Columbia, Canada. 2009.1033–1040.
37Yang JC, Yu K, Huang T. Supervised translation-invariant sparse coding. Proc. 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco, CA,USA. 2010. 3517–3524.
38Lin ZC, Chen MM, Ma Y. The augmented lagrange multiplier method for exact recovery of corrupted low-rank matrices. arXiv preprint arXiv:1009.5055, 2010.
39Lee KC, Ho J, Kriegman DJ. Acquiring linear subspaces for face recognition under variable lighting. IEEE Trans. Pattern Analysis and Machine Intelligence, 2005, 27(5): 684–698.[doi: 10.1109/TPAMI.2005.92]
40Graham DB, Allinson NM. Characterising virtual eigensignatures for general purpose face recognition.Wechsler H, Phillips PJ, Bruce V, et al. Face Recognition.Berlin Heidelberg, Germany. 1998. 446–456.
41Martinez AM, Benavente R. The AR face database.Technical Report 24. Barcelona, Spain: CVC, 1998.
Discriminative Low-Rank Dictionary Leaning For Face Recognition
LI Run-Lin
(College of Computer &Communication Engineering, China University of Petroleum, Qingdao 266580, China)
Face recognition is active in the field of computer vision and pattern recognition and has extremely wide-spread application prospect. However, the problem that both training images and testing images are corrupted is not well solved in face recognition task. To address such a problem, this paper proposes a novel Discriminative Low-Rank Dictionary Learning for Low-Rank Sparse Representation algorithm (DLRD_LRSR) aiming to learn a pure dictionary. We suggest each sub dictionary and sparse representation be low-rank for reducing the effect of noise in training samples and introduce a novel discriminative reconstruction error term to make the coefficient more discriminating. We demonstrate the effectiveness of our approach on three public face datasets. Our method is more effective and robust than the previous competitive dictionary learning method.
dictionary learning; low-rank matrix recovery; face recognition; ALM
利潤(rùn)霖.面向人臉識(shí)別的判別低秩字典學(xué)習(xí)算法.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(7):137–145. http://www.c-s-a.org.cn/1003-3254/5917.html
2016-11-18; 收到修改稿時(shí)間: 2017-01-16