鄧定勝
(四川民族學(xué)院理工學(xué)院,四川康定626001)
近年來,隨著計(jì)算機(jī)及人工智能技術(shù)的飛速發(fā)展,計(jì)算機(jī)人工智能逐漸通過替代人腦對(duì)周圍復(fù)雜環(huán)境進(jìn)行感知、識(shí)別和判斷,進(jìn)而代替人類完成一些常規(guī)的反饋行為。其中計(jì)算機(jī)視覺分析識(shí)別技術(shù)是其中關(guān)鍵一環(huán),依托于計(jì)算機(jī)視覺技術(shù)的圖像識(shí)別領(lǐng)域也是目前研究的熱點(diǎn)之一,廣泛應(yīng)用于圖像處理、自動(dòng)化控制、信息識(shí)別融合等領(lǐng)域[1-2]。人臉識(shí)別作為圖像識(shí)別中最為關(guān)鍵的應(yīng)用領(lǐng)域已在現(xiàn)代社會(huì)中得到廣泛的應(yīng)用。
有研究表明,稀疏表示分類方法(Sparse Representation Classification,SRC)在人臉識(shí)別技術(shù)領(lǐng)域取得了良好的識(shí)別效果[3]。SRC 對(duì)人臉面部區(qū)域進(jìn)行稀疏表示,把人臉區(qū)域表情動(dòng)作訓(xùn)練成一組冗余的基礎(chǔ)(字典)求解稀疏優(yōu)化問題,每一個(gè)字典代表一個(gè)特定的面部表情,基于這個(gè)完備字典去做分析并將面部辨識(shí)出來[4-6]。為此,學(xué)界對(duì)SRC 在人臉識(shí)別中的應(yīng)用進(jìn)行了大量研究,有學(xué)者基于稀疏表示進(jìn)行人臉識(shí)別,給出了具有代表性的完整字典,包括了大部分臉型的子空間,可快速甄別不同的人臉,同時(shí)采用經(jīng)典的字典訓(xùn)練方法將分類器的性能進(jìn)行優(yōu)化[7-8];也有學(xué)者提出可通過稀疏線性組合(Sparse Linear Combination,SLC)將多張訓(xùn)練影像組合成測(cè)試影像,該方法除了能有效改善影像對(duì)于光源、表情及遮蔽的情況,在分類效果上也優(yōu)于最近距離法及線性支持向量機(jī)[9]。為了進(jìn)一步證明SRC 在訓(xùn)練特征充足的情況下可以任意將臉部數(shù)據(jù)組成測(cè)試影像,有研究者將識(shí)別系統(tǒng)設(shè)計(jì)成每一類以數(shù)十張影像去涵蓋所有可能的光源變化,且大部分稀疏表示分類的相關(guān)研究也是基于此假設(shè)下的實(shí)驗(yàn)設(shè)置進(jìn)行比較,但對(duì)于測(cè)試樣本少的環(huán)境,SRC 仍具有一定局限[10]。因此,有學(xué)者提出了協(xié)同表示分類算法(Collaborative Representation Classification,CRC)用以針對(duì)樣本較少情況的人臉圖形識(shí)別[11]。
本研究將SRC 聯(lián)合CRC,并通過概率協(xié)同子空間,提出稀疏增強(qiáng)概率CRC。所謂稀疏增強(qiáng)即利用稀疏表示系數(shù)來增強(qiáng)概率系統(tǒng)表示分類算法的表示系數(shù),進(jìn)而解決測(cè)試樣本少、圖像遮擋及像素污染情況下的圖像識(shí)別問題,提高人臉識(shí)別的魯棒性,并應(yīng)用于機(jī)器學(xué)習(xí)中。
SRC是將一個(gè)信號(hào)樣本表達(dá)為字典元素中的一組線性組合的技術(shù)[12],
式中:X為信號(hào)樣本;D 為字典;A 為在字典D 上信號(hào)樣本X 的線性組合,且A 為稀疏性,即其中的非零項(xiàng)只有幾個(gè)或個(gè)數(shù)遠(yuǎn)大于為零的項(xiàng)數(shù)。在許多圖像處理或?qū)ο蠓诸愌芯恐幸炎C明稀疏表示用于信號(hào)樣本重構(gòu)相當(dāng)有效。
1.1.1 字典初始化
在字典學(xué)習(xí)訓(xùn)練中,有學(xué)者提出K-SVD 算法,每個(gè)信號(hào)找出一個(gè)完備字典D 使得X≈DA 成立。X 為一個(gè)n維度特征向量空間中的N個(gè)輸入信號(hào),表達(dá)式如下[13]:
在K-SVD 中通過固定第K 項(xiàng)迭代運(yùn)算解算式(1)的問題:
式中:D = [d1,d2,…,dK]∈Rn×K是學(xué)習(xí)訓(xùn)練出的字典;A = [a1,a2,…,aN]∈RK×N為輸入信號(hào)X在稀疏表示中的線性組合;T 為非零系數(shù)的期望數(shù)即稀疏程度式(3)可等價(jià)表示為
式中:ε是字典學(xué)習(xí)時(shí)的可容忍誤差。
1.1.2 字典學(xué)習(xí)
在求解式(3)的等價(jià)問題上,有學(xué)者使用正交匹配追蹤算法(Orthogonal Matching Pursuit,OMP)。OMP是一種貪婪式算法,在每次迭代過程中使用貪婪迭代的方法可以減少重建中的錯(cuò)誤。每次迭代時(shí),OMP 從字典中選出一個(gè)最相似的基礎(chǔ)向量,通過該向量投影后計(jì)算出新的余差值用來更新字典,根據(jù)已知信號(hào)X與字典D計(jì)算出最佳的稀疏表示α,即[14]:
K-SVD算法以兩階段來學(xué)習(xí)過完備字典:①為稀疏編碼階段。固定字典,用任一種追蹤算法來求解;②更新字典和稀疏系數(shù)階段。K-SVD的迭代流程如圖1所示。
圖1 K-SVD算法迭代流程圖
初始字典可由過完備基礎(chǔ)向量集或觀測(cè)數(shù)據(jù)本身的原子獲得。基于初始字典D,通過OMP 算法用式(3)將每個(gè)αi優(yōu)化,并允許每項(xiàng)系數(shù)向量擁有不超過T個(gè)非零系數(shù)元素來固定字典D。接著利用OMP 算法求出稀疏表示A 與已知輸入信號(hào)X 更新字典D 中每列dk的值,另外為稀疏表示A中的第k行,非零值的表示輸入信號(hào)X與dk間的線性組合關(guān)系。因此,式(1)可改寫成[15]:
式中:
dk和更新值可以通過求解式(6)得到:
K-SVD算法使用奇異值分解(SVD)將Ek進(jìn)行矩陣奇異值分解,尋找進(jìn)而更新dk。
為了解決SRC中字典不全等問題,有學(xué)者提出了CRC,并與概率子空間進(jìn)行結(jié)合,將SRC 中的約束條件進(jìn)行替換,得到如下的目標(biāo)函數(shù)[16]:
式中:λ為概率協(xié)同系數(shù)。
相比SRC,概率CRC 具有字典數(shù)量少、計(jì)算速度快以及識(shí)別率準(zhǔn)確等優(yōu)點(diǎn)。
本研究在概率CRC的基礎(chǔ)上,使用稀疏表示系數(shù)來增強(qiáng)概率協(xié)同表示系數(shù)的稀疏性,此時(shí)的目標(biāo)函數(shù):
式中:前兩項(xiàng)表示協(xié)同表示項(xiàng);第3 項(xiàng)表示稀疏增強(qiáng)項(xiàng);γ為平衡參數(shù)。
針對(duì)本研究的算法流程,首先計(jì)算出表示系數(shù),即利用K-SVD和OMP 算法得到表示系數(shù),特別是稀疏表示系數(shù)γ,隨后根據(jù)字典學(xué)習(xí)對(duì)測(cè)試樣本重新分類,具體流程如下所示:① 給出訓(xùn)練樣本矩陣X、字典D,以及在字典D上信號(hào)樣本X 的線性組合A。② 通過式(8)和(9)求得λ 及γ。③ 對(duì)目標(biāo)函數(shù)進(jìn)行最優(yōu)化求解,更新字典,從而獲得圖像的標(biāo)準(zhǔn)特征標(biāo)簽。
針對(duì)本研究建立的人臉辨識(shí)算法,需要測(cè)量標(biāo)準(zhǔn)評(píng)估算法,人臉圖像數(shù)據(jù)庫能夠提供在不同環(huán)境變化下的人臉信息,通過光源、表情、年齡等臉部的變化,建立起一個(gè)復(fù)雜的人臉辨識(shí)系統(tǒng)。完整的數(shù)據(jù)庫會(huì)提供標(biāo)準(zhǔn)的測(cè)試流程,對(duì)于樣本可定義為三部分:訓(xùn)練組(Train Set)代表提供系統(tǒng)用來訓(xùn)練特征空間;注冊(cè)組(Target Set)使系統(tǒng)定義對(duì)象類別;測(cè)試組(Query Set)用來評(píng)估系統(tǒng)效能。本研究選擇FERET、Multi-PIE、FRGC 3 個(gè)常見的國外人臉數(shù)據(jù)庫評(píng)估人臉識(shí)別算法的性能,三者在實(shí)驗(yàn)測(cè)試上都有包含光源變化、表情。通過以上3 個(gè)數(shù)據(jù)庫來考慮本研究的人臉識(shí)別算法在不同光源條件下的效果,同時(shí)與傳統(tǒng)的稀疏表示算法進(jìn)行對(duì)比,表1 為3 個(gè)數(shù)據(jù)庫的基本參數(shù)。
將數(shù)據(jù)庫的原始圖像縮放成30 ×30 大小,組成900 像素的圖像矢量。同時(shí)隨機(jī)選擇4 幅表情不同的圖像作為訓(xùn)練樣本,其余為測(cè)試樣本。試驗(yàn)重復(fù)10次,分別記錄識(shí)別準(zhǔn)確率及標(biāo)準(zhǔn)差。算法設(shè)置的參數(shù)如下:SRC設(shè)置的誤差限為小于0.05,CRC 的正則化參數(shù)設(shè)置為0.001,K-SVD 和OMP 的稀疏度設(shè)為20,字典的個(gè)數(shù)設(shè)置為50 個(gè)。另外,將本算法和稀疏增強(qiáng)協(xié)同表示分類算法(SA-CRC)的稀疏度設(shè)置為40,同時(shí)誤差限小于0.02。
表1 3 個(gè)國外常見的人臉數(shù)據(jù)庫基本參數(shù)
FERET人臉數(shù)據(jù)庫是由美國軍方FERET 項(xiàng)目創(chuàng)建,所采用的樣本是3 年間分15 個(gè)時(shí)間點(diǎn)收集的1 199 個(gè)人,影像張數(shù)為641 126,數(shù)據(jù)庫的測(cè)試樣張如圖2 所示。在本研究中將本算法與其他6 種算法的識(shí)別率和標(biāo)準(zhǔn)誤差結(jié)果進(jìn)行對(duì)比,如表2 所示。為描述結(jié)果方便,用算法的英文簡(jiǎn)寫代替。
圖2 FERET數(shù)據(jù)庫測(cè)試樣張
表2 FERET人臉數(shù)據(jù)庫中各算法對(duì)比結(jié)果分析
從表2 可以看出,本研究算法的識(shí)別準(zhǔn)確率最高,相比最低的OMP 識(shí)別率提升了近10%,與經(jīng)典的CRC與SRC算法相比,識(shí)別準(zhǔn)確率也有不同程度的提升,驗(yàn)證了本算法在FERET人臉數(shù)據(jù)庫中識(shí)別的準(zhǔn)確性及有效性。
CMU Multi-PIE人臉數(shù)據(jù)庫最早由美國卡耐基梅隆大學(xué)創(chuàng)建,注冊(cè)人數(shù)達(dá)337 人,不同于FERET 數(shù)據(jù)庫,其考慮多種角度、表情、光源變化,每個(gè)人有15 種角度變化及19 種光源條件,紀(jì)錄時(shí)間分為4 個(gè)Sessions,每個(gè)Session 的被拍攝人不相同,且拍攝者也有不同表情設(shè)定,測(cè)試樣張如圖3 所示。同時(shí)將本算法與其他6 種算法的識(shí)別率和標(biāo)準(zhǔn)誤差結(jié)果進(jìn)行對(duì)比,如表3 所示。
圖3 Multi-PIE數(shù)據(jù)庫測(cè)試樣張
表3 Multi-PIE數(shù)據(jù)庫測(cè)試分析結(jié)果
從表3 可以看出,本研究算法的識(shí)別準(zhǔn)確率超過95%,識(shí)別精度最高;最低的仍為OMP算法,識(shí)別準(zhǔn)確率不到90%。相比經(jīng)典的CRC 與SRC 算法,本研究算法的準(zhǔn)確率提升顯著,這與算法中加入稀疏增強(qiáng)系數(shù)直接相關(guān)。因此,本算法在Multi-PIE人臉數(shù)據(jù)庫中識(shí)別的準(zhǔn)確性及有效性都有顯著提高。
FRGC人臉數(shù)據(jù)庫收集來自美國諾特丹大學(xué)(University of Notro Dame),數(shù)據(jù)庫的拍攝共分為4 個(gè)session,其中接受拍攝者的對(duì)象參加其中1 ~4 個(gè)session不等,每個(gè)學(xué)期中會(huì)挑數(shù)個(gè)時(shí)間點(diǎn)進(jìn)行拍攝。FRGC與Multi-PIE人臉數(shù)據(jù)庫的相同之處在于FRGC的拍攝環(huán)境是通過環(huán)繞攝影機(jī)進(jìn)行瞬間拍攝,所以每個(gè)人在影像中的姿勢(shì)均是固定的,且光源變化也都一致。同時(shí),在光源變化下FRGC 也較貼近一般日常生活情況,故對(duì)于人臉辨識(shí)來說具有一定挑戰(zhàn)性。FRGC人臉數(shù)據(jù)庫的測(cè)試樣張如圖4 所示,將本算法與其他6 中算法在FRGC 人臉數(shù)據(jù)庫中進(jìn)行測(cè)試對(duì)比,結(jié)果如表4 所示。
圖4 FRGC人臉數(shù)據(jù)庫上的測(cè)試樣張
表4 FRGC人臉數(shù)據(jù)庫的測(cè)試分析結(jié)果
從表4 可以看出,本研究算法的識(shí)別準(zhǔn)確率超過其他6 種算法,識(shí)別準(zhǔn)確率相比傳統(tǒng)的SRC與CRC算法均提升顯著,同時(shí)由于FRGC 人臉數(shù)據(jù)庫的辨識(shí)難度性高于前面兩種,因此,整體算法的識(shí)別準(zhǔn)確率有所下降,但本研究算法的準(zhǔn)確率仍然接近94%,再次驗(yàn)證了本算法的準(zhǔn)確性。
由于SRC能夠有效改善影像對(duì)于光源、表情及遮蔽的情況,因此在圖像識(shí)別特別是人臉識(shí)別技術(shù)領(lǐng)域中得到了廣泛應(yīng)用。本研究基于SRC 將概率協(xié)同表示分類算法與SRC結(jié)合,并利用稀疏表示系數(shù)增強(qiáng)概率系統(tǒng)表示分類算法的表示系數(shù),進(jìn)而提高算法的識(shí)別準(zhǔn)確率及有效性。通過FERET、Multi-PIE 與FRGC人臉數(shù)據(jù)庫實(shí)驗(yàn)測(cè)試結(jié)果對(duì)比可以看到,本研究提出的稀疏增強(qiáng)概率協(xié)同表示分類算法能夠顯著提升人臉識(shí)別的準(zhǔn)確率,相比其他傳統(tǒng)分類算法的識(shí)別準(zhǔn)確率均有一定程度提升??梢姡狙芯克惴ㄔ诓煌娜四樧R(shí)別情景中具有廣泛應(yīng)用價(jià)值。