陳炳權(quán) ,劉宏立
(1. 湖南大學 電氣與信息工程學院,湖南 長沙,410082;2. 吉首大學 信息科學與工程學院,湖南 吉首,416000)
人臉表情是人類情感信息傳播與人際關系協(xié)調(diào)的重要方式,是機器視覺、模式識別和智能控制等領域的重要內(nèi)容。相關研究結(jié)果表明,6 類(生氣、厭惡、恐懼、高興、傷心和驚訝)基本的人臉表情在人類日常交流中傳遞的信息占信息總量的55%[1],由此可見,作為高端的生物特征人臉表情識別,其潛在的應用前景巨大。特征提取和表情的分類是人臉表情識別的主要研究內(nèi)容。用于人臉表情識別的特征提取方法通常包括整體法、局部法、光流法、模型法和幾何法,前2 種用于靜態(tài)圖像特征的提取,后3 種用于動態(tài)圖像特征的提取。在整體法中,經(jīng)典算法包括主元分析法(PCA)[2]、獨立分量分析法(ICA)[3]和線性判別分析法(LDA)[4];局部法的經(jīng)典算法主要包括Gabor 小波法和LBP 算子法。Gabor 小波在特征提取方面具有良好的視覺特性和生物學背景,然而,該算法需要計算不同尺度和方向的小波核函數(shù),由此產(chǎn)生的高維特征向量既不利于算法的實時處理,又在一定程度上造成了信息冗余。與Gabor 小波相比,LBP 算子法雖能有效地提取人臉表情特征,但傳統(tǒng)的LBP 算子法存在直方圖維數(shù)大、算法魯棒性差等缺陷[5-6]。傳統(tǒng)局部二元模式(LBP)算子是一種有效的紋理算子,應用于人臉表情識別,存在以下不足:傳統(tǒng)的LBP 人臉表情識別方法采用 χ2度量直方圖間差異,由于 χ2度量以及高維空間的判別過程的復雜性,影響了算法的實時性[7],同時,子區(qū)域尺寸越大,其識別率越低[8];在特定情形下遺漏局部結(jié)構(gòu)信息,主要是由于沒考慮中心位置像素點的作用;該算子對噪聲也很敏感,從而限制了LBP 算子提取特征的效果,究其原因是LBP 算子過多地考慮了像素點間的相互關系。稀疏表示理論為高維數(shù)據(jù)的降維處理提供了數(shù)學理論依據(jù)。該理論將信號投影到變換空間上,從而更準確地表示信號。Baraniuk 等[9-10]將稀疏理論應用于人臉識別,很好地解決了二值數(shù)據(jù)對噪聲敏感問題,能更好地容忍圖像的干擾和噪聲,提高了人臉識別率。稀疏理論能成功地應用于模式識別,其主要原因是該理論中有一個能夠準確地刻畫圖像信號內(nèi)在結(jié)構(gòu)信息和本質(zhì)屬性的超完備字典,用盡可能少的數(shù)據(jù)表示圖像信息,直方圖維數(shù)得到了有效降低。本文在文獻[6, 11-15]的基礎上,提出一種稀疏表示與基于修正的LBP 人臉表情相融合的識別算法,采用小波包分解算法將人臉表情圖像分解為4 個不同頻段的圖像,有效地解決LBP 算法中數(shù)據(jù)量不足;人臉表情圖像采用稀疏表示法,由此構(gòu)建合適的超完備字典,為高維數(shù)據(jù)的降維提供理論依據(jù);建立基于神經(jīng)網(wǎng)絡的集成分類器模型,完成3 個分類器對表情類型分類。
傳統(tǒng)LBP 算子能對灰度圖像中局部鄰近區(qū)域的紋理信息進行有效度量與提取,是一種描述紋理的有效算子。采用LBP 算子對圖像f( x,y)的像素進行標識時,其像素的環(huán)形領域由半徑為r 的圓周上對稱分布的m 個鄰點構(gòu)成,由插值方法確定近鄰點的位置不在像素點中心的灰度,LBP 算子描述的紋理定義如下[5]。將環(huán)形領域內(nèi)紋理圖像描述為
其中:gc為窗口的中心點灰度; g0, …, gm-1是半徑為r 的圓周上對稱分布的m 個領點的灰度。
當不考慮中心點的灰度時,其紋理圖像表示為
通常周圍點的灰度和中心點的灰度往往獨立的,則式(2)可寫為
即
通過給每個s(x)函數(shù)賦予一個權(quán)重因子2m,就可以得到描述局部圖像紋理的空間結(jié)構(gòu)特性的窗口LBP數(shù)值為
點數(shù)和半徑的大小分別用M 和r 表示。當M=8,r=1 時,LBP 算子如圖1 所示,LBP 編碼圖像如圖2所示。
圖1 LBP 計算示意圖Fig.1 Diagram of LBP calculation
圖2 LBP 編碼圖Fig.2 LBP code diagram
在人臉表情特征提取過程中,其傳統(tǒng)的識別流程如下[11]:分割人臉→求解分割人臉圖像的直方圖→求解人臉的特征直方圖→求解人臉聯(lián)合直方圖。即取合適大小的窗口,并對該合適窗口內(nèi)部的LBP 編碼進行統(tǒng)計,最終求得LBP 直方圖。由此可知,整個人臉表情圖像在合適大小窗口條件下的聯(lián)合直方圖就是要識別的人臉表情特征。
由LBP 編碼與人臉特征提取的過程可知:要準確地提取出圖像中差別小的特征,提高差別圖像的數(shù)據(jù)是有效方法之一。在傳統(tǒng)的LBP 算法中,若數(shù)字模式的個數(shù)越多,則局部紋理結(jié)構(gòu)能夠細膩地描述出來,但該模式所含有的平均數(shù)據(jù)量越少,統(tǒng)計意義越差;相反,模式個數(shù)越少,該模式所含有的平均數(shù)據(jù)量越大,統(tǒng)計意義越好,但每種表情差別越小,反映在表情特征數(shù)據(jù)就更少。
本文在文獻[9]的基礎上,根據(jù)小波包理論,采用分解與重構(gòu)相結(jié)合的方法,將1 幅表情圖像變換成許多張圖像,且每張圖像包含了人臉的不同表情數(shù)據(jù),打破了傳統(tǒng)采用單一圖像表達其人臉表情數(shù)據(jù)的缺陷,可以有效地增強人臉表情圖像的數(shù)據(jù)量。
由小波包的相關理論可知:首先可以將人臉表情分成相互關聯(lián)的4 幅圖像即垂直高頻圖像、低頻圖像、對角高頻圖像和橫向高頻圖像,每幅圖像大小為原圖像的1/4,并包含不同頻率上的不相關信息,然后進行重構(gòu)。在重構(gòu)每種頻率的圖像時,將其他頻率圖像置為零,最后得到的圖像大小與原來的一樣,但表達信息完全不同。完成LBP 編碼圖像計算后,對相應圖像塊數(shù)據(jù)進行疊加,采用這種疊加方式可以有效地保證原圖像信息不會丟失,特別是嘴巴、眼睛和眉毛等特征會更細膩地表達出來。其分解與重構(gòu)過程分別如圖3 和圖4 所示。
圖3 小波包的分解過程Fig.3 Decomposition process of wavelet packet
圖4 小波包的重構(gòu)過程Fig.4 Reconstruction process of wavelet packet
完成重構(gòu)圖像后,對相應的LBP 特征進行提取,對LBP 圖像進行編碼計算采用統(tǒng)一模式。令窗口重疊度為1,M=8,r=1。本文將圖像分為2i個塊,并令圖像塊的層數(shù)i=4,其圖像編碼計算流程如下:(1) 對每個小方塊中的直方圖數(shù)據(jù)進行計算;(2) 逐一合并上述中的每一個小方塊,并對合并的直方圖數(shù)據(jù)進行計算,直到整個人臉表情直方圖特征合并計算完成為止;(3) 逐一串聯(lián)所有直方圖特征,從而求解出整幅圖像的識別特征。可見,采用該方式提取的特征兼顧了局部與全局的紋理信息,表情識別中整體不同但局部相似的難題便得到有效解決。圖5 所示為上述直方圖塊的合并流程。
圖5 LBP 直方圖塊的合并過程Fig.5 Union process of LBP histogram block
二次修正的LBP 人臉表情識別算法如下:
(1) 根據(jù)小波包相關理論分解原人臉表情圖像為橫向高頻圖像、垂直高頻圖像、低頻圖像和對角高頻圖像這4 幅圖像,其大小分別為原圖像的1/4,之后對每種特定頻率圖像進行重構(gòu)(其他頻率圖像置零);(2) 在第i 層圖像中,將每種頻率圖像分解為2i-1塊,求解其LBP 編碼值;(3) 將橫向高頻圖像、垂直高頻圖像、低頻圖像和對角高頻圖像這4 幅圖像的對應塊進行串聯(lián),并求解其LBP 直方圖特征;(4) 提取修正的LBP 直方圖特征。
稀疏表示已成功地應用于人臉表情識別[14-15],能準確地表達人臉表情圖像的本質(zhì)屬性和內(nèi)在結(jié)構(gòu)信息,這主要得益于超完備字典的構(gòu)建,體現(xiàn)在用盡可能少的數(shù)據(jù)來表示人臉表情圖像信息。
將上述基于二次修正的LBP 算法提取的人臉表情圖像特征作為表情圖像的初始特征,建立訓練樣本LBP 特征的超完備字典。所采用的稀疏表示模型優(yōu)化人臉表情圖像的特征向量,從而有效地提高了自然交互環(huán)境下的人臉表情識別率和算法的魯棒性。
將稀疏表示模型應用于基于二次修正的LBP 算法提取的人臉表情特征的選擇與優(yōu)化,將人臉表情測試對象看作訓練圖像集的線性組合,求解最稀疏解,從而保證人臉表情圖像中視覺特征的內(nèi)在結(jié)構(gòu)及特征信息之間關聯(lián)性被有效提取。
設目標類別集C ={c1, c2, …, cl},人臉表情圖像特征即為k 維二次修正的LBP 算子提取的特征向量,本文將二次修正的LBP 算提取的人臉表情特征向量作為超完備的列集,并記為 di,1,di,2, …,di,n∈Rk,由此得到的矩陣為Di=( di,1,di,2, …,di,n)∈Rk×n。
將來自類別ci的待識別人臉表情圖像作為訓練樣本的線性組合,記為
其中:T ∈Rk×n;αi,j∈R,i=1, 2, 3, …, l;j=1, 2, 3, …,ni。于是,將所有已知類別訓練樣本的特征向量構(gòu)成的矩陣設為
用已標記類別的訓練表情圖像線性組合表示人臉表情圖像的Gabor 特征向量,即
其中:ψ 為系數(shù)向量;Δ為噪聲向量。稀疏表示的根本出發(fā)點就是從求解所有的系數(shù)向量ψ=(α1,α2,α3, …,αn)T中尋找最稀疏的一個表示。對于確定的列向量 T,若 k <n,則超完備字典D={d1, d2, d3, …, dn}的元素dj線性不相關,其系數(shù)向量有多種形式。
對于零均值的列向量T=( t1, t2, t3, …, tk),超完備字典D={d1, d2, d3, …, dn}的元素dj具有零均值,并且單位化的l2范數(shù)為
本文考慮噪聲的稀疏表示模型為
令目標類別集合C={c1, c2, …, cl},已知類別的表情圖像樣本數(shù)目設為 n1, n2, …, nl;di,1,di,2, …,di,j∈Rk(i=1, 2, …, k,j=1, 2, …, ni)表示類別ci第j 幅入臉表情圖像的LBP 特征向量。本文表情特征提取算法如下。
(1) 對已知類別的每幅表情圖像進行2 次修正LBP 變換,由式(3)求解人臉表情圖像特征值LBP(M,r),其值構(gòu)成列向量di,j(i=1, 2, …, k;j=1, 2, …,ni),從而得到每幅人臉表情圖像的LBP 特征向量。
(2) 超完備字典對應的矩陣D由式(5)將di,j列向量依次連接而成。
(3) 對每幅待識別的人臉表情圖像進行LBP 編碼,由式(3)得到的LBP(P,R)排列形成列向量T ∈Rk,即待識別人臉表情圖像的特征向量。
(4) 對超完備字典對應的矩陣D 進行零均值化、向量T 零均值化和l2范數(shù)單位化。
(5) 根據(jù)式(8)求解向量T 的稀疏系數(shù)向量,人臉表情圖像的稀疏表示特征向量就是該系數(shù)向量ψ。
選擇人臉表情分類器通??紤]以下幾個因素[16-17]:人臉表情細微的形變;表情的各種特征表達方法需要進行比較和選擇,尋求最佳表達方式;圖像預處理要剔除外界因素的干擾,有用信息要盡量保留。
單一的分類器識別結(jié)果具有許多不確定性,通常只能從某一個層面描述待識別樣本的屬性,多分類器融合方法克服了單分類器此弱點,具有如下優(yōu)點:整體和局部特征的優(yōu)勢得到體現(xiàn);增大了各單分類器的差異,有利于各單分類器的互補;在神經(jīng)網(wǎng)絡的基礎上,利用系統(tǒng)的決策誤差調(diào)整各層間的權(quán)值和閾值,能實現(xiàn)融合規(guī)則的自動調(diào)整和優(yōu)化。本文采用非線性的神經(jīng)網(wǎng)絡集成分類器作為表情識別的分類器,其輸入為人臉特征的灰度值及其坐標位置,保證了分類的準確性和穩(wěn)定性,提高了人臉表情識別效果。所設計的基于神經(jīng)網(wǎng)絡的集成分類器模型如圖6 所示。
圖6 基于神經(jīng)網(wǎng)絡的集成分類器模型Fig.6 Integrated classifier model based on neural network
圖6 所示為所描述的模型由輸出層、隱含層和輸入層構(gòu)成,其中:輸入層中的每個節(jié)點的輸入是單分類器對同一個樣本的決策向量,其向量的長度等于類別數(shù)目;單分類器判定樣本所對應類別的概率即為分量,在某設定規(guī)則條件下運算分量及其對應的權(quán)值,隱含層的輸入值就是該運算結(jié)果。根據(jù)經(jīng)驗公式對隱含層節(jié)點數(shù)m 進行計算,該層的輸入經(jīng)過某激勵函數(shù)計算后就是每個節(jié)點的輸出,輸出層的輸入就是該輸出與權(quán)值的運算結(jié)果。
從上述分析可知:人臉表情的類別數(shù)就是輸出層節(jié)點數(shù)n,系統(tǒng)判定輸入樣本屬于某類別的概率就是該節(jié)點的輸出值,集成分類器模型的最終輸出就是該值,且由激勵函數(shù)運算得到,其中最接近1 的那個分量就是樣本預測的類別,節(jié)點輸出值大于等于0 但不會超過1。
設 z={z1, z2, …, zl} 為該模型的輸入,zi=( zi1, zi2, …, zin)T為分類器i 對樣本圖像的輸出,該輸出值以新的特征作為輸入層節(jié)點i 的輸入。模型的實際輸出向量為O={o1, o2, …, on},集成分類器最終判定輸入樣本屬于類別ck的概率就是輸出向量的分量ok。
設隱含層節(jié)點j 的輸出為yj,輸出層節(jié)點k 的期望輸出值為dk,隱含層節(jié)點j 與輸入層節(jié)點i 的連接權(quán)值為wij,輸出層節(jié)點k 與隱含層節(jié)點j 的連接權(quán)值設tjk,學習率為η,激勵函數(shù)為 f ( x) =1/(1 +e-x),閾值為θ,則輸出層神經(jīng)元和隱含層神經(jīng)元的輸出分別為:
輸出層和隱含層權(quán)值修正為:
輸出層和隱含層閾值修正為
由輸出向量中的最大分量所在的位置確定了輸入樣本所屬類別,從而實現(xiàn)訓練好的神經(jīng)網(wǎng)絡完成從輸入到輸出的映射。其實現(xiàn)步驟如下。
(1) 將樣本分為測試集和訓練集2 部分,并將后者再次細分為l 組,以訓練l 個單分類器。
(2) 在一定的學習率η 下,將權(quán)值wij,tjk和閾值θ初始化。
(3) 輸入層節(jié)點i 的輸入zi即為計算分類器i 對訓練 集 中 的 每 個 樣 本 圖 像 X 的 輸 出zi=( zi1, zi2, …, zin)T。
(4) 計算輸出層和隱含層節(jié)點的凈輸入量和凈輸出量,根據(jù)輸出層節(jié)點的誤差,修正輸出層和隱含層的閾值和權(quán)值,之后轉(zhuǎn)向步驟(3)。
(5) 當?shù)拇螖?shù)大于閾值時,停止其修正,并記錄該時刻的權(quán)值與閾值。
所用人臉表情數(shù)據(jù)庫為日本的JAFFE 表情庫,包括10 個日本婦女的7 種正面表情:平靜、憤怒、恐懼、高興、悲傷、厭惡、驚奇,每種表情有3~4 張圖像,灰度人臉表情圖像大小為128×128,格式為bmp。為了減少圖像中諸如人臉大小,關鍵點位置和灰度等因素的影響,先歸一化處理人臉表情圖像,從而保證歸一化處理后的圖像方差、大小、灰度均值相等,如圖7 所示??紤]到包含信息的比率與處理數(shù)據(jù)量的關系,本文將所有的人臉表情圖像歸一化為64×64。
圖7 JAFFE 表情庫原始圖像與預處理后的圖像Fig.7 Original image and preprocessing image in JAFFE expression library
為驗證本方法的有效性,在Windows XP 環(huán)境下的Intel(R) Core(TM)2 Duo CPU 機器上進行試驗。將所有人臉表情圖像分成測試集和訓練集,其中測試樣本為每個人每種表情中的任意一幅圖像,訓練樣本就是剩下的圖像。為訓練單分類器,將訓練集細分成 3組,每一組用來提取其中某1 個特征,整個訓練集訓練基于神經(jīng)網(wǎng)絡的多分類器。
本文方法與文獻[16]中經(jīng)典LBP 算法對人臉表情圖像的識別率比較見表1。從表1 可知:除了“傷心”表情外,所有表情都被較準確地識別出來。其原因是人臉表情庫中“悲傷”得不厲害,常常與“平靜”混淆,但就總的識別率而言,本文方法與經(jīng)典LBP 算法和單一的二次修正的LBP 算法相比,平均識別率分別提高11.0%和3.7%左右,單個樣本識別時間分別減少0.010 s 和0.014 s,提高了識別速度。
表1 本文算法與傳統(tǒng)LBP 算法識別率和識別時間的比較Table 1 Recognition rate’s comparison between traditional LBP algorithm and proposed algorithm
(1) 將傳統(tǒng)LBP 算法從以下幾個方面進行了二次修正:將原圖像經(jīng)過小波包分解和重構(gòu),得到了不同頻段圖像,有效地增加了原圖像的數(shù)據(jù)量,改進了原算法數(shù)據(jù)量不足的問題;采用修正的LBP 算法對表情圖像進行特征提取,建立訓練樣本LBP 特征的超完備字典,通過稀疏表示模型優(yōu)化了人臉表情的特征向量,由于稀疏表示中采用所有表情訓練圖像的信息來構(gòu)建超完備字典,這樣能夠很好地描述表情圖像特征內(nèi)在的結(jié)構(gòu)細節(jié)信息及其內(nèi)在關聯(lián)性,較好地去除不相關的部分信息并保留重要的視覺特征信息,有效地提高了識別率,算法具有一定的魯棒性;將多特征集成分類器的輸出進行融合,構(gòu)建基于神經(jīng)網(wǎng)絡的多分類器模型,表情特征分類的準確性和穩(wěn)定性得到提高。
(2) 與經(jīng)典LBP 算法對比,本文算法具有一定的魯棒性,人臉表情的識別率提高約15%,識別速度也得到一定提高。
[1] Mehrabian A, Russell J A. An approach to environmental psychology[M]. Cambridge: MIT Press, 1974: 101-156.
[2] Andrew J, Calder A, Burton M, et al. A principal component analysis of facial expressions[J]. Vision Research, 2004, 41:1179-1208.
[3] 周曉彥, 鄭文明, 鄒采榮, 等. 基于特征融合和模糊核判別分析的面部表情識別方法[J]. 中國圖像圖形學報, 2009, 14(8):1615-1620.ZHOU Xiaoyan, ZHENG Wenming, ZOU Cairong, et al. Facial expression recognition based on feature fusion and fuzzy kernel discriminant analysis[J]. Journal of Image and Graphics, 2009,14(8): 1615-1620.
[4] 支瑞聰, 阮秋琦. 基于多尺度分析矩特征的人臉表情識別[J].信號處理, 2009, 25(5): 692-696.ZHI Ruicong, RUAN Qiuqi. Facial expression recognition based on multi-scale analysis and invariant moments[J]. Signal Processing, 2009, 25(5): 692-696.
[5] HAN Hu, SHAN Shiguang, CHEN Xilin, et al. A comparative study on illumination preprocessing in face recognition[J].Pattern Recognition, 2013, 46(6): 1691-1699.
[6] 付曉峰. 基于二元模式的人臉識別與表情識別研究[D]. 杭州:浙江大學電氣工程學院, 2008: 25-40.FU Xiaofeng. Research on face recognition and expression recognition based on the local binary pattern[D]. Hangzhou:Zhejiang University. College of Electrical Technology, 2008:25-40.
[7] XIE Xudong, Lam K M. Facial express recognition based on shape and texture[J]. Pattern Recognition, 2009, 42: 1003-1011.
[8] Wright J, Ma Yi, Mairal J, et al. Sparse Representation for computer vision and pattern recognition[J]. Proceedings of the IEEE, 2010, 98(6): 1031-1044.
[9] Baraniuk R, Candes E, Elad M. Applications of sparse representation and compressive sensing[J]. Proceedings of the IEEE, 2010, 98(6): 906-909.
[10] Wright J, Yang A Y, Ganesh A, et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[11] 張娟, 詹永照, 毛啟容, 等. 基于Gabor 小波和稀疏表示的人臉表情識別[J]. 計算機工程, 2012, 38(6): 207-209.ZHANG Juan, ZHAN Yongzhao, MAO Qirong, et al. Facial expression recognition based on gabor wavelet and sparse representation[J]. Computer Engineering, 2012, 38(6): 207-209.
[12] 何良華. 人臉表情識別中苦干關鍵技術(shù)的研究[D]. 南京: 東南大學信息科學與工程學院, 2005: 1-10.HE Lianghua. Several key technologies research on facial expression recognition[D]. Nanjing: Southeast University.School of Information Science and Engineering, 2005: 1-10.
[13] 傅由甲, 相入喜, 黃鴻, 等. 基于支持向量機的多姿態(tài)人臉特征定位[J]. 計算機工程, 2011, 37(17): 7-10.FU Youjia, XIANG Ruxi, HUANG Hong, et al. Multi- view face features localization based on support vector machine[J].Computer Engineering, 2011, 37(17): 7-10.
[14] 胡正平, 李靜. 基于低秩子空間恢復的聯(lián)合稀疏表示人臉識別算法[J]. 電子學報, 2013, 41(5): 987-991.HU Zhengping, LI Jing. Face recognition of joint sparse representation based on low-rank subspace recovery[J]. Acta Eletronica Sinica, 2013, 41(5): 987-991.
[15] 殷俊, 楊萬扣. 核稀疏保持投影及生物特征識別應用[J]. 電子學報, 2013, 41(4): 639-645.YIN Jun, YANG Wankou. Kernel sparsity preserving projections and its application to biometrics[J]. Acta Eletronica Sinica, 2013, 41(4): 639-645.
[16] Shan C, Gong S, Mcowan P. Robust facial expression recognition using local binary patterns[C]// IEEE International Conference on Image Processing. ICIP, 2005, 2: 370-373.
[17] 呂興會. 基于多特征集成分類器的人臉表情識別研究[D]. 青島: 中國石油大學計算機與通信工程學院, 2010: 37-42.Lü Xinghui. Research on facial expression recognition based on multi-feature integrated classifier[D]. Qingdao: China University of Petroleum. College of Computer & Communication Engineering, 2010: 37-42.