潘玉進(jìn),曹立人(.溫州大學(xué)教師教育學(xué)院,浙江溫州 35035;.浙江大學(xué)心理與行為科學(xué)系,浙江杭州 3008)
?
人臉識別及其視角效應(yīng)的研究綜述
潘玉進(jìn)1,曹立人2
(1.溫州大學(xué)教師教育學(xué)院,浙江溫州 325035;2.浙江大學(xué)心理與行為科學(xué)系,浙江杭州 310028)
摘 要:人臉識別是一種重要的身份認(rèn)證技術(shù)。多年來學(xué)界從認(rèn)知心理科學(xué)、人工智能和神經(jīng)機(jī)制等方面進(jìn)行研究,但視角效應(yīng)一直是人臉識別面臨的一個(gè)難題,它在很大程度上影響著人臉識別系統(tǒng)的績效。對非理想視角下的人臉認(rèn)知開展專項(xiàng)研究,探明非理想視角下的人臉認(rèn)知規(guī)律,為機(jī)器視覺的人臉識別技術(shù)改進(jìn)提供心理學(xué)依據(jù),具有重要的理論意義與實(shí)踐價(jià)值。
關(guān)鍵詞:視角效應(yīng);人臉識別;非理想視角
現(xiàn)代社會(huì)中個(gè)人身份的認(rèn)證非常重要,在物流網(wǎng)系統(tǒng)、門禁系統(tǒng)、視頻監(jiān)視系統(tǒng)、機(jī)場安檢、信用卡驗(yàn)證、智能空間、人機(jī)交互系統(tǒng)等方面都需要身份認(rèn)證。常用的生物特征識別技術(shù)主要有指紋識別技術(shù)、虹膜識別技術(shù)、人臉識別技術(shù)等三類,其中人臉識別技術(shù)就是利用計(jì)算機(jī)軟件自動(dòng)分析所采集的人臉圖像,從中提取有效識別信息來進(jìn)行身份辨別。相對而言,人臉識別技術(shù)有其特殊優(yōu)勢。一是非侵?jǐn)_性,人臉識別無需干擾人們的正常行為,人臉信息可以非接觸式采集,且操作隱蔽;二是操作成本低,通常情況下,常見的攝像頭、數(shù)碼相機(jī)就能采集人臉圖像,無需專用設(shè)備;三是可交互性強(qiáng),通過人臉識別身份,更符合人類的識別習(xí)慣;四是事后追蹤能力強(qiáng),在人臉識別的同時(shí)可以保存人臉圖像,從而可以確保系統(tǒng)具有良好的事后追蹤能力。因而與其他生物特征識別技術(shù)相比,人臉識別技術(shù)更是倍受青睞。
圖1 人臉圖像坐標(biāo)圖
人臉識別包括人臉圖像采集、圖像預(yù)處理、特征提取、特征匹配與識別等基本過程。先由采集設(shè)備采集人臉圖像,并經(jīng)圖像預(yù)處理模塊來提高人臉圖像的品質(zhì),然后通過特征提取模塊抽取其有效的識別信息,并與預(yù)先存放在人臉數(shù)據(jù)庫中的人臉圖像或特征值數(shù)據(jù)進(jìn)行匹配,從而得到識別結(jié)果。從人臉識別的整個(gè)過程來看,影響人臉識別績效的因素很多,除圖像采集質(zhì)量、特征提取方法、人臉匹配方法等因素外,還與人臉圖像采集的視角有關(guān),如在正前方的視角下能最準(zhǔn)確地識別,而在正下方俯視(X軸旋轉(zhuǎn),如圖1所示)等一些特殊視角下則很難識別,這種現(xiàn)象稱為人臉識別的視角效應(yīng)。日常生活中進(jìn)行身份辨認(rèn)時(shí),由于身高的差異,常有X軸旋轉(zhuǎn)效應(yīng)(仰視、俯視)和X-Z軸聯(lián)合旋轉(zhuǎn)效應(yīng)發(fā)生;而對于電子監(jiān)視器,出于安裝方便和減少對人干擾的考慮而通常裝在高處,其視角的設(shè)置往往是非理想化的,這種聯(lián)合旋轉(zhuǎn)效應(yīng)更為顯著,因此其識別的績效也差強(qiáng)人意。
人臉識別最早的研究可以追溯到Galton(1888,1910)的工作[1,2],20世紀(jì)60年代后逐漸趨于熱門。幾十年來,學(xué)者們從不同角度進(jìn)行了大量的研究。從研究的途徑看,主要有三個(gè)方面。
(一)認(rèn)知心理科學(xué)方面的研究
認(rèn)知心理科學(xué)方面的研究成果以Bruce-Young模型、雙重加工理論、特征假設(shè)理論、整體加工理論和常模加工理論為代表,其中以Bruce-Young模型、雙重加工理論的認(rèn)可程度最高。Bruce-Young模型(Bruce & Young,1986)把人臉的認(rèn)知加工分為兩個(gè)階段,第一階段對人臉特征和結(jié)構(gòu)信息進(jìn)行編碼,第二階段有兩條支路:一條支路將人臉結(jié)構(gòu)與特征表征和儲(chǔ)存在人臉再認(rèn)單元的人臉表征進(jìn)行比較;另一條支路根據(jù)人臉結(jié)構(gòu)與特征進(jìn)行性別和表情加工[3-4]。Bruce-Young模型也為唇讀(speechreading)研究提供了一個(gè)理論框架(Campbell,2011)[5]。雙重加工理論(Bartlett & Searcy,1993)認(rèn)為,人臉識別有兩類重要信息:特征信息、結(jié)構(gòu)信息,在認(rèn)知決策中,結(jié)構(gòu)信息的權(quán)重高于特征信息[6]。Yang與Schwaninger(2010)的研究表明,人臉認(rèn)知的反轉(zhuǎn)效應(yīng)(face inversion effect,F(xiàn)IE)受人臉結(jié)構(gòu)變化比率的影響[7]。Civile、McLaren 與McLaren(2014)的研究發(fā)現(xiàn)特征信息對FIE起主要作用[8]。但上述理論的解釋都附有特定的條件,其解釋力度還有待完善。
(二)人工智能方面的研究
人工智能方面的研究以各種算法技術(shù)為代表(Beham & Mansoor Roomi,2013)[9],主要有:基于可視特征的幾何特征(geometrical feature)[10]、紋理特征(textural feature)、顏色特征(color feature)、3D人臉識別(3D face recognition)等方法[11];基于模板的通用模板匹配(universal template matching,UTM)、彈性模板匹配(deformable template matching,DTM)[12];基于代數(shù)特征的主成分分析(principal component analysis,PCA)[13]、獨(dú)立分量分析(independent component analysis,ICA)、線性判別分析(linear discriminant analysis,LDA)[14]、分?jǐn)?shù)階嵌入的典型相關(guān)分析(fractional-order embedding canonical correlation analysis,F(xiàn)ECCA)[15];基于機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)法(artificial neural networks,ANNs)、支持向量法(support vector machines,SVMs)[16]、貝葉斯法(Bayesian face recognition method)[17]、隱馬爾可夫模型法(hidden Markov model,HMM)[18]等。這些算法技術(shù)都有一定的可用性,也解決了部分人臉識別的實(shí)際問題,但此類研究多數(shù)重在數(shù)學(xué)算法的技術(shù)層面考慮,不太考慮人類對人臉認(rèn)知的心理因素,難以有效地從人臉圖像所含的巨量信息中恰當(dāng)?shù)亟M織少量信息進(jìn)行整合加工,大量的機(jī)器資源耗費(fèi)在冗余信息的無效加工上,使機(jī)器視覺技術(shù)的發(fā)展受到阻礙。識別率不理想、對視角的特定依賴是其普遍存在的問題。
(三)神經(jīng)機(jī)制方面的研究
神經(jīng)機(jī)制方面的研究主要提供人臉識別時(shí)大腦神經(jīng)機(jī)制的證據(jù),如:Bentin、Allison、Puce、Perez與McCarthy(1996)發(fā)現(xiàn)在人臉認(rèn)知中,事件相關(guān)電位(ERP)中N170是一個(gè)人臉特異性負(fù)波,當(dāng)視野中出現(xiàn)人臉時(shí),N170的波幅會(huì)顯著增大[19]。Eimer(2000)發(fā)現(xiàn)正面和側(cè)面的人臉圖像引發(fā)的N170比臉頰和背面的振幅更大[20]。我國學(xué)者彭小虎、羅躍嘉、魏景漢與王國鋒(2002),楚向麗、王蔭華與王玉平(2006)也發(fā)現(xiàn)了類似效應(yīng)。彭小虎等的研究還發(fā)現(xiàn)測試時(shí)的N170波幅比學(xué)習(xí)時(shí)更大,因此可能需更多的心理資源;楚向麗等的研究則發(fā)現(xiàn)非完整人臉的N170波幅比完整人臉的更大[21-23]。史良等(2010)發(fā)現(xiàn)在面孔分類中,空間高頻(HSF)圖像的N170潛伏期顯著延遲,但對空間低頻(LSF)圖像,普通人面孔會(huì)延遲,而對熟悉的名人則沒有[24]。Shah等(2001)的fMRI研究發(fā)現(xiàn),與陌生人臉相比,識別熟悉人臉時(shí)扣帶回后部活動(dòng)增強(qiáng)[25]。Knyazev、Bocharov、Levin、Savostyanov與Slobodskoj-Plusnin(2008)采用了小波變換的時(shí)間頻率分解來研究生氣、神經(jīng)質(zhì)、高興人臉表征的振蕩皮質(zhì)反應(yīng)的外顯和內(nèi)隱焦慮效應(yīng),外顯和內(nèi)隱焦慮都與alpha高波段的去同步化有關(guān),在表征生氣人臉時(shí)最明顯[26]。Vuilleumier與Pourtois(2007)用血液動(dòng)力學(xué)和電神經(jīng)成像方法發(fā)現(xiàn)人臉選擇性梭狀體皮層的活動(dòng)可能因情緒表情(如:恐懼)而增強(qiáng)[27]。上述研究為解釋人臉的認(rèn)知機(jī)制提供了一條可行路徑,但是解釋的條件限制多、電生理指標(biāo)的特異性不夠(如N170波幅的增大在其他類刺激時(shí)也會(huì)出現(xiàn))是其普遍存在的問題。
視角是人臉識別的一項(xiàng)重要限制條件。在正常情況下,人們總是從不同側(cè)面看一個(gè)人,從正面辨認(rèn)人臉的幾率很小。從不同的視角識別人臉,其難度是不一樣的。因此,人臉辨認(rèn)的視角研究也越來越受重視。Perrett等(1991)發(fā)現(xiàn),恒河猴的上顳葉皮層(superior temporal cortex)存在角度特異性的人臉敏感神經(jīng)元[28]。Grill-Spector等(1999)發(fā)現(xiàn),當(dāng)人臉作為適應(yīng)刺激時(shí),人腦的側(cè)枕葉皮層產(chǎn)生神經(jīng)活性的角度敏感性適應(yīng),而且大多數(shù)細(xì)胞隨著角度旋轉(zhuǎn)增加,反應(yīng)逐漸下降。上顳葉(superior temporal lobe,STS)的大多數(shù)細(xì)胞是以觀察者為中心的(viewer centered),兩個(gè)腦半球的梭狀回面部區(qū)(fusiform face area,F(xiàn)FA)都顯示出角度敏感性重復(fù)效應(yīng)[29-31]。很多研究表明對人臉的識別與呈現(xiàn)角度有關(guān),表現(xiàn)出角度依賴性。檢驗(yàn)角度泛化(viewpoint generalization)的許多研究都一致發(fā)現(xiàn),人臉識別的績效會(huì)隨角度差增加而下降。Shepard與Metzler(1971)對同一三維客體兩個(gè)不同角度的識別研究發(fā)現(xiàn),反應(yīng)時(shí)隨著與描述方向的角度差異增加而線性增加[32]。此外,Edelman與Bülthoff(1992)發(fā)現(xiàn)從訓(xùn)練角度到新角度的泛化會(huì)隨旋轉(zhuǎn)角度增加而下降,立體化的深度信息不會(huì)改變錯(cuò)誤率對角度的依賴性[33]。Hill、Schyns與Akamatsu(1997)在動(dòng)物的心理生理學(xué)實(shí)驗(yàn)中,也觀察到猴子對客體識別的角度依賴性[34]。Lee、Matsumiya 與Wilson(2006)用合成人臉作為實(shí)驗(yàn)刺激材料,檢驗(yàn)了人臉識別的角度和大小依賴性及其交互作用,結(jié)果發(fā)現(xiàn)了角度依賴性,且識別績效與角度的關(guān)系不是簡單的線性函數(shù),中間存在一個(gè)知覺界限[35]。在客體識別中,客體的某一角度比其他角度更易識別,這個(gè)角度就叫做“規(guī)范角度”(canonical view)。這樣的角度與其他角度相比有幾個(gè)優(yōu)勢,如被認(rèn)為是表征的更佳角度,更易形成心理圖像,命名反應(yīng)更快等等。Bruce、Valentine與Baddeley(1987)發(fā)現(xiàn),成人在看到3/4人臉時(shí)比其他角度對人臉的指認(rèn)快,3/4角度被認(rèn)為是客體識別的規(guī)范角度,或最能表征三維人臉的角度,即人臉識別的3/4優(yōu)勢效應(yīng)(3/4 view effect),指當(dāng)人臉以45度呈現(xiàn)時(shí),人對其識別的績效優(yōu)于其他角度呈現(xiàn)的人臉[36]。Yamashita、Niimi、Kanazawa、Yamaguchi與Yokosawa(2014)在8月齡嬰兒身上也觀察到了類似的結(jié)果[37]。但上述研究的一個(gè)普遍問題是所有的視角變化都只是從水平方位即圍繞Z軸旋轉(zhuǎn)而作,且旋轉(zhuǎn)的角度非常有限,多數(shù)只有不到10個(gè)視角,因此代表性是不夠的。圍繞X軸旋轉(zhuǎn),特別是Z-X軸聯(lián)合旋轉(zhuǎn)的視角研究還少見報(bào)道。
在現(xiàn)實(shí)生活中,除了在一些如門禁系統(tǒng)、機(jī)場與海關(guān)入口的身份驗(yàn)證系統(tǒng)等可以要求目標(biāo)對象主動(dòng)配合的情況下能夠采集到正面人臉外,人臉圖像一般都是在無法獲得目標(biāo)對象的主動(dòng)配合,甚至是在目標(biāo)對象毫不知情的情況下通過視頻監(jiān)視系統(tǒng)采集的,也就是說,一般都是在俯視、側(cè)視、仰視等非理想的視角下采集的。在這些非理想的視角下,人仍然能夠比較準(zhǔn)確地識別人臉,保持相當(dāng)高的識別績效;但機(jī)器視覺卻難以做到,而且在非理想視角下,光照度、眼鏡等附加物、圖像分辨率等因素對機(jī)器視覺識別績效的影響尤為明顯。因此有必要綜合運(yùn)用心理學(xué)行為分析方法、腦電生理學(xué)方法和眼動(dòng)追蹤技術(shù)等多種先進(jìn)手段,對非理想視角下的人臉認(rèn)知開展專項(xiàng)研究,探明非理想視角下的人臉認(rèn)知規(guī)律和生理、心理機(jī)制,為機(jī)器視覺的人臉識別技術(shù)改進(jìn)提供心理學(xué)依據(jù);這不僅具有重要的理論意義,更有寬廣的應(yīng)用前景。
參考文獻(xiàn)
[1]Galton F.Personal identification and description[J].Nature,1888,(21):173-177.
[2]Galton F.Numeralised profiles for classification and recognition[J].Nature,1910,83(2):127-130.
[3]Bruce V,Young A.Understanding face recognition[J].British Journal of Psychology,1986,77(1):305-327.
[4]Hanley J R.An appreciation of Bruce and Young’s(1986) serial stage model of face naming after 25 years[J].British Journal of Psychology,2011,102(4):915-930.
[5]Campbell R.Speechreading and the Bruce-Young model of face recognition:Early findings and recent developments[J].British Journal of Psychology,2011,102(4):704-710.
[6]Bartlett J C,Searcy J.Inversion and configural of faces[J].Cognitive Psychology,1993,25(1):281-316.
[7]Yang J,Schwaninger A.Face inversion effect emerges under critical configural discrepancy[J].Swiss Journal of Psychology,2010,69(3):161-167.
[8]Civile C,McLaren R P,McLaren I P.The face inversion effect-parts and wholes:Individual features and their configuration[J].The Quarterly Journal of Experimental Psychology,2014,67(4):728-746.
[9]Beham M P,Mansoor R S M.A review of face recognition methods[J].International Journal of Pattern Recognition and Artificial Intelligence,2013,27(4):1-35.
[10]Roeder N,Li X.Accuracy analysis for facial feature detection[J].Pattern Recognition:The Journal of the Pattern Recognition Society,1996,29(1):143-157.
[11]Cutzu F,Edelman S.Canonical views in object representation and recognition[J].Vision Research,1994,34(22):3037-3056.
[12]Yuille A L,Hallinan P W,Cohen D S.Feature extraction from faces using deformable templates[J].International Journal of Computer Vision,1992,8(2):99-111.
[13]Sirovitch L,Kirby M.Low-dimensional procedure for the characterization of human face[J].Journal of the Optical Society of America,1987,4(3):519-524.
[14]Yu H,Yang J.A direct LDA algorithm for high-dimensional data:with application to face recognition[J].Pattern Recognition,2001,34(10):2067-2069.
[15]Yuan Y,Sun Q,Ge H.Fractional-order embedding canonical correlation analysis and its applications to multi-view dimensionality reduction and recognition[J].Pattern Recognition,2014,47(3):1411-1424.
[16]Cortes C,Vapnik V.Support-vector networks[J].Machine Learning,1995,20(3):273-297.
[17]彭進(jìn)業(yè),王大凱,俞卞章,等.基于小波分解系數(shù)的貝葉斯人臉識別方法[J].光子學(xué)報(bào),2001,30(10):1263-1269.
[18]Baum L E,Petrie T.Statistical inference for probabilistic functions of finite state markov chains[J].The Annals of Mathematical Statistics,1966,37(6):1554-1563.
[19]Bentin S,Allison T,Puce A,et al.Electrophysiological studies of face perception in humans[J].Journal of Cognitive Neuroscience,1996,8:551-565.
[20]Eimer M.Event-related brain potentials distinguish processing stages involved in face perception and recognition[J].Clinical Neurophysiology,2000,111(4):694-705.
[21]彭小虎,羅躍嘉,魏景漢,等.面孔識別的認(rèn)知模型與電生理學(xué)證據(jù)[J].心理科學(xué)進(jìn)展,2002,10(3):1-7.
[22]彭小虎,魏景漢,羅躍嘉,等.面孔識別的腦加工成分:N170的ERP研究[J].航天醫(yī)學(xué)與醫(yī)學(xué)工程,2002,15(4):303-304.
[23]楚向麗,王蔭華,王玉平.面孔感知過程中的視覺完形負(fù)波[J].中國康復(fù)理論與實(shí)踐,2006,12(3):185-187.
[24]史良,吳睿潔,徐翠萍,等.面孔分類中空間高低頻表征的神經(jīng)機(jī)制:一個(gè)顱內(nèi)腦電研究[J].生物化學(xué)與生物物理進(jìn)展,2010,37(7):786-793.
[25]Shah N J,Marshall J C,Zafiris O,et al.The neural correlates of person of familiarity-A functional magnetic resonance imaging study with clinical implications[J].Brain,2001,(124):804-815.
[26]Knyazev G G,Bocharov A V,Levin E A,et al.Anxiety and oscillatory responses to emotional facial expressions[J].Brain Research,2008,1227(28):174-188.
[27]Vuilleumier P,Pourtois G.Distributed and interactive brain mechanisms during emotion face perception:evidence from functional neuroimaging[J].Neuropsychologia,2007,45(1):174-194.
[28]Perrett D I,Oram M W,Harries M H,et al.Viewer-centred and object-centred coding of heads in the macaque temporal cortex[J].Experimental Brain Research,1991,86(1):159-173.
[29]Logothetis N K,Pauls J.Psychophysical and physiological evidence for viewer-centered object representations in the primate[J].Cerebral Cortex,1995,5(3):270-288.
[30]Kanwisher N,McDermott J,Chun M M.The fusiform face area:A module in human extrastriate cortex specialized for face perception[J].The Journal of Neuroscience,1997,17(11):4302-4311.
[31]Grill-Spector K,Kushnir T,Edelman S,et al.Differential processing of objects under various viewing conditions in the human lateral occipital complex[J].Neuron,1999,24(1):187-203.
[32]Shepard R N,Metzler J.Mental rotation of three-dimensional objects[J].Science,1971,(171):701-703.
[33]Edelman S,Bülthoff H H.Orientation dependence in the recognition of familiar and novel views of three-dimensional objects[J].Vision Research,1992,32(12):2385-2400.
[34]Hill H,Schyns P G,Akamatsu S.Information and viewpoint dependence in face recognition[J].Cognition,1997,62(2):201-222.
[35]Lee Y,Matsumiya K,Wilson H.Size-invariant but viewpoint-dependent representation of faces[J].Vision Research,2006,46(12):1901-1910.
[36]Bruce V,Valentine T,Baddeley A.The basis of the 3/4 view advantage in face recognition[J].Applied Cognitive Psychology,1987,1(2):109-120.
[37]Yamashita W,Niimi R,Kanazawa S,et al.Three-quarter view preference for three-dimensional objects in8-month-old infants[J].Journal of Vision,2014,14(4):1-10.
(編輯:朱青海)
A Comprehensive Review of Face Recognition and Its Visual Effect
PAN Yujin1,CAO Liren2
(1.College of Teachers’ Education,Wenzhou University,Wenzhou,China 325035 2.Department of Psychology and Behavior Science,Zhejiang University,Hangzhou,China 310028)
Abstract:Face recognition is a significant authentication technology.Although academic circles have carried on a series of researches from cognitive psychology,artificial intelligence and neural mechanism over the years,the visual angle effect has been one of the challenging problems in the field of face recognition,which greatly affects the performance of face recognition system.This paper probes into the individualized research involved in human face recognition in the view of non-ideal visual angle.The study has important theoretical significance and practical value to verify human face cognitive rules,provide psychological basis for the mechanical vision of human face recognition technology improvement.
Key words:Visual Angle Effect;Face Recognition;Non-Ideal Visual Angle
作者簡介:潘玉進(jìn)(1964-),男,浙江溫州人,教授,碩士,研究方向:工程心理學(xué)
基金項(xiàng)目:浙江省公益技術(shù)研究工業(yè)項(xiàng)目(2010C31020)
收稿日期:2014-06-23
DOI:10.3875/j.issn.1674-3555.2016.03.015 本文的PDF文件可以從xuebao.wzu.edu.cn獲得
中圖分類號:B842.1
文獻(xiàn)標(biāo)志碼:A
文章編號:1674-3555(2016)03-0111-06
溫州大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2016年3期