吳亞蒙 中國(guó)礦業(yè)大學(xué)(北京)機(jī)電與信息工程學(xué)院
基于提升度和置信度特征融合的視覺感知算法
吳亞蒙 中國(guó)礦業(yè)大學(xué)(北京)機(jī)電與信息工程學(xué)院
視覺關(guān)注是計(jì)算機(jī)視覺領(lǐng)域的重要研究?jī)?nèi)容之一,是指利用模式識(shí)別、機(jī)器學(xué)習(xí)等分析方法預(yù)測(cè)實(shí)驗(yàn)對(duì)象關(guān)注的感興趣目標(biāo)或者方向?;谔卣魅诤系囊曈X關(guān)注算法是指通過特征提取和融合的方式構(gòu)建頭部特征矩陣,并計(jì)算頭部姿態(tài)信息或者凝視方向信息,最終確定視覺關(guān)注的目標(biāo)或者方向。近年來視覺關(guān)注算法在公共安全、自然會(huì)議和輔助駕駛等諸多領(lǐng)域得到廣泛應(yīng)用。但基本都是基于靜態(tài)頭部姿態(tài)數(shù)據(jù)庫方面的研究傳統(tǒng)方法局限于研究頭部姿態(tài)與視覺感知方向。對(duì)于人正面的臉部識(shí)別,很多的識(shí)別系統(tǒng)能夠表現(xiàn)出很好的識(shí)別性能。但是頭部姿態(tài)容易受很多因素的影響,對(duì)于臉越來越多的人臉角度,它的識(shí)別準(zhǔn)確率會(huì)嚴(yán)重下降。因此就更加需要其他的一些特征來配合頭部特征一起識(shí)別。身體其他部位如手勢(shì)、手臂和肩膀姿勢(shì)同樣與視覺感知的目標(biāo)息息相關(guān),并且表現(xiàn)出人的潛在行為目的,另一方面更能精確的表示視覺感知方向。
視覺關(guān)注 特征融合 頭部姿態(tài) 視覺感知
視覺關(guān)注圖像中蘊(yùn)含了豐富的信息,傳統(tǒng)方法局限于研究頭部姿態(tài)與視覺感知方向,身體其他部位如手勢(shì)、手臂和肩膀姿勢(shì)同樣與視覺感知的目標(biāo)息息相關(guān),并且表現(xiàn)出人的潛在行為目的,另一方面更能精確的表示視覺感知方向,本文提出一種新的視覺感知算法。針對(duì)手勢(shì)、頭部姿勢(shì)、視覺感知方向、目標(biāo)進(jìn)行分析,希望通過建立手勢(shì)、頭部朝向、視覺注意方向的置信度模型,引進(jìn)興趣度/提升度,置信度和規(guī)則后件項(xiàng)集支持度的比率,達(dá)到精確預(yù)測(cè)感知目標(biāo)并且預(yù)測(cè)人體行為的目標(biāo)。
我們要先對(duì)圖像的顏色進(jìn)行校正預(yù)處理。因?yàn)樵谌四樀牟杉^程中,圖像可能存在偏藍(lán)或者偏黃,那么將會(huì)直接影響最終的結(jié)果;然后采用基于膚色模型的人臉檢測(cè)方法對(duì)人臉進(jìn)行檢測(cè),對(duì)眉毛和眼睛進(jìn)行定位;最后,就是根據(jù)瞳孔圓檢測(cè)原理,對(duì)瞳孔圓進(jìn)行檢測(cè)。
眼睛定位以后,可以得到左右眼的具體坐標(biāo),比如左眼(x1,y1),右眼 (x2,y2),令 θ=atctan[(y2-y1)/(x2-x1)],當(dāng)|θ|<70度時(shí)可判斷是向哪邊傾斜(若小于70度則認(rèn)為向右傾斜,若大于-70度可認(rèn)為向左傾斜),示意圖見圖2所示。
圖2 頭部模型幾何示意圖
本文采用基于軌跡分割的HMM_SVM融合模型的手勢(shì)識(shí)別算法。由于測(cè)試人本身手勢(shì)動(dòng)作幅度較小并且很多手勢(shì)都非常的相似,傳統(tǒng)的基于HMM手勢(shì)識(shí)別算法的結(jié)果又是根據(jù)輸出概率最大的HMM模型來決定的,所以就會(huì)導(dǎo)致很多的模型輸出結(jié)果相當(dāng)接近,所以單純地靠概率最大來來判斷,結(jié)果錯(cuò)誤的可能性非常大?;谥С窒蛄繖C(jī)的手勢(shì)識(shí)別忽視了手勢(shì)軌跡中間的各種變化,直接用手勢(shì)軌跡的整體數(shù)值特征來進(jìn)行識(shí)別。HMM利用上下文關(guān)系進(jìn)行模式識(shí)別,更多地表達(dá)了類別內(nèi)的相似性,而支持向量機(jī)擅長(zhǎng)分類問題,更大程度上反映了類別間的區(qū)別?;谲壽E分割的HMM_SVM融合模型算法的層次結(jié)構(gòu),如下圖3所示:
圖3基于軌跡分割的HMM_SVM融合模型算法的層次結(jié)構(gòu)圖
本文基于Dempster-Shafer理論,提取人的頭部朝向特征(Face Orientation)Ff置信空間為mf和手勢(shì)特征(Had Gesture)Fh的置信空間mh,根據(jù)Dempster置信度理論構(gòu)建置信度空間mp。將分別測(cè)量的頭部姿態(tài)值和手部姿態(tài)值充分融合。
當(dāng)頭部朝向、手勢(shì)特征交集部位空時(shí)的置信空間如下m(□ )= 0
當(dāng)頭部朝向、手勢(shì)特征交集為空,置信空間則為0,計(jì)算各個(gè)信度空間的信度值。
然后建立一種關(guān)聯(lián)Ff→Fh,計(jì)算相應(yīng)的lift值。lift(AB)=c(AB)/s(B),那么對(duì)于二元項(xiàng)集來說,我們可以做這樣一個(gè)變換:lift(X→Y)=c(X→Y)/s(Y)=(p(X,Y)/p(X))/p(Y)=p(X,Y)/p(X)p(Y)那么這里,我們則可以把lift(X→Y)稱為興趣因子,表示為I(A,B)。此處為I(Ff,Fh,)。
若I(Ff,Fh,)>1,則為正項(xiàng)強(qiáng)關(guān)聯(lián),那么上面所提到的頭部朝向、手勢(shì)特征方向可用;若I(Ff,Fh,)≤1,則為負(fù)項(xiàng)強(qiáng)關(guān)聯(lián),那么上面所提到的頭部朝向、手勢(shì)特征方向不可用。
頭部姿態(tài)和凝視方向是視覺關(guān)注算法研究的兩個(gè)核心內(nèi)容。視覺關(guān)注技術(shù)是分析人體行為和潛在意圖的重要步驟,目前在各個(gè)領(lǐng)域應(yīng)用而且發(fā)展迅速,主要包括公共安全、人機(jī)交互、自然會(huì)議、輔助駕駛和智能課堂管理。針對(duì)視覺關(guān)注算法,當(dāng)前的研究方法包括基于統(tǒng)計(jì)學(xué)的方法和非統(tǒng)計(jì)學(xué)的方法,統(tǒng)計(jì)學(xué)方法包括基于模板匹配的、基于外觀模型、基于流形的,非統(tǒng)計(jì)學(xué)方法包括基于幾何模型的和基于探測(cè)數(shù)組的,此外還有統(tǒng)計(jì)學(xué)方法和非統(tǒng)計(jì)學(xué)方法相結(jié)合的方法,如基于頭部跟蹤的方法。
本文提出了一種新的融合算法,希望借助頭部和手部共同達(dá)到分析人體行為的預(yù)測(cè)方法。實(shí)驗(yàn)結(jié)果和數(shù)據(jù)表明,該方法可以加強(qiáng)兩種方法的計(jì)算精確度,達(dá)到更加精確的效果。Eyes in a Portrait,” Philosophical Trans. Royal Soc. of London, vol. 114, pp. 247-256, 1824.
[1] M. V. Sireesha, P. A. Vijaya and K. Chellamma,“A Survey on Gaze Estimation Techniques”, International Conference on VLSI, Communication, Advanced Devices,Signals and Systems and Networking, VCASAN 2013, vol.258, pp. 353-361, 2013
[2] Erik Murphy-Chutorian and Mohan Manubhai Trivedi,“Head Pose Estimation in Computer Vision: A Survey”,IEEE Transactions on Pattern Analysis And Machine Intelligence, Vol. 31, No. 4, pp. 607-626, 2009
[3] W.H. Wollaston, “On the Apparent Direction of
[4] M. Trivedi, K. Huang, and I. Mikic, “Dynamic Context Capture and Distributed Video Arrays for Intelligent Spaces,” IEEE Trans. Systems, Man, and Cybernetics, Part A, vol. 35, no. 1, pp. 145-163,2005.
[5] J. Tu, T. Huang, and H. Tao, “Accurate Head Pose Tracking in Low Resolution Video,” Proc. IEEE Int’l Conf. Automatic Face and Gesture Recognition, pp.573-578, 2006.
[6] Mora, Kenneth Alberto Funes (Idiap Research Institute,Martigny, Switzerland); Odobez, Jean-Marc, “Geometric Generative Gaze Estimation (G3E) for Remote RGB-D Cameras” Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, p 1773-1780, 2014
[7] M. Nixon, “Eye Spacing Measurement for Facial Recognition,” Proc. Conf. Soc. Photo-Optical Instrument Eng., 1985.
[8] Duric, Zoran, Gray, Wayne D. Integrating perceptual and cognitive modeling for adaptive and intelligent human-computer interaction.Proceedings of the IEEE,2002,90(7):1272-1288.
[9]魏朝龍,手勢(shì)建模算法研究及其應(yīng)用,廣東工業(yè)大學(xué),2011-5
吳亞蒙(1992-),女,河北邢臺(tái)人,中國(guó)礦業(yè)大學(xué)(北京)研究生。