(吉林大學(xué)通信工程學(xué)院,吉林 長春 130012)
(吉林大學(xué)通信工程學(xué)院,吉林 長春 130012)
為解決用戶線上眼鏡的最優(yōu)選購,提出了一種基于人臉姿態(tài)估計的虛擬眼鏡試戴技術(shù)。首先采用膚色模型與形狀模型結(jié)合的算法對場景中的人臉區(qū)域進(jìn)行檢測,然后根據(jù)人眼在人臉中的幾何位置關(guān)系實(shí)現(xiàn)人眼的精確定位;進(jìn)一步利用人眼對稱性先驗知識來估計臉在三維空間中的姿態(tài)信息,即人臉與正面的偏移角度;最后,依據(jù)人眼位置和人臉姿態(tài)將眼鏡圖像融合到眼睛區(qū)域,即完成眼鏡的虛擬試戴。該方法為3D環(huán)境下客戶與商品之間虛擬視覺化的實(shí)現(xiàn)提供了一種可靠的技術(shù)支撐和應(yīng)用思路。
姿態(tài)估計;圖像融合;人臉檢測;人眼定位
隨著互聯(lián)網(wǎng)和電子商務(wù)技術(shù)的快速發(fā)展,網(wǎng)上購物受到更多人的青睞,越來越多商家把在線銷售作為實(shí)體店銷售的一種補(bǔ)充方式。傳統(tǒng)的網(wǎng)絡(luò)購物方式已滿足不了消費(fèi)者的需求,最主要的問題是消費(fèi)群體無法看到本人試穿的效果,導(dǎo)致判斷錯誤,造成不必要的經(jīng)濟(jì)開銷。人們傳統(tǒng)購物的“真實(shí)性”理念與網(wǎng)絡(luò)購物的“虛幻性”特點(diǎn)不能得到有機(jī)的統(tǒng)一。而在線網(wǎng)絡(luò)試穿、虛擬試戴等技術(shù)的出現(xiàn)彌補(bǔ)了網(wǎng)絡(luò)購物的缺陷,使網(wǎng)絡(luò)購物更加真實(shí)化、人性化,成為近年來機(jī)器視覺研究領(lǐng)域的熱點(diǎn)[1]。如何真實(shí)、快速地實(shí)現(xiàn)虛擬眼鏡試戴是本文研究的主要目的。
以往的人臉檢測技術(shù)僅僅停留在判斷目標(biāo)視頻序列或圖像中是否存在人臉,以及進(jìn)一步確定存在人臉的位置及大小等。為了實(shí)現(xiàn)虛擬眼鏡試戴,僅檢測到人臉是遠(yuǎn)遠(yuǎn)不夠的,還需要獲取眼睛的輪廓信息。解決此類問題需要對人臉的特征點(diǎn)進(jìn)行定位,它是研究圖像中人臉的前提。而人眼定位是眼鏡虛擬試戴的關(guān)鍵技術(shù),大多研究方法集中于對正面人臉的檢測以及人眼定位。本文針對不同姿態(tài)人臉的估計提出了一種幾何方法,能夠準(zhǔn)確地估計出人臉的姿態(tài),從而實(shí)現(xiàn)眼鏡的虛擬試戴。
人臉檢測作為人臉信息識別中一項極為關(guān)鍵的技術(shù),在生物信息識別、安防監(jiān)測中都得到了廣泛的應(yīng)用,由于其重要性和必需性,近年來在機(jī)器視覺、行為分析等課題領(lǐng)域得到了普遍的重視[2-3]。人臉檢測的核心內(nèi)容就是找尋人臉區(qū)域區(qū)別于其他區(qū)域的特征,人臉最基本的特征有顏色特征(膚色、發(fā)色、唇色、灰度),幾何特征(輪廓、五官、對稱性),統(tǒng)計特征(均值、方差、相關(guān)系數(shù)、直方圖、鑲嵌圖特征)等。目前已有的人臉檢測算法有快速檢測算法和基于模板的方法[4]。前者的主要算法基于先驗知識的方法,后者的主要算法基于后驗知識學(xué)習(xí)和訓(xùn)練的方法。
由于論文的目標(biāo)是實(shí)現(xiàn)不同姿態(tài)下人臉圖像的檢測,因此算法要求對人臉的旋轉(zhuǎn)具有魯棒性,故本論文采用基于先驗知識的方法進(jìn)行人臉檢測。人臉區(qū)域中,膚色是占主導(dǎo)地位的像素值,由于它很好的適應(yīng)性,可以適應(yīng)人臉各種角度的旋轉(zhuǎn);并且不受人臉面部表情以及細(xì)節(jié)特征的改變而改變,具有很好的穩(wěn)定性,所以本論文選擇膚色模型來進(jìn)行人臉檢測??紤]到RGB色彩空間內(nèi)人臉膚色受光照影響嚴(yán)重,并且膚色與非膚色的重疊性較大[6-7],而YIQ顏色空間利用人眼的色分能力,使人眼對不同的色彩具有很明顯的區(qū)分度;并且YIQ色彩空間在處理彩色信息時冗余度較少。綜上,本論文選擇基于YIQ色彩空間建立膚色模型進(jìn)行人臉檢測。
在YIQ彩色模型中,Y是指顏色的亮度,而I和Q是指色調(diào),用于描述圖像色彩的飽和度。RGB與YIQ之間的對應(yīng)關(guān)系如式(1):
由此定義膚色模型:對于彩色圖像中的像素點(diǎn)p,將其從RGB模型變換到Y(jié)IQ模型,如果滿足不等式(2),則點(diǎn)p為膚色像素,反之為非膚色像素[5]。
式中,Ip和Qp分別代表p點(diǎn)對應(yīng)的I分量和Q分量,r和q分別代表I分量和Q分量的范圍,m代表I分量的均值。
以I代表像素分量,選擇的YIQ空間的膚色范圍為(5,150),對圖1(a)運(yùn)行結(jié)果如圖1(b)所示。然后根據(jù)面積約束剔除分割出的小目標(biāo)區(qū)域;最后將潛在所有的連通區(qū)域提取出來,計算其橫向?qū)ΨQ度、縱向?qū)ΨQ度、橢圓度等特征,融合3個特征計算每個區(qū)域的得分,取得分最大的區(qū)域為人臉區(qū)域,從而得到人臉的精確定位,效果如圖1(c)所示。
圖1 人臉檢測及定位Fig.1 Face detection and location
在人機(jī)交互、行為分析等領(lǐng)域人臉檢測已經(jīng)不僅僅滿足于檢測出人臉區(qū)域,姿態(tài)估計得到了越來越多的重視。人臉姿態(tài)估計是對目標(biāo)視頻序列或圖像中獲取人臉在三維坐標(biāo)系空間中的角度信息。要判斷一幅人臉圖像的角度信息,就需要確定圖像中人臉是否在某一個方向上存在著偏轉(zhuǎn)。而將高維空間上一幅復(fù)雜人臉圖像的數(shù)據(jù)與姿態(tài)角度概念建立聯(lián)系則需要進(jìn)行一系列的處理。因此提出了一種幾何方法對人臉姿態(tài)進(jìn)行準(zhǔn)確估計。
3.1 基于形狀和空間位置關(guān)系約束的人眼定位
人眼定位是人臉檢測中的關(guān)鍵步驟,對姿態(tài)估計效果影響很大。多數(shù)人臉檢測中的第一步就是實(shí)現(xiàn)人眼定位,精確的人眼定位為人臉特征值的提取以及人臉信息分析奠定了堅實(shí)的基礎(chǔ)。本文在進(jìn)行人眼定位之前,對待檢測人眼區(qū)域進(jìn)行平滑濾波操作[6,8]?,F(xiàn)有的基于人臉幾何特征進(jìn)行人眼定位的算法僅考慮人臉的幾何約束特征,忽略了圖像尺寸大小對于定位的影響。故本文針對這點(diǎn)不足采用一種圖像歸一化的算法,經(jīng)實(shí)驗可知此算法對不同尺寸的圖像以及不同大小的人眼來說具有普遍適用性?;谛螤詈涂臻g位置關(guān)系約束的人眼定位方法,對于不同尺寸的圖像,其約束關(guān)系包括眼睛黑色區(qū)域面積,眼睛黑色區(qū)域的像素個數(shù),眼睛黑色區(qū)域下方一定區(qū)域不存在其他黑色區(qū)域等。
通常,人眼的初定位是根據(jù)眼睛在二值化人臉圖像中的幾何位置確定的,判定通?;谝韵聨讞l人臉幾何約束條件:
(1)人雙眼中心距的限定范圍:人的雙眼中心距離不是一個隨意的值,而是在某一確定的距離范圍內(nèi)波動:就一幅尺寸為160 pixel×120 pixel的圖像來說,正常的人雙眼距離應(yīng)在像素個數(shù)區(qū)間(20,50)內(nèi);
(2)人眼下方一定范圍內(nèi)不允許出現(xiàn)其他黑色區(qū)域:這意味著人雙眼下方不允許存在其他人體器官,因此對應(yīng)于人臉二值化圖像中就是不允許出現(xiàn)其他黑色區(qū)域;
(3)眼睛黑色區(qū)域像素值個數(shù)范圍確定:正常的人眼大小大致活動在一個固定的范圍,故在對應(yīng)的二值化人臉圖像中眼睛黑色區(qū)域的大小也應(yīng)在某個確定范圍內(nèi)波動,過大的黑色區(qū)域不可能是人眼;
圖2 人眼定位Fig.2 Eye location
(4)人眼黑色區(qū)域外接矩形的形狀要求寬大于或者等于高:從生理學(xué)可知,由于人眼的特定形狀是橢圓或近似圓形,故其外接矩形的形狀必定是寬大于或者等于高,所以高遠(yuǎn)大于寬的外接矩形對應(yīng)的黑色區(qū)域不可能是眼塊。
根據(jù)圖1(c)臉的定位結(jié)果,在人臉區(qū)域使用YIQ膚色模型進(jìn)一步膚色檢測,可知:人臉中的眉毛、眼睛全都不屬于膚色范圍,所以在二值化圖像中以黑洞的形式存在。然后結(jié)合人臉的幾何分布結(jié)構(gòu),找到額頭所在的位置,向下偏移一定的距離尋找對稱橢圓區(qū)域即可定位到眼睛。如圖2所示,為人眼定位各部分結(jié)果圖。
經(jīng)實(shí)驗測試分析,經(jīng)過以上的人眼約束條件,人眼檢測的準(zhǔn)確率高達(dá)90%。
3.2 人臉姿態(tài)估計的數(shù)學(xué)描述
假設(shè)不同姿態(tài)的人臉圖像已經(jīng)被定位,并將圖像縮放為寬為W高為H。這些像素點(diǎn)的灰度值組成了一個W×H=p維的圖像向量x,x所在的空間被稱為外觀空間Rp。因為人臉在旋轉(zhuǎn)過程中有3個自由度:左右擺動、上下擺動、圖像內(nèi)旋轉(zhuǎn),因此定義自由度為向量y,而y所在的空間被稱為姿態(tài)空間Rq,q≤3。人臉外觀圖像的均值向量為xm,相應(yīng)的姿態(tài)均值向量為ym。經(jīng)過均值歸一化的人臉圖像樣本集合為X={x1,…,xN},相應(yīng)的姿態(tài)樣本集合為Y={y1,…,yN}。其中=xi-xm,=yi-ym,N為樣本總數(shù)[10-11]。
因此,對于一個處于任意姿態(tài)的人臉樣本t來說,姿態(tài)估計的任務(wù)就是要計算出自由度向量y的各個參數(shù)值,實(shí)現(xiàn)虛擬試戴。為了實(shí)現(xiàn)準(zhǔn)確且逼真的試戴效果,本論文僅考慮圖像內(nèi)的旋轉(zhuǎn)這個自由度。
3.3 基于人眼對稱性先驗的人臉姿態(tài)估計
姿態(tài)估計是人臉跟蹤、人臉三維模型初始化等應(yīng)用中至關(guān)重要的環(huán)節(jié)。已存在的姿態(tài)估計算法可以分為以下三類:(1)基于幾何形狀分析:這類方法在建立的人臉模型的基礎(chǔ)上將模型與新輸入的人臉圖像建立對應(yīng)關(guān)系。由于人臉幾何結(jié)構(gòu)不考慮不同姿態(tài)人臉的可感知差異,如鼻子的偏移和人臉的對稱性等,就可以利用精確的人臉特征點(diǎn)定位方法來進(jìn)行人臉姿態(tài)估計;(2)基于流形學(xué)習(xí)的方法:因為人臉頭部運(yùn)動具有3個自由度,將同一目標(biāo)人物的不同姿態(tài)在高維圖像空間中構(gòu)成一個低維流形,進(jìn)而找到人臉流形在低維空間的嵌入,從而估計出人臉姿態(tài);(3)基于分類器的方法:將姿態(tài)估計同化為一個模式分類識別的問題,利用分類器將不同姿態(tài)進(jìn)行分類、學(xué)習(xí)來對人臉進(jìn)行姿態(tài)估計[9,12]。
本文在基于形狀的幾何分析方法基礎(chǔ)上,提出了一種新的基于人臉對稱性先驗的姿態(tài)估計方法。人臉的形狀近似于橢圓形,當(dāng)人臉只繞著垂直方向左右旋轉(zhuǎn)時,可以近似看成一個剛體,橢圓的一致性保持良好。因此,采用人眼對稱性先驗的方法進(jìn)行人臉姿態(tài)估計,建立如圖3所示的橢圓模型。
在圖3(a)中,點(diǎn)B,C分別表示左眼,右眼所在矩形中的中心點(diǎn),經(jīng)過BC的直線交橢圓于A,D兩點(diǎn),做線段BC的垂直平分線,交橢圓于E,F(xiàn)兩點(diǎn),直線EF與直線AD相交于點(diǎn)O。
令:
圖3 人臉橢圓Fig.3 Elliptical model of face
當(dāng)人臉繞著EF軸向左轉(zhuǎn)動時,d1逐漸增大,d2逐漸減??;同理,當(dāng)人臉繞著EF軸向右轉(zhuǎn)動時,d1逐漸減少,d2逐漸增大。令θ表示人臉繞著EF直線的轉(zhuǎn)動角度,如果用大量樣本建立d1,d2與姿態(tài)參數(shù)θ之間的對應(yīng)關(guān)系,即可根據(jù)未知圖像中人臉的位置參數(shù)估計出人臉的姿態(tài)。由于考慮到眼鏡試戴的實(shí)際效果,所以轉(zhuǎn)動一定的角度即可,過大的角度會導(dǎo)致試戴效果失真。假設(shè)正面的人臉對應(yīng)的角度為零度,向左偏移表示負(fù)方向,右偏表示為正方向。圖4為人臉在不同角度下的投影。
通過分析不同的人臉圖像,發(fā)現(xiàn)對于所有正面的人臉圖像,兩只眼睛的中心點(diǎn)與臉的中位線之間的距離相等,如圖5所示。
圖4 不同姿態(tài)的人眼定位效果圖Fig.4 Eye location rendering of different attitude angle
圖5 實(shí)際人臉結(jié)構(gòu)示意圖Fig.5 Diagram of actual face structure
在圖5中,直線L為臉的中位線,A為左眼中心點(diǎn),B為右眼中心點(diǎn)。設(shè)點(diǎn)A到直線L的距離為dist1,B到直線L的距離為dist2,定義兩眼到中位線距離差dist=dist1-dist2。對于正面人臉圖像θ=0一般有dist≈0,理想情況下滿足dist=0;當(dāng)臉往左邊偏轉(zhuǎn)時θ<0,則dist>0;往右偏轉(zhuǎn)時θ>0,則有dist<0。因此,人臉偏移角度θ可表示為θ=f(dist)。函數(shù)f(x)一般為非線性函數(shù),為了模擬出該函數(shù),采集到不同角度的人臉樣本,其角度和距離差的關(guān)系曲線如圖6所示。
從上圖6可以看出,人臉偏移角度θ與距離差dist呈現(xiàn)出很強(qiáng)的線性關(guān)系,通過最小二乘擬合得到如下關(guān)系函數(shù):θ=(1.279-dist)/3.577。依據(jù)這種線性關(guān)系,準(zhǔn)確定位出人眼的位置則快速高效的得到人臉姿態(tài)的估計,從而有助于完成最終的眼鏡試戴任務(wù)。
圖6 距離差與角度的關(guān)系圖Fig.6 Diagram of distance difference vs.angle
數(shù)字圖像摳圖問題為數(shù)字圖像處理中比較典型的一類問題,分為藍(lán)色背景下的藍(lán)屏摳圖以及一般背景下的圖像摳圖。其中,一般背景摳圖通常需要Trimap模板的輸入,用來初步指定一些已知的前景、背景和未知區(qū)域。然而,由于摳圖問題的欠約束性,以及假設(shè)方式的局限性,通常的摳圖方法會與真實(shí)值存在較大偏差,這也嚴(yán)重影響了圖像的最終合成效果。同時,目前摳圖領(lǐng)域也缺乏標(biāo)準(zhǔn)且有效的像素級評價系統(tǒng)。本文將問題進(jìn)行了簡化,避免復(fù)雜的背景,將眼鏡的背景設(shè)定為純色,與鏡框和鏡片不沖突的顏色。因此,根據(jù)定位到的眼睛所在的位置以及估計出的人臉姿態(tài)直接將眼鏡圖像融合到眼睛所在的區(qū)域即可完成試戴任務(wù)。
實(shí)驗用到的眼鏡圖像是通過OpenGL實(shí)現(xiàn)-90°~90°偏轉(zhuǎn)范圍內(nèi)的任意姿態(tài)的眼鏡圖像,滿足實(shí)驗要求。
本實(shí)驗環(huán)境為:CPU為Intel Core i5,M450,2.4GHz,內(nèi)存為2.00GB的Win7中MATLAB2013A,每幅圖片的平均處理時間為1.1s;而將相同的實(shí)驗圖采用Adaboost模型和ANN模型進(jìn)行處理,處理時間分別為1.5和1.0s。
對比于Adaboost算法來說,本文的算法在檢測時間上有很大的優(yōu)勢,可以實(shí)現(xiàn)更快速有效的檢測;對比與ANN模型算法來說,雖說檢測時間略慢于該算法,但是ANN模型算法是采用分類器學(xué)習(xí)的方法進(jìn)行人臉檢測,該算法雖然檢測速度快,但是訓(xùn)練速度過慢,所以對于網(wǎng)絡(luò)大數(shù)據(jù)情況下實(shí)現(xiàn)快速有效的檢測是很難的。綜上,本文的算法在有效性和快速性上都有更大的優(yōu)勢。
對于眼鏡虛擬試戴問題,源圖像為眼鏡圖像庫中任意選擇的圖像,目標(biāo)圖像為用戶提供的正面人臉圖像,其試戴效果如圖7所示。
圖7 男士實(shí)驗結(jié)果Fig.7 Experiment results for man
如圖7和圖8所示,本論文分別選取了兩位不同的目標(biāo)對象進(jìn)行實(shí)驗,針對每個目標(biāo)對象扭轉(zhuǎn)角度的不同,共對5個不同旋轉(zhuǎn)角度(分別為:0°、-25°、23°、-23°、27°)的人臉進(jìn)行檢測以及選取相對應(yīng)的眼鏡,進(jìn)行融合得到最終的試戴效果圖。通過不同姿態(tài)試戴效果的對比,可以看出本文提出的算法試戴效果很好地保留了眼鏡的顏色,且與目標(biāo)圖像融合自然,試戴效果逼真。
圖8 女士實(shí)驗結(jié)果Fig.8 Experiment results for lady
本文對人臉檢測、定位以及人臉姿態(tài)估計進(jìn)行了研究,提出了基于姿態(tài)估計的眼鏡虛擬試戴技術(shù)。實(shí)驗結(jié)果表明,該算法速度快,在成像距離一定的情況下,檢測效率高,試戴的效果自然逼真,具有很好的實(shí)用性;但本文依靠的膚色模型目前只能處理黃種人膚色。今后的重點(diǎn)研究工作將會提升人臉的檢測率,提高人臉特征點(diǎn)的精度和魯棒性。圖像摳圖和圖像合成最早出現(xiàn)在影視作品中,如何生動逼真自然的融合圖像成為研究的目標(biāo)。目前,虛擬試戴、試穿的研究甚少,但隨著科技的不斷發(fā)展,其必將具有良好的應(yīng)用前景。
[1]ZHANG Z,TONG T.Research on computer aided glasses selection and virtual try on[J].Computer Engineering and De-sign,2007,30:45-46.
[2]HJELMAS E.Face detection:a survey[J].Computer Vision and Image Understanding,2001,83:236-274.
[3]HUANG L,JIANG H,HUO G.Face recognition based on multi-scale feature extraction and multiple regression analysis[J].Optics&Optoelectronic Technology,2012,6:90-93.
[4]SHEN L,LANG B,ZHU M.Face recognition method based on artificial neural network[J].Chinese J.Liquid Crystal and Displays,2011,6:836-840.
[5]QUAN X,ZHANG L.Research on the face detection based on skin color model and eye location[J].Science Technology and Engineering,2010,31:7822-7824+7829.
[6]JI Q,HU R.3D Face pose estimation and tracking from a monocular camera[J].Image and Vision Computing,2002,20(7):499-511.
[7]NIE X,TAN Z,GUO J.Face illumination compensation based on wavelet transform[J].Optics and Precision Engineering.2008,1:150-155.
[8]HUANG B,TANG J.Novel method of eye detection in facial images[J].Chinese J.Liquid Crystal and Displays,2009,2:278-282.
[9]LIU M,GUO D,MA J,et al..Face pose estimation based on elliptical model and neural network[J].J.Jilin University(Science Edition),2008,7-11.
[10]LI J,YANG J.Eyeglasses try-on based on improved poisson equation[C].2011 International Conference Multimedia Technology.Hangzhou,China,2011:3058-3061.
[11]BLACK M J,YACOOB Y.Tracking and recognizing rigid and non2rigid facial motions using local parametric models of image motion[C].Fifth International Conference on Computer Vision.Cambridge,MA.USA,IEEE.1995:3742381.
[12]SCHWERDT K,CROWLEY J L.Robust face tracking using color[C].Fourth IEEE International Conference on Automatic Face and Gesture Recognition.Grenoble,F(xiàn)rane,2000:902-905.
盧 洋(1991—),女,河南焦作人,碩士研究生,2010年于吉林大學(xué)獲得學(xué)士學(xué)位,主要從事圖像視頻處理方面的研究。E-mail:407851137@qq.com
王世剛(1961—),男,吉林長春人,教授,博士生導(dǎo)師,1983年于東北大學(xué)獲得學(xué)士學(xué)位,1997年于吉林工業(yè)大學(xué)獲得碩士學(xué)位,2001年于吉林大學(xué)獲得博士學(xué)位,主要從事圖像與視頻信號智能處理方面的研究。E-mail:wangshigang@vip.sina.com
趙文婷(1989—),女,吉林省吉林市人,博士研究生,2012年于吉林大學(xué)獲得學(xué)士學(xué)位,主要從事視頻圖像處理方面的研究。E-mail:985817166@qq.com
武 偉(1982—),女,吉林長春人,博士研究生,2005年、2009年于長春工業(yè)大學(xué)分別獲得學(xué)士、碩士學(xué)位,主要從事立體視頻方面的研究。E-mail:114188246@qq.com
基于人臉姿態(tài)估計的虛擬眼鏡試戴技術(shù)
盧 洋,王世剛*,趙文婷,武 偉
Technology of virtual eyeglasses try-on system based on face pose estimation
LU Yang,WANG Shi-gang*,ZHAO Wen-ting,WU Wei
(College of Communication Engineering,Jilin University,Changchun 130012,China)
*Corresponding author,E-mail:wangshigang@vip.sina.com
In this paper,we present a new virtual eyeglasses try-on system based on face pose estimation,and provides technical support for the realization of the user online optimal commodity purchase.Firstly,we use color model combining shape model for face detection in the scene.Then,we use face geometry relationship to achieve precise positioning of the human eye.We furtherly estimate the face pose information based on a priori knowledge of the symmetrical of eyes in the face region,which is the deviation angle of face with the front side.Finally,we integrate the images of glasses to face and achieve the virtual eyeglasses try-on system according to calculating the angle and location information of eyes.This method provides a reliable technical support and application for the future implementation of virtual visualization between customers and goods in 3D environment.
pose estimation;image fusion;face detection;eye location
教育部博士點(diǎn)基金資助項目(No.20120061110091)
2095-1531(2015)04-0582-07
TP391.4 文獻(xiàn)標(biāo)識碼:A doi:10.3788/CO.20150804.0582
2015-03-06;
2015-04-20