林智能
摘要:人臉特征點(diǎn)定位對(duì)人臉分析等領(lǐng)域有著重要作用,為了提高人臉特征點(diǎn)定位的準(zhǔn)確性及跟蹤的魯棒性,提出一種魯棒的長(zhǎng)期人臉特征點(diǎn)跟蹤系統(tǒng)。該系統(tǒng)有效結(jié)合了人臉檢測(cè)、中值光流法和深度學(xué)習(xí)模型人臉特征點(diǎn)定位方法。首先,深度模型對(duì)當(dāng)前幀的人臉進(jìn)行特征點(diǎn)定位;其次,中值光流法跟蹤當(dāng)前幀的特征點(diǎn),通過有效的跟蹤的特征點(diǎn)評(píng)估下一幀的人臉位置;再次,通過提出的跟蹤校驗(yàn)方法對(duì)跟蹤結(jié)果進(jìn)行校驗(yàn);最后,利用深度模型對(duì)下一幀的人臉特征點(diǎn)進(jìn)行修正。實(shí)驗(yàn)結(jié)果表明,提出的動(dòng)態(tài)方法在公開的數(shù)據(jù)集上取得更好的結(jié)果。
關(guān)鍵詞:人臉特征點(diǎn)跟蹤;人臉檢測(cè);中值光流法;深度學(xué)習(xí);跟蹤校驗(yàn)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)08-0174-04
人臉特征點(diǎn)定位指的是通過監(jiān)督或半監(jiān)督的方式定位人臉關(guān)鍵點(diǎn)的技術(shù),人臉關(guān)鍵點(diǎn)包括眼睛、鼻子、嘴巴、甚至是人臉下巴輪廓等。由于人臉的特征點(diǎn)蘊(yùn)含了人臉的語義信息,對(duì)人臉識(shí)別、表情分析、人臉姿態(tài)估計(jì)等起著關(guān)鍵性作用而受到廣泛關(guān)注。目前研究比較廣泛人臉特征點(diǎn)定位方法可以分為兩類:生成模型和回歸模型。
生成模型的典型代表是主動(dòng)外觀模型(AAM)vj和主動(dòng)形狀模型(ASM),它們都通過迭代的方式優(yōu)化表觀參數(shù)并構(gòu)建模型。ASM通過訓(xùn)練集中人工標(biāo)記得人臉形狀來構(gòu)建全局形狀模型。AAM則在ASM的形狀模型基礎(chǔ)上,建立了全局的人臉紋理模型。ASM可以快速的定位到人臉特征點(diǎn),而AAM可以定位到更精確的特征點(diǎn)。但在大姿態(tài)、光照影響造成的紋理不清晰等復(fù)雜背景下,兩者均較難得到最優(yōu)的人臉特征點(diǎn)。
回歸模型則通過直接學(xué)習(xí)人臉特征與人臉特征點(diǎn)之間的映射關(guān)系。Xiong等。提出監(jiān)督下降法(SDM)通過監(jiān)督學(xué)習(xí)的方式建立手工設(shè)計(jì)的人臉形狀特征與特征點(diǎn)之間的線性回歸模型。Kazemi等提出組合回歸樹的方法實(shí)現(xiàn)人臉對(duì)齊,并由于在靜態(tài)圖像人臉特征點(diǎn)定位中任務(wù)中具有準(zhǔn)確實(shí)時(shí)特性,被用于人臉特征點(diǎn)跟蹤中。
近年來,深度學(xué)習(xí)成為熱門的研究,深度學(xué)習(xí)在分類、回歸分析等領(lǐng)域都取得了突破性進(jìn)展。同樣,基于深度學(xué)習(xí)的方法比傳統(tǒng)的人臉特征點(diǎn)定位方法表現(xiàn)出更優(yōu)異的性能,因?yàn)樯钊雽W(xué)習(xí)可以利用原生大數(shù)據(jù)進(jìn)行訓(xùn)練,挖掘大數(shù)據(jù)內(nèi)在的數(shù)據(jù)結(jié)構(gòu),而不需要手動(dòng)設(shè)計(jì)特征。Sun等提出級(jí)聯(lián)的深度卷積神經(jīng)網(wǎng),并采用由粗到細(xì)的方式對(duì)人臉的五個(gè)關(guān)鍵特征點(diǎn)(眼睛中心、鼻尖和嘴角)進(jìn)行定位。但該網(wǎng)絡(luò)結(jié)構(gòu)很難拓展到大規(guī)模的人臉特征點(diǎn)定位中。Zhang等提出四層的層疊自動(dòng)編碼器網(wǎng)絡(luò),每層網(wǎng)絡(luò)都考慮到全局特征,充分挖掘了特征點(diǎn)之間的幾何約束,在遮擋情況有更好的魯棒性。
盡管人臉特征點(diǎn)定位在靜態(tài)圖像中取得很大成功,但在真實(shí)的非約束環(huán)境中,由于表情、光照、遮擋、姿態(tài)以及視頻質(zhì)量的原因,長(zhǎng)期的人臉特征點(diǎn)跟蹤研究卻較少受到關(guān)注。幸運(yùn)的是,300VW最近提出了一個(gè)新的特征點(diǎn)跟蹤的基準(zhǔn),涵蓋了在無約束的環(huán)境中的人臉特征點(diǎn)跟蹤,包含了各種照明條件下,在任意表達(dá)式,并可能被其他對(duì)象遮擋。
目前,人臉特征點(diǎn)跟蹤可以分為以下三種架構(gòu):
1)人臉檢測(cè)+特征點(diǎn)定位被稱為跟蹤一檢測(cè)(tracking-by-detection)。該方式將視頻序列視為由獨(dú)立的視頻序列組成,采用靜態(tài)圖像的處理方式,對(duì)視頻序列的每一幀先進(jìn)行人臉檢測(cè)器來定位到人臉位置,再提取檢測(cè)到的人臉的特征點(diǎn)。該方式的優(yōu)點(diǎn)是不會(huì)產(chǎn)生漂移,特征點(diǎn)的定位比較準(zhǔn)確和穩(wěn)定。盡管人臉檢測(cè)方法比較成熟,但仍然存在誤檢和漏檢問題,這一點(diǎn)在真實(shí)的非約束環(huán)境中體現(xiàn)尤為明顯。
2)目標(biāo)跟蹤+特征點(diǎn)定位該方式對(duì)人臉目標(biāo)進(jìn)行跟蹤,并提取所跟蹤到目標(biāo)的特征點(diǎn)。跟蹤算法雖可以彌補(bǔ)人臉檢測(cè)的不足,但由于跟蹤漂移問題,無法實(shí)現(xiàn)長(zhǎng)期跟蹤。
3)混合系統(tǒng)混合系統(tǒng)有效結(jié)合現(xiàn)有的人臉檢測(cè)、跟蹤和人臉特征點(diǎn)定位算法來提高人臉特征點(diǎn)跟蹤的魯棒性。
OpenFace是一個(gè)集成人臉特征點(diǎn)跟蹤、頭部姿態(tài)估計(jì)、實(shí)現(xiàn)估計(jì)等功能的綜合人臉行為分析開源工具。OpenFace的人臉特征點(diǎn)跟蹤中,集成了現(xiàn)有的人臉檢測(cè)、跟蹤、人臉特征點(diǎn)定位方法。該論文表明在特征點(diǎn)跟蹤領(lǐng)域取得了最好的人臉特征點(diǎn)跟蹤效果。但現(xiàn)有的系統(tǒng)模型比較復(fù)雜,需要額外在線學(xué)習(xí)人臉分類器。同時(shí),所采用特征點(diǎn)定位算法均為傳統(tǒng)的算法,特征點(diǎn)定位的精度仍有待提高。因此,本文提出了一種簡(jiǎn)化的跟蹤系統(tǒng),并且將深度學(xué)習(xí)模型引入系統(tǒng)中。
1人臉特征點(diǎn)跟蹤系統(tǒng)
提出的魯棒的長(zhǎng)期人臉特征點(diǎn)跟蹤混合系統(tǒng),如圖1所示。該系統(tǒng)可以分解為三個(gè)子任務(wù):人臉檢測(cè)、人臉特征點(diǎn)定位和跟蹤;包括四個(gè)模塊:人臉檢測(cè)、人臉特征點(diǎn)定位、特征點(diǎn)跟蹤和跟蹤校驗(yàn)。
跟蹤系統(tǒng)處理過程如下:
第一步:對(duì)視頻序列第一幀或需要重新初始化的視頻幀進(jìn)行全局的人臉檢測(cè)定位到初始的人臉框。根據(jù)初始人臉框和目標(biāo)人臉框的幾何關(guān)系,對(duì)初始人臉框做簡(jiǎn)單的調(diào)整得到人臉特征點(diǎn)定位的人臉框。
第二步:利用訓(xùn)練好的深度學(xué)習(xí)回歸模型對(duì)簡(jiǎn)單調(diào)整后的人臉提取特征點(diǎn),這個(gè)是準(zhǔn)確地位人臉特征點(diǎn)的重要保障。
第三步:利用中值光流法跟蹤對(duì)上一幀提取到的人臉特征點(diǎn),根據(jù)信賴的跟蹤點(diǎn)來估計(jì)當(dāng)前幀的人臉位置。如果跟蹤失敗,返回第一步;如果跟蹤成功進(jìn)入第四步。
第四步:利用人臉檢測(cè)方法只針對(duì)跟蹤到的人臉做局部校驗(yàn)。如果校驗(yàn)成功,提取校驗(yàn)后的人臉的特征點(diǎn);如果校驗(yàn)失敗則提取跟蹤的人臉的特征點(diǎn)。
重復(fù)第二、三、四步。
1.1人臉檢測(cè)與跟蹤校驗(yàn)
人臉檢測(cè)是人臉識(shí)別、人臉分析的首要任務(wù);其關(guān)鍵性作用使其受到很多學(xué)者的重視,經(jīng)過長(zhǎng)期研究也趨于成熟。其中,最具影響力的工作應(yīng)屬Viola和Jones提出的基于Ada-boost的人臉檢測(cè)方法(簡(jiǎn)稱VJ檢測(cè)器)。VJ檢測(cè)器的實(shí)時(shí)性得益于在積分圖中提取haar-like特征,并采用級(jí)聯(lián)的Adaboost框架提高了檢測(cè)準(zhǔn)確性。所以,本文提出跟蹤系統(tǒng)的采用VJ人臉檢測(cè)器來初始化人臉位置。此外,在跟蹤失敗時(shí),對(duì)人臉區(qū)域重新初始化。但所提出的跟蹤系統(tǒng)的人臉檢測(cè)方法不局限于VJ檢測(cè)器。
不同于人臉識(shí)別,即使人臉區(qū)域可以被正確檢測(cè)出來,但仍然無法實(shí)現(xiàn)大規(guī)模特征點(diǎn)定位。如圖1所示,在大規(guī)模人臉特征點(diǎn)定位任務(wù)中,人臉區(qū)域不僅需要覆蓋人臉的五官外,還需要包含人臉下巴。所以,需要對(duì)VJ檢測(cè)器檢測(cè)的結(jié)果做調(diào)整。由于在訓(xùn)練人臉特征點(diǎn)定位的深度模型時(shí),采用了數(shù)據(jù)增強(qiáng)技術(shù),擺脫了對(duì)原始人臉標(biāo)定區(qū)域和人臉檢測(cè)器的依賴,不需要利用VJ檢測(cè)器的檢測(cè)結(jié)果重新訓(xùn)練深度模型。所以只需將檢測(cè)到的人臉區(qū)域向下平移使之包含紅色的區(qū)域。此外,將人臉框放大0.1倍,使之涵蓋更多的人臉信息,可以提高特征點(diǎn)檢測(cè)的準(zhǔn)確性。
下框?yàn)槿斯?biāo)簽,而上框是Ⅵ檢測(cè)的結(jié)果。
由于跟蹤存在漂移現(xiàn)象,很難做到長(zhǎng)期跟蹤。Kalal提出TLD目標(biāo)跟蹤方法,采用跟蹤一校驗(yàn)方式來提高跟蹤魯棒性.同時(shí),Kalal將TLD用于人臉跟蹤,通過學(xué)習(xí)人臉分類器來校驗(yàn)跟蹤結(jié)果。本文嘗試將現(xiàn)有的人臉檢測(cè)器用于跟蹤校驗(yàn)過程。這樣不僅可以降低模型的復(fù)雜性,同時(shí)不需要為不同目標(biāo)都學(xué)習(xí)一個(gè)人臉分類器。所以,人臉檢測(cè)器采用除了初試化人臉位置外,還用于跟蹤校驗(yàn)。雖然,校驗(yàn)過程會(huì)增加耗時(shí),但只對(duì)跟蹤到人臉進(jìn)行校驗(yàn),稱為局部跟蹤校驗(yàn)。相比于全局的人臉檢測(cè)而言,在高分辨率的視頻中,其耗時(shí)可以忽略不計(jì),但提高了跟蹤的魯棒性。
1.2跟蹤算法
人臉特征點(diǎn)跟蹤系統(tǒng)的跟蹤模塊采用中值光流法,該方法也被用于長(zhǎng)期目標(biāo)跟蹤框架TLD中。中值流光流法認(rèn)為準(zhǔn)確的跟蹤與時(shí)間流向無關(guān),拓展金字塔Lucas Kannade光流法的單向跟蹤,并提出正向一反向誤差,提高了跟蹤穩(wěn)定性。
首先,通過金字塔Lucas Kannade光流法對(duì)當(dāng)前幀定位到的人臉特征點(diǎn)xit得到下一幀的人臉特征點(diǎn)xit+1,并通過金字塔Lucas Kannade光流法反向跟蹤點(diǎn)xit+1估計(jì)上一幀的人臉特征點(diǎn)xit。稱xit與xit之間的歐式距離為正向反向誤差。其次,可以計(jì)算當(dāng)前幀所有人臉特征點(diǎn)與當(dāng)前幀估計(jì)的人臉特征點(diǎn)距離的中值,記為dm。再次,過濾掉di>dm的人臉特征點(diǎn),同時(shí),可以計(jì)算所有xit與xit的歸一化互相關(guān),去除歸一化互相關(guān)大于歸一化互相關(guān)的中值的點(diǎn)。最后,通過剩余有效跟蹤的人臉特征點(diǎn)來評(píng)估下一幀的人臉框。
對(duì)于物體快速運(yùn)動(dòng)、被完全遮擋的情況,跟蹤算法可能會(huì)出現(xiàn)漂移現(xiàn)象。針對(duì)這種情況,如果dm>JD則視為跟蹤失敗,需要重新初始化人臉位置。
不同于文獻(xiàn),大規(guī)模的人臉特征點(diǎn)跟蹤不需要額外生成特征點(diǎn)來表征跟蹤目標(biāo);通過使用t時(shí)刻定位到的人臉特征點(diǎn)作為跟蹤點(diǎn),從而通過光流法定位到t+1時(shí)刻的點(diǎn)。并且相比文獻(xiàn)網(wǎng)格法來生成跟蹤點(diǎn),精準(zhǔn)定位的人臉特征點(diǎn)更具有紋理特性,從而更容易跟蹤。
1.3特征點(diǎn)定位
不同于文獻(xiàn),提出的跟蹤系統(tǒng)引入深度學(xué)習(xí)引方法。深度模型采用Zhang等提出四層的層疊自動(dòng)編碼器網(wǎng)絡(luò),第一層自動(dòng)編碼器網(wǎng)絡(luò)先預(yù)測(cè)低分辨率人臉的特征點(diǎn);其次,在第二層網(wǎng)絡(luò)中,以更大分辨率的人臉圖像中提取上一級(jí)網(wǎng)絡(luò)預(yù)測(cè)的人臉特征點(diǎn)局部特征作為輸入,對(duì)上一級(jí)的特征點(diǎn)進(jìn)行微調(diào),得到更準(zhǔn)確的定位;第三層和第四層網(wǎng)絡(luò)類推。
基于深度學(xué)習(xí)的精準(zhǔn)特征點(diǎn)定位方法離不開大數(shù)據(jù),大數(shù)據(jù)是深度學(xué)習(xí)取得成功的重要原因之一。利用真實(shí)環(huán)境下無約束的靜態(tài)人臉特征點(diǎn)數(shù)據(jù)集LFPW訓(xùn)練集,HELEN和AFW共同訓(xùn)練深度模型,每個(gè)數(shù)據(jù)集均標(biāo)注了68個(gè)人臉特征點(diǎn)。訓(xùn)練集均采用ibug提供的人臉框作為初始人臉位置。由于人臉框是人工標(biāo)定的,在實(shí)際應(yīng)用中,使用其他的人臉檢測(cè)方法無法得到相同的人臉框。為了防止訓(xùn)練模型過程中出現(xiàn)過擬合現(xiàn)象,采用數(shù)據(jù)增強(qiáng)(data augment)技術(shù)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行拓展。平移、旋轉(zhuǎn)和尺度變化是特征點(diǎn)定位任務(wù)中常用的方式。數(shù)據(jù)增強(qiáng)不僅可以有效防止模型過擬合,并且擴(kuò)充訓(xùn)練數(shù)據(jù),通過大數(shù)據(jù)的學(xué)習(xí)使得模型更加魯棒。
2實(shí)驗(yàn)與結(jié)果分析
本節(jié)將通過實(shí)驗(yàn)來驗(yàn)證所提出的人臉特征點(diǎn)跟蹤系統(tǒng)。首先,會(huì)介紹評(píng)估的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。最后,設(shè)計(jì)實(shí)驗(yàn)并通過兩種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)比跟蹤準(zhǔn)確性更好的OpenFace。
數(shù)據(jù)集:300VW是第一個(gè)長(zhǎng)時(shí)間人臉特征點(diǎn)跟蹤的基準(zhǔn)。視頻都是從真實(shí)環(huán)境中捕獲到的,存在各種各樣的表情,姿勢(shì)和遮擋等情況,使得數(shù)據(jù)集非常具有挑戰(zhàn)性。視頻可分為以下三類:類別一由在沒有任何遮擋的光照良好的環(huán)境中捕獲的視頻組成;類別二包含無約束照明條件下的視頻。類別三在完全任意條件下捕獲的視頻,包括嚴(yán)重遮擋和極端照明。本文選取一段隸屬于300VW類別三的一段視頻,該視頻長(zhǎng)度為1′2″,包含了1574幀,分辨率為1280*720。
評(píng)價(jià)指標(biāo):常見的評(píng)價(jià)指標(biāo)由兩種,定性和定量。定性是由于沒有公開數(shù)據(jù)集的情況下,通過可視化的方式進(jìn)行比較的通用方法。由于300VW最近提出了一個(gè)新的特征點(diǎn)跟蹤的基準(zhǔn),所以同樣采用定量的方式進(jìn)行方法對(duì)比。歸一化均方根誤差(NRMSE)是用于測(cè)量估計(jì)預(yù)測(cè)人臉特征點(diǎn)與真實(shí)標(biāo)簽的誤差。NRMSE首先計(jì)算所有預(yù)測(cè)特征點(diǎn)與真實(shí)值之間歐氏距離的均值誤差,并通過兩外眼角歐式距離進(jìn)行歸一化。其計(jì)算公
其中,M表示人臉特征點(diǎn)數(shù)量,xi,j表示視頻序列的第i幀的第j個(gè)特征點(diǎn)坐標(biāo),gi,j表示真實(shí)的標(biāo)簽。li和ji分別表示左眼和右眼的外眼角坐標(biāo)。
NRMSE用于評(píng)估估計(jì)點(diǎn)與真實(shí)值之間的誤差,而NRMSE的累積分布函數(shù)(cumulative distribution mrwtion,CDF)則可以展示誤差的分布情況。所以,使用NRMSE的CDF曲線作為最終的定量評(píng)價(jià)標(biāo)準(zhǔn)。
圖3展示了真實(shí)標(biāo)簽、OpenFace和本文所提出的跟蹤系統(tǒng)的結(jié)果,可以看出本文提出的方法在遮擋的真實(shí)環(huán)境下比OpenFace具有更好的結(jié)果。特別需要說明的是,在圖3-c中,OpenFace出現(xiàn)較嚴(yán)重的漂移現(xiàn)象,在連續(xù)許多幀視頻序列均無法正確跟蹤人臉特征點(diǎn),其原因可能是因?yàn)檎趽酢RMSE的CDF曲線如圖4所示,圖中展示了NRMSE誤差小于0.1的結(jié)果。橫軸表示NRMSE誤差,縱軸表示誤差占整個(gè)視頻序列的百分比,曲線越往上,說明小誤差的比例越高,整體誤差就越小,所以,本文提出的系統(tǒng)優(yōu)于OpenFace。
第一行為真實(shí)標(biāo)簽;第二行為OpenFace跟蹤結(jié)果;第三行為本文提出的跟蹤系統(tǒng)的結(jié)果。
3結(jié)論
本文提出了一種長(zhǎng)期的人臉特征點(diǎn)跟蹤系統(tǒng),其有效結(jié)合了人臉檢測(cè)、跟蹤與人臉特征點(diǎn)定位算法。本文的貢獻(xiàn)在于:1)與其他跟蹤框架相比,該系統(tǒng)并不需要引入其他模塊,如在線學(xué)習(xí)分類器。通過有效的結(jié)合,可以取得更好的跟蹤準(zhǔn)確度。2)引入了深度學(xué)習(xí)方法,充分利用深度學(xué)習(xí)對(duì)大數(shù)據(jù)的挖掘能力。通過深度學(xué)習(xí)充分利用了特征點(diǎn)之間幾何約束,對(duì)遮擋具有更好的魯棒性。實(shí)驗(yàn)結(jié)果表明,提出的人臉特征點(diǎn)跟蹤系統(tǒng)準(zhǔn)確性更好。由于VJ檢測(cè)器對(duì)大姿態(tài)變化的檢測(cè)性能差,所以對(duì)于長(zhǎng)期大姿態(tài)偏轉(zhuǎn)的情況,由于長(zhǎng)期無法對(duì)跟蹤結(jié)果進(jìn)行校驗(yàn),容易出現(xiàn)漂移現(xiàn)象,需要研究該系統(tǒng)在其他人臉檢測(cè)方法的跟蹤魯棒性。