一種魯棒的長(zhǎng)期人臉特征點(diǎn)跟蹤系統(tǒng)

2017-06-01 07:50林智能

電腦知識(shí)與技術(shù) 2017年8期

林智能

摘要：人臉特征點(diǎn)定位對(duì)人臉分析等領(lǐng)域有著重要作用，為了提高人臉特征點(diǎn)定位的準(zhǔn)確性及跟蹤的魯棒性，提出一種魯棒的長(zhǎng)期人臉特征點(diǎn)跟蹤系統(tǒng)。該系統(tǒng)有效結(jié)合了人臉檢測(cè)、中值光流法和深度學(xué)習(xí)模型人臉特征點(diǎn)定位方法。首先，深度模型對(duì)當(dāng)前幀的人臉進(jìn)行特征點(diǎn)定位；其次，中值光流法跟蹤當(dāng)前幀的特征點(diǎn)，通過有效的跟蹤的特征點(diǎn)評(píng)估下一幀的人臉位置；再次，通過提出的跟蹤校驗(yàn)方法對(duì)跟蹤結(jié)果進(jìn)行校驗(yàn)；最后，利用深度模型對(duì)下一幀的人臉特征點(diǎn)進(jìn)行修正。實(shí)驗(yàn)結(jié)果表明，提出的動(dòng)態(tài)方法在公開的數(shù)據(jù)集上取得更好的結(jié)果。

關(guān)鍵詞：人臉特征點(diǎn)跟蹤；人臉檢測(cè)；中值光流法；深度學(xué)習(xí)；跟蹤校驗(yàn)

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2017）08-0174-04

人臉特征點(diǎn)定位指的是通過監(jiān)督或半監(jiān)督的方式定位人臉關(guān)鍵點(diǎn)的技術(shù)，人臉關(guān)鍵點(diǎn)包括眼睛、鼻子、嘴巴、甚至是人臉下巴輪廓等。由于人臉的特征點(diǎn)蘊(yùn)含了人臉的語義信息，對(duì)人臉識(shí)別、表情分析、人臉姿態(tài)估計(jì)等起著關(guān)鍵性作用而受到廣泛關(guān)注。目前研究比較廣泛人臉特征點(diǎn)定位方法可以分為兩類：生成模型和回歸模型。

生成模型的典型代表是主動(dòng)外觀模型（AAM）vj和主動(dòng)形狀模型（ASM），它們都通過迭代的方式優(yōu)化表觀參數(shù)并構(gòu)建模型。ASM通過訓(xùn)練集中人工標(biāo)記得人臉形狀來構(gòu)建全局形狀模型。AAM則在ASM的形狀模型基礎(chǔ)上，建立了全局的人臉紋理模型。ASM可以快速的定位到人臉特征點(diǎn)，而AAM可以定位到更精確的特征點(diǎn)。但在大姿態(tài)、光照影響造成的紋理不清晰等復(fù)雜背景下，兩者均較難得到最優(yōu)的人臉特征點(diǎn)。

回歸模型則通過直接學(xué)習(xí)人臉特征與人臉特征點(diǎn)之間的映射關(guān)系。Xiong等。提出監(jiān)督下降法（SDM）通過監(jiān)督學(xué)習(xí)的方式建立手工設(shè)計(jì)的人臉形狀特征與特征點(diǎn)之間的線性回歸模型。Kazemi等提出組合回歸樹的方法實(shí)現(xiàn)人臉對(duì)齊，并由于在靜態(tài)圖像人臉特征點(diǎn)定位中任務(wù)中具有準(zhǔn)確實(shí)時(shí)特性，被用于人臉特征點(diǎn)跟蹤中。

近年來，深度學(xué)習(xí)成為熱門的研究，深度學(xué)習(xí)在分類、回歸分析等領(lǐng)域都取得了突破性進(jìn)展。同樣，基于深度學(xué)習(xí)的方法比傳統(tǒng)的人臉特征點(diǎn)定位方法表現(xiàn)出更優(yōu)異的性能，因?yàn)樯钊雽W(xué)習(xí)可以利用原生大數(shù)據(jù)進(jìn)行訓(xùn)練，挖掘大數(shù)據(jù)內(nèi)在的數(shù)據(jù)結(jié)構(gòu)，而不需要手動(dòng)設(shè)計(jì)特征。Sun等提出級(jí)聯(lián)的深度卷積神經(jīng)網(wǎng)，并采用由粗到細(xì)的方式對(duì)人臉的五個(gè)關(guān)鍵特征點(diǎn)（眼睛中心、鼻尖和嘴角）進(jìn)行定位。但該網(wǎng)絡(luò)結(jié)構(gòu)很難拓展到大規(guī)模的人臉特征點(diǎn)定位中。Zhang等提出四層的層疊自動(dòng)編碼器網(wǎng)絡(luò)，每層網(wǎng)絡(luò)都考慮到全局特征，充分挖掘了特征點(diǎn)之間的幾何約束，在遮擋情況有更好的魯棒性。

盡管人臉特征點(diǎn)定位在靜態(tài)圖像中取得很大成功，但在真實(shí)的非約束環(huán)境中，由于表情、光照、遮擋、姿態(tài)以及視頻質(zhì)量的原因，長(zhǎng)期的人臉特征點(diǎn)跟蹤研究卻較少受到關(guān)注。幸運(yùn)的是，300VW最近提出了一個(gè)新的特征點(diǎn)跟蹤的基準(zhǔn)，涵蓋了在無約束的環(huán)境中的人臉特征點(diǎn)跟蹤，包含了各種照明條件下，在任意表達(dá)式，并可能被其他對(duì)象遮擋。

目前，人臉特征點(diǎn)跟蹤可以分為以下三種架構(gòu)：

1）人臉檢測(cè)+特征點(diǎn)定位被稱為跟蹤一檢測(cè)（tracking-by-detection）。該方式將視頻序列視為由獨(dú)立的視頻序列組成，采用靜態(tài)圖像的處理方式，對(duì)視頻序列的每一幀先進(jìn)行人臉檢測(cè)器來定位到人臉位置，再提取檢測(cè)到的人臉的特征點(diǎn)。該方式的優(yōu)點(diǎn)是不會(huì)產(chǎn)生漂移，特征點(diǎn)的定位比較準(zhǔn)確和穩(wěn)定。盡管人臉檢測(cè)方法比較成熟，但仍然存在誤檢和漏檢問題，這一點(diǎn)在真實(shí)的非約束環(huán)境中體現(xiàn)尤為明顯。

2）目標(biāo)跟蹤+特征點(diǎn)定位該方式對(duì)人臉目標(biāo)進(jìn)行跟蹤，并提取所跟蹤到目標(biāo)的特征點(diǎn)。跟蹤算法雖可以彌補(bǔ)人臉檢測(cè)的不足，但由于跟蹤漂移問題，無法實(shí)現(xiàn)長(zhǎng)期跟蹤。

3）混合系統(tǒng)混合系統(tǒng)有效結(jié)合現(xiàn)有的人臉檢測(cè)、跟蹤和人臉特征點(diǎn)定位算法來提高人臉特征點(diǎn)跟蹤的魯棒性。

OpenFace是一個(gè)集成人臉特征點(diǎn)跟蹤、頭部姿態(tài)估計(jì)、實(shí)現(xiàn)估計(jì)等功能的綜合人臉行為分析開源工具。OpenFace的人臉特征點(diǎn)跟蹤中，集成了現(xiàn)有的人臉檢測(cè)、跟蹤、人臉特征點(diǎn)定位方法。該論文表明在特征點(diǎn)跟蹤領(lǐng)域取得了最好的人臉特征點(diǎn)跟蹤效果。但現(xiàn)有的系統(tǒng)模型比較復(fù)雜，需要額外在線學(xué)習(xí)人臉分類器。同時(shí)，所采用特征點(diǎn)定位算法均為傳統(tǒng)的算法，特征點(diǎn)定位的精度仍有待提高。因此，本文提出了一種簡(jiǎn)化的跟蹤系統(tǒng)，并且將深度學(xué)習(xí)模型引入系統(tǒng)中。

1人臉特征點(diǎn)跟蹤系統(tǒng)

提出的魯棒的長(zhǎng)期人臉特征點(diǎn)跟蹤混合系統(tǒng)，如圖1所示。該系統(tǒng)可以分解為三個(gè)子任務(wù)：人臉檢測(cè)、人臉特征點(diǎn)定位和跟蹤；包括四個(gè)模塊：人臉檢測(cè)、人臉特征點(diǎn)定位、特征點(diǎn)跟蹤和跟蹤校驗(yàn)。

跟蹤系統(tǒng)處理過程如下：

第一步：對(duì)視頻序列第一幀或需要重新初始化的視頻幀進(jìn)行全局的人臉檢測(cè)定位到初始的人臉框。根據(jù)初始人臉框和目標(biāo)人臉框的幾何關(guān)系，對(duì)初始人臉框做簡(jiǎn)單的調(diào)整得到人臉特征點(diǎn)定位的人臉框。

第二步：利用訓(xùn)練好的深度學(xué)習(xí)回歸模型對(duì)簡(jiǎn)單調(diào)整后的人臉提取特征點(diǎn)，這個(gè)是準(zhǔn)確地位人臉特征點(diǎn)的重要保障。

第三步：利用中值光流法跟蹤對(duì)上一幀提取到的人臉特征點(diǎn)，根據(jù)信賴的跟蹤點(diǎn)來估計(jì)當(dāng)前幀的人臉位置。如果跟蹤失敗，返回第一步；如果跟蹤成功進(jìn)入第四步。

第四步：利用人臉檢測(cè)方法只針對(duì)跟蹤到的人臉做局部校驗(yàn)。如果校驗(yàn)成功，提取校驗(yàn)后的人臉的特征點(diǎn)；如果校驗(yàn)失敗則提取跟蹤的人臉的特征點(diǎn)。

重復(fù)第二、三、四步。

1.1人臉檢測(cè)與跟蹤校驗(yàn)

人臉檢測(cè)是人臉識(shí)別、人臉分析的首要任務(wù)；其關(guān)鍵性作用使其受到很多學(xué)者的重視，經(jīng)過長(zhǎng)期研究也趨于成熟。其中，最具影響力的工作應(yīng)屬Viola和Jones提出的基于Ada-boost的人臉檢測(cè)方法（簡(jiǎn)稱VJ檢測(cè)器）。VJ檢測(cè)器的實(shí)時(shí)性得益于在積分圖中提取haar-like特征，并采用級(jí)聯(lián)的Adaboost框架提高了檢測(cè)準(zhǔn)確性。所以，本文提出跟蹤系統(tǒng)的采用VJ人臉檢測(cè)器來初始化人臉位置。此外，在跟蹤失敗時(shí)，對(duì)人臉區(qū)域重新初始化。但所提出的跟蹤系統(tǒng)的人臉檢測(cè)方法不局限于VJ檢測(cè)器。

不同于人臉識(shí)別，即使人臉區(qū)域可以被正確檢測(cè)出來，但仍然無法實(shí)現(xiàn)大規(guī)模特征點(diǎn)定位。如圖1所示，在大規(guī)模人臉特征點(diǎn)定位任務(wù)中，人臉區(qū)域不僅需要覆蓋人臉的五官外，還需要包含人臉下巴。所以，需要對(duì)VJ檢測(cè)器檢測(cè)的結(jié)果做調(diào)整。由于在訓(xùn)練人臉特征點(diǎn)定位的深度模型時(shí)，采用了數(shù)據(jù)增強(qiáng)技術(shù)，擺脫了對(duì)原始人臉標(biāo)定區(qū)域和人臉檢測(cè)器的依賴，不需要利用VJ檢測(cè)器的檢測(cè)結(jié)果重新訓(xùn)練深度模型。所以只需將檢測(cè)到的人臉區(qū)域向下平移使之包含紅色的區(qū)域。此外，將人臉框放大0.1倍，使之涵蓋更多的人臉信息，可以提高特征點(diǎn)檢測(cè)的準(zhǔn)確性。

下框?yàn)槿斯?biāo)簽，而上框是Ⅵ檢測(cè)的結(jié)果。

由于跟蹤存在漂移現(xiàn)象，很難做到長(zhǎng)期跟蹤。Kalal提出TLD目標(biāo)跟蹤方法，采用跟蹤一校驗(yàn)方式來提高跟蹤魯棒性.同時(shí)，Kalal將TLD用于人臉跟蹤，通過學(xué)習(xí)人臉分類器來校驗(yàn)跟蹤結(jié)果。本文嘗試將現(xiàn)有的人臉檢測(cè)器用于跟蹤校驗(yàn)過程。這樣不僅可以降低模型的復(fù)雜性，同時(shí)不需要為不同目標(biāo)都學(xué)習(xí)一個(gè)人臉分類器。所以，人臉檢測(cè)器采用除了初試化人臉位置外，還用于跟蹤校驗(yàn)。雖然，校驗(yàn)過程會(huì)增加耗時(shí)，但只對(duì)跟蹤到人臉進(jìn)行校驗(yàn)，稱為局部跟蹤校驗(yàn)。相比于全局的人臉檢測(cè)而言，在高分辨率的視頻中，其耗時(shí)可以忽略不計(jì)，但提高了跟蹤的魯棒性。

1.2跟蹤算法

人臉特征點(diǎn)跟蹤系統(tǒng)的跟蹤模塊采用中值光流法，該方法也被用于長(zhǎng)期目標(biāo)跟蹤框架TLD中。中值流光流法認(rèn)為準(zhǔn)確的跟蹤與時(shí)間流向無關(guān)，拓展金字塔Lucas Kannade光流法的單向跟蹤，并提出正向一反向誤差，提高了跟蹤穩(wěn)定性。

首先，通過金字塔Lucas Kannade光流法對(duì)當(dāng)前幀定位到的人臉特征點(diǎn)xⁱ_t得到下一幀的人臉特征點(diǎn)xⁱ_t+1，并通過金字塔Lucas Kannade光流法反向跟蹤點(diǎn)xⁱ_t+1估計(jì)上一幀的人臉特征點(diǎn)xⁱ_t。稱xⁱ_t與xⁱ_t之間的歐式距離為正向反向誤差。其次，可以計(jì)算當(dāng)前幀所有人臉特征點(diǎn)與當(dāng)前幀估計(jì)的人臉特征點(diǎn)距離的中值，記為d_m。再次，過濾掉d_i>d_m的人臉特征點(diǎn)，同時(shí)，可以計(jì)算所有xⁱ_t與xⁱ_t的歸一化互相關(guān)，去除歸一化互相關(guān)大于歸一化互相關(guān)的中值的點(diǎn)。最后，通過剩余有效跟蹤的人臉特征點(diǎn)來評(píng)估下一幀的人臉框。

對(duì)于物體快速運(yùn)動(dòng)、被完全遮擋的情況，跟蹤算法可能會(huì)出現(xiàn)漂移現(xiàn)象。針對(duì)這種情況，如果d_m>JD則視為跟蹤失敗，需要重新初始化人臉位置。

不同于文獻(xiàn)，大規(guī)模的人臉特征點(diǎn)跟蹤不需要額外生成特征點(diǎn)來表征跟蹤目標(biāo)；通過使用t時(shí)刻定位到的人臉特征點(diǎn)作為跟蹤點(diǎn)，從而通過光流法定位到t+1時(shí)刻的點(diǎn)。并且相比文獻(xiàn)網(wǎng)格法來生成跟蹤點(diǎn)，精準(zhǔn)定位的人臉特征點(diǎn)更具有紋理特性，從而更容易跟蹤。

1.3特征點(diǎn)定位

不同于文獻(xiàn)，提出的跟蹤系統(tǒng)引入深度學(xué)習(xí)引方法。深度模型采用Zhang等提出四層的層疊自動(dòng)編碼器網(wǎng)絡(luò)，第一層自動(dòng)編碼器網(wǎng)絡(luò)先預(yù)測(cè)低分辨率人臉的特征點(diǎn)；其次，在第二層網(wǎng)絡(luò)中，以更大分辨率的人臉圖像中提取上一級(jí)網(wǎng)絡(luò)預(yù)測(cè)的人臉特征點(diǎn)局部特征作為輸入，對(duì)上一級(jí)的特征點(diǎn)進(jìn)行微調(diào)，得到更準(zhǔn)確的定位；第三層和第四層網(wǎng)絡(luò)類推。

基于深度學(xué)習(xí)的精準(zhǔn)特征點(diǎn)定位方法離不開大數(shù)據(jù)，大數(shù)據(jù)是深度學(xué)習(xí)取得成功的重要原因之一。利用真實(shí)環(huán)境下無約束的靜態(tài)人臉特征點(diǎn)數(shù)據(jù)集LFPW訓(xùn)練集，HELEN和AFW共同訓(xùn)練深度模型，每個(gè)數(shù)據(jù)集均標(biāo)注了68個(gè)人臉特征點(diǎn)。訓(xùn)練集均采用ibug提供的人臉框作為初始人臉位置。由于人臉框是人工標(biāo)定的，在實(shí)際應(yīng)用中，使用其他的人臉檢測(cè)方法無法得到相同的人臉框。為了防止訓(xùn)練模型過程中出現(xiàn)過擬合現(xiàn)象，采用數(shù)據(jù)增強(qiáng)（data augment）技術(shù)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行拓展。平移、旋轉(zhuǎn)和尺度變化是特征點(diǎn)定位任務(wù)中常用的方式。數(shù)據(jù)增強(qiáng)不僅可以有效防止模型過擬合，并且擴(kuò)充訓(xùn)練數(shù)據(jù)，通過大數(shù)據(jù)的學(xué)習(xí)使得模型更加魯棒。

2實(shí)驗(yàn)與結(jié)果分析

本節(jié)將通過實(shí)驗(yàn)來驗(yàn)證所提出的人臉特征點(diǎn)跟蹤系統(tǒng)。首先，會(huì)介紹評(píng)估的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)。最后，設(shè)計(jì)實(shí)驗(yàn)并通過兩種評(píng)價(jià)標(biāo)準(zhǔn)對(duì)比跟蹤準(zhǔn)確性更好的OpenFace。

數(shù)據(jù)集：300VW是第一個(gè)長(zhǎng)時(shí)間人臉特征點(diǎn)跟蹤的基準(zhǔn)。視頻都是從真實(shí)環(huán)境中捕獲到的，存在各種各樣的表情，姿勢(shì)和遮擋等情況，使得數(shù)據(jù)集非常具有挑戰(zhàn)性。視頻可分為以下三類：類別一由在沒有任何遮擋的光照良好的環(huán)境中捕獲的視頻組成；類別二包含無約束照明條件下的視頻。類別三在完全任意條件下捕獲的視頻，包括嚴(yán)重遮擋和極端照明。本文選取一段隸屬于300VW類別三的一段視頻，該視頻長(zhǎng)度為1′2″，包含了1574幀，分辨率為1280*720。

評(píng)價(jià)指標(biāo)：常見的評(píng)價(jià)指標(biāo)由兩種，定性和定量。定性是由于沒有公開數(shù)據(jù)集的情況下，通過可視化的方式進(jìn)行比較的通用方法。由于300VW最近提出了一個(gè)新的特征點(diǎn)跟蹤的基準(zhǔn)，所以同樣采用定量的方式進(jìn)行方法對(duì)比。歸一化均方根誤差（NRMSE）是用于測(cè)量估計(jì)預(yù)測(cè)人臉特征點(diǎn)與真實(shí)標(biāo)簽的誤差。NRMSE首先計(jì)算所有預(yù)測(cè)特征點(diǎn)與真實(shí)值之間歐氏距離的均值誤差，并通過兩外眼角歐式距離進(jìn)行歸一化。其計(jì)算公

其中，M表示人臉特征點(diǎn)數(shù)量，x_i，j表示視頻序列的第i幀的第j個(gè)特征點(diǎn)坐標(biāo)，g_i，j表示真實(shí)的標(biāo)簽。l_i和j_i分別表示左眼和右眼的外眼角坐標(biāo)。

NRMSE用于評(píng)估估計(jì)點(diǎn)與真實(shí)值之間的誤差，而NRMSE的累積分布函數(shù)（cumulative distribution mrwtion，CDF）則可以展示誤差的分布情況。所以，使用NRMSE的CDF曲線作為最終的定量評(píng)價(jià)標(biāo)準(zhǔn)。

圖3展示了真實(shí)標(biāo)簽、OpenFace和本文所提出的跟蹤系統(tǒng)的結(jié)果，可以看出本文提出的方法在遮擋的真實(shí)環(huán)境下比OpenFace具有更好的結(jié)果。特別需要說明的是，在圖3-c中，OpenFace出現(xiàn)較嚴(yán)重的漂移現(xiàn)象，在連續(xù)許多幀視頻序列均無法正確跟蹤人臉特征點(diǎn)，其原因可能是因?yàn)檎趽酢RMSE的CDF曲線如圖4所示，圖中展示了NRMSE誤差小于0.1的結(jié)果。橫軸表示NRMSE誤差，縱軸表示誤差占整個(gè)視頻序列的百分比，曲線越往上，說明小誤差的比例越高，整體誤差就越小，所以，本文提出的系統(tǒng)優(yōu)于OpenFace。

第一行為真實(shí)標(biāo)簽；第二行為OpenFace跟蹤結(jié)果；第三行為本文提出的跟蹤系統(tǒng)的結(jié)果。

3結(jié)論

本文提出了一種長(zhǎng)期的人臉特征點(diǎn)跟蹤系統(tǒng)，其有效結(jié)合了人臉檢測(cè)、跟蹤與人臉特征點(diǎn)定位算法。本文的貢獻(xiàn)在于：1）與其他跟蹤框架相比，該系統(tǒng)并不需要引入其他模塊，如在線學(xué)習(xí)分類器。通過有效的結(jié)合，可以取得更好的跟蹤準(zhǔn)確度。2）引入了深度學(xué)習(xí)方法，充分利用深度學(xué)習(xí)對(duì)大數(shù)據(jù)的挖掘能力。通過深度學(xué)習(xí)充分利用了特征點(diǎn)之間幾何約束，對(duì)遮擋具有更好的魯棒性。實(shí)驗(yàn)結(jié)果表明，提出的人臉特征點(diǎn)跟蹤系統(tǒng)準(zhǔn)確性更好。由于VJ檢測(cè)器對(duì)大姿態(tài)變化的檢測(cè)性能差，所以對(duì)于長(zhǎng)期大姿態(tài)偏轉(zhuǎn)的情況，由于長(zhǎng)期無法對(duì)跟蹤結(jié)果進(jìn)行校驗(yàn)，容易出現(xiàn)漂移現(xiàn)象，需要研究該系統(tǒng)在其他人臉檢測(cè)方法的跟蹤魯棒性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種魯棒的長(zhǎng)期人臉特征點(diǎn)跟蹤系統(tǒng)