吳鳳嬌,劉 寬,候紅濤,孫收余,趙 凱,羅子江
(1.貴州財經(jīng)大學(xué)信息學(xué)院,貴陽 550025;2.北京盛開智聯(lián)科技有限公司,北京 101300)
目標(biāo)跟蹤作為計算機(jī)視覺中一個經(jīng)典的研究問題,被普遍應(yīng)用于視頻監(jiān)控、人機(jī)交互、自動駕駛和安防監(jiān)控等領(lǐng)域,人臉作為一個重要的跟蹤對象也不例外。人臉跟蹤的核心思想是根據(jù)人臉的重要生物特征在上下文時空中進(jìn)行特征搜索和匹配,從而得到人臉在視頻序列中的位置和大小信息。目前,人臉跟蹤算法主要包括傳統(tǒng)的人臉跟蹤算法、相關(guān)濾波人臉跟蹤算法、基于深度學(xué)習(xí)的人臉跟蹤算法。傳統(tǒng)的人臉跟蹤算法和基于相關(guān)濾波的人臉跟蹤算法大多采用手工特征,手工設(shè)計特征局限于經(jīng)驗性不足,難以達(dá)到較好的跟蹤性能。卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)以及在人臉檢測領(lǐng)域取得的顯著成果,相繼被運用到人臉跟蹤領(lǐng)域。在精度上表現(xiàn)優(yōu)異的算法以Nam等提出的MDNet算法為代表。MDNet在精度上表現(xiàn)突出,但在實際應(yīng)用環(huán)境中難以達(dá)到實時跟蹤。為解決跟蹤算法實時性低的問題,Bertinetto等人基于相似性判斷提出SiamFC跟蹤算法,該算法僅將模板和搜索區(qū)域的距離作為相似性判斷依據(jù),加快算法推理速度,但魯棒性不足。Li等基于RGBT(RGB-Thermal)目標(biāo)跟蹤研究缺乏綜合評價平臺,提出RGBT234數(shù)據(jù)集,并提供了相應(yīng)的評價基線,但其算法復(fù)雜度較高,難以實時處理。本文提出多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤算法,該算法采用可見光(visible spectrum,VIS)和紅外光(infrared spectrum,IR)圖片作為輸入,削減跟蹤算法對光照變化的敏感度,增強算法在光照差異變大的環(huán)境中的跟蹤性能,并用余弦相似相關(guān)替換互相關(guān)層,增強模板與搜索分支的相似性判別能力。為彌補余弦相似和多模態(tài)輸入增加的計算開銷,結(jié)合MobileNet、PP-LCNet和PeleeNet思想設(shè)計適合于人臉跟蹤輕量級特征提取網(wǎng)絡(luò)。大量實驗證明,本文的人臉跟蹤方法有效解決光照變化明顯、背景相似干擾、快速移動、遮擋等問題,實際跟蹤速度可達(dá)到115.7 fps。
本文算法基于SiamFC,該算法將目標(biāo)跟蹤任務(wù)轉(zhuǎn)換為相似性學(xué)習(xí),將模板和搜索區(qū)域的距離作為相似性判斷依據(jù)。但當(dāng)目標(biāo)處于暗光、曝光和復(fù)雜多運動物體的場景下,單獨的VIS圖像無法提供足夠的信息,導(dǎo)致跟蹤精度下降乃至跟蹤失敗,而IR圖像能夠很好地應(yīng)對光線問題,有效地補充了VIS圖像的不足。因此,本文采用多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤,網(wǎng)絡(luò)包括模板分支和搜索分支,兩個分支分別將模板和搜索的VIS-IR圖融合為一張3通道的模板圖z和搜索圖i,如圖1所示。
圖1 多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤網(wǎng)絡(luò)
圖1中多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤算法包括模板分支和搜索分支,搜索分支和模板分支的輸入通道為3。多模態(tài)輸入融合計算方式如式(1)所示:
式(1)中表示可見光特征,表示紅外光特征,β表示VIS圖像的融合系數(shù),β表示IR圖像的融合系數(shù)。為了更好地利用好雙模態(tài)圖像互補的信息,本文采用了權(quán)重分配策略,使用亮度信息離散度作為融合系數(shù)分配的參考依據(jù)。圖2(a)為相同場景中拍攝到的VIS圖與IR圖。圖2(b)為與圖2(a)對應(yīng)的像素亮度統(tǒng)計情況,其中橫軸表示圖片寬,縱軸表示圖片對應(yīng)像素列、像素亮度加和。由圖2可知,VIS圖片中像素亮度分布離散度大且無明顯規(guī)律,而IR圖片橫軸中心位置(動態(tài)目標(biāo)存在的位置)像素亮度集聚度高,且?guī)缀醭收龖B(tài)分布。
圖2 VIS圖與IR圖差異對比直方圖
故,融合系數(shù)計算方式如式(2)所示:
和表示像素所在的行和列,?和分別表示VIS圖與IR圖,其中屬于正態(tài)因子系數(shù),計算方式如式(3),其中和分別是IR圖像單個像素亮度和整體亮度均值。
對模板分支和搜索分支X進(jìn)行相同的特征變換=(),生成特征圖F和F。本文對F和F操作,余弦相似相關(guān)的計算方式如式(4)所示:
式(4)中“?”表示余弦相似相關(guān),和分別表示模板分支和搜索分支。經(jīng)過余弦相似相關(guān)的特圖值都將被擬合到-1到1之間。
多模態(tài)輸入和余弦相似相關(guān)在跟蹤算法中造成算力增加,推理速度減慢等問題?;诖耍疚脑O(shè)計輕量級卷積神經(jīng)網(wǎng)絡(luò)平衡計算開銷,特征提取主干網(wǎng)絡(luò)結(jié)構(gòu),如表1所示。
表1 多模態(tài)人臉跟蹤孿生網(wǎng)絡(luò)結(jié)構(gòu)
表1所示,基于SiamFC思想設(shè)計本文網(wǎng)絡(luò)結(jié)構(gòu)包括搜索分支和模板分支,搜索分支輸入大小是模板分支的四倍。為減少推理延遲,在主干網(wǎng)絡(luò)特征提取以深度可分離卷積為主,深度可分離卷積對普通卷積進(jìn)行過程分解,有效縮減模型量、節(jié)約算力。復(fù)雜背景下的人臉跟蹤需要更深層的語義特征作為跟蹤的外觀判斷依據(jù),隨著網(wǎng)絡(luò)深度的增加,感受野隨之增大,在網(wǎng)絡(luò)末尾增加三個Dense_Block,結(jié)構(gòu)如圖3所示。
圖3 深度模塊結(jié)構(gòu)
圖3(a)為PeleeNet網(wǎng)絡(luò)中的Dense結(jié)構(gòu)塊,直接將上一階段的特征圖通過Concat方式進(jìn)行特征融合。圖3(b)為本文借鑒PeleeNet中Dense結(jié)構(gòu)塊設(shè)計的特征提取網(wǎng)絡(luò)結(jié)構(gòu),在其基礎(chǔ)上,左邊分支直接用可分離卷積代替標(biāo)準(zhǔn)卷積進(jìn)行特征提取,在右邊分支使用兩個深度可分離空洞卷積增加感受野,提高算法在資源受限設(shè)備中的適用性。
SiamFC跟蹤對特征提取后的模板特征和搜索分支特征進(jìn)行互相關(guān)操作,互相關(guān)操作能以較小的算力完成最大響應(yīng)點的搜索,但最大響應(yīng)點定位容易出現(xiàn)誤判,如圖4所示。
圖4 余弦相似相關(guān)與互相關(guān)對比
圖4中當(dāng)跟蹤區(qū)域出現(xiàn)相似背景(多人臉干擾時),互相關(guān)操作容易出現(xiàn)最大響應(yīng)位置計算錯誤,導(dǎo)致人臉跟蹤失敗。余弦相似相關(guān)充分挖掘局部特征向量之間的內(nèi)在關(guān)系,尋找相似度最大的最優(yōu)位置,抗特異性強,局部相似性度量準(zhǔn)確性高。本文的余弦相似計算方式如式(5)所示。
式(5)中表示通道,和分別表示特征圖上某點所在行和列,表示搜索分支的一個局部特征集,表示模板分支全局部特征集,其中的局部特征集和的全局特征集數(shù)量相等。
實驗訓(xùn)練PC機(jī)環(huán)境:CPU選取Intel(R)Core(TM)i7-5930,顯卡NVIDIA GTX 1080 Ti,采用Visual Studio 2013,OpenCV3.1.0和Caffe框架實現(xiàn)多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤算法。
本文采用ChokePoint數(shù)據(jù)集、RGBT234數(shù)據(jù)集和自制樣本數(shù)據(jù)集對本文的人臉跟蹤算法進(jìn)行實驗驗證。ChokePoint數(shù)據(jù)集包含432個視頻。RGBT234數(shù)據(jù)集是較大規(guī)模的雙模態(tài)跟蹤數(shù)據(jù)集,它囊括了234對VIS和IR視頻序列。自制的數(shù)據(jù)集考慮多人干擾、人臉遮擋等因素,共搜集103282對VIS-IR可變性面部圖片。
2.3.1 評價指標(biāo)
本文提出的多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤方法采用平均中心像素誤差精度(accuracy)、魯棒性(robustness)、重疊率(overall)進(jìn)行評估。平均像素誤差,即實際人臉中心位置與預(yù)測人臉中心位置小于給定閾值的百分比,魯棒性評估決定人臉跟蹤算法的穩(wěn)定性,重疊率越高算法的跟蹤鎖定位置更準(zhǔn)確。
2.3.2 定性分析
實際測試過程中僅對首幀視頻幀進(jìn)行初始化,同時使用實際拍攝視頻序列和ChockPoint數(shù)據(jù)集視頻序列進(jìn)行測試評估,部分實際評估結(jié)果如圖5、圖6所示,其中直角虛線框表示真實的標(biāo)準(zhǔn)框,圓角虛線框表示SiamFC算法跟蹤結(jié)果,直角實體框表示本算法的跟蹤結(jié)果。
圖5 光照明暗變化人臉跟蹤示例
圖6 相似多人臉干擾跟蹤示例
圖5為ChockPoint數(shù)據(jù)集中的測試樣例圖片幀,從圖5可以看出,第485幀、第498幀、第506幀和第513幀均呈現(xiàn)不同的光照色差,基于本文算法繪制出的矩形框仍然能較準(zhǔn)確地框出人臉?biāo)谖恢?,而SiamFC算法則出現(xiàn)不同程度的抖動。
圖6為實際應(yīng)用環(huán)境中拍攝的多人臉干擾的視頻序列,在第145幀,兩種跟蹤算法均能進(jìn)行較準(zhǔn)確的人臉跟蹤。隨著時間的推移,第153幀和第164幀中開始出現(xiàn)大面積人臉重疊,SiamFC的跟蹤框大范圍抖動,引入過多非目標(biāo)人臉信息。從第164幀到第178幀,SiamFC的跟蹤框明顯跟錯了對象,而本文的人臉跟蹤算法依舊能準(zhǔn)確地鎖定跟蹤人臉,進(jìn)行準(zhǔn)確的人臉跟蹤,能有效解決多人干擾人臉目標(biāo)跟錯現(xiàn)象,抗干擾性強,具有更強的魯棒性。
2.3.3 定量分析
在我們的實驗中,對增加不同模塊和策略的主干網(wǎng)絡(luò)進(jìn)行增益實驗比較,其中DP表示使用本文設(shè)計的輕量級主干特征提取網(wǎng)絡(luò),IR是紅外光圖,VIS是可見光圖,Cor表示互相關(guān),Cos表示余弦相似相關(guān),具體參數(shù)如表2所示。
表2 不同策略組合的主干網(wǎng)絡(luò)命名
將本文設(shè)計的人臉跟蹤網(wǎng)絡(luò)以及幾種變體網(wǎng)絡(luò)在自制數(shù)據(jù)集上的平均像素誤差精度、魯棒性、平均覆蓋率、測試速度進(jìn)行比較,具體實驗結(jié)果如表3所示。
表3 不同主干網(wǎng)絡(luò)跟蹤性能比較
表3中,將SiamFC的主干網(wǎng)絡(luò)AlexNet直接替換為本文設(shè)計的輕量級主干網(wǎng)絡(luò),跟蹤整體性能略微降低,為彌補深度可分離卷積帶來的精度下降,采用HSwish作為激活函數(shù),增加非線性,并在主干網(wǎng)絡(luò)末尾增加三個Dense_Block增大感受野,豐富深層語義信息提取。直接使用IR圖像作為輸入,跟蹤精度相對于VIS的有所下降,據(jù)分析,IR圖像相對于VIS丟失了顏色等重要信息。Siam-DP+VIS+IR(Ours)對孿生網(wǎng)絡(luò)的搜索分支同時融合可見光圖與紅外光圖,消弱光照強度變化對跟蹤外觀模型表征的影響。Siam-DP+VIS+IR+Cos(Ours)把互相關(guān)操作替換為余弦相似相關(guān),余弦相似相關(guān)將輸出響應(yīng)最大值進(jìn)行歸一化,提高網(wǎng)絡(luò)模型的相似性判別能力,在本文設(shè)計的四種主干網(wǎng)絡(luò)中,整體性能均優(yōu)于SiamFC。
2.3.4 方法有效性比較
為驗證本文提出的基于多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤方法的有效性,與其他人臉跟蹤算法進(jìn)行比較,其中包括基于稀疏表示的IVT跟蹤算法、基于相關(guān)濾波的KCF跟蹤算法、基于深度學(xué)習(xí)孿生網(wǎng)絡(luò)的SiamFC跟蹤算法、基于深度學(xué)習(xí)位置回歸的GOTURN人臉跟蹤算法等。
表4和表5分別為不同人臉跟蹤算法和本文的跟蹤算法在光照變化(IV)、遮擋(OCC)、快速移動(FM)、背景干擾(BC)、運動模糊(MB)等5種環(huán)境下平均像素距離誤差在20個像素以內(nèi)、平均成功率即平均跟蹤面積重疊率為0.45以上的百分比的實驗結(jié)果,表中最優(yōu)結(jié)果已使用加粗顯示。
表4 基于ChockPoint數(shù)據(jù)集的平均像素誤差精度和平均成功率(用“/”隔開)的比較
表5 基于RGBT234數(shù)據(jù)集的平均像素誤差精度和平均成功率(用“/”隔開)的比較
表4中基于深度學(xué)習(xí)的人臉跟蹤算法在跟蹤性能上均取得顯著提升,從表中可以看出,雖然在FM和MB條件下的跟蹤效果不是最好,但是在IV、OCC、BC三種條件下的表現(xiàn)優(yōu)于其他四種跟蹤算法。表中四種經(jīng)典跟蹤算法的平均成功率依次是0.676、0.691、0.717、0.7366,本文算法的平均成功率為0.781。實驗表明,本文提出的人臉跟蹤算法即使是在跟蹤環(huán)境復(fù)雜多變的情況下依舊能達(dá)到較優(yōu)的跟蹤效果。
表5中,本文所提出的人臉跟蹤算法整體性能較優(yōu),其中在FM條件下略差于Li等的基準(zhǔn)算法,但其他條件下皆較優(yōu),整體平均精度達(dá)到0.762,整體平均成功率為0.484,比Li等的分別提高8.3%和4.8%。進(jìn)一步證明了在多模態(tài)輸入的條件下,本文的人臉跟蹤算法即使是在跟蹤環(huán)境復(fù)雜多變的情況下依舊能達(dá)到較優(yōu)的跟蹤效果。
本文以實際應(yīng)用環(huán)境為背景,為解決光照變化大、背景相似干擾等人臉跟蹤問題,提出多模態(tài)余弦相似孿生網(wǎng)絡(luò)人臉跟蹤算法。首先,采用成對的VIS-IR圖片作為網(wǎng)絡(luò)的輸入,利用這兩種模態(tài)信息互補的特點,降低光照強弱變化對圖片特征的敏感度,提高跟蹤過程中外觀建模的魯棒性。其次,結(jié)合SiamFC算法中互相關(guān)層存在相似度計算異常的問題引入余弦相似相關(guān)層,進(jìn)一步對相似度值進(jìn)行歸一化,有效解決互相關(guān)層由個別差異值引起的相似度誤判問題。余弦相似相關(guān)相比互相關(guān)增加較大的算力開銷,本文通過構(gòu)建輕量級的特征提取網(wǎng)絡(luò)有效地減少余弦相關(guān)增加的算力開銷。為提高算法的適用性,采用大量不同角度、姿態(tài)、遮擋、佩戴飾物的樣本數(shù)據(jù)進(jìn)行模型訓(xùn)練。經(jīng)實驗驗證,本文的人臉跟蹤算法有效解決跟蹤過程中光照干擾、多人臉干擾、復(fù)雜背景、跟丟、跟錯等問題,提高人臉跟蹤算法穩(wěn)定性,實際跟蹤速度達(dá)到115.7fps,具有較高的實時性和較強的移植性。