劉康 賴惠成
摘 ?要: 針對(duì)傳統(tǒng)核相關(guān)濾波(KCF)跟蹤算法在人臉跟蹤中無法處理尺度變化、嚴(yán)重遮擋等問題,提出一種多特征融合的尺度自適應(yīng)KCF人臉跟蹤算法。該算法先對(duì)膚色與HOG特征進(jìn)行融合來表征人臉,通過多通道相關(guān)濾波器定位人臉位置;學(xué)習(xí)一個(gè)一維的尺度濾波器來估計(jì)人臉的最優(yōu)尺度;采用線性插值的方式對(duì)濾波器系數(shù)和人臉外觀模型進(jìn)行更新。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法能明顯提高跟蹤的性能。通過定量與定性分析該算法對(duì)尺度變化、嚴(yán)重遮擋等問題有很好的魯棒性,跟蹤速度在36.7 f/s時(shí)達(dá)到實(shí)時(shí)應(yīng)用的要求,優(yōu)于近幾年一些優(yōu)秀的跟蹤算法。
關(guān)鍵詞: 核相關(guān)濾波; 多特征融合; 尺度自適應(yīng); 線性插值; 模型更新; 人臉跟蹤
中圖分類號(hào): TN820.4?34; TP391.41 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2019)10?0182?05
A scale adaptive KCF human face tracking algorithm based on multi?feature fusion
LIU Kang, LAI Huicheng
(College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)
Abstract: Since the traditional kernel correlation filtering (KCF) tracking algorithm cannot handle the problems of scale variation and heavy occlusion during human face tracking, a scale adaptive KCF face tracking algorithm based on multi?feature fusion is proposed. In the algorithm, the human face is represented by fusing the skin color with HOG features. The human face position is located by using the multi?channel correlation filter. The optimal scale of human face is estimated by learning a one?dimensional scale filter. The linear interpolation mode is adopted to update the filter coefficient and facial appearance model. The experimental results show that the improved algorithm can significantly improve tracking performance, has good robustness for problems of scale variation and heavy occlusion by means of quantitative and qualitative analysis, and can meet the real?time application requirement at the tracking speed of 36.7 f/s, which is superior to some excellent tracking algorithms in recent years.
Keywords: kernel correlation filtering; multi?feature fusion; scale adaptive; linear interpolation; model update; human face tracking
0 ?引 ?言
人臉跟蹤是計(jì)算機(jī)視覺中一個(gè)經(jīng)典問題,其應(yīng)用在很多重要領(lǐng)域,如視頻跟蹤、人機(jī)交互及表情識(shí)別等[1]。雖然近些年人臉跟蹤取得了很大的進(jìn)步,但多數(shù)跟蹤算法還是很容易受光照、遮擋、尺度變化等方面的影響從而導(dǎo)致性能的退化,因此實(shí)現(xiàn)精確的人臉跟蹤仍然很具挑戰(zhàn)性。
跟蹤算法根據(jù)外觀模型可以分為兩種:生成式模型[2]與判別式模型[3]。生成式模型通過在線學(xué)習(xí)建立人臉模型,使用模型搜索重建誤差最小的區(qū)域來完成定位。判別式模型將人臉跟蹤任務(wù)看作一個(gè)二值分類問題來處理,通過提取背景與人臉信息來訓(xùn)練分類器進(jìn)而將人臉從復(fù)雜背景中提取出來,相比之下在現(xiàn)有跟蹤算法中更有優(yōu)勢(shì)。目前,基于相關(guān)濾波的判別跟蹤方法[4]在目標(biāo)跟蹤基準(zhǔn)數(shù)據(jù)庫OTB[5]上表現(xiàn)出很好的跟蹤性能與計(jì)算效率。BOLME D S等首次將相關(guān)濾波引入到跟蹤框架中提出誤差最小平方和濾波器(MOSSE),其用圖像的原始灰度信息來訓(xùn)練分類器[6]。之后,HENRIQUES J等用HOG特征來表征人臉,引入平移和尺度集得到一個(gè)核化模型來區(qū)分人臉與背景[7]。DANELLJAN M等用顏色屬性(CN)來改善人臉特征模型,都取得了不錯(cuò)的跟蹤效果[8]。盡管KCF有很多優(yōu)點(diǎn),但仍有三個(gè)主要問題需要解決:第一,僅用單一的HOG特征表征人臉忽略其他重要特征,如膚色特征;第二,固定的跟蹤窗口無法解決跟蹤過程人臉尺度的變化;第三,僅用當(dāng)前幀對(duì)模型和分類器參數(shù)進(jìn)行更新容易導(dǎo)致局部最優(yōu)。
為解決上述問題,本文首先將HOG、膚色這兩個(gè)互補(bǔ)特征進(jìn)行融合來提高算法的判別能力。同時(shí)訓(xùn)練位置濾波器與尺度濾波器來對(duì)人臉進(jìn)行位置與尺度的估計(jì),最后根據(jù)前面所有幀采用線性插值的方式自適應(yīng)的對(duì)人臉模型及分類器參數(shù)進(jìn)行更新來提升跟蹤的性能。實(shí)驗(yàn)結(jié)果顯示改進(jìn)算法在成功率和精度上都有很大提高,算法運(yùn)行滿足實(shí)時(shí)性要求。同時(shí)在各方面的干擾情況下都有非常好的穩(wěn)定性。
1 ?核相關(guān)濾波跟蹤器
KCF[9]類似于其他相關(guān)濾波跟蹤器,當(dāng)人臉外觀模型與訓(xùn)練數(shù)據(jù)相近時(shí)通過尋找最優(yōu)濾波抽頭使得響應(yīng)值最大,其通過解決簡(jiǎn)單的嶺回歸來處理跟蹤問題。假設(shè)循環(huán)移位Xi作為訓(xùn)練樣本,i∈{0,1,2…,M-1}×{0,1,2,…,N-1},用一個(gè)高斯向量y表示訓(xùn)練輸出。通過引入正則化最小二乘與核函數(shù),分類器模型可通過式(1)訓(xùn)練得到:
[minωiφΧi,ω-yi2+λω2] (1)
式中:[φΧi]是將訓(xùn)練樣本映射到希爾伯特空間的函數(shù);常數(shù)[λ]是一個(gè)控制過擬合的正則化參數(shù)。定義核函數(shù)[κΧ,Χ′=φΧ,φΧ′],求解式(1),可以得到[ω=iαiφΧi]。其中濾波器系數(shù)[α]滿足[Fα=YHΧ+λ], F(·)表示離散傅里葉變換,[Y=Fy,HΧ=Fhx]。對(duì)于單通道灰度圖像集[Χ],這里采用高斯核[κΧ,Χ′=exp-1σ2Χ-Χ′2]進(jìn)行計(jì)算,因此可以得到:
[hgaussΧ=exp-1σ2Χ2+Χ′2-2F-1X*X′] ? (2)
式中:[X=FΧ;X′=FΧ′;F-1]表示離散傅里葉變換的逆變換;[σ]為高斯核參數(shù)。對(duì)于新的檢測(cè)區(qū)域,分類器的輸出結(jié)果通過式(3)進(jìn)行計(jì)算:[y=ωΤΖ=iαiκΧi,Ζ],根據(jù)循環(huán)結(jié)構(gòu)可以同時(shí)計(jì)算Z所有的循環(huán)移位的輸出響應(yīng):
[y=MhΖΤα] ? ? (3)
式中,[MhΖ]表示[hΖ]通過移位得到的矩陣。因?yàn)槭且粋€(gè)濾波操作,所以其可以在頻域中更有效地計(jì)算:
[Y=HΖFα] ?(4)
式中:[Y=Fy;HΖ=FhΖ]。新一幀中人臉位置通過最大響應(yīng)值來得到。
2 ?多特征融合的尺度自適應(yīng)人臉跟蹤
KCF跟蹤器利用循環(huán)結(jié)構(gòu)的核函數(shù)計(jì)算候選區(qū)域與樣本之間的相似性,整個(gè)過程在頻域進(jìn)行,避免了復(fù)雜的卷積計(jì)算,提高了運(yùn)行效率。然而傳統(tǒng)跟蹤算法采取單一特征表征人臉,僅運(yùn)用當(dāng)前幀固定大小的訓(xùn)練樣本來訓(xùn)練分類器和模型的更新,難以對(duì)人臉運(yùn)動(dòng)過程中出現(xiàn)的尺度變化進(jìn)行相應(yīng)的處理,最終導(dǎo)致分類器誤差累計(jì),跟蹤人臉漂移。為此,通過膚色與HOG特征共同表征人臉,提出一種改進(jìn)的自適應(yīng)算法。
2.1 ?多特征融合
跟蹤過程中人臉特征的提取與表示會(huì)對(duì)跟蹤效率產(chǎn)生重要影響。從KCF跟蹤器中了解到,相關(guān)濾波可以擴(kuò)展到多維特征表示。假設(shè)多通道特征表示為一個(gè)向量[Χ=Χ1,Χ2,…,ΧC],那么式(2)可以寫為:
[hgaussΧ=exp-1σ2Χ′2+Χ2-2F-1C=1CX?C⊙x′C] (5)
因此可以使用更強(qiáng)的特征來代替原始灰度像素,而且不同的互補(bǔ)特征可以進(jìn)行特征融合。本文用較強(qiáng)的YCgCr空間膚色特征以及HOG特征進(jìn)行融合來表征人臉。
在RGB顏色空間中人臉膚色的檢測(cè)效果較差,而由圖1可知,YCgCr在CgCr子空間的膚色聚類能力較好,因此選擇YCgCr空間進(jìn)行膚色特征表示,在顏色空間中建立高斯模型[10],從而得到人臉膚色特征歸一化直方圖。
YCgCr顏色空間與RGB顏色空間的轉(zhuǎn)換公式如下:
[YCgCr=16128128+ ? 65.418128.553 ? 24.966-81.085112-30.915112-93.786-18.214RGB] (6)
HOG計(jì)算機(jī)視覺的一個(gè)重要特征為通過將圖像分為小的元胞,在每個(gè)元胞里累加計(jì)算出一維的梯度(或邊緣方向)直方圖,接著把這些直方圖聯(lián)合起來,進(jìn)而生成特征描述子。由于HOG是在圖像的局部方格單元上進(jìn)行了歸一化操作,所以極大地減少了光照和形變因素的影響。
圖1 ?膚色在顏色空間中的分布
膚色與梯度方向直方圖這兩類特征互補(bǔ),膚色提供了人臉區(qū)域的全局表觀特征,而HOG強(qiáng)調(diào)了局部梯度特征。因此,在決策層將兩種特征融合可以更有效的表征人臉,同時(shí)應(yīng)用PCA降低特征維數(shù)提高了運(yùn)算效率。
2.2 ?多特征的位置濾波器
本文使用一個(gè)二維相關(guān)濾波來估計(jì)人臉位置,通過訓(xùn)練樣本集的所有循環(huán)移位得到一個(gè)分類器。假設(shè)人臉被提取的所有多通道特征向量被表示為[Χk:k=1,2,…,t],k表示第k幀,通過最小化回歸誤差來訓(xùn)練分類器:
[minωk=1tρkiφΧki,ω-yi2+λω2] (7)
式中,[yi]是高斯型的期望輸出;[ρk]是第k幀的加權(quán)系數(shù)。根據(jù)核映射函數(shù)[ω=iαiφi],式(7)的解為:
[αt=k=1tρkYkHkΧk=1tρkHKΧHKΧ+λ] ? (8)
式中,[HKΧ=FhkΧ],[hkΧ]通過式(7)計(jì)算得到。則分類器的輸出可以表示為:
[yt=F-1Y=F-1HΖαt] (9)
[α=αtNαtD],將分子[αtN]與分母[αtD] 分別進(jìn)行更新。因此,分類器的系數(shù)[αt]按式(10)、式(11)進(jìn)行更新:
[αtN=1-μαt-1N+μYtHtΧ] ? ? ? (10)
[αtD=1-μαt-1D+μHtΧHtΧ+λ] (11)
人臉外觀模型用式(12)更新:
[Χt=1-μΧt-1+μΧt] ?(12)
2.3 ?尺度估計(jì)
根據(jù)第2.2節(jié)提出的位置相關(guān)濾波器,提出尺度估計(jì)策略,通過學(xué)習(xí)一個(gè)尺度相關(guān)濾波器來估計(jì)人臉尺度變化。首先,提取由位置濾波器檢測(cè)出來的人臉位置周圍不同尺寸的訓(xùn)練樣本,用這些樣本訓(xùn)練一個(gè)尺度濾波器,根據(jù)最大的尺度相關(guān)響應(yīng)值來估計(jì)人臉的尺度變化。假設(shè)跟蹤窗i的大小為二維向量Si,原始人臉尺度為S0。定義尺度池[s=α1,α2,…,αN],[s=s0αi],i=1,2,…,N,通過尺度池獲得不同尺度的搜索窗口,通過訓(xùn)練得到的相關(guān)濾波器計(jì)算置信值,計(jì)算濾波的相應(yīng)輸出,最大響應(yīng)值就是尺度估計(jì)的結(jié)果。同時(shí)尺度濾波模型用式(10)、式(11)進(jìn)行更新。
2.4 ?改進(jìn)算法框架
改進(jìn)后的算法通過分別學(xué)習(xí)一個(gè)位置和尺度相關(guān)濾波器來有效地對(duì)人臉的位置和尺度進(jìn)行估計(jì)。該算法流程為:
輸入:前一幀人臉位置pt-1和尺度st-1;
輸出:計(jì)算得出當(dāng)前幀的人臉位置pt和尺度st;
1.從當(dāng)前幀提取位置樣本[Ζttrans];
2.用式(9)計(jì)算響應(yīng)輸出[yttrans];
3.找到使響應(yīng)值[yttrans]最大的位置[pt];
4.從第t幀([pt,st-1])提取尺度樣本[Ζtscale]
5.用式(9)計(jì)算響應(yīng)輸出[ytscale];
6.找到使響應(yīng)值[yttrans]最大的人臉尺度[st];
7.用式(10)~式(11)更新[αt],用式(12)更新[Χt]。
3 ?實(shí)驗(yàn)結(jié)果分析
3.1 ?實(shí)驗(yàn)環(huán)境與參數(shù)
所有實(shí)驗(yàn)在Matlab R2014a Intel[?] Core(TM) i5?4590 3.30 GHz CPU 4 GB RAM下實(shí)現(xiàn)。在改進(jìn)算法中正則化參數(shù)[λ]=0.03,模型更新中學(xué)習(xí)率?=0.065(位置模型),?=0.035(尺度模型),s=27,尺度增量因子[α]=1.02。
3.2 ?評(píng)價(jià)標(biāo)準(zhǔn)
為了定量評(píng)估改進(jìn)算法的性能,采用文獻(xiàn)[11]中的OPE(One?Pass Evaluation)進(jìn)行跟蹤結(jié)果的評(píng)估。中心位置誤差(CLE)定義為跟蹤人臉的中心位置與實(shí)際的中心位置之間的平均歐氏距離。CLE越小性能越好,反之亦然。對(duì)于視頻序列,所有幀平均CLE用來描述跟蹤的整體性能。距離精度(DP)表示CLE值小于閾值所占視頻總數(shù)的比例。實(shí)驗(yàn)中閾值選定為20 pixel。DP值越高,算法精度越好。重疊率(OP)表示重疊率大于閾值的幀數(shù)占視頻總幀數(shù)的比例,OP值越高跟蹤成功率越高。結(jié)果用精度圖與成功率圖顯示,如圖2所示,另外,給出了所有跟蹤算法的FPS。
圖2 ?精度與成功率曲線
3.3 ?對(duì)比實(shí)驗(yàn)
對(duì)本文的跟蹤算法與當(dāng)前幾種比較優(yōu)秀的算法如DSST[12]、KCF[13]進(jìn)行比較,得到不同跟蹤算法的主要差別,如表1所示。
實(shí)驗(yàn)中,選了幾個(gè)經(jīng)典的視頻序列,在圖3中顯示了不同跟蹤器的定量比較,圖3a)中有明顯的尺度變化。KCF由于跟蹤窗口尺寸固定無法準(zhǔn)確估計(jì)多尺度變化的人臉,DSST可以跟蹤不同的尺度但受尺度漂移的影響,文中提出的方法可以精確地估計(jì)出人臉的位置與最佳尺度。在圖3b)中,人臉受到了部分遮擋和全部遮擋。KCF和DSST無法解決全遮擋影響,所以產(chǎn)生了跟蹤漂移;而改進(jìn)后的方法可以精確估計(jì)位置在尺度估計(jì)上也要優(yōu)于DSST。在圖3c)中,人臉受光照變化、相似背景的干擾,但改進(jìn)算法仍然能夠很好地跟蹤目標(biāo)。在圖3d)中,目標(biāo)發(fā)生了旋轉(zhuǎn),該文算法可以精確地定位人臉位置,而其他算法則跟蹤失敗。另外,圖2顯示了本文算法在精度與成功率上的有效性。表1給出了幾種跟蹤方法的平均定量結(jié)果,最好的結(jié)果用黑體顯示。從定量分析,本文方法在魯棒性與精確性上優(yōu)于其他跟蹤器,運(yùn)行也滿足實(shí)時(shí)性。
圖3 ?不同跟蹤方法對(duì)測(cè)試視頻的跟蹤結(jié)果
總體來說,從定量與定性評(píng)估中可知,改進(jìn)算法對(duì)尺度、遮擋、光照等方面的干擾表現(xiàn)出很好的穩(wěn)定性。實(shí)驗(yàn)結(jié)果清楚地表明該算法極大提高了人臉跟蹤的性能。
4 ?結(jié) ?論
本文根據(jù)導(dǎo)致KCF跟蹤失敗的主要因素提出一種改進(jìn)的算法。首先,將人臉膚色與HOG特征進(jìn)行融合來表征人臉;其次,通過學(xué)習(xí)一個(gè)獨(dú)立的尺度濾波器對(duì)人臉最優(yōu)尺度變化進(jìn)行估計(jì),解決了傳統(tǒng)核相關(guān)濾波跟蹤算法無法自適應(yīng)處理尺度變化的缺陷;最后,采用線性插值的方式更新人臉的外觀模型與濾波器系數(shù)。對(duì)4組測(cè)試視頻進(jìn)行實(shí)驗(yàn),結(jié)果表明改進(jìn)算法對(duì)尺度變化、嚴(yán)重遮擋等問題有很好的魯棒性,跟蹤速度在36.7 f/s達(dá)到了實(shí)時(shí)應(yīng)用的要求,優(yōu)于近幾年一些優(yōu)秀的跟蹤算法。
注:本文通訊作者為賴惠成。
參考文獻(xiàn)
[1] SMEULDERS A W M, CHU D M, CUCCHIARA R, et al. Visual tracking: an experimental survey [J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(7): 1442?1468.
[2] JIA X, LU H, YANG M H. Visual tracking via adaptive structural local sparse appearance model [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012: 1822?1829.
[3] HARE S, SAFFARI A, TORR P H S. Struck: structured output tracking with kernels [C]// Proceedings of IEEE International Conference on Computer Vision. Barcelona: IEEE, 2011: 263?270.
[4] HENRIQUES J, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking?by?detection with kernels [C]// Proceedings of 12th European Conference on Computer Vision. Berlin: Springer, 2012: 702?715.
[5] WU Y, LIM J, YANG M H. Object Tracking Benchmark [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1834?1848.
[6] BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters [C]// Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco: IEEE, 2010: 2544?2550.
[7] HENRIQUES J, CASEIRO R, MARTINS P, et al. High?speed tracking with kernelized correlation filters [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(3): 583?596.
[8] DANELLJAN M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real?time visual tracking [C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 1090?1097.
[9] LI Y, ZHANG Y F, XU Y L, et al. Robust scale adaptive kernel correlation filter tracker with hierarchical convolutional features [J]. IEEE signal processing letters, 2016, 23(8): 1136?1140.
[10] GHAZALI K H B, MA J, XIAO R. An innovative face detection based on YCgCr color space [J]. Physics procedia, 2012, 25: 2116?2124.
[11] TANG M, FENG J Y. Multi?kernel correlation filter for visual tracking [C]// Proceedings of IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3038?3046.
[12] DANELLJAN M, H?GER G, KHAN F S, et al. Accurate scale estimation for robust visual tracking [C]// Proceedings of 2014 British Machine Vision Conference. Nottingham: BMVA Press, 2014: 1?11.
[13] MONTERO A S, LANG J, LAGANI?RE R. Scalable kernel correlation filter with sparse feature integration [C]// Proceedings of IEEE International Conference on Computer Vision Workshop. Santiago: IEEE, 2015: 587?594.
[14] ZHANG K, ZHANG L, LIU Q, et al. Fast visual tracking via dense spatio?temporal context learning [C]// Proceedings of European Conference on Computer Vision. Cham: Springer, 2014: 127?141.