楊源,庫濤,查宇飛,張園強,李寰宇
(1.空軍工程大學(xué)空管領(lǐng)航學(xué)院,710051,西安;2.空軍工程大學(xué)航空航天工程學(xué)院,710038,西安)
?
快速多特征金字塔的尺度目標(biāo)跟蹤方法
楊源1,庫濤2,查宇飛2,張園強2,李寰宇1
(1.空軍工程大學(xué)空管領(lǐng)航學(xué)院,710051,西安;2.空軍工程大學(xué)航空航天工程學(xué)院,710038,西安)
為了克服目標(biāo)尺度變化導(dǎo)致的跟蹤失敗問題,提出了一種快速多特征金字塔的尺度目標(biāo)跟蹤算法。該算法融合了梯度特征和顏色特征,提高了特征表征的維度,以便獲得更多的目標(biāo)表征信息;同時利用多尺度特征金字塔快速地近似相鄰尺度特征,得到不同尺度模板,從而平衡了由于特征維度上升帶來的計算時間開銷,并保證了近似的準(zhǔn)確性; 在相關(guān)濾波框架下,綜合不同尺度模板的跟蹤結(jié)果,實現(xiàn)對目標(biāo)位置和尺度的準(zhǔn)確估計。選取4個具有尺度變化、光照變化和背景干擾的典型場景視頻序列進行仿真實驗,結(jié)果表明,與傳統(tǒng)的尺度自適應(yīng)核跟蹤算法相比,提出的跟蹤算法能夠很好地適應(yīng)外部環(huán)境變化,實現(xiàn)對尺度目標(biāo)的魯棒跟蹤,同時在中心位置誤差、覆蓋率、精確度和成功率4個指標(biāo)上優(yōu)于對比算法。
目標(biāo)跟蹤;相關(guān)濾波;尺度自適應(yīng);快速特征金字塔
(1. School of Air Control and Navigation, Air Force Engineering University, Xi’an 710051, China;2. School of Aeronautics and Astronautics Engineering, Air Force Engineering University, Xi’an 710038, China)
視覺目標(biāo)跟蹤[1-3]是計算機視覺中非常重要的一個分支,被廣泛應(yīng)用于視頻監(jiān)視、人機交互和無人駕駛等領(lǐng)域。視覺目標(biāo)跟蹤解決的基本問題是給定初始幀目標(biāo)的位置和尺度,快速準(zhǔn)確地尋找到目標(biāo)在接下來的視頻中的位置和大小。然而,因為尺度、旋轉(zhuǎn)和形變等內(nèi)因以及背景干擾、光照等外因相互作用,目標(biāo)外觀會改變,使得目標(biāo)跟蹤容易發(fā)生漂移,甚至失敗。
相關(guān)濾波算法因其具有較高的跟蹤精度和較少的時間開銷,引起了相關(guān)學(xué)者們的研究興趣。文獻[4]提出了一種自適應(yīng)的最小平方誤差和輸出(MOSSE)的相關(guān)濾波算法,實現(xiàn)了目標(biāo)的快速魯棒跟蹤,但該算法特征較為簡單,不適用于復(fù)雜場景。由于基于循環(huán)結(jié)構(gòu)的核相關(guān)濾波(KCF)跟蹤算法[5-6]采用了核映射,使得用較為簡單的特征也能取得較好的跟蹤效果,但它不具有尺度自適應(yīng)性。文獻[7]在MOSSE的基礎(chǔ)上采用更為復(fù)雜的梯度方向直方圖(HOG)[11]特征,并加入尺度自適應(yīng)性,使得跟蹤性能進一步提升,并奪得視覺2014年目標(biāo)跟蹤挑戰(zhàn)(VOT2014)第1名。文獻[8]在KCF的基礎(chǔ)上融合HOG特征和顏色屬性特征,提高了目標(biāo)表征的維度,取得很好的跟蹤性能,但計算量較大,為平衡性能,尺度搜索空間較小,導(dǎo)致尺度估計并不優(yōu)于判別式尺度空間跟蹤器(DSST)。
基于以上考慮,本文提出一種快速多特征金字塔的尺度目標(biāo)跟蹤算法,能夠克服目標(biāo)尺度變化所導(dǎo)致的跟蹤失敗問題。該算法融合梯度特征和顏色特征,以便獲得更多的目標(biāo)表征信息;同時利用多尺度特征金字塔快速地近似相鄰尺度特征,克服了因特征維度增加而導(dǎo)致的多尺度特征計算量增大的問題;在相關(guān)濾波框架下,綜合不同尺度模板的跟蹤結(jié)果,實現(xiàn)對目標(biāo)位置和尺度的準(zhǔn)確估計。
核相關(guān)濾波應(yīng)用于跟蹤,本質(zhì)上是一個多實例學(xué)習(xí)的過程,通過密集采樣遍歷目標(biāo)可能出現(xiàn)的位置,并采用高斯函數(shù)作為對應(yīng)的空間響應(yīng)分布,從而采用嶺回歸模型訓(xùn)練得到一個濾波器,用該濾波器對下一幀圖像濾波,響應(yīng)最大點位置即為目標(biāo)位置。利用循環(huán)矩陣與傅里葉變換的性質(zhì)[9]加快濾波器的訓(xùn)練速度,引入核函數(shù)[10]將低維特征映射到高維,提高了特征表征的魯棒性。
1.1 核嶺回歸模型
相關(guān)濾波的根本目的在于學(xué)習(xí)一個濾波器w來最小化一系列訓(xùn)練樣本{x1,x2,…,xn}經(jīng)濾波后的響應(yīng)函數(shù)f(w;xi)與期望輸出響應(yīng)yi之間的誤差,一般取f(w;x)=wTx,即為
(1)
式中:λ為正則化項,避免過擬合,取為0.01。X=(x1,x2,…,xn)T,Y=(y1,y2,…,yn)T,其中yi為頂點在目標(biāo)中心處的高斯函數(shù)。式(1)的解析解為
w=(XHX+λI)-1XHY
(2)
(3)
(4)
式(4)可變?yōu)?/p>
(5)
(6)
其解析解為
α=(K+λI)-1Y
(7)
式中:K為n×n的核矩陣,且Ki,j=φT(xi)φ(xj),易知K為循環(huán)矩陣[6],即K=C(kxx),其中kxx為核矩陣K的第一行。選取高斯核函數(shù),則有
(‖x‖2+‖x′‖2)-
(8)
由循環(huán)矩陣的性質(zhì)以及式(3)、式(4),利用傅里葉變換,得到α的頻域解為
(9)
由文獻[6]可知,式(7)的結(jié)論同樣適用于樣本xi和期望輸出響應(yīng)yi為二維信號的情況。從而針對跟蹤問題,可以利用上一幀學(xué)習(xí)到的濾波器α對當(dāng)前幀圖像濾波,找到目標(biāo)響應(yīng)最大處,即為目標(biāo)在當(dāng)前幀的位置。
1.2 目標(biāo)響應(yīng)函數(shù)
下一幀的樣本z的響應(yīng)函數(shù)為
f(z)=wTz=αTΦTz=(Kz)Tα=(C(kxz))Tα
(10)
由式(3)、式(4),式(8)的傅里葉變換為
(11)
對目標(biāo)的位置更新為
(12)
對式(12)求時域響應(yīng)最大點的位置,從而確定目標(biāo)中心點的位置,實現(xiàn)位置更新。
2.1 特征融合
(13)
綜合考慮不同特征的差異性,本文選取融合梯度方向直方圖(HOG)特征[11]和顏色屬性(CN)特征[12]來描述目標(biāo)外觀。其中,HOG描述的是目標(biāo)的形狀特征,通過提取圖像的梯度信息并統(tǒng)計梯度方向直方圖,有31個通道,選取的計算單元尺寸為1;CN描述的是目標(biāo)的顏色特征,是由文獻[12]提出的一種基于語義顏色標(biāo)簽的特征,有11個通道。直接融合HOG特征和CN特征,對特征進行多通道的拼接,使得目標(biāo)的特征維度達到42個,因而在計算不同尺度的圖像特征時,需要用到本文采用的快速特征金字塔的計算方法。
2.2 快速特征金字塔
文獻[13]提出了一種基于統(tǒng)計規(guī)律的快速特征金字塔的計算方法,可以大大減少計算特征的時間,提高效率,用于目標(biāo)檢測取得了很好的效果。其基本方法可以表述為
Xs≈R(X,s)s-λΩ;X=Ω(I)
(14)
式中:I為原始圖像;X為特征圖像;s表示尺度;Ω(·)為特征提取函數(shù);R(X,s)為重采樣函數(shù),表示將特征圖X按尺度s進行重采樣;Is為原始圖像I在尺度s采樣的結(jié)果。λΩ為特征估計參數(shù),可由兩個不同尺度的特征圖像近似如下
λΩ=lb(Ω(Xs1)/Ω(Xs2))/lb(s1/s2)
(15)
傳統(tǒng)特征金字塔的方法是先構(gòu)建圖像金字塔,后計算每層的特征,本文提出用單幅圖像的特征估計不同尺度的特征,從而大大加快特征計算時間。本文特征提取方法與傳統(tǒng)方法對比如圖1所示。
(a)傳統(tǒng)特征金字塔提取方法
(b)本文特征金字塔提取方法圖1 兩種特征金字塔計算方法對比
2.3 跟蹤框架
基于上述核相關(guān)濾波算法和快速多尺度特征計算方法,本文提出一種基于快速特征計算的多尺度核相關(guān)濾波算法。首先通過快速特征計算,得到多尺度的特征模板;其次用不同尺度的模板分別進行學(xué)習(xí)得到多尺度濾波器;最后用這些多尺度濾波器對下一幀圖像進行濾波,查找響應(yīng)最大值所對應(yīng)的位置和尺度,實現(xiàn)尺度自適應(yīng)跟蹤,其基本框架見圖2。
圖2 本文跟蹤算法流程圖
圖3 不同的尺度模板獲取方法示意圖
(2)基于多模板的跟蹤方法。相關(guān)濾波實質(zhì)上仍然是一個模板匹配的問題,通過模板與待檢測的圖像進行相關(guān)操作,得到不同位置的響應(yīng)值,訓(xùn)練模型可表示為求解下式
(16)
(17)
從而檢測下一幀圖像z中目標(biāo)的響應(yīng)函數(shù)為
(18)
目標(biāo)位置和尺度更新可通過求解下式獲得
(19)
(3)模型更新。由于本文將模板最終進行了尺寸擴充,將較小的模板按邊緣像素進行復(fù)制,將較大的模板進行截取,保證尺寸的一致性,從而可以很方便地進行更新。本文選取初始幀目標(biāo)尺寸的2.5倍作為模板尺寸,更新公式可表示為
(20)
本文的仿真實驗均在CPU為Intel Core i3-4150、主頻為3.50 GHz、8 GB內(nèi)存的計算機環(huán)境下通過MATLAB2013a軟件平臺進行實現(xiàn),并選取核循環(huán)結(jié)構(gòu)跟蹤器算法(CSK)[5]、KCF[6]、DSST[7]、正則化互相關(guān)算法(NCC)[14]、基于核的結(jié)構(gòu)化輸出跟蹤方法(Struck)[15]、多示例學(xué)習(xí)算法(MIL)[16]、增量跟蹤方法(IVT)[17]和本文算法的實驗結(jié)果和性能進行定性和定量的分析。
3.1 定性分析
為了對比各算法的性能,從OTB2013數(shù)據(jù)庫中選取了4個典型的序列進行驗證,各個序列的特點如表1所示,其跟蹤結(jié)果如圖4所示。
表1 典型視頻序列描述
由圖4的結(jié)果可以看出,本文算法在尺度變化、光照變化、姿態(tài)變化、遮擋和復(fù)雜背景下能夠?qū)崿F(xiàn)尺度目標(biāo)的魯棒跟蹤。Doll序列具有目標(biāo)尺度變化、復(fù)雜背景干擾、快速移動等特點,本文算法能夠?qū)崿F(xiàn)對目標(biāo)的魯棒跟蹤。Shaking序列具有較為強烈的光照變化,本文算法采用了更為復(fù)雜的特征表示方法,能克服強光照帶來的影響。Trellis序列具有很強的光照及陰影變化,本文算法采用的高維特征和多模板跟蹤的方法能夠?qū)崿F(xiàn)這種復(fù)雜情況下的魯棒跟蹤。Walking序列具有目標(biāo)較小且有姿態(tài)變化等特點,本文算法能實現(xiàn)準(zhǔn)確跟蹤。
圖4 Doll、Shaking、Trellis、Walking跟蹤結(jié)果示意圖
3.2 性能分析
本文從中心位置誤差、覆蓋率、精確度和成功率4項性能指標(biāo)和計算復(fù)雜度等5個方面,對本文算法和6種對比算法進行評估。
3.2.1 跟蹤性能
(1)中心位置誤差。中心位置誤差[18]計算如下
c=(‖O-Ot‖2)1/2
(21)
式中:O和Ot分別為算法得到的目標(biāo)中心點坐標(biāo)和人工標(biāo)定的目標(biāo)中心真實坐標(biāo)。中心位置誤差的單位為像素,表示兩點間距離像素點的個數(shù)。中心位置誤差可以衡量算法中心位置的跟蹤性能,其值越小,表明中心位置跟蹤誤差越小,性能越高。視頻中每幀的中心位置誤差如圖5所示,平均中心位置誤差見表2。不難看出,本文算法與其他6種算法相比,具有較低的中心位置誤差。
(2)覆蓋率。覆蓋率[18]是檢測目標(biāo)與真實目標(biāo)重疊部分與兩者的并集之比,表示為
(a)Doll序列
(b)Shaking序列
(c)Walking序列
(d)Trellis序列圖5 各算法跟蹤結(jié)果的中心位置誤差比較
(22)
(a)Doll序列
(b)Shaking序列
(c)Trellis序列
(d)Walking序列圖6 各算法跟蹤結(jié)果的覆蓋率比較
(3)精確度。精確度[18]表示跟蹤結(jié)果與跟蹤誤差的關(guān)系,曲線越陡,表示跟蹤精度越高。公式如下
(23)
注:*表示最優(yōu)結(jié)果;**為次優(yōu)結(jié)果。
式中:Df表示第f幀的跟蹤結(jié)果與真實值之間的中心位置誤差;α表示取中心位置誤差的閾值。精確度與中心位置誤差的關(guān)系如圖7所示。不難看出,在4個典型視頻中,本文算法具有更好的中心位置跟蹤性能。
(a)Doll序列
(b)Shaking序列
(c)Trellis序列
(d)Walking序列圖7 各算法跟蹤結(jié)果的精確度比較
(4)成功率。成功率表示跟蹤結(jié)果與跟蹤覆蓋率的關(guān)系,即覆蓋率大于特定閾值的視頻幀占總幀數(shù)的比例,曲線越陡,表示跟蹤精度越高。成功率計算如下
(24)
式中:Lf表示第f幀的跟蹤結(jié)果與真實值之間的覆蓋率;α表示取覆蓋率的閾值。圖8為成功率與不同覆蓋率閾值的關(guān)系,它表明當(dāng)取不同覆蓋率閾值時,成功跟蹤的視頻幀數(shù)占總幀數(shù)的比例。不難看出,本文算法具有更高的成功率,性能更好。
(a)Doll序列
(b)Shaking序列
(c)Trellis序列
(d)Walking序列圖8 各算法跟蹤結(jié)果的成功率比較
3.2.2 算法復(fù)雜度 本文算法的復(fù)雜度主要體現(xiàn)在高維特征和多尺度模板相關(guān)濾波跟蹤導(dǎo)致的計算量的增加,和快速尺度估計使得計算量的減少。為了更直觀地表現(xiàn)本文算法的復(fù)雜度,比較了7種算法在4個典型視頻序列上的處理速度,結(jié)果如表3所示,從中可以看出本文算法實現(xiàn)了跟蹤的實時性。
表3 各算法計算速度的比較
本文提出了一種特征融合的快速尺度目標(biāo)跟蹤算法。主要創(chuàng)新點體現(xiàn)在:采用多特征融合的方式提高目標(biāo)表征的維度,增加跟蹤的魯棒性;利用快速特征金字塔來解決因維度增大而帶來的計算量增大的問題;采用多模板的相關(guān)濾波方法來解決尺度跟蹤的問題。實驗結(jié)果表明,本文算法能夠快速而準(zhǔn)確地實現(xiàn)尺度目標(biāo)的實時跟蹤。
[1] 查宇飛, 楊源, 王錦江, 等. 利用密度描述符對應(yīng)的視覺跟蹤算法 [J]. 西安交通大學(xué)學(xué)報, 2014, 48(9): 13-18. ZHA Yufei, YANG Yuan, WANG Jinjiang, et al. A visual object tracking algorithm using dense descriptors correspondences [J]. Journal of Xi’an Jiaotong University, 2014, 48(9): 13-18.
[2] 庫濤, 畢篤彥, 楊源, 等. 尺度目標(biāo)的頻域核回歸跟蹤研究 [J]. 空軍工程大學(xué)學(xué)報(自然科學(xué)版), 2016, 17(2): 76-81. KU Tao, BI Duyan, YANG Yuan, et al. Scalable object tracking based on frequency kernel regression [J]. Journal of Air Force Engineering University (Natural Science Edition), 2016, 17(2): 76-81.
[3] 畢篤彥, 庫濤, 查宇飛, 等. 基于顏色屬性直方圖的尺度目標(biāo)跟蹤算法研究 [J]. 電子與信息學(xué)報, 2016, 38(5): 1099-1106. BI Duyan, KU Tao, ZHA Yufei, et al. Scale-adaptive object tracking based on color names histogram [J]. Journal of Electronics and Information Technology, 2016, 38(5): 1099-1106.
[4] BOLME D S, BEVERIDGE J R, DRAPER B, et al. Visual object tracking using adaptive correlation filters [C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2010: 2544-2550.
[5] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels [C]∥European Conference on Computer Vision. Berlin, Germany: Springer, 2012: 702-715.
[6] HENRIQUES J, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[7] DANELLJAN M, HAGER G, KHAN F, et al. Accurate scale estimation for robust visual tracking [C]∥British Machine Vision Conference. Berlin, Germany: Springer, 2014: 1-4.
[8] LI Y, ZHU J. A scale adaptive kernel correlation filter tracker with feature integration [C]∥European Conference on Computer Vision. Berlin, Germany: Springer, 2014: 254-265.
[9] GRAY R M. Toeplitz and circulant matrices: a review [M]. San Francisco, USA: Now Publishers Inc., 2006: 89-101.
[10]SCHOLKOPF B, SMOLA A J. Learning with kernels: support vector machines, regularization, optimization, and beyond [M]. Boston, Massachusetts, USA: MIT Press, 2001: 57-61.
[11]FELZENSZWALL P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[12]VAN DE WEIJER J, SCHMID C, VERBEEK J, et al. Learning color names for real-world applications [J]. IEEE Transactions on Image Processing, 2009, 18(7): 1512-1523.
[13]DOLLAR P, APPEL R, BELONGIE S, et al. Fast feature pyramids for object detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8): 1532-1545.
[14]YOO J C, HAN T H. Fast normalized cross-correlation [J]. Circuits, Systems and Signal Processing, 2009, 28(6): 819-843.
[15]HARE S, SAFFARI A, TORR P H S. Struck: structured output tracking with kernels [C]∥IEEE International Conference on Computer Vision. Piscataway, NJ, USA: IEEE, 2011: 263-270.
[16]BABENKO B, YANG M H, BELONGIE S. Visual tracking with online multiple instance learning [C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2009: 983-990.
[17]POGGIO T, CAUWENBERGHS G. Incremental and decremental support vector machine learning [J]. Advances in Neural Information Processing Systems, 2001, 13(5): 409-412.
[18]BOUGUET J Y. Pyramidal implementation of the affine lucas kanade feature tracker description of the algorithm [J]. Intel Corporation Microprocessor Research Labs Tech Rep, 2000, 22(2): 363-381.
(編輯 杜秀杰)
Fast Multi-Feature Pyramids for Scale-Adaptive Object Tracking
YANG Yuan1,KU Tao2,ZHA Yufei2,ZHANG Yuanqiang2,LI Huanyu1
A fast scale estimation algorithm for visual tracking with feature integration is proposed to solve tracking failure from object scale changes. The gradient feature and color feature are integrated to obtain more object representation information with the increasing feature dimensions, then a fast multi-scale feature pyramid method is used to approximate the adjacent scale features to get templates in different scales, thus it is possible to balance the computation cost due to the increasing feature dimensions without accuracy loss after approximation. Combining tracking results of multi-scale templates, the object location and scale are estimated accurately by the proposed algorithm in the framework of correlation tracking 4 representative video sequences with scale changes, and illumination variations and background clusters are chosen to simulate. The experiments indicate that the proposed algorithm well adapts to environmental variations and outperforms the traditional scale-adaptive kernel correlation tracking schemes in center location error, overlap ratio, precision and success rate.
object tracking; correlation filtering; scale-adaptive; fast feature pyramids
2016-01-18。
楊源(1982—),男,副教授。
國家自然科學(xué)基金資助項目(61472442);陜西省科技新星資助項目(2015kjxx-46)。
時間:2016-07-14
http:∥www.cnki.net/kcms/detail/61.1069.T.20160714.1726.016.html
10.7652/xjtuxb201610008
TP391
A
0253-987X(2016)10-0049-08