楊德東,蔡玉柱,毛 寧,楊福才
(河北工業(yè)大學 控制科學與工程學院,天津 300130)
?
采用核相關(guān)濾波器的長期目標跟蹤
楊德東,蔡玉柱*,毛寧,楊福才
(河北工業(yè)大學 控制科學與工程學院,天津 300130)
針對核相關(guān)濾波器(KCF)跟蹤算法在目標跟蹤中存在尺度變化、嚴重遮擋、相似目標干擾和出視野情況下跟蹤失敗等問題,提出了一種基于KCF的長期目標跟蹤算法。該算法在分類器學習中加入空間正則化,利用基于樣本區(qū)域空間位置信息的空間權(quán)重函數(shù)調(diào)節(jié)分類器系數(shù),使分類器學習到更多負樣本和未破壞的正樣本,從而增強學習模型的判別力。然后,在檢測區(qū)域利用Newton方法完成迭代處理,求取分類器最大響應位置及其目標尺度信息。最后,對最大響應位置的目標進行置信度比較,訓練在線支持向量機(SVM)分類器,以便在跟蹤失敗的情況下,重新檢測到目標而實現(xiàn)長期跟蹤。采用OTB-2013評估基準50組視頻序列驗證了本文算法的有效性,并與30種其他跟蹤方法進行了對比。結(jié)果表明:本文提出的算法跟蹤精度為0.813,成功率為0.629,排名第一,相比傳統(tǒng)KCF算法分別提高了9.86%和22.3%。在目標發(fā)生顯著尺度變化、嚴重遮擋、相似目標干擾和出視野等復雜情況下,本文方法均具有較強的魯棒性。
核相關(guān)濾波器;長期目標跟蹤;空間正則化;支持向量機(SVM);在線SVM分類器
*Correspondingauthor,E-mail:caiyuzhu001@sina.com
目標跟蹤是計算機視覺的最重要組成部分之一,其可用于監(jiān)控、人機交互和醫(yī)療圖像[1]。目標跟蹤,是在視頻序列的初始幀,給定目標的初始狀態(tài)(比如位置和尺寸),并在隨后的視頻序列中估計出目標的狀態(tài)。影響跟蹤算法性能的因素很多,比如尺度變化、遮擋、出視野等,目前也不存在可以處理所有應用場景的跟蹤方法。
近年來,對目標跟蹤問題的研究取得了許多進展,涌現(xiàn)了很多跟蹤算法。根據(jù)目標外觀模型的表達策略,可將跟蹤方法分為生成式方法[2-3]和判別式方法[4-12]。生成式方法,學習一個外觀模型來表示目標,然后在圖像區(qū)域進行搜索,將與外觀模型最相似的區(qū)域作為目標。生成式方法丟棄了在目標周圍能夠?qū)⒛繕藦谋尘爸袇^(qū)分出來的有用信息。判別式方法是將跟蹤看成一個二元分類的問題,其利用訓練數(shù)據(jù)學習到一個分類器,將目標從背景中分離出來。
最近,已有學者將基于相關(guān)濾波器的方法[13-20]成功應用在目標跟蹤問題中。Bolme等[13]提出了一種在灰度圖像上學習一個最小輸出平方誤差和(MOSSE)相關(guān)濾波器的跟蹤算法,該算法只需要一個目標區(qū)域的樣本圖像訓練目標外觀模型,通過離散傅里葉變換將目標與所有候選區(qū)域之間的相似度計算轉(zhuǎn)換到頻域,顯著地提升了跟蹤算法的運行速度。Henriques等[14]提出了循環(huán)結(jié)構(gòu)的檢測跟蹤(CSK)算法,該算法對訓練樣本進行循環(huán)移位,可近似看成對目標的密集采樣,從而得到大量訓練樣本的訓練分類器。另外,對候選圖像塊同樣采用循環(huán)移位,構(gòu)造大量候選圖像塊區(qū)域用于分類器的檢測過程。分類器的訓練和檢測過程都可以利用離散傅里葉變換在頻域?qū)崿F(xiàn)快速計算。Danelljan等[15]提出了自適應顏色屬性視覺跟蹤(CN)算法,使用顏色屬性擴展CSK跟蹤器,并且采用自適應降維技術(shù)將11維的顏色屬性特征向量降到了2維,實時地選擇比較明顯的顏色屬性特征,實現(xiàn)了自適應顏色跟蹤。Zhang等[16]提出時空上下文跟蹤(STC)算法,主要利用深度時空上下文信息,將目標周圍的背景信息加入到卷積濾波器模型的訓練當中,以減弱部分遮擋對目標的影響,對遮擋因素具有一定的抵抗力。Henriques等[17]在CSK的基礎(chǔ)上提出核相關(guān)濾波器(KCF)跟蹤算法,使用方向梯度直方圖(HoG)[21]特征代替原來的灰度值特征,將相關(guān)濾波器由單通道擴展到多通道,提升了跟蹤性能。
為解決相關(guān)濾波器方法無法處理目標尺度變化問題,Li等[18]提出了一種基于特征融合的尺度自適應核相關(guān)濾波器(SAMF)算法,其融合了顏色屬性特征和HoG特征,應用尺度池解決尺度變化;文獻[19]在傳統(tǒng)的基于檢測的目標跟蹤框架下,設(shè)計了一種尺度估計策略,實現(xiàn)了自適應尺度目標跟蹤;文獻[20]提出了一種基于相關(guān)濾波器和尺度金字塔的尺度估計機制,并設(shè)計了遮擋檢測模塊,降低遮擋對尺度變化估計的影響。
當目標受尺度變化、嚴重遮擋、相似目標干擾和出視野等因素影響時,KCF算法很容易出現(xiàn)跟蹤失敗的問題。針對這一問題,本文在KCF的基礎(chǔ)上,引入空間正則化和在線SVM分類器重定位組件,解決了KCF跟蹤器在跟蹤過程中目標因嚴重遮擋、相似目標干擾和出視野因素而造成的跟蹤失敗問題,實現(xiàn)了基于KCF的長期跟蹤。為驗證本文方法的有效性,利用OTB-2013[22]評估基準的50組完全標注的視頻序列以及跟蹤-學習-檢測(TLD)[6]算法提供的兩組長期跟蹤視頻序列進行測試,并與KCF及OTB-2013評估基準所包含的29種跟蹤算法進行了對比。
KCF[17]跟蹤器是一種基于檢測的密集采樣的跟蹤器,利用循環(huán)矩陣理論在目標區(qū)域進行移位,為分類器構(gòu)造了大量樣本,解決了稀疏采樣的樣本冗余性問題,提升了跟蹤性能和跟蹤速度,并在OTB-2013評估基準中取得了最好的跟蹤性能和高速的運行速度。
2.1循環(huán)矩陣
針對傳統(tǒng)的基于檢測的跟蹤算法稀疏采樣的樣本存在冗余性問題,KCF跟蹤器利用循環(huán)矩陣理論在目標區(qū)域進行循環(huán)移位,為分類器構(gòu)造大量的訓練樣本。KCF跟蹤器利用基準樣本(正樣本)和通過循環(huán)移位獲得虛擬樣本(負樣本)訓練分類器。為表述簡單,記基準樣本x是n×1向量。利用置換矩陣P對基準樣本x做循環(huán)移位操作,移位后的樣本為Plx,故獲取訓練分類器的樣本集合{Plx|l=0,1,…n-1|}。其中置換矩陣
(1)
循環(huán)矩陣X,將對n×1向量x所有可能的移位進行組合:
(2)
其中循環(huán)矩陣X的第一行為向量x,第二行是將向量x元素向右移動一位,其他行以此類推。由于循環(huán)特性,每移位n次,可以周期性獲得基準樣本。同樣,可以等效地看成循環(huán)矩陣X的前半部分對向量x元素的移位沿著正方向,而循環(huán)矩陣X的后半部分的移位則沿著反方向。
循環(huán)矩陣X可通過離散傅里葉變換變成對角矩陣,可以表示為
(3)
2.2分類器訓練
在許多實際問題中,由于嶺回歸對于任意輸入都有簡單的閉式最優(yōu)解,不需要復雜的迭代、最小化序列優(yōu)化等,不僅降低了計算復雜度,還能夠獲得與支持向量機(SVM)相近的分類性能。
為此,KCF聚焦嶺回歸,利用一組訓練樣本{xi,yi},從中尋找對樣本xi和回歸目標yi最小化平方誤差的函數(shù)f(z)=wTz,其中w為分類器參數(shù),z為檢測圖像塊
(4)
其中λ是控制過擬合的正則化項參數(shù)。
由Representer定理[23]給出公式(4)最小化解:對輸入的訓練樣本線性組合
(5)
其中φ(xi)為將訓練樣本映射到高維特征空間的函數(shù)。
定義核函數(shù)k(x,x′)=φT(x)φ(x′),其中核函數(shù)k為高斯核函數(shù)或者多項式核函數(shù)。n×n核矩陣K由所有樣本對的點乘Kij組成
Kij=k(xi,xj)
(6)
核函數(shù)k是酉不變核函數(shù),則以Kij為元素的K核矩陣是循環(huán)矩陣[14]。其中,徑向基核函數(shù)、多項式核函數(shù)和高斯核函數(shù)都是酉不變核函數(shù)。
然后,基于核的正則化最小二乘[24]給出嶺回歸簡單的閉式解
α=(K+λI)-1y,
(7)
其中K為核矩陣,I為單位矩陣,向量y的元素為yi,向量α的元素為αi。
由于核矩陣K具有循環(huán)特性,利用公式(3)的性質(zhì)對公式(7)進行離散傅里葉變換:
(8)
其中kxx為核矩陣K=C(kxx)的第一行元素。
2.3快速檢測
KCF跟蹤算法,對于新輸入圖像塊z,分類器的響應為:
(9)
對圖像塊z進行循環(huán)移位構(gòu)造候選圖像塊,可利用候選圖像塊的循環(huán)結(jié)構(gòu),同時計算出分類器對檢測區(qū)域中的所有位置的響應。
記Kz為訓練樣本和所有候選圖像塊的核矩陣。由于訓練樣本由基準樣本x循環(huán)移位構(gòu)成,候選圖像塊由基準圖像塊z循環(huán)移位構(gòu)成,利用酉不變核函數(shù)定理,可知Kz為循環(huán)矩陣。
Kz=C(kxz),
(10)
Kz表示訓練樣本和所有候選圖像塊之間的核矩陣,kxz表示x和z之間的核相關(guān)。
利用公式(9)和公式(10),可計算出所有候選圖像塊的分類器響應
f(z)=(Kz)Tα,
(11)
其中f(z)是一個向量,包含z所有循環(huán)移位的輸出,即所有檢測結(jié)果。
為有效計算公式(11),可利用Kz的循環(huán)特性,及公式(3)的性質(zhì)對公式(11)進行離散傅里葉變換:
(12)
其中 · 表示點乘。
由2.1節(jié)可知,KCF跟蹤算法中,訓練樣本周期性循環(huán)移位產(chǎn)生。然而,這種周期性循環(huán)移位對樣本產(chǎn)生了不必要的邊界效應。
KCF算法在理論上對跟蹤性能的影響主要體現(xiàn)在以下幾方面。(a)由于KCF算法限制了分類器的檢測區(qū)域和訓練區(qū)域為目標大小的四倍,無法跟蹤快速運動目標;負樣本數(shù)量比較少,KCF算法的學習模型過擬合,相似目標容易混淆;(b)由于周期性循環(huán)移位對樣本產(chǎn)生了不必要的邊界效應,限制了KCF算法只在靠近搜索區(qū)域的中心位置跟蹤準確,因而在嚴重遮擋和出視野情況下表現(xiàn)不好。
本文通過擴大樣本區(qū)域,引入空間正則化和在線SVM分類器重定位組件,解決了KCF算法在尺度變化、嚴重遮擋、相似目標干擾和出視野因素下跟蹤失敗的問題。
3.1空間正則化組件
空間正則化,是在分類器學習過程中利用正則化權(quán)重τ調(diào)節(jié)分類器參數(shù)w。正則化權(quán)重τ是基于分類器搜索范圍的先驗信息分布的。在背景區(qū)域,賦予較高的正則化權(quán)重τ來調(diào)節(jié)分類器參數(shù)w,以便減輕背景信息對分類器在學習過程中的影響。
假定所有樣本具有同樣的空間尺寸M×N,即樣本的空間位置(m,n)∈Ω:={0,…,M-1}×{0,…,N-1}。在學習過程中,為調(diào)節(jié)分類器參數(shù)w,引入空間權(quán)重函數(shù)τ:Ω→R??臻g正則化權(quán)重根據(jù)空間位置決定分類器參數(shù)w的重要性,背景區(qū)域賦予較高空間權(quán)重,目標區(qū)域內(nèi)賦予較小的空間權(quán)重。利用空間正則化權(quán)重τ代替公式(2)中的正則化項λ:
(13)
其中空間正則化權(quán)重函數(shù)
τ(m,n)=u+η{(m/P)2+(n/Q)2}.
(14)
最小空間正則化權(quán)重τ=u=0.1,正則化影響因數(shù)η=3,P×Q表示目標尺寸。
由帕塞瓦爾定理可知,函數(shù)平方的和等于其離散傅里葉轉(zhuǎn)換式平方之和。對公式(13)應用帕塞瓦爾定理
(15)
其中*表示循環(huán)卷積。
公式(15)第二項遵循逆離散傅里葉變換的卷積屬性,公式(15)向量化:
(16)
(17)
定義τ′為大小為MN×MN塊對角矩陣,每個對角塊等于C。
(18)
(19)
(20)
3.2模型訓練
(21)
(22)
3.3快速子網(wǎng)格檢測
(23)
其中i表示虛部??焖僮泳W(wǎng)絡(luò)檢測,獲取的是檢測值最大化的子網(wǎng)格位置(u*,v*):
(u*,v*)=argmax(u,v)∈[0,M)×[0,N)s(u,v),
(24)
本文利用子網(wǎng)格插值策略,獲取分類器對樣本zr分類器得分sr的最大值,利用最大分類器得分sr的子網(wǎng)格位置更新目標位置。對樣本zr的每個尺度層,做獨立的快速子網(wǎng)格檢測,從中找到獲取分類器最高得分的尺度層,用以更新目標尺度。
3.4重定位組件
長期跟蹤過程中,重定位組件對于目標因受到長期遮擋或者出視野等因素導致跟蹤失敗后重新定位目標位置至關(guān)重要。對于重定位組件,由于跟蹤實時性的要求,本文并不是對每幀圖像都訓練一個目標相關(guān)濾波器,而是獨立地訓練一個在線SVM分類器。
長期跟蹤算法TLD采用對視頻序列的每幀圖像都執(zhí)行重檢測的策略。而本文采用閾值θre激活策略,激活重定位組件。當max(sr)<θre時,即當分類器檢測值最大值小于重定位激活閾值時,激活目標重檢測,利用在線SVM分類器掃描整幀圖像,獲取在線SVM分類器的重檢測結(jié)果,通過比較目標的置信度確定是否采用重檢測結(jié)果。
本文采用一種半監(jiān)督學習方法訓練在線SVM分類器,以增強重定位組件的定位性能。利用標記集Ll={[xre,yre]}和未標記集Uu,其中l(wèi)?u,xre和yre分別為重定位組件訓練在線SVM分類器的樣本及標簽。標記集選取第一幀給定目標圖像塊和與第一幀給定目標框重疊率在(0.6,1)之間的圖像塊作為正樣本,而負樣本為與第一幀給定目標框重疊率在(0,0.2)之間的圖像塊。與正負樣本來源于第一幀的標記集不同,未標記集在跟蹤過程(幀數(shù)i≥2)中產(chǎn)生,選取與跟蹤的目標框重疊率在(0.6,1)之間的圖像塊作為正樣本,而負樣本為與跟蹤的目標框重疊率在(0,0.2)之間的圖像塊。
為驗證本文算法的有效性,利用OTB-2013[22]中大約29 000幀圖像的50個完全標注的視頻數(shù)據(jù)集包含11種屬性進行評估,并與KCF以及OTB-2013代碼庫中所包含的29種跟蹤算法進行了對比。OTB-2013代碼庫所包含了以下跟蹤算法:CSK, Struck, SCM, TLD, CT, VTD, VTS, CXT, IVT, ASLA, DFT, LSK, CPF, LOT, VR-V, KMS, L1APG, MTT, MIL, OAB, SemiT, ORIA, SMS, Frag, BSBT。OTB-2013視頻數(shù)據(jù)集包含了以下屬性:光照變化(IV)、尺度變化(SV)、遮擋(OCC)、形變(DEF)、運動模糊(MB)、快速運動(FM)、平面內(nèi)旋轉(zhuǎn)(IPR)、平面外旋轉(zhuǎn)(OPR)、出視野(OV)、復雜背景(BC)、低分辨率(LR)。
4.1實驗環(huán)境及參數(shù)設(shè)置
本實驗基本配置,Matlab2013a,Intel(R) Core(TM) i3-2350 CPU,主頻2.3 GHz,4 GB內(nèi)存。類似于KCF算法,本文算法采用HoG特征,大小為4 pixel×4 pixel的單元。采用M×N的網(wǎng)格單元表示樣本大小,并與目標框區(qū)域成比例。KCF算法將樣本區(qū)域設(shè)置為初始目標框區(qū)域的4倍,本文充分考慮到快速運動目標連續(xù)兩幀之間真實目標框的中心位置的偏移大于20 pixel這一情況,以及充分考慮分類器訓練、檢測效率,將樣本區(qū)域設(shè)置為初始目標框區(qū)域的16倍。空間正則化權(quán)重函數(shù)為τ(m,n),最小空間正則化權(quán)重τ=u=0.1,正則化影響因數(shù)η=3,P×Q表示目標尺寸,尺度數(shù)量S=7,尺度增量因子a=1.01。重定位組件設(shè)置如下,設(shè)置θre=0.5用以激活在線SVM分類器,設(shè)置θa=0.5用以更新重定位目標模型。模型更新中,學習效率γ=0.01。對于實驗中所有的視頻數(shù)據(jù)集,實驗參數(shù)均保持一致。
4.2性能評估方法
為了評估跟蹤算法的性能,本實驗采用了OTB-2013中的兩種評估方法作為定量評價指標:精確度圖(Precision plot)和成功率圖(Success plot)。
在跟蹤精度評估中,廣泛應用的是中心位置誤差(CLE)。中心位置誤差定義為跟蹤目標的中心位置和手工標定的準確中心位置之間的平均歐式距離。
精確度圖,能夠顯示目標中心位置誤差小于閾值的幀數(shù)占視頻總幀數(shù)的百分比。實驗中閾值選定為20 pixels。
成功率圖,能夠顯示重疊率S大于給定閾值t0的幀數(shù)占視頻總幀數(shù)的百分比。其中,重疊率S定義為,S=|Rt∩Ra|/|Rt∪Ra| ,Rt為跟蹤的目標框,Ra為準確的目標框,∩和∪分別表示兩個區(qū)域的交集和并集,|·|為區(qū)域內(nèi)的像素點的數(shù)量。成功率給出了閾值t0從0到1變化時,成功的幀數(shù)所占的比例,利用成功率圖曲線下的面積(AUC)作為跟蹤算法性能的評價準則。
4.3性能比較
本實驗采用基于精確度圖和成功率圖的一次通過評估(OPE)方法評估跟蹤算法性能。利用OTB-2013評估策略,對共計30個跟蹤算法進行性能比較。為了顯示清楚,本文在精確度圖和成功率圖上只顯示排序靠前的10個跟蹤算法的結(jié)果。
4.3.1定量比較
A) 整體性能分析
圖1為整體性能排名前10的OPE精確度圖和成功率圖。依據(jù)精確度圖和成功率圖,兩個圖中本文算法均排在第一位。在精確度圖中,本文算法精確度為0.813,相比于KCF和CSK算法分別提高了9.86%和49.1%。在成功率圖中,本文算法成功率為0.629,相比于KCF和CSK算法分別提高了22.3%和58%。
B) 基于數(shù)據(jù)集屬性的性能分析
為充分評估本文算法跟蹤性能,利用OTB-2013視頻數(shù)據(jù)集的11個屬性進一步評估本文算法的性能。圖2(彩圖見期刊電子版)為排名前10的跟蹤算法在包含11個屬性數(shù)據(jù)集上的精確度圖,由圖2可知,本文算法除了在復雜背景、低分辨率和光照變化這3個屬性精度圖上排名第二,其余8個屬性的精度圖上都排名第一。對比其他算法中效果最好的KCF算法,在尺度變化、遮擋、出視野和快速運動屬性精度圖上,本文算法分別提高了14.7%、5.74%、23%和16.7%。
圖3(彩圖見期刊電子版)為排名前10的跟蹤算法在包含11個屬性數(shù)據(jù)集上的成功率圖,本文算法在11個屬性的成功率圖上都排名第一位。在尺度變化、遮擋、出視野和快速運動這4個屬性的成功率圖上,本文算法較KCF算法分別提高了40.5%、20.2%、15.6%和 23.3%。
對于OTB-2013具有遮擋屬性的29個數(shù)據(jù)集,本文算法在精確度圖和成功率圖上均排第一,相比排名第二位的KCF分別提高了5.74%和20.2%,取得了不錯的改進效果。本文算法的樣本區(qū)域比KCF算法的擴大了4倍,并通過加入空間正則化組件,以有效地學習更多的背景信息,獲取更多的負樣本和未被破壞的正樣本,增強了分類器將目標從背景中區(qū)分的能力,即處理遮擋數(shù)據(jù)集的能力。
對于OTB-2013出視野屬性的6個數(shù)據(jù)集,本文算法在精確度圖和成功率圖上均排序第一,相比排名第二位的KCF分別提高了23%和15.6%。這是因為本文算法加入了重定位模塊,當相關(guān)濾波器確定的目標置信度比較低時,采用閾值激活重定位SVM分類器方法,重新確定目標位置,并在目標位置區(qū)域進行采樣訓練SVM分類器,提高重定位能力。
圖1 排名前10跟蹤算法OPE的精確度圖和成功率圖Fig.1 Precision plots and success plots of OPE for the top 10 trackers
圖2 排名前10跟蹤算法在11個屬性的精確度圖(標題上的數(shù)字表示此種屬性的數(shù)據(jù)集數(shù)量)Fig.2 Precision plots of videos with 11 different attributes for the top 10 trackers.(The number in the title indicates the number of sequences.)
圖3 排名前10跟蹤算法在11個屬性的成功率圖(標題上的數(shù)字表示此種屬性的數(shù)據(jù)集數(shù)量)Fig.3 Success plots of videos with 11 different attributes for the top 10 trackers.(The number in the title indicates the number of sequences.)
4.3.2定性比較
A) 抗遮擋性能分析
圖4(彩圖見期刊電子版)顯示了10種算法在3個經(jīng)歷嚴重遮擋數(shù)據(jù)集上的幾幀具有代表性跟蹤結(jié)果。在Jogging數(shù)據(jù)集中,在第67幀目標被燈桿幾乎完全遮擋。10種算法中,只有本文算法、TLD和CXT算法能夠重新定位到目標,例如第79幀、第130幀和第288幀。在Woman數(shù)據(jù)集中,目標人物經(jīng)歷了長時間持續(xù)遮擋,本文算法、 SCM算法和Struck算法都能夠正確跟蹤目標人物,例如第165幀、第337幀和第477幀。在Suv數(shù)據(jù)集中,目標車輛頻繁地被茂密的樹木遮擋,例如第513幀、第535幀和第778幀。本文算法、SCM算法、TLD算法和CXT算法均取得了不錯的跟蹤效果,例如第578幀和850幀。在這3個經(jīng)歷嚴重遮擋的數(shù)據(jù)集中,KCF算法、CSK算法都無法準確跟蹤目標,表現(xiàn)不好。由以上結(jié)果可知,本文算法通過擴大樣本區(qū)域,利用空間正則化組件對遮擋具有抵抗力。
圖4 10個跟蹤算法在經(jīng)歷嚴重遮擋的數(shù)據(jù)集Jogging,Woman,Suv上定性結(jié)果顯示Fig.4 Qualitative results of 10 trackers over sequences Jogging,Woman and Suv,in which the targets undergo heavy occlusion
B) 相似目標干擾性能分析
圖5(彩圖見期刊電子版)顯示了10種跟蹤算法在經(jīng)歷相似目標干擾的數(shù)據(jù)集上具有代表性的跟蹤結(jié)果。在數(shù)據(jù)集Deer中,在第30幀和第55幀目標鹿的頭部與周圍干擾鹿的頭部相似度極高,對目標鹿的跟蹤產(chǎn)生一定的干擾。
KCF算法的跟蹤結(jié)果(淡青色目標框)與目標鹿頭部真實位置有一定的誤差,而本文算法的跟蹤結(jié)果(鮮紅色目標框)與目標鹿頭部真實位置一致。在數(shù)據(jù)集Football中,由于要跟蹤的目標只是橄欖球運動員的頭部,而橄欖球運動員都帶著同樣的頭盔,目標遠動員與周圍的運動員頭部的相似性極高。在第283幀,目標運動員頭部被37號運動員頭部遮擋。而在第310幀,KCF算法跟蹤到了37號運動員的頭部,出現(xiàn)跟蹤錯誤;而本文算法能夠正確跟蹤目標運動員的頭部,未被37號運動員頭部干擾。在數(shù)據(jù)集Liquor中,第327幀中左側(cè)的瓶子與中間位置的瓶子具有一定的相似性。在第550幀、第751幀、第970幀和第1 539幀,KCF算法受相似目標的干擾,出現(xiàn)了錯誤跟蹤;而本文算法均能夠正確跟蹤真實目標,未受相似目標干擾而跟蹤失敗。
圖5 10個跟蹤算法在經(jīng)歷相似目標干擾的數(shù)據(jù)集Deer,Football,Liquor上定性結(jié)果顯示Fig.5 Qualitative results of the 10 trackers over sequences Deer,Football and Liquor,in which the targets undergo disturbance of similar target.
C)尺度變化性能分析
圖6顯示了10種跟蹤算法在具有較大尺度變化的數(shù)據(jù)集上具有代表性的跟蹤結(jié)果。在Carscale數(shù)據(jù)集中,目標車輛經(jīng)歷了顯著地尺度變化,例如第149幀、第165幀、第185幀和第252幀。CSK算法由于采用簡單的灰度特征進行跟蹤,與當目標車輛在第165幀受到樹木遮擋,導致模型特征發(fā)生變化時,出現(xiàn)跟蹤失敗(如第185幀所示)。在這10種算法中,本文算法對于Carscale數(shù)據(jù)集中目標車輛具有最好的跟蹤效果,對顯著尺度變化具有較強的魯棒性。在Car4數(shù)據(jù)集中,目標車輛尺度由大變小,并受到嚴重的光照變化影響,例如第187幀和第303幀。本文算法、TLD算法和SCM算法均能較好地處理目標車輛的尺度變化,而CT算法由于采用隨機投影矩陣對高維特征進行降維,故特征選取不顯著,在跟蹤過程中出現(xiàn)跟蹤漂移。在Singer1數(shù)據(jù)集中,由于鏡頭拉遠,目標人物尺度由大變小,經(jīng)歷了顯著的尺度變化,并且受到嚴重的光照變化影響,例如第80幀和第150幀。與KCF算法、CSK算法、CT算法和VTD算法相比,本文算法在處理目標尺度變化問題上具有一定的優(yōu)越性,對顯著的尺度變化具有較強的魯棒性。
圖6 10個跟蹤算法在經(jīng)歷尺度變化的數(shù)據(jù)集CarScale,Car4,Singer1上定性結(jié)果顯示Fig.6 Qualitative results of the 10 trackers over sequences CarScale,Car4 and Singer1,in which the targets undergo scale variations.
D)出視野性能分析
圖7顯示了10種跟蹤算法在目標出視野的數(shù)據(jù)集上具有代表性的跟蹤結(jié)果。由于超出視野數(shù)據(jù)集在OTB-2013評測數(shù)據(jù)集中只有6個,本文選取了超出視野因素影響比較大的Lemming數(shù)據(jù)集和TLD算法所提供的Motocross和Carchase數(shù)據(jù)集進行分析。在Lemming數(shù)據(jù)集中,旅鼠玩偶目標超出視野(如第556幀),一段時間后又完全回到視野中(如第610幀),本文算法可以正確跟蹤到旅鼠玩偶目標,而KCF算法則跟蹤失敗。在Lemming數(shù)據(jù)集中,多次出現(xiàn)平面外和平面內(nèi)旋轉(zhuǎn)因素的影響,給跟蹤增加了難度,但是本文算法仍然能夠正確跟蹤。在數(shù)據(jù)集Motocross中,目標經(jīng)歷了超出視野(如第31幀和第493幀)、外觀嚴重變化(如第427幀和第552幀)影響,本文算法都能正確跟蹤。在Carchase數(shù)據(jù)集中,目標車輛經(jīng)歷完全出視野一段時間又回到視野中(如第377幀和第389幀),本文算法和TLD算法由于加入了重定位組件,即使在目標完全出視野一段時間后又回到視野中這種復雜情況下仍然能夠跟蹤正確,而KCF算法由于沒有重定位模塊故在目標出視野一段時間后重回視野后,無法重新定位目標的位置而跟蹤失敗。
圖7 10個跟蹤算法在經(jīng)歷出視野的數(shù)據(jù)集Motocross,Carchase,Lemming上定性結(jié)果顯示Fig.7 Qualitative results of the 10 trackers over sequences Motocross,Carchase and Lemming,in which the targets undergo out of view.
針對KCF算法在尺度變化、嚴重遮擋、相似目標干擾、出視野等復雜情況下出現(xiàn)跟蹤失敗的問題,本文提出了基于核相關(guān)濾波器的長期跟蹤方法。在模型學習過程中,本文通過擴大樣本區(qū)域(相比KCF算法樣本區(qū)域擴大了4倍),加入空間正則化組件,利用基于樣本區(qū)域的空間先驗信息的空間權(quán)重函數(shù),減輕樣本區(qū)域中的背景信息對于分類器學習的影響。解決了KCF算法在產(chǎn)生訓練樣本過程中利用周期性假設(shè)而帶來的邊界效應(正樣本被損壞),學習更多的未被損壞的正樣本和負樣本,從而提高了學習模型的判別能力。另外,本文通過加入重定位組件,解決了目標出視野一段時間后重回到視野中跟蹤問題。利用OTB-2013的50個數(shù)據(jù)集進行試驗,結(jié)果顯示本文方法的整體精度為0.813,成功率為0.629,相比KCF算法分別提高了9.86%和22.3%。通過基于數(shù)據(jù)集的屬性的定量和定性分析表明,在目標發(fā)生顯著尺度變化、嚴重遮擋、相似目標干擾和出視野等復雜場景下,與OTB-2013代碼庫中的29種算法以KCF算法相比,本文方法具有更強的魯棒性。
[1]SMEULDERS A W M, CHU D M, CUCCHIARA R,etal.. Visual tracking: An experimental survey [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2014, 36(7): 1442-1468.
[2]ROSS D A, LIM J, LIN R S,etal.. Incremental learning for robust visual tracking [J].InternationalJournalofComputerVision, 2008, 77(1-3): 125-141.
[3]KWON J, LEE K M. Visual tracking decomposition [C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR), 2010: 1269-1276.
[4]BABENKO B, YANG M H, BELONGINE S. Robust object tracking with online multiple instance learning [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011, 33(8): 1619-1632.
[5]HARE S, SAFFARI A, TORR P H S. Struck: Structured output tracking with kernels [C].IEEEInternationalConferenceonComputerVision(ICCV), 2011: 263-270.
[6]KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking-learning-detection [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012, 34(7): 1409-1422.
[7]ZHANG K, ZHANG L, YANG M H. Real-time compressive tracking [C].EuropeanConferenceonComputerVision(ECCV), 2012: 864-877.
[8]陳東成,朱明,高文,等. 在線加權(quán)多實例學習實時目標跟蹤[J].光學 精密工程, 2014, 22(6): 1661-1667.
CHEN D CH, ZHU M, GAO W,etal.. Real-time object tracking via online weighted multiple instance learning [J].Opt.PrecisionEng., 2014, 22(6):1661-1667. (in Chinese)
[9]程帥,孫俊喜,曹永剛,等. 增量深度學習目標跟蹤[J].光學 精密工程, 2015, 23(4): 1161-1170.
CHEN SH, SUN J X, CAO Y G,etal.. Target tracking based on incremental deep learning [J].Opt.PrecisionEng., 2015, 23(4): 1161-1170. (in Chinese)
[10]修春波,魏世安. 顯著性直方圖模型的Camshift跟蹤方法[J].光學 精密工程, 2015, 23(6): 1750-1757.
XIU CH B, WEI SH AN. Camshift tracking with saliency histogram [J].Opt.PrecisionEng., 2015, 23(6): 1750-1757. (in Chinese)
[11]郭敬明,何昕,魏仲慧. 基于在線支持向量機的Mean Shift彩色圖像跟蹤[J].液晶與顯示, 2014, 29(1): 120-128.
GUO J M, H X, W ZH H. New mean shift tracking for color image based on online support vector machine [J].ChineseJournalofLiquidCrystalsandDisplays, 2014, 29(1): 120-128. (in Chinese)
[12]李靜宇,王延杰. 基于子空間的目標跟蹤算法研究[J].液晶與顯示, 2014, 29(4): 617-622.
LI J Y, W Y J. Subspace based target tracking algorithm [J].ChineseJournalofLiquidCrystalsandDisplays, 2014, 29(4):617-622. (in Chinese)
[13]BOLME D S, BEVERIDGE J R, DRAPER B A,etal.. Visual object tracking using adaptive correlation filters [C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR), 2010: 2544-2550.
[14]HENRIQUES J F, CASEIRO R, MARTINS P,etal.. Exploiting the circulant structure of tracking-by-detection with kernels [C].EuropeanConferenceonComputerVision(ECCV), 2012: 702-715.
[15]DANELLJAN M, KHAN F, FELSBERG M,etal.. Adaptive color attributes for real-time visual tracking [C].IEEEConferenceonComputerVisionandPatternRecognition(CVPR), 2014: 1090-1097.
[16]ZHANG K, ZHANG L, LIU Q,etal.. Fast visual tracking via dense spatio-temporal context learning [C].EuropeanConferenceonComputerVision(ECCV), 2014: 127-141.
[17]HENRIQUES J F, CASEIRO R, MARTINS P,etal.. High-speed tracking with kernelized correlation filters [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2015, 37(3): 583-596.
[18]LI Y, ZHU J. A scale adaptive kernel correlation filter tracker with feature integration [C].EuropeanConferenceonComputerVision(ECCV), 2014: 254-265.
[19]張雷,王延杰,孫宏海,等. 采用核相關(guān)濾波器的自適應尺度目標跟蹤[J].光學 精密工程, 2016, 24(2): 448-459.
ZHANG L, WANG Y J, SUN H M,etal.. Adaptive scale object tracking with kernelized correlation filters [J].Opt.PrecisionEng., 2016, 24(2): 448-459. (in Chinese)
[20]余禮楊,范春曉,明悅. 改進的核相關(guān)濾波器目標跟蹤算法[J].計算機應用, 2015, 35(12): 3550-3554.
YU L Y, FAN CH X, M Y. Improved target tracking algorithm based on kernelized correlation filter [J].JournalofComputerApplication, 2015, 35(12):3550-3554. (in Chinese)
[21]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C].IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition(CVPR), 2005: 886-893.
[22]WU Y, LIM J, YANG M H. Online object tracking: A benchmark [C].ProceedingsoftheIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition(CVPR), 2013: 2411-2418.
[23]SCHOLKOPF B, SMOLA A J.LearningwithKernels:SupportVectorMachines,Regularization,Optimization,andBeyond[M]. MIT press, 2002.
[24]RIFKIN R, YEO G, POGGIO T. Regularized least-squares classification [J].NatoScienceSeriesSubSeriesIIIComputerandSystemsSciences, 2003, 190: 131-154.
蔡玉柱(1990-),男,山東日照人,碩士研究生,2013年于天津職業(yè)技術(shù)師范大學獲得學士學位,主要從事目標檢測、目標跟蹤方面的研究。E-mail:caiyuzhu001@sina.com
導師簡介:
楊德東(1977-),男,遼寧阜新人,副教授,碩士生導師,2000年、2003年于大連鐵道學院分別獲得學士、碩士學位,2007年于東北大學獲得博士學位,主要從事智能感知與控制、目標檢測與跟蹤等方面的研究。E-mail:ydd12677@163.com
(版權(quán)所有未經(jīng)許可不得轉(zhuǎn)載)
Long-term object tracking based on kernelized correlation filters
YANG De-dong, CAI Yu-zhu*, MAO Ning, YANG Fu-cai
(CollegeofControlScienceandEngineering,HebeiUniversityofTechnology,Tianjin300130,China)
As Kernelized Correlation Filters (KCF) tracking algorithm has poor performance in handling scale-variant, heavy occlusion, similar target interfere and out of view, this paper proposes a long-term tracking approach based on the KCF. Firstly, a spatial regularization component was introduced in the learning of a classifier , the classifier coefficients were penalized depending on the weight function of spatial location information in sample locations. By which the classifier could learn significantly larger set of negative training samples and uncorrupted positive samples, so that the discriminative power of learned model was increased. Then, the Newton method was used to complete the iteration and obtain the maximizing response location and target score of the classifier in the detection area. Finally, to re-detect the target in the case of tracking failure and achieve a long-term tracking, the confidence of the target with the maximum response score was compared and an online Support Vector Machine (SVM) classifier was trained. To verify the feasibility of the proposed algorithm, fifty groups of OTB-2013 benchmark video sequences were tested and the obtained results were compared with thirty kinds of other tracking algorithms. Experimental results indicate that the precision and success rate from the proposed method are respectively 0.813 and 0.629, ranking first. Compared with traditional KCF tracking algorithm, the proposed approach respectively improves by 9.86% and 22.3% in the precision and the success rate. Moreover, it is robust to significant scale changing, heavy occlusion, interfere with similar target, out of view and other complex scenes.
kernelized correlation filter; long-term object tracking; spatial regularization; Support Vector Machine (SVM); online SVM classifier
2016-04-18;
2016-06-22.
國家自然科學基金資助項目(No.61203076);天津市自然科學基金資助項目(No.13JCQNJC03500)
1004-924X(2016)08-2037-13
TP391
A
10.3788/OPE.20162408.2037