王 鑫,劉中旺
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無(wú)錫 214122)
計(jì)算機(jī)視覺(jué)作為人工智能技術(shù)的重要領(lǐng)域,堪稱(chēng)人工智能時(shí)代的“眼睛”。它使用攝像機(jī)采集信息并通過(guò)計(jì)算機(jī)處理來(lái)模擬人類(lèi)視覺(jué),以實(shí)現(xiàn)對(duì)視覺(jué)信息的提取、分析和處理,旨在讓計(jì)算機(jī)能“看見(jiàn)”。它在多個(gè)領(lǐng)域都有涉及,如機(jī)器學(xué)習(xí)、圖像信號(hào)處理、數(shù)理統(tǒng)計(jì)、認(rèn)知科學(xué)以及控制工程等[1]。
目標(biāo)跟蹤技術(shù)是計(jì)算機(jī)視覺(jué)的主要組成部分與研究熱點(diǎn),已得到迅速的發(fā)展并在無(wú)人駕駛、軍事偵察、視頻監(jiān)控和人機(jī)交互等領(lǐng)域廣泛應(yīng)用。在無(wú)人駕駛領(lǐng)域,利用目標(biāo)跟蹤技術(shù)實(shí)現(xiàn)動(dòng)態(tài)目標(biāo)的跟蹤;在軍事偵察領(lǐng)域,利用無(wú)人機(jī)實(shí)施對(duì)特定目標(biāo)的定位、跟蹤和打擊等任務(wù);在視頻監(jiān)控領(lǐng)域,基于目標(biāo)跟蹤技術(shù)的智能監(jiān)控系統(tǒng)能有效獲取信息,已被廣泛應(yīng)用于國(guó)防、學(xué)校等公共場(chǎng)所;在人機(jī)交互領(lǐng)域中,目標(biāo)跟蹤可實(shí)現(xiàn)對(duì)手勢(shì)動(dòng)作的檢測(cè)與跟蹤[2]。
本文重點(diǎn)討論單目標(biāo)跟蹤,它是指在一段視頻序列中,通過(guò)初始化目標(biāo)在第一幀圖像中的位置信息,并在后續(xù)圖像幀中檢測(cè)、標(biāo)定目標(biāo)位置以實(shí)現(xiàn)目標(biāo)跟蹤[3]。
盡管目標(biāo)跟蹤技術(shù)在現(xiàn)實(shí)場(chǎng)景中具有很重要的實(shí)用價(jià)值和廣闊的發(fā)展前景,跟蹤過(guò)程中的目標(biāo)消失、目標(biāo)外觀變化、背景光線干擾、目標(biāo)快速移動(dòng)等諸多問(wèn)題對(duì)目標(biāo)跟蹤技術(shù)造成了嚴(yán)峻的挑戰(zhàn)。為解決這些問(wèn)題并建立高效快速的目標(biāo)跟蹤器,大量的目標(biāo)跟蹤算法應(yīng)運(yùn)而生[4]。其中包括模板匹配法、光流法、均值漂移法[5]、粒子濾波算法[6]、跟蹤學(xué)習(xí)檢測(cè)算法[7]、相關(guān)濾波算法與深度學(xué)習(xí)算法。后兩種是當(dāng)下研究最多的兩大類(lèi)算法,其中深度學(xué)習(xí)算法主要得益于卷積神經(jīng)網(wǎng)絡(luò)不同層的卷積輸出所提取的特征能很好地表示目標(biāo),算法準(zhǔn)確率較高。但其往往需要大量的計(jì)算,因此算法速度較慢[8]。而相關(guān)濾波算法則是本文討論的重點(diǎn)。
相關(guān)濾波器常作為檢測(cè)器,它們會(huì)對(duì)視頻場(chǎng)景中目標(biāo)對(duì)象產(chǎn)生較大的相關(guān)響應(yīng)峰值,而背景的響應(yīng)值相對(duì)較低,這為提取目標(biāo)信息創(chuàng)造了有利條件。最小輸出平方誤差濾波器(MOSSE,minimum output sum of squared error)[9]是第一個(gè)應(yīng)用相關(guān)濾波理念的跟蹤算法,其利用傅里葉變換將空間域的卷積運(yùn)算轉(zhuǎn)化為頻域的點(diǎn)乘運(yùn)算,提高了運(yùn)行速度。但由于訓(xùn)練樣本數(shù)量不足,跟蹤模型易受到背景和目標(biāo)外觀變化的影響。為此文獻(xiàn)[10]提出基于核函數(shù)的循環(huán)結(jié)構(gòu)跟蹤(CSK,circulant structure of tracking with Kernels)模型。文獻(xiàn)[11]則在CSK算法基礎(chǔ)上引入了多通道方向梯度直方圖(HOG,histograms of oriented gradients)[12]特征以及高斯核函數(shù)提出了核化相關(guān)濾波(KCF,Kernelized correlation filters)跟蹤算法進(jìn)一步提升了濾波器的訓(xùn)練速度與性能。但上述3種算法在跟蹤過(guò)程中使用的目標(biāo)跟蹤框是固定尺寸的,當(dāng)目標(biāo)尺度變化時(shí)算法的跟蹤性能會(huì)有明顯的下降。于是文獻(xiàn)[13]提出了判別式尺度空間跟蹤(DSST,discriminative scale space tracker)算法,將目標(biāo)定位和尺度預(yù)測(cè)分離,通過(guò)添加一個(gè)獨(dú)立的尺度相關(guān)濾波器來(lái)實(shí)現(xiàn)目標(biāo)跟蹤框的尺度自適應(yīng)變化。跟蹤算法在處理靠近圖像邊緣的目標(biāo)時(shí)性能會(huì)下降,即邊界效應(yīng)問(wèn)題。為此文獻(xiàn)[14]提出基于空間正則化判別相關(guān)濾波器(SRDCF,spatially regularized discriminative correlation filter)算法,而時(shí)空正則相關(guān)濾波器(STRCF,learning spatial-temporal regularized correlation filters)[15]則通過(guò)引入時(shí)間正則項(xiàng)實(shí)現(xiàn)了時(shí)空信息的聯(lián)合處理,進(jìn)一步提升了算法的跟蹤性能。與SRDCF算法不同,模板和像素學(xué)習(xí)總和(Staple,sum of template and pixel-wise learners)跟蹤算法[16]將HOG與顏色直方圖特征融合來(lái)緩解邊界效應(yīng)。文獻(xiàn)[17]提出了基于上下文感知的跟蹤算法,將上下文信息引入濾波器的訓(xùn)練過(guò)程中,提升了算法性能。視覺(jué)跟蹤學(xué)習(xí)背景感知相關(guān)濾波器(BACF,learning background-aware correlation filters for visual tracking)算法[18]采用二值掩膜方案裁剪出目標(biāo)樣本來(lái)緩解邊界效應(yīng)。文獻(xiàn)[19]提出的超越相關(guān)濾波器(CCOT,beyond correlation filters:learning continuous convolution operators for visual tracking)算法對(duì)特征圖插值,針對(duì)插值后的每個(gè)特征訓(xùn)練對(duì)應(yīng)的相關(guān)濾波器,通過(guò)濾波器響應(yīng)峰值區(qū)域預(yù)測(cè)目標(biāo)位置,但由于通道數(shù)過(guò)多影響了跟蹤速度。于是文獻(xiàn)[20]分別從濾波器選擇、樣本集、模型更新3個(gè)角度對(duì)其優(yōu)化,提出了用于跟蹤的高效卷積算子(ECO,efficient convolution operators for tracking)。文獻(xiàn)[21]提出用于密集預(yù)測(cè)的級(jí)聯(lián)融合網(wǎng)絡(luò)(CFNet,cascade fusion network for dense prediction)算法,在孿生網(wǎng)絡(luò)中加入相關(guān)濾波層來(lái)實(shí)現(xiàn)在線更新,并實(shí)現(xiàn)了在深度學(xué)習(xí)模型中不進(jìn)行分模塊或分階段訓(xùn)練,直接優(yōu)化任務(wù)總目標(biāo)的端到端學(xué)習(xí)。
大部分相關(guān)濾波跟蹤算法采用逐幀更新的模型并不能適應(yīng)一些復(fù)雜情況,如光照變化、目標(biāo)快速運(yùn)動(dòng)、運(yùn)動(dòng)模糊以及尺度變化等,這將導(dǎo)致濾波器模型退化[22]。對(duì)此有相關(guān)研究通過(guò)對(duì)跟蹤結(jié)果進(jìn)行置信度評(píng)估[23]來(lái)緩解該問(wèn)題。近年來(lái)深度跟蹤算法[24]將深度學(xué)習(xí)和相關(guān)濾波算法相結(jié)合來(lái)進(jìn)一步提升算法的精確度。雖然深度特征表示具有良好的抗干擾能力和目標(biāo)表征能力,但深度跟蹤器難以滿(mǎn)足目標(biāo)跟蹤實(shí)時(shí)性要求。
相關(guān)濾波跟蹤算法是一種回歸判別式方法,其將目標(biāo)跟蹤視作視頻序列中所有幀的目標(biāo)檢測(cè)任務(wù),使用目標(biāo)圖像特征訓(xùn)練濾波器,并將圖像中的目標(biāo)區(qū)域和背景區(qū)域分別作為正、負(fù)樣本。算法在后續(xù)幀中使用訓(xùn)練好的濾波器器尋找最優(yōu)解,并基于每一幀圖像中的跟蹤結(jié)果對(duì)濾波器進(jìn)行更新。
相關(guān)濾波跟蹤算法主要是利用信號(hào)的相關(guān)性來(lái)實(shí)現(xiàn)目標(biāo)跟蹤。跟蹤過(guò)程中將目標(biāo)區(qū)域和待檢測(cè)區(qū)域視作信號(hào),計(jì)算兩者之間的相關(guān)性,相關(guān)性越大,得到的濾波器響應(yīng)越強(qiáng)[25],并將相關(guān)性最大的區(qū)域預(yù)測(cè)為跟蹤區(qū)域。因此為實(shí)現(xiàn)目標(biāo)跟蹤,需要設(shè)計(jì)訓(xùn)練出一個(gè)最優(yōu)的濾波器模板,將輸入圖像映射到該模板上,通過(guò)得到的響應(yīng)峰值區(qū)域以確定目標(biāo)中心區(qū)域。
以第一個(gè)將相關(guān)濾波與目標(biāo)跟蹤相結(jié)合的算法MOSSE為例,從數(shù)學(xué)角度對(duì)相關(guān)濾波算法的原理進(jìn)行具體闡述。
g=h?f
(1)
其中:g表示響應(yīng)輸出,h表示濾波模板,f表示輸入的圖像信息,?表示卷積運(yùn)算關(guān)系。將g設(shè)計(jì)為高斯形狀的響應(yīng)輸出,已知時(shí)域內(nèi)的卷積等于頻域上的乘積,自然想到利用快速傅里葉變換(FFT,fast Fourier transform)快速傅里葉變換來(lái)簡(jiǎn)化計(jì)算。對(duì)于n×n大小的圖片,循環(huán)卷積運(yùn)算的時(shí)間復(fù)雜度為O(n4),而FFT只需要O(n2·lb(n)),極大地減少了運(yùn)算量。f與h做相關(guān)運(yùn)算實(shí)際是將f與旋轉(zhuǎn)了180度的h做卷積,故下面轉(zhuǎn)換到頻域的表達(dá)式與傳統(tǒng)轉(zhuǎn)換公式有差別。
G=H*·F
(2)
其中:G,F(xiàn)分別是g,f經(jīng)離散傅里葉變換的結(jié)果,而H*是頻域上的濾波模板取共軛,·表示點(diǎn)積運(yùn)算。對(duì)上式變形,得到:
(3)
在實(shí)際的視覺(jué)目標(biāo)跟蹤中,鑒于目標(biāo)的外觀變換等因素可能會(huì)使得到的濾波器模板適用場(chǎng)景有限,有必要以包含目標(biāo)在內(nèi)的多個(gè)圖像作為訓(xùn)練樣本來(lái)提升濾波器的魯棒性:
(4)
其中:m代表輸入圖像的幀數(shù),F(xiàn)i代表頻域中輸入的第i幀圖像信息,Gi代表頻域中對(duì)應(yīng)第i幀輸入圖像的輸出圖像信息,⊙表示對(duì)應(yīng)位置點(diǎn)乘?;谧钚《朔ɡ胢個(gè)樣本信息求解使輸出誤差平方和最小的濾波器H*。由于頻域中的相關(guān)計(jì)算為逐元素相乘,因此在求解上式時(shí)可對(duì)濾波器中的每個(gè)元素進(jìn)行獨(dú)立優(yōu)化。通過(guò)確保每幀信息對(duì)應(yīng)的誤差最小平方和均為最小值以得到使輸出誤差平方和最小的濾波器H*。對(duì)式(4)求偏導(dǎo)得到濾波器的閉式最終解:
(5)
得到濾波器模板后將其與新來(lái)幀圖像進(jìn)行相關(guān)操作,并使用快速傅里葉反變換(IFFT,inversefast fourier transform)得到響應(yīng)圖譜,選取響應(yīng)中最大的位置作為跟蹤目標(biāo)的新位置。之后根據(jù)下一幀圖像的目標(biāo)區(qū)域來(lái)更新濾波器模板,更新公式如下:
(6)
(7)
(8)
其中:系數(shù)為學(xué)習(xí)率,它可以有效限制不同幀的權(quán)重,離當(dāng)前幀越近的幀權(quán)重越大,能防止跟蹤算法中的過(guò)擬合問(wèn)題,使得濾波器模板更好地適應(yīng)目標(biāo)旋轉(zhuǎn)、遮擋等問(wèn)題。反復(fù)執(zhí)行上述操作來(lái)達(dá)到持續(xù)跟蹤目標(biāo)的目的。MOSSE算法的整體流程如圖1所示。
圖1 MOSSE算法流程圖
MOSSE算法作為相關(guān)濾波類(lèi)跟蹤算法的開(kāi)山之作,與當(dāng)時(shí)的熱門(mén)跟蹤算法[5-7]相比,速度與精度都有了很大的提升。但算法基于最小二乘法求解的線性濾波器模板分類(lèi)性能一般;算法的樣本采樣是一種稀疏采樣,訓(xùn)練效果一般;算法中提取的圖像信息特征是最原始的單通道灰度特征,表達(dá)目標(biāo)的能力有限。針對(duì)MOSSE算法的主要缺陷,KCF、DSST以及BACF算法均對(duì)其進(jìn)行優(yōu)化處理,本文后續(xù)即對(duì)這3種算法進(jìn)行具體闡述并實(shí)驗(yàn)分析。
與MOSSE算法不同,KCF算法采用脊回歸來(lái)訓(xùn)練分類(lèi)器,它是一種改良的最小二乘估計(jì)法,在原來(lái)的損失函數(shù)基礎(chǔ)上加入了正則化懲罰項(xiàng)以防止濾波器過(guò)擬合。設(shè)訓(xùn)練樣本集為(xi,yi),則其線性回歸函數(shù)為f(xi)=wTxi,w列向量表示模型參數(shù):
(9)
i為幀數(shù),λ為正則化參數(shù),將上式轉(zhuǎn)換成矩陣形式:
(10)
其中:X=[x1,x2,…,xn]T,每一行表示一個(gè)向量,y是列向量,每個(gè)元素對(duì)應(yīng)一個(gè)樣本標(biāo)簽?;趙對(duì)上式求導(dǎo)并使其導(dǎo)數(shù)為0,得到頻域中w:
w=(XHX+λ)-1XHy
(11)
XH為頻域中X的共軛轉(zhuǎn)置矩陣。
在進(jìn)行分類(lèi)器的訓(xùn)練時(shí),將跟蹤目標(biāo)所在區(qū)域樣本稱(chēng)作正樣本,將目標(biāo)區(qū)域之外的背景區(qū)域樣本稱(chēng)為負(fù)樣本。處理好正負(fù)樣本之間的平衡關(guān)系才能得到性能良好的分類(lèi)器。MOSSE算法中利用稀疏采樣的方法來(lái)獲取目標(biāo)樣本,產(chǎn)生了大量冗余樣本,影響了跟蹤性能。而KCF算法采用循環(huán)移位方式擴(kuò)充了負(fù)樣本的數(shù)量,有效緩解了這一問(wèn)題。假設(shè)目標(biāo)樣本x=[x1,x2,…,xn]T,置換矩陣為:
(12)
通過(guò)將目標(biāo)樣本左乘矩陣即Px[xn,x1,…,xn-1]T,這樣樣本中元素便向右平移一位,通過(guò)左乘n次置換矩陣,樣本向量完成了一次完整的循環(huán)位移,組成的循環(huán)矩陣:
(13)
循環(huán)矩陣可在頻域中相似對(duì)角化:
(14)
將上式代入式(11)中:
(15)
*表示取對(duì)應(yīng)向量的共軛向量。對(duì)上式兩邊取傅氏變換,得到:
(16)
通過(guò)將矩陣運(yùn)算轉(zhuǎn)換為向量之間的點(diǎn)積運(yùn)算,同時(shí)消除了求逆運(yùn)算,大大提升了計(jì)算速度?,F(xiàn)實(shí)生活中大部分模型均為非線性的,KCF算法通過(guò)尋找一個(gè)非線性映射函數(shù)φ(x),使得映射后的樣本在新空間中線性可分[11]。令w=∑iαiφ(xi),引入核函數(shù)k(xi,xj)=〈φ(xi),φ(xj)〉,則此時(shí):
(17)
(18)
σ為核函數(shù)參數(shù),F(xiàn)-1表示傅里葉逆變換。此外KCF針對(duì)MOSSE算法中特征信息只能為單通道的缺陷,設(shè)計(jì)了多通道特征的計(jì)算方式如下,也基于此式引入HOG特征進(jìn)行跟蹤。
(19)
其中:c表示通道數(shù)。算法檢測(cè)過(guò)程中輸出響應(yīng)為:
(20)
(21)
(22)
KCF算法的大致流程如圖2所示。
圖2 KCF算法流程圖
DSST算法基于MOSSE以及KCF算法在樣本提取時(shí)選擇融合多維特征:樣本的灰度、顏色以及HOG等特征,在特征提取上對(duì)前兩種算法做了改進(jìn)。另外MOSSE與KCF算法中的跟蹤框是固定大小的,當(dāng)目標(biāo)尺度相對(duì)于檢測(cè)器逐漸變大時(shí),跟蹤框只能捕捉到目標(biāo)的一部分信息;當(dāng)目標(biāo)逐漸變小時(shí)框內(nèi)又會(huì)摻雜過(guò)多的干擾背景信息。DSST算法便在目標(biāo)跟蹤過(guò)程中對(duì)目標(biāo)進(jìn)行實(shí)時(shí)地尺度預(yù)測(cè),一定程度上提升了跟蹤算法的精度和魯棒性。
DSST算法設(shè)計(jì)了兩個(gè)相關(guān)濾波器,分別為實(shí)現(xiàn)目標(biāo)位置跟蹤的位置濾波器與實(shí)現(xiàn)跟蹤框自適應(yīng)目標(biāo)尺度變化的尺度濾波器。
論文[13]指出該算法使用的尺度估計(jì)方法可以移植到任意算法中。設(shè)輸入圖像為d維特征f,fl為第l維特征。結(jié)合式(4)和(9)式容易得到最優(yōu)相關(guān)濾波器h為:
(23)
轉(zhuǎn)換到頻域上,并將分子分母單獨(dú)表示:
(24)
(25)
(26)
通過(guò)求解最大響應(yīng)值確定新來(lái)幀圖像信息Z中的目標(biāo)位置信息:
(27)
DSST算法將位置估計(jì)與尺度估計(jì)分開(kāi)處理,其認(rèn)為在連續(xù)的兩幀圖像中,位置的變化程度往往比尺度變化大。因此先使用二維的位置相關(guān)濾波器確定當(dāng)前幀響應(yīng)峰值區(qū)域,將其視作目標(biāo)中心位置,然后通過(guò)一維的尺度相關(guān)濾波器以此位置為中心點(diǎn),獲取多組不同尺度的候選區(qū)域,最終找到最適配的尺度信息。尺度的選擇原則為:
(28)
其中:P,R分別為目標(biāo)在前一幀的寬高,α=1.02為尺度因子,S=33為尺度的數(shù)量,使用這33個(gè)尺度樣本特征對(duì)尺度濾波器進(jìn)行訓(xùn)練。
DSST算法的大致流程如圖3所示。
圖3 DSST算法流程圖
雖然訓(xùn)練相關(guān)濾波器的樣本數(shù)量越多效果越好,但正樣本的周?chē)荒馨啾尘靶畔?,否則分類(lèi)器會(huì)誤認(rèn)為這些背景信息也是正樣本,從而導(dǎo)致分類(lèi)失敗。而B(niǎo)ACF算法在傳統(tǒng)相關(guān)濾波算法的框架基礎(chǔ)上擴(kuò)大了循環(huán)矩陣采樣的區(qū)域,并創(chuàng)造性地在每個(gè)樣本上裁剪出有效的樣本區(qū)域,樣本的數(shù)量和質(zhì)量均得到提升。
(29)
其中:K為特征通道數(shù),由于BACF算法采用31維的HOG特征,因此K=31。P為0,1的二值矩陣,大小為D×T,目的即是在訓(xùn)練樣本xk中裁剪出D個(gè)元素。將P,xk合并為Xk,表示裁剪后的樣本。上式轉(zhuǎn)換至頻域:
(30)
通過(guò)交替方向乘子法(ADMM,alternating direction method of multipliers)交替方向乘子法[27]將問(wèn)題轉(zhuǎn)化為求解濾波器和輔助變量?jī)蓚€(gè)子問(wèn)題。將得到的濾波器模板與檢測(cè)到的當(dāng)前幀目標(biāo)區(qū)域進(jìn)行卷積:
(31)
對(duì)G作傅里葉逆變換得到最終響應(yīng)圖,最大響應(yīng)值處即為跟蹤目標(biāo)估計(jì)位置。模型更新策略與傳統(tǒng)相關(guān)濾波器一般:
(32)
BACF算法的大致流程如圖4所示。
圖4 BACF算法流程圖
圖5 OPE評(píng)估成功率
圖6 OPE評(píng)估精度圖
圖7 SRE評(píng)估成功率
圖8 SRE評(píng)估精度圖
圖9 TRE評(píng)估成功率
圖10 TRE評(píng)估精度圖
本文針對(duì)第2節(jié)介紹的3種算法在MATLAB平臺(tái)上進(jìn)行了仿真實(shí)驗(yàn)。硬件實(shí)驗(yàn)環(huán)境為Intel(R)Core(TM)i5-4590 CPU,主頻為3.3 GHz,內(nèi)存為16 GB的計(jì)算機(jī);軟件環(huán)境為MATLAB R2021a,64位Windows10操作系統(tǒng)。
目標(biāo)跟蹤檢測(cè)基準(zhǔn)(OTB,object tracking benchmark)數(shù)據(jù)集是視覺(jué)目標(biāo)跟蹤領(lǐng)域公認(rèn)的測(cè)試數(shù)據(jù)集之一,本文選用OTB100。它包含100個(gè)視頻序列及其對(duì)應(yīng)地每幀圖像中目標(biāo)標(biāo)簽的ground_truth.txt文本文件。
OTB數(shù)據(jù)集的評(píng)價(jià)標(biāo)準(zhǔn)通常是兩個(gè)基本參數(shù):中心位置誤差和區(qū)域重疊面積比率。中心位置誤差是指跟蹤目標(biāo)的中心位置和人工標(biāo)注的準(zhǔn)確位置之間的歐式距離,用于生成精確度曲線圖;區(qū)域重疊面積比率是指通過(guò)計(jì)算跟蹤算法得到的邊界框與人工標(biāo)注的準(zhǔn)確邊界框之間的面積重疊比,用于生成成功率曲線圖。
以O(shè)TB數(shù)據(jù)集中對(duì)應(yīng)視頻序列的ground_truth.txt文本中目標(biāo)的位置初始化第一幀圖像,然后運(yùn)行跟蹤算法得到精度與成功圖。這種方法稱(chēng)為一次性評(píng)估(OPE,one-pass evaluation)一次性評(píng)估。為進(jìn)行魯棒性評(píng)估,OTB提出在對(duì)測(cè)試視頻序列初始化時(shí)進(jìn)行擾亂:從不同幀開(kāi)始跟蹤的時(shí)間魯棒性評(píng)估(TRE,temporal robustness evaluation),其通過(guò)視頻序列在時(shí)間軸上平均找出20個(gè)點(diǎn)作為起點(diǎn),終點(diǎn)仍為最后一幀,對(duì)20段視頻序列運(yùn)行算法,繪制平均重疊率和像素誤差圖;以不同邊界框開(kāi)始跟蹤的空間魯棒性評(píng)估方法(SRE,spatial robustness evaluation),其通過(guò)對(duì)ground_truth.txt中的邊界框使用8個(gè)空間移位以及4個(gè)比例變化來(lái)產(chǎn)生12種跟蹤框,即對(duì)視頻序列進(jìn)行了12次評(píng)估,繪制平均重疊率和像素誤差圖。
基于OTB100數(shù)據(jù)集對(duì)KCF、DSST以及BACF算法從OPE、SRE、TRE三種評(píng)估角度分別測(cè)試。
鑒于精度圖僅使用邊界框位置,不能反映目標(biāo)大小與尺度變換帶來(lái)的影響,因此成功率曲線圖相比精度圖更可靠。比較數(shù)據(jù)過(guò)程中,在精度相差不大的情況下,優(yōu)先以成功率考量性能。
在OPE評(píng)價(jià)標(biāo)準(zhǔn)中:成功率方面,BACF算法的平均成功率(64.5%)比DSST算法(55.4%)高9.1%,比KCF算法(51.4%)高13.1%;精確度方面,BACF算法的平均精確度(80.4%)比KCF算法(74.0%)高6.4%,比DSST算法(73.9%)高6.5%。因此BACF算法跟蹤效果最好,DSST算法次之,KCF算法最差。
在SRE評(píng)價(jià)標(biāo)準(zhǔn)中:成功率方面,BACF算法的平均成功率(58.2%)比DSST算法(51.3%)高6.9%,比KCF算法(47.5%)高10.7%;精確度方面,BACF算法的平均精確度(78.6%)比DSST算法(70.3%)高8.3%,比KCF算法(68.2%)高10.4%。因此BACF算法跟蹤效果最好,DSST算法次之,KCF算法最差。
在TRE評(píng)價(jià)標(biāo)準(zhǔn)中:成功率方面,BACF算法的平均成功率(65.8%)比DSST算法(57.9%)高7.9%,比KCF算法(55.6%)高10.2%;精確度方面,BACF算法的平均精確度(85.1%)比KCF算法(77.4%)高7.7%,比DSST算法(75.0%)高10.1%。因此BACF算法跟蹤效果最好,DSST算法次之,KCF算法最差。
綜合考慮準(zhǔn)確率和成功率,KCF算法總體性能較低,在目標(biāo)發(fā)生尺度變換該算法容易丟失跟蹤目標(biāo),跟蹤性能大大降低。雖然DSST算法針對(duì)目標(biāo)的尺度變換額外增加了一個(gè)尺度濾波器,但當(dāng)尺度變換過(guò)大時(shí)仍會(huì)導(dǎo)致尺度估計(jì)精度低。BACF算法得益于對(duì)樣本的高效處理,時(shí)間、空間魯棒性等效果均為最佳。實(shí)驗(yàn)同樣對(duì)算法的速度進(jìn)行了對(duì)比。
表1 3種算法的幀率
可以看出KCF算法的速度最快,BACF算法次之,最后是DSST算法。BACF算法由于增加了樣本數(shù)量以及額外的裁剪工作,速度下降許多;而DSST算法增加的尺度濾波器在多通道濾波的情況下,仍需在每個(gè)通道檢測(cè)33個(gè)尺度的圖像塊,速度顯然降低嚴(yán)重。
由于相關(guān)濾波跟蹤算法的準(zhǔn)確性與實(shí)時(shí)性較好,大量算法分別從尺度自適應(yīng)、特征提取、邊界效應(yīng)等角度進(jìn)行改進(jìn)。對(duì)目標(biāo)跟蹤算法的研究依然圍繞準(zhǔn)確性和實(shí)時(shí)性展開(kāi)。隨著深度學(xué)習(xí)跟蹤算法地不斷推出,將深度特征與相關(guān)濾波結(jié)合的算法將是發(fā)展趨勢(shì)之一。但深度特征給算法帶來(lái)高精確度的同時(shí),也不可避免地給算法的跟蹤速度增加負(fù)荷,往往難以滿(mǎn)足目標(biāo)跟蹤對(duì)實(shí)時(shí)性的要求。將傳統(tǒng)手工特征與深度特征融合時(shí),考慮如何在不損失精度的前提下提升算法速度,也將是研究熱點(diǎn)。