張衛(wèi)峰,何秋生,梁慧慧,賈偉振
(太原科技大學 電子信息工程學院,太原 030024)
作為計算機視覺領域的研究熱點,視覺目標跟蹤廣泛的應用于智能監(jiān)控、人機交互、軍事打擊等領域,具有廣泛的應用價值和發(fā)展前景。由于跟蹤環(huán)境的復雜性,如遮擋、尺度變化、光照變化、快速移動等因素都會影響算法的性能。
基于深度學習的跟蹤算法[1-2]性能較好但是普遍比較耗時,而基于相關濾波器的跟蹤算法由于其極快的計算速度和良好的定位性能,也能很好的適應目標外觀的變化,因此成為了目前主流的實時跟蹤算法。Bolme等人提出的MOSSE[3]跟蹤算法,最早將相關濾波器應用到視覺跟蹤;CSK[4]跟蹤算法是Henriques等人提出的一種高速跟蹤算法,利用基準樣本的循環(huán)移位進行密集采樣;隨后,Henriques等又提出KCF[5]算法,將CSK算法由單通道擴展到多通道,使其可以使用多維特征,獲得更加精確的跟蹤結果。但由于是KCF算法中使用了大小恒定的跟蹤框,因此不能很好的適應目標尺度的變化,并且沒有考慮跟蹤過程中目標發(fā)生遮擋時的情況。
針對上述問題,一系列基于相關濾波器的改進算法被相繼提出。Danelljan等提出CN[6]算法將顏色特征用到目標跟蹤任務中,此后又提出DSST[7]算法通過訓練尺度濾波器的方法來估計目標尺度。YAO等[8]引入了基于分塊的跟蹤算法和在線潛在結構化學習,使用全局對象框和少量局部框來近似不規(guī)則對象;LIU等[9]在使用KCF方法對子塊進行獨立跟蹤的基礎上,通過粒子濾波算法和貝葉斯推理框架來確定目標位置。但上述方法著重于通過分塊算法提高算法應對目標遮擋的性能,忽略了目標子塊間相對位置變化所隱藏的尺度信息。
由此本文在KCF算法的基礎上,提出了一種尺度自適應的分塊跟蹤算法。為減弱遮擋部分的影響,由局部濾波器提供目標位置的粗略估計,然后由全局濾波器用作初始估計以確定目標的準確位置;同時利用各子塊間相對位置的變化來計算目標尺度。
核相關濾波算法KCF[5]算法憑借極快的運算速度和較高的準確度取得了極大的成功,另外該算法還具有原理容易理解、結構易于擴展等優(yōu)勢。
相關濾波算法中通過樣本的循環(huán)移位進行密集采樣,假設跟蹤的目標區(qū)域可以表示為一個n×1的一維矩陣,稱之為基準樣本,Px=[xn,x1,x2,…,xn-1]表示矩陣向右循環(huán)移位一次,其中是P一個變換矩陣。因此,所有的循環(huán)移位樣本{Pux|u=0…n-1}依次排列到同一個矩陣中就可以得到循環(huán)數據矩陣X=C(x),該數據矩陣是一個循環(huán)矩陣,具有如下的性質:
(1)
相關濾波算法中將目標跟蹤問題轉化為求解最小平方誤差下的嶺回歸問題,以此獲得最優(yōu)分類器參數,其目的就是找到一個決策函數f(z)=ωTz,使得樣本xi和回歸目標yi間的平方誤差最?。?/p>
(2)
其中,函數f(x)=ωTx可以看作基準樣本的線性組合;λ是正則化參數,控制過度擬合;xi表示由基準樣本通過循環(huán)移位后產生的訓練樣本;yi為訓練樣本xi對應的回歸目標,并且y服從高斯分布yi∈[0,1].通過求解嶺回歸問題,可以獲得分類器的最優(yōu)解ω=(XTX+λI)-1XTy,利用循環(huán)矩陣對角化性質可以將其簡化為:
(3)
(4)
在快速檢測過程中,將下一幀中相同位置的圖像補丁z視為基準樣本,進行快速目標響應檢測,可得到時域內輸入圖像的響應圖:
(5)
Pt=argmaxP∈StF(z)
(6)
其中,Pt表示當前幀中目標的中心位置;St表示搜索區(qū)域。
基于分塊的目標跟蹤方法,在目標被遮擋時仍然能夠利用未被遮擋的部分提供準確的定位信息進行跟蹤;隨著目標尺度的變化,在跟蹤過程中各子塊間的距離也會相應地發(fā)生變化,因此能夠根據子塊位置變化情況對目標尺度進行估計[10]。
在選擇分塊方法的時候必須考慮需要使用多少個子塊和每個子塊設置為多大的問題。當使用的目標塊較少時,若目標發(fā)生遮擋則會導致獲取到的目標信息不夠準確;但是使用的子塊過多又會使得算法計算量增加。此外,如果子塊設置過大,則會使得子塊數量減少;當子塊設置過小,則會使得單獨跟蹤每個子塊的結果不準確。Liu T等發(fā)現子塊大小設置為整體目標框大小的1/6到1/4之間時,跟蹤結果相差很小,而小于1/6或者大于1/4時,跟蹤結果會明顯變差。
目前已有的跟蹤算法中使用較多的分塊策略是將目標劃分為四個大小一致的子塊[10-11],如圖1(a)所示。此外,還可以根據目標框的縱橫比進行子塊劃分[12-13],如圖1(b)所示。但是,使用以上兩種分塊方法得到的子塊通常包含較多的背景信息,會對跟蹤過程造成干擾,從而影響算法性能,因此本文設計了一種能夠有效減少背景信息的分塊方法。
圖1 分塊方法示意圖
本文采用的分塊方法,如圖1(c)所示,圍繞目標中心位置生成四個大小相等的子塊。具體為,四個子塊的高和寬分別為整體目標框高和寬的0.5倍;上下兩個子塊的中心坐標分別為以目標中心位置上移和下移0.25h個像素值;左右兩個子塊的中心坐標分別為以目標中心位置左移和右移0.25w個像素值,可表示為公式(7):
(7)
其中,m=0.25h,n=0.25w,h和w分別表示整體目標框的高和寬;Pt表示整體目標框的中心位置;Bk表示目標子塊的中心位置,k∈(1,2,3,4)表示目標子塊的索引。
當目標比較小的時候會導致生成的目標子塊太小,不能為目標跟蹤提供準確的信息。因此,這種情況并不適合進行分塊跟蹤:
(8)
其中,當?=1表示需要對進行分塊跟蹤;?=0時直接對目標整體進行跟蹤。?的值由閾值τ決定,經過大量仿真實驗發(fā)現τ=17時使得跟蹤效果最好。
本文提出的基于核相關濾波器的分塊跟蹤方法依賴于全局濾波器和局部濾波器之間的相互作用。為減弱遮擋部分的影響,首先獨立跟蹤每一個子塊,并使用局部濾波器分別計算每個子塊對應的響應圖,然后從中選取具有最大響應峰值的子塊,根據該子塊與目標整體之間的位置約束關系初步得到對目標中心位置的粗略估計,最后對估計位置處進行采樣并與全局濾波器作用以確定目標的準確位置。
當滿足分塊條件時,使用核相關濾波算法KCF分別對各個目標子塊進行獨立跟蹤,得到每個子塊的響應圖Fk,然后選取具有最大峰值的響應圖:
k′=argmax(max(Fk))
(9)
(10)
在分類器訓練過程中,本文使用了如下的高斯核函數:
(11)
其中,x=[x1,x2,…,xC]表示包含C有個獨立通道的向量,通過公式(11)使得在跟蹤過程中可以使用性能更好的多通道特征豐富目標的外觀表示。
本文中為了更加準確地確定目標中心位置,通過級聯31維的梯度直方圖特征(Histogram of Oriented Gradient,HOG)和12維的顏色名稱特征(Color Name,CN)形成HOG-CN融合特征用于表示目標,然后與核相關濾波器作用計算目標響應,如圖2所示。HOG特征描述了圖像局部區(qū)域的梯度強度和梯度方向的分布情況,CN特征描述了圖像的全局表面性質,將這兩種特征融合可以利用不同特征間的優(yōu)勢互補來提高跟蹤器的性能。
圖2 多特征融合算法示意
本文使用的分塊跟蹤方法,當目標尺度變化范圍在0.8~1.2之間時,不對目標進行重新分塊,雖然這一尺度變化范圍內各子塊的目標框大小是恒定不變的,但通過實驗發(fā)現各子塊間的相對位置與目標尺度變化間存在著穩(wěn)定的關系。當目標尺度變化時各子塊間會相應地重疊或分離[13]。如圖3所示,第一行中圖(a)到圖(b),從第20幀到第147幀,隨著汽車逐漸駛遠,尺度也隨之變小,各目標子塊彼此重疊到一起;第二行中圖(c)到圖(d),從110幀到138幀,隨著目標的尺度變大,各目標子塊彼此遠離。
圖3 子塊位置與目標尺度間的關系
本文從這個基本的觀測出發(fā),將尺度的計算問題轉換為對目標子塊跟蹤結果的綜合問題。
首先,計算當前幀中所有目標子塊間中心位置的歐式距離與上一幀中對應子塊間中心位置的歐式距離比值的平均值,對目標尺度步長進行粗略估計:
(12)
(13)
其中,Step表示尺度步長,即與上一幀相比較目標尺度的變化。前一幀(第t-1幀)的尺度與當前幀(第t幀)中計算得到的尺度步長的乘積即為當前幀中目標的尺度:
St=St-1·Step
(14)
其中,St表示第t幀中目標的尺度參數。
為對本文算法的有效性進行充分的評估,本文選擇包括基礎算法KCF在內的5種主流跟蹤算法與本文算法在OTB數據集[14]上進行測試,并進行對比分析。本文中參與比較的算法有:CSK[4],KCF[5],CN[6],DSST[7],Struck[15].所有的算法程序在Windows7系統(tǒng)MatlabR2014a平臺上運行,用于對比的算法參數均為作者公布源程序的默認參數,計算機配置為英特爾奔騰G3250 CPU,運行內存4 GB,64位操作系統(tǒng)。本文中使用距離精度(DP)和重疊精度(OP)作為評價指標,具體計算方法見文獻[14].
針對目標遮擋情況下跟蹤算法性能下降的問題,本文在KCF的基礎上改進了一種尺度自適應的核相關濾波跟蹤算法,具體的算法流程如下:
Input
當前幀圖像It,t=1,2,…,t,…
Output:
檢測到的目標位置Pt
尺度參數St
初始幀t=1:
(1)在初始圖像幀中選取圖像塊Patch.
(2)將輸入的整體目標圖像塊Patch分為四個子塊。
(3)分別跟蹤每個目標子塊和目標整體。
其余幀t≥2
(6)計算目標尺度St.
(7)更新模型參數。
(8)判斷St<0.8 orSt>1.2是否成立?成立,則對目標重新分塊,然后執(zhí)行(2)后繼續(xù)下一步;否,則直接繼續(xù)下一步。
(9)重復(4)~(8)直到跟蹤結束。
本節(jié)中通過四等分和水平/垂直兩種分塊方法與本文采用的分塊方法在本文改進的算法框架中進行比較,為保證測試公平性,除分塊方法不同外其余參數設置均一樣,并使用距離精度和重疊精度進行評估,實驗結果如表1所示。
表1 不同分塊方法的比較
通過分析表1可以看出,采用本文提出的分塊方法的跟蹤效果最好,比四等分和水平/垂直分塊的距離精度分別提高了3.9%和3.6%,重疊率精度分別提高了6.6%和4.8%.這一結果證明了本章提出的分塊方法與目前常用的分塊方法相比具有一定的優(yōu)勢,更有助于提高分塊跟蹤算法的性能。
首先對本文算法進行總體性能分析。本文算法以及所有比較算法均在OTB2013數據集上進行測試,以距離精度(DP)和重疊精度(OP)作為評判標準,實驗結果如圖4所示。由圖4可見,本文算法在整體性能測試中綜合性能排序第一,展現了出色的總體性能。具體的數據為位置誤差閾值為20時對應的距離精度為0.811,重疊閾值為0.5時對應的重疊精度為0.686,與基礎算法KCF相比跟蹤距離精度提高了7.4%,重疊精度提高了7.8%.總的來說,本章提出的算法綜合性能比改進之前有了較大的提升。
圖4 不同分塊方法的比較
為驗證本文算法在不同干擾因素下的性能表現,將本文算法以及所有比較算法在遮擋、尺度變化等6種不同屬性的視頻序列子集上分別進行測試,并將測試得到的距離精度曲線和重疊精度曲線中的數據進行歸納,結果如表2和表3所示,其中表現最好的算法用紅色加粗字體標注。
表2 不同屬性下的距離精度曲線圖數據
表3 不同屬性下的重疊精度曲線圖數據
通過分析表2和表3可以得到以下結論:
(1)在遮擋情況下,本文算法與其他對比算法相比其距離精度和重疊精度都是最高的,主要原因是本文提出的分塊算法能夠在目標被部分遮擋的情況下能夠充分利用未被遮擋的目標信息。
(2)在目標尺度變化情況下,本文算法的跟蹤精度和重疊精度依然是十種算法中最高的,主要原因是本文算法加入了基于子塊跟蹤結果計算目標尺度的方法。
(3)本章提出的算法在5種場景屬性下的距離精度和重疊精度均取得了最優(yōu)的結果,說明本文算法在應對復雜場景時具有較好的魯棒性。此外,除了能夠很好地處理遮擋和尺度變化的情況外,在目標發(fā)生形變時,該算法也有非常出色的表現。
為評估算法的實時性,本文測試了各個算法在OTB數據集的不同視頻序列上運行的平均跟蹤速度,實驗結果如表4所示。
表4 各算法的平均跟蹤速度
由表4可見,相比于原始算法KCF,本文算法使用了HOG-CN融合特征并引入了分塊跟蹤策略后跟蹤平均速度為33.5幀/s,仍能夠保持算法的實時性需求。
綜上所述,說明本文提出的算法具有非常好的魯棒性,能夠應對絕大部分的挑戰(zhàn)。在應對目標遮擋、尺度變化和變形的情況時的性能有非常顯著的提升。
為了更加直觀地展示本文算法的跟蹤情況,圖6給出了本文算法和其他5種主流跟蹤算法的跟蹤結果比較,圖5中第一到第四行分別對應Jogging-2、lemming、Liquor和Car Scale的跟蹤結果。該圖中不同顏色的矩形框對應于不同算法的跟蹤結果,具體請參考圖5下方的線型說明,其中紅色矩形框對應的是本文算法的跟蹤結果。
圖5 4組視頻序列上的部分跟蹤結果
由圖5可見,Jogging-2序列種第58幀目標被部分遮擋,此時本文算法可以根據未被遮擋的部分信息進行準確跟蹤,第75幀以后目標出遮擋,并在后續(xù)形變干擾下下,除本文算法外其余對比算法均丟失了目標;lemming序列中第374幀和452幀目標分別經歷了兩次遮擋,同時也存在尺度變化的干擾,最后只有本文算法能夠對目標穩(wěn)定跟蹤;Liquor序列中目標同樣在359幀和769幀時分別經歷了兩次遮擋,并伴隨著尺度變化和旋轉等干擾因素,該序列中只有本文算法和KCF算法能夠有效應對這些干擾因素;Car Scale序列中從(130~178)幀目標被遮擋并伴隨著尺度變化,該序列只有本文算法和DSST算法能夠準確定位目標同時適應目標尺度的變化。
綜上所述,定性實驗進一步驗證了本文算法在應對遮擋、尺度變化以及目標形變等多種干擾因素時具有較好的準確性和魯棒性。
本文提出一種尺度自適應的分塊核相關濾波目標跟蹤算法,當目標被遮擋時可以利用未被遮擋的目標子塊提供的位置信息對目標進行準確定位,為了進一步提升算法的性能,引入了融合特征HOG-CN.此外,還提出一種利用目標子塊間相對位置的變化情況計算目標尺度的方法。實驗結果表明,本文算法在綜合性能測試以及在不同干擾因素下的測試都有非常出色的表現,特別是在應對目標遮擋、尺度變化以及目標形變等情況時的性能有顯著提升。