馬媛媛,楊小軍
(長(zhǎng)安大學(xué) 信息工程學(xué)院,陜西 西安 710064)
計(jì)算機(jī)視覺[1-3]已經(jīng)研究了幾十年,目標(biāo)跟蹤問(wèn)題通常是在目標(biāo)運(yùn)動(dòng)時(shí)估計(jì)目標(biāo)在圖像平面上的軌跡問(wèn)題。雖然在文獻(xiàn)中已經(jīng)對(duì)建立魯棒跟蹤框架做了大量的努力,但當(dāng)目標(biāo)出現(xiàn)外觀突變或遮擋時(shí),跟蹤器往往會(huì)受到影響從而導(dǎo)致跟蹤目標(biāo)失敗。
近年來(lái),基于判別式的相關(guān)濾波器被證明能夠在跟蹤速度上有顯著提高且能精準(zhǔn)跟蹤目標(biāo),因此得到了廣泛應(yīng)用。為了跟蹤,一個(gè)相關(guān)過(guò)濾器通過(guò)計(jì)算每個(gè)學(xué)習(xí)模板(或過(guò)濾器)相對(duì)于測(cè)試圖像樣本的點(diǎn)積來(lái)評(píng)估相似度。利用卷積定理可以加快相關(guān)濾波器的計(jì)算速度,它表明空間域的卷積可以計(jì)算為頻域傅里葉變換的元素乘。雖然CSK[4]和KCF[5]方法在準(zhǔn)確性和魯棒性方面都達(dá)到了最優(yōu),但這些基于相關(guān)濾波器的跟蹤器并不處理尺度變化。為了處理目標(biāo)對(duì)象的尺度變化,Danelljan等人[6]提出了一種新的DSST跟蹤器,通過(guò)分別學(xué)習(xí)平移和尺度估計(jì)的相關(guān)濾波器,提出一種新的尺度自適應(yīng)方法來(lái)精確估計(jì)目標(biāo)的大小。盡管DSST跟蹤器在學(xué)習(xí)基于判別相關(guān)濾波器的魯棒尺度估計(jì)方面表現(xiàn)良好,但在金字塔尺度表示中,它不能很好地處理局部遮擋和完全遮擋。
另一方面,粒子濾波[7-8]可用于處理大尺度變化和局部遮擋。通過(guò)增加粒子數(shù)來(lái)提高跟蹤性能。但是,由于計(jì)算量的增加,跟蹤效率會(huì)降低。將外觀自適應(yīng)模型[9]集成到粒子濾波框架中,其中粒子數(shù)取決于噪聲方差。與之前的方法不同,粒子濾波框架的主要區(qū)別在于觀測(cè)模型,在觀測(cè)模型中采用相關(guān)濾波器來(lái)減少粒子的數(shù)量。
然而,由于粒子濾波采樣過(guò)程計(jì)算量大,其實(shí)時(shí)應(yīng)用受到限制。針對(duì)以上問(wèn)題,該文提出了一種新的目標(biāo)跟蹤算法,用尺度相關(guān)濾波器來(lái)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)特征,通過(guò)對(duì)所獲得的置信圖進(jìn)行加權(quán)融合,以得出目標(biāo)的位置。該算法有效克服了上述問(wèn)題,具有較強(qiáng)的魯棒性。
提出的粒子濾波框架是基于貝葉斯順序的重要性抽樣技術(shù),該方法利用有限的加權(quán)樣本集遞歸逼近后驗(yàn)分布,以估計(jì)動(dòng)態(tài)系統(tǒng)的狀態(tài)變量的后驗(yàn)分布。對(duì)象在時(shí)刻t狀態(tài)變量的參數(shù)為st,yt。st表示目標(biāo)狀態(tài)變量,yt表示觀測(cè)變量。因此,視頻跟蹤可以建模為這樣一個(gè)問(wèn)題:
st=p(st|y1:t-1)=
(1)
當(dāng)一個(gè)新的觀測(cè)變量產(chǎn)生時(shí),用貝葉斯定理更新目標(biāo)狀態(tài):
(2)
(3)
(4)
KCF跟蹤[5]的基本思想是在探索循環(huán)矩陣結(jié)構(gòu)的同時(shí),利用大量的負(fù)樣本來(lái)增強(qiáng)檢測(cè)器跟蹤的鑒別能力,以獲得高效率。KCF跟蹤器使用在P×Q像素的圖像x上訓(xùn)練的相關(guān)濾波器w來(lái)建模目標(biāo)對(duì)象的外觀,所有的循環(huán)移位Xp,q,生成高斯函數(shù)標(biāo)簽rp,q的訓(xùn)練樣本。目的是找到最優(yōu)權(quán)重w。
(5)
(6)
F,F-1分別表示傅里葉變換及其反變換,其中r={r(p,q)}。給定學(xué)習(xí)的α和目標(biāo)外觀模型x,通過(guò)計(jì)算響應(yīng)映射,在新的一幀中進(jìn)行任務(wù)跟蹤。
通過(guò)使用基于KCF跟蹤提出的區(qū)分尺度空間的跟蹤器,計(jì)算圖像位置尺度維度的分?jǐn)?shù)。設(shè)S為尺度濾波器的大小,提取一個(gè)以P×R像素目標(biāo)中心的圖像補(bǔ)丁In,將訓(xùn)練樣本ft,scale在規(guī)模水平n下的值ft,scale(n)設(shè)為In的d維特征描述符,然后構(gòu)建尺度樣本ft,scale,去訓(xùn)練一個(gè)尺度濾波器ht,scale。
(7)
為了估計(jì)目標(biāo)的平移量,采用標(biāo)準(zhǔn)平移濾波器。通常情況下,兩幀之間的目標(biāo)尺度差相對(duì)于平移的差異較小。因此對(duì)給定的新的一幀,首先應(yīng)用平移過(guò)濾器ht,trans,然后用尺度濾波器ht,scale估計(jì)目標(biāo)新位置,用提取訓(xùn)練樣本的方法在該位置提取一個(gè)尺度訓(xùn)練樣本zt,scale,通過(guò)在傅里葉域計(jì)算最大尺度相關(guān)性得分,得到最終的尺度估計(jì)結(jié)果來(lái)估計(jì)當(dāng)前目標(biāo)狀態(tài)。
(8)
其中,A,B是前一幀中更新的濾波器的分子和分母。
最后,利用下式對(duì)尺度濾波器進(jìn)行更新,用新樣本進(jìn)行尺度變換。在這種情況下,使用一維高斯函數(shù)作為期望的相關(guān)輸出。
(9)
(10)
其中,η為尺度濾波器模型更新的學(xué)習(xí)率,t為第t個(gè)圖像塊。
通過(guò)尺度相關(guān)濾波器,利用粒子的循環(huán)位移信息,將粒子引導(dǎo)到目標(biāo)物體的局部模式。為了簡(jiǎn)單起見,定義尺度相關(guān)濾波算子,對(duì)于狀態(tài):ScfRd→Rd。
(11)
(12)
使用加權(quán)權(quán)重,在時(shí)刻t目標(biāo)對(duì)象的最佳狀態(tài)估計(jì)為:
(13)
當(dāng)出現(xiàn)嚴(yán)重的遮擋或物體外觀變異時(shí),基于像素的淺層特征不能很好地處理。故采用已經(jīng)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)特征(deep convolutional neural network feature,CNN deep feature)[10-11]對(duì)目標(biāo)的外觀進(jìn)行編碼,這樣特征既能有很好的層表達(dá),又能保留準(zhǔn)確的空間信息。由CNN層數(shù)與語(yǔ)義信息和空間細(xì)節(jié)的關(guān)系可以看出,在靠前的層中,更容易確定圖像的一些定位信息,但是圖像的語(yǔ)義信息并不豐富;而在靠后的層中,圖像的語(yǔ)義信息更容易確定,空間信息則不易于獲取。因此可以得出低層特征具有更多的空間信息,對(duì)目標(biāo)能夠進(jìn)行更為精準(zhǔn)的定位,而高層特征則具有較多的語(yǔ)義信息,能夠更好地處理目標(biāo)劇烈變化以及防止跟蹤器漂移,可以對(duì)目標(biāo)進(jìn)行范圍定位。
采用CNN提取目標(biāo)特征,不僅保留其最后一層輸出結(jié)果,同時(shí)中間層的輸出也保留下來(lái),具體保留的是3、4、5三個(gè)層。
在以目標(biāo)為中心的幀中裁剪出搜索窗口,用CNN獲取搜索的窗口特征。但在CNN中,由于池操作的存在,使得隨著層深度的增加,特征的空間分辨率會(huì)逐漸減小。需要用余弦窗對(duì)每一層提取的特征通道進(jìn)行加權(quán),對(duì)特征進(jìn)行升采樣之后才能夠提取特征。
(14)
其中,xi表示升采樣后的特征圖,hk表示升采樣前的特征圖,i表示位置,k表示k領(lǐng)域的特征向量,α表示插值的權(quán)值。
在此過(guò)程用到CNN的3、4、5層,每一層的輸出特征為x(大小為M×N×D),將M維和N維上的所有循環(huán)移位作為訓(xùn)練樣本,每一個(gè)移位樣本x(m,n),都有一個(gè)高斯函數(shù)標(biāo)簽,然后可以通過(guò)公式(8)學(xué)習(xí)到跟x同樣尺寸的尺度相關(guān)濾波器。
空間域的卷積對(duì)應(yīng)于傅里葉域中的逐元素乘法,所以卷積層的濾波器頻域表示可以寫作公式(15),Y是高斯標(biāo)簽的頻域表示。這樣使得目標(biāo)函數(shù)最小化。
(15)
(16)
文中算法是在粒子濾波和相關(guān)濾波的基礎(chǔ)上提出的。首先,使用粒子濾波器的概率系統(tǒng)轉(zhuǎn)移模型繪制樣本并重新采樣,然后使尺度相關(guān)濾波器應(yīng)用于每個(gè)粒子,計(jì)算每個(gè)樣本三層CNN特征的響應(yīng)圖進(jìn)行融合,利用尺度相關(guān)濾波器的響應(yīng)更新權(quán)重。最后,根據(jù)這些響應(yīng)圖計(jì)算加權(quán)平均得到目標(biāo)的位置。
F(αk)t=(1-η)F(αk)t-1+ηF(αk)
(17)
(18)
其中,η是學(xué)習(xí)速率參數(shù)。
實(shí)驗(yàn)運(yùn)行平臺(tái)為MATLAB R2016b,所有實(shí)驗(yàn)均在Inter Core i7 CPU,主頻2.00 GHz,8 GB內(nèi)存的電腦上完成。實(shí)驗(yàn)對(duì)所有視頻序列采用一致參數(shù):正則化參數(shù)設(shè)置為λ=0.01,尺度金字塔取33層。另外,通過(guò)增加粒子數(shù)可以提高性能,但運(yùn)行時(shí)性能會(huì)受到影響。設(shè)置合理的粒子數(shù)為6,這樣可以有效地權(quán)衡跟蹤器的準(zhǔn)確性和效率。
選取標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集OTB100[12]中的視頻序列進(jìn)行實(shí)驗(yàn),視頻序列為Biker、Bird1、Bird2、Blurbody、BlurCar1、BlurCar2、BlurCar3、Box、Car1、ClifBar,這些視頻序列包含目標(biāo)變化中的各類顏色以及運(yùn)動(dòng)挑戰(zhàn),如運(yùn)動(dòng)模糊、尺度變化、快速運(yùn)動(dòng)和旋轉(zhuǎn)、遮擋等。
為了評(píng)估這些跟蹤器,在測(cè)試序列中從第一幀的基礎(chǔ)真值位置初始化它們,并采用距離精度(distance precision,DP)、成功率(success rate,SR)作為評(píng)價(jià)指標(biāo)[13]。其中距離精度(DP)表示中心位置誤差(CLE)小于或者等于閾值像素T0的幀數(shù)(一般選取閾值為20像素)占視頻總幀數(shù)的百分比。中心位置誤差(CLE)如下,表示預(yù)估目標(biāo)與實(shí)際目標(biāo)中心的歐氏距離。
DP=lDP(CLE≤T0)/l
(19)
其中,lDP表示中心位置誤差小于或者等于閾值的幀數(shù),l是當(dāng)前視頻的總幀數(shù)。而成功率(SR)表示跟蹤所得的目標(biāo)區(qū)域MT和目標(biāo)真實(shí)區(qū)域MG所得的重疊率大于等于閾值T1(一般設(shè)為0.5),表示跟蹤成功。通常用成功率圖曲線下方的面積(AUC)去評(píng)估是否跟蹤成功。
(20)
將該文提出的算法與其他較為優(yōu)越的算法進(jìn)行比較。比較的算法有CSK[4]、KCF[5]、DCF[14]、fDSST[6]和SRDCF[15]。提出的算法由于使用多層深度特征的尺度相關(guān)粒子濾波器,因此在面對(duì)各種運(yùn)動(dòng)挑戰(zhàn)時(shí),更具魯棒性。在不同的視頻幀中,提出的算法都取得了較好的結(jié)果。跟蹤結(jié)果精確度和成功率如圖1所示。
圖1 算法精確度、成功率
為了進(jìn)一步驗(yàn)證提出的算法在跟蹤過(guò)程中的魯棒性,圖2給出了該算法與其他算法在旋轉(zhuǎn)、尺度變化、遮擋等各種干擾因素下的算法精確度與成功率的對(duì)比。
(b)尺度變化
(c)遮擋
(d)形變
從圖2得出,提出的算法基于粒子濾波框架,對(duì)每一個(gè)模擬目標(biāo)的狀態(tài)分布的粒子,提取CNN特征,并用尺度相關(guān)濾波器來(lái)訓(xùn)練特征,對(duì)所得置信圖進(jìn)行加權(quán)計(jì)算,最后得出目標(biāo)的位置。因此該算法能夠在大多數(shù)干擾因素下取得較好的跟蹤效果。
為了體現(xiàn)提出的算法的跟蹤性能,在標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集上選取了一些視頻序列進(jìn)行測(cè)試,對(duì)不同算法的跟蹤結(jié)果進(jìn)行對(duì)比,如圖3所示。
(a)Bird2_1
(b)Biker_1
(c)BlurBody_1
(d)Bird1_1
圖3 算法在不同視頻下的跟蹤結(jié)果
綜合上述實(shí)驗(yàn)的對(duì)比結(jié)果,可知文中算法對(duì)目標(biāo)在快速運(yùn)動(dòng)以及尺度變化和遮擋旋轉(zhuǎn)方面更為優(yōu)越。從圖3中可以看出,在Bird2_1視頻序列中,由于目標(biāo)存在快速運(yùn)動(dòng)以及尺度的變化,對(duì)算法跟蹤產(chǎn)生干擾,由99幀可以看出,文中算法較其他算法能夠準(zhǔn)確地跟蹤目標(biāo)。在Birker_1序列中,文中算法由于使用基于貝葉斯順序重要性抽樣技術(shù)的粒子濾波框架,能夠更好地跟蹤目標(biāo)。在BlurBody_1視頻序列中,存在運(yùn)動(dòng)模糊的干擾,但文中算法依然精確地跟蹤到目標(biāo)。在Bird1_1視頻序列中第64幀目標(biāo)在快速運(yùn)動(dòng)時(shí)被跟丟,但文中算法卻由于跟蹤精度較高,仍能有效地跟蹤到目標(biāo),具有較好的魯棒性,同時(shí)也說(shuō)明,文中算法在處理快速運(yùn)動(dòng)時(shí)更為優(yōu)越。
該文提出了一種基于多層深度特征的尺度相關(guān)粒子濾波方法。基于粒子濾波框架,對(duì)每一個(gè)模擬目標(biāo)的狀態(tài)分布的粒子,提取CNN特征,用尺度相關(guān)濾波器來(lái)訓(xùn)練特征,對(duì)每一層作置信度評(píng)分之后由粗到精地對(duì)所獲得的三個(gè)置信圖融合得到訓(xùn)練特征之后的響應(yīng)圖,最后根據(jù)這些響應(yīng)圖計(jì)算加權(quán)平均,確定目標(biāo)的位置。該算法可以解決部分或者全部遮擋的問(wèn)題,在準(zhǔn)確性以及魯棒性方面有較好的提高。在選定的視頻序列上的對(duì)比結(jié)果表明,該算法得益于新的尺度相關(guān)粒子濾波器模式,優(yōu)于相關(guān)的一些算法。