任 杰,趙春暉,崔 穎
(哈爾濱工程大學(xué) 信息與通信工程學(xué)院,哈爾濱 150001)
視覺(jué)車(chē)輛跟蹤作為智能視頻監(jiān)控系統(tǒng)的重要組成部分,在智能交通管理系統(tǒng)和無(wú)人駕駛等領(lǐng)域有廣泛的應(yīng)用。實(shí)現(xiàn)目標(biāo)車(chē)輛的穩(wěn)定快速跟蹤已成為當(dāng)前的熱點(diǎn),并且具有極其重要的現(xiàn)實(shí)價(jià)值。
基于孿生網(wǎng)絡(luò)的跟蹤算法可以實(shí)現(xiàn)端到端學(xué)習(xí),因其具有優(yōu)秀的跟蹤性能被廣泛應(yīng)用在目標(biāo)跟蹤領(lǐng)域。其中最具有代表性的就是SiamFC[1](基于全連接層的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法),SiamFC利用雙層線性法計(jì)算滑動(dòng)窗口的兩個(gè)輸入之間的相互關(guān)系,實(shí)現(xiàn)密集高效的滑動(dòng)窗口評(píng)價(jià),得到最高的相應(yīng)輸出值,達(dá)到定位的目的。引入了全連接層的結(jié)構(gòu),提高了跟蹤速度,進(jìn)一步提高了跟蹤算法的實(shí)時(shí)性,但是車(chē)輛目標(biāo)相對(duì)速度較大,視頻監(jiān)控中的車(chē)輛目標(biāo)的尺度變化更加快速,而SiamFC算法對(duì)尺度變化不敏感,會(huì)出現(xiàn)引入的背景信息過(guò)多或者目標(biāo)信息不完整,導(dǎo)致跟蹤器出現(xiàn)漂移的情況,所以有一個(gè)穩(wěn)健而且準(zhǔn)確的尺度估計(jì)對(duì)于目標(biāo)車(chē)輛的準(zhǔn)確跟蹤至關(guān)重要。然而實(shí)現(xiàn)兼顧準(zhǔn)確度和速度的車(chē)輛尺度估計(jì)算法仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[2]。
目前在跟蹤算法中加入尺度估計(jì)模塊的算法有很多,Danelljan M等[3-4]利用相關(guān)濾波器將目標(biāo)跟蹤分解為確定位置和尺度估計(jì),在已經(jīng)準(zhǔn)確的確定位置的前提下,提取檢測(cè)區(qū)域的多尺度特征來(lái)訓(xùn)練尺度濾波器,但是在此情況下尺度的精度取決于目標(biāo)位置的準(zhǔn)確性。Li F等[5]也采用了尺度濾波器的方法,利用一維相關(guān)濾波器訓(xùn)練4個(gè)特征塊,通過(guò)邊界跟蹤進(jìn)行尺度估計(jì)。Walia G S等[6]通過(guò)QA(正交三角)分解法對(duì)多尺度特征進(jìn)行降維處理,從而提高尺度濾波器的訓(xùn)練速度。特征分塊[7-9]方法是解決尺度伸縮變換的先進(jìn)方法,根據(jù)每塊的離散程度估計(jì)整體目標(biāo)的尺度大小,但是由于分塊提取特征會(huì)導(dǎo)致特征部分丟失,跟蹤精確度沒(méi)有太大的提升。
針對(duì)車(chē)輛跟蹤中的尺度變化問(wèn)題,結(jié)合車(chē)輛跟蹤算法對(duì)準(zhǔn)確度和速度的要求,本文在SaimFC跟蹤算法的基礎(chǔ)上提出了一種基于樹(shù)形尺度池的車(chē)輛跟蹤算法。采用一維相關(guān)濾波器訓(xùn)練不同大小的尺度縮放因子,通過(guò)尺度響應(yīng)的比較確定最后目標(biāo)車(chē)輛的大?。淮送?,為進(jìn)一步提高跟蹤算法的穩(wěn)定性,在完成尺度估計(jì)的條件下,對(duì)網(wǎng)絡(luò)模板進(jìn)行自適應(yīng)更新,來(lái)適應(yīng)車(chē)輛跟蹤過(guò)程中出現(xiàn)的外寬變化。
圖1 算法整體流程Fig.1 Overall flow chart of the algorithm
算法的整體流程見(jiàn)圖1,步驟如下:①采用孿生網(wǎng)絡(luò)框架對(duì)的輸入圖片(模板圖片、當(dāng)前幀圖片)進(jìn)行特征提取;②將提取后的特征進(jìn)行尺度估計(jì),計(jì)算多尺度的響應(yīng),采用一種樹(shù)形尺度池的方式找到車(chē)輛所對(duì)的最佳尺度;③進(jìn)行相似度比較,確認(rèn)車(chē)輛所在的位置和尺度,為了避免有外觀變化明顯導(dǎo)致跟蹤失敗,采用自適應(yīng)模型更新的方法對(duì)模型進(jìn)行更新;④判斷是否為視頻的最后一幀,如果是則結(jié)束,如果不是則進(jìn)行下一幀跟蹤。
本文算法是在SiamFC算法的基礎(chǔ)之上進(jìn)行改進(jìn)的,首先確定了目標(biāo)所在的位置中心,在其基礎(chǔ)上進(jìn)行樹(shù)形尺度估計(jì)。整體分為兩部分,第一部分是確定當(dāng)前幀圖片是放大還是縮小,第二部分是確定放大因子和縮小因子的大小。核心原理是:將模板樣本與當(dāng)前幀比較,其中模板樣本的大小固定為ST=(sx,sy),定義一個(gè)縮放池S={t1,t2,…,tk}。假設(shè)原始圖像空間中的目標(biāo)窗口大小為st。對(duì)于當(dāng)前幀,在{tisi|ti∈S}中采樣10個(gè)縮放因子來(lái)尋找合適的目標(biāo),采用雙線性插值方法將樣本調(diào)整為固定的模板大小sT,采用下式計(jì)算最大響應(yīng):
(1)
其中:zti是尺寸為tisi的模板樣本,即sT。由于響應(yīng)函數(shù)得到一個(gè)向量,因此采用最大運(yùn)算來(lái)求其最大標(biāo)量。由于響應(yīng)圖中隱含了目標(biāo)的運(yùn)動(dòng),因此需要對(duì)最終的位移進(jìn)行調(diào)優(yōu)。結(jié)構(gòu)見(jiàn)圖2。
圖2 樹(shù)形尺度估計(jì)原理Fig.2 Schematic of tree scale estimation
首先將定位后的目標(biāo)車(chē)輛通過(guò)第一部分,將當(dāng)前幀的圖片A1與上一幀的圖片A2進(jìn)行比較確定目標(biāo)車(chē)輛是放大還是縮小,若當(dāng)前幀A1響應(yīng)值大于上一幀A2的響應(yīng)值,說(shuō)明在當(dāng)前幀中目標(biāo)是放大的,如果已經(jīng)判斷為放大,則會(huì)分配到放大分支內(nèi)繼續(xù)計(jì)算,得出響應(yīng)最大值的放大因子為最后目標(biāo)的尺度,反之,則會(huì)分配到縮小分支內(nèi)繼續(xù)計(jì)算,得出響應(yīng)最大值的縮小因子為最后目標(biāo)的尺度。放大分支內(nèi)的10個(gè)尺度因子分別為1.01, 1.011, 1.012, 1.013, 1.014, 1.015, 1.016,1.017, 1.018, 1.019,縮小分支內(nèi)的10個(gè)尺度因子分別為0.999, 0.998, 0.997, 0.996, 0.995, 0.994,0.993, 0.992, 0.991,0.990。同時(shí)也用雙線性插值[10]調(diào)節(jié)縮放因子的大小。為了確保跟蹤過(guò)程中,目標(biāo)的尺度確實(shí)發(fā)生了變化,而不是受到某一幀的目標(biāo)檢測(cè)結(jié)果的影響,每隔5幀對(duì)目標(biāo)檢測(cè)的結(jié)果進(jìn)行一次記錄,若連續(xù)10次都出現(xiàn)待跟蹤目標(biāo)的尺度發(fā)生放大或縮小,就可以確認(rèn)待跟蹤目標(biāo)的尺度發(fā)生了改變,并使用分類樹(shù)形尺度自適應(yīng)算法進(jìn)行尺度的放縮。
實(shí)驗(yàn)中在確定放大和縮小后進(jìn)行了10次計(jì)算,相對(duì)于之前的DSST[11]算法的32次和SAMF[12]跟蹤算法的17次節(jié)省了計(jì)算時(shí)間,提高跟蹤器的實(shí)時(shí)性,而且在添加尺度估計(jì)模塊之后,算法的特征提取區(qū)域也有一定的改變,不再出現(xiàn)提取特征不足或提取特征過(guò)剩等現(xiàn)象,提取到的特征會(huì)更有針對(duì)性,間接提高了算法的精確度和成功率,使得跟蹤器性能增強(qiáng)。
為了適應(yīng)運(yùn)動(dòng)車(chē)輛的外觀變化和光照等環(huán)境的變化,提高算法的精確度,需要對(duì)整體模型進(jìn)行實(shí)時(shí)更新,傳統(tǒng)的方法KCF[13]是采用線性插值的方法,公式為
(2)
式中:pi和qi分別為當(dāng)前幀車(chē)輛跟蹤的結(jié)果得到的相關(guān)濾波模板和目標(biāo)外觀模板;λ為模板更新速率。由于更新速率的變換不夠明顯,導(dǎo)致更新速率不能適應(yīng)目標(biāo)及環(huán)境的變化,跟蹤器的精確度也會(huì)隨著車(chē)輛的運(yùn)動(dòng)而逐漸下降。
為提高跟蹤器的精確度,本文利用最佳尺度下的相關(guān)響應(yīng)的最大值對(duì)模型進(jìn)行自適應(yīng)更新,公式為
(3)
其中Ymax為最佳尺度下相關(guān)響應(yīng)的最大值。這種自適應(yīng)模型更新方法對(duì)于跟蹤器相似度較高的圖片會(huì)以較快的速率更新,相似度較低的圖片更新速率較低,減少噪聲的引入,在適應(yīng)目標(biāo)環(huán)境和外觀變化的同時(shí)保證模型的準(zhǔn)確性,從而提高跟蹤器的精確度。
2.1.1 實(shí)驗(yàn)參數(shù)設(shè)置
在訓(xùn)練階段采用 ILSVRC15[14]視頻數(shù)據(jù)集,隨機(jī)梯度下降的優(yōu)化算法,用高斯分布初始化參數(shù),訓(xùn)練50 個(gè)epoch,每個(gè)epoch 有50 000個(gè)樣本。將相關(guān)濾波的正則化參數(shù)設(shè)置為0.01,系統(tǒng)的學(xué)習(xí)率為0.000 25,期望的相關(guān)輸出的標(biāo)準(zhǔn)偏差設(shè)置為平移維度中目標(biāo)大小的1/16,標(biāo)度維度中的濾波器大小為5,尺度因子為1.005。在KITTI[15]公開(kāi)的車(chē)輛運(yùn)動(dòng)視頻數(shù)據(jù)集和LaSOT[16]中20 段車(chē)輛運(yùn)動(dòng)視頻數(shù)據(jù)集中,包含了目標(biāo)與背景相似、尺度變換等多種目標(biāo)跟蹤過(guò)程中可能出現(xiàn)的復(fù)雜情況,在此數(shù)據(jù)集上進(jìn)行測(cè)試,驗(yàn)證了本文方法的有效性。
2.1.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)中采用兩個(gè)標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo)。
1)精確度可認(rèn)為是跟蹤目標(biāo)的中心位置和人工標(biāo)定的準(zhǔn)確位置之間的平均歐氏距離[17],公式為
(4)
式中:X為目標(biāo)中心位置;Y為人工標(biāo)注真實(shí)位置;xi為X的坐標(biāo);yi為Y的坐標(biāo)。一個(gè)序列中所有幀像素之間的平均中心位置誤差,通過(guò)評(píng)估不同像素閾值下的精確度,可以得到一個(gè)精確度曲線圖。
2)成功率可認(rèn)為是計(jì)算跟蹤成功視頻所占視頻的比例,公式為
(5)
式中:rt為跟蹤器給定的邊界框;ra為真實(shí)的邊界框;∩、∪分別為兩個(gè)區(qū)域的交集和并集,||為區(qū)域內(nèi)給定的像素個(gè)數(shù)。對(duì)于每個(gè)幀圖片,計(jì)算被跟蹤圖片中的候選框和groundtruth(標(biāo)準(zhǔn)框)之間的IoU[18](重疊度)。通過(guò)評(píng)估不同IoU閾值下的成功率,可以得到一個(gè)成功率曲線圖。這兩個(gè)指標(biāo)都可以根據(jù)AUC[19](曲線下面積)的大小來(lái)判斷算法的效果,AUC 越大效果越好。
車(chē)輛跟蹤算法作為其他技術(shù)的基本環(huán)節(jié),不僅要求算法具有很好的精確度,還要求算法的速度滿足實(shí)際需求。為了全面的分析本文算法與其他算法的性能優(yōu)劣,從速度、精確度和成功率對(duì)各方法進(jìn)行分析,結(jié)果見(jiàn)表1。由表1可見(jiàn),在孿生網(wǎng)絡(luò)下的Ours、SiamFC和DCFNet[20]算法的跟蹤速度高于使用相關(guān)濾波的跟蹤算法,孿生網(wǎng)絡(luò)最大的優(yōu)勢(shì)就是處理速度快,由于SiamFC和DCFNet不具備尺度估計(jì)和模型更新能力,其精確度和成功率普遍偏低。DSST、ECO[21]和C-COT[22]都是具備尺度估計(jì)的跟蹤算法,精確度和成功率會(huì)有一定的提升,但是跟蹤速度非常低,幾乎達(dá)不到目標(biāo)跟蹤的實(shí)時(shí)性,而且由于尺度因子的選擇過(guò)于稀少,在精確度和成功率上依然稍稍弱于本文算法。
表1 各種算法總體性能
各算法在OPE[23](正常情況)、SRE(空間復(fù)雜度)、TRE(時(shí)間復(fù)雜度)情況下的精確度和成功率的對(duì)比見(jiàn)圖3。由圖3可見(jiàn),在不同的情況下,各種算法的成功率和精確度存在波動(dòng),由于受到環(huán)境和閾值的限制,整體的精確度和成功率有下降的趨勢(shì),但本文算法相對(duì)穩(wěn)定,精確度和成功率保持著微小的變化,說(shuō)明本文算法具有很強(qiáng)的魯棒性。
圖3 各種算法的精確度和成功率對(duì)比Fig.3 Comparison of accuracy and success rate of various algorithms
選擇4種算法(Ours、DSST、SAMF、C-COT)的部分視頻序列的跟蹤效果見(jiàn)圖4。同時(shí)也選擇了包含明顯尺度變化的5段視頻作為參考序列。其中紅色方框?yàn)楸疚乃惴āT谶@些情況下,本文算法可以包圍目標(biāo)車(chē)輛,而其他算法均出現(xiàn)不同程度上的位置偏移和尺度估計(jì)偏差。在雪天和黑夜這些復(fù)雜的拍攝場(chǎng)景下,SAMF和DSST算法逐漸丟失了尺度估計(jì)能力,跟蹤性能受到干擾,而本文算法由于有自適應(yīng)模板更新,避免噪聲污染,可以應(yīng)對(duì)雪天和黑夜等復(fù)雜的視頻拍攝場(chǎng)景,實(shí)現(xiàn)準(zhǔn)確的跟蹤。
圖4 部分視頻序列的跟蹤效果Fig.4 Tracking effect of some video sequences
針對(duì)車(chē)輛跟蹤中的尺度估計(jì)問(wèn)題,結(jié)合相關(guān)濾波器提出一種樹(shù)形尺度估計(jì)的車(chē)輛跟蹤方法。通過(guò)前一幀圖片的大小推斷出當(dāng)前幀目標(biāo)的尺度變化方向,在變化的方向上尋找適合當(dāng)前幀目標(biāo)的尺度因子來(lái)確定當(dāng)前目標(biāo)的最佳尺度,并在最佳尺度的基礎(chǔ)之上對(duì)模型進(jìn)行自適應(yīng)模型更新。本文算法有效解決了車(chē)輛跟蹤中存在的尺度變化導(dǎo)致的跟蹤漂移問(wèn)題,并在適應(yīng)目標(biāo)環(huán)境和外觀變化的同時(shí),提高跟蹤器的精確度,對(duì)車(chē)輛跟蹤中出現(xiàn)的光照變化和局部遮擋問(wèn)題具有較高的魯棒性。