石國強,趙 霞
(同濟大學電子與信息工程學院,上海 201804)
(*通信作者電子郵箱xiazhao@#edu.cn)
目標跟蹤是計算機視覺領域中一個非常重要且具有挑戰(zhàn)性的研究課題,被廣泛應用于自動駕駛、人機交互等領域[1]。盡管目標跟蹤技術已經(jīng)發(fā)展了幾十年,由于被跟蹤目標在運動過程中會出現(xiàn)形變、遮擋、快速移動、光照變化等情況,精準定位目標仍存在很大挑戰(zhàn)。
相關學者將機器學習中的分類學習思想應用到跟蹤領域,極大地促進了目標跟蹤算法的發(fā)展。分類學習方法將目標跟蹤任務看作一個區(qū)分前景和背景的二分類問題,通過在線或離線訓練分類器,尋找分類值最大的區(qū)域,從而實現(xiàn)目標的跟蹤。因此,設計一個高精度且速度快的分類器,有助于提升跟蹤算法的魯棒性以及實時性。在信號處理領域中,相關性用來描述兩個信號之間的聯(lián)系。Bolme 等[2]首次將相關操作用于跟蹤任務,提出相關濾波器跟蹤算法,并用快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)在頻域內(nèi)完成多個信號的相關操作,大幅提升了算法的計算效率。由于相關濾波器具有高效的計算性能,近年來許多研究者將其用于目標跟蹤[3-5]?;谙嚓P濾波器的算法屬于分類學習方法,核心是訓練一個濾波模板,即分類器,用于將目標從背景信息中分離出來。但基于相關濾波器的算法也存在不足,如在遇到目標發(fā)生較大形變或背景與目標高度相似等情況下不能很好地定位目標。此外,該算法需要頻繁更新濾波模板,導致跟蹤算法的速度變慢。
深度卷積神經(jīng)網(wǎng)絡的優(yōu)秀特征提取能力,以及近幾年硬件性能不斷提升和可用于訓練的標記數(shù)據(jù)逐漸增多,使得該類網(wǎng)絡大量應用于計算機視覺處理任務中[6-8]。部分學者使用深度卷積特征替換傳統(tǒng)手工特征,極大提高了基于相關濾波跟蹤器的跟蹤精度。但也存在不足,因為深度卷積特征的使用會進一步降低算法的運行效率。算法運行效率降低的原因有兩方面:一是相較于傳統(tǒng)手工特征,深度卷積特征的提取過程更加耗時;二是網(wǎng)絡模型采用預訓練模型參數(shù),在線跟蹤目標時,需要針對跟蹤目標在線更新模型系數(shù),造成跟蹤速度慢這一問題。
由于孿生網(wǎng)絡具有共享權值的特征,因此特別適用于處理輸入“比較類似”的情況,這和目標跟蹤的機制相吻合。通過離線訓練的孿生網(wǎng)絡模型便可進行很好的特征提取,因而無需在線更新模型參數(shù),有效提升跟蹤速度。目前,基于孿生網(wǎng)絡的深度卷積神經(jīng)網(wǎng)絡被廣泛應用于目標跟蹤任務中。SINT(Siamese INstance search for Tracking)[9]最先使用孿生網(wǎng)絡作為跟蹤算法的主體框架,將跟蹤問題轉(zhuǎn)化為一個圖像塊匹配問題。該算法根據(jù)高斯分布采集多個不同大小及形狀的圖像塊,并與目標模板圖像塊進行匹配,選擇最佳匹配圖像塊作為跟蹤結(jié)果。SiamFC(Fully-Convolutional Siamese networks for object tracking)[10]使用全卷積網(wǎng)絡作為特征提取部分,將跟蹤問題看成一個相似性學習問題,利用全卷積特征平移不變性來避免圖像特征重復提取,提高了算法的運行效率。在線跟蹤時,該算法直接對目標中心位置進行定位,目標形狀大小由初始幀圖像塊形狀和當前最大響應圖像塊尺度進行線性估計?;趯\生區(qū)域推薦候選網(wǎng)絡的高性能單目標跟蹤(SiamRPN)算法[11]將跟蹤問題看成一個全局單步檢測問題,在SiamFC 基礎上,使用SSD(Single Shot multibox Detector)[12]中區(qū)域推薦網(wǎng)絡(Region Proposal Network,RPN),根據(jù)得到的孿生網(wǎng)絡特征,不需要進行尺度估計,直接預測目標中心位置及尺度。雖然SiamRPN 具有很好的跟蹤能力,但其分類任務和邊框回歸任務沒有聯(lián)系,導致模型預測的最高分類分數(shù)與最佳預測邊框結(jié)果不匹配,僅得到次優(yōu)跟蹤結(jié)果。
針對上述問題,本文在SiamRPN 算法基礎上,提出一種基于聯(lián)合優(yōu)化的強耦合孿生區(qū)域推薦跟蹤算法——SCSiamRPN(object tracking algorithm based on Strong-Coupled Siamese Region Proposal Network)。首先提出聯(lián)合分類任務和邊框回歸任務的優(yōu)化策略,設計了以交并比(Intersection-over-Union,IoU)為紐帶的聯(lián)合優(yōu)化分類損失函數(shù)。該分類損失函數(shù)針對預測精度高的正樣本,即IoU 高的正樣本,提升其對總分類損失的貢獻;針對低IoU 的正樣本,降低其對總分類損失的貢獻,使得最高分類分數(shù)與最佳預測邊框結(jié)果相匹配。其次,將IoU 作為邊框損失函數(shù)的權重,提升目標中心樣本的比重,抑制邊緣樣本的比重,從而提高邊框回歸子網(wǎng)絡的定位精度。最后,由于邊框回歸網(wǎng)絡輸出的是正則化值,在計算IoU 值時,傳統(tǒng)方法需進行數(shù)值轉(zhuǎn)換,過程繁瑣,且計算量大。針對這一問題,本文采用改進的BoundedIoU 方法[13]進行計算,這種方法僅估計IoU 的上界,并直接采用正則化值作為輸入,可以在不損失計算精度的同時,大大簡化計算過程。
在OTB50[14]、OTB100[15]和VOT2016[16]等測試數(shù)據(jù)集上,本文算法SCSiamRPN 均取得了滿意的實驗結(jié)果。相較于SiamRPN 算法,本文算法在OTB 系列測試集上的距離精度(Distance Precision,DP)和成功率曲線圖面積(Area Under the Curve,AUC)均有3%的提升,在VOT 等測試集上的DP 和AUC 提升了3%~7%;而且,本文算法的最高分類分數(shù)均與最佳邊框相匹配。以上實驗結(jié)果表明:以IoU 為紐帶的聯(lián)合優(yōu)化方法有效提升了分類任務與邊框回歸任務間的耦合性,進而提高了目標跟蹤任務的性能。
孿生網(wǎng)絡是指具有兩個共享權值分支網(wǎng)絡的神經(jīng)網(wǎng)絡,基于孿生網(wǎng)絡的跟蹤算法使用兩個共享權值分支網(wǎng)絡分別提取目標和搜索圖像的特征。該類算法一般分為離線訓練和在線跟蹤兩個階段。離線訓練階段利用帶標簽的視頻數(shù)據(jù)集作為訓練樣本,采用梯度下降策略優(yōu)化算法模型,通過訓練學習得到通用的特征提取深度卷積網(wǎng)絡模型。在線跟蹤階段,首先初始化孿生網(wǎng)絡的一個分支,將被跟蹤目標圖像塊作為其輸入;然后逐幀提取搜索圖像塊作為孿生網(wǎng)路另一分支的輸入,對兩分支的輸出特征進行相關操作,通過尋找相似性最大的匹配圖像塊完成對目標的跟蹤。
本章首先介紹經(jīng)典的基于孿生網(wǎng)絡的目標跟蹤算法SiamFC,用來預測目標的中心位置;其次介紹經(jīng)典的采用RPN 的目標跟蹤算法SiamRPN,該算法通過區(qū)域推薦網(wǎng)絡預測目標的中心位置及大小。
SiamFC 算法的整體框架如圖1 所示,圖中孿生網(wǎng)絡虛線框中上方支路表示目標分支,輸入為z,下方支路表示搜索分支,輸入為x,兩條支路采用共享權值的全卷積網(wǎng)絡AlexNet[17]作為特征提取網(wǎng)絡(圖1中“φ”)。
圖1 SiamFC框架Fig.1 Architecture of SiamFC
由于全卷積網(wǎng)絡對輸入圖像塊沒有大小要求,該算法采用127×127的圖像塊作為目標圖像輸入、255×255的圖像塊為搜索圖像輸入。將兩條分支網(wǎng)絡的輸出“6×6×128 目標圖像特征和22×22×128 搜索圖像特征”用相關操作處理(圖中“*”),由于相關操作要求兩圖像大小相同,這里通過288 次平移,得到17×17 的相似性置信分數(shù)圖。最后,通過二次差值法進行上采樣,提升置信分數(shù)圖的分辨率,得到大小為272×272的響應圖,響應圖中最大值的位置即為當前幀目標的中心位置。
在跟蹤過程中,模型的輸入為3 個不同大小的搜索圖片(圖1 中“x”處),根據(jù)響應值最大的輸入圖片確定當前目標的大小。
從圖1可以看出,SiamFC算法假設當前幀目標尺度不變,直接預測目標中心位置,當目標尺度有較大改變時,性能欠佳。SiamRPN 算法框架如圖2 所示,該算法采用區(qū)域推薦網(wǎng)絡(圖2(b)部分)代替SiamFC 位置預測網(wǎng)絡中的相關操作(圖1 中“相關”模塊),同時預測出目標的中心位置和尺度大小,相較于SiamFC,SiamRPN 的定位結(jié)果更準確。該算法同樣也用孿生網(wǎng)絡提取目標圖像和搜索圖像的特征,對提取的特征用k個不同尺度的預選框,通過區(qū)域推薦網(wǎng)絡對預選框進行分類與回歸,最終定位出目標。
圖2 SiamRPN框架Fig.2 Architecture of SiamRPN
由圖1 可知,該算法包括孿生網(wǎng)絡、區(qū)域推薦網(wǎng)絡和優(yōu)化模塊三部分,其中優(yōu)化模塊僅在訓練階段有效。該模塊根據(jù)各樣本真實值與預測值,分別完成分類任務和邊框回歸任務的損失計算,最后根據(jù)損失值進行反向傳播。
分類任務損失函數(shù)為:
其中:CE(pi,gi)為交叉熵損失函數(shù),即單樣本分類損失。對于真實標簽為gi,預測值為pi的樣本i,其交叉熵損失函數(shù)為:
邊框回歸任務損失函數(shù)如下:
其中:smoothL1(di[j])為損失函數(shù);d為樣本i的某一邊框預測值與正則化真實值之差(d包括邊框的中心橫縱坐標x和y、邊框的寬w和高h,共四個元素,詳細公式在2.3 節(jié)中給出);pos表示正樣本。
損失函數(shù)smoothL1(di[j])如下:
圖2中T、S分別為目標圖像和搜索圖像;φ(T)、φ(S)表示孿生網(wǎng)絡提取的目標圖像特征和搜索圖像特征。SiamRPN 假設有k個預選框(該算法的k為5),區(qū)域推薦網(wǎng)絡通過兩個單獨的卷積,將φ(T)的通道數(shù)分別提升至2k和4k倍,得到用于分類任務的[φ(T)]c和用于邊框回歸任務的[φ(T)]b。φ(S)也通過兩個卷積分成兩個特征[φ(S)]c和[φ(S)]b,其輸出特征通道數(shù)保持不變。最后通過式(5)得到分類結(jié)果和目標位置。
其中:Rc2k表示目標圖像T和搜索圖像S卷積操作后得到的分類結(jié)果;Rb4k表示搜索圖像S預測的目標位置相較于k個預選框的正則化距離。在跟蹤階段,從Rc2k中選取前景分類分數(shù)最大的預選框作為此幀預測結(jié)果,則該預選框?qū)倪吙蝾A測值(ρx,ρy,ρw,ρh),為此幀目標的正則化值距離。假設x、y表示分類分數(shù)最大的預選框中心坐標;aw、ah表示該預選框的寬和高,則最后預測的目標位置如下:
以xpred、ypred為中心,裁剪大小為A的搜索圖像,A的計算方式如式(7)所示:
其中:p=(w+h)/2;w、h分別為預測的寬wpred和高hpred。然后將搜索圖像縮放到255×255。
不斷重復上述操作,即通過式(7)計算搜索圖像的大小,并在下一幀中裁剪搜索圖像,輸入圖2 所示Search 分支,通過式(5)和式(6)得到新一幀的預測結(jié)果。
為了提升跟蹤器的跟蹤精度,同時不影響在線跟蹤的速度,本文提出一種基于聯(lián)合優(yōu)化的強耦合孿生區(qū)域推薦跟蹤算法,在訓練階段對分類任務與邊框回歸任務施加約束,以增強分類任務和邊框回歸任務的耦合性,使得分類置信分數(shù)能夠反映邊框回歸任務的精度,算法的整體框架如圖3所示。
圖3 SCSiamRPN框架Fig.3 Architecture of SCSiamRPN
由圖3 可知,本文算法在SiamRPN 的基礎上用聯(lián)合優(yōu)化模塊替換原有的優(yōu)化模塊。
考慮到SiamRPN 中樣本的正負標簽是根據(jù)預選框與真實邊框的IoU 確定的,本文以IoU 為紐帶,重新設計SiamRPN的分類損失函數(shù),增強分類任務和邊框回歸任務的耦合性,2.1 節(jié)介紹本文提出的聯(lián)合優(yōu)化分類損失函數(shù);此外,本文也利用IoU 對邊框損失函數(shù)進行改進,增加接近目標部分的權重,減小遠離目標部分的權重,以提升邊框回歸網(wǎng)絡的定位精度,改進的損失函數(shù)在2.2 節(jié)中介紹;最后,由于邊框回歸網(wǎng)絡預測結(jié)果為正則化值,用傳統(tǒng)IoU 函數(shù)計算時,正則化值需要先轉(zhuǎn)換成平面坐標值再計算,將增大計算誤差,導致模型訓練不收斂,因此2.3 節(jié)介紹本文采用的IoU 計算方法,以提升網(wǎng)絡的訓練效率和保證網(wǎng)絡的收斂性。
采用RPN 的目標檢測算法和目標跟蹤算法,其分類任務都獨立于邊框回歸任務。在測試階段對所有正樣本都會盡可能預測高的分類分數(shù),而忽略該樣本的邊框定位精度,最終導致分類分數(shù)獨立于邊框定位精度。在線跟蹤時,這一問題會對模型的跟蹤性能產(chǎn)生影響。跟蹤算法在預測目標位置時,根據(jù)最高分類分數(shù)確定目標的位置信息,而此時模型的最高分類分數(shù)可能對應著低精度的預測邊框,從而對模型的定位產(chǎn)生影響,因此增強分類任務和邊框回歸任務的聯(lián)系有益于提高定位精度。
由于跟蹤算法的最終定位結(jié)果只與分類網(wǎng)絡預測的前景(正樣本)有關,故本文將通過正樣本來增強分類任務與邊框回歸任務的耦合性。對于正樣本,在SiamRPN 原有分類損失函數(shù)(式(1))的基礎上添加與該樣本IoU 有關的耦合因子,最終的分類損失函數(shù)為正樣本分類損失與負樣本分類損失之和,如式(8)所示:
其中:pos表示正樣本集合;neg表示負樣本集合;ioui為第i個樣本的預測邊框和真實邊框之間的IoU 值;wi(ioui)為以第i個樣本IoU值為自變量的耦合因子。wi(ioui)的計算公式為:
其中:α表示超參;n表示正樣本數(shù)量。為了保證總的正樣本分類損失不變,對耦合因子進行了歸一化處理。耦合因子表示為該樣本IoU 值的α次冪,乘以正樣本分類損失之和與以耦合因子為權重的正樣本分類損失之和的比值。由式(9)可知,耦合因子與IoU 值成正比,在訓練過程中,通過耦合因子改變各正樣本的分類損失值,對于邊框精度高的樣本,即IoU 值大的正樣本,增加其分類損失值;對于邊框精度低的樣本,即IoU 值小的正樣本,降低其分類損失值,從而增強分類任務和邊框回歸任務的耦合性,使得分類分數(shù)與邊框精度相匹配,達到聯(lián)合優(yōu)化的效果。
文獻[18]指出,即使模型在訓練過程中是收斂的,當邊緣樣本的梯度較大時,邊框回歸網(wǎng)絡損失的梯度主要由邊緣樣本主導,導致模型在訓練過程中更多注重對邊緣樣本的優(yōu)化,而忽略對小梯度中心樣本的優(yōu)化。由于目標跟蹤任務每次只需得到一個最佳定位結(jié)果,該結(jié)果越精準越好,但上述問題的存在限制了模型精度的提升。
針對這一問題,文獻[18]指出,減小邊緣樣本的梯度,可以提升對中心樣本的優(yōu)化?;谏鲜鏊枷?,本文提出基于IoU值的邊框損失函數(shù),提升目標中心附近樣本對邊框回歸網(wǎng)絡損失的貢獻。IoU值可以反映邊框預測的精度,對于僅含有部分目標的預選框區(qū)域,其預測精度劣于含有全部目標的預設區(qū)域,本文根據(jù)區(qū)域推薦網(wǎng)絡中預測邊框的IoU 值微調(diào)其邊框損失值。
在SiamRPN 的邊框回歸損失函數(shù)(式(3))的基礎上,為所有正樣本的邊框損失添加與該樣本IoU 有關的權重因子,最終邊框損失函數(shù)如式(10)所示:
其中:β為超參。同理也對權重因子進行了歸一化處理。權重因子為該樣本IoU 值的β次冪,乘以正樣本邊框損失之和與以權重因子為權重的正樣本邊框損失之和的比值。由式(11)可知權重因子與IoU 值成正比,因此在訓練階段,可通過權重因子改變各樣本的邊框損失值。如圖4 所示,對于邊框精度低的樣本,即邊緣樣本,降低其邊框損失值,從而降低其對整個網(wǎng)絡的梯度貢獻;對于邊框精度高的樣本,即目標中心附近的樣本,提升其邊框損失值及對整個網(wǎng)絡的梯度貢獻。
圖4 梯度范數(shù)可視化Fig.4 Visualization of gradient norm
聯(lián)合式(8)與式(10)后,即增強分類任務與邊框回歸任務的耦合性后,提升邊框回歸精度與提升邊框的分類分數(shù)形成正反饋迭代關系,最終提升跟蹤算法的跟蹤性能。
在本文算法中,IoU作為增強分類任務與邊框回歸任務耦合性的紐帶,其計算的高效性和收斂性是關鍵因素。傳統(tǒng)的IoU 函數(shù)只能針對平面坐標值計算相應的IoU,而本文算法邊框回歸網(wǎng)絡的邊框輸出值為正則化后的值。此時如按傳統(tǒng)方法計算,需要將正則化值先轉(zhuǎn)化為平面坐標值后,再計算預測邊框與真實邊框的交集與并集的比值。
針對這一問題,本文采用文獻[13]中提出的Bounded IoU方法,并添加近似約束,通過計算IoU 值的上界,無需將正則化值先轉(zhuǎn)化為平面坐標值,大幅大簡化了IoU值的計算過程。
下面給出一些變量及正則化的定義,假設第i個樣本的預選框ai=(ax,ay,aw,ah),真實邊框gi=(gx,gy,gw,gh)和預測邊框pi=(px,py,pw,ph),以上變量均為平面坐標值;網(wǎng)絡輸出的預測值ρi=(ρx,ρy,ρw,ρh)為正則化值,真實邊框進行正則化后為δi=(δx,δy,δw,δh),樣本i的預測值與真實值正則化差值為di=(dx,dy,dw,dh),即dx=ρx-σx,其他變量同理,其中:x、y表示邊框中心坐標;w、h表示邊框的寬和高。
模型的預測值均為正則化距離,因而需要對真實邊框進行正則化處理,具體如下:
Bounded IoU 的計算方法將IoU 分解為如下4 個獨立的部分:
其中:Δx=px-gx,Δy=py-gy。計算iouB(px,gx,gw)值時,假設py=gy,pw=gw,ph=gh,其他部分IoU 值計算類似。根據(jù)式(12)和dx、dw差值關系,可得dx=Δx/aw,dw=ln(pw/gw),對于dy、dh也有相似關系。將其代入式(13):
此時,可以直接采用正則化值計算IoU。由于僅計算正樣本的IoU 值,而正樣本的IoU>0.7,意味著gw和aw、gh和ah的值比較相近,可以假設gw≈aw,gh≈ah,進一步簡化式(14)中的前兩式,簡化后如式(15)所示:
最終的IoU計算公式為:
實驗的硬件環(huán)境為英特爾CPU i7,NVIDIA 1080Ti GPU,32 GB 內(nèi)存,操作系統(tǒng)為Ubuntu 16.04,深度學習框架為Pytorch 1.0.0[19],編程語言及版本為Python 3.6.5。
本文算法在ILSVRC(the ImageNet Large Scale Visual Recognition Challenge)[20]和Youtube-BoundingBoxes[21]數(shù)據(jù)集上進行離線訓練。其中ILSVRC 是用于目標檢測的視頻序列,包含了超過4 000 個視頻序列;Youtube-BoundingBoxes 是谷歌開源的最大手工注釋的視頻數(shù)據(jù)集,包含了超過17 萬個視頻序列。模型的訓練共進行了30 次迭代,對于聯(lián)合優(yōu)化損失函數(shù)中的超參設為α=1.2,β=1。測試視頻使用當前目標跟蹤領域常用的OTB50 和OTB100 數(shù)據(jù)集,OTB 系列數(shù)據(jù)集包含現(xiàn)實場景中常見的挑戰(zhàn),如快速運動、光照變化、尺度變化、遮擋變化、運動模糊等,可以很好地模擬現(xiàn)實場景中的跟蹤;為衡量聯(lián)合優(yōu)化對SiamRPN 算法性能的提升,在VOT2016、VOT2018[22]、TC128[23]等數(shù)據(jù)集進行更全面的實驗對比,其中VOT2016 視頻集包含60 個測試視頻,以短時間視頻為主;VOT2018視頻集在VOT2016的基礎上,更換10個難度更大的測試視頻,同時還對所有視頻進行重新標注,使得標注邊框更加精確;TC128包含128個測試視頻,且所有視頻均為彩色,更接近人類觀察的現(xiàn)實場景。
性能評估本文采用文獻[14]中提出的一次性評估(One-Pass Evaluation,OPE)策略,利用距離精度(DP)、成功率曲線圖面積(AUC)兩個評價指標。OPE 是指僅用真實邊框中目標的位置初始化第一幀,然后運行跟蹤算法,根據(jù)預測結(jié)果計算平均精度和成功率的評價方法,這種方法廣泛用于跟蹤器的性能評估;DP為預測目標邊框中心與真實目標邊框中心誤差小于某一閾值的幀數(shù)占該視頻總幀數(shù)的比例,其中閾值一般取20 個像素;AUC 為成功率曲線與坐標軸圍成的面積,成功率是指真實邊框與預測邊框的IoU 在不同閾值下視頻幀數(shù)的總占比。
3.2.1 OTB測試集實驗結(jié)果
本文選取5個具有代表性的跟蹤算法在OTB 系列數(shù)據(jù)集上進行對比實驗,包括高效卷積操作跟蹤算法ECO(Efficient Convolution Operators for tracking)[24]、多特征融合目標跟蹤算法Staple(Sum of Template And Pixel-wise LEarners)[25]、空間正則判別相關濾波器(Spatially Regularized Discriminative Correlation Filters,SRDCF)跟蹤算法[26]、基于全卷積孿生網(wǎng)絡目標跟蹤算法(SiamFC)和基于孿生區(qū)域推薦網(wǎng)絡的高性能單目標跟蹤算法(SiamRPN)。其中ECO 是目前基于相關濾波的最優(yōu)秀跟蹤算法。由于SiamFC 算法和SiamRPN 算法都需要進行離線訓練,為了保證對比的公平性,SiamFC、SiamRPN算法以及本文算法都在相同實驗環(huán)境下進行離線訓練;在測試階段,所有算法的超參設置均采用原文獻中提供的默認參數(shù),最大化還原算法的性能。
OTB50 測試集上的距離精度和成功率實驗結(jié)果如圖5 所示,結(jié)果表明本文算法在DP 和AUC 性能指標上均優(yōu)于SiamRPN 算法,分別提升了3%,也優(yōu)于現(xiàn)階段最優(yōu)秀的基于相關濾波器的算法——ECO,在DP和AUC性能指標上分別提升1%,均優(yōu)于對比結(jié)果中其他算法。
OTB100 測試集上的距離精度和成功率實驗結(jié)果如圖6所示,結(jié)果表明本文算法在DP 和AUC 性能指標上均優(yōu)于SiamRPN 算法,DP 和AUC 分別達到0.86 和0.64,與SiamRPN算法相比均提升了3%。本文算法具有和ECO 同樣優(yōu)秀的跟蹤性能,均優(yōu)于其他對比算法。
3.2.2 與SiamRPN算法對比實驗結(jié)果
為進一步驗證本文算法的有效性,選取VOT2016、VOT2018 和TC128 測試視頻集進行實驗,給出一次性評估曲線(OPE),如圖7~9所示。
圖5 OTB50測試集上的OPE結(jié)果曲線Fig.5 OPE curves on OTB50 test set
圖6 OTB100測試集上的OPE結(jié)果曲線Fig.6 OPE curves on OTB100 test set
圖7~9是本文算法和SiamRPN 算法在各個視頻測試集的OPE 對比結(jié)果。在VOT2016 測試視頻集中(圖7),本文算法的DP 和AUC 分別為0.69 和0.51,比SiamRPN 的DP 有7%的提升,AUC 有5%的提升;在VOT2018 測試視頻集中(圖8),本文算法比SiamRPN 在DP 和AUC 上均有3%的提升;在TC128 測試視頻集中(圖9),本文算法比SiamRPN 在DP 和AUC 上均有4%的提升。綜合以上各個視頻測試集的對比結(jié)果可以看出,相較于SiamRPN 算法,本文算法在性能指標上有明顯的提升,說明聯(lián)合優(yōu)化的方式可以增強分類網(wǎng)絡與邊框回歸網(wǎng)絡間的耦合性,使得模型預測的最高分類分數(shù)與最佳IoU 邊框指向同一預測邊框,從而保證算法每次選擇最佳預測邊框,提升跟蹤算法的魯棒性。
圖7 VOT2016測試集上的OPE結(jié)果曲線Fig.7 OPE curves on VOT2016 test set
圖8 VOT2018測試集上的OPE結(jié)果曲線Fig.8 OPE curves on VOT2018 dataset
圖9 TC128測試集上的OPE結(jié)果曲線Fig.9 OPE curves on TC128 test set
本文算法在離線訓練階段聯(lián)合優(yōu)化分類網(wǎng)絡和邊框回歸網(wǎng)絡,使得分類置信分數(shù)最高的邊框?qū)倪吙蚓纫彩亲罡叩?。為了驗證聯(lián)合優(yōu)化能夠提升最終算法的跟蹤性能,從OTB100 數(shù)據(jù)集中選取3 個具有各種跟蹤難點的視頻序列,展示本文算法與SiamRPN 算法的預測結(jié)果,每種算法選取分類分數(shù)前三的預測邊框進行展示。圖10~12中,IoU 表示預測邊框與真實邊框的交并比,其值越大表示邊框預測越準確,實線矩形框表示分類分數(shù)最大的預測框,虛線矩形框表示分類分數(shù)次大的預測框,點線矩形框表示分類分數(shù)第三大的預測框。
圖10 是Boy 視頻序列截圖,圖中男子在走廊中邊跳邊變換肢體動作,整個運動過程中這名男子的人體姿態(tài)變化較大。由圖可以看出,本文算法和SiamRPN 都可以較好地預測當前目標的邊框信息。SiamRPN 預測結(jié)果中最高分類分數(shù)和最佳IoU 不是同一個位置上的預測邊框,在第244幀圖像上最高分類分數(shù)指向?qū)嵕€矩形框,而最佳IoU 指向虛線矩形框;本文算法預測結(jié)果中最高分類分數(shù)和最佳IoU 均指向?qū)嵕€矩形框,同時本文算法最佳IoU 值為0.78,比SiamRPN 的0.74 大。與SiamRPN 相比,本文算法不僅能夠保持分類任務與邊框回歸任務的一致性,對人體姿態(tài)變化也更加魯棒。
圖10 Boy視頻序列上的結(jié)果Fig.10 Results on Boy video sequence
圖11是Coke視頻序列上的實驗結(jié)果,圖中人手持可樂罐在臺燈下和綠植中來回穿梭,在第6 幀和第253 幀時發(fā)生遮擋,其中第253幀的遮擋情況更嚴重。由圖11可以看出,本文算法和SiamRPN 估計的目標中心與真實的目標中心均有較大的誤差,但在發(fā)生大面積遮擋情況時,SiamRPN 只能在可見的區(qū)域預測出可樂罐的邊框信息,而本文算法會根據(jù)可樂罐的部分邊緣信息預測出整體的邊框信息。與SiamRPN 相比,本文算法在第253 幀時最大分類分數(shù)對應著實線矩形框,預測出可樂罐的整體邊框,更加準確,而SiamRPN 對應虛線矩形框,同時IoU 值為0.59,也比SiamRPN 的0.44 大。因此,當目標被部分遮擋時,本文算法因聯(lián)合優(yōu)化可以保證最大分類分數(shù)和最佳IoU 邊框的同一性,同時也能提升算法對目標被遮擋時的魯棒性。
圖12 為SUV(Sport Utility Vehicle)視頻序列上截圖,圖中有一輛SUV 在復雜環(huán)境下行駛,在第47幀時SUV 部分車身在視線之外和第774幀時SUV 部分車身被遮擋。當SUV 部分車身不可見時,本文算法和SiamRPN 均只能在可見區(qū)域預測出SUV 的邊框信息。對于第774 幀中SUV 被遮擋這一情況,SianRPN 預測的虛線和實線矩形框的IoU 值差不多,但是該算法對于較小IoU 值邊框的預測分類分數(shù)為0.99,最佳邊框?qū)姆诸惙謹?shù)為0.96,導致分類結(jié)果與邊框回歸結(jié)果不一致。本文算法預測最大分類分數(shù)和最佳邊框IoU 都為實線矩形框,預測分數(shù)為0.99,最大IoU 為0.74,優(yōu)于SiamRPN 的0.71。目標部分區(qū)域出視線或者被遮擋會造成目標的不完整性,影響提取的特征,本文算法仍可以輸出具有強聯(lián)系的分類分數(shù)和邊框,使得最大分類分數(shù)和最佳邊框指向同一預測區(qū)域。
圖11 Coke視頻序列上的結(jié)果Fig.11 Results on Coke video sequence
圖12 SUV視頻序列上的結(jié)果Fig.12 Results on SUV video sequence
本文對SiamRPN 算法的分類任務和邊框回歸任務進行深入分析,在此基礎上提出聯(lián)合優(yōu)化的方法,對分類網(wǎng)絡和邊框回歸網(wǎng)絡進行聯(lián)合優(yōu)化。本文提出的聯(lián)合優(yōu)化方法能在不損失在線跟蹤速度的情況下,提升算法的邊框預測精度。實驗結(jié)果表明,本文算法的性能達到或優(yōu)于其他對比算法。由于基于孿生網(wǎng)絡跟蹤算法僅使用初始幀目標特征,無法及時捕捉目標的外觀變化,在后續(xù)的研究工作中,會考慮結(jié)合在線更新策略,進一步提升算法的跟蹤性能。