忻 瑤,韓 華,王春媛,熊雨滋,許瑩瑩
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
視覺目標(biāo)跟蹤旨在當(dāng)給定視頻序列的第一幀的目標(biāo)邊界框的情況下,利用跟蹤算法在視頻序列的后續(xù)幀中同樣以邊界框的形式自動定位該目標(biāo)的準(zhǔn)確位置。作為計算機視覺領(lǐng)域一個重要的研究方向,現(xiàn)已廣泛地應(yīng)用在視頻公共安防[1-5]、自動駕駛[6]、無人機[7]、機器人[8]等方面。
近年來,很多學(xué)者已經(jīng)在深度學(xué)習(xí)目標(biāo)跟蹤方面取得了可觀的研究成果。2016 年,Bertinetto 等人[9]以端到端的方式成功訓(xùn)練了第一個全卷積暹羅網(wǎng)絡(luò)并命名為SiamFC,該算法不僅推理速度可達(dá)實時,同時表現(xiàn)出優(yōu)良的跟蹤性能。2018 年,Li 等人[10]在SiamFC 的基礎(chǔ)上將目標(biāo)檢測中的區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)[11]引入到目標(biāo)跟蹤領(lǐng)域,RPN 模塊可以使跟蹤器回歸位置、形狀,省掉多尺度測試環(huán)節(jié),所提出的SiamRPN 算法進(jìn)一步提高了跟蹤速度(160 FPS),并且擁有更高的跟蹤準(zhǔn)確度和精確度。2019 年,Li 等人[12]將特征提取網(wǎng)絡(luò)替換成層數(shù)更深、擬合能力更強的ResNet[13]網(wǎng)絡(luò),成功訓(xùn)練了以ResNet 為驅(qū)動的SiamRPN++。然而,這些Siamese 類跟蹤算法僅僅利用了目標(biāo)的外觀信息,未將背景考慮進(jìn)去,并且未對目標(biāo)模板進(jìn)行在線更新。當(dāng)遇到復(fù)雜背景或目標(biāo)發(fā)生嚴(yán)重畸變的情況下,Siamese 類算法很容易發(fā)生跟蹤漂移的情況。2019 年,Bhat 等人[14]通過聯(lián)合目標(biāo)的外觀和背景信息并通過在線更新的方式獲得具有判別力的目標(biāo)模板,不僅實現(xiàn)了實時的跟蹤速度,而且所提出的DiMP 算法在多個評估數(shù)據(jù)集上均取得第一的位置。
盡管這些跟蹤算法已經(jīng)取得了很大進(jìn)展,不斷刷新跟蹤表現(xiàn),然而仍然有不少缺陷。一方面,DiMP 算法僅僅采取通用的數(shù)據(jù)增強策略,比如任意裁剪、旋轉(zhuǎn)等,跟蹤算法只能學(xué)到有限的數(shù)據(jù)信息。因此,有必要做更適合目標(biāo)跟蹤的數(shù)據(jù)增強來釋放數(shù)據(jù)的潛力。另一方面,DiMP 算法僅僅使用特征提取網(wǎng)絡(luò)的最后一層的輸出作為目標(biāo)的特征圖,未能使特征圖包含充分的語義和位置信息。
為了提高DiMP 算法在面對目標(biāo)遮擋、背景干擾場景下的跟蹤表現(xiàn),本文在數(shù)據(jù)預(yù)處理階段設(shè)計了一個高效的任意灰度塊替換策略,在特征提取網(wǎng)絡(luò)后面添加了一個多尺度融合模塊。具體貢獻(xiàn)如下:
(1)設(shè)計了一個任意灰度塊替換策略使數(shù)據(jù)樣本模擬真實場景中的目標(biāo)遮擋、光線變化的情況,增加樣本的多樣性,降低遮擋、光線變化導(dǎo)致的模型過擬合的風(fēng)險。
(2)設(shè)計了一個多尺度特征融合模塊,該模塊對特征提取網(wǎng)絡(luò)提取的不同階段的特征圖進(jìn)行正向和反向的多尺度融合,得到語義信息和位置信息更強的目標(biāo)特征圖。
(3)在主流的評估數(shù)據(jù)集上進(jìn)行評測分析,驗證了改進(jìn)的DiMP 算法在遮擋、背景干擾場景下有更好的跟蹤表現(xiàn)。
為了提升DiMP 算法在遮擋、背景干擾場景下的跟蹤表現(xiàn),本文探索并改進(jìn)了DiMP 算法[15]。改進(jìn)的DiMP 算法由5 部分組成,如圖1 所示。圖1中,第1 部分是輸入端,由訓(xùn)練分支和測試分支組成。輸入到訓(xùn)練分支的圖片為經(jīng)過本文任意灰度塊替換策略后的訓(xùn)練樣本;第2 部分是特征提取網(wǎng)絡(luò)ResNet-50,用來提取跟蹤目標(biāo)各個階段的多尺度特征圖;第3 部分是本文提出的多尺度融合模塊,該模塊由上采樣子模塊和下采樣子模塊組成,用來對特征提取網(wǎng)絡(luò)輸出的各個階段特征圖進(jìn)行正向和反向的多尺度特征融合,得到語義信息和位置信息更加充分的特征圖;第4 部分為模型預(yù)測模塊,目標(biāo)特征圖和對應(yīng)的邊界框真值同時輸入到該模塊中進(jìn)行不斷在線更新,得到目標(biāo)模板;第5 部分為互相關(guān)模塊,目標(biāo)模板作為卷積核與經(jīng)過測試分支得到的特征圖進(jìn)行互相關(guān)操作,得到目標(biāo)的置信度預(yù)測。
圖1 算法框架圖Fig. 1 The pipeline of the algorithm
在實際的跟蹤中,目標(biāo)可能會出現(xiàn)部分遮擋、光線變化等影響跟蹤的情況。因此,本文創(chuàng)新性地設(shè)計了一個任意灰度塊替換策略。該策略隨機選擇圖像中的一個矩形區(qū)域,并用相應(yīng)灰度圖像中相同的矩形區(qū)域進(jìn)行像素替換,從而生成灰度塊替換后的訓(xùn)練樣本。
在該方法中,進(jìn)行任意灰度塊替換的概率為p,隨機生成的矩形區(qū)域與圖像的面積之比的最小值和最大值分別為Smin和Smax,矩形區(qū)域的面積Sr的取值范圍為Rand(Smin,Smax)× S。γ為確定矩形形狀的系數(shù),取值范圍為[γ1,γ2],xr和yr為矩形左上角的位置坐標(biāo),當(dāng)矩形的坐標(biāo)超過圖像范圍,需重新確定矩形的位置坐標(biāo)。
該策略可以很好模擬自然場景中由于圖像分辨率低或者光線變化導(dǎo)致的顏色變化問題,同時模擬目標(biāo)遇到的部分遮擋問題。并且,該策略可以在保留圖片結(jié)構(gòu)信息的基礎(chǔ)上增加樣本多樣性。設(shè)計的任意灰度塊替換策略效果如圖2 所示。圖3 為任意灰度塊替換策略在網(wǎng)絡(luò)中的使用圖。
圖2 任意灰度塊替換策略效果圖Fig. 2 Arbitrary gray block replacement strategy renderings
圖3 任意灰度塊替換策略在網(wǎng)絡(luò)中的使用圖Fig. 3 Diagram of arbitrary gray-scale block replacement strategy in networks
為了獲得融合目標(biāo)語義信息與位置信息的特征圖,本文在特征提取網(wǎng)絡(luò)后設(shè)計了一個多尺度特征融合模塊。該多尺度特征融合模塊由上采樣子模塊和下采樣子模塊組成。
研究中給出的多尺度特征融合模塊如圖4 所示。特征提取網(wǎng)絡(luò)對預(yù)處理后的訓(xùn)練樣本進(jìn)行特征提取,生成各階段的目標(biāo)特征圖,即{C2,C3,C4,C5};上采樣子模塊通過上采樣和正向連接操作將特征提取網(wǎng)絡(luò)的特征圖進(jìn)行自頂向下的多尺度融合,C5經(jīng)1×1×256 卷積操作得到T5,隨后T5經(jīng)過二倍上采樣的結(jié)果與相鄰的下層特征圖C4經(jīng)過1×1×256 卷積操作得到的結(jié)果進(jìn)行張量相加得到T4。T3和T2的獲取流程同T4,最終上采樣子模塊得到{T2,T3,T4,T5},其中T2、T3和T4均融合了本層和更高層的信息。隨后,下采樣子模塊通過下采樣和反向鏈接操作將{T2,T3,T4,T5} 進(jìn)行自底向上的多尺度融合,T2經(jīng)過1×1×256 卷積得到D2,D2經(jīng)過兩倍下采樣與相鄰的上層特征圖T3進(jìn)行張量相加得到D3,D4和D5的獲取流程同D3,最終下采樣得到語義信息和位置信息更強的{D2,D3,D4,D5},其中D5充分融合了多尺度特征圖中的語義信息和位置信息,可作為多尺度特征融合模塊最終的輸出特征圖。
圖4 多尺度特征融合模塊Fig. 4 Multi-scale feature fusion module
本文對算法的訓(xùn)練和評估參數(shù)進(jìn)行了設(shè)置,具體參數(shù)如下。
(1)訓(xùn)練方面:本文使用 GOT10k[16]和LaSOT[17]共2 個數(shù)據(jù)集,并從這2 個數(shù)據(jù)集中隨機采樣20 000 個視頻序列作為訓(xùn)練數(shù)據(jù)集。采用PyTorch 深度學(xué)習(xí)框架,訓(xùn)練階段的初始學(xué)習(xí)率為0.001,優(yōu)化器Adam 每15 個世代(epoch)衰減0.2,動量設(shè)置為0.9,p的值設(shè)為0.4,一共訓(xùn)練50 個世代,通過RTX 1080ti 顯卡進(jìn)行訓(xùn)練,整個訓(xùn)練的時長大約為24 h。
(2)評估方面:本算法使用VOT2018[18]和UAV123[19]作為評估數(shù)據(jù)集,并使用商湯開源的PySOT 平臺進(jìn)行評估。這里先由不同的跟蹤器生成.txt格式跟蹤邊界框坐標(biāo),隨后通過PySOT 平臺對不同的跟蹤算法進(jìn)行評估,最終生成本文改進(jìn)DiMP算法與多個不同跟蹤算法的比較結(jié)果。
2.2.1 VOT2018 評估分析
VOT2018 由60 個包含不同屬性的RGB 視頻序列組成。與大多數(shù)研究者相似,本文使用VOT 中的準(zhǔn)確度(Accuracy,A)、魯棒性(Robustness,R)和期望平均覆蓋率(Expected Average Overlap,EAO)來評估不同的跟蹤算法。其中,準(zhǔn)確度的定義為預(yù)測框與真實框之間的交并比(Intersection-over-Union,IoU)。魯棒性定義為跟蹤算法在一個視頻序列中跟蹤失敗的次數(shù),單幀準(zhǔn)確度的值低于設(shè)定的閾值即視為失敗。期望平均覆蓋率作為評估一個跟蹤算法的最終指標(biāo),按照該指標(biāo)的大小進(jìn)行排名。通常期望平均覆蓋率值越大,表明該跟蹤算法的性能越好。研究推得的數(shù)學(xué)定義式可表示為:
其中,Ns為一個視頻總幀數(shù),φi為第i幀的準(zhǔn)確度。
表1 為本算法與4 個其他具有競爭力的算法的對比結(jié)果。通過表1 可以看出,本文改進(jìn)的DiMP算法在性能表現(xiàn)上要優(yōu)于做基準(zhǔn)對比的4 個跟蹤算法。在準(zhǔn)確率指標(biāo)上,比第二名算法SiamRPN++算法高了1.17%,比DiMP 算法高了1.68%。在魯棒性指標(biāo)上,比DiMP 算法高了2.61%。而且改進(jìn)的DiMP 算法在EAO指標(biāo)上比第二名DiMP 算法高了1.36%,比SiamRPN++算法高了7.73%。這些結(jié)果充分證明了改進(jìn)的DiMP 算法有著更好的跟蹤表現(xiàn)。
表1 VOT2018 上不同跟蹤算法的比較Tab.1 Comparison of different tracking algorithms on VOT2018
2.2.2 UAV123 評估分析
UAV123 數(shù)據(jù)集包含123 個由低空無人機采集的視頻序列。本文采用成功圖(successplot)和精確圖(precisionplot)來對不同的算法進(jìn)行比較。
圖5 為不同跟蹤算法在UAV123 上的成功率對比圖和精確度對比圖。由圖5 可以看出,本文所提出的算法在成功率和精確率方面均為最佳。在成功率方面,本文算法的成功率為0.668,超過了第二名DiMP 算法3.89%。在精確率方面,本文的算法為0.876,超過了第二名DiMP 算法3.06%。這些結(jié)果充分說明了本文算法具有優(yōu)秀的跟蹤性能。
圖5 UAV123 上不同跟蹤算法的比較Fig. 5 Comparison of different tracking algorithms on UAV123
圖6 為不同跟蹤算法在UAV123 數(shù)據(jù)集的遮擋和背景干擾跟蹤場景的對比結(jié)果圖。由圖6 可以看出,本文改進(jìn)的DiMP 算法在遮擋場景中的成功率和精確率達(dá)到了0.612 和0.828,性能大幅度超過了原DiMP 算法。同時,改進(jìn)的DiMP 算法在背景干擾場景中的成功率和精確率分別為0.521 和0.759,同樣優(yōu)于原DiMP 算法結(jié)果。
圖6 不同算法在遮擋、背景干擾場景下的表現(xiàn)Fig. 6 The performance of different algorithms in occlusion and background interference scenes
2.2.3 實際場景跟蹤分析
為了可視化本文改進(jìn)的DiMP 算法和基線算法在實際面對遮擋、背景干擾情況下的跟蹤區(qū)別,本小節(jié)采集了一段包含遮擋和背景干擾的視頻,并使用改進(jìn)DiMP 算法和原DiMP 算法進(jìn)行可視化分析,如圖7 所示。
圖7 實際的跟蹤場景分析圖Fig. 7 Actual tracking scene analysis diagram
在圖7 中,紅色框為改進(jìn)DiMP 的跟蹤結(jié)果,黃色框為原始的DiMP 算法跟蹤結(jié)果。在第5 幀目標(biāo)基本無干擾的情況下,2 個算法的跟蹤結(jié)果大體一致。當(dāng)在第138 和270 幀時,目標(biāo)遇到部分遮擋問題,可以看出,改進(jìn)的DiMP 算法可以很好地跟蹤目標(biāo),而原始的DiMP 算法的跟蹤目標(biāo)框已經(jīng)出現(xiàn)了不準(zhǔn)確的情況。另外,當(dāng)目標(biāo)在251 幀出現(xiàn)嚴(yán)重背景干擾的情況下,DiMP 算法出現(xiàn)了跟蹤漂移,而改進(jìn)DiMP 算法依然可以實現(xiàn)魯棒性的跟蹤。
本文通過提出任意灰度塊替換策略以及設(shè)計多尺度特征融合模塊,使改進(jìn)的DiMP 算法在面對遮擋和背景干擾場景中有著更加魯棒性的表現(xiàn)。下面通過消融實驗分析所設(shè)計的策略和模塊的影響,并在VOT2018 和UAV123 數(shù)據(jù)集上分別進(jìn)行評估,結(jié)果見表2。
在表2 中,DiMP 表示原DiMP 算法,DiMP +灰度塊替換表示采用任意灰度塊替換策略,DiMP +多尺度融合表示多尺度融合模塊,改進(jìn)DiMP 算法表示采用任意灰度塊替換策略和多尺度融合模塊后的DiMP 算法。S -遮擋、P -遮擋表示在遮擋和場景下的成功率和精確率,S -背景干擾、P -背景干擾表示在背景干擾場景下的成功率和精確率。
表2 消融實驗分析Tab.2 Analysis of ablation experiments
可以看出,任意灰度塊替換策略和多尺度特征融合模塊分別在VOT2018 數(shù)據(jù)集上都有小幅的性能提升,在UAV123 的遮擋和背景干擾場景下的成功率和精確率均有所提高。另外,相較于任意灰度塊替換策略,多尺度特征融合模塊對遮擋和背景干擾場景有著更大的貢獻(xiàn)。這些結(jié)果說明了本文改進(jìn)的DiMP 算法在遮擋和背景干擾方面有著更好的跟蹤精度。
本文針對DiMP 算法在遮擋和背景干擾場景下表現(xiàn)不佳的問題,在數(shù)據(jù)預(yù)處理階段設(shè)計了一個任意灰度塊替換策略來應(yīng)對光照變化和遮擋問題,以及在特征提取網(wǎng)絡(luò)后設(shè)計了一個多尺度融合模塊使各個階段的特征圖進(jìn)行充分的融合。訓(xùn)練的跟蹤模型在VOT2018 和UAV123 數(shù)據(jù)集上均取得總體表現(xiàn)第一的位置。并且在UAV123 的遮擋和背景干擾場景下均優(yōu)于其他跟蹤算法,這些結(jié)果充分說明了本文改進(jìn)的DiMP 算法對目標(biāo)遮擋和背景干擾場景有著更好的表現(xiàn)。