張 樂,韓 華,王春媛,馬才良,王婉君,湯辰玉
(上海工程技術大學 電子電氣工程學院,上海 201620)
視覺目標跟蹤是計算機視覺領域一個重要的研究方向?,F(xiàn)已廣泛地應用在公共安防[1-5]、自動跟蹤[6]等方面。目標跟蹤旨在當給定視頻序列的第一幀的目標邊界框的情況下,利用跟蹤算法在視頻序列的后續(xù)幀中定位該目標的準確位置,并同樣使用邊界框在視頻幀中進行目標的框定。盡管目標跟蹤領域在多方面探討中已經取得了可觀進展,然而在一些類似于光照變化、遮擋、背景干擾等場景中也亟待更深入系統(tǒng)的研究。
近年來,在目標跟蹤方面涌現(xiàn)出眾多的研究成果。尤其是基于暹羅(Siamese)網絡[7]的跟蹤算法,憑借著平衡的跟蹤準確性和速度獲得了相關學者極大的關注。暹羅網絡的思想是將目標跟蹤任務視為一個相似性匹配問題。具體來說,基于相似性匹配的跟蹤方法是以端到端的方式從大量的數(shù)據(jù)集中離線學習一個通用的相似性匹配函數(shù),訓練目標是使同一個物體的相似性最大,不同物體的相似性最小。
盡管基于暹羅網絡的跟蹤算法已經取得不小進展,然而仍有改善和可提升空間。一方面,一些跟蹤算法僅僅采用有限的數(shù)據(jù)增強策略,這對于訓練一個魯棒性的跟蹤器是不夠的。因此,有必要釋放訓練數(shù)據(jù)的潛力來訓練跟蹤算法。另一方面,基于暹羅網絡的一般跟蹤方法僅僅使用特征提取網絡的最后一層的輸出作為最終提取的特征圖。這會導致跟蹤器無法擁有比較強的判別能力。
為了解決上述問題,本文提出了一種特征聚合的模型預測目標跟蹤方法。在模型層面,本文提出的多層特征聚合策略可以獲得更加高質量的特征圖。
本文的跟蹤系統(tǒng)框架如圖1 所示。使用本文改進的特征提取網絡進行特征的提取,并對特征提取網絡的最后2 個網絡層進行特征聚合操作,以獲得更加具有判別力的特征圖。隨后這些特征圖進入模型預測模塊中進行目標的在線更新操作。再將更新得到的模板作為一個卷積核與測試集的特征圖進行卷積操作。最終,模型輸出待跟蹤目標的具體位置信息。
圖1 本文的跟蹤系統(tǒng)框架Fig. 1 The tracking system framework of this paper
為了提高定位的準確性、降低計算量以及完成后續(xù)的多層特征聚合操作,本文對原始的特征提取網絡ResNet-50[8-9]進行了如下的改進:
(1)由于卷積操作中較大的步幅會降低定位的準確性,因此將特征提取網絡中的第三和第四個卷積層的步幅大小從2 設為1。
(2)由于特征聚合操作的網絡層需要相同的通道數(shù),故將第四個卷積層的通道數(shù)從2 048 變?yōu)? 024。
(3)在第三和第四層的后面分別加上一個卷積核大小為1×1 的卷積層來分別提取2 個層的特征,并命名為Conv3 和Conv4。
改進的ResNet-50 層級結構見表1。
表1 改進的ResNet-50 層級結構Tab.1 Improved ResNet-50 hierarchical structure
在目標跟蹤領域,許多研究已經證明淺層的特征圖包含目標更多的位置信息,深層的特征圖包含目標更多的語義信息。這些語義信息對目標外觀差異有著較好的不變性。
在目前研究發(fā)展基礎上,本文提出了一個多層特征聚合策略,該策略將特征提取網絡的最后2 個特征提取層進行聚合來獲得更加具有判別力的特征圖。
本文提出的多層特征聚合框架圖如圖2 所示。由圖2 可看到,Conv3 和Conv4 分別用來提取卷積塊3(Block3)和卷積塊4(Block4)的特征。因此,一共可以獲得2 張?zhí)卣鲌D。
圖2 多層特征聚合框架圖Fig. 2 Multi-layer feature aggregation framework diagram
為了描述每張?zhí)卣鲌D的波動水平和感興趣目標的置信度,本文使用公式(1)來計算每一個特征圖的平均峰相關能量(average peak-to-correlationenergy):
其中,是該特征圖中的最大值;是該特征圖的最小值;Vw,h是矩陣V中第w行第h列對應的值;E是算術平均算子。
當計算APCE值后,每張?zhí)卣鲌D的權重可以由式(2)計算求得:
當計算αi后,使用式(3)進行特征圖的聚合:
其中,Ωi為Conv(i)輸出的特征圖。
本文對算法的訓練和評估參數(shù)進行了設置,具體參數(shù)如下。
(1)訓練方案:使用GOT10k[10]和LaSOT[11]數(shù)據(jù)集的訓練集部分作為數(shù)據(jù)集,并從這2 個數(shù)據(jù)集中采樣20 000個視頻序列作為訓練數(shù)據(jù)集。訓練階段的初始學習率為0.001。優(yōu)化器ADAM 每15 個世代(epoch)衰減0.2。動量設置為0.9,一共訓練50 個世代,整個訓練的時長大約為24 h。
(2)評估設計:本算法使用VOT2018[12]和UAV123[13]作為評估數(shù)據(jù)集并使用PySOT 作為評估平臺。首先生成本算法的.txt 格式跟蹤結果,隨后通過PySOT 平臺對不同的評估數(shù)據(jù)集進行評估,最終生成本文算法與不同跟蹤算法的比較結果。
為了量化所提出算法的跟蹤表現(xiàn),本文分別在VOT2018 以及UAV123 評估數(shù)據(jù)集上進行評測,并與其他具有競爭力的跟蹤算法進行對比分析。
2.2.1 VOT2018 評估分析
VOT2018 由60 個包含不同屬性的RGB 視頻序列組成。與大多數(shù)研究者相似,本文使用VOT 中的準確度(A)、魯棒性(R)和平均期望均值(EAO)來評估不同的跟蹤算法。EAO作為一個跟蹤算法最終的評估指標。通常EAO值越大,該跟蹤算法的性能越好。表2 為本文算法與4 個具有競爭力的跟蹤算法的對比結果。
表2 VOT2018 上不同跟蹤算法的比較Tab.2 Comparison of different tracking algorithms on VOT2018
由表2 分析可知,本文算法在對比的4 個跟蹤算法上表現(xiàn)居于第一。其僅僅在準確率上比SiamRPN++算法低了1.17%,但在魯棒性和EAO指標上均優(yōu)于對比的其他跟蹤算法。而且本文的算法在EAO指標上比第二名SiamRPN ++算法高了3.86%,比基線算法DiMP(本文使用LaSOT 和GOT10k 的訓練集訓練DiMP 算法得出的結果)高了4.88%。這些結果充分證明了本算法的優(yōu)勢。
2.2.2 UAV123 評估分析
UAV123 數(shù)據(jù)集包含123 個由低空無人機采集的視頻序列。根據(jù)UAV123 的評估標準,本文采用成功圖(success plot)和精確圖(precision plot)來對不同的算法進行比較。圖3 為不同跟蹤算法在UAV123 上的成功率對比圖和精確度對比圖。圖4為不同跟蹤算法在UAV123 數(shù)據(jù)集上12 個不同跟蹤屬性的對比結果圖。
由圖3 分析可知,本文所提出的算法在成功率和精確率方面均取得第一的位置。在成功率方面,DiMP 為0.604,本文的算法成功率為0.631,超過了第二名DiMP 算法4.5%。在精確率方面,本文的算法為0.846,超過了第二名DiMP 算法4.4%。這些結果充分說明了本文算法具有優(yōu)秀的跟蹤性能。
圖3 UAV123 上不同跟蹤算法的比較Fig. 3 Comparison of different tracking algorithms on UAV123
由圖4 可看到,本文的算法在UAV123 所有8 個跟蹤屬性上的表現(xiàn)均高于基線算法,且有11 個跟蹤屬性都取得了第一的位置。這些結果說明了本文所提出的數(shù)據(jù)增強策略和特征聚合策略的有效性。
圖4 UAV123 不同屬性的跟蹤結果圖Fig. 4 Graph of tracking results for different attributes on UAV123
為了獲得更加魯棒性的特征圖、從而在模型預測器中進行具有判別力的跟蹤表現(xiàn)研究,本文分別從數(shù)據(jù)和模型兩個方面進行改進。在數(shù)據(jù)方面,新引入了顏色抖動以及自定義了運動模糊數(shù)據(jù)增強方式;在模型方面,首先對特征提取網絡ResNet-50 進行了改進,然后在ResNet-50 的最后2 個特征提取層進行了特征聚合操作。最終訓練的跟蹤模型分別在VOT2018 和UAV123 數(shù)據(jù)集中進行了評估。在VOT2018 上,本文的算法取得了第一的位置,并在EAO指標上比第二名算法高出了3.86%,比基線算法DiMP 高出了4.88%。在UAV123 上,本文的算法同樣為最好的水平,同時在準確度和精確度上比第二名算法分別提高了4.5%,4.4%。這些結果充分說明了本文所提出算法在跟蹤方面有著更好的表現(xiàn)。