国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度神經(jīng)網(wǎng)絡的目標跟蹤算法綜述

2024-04-18 22:15:56郭凡盧鉉宇李嘉怡王紅梅
航空兵器 2024年1期
關鍵詞:目標跟蹤卷積神經(jīng)網(wǎng)絡深度學習

郭凡 盧鉉宇 李嘉怡 王紅梅

摘 要:????? 目標跟蹤是根據(jù)視頻序列中目標的前續(xù)信息, 對目標的當前狀態(tài)進行預測。 深度學習在目標跟蹤領域逐漸廣泛應用, 本文闡述了目標跟蹤算法和深度學習的發(fā)展背景, 對傳統(tǒng)目標跟蹤進行了回顧, 根據(jù)不同的網(wǎng)絡任務功能, 將基于深度學習的目標跟蹤算法分為: 基于分類的深度學習目標跟蹤算法、 基于回歸的深度學習目標跟蹤算法、 基于回歸與分類結合的目標跟蹤算法, 并選取了具有代表性的目標跟蹤算法進行實驗, 對比不同算法之間的特點; 最后對目前基于深度學習的目標跟蹤方法存在的問題進行分析, 對未來發(fā)展方向進行展望。 實驗結果證明, 深度孿生跟蹤網(wǎng)絡在精度與速度上均占優(yōu), 成為當前主流的跟蹤算法框架。

關鍵詞:???? 目標跟蹤; 深度學習; 神經(jīng)網(wǎng)絡; 卷積神經(jīng)網(wǎng)絡; 孿生神經(jīng)網(wǎng)絡; 生成對抗網(wǎng)絡

中圖分類號:??? ??TJ760; TP273

文獻標識碼:??? A

文章編號:??? ?1673-5048(2024)01-0001-12

DOI: 10.12132/ISSN.1673-5048.2022.0226

0 引? 言

目標跟蹤作為計算機視覺領域十分重要的分支, 其技術被廣泛應用于軍事制導、 自動駕駛、 社會安防等各個領域。 在實際應用中存在諸多挑戰(zhàn), 如: 相似目標干擾、 目標形變較大、 目標快速移動等, 因此在面對實際干擾因素時, 提高目標跟蹤的精度與實時性是使其更加廣泛應用于各領域的關鍵所在。

目標跟蹤的一般執(zhí)行步驟可描述為: 首先對當前目標的候選樣本進行特征提取, 并基于目標的特征信息與候選樣本的特征信息進行對比與匹配, 由觀測模型選定最終跟蹤結果[1]。

傳統(tǒng)目標跟蹤方法主要使用手工特征, 由觀測模型的不同劃分為兩類: 生成式模型方法、 判別式模型方法。

生成式模型方法通過搜索當前圖像中與目標最相似的區(qū)域作為跟蹤結果實現(xiàn)目標跟蹤。 Comaniciu等人[2]提出用一個各向同性的核在空域處理目標, 這樣就可以定義出一個在空域上平滑的相似函數(shù), 目標定位問題就簡化為尋找該相似函數(shù)的低谷。 Kwon等人[3]提出一種基于視覺跟蹤分解和采樣的跟蹤框架, 該框架從跟蹤器中選擇最優(yōu)混合模型, 從多角度特征對目標進行魯棒跟蹤; 在跟蹤過程中采用更優(yōu)的跟蹤器代替當前跟蹤器, 并且通過增加更優(yōu)跟蹤器或舍棄次優(yōu)跟蹤器來改變跟蹤器的總數(shù)量。 Wang等人[4]提出基于稀疏原型的在線目標跟蹤算法, 將傳統(tǒng)的PCA和稀疏表示結合。 生成式模型方法主要尋找目標的最相似區(qū)域, 但容易忽略背景信息。

判別式模型方法通過判別函數(shù)搜索決策邊界, 將目標歸為前景, 并與其他作為背景的非目標區(qū)域區(qū)分開, 以達到跟蹤的目的。 此類方法大量使用了機器學習方法。 文獻[5]將基于光流法的跟蹤和SVM結合實現(xiàn)長時跟蹤; 基于特征選擇框架的在線boosting[6]及其與半監(jiān)督學習結合可以解決更多樣的實時跟蹤問題; Saffari等人[7]結合在線bagging和隨機森林算法, 提出在線決策樹生長的方法, 實現(xiàn)更加穩(wěn)定的跟蹤效果; 文獻[8]使用線性核函數(shù)結合混合特征通道實現(xiàn)了復雜情況下的線性相關濾波跟蹤。

綜上所述, 目前傳統(tǒng)的目標跟蹤算法已取得較大發(fā)展, 但由于手工特征無法全面描述語義信息, 因此在目標產(chǎn)生較為顯著的外觀變化時, 傳統(tǒng)目標跟蹤算法的精度無法滿足實際需求。

由于深度神經(jīng)網(wǎng)絡具有強大的語義信息提取能力及泛化能力, 深度學習方法逐漸在跟蹤領域被廣泛使用并取得了諸多顯著成績。?? 因此, 本文根據(jù)網(wǎng)絡對目標跟蹤任務的理解與求解方式, ?將基于深度學習的目標跟蹤方法分為: 基于分類的深度學習目標跟蹤、 基于回歸的深度學習目標跟蹤、 基于分類和回歸結合的目標跟蹤。

目前已存在一些基于深度學習的目標跟蹤算法綜述, 例如Marvasti-Zadeh等人[9]從網(wǎng)絡結構、 網(wǎng)絡訓練方式、 網(wǎng)絡功能、 網(wǎng)絡輸出等多個不同的角度對當前的深度學習目標跟蹤算法進行介紹; Fiaz等人[10]將當前的目標跟蹤算法分為基于相關濾波與非相關濾波兩類進行介紹, 并將以上兩類按照不同的網(wǎng)絡框架結構分別對不同的目標跟蹤算法進行進一步的分類介紹, 此外提出新的目標跟蹤數(shù)據(jù)集OTTC, 并在該數(shù)據(jù)集上進行不同算法之間的對比實驗; Javed等人[11]主要進行了對基于判別式相關濾波與基于深度孿生網(wǎng)絡的目標跟蹤算法的對比研究, 并在多個數(shù)據(jù)集上分析了判別式相關濾波與深度孿生跟蹤網(wǎng)絡的性能評估; Soleimanitaleb等人[12]將當前目標跟蹤算法分為基于特征、 分割、 估計、 學習的四種類別, 其中著重介紹基于學習的跟蹤算法; Han等人[13]對目標跟蹤中面臨的挑戰(zhàn)進行了分析, 著重對基于相關濾波與基于孿生網(wǎng)絡的深度目標跟蹤算法進行介紹; 同時, 也有一些對多目標跟蹤問題進行總結的綜述文章[14-15]。 本文從網(wǎng)絡功能方面更全面地對算法進行詳盡分類, 并對常用數(shù)據(jù)集及性能指標進行介紹, 此外對部分代表性算法進行實驗對比, 針對性地對當前現(xiàn)存的基于深度學習的單目標跟蹤算法進行更加全面詳盡的闡述。

1 深度神經(jīng)網(wǎng)絡

近年來, 深度學習已經(jīng)在計算機視覺領域獲得了顯著成績。 2006年, Hinton等人[16]首次提出深度學習的概念, 隨即應用于圖像處理領域, 并取得優(yōu)異效果。 AlexNet[17]包含5個卷積層和3個全連接層, 使用激活函數(shù)ReLu以及dropout策略, 在ILSVRC中AlexNet以絕對優(yōu)勢勝出, 自此深度學習開始在圖像領域被廣泛使用。 2014年Simonyan等提出VGG[18], 它是由卷積層和池化層反復疊加構成的CNN。 Szegedy等人[19]提出了GoogleNet結構, 其特點是既有縱向的網(wǎng)絡深度, 也有橫向的寬度, 即Inception結構, 使用了多個大小不同的濾波器, 再合并這些結果, 其結構如圖1所示。 He等人[20]提出了由跨層結構組成的ResNet。 該結構跳過兩個卷積層, 將輸入直接并入輸出, 從而解決了由網(wǎng)絡加深引起的梯度消失問題。

2 基于深度學習的目標跟蹤算法

2.1 基于分類的深度學習目標跟蹤

基于分類的深度學習目標跟蹤方法可分多個步驟進行, 首先, 在目標可能出現(xiàn)的位置生成若干候選框, 再由分類網(wǎng)絡計算候選框為目標的分支, 最后, 認定跟蹤結果為網(wǎng)絡評分最高的候選框。 由于分類任務并非是直接面向跟蹤框的位置, 而是通過分類間接尋找跟蹤框的位置, 因此本文基于該問題導向出發(fā), 對基于分類的深度學習目標跟蹤算法進行梳理。 其主要脈絡如圖2所示。

最初使用深度神經(jīng)網(wǎng)絡進行目標跟蹤任務的Wang等人[21]提出一種利用多層自編碼網(wǎng)絡進行特征生成的深度學習跟蹤方法(DLT), 但基于全連接的網(wǎng)絡對特征的表征能力較弱。 為了加強特征的表征能力, Wang等人[22]提出一種學習分層特征的跟蹤方法, 對于給定的跟蹤序列, 通過其提出的調(diào)整模塊對預學習到的特征進行在線調(diào)整; Wang等人[23]提出一種基于全卷積神經(jīng)網(wǎng)絡的跟蹤方法; 文獻[24]提出用深度特征SRDCF[25]中的HOG特征, 從而保留SRDCF中的空域正則化, 使邊界區(qū)域的濾波系數(shù)受到一定懲罰, 背景處的響應得到明顯抑制。 相關濾波模型一般通過使用滑動窗口來確定候選區(qū)域, 在整個訓練過程中, 整個候選區(qū)域都無差別看待, 因此會導致跟蹤器的漂移, 尤其在候選區(qū)域包含復雜背景時更加嚴重。 為了解決上述問題, Cui等人[26]提出基于循環(huán)神經(jīng)網(wǎng)絡的目標周期性參與的跟蹤方法, 在跟蹤過程中得到效果較好的響應圖用于相關濾波的正則化, RTT中的RNN模型從訓練中得到, 因此在面對局部遮擋時更具魯棒性。

最初將深度神經(jīng)網(wǎng)絡應用于目標跟蹤的方法, 隨著網(wǎng)絡加深, 跟蹤精度也越好, 但加深到一定程度后, 網(wǎng)絡的加深則會帶來跟蹤框的漂移。 Danelljan等人提出的C-COT[27]結合淺層表觀信息和深層語義信息, 在頻域空間進行插值得到連續(xù)分辨率響應圖, 最終通過迭代得到最佳目標尺度和目標位置。 在迭代過程中, 最終的置信函數(shù)是通過所有特征通道中的全部濾波器的卷積響應加起來得到的, 計算量較大, 速度較慢, 因此Danelljan等人在C-COT基礎上提出ECO[28], 通過卷積因式分解減小模型維數(shù)大小、 合并簡化訓練集、 使用模型更新策略來提高跟蹤速度。 C-COT[27]和ECO[28]通過提取多分辨率深度特征圖進行插值得到空間連續(xù)分辨率特征響應圖, 因此可以實現(xiàn)對子像素的定位, 這對于特征點的跟蹤任務至關重要。 Bertinetto等人提出孿生網(wǎng)絡跟蹤方法SiamFC[29], 該網(wǎng)絡由兩個完全一樣且權值共享的分支構成, 兩分支的輸入分別為目標模板圖像和搜索圖像, 在搜索圖像中產(chǎn)生候選框, 如果目標模板圖像和搜索圖像的候選框一致, 則返回匹配分值高, YCNN[30]方法與之類似。 SiamFC作為早期孿生網(wǎng)絡的跟蹤方法, 可以滿足實時跟蹤的要求, 但精度較差且無法適應目標的尺度變化。 針對SiamFC在面對目標形變、 遮擋時跟蹤失敗的問題, 馮琪堯[31]等人提出使用通道注意力和空間注意力的混合注意力模塊提高網(wǎng)絡的識別能力。

將跟蹤問題視為分類任務時, 在跟蹤相似物體時很容易受到干擾。 SANet[32]使用RNN建立結構感知網(wǎng)絡提取目標的自身結構信息, 從而不僅提高了從背景中區(qū)分目標的能力, 也提高了對相似物體的判別能力。 由于跟蹤失敗的情況可以通過學習歷史視覺語義和歷史跟蹤結果得到解決, Ning等人[33]提出一種基于RNN、 在空間域和時間域都進行網(wǎng)絡學習分析的跟蹤方法。

針對正負樣本的失衡, 以及由于正樣本在空間上高度重合而無法獲得豐富的表觀特征的問題, Song等人[34]提出VITAL方法, 使用生成對抗網(wǎng)絡GAN, 在增強正樣本特征的同時獲得豐富的表觀變化, 還使用一個高階代價敏感損失函數(shù)來尋找難以區(qū)分的負樣本, 以此解決正負樣本不平衡的問題。 VITAL對特征圖隨機生成權重掩膜, 和原始的特征圖進行dropout, 進入分類全連接層, 并且把隨機生成權重掩膜和dropout操作視為對抗特征生成器, 分類全連接層視為生成器進行對抗訓練。 文獻[35]為了提高視覺跟蹤的魯棒性, 通過正樣本生成網(wǎng)絡, 得到與訓練樣本相似的目標甚至是像訓練序列幀之間這樣沒有出現(xiàn)在訓練數(shù)據(jù)集中的樣本, 對正樣本生成網(wǎng)絡的輸出添加遮擋, 使其成為難區(qū)分的正樣本。 GradNet[36]以SiamFC為基礎, 利用梯度的判別信息, 通過前饋和反饋更新孿生網(wǎng)絡中的匹配模板。 Quadruplet Network[37]以SiamFC為基礎, 在訓練前進行預訓練, 從范例和實例中通過強化分數(shù)懲罰, 將正樣本和負樣本在評分上區(qū)分開, 而后利用Triplet[38]思想搭建了由范例、 實例、 正樣本和負樣本輸入生成的樣本三元損失和樣本對損失共同構成總損失函數(shù), 很好地挖掘了實例間的潛在關系, 提升了網(wǎng)絡的訓練效果。 對SiamFC在目標形變、 遮擋和快速運動等復雜場景中易導致跟蹤失敗的問題, 提出一種利用混合注意力機制增強網(wǎng)絡識別能力的算法。

不同于檢測、 分類等任務擁有數(shù)量龐大的訓練數(shù)據(jù)集, 對于跟蹤任務而言, 僅僅只有序列第一幀的邊界框有精確位置, 因此從零開始訓練得到跟蹤網(wǎng)絡難度很大, 針對這一問題, 鑒于深度特征具有較強的通用性, 直接采用在大量圖像數(shù)據(jù)集上預訓練的網(wǎng)絡來進行特征提取, 尤其是VGGNet和AlexNet這樣普遍性更強的網(wǎng)絡。 FCNT[23]使用VGG網(wǎng)絡的conv4-3和conv5-3提取到的特征圖分別作為其設計的分類網(wǎng)絡和通用網(wǎng)絡的輸入, 分類網(wǎng)絡和通用網(wǎng)絡進行在線更新, 最終的目標位置是通過融合這兩個網(wǎng)絡的輸出得到的。 TCNN[39]的網(wǎng)絡結構由三個卷積層和三個全連接層構成, 卷積層使用VGG-M, 全連接層隨機初始化后進行在線更新。 CREST[40]使用VGG-16進行特征提取, 再用DCF來判別目標。 類似的預訓練網(wǎng)絡和在線微調(diào)結合的算法參見文獻[41-43]等。

以上預訓練跟蹤網(wǎng)絡節(jié)省了大量的訓練時間, 但實際的跟蹤任務是針對于不同任務的, 在對特定目標進行跟蹤時, 網(wǎng)絡缺乏針對性, 因此便產(chǎn)生了針對于不同跟蹤任務的離線訓練方法。 SINT[44]使用兩個在ImageNet上預訓練好的分支來構成孿生網(wǎng)絡, 再離線使用視頻序列對孿生網(wǎng)絡進行訓練調(diào)整。 SiamFC[29]的網(wǎng)絡結構與AlexNet[17]類似, 利用孿生網(wǎng)絡使用ILSVRC2015[45]對網(wǎng)絡進行離線訓練, 完成相似函數(shù)的學習。

對基于分類的深度學習目標跟蹤方法而言, 生成候選框的數(shù)量是影響跟蹤效果的主要因素。 隨著候選框數(shù)量的增多, 計算量增大, 雖然跟蹤精度有所提高, 但實時性會受到較大影響。

2.2 基于回歸的深度學習目標跟蹤

基于回歸的深度學習目標跟蹤方法是通過前向網(wǎng)絡根據(jù)前一幀的目標位置利用回歸方法計算出當前幀的預測框來實現(xiàn)目標跟蹤, 算法框架如圖3所示。

Ma等人[46]提出的HCF整體以KCF[8]為框架, 將KCF中的HOG特征換為深度特征, 并發(fā)現(xiàn)淺層特征保留了較好的空間信息, 可以精確定位目標; 深層特征具有很強的語義信息, 可以更好地應對形變, 即由語義信息找到目標的大概位置, 再用低層次的特征信息進行精確定位。 所以HCF不使用全連接層的輸出, 而是將conv3, conv4, conv5的輸出進行加權得到最大響應位置。 他們還提出一種將相關濾波和CNN結合的跟蹤方法[41], 由于相關濾波器的定位精度更好, 因此將相關濾波器嵌入CNN中。 與KCF不同的是, HCF在conv4-4和conv5-4中, 用一個相關濾波器來計算得到響應圖, 再將三個響應圖進行加權, 得到最終的最大響應位置。

GOTURN[47]使用孿生網(wǎng)絡框架, 一個分支的輸入是之前幀中的目標區(qū)域, 另一分支的輸入是當前幀中在上一幀附近一定范圍內(nèi)的區(qū)域, 兩分支分別經(jīng)過特征提取后進行特征融合, 回歸出當前幀中的目標位置。 兩分支均為五層卷積層, 兩個卷積分支的輸出進入三層的全連接層, 該模型中的卷積層參數(shù)是通過在ImageNet上訓練的CaffeNet的前五層, 再使用視頻序列對模型中的其他部分進行離線訓練得到的。 CFNet[48]是在SiamFC的模板分支上加入相關濾波器, 以此取得保證精度的同時減少網(wǎng)絡層的效果, 區(qū)別在于搜索分支是以上一幀目標為中心的一定范圍區(qū)域進行互響應操作, 回歸出最大響應位置。 邵江南等人[49]在SiamFC基礎上加入殘差結構, 融合淺層結構信息和深層語義信息, 并融合通道注意力, 有效提高模型的表征能力與泛化能力。

TRACA[50]使用上下文感知網(wǎng)絡選出最適合當前目標的編碼器, 作用于VGG網(wǎng)絡提取出的特征, 得到壓縮特征圖, 對于每一個目標類別都分別訓練一個與其對應的專家自編碼器, 但僅使用最佳專家自編碼器用來跟蹤當前目標。 同時, 引入額外的去噪過程和正交損失項對專家自編碼器進行預訓練和微調(diào), 壓縮特征圖以取得更佳的跟蹤效果。 還存在與此類似的跟蹤算法, 使用自編碼器盡可能地保留主要特征, 有效減少計算量[51-53]。

由于回歸網(wǎng)絡是在前一幀的基礎上直接回歸出當前目標位置, 因此目標存在較大形變、 快速移動等問題時容易出現(xiàn)跟蹤漂移。

2.3 基于分類和回歸結合的深度學習目標跟蹤

前述基于深度神經(jīng)網(wǎng)絡的跟蹤方法, 基本都是將其視為分類任務, 或視為回歸任務。 在進行分類時普遍需要大量的候選區(qū)域來實現(xiàn)高精度跟蹤, 通常算法的計算量較大, 實時性較差; 在進行回歸時更容易產(chǎn)生跟蹤目標的漂移; 又由于目標區(qū)域的橫縱比是固定比例, 在跟蹤過程中, 一旦目標橫縱比產(chǎn)生較大的改變, 則會導致跟蹤失敗。 基于分類和回歸結合的深度學習目標跟蹤算法如圖4所示。

MDNet[54]使用回歸方法得到最佳候選框集, 基于遷移學習的思想, 建立針對于不同視頻序列的二分類全連接層作為其對應的分類分支, 分類分支都共享特征提取層, 得分最高的候選框作為跟蹤結果; MDNet在離線訓練時, 針對每個視頻序列新建其對應域的分類分支, 所有分類分支共享提取特征的卷積層, 在跟蹤的同時進行在線微調(diào)。 在線微調(diào)分為長周期和短周期, 長周期是固定每隔幾幀進行一次在線更新, 短周期是每當目標得分低于0.5時進行一次在線網(wǎng)絡更新。 文獻[55-57]與之類似。 ADT[58]使用對抗學習方法將分類任務和回歸任務結合, 其中, 回歸網(wǎng)絡是由全卷積孿生神經(jīng)網(wǎng)絡構成, 用來生成擁有目標位置和大小信息的響應圖供分類網(wǎng)絡進行最優(yōu)選擇。 回歸網(wǎng)絡和分類網(wǎng)絡使用大量的視頻訓練數(shù)據(jù)進行端到端的對抗訓練。 在跟蹤環(huán)節(jié), 回歸網(wǎng)絡生成能夠反映目標在每個候選搜索區(qū)域中的位置和大小的響應圖, 分類網(wǎng)絡選擇出最佳的響應圖。 同時, 通過使用注意力機制, ADT能夠注意到在跟蹤過程中目標出現(xiàn)的位置區(qū)域。

SiamRPN[59]使用孿生網(wǎng)絡同時進行分類和回歸, 兩分支結果進一步進行精確定位, SiamRPN的特征提取網(wǎng)絡由AlexNet去掉conv2和conv4構成, 當特征提取網(wǎng)絡在ImageNet上訓練結束后, 再使用從ILSVRC中隨機間隔選取和連續(xù)的Youtube-BB[60]數(shù)據(jù)集對區(qū)域建議網(wǎng)絡進行訓練。 張宏偉等人[61]在此基礎上提出一種兩階段的跟蹤方法加強網(wǎng)絡的判別能力。 由于大多數(shù)深度跟蹤算法使用AlexNet或VGG作為特征提取網(wǎng)絡, 在學習過程中會產(chǎn)生位置偏見, 過分關注圖片中心而忽略了邊緣, SiamRPN++[62]在訓練過程中使用隨機平移的采樣策略, 以此消除位置偏見。 陳志旺等人[63]在SiamRPN++基礎上加入目標的在線分類和自適應模板更新, 有效解決特征缺少上下文信息的問題。 SiamMask[64]使用不進行在線更新的孿生網(wǎng)絡, 通過對搜索圖像和模板圖像的互相關操作, 得到具有最大響應值的候選框, 再由卷積分割網(wǎng)絡生成二值掩膜, 由該二值掩膜信息得到最終的邊界框信息。 基于Mask R-CNN, Track R-CNN[65]使用三維卷積來綜合上下文信息, 進而完成目標跟蹤。 在跟蹤過程中, 三維卷積得到的特征圖經(jīng)過區(qū)域建議網(wǎng)絡, 由分類得分、 生成掩膜信息和關聯(lián)向量, 利用歷史幀的跟蹤結果進行在線關聯(lián)跟蹤。 DS[66]通過區(qū)域建議網(wǎng)絡, 使用空間和語義卷積特征對目標進行定位, 同時使用2DPCA在保留最多有效信息的前提下減少空域特征維數(shù), 進而通過尺度相關濾波估計目標尺寸。 SPM-Tracker[67]使用粗糙匹配階段(CM)提高跟蹤器的魯棒性, 精調(diào)匹配階段(FM)提高了跟蹤器的判別能力, 其中CM使用SiamRPN的網(wǎng)絡結構, 初步得到目標的候選框, 將CM的輸出作為FM的輸入, 進一步提高對于相似物體的抗干擾能力。

目前流行的孿生網(wǎng)絡大多基于錨框進行跟蹤, 但當預測值開始出現(xiàn)偏差時會迅速累積誤差, 使跟蹤出現(xiàn)嚴重漂移, 這是因為基于錨框的跟蹤器只保留IoU大于設定閾值的錨框, 其余錨框全部舍棄。 因此, Zhang等人提出無錨框的跟蹤網(wǎng)絡Ocean[68], 網(wǎng)絡架構與孿生網(wǎng)絡一致, 依然分為回歸分支與分類分支; 回歸分支用來估計邊界框內(nèi)每一個像素點到邊界框四個邊的距離, 由于單獨考慮了邊界框內(nèi)的所有像素點, 因此在IoU非常小的情況下, 這些被視為目標區(qū)域的像素點也可以用來預測目標的位置尺度信息; 分類分支則對采樣點增加偏移向量, 使其可以根據(jù)目標的尺度變化進行采樣點分類置信度計算。 孿生網(wǎng)絡這種基于全局匹配的跟蹤方法很大程度上保留了背景信息, 并且忽略了搜索圖像與模板圖像之間的局部對應關系。 基于此, Guo等人提出基于圖感知網(wǎng)絡的跟蹤方法SiamGAT[69], 建立圖感知模塊, 將模板特征信息傳遞至搜索特征, 以此在目標外觀嚴重變化時保留目標信息, 忽略背景信息; 使用目標感知模板區(qū)域選擇模塊, 實現(xiàn)只有模板邊界框中的特征作為模板特征, 進一步在目標橫縱比較為極端時抑制背景信息。

此外, 孿生網(wǎng)絡本質就是在搜索圖像中尋找與模板信息匹配度最高的區(qū)域, 這種線性的匹配方法極易丟失語義信息且陷入局部最優(yōu)。 Chen等人提出基于Transformer特征融合的跟蹤方法TransT[70], 使用基于Transformer架構的特征融合模塊實現(xiàn)語義增強和孿生分支的特征交互融合。 由于Transformer強大的特征表征能力, Lin等人提出完全基于注意力的Transformer跟蹤方法SwinTrack[71]。

大多數(shù)跟蹤方法都是在視頻序列的第一幀標定邊界框位置, 隨后繼續(xù)尋找后續(xù)幀中的邊界框位置。 這種調(diào)整邊界框位置的方法會出現(xiàn)第一幀的邊界框中可能同時有兩個目標, 則會產(chǎn)生歧義。 因此Wang等人[72]提出使用自然語言進行跟蹤任務的AdaSwitcher以及一個自然語言跟蹤數(shù)據(jù)集TNL2K。

基于回歸和分類的跟蹤方法結合了速度和精度的優(yōu)點, 成為近年來目標跟蹤的主流方法[73-83]。

2.4 其他深度學習目標跟蹤算法

(1) 基于強化學習的深度學習目標跟蹤算法

強化學習用于解決如何通過學習策略使智能體與環(huán)境交互時獲得最大回報。 當智能體做出某種決策使環(huán)境給智能體正反饋獎勵時, 則智能體加強這一決策趨勢, 其基礎是馬爾可夫決策理論。

Yun等人提出ADNet[84]利用強化學習理論得到目標框的運動情況, 由策略函數(shù)得到跟蹤器的執(zhí)行動作, 以此定義下一幀目標的運動情況, 通過迭代得到最佳候選框。 ACT[85]使用Actor-Critic框架, 通過強化學習方法得到計算目標移動的Actor網(wǎng)絡, Critic網(wǎng)絡由MDNet構成, 由Critic的分類結果來監(jiān)督Actor的位移輸出。 Wang等人[86]引入基于多智能體強化學習的束搜索策略, 使用束搜索算法生成不同的圖像描述, 將目標特征與貪心搜索的結果送入第一個智能體中進行決策, 其輸出與目標特征送入后續(xù)智能體中進行不同的預測, 所有幀處理結束后, 選擇累積得分最高的軌跡作為跟蹤結果。

(2) 基于集成學習的深度學習目標跟蹤算法

當面向不同對象不同任務時, 同一個網(wǎng)絡模型無法對所有對象都表現(xiàn)優(yōu)越, 即缺乏一定的針對性, 因此集成學習將多個弱監(jiān)督模型組合, 構成一個能夠應對多種問題的強監(jiān)督模型。

MDNet[54]建立針對不同視頻序列的分類全連接層作為其對應的分類分支, 分類分支都共享特征提取層, 得分最高的候選框作為跟蹤結果。 GLELT[87]針對長時跟蹤中難以解決的目標移出視野和目標遮擋問題, 提出使用集成多個局部跟蹤器對全局進行跟蹤, 解決單一局部跟蹤器的信息丟失問題。

(3) 基于元學習的深度學習目標跟蹤

元學習認為特定任務的訓練集服從于特定的任務分布, 通過讓模型學習任務分布, 可以讓模型具有解決該類任務的能力。 元學習利用找到的最優(yōu)超參數(shù), 使各任務在超參數(shù)的基礎上訓練出最優(yōu)參數(shù)后測試得到的損失值的和最小。

Meta-tracker[88]使用元學習方法, 意圖在于學到網(wǎng)絡的初始模型, 并且在訓練過程中利用后續(xù)幀的信息, 使模型更加魯棒。 Wang等人[89]提出使用MAML利用初始幀構建一個檢測器, 并在后續(xù)幀中利用該檢測器進行檢測, 以此實現(xiàn)跟蹤的目的。 基于元學習的深度學習目標跟蹤能夠實現(xiàn)對小樣本訓練集的較快收斂。

綜上所述, 表1對個別代表性目標跟蹤算法進行總結對比。

3 數(shù)據(jù)集和評價準則

隨著目標跟蹤算法的發(fā)展完善, 可以更好地對復雜問題下的目標進行跟蹤, 因此需要對跟蹤算法從不同角度進行全面的性能評估, 隨之需要更全面、 更大規(guī)模的視頻跟蹤數(shù)據(jù)集。 為了適應目標跟蹤算法的發(fā)展, 逐漸發(fā)展出很多完善的大型公開數(shù)據(jù)集及評價指標。

3.1 數(shù) 據(jù) 集

3.1.1 OTB數(shù)據(jù)集

Wu等人[90]在2013年建立了較為全面的OTB2013(Online Object Tracking Benchmark)。 該數(shù)據(jù)集包含50個全標注的視頻序列, 由于跟蹤效果會受多因素的影響, 為了更加全面地評估算法性能, 該數(shù)據(jù)集引入11種挑戰(zhàn)因素的標注, 包括光照變化(IV)、 尺度變化(SV)、 遮擋(OCC)、 形變(DEF)、 運動模糊(MB)、 快速移動(FM)、 平面內(nèi)旋轉(IPR)、 平面外旋轉(OPR)、 移出視野(OV)、 背景雜亂(BC)、 低分辨率(LR)。 2015年, OTB被進一步擴展為OTB-100, 由100個全標注的目標序列構成(由于一些序列包含了多個目標, 視頻序列小于100), 同時由于部分目標相似或者較為容易跟蹤, 因此選出了50個更困難且具有代表性的目標構成OTB-50。 該數(shù)據(jù)集更側重于人類數(shù)據(jù), 其中36個為人體序列, 26個為人臉序列。 OTB-100和OTB-50關于上述11類影響因素的分布情況如圖5所示。

3.1.2 VOT挑戰(zhàn)數(shù)據(jù)集

自2013年以來, VOT(Visual Object Tracking)競賽[91-96]每年都會舉辦一次, 隨著不足的發(fā)現(xiàn)改進, 每年的VOT數(shù)據(jù)集都在逐漸變化完善。

當前視覺跟蹤算法中被廣泛使用的VOT2018[93]分為短程跟蹤任務和長程跟蹤任務。 短程跟蹤任務挑戰(zhàn)和VOT2017[96]相比沒有變化, 包括60個公開序列和60個未公開序列, VOT數(shù)據(jù)集中的目標由旋轉邊界框標注, 并且序列中的每一幀標注以下挑戰(zhàn)因素: 遮擋、 光照變化、 運動變化、 尺度變化和攝像機運動, 沒有被上述五種標注的幀則標注為未賦值。 長程跟蹤任務使用LTB35[97]數(shù)據(jù)集, 目標由平齊的邊界框標注, 并對序列標注以下挑戰(zhàn)因素: 完全遮擋、 移出視野、 局部遮擋、 攝像機移動、 快速移動、 尺度變化、 橫縱比變化、 視角變化、 相似目標。

3.1.3 TempleColor128數(shù)據(jù)集

TempleColor128[98]是由Liang等人提出專注于彩色序列的數(shù)據(jù)集, 包含128個全標注的彩色序列。 該數(shù)據(jù)集標注的挑戰(zhàn)因素屬性與OTB-100相同, 其分布如圖6所示。 TempleColor數(shù)據(jù)集由兩部分構成, 第一部分是在以往學習中常用的50個彩色序列, 第二部分包含78個從網(wǎng)絡選取的彩色序列, 涉及到高速公路、 機場、 火車站等情景, 并且它們都不是為了評價跟蹤算法而錄制的, 包含了諸多挑戰(zhàn)因素, 例如目標的完全遮擋、 光照的大幅變化、 大幅目標形變和低分辨率。

3.1.4 ALOV++數(shù)據(jù)集

ALOV++[99]的目的是盡可能多地覆蓋不同的挑戰(zhàn)因素。 該數(shù)據(jù)集一共包含315個視頻序列, 其中65個視頻序列已經(jīng)在PETS數(shù)據(jù)集中出現(xiàn)過, 250個為新的視頻序列, 數(shù)據(jù)是從YouTube搜索到的64個現(xiàn)實生活中的目標, 包括人臉、 球體、 章魚、 手機、 塑料袋、 汽車等。

3.1.5 UAV數(shù)據(jù)集

UAV123[100]數(shù)據(jù)集由123段用無人機拍攝的高分辨率視頻序列構成, 總共超過110K幀。 UAV123包含三部分, 第一部分包含103個用專業(yè)無人機在5~25 m高度跟隨不同的目標拍攝的視頻序列; 第二部分包含12個由安裝在低成本無人機上的普通攝像機拍攝的視頻序列, 這部分視頻序列質量較差, 噪聲較大; 第三部分包含由UAV模擬器得到的8個生成序列。 UAV123包含的挑戰(zhàn)因素有橫縱比變化(ARC)、 背景雜亂(BC)、 攝像機運動(CM)、 快速移動(FM)、 完全遮擋(FOC)、 光照變化(IV)、 低分辨率(LR)、 移出視場(OV)、 部分遮擋(POC)、 相似目標(SOB)、 尺度變化(SV)和視角變化(VC)。 其中一些長序列被分割為多個子序列, 從而保證數(shù)據(jù)集的復雜度合理。 為了長時跟蹤算法, 合并這些子序列, 然后挑選最長的20個序列, 構成平均每個序列達2 934幀的UAV20L。

3.1.6 TrackingNet數(shù)據(jù)集

TrackingNet[101]數(shù)據(jù)集包括30 643個平均時長為16.6 s的視頻序列, 共達14 431 266幀。 從YouTube- Bounding Boxes[60]中選取30 132個訓練集序列和511個測試集序列。 TrackingNet包含15個挑戰(zhàn)因素, 其中, 尺度變化、 橫縱比變化、 快速移動、 低分辨率、 移出視野這5個因素是由分析邊界框來自動標注的, 光照變化、 攝像機移動、 運動模糊、 背景雜亂、 相似目標、 形變、 平面內(nèi)旋轉、 平面外旋轉、 部分遮擋、 完全遮擋這10個因素則是由人工標注。

3.2 評價指標

為了評估不同算法的跟蹤性能, 提出了多種評價指標, 分為三類: 基于一次性通過評估(OPE)的評價指標、 基于在線監(jiān)督的評價指標和基于長時目標跟蹤的評價指標。

3.2.1 基于一次性通過評估(OPE)的評價指標

一次性通過指用已知第一幀真值位置初始化的序列運行算法來獲得平均精度或成功率[84]。

(1) 中心位置誤差(CLE)

CLE指目標的估計位置中心和實際位置中心的平均歐幾里得距離。 CLE是最早的評價指標, 對于數(shù)據(jù)集的標注敏感并且沒有考慮跟蹤失敗的情況。

式中: Ns為序列幀數(shù); pt為目標實際位置中心; p^t為目標估計位置中心。

(2) 目標區(qū)域交并比(IoU)

IoU是指目標的估計邊界框區(qū)域和實際邊界框區(qū)域之間交集和并集的比值, 計算公式如下:

(3) 重疊率精度(OP)

OP是指IoU大于或等于某一預定閾值的幀數(shù)在所有幀數(shù)中的百分比, 計算公式如下:

式中: υ為設定閾值。

(4) 精度曲線(Precision Plot)

給定不同閾值, 精度曲線繪制CLE小于等于某一閾值幀數(shù)在所有幀數(shù)中的百分比。

(5) 成功率曲線(Success Plot)

成功率曲線繪制IoU大于等于某一閾值幀數(shù)在所有幀數(shù)中的百分比。

(6) 曲線下面積(AUC)

成功率曲線和坐標軸所圍成的面積。

3.2.2 基于在線監(jiān)督的評價指標

基于在線監(jiān)督的過程是在初始化跟蹤算法后, 對跟蹤結果進行在線監(jiān)督, 如果出現(xiàn)跟蹤失敗的情況, 則在5幀后再次初始化跟蹤算法。

(1)準確性(Accuracy)

準確性為所有有效幀的平均IoU, 綜合考慮了位置和區(qū)域, 以測量估計目標的漂移率直到其失敗。

式中: N為有效幀的幀數(shù)。

(2)魯棒性(Robustness)

魯棒性是指跟蹤過程中跟蹤失敗的次數(shù), 當目標區(qū)域交并比為0時視為跟蹤失敗。

(3)期望平均重疊率(EAO)

EAO綜合考慮了準確性和魯棒性, 對于一個Ns幀長的序列, 計算公式如下:

式中: Φi為全部序列中每一幀的平均交并比。

3.2.3 基于長時目標跟蹤的評價指標

對于長時目標跟蹤, 可能會出現(xiàn)目標移出視場或長時間被遮擋。

(1)精度(Pr)

精度由真實位置和預測目標位置的交并比計算, 由存在預測值的幀數(shù)進行歸一化, 在所有精度閾值上的精度綜合表征總體的跟蹤精度。

式中: Gt為t時刻的目標真實位置; At(θt)為目標的估計位置; θt為預測置信度, Ω(At(θt),Gt)為交并比; Np為估計值存在的幀數(shù)。

(2)跟蹤召回率(Re)

與精度類似, 跟蹤召回率由存在真實目標的幀數(shù)進行歸一化, 計算公式如下:

式中: Ng為真實目標存在的幀數(shù)。

(3) F-Score

F-Score綜合考慮了精度和召回率, 計算公式如下:

(4) 最大幾何平均數(shù)(MaxGM)

MaxGM綜合了TPR(True Positive Rate)和TNR(True Negative Rate), TPR表征了正確定位目標的情況, TNR表征正確識別缺失目標的情況。

4 實驗對比

本文選取了9種具有代表性的基于深度學習的目標跟蹤算法在OTB-100中選取16個序列進行實驗, 對比跟蹤性能, 這些算法分別為: HCF, ECO, MDNet, VITAL, SiamFC, CFNet, SiamnRPN, SiamRPN++, SiamMask。

圖7為HCF, ECO, VITAL, MDNet, SiamFC, CFNet, SiamRPN, SiamRPN++, SiamMask在OTB-100上綜合所有挑戰(zhàn)因素下的精度曲線和成功率曲線, 以及分別在背景雜亂、 運動模糊、 目標變形、 光照變化、 平面內(nèi)旋轉、 平面外旋轉和尺度變化挑戰(zhàn)因素單獨影響下的精度曲線和成功率曲線。

表2給出了不同網(wǎng)絡的跟蹤速度。

綜合圖7和表2可以看出:

(1)? 基于分類方法的跟蹤器ECO和VITAL為了取得良好的跟蹤效果, 需要加入數(shù)量較多的候選框, 因此實時性受到較大影響, 而使用孿生網(wǎng)絡的SiamFC分類跟蹤方法顯然在速度上取得巨大突破。

(2) HCF作為早期具有代表性的使用深度神經(jīng)網(wǎng)絡的回歸跟蹤算法, 速度相較于同期的分類方法具有一定優(yōu)勢, 但在面對背景影響以及目標出現(xiàn)較大形變、 遮擋等問題時, 容易出現(xiàn)邊界框的漂移; 同時CFNet因加入相關濾波器, 在保證實時性的前提下, 相對于SiamFC精度得到顯著改善。

(3) MDNet結合分類任務與回歸任務, 面對所有挑戰(zhàn)因素均表現(xiàn)良好, 但由于采用在線更新策略, 實時性受到嚴重影響。 SiamRPN, SiamRPN++, SiamMask等算法的魯棒性較強, 挑戰(zhàn)因素的出現(xiàn)均未造成明顯影響, 且相比于網(wǎng)絡在速度上有明顯優(yōu)勢, 即在保證精度的前提下, 顯著提高跟蹤速度, 體現(xiàn)出孿生網(wǎng)絡的優(yōu)越性能。

5 發(fā)展展望

由實驗結果可以看出, 基于孿生網(wǎng)絡的跟蹤方法可以實現(xiàn)在保證精度的前提下, 顯著提高跟蹤速度, 因此孿生網(wǎng)絡逐漸成為當前目標跟蹤領域的主流算法。

基于深度學習的目標跟蹤方法在各數(shù)據(jù)集上都取得了優(yōu)異的成績, 但現(xiàn)實中的目標跟蹤依然面臨很多問題, 具體如下:

(1) 長程跟蹤問題。 當前基于深度學習的目標跟蹤算法對短程跟蹤已經(jīng)有了很好的結果, 但在實際跟蹤中往往都是長程跟蹤問題, 如軍事制導、 無人駕駛等。 在長程跟蹤中不僅會面臨短程跟蹤的問題, 還會面臨更大挑戰(zhàn), 如目標頻繁移出又返回視場、 頻繁遮擋、 目標形變極大以及環(huán)境變化極端等問題。

當跟蹤失敗時, 進行目標重檢測是一種較為有效的方法, 然而跟蹤再檢測也就意味著計算量大, 會對跟蹤的實時性產(chǎn)生較大影響, 因此可以考慮簡化檢測模型, 對重檢測模型進行可靠的輕量化, 以滿足目標重檢測時的實時性問題, 或者提出其他行之有效的應對由于遮擋、 移出視野等原因導致的跟蹤失敗問題的方法。

(2) 數(shù)據(jù)集難以獲得。 不同于檢測、 分類任務的數(shù)據(jù)集, 一個跟蹤序列已經(jīng)包含數(shù)幀圖像, 對于跟蹤任務的訓練, 需要對其進行逐幀標注, 因此工作量巨大。

當前對于這一問題, 大多采用在大量分類檢測數(shù)據(jù)集上訓練得到特征提取網(wǎng)絡, 再使用數(shù)量較為有限的跟蹤數(shù)據(jù)集對跟蹤網(wǎng)絡進行訓練, 以此緩解跟蹤數(shù)據(jù)集缺少的問題, 但這也只是權宜之計, 在面臨不同類型的目標時, 網(wǎng)絡缺乏針對性。 考慮到當前主流的孿生算法本質都是在搜索圖像中尋找與模板圖像最相似的部分作為跟蹤結果, 因此可以考慮小樣本的學習方法, 僅以視頻序列的第一幀作為正樣本對網(wǎng)絡進行訓練。

(3) 實時跟蹤問題。 深度網(wǎng)絡參數(shù)較多, 若只對其進行離線訓練, 可以提高跟蹤速度, 但只有首幀的目標位置是準確的。 隨著目標自身變化以及環(huán)境變化, 網(wǎng)絡對目標的跟蹤能力也會減弱, 無法正確跟蹤目標。 如果對網(wǎng)絡模型進行在線訓練更新, 大量的模型參數(shù)調(diào)整會嚴重影響跟蹤的實時性, 因此如何從深度網(wǎng)絡參數(shù)學習的角度提高目標跟蹤速度, 仍然是一個需要解決的問題。

參考文獻:

[1] 李璽, 查宇飛, 張?zhí)熘?等. 深度學習的目標跟蹤算法綜述[J]. 中國圖象圖形學報, 2019, 24(12): 2057-2080.

Li Xi, Zha Yufei, Zhang Tianzhu, et al. Survey of Visual Object Tracking Algorithms Based on Deep Learning[J]. Journal of Image and Graphics, 2019, 24(12): 2057-2080.(in Chinese)

[2] Comaniciu D, Ramesh V, Meer P. KernelBased Object Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(5): 564-577.

[3] Kwon J, Lee K M. Tracking by Sampling and Integrating Multiple Trackers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1428-1441.

[4] Wang D, Lu H C, Yang M H. Online Object Tracking with Sparse Prototypes[J]. IEEE Transactions on Image Processing, 2013, 22(1): 314-325.

[5] Avidan S. Support Vector Tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(8): 1064-1072.

[6] Grabner H, Bischof H. OnLine Boosting and Vision[C]∥ IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006: 260-267.

[7] Saffari A, Leistner C, Santner J, et al. OnLine Random Forests[C]∥IEEE 12th International Conference on Computer Vision Workshops, 2010: 1393-1400.

[8] Henriques J F, Caseiro R, Martins P, et al. HighSpeed Tracking with Kernelized Correlation Filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

[9] MarvastiZadeh S M, Cheng L, GhaneiYakhdan H, et al. Deep Learning for Visual Tracking: A Comprehensive Survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(5): 3943-3968.

[10] Fiaz M, Mahmood A, Javed S, et al. Handcrafted and Deep Trackers[J]. ACM Computing Surveys, 2020, 52(2): 1-44.

[11] Javed S, Danelljan M, Khan F S, et al. Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(5): 6552-6574.

[12] Soleimanitaleb Z, Ali Keyvanrad M. Single Object Tracking: A Survey of Methods, Datasets, and Evaluation Metrics[EB/OL]. (2022-01-31)[2022-10-28]. https:∥arxiv. org/ abs/2201.13066.pdf.

[13] Han R Z, Feng W, Guo Q, et al. Single Object Tracking Research: A Survey[EB/OL]. (2022-04-25)[2022-10-28]. https:∥arxiv.org/abs/2204.11410.pdf.

[14] Ciaparrone G, Luque Sánchez F, Tabik S, et al. Deep Learning in Video MultiObject Tracking: A Survey[J]. Neurocomputing, 2020, 381: 61-88.

[15] Bashar M, Islam S, Hussain K K, et al. Multiple Object Tracking in Recent Times: A Literature Review[EB/OL]. (2022-09-11)[2022-10-28]. https:∥arxiv.org/abs/2209. 04796. pdf.

[16] Hinton G E, Osindero S, Teh Y W. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

[17] Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Communications of the ACM, 2017, 60(6): 84-90.

[18] Simonyan K, Zisserman A. Very Deep Convolutional Networks for LargeScale Image Recognition[EB/OL]. (2014-09-04)[2022-10-28]. https:∥arxiv.org/abs/1409. 1556.pdf.

[19] Szegedy C, Liu W, Jia Y Q, et al. Going Deeper with Convolutions[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1-9.

[20] He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[21] Wang N Y, Yeung D Y. Learning a Deep Compact Image Representation for Visual Tracking[J]. Advances in Neural Information Processing Systems, 2013: 809-817.

[22] Wang L, Liu T, Wang G, et al. Video Tracking Using Learned Hierarchical Features[J]. IEEE Transactions on Image Processing, 2015, 24(4): 1424-1435.

[23] Wang L J, Ouyang W L, Wang X G, et al. Visual Tracking with Fully Convolutional Networks[C]∥ IEEE International Conference on Computer Vision, 2016: 3119-3127.

[24] Danelljan M, Hger G, Khan F S, et al. Convolutional Features for Correlation Filter Based Visual Tracking[C]∥ IEEE International Conference on Computer Vision Workshop, 2016: 621-629.

[25] Danelljan M, Hger G, Khan F S, et al. Learning Spatially Regularized Correlation Filters for Visual Tracking[C]∥ IEEE International Conference on Computer Vision, 2016: 4310-4318.

[26] Cui Z, Xiao S T, Feng J S, et al. Recurrently TargetAttending Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1449-1458.

[27] Danelljan M, Robinson A, Shahbaz Khan F, et al. Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking[C]∥Computer VisionECCV, 2016: 472-488.

[28] Danelljan M, Bhat G, Khan F S, et al. ECO: Efficient Convolution Operators for Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6931-6939.

[29] Bertinetto L, Valmadre J, Henriques J F, et al. FullyConvolutional Siamese Networks for Object Tracking[M]. Cham: Springer International Publishing, 2016: 850-865.

[30] Chen K, Tao W B. Once for All: A TwoFlow Convolutional Neural Network for Visual Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2018, 28(12): 3377-3386.

[31] 馮琪堯, 張驚雷. 基于混合注意力機制的目標跟蹤算法[J]. 計算機工程與科學, 2022, 44(2): 276-282.

Feng Qiyao, Zhang Jinglei. An Object Tracking Algorithm Based on Mixed Attention Mechanism[J]. Computer Engineering & Science, 2022, 44(2): 276-282.(in Chinese)

[32] Fan H, Ling H B. SANet: StructureAware Network for Visual Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2017: 2217-2224.

[33] Ning G H, Zhang Z, Huang C, et al. Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking[C]∥ IEEE International Symposium on Circuits and Systems, 2017: 1-4.

[34] Song Y B, Ma C, Wu X H, et al. VITAL: Visual Tracking via Adversarial Learning[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8990-8999.

[35] Wang X, Li C L, Luo B, et al. SINT: Robust Visual Tracking via Adversarial Positive Instance Generation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 4864-4873.

[36] Li P X, Chen B Y, Ouyang W L, et al. GradNet: GradientGuided Network for Visual Object Tracking[C]∥IEEE/CVF International Conference on Computer Vision, 2020: 6161-6170.

[37] Dong X P, Shen J B, Wu D M, et al. Quadruplet Network with OneShot Learning for Fast Visual Object Tracking[J]. IEEE Transactions on Image Processing, 2019, 28(7): 3516-3527.

[38] Hoffer E, Ailon N. Deep Metric Learning Using Triplet Network[M]. Cham: Springer International Publishing, 2015: 84-92.

[39] Nam H, Baek M, Han B. Modeling and Propagating CNNS in a Tree Structure for Visual Tracking[EB/OL]. (2016-08-25)[2022-10-28]. https:∥arxiv.org/abs/1608. 07242.pdf.

[40] Song Y B, Ma C, Gong L J, et al. CREST: Convolutional Residual Learning for Visual Tracking[C]∥IEEE International Conference on Computer Vision, 2017: 2574-2583.

[41] Ma C, Xu Y, Ni B B, et al. When Correlation Filters Meet Convolutional Neural Networks for Visual Tracking[J]. IEEE Signal Processing Letters, 2016, 23(10): 1454-1458.

[42] Chi Z Z, Li H Y, Lu H C, et al. Dual Deep Network for Visual Tracking[J]. IEEE Transactions on Image Processing, 2017, 26(4): 2005-2015.

[43] Wang N Y, Li S Y, Gupta A, et al. Transferring Rich Feature Hierarchies for Robust Visual Tracking[EB/OL]. (2015-01-19)[2022-10-28].https:∥arxiv.org/abs/1501.04587.pdf.

[44] Tao R, Gavves E, Smeulders A W M. Siamese Instance Search for Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1420-1429.

[45] Russakovsky O, Deng J, Su H, et al. ImageNet Large Scale Visual Recognition Challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

[46] Ma C, Huang J B, Yang X K, et al. Hierarchical Convolutional Features for Visual Tracking[C]∥IEEE International Conference on Computer Vision, 2016: 3074-3082.

[47] Held D, Thrun S, Savarese S. Learning to Track at 100 FPS with Deep Regression Networks[C]∥European Conference on Computer Vision, 2016: 749-765.

[48] Valmadre J, Bertinetto L, Henriques J, et al. EndtoEnd Representation Learning for Correlation Filter Based Tracking[C]∥ IEEE Conference on Computer Vision and Pattern Recognition, 2017: 5000-5008.

[49] 邵江南, 葛洪偉. 融合殘差連接與通道注意力機制的Siamese目標跟蹤算法[J]. 計算機輔助設計與圖形學學報, 2021, 33(2): 260-269.

Shao Jiangnan, Ge Hongwei. Siamese Object Tracking Algorithm Combining Residual Connection and Channel Attention Mechanism[J]. Journal of ComputerAided Design & Computer Graphics, 2021, 33(2): 260-269.(in Chinese)

[50] Choi J, Chang H J, Fischer T, et al. ContextAware Deep Feature Compression for HighSpeed Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 479-488.

[51] Zhang J, Shan S G, Kan M N, et al. CoarsetoFine AutoEncoder Networks (CFAN) for RealTime Face Alignment[C]∥European Conference on Computer Vision, 2014: 1-16.

[52] Ni Z L, Bian G B, Xie X L, et al. RASNet: Segmentation for Tracking Surgical Instruments in Surgical Videos Using Refined Attention Segmentation Network[C]∥ 41st Annual International Conference of the IEEE Engineering in Medicine and Biology Society, 2019: 5735-5738.

[53] Yan B, Peng H W, Fu J L, et al. Learning SpatioTemporal Transformer for Visual Tracking[EB/OL]. (2021-03-31)[2022-10-28]. https:∥arxiv.org/abs/2103. 17154.pdf.

[54] Nam H, Han B. Learning MultiDomain Convolutional Neural Networks for Visual Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4293-4302.

[55] Zhuang B H, Wang L J, Lu H C. Visual Tracking via Shallow and Deep Collaborative Model[J]. Neurocomputing, 2016, 218: 61-71.

[56] Chen K X, Zhou X, Xiang W, et al. Data Augmentation Using GAN for MultiDomain NetworkBased Human Tracking[C]∥IEEE Visual Communications and Image Processing, 2019: 1-4.

[57] Yang Y J, Gu X D. Learning Edges and Adaptive Surroundings for Discriminant Segmentation Tracking[J]. Digital Signal Processing, 2022, 121: 103309.

[58] Zhao F, Wang J Q, Wu Y, et al. Adversarial Deep Tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(7): 1998-2011.

[59] Li B, Yan J J, Wu W, et al. High Performance Visual Tracking with Siamese Region Proposal Network[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8971-8980.

[60] Real E, Shlens J, Mazzocchi S, et al. YouTubeBoundingBoxes: A Large HighPrecision HumanAnnotated Data Set for Object Detection in Video[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7464-7473.

[61] 張宏偉, 李曉霞, 朱斌, 等. 基于孿生神經(jīng)網(wǎng)絡的兩階段目標跟蹤方法[J]. 紅外與激光工程, 2021, 50(9): 341-352.

Zhang Hongwei, Li Xiaoxia, Zhu Bin, et al. TwoStage Object Tracking Method Based on Siamese Neural Network[J]. Infrared and Laser Engineering, 2021, 50(9): 341-352.(in Chinese)

[62] Li B, Wu W, Wang Q, et al. SiamRPN: Evolution of Siamese Visual Tracking with very Deep Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 4277-4286.

[63] 陳志旺, 張忠新, 宋娟, 等. 在線目標分類及自適應模板更新的孿生網(wǎng)絡跟蹤算法[J]. 通信學報, 2021, 42(8): 151-163.

Chen Zhiwang, Zhang Zhongxin, Song Juan, et al. Tracking Algorithm of Siamese Network Based on Online Target Classification and Adaptive Template Update[J]. Journal on Communications, 2021, 42(8): 151-163.(in Chinese)

[64] Wang Q, Zhang L, Bertinetto L, et al. Fast Online Object Tracking and Segmentation: A Unifying Approach[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1328-1338.

[65] Shuai B, Berneshawi A G, Modolo D, et al. MultiObject Tracking with Siamese TrackRCNN[EB/OL]. (2020-04-16)[2022-10-28].https:∥arxiv.org/abs/2004.07786.pdf.

[66] Zhang J M, Jin X K, Sun J, et al. Spatial and Semantic Convolutional Features for Robust Visual Object Tracking[J]. Multimedia Tools and Applications, 2020, 79(21/22): 15095-15115.

[67] Wang G T, Luo C, Xiong Z W, et al. SPMTracker: SeriesParallel Matching for RealTime Visual Object Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 3638-3647.

[68] Zhang Z P, Peng H W, Fu J L, et al. Ocean: ObjectAware AnchorFree Tracking[M]. Cham: Springer International Publishing, 2020: 771-787.

[69] Guo D Y, Shao Y Y, Cui Y, et al. Graph Attention Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 9538-9547.

[70] Chen X, Yan B, Zhu J W, et al. Transformer Tracking[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 8122-8131.

[71] Lin L T, Fan H, Zhang Z P, et al. SwinTrack: A Simple and Strong Baseline for Transformer Tracking[EB/OL]. (2021-12-02)[2022-10-28].https:∥arxiv.org/abs/2112.00995.pdf.

[72] Wang X, Shu X J, Zhang Z P, et al. Towards more Flexible and Accurate Object Tracking with Natural Language: Algorithms and Benchmark[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13758-13768.

[73] Guo D Y, Wang J, Cui Y, et al. SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 6268-6276.

[74] Ma Z A, Zhang H T, Wang L Y, et al. RPT++: Customized Feature Representation for Siamese Visual Tracking[EB/OL]. (2021-10-23)[2022-10-28]. https:∥ arxiv. org/abs/2110.12194.pdf.

[75] Fu Z H, Liu Q J, Fu Z H, et al. STMTrack: TemplateFree Visual Tracking with SpaceTime Memory Networks[C]∥ IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021: 13769-13778.

[76] Han W, Huang H T, Yu X X. TAPL: Dynamic PartBased Visual Tracking via AttentionGuided Part Localization[EB/OL]. (2021-10-25)[2022-10-28].https:∥ arxiv.org/abs/2110.13027.pdf.

[77] Zhang Y P, Huang X M, Yang M. A Hybrid Visual Tracking Algorithm Based on SOM Network and Correlation Filter[J]. Sensors, 2021, 21(8): 2864.

[78] 宋建鋒, 苗啟廣, 王崇曉, 等. 注意力機制的多尺度單目標跟蹤算法[J]. 西安電子科技大學學報, 2021, 48(5): 110-116.

Song Jianfeng, Miao Qiguang, Wang Chongxiao, et al. MultiScale Single Object Tracking Based on the Attention Mechanism[J]. Journal of Xidian University, 2021, 48(5): 110-116.(in Chinese)

[79] Yan S, Yang J Y, Kpyl J, et al. DepthTrack: Unveiling the Power of RGBD Tracking[C]∥IEEE/CVF International Conference on Computer Vision, 2022: 10705-10713.

[80] 劉嘉敏, 謝文杰, 黃鴻, 等. 基于空間和通道注意力機制的目標跟蹤方法[J]. 電子與信息學報, 2021, 43(9): 2569-2576.

Liu Jiamin, Xie Wenjie, Huang Hong, et al. Spatial and Channel Attention Mechanism Method for Object Tracking[J]. Journal of Electronics & Information Technology, 2021, 43(9): 2569-2576.(in Chinese)

[81] 楊梅, 賈旭, 殷浩東, 等. 基于聯(lián)合注意力孿生網(wǎng)絡目標跟蹤算法[J]. 儀器儀表學報, 2021, 42(1): 127-136.

Yang Mei, Jia Xu, Yin Haodong, et al. Object Tracking Algorithm Based on Siamese Network with Combined Attention[J]. Chinese Journal of Scientific Instrument, 2021, 42(1): 127-136.(in Chinese)

[82] 王殿偉, 方浩宇, 劉穎, 等. 一種基于改進RT-MDNet的全景視頻目標跟蹤算法[J]. 哈爾濱工業(yè)大學學報, 2020, 52(10): 152-160.

猜你喜歡
目標跟蹤卷積神經(jīng)網(wǎng)絡深度學習
多視角目標檢測與跟蹤技術的研究與實現(xiàn)
基于深度卷積神經(jīng)網(wǎng)絡的物體識別算法
基于改進連續(xù)自適應均值漂移的視頻目標跟蹤算法
MOOC與翻轉課堂融合的深度學習場域建構
大數(shù)據(jù)技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
基于卷積神經(jīng)網(wǎng)絡的樹葉識別的算法的研究
空管自動化系統(tǒng)中航跡濾波算法的應用與改進
科技視界(2016年5期)2016-02-22 12:25:31
基于車牌識別的機混車道視頻測速算法
光山县| 海晏县| 福建省| 永定县| 绥滨县| 勐海县| 仪征市| 资阳市| 东乌珠穆沁旗| 咸阳市| 黄大仙区| 威宁| 黔东| 石嘴山市| 高邑县| 左云县| 三都| 太白县| 涞水县| 阜新| 涪陵区| 柘城县| 溆浦县| 博客| 江油市| 开化县| 镇原县| 丰城市| 盘山县| 六枝特区| 永顺县| 土默特右旗| 呼伦贝尔市| 延川县| 陵水| 栾城县| 溧阳市| 湖州市| 方正县| 鸡泽县| 习水县|