張?zhí)烨?劉明華,何 博,邵洪波
(青島科技大學(xué) 信息科學(xué)技術(shù)學(xué)院,山東 青島 266061)
在計(jì)算機(jī)視覺任務(wù)中,目標(biāo)跟蹤定義為給定視頻初始幀的目標(biāo)位置,預(yù)測后續(xù)視頻序列的目標(biāo)狀態(tài)[1]。它被廣泛地應(yīng)用于智能視頻監(jiān)控、無人機(jī)、機(jī)器人等[2],是計(jì)算機(jī)視覺的一個(gè)重要研究方向。如何在光照變化、遮擋形變、相似目標(biāo)、尺度變化、運(yùn)動(dòng)突變等復(fù)雜場景中,準(zhǔn)確、快速地跟蹤目標(biāo)是亟待解決的問題[3],其中遮擋是導(dǎo)致目標(biāo)跟蹤失敗最普遍的問題。
為應(yīng)對(duì)局部遮擋問題,陳勇等[4]使用提出的注意網(wǎng)絡(luò)融合淺層和深層特征,進(jìn)而引導(dǎo)模型更多關(guān)注被遮擋目標(biāo)可視區(qū)域。王蓓等[5]判斷目標(biāo)是否被遮擋的方法是平均峰值相關(guān)能量遮擋判據(jù),目標(biāo)出現(xiàn)遮擋時(shí),該算法依據(jù)目標(biāo)的歷史運(yùn)動(dòng)軌跡使用濾波修正目標(biāo)位置。姜文濤等[6]提出異常分析機(jī)制來判斷目標(biāo)是否被遮擋,設(shè)計(jì)響應(yīng)模型和響應(yīng)圖做對(duì)比,二者差距大即說明目標(biāo)存在遮擋或形變等異常。分塊算法能有效地應(yīng)對(duì)遮擋問題。劉明華等[7]利用超像素分塊的模式不變性,得到能很好地保持目標(biāo)邊界和空間結(jié)構(gòu)特征的自適應(yīng)目標(biāo)子塊;遮擋處理方面,使用目標(biāo)相似性度量和超像素判別處理每個(gè)目標(biāo)子塊??紤]到局部模型和全局模型的聯(lián)系,張衛(wèi)峰等[8]使用局部濾波器粗略估計(jì)目標(biāo)位置,再由全局濾波器準(zhǔn)確定位目標(biāo)。王任華等[9]利用局部分塊應(yīng)對(duì)遮擋,聯(lián)合全局模型應(yīng)對(duì)目標(biāo)的大幅度形變。局部和全局模型的聯(lián)合實(shí)現(xiàn)了魯棒的目標(biāo)跟蹤。以上方法從遮擋識(shí)別機(jī)制的設(shè)計(jì)到分塊算法,再到聯(lián)合全局模型處理遮擋,一定程度提升模型在遮擋場景中跟蹤的性能,然而遮擋圖片數(shù)據(jù)集有限限制了上述算法性能的提升,遮擋數(shù)據(jù)集有限導(dǎo)致模型很難學(xué)習(xí)到豐富的遮擋圖像特征,導(dǎo)致其識(shí)別能力在面對(duì)不同類型的遮擋場景時(shí)難以得到較好的體現(xiàn)。同時(shí),遮擋情況的多樣性和復(fù)雜性也會(huì)導(dǎo)致模型的泛化能力下降,遮擋場景下,模型往往會(huì)出現(xiàn)漏檢或誤檢的情況。此外,由于過度擬合的情況常常在較小的數(shù)據(jù)集中出現(xiàn),遮擋圖片數(shù)據(jù)集有限也會(huì)引發(fā)此類問題,使模型難以泛化到新的場景并保持高精度跟蹤的效果。為了解決這些問題,需要引入更多的具有豐富變化的遮擋樣本數(shù)據(jù),或者采用更為先進(jìn)的數(shù)據(jù)增強(qiáng)技術(shù)或網(wǎng)絡(luò)優(yōu)化算法以提高模型在遮擋場景下的抗干擾能力,因此本工作通過生成隨機(jī)遮擋塊,擴(kuò)充負(fù)樣本數(shù)據(jù)集,提升模型在遮擋情況下對(duì)判別性特征的提取能力,進(jìn)而提升模型在遮擋場景下的抗干擾能力。
注意力機(jī)制利用特征增強(qiáng)模塊篩選特征,為目標(biāo)特征賦予高權(quán)重,從而引導(dǎo)跟蹤器關(guān)注重要信息,忽略干擾信息。HU 等[10]提出擠壓激勵(lì)模塊(squeeze and excitation module,SE),通過給通道加權(quán)顯式地建模特征通道間的依賴關(guān)系。PARK等[11]提出瓶頸注意模塊(bottleneck attention module,BAM),增加卷積模塊操作的空間注意力機(jī)制,與通道注意力機(jī)制并行,進(jìn)一步優(yōu)化目標(biāo)特征。鑒于SE 模型忽略了目標(biāo)在特征圖中的位置信息,HOU 等[12]提出協(xié)調(diào)注意力(coordinate attention,CA)模塊,該模塊使用平均池化獲取并拼接特征圖的縱向和橫向上的信息,最后重標(biāo)定特征圖。對(duì)比SE模型,精度提升的同時(shí),參數(shù)和計(jì)算量更少。呂振虎等[13]在DiceNet[14]使用的卷積方法基礎(chǔ)之上提出了基于擠壓激勵(lì)的輕量化注意力機(jī)制模塊,獲取到特征圖在高度維度上的有用信息,證明了特征圖中仍存在著可利用的信息。從SE的通道注意力到BAM 的空間注意力,以及后來的協(xié)調(diào)注意力,都未能充分挖掘和融合特征圖中的信息,導(dǎo)致跟蹤器難以準(zhǔn)確提取目標(biāo)的特征造成跟蹤失敗,另外在處理部分遮擋、形變、旋轉(zhuǎn)或尺度變化等情況時(shí)表現(xiàn)較差,導(dǎo)致魯棒性下降,從而降低跟蹤模型的可靠性和穩(wěn)定性。因此,在目標(biāo)跟蹤中,必須充分挖掘特征圖中的信息,以提高跟蹤模型的效果,因此本工作從特征圖的三個(gè)維度去捕獲有用信息,聯(lián)合空間注意力模塊,充分挖掘并融合特征圖信息,提升模型應(yīng)用精度。
本工作提出一種基于多注意力融合的抗遮擋目標(biāo)跟蹤方法(anti-occlusion target tracking based on multi-attention fusion,AOTMAF)。并在GOT-10k等多個(gè)公開數(shù)據(jù)集上驗(yàn)證了模型的有效性。
基于多注意力融合的抗遮擋跟蹤方法總體框架如圖1所示,網(wǎng)絡(luò)由骨干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和預(yù)測頭三個(gè)部分組成。主干網(wǎng)絡(luò)首先,提取模板和搜索區(qū)域的特征;然后,利用特征融合網(wǎng)絡(luò)對(duì)特征融合,最后,預(yù)測頭對(duì)增強(qiáng)的特征進(jìn)行二值分類和邊界盒回歸,生成跟蹤結(jié)果。
圖1 基于多注意力融合的抗遮擋目標(biāo)跟蹤框架Fig.1 Anti-occlusion target tracking framework based on multi-attention fusion
1.1.1 特征抽取
與基于Siam 框架的跟蹤器類似,提議的網(wǎng)絡(luò)使用成對(duì)的圖像塊(即模板和搜索區(qū)域)作為輸入。模板是視頻序列第一幀中目標(biāo)中心邊長的2倍放大圖,包含了目標(biāo)的外觀及其鄰近環(huán)境的信息。前一幀圖像中目標(biāo)中心坐標(biāo)的邊長被放大4倍,形成搜索區(qū)域,該區(qū)域覆蓋了目標(biāo)可能的運(yùn)動(dòng)范圍。搜索區(qū)域和模板都被轉(zhuǎn)換為正方形。緊接著,搜索圖像經(jīng)過漸進(jìn)式隨機(jī)遮擋模塊(progressive random occlusion module,PRO)處理,得到遮擋圖像,將遮擋圖像和模板圖像送入主干網(wǎng)絡(luò)處理。隨機(jī)遮擋模塊具體實(shí)現(xiàn)細(xì)節(jié)見1.2節(jié)。
本工作調(diào)整Res Net50用于特征提取。更具體地說,Res Net50的最后一個(gè)階段被刪除,第四階段的輸出被用作動(dòng)態(tài)輸出。第四階段的卷積步幅從2降到1,以達(dá)到更好的特征分辨率。為增加感受野,第四階段的3×3卷積也被改為2步幅。骨干網(wǎng)對(duì)遮擋搜索區(qū)域和模板進(jìn)行處理,以獲得其特征映射
1.1.2 特征融合網(wǎng)絡(luò)
本工作設(shè)計(jì)了一種特征融合網(wǎng)絡(luò),有效地增強(qiáng)并融合特征f z和f x。首先將特征表達(dá)送入多注意力融合模塊,獲得重要通道和目標(biāo)所在空間的信息;再送入特征融合模塊,融合多層卷積后輸出的特征,特征的多樣性得到提升,進(jìn)而提升模型性能。
多注意力融合模塊由三維度通道注意力和空間注意力組成。利用三維度通道注意力機(jī)制可以從三個(gè)維度捕獲特征圖有用信息,利用空間注意力機(jī)制可以引導(dǎo)模型關(guān)注特征圖空間信息,將基于三維度的通道注意力機(jī)制和空間注意力機(jī)制融合,在保持特征通道間關(guān)聯(lián)性的同時(shí)保留了特征圖的空間信息。多注意力融合模塊的具體實(shí)現(xiàn)細(xì)節(jié)見1.3。
1.1.3 預(yù)測頭網(wǎng)絡(luò)
分類和回歸分支組成預(yù)測頭,每個(gè)分支包含一個(gè)三層感知器和一個(gè)Re Lu激活函數(shù),感知器的隱藏維度為d。經(jīng)由特征融合網(wǎng)絡(luò)輸出特征圖(f∈Rd×H x Wx),預(yù)測頭對(duì)該特征圖中每個(gè)向量預(yù)測,分別得到H x W x個(gè)前/背景分類結(jié)果以及H x W x對(duì)搜索區(qū)域大小的歸一化坐標(biāo)。算法直接預(yù)測歸一化的坐標(biāo),根據(jù)先驗(yàn)知識(shí)完全消除了錨點(diǎn)和錨盒,這使得框架更加簡單。
圖像裁剪和遮擋等數(shù)據(jù)增強(qiáng)方法可以提高模型的魯棒性和通用性,但對(duì)于困難的訓(xùn)練樣本,這種方法對(duì)性能提高是有限的。為了更好地模擬遮擋圖像,本算法嵌入漸進(jìn)式遮擋模塊PRO。隨著學(xué)習(xí)次數(shù)的增加,網(wǎng)絡(luò)學(xué)習(xí)能力提升,PRO 漸進(jìn)式地對(duì)一些圖像區(qū)域進(jìn)行隨機(jī)遮擋,提升模型在遮擋情況下對(duì)判別性特征的提取能力。
給定一個(gè)圖像X∈R3×H×W,PRO 在X中隨機(jī)生成i個(gè)遮擋區(qū)域的塊P i。每個(gè)塊P i的面積為S i,塊P i的總面積為S,其中H和W是圖像的長度和寬度。i是區(qū)塊的數(shù)量,P i是區(qū)塊的數(shù)量。遮擋塊的生成過程如下:
1)圖像的面積為S o=H×W,隨機(jī)初始化生成S0,其中S0∈[s l×S,s h×S],s l、s h分別為最小和最大面積遮擋系數(shù)。
4)區(qū)域P i=(x i,y i,x i+h i,y i+w i)為遮擋區(qū)域。生成一個(gè)[0,255]的隨機(jī)值填充區(qū)域P i的像素點(diǎn),最終得到一個(gè)人工遮擋特征張量模擬遭受遮擋的圖像Xobscure。
如圖2 所示,每5 個(gè)訓(xùn)練輪次,遮擋塊數(shù)量翻倍,S隨著輪次的增加而增大。
圖2 基于批次的漸進(jìn)式隨機(jī)遮擋塊Fig.2 Batch-based progressive random occlusion block
遮擋圖像Xobscure通過主干網(wǎng)得到特征圖F_obscure,F_obscure經(jīng)過多注意力融合模塊 進(jìn)一步提取精煉特征與通過二值降維的mask按照元素級(jí)的操作乘法得到Fmask,Fmask與作為MSELoss 的輸入,Fmask通過計(jì)算MSELoss對(duì)F_obscure進(jìn) 行監(jiān)督。該損失函數(shù)使遮擋的區(qū)域?qū)?yīng)于特征盡可能為0,使模型在反向傳播中忽略生成的遮擋區(qū)域O i。該損失函數(shù)如下:
然后F'_obscure通 過3×3卷積層、批次歸一化層以及ReLU 層,最終得到特征圖Fobscure∈R32×24×8。該分支起到了提取局部非顯著性特征的作用。
其中:W O和b O分別為卷積層的權(quán)重和偏置。
通過融合三維度通道注意力和空間注意力機(jī)制,能有效抑制背景噪聲,強(qiáng)調(diào)目標(biāo)區(qū)域,充分挖掘并融合目標(biāo)特征,算法的跟蹤性能得到提升。本節(jié)介紹多注意力融合模型(muti-attention fusion,MAF)的細(xì)節(jié),如圖3所示。
圖3 多注意力融合機(jī)制Fig.3 Multi-attention fusion mechanism
1.3.1 HD-SE模塊和WD-SE模塊
對(duì)于一個(gè)三維特征圖張量F∈RC×H×W,不同于擠壓激勵(lì)操作在深度維度上加權(quán)特征圖的通道信息,HD-SE是在高度維度處理特征圖。具體地,首先將特征圖按高度維度轉(zhuǎn)置,得到F1∈RH×C×W輸入到HD-SE中,接著對(duì)F1進(jìn)行擠壓激勵(lì)操作,得到基于高度維度的道道權(quán)重系數(shù),基于此對(duì)輸入特征圖F1重標(biāo)定,應(yīng)用懲罰系數(shù)b,最后將特征圖轉(zhuǎn)置回來。懲罰系數(shù)是為了降低由于轉(zhuǎn)置操作帶來的干擾信息對(duì)特征的影響。
圖4為HD-SE 結(jié)構(gòu)圖。其中Fsq(·) 為擠壓操作,Fex(·,W)為激勵(lì)操作,Fscale(·,·)為特征重標(biāo)定操作,β為懲罰系數(shù)。WD-SE 則是在寬度維度上對(duì)特征圖轉(zhuǎn)置,后續(xù)操作相同,該模塊實(shí)現(xiàn)從特征圖的高度維度去捕獲有用信息。
圖4 HD-SE結(jié)構(gòu)Fig.4 HD-SE structure
分別得到從三個(gè)維度通道增強(qiáng)的特征,將這三個(gè)特征圖Concat在一起,即得通道數(shù)為3×256,大小為7×7的特征圖;最后,用Conv Transpose2d操作,得到大小為7×7×256的特征圖F c,該特征圖具備三個(gè)維度通道增強(qiáng)信息,接著將增強(qiáng)特征圖送入空間注意力模塊。
1.3.2 空間注意力機(jī)制
空間注意力機(jī)制可以對(duì)目標(biāo)中的特征聚焦,通過賦予特征圖不同位置的重要性,增強(qiáng)重要區(qū)域,抑制不重要區(qū)域,增加了特征間的判別性,進(jìn)而將跟蹤目標(biāo)從復(fù)雜的背景下區(qū)分出來。
在本工作的模型中,將三維度通道注意力模型輸出的特征圖作為空間注意力機(jī)制模塊的輸入特征圖。如圖5 所示,首先分別使用最大池化(maxpooling)和平均池化(meanpooling)操作壓縮輸入特征圖通道域特征,接著為消除通道間信息分布對(duì)空間注意力機(jī)制的影響,使用卷積操作壓縮多通道特征為單通道特征,然后應(yīng)用激活函數(shù)歸一化權(quán)重,最后進(jìn)行特征重標(biāo)定,得到具有空間權(quán)重信息的特征圖。
圖5 空間注意力機(jī)制Fig.5 Spatial attention mechanism
空間注意力模塊的運(yùn)算過程:
其中,Fc為輸入特征圖,δ是sigmoid激活函數(shù),f3×3是卷積核大小為3 的卷積層,AvgPool(·)和Max Pool(·)分別表示平均池化和最大池化操作。
訓(xùn)練完成后保存網(wǎng)絡(luò)參數(shù),在跟蹤時(shí)使用。跟蹤流程如下:
1) 從第一幀圖片中,以跟蹤目標(biāo)的中心點(diǎn)截取127×127的區(qū)域,作為template。
2) 在隨后的圖片中,以上一幀跟蹤目標(biāo)的中心點(diǎn)截取255×255的區(qū)域,作為search region。
3) 將template,search送入RPN 網(wǎng)絡(luò)預(yù)測出目標(biāo)的box和score。
4) 對(duì)score進(jìn)行window penalty,即采用窗函數(shù)(漢寧窗,余弦窗等)對(duì)距離中心點(diǎn)較遠(yuǎn)的邊緣區(qū)域分?jǐn)?shù)進(jìn)行懲罰。
5) 取分?jǐn)?shù)最高的box中心點(diǎn)作為新的中心點(diǎn),上一幀目標(biāo)的寬高和box的寬高進(jìn)行平滑加權(quán)作為新的寬高。
6) 采用新的中心點(diǎn)和寬高作為當(dāng)前幀的box。
本章在OTB100、VOT2018 和GOT-10k 3 個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上測試了算法的性能,并與幾種先進(jìn)的目標(biāo)跟蹤算法進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,本章提出的算法具有良好的跟蹤性能。進(jìn)行了消融實(shí)驗(yàn)以驗(yàn)證提出的模塊組件對(duì)性能的提升。
本工作采用ResNet-50作為主干網(wǎng)絡(luò)的預(yù)訓(xùn)練模型。采用批量隨機(jī)梯度下降對(duì)模型進(jìn)行訓(xùn)練,批次大小為32。本工作使用權(quán)重衰減改變學(xué)習(xí)率,前5個(gè)迭代過程利用熱身訓(xùn)練,其中初始學(xué)習(xí)率為0.001,隨后每個(gè)迭代過程增加0.001,熱身結(jié)束后采用學(xué)習(xí)率梯度下降對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。共計(jì)20輪迭代過程,網(wǎng)絡(luò)總體訓(xùn)練時(shí)間為50 h,實(shí)驗(yàn)中使用的深度學(xué)習(xí)框架pytorch為1.11.0版本,python為3.8 版 本,GPU 為NVIDIA GeForce RTX2070,CUDA 為11.3.1版本,Cudnn為8.2.1。
OTB100數(shù)據(jù)集由100個(gè)人工標(biāo)注的跟蹤視頻組成,這些視頻包含背景混合、光照、遮擋等目標(biāo)跟蹤任務(wù)中常見的困難和挑戰(zhàn)。該數(shù)據(jù)集的兩個(gè)評(píng)價(jià)指標(biāo)為準(zhǔn)確率(precision)和成功率(success rate)。計(jì)算預(yù)測框和人工標(biāo)注框中心點(diǎn)的距離,該距離小于一定閾值時(shí)的視頻幀數(shù)占總幀數(shù)的比率定義為準(zhǔn)確率。計(jì)算預(yù)測框與真實(shí)框重疊的數(shù)值,該數(shù)值大于設(shè)定閾值即判定當(dāng)前幀為跟蹤成功,成功率即成功幀數(shù)與所有幀數(shù)的比值。通過在OTB100 數(shù)據(jù)集上利用一次通過測試OPE對(duì)本算法與Siam RPN++、DeepSRDCF、DaSiam RPN、CFNet、Siam FC、Siam FC++等6種算法進(jìn)行比較,圖6左圖為準(zhǔn)確率曲線圖,右圖為成功率曲線圖。本章算法的準(zhǔn)確率超過基于Transformer的Trans T[16]1.3個(gè)百分點(diǎn),排名第一,成功率為68.8%,性能表現(xiàn)良好。
圖6 在OTB100上的精確率圖和成功率圖Fig.6 Accuracy and success rates on OTB100
VOT2018包含60個(gè)人工精確標(biāo)注的短時(shí)跟蹤視頻序列,該數(shù)據(jù)集包括3個(gè)性能分析指標(biāo),分別是魯棒性(robustness,R)、準(zhǔn)確率(accuracy,A)及期望平均重疊率(expected average overlap,EAO)。魯棒性用來衡量跟蹤失敗次數(shù);計(jì)算預(yù)測框和真實(shí)框重疊率,取平均值計(jì)為準(zhǔn)確率;期望平均重疊率是通過計(jì)算跟蹤器在大量的具有相同視覺特性的短期序列上所期望得到的平均重疊率。表1給出了AOTMAF算法與其他跟蹤算法的測試結(jié)果。AOTMAF的EAO 指標(biāo)達(dá)到0.489,排名第一,超過基于Transformer的Tr Di MP[17]2.7個(gè)百分點(diǎn)。
表1 VOT2018上與多個(gè)跟蹤器對(duì)比Table 1 Comparison with multiple trackers on VOT2018
GOT-10k是一個(gè)包含了超過10 000條視頻序列的大型多場景數(shù)據(jù)集,共包含560多個(gè)類別。該數(shù)據(jù)集的兩個(gè)評(píng)價(jià)指標(biāo)為平均重合率(average overlap,AO)和成功率(success rate,SR)。預(yù)測框與和真實(shí)框交并比取平均值計(jì)為AO,重疊率超過一定閾值下幀數(shù)的百分比計(jì)為成功率,閾值取0.5和0.75。從表2可以看出AOTMAF算法的AO 指標(biāo)值為64.4,超過ATOM[21]8.8個(gè)百分點(diǎn),超過基于時(shí)空記憶網(wǎng)絡(luò)的無模板視覺跟蹤器STMTracker[22]0.2個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明AOTMAF算法在不同類別目標(biāo)跟蹤任務(wù)中有著良好的性能。
表2 GOT-10k上與多個(gè)跟蹤器對(duì)比Table 2 Comparison with multiple trackers on GOT-10k
如表3中所示,本算法可以以超過86幀·s-1的速度實(shí)時(shí)運(yùn)行,該算法速度超過基于Transformer的STARK,而計(jì)算量和參數(shù)量與之持平,主要因?yàn)镠D-SE與WD-SE模塊是輕量級(jí)結(jié)構(gòu),對(duì)網(wǎng)絡(luò)增加的參數(shù)量和計(jì)算量可以忽略不計(jì)。
表3 參數(shù)量、運(yùn)算量和速度對(duì)比Table 3 Comparison about the speed,FLOPs and Params
為了進(jìn)一步驗(yàn)證本章跟蹤方法中漸進(jìn)式隨機(jī)遮擋模塊(PRO)、多注意力融合模塊(MAF)的有效性,本小節(jié)在OTB100、VOT2018 和GOT-10K 數(shù)據(jù)集上開展消融實(shí)驗(yàn)。如圖7 所示,算法在OTB100數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),其中Base是指除去PRO 和MAF模塊的算法。對(duì)比Siam FC 算法,PRO 和MAF 在跟蹤精度上分別比Siam FC 提高7.4%和5.1%,驗(yàn)證了本研究所提模塊的有效性。
圖7 OTB100上消融實(shí)驗(yàn)Fig.7 Ablation study on OTB100
表4 展示了不同的模塊設(shè)計(jì)在VOT2018 和GOT-10K 上進(jìn)行消融實(shí)驗(yàn)所得到的跟蹤模型的性能對(duì)比。由表4中可以看出,當(dāng)算法僅引入PRO 模塊時(shí),跟蹤器在VOT2018上3項(xiàng)指標(biāo)上均有提升,在準(zhǔn)確度上達(dá)到了64.0%,在魯棒性和EAO 上分別提升了0.8%、0.5%;跟蹤器在GOT-10K 的平均重疊提升了1.4%。
表4 VOT2018與GOT-10K 上消融研究Table 4 Ablation study on VOT2018 and GOT-10K
當(dāng)僅采用MAF模塊時(shí),算法在VOT2018上的跟蹤結(jié)果保持了準(zhǔn)確度的同時(shí),在魯棒性和EAO上表現(xiàn)較好,分別達(dá)到了18.9%、48.4%;在GOT-10K 的平均重疊提升了1.6%。而當(dāng)算法同時(shí)采用RPO 模塊和MAF 模塊時(shí),算法的跟蹤效果最好,在VOT2018數(shù)據(jù)集的精確度、魯棒性和EAO 指標(biāo)上分別達(dá)到了64.0%、18.1%、48.9%,在魯棒性和EAO 上提升明顯;在GOT-10K 的平均重疊提升2.2%。各性能指標(biāo)的提升是因?yàn)镻RO 模塊能夠由易到難地訓(xùn)練模型識(shí)別遮擋圖像,提升了模型在遮擋情況下對(duì)判別性特征的提取能力,有效減少背景的干擾,使網(wǎng)絡(luò)更具有魯棒性。另外HD-SE 模塊及WD-SE模塊在特征圖的高度維度與寬度維度進(jìn)行擠壓激勵(lì)捕獲特征圖中信息,充分挖掘和融合特征圖中的有用信息,提升模型跟蹤性能。結(jié)合以上兩點(diǎn)分析以及消融實(shí)驗(yàn)結(jié)果,說明充分利用特征圖信息以及隨機(jī)遮擋塊的生成,使得本算法能很好的適應(yīng)目標(biāo)表觀變化和遮擋影響,有效提高復(fù)雜環(huán)境下跟蹤的精確性和魯棒性。
本研究提出了一種基于多注意力融合的抗遮擋目標(biāo)跟蹤算法,主要解決特征挖掘不充分以及模型在遮擋情況下判別性特征的提取能力較弱兩類問題。本研究從特征圖的三個(gè)維度去捕獲有用信息,融合了特征三個(gè)維度的通道注意力及空間注意力,進(jìn)一步挖掘了特征圖通道信息,并對(duì)特征圖中每個(gè)位置的空間依賴性進(jìn)行聚合,模型應(yīng)用精度得到提升。使用PRO 模塊,更好地模擬遮擋圖片,使網(wǎng)絡(luò)在遮擋情況下,能夠?qū)哂休^少顯著特征的圖片有更好的識(shí)別率。下一步工作將探索如何更好地生成遮擋區(qū)域,進(jìn)行精準(zhǔn)化遮擋,進(jìn)而更加有效地將背景信息和前景信息區(qū)分開,以生成更有價(jià)值的遮擋圖像,從而進(jìn)一步提高模型的準(zhǔn)確率。