姚云翔, 陳 瑩
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院, 江蘇 無錫 214122)
目標(biāo)跟蹤[1]是計算機(jī)視覺領(lǐng)域中一項(xiàng)具有挑戰(zhàn)性的任務(wù),由于其在工業(yè)機(jī)器人、智能視覺導(dǎo)航[2]、智能交通[3]、戰(zhàn)場偵察[4]等方面的廣泛應(yīng)用而受到越來越多的關(guān)注。盡管近年來目標(biāo)跟蹤領(lǐng)域取得很多突破[5-7],但是其仍然面臨許多挑戰(zhàn),例如雨天、低光照度、遮擋等情況下的目標(biāo)跟蹤。這是由于傳統(tǒng)目標(biāo)跟蹤的輸入是可見光圖像,而其在上述情況下能提供的信息十分有限。
為解決這一問題,紅外與可見光(RGB -Themeral, RGB -T)跟蹤這一目標(biāo)跟蹤的分支應(yīng)運(yùn)而生。RGB -T跟蹤運(yùn)用可見光(RGB)信息和紅外(T)信息互補(bǔ)性優(yōu)勢以獲得優(yōu)秀跟蹤性能,其關(guān)鍵在于如何有效的融合利用雙模態(tài)的互補(bǔ)信息。
早期RGB-T跟蹤算法[8-9]直接將雙模態(tài)的特征級聯(lián)得到融合特征,未考慮不同模態(tài)對任務(wù)的影響,易丟失對任務(wù)有效的特征信息,引入單個模態(tài)的冗余信息。目前,RGB-T跟蹤算法主要關(guān)注于兩個方向。一是學(xué)習(xí)各個模態(tài)的魯棒特征表示,例如Li等人[10]提出了一種以局部圖像塊作為節(jié)點(diǎn)的協(xié)作圖來表示目標(biāo),學(xué)習(xí)了基于圖塊的加權(quán)RGB-T特征來融合不同模態(tài)。Li等人[11]提出了一種基于圖的跨模態(tài)排序算法,引入了一種軟跨模態(tài)一致性,以實(shí)現(xiàn)模態(tài)之間一致性排序。但這類方法依賴于手工設(shè)計的特征,而手工設(shè)計的特征難以應(yīng)對目標(biāo)的重大形變。另一種則是采用深度網(wǎng)絡(luò)提取各模態(tài)特征,之后融合多模態(tài)特征。最早方法只是使用兩支網(wǎng)絡(luò)提取各模態(tài)特征之后簡單級聯(lián)融合,例如Zhang等人[12]提出了一種基于MDNet[13]的融合思路,用兩個平行卷積網(wǎng)絡(luò)提取雙模態(tài)特征,之后級聯(lián)雙模態(tài)特征,然后送入特定域?qū)舆M(jìn)行跟蹤。目前大部分方法在提取雙模態(tài)特征后通過網(wǎng)絡(luò)產(chǎn)生反應(yīng)各個模態(tài)置信度的權(quán)重來自適應(yīng)融合多模態(tài)特征。例如,Li等人[14]采用重建殘差來規(guī)范學(xué)習(xí)模態(tài)權(quán)重學(xué)習(xí),Lan等人[15]用max-margin學(xué)習(xí)框架學(xué)習(xí)不同模態(tài)的權(quán)重和不同模態(tài)的分類,Zhu等人[16]用自適應(yīng)融合模塊,根據(jù)紅外特征和可見光特征自適應(yīng)學(xué)習(xí)兩個模態(tài)的權(quán)重,之后根據(jù)權(quán)重融合兩個模態(tài)信息,但如果模態(tài)置信度成績不能有效反映模態(tài)可靠性,將導(dǎo)致方法失敗。
針對上述問題,本文提出了一個的空間通道注意力下雙模態(tài)交互融合跟蹤網(wǎng)絡(luò)。首先級聯(lián)各層特征得到雙模態(tài)特征,然后對雙模態(tài)特征做空間通道自注意力,并通過交互注意力圖的方式進(jìn)行信息融合,級聯(lián)后得到融合特征,最后將融合特征送入全連接跟蹤模塊實(shí)現(xiàn)跟蹤。在目前最大的RGB-T跟蹤數(shù)據(jù)集RGBT234[17]的實(shí)驗(yàn)結(jié)果證明,本文提出的雙模態(tài)交互融合網(wǎng)絡(luò)能有效獲取魯棒的雙模態(tài)特征,跟蹤性能優(yōu)于當(dāng)前先進(jìn)算法。
通過深度網(wǎng)絡(luò)提取特征,計算兩個模態(tài)特征的權(quán)重然后進(jìn)行加權(quán)后級聯(lián)融合的方法相比直接級聯(lián)方法和傳統(tǒng)手工特征方法相比有很大提升,但仍有一個問題,這類方法在計算模態(tài)權(quán)重時忽略了特征通道及其空間位置的差異性,導(dǎo)致學(xué)習(xí)到的權(quán)重?zé)o法準(zhǔn)確反應(yīng)模態(tài)的可靠性,進(jìn)而嚴(yán)重影響跟蹤精度。如圖1所示,對于GTOT數(shù)據(jù)集中的BlueCar序列,RGB模態(tài)的質(zhì)量明顯比紅外模態(tài)好,但是文獻(xiàn)[14]中的模型計算出的RGB,紅外模態(tài)重構(gòu)殘差分別為37.6、32.67,給予了紅外模態(tài)更高權(quán)重。
本文提出的交互融合網(wǎng)絡(luò)框架如圖2所示,由3個模塊組成,分別為分層特征提取模塊、空間通道注意力下雙模態(tài)交互融合模塊和全連接跟蹤模塊。
1.2.1 分層特征提取網(wǎng)絡(luò)
本文baseline為MDNet[13],選擇視覺幾何組網(wǎng)絡(luò)模型(visual geometry group netwerk model,VGG -M)[18]網(wǎng)絡(luò)作為支柱,使用在ImageNet上預(yù)訓(xùn)練的VGG -M作為預(yù)訓(xùn)練模型?,F(xiàn)存網(wǎng)絡(luò)[19]大多對兩種模態(tài)采用兩個不同的模型來分別提取模態(tài)特征,但這種方法忽略了兩個模態(tài)之間的共享特征,因此會帶入大量冗余特征,降低跟蹤精度。所以本文采用參數(shù)共享的VGG -M網(wǎng)絡(luò)作為支柱來提取2種模態(tài)特征,以減少冗余特征,同時減少參數(shù)量。
淺層信息擁有豐富的細(xì)節(jié)、紋理等信息,深層信息擁有豐富的語義信息[20],都有利于跟蹤任務(wù),因此提取分層特征。為減少最大池化(MaxPooling)的信息損失,提高感受野,本文將conv2中的MaxPooling層刪去,同時將conv3改為r=3的空洞卷積[21](r為空洞率)。RGB-T分支的conv1、conv2、conv3共享參數(shù),以減少雙模態(tài)中冗余特征,減少模型參數(shù),此外每個分層輸出的特征都使用1個不共享參數(shù)的1×1卷積進(jìn)行降維,使RGB-T不同模態(tài)特征更有獨(dú)特性。為統(tǒng)一conv1、conv2、conv3分層特征的分辨率,用MaxPooling將前兩層特征的分辨率降至第3層特征的分辨率。為了保證輸出和MDNet相同采用空間對稱感興趣區(qū)域[22]將4×4分辨率的特征變?yōu)?×3分辨率。
1.2.2 空間通道交互注意力融合模塊
針對第1.1節(jié)提出的問題,受文獻(xiàn)[23]啟發(fā),在雙流跟蹤網(wǎng)絡(luò)中對雙流融合機(jī)制進(jìn)行設(shè)計,提出空間通道注意力下雙模態(tài)交互融合模塊。如圖3所示,該模塊由空間通道自注意力模塊和跨模態(tài)交互注意力模塊兩部分組成,其中空間通道自注意力模塊包含空間自注意力和通道自注意力兩部分。
特征不同通道對于任務(wù)的重要性不同,如果平等對待各個通道的信息,勢必減弱通道的表現(xiàn)能力,不利于有效跟蹤,因此通過通道自注意力對不同通道施加不同關(guān)注度,以提高特征有效性。同樣,特征不同空間位置對于任務(wù)的重要性也不同,且受感受野的限制,圖3上的每個空間位置計算出的特征都只能夠捕獲其感受野內(nèi)的局部的片面的信息,無法從圖上獲取一個全局特征。因此,論文設(shè)計空間自注意力對不同空間位置施加不同關(guān)注度,其關(guān)注度由全局特征計算而來,以提高特征對于跟蹤任務(wù)的有效性。此外,紅外與可見光信息有著很強(qiáng)的互補(bǔ)性,為了充分挖掘雙模態(tài)之間的互補(bǔ)性完成單模態(tài)難以應(yīng)對的挑戰(zhàn)情況下的跟蹤,本文設(shè)計跨模態(tài)交互注意力模塊加強(qiáng)雙模態(tài)特征的互補(bǔ)性同時交互雙模態(tài)特征信息,使融合特征更為魯棒以更好完成困難情況下的跟蹤任務(wù)。
(1) 自注意力部分
RGB-T特征通過空間和通道自注意力部分,分別計算得到各自的空間注意力特征和通道自注意力特征。與圖像分割[23]任務(wù)中設(shè)計空間自注意力時注重加強(qiáng)特征空間強(qiáng)特征不同,本文所設(shè)計的空間自注意機(jī)制更關(guān)注弱特征,以應(yīng)對跟蹤中的低光照、運(yùn)動模糊等挑戰(zhàn)。
① 空間自注意力部分
(1)
(2)
(3)
(4)
② 通道自注意力部分
(5)
(6)
(2) 交互注意力部分
交互注意力模塊本質(zhì)上就是讓RGB-T特征空間位置上更關(guān)注另一模態(tài)空間位置弱特征,以增強(qiáng)紅外與可見光信息的信息互補(bǔ)性優(yōu)勢,從而讓兩個模態(tài)的信息能夠得到交互以獲得更優(yōu)秀的魯棒特征。
(7)
(8)
(9)
1.2.3 全連接跟蹤模塊
全連接跟蹤模塊采用和MDNet的多域?qū)W習(xí)方法以獲得獨(dú)立于域(跟蹤或訓(xùn)練時每個視頻段視為一個特定域)的特征表示來進(jìn)行目標(biāo)跟蹤。該模塊由3層全連接層組成,其中最后一層FC6包含K個分支,每一支對應(yīng)一個特定域,最后一層是Softmax用以執(zhí)行二分類來區(qū)分每個特定域中的前景(目標(biāo)對象)和后景。在網(wǎng)絡(luò)訓(xùn)練過程中,通過加入實(shí)例嵌入損失使網(wǎng)絡(luò)能夠?qū)W習(xí)更有判別力的目標(biāo)表征。
在訓(xùn)練過程中,對每個域的二分類采用二元交叉熵?fù)p失,損失計算公式為
(10)
式中:N是樣本數(shù)量;pi是通過本文網(wǎng)絡(luò)產(chǎn)生的第i個樣本的預(yù)測值;yi是相關(guān)樣本的真實(shí)標(biāo)簽,如果正樣本,yi是1,如果是負(fù)樣本,則yi是0。
除此之外,還加入了一個實(shí)例嵌入損失函數(shù)來學(xué)習(xí)具有相似語義的目標(biāo)對象的更具有判別嵌入。其將每一個域當(dāng)做一個分類并且只對正樣本計算這個損失。通過迫使不同序列中的目標(biāo)對象盡可能的遠(yuǎn)離彼此來使目標(biāo)對象的嵌入更具判別性??捎妹枋鋈缦拢?/p>
(11)
式中:D是域的數(shù)量;yi,d是第i個樣本在第d個域上的真值標(biāo)簽;pi,d是在第d個域上的第i個樣本通過本文網(wǎng)絡(luò)得到的預(yù)測值。
對于本文網(wǎng)絡(luò)優(yōu)化器的最終損失函數(shù)根據(jù)下式得到
L=Lcls+αLins
(12)
式中:α是控制兩個損失函數(shù)平衡的超參數(shù),本文按照文獻(xiàn)[24]選取0.1作為α值。
為了驗(yàn)證本文提出的網(wǎng)絡(luò)的有效性,本文在RGBT234[17]數(shù)據(jù)集和GTOT[14]數(shù)據(jù)集上進(jìn)行了測試,將結(jié)果與基線網(wǎng)絡(luò)MDNet+RGB-T[13]及其他優(yōu)秀算法進(jìn)行比較。
本文提出的算法是在深度學(xué)習(xí)框架Pytorch下完成的, 實(shí)驗(yàn)所使用環(huán)境Ubuntu14.0, CUDA8.0.61, python3.6,硬件配置為TITAN XP。網(wǎng)絡(luò)的初始學(xué)習(xí)率fc層初始學(xué)習(xí)率設(shè)置為0.001,其余層設(shè)置為0.000 1,沖量為0.9,權(quán)重衰減為0.000 5。
2.1.1 訓(xùn)練細(xì)節(jié)
整個網(wǎng)絡(luò)采用端到端的方式訓(xùn)練。首先用VGG-M網(wǎng)絡(luò)的預(yù)訓(xùn)練參數(shù)對conv1、conv2、conv3這3層的參數(shù)進(jìn)行初始化。然后用SDG優(yōu)化器訓(xùn)練整個網(wǎng)絡(luò),其中每個域分別處理。訓(xùn)練的具體參數(shù)細(xì)節(jié)如下,在每次迭代中最小步長由每個視頻段中隨機(jī)選取的8幀組成(全選完前不會重復(fù))。然后這8幀圖片中選取32正樣本,96負(fù)樣本。其中正樣本指和真實(shí)邊界框交并比超過0.7的樣本,負(fù)樣本指和真實(shí)邊界框交并比低于0.5的樣本。本文用RGBT234數(shù)據(jù)集進(jìn)行訓(xùn)練,然后在GTOT數(shù)據(jù)集上進(jìn)行測試,反之亦然。
2.1.2 跟蹤設(shè)置
(13)
式中:N是候選區(qū)數(shù)量,為了兼顧精度和速度,N取256。和MDNet一樣,本文采用邊界框回歸[25]來改善跟蹤過程中目標(biāo)尺度變化問題,提高定位精度(僅在第一幀中進(jìn)行訓(xùn)練)。
2.2.1 數(shù)據(jù)集
本實(shí)驗(yàn)使用的公開數(shù)據(jù)集是目前紅外與可見光跟蹤領(lǐng)域最大的兩個數(shù)據(jù)集,GTOT數(shù)據(jù)集和 RGBT234數(shù)據(jù)集。
GTOT數(shù)據(jù)集包含50個配對的紅外與可見光視頻段,共有約15 000張圖片。每幀圖片都有真實(shí)邊界框標(biāo)注。RGBT234數(shù)據(jù)集是一個大規(guī)模數(shù)據(jù)集,該數(shù)據(jù)集包含有234個配對的紅外與可見光視頻段,共有約234 000張圖片,該數(shù)據(jù)集標(biāo)注有12個挑戰(zhàn)屬性。
2.2.2 評價指標(biāo)
本文采用兩種廣為使用的評價指標(biāo),精度(precision,PR)和成功率(success rate,SR),來評價RGB-T跟蹤算法的性能。PR是預(yù)測邊界框中心與真實(shí)邊界框中心的距離小于閾值的圖片占總圖片數(shù)的百分比。閾值對于GTOT數(shù)據(jù)集和RGBT234數(shù)據(jù)集分別為5像素和20像素(因?yàn)镚TOT數(shù)據(jù)集的目標(biāo)總體而言較小)。SR是預(yù)測邊界框和真實(shí)邊界框的交并比大于閾值的圖片占總圖片數(shù)的百分比。采用SR曲線下面積作為代表性的SR。PR和SR指標(biāo)都是越高越好。
為了證明本文所提出方法的有效性,在GTOT數(shù)據(jù)集和RGBT234數(shù)據(jù)集對算法進(jìn)行了評估。本文方法的結(jié)果和其余8種方法(MDNet[13]+RGB-T,RT-MDNet[24]+RGB-T,CSR-DCF[26]+RGB-T,KCF[27]+RGB-T,DAPNet[28],CMRT[11],SiamDW[29]+RGB-T和M5L[30])比較的結(jié)果在圖6中展示。其中文獻(xiàn)[11,13,24,28,30]是基于RGB-T的跟蹤算法,其余算法則是基于RGB的。通過圖6可以看到在GTOT數(shù)據(jù)集和RGBT234數(shù)據(jù)集上本文算法的PR/SR分別比基線MDNet高了7.8%/7.8%和5.3%/4.2%,證明了本文提出的模塊有顯著效果。所提方法在兩個數(shù)據(jù)集上與M5L、DAPNet等5個SOTA算法比較,可以看到,和DAPNet相比,所提算法在RGBT234數(shù)據(jù)集上PR高0.9%,GTOT數(shù)據(jù)集上SR低0.4%,PR高0.7%,和M5L相比,所提算法在RGBT234數(shù)據(jù)集上PR和SR分別比M5L高了0.5%和1.6%,GTOT數(shù)據(jù)集上本文算法PR低1.6%,SR高0.5%,同時PR, SR在兩個數(shù)據(jù)集上遠(yuǎn)超其余算法。本文網(wǎng)絡(luò)增強(qiáng)空間弱特征以提高例如遮擋,運(yùn)動模糊等挑戰(zhàn)情況下跟蹤性能,但模糊了特征空間位置差異,導(dǎo)致其在目標(biāo)大多較小且挑戰(zhàn)難度較低的GTOT數(shù)據(jù)集上PR較低。
在RGBT234數(shù)據(jù)集上有12種挑戰(zhàn)屬性,包括背景(BC)、相機(jī)位移(CM)、形變(DEF)、快速移動(FM)、嚴(yán)重遮擋(HO)、低光照(LI)、低分辨率(LR)、運(yùn)動模糊(MB)、無遮擋(NO)、部分遮擋(PO)、尺度變化(SV)、熱交叉(TC)。其他頂尖算法(包括RT-MDNet+RGB-T、MDNet+RGB-T、CSC-DCF+RGB-T、MEEM+RGB-T、DAPNet、M5L、CFNet+RGB-T)的比較結(jié)果列于表1中,其中每種屬性PR和SR評價的最優(yōu)結(jié)果紅色加粗,次優(yōu)結(jié)果藍(lán)色加粗。從表1中可以看出,所提算法的全部表現(xiàn)都好于基線MDNet+RGB-T以及大部分SOTA網(wǎng)絡(luò),LR、 MB、FM表現(xiàn)超過所有算法,證明通過高低層特征聚集,空間通道注意力下雙模態(tài)交互融合,同時獲得豐富的語義和細(xì)節(jié)信息,可以有效應(yīng)對低分辨率,運(yùn)動模糊,快速位移等導(dǎo)致的目標(biāo)模糊情況。此外本文算法在HO,PO上PR成績最好,SR成績分別只比第一低了0.1%和0.2%, LI、SV上SR成績最好,PR成績居于第二,說明所提網(wǎng)絡(luò)可以通過通道時空交互融合來獲得一個魯棒的特征。但同時,由于空間自注意力更關(guān)注全局而非細(xì)節(jié),導(dǎo)致如果在NO下,即無任何遮擋等挑戰(zhàn)屬性,目標(biāo)特點(diǎn)清晰的情況下,使得特征變得模糊導(dǎo)致定位不夠準(zhǔn)確??傮w而言,所提方法中的SR最優(yōu)率為各種方法中的最高,所提方法的PR最優(yōu)率與M5L持平,同樣為最高。
圖7列出了所提算法與其他3種算法在4個視頻段的比較,可以明顯看出所提算法在面對低光照,遮擋等困難條件下時表現(xiàn)優(yōu)異。在Bus6序列中當(dāng)大車遮擋小車后,除了所提算法以外其他3種算法都發(fā)生了跟蹤偏移,只有所提算法紅框仍然跟蹤到了小車。Car41序列中由于光照變化,除了所提算法外其他算法都難以準(zhǔn)確框出目標(biāo)。Diamond序列中當(dāng)樹木遮擋,人重疊發(fā)生后之后本文算法能夠繼續(xù)跟蹤到目標(biāo)。Elecbike序列中光照不足且中途目標(biāo)被車輛完全遮擋,兩種算法無法在低光照情況下實(shí)現(xiàn)有效目標(biāo)跟蹤,另一種算法在目標(biāo)被完全遮擋無法實(shí)現(xiàn)跟蹤,所提算法在低光照和完全遮擋情況下仍然實(shí)現(xiàn)了有效跟蹤。
表1 多種算法在RGBT234不同挑戰(zhàn)屬性下的PR/SR結(jié)果比較
為了公平地比較本文提出網(wǎng)絡(luò)的主要部分,本文在GTOT數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。網(wǎng)絡(luò)變體如下:
(1) Our-AGG:僅使用空間通道自注意力下跨模態(tài)融合模塊,移除分層特征提取模塊。
(2) Our-SCIF:僅使用分層特征提取模塊,移除空間通道自注意力下跨模態(tài)融合模塊。
(3) Our-AGGS:只有第3層卷積共享參數(shù),前兩層卷積不共享參數(shù)。
(4) Our-SC:移除了在空間通道注意力下跨模態(tài)融合模塊中的交互通道注意力部分。
表2為GTOT數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果,圖8為GTOT數(shù)據(jù)集上消融實(shí)驗(yàn)PR/SR結(jié)果。Our-AGG和Our-SCIF的結(jié)果都高出基線網(wǎng)絡(luò)MDNet+RGB-T,表明兩個模塊的有效性。Our-SC,Our-AGGS結(jié)果低于Our表明了交互空間注意力的融合方式的有效性,以及前三層共享參數(shù)減少冗余思路的有效性。
表2 GTOT數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果
本文目標(biāo)跟蹤能夠適應(yīng)不同天氣,有效應(yīng)對諸如目標(biāo)遮擋、低光照等各種挑戰(zhàn)的要求,提出了一個基于RGB-T雙模態(tài)的空間通道注意力下雙模態(tài)交互融合網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果證明,在目前最大的RGB-T跟蹤數(shù)據(jù)集上所提算法相較于其他算法獲得了更高的PR/SR率,能為目標(biāo)跟蹤提供RGB-T互補(bǔ)的模態(tài)信息,以應(yīng)對目標(biāo)跟蹤全天候及困難情況下的跟蹤。在未來考慮通過改進(jìn)網(wǎng)絡(luò)架構(gòu)來解決當(dāng)前網(wǎng)絡(luò)對細(xì)節(jié)捕捉不足導(dǎo)致某些情況下(尤其是無任何挑戰(zhàn)情況下)跟蹤偏移的問題。