楊帥東,諶海云,徐釩誠(chéng),趙書(shū)朵,袁杰敏
(西南石油大學(xué)電氣信息學(xué)院,成都 610500)
在智能化時(shí)代,無(wú)人機(jī)被廣泛應(yīng)用在無(wú)人駕駛、航空拍攝、交通監(jiān)控[1]、農(nóng)藥噴灑、目標(biāo)跟隨、人機(jī)交互[2]、自動(dòng)駕駛等領(lǐng)域。無(wú)人機(jī)目標(biāo)跟蹤是基于視頻圖像對(duì)感興趣區(qū)域進(jìn)行篩選和定位的技術(shù)。在復(fù)雜場(chǎng)景下,無(wú)人機(jī)圖像跟蹤受光照、遮擋、小目標(biāo)迅速移動(dòng)等影響,導(dǎo)致跟蹤效果不佳,因此,提高其穩(wěn)定性及可靠性成為當(dāng)前的研究熱點(diǎn)。
無(wú)人機(jī)跟蹤目標(biāo)移動(dòng)迅速且跟蹤目標(biāo)通常較小,存在目標(biāo)遮擋的問(wèn)題。視覺(jué)跟蹤是根據(jù)當(dāng)前視頻圖像第一幀[3]給出的邊界框,準(zhǔn)確估計(jì)目標(biāo)對(duì)象在后續(xù)幀中視頻圖像位置的過(guò)程。目標(biāo)跟蹤算法有均值漂移算法[4]、光流法等。基于相關(guān)濾波的目標(biāo)跟蹤算法起源于MOSS[5]算法,其將相關(guān)濾波引入目標(biāo)跟蹤算法中,CSK[6]算法引入核循環(huán)矩陣,通過(guò)計(jì)算高斯核相關(guān)矩陣判斷相鄰兩幀之間的相似度,進(jìn)而實(shí)現(xiàn)目標(biāo)跟蹤。KCF[7]算法引入核技巧以及多通道特征處理方式進(jìn)行目標(biāo)跟蹤,大大簡(jiǎn)化了在跟蹤過(guò)程中的計(jì)算量,奠定了相關(guān)濾波目標(biāo)跟蹤算法的理論與實(shí)踐基礎(chǔ),例如SAMF[8]、DSST[9]、SRDCF[10]、BACF[11]、STRCF[12]等。文獻(xiàn)[13]提出的AlexNet 網(wǎng)絡(luò),是深度學(xué)習(xí)發(fā)展的重要階段,深度學(xué)習(xí)中以SiamFC[14]為代表的相關(guān)目標(biāo)跟蹤算法在精度和速度取得很好的平衡,采用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)模板幀與測(cè)試幀匹配進(jìn)行相似性度量,對(duì)目標(biāo)進(jìn)行后續(xù)定位。SiamRPN[15]在SiamFC 的基礎(chǔ)上通過(guò)加入?yún)^(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)解決原始的多尺度問(wèn)題。很多工作都是基于SiamRPN完成,以提高模型的泛化和判別能力,DaSiamPRN[16]在訓(xùn)練階段不僅擴(kuò)大訓(xùn)練數(shù)據(jù),而且加入不同類(lèi)別和相同類(lèi)別的困難負(fù)樣本以提升跟蹤性能。SiamDW[17]對(duì)特征提取主干網(wǎng)絡(luò)進(jìn)行加深,如ResNet[18]、VGG[19]、ResNeXt[20]等,使得VGG 等網(wǎng)絡(luò)可以提取更深層次的語(yǔ)義信息。文獻(xiàn)[21]提出SiamRPN++網(wǎng)絡(luò)以解決絕對(duì)平移不變性的問(wèn)題,采用空間感知采樣策略打破空間不變性。SiamC-RPN[22]級(jí)聯(lián)多個(gè)RPN 網(wǎng)絡(luò),加深網(wǎng)絡(luò)結(jié)構(gòu)以充分利用深層與淺層特征信息,使得對(duì)目標(biāo)的定位和檢測(cè)框的回歸更精確。但是這些孿生網(wǎng)絡(luò)都是在加深網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行特征提取,沒(méi)有充分考慮到網(wǎng)絡(luò)本身的空間特征信息和上下文聯(lián)系,跟蹤精度的提高主要依賴(lài)網(wǎng)絡(luò)深度和模型復(fù)雜度,導(dǎo)致網(wǎng)絡(luò)更為復(fù)雜,大輻降低模型的跟蹤速度。
本文考慮空間語(yǔ)義信息對(duì)網(wǎng)絡(luò)的影響,基于SiamRPN 算法提出一種新的目標(biāo)跟蹤算法DAPSiamRPN。通過(guò)加入通道注意力機(jī)制和條帶空間池以提升跟蹤的精確率和成功率,并優(yōu)化原始算法中交并比計(jì)算方法,運(yùn)用距離交并比機(jī)制解決目標(biāo)預(yù)測(cè)框訓(xùn)練發(fā)散問(wèn)題。
在目標(biāo)跟蹤中,孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法通過(guò)模板幀與測(cè)試幀的相似性匹配,完成最終目標(biāo)跟蹤任務(wù)。因卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對(duì)視頻圖像特征提取表現(xiàn)較優(yōu),推動(dòng)計(jì)算機(jī)視覺(jué)對(duì)各類(lèi)任務(wù)的發(fā)展。近年來(lái),CNN 被廣泛應(yīng)用在目標(biāo)識(shí)別、檢測(cè)和視頻分割中,CNN 預(yù)訓(xùn)練一個(gè)模型,將訓(xùn)練好的模型應(yīng)用在圖像處理中。
AlexNet 網(wǎng)絡(luò)推動(dòng)了深度學(xué)習(xí)的發(fā)展,SiamFC的出現(xiàn)推動(dòng)了目標(biāo)跟蹤領(lǐng)域從相關(guān)濾波到深度學(xué)習(xí)的蔓延。將ImageNet[23]作為訓(xùn)練數(shù)據(jù)完成模型訓(xùn)練,通過(guò)全卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行目標(biāo)特征提取以完成后續(xù)跟蹤任務(wù)。首先,對(duì)第一幀視頻圖像進(jìn)行剪裁作為模板的提取,提供目標(biāo)準(zhǔn)確位置;其次,在后續(xù)視頻幀中進(jìn)行候選區(qū)域搜索,匹配響應(yīng)最大的目標(biāo)框得分;最終,孿生網(wǎng)絡(luò)利用相似性學(xué)習(xí)函數(shù)進(jìn)行模板匹配,得出最終目標(biāo)的真實(shí)位置,完成跟蹤任務(wù)。相似性學(xué)習(xí)函數(shù)如式(1)所示:
其中:x、z分別為目標(biāo)模板圖像和目標(biāo)搜索區(qū)域圖像;*為圖像卷積操作;bI為圖像中每個(gè)位置的值;φ為由神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。函數(shù)的輸出并不是一個(gè)純向量,而是有空間信息的特征映射。由于在訓(xùn)練過(guò)程中正樣本較少,不可避免會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,邊界框并沒(méi)有進(jìn)行回歸調(diào)整。因此,在跟蹤過(guò)程中易發(fā)生目標(biāo)的漂移。
雖然在訓(xùn)練階段孿生網(wǎng)絡(luò)會(huì)進(jìn)行大量計(jì)算,消耗較多時(shí)間,但訓(xùn)練出的模型在跟蹤過(guò)程中具有較高的快速性和準(zhǔn)確性,是研究者未來(lái)重點(diǎn)研究方向。因加入邊界框的回歸,SiamRPN 的出現(xiàn)取得了良好的跟蹤效果,但并沒(méi)有考慮網(wǎng)絡(luò)本身對(duì)空間信息的利用。因此,在目標(biāo)發(fā)生光照變化、背景干擾、遮擋等問(wèn)題時(shí),模型會(huì)發(fā)生目標(biāo)漂移情況。
注意力機(jī)制主要分為通道注意力機(jī)制和空間注意力機(jī)制。通道注意力機(jī)制是在不同任務(wù)中找到不同功能間的相關(guān)性,并突出一些重要功能。在跟蹤過(guò)程中,高層卷積可以將每個(gè)通道視為一種分類(lèi)任務(wù),各通道間存在相互依賴(lài)關(guān)系,通過(guò)調(diào)節(jié)各通道間所占比重,使其相互建立依賴(lài)關(guān)系進(jìn)而加強(qiáng)對(duì)目標(biāo)特征的提取??臻g注意力機(jī)制主要對(duì)特征圖中每個(gè)位置的特征信息進(jìn)行加權(quán),然后將輸入特征信息與加權(quán)后的位置信息進(jìn)行相乘或相加,進(jìn)一步加強(qiáng)目標(biāo)特征的提取能力。傳統(tǒng)孿生網(wǎng)絡(luò)并沒(méi)有考慮網(wǎng)絡(luò)中通道信息和空間位置信息對(duì)目標(biāo)特征提取能力的影響,常采用更深層次的卷積結(jié)構(gòu)增強(qiáng)目標(biāo)特征的提取。在跟蹤過(guò)程中,因圖像需要進(jìn)行填充操作,在特征提取時(shí)會(huì)導(dǎo)致網(wǎng)絡(luò)平移不變性[21]被破壞。同時(shí),加深網(wǎng)絡(luò)結(jié)構(gòu)和提升模型的復(fù)雜度將大輻降低模型的跟蹤速度。
注意力機(jī)制能夠捕捉時(shí)空上下文的依賴(lài)關(guān)系,對(duì)空間維度信息與特征維度上的信息進(jìn)行融合,以提取視覺(jué)場(chǎng)景中的局部或全局信息,廣泛應(yīng)用在目標(biāo)檢測(cè)、目標(biāo)分割、語(yǔ)義分割等領(lǐng)域[24-26],在圖像中對(duì)每個(gè)像素點(diǎn)分配語(yǔ)義標(biāo)簽,擴(kuò)大網(wǎng)絡(luò)的感受野。但是,傳統(tǒng)的注意力網(wǎng)絡(luò)很難對(duì)各種場(chǎng)景進(jìn)行優(yōu)化,自注意力機(jī)制[27]優(yōu)化傳統(tǒng)注意力網(wǎng)絡(luò)中遠(yuǎn)程上下文依賴(lài)關(guān)系,會(huì)引入大量的計(jì)算和內(nèi)存消耗。用于遠(yuǎn)程上下文建模的方法[28]主要通過(guò)擴(kuò)張卷積擴(kuò)大網(wǎng)絡(luò)的感受野。
因此,在網(wǎng)絡(luò)中加入條帶池[29]和全局上下文模塊,在減少計(jì)算量的情況下,有效建立遠(yuǎn)程上下文關(guān)系,擴(kuò)大主干網(wǎng)絡(luò)感受野,完成區(qū)域建議網(wǎng)絡(luò)前景與背景的分類(lèi)和邊界框的回歸。
交并比主要計(jì)算預(yù)測(cè)邊界框與真實(shí)邊界框之間交集與并集的比值,也是在邊界框的回歸任務(wù)中,判斷邊界框與真實(shí)邊界框距離最直接的指標(biāo),常用于目標(biāo)檢測(cè)中。泛化交并比[30]優(yōu)化傳統(tǒng)交并比的計(jì)算方法,考慮重疊框?qū)Y(jié)果的影響,但是會(huì)出現(xiàn)在訓(xùn)練過(guò)程中發(fā)散的情況。距離交并比[31]可以有效緩解交并比出現(xiàn)在目標(biāo)檢測(cè)中訓(xùn)練發(fā)散的問(wèn)題,將最小的預(yù)測(cè)框與真實(shí)邊界框進(jìn)行歸一化計(jì)算,使回歸的邊界框更精準(zhǔn)。本文通過(guò)改進(jìn)交并比的計(jì)算方法,在訓(xùn)練跟蹤階段能夠有效緩解對(duì)邊界框選擇的問(wèn)題,在訓(xùn)練過(guò)程中,可以得到精準(zhǔn)的交并比計(jì)算,使得網(wǎng)絡(luò)在非極大化抑制過(guò)程中篩選出精準(zhǔn)的預(yù)測(cè)框。
單目標(biāo)跟蹤DAPSiamRPN 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。網(wǎng)絡(luò)中2 個(gè)輸入圖像尺寸分別為127×127×3 和255×255×3,網(wǎng)絡(luò)中包含孿生網(wǎng)絡(luò)進(jìn)行特征提取和區(qū)域建議網(wǎng)絡(luò)進(jìn)行邊界框的預(yù)測(cè),區(qū)域建議網(wǎng)絡(luò)包含2 個(gè)子網(wǎng)絡(luò):1)進(jìn)行前景和背景的分類(lèi)網(wǎng)絡(luò);2)進(jìn)行邊界框的回歸網(wǎng)絡(luò)。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)可以進(jìn)行端到端的訓(xùn)練。在搜索分支上通過(guò)加入輕量級(jí)的全局上下文網(wǎng)絡(luò)塊提取全局上下文信息,用于邊界框的回歸。在模板分支中,加入輕量級(jí)條帶池化捕捉上下文空間信息,用于區(qū)域建議網(wǎng)絡(luò)目標(biāo)與背景的分類(lèi)和邊界框的回歸,使得主干網(wǎng)絡(luò)能夠長(zhǎng)期依賴(lài)目標(biāo)模板提取出特征。因此,本文對(duì)交并比計(jì)算策略做出改進(jìn),運(yùn)用距離交并比方法,針對(duì)重疊面積、中心點(diǎn)距離以及長(zhǎng)寬比3 種度量方式進(jìn)行優(yōu)化選擇,選取更精準(zhǔn)的預(yù)測(cè)框,完成無(wú)人機(jī)的跟蹤任務(wù)。
圖1 DAPSiamRPN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of DAPSiamRPN network
注意力機(jī)制利用CNN 進(jìn)行場(chǎng)景解析或語(yǔ)義分割,但是通過(guò)堆疊局部卷積或池化操作使得CNN 感受野增長(zhǎng)緩慢[29],因此網(wǎng)絡(luò)中不能考慮足夠有用的上下文信息。本文引入條帶池化操作,針對(duì)目標(biāo)特征提取進(jìn)行空間維度加權(quán),使得網(wǎng)絡(luò)對(duì)目標(biāo)位置自動(dòng)分配較大比例的權(quán)重,增強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)的判別能力,使網(wǎng)絡(luò)進(jìn)一步解析跟蹤場(chǎng)景。
首先在標(biāo)準(zhǔn)的平均池化中,x∈RH×W表示輸入的二維張量;H和W分別表示空間的高度和寬度;然后進(jìn)入平均池化層,h×w表示池化窗口大小,得到輸出y,其高和寬為H0=H/h,W0=W/w,平均池化操作如式(2)所示:
其中:0 ≤i0 同樣的,條帶池化在水平方向如式(4)所示: 通過(guò)長(zhǎng)且窄的內(nèi)核建立遠(yuǎn)程上下文關(guān)系,擴(kuò)大主干網(wǎng)絡(luò)的感受野并利于跟蹤過(guò)程中目標(biāo)和背景的分類(lèi),因此,條帶池化使得孿生網(wǎng)絡(luò)在跟蹤過(guò)程中捕捉上下文關(guān)系,條帶池模塊結(jié)構(gòu)如圖2所示。 圖2 條帶池模塊結(jié)構(gòu)Fig.2 Structure of strip pooling module 輸入x∈RC×H×W,其中C表示通道數(shù)。首先,將x輸出到水平和垂直路徑上內(nèi)核大小為3 的一維卷積,用來(lái)調(diào)制當(dāng)前位置和相鄰位置信息,得到有用的全局先驗(yàn)信息,在水平和豎直方向上得到y(tǒng)h∈RC×H以 及yV∈RC×W,擴(kuò)大感受野之后,最終輸出ZV∈RC×H×W,然后將yh和yV合并在一起,得 到y(tǒng)∈RC×H×W,即: 最終得到輸出z,如式(6)所示: 其中:Sc函數(shù)為逐元素相乘,是一個(gè)sigmoid 激活函數(shù);f為1*1 卷積,在條帶池的池化窗口中分別設(shè)置池化尺寸為16×16 和12×12。在每個(gè)卷積層的過(guò)程后,條帶池都通過(guò)批標(biāo)準(zhǔn)[32](Batch Normalization,BN)進(jìn)行歸一化處理,ReLu 非線(xiàn)性激活函數(shù)在最后一層。 在檢測(cè)模板中,為了更好地建立網(wǎng)絡(luò)遠(yuǎn)程上下文的依賴(lài)關(guān)系,在當(dāng)前無(wú)人機(jī)跟蹤場(chǎng)景中加深網(wǎng)絡(luò)的全局理解能力,在檢測(cè)模板的孿生網(wǎng)絡(luò)中將全局上下文網(wǎng)絡(luò)塊加入到區(qū)域建議網(wǎng)絡(luò)中,能自動(dòng)提升與目標(biāo)特征相關(guān)的通道比重,同時(shí)降低與目標(biāo)特征無(wú)關(guān)的通道比重,改變不同通道間的依賴(lài)性,使得邊界框回歸更精準(zhǔn)。全局上下文模塊結(jié)構(gòu)如圖3所示。 圖3 中C為網(wǎng)絡(luò)通道數(shù),H和W分別為輸入特征圖的高和寬,×為矩陣相乘,+為矩陣相加,r為通道壓縮比。在實(shí)驗(yàn)中,C表示通道數(shù)256,高和寬分別為22 和22,r表示4。 圖3 全局上下文模塊結(jié)構(gòu)Fig.3 Structure of global context module 首先,在上下文建模部分,在網(wǎng)絡(luò)中將C×H×W特征圖進(jìn)行1×1 的卷積,將通道壓縮為1,將一個(gè)通道上整個(gè)空間特征編碼為一個(gè)全局特征,得到1×H×W特征圖;然后將此特征圖進(jìn)行重新調(diào)整為HW×1×1,通過(guò)softmax 全連接層,得到HW×1×1 注意力權(quán)重;最后與調(diào)整過(guò)的原始特征圖進(jìn)行全連接層后注意力權(quán)重的矩陣相乘,得到上下文模板的輸出。在下面的通道轉(zhuǎn)化部分類(lèi)似于文獻(xiàn)[25]中所述,完成信息轉(zhuǎn)換,并且給各個(gè)通道分配相應(yīng)的上下文信息,建立通道之間的依賴(lài)關(guān)系,通過(guò)1×1 卷積在通道之間建立聯(lián)系,C通道數(shù)壓縮到C/r,經(jīng)過(guò)歸一化和非線(xiàn)性激活層(ReLu),可以提升模型的泛化能力和增強(qiáng)模型的非線(xiàn)性,有利于網(wǎng)絡(luò)的訓(xùn)練和優(yōu)化,然后在進(jìn)行1×1 的卷積層,將通道數(shù)重新轉(zhuǎn)換為C,在此過(guò)程中,計(jì)算量和參數(shù)量被減少,最終C×1×1 以廣播的形式發(fā)送,與原始特征圖進(jìn)行元素之間的相加,如式(7)所示: 通過(guò)上下文模塊后得到一個(gè)權(quán)重向量α,經(jīng)過(guò)卷積層與非線(xiàn)性激活函數(shù)得到最終分配的通道集合,如式(9)所示: 邊界框預(yù)測(cè)直接影響視頻跟蹤的性能,交并比(IOU)是目標(biāo)檢測(cè)常用的指標(biāo),不僅可以區(qū)分正負(fù)樣本,而且還可以評(píng)估輸出邊界預(yù)測(cè)框和目標(biāo)真實(shí)邊界框的距離,如式(10)所示: 其 中:B=(x,y,w,h) 為輸出的預(yù)測(cè)框;Bgt=(xgt,ygt,wgt,hgt)為真實(shí)的邊界框;x和y分別為邊界框的中心坐標(biāo);h和w分別為邊界框的高和寬。由于將區(qū)域建議網(wǎng)絡(luò)加入到跟蹤網(wǎng)絡(luò)中,因此交并比的計(jì)算可以很好反映跟蹤過(guò)程中預(yù)測(cè)框和真實(shí)框的效果,并進(jìn)行后續(xù)跟蹤指標(biāo)的評(píng)估。 本文算法將交并比改進(jìn)為距離交并比計(jì)算,使預(yù)測(cè)出的邊界框更符合網(wǎng)絡(luò)回歸機(jī)制,距離交并比示意圖如圖4 所示。 圖4 距離交并比示意圖Fig.4 Schematic diagram of distance and intersection over union 考慮到目標(biāo)和邊界框之間的距離、重疊率以及尺度變換,使得回歸框更穩(wěn)定,在訓(xùn)練過(guò)程中避免原始交并比出現(xiàn)發(fā)散問(wèn)題,距離交并比(DIOU)如式(11)所示: 其中:ρ為預(yù)測(cè)框和真實(shí)框之間的中心點(diǎn)距離;b和bgt分別為預(yù)測(cè)框和真實(shí)框的中心點(diǎn);c為預(yù)測(cè)框和真實(shí)框相交后的區(qū)域?qū)蔷€(xiàn)距離。 本文算法區(qū)域建議網(wǎng)絡(luò)分類(lèi)分支的損失函數(shù)中交叉熵?fù)p失和回歸分支的損失函數(shù)為L(zhǎng)1 范數(shù)損失,將Ax、Ay、Aw、Ah分別表示預(yù)測(cè)邊界框的中心坐標(biāo)和寬高,Tx、Ty、Tw、Th表示真實(shí)邊界框的中心點(diǎn)坐標(biāo)和寬高,進(jìn)行正則化處理,如式(12)所示: 因此,平滑(so)L1 損失函數(shù)如式(13)所示,回歸的總損失函數(shù)如式(14)所示,在訓(xùn)練過(guò)程中總的損失函數(shù)如式(15)所示: 無(wú)人機(jī)跟蹤流程如圖5 所示,主要步驟如下:1)加載DAPsiamRPN 預(yù)訓(xùn)練網(wǎng)絡(luò),判斷網(wǎng)絡(luò)是否為第一幀圖像,在輸入圖像中提取視頻第一幀圖像大小為127×127×3 作為模板分支的輸入,將圖像大小為255×255×3 作為搜索分支的輸入;2)將輸入的模板分支圖像和檢測(cè)分支圖像經(jīng)過(guò)DAPSiamRPN 網(wǎng)絡(luò)中,在區(qū)域建議網(wǎng)絡(luò)的分類(lèi)分支和回歸分支中進(jìn)行互相關(guān)運(yùn)算,生成最后的響應(yīng)2k個(gè)特征圖和4k個(gè)回歸的邊界框,實(shí)驗(yàn)中k值為5,得到目標(biāo)和背景的分類(lèi)得分,通過(guò)邊界框的回歸,優(yōu)化邊界框的大小,得到目標(biāo)的位置;3)在后續(xù)的視頻圖像中,擴(kuò)大搜索區(qū)域,通過(guò)檢測(cè)分支找到與上一幀視頻圖像響應(yīng)最大的特征圖,進(jìn)行后續(xù)跟蹤。如果跟蹤模板需要更新,則重復(fù)上述步驟。最終判斷是否為最后一幀圖像,如果是,則跟蹤結(jié)束。 圖5 無(wú)人機(jī)跟蹤流程Fig.5 Tracking procedure of UAV 實(shí)驗(yàn)平臺(tái)為ubuntu16.04 LTS 系統(tǒng),運(yùn)用pytorch1.4版本的深度學(xué)習(xí)框架,設(shè)備為Inter Core i7-9700F CPU 3.00 GHz×8,采用單GPUGeForce GTX 2060Super 8 GB。 本文實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)是從ILSVRC2017_VID[23]數(shù)據(jù)集和Youtube-BB[33]數(shù)據(jù)集中提取符合跟蹤場(chǎng)景的視頻數(shù)據(jù),在ILSVRC2017_VID 數(shù)據(jù)集中提取44 976 個(gè)視頻序列,從Youtube-BB 數(shù)據(jù)集中提取904 個(gè)視頻序列,共有一百多萬(wàn)張帶有真實(shí)標(biāo)簽的視頻圖像,訓(xùn)練過(guò)程中采用Alexnet 網(wǎng)絡(luò)作為預(yù)訓(xùn)練模型,并且作為主干網(wǎng)絡(luò)進(jìn)行視頻圖像的特征提取,然后進(jìn)行20 輪訓(xùn)練,每輪進(jìn)行12 000 次迭代,訓(xùn)練總時(shí)長(zhǎng)為13 h,采用隨機(jī)梯度下降法,動(dòng)量設(shè)置為0.9,為防止訓(xùn)練過(guò)程中出現(xiàn)梯度爆炸,梯度裁剪設(shè)置為10,設(shè)置動(dòng)態(tài)學(xué)習(xí)率從0.03 下降到0.00 001,候選框采用5 種比例分別為0.33、0.5、1、2、3。在視頻第一幀時(shí)送入模板分支進(jìn)行模板采集,后續(xù)幀都是經(jīng)過(guò)搜索分支送入?yún)^(qū)域建議網(wǎng)絡(luò)進(jìn)行分類(lèi)和回歸,得到響應(yīng)最大的位置及所在的邊界框,為后續(xù)幀的跟蹤做準(zhǔn)備,最終完成整個(gè)跟蹤任務(wù)。 為驗(yàn)證本文算法的有效性,本次實(shí)驗(yàn)測(cè)試數(shù)據(jù)選取UAV123[34]數(shù)據(jù)集,UAV123 數(shù)據(jù)集是無(wú)人機(jī)在低空狀態(tài)下所采集的數(shù)據(jù),具有123 個(gè)視頻序列,總量超過(guò)1.1×105frame,包含各種各樣的跟蹤場(chǎng)景,例如人、船只、汽車(chē)、建筑等。涉及到多種屬性的變化,例如光照變化、尺度變化、快速移動(dòng)、背景模糊、背景遮擋等12 種不同類(lèi)型。在跟蹤過(guò)程中無(wú)人機(jī)常出現(xiàn)相機(jī)抖動(dòng)、尺度多變以及跟蹤場(chǎng)景和相機(jī)拍攝角度不一致的情況,導(dǎo)致跟蹤困難,具有很大難度的挑戰(zhàn)性。跟蹤性能主要有成功率和精確率兩個(gè)評(píng)價(jià)標(biāo)準(zhǔn),成功率是指邊界框與真實(shí)標(biāo)注的邊界框的重疊面積大于所設(shè)定的閾值占當(dāng)前視頻圖像總邊界框數(shù)量的比例,精確率是指邊界框距離真實(shí)邊界框的中心誤差小于所設(shè)定閾值占當(dāng)前視頻圖像總邊界框數(shù)量的比例。 本次實(shí)驗(yàn)中當(dāng)交并比設(shè)定大于0.6 時(shí),視為正樣本,小于0.3 時(shí)視為負(fù)樣本,在一個(gè)視頻圖像中計(jì)算從邊界框選出的候選邊界框有1 805 個(gè),由于數(shù)量過(guò)大,因此在一組訓(xùn)練過(guò)程中限制總樣本數(shù)量共為256 個(gè),正樣本數(shù)量與負(fù)樣本數(shù)量比例為1∶3。本文算法在無(wú)人機(jī)數(shù)據(jù)集測(cè)試時(shí)長(zhǎng)為1 064 s,幀率約106 frame/s,原始SiamRPN 測(cè)試時(shí)長(zhǎng)為1 066 s,幀率約為106 frame/s,本文算法比原始算法快2 s。 為驗(yàn)證本文算法(DSPSiamRPN)在背景模糊、光照變化等情況下的有效性,將本文算法與當(dāng)前9 種目標(biāo)跟蹤算法進(jìn)行結(jié)果對(duì)比,包含SiamRPN、SiamFC、KCF、CSK、SAMF、DSST、SAMF、ASLA[35]、MUSTER[36]、IVT[37]算法。實(shí)驗(yàn)測(cè)試數(shù)據(jù)為UAV123 數(shù)據(jù)集,不同算法的實(shí)驗(yàn)結(jié)果如表1 所示。 表1 在光照變化和背景模糊場(chǎng)景下不同算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Experimental results comparison among different algorithms on lighting changes and blurred background scenes 相比原始單目標(biāo)跟蹤算法SiamRPN,本文算法在背景模糊下精確率提升6.45%,成功率提升11.63%,在光照變化情況下,精確率提升5.87%、成功率提升10.09%,本文算法同樣優(yōu)于其他目標(biāo)跟蹤算法。在模板分支中加入條帶池模塊,可以加強(qiáng)空間語(yǔ)義對(duì)主干網(wǎng)絡(luò)的依賴(lài)性,以適應(yīng)光照的變化。同時(shí)在搜索分支中加入上下文網(wǎng)絡(luò)塊輸入?yún)^(qū)域建議網(wǎng)絡(luò)的回歸,加強(qiáng)網(wǎng)絡(luò)對(duì)全局上下文的理解能力,使回歸的邊界框更精準(zhǔn),因此在背景模糊和光照變化較大的情況下,本文算法具有很好的跟蹤效果。 本文與所有算法的對(duì)比均在UAV123 數(shù)據(jù)集上進(jìn)行測(cè)試,測(cè)試數(shù)據(jù)有123 個(gè)視頻序列,共有12 個(gè)不同場(chǎng)景的屬性,實(shí)現(xiàn)跟蹤的成功率和精確率對(duì)跟蹤結(jié)果進(jìn)行定量分析,本文算法的成功率達(dá)到0.542,精確率達(dá)到0.754。因此,在不同場(chǎng)景下本文算法相比SiamRPN算法的處理能力較高,與SiamRPN 算法均有較好的泛化能力,在其他測(cè)試數(shù)據(jù)集上也同樣適用。在各場(chǎng)景不同算法的實(shí)驗(yàn)結(jié)果對(duì)比如表2 和表3 所示,本文算法在尺度變化、目標(biāo)快速移動(dòng)、部分和完全遮擋、相機(jī)抖動(dòng)等場(chǎng)景下均表現(xiàn)出較好的性能,尤其是在背景干擾和光照變化場(chǎng)景下體現(xiàn)出較大的優(yōu)異性。 表2 在尺度變化、長(zhǎng)寬比變化等場(chǎng)景下不同算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Experimental results comparison among different algorithms on scale variatio,aspect ratio change and other scenes 表3 在超出視野、視野變化等場(chǎng)景下不同算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Experimental results comparison among different algorithms on out of view,viewpoint change and other scenes 從表2 和表3 可以看出,在11 種不同屬性的場(chǎng)景下,本文算法具有良好的精確性、穩(wěn)定性和魯棒性。在算法中加入輕量級(jí)條帶池和全局上下文模塊進(jìn)行網(wǎng)絡(luò)建模,能夠較好地適應(yīng)跟蹤場(chǎng)景的變化,并不影響網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)和跟蹤效果。條帶池沿著水平和豎直兩個(gè)方向部署長(zhǎng)而窄的內(nèi)核,能夠捕捉到狹小區(qū)域的遠(yuǎn)程關(guān)系,有利于建立局部上下文信息,而且可以防止在跟蹤過(guò)程中無(wú)關(guān)區(qū)域?qū)η熬昂捅尘胺诸?lèi)以及邊界預(yù)測(cè)框的干擾,使網(wǎng)絡(luò)能夠同時(shí)聚合全局上下文關(guān)系。在區(qū)域建議網(wǎng)絡(luò)回歸分支,通過(guò)加入全局上下文網(wǎng)絡(luò)塊對(duì)回歸邊界框的預(yù)測(cè)有良好的穩(wěn)定性和精確性。區(qū)域建議網(wǎng)絡(luò)廣泛應(yīng)用在目標(biāo)檢測(cè),因此,在跟蹤中優(yōu)化交并比的計(jì)算也同樣重要。在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,運(yùn)用距離交并比計(jì)算預(yù)測(cè)邊界框和真實(shí)邊界框之間的距離,重疊率以及尺度都考慮,使邊界框的預(yù)測(cè)更準(zhǔn)確,實(shí)現(xiàn)無(wú)人機(jī)目標(biāo)跟蹤效果達(dá)到良好的性能。 針對(duì)無(wú)人機(jī)視頻目標(biāo)跟蹤過(guò)程易受光照變化和背景干擾的問(wèn)題,本文提出一種基于SiamRPN 算法的無(wú)人機(jī)視頻目標(biāo)跟蹤算法DAPSiamRPN,通過(guò)降低無(wú)人機(jī)跟蹤場(chǎng)景中多變性對(duì)網(wǎng)絡(luò)輸出性能的影響并優(yōu)化回歸邊界框提升跟蹤器的性能。實(shí)驗(yàn)結(jié)果表明,相比SiamFC、SiamRPN、MUSTER 等目標(biāo)跟蹤算法,DAPSiamRPN 具有較高的精確率和成功率。后續(xù)將在不影響跟蹤速度的前提下加入全局檢測(cè)或局部檢測(cè)過(guò)程,使算法在長(zhǎng)時(shí)間遮擋和尺度變化大的情況下不易發(fā)生跟蹤目標(biāo)漂移的現(xiàn)象。2.3 邊界框預(yù)測(cè)優(yōu)化
2.4 無(wú)人機(jī)跟蹤步驟
3 仿真實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.2 實(shí)驗(yàn)結(jié)果分析
4 結(jié)束語(yǔ)