馬永杰,陳 宏,謝藝蓉,徐小冬,張 茹
(西北師范大學 物理與電子工程學院,甘肅 蘭州 730070)
目標跟蹤作為計算機視覺的一個基礎分支,在視頻監(jiān)控、智能交通、無人駕駛等方面具有廣泛應用[1-3].影響目標跟蹤算法性能的關(guān)鍵因素包括外界因素(如光照變化、遮擋、相似背景干擾等)、內(nèi)部因素(如姿態(tài)變化、外觀變形、尺度變化、平面旋轉(zhuǎn)、快速運動等[4])和跟蹤速度.實現(xiàn)一個兼具高性能與實時性的視覺跟蹤系統(tǒng)仍然具有挑戰(zhàn)性.
當前,目標跟蹤算法主要包括相關(guān)濾波類算法和孿生網(wǎng)絡類算法.基于相關(guān)濾波的目標跟蹤算法通過循環(huán)矩陣在傅里葉域中快速求解來實現(xiàn)快速跟蹤,如CSK[5]、KCF[6]、DSST[7]等.隨著深度學習的快速發(fā)展,為了利用端到端優(yōu)勢,研究人員將Siamese框架應用到了目標跟蹤領域.Bertinetto等[8]開創(chuàng)性地提出了全卷積孿生神經(jīng)網(wǎng)絡(Fully-convolutional siamese network, SiamFC)的單目標跟蹤算法,將目標跟蹤任務轉(zhuǎn)化為相似度匹配問題.通過訓練一個改進的AlexNet[9]網(wǎng)絡作為通用的匹配函數(shù),實現(xiàn)模板與搜索區(qū)域互相關(guān),從而得到目標區(qū)域.SINT[10]使用Siamese網(wǎng)絡學習一個匹配函數(shù),將后續(xù)每一幀得到的多個候選框與第一幀目標框進行匹配度計算,得分高的候選框即為預測目標.CFNet[11]在SiamFC的基礎上添加了相關(guān)濾波層,實現(xiàn)了在線優(yōu)化網(wǎng)絡特征.SiamTri[12]引入3分支損失,提高了跟蹤器的訓練性能.
盡管全卷積孿生網(wǎng)絡目標跟蹤算法在精度和性能上都取得了較大的突破,但是仍然遺留了一些問題.一是特征提取能力不強,SiamFC采用較淺的AlexNet作為骨干網(wǎng)絡,當遇到變形、尺度變化等復雜場景時,容易出現(xiàn)跟蹤任務失敗現(xiàn)象;二是特征類型單一,SiamFC僅采用高層的語義信息進行卷積互相關(guān)而忽略低層的位置信息,導致跟蹤器定位能力不足,當跟蹤過程出現(xiàn)目標遮擋、相似干擾時,難免出現(xiàn)模型漂移.針對SiamFC的上述兩個問題,文中提出了一種結(jié)合隨機掩膜與特征融合的孿生網(wǎng)絡目標跟蹤算法.將SiamFC骨干網(wǎng)絡AlexNet網(wǎng)絡替換成深度更深的VGGNet[13]網(wǎng)絡,以提高模型的特征提取能力;在輸入端對模板分支和搜索分支添加帶有噪聲的隨機掩膜,并在跟蹤器模板分支加入了注意力機制去調(diào)節(jié)模型,以提高模型的抗干擾能力;將網(wǎng)絡的Conv4-1和Conv5-1層進行特征融合,使模型兼具網(wǎng)絡低層的位置信息和網(wǎng)絡高層的語義信息,以提高模型對相似語義的判別能力.
文中算法的基礎框架如圖1所示.
圖1 算法的基礎框架
SiamFC是一種典型的端到端網(wǎng)絡訓練模型,不經(jīng)過復雜的中間建模過程,從輸入端到輸出端得到一個預測的結(jié)果,它具有模板分支和搜索分支兩個輸入分支.模板分支的模板圖像Z和搜索分支的搜索圖像X分別被裁剪為127×127×3和255×255×3大小的輸入對,經(jīng)過共享權(quán)值的卷積神經(jīng)網(wǎng)絡φ輸出圖像大小分別為6×6×256和22×22×256,最后經(jīng)過互相關(guān)的卷積操作得到一個17×17×1的響應圖.響應圖中響應最高的一個點就是下一幀預測目標的中心位置.
整個網(wǎng)絡的跟蹤過程可以定義為
f(Z,X)=φ(Z)*φ(X)+b,
(1)
其中,φ為改進的卷積神經(jīng)網(wǎng)絡AlexNet;*表示卷積的交叉相關(guān)運算;b∈R為偏置項;f(Z,X)為17×17×1的置信響應圖.
整個網(wǎng)絡采用二分類的邏輯損失函數(shù)
l(y,v)=lg(1+exp(-yv)),
(2)
其中,v為模板與搜索區(qū)域候選框的相似度得分;y∈{+1,-1}為正、負樣本的標簽值.
盡管全卷積孿生神經(jīng)網(wǎng)絡SiamFC在跟蹤性能上比KCF等相關(guān)濾波強,但是仍然存在一些不足.SiamFC使用AlexNet作為骨干網(wǎng)絡,僅有5層,特征提取能力不強,當目標出現(xiàn)變形、尺度變化時 很容易丟失目標; 此外, SiamFC使用的AlexNet引入了padding操作,會破壞網(wǎng)絡的絕對平移不變性,導致目標跟蹤性能下降.
因此,文中采用深度更深的預訓練VGG16代替AlexNet作為骨干網(wǎng)絡,該網(wǎng)絡有著更強的特征提取能力,有助于提高模型的性能.采用特征圖裁剪,在每一層引入padding的卷積層后,進行裁剪(crop)操作,具體的網(wǎng)絡結(jié)構(gòu)如表1所示.
表1 基于VGGNet的孿生網(wǎng)絡結(jié)構(gòu)
隨機掩膜(Random soft mask,RSM)的核心思想就是通過給訓練圖片添加隨機權(quán)重值的噪聲掩膜來模擬復雜環(huán)境,從而提高跟蹤器對復雜環(huán)境的抗干擾能力.
1.3.1 隨機掩膜定義 在目標跟蹤過程中,目標與背景之間的區(qū)分度越高,卷積網(wǎng)絡越容易識別目標.文中首先采用一種添加噪聲掩膜的方法,來提高目標與背景區(qū)分度.如圖2所示,噪聲掩膜是通過特征融合來生成相應權(quán)重的軟掩膜,當訓練圖片疊加軟掩膜后,實現(xiàn)了特征增強,能令卷積網(wǎng)絡更關(guān)注目標區(qū)域.
圖2 訓練圖片疊加掩膜噪聲的效果
但是,在跟蹤過程中,當場景發(fā)生變化時,目標與背景之間的區(qū)分度也是變化的.如果掩膜噪聲權(quán)重設定為固定值,并不能很好地適應復雜多變的跟蹤環(huán)境.于是文中提出一種隨機掩膜的方法,將掩膜噪聲權(quán)重設定為隨機值來模擬劇烈變化的場景.不同噪音權(quán)重w下噪聲掩膜呈現(xiàn)出的目標與背景區(qū)分度也不同,將訓練圖片與噪音權(quán)重w={0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1}的噪聲掩膜進行疊加,效果如圖3所示.
圖3 訓練圖片疊加不同權(quán)重的掩膜噪聲效果圖
文中將噪聲掩膜權(quán)重w取[0.5,1]的固定值進行OTB2015[14]消融實驗.從表2實驗可知,最終文中噪音權(quán)重w的取值確定為[0.7,1],并采用輪盤賭策略,每次從{0.7,0.8,0.9,1}中隨機選擇一個數(shù)值作為訓練圖片的噪聲掩膜權(quán)重.
表2 噪聲掩膜有效性測試結(jié)果
1.3.2 隨機掩膜生成不同于孿生網(wǎng)絡只有模板分支Z和搜索分支X兩個輸入分支,文中增加了噪聲模板分支Znoise和噪聲搜索分支Xnoise兩個分支,如圖1中左側(cè)實線框所示.隨機掩膜主要包括隨機噪聲權(quán)重掩膜的生成和隨機噪聲權(quán)重掩膜的疊加兩部分,如圖2所示.
1)隨機噪聲權(quán)重掩膜的生成.可用下式表示
其中,w為噪聲權(quán)重;Zn,Xn為噪聲模板分支和噪聲搜索分支的輸入圖片;Zn1,Xn1為噪聲模板分支和噪聲搜索分支輸出的噪聲掩膜.
2)隨機噪聲權(quán)重掩膜的疊加.模板分支Z和噪聲模板分支Znoise進行融合,搜索分支X與噪聲搜索分支Xnoise進行融合,如下式所示
其中,⊕為疊加操作;Zin,Xin為模板分支和搜索分支的輸入圖片;Z*,X*為噪聲掩膜疊加后的模板分支和搜索分支圖片.
文中利用3分支注意力(Triplet attention)模塊[15]和卷積塊注意力模塊(Convolutional block attention module, CBAM)[16]的優(yōu)點形成了一種新的注意力機制,可以認為是CBAM注意力機制在3個維度上的交互.文中的3分支注意力機制模塊如圖4所示,輸入的特征圖經(jīng)過Channel-attention操作實現(xiàn)通道注意力疊加,再經(jīng)過3分支實現(xiàn)通道C和空間(H×W)跨緯度交互.3分支中,經(jīng)過Channel-attention操作的特征圖進入左邊分支,整體上形成了通道-空間注意力計算分支,即CBAM注意力機制.其余兩個分支實現(xiàn)維度交互,最后將3個分支的輸出進行平均聚合.
圖4中的Channel-attention操作如(7)式所示:
γ(χ)=S(MLP(map(χ))+MLP(avp(χ))),
(7)
其中,χ為輸入特征;map,avp為自適應最大池化和自適應平均池化操作;MLP表示擠壓(降維)-激勵(升維)的卷積操作;S為Sigmoid激活函數(shù).
圖4的Z-Pool操作如(8)式所示:
圖4 三分支注意力機制示意圖
Ψ(γ)=MaxPool(γ)⊙AvgPool(γ),
(8)
其中,Ψ(γ)為Z-Pool操作的輸出特征圖;⊙表示拼接操作; MaxPool,AvgPool為最大池化操作和平均池化操作.Z-Pool負責將高維度的Tensor縮減為二維,將最大匯集特征和平均匯集特征連接起來,能夠保留實際張量的豐富表示.
通過類熱力圖對不同網(wǎng)絡進行可視化,結(jié)果如圖5所示,第一行是未加入注意力機制模塊的可視化結(jié)果,第二行是加入注意力機制模塊的可視化結(jié)果.從實驗結(jié)果可以看出添加注意力機制模塊的網(wǎng)絡注意力范圍更廣,覆蓋目標面積更大,提取的目標特征更多,識別能力更強.
圖5 使用Grad_ CAM網(wǎng)絡可視化結(jié)果
文中以更深的VGG16網(wǎng)絡為骨干網(wǎng)絡,通過特征融合策略提高目標的定位能力.表3給出了消融實驗結(jié)果,可以看出采用卷積層Crop4-1生成的和Conv5-1生成的響應圖進行特征融合跟蹤性能最佳.
表3 不同特征層融合測試結(jié)果
卷積層Crop4-1和Conv5-1這兩層有著更多的語義信息和空間信息,特征融合后的響應圖質(zhì)量更高.融合過程如圖1所示,模板分支和搜索分支的Crop4-1層特征圖尺寸分別為9×9×512和25×25×512;Conv5-1特征圖的尺寸分別為5×5×256和21×21×256.為保持尺寸一致,采用互相關(guān)卷積操作得到特征圖尺寸和通道數(shù)相同的響應圖,將Crop4-1層和Conv5-1層生成的響應圖拼接后通過卷積核為1的卷積操作實現(xiàn)特征融合.
文中算法的軟件環(huán)境采用Ubuntu18.04搭載Pycharm,使用Pytorch1.1.0編程框架驗證算法性能.所有的實驗均在Intel Core i9-9900KF 3.6 GHz和GeForce RTX-2070S顯卡上執(zhí)行.
使用GOT-10k[17]數(shù)據(jù)集來進行模型訓練,隨機地從相同視頻提取模板圖像(127×127×3)和搜索圖像(255×255×3)組成訓練對作為網(wǎng)絡的輸入.采用隨機梯度下降算法(Stochastic gradient descent, SGD)初始化目標函數(shù),利用二分類交叉損失對整個網(wǎng)絡進行訓練,訓練50個周期,學習率從10-2衰減到10-5.使用3個固定尺度{0.9745,1,1.0375}來估計目標尺度,尺度的變化通過線性插值的方式來更新,如(9)式所示.
S=(1-rscale)x0+rscalex1,
(9)
其中,更新因子rscale設為0.59;x0為中間尺度;x1為懲罰后的尺度.從而實現(xiàn)線性插值的方式更新尺度信息.
為驗證文中跟蹤算法的有效性,在5個具有挑戰(zhàn)性的視頻基準庫OTB2015[14],VOT2016[18],VOT2018[19],UAV123[20]和TempleColor128[21]上進行實驗,5種數(shù)據(jù)集的特點和指標如表4所示.
表4 不同數(shù)據(jù)集的特點和指標
OTB2015數(shù)據(jù)集共有100個視頻序列,包含光照變化(IV)、尺度變化(SV)、遮擋(OCC)、變形(DEF)、運動模糊(MB)、快速移動(FM)、平面內(nèi)旋轉(zhuǎn)(IPR)、平面外旋轉(zhuǎn)(OPR)、離開視野(OV)、相似背景(BC)、低分辨率(LR)共11個屬性.
除了基準算法SiamFC[8],文中還與一些先進的跟蹤算法進行了比較,包括SiamRPN[2],UDT+[22],CIResNet22-FC[3],SRDCF[23],SINT[10],Staple[1],SiamTri[12],CFNet[11]等.
2.2.1 定量分析 1)評價標準.為了定量的評估文中算法的性能,使用成功率(Success plots)和精確度(Precision plots)兩個指標作為評價標準,并繪制成功率圖和精確度圖來顯示評價結(jié)果.覆蓋率(OS)是指跟蹤結(jié)果的預測框和真實目標框的面積的交集比它們面積的并集,如(10)式所示.
其中,a為跟蹤算法得到的定位框bounding box;b為目標的真實標簽ground-truth.
成功率代表覆蓋率大于某個閾值的幀數(shù)和視頻幀數(shù)總數(shù)的比率,取值為[0,1],一般閾值設定為0.5.
精確度代表視頻中跟蹤成功的幀數(shù)占總幀數(shù)的比率.若跟蹤算法得到的目標位置中心點與真實標簽的中心點的歐氏距離小于給定的閾值,則表示跟蹤成功.
2)混合干擾下的算法總體性能分析.圖6分別給出了在11種混合干擾共同影響下的10種算法的成功率和準確率.由圖6可知,文中算法的總體成功率和總體準確率均最高.算法的成功率達到了0.659,相比基準SiamFC算法,提升了7.7%.算法的精確度達到了0.880,相比SiamFC算法,提升了10.9%.
圖6 OTB2015精確度和成功率圖
3)11種干擾單獨影響下算法的性能分析.由圖7a~7k可知,文中算法在背景相似、目標變形、快速運動、平面內(nèi)旋轉(zhuǎn)、光照變化、低分辨率、運動模糊、目標遮擋、平面外旋轉(zhuǎn)、出視野、尺度變化條件下取得了較好的成績,精確度分別達到了0.851,0.861,0.872,0.897,0.889,0.897,0.893,0.819,0.881,0.843,0.876.在各種干擾單獨影響下,文中算法的跟蹤精度均高于其他算法,與基準算法SiamFC相比,精確度分別提高了16.1%,17.1%,12.9%,15.5%,15.3%,5.0%,18.8%,9.7%,12.5%,17.4%,14.1%,其中提升最多的3種屬性為目標變形、運動模糊和出視野.
圖7 不同屬性視頻下的跟蹤精度對比
總體來說,在11種干擾下,與其他算法相比,文中算法成功率和精確度均較高.由于算法提出的隨機掩膜、注意力機制和特征融合等策略用于提升SiamFC的抗干擾能力和特征提取能力,所以遮擋、背景相似、運動模糊、變形、尺度變化這幾種相關(guān)屬性更需要著重關(guān)注.在這些干擾下,算法的精確度均最高,說明算法處理這幾種干擾的能力優(yōu)于其他幾種算法.
2.2.2 定性分析 選取了幾個具有代表性的視頻序列,如表5所示進行更詳細分析,結(jié)果如圖8所示,給出了CFNet,UDT+,SiamTri,SiamFC和文中算法的跟蹤結(jié)果.
表5 各視頻的場景屬性
Bolt1.該視頻中跟蹤的是一名運動員.運動目標特點為非凸性,運動過程中不斷進行平面內(nèi)旋轉(zhuǎn)和平面外旋轉(zhuǎn),周圍有遮擋.從圖8a中可以看出,在第22幀,CFNet、SiamTri和SiamFC算法已經(jīng)丟失目標;在第63幀,UDT+算法也發(fā)生漂移,而文中算法能夠全程準確地跟蹤到目標,因為文中的訓練算法能夠有效地排除干擾,對目標進行定位.
Matrix.該視頻為是一段雨夜中的打斗場面,跟蹤目標為打斗者之一.目標身處光照變化的環(huán)境,而且目標與背景的顏色極為相似,隨著鏡頭的拉伸目標不斷發(fā)生尺度變化, 當目標快速運動時,大部分算法的辨識度不夠.如圖8b所示,視頻剛開始的第41幀中,其余算法均丟失目標,在第50幀中,CFNet找回跟蹤目標,在第70幀中,其余3種算法仍處于丟失目標狀態(tài).文中算法能夠持續(xù)跟蹤目標,是因為算法有著較強的特征提取和識別能力,有效克服相似干擾.
圖8 OTB2015數(shù)據(jù)集的定性結(jié)果展示
MotorRolling.該視頻的跟蹤目標是摩托車和人.目標在測試視頻中處于低分辨的環(huán)境,當目標在快速運動時,會發(fā)生運動模糊,周圍的燈光環(huán)境隨之發(fā)生變化,并且目標在跟蹤過程中發(fā)生了尺度變化.如圖8c所示,在視頻剛開始的第11幀,其余幾種跟蹤算法已經(jīng)發(fā)生漂移.而在第46幀中,空中的相似干擾令其余幾種算法完全丟失目標.在第112幀,文中算法仍然可以完美跟蹤到目標.文中算法在整個視頻中都能夠準確跟蹤到目標,說明算法應對背景相似和低分辨率等復雜環(huán)境的有效性.
Skiing.該視頻是跟蹤的一個高速運動的滑雪運動員.其主要跟蹤難點在于目標自身的快速運動、周圍的光照條件不斷發(fā)生變化、大尺度平面內(nèi)旋轉(zhuǎn).如圖8d所示,在視頻剛開始的第25幀,只有文中算法和CFNet能跟蹤目標,從第43幀開始,CFNet丟失目標.文中算法能持續(xù)準確跟蹤目標,說明算法能夠很好應對光照變化、變形、尺度變化等挑戰(zhàn).
根據(jù)不同跟蹤算法在OTB2015數(shù)據(jù)集的定性結(jié)果展示,文中算法在背景相似、運動模糊、變形、低分辨率、遮擋、尺度變化等場景屬性有著良好的性能.
2.3.1 基于VOT2016實驗分析 VOT2016數(shù)據(jù)集包含60個精細標注的短序列.評估時,只要檢測到追蹤失敗,被測追蹤器就會重新初始化.主要評估指標有平均重疊期望(Expected average overlap, EAO)、準確度(Accuracy,A)、魯棒性(Robustness,R).其中,OEA和A的分數(shù)越高,R的分數(shù)越低,證明跟蹤器性能越強、穩(wěn)定性更好.這里選取了SRDCF[23],SiamFC[8],deepMKCF[24],UDT[22],HCF[25],KCF[6]等6種算法與文中算法進行比較,OEA排名如圖9a所示.文中算法相對于基準算法SiamFC,OEA和A的分數(shù)分別提高了4.1%和3.9%,魯棒性提高了7.9%,如表6所示.
圖9 VOT2016和VOT2018期望平均重疊率排名
表6 在VOT2016數(shù)據(jù)集上測試結(jié)果
2.3.2 基于VOT2018實驗分析
VOT2018數(shù)據(jù)集由60個視頻(相對于VOT2016數(shù)據(jù)集使用更難的序列組成)組成,主要的評估指標也是期望平均重疊率,精度和魯棒性.這里選取了MEEM[26],SiamFC[8],Staple[1],TRACA[27],KCF[6],SRDCF[23]等6種算法與文中算法進行比較,OEA排名如圖9b所示.如表7所示,文中算法相對于基準算法SIamFC,OEA和A的分數(shù)分別提高了7.4%和3.0%,魯棒性提高了12.6%.
表7 在VOT2018數(shù)據(jù)集上測試結(jié)果
2.4.1 基于UAV123數(shù)據(jù)集實驗分析 UAV123數(shù)據(jù)集囊括123組視頻序列,主要由無人機拍攝而成,特點是背景干凈,視角變化較多.其評估指標與OTB2015數(shù)據(jù)集的評估指標一致.文中選取了SiamFC[8],SRDCF[23],MEEM[26],DSST[7],KCF[6],CSK[5]等6種算法與本文算法進行比較.如圖10所示,文中算法的結(jié)果都是最優(yōu)的,其中成功率達到了0.529,比SiamFC高2.9%,精確度達到了0.753,比SiamFC高2.5%.
圖10 UAV123成功率和精確度圖
2.4.2 基于TempleColor128數(shù)據(jù)集實驗分析 TempleColor128數(shù)據(jù)集包含128個彩色視頻序列,更加貼近于現(xiàn)實場景的跟蹤環(huán)境,其評估指標與OTB數(shù)據(jù)集一致.為了驗證模型的泛化能力,文中選取了UDT+[22],SiamFC[8],SRDCF[23],KCF[6],DSST[7],CSK[5]等6種算法,實驗結(jié)果如圖11所示.文中算法仍然保持著優(yōu)越的跟蹤性能,其中成功率達到了0.542,比SiamFC高4.4%,精確度達到了0.755,比SiamFC高5.7%.
圖11 TempleColor128成功率和精確度圖
為了驗證注意力模塊(Attention)和隨機掩膜(RSM)模塊對跟蹤器性能提升的貢獻,在OTB2015數(shù)據(jù)集上做了如下消融實驗,結(jié)果如表8所示.單獨添加Attention模塊,成功率和精確度有所提升,當Attention模塊和RSM模塊同時添加時,成功率和精確度提升最大,分別達到了0.639和0.880,證明了這兩個模塊的有效性.
表8 消融測試結(jié)果
文中提出了一種結(jié)合隨機掩膜與特征融合的孿生網(wǎng)絡目標跟蹤算法.使用VGGNet骨干網(wǎng)絡替換AlexNet網(wǎng)絡,使模型兼具低層的位置信息和高層的語義信息,實現(xiàn)低層與高層特征層融合,具有更強的特征提取能力和目標定位能力;添加隨機掩膜,模擬復雜環(huán)境,使跟蹤器模型對各種復雜環(huán)境有著更好判別能力;引入包含通道分支C和空間分支H、空間分支W的3分支注意力機制,通過跨維度交互,實現(xiàn)通道與空間的注意力互相關(guān)聯(lián),使模型更加關(guān)注目標特征.這些改進有效地消除了SiamFC特征提取能力不強、不能適應背景相似、變形、運動模糊等復雜場景、容易出現(xiàn)跟蹤任務失敗等現(xiàn)象,并且在其余屬性上取得了良好的結(jié)果.