基于自適應(yīng)Siamese網(wǎng)絡(luò)的無(wú)人機(jī)目標(biāo)跟蹤算法

2020-03-02 11:42:56劉芳楊安喆吳志威

航空學(xué)報(bào) 2020年1期

劉芳，楊安喆，吳志威

北京工業(yè)大學(xué) 信息學(xué)部，北京 100124

相比于載人飛機(jī)，無(wú)人機(jī)因其體積小、隱蔽性強(qiáng)、反應(yīng)快速、對(duì)作戰(zhàn)環(huán)境要求低和能迅速到達(dá)現(xiàn)場(chǎng)等優(yōu)勢(shì)，被廣泛應(yīng)用于軍事和民用領(lǐng)域。而無(wú)人機(jī)的廣泛應(yīng)用需要目標(biāo)跟蹤技術(shù)，它能極大增強(qiáng)無(wú)人機(jī)的自主飛行和監(jiān)控能力，使得無(wú)人機(jī)能夠完成更多種類(lèi)的任務(wù)，并且適應(yīng)更復(fù)雜多變的環(huán)境[1]。因此，研究有效而穩(wěn)定的目標(biāo)跟蹤算法對(duì)于無(wú)人機(jī)的應(yīng)用具有重大的意義[2]。

無(wú)人機(jī)在飛行過(guò)程中拍攝視角和飛行速度經(jīng)常會(huì)發(fā)生改變，導(dǎo)致目標(biāo)易發(fā)生形變、遮擋等情況，經(jīng)典跟蹤算法效果較差。近年來(lái)，基于相關(guān)濾波的跟蹤算法如KCF(Kernelized Correlation Filters)[3]、SAMF[4]和MUSTer[5]等在跟蹤精度和跟蹤速度上有著較好的效果，相關(guān)濾波逐漸成為跟蹤領(lǐng)域的重要研究方向之一[6]。目標(biāo)的特征表達(dá)是影響其性能的重要因素之一，傳統(tǒng)的人工特征對(duì)目標(biāo)狀態(tài)變化不魯棒，而無(wú)人機(jī)在很多實(shí)際應(yīng)用中往往要面對(duì)復(fù)雜的環(huán)境，基于傳統(tǒng)特征算法的跟蹤效果不理想。深度網(wǎng)絡(luò)因其具有良好的特征表達(dá)能力，研究人員采用深度特征代替手工特征，比較有代表性的跟蹤方法有DeepSRDCF[7]、SiamFC[8]、CFNet[9]和DCFNet[10]等。盡管上述跟蹤算法在跟蹤成功率和精度上取得了顯著的提升，但是在目標(biāo)發(fā)生形變、遮擋等情況下，仍然容易發(fā)生漂移現(xiàn)象，導(dǎo)致算法的準(zhǔn)確度降低。Danelljan等[11]提出一種生成模型提升了訓(xùn)練樣本的多樣化，并對(duì)目標(biāo)函數(shù)進(jìn)行了完善和改進(jìn)，優(yōu)化了樣本分布，減輕了形變情況對(duì)性能的影響，但由于更新過(guò)程計(jì)算較為復(fù)雜，跟蹤速率較低。Liu等[12]提出了一種新穎的模板匹配式跟蹤算法，使用K近鄰法從以往的跟蹤結(jié)果中找出最準(zhǔn)確的結(jié)果，但算法只是使用簡(jiǎn)單機(jī)器學(xué)習(xí)算法對(duì)樣本進(jìn)行分類(lèi)，導(dǎo)致算法的性能不理想、準(zhǔn)確率較低。

綜上所述，針對(duì)無(wú)人機(jī)視頻中目標(biāo)易受到遮擋、形變等問(wèn)題，提出一種基于自適應(yīng)Siamese網(wǎng)絡(luò)的無(wú)人機(jī)目標(biāo)跟蹤算法(SiamRAT)。首先，利用兩個(gè)全卷積網(wǎng)絡(luò)構(gòu)建Siamese網(wǎng)絡(luò)，將2個(gè)網(wǎng)絡(luò)的輸出特征進(jìn)行卷積得到響應(yīng)圖(Response map)從而預(yù)測(cè)目標(biāo)位置，采用神經(jīng)網(wǎng)絡(luò)模擬相關(guān)濾波的整個(gè)過(guò)程，能夠有效提升跟蹤精度和速度。然后，利用高斯混合模型對(duì)以往的預(yù)測(cè)結(jié)果進(jìn)行聚類(lèi)并建立目標(biāo)模板庫(kù)。高斯混合模型擁有強(qiáng)大的數(shù)據(jù)描述能力，能夠?qū)⑾嗨频臄?shù)據(jù)聚集到一起，并且不同類(lèi)別之間擁有較大的差異性，從而保證模板的多樣性。經(jīng)過(guò)此模型得到的模板庫(kù)能夠讓網(wǎng)絡(luò)充分學(xué)習(xí)到目標(biāo)的多種狀態(tài)信息，提升特征的有效性。其次對(duì)每一幀的預(yù)測(cè)結(jié)果進(jìn)行判別，當(dāng)模板庫(kù)中存在類(lèi)似的樣本可以直接替換Siamese網(wǎng)絡(luò)中模板分支的輸入，讓算法從以往的跟蹤結(jié)果中挑選出最可靠的目標(biāo)狀態(tài)，以應(yīng)對(duì)目標(biāo)的外觀變化，同時(shí)可以避免重復(fù)的計(jì)算操作。最后，引入回歸模型進(jìn)一步精確目標(biāo)位置，提升跟蹤算法的精確率。仿真實(shí)驗(yàn)結(jié)果表明，該算法有效降低了形變、遮擋等情況對(duì)算法性能的影響，有效提高了跟蹤算法的準(zhǔn)確度。

1 自適應(yīng)Siamese網(wǎng)絡(luò)模型與跟蹤算法

針對(duì)無(wú)人機(jī)視頻中目標(biāo)易發(fā)生形變、遮擋等問(wèn)題，提出一種基于自適應(yīng)Siamese網(wǎng)絡(luò)的無(wú)人機(jī)目標(biāo)跟蹤算法。網(wǎng)絡(luò)共有2個(gè)分支，如圖1所示。其中網(wǎng)絡(luò)上半部分為模板分支，下半部分為檢測(cè)分支，并通過(guò)學(xué)習(xí)相似度函數(shù)f(z,x)在空間φ中比較目標(biāo)模板圖像z和當(dāng)前幀圖像x，從中找出與目標(biāo)模板圖像最相似的樣本作為預(yù)測(cè)目標(biāo)，表達(dá)式為

f(z,x)=φ(z)*φ(x)+b

(1)

式中：*表示將兩個(gè)特征圖矩陣進(jìn)行互相關(guān)計(jì)算；b為一個(gè)偏置，并在每個(gè)位置都是相同的。

為了構(gòu)造有效的損失函數(shù)，對(duì)響應(yīng)圖的位置點(diǎn)進(jìn)行了正負(fù)樣本的區(qū)分，即目標(biāo)一定范圍內(nèi)的點(diǎn)作為正樣本，范圍外的點(diǎn)作為負(fù)樣本。對(duì)于響應(yīng)圖中每個(gè)點(diǎn)的損失函數(shù)為

l(y,v)=lg(1+exp(-yv))

(2)

式中：v為每個(gè)點(diǎn)的真實(shí)值；y∈{+1,-1}為這個(gè)點(diǎn)所對(duì)應(yīng)的標(biāo)簽。

對(duì)于響應(yīng)圖的整體損失則采用全部點(diǎn)的損失均值，即

(3)

式中：u∈D為響應(yīng)圖中的位置；y(u)表示為

(4)

其中：k為網(wǎng)絡(luò)步長(zhǎng)；c為中心點(diǎn)；R為搜索區(qū)域半徑。

卷積網(wǎng)絡(luò)的參數(shù)θ使用SGD(Stochastic Gradient Descent)優(yōu)化去計(jì)算：

(5)

網(wǎng)絡(luò)的具體參數(shù)如表1所示。最大池化層分別部署在前兩個(gè)卷積層之后，ReLU非線性激活函數(shù)部署在除了最后一層外的每個(gè)卷積層之后，BN(Batch Normalization)[13]層被嵌入每個(gè)線性層之后，網(wǎng)絡(luò)中沒(méi)有填充操作。網(wǎng)絡(luò)分為2個(gè)輸入，一個(gè)輸入目標(biāo)圖像，大小為127×127×3，另一個(gè)輸入當(dāng)前幀搜索區(qū)域圖像，大小為255×255×3，搜索區(qū)域?yàn)樯弦粠繕?biāo)大小的4倍，并將余弦窗添加到響應(yīng)圖中以懲罰最大位移。

圖1 自適應(yīng)Siamese網(wǎng)絡(luò)模型Fig.1 Adaptive Siamese network model

表1 網(wǎng)絡(luò)參數(shù)Table 1 Network parameters

1.1 自適應(yīng)模板更新策略

無(wú)人機(jī)在飛行過(guò)程中，背景是不斷變化的，目標(biāo)也是運(yùn)動(dòng)的，當(dāng)無(wú)人機(jī)自身姿態(tài)和攝像頭視點(diǎn)發(fā)生變化時(shí)，容易造成拍攝視頻中的目標(biāo)發(fā)生形變、遮擋等情況。目前基于Siamese網(wǎng)絡(luò)的跟蹤算法未能將跟蹤過(guò)程中代表目標(biāo)各種狀態(tài)的多個(gè)實(shí)例樣本考慮在內(nèi)，面對(duì)形變、遮擋情況時(shí)跟蹤準(zhǔn)確度還有待提升[14]。由于Siamese網(wǎng)絡(luò)跟蹤算法是基于相似度匹配的跟蹤算法，當(dāng)匹配模板不足以表達(dá)當(dāng)前時(shí)間段的目標(biāo)狀態(tài)時(shí)，就會(huì)造成跟蹤性能的下降，這就需要對(duì)匹配的模板進(jìn)行更新，以適應(yīng)跟蹤目標(biāo)的變化。如果每一幀都更新網(wǎng)絡(luò)的輸入模板，不僅會(huì)大幅提升計(jì)算量，而且會(huì)造成模板冗余的情況。針對(duì)此問(wèn)題，提出一種自適應(yīng)模板更新策略，如圖2所示。利用目標(biāo)在跟蹤過(guò)程中的多個(gè)狀態(tài)建立實(shí)例模型，在時(shí)間序列上構(gòu)建多個(gè)實(shí)例樣本模型，模型之間相互獨(dú)立，既能重

圖2 自適應(yīng)更新策略Fig.2 Strategy of adaptive update

復(fù)表征目標(biāo)的最新?tīng)顟B(tài)，又降低了模型漂移對(duì)跟蹤算法的影響。

在跟蹤過(guò)程中，目標(biāo)不可避免地會(huì)發(fā)生多種形態(tài)變化或者被障礙物遮擋。當(dāng)發(fā)生這種情況時(shí)，如果不及時(shí)對(duì)網(wǎng)絡(luò)的匹配模板進(jìn)行更新將會(huì)導(dǎo)致算法性能的降低。這就要求跟蹤算法能夠保存目標(biāo)的多種狀態(tài)信息，當(dāng)目標(biāo)發(fā)生變化時(shí)能夠及時(shí)進(jìn)行更新，從而保證網(wǎng)絡(luò)能夠適應(yīng)目標(biāo)的變化。為了保存跟蹤過(guò)程中目標(biāo)的多種狀態(tài)信息，本文采用高斯混合模型對(duì)目標(biāo)的狀態(tài)進(jìn)行建模，高斯混合模型(GMM)是一種廣泛使用的聚類(lèi)算法，該算法使用多個(gè)高斯分布作為參數(shù)模型并刻畫(huà)數(shù)據(jù)分布。相比K-Means，高斯混合模型算法能夠提升更強(qiáng)的描述能力，不同類(lèi)別之間具有較大的差異性，而同一類(lèi)別的數(shù)據(jù)相似性大，如圖3所示。

圖3 不同樣本集對(duì)比Fig.3 Comparison of different sample sets

設(shè)隨機(jī)變量x，則高斯混合模型可以表示為

(6)

式中：N(x;μk;I)為高斯混合模型中的第k個(gè)類(lèi)型，若有K種類(lèi)型需要聚類(lèi)，則可以用K個(gè)高斯分布來(lái)表示，μk∈X為均值，協(xié)方差矩陣被設(shè)置為單位矩陣I以避免高維樣本空間中復(fù)雜計(jì)算;πk為混合系數(shù)，相當(dāng)于每個(gè)類(lèi)型的權(quán)重，且滿足：

(7)

為了提升算法的計(jì)算速度，根據(jù)Declercq和Piater的方法[15]，使用一個(gè)簡(jiǎn)易算法去更新GMM。當(dāng)?shù)玫揭粋€(gè)新的預(yù)測(cè)圖像xj，如果為新的類(lèi)別，則初始化一個(gè)新類(lèi)型樣本集m和其中的2個(gè)參數(shù)πm=γ和μm=xj。當(dāng)樣本類(lèi)型的數(shù)量大于所設(shè)定的閾值K時(shí)，去掉權(quán)值πk最小的那一類(lèi)，保留當(dāng)前圖像作為新的一類(lèi)，并設(shè)置其權(quán)值為中間值，防止漂移現(xiàn)象。如果存在相似模板，則把這兩個(gè)類(lèi)型k和l合并為一種類(lèi)別樣本集n，合并方法為

(8)

式中：距離的計(jì)算是將其變換到頻域中并使用Parseval公式來(lái)計(jì)算，大大減少時(shí)間損耗。

對(duì)Siamese網(wǎng)絡(luò)的匹配模板進(jìn)行更新可以讓網(wǎng)絡(luò)在跟蹤過(guò)程中適應(yīng)目標(biāo)的變化，提升跟蹤的可靠性。若每一幀都更新模板分支的特征，會(huì)導(dǎo)致算法每一幀都要進(jìn)行兩個(gè)卷積網(wǎng)絡(luò)的特征提取步驟，這樣勢(shì)必會(huì)增加很多計(jì)算負(fù)擔(dān)，造成算法速率下降。如何在提升算法性能的條件下，盡可能減少速率的損耗是當(dāng)前亟待解決的問(wèn)題。

為了判別當(dāng)前幀狀態(tài)是否與之前保存過(guò)的狀態(tài)類(lèi)似，使用一種感知哈希算法進(jìn)行簡(jiǎn)單的狀態(tài)類(lèi)別判斷。圖像中的高頻信息可以提供圖像的細(xì)節(jié)內(nèi)容，低頻信息可以描述圖像中物體的框架，感知哈希算法(Hash)就是利用圖像的低頻信息去檢測(cè)圖像相似度的方法。首先將圖像通過(guò)下采樣方法縮小到8×8的尺寸，去除圖像的高頻信息，同時(shí)摒棄不同尺寸圖像帶來(lái)的差異性；其次將圖像轉(zhuǎn)化為灰度圖像，并計(jì)算其灰度平均值；之后將圖像中每個(gè)像素的灰度值與平均灰度值進(jìn)行比較，大于等于則記為1，小于則記為0；將這64個(gè)比較值組合在一起就構(gòu)成了這幅圖像的Hash指紋。這種計(jì)算方法快速高效，不受圖像大小尺度的影響。

通過(guò)計(jì)算兩幅圖像的Hash指紋，可以快速有效計(jì)算兩幅圖像的相似度，并判斷出當(dāng)前預(yù)測(cè)圖像是否為目標(biāo)的新?tīng)顟B(tài)，將每種狀態(tài)信息保存下來(lái)，不僅可以使網(wǎng)絡(luò)模型自適應(yīng)目標(biāo)的變化，同時(shí)可以一定程度上降低模型的冗余度。主要過(guò)程為將預(yù)測(cè)的目標(biāo)圖像從原圖像中裁剪下來(lái)，計(jì)算此圖像與模板集中每個(gè)模板圖像的Hash指紋。由于Hash指紋個(gè)數(shù)只有64個(gè)，當(dāng)兩幅圖像的Hash指紋差值<10%時(shí)，即兩個(gè)Hash指紋不同位的個(gè)數(shù)<6.4，可以認(rèn)為兩幅圖像相似度較高；當(dāng)差值>20%時(shí)，即兩個(gè)Hash指紋不同位的個(gè)數(shù)>12.8，可以認(rèn)為兩幅圖像相似度較低。實(shí)驗(yàn)中采用以下判別數(shù)值：當(dāng)兩個(gè)Hash指紋不同位的個(gè)數(shù)<5時(shí)說(shuō)明兩張圖像相似度較高，可以認(rèn)為是同一狀態(tài)圖像，2個(gè)Hash指紋不同位的個(gè)數(shù)>5且<10時(shí)說(shuō)明兩幅圖像有些不同，但比較相近，說(shuō)明是目標(biāo)的新?tīng)顟B(tài)圖像，2個(gè)Hash指紋不同位的個(gè)數(shù)>10則說(shuō)明圖像距離較遠(yuǎn)，相似性程度低，可以判斷為是遮擋或跟蹤錯(cuò)誤的情況，不進(jìn)行更新操作。

跟蹤過(guò)程中不可避免地會(huì)遇到相似目標(biāo)的干擾，由于相鄰兩幀目標(biāo)的移動(dòng)距離不會(huì)過(guò)大，若當(dāng)前響應(yīng)圖中較大的響應(yīng)值離中心較遠(yuǎn)，這時(shí)會(huì)通過(guò)余弦窗進(jìn)行懲罰，降低該響應(yīng)值的干擾，從而處理相似目標(biāo)干擾的情況。

通過(guò)狀態(tài)類(lèi)別判斷和建立模板集2個(gè)部分操作之后，可以生成最適合當(dāng)前幀的精確目標(biāo)模板，因而將此模板替換網(wǎng)絡(luò)中模板分支的輸入，可以使網(wǎng)絡(luò)自適應(yīng)目標(biāo)的各種狀態(tài)變化，提升網(wǎng)絡(luò)性能。自適應(yīng)模板更新策略的主要過(guò)程如下：

1) 使用第1幀目標(biāo)圖像建立高斯混合模型，并定義為第1類(lèi)目標(biāo)狀態(tài)。

2) 計(jì)算每一幀預(yù)測(cè)結(jié)果與所有模板圖像的Hash指紋，計(jì)算其不同位的個(gè)數(shù)。

3) 如果不同位的個(gè)數(shù)<5，則認(rèn)為與此模板類(lèi)似，直接將此模板特征作為下一幀的模板特征。

4) 如果不同位的個(gè)數(shù)>5且<10，則建立或更新高斯混合模型，并利用模板分支提取此特征。

5) 如果不同位的個(gè)數(shù)>10，則不考慮此圖像。

1.2 區(qū)域建議回歸模型

基于Siamese網(wǎng)絡(luò)的跟蹤算法僅僅考慮響應(yīng)圖中最大響應(yīng)點(diǎn)，而忽略了其他響應(yīng)點(diǎn)重要性，沒(méi)有對(duì)其進(jìn)行綜合考慮，這樣可能會(huì)降低對(duì)目標(biāo)位置預(yù)測(cè)的精確性。同時(shí)在尺度方面，大多數(shù)算法只取幾個(gè)不同的系數(shù)對(duì)目標(biāo)尺度進(jìn)行預(yù)測(cè)或借鑒R-CNN[16]中的回歸思想對(duì)目標(biāo)周?chē)厝〈罅繄D像進(jìn)行回歸預(yù)測(cè)來(lái)定位目標(biāo)的精確位置。前者算法只是對(duì)目標(biāo)尺度乘以不同的尺度系數(shù)，并找出響應(yīng)值最高的尺度框作為目標(biāo)的最終位置，當(dāng)目標(biāo)發(fā)生較大尺度變化時(shí)缺少相應(yīng)的尺度系數(shù)，預(yù)測(cè)能力顯著降低；后者算法在回歸預(yù)測(cè)環(huán)節(jié)提取大量圖像樣本特征，增加算法的運(yùn)算量，降低算法效率。針對(duì)以上問(wèn)題，提出一種基于區(qū)域建議的回歸模型，提取響應(yīng)圖中高于一定閾值的響應(yīng)點(diǎn)，得到包含目標(biāo)信息的候選圖像，并放入訓(xùn)練好的回歸模型進(jìn)行位置預(yù)測(cè)，能夠在不損失過(guò)多性能下降低算法復(fù)雜度，提升算法效率，同時(shí)還能提升目標(biāo)位置準(zhǔn)確性。

傳統(tǒng)的回歸模型在回歸預(yù)測(cè)階段也會(huì)提取大量的樣本圖像做回歸預(yù)測(cè)得到最終目標(biāo)框，大量的樣本圖像導(dǎo)致算法的計(jì)算量大幅增加，降低算法效率。針對(duì)此問(wèn)題提出一種基于區(qū)域建議的回歸模型。首先，使用視頻中第1幀圖像的Conv5層特征訓(xùn)練回歸模型并得到回歸函數(shù)，之后提取Siamese網(wǎng)絡(luò)的目標(biāo)實(shí)例特征和當(dāng)前幀的圖像特征進(jìn)行互相關(guān)計(jì)算，得到17×17大小的響應(yīng)圖，提取響應(yīng)圖中高于閾值的響應(yīng)點(diǎn)作為待預(yù)測(cè)的目標(biāo)中心點(diǎn)，根據(jù)上一幀的目標(biāo)尺度大小得到每個(gè)中心點(diǎn)的目標(biāo)框，之后把每個(gè)目標(biāo)框內(nèi)的圖像送入回歸模型進(jìn)行預(yù)測(cè)，最終得到目標(biāo)的精確位置信息，如圖4所示。此模型與傳統(tǒng)回歸模型中在預(yù)測(cè)環(huán)節(jié)提取目標(biāo)周?chē)罅康臉颖緢D像相比，降低了預(yù)測(cè)環(huán)節(jié)中輸入圖像的數(shù)量，降低了算法的計(jì)算量，在不損失過(guò)多性能的條件下提升了算法效率。

圖4 基于區(qū)域建議的回歸模型Fig.4 Regression model based on region proposals

1.3 跟蹤算法步驟

步驟1利用模板分支提取第1幀目標(biāo)圖像特征fe，之后提取目標(biāo)周?chē)鶱個(gè)樣本圖像的Conv5特征訓(xùn)練回歸模型。

步驟2利用檢測(cè)分支提取當(dāng)前幀圖像中搜索區(qū)域的圖像特征fi。

步驟3對(duì)特征fe和fi進(jìn)行互相關(guān)計(jì)算得到響應(yīng)圖。

步驟4提取響應(yīng)圖中高于閾值的響應(yīng)點(diǎn)圖像作為預(yù)測(cè)回歸的樣本圖像，利用區(qū)域建議回歸模型得到回歸后的目標(biāo)圖像。

步驟5計(jì)算當(dāng)前幀預(yù)測(cè)結(jié)果與模板庫(kù)圖像的相似度，建立或更新高斯混合模型，并得到最適合當(dāng)前目標(biāo)狀態(tài)的模板圖像。

步驟6若當(dāng)前狀態(tài)為新?tīng)顟B(tài)則通過(guò)模板分支提取目標(biāo)特征作為新的fe，若為舊狀態(tài)則直接替換Siamese網(wǎng)絡(luò)的模板特征。

步驟7重復(fù)步驟2～6直到視頻結(jié)束。

跟蹤算法流程如圖5所示。

圖5 跟蹤算法流程圖Fig.5 Flowchart of tracking algorithm

2 仿真實(shí)驗(yàn)

2.1 實(shí)驗(yàn)數(shù)據(jù)

為驗(yàn)證本文算法的有效性，選取UAV123數(shù)據(jù)集和無(wú)人機(jī)實(shí)際采集的視頻圖像序列作為測(cè)試數(shù)據(jù)集。UAV123[17]數(shù)據(jù)集包含123個(gè)視頻序列，涉及12種屬性變化，主要涉及無(wú)人機(jī)在低空環(huán)境下對(duì)目標(biāo)的拍攝場(chǎng)景，由于無(wú)人機(jī)拍攝的角度與高度不一致，導(dǎo)致目標(biāo)角度多變及尺度多變，挑戰(zhàn)難度也很大。實(shí)驗(yàn)采用跟蹤成功率和跟蹤精確率2個(gè)通用的評(píng)價(jià)指標(biāo)來(lái)進(jìn)行定量分析。跟蹤成功率反映跟蹤得到的目標(biāo)框和給定的實(shí)際目標(biāo)框的重疊程度大于給定閾值的視頻幀數(shù)占總視頻幀數(shù)的比例，因此，隨著對(duì)重疊程度的要求越高，即閾值越大，反而成功率曲線不斷下降。跟蹤精確率反映跟蹤得到的目標(biāo)中心位置和給定的實(shí)際目標(biāo)中心位置的距離小于給定的某個(gè)閾值的視頻幀數(shù)占總視頻幀數(shù)的比例，因此，隨著閾值的增大，精確率曲線不斷上升。其中圖例中的數(shù)字分別表示中心位置誤差取值為20時(shí)對(duì)應(yīng)的跟蹤精確率和覆蓋率取值為0.5時(shí)對(duì)應(yīng)的跟蹤成功率。

實(shí)驗(yàn)中，訓(xùn)練數(shù)據(jù)集為ILSVC-2015_VID，包含4 500個(gè)視頻，100萬(wàn)張有標(biāo)注信息的圖像。實(shí)驗(yàn)平臺(tái)為Inter core i7-7700K CPU 4.2 GHz，GPU為GeForce GTX 1070 8 G，訓(xùn)練采用MatConvNet工具，迭代50次，每次迭代包含5 000個(gè)樣本對(duì)，每次迭代的mini-batch設(shè)置為8，學(xué)習(xí)率為10-2～10-5，算法跟蹤速率約為20幀/s。其中所對(duì)比算法的結(jié)果均為其論文中的結(jié)果或其開(kāi)源程序在上述實(shí)驗(yàn)平臺(tái)上的結(jié)果。

為了降低網(wǎng)絡(luò)過(guò)擬合的影響，在網(wǎng)絡(luò)訓(xùn)練階段使用ILSVC-2015[18](ImageNet Large Scale Visual Recognition Challenge)目標(biāo)檢測(cè)數(shù)據(jù)集。ILSVC-2015數(shù)據(jù)集中包含一些目標(biāo)占據(jù)整個(gè)畫(huà)面的視頻，而這些視頻不符合真實(shí)場(chǎng)景的跟蹤任務(wù)，所以對(duì)這些視頻進(jìn)行篩選，最終選出4 500個(gè)視頻，大約包含100多萬(wàn)標(biāo)注過(guò)的視頻幀圖像。這個(gè)數(shù)據(jù)集不僅擁有龐大的規(guī)模，而且與標(biāo)準(zhǔn)跟蹤數(shù)據(jù)集中的目標(biāo)和場(chǎng)景不同，所以可以盡量減少過(guò)擬合的影響。

2.2 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證所提算法(SiamRAT)在目標(biāo)發(fā)生遮擋、形變等情況下的有效性，將所提算法與SiameseFC、STRCF[19]和EAST[20]算法進(jìn)行對(duì)比，其中STRCF和EAST是針對(duì)形變、遮擋情況而改進(jìn)的跟蹤算法。實(shí)驗(yàn)數(shù)據(jù)采用UAV123@10fps數(shù)據(jù)集中發(fā)生遮擋、形變的視頻，共60個(gè)。實(shí)驗(yàn)結(jié)果如表2所示。在形變、遮擋場(chǎng)景下，相比于單實(shí)例模型的SiameseFC跟蹤算法，所提算法能夠有效提升22.65%和31.51%的精確率，同時(shí)優(yōu)于其他改進(jìn)算法。這其中的原因一方面是跟蹤算法建立在多個(gè)狀態(tài)實(shí)例樣本之上，相比于建立在單個(gè)實(shí)例樣本之上的SiameseFC跟蹤算法，抓住了跟蹤目標(biāo)特有的狀態(tài)信息，能夠更好地適應(yīng)目標(biāo)的形變；另一方面，通過(guò)對(duì)狀態(tài)信息的判別，有效降低了遮擋情況對(duì)跟蹤性能的影響，相比于利用時(shí)間正則化對(duì)遮擋情況處理的STRCF算法，所提算法避免了多次的參數(shù)更新，利用哈希感知算法有效判別遮擋情況，故能提升算法速率并有效減輕遮擋對(duì)算法性能的影響。

表2 針對(duì)形變、遮擋情況的算法精確率對(duì)比

為驗(yàn)證所提算法在實(shí)際任務(wù)中的有效性，在實(shí)際采集的4個(gè)無(wú)人機(jī)視頻中使用了4種算法進(jìn)行對(duì)比分析，結(jié)果如圖6所示。前2個(gè)視頻中跟蹤目標(biāo)為大巴車(chē)和黑色小轎車(chē)，在跟蹤的過(guò)程中被遮擋物遮擋，影響了部分算法性能，當(dāng)目標(biāo)離開(kāi)遮擋物時(shí)，所提算法能夠穩(wěn)定跟蹤目標(biāo)；后2個(gè)視頻中跟蹤目標(biāo)為騎車(chē)的人和卡車(chē)，由于目標(biāo)行徑方向發(fā)生改變，造成視頻中目標(biāo)狀態(tài)發(fā)生了變化，使得當(dāng)前狀態(tài)與第1幀的目標(biāo)狀態(tài)有很大區(qū)別，而所提算法由于在跟蹤過(guò)程中動(dòng)態(tài)更新模板，使得算法依然能夠穩(wěn)定跟蹤目標(biāo)。

為驗(yàn)證自適應(yīng)更新策略的有效性，在所提算法(SiamRAT)的基礎(chǔ)上去掉自適應(yīng)更新部分，使用UAV123數(shù)據(jù)集進(jìn)行測(cè)試分析，如圖7所示。其中2種算法分別為所提算法和不自適應(yīng)更新目標(biāo)狀態(tài)的算法(Not Updated)。結(jié)果表明：所提算法能夠有效提升15.24%的成功率和7.26%的精確率，從而可以證明自適應(yīng)更新的Siamese網(wǎng)絡(luò)模型是有效的。不論從精確率還是從成功率來(lái)看，不加入自適應(yīng)模板更新策略的算法性能都下降很大，說(shuō)明模板的更新對(duì)跟蹤性能至關(guān)重要。

圖6 部分視頻仿真結(jié)果圖Fig.6 Results for partial video simulations

圖7 對(duì)比分析Fig.7 Comparative analysis

2.3 算法比較

為了驗(yàn)證所提算法(SiamRAT)的有效性，選取UAV123數(shù)據(jù)集中的123個(gè)視頻序列作為測(cè)試序列，對(duì)所提算法進(jìn)行測(cè)試，并與文獻(xiàn)[21-29]中主流跟蹤算法進(jìn)行實(shí)驗(yàn)效果對(duì)比，對(duì)比算法包含ECO、ECO-HC、SRDCF[21]、MEEM[22]、SiameseFC、MUSTER、SAMF、Struck[23]、DSST[24]、TLD[25]、ASLA[26]、CSK[27]、SiamRPN[28]、DSiam[29]。分別采用跟蹤成功率和跟蹤精確率的評(píng)價(jià)指標(biāo)來(lái)進(jìn)行定量分析，不同場(chǎng)景下跟蹤性能比較結(jié)果如圖8所示，比較場(chǎng)景分別為攝像機(jī)移動(dòng)、視角變化、部分遮擋、完全遮擋、寬高比變化、尺度變化，在UAV123數(shù)據(jù)集下整體性能比較如圖9所示，場(chǎng)景名稱(chēng)后的數(shù)字代表此場(chǎng)景的視頻序列數(shù)量。

面對(duì)這些較為復(fù)雜的場(chǎng)景，通過(guò)對(duì)圖8中的對(duì)比結(jié)果進(jìn)行分析可以發(fā)現(xiàn)：所提算法在視角變化、遮擋、形變、尺度變化等場(chǎng)景下具有較好的性能，能夠較好地處理這些視頻，并對(duì)于其他場(chǎng)景下的測(cè)試視頻，所提算法的性能也是較好的，這也充分驗(yàn)證所提算法在跟蹤準(zhǔn)確性、穩(wěn)定性和魯棒性方面具有優(yōu)異的整體性能。其中的主要原因是采用了基于自適應(yīng)Siamese網(wǎng)絡(luò)結(jié)構(gòu)，跟蹤算法在不同時(shí)期建立在不同的實(shí)例樣本之上，抓住了跟蹤目標(biāo)在不同狀態(tài)下特有的狀態(tài)信息，相比于只建立在單個(gè)實(shí)例模板上的SiameseFC算法，能夠更好地適應(yīng)目標(biāo)的各種變化，整體效果提升大約18%。從圖9也可以看出所提算法(SiamRAT)整體的跟蹤成功率為0.725，精度為0.771，其原因主要是由于采用了回歸模型進(jìn)行目標(biāo)位置預(yù)測(cè)，極大地提高了跟蹤精度和目標(biāo)位置的準(zhǔn)確性，同時(shí)基于區(qū)域建議的回歸模型能夠在不損失過(guò)多性能的情況下減小計(jì)算量，提高跟蹤速率。所提算法在所有算法的比較中性能只略低于SiamRPN算法，其原因主要是訓(xùn)練集的大小相差過(guò)大，若使用更大的數(shù)據(jù)集進(jìn)行訓(xùn)練，算法性能會(huì)有一定的提升。

圖8 不同場(chǎng)景下的性能比較Fig.8 Comparison of performance in different scenarios

圖9 整體性能比較Fig.9 Overall performance comparison

3 結(jié) 論

針對(duì)無(wú)人機(jī)視頻中目標(biāo)易發(fā)生形態(tài)變化、易被遮擋等問(wèn)題，提出了一種基于Siamese網(wǎng)絡(luò)的無(wú)人機(jī)視頻目標(biāo)跟蹤算法。

1) 針對(duì)無(wú)人機(jī)視頻中目標(biāo)易發(fā)生形態(tài)變化、易被遮擋等問(wèn)題，需要較準(zhǔn)確的目標(biāo)模板信息以供算法預(yù)測(cè)目標(biāo)，結(jié)合Siamese網(wǎng)絡(luò)和自適應(yīng)策略構(gòu)建了自適應(yīng)Siamese網(wǎng)絡(luò)模型。

2) 根據(jù)所構(gòu)建的模板圖像集對(duì)每一幀所預(yù)測(cè)的目標(biāo)進(jìn)行處理優(yōu)化，得到較為精確的目標(biāo)模板，代替網(wǎng)絡(luò)中第1個(gè)分支的模板圖像，較好地提升了網(wǎng)絡(luò)對(duì)目標(biāo)變化的適應(yīng)性，同時(shí)引入回歸模型提升了預(yù)測(cè)準(zhǔn)確度和精確度，降低了周?chē)尘皩?duì)網(wǎng)絡(luò)性能的影響。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡