文/孫振 李慶黨 王璐 吳俊飛
基于深度學(xué)習(xí)的跟蹤方法是目標(biāo)跟蹤方法中的另一個(gè)重要分支,其利用深度卷積網(wǎng)絡(luò)端到端訓(xùn)練的優(yōu)勢(shì),讓模型自動(dòng)化的學(xué)習(xí)跟蹤目標(biāo)的外觀特性、運(yùn)動(dòng)特性,實(shí)現(xiàn)高質(zhì)量的魯棒性跟蹤。GΟTURN[1],MDNET[2]等基于深度學(xué)習(xí)的目標(biāo)跟蹤方法,均取得了非常好的效果。在該領(lǐng)域中,[3]提出了一個(gè)非常具有潛力的跟蹤框架Siamese-FC,其利用孿生網(wǎng)絡(luò)將跟蹤問題轉(zhuǎn)化為圖像對(duì)的比較問題。這種方法在近幾年獲得了充分的研究,并以此衍生了出大量?jī)?yōu)秀的跟蹤器。
根據(jù)不同網(wǎng)絡(luò)特征進(jìn)行多路特征比較也是孿生跟蹤網(wǎng)絡(luò)的一個(gè)發(fā)展思路。在這個(gè)方面[4]通過分別建立外觀特征提取網(wǎng)絡(luò)與語義特征提取網(wǎng)絡(luò),通過將外觀特征與語義特征分別進(jìn)行相關(guān)性運(yùn)算,將響應(yīng)圖疊加得到最終的響應(yīng)位置。注意力機(jī)制是最近幾年機(jī)器視覺領(lǐng)域常用的方法,[5]將注意力機(jī)制與孿生跟蹤網(wǎng)絡(luò)相結(jié)合,并提出了三種不同的注意力機(jī)制的嵌入方式。包括一般注意力機(jī)制、目標(biāo)適應(yīng)殘留注意力機(jī)制、特征通道注意力機(jī)制。
為了保證目標(biāo)跟蹤的速度,如Siamese-FC等大多數(shù)孿生跟蹤網(wǎng)絡(luò)在跟蹤過程中并不更新目標(biāo)模板和網(wǎng)絡(luò)權(quán)值,這造成兩個(gè)問題:
(1)當(dāng)目標(biāo)發(fā)生較大的形變時(shí),會(huì)造成目標(biāo)候選框與目標(biāo)模板出現(xiàn)較大差異,從而導(dǎo)致跟蹤失敗。
(2)網(wǎng)絡(luò)權(quán)值不更新導(dǎo)致要使用同一套網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)適應(yīng)所有的跟蹤場(chǎng)景,這是很難做到的。[6]提出了一種遞增的在線模板更新機(jī)制,在兼顧計(jì)算速度的情況下實(shí)現(xiàn)目標(biāo)模板信息的更新,取得了較好的效果。[7]為了實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)于不同跟蹤場(chǎng)景的適應(yīng),提出了一種基于動(dòng)態(tài)濾波器的更新機(jī)制。該方法并沒有去更新模板,而是在模板分支與候選分支中各增加了一個(gè)濾波器。該濾波器通過擬合原有特征與當(dāng)前幀特征的差異,從而實(shí)現(xiàn)原始模板特征值的動(dòng)態(tài)更新。
將孿生跟蹤網(wǎng)絡(luò)與其他先進(jìn)的機(jī)器視覺處理模塊相結(jié)合也是重要的發(fā)展方向。[8]在孿生跟蹤網(wǎng)絡(luò)之后,增加了候選縮放網(wǎng)絡(luò)以及分類網(wǎng)絡(luò),通過候選縮放網(wǎng)絡(luò)實(shí)現(xiàn)跟蹤目標(biāo)尺度變化的自適應(yīng),然后在分類網(wǎng)絡(luò)中將目標(biāo)與背景進(jìn)行更精細(xì)的分類。[9]則是將孿生跟蹤網(wǎng)絡(luò)與區(qū)域生成網(wǎng)絡(luò)相結(jié)合。通過將孿生跟蹤網(wǎng)絡(luò)模板分支、候選分支的特征同時(shí)輸入到區(qū)域生成網(wǎng)絡(luò)的分類分支與回歸分支,將跟蹤問題變換成為單次學(xué)習(xí)匹配問題。[10]針對(duì)模板匹配類算法對(duì)于相似干擾物區(qū)分性不強(qiáng)的問題,設(shè)計(jì)一系列的干擾物訓(xùn)練集合,通過端到端的訓(xùn)練提升網(wǎng)絡(luò)對(duì)于相似物體的區(qū)分能力。[11]則進(jìn)一步將Mask R-CNN中的蒙版分支引入到跟蹤網(wǎng)絡(luò)中,實(shí)現(xiàn)了對(duì)于目標(biāo)的跟蹤與分割的統(tǒng)一處理。
孿生網(wǎng)絡(luò)跟蹤方法對(duì)于外觀相似的物體缺少判別性,這是該類方法的本質(zhì)缺陷。當(dāng)跟蹤目標(biāo)被與相似物體貼近或被同類物體遮擋時(shí),跟蹤網(wǎng)絡(luò)極易跟蹤到錯(cuò)誤的目標(biāo)上。如何能夠有效的設(shè)計(jì)相關(guān)相似性區(qū)分機(jī)制,是該類跟蹤方法的重要研究方向。
孿生網(wǎng)絡(luò)跟蹤算法本質(zhì)上屬于基于深度學(xué)習(xí)與深度卷積網(wǎng)絡(luò)的跟蹤方法,在訓(xùn)練與跟蹤過程中需要進(jìn)行大量的卷積計(jì)算,從而影響了跟蹤速度。最初的孿生網(wǎng)絡(luò)跟蹤算法達(dá)到了86FPS的跟蹤速度,但隨著孿生跟蹤網(wǎng)絡(luò)的不斷更新,導(dǎo)致目標(biāo)跟蹤時(shí)的計(jì)算量顯著增加,實(shí)時(shí)性也越來越難保證。如何在保證跟蹤效果的前提下盡力達(dá)到實(shí)時(shí)性要求,是一個(gè)較為重要的研究方向。
跟蹤過程中更新模板或權(quán)值,大量的微調(diào)計(jì)算會(huì)顯著拖慢跟蹤速度,導(dǎo)致無法保證跟蹤的實(shí)時(shí)性。雖然目前提出了一些能夠更新網(wǎng)絡(luò)權(quán)值的方法,但整體效果還有待提升。在這種情況下,如何能夠讓跟蹤網(wǎng)絡(luò)適應(yīng)跟蹤目標(biāo)的外觀變化,同時(shí)又能盡量少的增加計(jì)算負(fù)擔(dān)是一個(gè)很重要的研究方向。
孿生跟蹤網(wǎng)絡(luò)作為一種重要的目標(biāo)跟蹤方法受到了大量研究人員的關(guān)注。本文對(duì)孿生跟蹤網(wǎng)絡(luò)進(jìn)行了簡(jiǎn)要研究,對(duì)相關(guān)優(yōu)化模型做了簡(jiǎn)要分析,并基于上述分析提出后期研究方向。對(duì)于相關(guān)領(lǐng)域研究人員有一定的參考意義。