梁義濤,韓永波,李 磊
1.河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,鄭州 450001
2.河南省糧食光電探測與控制重點(diǎn)實(shí)驗(yàn)室,鄭州 450001
視覺目標(biāo)跟蹤(visual object tracking,VOT)是計(jì)算機(jī)視覺領(lǐng)域最具挑戰(zhàn)性的研究課題之一。該任務(wù)旨在僅給定目標(biāo)初始狀態(tài)的條件下,在一段視頻中持續(xù)定位該目標(biāo)。跟蹤過程的可視化通常使用一個(gè)矩形框鎖定目標(biāo)來展現(xiàn),該過程如圖1所示。VOT具有廣泛的應(yīng)用,包括自動駕駛、視頻監(jiān)控、生物醫(yī)療和海洋勘探等[1-3]。上述應(yīng)用場景涉及復(fù)雜的視覺環(huán)境,對目標(biāo)跟蹤算法的魯棒性和可靠性提出了很高的要求。
圖1 跟蹤任務(wù)示例圖Fig.1 Illustration of visual tracking tasks
復(fù)雜的現(xiàn)實(shí)場景包括環(huán)境光照變化、目標(biāo)尺度信息變化、畫面模糊和背景雜波干擾,甚至還有目標(biāo)發(fā)生瞬時(shí)形變、被完全遮擋或消失等極端異常情況。傳統(tǒng)的目標(biāo)跟蹤算法通過構(gòu)造魯棒的判別式區(qū)分場景內(nèi)的目標(biāo)與背景,通常依賴于時(shí)空一致性的假設(shè),在圖像的局部區(qū)域內(nèi)搜索目標(biāo),并對較大的位置和尺度等變化設(shè)計(jì)懲罰,限制預(yù)測空間。經(jīng)典的視覺跟蹤方法設(shè)計(jì)包括相關(guān)濾波跟蹤[4]、光流跟蹤[5]、核跟蹤[6]等,它們推動了視覺目標(biāo)跟蹤技術(shù)的發(fā)展,但也存在兩點(diǎn)固有局限:一是使用包括尺度不變特征變換(scale-invariant feature transform,SIFT)[7]、哈爾特征(Haar-like feature)[8]、顏色特征(color name)[9]、局部二值特征(local binary pattern,LBP)[10]和方向梯度直方圖特征(histogram of oriented gradient,HOG)[11]在內(nèi)的手工制造特征表示目標(biāo),使得算法無法對目標(biāo)進(jìn)行充分建模,最終導(dǎo)致跟蹤和檢測性能不佳;二是非端到端的學(xué)習(xí)模式更容易陷入僅局部最優(yōu)的情況[12]。
隨著深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用,目標(biāo)跟蹤技術(shù)突破了傳統(tǒng)方法的局限,取得了進(jìn)一步的發(fā)展。深度神經(jīng)網(wǎng)絡(luò)為VOT 技術(shù)提供了一種端到端的學(xué)習(xí)范式,整合了特征選擇、特征提取和特征分類等功能,由大量圖像數(shù)據(jù)驅(qū)動網(wǎng)絡(luò),使網(wǎng)絡(luò)完成特定的分類或匹配任務(wù),從而在背景干擾中區(qū)分并持續(xù)鎖定目標(biāo)[13]。
為訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)理解現(xiàn)實(shí)跟蹤場景的能力,完成跟蹤任務(wù),大規(guī)模的圖像數(shù)據(jù)輸入到網(wǎng)絡(luò)中,提供復(fù)雜的現(xiàn)實(shí)場景材料。數(shù)據(jù)集收錄多段現(xiàn)實(shí)場景中的錄像,制作成標(biāo)注完善的圖像序列。早期的跟蹤數(shù)據(jù)集對現(xiàn)實(shí)場景的刻畫力不足,每組序列在30 FPS 的播放速度下持續(xù)時(shí)間僅有十余秒[14-15],難以全面評測跟蹤器的性能。自2018 年,新建立的大規(guī)模跟蹤數(shù)據(jù)集傾向于制作持續(xù)時(shí)間在分鐘級的圖像序列,并保證圖像中的場景具有更多樣的挑戰(zhàn)屬性。同時(shí),VOT挑戰(zhàn)賽[16]開放了長時(shí)跟蹤賽道,在此之后,跟蹤器的長時(shí)跟蹤能力受到越來越多研究者的關(guān)注。與長時(shí)跟蹤相比,短時(shí)跟蹤往往只考驗(yàn)在部分挑戰(zhàn)場景下的跟蹤器性能,較少涉及極端異常情況,長時(shí)跟蹤涉及到的場景變化與挑戰(zhàn)則更為多樣。
在深度神經(jīng)網(wǎng)絡(luò)興起之前,傳統(tǒng)跟蹤算法對長時(shí)跟蹤已有相應(yīng)的探索,考慮到長時(shí)跟蹤場景中目標(biāo)丟失于畫面中的情況,部分經(jīng)典工作通過局部跟蹤方法[3-5]、支持向量機(jī)(support vector machine,SVM)[17]和隨機(jī)森林[18]等方法構(gòu)建了跟蹤失敗后的目標(biāo)恢復(fù)機(jī)制(重檢測)。主要以跟蹤-學(xué)習(xí)-檢測算法(tracking-learning-detection,TLD)[5]、全局候選框跟蹤算法[19]、長時(shí)相關(guān)濾波跟蹤算法[20]和大邊緣跟蹤算法[21]為代表。雖然傳統(tǒng)跟蹤長時(shí)算法同樣存在固有局限,但是上述跟蹤模型為長時(shí)跟蹤器的設(shè)計(jì)提供了具有借鑒意義的設(shè)計(jì)思路。
利用深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,基于深度神經(jīng)網(wǎng)絡(luò)的長時(shí)跟蹤算法(簡稱深度長時(shí)跟蹤算法)充分挖掘突出的特征建模能力,聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[22]、孿生神經(jīng)網(wǎng)絡(luò)(Siamese neural network,SNN)[23]、長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)[24]、元學(xué)習(xí)[25]和Attention[26]的優(yōu)勢,應(yīng)對長時(shí)跟蹤場景下的挑戰(zhàn)。由于相似物體干擾、局部遮擋、全遮擋、目標(biāo)丟失等挑戰(zhàn)因素的影響(見圖2),跟蹤器會迅速積累誤差,污染目標(biāo)模板信息,最終導(dǎo)致跟蹤失敗。長時(shí)跟蹤不僅更為全面地涵蓋上述挑戰(zhàn)因素,而且要求跟蹤器在盡量保證效率的情況下能夠穩(wěn)定地長時(shí)運(yùn)行。長時(shí)跟蹤概念的引入,對跟蹤器的自監(jiān)督訓(xùn)練、在線學(xué)習(xí)更新性能和重檢測性能提出了更高的要求,指引了視覺跟蹤技術(shù)進(jìn)一步的發(fā)展方向。文獻(xiàn)[27]對近年來基于深度學(xué)習(xí)的跟蹤算法進(jìn)行了詳細(xì)的調(diào)查論述,并在多個(gè)先進(jìn)的短時(shí)或長時(shí)跟蹤數(shù)據(jù)集上分析了它們的性能;文獻(xiàn)[28]闡述了對于跟蹤器長時(shí)跟蹤能力的評價(jià)要點(diǎn)。但是目前對長時(shí)跟蹤領(lǐng)域仍然缺乏系統(tǒng)性的發(fā)展研究。鑒于此,本文將對深度長時(shí)跟蹤器設(shè)計(jì)中涉及的技術(shù)因素進(jìn)行調(diào)研和解析,嘗試從數(shù)據(jù)集特點(diǎn)入手給出長時(shí)與短時(shí)的范疇界定。在此基礎(chǔ)上,側(cè)重比較和分析現(xiàn)有長時(shí)數(shù)據(jù)集、評價(jià)指標(biāo)及相關(guān)算法的特點(diǎn),探討可能提升長時(shí)跟蹤效率和魯棒性等性能的研究方向。
圖2 長時(shí)跟蹤任務(wù)主要挑戰(zhàn)因素示例Fig.2 Illustration of challenges of long-term tracking tasks
跟蹤基準(zhǔn)數(shù)據(jù)集對視覺目標(biāo)跟蹤技術(shù)的貢獻(xiàn)主要分為兩方面:其一是提供現(xiàn)實(shí)中不同場景下的圖像序列,在這些序列上,對實(shí)例物體的位置等信息進(jìn)行標(biāo)注,為跟蹤器的設(shè)計(jì)實(shí)現(xiàn)提供盡可能完善的數(shù)據(jù)支撐;其二是提供評價(jià)體系和評價(jià)平臺,從而標(biāo)準(zhǔn)化、系統(tǒng)化評價(jià)跟蹤算法性能。依據(jù)深度跟蹤器跟蹤時(shí)長的設(shè)計(jì)需求不同,可將現(xiàn)有跟蹤數(shù)據(jù)集劃分為短時(shí)數(shù)據(jù)集和長時(shí)數(shù)據(jù)集兩大類。短時(shí)數(shù)據(jù)集所包含的跟蹤場景通常較為理想,目標(biāo)少有被長時(shí)間遮擋或處于視野外的情況。而在現(xiàn)實(shí)場景中,這點(diǎn)很難得到保證,尤其是在時(shí)間跨度較大時(shí),對跟蹤器設(shè)計(jì)支撐強(qiáng)的視頻數(shù)據(jù)集應(yīng)該包含盡可能多的相似物干擾、目標(biāo)被遮擋、目標(biāo)處于視野外等包含多種屬性的挑戰(zhàn)點(diǎn)。這一類的數(shù)據(jù)集通常歸屬于長時(shí)跟蹤數(shù)據(jù)集。自2018年以來,OxUvA數(shù)據(jù)集[29]、LTB35 數(shù)據(jù)集[30]、LaSOT 數(shù)據(jù)集[31]和TLP 數(shù)據(jù)集[32]等陸續(xù)創(chuàng)建,這些數(shù)據(jù)集著重考慮了長時(shí)跟蹤的場景,VOT挑戰(zhàn)賽[33]中也加入了長時(shí)跟蹤賽道,這是目前數(shù)據(jù)集發(fā)展的一個(gè)趨勢。
表1給出了常用的13個(gè)數(shù)據(jù)集,包括7個(gè)短時(shí)數(shù)據(jù)集和6 個(gè)長時(shí)數(shù)據(jù)集。表1 顯示,長時(shí)跟蹤數(shù)據(jù)集的平均視頻持續(xù)時(shí)間和最短視頻持續(xù)時(shí)間分別達(dá)到了60 s和30 s以上,并且2018年以后出現(xiàn)的長時(shí)數(shù)據(jù)集均包含了缺失標(biāo)簽,為深度網(wǎng)絡(luò)提供了無監(jiān)督訓(xùn)練。數(shù)據(jù)集的序列持續(xù)時(shí)長平均在1 min 以上,并且包含缺失標(biāo)簽是長時(shí)數(shù)據(jù)集的特點(diǎn)之一。
表1 常用長時(shí)和短時(shí)跟蹤數(shù)據(jù)集序列特點(diǎn)對比Table 1 Comparison of sequence characteristics for long-term and short-term tracking datasets
長時(shí)數(shù)據(jù)集較長的視頻時(shí)長,使得跟蹤目標(biāo)和場景能在一個(gè)較寬的時(shí)間范圍內(nèi)發(fā)生狀態(tài)和場景的屬性變化,包括目標(biāo)被遮擋等極端情況。此類情況下,跟蹤算法容易快速積累誤差,導(dǎo)致后續(xù)跟蹤性能嚴(yán)重下降。不同的挑戰(zhàn)屬性分布是劃分長短時(shí)數(shù)據(jù)集的另一大要素,這些數(shù)據(jù)集中的挑戰(zhàn)屬性貢獻(xiàn)了跟蹤器向?qū)嵱没葸M(jìn)的過程。本文將檢索到的數(shù)據(jù)集挑戰(zhàn)屬性歸納為四大類,分別為目標(biāo)類、背景類、成像設(shè)備類和其他干擾類,各挑戰(zhàn)屬性具體的歸類如圖3 所示。目標(biāo)類主要為圖像內(nèi)目標(biāo)的外觀、形態(tài)和運(yùn)動狀態(tài)等信息發(fā)生變化所帶來的跟蹤挑戰(zhàn);背景類主要為環(huán)境光照、陰影和背景變化造成的場景挑戰(zhàn);與成像設(shè)備的工作狀態(tài)、運(yùn)行條件有關(guān)的挑戰(zhàn)點(diǎn)均可歸類于設(shè)備成像類屬性;場景內(nèi)某物體遮擋目標(biāo)致使其外觀受到影響或其他情況下的挑戰(zhàn)屬性歸為其他干擾類屬性。
圖3 數(shù)據(jù)集圖像序列挑戰(zhàn)屬性Fig.3 Attributes of image sequences for datasets
進(jìn)一步地,在表2中調(diào)研匯總了部分具有代表性的挑戰(zhàn)屬性并解釋其內(nèi)涵,它們均包含于至少9個(gè)以上的數(shù)據(jù)集中,是最重要的幾類挑戰(zhàn)點(diǎn)。而后,在表3 中從各數(shù)據(jù)集的挑戰(zhàn)屬性出發(fā),歸納了長時(shí)數(shù)據(jù)集的特點(diǎn)。表3表明,光照變化、尺度變化、背景雜波和目標(biāo)處于視野外的挑戰(zhàn)屬性是數(shù)據(jù)集中最常見的挑戰(zhàn)屬性,短時(shí)數(shù)據(jù)集和長時(shí)數(shù)據(jù)集均較為著重地設(shè)計(jì)含有目標(biāo)類挑戰(zhàn)屬性的情景。區(qū)別于短時(shí)數(shù)據(jù)集,長時(shí)數(shù)據(jù)集更加側(cè)重其他干擾類的挑戰(zhàn)屬性。在場景設(shè)計(jì)上,長時(shí)跟蹤場景總是具有目標(biāo)經(jīng)歷遮擋和相似物干擾的情況,在發(fā)生遮擋的幀,目標(biāo)不同程度地消失于畫面中;在存在相似物干擾的幀,僅依靠目標(biāo)外觀特征難以準(zhǔn)確定位目標(biāo),這考驗(yàn)了跟蹤器對數(shù)據(jù)上下文信息的利用度,同時(shí)要求跟蹤器具有可靠的自檢性能。
表2 數(shù)據(jù)集場景的常見挑戰(zhàn)屬性匯總Table 2 Summary of attributes for datasets challenge scenarios
表3 常用長時(shí)和短時(shí)跟蹤數(shù)據(jù)集的挑戰(zhàn)屬性對比Table 3 Comparison of attributes for long-term and short-term tracking datasets
綜上所述,長時(shí)跟蹤任務(wù)的特點(diǎn)如下:其一是要求跟蹤器具有可靠的重檢測機(jī)制;其二是要求跟蹤器具有較好的自檢性能,即準(zhǔn)確評估場景內(nèi)目標(biāo)存在狀態(tài)和輸出結(jié)果置信度的性能;其三是需要設(shè)計(jì)跟蹤器消除信息污染的策略,以應(yīng)對持續(xù)時(shí)間為分鐘級以上的視頻畫面中的各種挑戰(zhàn)屬性。
對視覺跟蹤器的性能評價(jià)指標(biāo)主要從準(zhǔn)確性、魯棒性等互補(bǔ)角度做出評價(jià),并在大規(guī)模數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)比較。在短時(shí)跟蹤的基礎(chǔ)上,長時(shí)跟蹤需要額外考慮目標(biāo)在場景中的存在狀態(tài)和丟失目標(biāo)再捕獲策略。為了全面評價(jià)長時(shí)跟蹤算法,主流數(shù)據(jù)集提供了不同的評價(jià)體系,從互補(bǔ)的角度對跟蹤器性能進(jìn)行評估。下面將簡要描述這些指標(biāo),將指標(biāo)信息歸納在表4 中,通過與短時(shí)跟蹤指標(biāo)進(jìn)行對比,了解評估長時(shí)跟蹤性能的關(guān)鍵點(diǎn)。
表4 跟蹤器性能評價(jià)指標(biāo)Table 4 Evaluation metrics for visual tracker performance
短時(shí)跟蹤數(shù)據(jù)集提出的評價(jià)方法主要關(guān)注跟蹤器對目標(biāo)位置和尺度預(yù)測的準(zhǔn)確和魯棒性,這兩項(xiàng)指標(biāo)同樣是長時(shí)跟蹤評價(jià)的重要組成,進(jìn)一步地,長時(shí)跟蹤評價(jià)指標(biāo)需要著重考慮跟蹤器判斷目標(biāo)是否丟失的自檢性能和重檢測性能。
LaSOT 沿用OTB 提出的一次評估方法(one-pass evaluation,OPE),僅用標(biāo)簽初始化第一幀,在數(shù)據(jù)集上運(yùn)行跟蹤器,通過平均像素誤差(average pixel error,APE)和平均重疊率(average overlap rate,AOR)分別繪制精度曲線和成功率曲線,反映跟蹤器的魯棒性。然而OPE方法在跟蹤丟失的情況下對序列利用率不高,并且缺少評價(jià)跟蹤器漏檢與誤檢的指標(biāo)。LTB數(shù)據(jù)集(又稱VOT_LT數(shù)據(jù)集)使用召回率(recall,Re)與精度(precision,Pr)分別反映跟蹤器存在漏檢和誤檢的概率,并綜合考慮Re 和Pr,采用F-score 描述跟蹤器的魯棒性[30]。由于數(shù)據(jù)集樣本分布不均衡,跟蹤器不預(yù)測任何缺失標(biāo)簽時(shí),仍有可能取得高召回率和高精度。為此,OxUvA中提出的最大幾何平均數(shù)(MaxGM)[29]使用真正率與真負(fù)率評價(jià)跟蹤器長時(shí)跟蹤性能,這項(xiàng)指標(biāo)綜合衡量了跟蹤器的誤檢和漏檢率,不過由于其過于偏向跟蹤器預(yù)測缺席標(biāo)簽的性能,對于評價(jià)跟蹤連續(xù)性方面有所欠缺。TLP 數(shù)據(jù)集提出最長子序列度量(longest subsequence measure,LSM)[32],該度量計(jì)算成功跟蹤的最長連續(xù)子序列的長度與序列總長度的比值,其中成功跟蹤的判斷依據(jù)是交并比(intersection over union,IoU)大于0.5,該指標(biāo)直觀地反映了跟蹤器的長時(shí)跟蹤連續(xù)性,不過忽略了跟蹤器的自檢準(zhǔn)確度評估。Karthik 等人[39]在視頻序列上引入切片以評估跟蹤器的重檢測性能,并對LSM指標(biāo)進(jìn)行了改進(jìn),提出了3D-LSM。該指標(biāo)將LSM中的IoU 閾值和參數(shù)x以0.05 的步長從0.05 遍歷到1,得到不同設(shè)置條件下的一個(gè)20×20的矩陣,從而對于長時(shí)跟蹤器的效果提供直接的視覺解釋。
為應(yīng)對長時(shí)跟蹤任務(wù)所帶來的挑戰(zhàn),需要設(shè)計(jì)長時(shí)跟蹤器來處理目標(biāo)的消失和重現(xiàn)。目前,完全滿足長時(shí)跟蹤需求的跟蹤器仍然較少,而部分短時(shí)跟蹤器則可以部分滿足長時(shí)跟蹤需求。為了對跟蹤器進(jìn)行準(zhǔn)確的性能分析,Luke?i?等人[30]將跟蹤器分成短時(shí)跟蹤器(ST0)、具有更新策略的短時(shí)跟蹤器(ST1)、偽長時(shí)跟蹤器(LT0)和長時(shí)跟蹤器(LT1)四類,四類跟蹤器的特點(diǎn)歸納在表5中。LT1涵蓋了所有的長時(shí)跟蹤需求,通常也完全包含了前三類跟蹤器的主要功能。圖4 給出了基于深度學(xué)習(xí)的LT1類型跟蹤器的一般框架,面對長時(shí)跟蹤任務(wù)的復(fù)雜性,深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用有效提升了長時(shí)跟蹤器的性能。
表5 短時(shí)-長時(shí)跟蹤器的類型Table 5 Types of short-term and long-term trackers
圖4顯示,長時(shí)跟蹤框架由局部跟蹤模塊和重檢測模塊構(gòu)成。局部跟蹤模塊起到LT0跟蹤器的作用,它通常是兩個(gè)ST0或ST1的組合。經(jīng)過局部跟蹤,當(dāng)跟蹤失敗被識別時(shí),啟動重檢測模塊重新檢測目標(biāo)位置,并將目標(biāo)位置送入局部跟蹤模塊繼續(xù)跟蹤。
圖4 深度長時(shí)跟蹤算法框架Fig.4 Framework of deep-learning-based long-term tracking algorithm
具體來講,在局部跟蹤模塊中,一個(gè)短時(shí)跟蹤網(wǎng)絡(luò)的作用是在每幀對目標(biāo)提供多個(gè)位置預(yù)測結(jié)果;驗(yàn)證網(wǎng)絡(luò)仍和短時(shí)跟蹤網(wǎng)絡(luò)類似,不過主要功能在于計(jì)算目標(biāo)和預(yù)測結(jié)果之間的相似度得分并識別跟蹤失敗,從而報(bào)告最優(yōu)的預(yù)測結(jié)果和跟蹤狀態(tài)。對于重檢測模塊,一種檢測機(jī)制是將全圖像剪裁成子圖像,仍由局部跟蹤模塊在每個(gè)子圖像上進(jìn)行預(yù)測[40];另一種方案則是通過目標(biāo)檢測網(wǎng)絡(luò)在整幅圖像上進(jìn)行全局搜索[41]。
局部跟蹤模塊起到LT0跟蹤器的作用,其輸出包括跟蹤器對當(dāng)前幀的輸出,以及對該輸出結(jié)果的評估。許多短期跟蹤器可以通過估計(jì)預(yù)測結(jié)果的置信度得分直接轉(zhuǎn)換為偽長期跟蹤器[29],將置信度得分與設(shè)定閾值之間做對比得到跟蹤狀態(tài),從而判斷是否發(fā)生了目標(biāo)丟失。局部跟蹤模塊通常由基于分類思想的跟蹤網(wǎng)絡(luò)和基于匹配的跟蹤網(wǎng)絡(luò)組成。
2.1.1 基于分類的深度跟蹤網(wǎng)絡(luò)
該類型跟蹤網(wǎng)絡(luò)的目的是訓(xùn)練一個(gè)閉合判別式的權(quán)重,由判別式準(zhǔn)確區(qū)分圖像中的前景和背景。一般來講,由跟蹤數(shù)據(jù)集上的全體圖像序列離線訓(xùn)練特征提取網(wǎng)絡(luò),再經(jīng)過單個(gè)序列訓(xùn)練的全連接網(wǎng)絡(luò)完成當(dāng)前圖像特征與圖庫中特征的對比分類,從而實(shí)現(xiàn)逐幀前景和背景的二分類(圖5)。
圖5 基于分類網(wǎng)絡(luò)的跟蹤流程Fig.5 Tracking based on classification network
2015年,Nam等人[22]提出多域卷積網(wǎng)絡(luò)(multi-domain convolutional neural network,MDNet)進(jìn)行目標(biāo)跟蹤。MDNet 包括共享層和特定域?qū)樱蚕韺影ㄈ齻€(gè)卷積層和兩個(gè)全連接層,特定域?qū)佑蒏個(gè)全連接層組成。該算法分為初始化、網(wǎng)絡(luò)訓(xùn)練和在線跟蹤三個(gè)階段。首先在初始化階段,輸入圖像進(jìn)入經(jīng)過預(yù)訓(xùn)練的卷積層和全連接層,初始化首幀的目標(biāo)框,而后隨機(jī)初始化單序列訓(xùn)練的全連接層。在網(wǎng)絡(luò)訓(xùn)練階段,根據(jù)目標(biāo)框的位置,通過均勻隨機(jī)的辦法建立1 000 個(gè)關(guān)于該視頻序列的訓(xùn)練樣本,使用線性回歸算法[42]獲得特定域全連接層的參數(shù),并通過高斯隨機(jī)分布建立的正負(fù)樣本更新該全連接層。最后的在線跟蹤階段,在前一幀的輸出附近生成256 個(gè)候選框,經(jīng)過網(wǎng)絡(luò)計(jì)算正樣本得分,根據(jù)下式選擇最終輸出。
輸出的置信度分?jǐn)?shù)大于0.5 認(rèn)為跟蹤成功,否則認(rèn)為跟蹤失敗。每次跟蹤成功都將采集預(yù)測框附近的250個(gè)樣本存入樣本庫,當(dāng)跟蹤失敗時(shí),使用這些樣本更新所有全連接層。MDNet 具有在線更新策略和自檢性能,加之由跟蹤任務(wù)定制的神經(jīng)網(wǎng)絡(luò),使其在VOT2015 上表現(xiàn)突出[43]。不過該模型抗干擾性能較差,在線更新策略過于保守,并且運(yùn)行效率較低(跟蹤速度需要大于25 FPS,MDNet為1 FPS)。
為此,F(xiàn)an等人[44]通過引入RNN提取目標(biāo)物體的結(jié)構(gòu)信息,增強(qiáng)目標(biāo)物體與相似背景之間的區(qū)分力;Nam等人[45]采用多個(gè)CNN捕獲不同的目標(biāo)形狀信息聯(lián)合評估排序,輸出得分最高的估計(jì)框,提高網(wǎng)絡(luò)的抗干擾能力;2018年,Jung等人[46]提出的實(shí)時(shí)多域卷積網(wǎng)絡(luò)(real-time MDNet,RT-MDNet)在MDNet 的基礎(chǔ)上采用全卷積層特征映射,以關(guān)注區(qū)域?qū)R層[47]提取對象描述特征,并在預(yù)訓(xùn)練階段引入嵌入損失,聚合到原MDNet 二分類損失中,從而有效提升算法的魯棒性,并使得MDNet達(dá)到實(shí)時(shí)跟蹤。2019年,Danelljan等人[48]將目標(biāo)跟蹤分為兩個(gè)階段,由深度回歸網(wǎng)絡(luò)分類目標(biāo)和背景,進(jìn)行目標(biāo)的粗定位,再由使用交并比網(wǎng)絡(luò)(intersection over union network,IoUNet)[49]的目標(biāo)估計(jì)網(wǎng)絡(luò)精選目標(biāo)的精細(xì)定位。分類網(wǎng)絡(luò)在線訓(xùn)練兩層卷積層,并將目標(biāo)函數(shù)中的正則項(xiàng)表達(dá)和殘差表達(dá)統(tǒng)一起來,IoUNet基于大數(shù)據(jù)離線訓(xùn)練,預(yù)測與目標(biāo)真實(shí)位置最大IoU 的目標(biāo)框,使得該算法跟蹤準(zhǔn)確性獲得明顯提升。
基于分類的跟蹤方法著重于提升分類魯棒性和分類精度,對多個(gè)候選結(jié)果,該類型網(wǎng)絡(luò)可以優(yōu)化最終輸出,并為結(jié)果提供可靠的評估,在局部跟蹤模塊中該網(wǎng)絡(luò)一般稱為驗(yàn)證網(wǎng)絡(luò)。但該網(wǎng)絡(luò)占據(jù)存儲空間多,計(jì)算成本大,較為保守的在線更新策略使得自檢和跟蹤效率不佳。
2.1.2 基于匹配的深度跟蹤網(wǎng)絡(luò)
該類型跟蹤網(wǎng)絡(luò)的目的是訓(xùn)練一個(gè)函數(shù)來預(yù)測置信度分?jǐn)?shù),并將置信度分?jǐn)?shù)最大化。通過圖像在該函數(shù)上的映射得到的置信度分?jǐn)?shù)圖上的最大響應(yīng)點(diǎn)判斷目標(biāo)位置。此類網(wǎng)絡(luò)的輸入是兩組樣本(模板區(qū)域和搜索區(qū)域),兩組樣本經(jīng)過權(quán)值共享的兩路CNN輸出在高維特征空間中的表征,以比較兩個(gè)區(qū)域的相似性。跟蹤框架如圖6所示。
圖6 基于匹配網(wǎng)絡(luò)的跟蹤流程Fig.6 Tracking based on matching network
2016年,Bertinetto等人[50]提出全卷積孿生跟蹤網(wǎng)絡(luò)(fully-convolutional Siamese networks,SiamFC),其輸入為一對模板圖像和搜索圖像,其中模板圖像固定為首幀圖像上目標(biāo)附近區(qū)域,將目標(biāo)圖像大小設(shè)置為127×127,搜索圖像是序列上每一幀圖像的剪裁子圖像,大小為255×255。兩幅圖像經(jīng)由權(quán)值共享的CNN 提取特征后,通過互相關(guān)計(jì)算兩幅圖像的區(qū)域相似度,生成一張17×17的得分圖。
式(2)中,b表示一個(gè)噪聲信號,φ為卷積嵌入函數(shù),z和x分別代表模板區(qū)域和搜索區(qū)域。得益于全卷積網(wǎng)絡(luò)[51],模板區(qū)域和搜索區(qū)域可以設(shè)置為不同大小,通過互相關(guān)運(yùn)算在搜索圖像特征上以模板圖像特征為子窗口得到所有平移子窗口的相似度,取相似度最高的區(qū)域作為目標(biāo)的預(yù)測位置。另一方面,搜索圖像是以跟蹤器的上一幀預(yù)測結(jié)果為中心剪裁的子圖像,全卷積網(wǎng)絡(luò)同樣避免了網(wǎng)絡(luò)學(xué)習(xí)到中心子窗口偏差。
SiamFC 的運(yùn)行速度高達(dá)86 FPS,然而該算法不識別遮擋等異常情況,也不顯式評估跟蹤置信度,模型精度和魯棒性均一般,不過基于該算法提出了簡潔的跟蹤網(wǎng)絡(luò)框架,后續(xù)工作針對以上幾點(diǎn)不足改進(jìn)了模型。例如孿生區(qū)域建議網(wǎng)絡(luò)(siamese region proposal network,SiamRPN)[52]使用RPN在搜索區(qū)域上生成一系列的預(yù)設(shè)框,在這些框中挑選與模板匹配程度最大的位置。由于利用了先驗(yàn)獲取了多種尺度的預(yù)測框,SiamRPN的跟蹤效率較高,也提高了算法對尺度估計(jì)的精度,但是對于先驗(yàn)不足的跟蹤場景,該算法的跟蹤魯棒性較差。為擺脫預(yù)設(shè)框帶來的局限性,SiamFC++算法[53]、目標(biāo)感知的無錨跟蹤網(wǎng)絡(luò)(object-aware anchor-free tracking network,OCEAN)[54]、孿生框自適應(yīng)網(wǎng)絡(luò)(Siamese box adaptive network,SiamBAN)[55]和孿生分類與回歸網(wǎng)絡(luò)(Siamese classification and regression network,SiamCAR)[56]均采用了非固定錨框的策略,回歸到以像素點(diǎn)為單位進(jìn)行物體位置中心與邊框位置預(yù)測的計(jì)算思路,提高了跟蹤精度與魯棒性。2018年,Li等人[57]提出SiamRPN++算法,將深度殘差網(wǎng)絡(luò)(deep residual network,ResNet)[58]應(yīng)用在孿生網(wǎng)絡(luò)結(jié)構(gòu)中顯著增強(qiáng)了算法的建模能力,使孿生跟蹤網(wǎng)絡(luò)在實(shí)時(shí)跟蹤的前提下精度趕超基于分類思想的跟蹤網(wǎng)絡(luò)。為更新模板信息,文獻(xiàn)[59]將初始幀與前序幀的預(yù)測結(jié)果進(jìn)行線性融合,使得模板具備動態(tài)信息。文獻(xiàn)[60]在孿生網(wǎng)絡(luò)結(jié)構(gòu)中加入一個(gè)獨(dú)立訓(xùn)練的卷積網(wǎng)絡(luò),依據(jù)歷史模板預(yù)測下一幀的最優(yōu)模板特征來實(shí)現(xiàn)模板更新。文獻(xiàn)[61]利用梯度信息更新模板,抑制模板中的背景干擾,加強(qiáng)了網(wǎng)絡(luò)對目標(biāo)和背景的區(qū)分能力。2019年,Danelljan等人[62]在孿生網(wǎng)絡(luò)框架上對梯度下降方案進(jìn)行優(yōu)化,使網(wǎng)絡(luò)更加地快速收斂,并采用視頻序列中的隨機(jī)樣本進(jìn)行在線訓(xùn)練,使得跟蹤器在保證跟蹤效率的同時(shí)對抗干擾的能力大幅增加。在線跟蹤為算法提供了自評估機(jī)制,允許跟蹤器根據(jù)預(yù)測結(jié)果進(jìn)行調(diào)整。不過在線更新同樣可能引入噪聲,提高計(jì)算復(fù)雜度,降低跟蹤效率。
基于匹配的跟蹤方法在跟蹤精度與速度之間取得了較好的平衡,其優(yōu)勢在于快速估計(jì)目標(biāo)潛在可能的位置,生成一系列質(zhì)量較高的候選框。不過在模板被污染的情況下,此類跟蹤器會跟蹤上錯誤的物體,并且對預(yù)測結(jié)果缺乏明確的概率解釋[63],使得跟蹤器對輸出結(jié)果的判斷較盲目。
重檢測機(jī)制可分為擴(kuò)大搜索區(qū)域檢測和全局檢測兩類。前者一般不需要設(shè)計(jì)獨(dú)立的檢測網(wǎng)絡(luò),而是通過更大的搜索區(qū)域,或是使用滑動窗口在圖像上搜索目標(biāo),其特點(diǎn)在于網(wǎng)絡(luò)相對小巧,計(jì)算成本較低,但是檢測準(zhǔn)確度通常較低。全局檢測使用深度檢測網(wǎng)絡(luò)在整幅圖像上定位目標(biāo),可以取得較高的檢測準(zhǔn)確度,不過增大了跟蹤模型的復(fù)雜度。
干擾物感知SiamRPN(distractor-aware SiamRPN,DaSiamRPN)[64]在跟蹤丟失時(shí)以固定步長逐漸擴(kuò)大搜索區(qū)域,并在檢測階段使用計(jì)算量較低的邊框回歸,保證重檢測效率,但是DaSiamRPN的重檢測器魯棒性較差,在相似物干擾的情況下極易跟丟。Zhang等人[40]采用了滑動窗口遍歷整幅圖像的方法,在每個(gè)窗口上進(jìn)行局部跟蹤直到認(rèn)為預(yù)測結(jié)果可信。該重檢測策略有效提高了準(zhǔn)確度,不過引入過高的計(jì)算量使其跟蹤速度僅為2.7 FPS。為了平衡重檢測的精度與效率,Yan等人[65]提出一個(gè)略讀模塊。輸入目標(biāo)模板Z 和搜索區(qū)域X,略讀模塊的目的是學(xué)習(xí)一個(gè)二分類函數(shù)p=g(Z,X),以判斷目標(biāo)是否在X 內(nèi)。g(·)使用離線訓(xùn)練的CNN實(shí)現(xiàn),基于孿生結(jié)構(gòu)訓(xùn)練分類層。該模塊能夠快速丟棄全局采樣得到的干擾樣本,加速重檢測過程,不過其在精度方面的提升有限。為了得到魯棒的重檢測結(jié)果,Dai等人[41]使用Faster R-CNN(faster region-convolutional neural network)在整幅圖像上篩選所有可能的候選。R-CNN[66]系列算法將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測[67],是二階段檢測的經(jīng)典算法,其處理流程如圖7所示。最初R-CNN的檢測流程分成以下幾個(gè)階段:首先通過選擇性搜索算法[68]在輸入圖片上生成大量目標(biāo)候選區(qū)域,而后將候選區(qū)域歸一化輸入卷積網(wǎng)絡(luò),對每個(gè)候選區(qū)域提取出固定長度的特征向量;然后利用SVM分類器進(jìn)行特征分類,選擇出最近似于目標(biāo)的候選位置;最后使用卷積層的輸出訓(xùn)練一個(gè)回歸器(輸出為dx,dy,dw,dh)對分類結(jié)果進(jìn)行微調(diào)修正。在此基礎(chǔ)上,F(xiàn)ast R-CNN[69]直接對整張圖像進(jìn)行卷積提取圖像特征,使用關(guān)注區(qū)域池化進(jìn)行特征的尺寸變換,降低計(jì)算復(fù)雜度,并設(shè)計(jì)回歸損失將回歸訓(xùn)練放入網(wǎng)絡(luò)內(nèi)。進(jìn)一步地,F(xiàn)aster R-CNN[70]利用共享權(quán)重的卷積層提取特征,而后在特征圖上使用RPN生成候選框,再結(jié)合關(guān)注區(qū)域池化環(huán)節(jié)使得檢測速度再次提升。RPN的主要功能是在特征圖上每個(gè)像素點(diǎn)生成多個(gè)長寬比例不同的錨框(anchor),為檢測網(wǎng)絡(luò)提供高質(zhì)量的候選對象。目標(biāo)檢測網(wǎng)絡(luò)在跟蹤中的應(yīng)用十分廣泛[71-72],在C-RPN(Siamese cascaded RPN)[73]、DaSiamRPN[64]、SiamMask[74]及其例如GlobalTrack[75]和Siam-RCNN[76]等基于全局跟蹤策略的算法中起到重要作用,RPN 通過錨框引入多尺度方法,結(jié)合先驗(yàn)信息可快速估計(jì)目標(biāo)尺度,有助于提升跟蹤精度及速度方面的性能。
圖7 二階段檢測算法一般流程Fig.7 General process of two-stage detection algorithm
深度長時(shí)跟蹤算法的關(guān)鍵在于明確何時(shí)該做出局部跟蹤到全局檢測之間的切換,提升跟蹤器的辨別力和對預(yù)測結(jié)果的解釋能力,使其具備可靠的評估系統(tǒng)。
較為早期的深度長時(shí)跟蹤算法側(cè)重于聯(lián)合優(yōu)化多個(gè)ST1類型跟蹤器,依賴耗時(shí)的數(shù)值優(yōu)化和復(fù)雜的人工設(shè)計(jì)策略來實(shí)現(xiàn)性能提升。為了避免跟蹤與重檢測之間的反復(fù)切換,部分工作采用全局跟蹤策略,通過對每一幀進(jìn)行全局搜索進(jìn)行長時(shí)跟蹤。近年來,基于Transformer的跟蹤算法的表現(xiàn)令人矚目,通過注意力機(jī)制,該類算法能夠更好地聯(lián)系目標(biāo)的時(shí)空狀態(tài),讓跟蹤器更了解跟蹤對象的上下文關(guān)系,從而提升自評估性能。受注意力機(jī)制的啟發(fā),最近更多的工作聚焦于聯(lián)系目標(biāo)時(shí)間、空間、運(yùn)動信息和背景等干擾物信息,提升跟蹤器對跟蹤場景內(nèi)物體關(guān)系的理解,提高跟蹤器對預(yù)測結(jié)果的解釋能力。這些策略使得長時(shí)跟蹤性能取得重大進(jìn)展,以LaSOT數(shù)據(jù)集為例,從圖8可以看出近幾年的長時(shí)跟蹤器在跟蹤成功率方面的表現(xiàn)呈快速上升的趨勢,另外圖8 也顯示了近幾年內(nèi)不同策略流行的時(shí)期。本文將基于以上方向?qū)ι疃乳L時(shí)跟蹤方法進(jìn)行匯總。
圖8 部分代表性長時(shí)跟蹤器的性能發(fā)展Fig.8 Performance progress of representative long-term trackers
較早期的深度長時(shí)跟蹤算法側(cè)重于聯(lián)合多個(gè)ST1類型跟蹤器,通過設(shè)計(jì)復(fù)雜的驗(yàn)證網(wǎng)絡(luò)和在線更新策略來實(shí)現(xiàn)性能提升。
例如Zhang等人[40]提出短時(shí)跟蹤網(wǎng)絡(luò)和驗(yàn)證網(wǎng)絡(luò)級聯(lián)的長時(shí)跟蹤框架,通過對短時(shí)跟蹤網(wǎng)絡(luò)的細(xì)化分類輸出較高質(zhì)量的預(yù)測框和置信分?jǐn)?shù),提升跟蹤的準(zhǔn)確度,減少不必要的重檢測。Wu等人[77]同時(shí)利用多域網(wǎng)絡(luò)和孿生網(wǎng)絡(luò)對局部跟蹤模塊的預(yù)測結(jié)果進(jìn)行驗(yàn)證,將兩個(gè)網(wǎng)絡(luò)輸出的置信度得分分成四個(gè)區(qū)間,在不同的區(qū)間采用不用的重檢測策略,當(dāng)認(rèn)為跟蹤丟失有可能發(fā)生時(shí),采用較為簡單的高斯采樣修正跟蹤器,當(dāng)認(rèn)為跟蹤大概率發(fā)生時(shí),采用計(jì)算成本較大的光流估計(jì)和邊框回歸找回目標(biāo)[78]。然而較為保守的在線更新策略嚴(yán)重降低了跟蹤器的運(yùn)行速度。為保證跟蹤實(shí)時(shí)性,Zhu 等人[64]設(shè)計(jì)了一個(gè)可以線性計(jì)算的干擾感知目標(biāo)函數(shù),根據(jù)該目標(biāo)函數(shù),跟蹤器在某幀最終選定的預(yù)測對象q為:
其中,z為模板區(qū)域,f(·)為孿生網(wǎng)絡(luò)度量函數(shù)的輸出,P 為候選區(qū)域集合,di為RPN 通過非極大抑制篩選出的每幀中的硬負(fù)樣本(相似干擾物等),為權(quán)重因子,控制干擾物學(xué)習(xí)的影響,αi用于控制每個(gè)干擾物di的影響。該目標(biāo)函數(shù)將傳統(tǒng)SNN-Tracker的相似性度量調(diào)整為新領(lǐng)域(候選樣本與硬負(fù)樣本)內(nèi)的相似性度量,有效提升了對目標(biāo)物體的外觀特性的辨別力。Yan等人[65]設(shè)計(jì)了一個(gè)通過離線訓(xùn)練的驗(yàn)證網(wǎng)絡(luò),該網(wǎng)絡(luò)通過學(xué)習(xí)一個(gè)嵌入函數(shù)將目標(biāo)模板和候選框特征嵌入到判別的歐幾里德空間中,再通過一個(gè)余弦相似度度量函數(shù)輸出相似度得分,辨別能力通過以下三元損失函數(shù)保證:
全局跟蹤器的輸入包括每一幀的整幅圖像,通過在全局進(jìn)行多階段檢測進(jìn)行長時(shí)跟蹤,避免了局部跟蹤與全局檢測之間的切換難題。
Huang 等人[75]提出多階段檢測跟蹤框架,通過對模板特征和搜索區(qū)域特征相關(guān)性編碼優(yōu)化傳統(tǒng)RPN與R-CNN。輸入模板圖像通過這兩個(gè)級聯(lián)的檢測網(wǎng)絡(luò)在整幅圖像上尋找最佳匹配位置,將跟蹤視為每一幀上的全局檢測問題,從而完全避免了跟蹤期間積累誤差發(fā)生的跟蹤漂移。不過該算法忽略了視頻幀之間的時(shí)空上下文關(guān)系,對背景信息也缺乏利用,導(dǎo)致模型的辨別力較差。Voigtlaender 等人[76]提出基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的重檢測架構(gòu),結(jié)合時(shí)序信息進(jìn)行兩階段檢測,將當(dāng)前幀與后續(xù)幀進(jìn)行關(guān)聯(lián),提出跟蹤軌跡動態(tài)規(guī)劃算法,設(shè)計(jì)關(guān)聯(lián)分?jǐn)?shù)使得場景內(nèi)所有待檢測物體形成短時(shí)間內(nèi)的時(shí)空軌跡。Zhou 等人[79]通過集成多個(gè)局部跟蹤器獲得全局視野,每個(gè)局部跟蹤器在不同的區(qū)域內(nèi)搜索目標(biāo),使用可變形注意力[80]動態(tài)調(diào)整局部跟蹤,使得局部搜索區(qū)域可以覆蓋整個(gè)圖像。設(shè)計(jì)了時(shí)間上下文聚合模型生成在線目標(biāo)查詢,充分利用了目標(biāo)的時(shí)序信息。
最近多個(gè)基于Transformer[26]的跟蹤算法在跟蹤精度與跟蹤速度上取得了更好的平衡[81]。對于解決長時(shí)跟蹤問題,該結(jié)構(gòu)存在以下幾點(diǎn)優(yōu)勢:其一是注意力機(jī)制有利于整合幀間的時(shí)空信息;其二是區(qū)別于卷積體系的特征融合方式二次優(yōu)化特征空間,能夠進(jìn)一步建立完善的目標(biāo)或背景模型;其三是為場景內(nèi)各物體(目標(biāo)、相似物或背景)編碼后,注意力機(jī)制有利于度量各物體之間的距離。這些優(yōu)勢有利于提升跟蹤器對預(yù)測結(jié)果的解釋能力。
在此方面的研究中,Chen等人[82]提出使用注意力機(jī)制融合圖像特征,通過自注意力增強(qiáng)目標(biāo)的時(shí)序信息,通過交叉注意力捕捉模板圖像與搜索圖像上的空間關(guān)系,聚合了時(shí)空關(guān)系后,目標(biāo)在得分圖上的響應(yīng)更加清晰,不過該算法缺少更新模板信息的措施。同樣地,Wang等人[83]將Transformer中的編碼器和解碼器分離為兩個(gè)并行分支,編碼器所在的分支接收多個(gè)模板特征,聚合不同時(shí)間幀上的模板信息,并產(chǎn)生空間掩碼,解碼器所在的分支接收編碼器的輸出和搜索圖像特征進(jìn)行特征增強(qiáng)。其中空間掩碼是對模板特征構(gòu)建的高斯型掩碼,目的是在解碼器中作為搜索特征的注意權(quán)值,強(qiáng)調(diào)目標(biāo)的空間位置。但是多個(gè)模板輸入仍不能保證模板信息持續(xù)有效。針對在線更新模板方面,Cui 等人[84]設(shè)置了一個(gè)由三個(gè)靜態(tài)模板和四個(gè)動態(tài)模板組成的樣本池。靜態(tài)模板通過對首幀模板進(jìn)行數(shù)據(jù)增強(qiáng)得到,動態(tài)模板基于分類置信度分?jǐn)?shù),在成功跟蹤的幀上選擇預(yù)測目標(biāo),每隔一定的幀數(shù)就以新的動態(tài)模板取代最前面的動態(tài)模板。Yan等人[85]研究發(fā)現(xiàn)當(dāng)目標(biāo)發(fā)生大幅度形變或經(jīng)歷遮擋時(shí),動態(tài)模板不宜更新。使用分?jǐn)?shù)預(yù)測頭估計(jì)跟蹤狀態(tài),有利于判斷搜索區(qū)域內(nèi)目標(biāo)存在的完整性,該分?jǐn)?shù)預(yù)測頭由三層感知器組成,通過sigmoid函數(shù)激活,當(dāng)預(yù)測分?jǐn)?shù)高于設(shè)定閾值時(shí),將預(yù)測結(jié)果設(shè)置為動態(tài)模板。類似地,Mayer等人[86]利用Transformer較小的歸納偏置特性訓(xùn)練模型預(yù)測器,提高跟蹤模型的泛化性能,通過模型預(yù)測得到的參數(shù)增強(qiáng)DCF(discriminative correlation filter)模型的判別力,得到魯棒的目標(biāo)分類得分,將動態(tài)模板替換為分類器置信度得分高于閾值的最新幀,再通過靜態(tài)模板和動態(tài)模板優(yōu)化模型預(yù)測器。注意力機(jī)制的使用提升了跟蹤器對目標(biāo)上下文關(guān)系的理解,且在線更新完善了跟蹤器的評估系統(tǒng)。
基于Transformer 跟蹤器的研究表明,挖掘目標(biāo)的時(shí)空信息有利于提高跟蹤器對目標(biāo)的理解力,然而視頻幀之間豐富的運(yùn)動、背景信息和目標(biāo)與干擾物之間的關(guān)系仍然容易被忽略。
在挖掘視頻幀間信息方面,Bhat等人[87]提出在目標(biāo)領(lǐng)域的每個(gè)區(qū)域提取一個(gè)狀態(tài)向量,為該區(qū)域進(jìn)行編碼,狀態(tài)向量在連續(xù)幀之間通過密集映射對應(yīng),以獲取各區(qū)域內(nèi)背景、相似物或目標(biāo)的時(shí)空軌跡。狀態(tài)向量的跨幀映射使用狀態(tài)傳播模塊Π 進(jìn)行:
其中,xt和xt-1分別代表當(dāng)前幀與前一幀的圖像區(qū)域特征,h為狀態(tài)向量函數(shù),ξt為傳播可靠參數(shù)。結(jié)合各區(qū)域狀態(tài)在幀間的傳播,得到融合圖像前景、背景信息的目標(biāo)置信分?jǐn)?shù)?t:
其中,st為一般局部跟蹤器根據(jù)目標(biāo)外觀所設(shè)計(jì)的置信函數(shù),P代表整體預(yù)測網(wǎng)絡(luò)。區(qū)別于SiamRCNN,該算法由傳播模塊跨幀關(guān)聯(lián)物體,模塊參數(shù)通過網(wǎng)絡(luò)學(xué)習(xí)得到。類似地,Mayer 等人[88]提出候選嵌入網(wǎng)絡(luò)和對象關(guān)聯(lián)模塊聯(lián)系幀間的前景和背景信息,從而給每個(gè)候選框做出估計(jì)并建立幀間對應(yīng)。在目標(biāo)消失時(shí),跟蹤器通過干擾物幀間的運(yùn)動信息保持跟蹤干擾物,并在整個(gè)視頻序列上傳播干擾物的身份。對象關(guān)聯(lián)模塊通過手工標(biāo)注每對連續(xù)的幀之間與目標(biāo)相對應(yīng)的兩個(gè)候選框形成部分監(jiān)督,并在相鄰幀之間的所有候選框集合中隨機(jī)排除一組相應(yīng)候選框之中的一個(gè)來模擬遮擋形成自監(jiān)督,有效提高了跟蹤器對場景的理解力,缺點(diǎn)是模型設(shè)計(jì)復(fù)雜,計(jì)算成本較大。
在更充分地挖掘時(shí)空信息方面,Xie 等人[89]在注意力機(jī)制上加入動態(tài)特征網(wǎng)絡(luò),通過在特征提取的每個(gè)階段使用交叉注意和自注意逐漸過濾與目標(biāo)不相關(guān)的信息,增強(qiáng)目標(biāo)特征,并通過Vanilla 全局注意[90]和空間縮減全局注意[91-92]降低計(jì)算開銷。將成對圖像的特征在動態(tài)特征提取網(wǎng)絡(luò)上進(jìn)行多層的廣泛匹配,在跟蹤階段有效分離了干擾物和目標(biāo)。Ma等人[93]分別提取時(shí)間信息與空間信息,通過卷積-反卷積結(jié)構(gòu)聚合時(shí)空信息。Fu等人[94]提出一個(gè)時(shí)空記憶網(wǎng)絡(luò)和一種獨(dú)特的記憶機(jī)制存儲信息。記憶網(wǎng)絡(luò)在搜索圖像上嵌入了歷史幀上的前景和背景標(biāo)簽,引導(dǎo)跟蹤器關(guān)注有效信息,對歷史幀的選擇采用了動態(tài)的采樣策略,從而自適應(yīng)跟蹤過程中的目標(biāo)外觀變化。Cao 等人[95]從兩方面合并時(shí)空上下文,在特征提取方面,根據(jù)前一幀動態(tài)標(biāo)定卷積權(quán)值增強(qiáng)空間信息,在相似物細(xì)化方面,通過在連續(xù)幀上應(yīng)用多層注意力整合時(shí)間信息對相似物進(jìn)行調(diào)整。僅從時(shí)空信息方面增強(qiáng)目標(biāo)特征表達(dá),提升了目標(biāo)對外觀模型的長期依賴可靠度,保證了實(shí)時(shí)跟蹤的要求,但是忽略了對背景信息和干擾物信息的進(jìn)一步挖掘。
本節(jié)將上述部分研究在三個(gè)長時(shí)數(shù)據(jù)集上的結(jié)果進(jìn)行歸納分析,討論不同策略對于長時(shí)跟蹤任務(wù)的提升效果和局限。表6中的F-score來自LTB數(shù)據(jù)集,該指標(biāo)主要反映跟蹤器在漏檢和誤檢方面的性能;曲線下面積(area under curve,AUC)統(tǒng)計(jì)的是LaSOT 數(shù)據(jù)集上的成功率曲線,該指標(biāo)主要評價(jià)在一次初始化后跟蹤器持續(xù)成功跟蹤的性能;MaxGM 來自O(shè)xUvA 數(shù)據(jù)集,主要偏向跟蹤器預(yù)測缺席標(biāo)簽的性能。
表6 各類別長時(shí)跟蹤方法模型的性能統(tǒng)計(jì)Table 6 Performance statistics of each long-term tracking algorithm
總體來看,四類不同長時(shí)跟蹤策略的最先進(jìn)跟蹤算法在漏檢和誤檢方面的性能相差不大,均能通過設(shè)計(jì)詳盡的驗(yàn)證方案和在線更新方案,應(yīng)用更加深層的網(wǎng)絡(luò)提升該方面性能;LaSOT上的AUC數(shù)據(jù)表明,充分聯(lián)系時(shí)空信息、視頻幀間信息,并具備在線更新機(jī)制是維持跟蹤連續(xù)性的重要措施;對于提升跟蹤器預(yù)測缺席標(biāo)簽方面的性能表現(xiàn),充分挖掘視頻幀間各物體的信息是非常有效的策略。根據(jù)單個(gè)指標(biāo)分析,在線更新始終是提升跟蹤器長時(shí)性能的重要策略。橫向?qū)Ρ炔煌拈L時(shí)跟蹤策略,充分挖掘視頻幀間目標(biāo)時(shí)空上下文信息、運(yùn)動信息、背景信息和相似物信息是一個(gè)進(jìn)一步提升長時(shí)跟蹤性能的方向。值得注意的是,設(shè)計(jì)復(fù)雜的多段驗(yàn)證網(wǎng)絡(luò)對跟蹤器的自檢性能提升有限,而且對跟蹤速度將產(chǎn)生負(fù)面影響。另一個(gè)降低跟蹤速度的策略是使用全局跟蹤,即使在高性能圖形處理器上運(yùn)行,它們高昂的計(jì)算開銷也限制了算法的實(shí)用性?;赥ransformer的跟蹤器是探索長時(shí)依賴關(guān)系的一個(gè)重要方向,不過對于圖像處理任務(wù),Transformer缺少CNN的歸納偏置,難以正確初始化網(wǎng)絡(luò)。文獻(xiàn)[88]充分挖掘了幀間所有候選物體的上下文關(guān)系,不過跟蹤速度已經(jīng)低于實(shí)時(shí)水平。綜上分析,前述幾種長時(shí)跟蹤策略都有各自的優(yōu)勢及局限性,具體如表7所示。
表7 各類別長時(shí)跟蹤方法對比分析Table 7 Comparison and analysis of each long-term tracking algorithm
由于跟蹤過程突發(fā)情況多、目前深度長時(shí)跟蹤器的跟蹤速度普遍較低和深度跟蹤網(wǎng)絡(luò)性能可能逼近極限等原因,實(shí)現(xiàn)高效實(shí)用的目標(biāo)跟蹤技術(shù)還需要走很長的路。研究深度神經(jīng)網(wǎng)絡(luò)在長時(shí)跟蹤領(lǐng)域的應(yīng)用,雖然已取得一定的進(jìn)展,出現(xiàn)了一些代表性成果,但現(xiàn)階段仍有多方面的挑戰(zhàn)亟待解決。
通過上述研究,本文將深度長時(shí)算法面臨的挑戰(zhàn)歸納為數(shù)據(jù)與評價(jià)體系、長時(shí)跟蹤挑戰(zhàn)屬性和算法應(yīng)用三方面。
(1)在長時(shí)跟蹤數(shù)據(jù)集與評價(jià)體系方面,尚存在各評價(jià)體系不統(tǒng)一的問題。各評價(jià)平臺仍以跟蹤精度為主要評價(jià)指標(biāo),雖然已有工作從自檢性能、跟蹤連續(xù)性和重檢測性能等方面出發(fā)提出了一系列評價(jià)指標(biāo),但是仍缺少對長時(shí)跟蹤器各部件的性能和運(yùn)行效率的檢測方案。而且由于各數(shù)據(jù)集的數(shù)據(jù)內(nèi)容不同,評價(jià)指標(biāo)各有側(cè)重,不同跟蹤器之間在不同數(shù)據(jù)集上的對比不直觀,這一定程度上減弱了對于長時(shí)跟蹤算法的發(fā)展指導(dǎo)作用。
(2)在長時(shí)跟蹤挑戰(zhàn)屬性方面,相似物干擾、全遮擋和目標(biāo)消失等屬性仍是長時(shí)跟蹤面臨的主要困難場景,也是跟蹤器邁向?qū)嵱眉壭阅鼙仨毧朔奶魬?zhàn)。多種困難的挑戰(zhàn)屬性疊加時(shí),跟蹤容易漂移。針對這些挑戰(zhàn),盡管已有研究者提出了一些增強(qiáng)跟蹤器判別力的方法,如干擾感知、關(guān)系檢測和引入少量先驗(yàn)[96-98]等,但是這些方法同時(shí)也引入了更高的計(jì)算負(fù)擔(dān),提高了模型復(fù)雜度。因此如何相對高效地處理困難挑戰(zhàn)屬性是長時(shí)跟蹤領(lǐng)域的一大挑戰(zhàn)。
(3)在算法應(yīng)用方面,目前大多數(shù)長時(shí)跟蹤算法仍然無法滿足實(shí)時(shí)性需求和低成本部署需求。最新的研究成果傾向于設(shè)計(jì)復(fù)雜的網(wǎng)絡(luò)模型完成高精度的通用視覺跟蹤器,它們的計(jì)算負(fù)擔(dān)通常較高。雖然部分工作在輕量級跟蹤網(wǎng)絡(luò)方面做出了研究,但是最近幾年多項(xiàng)工作的模型訓(xùn)練復(fù)雜度和硬件需求總體呈上升趨勢,這進(jìn)一步限制了深度長時(shí)跟蹤算法的實(shí)用性[99]。
通過研究分析深度長時(shí)跟蹤技術(shù)的發(fā)展和面臨的挑戰(zhàn),本文對長時(shí)目標(biāo)跟蹤的未來研究方向進(jìn)行了以下五方面的思考。
(1)建立大規(guī)模長時(shí)跟蹤數(shù)據(jù)集和更為完善的評價(jià)體系。在評價(jià)體系中加入對跟蹤器的重檢測性能、跟蹤連續(xù)性和跟蹤速度的專項(xiàng)指標(biāo),將這些指標(biāo)與跟蹤精度在一個(gè)或多個(gè)統(tǒng)一測試集上評估。這方面的完善將對研究長時(shí)跟蹤器內(nèi)各組件的效果和不同方法之間的效率起到重要意義。
(2)利用先驗(yàn)信息。通用視覺目標(biāo)跟蹤是類別無關(guān)的,這使得跟蹤器在連續(xù)幀之間也對場景內(nèi)的目標(biāo)或干擾物等物體的身份不做理解。人類的學(xué)習(xí)通常也需要一定先驗(yàn)知識,參照人類學(xué)習(xí)和小樣本學(xué)習(xí)領(lǐng)域的經(jīng)驗(yàn),通過先驗(yàn)知識來約束假設(shè)空間或搜索最優(yōu)參數(shù)是提升跟蹤模型抗干擾性能的一個(gè)重要方向。
(3)設(shè)計(jì)跨幀傳播信息機(jī)制。無論是跟蹤算法的主體跟蹤模塊還是在線更新模塊,跨幀傳播信息都是提高它們性能的一個(gè)有效策略。對跟蹤場景內(nèi)的各物體進(jìn)行編碼標(biāo)注,并在幀間傳遞這些物體的信息,可以與在線更新策略有效聯(lián)合,進(jìn)一步避免引入噪聲信息。研究跨幀傳播信息機(jī)制是對抗長時(shí)跟蹤困難挑戰(zhàn)屬性的一個(gè)未來研究方向。
(4)探索專用領(lǐng)域內(nèi)的長時(shí)跟蹤。在特定跟蹤場景如醫(yī)學(xué)圖像、海洋勘探和無人機(jī)勘探等領(lǐng)域,利用專用數(shù)據(jù)集訓(xùn)練專用性長時(shí)跟蹤網(wǎng)絡(luò)可以針對性地挖掘跟蹤器性能,降低通用網(wǎng)絡(luò)帶來的高復(fù)雜度與部署成本,而且專用領(lǐng)域內(nèi)也可以相對更低成本地利用先驗(yàn)知識。研究專用跟蹤網(wǎng)絡(luò)是值得研究人員進(jìn)一步探索的方向。
(5)研究深度長時(shí)跟蹤框架中不同網(wǎng)絡(luò)體系。目前在卷積網(wǎng)絡(luò)、Transformer 和多重感知機(jī)之間,各體系的固有優(yōu)勢沒有明確解釋。研究網(wǎng)絡(luò)訓(xùn)練過程中各步驟對應(yīng)的提升,有利于模型的簡化,同時(shí)對聯(lián)合使用不同網(wǎng)絡(luò)體系具有重要的理論指導(dǎo)意義和實(shí)用價(jià)值。
通過梳理和歸納現(xiàn)有長時(shí)跟蹤數(shù)據(jù)集和深度長時(shí)跟蹤算法的研究成果,本文首先從數(shù)據(jù)集對深度跟蹤算法的訓(xùn)練支撐和評價(jià)支撐出發(fā),闡述了長時(shí)跟蹤任務(wù)與短時(shí)跟蹤任務(wù)的異同,長時(shí)數(shù)據(jù)集的特點(diǎn),以及長時(shí)跟蹤具有挑戰(zhàn)性的要求;初步界定了長時(shí)跟蹤的范疇。其次,深入研究深度長時(shí)跟蹤框架,介紹長時(shí)跟蹤的一般流程以及框架內(nèi)的組成部分。通過探討先進(jìn)算法中的深度神經(jīng)網(wǎng)絡(luò)的發(fā)展以及組合應(yīng)用,明確深度長時(shí)跟蹤框架各組成部分的作用及工作原理,然后總結(jié)和分析了四類基于深度學(xué)習(xí)的長時(shí)目標(biāo)跟蹤方法的設(shè)計(jì)思想以及優(yōu)劣勢,討論現(xiàn)有工作的啟示作用。最后,針對長時(shí)目標(biāo)跟蹤算法面臨的挑戰(zhàn)進(jìn)行分析,并展望未來可能的發(fā)展方向。