梁?jiǎn)⒒? 胡現(xiàn)韜, 鐘必能*, 于 楓,2, 李先賢
(1.廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室(廣西師范大學(xué)), 廣西 桂林 541004;2.東南大學(xué) 計(jì)算機(jī)網(wǎng)絡(luò)和信息集成教育部重點(diǎn)實(shí)驗(yàn)室, 江蘇 南京 211189)
視覺(jué)目標(biāo)跟蹤以其重要的理論價(jià)值、廣泛的實(shí)用價(jià)值以及多學(xué)科交叉性一直吸引著學(xué)術(shù)界和工業(yè)界的極大關(guān)注,并在智能視頻監(jiān)控、公共交通、人機(jī)交互、自動(dòng)駕駛、無(wú)人機(jī)、軍事目標(biāo)定位等領(lǐng)域有著重要的應(yīng)用[1-4]。在目標(biāo)跟蹤場(chǎng)景中,首先,跟蹤器將視頻序列的第一幀目標(biāo)信息作為模板,即模板幀,部分在線更新的孿生跟蹤器會(huì)對(duì)模板幀進(jìn)行有條件的更新[5],在獲取模板幀后,將后續(xù)視頻幀作為序列圖像流進(jìn)行目標(biāo)跟蹤。其中,根據(jù)測(cè)試目的以及應(yīng)用場(chǎng)景的不同,可將跟蹤過(guò)程劃分為短時(shí)目標(biāo)跟蹤和長(zhǎng)時(shí)目標(biāo)跟蹤。
在短時(shí)目標(biāo)跟蹤場(chǎng)景中,其基準(zhǔn)數(shù)據(jù)集[6-10]多具有序列短、目標(biāo)變化較小等特點(diǎn),針對(duì)環(huán)境噪聲、場(chǎng)景模糊、動(dòng)態(tài)變化等擾動(dòng)挑戰(zhàn),借助抑制背景、干擾物等噪聲的方法,實(shí)現(xiàn)高判別性跟蹤器。此外,跟蹤目標(biāo)在持續(xù)運(yùn)動(dòng)過(guò)程中由于旋轉(zhuǎn)、受壓等姿態(tài)變化,不可避免地導(dǎo)致外觀上的改變,這種源于目標(biāo)內(nèi)在因素的外觀變化能夠直接影響對(duì)物體表觀的刻畫(huà)和邊界框的預(yù)測(cè),邊界框預(yù)測(cè)的準(zhǔn)確性對(duì)于后續(xù)模型能否有效更新起了很大作用。
在長(zhǎng)時(shí)目標(biāo)跟蹤場(chǎng)景中,其基準(zhǔn)數(shù)集[11-14]多以較長(zhǎng)序列為主,目標(biāo)會(huì)出現(xiàn)暫時(shí)消失、隔幀出現(xiàn)等情況,造成目標(biāo)表觀變化顯著和背景多樣性、復(fù)雜性。通常情況下,長(zhǎng)時(shí)間跟蹤場(chǎng)景中,目標(biāo)易發(fā)生遮擋,其中會(huì)出現(xiàn)完全遮擋、部分遮擋等情況;在以時(shí)間維度度量場(chǎng)景中,光照等環(huán)境噪聲干擾容易變化,造成目標(biāo)表征不明顯、環(huán)境復(fù)雜度變高等挑戰(zhàn)。此外,由于目標(biāo)特征變化明顯,形成相似目標(biāo)物體干擾,對(duì)跟蹤器的魯棒性和準(zhǔn)確性帶來(lái)了巨大挑戰(zhàn)。
無(wú)論是短時(shí)目標(biāo)跟蹤場(chǎng)景,還是長(zhǎng)時(shí)目標(biāo)跟蹤場(chǎng)景,目標(biāo)尺度和寬高比的變化都給目標(biāo)跟蹤算法帶來(lái)了巨大挑戰(zhàn)。以往的目標(biāo)跟蹤算法通常采用基于多尺度搜索的方法或基于錨框的方法,對(duì)目標(biāo)尺度和寬高比變化進(jìn)行處理,但效果不佳。為了準(zhǔn)確估計(jì)目標(biāo)的尺度和寬高比,同時(shí)避免錨框相關(guān)超參數(shù)的手工設(shè)計(jì),近年來(lái)基于無(wú)錨框的尺度處理方法,已經(jīng)吸引越來(lái)越多目標(biāo)跟蹤領(lǐng)域?qū)W者的關(guān)注。與此同時(shí),Transformer模型因其較好的全局建模能力,在視覺(jué)領(lǐng)域中取得了巨大成功,有一部分學(xué)者將其引入目標(biāo)跟蹤領(lǐng)域,極大地推動(dòng)了目標(biāo)跟蹤領(lǐng)域的發(fā)展,然而也給目標(biāo)跟蹤研究帶來(lái)一些問(wèn)題。例如:Transformer模型計(jì)算量過(guò)大,是否能夠?qū)δP瓦M(jìn)行輕量化;能否有效融合視覺(jué)和語(yǔ)言等多模態(tài)信息。在長(zhǎng)時(shí)跟蹤領(lǐng)域,往往存在目標(biāo)消失后重現(xiàn)的問(wèn)題,這也是長(zhǎng)時(shí)跟蹤難以解決的痛點(diǎn)。如表1所示,根據(jù)上述目標(biāo)跟蹤算法的特性,可以將上述基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法劃分為如下6類(lèi)模型:無(wú)錨框(anchor-free)跟蹤框架、孿生網(wǎng)絡(luò)關(guān)系器、基于Transformer的孿生跟蹤器、輕量化單目標(biāo)跟蹤模型、基于自然語(yǔ)言的跟蹤模型和基于檢測(cè)—跟蹤長(zhǎng)時(shí)目標(biāo)跟蹤算法。接下來(lái),本文將對(duì)這6個(gè)方面的相關(guān)工作展開(kāi)論述,最后,對(duì)目標(biāo)跟蹤領(lǐng)域的未來(lái)發(fā)展方向進(jìn)行討論和展望。
表1 基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法特性和分類(lèi)示例
近年來(lái),很多跟蹤器[15-16,25-26]采用基于無(wú)錨框的方式來(lái)進(jìn)行目標(biāo)估計(jì)。在無(wú)錨框的方式出現(xiàn)之前,很多跟蹤器是基于多尺度搜索[27-29]和基于錨框[30-32]的,如圖1所示。
圖1 估算目標(biāo)尺度或?qū)捀弑鹊姆椒‵ig.1 Method for estimating target scale or aspect ratio
基于多尺度搜索的方法依賴于分類(lèi)組件,雖然速度上有一定優(yōu)勢(shì),但是不能準(zhǔn)確估計(jì)目標(biāo)的尺度和寬高比。而基于錨框的方法,雖然相比采用多尺度搜索的方法,準(zhǔn)確度有了明顯的提升,但其需要基于先驗(yàn)知識(shí)仔細(xì)設(shè)計(jì)錨框,引入了相關(guān)的超參數(shù),增加了計(jì)算。為了準(zhǔn)確估計(jì)目標(biāo)的尺度和寬高比,同時(shí)避免錨框相關(guān)超參數(shù)的手工設(shè)計(jì),一些學(xué)者將無(wú)錨框的方法引入目標(biāo)跟蹤[15-16,25]。SiamFC++[16]分析了之前基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤器的不足,將跟蹤任務(wù)拆分為分類(lèi)和回歸2個(gè)子任務(wù);為了增強(qiáng)跟蹤器的分類(lèi)能力和減少回歸分支對(duì)先驗(yàn)知識(shí)的依賴,SiamFC++增加質(zhì)量評(píng)估分支輔助分類(lèi)和采用無(wú)錨框的方式估計(jì)目標(biāo)狀態(tài)。SiamCAR[25]和SiamFC++相似,用無(wú)錨框的方式進(jìn)行跟蹤,增加了一個(gè)中心點(diǎn)分支輔助分類(lèi)。Ocean[26]是另一個(gè)基于無(wú)錨的跟蹤器,它通過(guò)學(xué)習(xí)對(duì)象感知特征以輔助分類(lèi)并使用在線學(xué)習(xí)方法更新模型,但是,其對(duì)象感知特征和用于分類(lèi)的特征是從不同位置采樣的,不同的采樣位置可能會(huì)導(dǎo)致其對(duì)象感知和分類(lèi)特征之間的不一致。
準(zhǔn)確估計(jì)目標(biāo)的尺度和寬高比仍然是目標(biāo)跟蹤領(lǐng)域的挑戰(zhàn)性問(wèn)題之一,并且由于遮擋、光照變化、相似物干擾、背景混雜等因素的存在而進(jìn)一步復(fù)雜化。Chen等[15]通過(guò)利用全卷積網(wǎng)絡(luò)的強(qiáng)大能力,設(shè)計(jì)了一個(gè)簡(jiǎn)單而有效的目標(biāo)跟蹤算法,稱為孿生邊框自適應(yīng)網(wǎng)絡(luò)(siamese box adaptive network,SiamBAN),用以解決準(zhǔn)確估計(jì)目標(biāo)的尺度和寬高比這個(gè)挑戰(zhàn)性問(wèn)題。如圖2,SiamBAN由一個(gè)孿生網(wǎng)絡(luò)骨干和多個(gè)邊框自適應(yīng)頭組成,可以在訓(xùn)練過(guò)程中進(jìn)行端到端優(yōu)化。孿生邊框自適應(yīng)網(wǎng)絡(luò)直接以逐像素的方式對(duì)目標(biāo)進(jìn)行分類(lèi),并預(yù)測(cè)其邊框,從而將跟蹤任務(wù)轉(zhuǎn)換為分類(lèi)和回歸問(wèn)題。無(wú)先驗(yàn)框的設(shè)計(jì)避免了與候選框相關(guān)的超參數(shù),從而使SiamBAN更加靈活和通用。
圖2 SiamBAN結(jié)構(gòu)[15]Fig.2 SiamBAN structure diagram[15]
SiamFC++[16]、SiamCAR[25]、Ocean[26]在GOT-10k[10]上的性能對(duì)比結(jié)果如表2所示。GOT-10k[10]是最近發(fā)布的大型高多樣性基準(zhǔn)數(shù)據(jù)集,用于野外通用目標(biāo)跟蹤。它包含超過(guò)10 000個(gè)真實(shí)世界運(yùn)動(dòng)物體的視頻片段。其協(xié)議確保了深度跟蹤器的公平比較,即所有方法都使用數(shù)據(jù)集提供的相同訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集中的類(lèi)是零重疊的。研究人員需要在給定的訓(xùn)練數(shù)據(jù)集上訓(xùn)練他們的模型,并在給定的測(cè)試數(shù)據(jù)集上測(cè)試它們。上傳跟蹤結(jié)果后,官方網(wǎng)站會(huì)自動(dòng)進(jìn)行分析,提供的評(píng)估指標(biāo)包括成功圖、平均重疊(AO)和成功率(SR)。AO表示所有估計(jì)邊界框和地面真值框之間的平均重疊。SR0.5表示重疊超過(guò)0.5的成功跟蹤幀的速率。從表2中我們不難發(fā)現(xiàn),基于在線更新機(jī)制的跟蹤器(如Ocean)比不更新模板幀的跟蹤器(如SiamCAR)有更好的性能。
表2 SiamFC++、SiamCAR、Ocean在GOT-10k上的性能對(duì)比
基于孿生網(wǎng)絡(luò)的跟蹤器通常會(huì)保留一些先驗(yàn)信息[33],并把跟蹤任務(wù)看成是一個(gè)相似性學(xué)習(xí)的問(wèn)題,獲得目標(biāo)模板和候選幀之間的匹配函數(shù)[34],且在準(zhǔn)確性和實(shí)時(shí)性上均有著非常優(yōu)異的性能。其中,跟蹤器在跟蹤階段易受到背景干擾物等噪聲的影響,這極大限制了魯棒性。由此,發(fā)現(xiàn)導(dǎo)致這種現(xiàn)象的原因是模型的判別能力不夠。最近,現(xiàn)有的工作通過(guò)利用在線更新機(jī)制,設(shè)計(jì)適應(yīng)性更新策略引入跟蹤器模型當(dāng)中,以增強(qiáng)模型判別力[17,28,35]。CFNet[28]把相關(guān)濾波器翻譯成一個(gè)可以微分的網(wǎng)絡(luò)層來(lái)在線更新模型;DSiam[27]采用了一個(gè)快速轉(zhuǎn)換模塊來(lái)實(shí)現(xiàn)在線學(xué)習(xí);UpdateNet[35]試圖在跟蹤時(shí)去估計(jì)目標(biāo)的模板圖來(lái)應(yīng)對(duì)目標(biāo)的表觀變化。然而,在線更新策略需要繁重的計(jì)算并且更新時(shí)累計(jì)的誤差會(huì)最終導(dǎo)致跟蹤失敗。DiMP[18]通過(guò)在線收集樣本,利用元學(xué)習(xí)的方法訓(xùn)練一個(gè)在線分類(lèi)器來(lái)對(duì)目標(biāo)進(jìn)行分類(lèi)。除此之外,SPM[32]嘗試使用“由粗到細(xì)”思想進(jìn)行兩階段的跟蹤來(lái)對(duì)干擾物進(jìn)行篩選;DaSiamRPN[36]通過(guò)增加隨機(jī)訓(xùn)練負(fù)樣本的方式來(lái)提高跟蹤器對(duì)相似干擾物的判別力。少樣本學(xué)習(xí)期望在給定少量帶有標(biāo)簽的樣本情況下能識(shí)別出新的類(lèi)別[37]。在訓(xùn)練的時(shí)候,通常只有很少甚至只有一個(gè)樣本的數(shù)據(jù)能夠獲取,因此,如何克服這種情況以確保模型的泛化能力成為一個(gè)具有挑戰(zhàn)性的任務(wù)[38]。少樣本學(xué)習(xí)的主流方法有以下幾種:用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)優(yōu)化[39]、基于在線微調(diào)的方法[40]、訓(xùn)練學(xué)習(xí)一個(gè)有效的度量[41-42]。目前,一個(gè)流行的趨勢(shì)是設(shè)計(jì)一個(gè)通用的策略使得能夠在每個(gè)任務(wù)中去指導(dǎo)有監(jiān)督學(xué)習(xí),這被叫做元學(xué)習(xí)。在大量任務(wù)中學(xué)習(xí)的這些元知識(shí)是可以遷移的,這樣訓(xùn)練出來(lái)的網(wǎng)絡(luò)就能夠處理不同的任務(wù)。最近,隨著基于快速學(xué)習(xí)初始化模型參數(shù)MAML[40]的提出,Huang等[43]和Wang等[44]借鑒了這個(gè)技術(shù),并在他們的跟蹤任務(wù)中用其讓模型快速自適應(yīng)。總的來(lái)說(shuō),元學(xué)習(xí)的方法研究可以促進(jìn)目標(biāo)跟蹤在不同場(chǎng)景下的適應(yīng)能力[34]。
近些年,通過(guò)對(duì)孿生網(wǎng)絡(luò)跟蹤器進(jìn)行分析發(fā)現(xiàn),其容易受到干擾物的影響,并且大部分基于孿生網(wǎng)絡(luò)的跟蹤器會(huì)利用分類(lèi)分支和回歸分支去定位目標(biāo),而這2個(gè)分支是相互獨(dú)立進(jìn)行優(yōu)化的,這會(huì)引起在跟蹤階段的不匹配現(xiàn)象,即分類(lèi)置信分?jǐn)?shù)最高的定位框和目標(biāo)的IoU值不一定是最大的。Cheng等[45]提出孿生關(guān)系網(wǎng)絡(luò)框架來(lái)解決跟蹤過(guò)程有效地分辨和抑制干擾物等擾動(dòng)挑戰(zhàn),網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。其中,關(guān)系檢測(cè)器模塊如圖4所示,通過(guò)衡量預(yù)選建議框和跟蹤目標(biāo)之間的關(guān)系,對(duì)背景干擾物進(jìn)行分辨和過(guò)濾。此外,設(shè)計(jì)基于少樣本學(xué)習(xí)的對(duì)比訓(xùn)練策略來(lái)進(jìn)一步提高模型判別力,這個(gè)策略使得模型不僅能夠匹配相同的目標(biāo),而且還能夠區(qū)分不同的目標(biāo),如圖5所示。同時(shí),為了緩解分支的不匹配現(xiàn)象并得到更加精確的跟蹤結(jié)果,設(shè)計(jì)精調(diào)模塊利用關(guān)系檢測(cè)器的輸出達(dá)到分類(lèi)分支和回歸分支的相互關(guān)聯(lián)。
圖3 孿生關(guān)系網(wǎng)絡(luò)跟蹤流程[45]Fig.3 Siamese network tracking flow char[45]
圖4 關(guān)系檢測(cè)器的結(jié)構(gòu)[45]Fig.4 Structure diagram of relationship detector[45]
圖5 對(duì)比訓(xùn)練策略示意Fig.5 Schematic diagram of comparative training strategy
OTB-100[46]是一個(gè)被廣泛用于評(píng)估視覺(jué)跟蹤算法性能的視覺(jué)跟蹤基準(zhǔn)數(shù)據(jù)集。該數(shù)據(jù)集總共包含100個(gè)序列,每個(gè)序列都逐幀注釋?zhuān)瑤в羞吔缈蚝?1個(gè)挑戰(zhàn)屬性。其中AUC表示預(yù)測(cè)框與真實(shí)框之間計(jì)算 IoU,當(dāng)大于某個(gè)閾值時(shí),認(rèn)定跟蹤成功。如果閾值從0到1不斷變化,就能畫(huà)出每個(gè)閾值下跟蹤成功率,計(jì)算曲線與x、y軸的面積,得到AUC。用真實(shí)框中目標(biāo)的位置初始化第一幀,然后運(yùn)行跟蹤算法得到平均精度和成功率。這種方法被稱為one-pass evaluation (OPE)。CFNet[28]、SPM[32]在OTB-100[46]測(cè)試集上的性能對(duì)比結(jié)果如表3所示。由表3可知,SPM由于采用了干擾物篩選等處理策略,能夠取得較好的跟蹤結(jié)果。
表3 CFNet、SPM在OTB-100測(cè)試集上的性能對(duì)比
Transformer在2017年由Vaswani等[47]提出,它不同于以往深度學(xué)習(xí)任務(wù)經(jīng)常使用的CNN和RNN方法,而是通過(guò)引入注意力的思想來(lái)處理自然語(yǔ)言任務(wù)。因其出眾的性能和符合人體的感知機(jī)制[48-49],近幾年來(lái)被眾多研究者引入計(jì)算機(jī)視覺(jué)領(lǐng)域中,諸如圖像分類(lèi)[50]、圖像分割、目標(biāo)跟蹤等視覺(jué)任務(wù)。
Transformer的核心是多頭注意力機(jī)制,如圖6所示,有查詢(query, q)、鍵(key, k)和值(value, v)3個(gè)輸入,通常使用縮放點(diǎn)積方法來(lái)計(jì)算它們的注意力矩陣,即相似度矩陣,公式表示為
式中:d代表輸入k的維度;Pq、Pk代表q和k對(duì)應(yīng)的位置編碼。為了探索更強(qiáng)有力的長(zhǎng)距離依賴能力,Transformer將q、k和v向量劃分為多個(gè)子特征向量,并使用多頭注意力機(jī)制計(jì)算它們的注意力矩陣以從v特征向量中傳播相關(guān)信息,其公式表示如下:
MultiHead(q,k,v)=Concat(h1,…,hN)Wo,
圖6 多頭注意力示意Fig..6 Multi-head attention diagram
最近,一些工作將Transformer引進(jìn)到單目標(biāo)跟蹤領(lǐng)域中,它們采用編碼器—解碼器的范式來(lái)設(shè)計(jì)Transformer網(wǎng)絡(luò)結(jié)構(gòu)并將其結(jié)合到以往的跟蹤框架上,展現(xiàn)出非凡的跟蹤性能。具體地,Chen等[19]提出TransT,設(shè)計(jì)了一個(gè)帶有自身上下文增強(qiáng)(ego-context augment, ECA)和交叉特征增強(qiáng)(cross-feature augment, CFA)模塊的Transformer特征融合網(wǎng)絡(luò),它可以避免傳統(tǒng)的跨相關(guān)操作陷入局部最優(yōu)解和丟失部分語(yǔ)義信息的問(wèn)題。Yan等[20]提出STARK,直接把目標(biāo)跟蹤看做是一個(gè)邊界框預(yù)測(cè)問(wèn)題,對(duì)此設(shè)計(jì)了一個(gè)基于Transformer的跟蹤器,它通過(guò)自注意力和交叉注意力模塊對(duì)模板幀和搜索幀之間的時(shí)空特征進(jìn)行全局建模。Wang等[51]提出TrDiMP,利用一個(gè)Transformer結(jié)構(gòu)對(duì)多個(gè)模板特征進(jìn)行關(guān)系建模,同時(shí)傳播跟蹤線索到當(dāng)前幀以執(zhí)行跟蹤任務(wù)。另外,Zhao等[52]提出TrTr,把Transformer的編碼器和解碼器分離到2個(gè)分支上,同時(shí)對(duì)模板和搜索特征進(jìn)行編碼以進(jìn)行目標(biāo)跟蹤。以上這些跟蹤器通過(guò)嘗試建立長(zhǎng)時(shí)序依賴來(lái)感知上下文信息的方法取得了很大的性能提升,展示出Transformer強(qiáng)大的全局建模能力。
然而,當(dāng)前對(duì)Transformer的探索還處于一個(gè)初期階段,仍存在很多可探索的地方,諸如減少計(jì)算復(fù)雜度、基于Transformer來(lái)重新思考整體的跟蹤架構(gòu)等。另外,在計(jì)算資源受限的平臺(tái)運(yùn)行傳統(tǒng)卷積骨干網(wǎng)絡(luò)(ResNet)的計(jì)算成本仍然較高,因此未來(lái)研究移動(dòng)平臺(tái)的高效骨干網(wǎng)絡(luò)、基于輕量化的Transformer跟蹤器、基于純Transformer架構(gòu)的跟蹤器等都可能是有趣的方向。TransT[19]與STARK[20]在GOT-10k[10]測(cè)試集上的性能對(duì)比結(jié)果如表4所示。從表中可以分析得出在短時(shí)跟蹤時(shí),TransT的跨注意力和自注意力模塊更高效。
表4 TransT與STARK在GOT-10k上的性能對(duì)比
當(dāng)前學(xué)術(shù)界更加注重單目標(biāo)跟蹤模型的魯棒性和正確率,但是在工業(yè)界,模型輕量化是一個(gè)至關(guān)重要的標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)決定著單目標(biāo)跟蹤模型是否能夠部署到邊緣設(shè)備上。然而單目標(biāo)跟蹤的模型越來(lái)越大,傾向于使用更深和更復(fù)雜的模塊,很少有考慮到效率及模型大小問(wèn)題,且伴隨著Transformer的引入使模型參數(shù)大大增加。這些原因?qū)е聠文繕?biāo)跟蹤模型無(wú)法部署在邊緣設(shè)備進(jìn)行實(shí)時(shí)單目標(biāo)跟蹤任務(wù),即無(wú)法工業(yè)化。因此,研究輕量化且具有高準(zhǔn)確率的單目標(biāo)跟蹤模型勢(shì)在必行。
LightTrack[21]、E.T.Track[22]、FEAR[53]是目前性能較為強(qiáng)大的3種單目標(biāo)跟蹤模型,同時(shí)具有高速度、高性能和低模型大小的特點(diǎn)。LightTrack使用神經(jīng)結(jié)構(gòu)搜索來(lái)設(shè)計(jì)更輕量、高效的對(duì)象跟蹤器,它的性能優(yōu)于SiamRPN++[31]和Ocean[26]等先進(jìn)跟蹤器,并且模型更加小,能夠部署在移動(dòng)芯片上。E.T.Track是目前唯一基于Transformer的實(shí)時(shí)目標(biāo)跟蹤器,它利用Exemplar Transformer實(shí)現(xiàn)的實(shí)時(shí)目標(biāo)跟蹤模型,在CPU上能達(dá)到47 frame/s的速度,比其他基于Transformer的模型有更快的速度,相較于TransT快9倍,較STARK快6倍。FEAR是一種新穎、快速、高效、準(zhǔn)確并且強(qiáng)大的視覺(jué)跟蹤器,其中優(yōu)化版FEAR-XS的跟蹤速度比當(dāng)前流行的SiamRPN++快10倍以上,且能夠接近最先進(jìn)的結(jié)果。FEAR-XS跟蹤器的模型大小比LightTrack小了2.4倍,速度卻是LightTrack的4.3倍,且具有更高的精度。
近來(lái),發(fā)表的輕量級(jí)目標(biāo)跟蹤器仍然和SOTA有不小的差距,它們的準(zhǔn)確率和魯棒性仍然有許多值得改進(jìn)的地方。不同版本的LightTrack[21]在GOT-10k測(cè)試集的性能對(duì)比結(jié)果如表5所示。從表中可以看出,更大的參數(shù)和模型確實(shí)能夠一定程度上提升跟蹤器的性能。但是如何在保留性能的情況下降低模型的計(jì)算量和參數(shù)是輕量化不得不考慮的問(wèn)題。
表5 不同版本的LightTrack在GOT-10k上的性能對(duì)比
僅僅依靠視覺(jué)中的表觀特征信息進(jìn)行跟蹤很容易受到外部世界及其自身狀態(tài)的影響,進(jìn)而導(dǎo)致在跟蹤領(lǐng)域出現(xiàn)許多難以解決的痛點(diǎn)。如圖7所示,根據(jù)人的常識(shí),在跟蹤某個(gè)任意目標(biāo)時(shí),視覺(jué)和語(yǔ)言是缺一不可的聯(lián)合表達(dá)和相互補(bǔ)充的通道。在人類(lèi)的認(rèn)知中,在目光鎖定任意目標(biāo)時(shí),都是先從“是什么”開(kāi)始,用“什么樣子”進(jìn)行輔助。
圖7 自然語(yǔ)言的作用和優(yōu)勢(shì)Fig.7 Functions and advantages of natural language
在近十年里,出現(xiàn)了很多將自然語(yǔ)言和跟蹤相結(jié)合的研究工作,通常自然語(yǔ)言被用來(lái)提高跟蹤器的性能。使用文本為視覺(jué)提供更穩(wěn)定和更準(zhǔn)確的高級(jí)語(yǔ)義信息。通過(guò)兩者的互補(bǔ),消除表觀特征變化引起的歧義和不確定性。Li等[54]通過(guò)自然語(yǔ)言定義了跟蹤的3種不同形式,即只使用自然語(yǔ)言、使用依賴基于自然語(yǔ)言的視覺(jué)目標(biāo)規(guī)范以及利用其聯(lián)合能力。Wang等[55]將自然語(yǔ)言作為監(jiān)督信息,以穩(wěn)健地學(xué)習(xí)特征表示和分類(lèi)器。Feng等[56]使用貝葉斯公式,在檢測(cè)跟蹤框架中通過(guò)自然語(yǔ)言形式化跟蹤。Wang等[57]基于自然語(yǔ)言進(jìn)行跟蹤,使用高級(jí)語(yǔ)義信息指導(dǎo)對(duì)象跟蹤,巧妙地將局部和全局搜索聯(lián)系在一起。Feng等[23]將自然語(yǔ)言引入孿生網(wǎng)絡(luò),為目標(biāo)跟蹤提供了一類(lèi)新的基線。但在上述工作中,自然語(yǔ)言的信息和視覺(jué)特征只是做了簡(jiǎn)單的交互,并沒(méi)有完全利用到自然語(yǔ)言的優(yōu)勢(shì)。如果可以在關(guān)注本身模態(tài)的前提下,對(duì)不同模態(tài)之間的關(guān)系進(jìn)行建模,或許能夠獲得更好的跟蹤效果。
TNL2K[54]與Wang等[55]在OTB-Lang[54]測(cè)試集的性能對(duì)比結(jié)果如表6所示。Prec為衡量目標(biāo)跟蹤算法的精度指標(biāo),其根據(jù)目標(biāo)跟蹤算法估計(jì)的目標(biāo)位置的中心點(diǎn)與人工標(biāo)注真實(shí)框的目標(biāo)中心點(diǎn),計(jì)算這兩者的距離小于給定閾值的視頻幀的百分比得到。從表6中實(shí)驗(yàn)結(jié)果可以看出,基于視覺(jué)和語(yǔ)言融合的跟蹤算法已經(jīng)初步驗(yàn)證了其性能。但是如何進(jìn)一步有效地將自然語(yǔ)言與跟蹤領(lǐng)域結(jié)合,從而處理僅僅依靠視覺(jué)信息沒(méi)法處理的難題,依然值得進(jìn)一步深入研究。
表6 TNL2K與文獻(xiàn)[55]在OTB-Lang上的性能對(duì)比
得益于長(zhǎng)時(shí)目標(biāo)跟蹤算法的實(shí)用性,大尺度長(zhǎng)時(shí)跟蹤算法成為視覺(jué)目標(biāo)跟蹤中新的熱點(diǎn)問(wèn)題。長(zhǎng)時(shí)與短時(shí)跟蹤器的主要區(qū)別是,長(zhǎng)時(shí)跟蹤器需要具備處理目標(biāo)頻繁消失和重現(xiàn)的問(wèn)題。一般來(lái)說(shuō),長(zhǎng)時(shí)跟蹤序列[12]會(huì)持續(xù)長(zhǎng)達(dá)數(shù)百至上千幀,并且通常包含表觀變化、長(zhǎng)時(shí)間消失和類(lèi)別內(nèi)干擾物等困難場(chǎng)景。因此,長(zhǎng)時(shí)跟蹤器必須具備高效重檢測(cè)目標(biāo)以及區(qū)分目標(biāo)和相似物的能力。
高效實(shí)用的長(zhǎng)時(shí)跟蹤算法通常包含3個(gè)關(guān)鍵的屬性:高效的模型設(shè)計(jì)、強(qiáng)大的全局重檢測(cè)策略以及魯棒的干擾物感知機(jī)制。然而,目前的長(zhǎng)時(shí)跟蹤器沒(méi)有很好地考慮這些因素,因此存在耗時(shí)過(guò)大以及干擾物導(dǎo)致的漂移問(wèn)題。為了解決這些問(wèn)題,DMTrack[64]提出一個(gè)兩任務(wù)的跟蹤框架,如圖8所示,通過(guò)使用單樣本檢測(cè)(one-shot detection)和重識(shí)別(Re-identity)這2個(gè)核心模塊來(lái)獲得一個(gè)基于動(dòng)態(tài)卷積核和多目標(biāo)跟蹤的干擾物感知多目標(biāo)跟蹤算法。為了實(shí)現(xiàn)精確以及快速的全局檢測(cè),DMTrack構(gòu)建了一個(gè)基于動(dòng)態(tài)卷積生成的高效小樣本檢測(cè)—跟蹤模型,在此模型的基礎(chǔ)上,引入重識(shí)別模型,用于提供一個(gè)更加統(tǒng)一和靈活的方法將目標(biāo)信息結(jié)合到跟蹤框架中。與此同時(shí),為了增強(qiáng)跟蹤器對(duì)干擾物的區(qū)別能力,該工作受到多目標(biāo)跟蹤方法的啟發(fā),為所有潛在的干擾物維護(hù)跟蹤列表,從而顯式地區(qū)分目標(biāo)和其他相似物體??傮w來(lái)說(shuō),得益于高召回的檢測(cè)模型以及顯式的目標(biāo)關(guān)聯(lián),該跟蹤器取得可靠高效的長(zhǎng)時(shí)跟蹤性能。當(dāng)然,基于檢測(cè)—跟蹤的方法,受限于檢測(cè)速度和精度,訓(xùn)練負(fù)擔(dān)大,提升跟蹤過(guò)程的速度以及選擇更合適的訓(xùn)練方式,是長(zhǎng)時(shí)跟蹤領(lǐng)域需要考慮的問(wèn)題。
圖8 基于MOT的長(zhǎng)時(shí)檢測(cè)—跟蹤算法[64]Fig.8 Long term detection and tracking algorithm based on MOT[64]
SPLT[62]、DMTrack[64]在VOT-2019-LT的性能對(duì)比結(jié)果如表7所示。VOT-2019-LT是2019年VOT比賽長(zhǎng)時(shí)賽道。F-Score 一種平衡召回率和準(zhǔn)確率的評(píng)價(jià)指標(biāo)。從表中可以看出,DMTrack使用重識(shí)別的核心模塊進(jìn)行顯式的多目標(biāo)跟蹤,取得了較好的長(zhǎng)時(shí)目標(biāo)跟蹤性能。
表7 SPLT、DMTrack在VOT-2019-LT上的性能對(duì)比
過(guò)去幾年中,出現(xiàn)了大量基于深度學(xué)習(xí)的目標(biāo)跟蹤算法研究工作,同時(shí)在跟蹤器的實(shí)時(shí)性、魯棒性和準(zhǔn)確性方面也取得了令人欣喜的效果。但是,該領(lǐng)域當(dāng)面對(duì)真實(shí)場(chǎng)景更加復(fù)雜的應(yīng)用場(chǎng)景時(shí),仍然存在大量問(wèn)題亟待解決。這里,我們重點(diǎn)討論以下3個(gè)問(wèn)題與其未來(lái)發(fā)展方向。
1)泛化能力。當(dāng)前的跟蹤器非常依賴大量有標(biāo)注的訓(xùn)練數(shù)據(jù),獲取數(shù)據(jù)成本很高,并且特定場(chǎng)景存在數(shù)據(jù)量較小、復(fù)雜度較低和多樣性不足等問(wèn)題。由此,提升模型的泛化能力,借助少樣本學(xué)習(xí)和自監(jiān)督學(xué)習(xí)能夠有效改善。首先,少樣本學(xué)習(xí)能夠解決訓(xùn)練樣本數(shù)量少導(dǎo)致模型泛化能力不夠的問(wèn)題,自監(jiān)督學(xué)習(xí)能夠有效解決訓(xùn)練數(shù)據(jù)缺少標(biāo)注的問(wèn)題。通過(guò)借助訓(xùn)練數(shù)據(jù)提升模型泛化能力,能夠適應(yīng)性地應(yīng)用于復(fù)雜場(chǎng)景當(dāng)中,對(duì)目標(biāo)跟蹤領(lǐng)域而言能夠提升整體的發(fā)展水平。
2)跟蹤精細(xì)化。從多尺度搜索的方法到基于錨框和基于無(wú)錨框的目標(biāo)跟蹤器,算法模型設(shè)計(jì)趨于精細(xì)化。基于錨框的方法可以處理目標(biāo)尺度和寬高比的變化,但是此方法對(duì)錨框的數(shù)量、大小和寬高比很敏感。同時(shí),基于無(wú)錨框的方法直接對(duì)對(duì)象進(jìn)行分類(lèi)并回歸其邊框,簡(jiǎn)單而有效。但這些方法在預(yù)測(cè)的邊框和卷積特征之間存在對(duì)齊問(wèn)題,限制了這些跟蹤器的性能。如果能解決預(yù)測(cè)的邊框和特征之間的對(duì)齊問(wèn)題,相信對(duì)跟蹤器的性能會(huì)有明顯提升。
3)模型架構(gòu)。基于經(jīng)驗(yàn)設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu)逐漸被基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的結(jié)構(gòu)所替代,在檢測(cè)任務(wù)中,已有不少工作集中于骨干網(wǎng)絡(luò)[65]、特征提取網(wǎng)絡(luò)[66]和檢測(cè)頭[67]的搜索。在跟蹤任務(wù)中,其實(shí)也存在大量經(jīng)驗(yàn)設(shè)計(jì)的網(wǎng)絡(luò),特別是模板分支與搜索分支融合的部分是通過(guò)大量實(shí)驗(yàn)得出的(包括卷積類(lèi)型、通道數(shù)、融合操作和融合點(diǎn)個(gè)數(shù)),通過(guò)神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的方式將獲得性能更好的結(jié)構(gòu),但目前在搜索空間定義、訓(xùn)練指標(biāo)定義、訓(xùn)練收斂等問(wèn)題上仍需要研究人員的不懈努力。