張紅艷,黃宏博,2,何嘉玉
(1.北京信息科技大學(xué)計算機學(xué)院,北京 100101;2.北京信息科技大學(xué)計算智能研究所,北京 100192)
多目標(biāo)跟蹤是對于給定的視頻序列,找到每一幀圖像中的運動目標(biāo),在連續(xù)視頻幀中對同一個目標(biāo)分配相同的身份標(biāo)識號(ID),從而形成不同物體各自的運動軌跡。這些物體可以是任意的,如行人、車輛、運動員、動物以及足球等無生命物體。多目標(biāo)跟蹤在智能監(jiān)控[1]、人機交互、虛擬現(xiàn)實、自動駕駛汽車[2]以及人群行為分析等領(lǐng)域都有許多實際應(yīng)用價值。但是多目標(biāo)跟蹤也面臨著一系列挑戰(zhàn),主要有:(1)目標(biāo)種類繁多且復(fù)雜多變;(2)新目標(biāo)的產(chǎn)生和舊目標(biāo)的消失;(3)目標(biāo)的數(shù)量未知;(4)遮擋以及目標(biāo)之間的相互遮擋;(5)跟蹤的物體消失一段時間后重新出現(xiàn);(6)不同的目標(biāo)擁有相似的外觀;(7)背景干擾;(8)物體形變;(9)光照變化;(10)不同幀中同一目標(biāo)身份切換次數(shù)過高,等等。解決這些問題對多目標(biāo)跟蹤的發(fā)展以及視頻結(jié)構(gòu)化和視頻語義理解有著重要的意義。
在大數(shù)據(jù)時代背景下,隨著計算機算力的提高和深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的圖像處理方法變得越來越流行。并且隨著更深的網(wǎng)絡(luò)結(jié)構(gòu)和更大量的數(shù)據(jù)應(yīng)用,使用深度學(xué)習(xí)的多目標(biāo)跟蹤器性能也變得更好?;谏疃葘W(xué)習(xí)的多目標(biāo)跟蹤算法主要采用兩個步驟:目標(biāo)檢測和數(shù)據(jù)關(guān)聯(lián),即首先通過目標(biāo)檢測在視頻的每個幀中檢測感興趣的對象,然后通過數(shù)據(jù)關(guān)聯(lián)在不同幀中在檢測到的對象之間建立對應(yīng)關(guān)系以獲得最終的運動軌跡。目標(biāo)檢測可以根據(jù)目標(biāo)跟蹤的速度和精度等性能要求選用適當(dāng)?shù)臋z測器來實現(xiàn)。數(shù)據(jù)關(guān)聯(lián)的實現(xiàn)過程比較復(fù)雜,包括很多組件,其中有:(1)特征提??;(2)親和度/匹配成本計算;(3)標(biāo)識號匹配。針對深度學(xué)習(xí)在跟蹤框架中的應(yīng)用以及深度網(wǎng)絡(luò)結(jié)構(gòu)的不同,將多目標(biāo)跟蹤分為四類,并在此基礎(chǔ)上對未來的發(fā)展趨勢與前景進(jìn)行深入探討。
深度神經(jīng)網(wǎng)絡(luò)具有強大的學(xué)習(xí)能力,具體體現(xiàn)在特征提?。?]方面,其提取的深度特征具有更豐富、更抽象的語義信息。這些特征可以應(yīng)用在圖像分類和目標(biāo)檢測等計算機視覺子方向,并極大促進(jìn)了這些領(lǐng)域的發(fā)展。使用深度特征代替?zhèn)鹘y(tǒng)的手工特征可以有效的提高多目標(biāo)跟蹤的性能。
文獻(xiàn)[4]使用深度學(xué)習(xí)的方法提出了DeepSORT。該算法使用自定義殘差網(wǎng)絡(luò)在行人重識別數(shù)據(jù)集上進(jìn)行訓(xùn)練,提取深度外觀特征并映射到一個超球面。接著使用這些特征來計算檢測目標(biāo)與跟蹤目標(biāo)之間的最小余弦距離。在關(guān)聯(lián)階段,利用卡爾曼濾波得到的跟蹤預(yù)測框與當(dāng)前幀的檢測框之間的馬氏距離和余弦距離的線性加權(quán)作為關(guān)聯(lián)度量并計算成本矩陣,隨后使用級聯(lián)匹配將跟蹤預(yù)測框和檢測框進(jìn)行配對。這種簡潔的跟蹤方法既融合了運動信息又考慮了外觀信息,可以在保持實時速度的同時獲得較高的多目標(biāo)跟蹤準(zhǔn)確度(MOTA),并且可以有效減少遮擋問題帶來的影響。
文獻(xiàn)[5]認(rèn)為DeepSORT 把目標(biāo)檢測與重識別特征提取作為兩個獨立任務(wù)(兩步法)進(jìn)行,不僅沒有特征共享而且時間利用率低。所以他們提出了一種新的跟蹤基準(zhǔn)(FairMOT)—把目標(biāo)檢測與重識別特征提取兩個任務(wù)聯(lián)合起來,稱為一步法。輸入的圖像幀首先經(jīng)過多尺度融合網(wǎng)絡(luò)提取特征,解決目標(biāo)尺度不同的問題,然后輸出高分辨率特征圖。接著把特征圖送人目標(biāo)檢測重識別網(wǎng)絡(luò)兩個并行分支。后續(xù)關(guān)聯(lián)階段與DeepSORT采用的方法一致。實驗證明,最終結(jié)果達(dá)到了最好的跟蹤性能,而且相對于兩步法速度更快。
該類方法利用深度特征進(jìn)行跟蹤,可以有效地減少遮擋帶來的身份切換次數(shù),并且在數(shù)據(jù)關(guān)聯(lián)階段使用卡爾曼濾波加匈牙利算法結(jié)合的方式,有效地提高了跟蹤效率。缺點是僅在外觀方面使用深度特征并不能完全代表目標(biāo),影響跟蹤精度。
深度學(xué)習(xí)不僅可以應(yīng)用于特征提取,還可用于數(shù)據(jù)關(guān)聯(lián)的其他部分。多目標(biāo)跟蹤框架中存在很多相互影響的模塊,包括軌跡歷史信息與當(dāng)前檢測之間的匹配、更新跟蹤目標(biāo)的狀態(tài)以及管理目標(biāo)軌跡的開始與結(jié)束等關(guān)鍵子模塊,如何在一個整體框架中實現(xiàn)這些子模塊并實現(xiàn)好的跟蹤效果。近年來,不少研究人員通過簡化跟蹤過程,提出了以端到端數(shù)據(jù)關(guān)聯(lián)的方式來實現(xiàn)上述目標(biāo)。
在在線多目標(biāo)跟蹤框架中,可以使用由預(yù)測和觀測值更新組成的貝葉斯濾波器估計被跟蹤對象的狀態(tài)。文獻(xiàn)[6]將循環(huán)神經(jīng)網(wǎng)絡(luò)擴(kuò)展為對這些過程進(jìn)行建模,模擬貝葉斯濾波算法。該算法主要由三部分組成,分別是運動預(yù)測、匹配以及管理軌跡的起止,并且使用循環(huán)神經(jīng)網(wǎng)絡(luò)完成全部過程。盡管跟蹤結(jié)果有提高,但實際多目標(biāo)跟蹤評估數(shù)據(jù)集中的跟蹤結(jié)果并沒有達(dá)到最高精度,原因有如下兩點:(1)此方法僅考慮運動特征;(2)啟動和終止軌跡沒有考慮對目標(biāo)關(guān)聯(lián)有重要作用的上下文特征。
為了解決這些問題,文獻(xiàn)[7]設(shè)計了一個分層的深度網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)包含三個子長短期記憶網(wǎng)絡(luò),分別用來預(yù)測長期運動特征、提取外觀特征和上下文特征。然后這些特征被串聯(lián)起來,并送入到最高級長短期記憶網(wǎng)絡(luò),用來計算檢測結(jié)果與已有軌跡之間的親和度矩陣。為了學(xué)習(xí)這種分層結(jié)構(gòu),三個子網(wǎng)絡(luò)首先經(jīng)過預(yù)訓(xùn)練,然后從頂部的長短期記憶網(wǎng)絡(luò)進(jìn)行微調(diào)。因此,該方法實現(xiàn)了整個網(wǎng)絡(luò)結(jié)構(gòu)端到端的訓(xùn)練學(xué)習(xí)。實驗結(jié)果表明,同時考慮運動和外觀特征比僅使用運動特征更強大,并且還可以實現(xiàn)最新的人員重識別任務(wù)性能。
在全局優(yōu)化的多目標(biāo)跟蹤中,跟蹤被視為檢測集的最佳分區(qū),可以使用概率圖、網(wǎng)絡(luò)流等在整個檢測范圍內(nèi)進(jìn)行全局推理使最終的關(guān)聯(lián)代價總和最小。文獻(xiàn)[8]提出了一個基于信息傳遞網(wǎng)絡(luò)的多目標(biāo)跟蹤器,利用問題的自然圖結(jié)構(gòu)來同時執(zhí)行特征學(xué)習(xí)和結(jié)果預(yù)測。其具體跟蹤流程為:首先是圖的構(gòu)建,節(jié)點對應(yīng)視頻的檢測,邊對應(yīng)檢測之間的連接;其次是特征編碼包括外觀特征與幾何特征;然后是神經(jīng)信息傳遞,節(jié)點與鄰邊分享外觀信息,邊與伴隨節(jié)點分享特征信息;最后對圖中的每條邊引入了一個二元變量,判斷該邊是否被激活。實驗證明,離線圖在全局范圍內(nèi)進(jìn)行跟蹤,相對于在線跟蹤,可以得到更準(zhǔn)確的結(jié)果。
端到端的數(shù)據(jù)關(guān)聯(lián)減輕手工設(shè)計成本,無需人工調(diào)參,靈活性好,并且在在線跟蹤中,相對于卷積神經(jīng)網(wǎng)絡(luò)僅能提供空間信息,使用循環(huán)神經(jīng)網(wǎng)絡(luò)還可以處理時序信息更適用于多目標(biāo)跟蹤。在離線跟蹤中,使用端到端的全局推理可以得到更準(zhǔn)確的跟蹤結(jié)果。但該類方法對硬件要求高,運行速度低。
上述多目標(biāo)跟蹤方法主要采用基于檢測跟蹤的策略,并通過使用數(shù)據(jù)關(guān)聯(lián)算法進(jìn)行跨幀鏈接檢測來處理任務(wù)。但是,這些方法嚴(yán)重依賴于檢測結(jié)果的質(zhì)量。如果檢測丟失或不準(zhǔn)確,則容易丟失目標(biāo)對象。隨著單目標(biāo)跟蹤器的不斷完善,研究人員提出了一種基于單目標(biāo)跟蹤器擴(kuò)展的多目標(biāo)跟蹤流程,可以緩解多目標(biāo)跟蹤中由于遮擋、檢測器性能不好導(dǎo)致的目標(biāo)丟失等情況,增強跟蹤魯棒性。
文獻(xiàn)[9]提出了一個基于單目標(biāo)跟蹤的在線多目標(biāo)跟蹤框架(STAM),如圖1所示。該框架使用卷積神經(jīng)網(wǎng)路學(xué)習(xí)強大的辨別性外觀模型,利用單個對象跟蹤器的優(yōu)點來調(diào)整外觀模型并在下一幀中搜索目標(biāo),每個目標(biāo)分配一個單目標(biāo)跟蹤器。但是直接將單目標(biāo)跟蹤應(yīng)用于多目標(biāo)跟蹤會因為遮擋導(dǎo)致漂移,針對這個問題,他們引入了時空注意力模型機制。時間注意力機制使用加權(quán)損失函數(shù)來更新模型參數(shù),使得被遮擋越嚴(yán)重的樣本對損失函數(shù)的影響越小??臻g注意力機制對樣本的空間特征進(jìn)行加權(quán),更加關(guān)注未被遮擋目標(biāo)區(qū)域的特征,使得分類器的輸出結(jié)果更加準(zhǔn)確。除了目標(biāo)之間的相互遮擋會造成跟蹤漂移,還有當(dāng)出現(xiàn)和目標(biāo)相似的干擾時也會引起漂移,出現(xiàn)這種現(xiàn)象的原因主要是訓(xùn)練樣本的數(shù)據(jù)不平衡導(dǎo)致單目標(biāo)跟蹤器學(xué)不到可區(qū)分性特征。
圖1 STAM算法結(jié)構(gòu)Fig.1 Structure of STAM Algorithm
為了減輕數(shù)據(jù)不平衡,文獻(xiàn)[10]基于最新的單目標(biāo)跟蹤器(ECO)引入一種新的成本敏感損失函數(shù)使處于目標(biāo)附近的難樣本的懲罰權(quán)重變大。除此之外,還加入了數(shù)據(jù)關(guān)聯(lián)部分來協(xié)助單目標(biāo)跟蹤器。首先應(yīng)用單目標(biāo)跟蹤器來跟蹤每個目標(biāo),直到跟蹤結(jié)果變得不可靠(例如,跟蹤得分低或跟蹤結(jié)果與檢測結(jié)果不一致)時,目標(biāo)被視為丟失。接著掛起跟蹤器并執(zhí)行數(shù)據(jù)關(guān)聯(lián)來計算軌跡與檢測之間的匹配概率。一旦丟失的目標(biāo)通過數(shù)據(jù)關(guān)聯(lián)連接到檢測,將更新狀態(tài)并恢復(fù)跟蹤過程。雖然該跟蹤器取得了不錯的性能,但是仍存在一些問題:首先,從兩個單獨的模型中提取用于單目標(biāo)跟蹤器和親和力度量的功能,這會增加較多的計算開銷;其次,由于在關(guān)聯(lián)性計算中沒有使用單目標(biāo)跟蹤器功能,因此他們必須訓(xùn)練額外的關(guān)聯(lián)網(wǎng)絡(luò)對此進(jìn)行補救,這進(jìn)一步增加了他們的內(nèi)存需求;最后,單目標(biāo)跟蹤器和親和力模型的獨立特征提取以及復(fù)雜的親和力網(wǎng)絡(luò)設(shè)計,使訓(xùn)練程序變得復(fù)雜。文獻(xiàn)[11]對此進(jìn)行了改進(jìn),提出了一種基于多任務(wù)學(xué)習(xí)的在線多目標(biāo)跟蹤模型(UMA),該模型將基于單目標(biāo)跟蹤的運動模型和親和力網(wǎng)絡(luò)端到端地集成到一個統(tǒng)一的框架中。利用親和力模型可以幫助單目標(biāo)跟蹤器學(xué)習(xí)更多的區(qū)分特征以更好地處理遮擋,從而簡化了訓(xùn)練和測試過程,有效地提高了計算效率。
該類方法對于檢測缺乏的問題有一定的魯棒性,可以通過區(qū)域搜索得到暫時的目標(biāo)定位信息。如果單目標(biāo)跟蹤器自身的定位能力強,那就相當(dāng)于做了額外的檢測,所以其跟蹤性能不錯。缺點是該類方法是針對每個目標(biāo)進(jìn)行依次跟蹤,跟蹤效率太低。
不論是基于檢測的跟蹤,還是基于單目標(biāo)跟蹤器的框架,都是把檢測或單目標(biāo)跟蹤與數(shù)據(jù)關(guān)聯(lián)分開進(jìn)行,要么重點考慮選擇性能更好的檢測器,要么重點研究跟蹤部分,并沒有考慮兩者之間的聯(lián)系。使用聯(lián)合檢測跟蹤框架,一方面好的檢測可以提高跟蹤器的性能,另一方面,跟蹤結(jié)果可以在一定程度上彌補目標(biāo)檢測器的漏檢、錯檢等問題。
文獻(xiàn)[12]訓(xùn)練了具有ResNet-101和特征金字塔網(wǎng)絡(luò)的目標(biāo)檢測器(Faster R-CNN),將目標(biāo)檢測器轉(zhuǎn)換為跟蹤器(Tracktor++)并利用上一幀中的目標(biāo)邊界框回歸目標(biāo)在當(dāng)前幀中的位置,當(dāng)出現(xiàn)遮擋或分類分?jǐn)?shù)低于閾值時認(rèn)為軌跡終止,否則繼續(xù)。新目標(biāo)的產(chǎn)生是根據(jù)檢測結(jié)果與已有軌跡的交并比(小于閾值)來創(chuàng)建,算法思想,如圖2所示。除此之外,為了減少幀間身份切換次數(shù),他們還對跟蹤器進(jìn)行了拓展,一方面是運動模型部分,應(yīng)用相機運動補償(CMC)和恒定速度假設(shè)(CVC)分別來解決大幅度的相機運動和視頻的低幀率問題;另一方面利用外觀模型,針對重新出現(xiàn)的目標(biāo)使用孿生網(wǎng)絡(luò)進(jìn)行重識別。實驗表明,在Faster RCNN、DPM和SDP三種不同檢測器的輸入下,跟蹤性能差距不大,所以該算法對于平衡檢測的輸入效果提升很大。
圖2 Tracktor++算法思想Fig.2 The Algorithm Idea of Tracktor++
在此跟蹤框架基礎(chǔ)上,文獻(xiàn)[13]通過將Faster R-CNN 換成CenterNet[14]實現(xiàn)跟蹤,因此跟蹤的邊界框也就變成了跟蹤邊界框的中心點?;谶吔缈虻臋z測器會列舉出潛在目標(biāo)的所有位置,并對每個目標(biāo)進(jìn)行分類以及后處理?;谥行狞c(CenterNet)的方法與Tracktor++相比,是端到端的,更簡單快速準(zhǔn)確。他們訓(xùn)練檢測器以輸出從當(dāng)前目標(biāo)中心點到前一幀中心點的偏移矢量,僅基于此預(yù)測偏移量與前一幀中檢測到的中心點之間的距離進(jìn)行的貪心匹配就足以實現(xiàn)目標(biāo)對象關(guān)聯(lián)。為了結(jié)構(gòu)簡單,當(dāng)一個目標(biāo)離開圖像或被遮擋并重新出現(xiàn)時,將為其分配新的標(biāo)識,即不考慮重識別部分?;谳p量級架構(gòu),此跟蹤器可以實時運行并且跟蹤性能比較好。
該類方法把檢測和跟蹤整合到統(tǒng)一框架,可以利用檢測與跟蹤相輔相成,實現(xiàn)更好的跟蹤結(jié)果。但是該類方法并不能很好的應(yīng)對遮擋帶來的問題,其身份切換次數(shù)比較高、漂移問題嚴(yán)重。
公開數(shù)據(jù)集和評價指標(biāo)對于推動計算機視覺的發(fā)展非常重要,同樣對于推動多目標(biāo)跟蹤的發(fā)展也具有十分重要的意義。本節(jié)主要介紹了多目標(biāo)跟蹤領(lǐng)域的常見數(shù)據(jù)集和評價指標(biāo),并對上文提到的方法進(jìn)行性能比對。
(1)多目標(biāo)跟蹤挑戰(zhàn)(MOT Challenge)是最常用的多目標(biāo)跟蹤基準(zhǔn),它為行人跟蹤提供了目前公開的一些最大的數(shù)據(jù)集。對于每個數(shù)據(jù)集,提供真實標(biāo)注信息并劃分訓(xùn)練集和測試集。多目標(biāo)跟蹤挑戰(zhàn)為大部分?jǐn)?shù)據(jù)集提供檢測,這樣研究者可以只專注于提升跟蹤性能,并且為研究者提供測試平臺。
MOT15[15]:全稱為2D MOT 2015,它包含22個視頻,其中11個用于訓(xùn)練,11個用于測試。收集在固定或移動攝像機拍攝、不同的環(huán)境和照明條件等情況下的各類視頻。它總共包含11283個不同分辨率的幀,1221個不同的標(biāo)識和101345個檢測框。
MOT16:具有更大的行人密度,視頻也更具有挑戰(zhàn)性。數(shù)據(jù)集中總共包含14個視頻,其中7個用于訓(xùn)練,7個用于測試。這次數(shù)據(jù)集包含11235幀,1342個標(biāo)識,總共292733個檢測框。
MOT17[16]:與MOT16 具有相同的視頻,但具有更準(zhǔn)確的標(biāo)記,并且每個視頻有三組檢測:一組來自Faster R-CNN,一組來自DPM,一組來自SDP。使用三個檢測器提供的結(jié)果更加準(zhǔn)確,也是現(xiàn)在主要使用的數(shù)據(jù)集。
MOT20[17]:具有極大的行人密度,包含8個視頻(4個用于訓(xùn)練,4個用于測試),該數(shù)據(jù)集包含13410幀、6869個軌跡(標(biāo)識)和2259143個檢測框,比以前的數(shù)據(jù)集多得多。
多目標(biāo)跟蹤與分割(MOTS)[18]:該數(shù)據(jù)集將多目標(biāo)跟蹤任務(wù)擴(kuò)展到實例分割跟蹤,使用半自動標(biāo)注程序在兩個現(xiàn)有的跟蹤數(shù)據(jù)集(MOT Challenge 和KITTI)上創(chuàng)建了密集的像素級的標(biāo)注。新標(biāo)注包含了10870個視頻幀、977個不同對象(汽車和行人)以及65,213個像素掩碼。
跟蹤任何目標(biāo)(TAO)[19]:多目標(biāo)跟蹤領(lǐng)域的類別往往來自自動駕駛和視頻監(jiān)控中特定的幾種對象(車輛、行人、動物等),從而忽略了現(xiàn)實世界的大多數(shù)物體。于是為了改變多目標(biāo)跟蹤的現(xiàn)狀,TAO數(shù)據(jù)集可以跟蹤任何對象。該數(shù)據(jù)集包含2907個不同環(huán)境的高清視頻。每段視頻平均長度半分鐘,包含833個對象類別。
(2)KITTI數(shù)據(jù)集
多目標(biāo)跟蹤挑戰(zhàn)數(shù)據(jù)集重點關(guān)注行人跟蹤,KITTI數(shù)據(jù)集[20]關(guān)注于人和車輛的跟蹤。該數(shù)據(jù)集由21個訓(xùn)練序列和29個測試序列組成,總共約19000幀(32分鐘),于2012年發(fā)布。它們由安裝在行駛汽車上的攝像機收集,包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù),每張圖像中最多達(dá)15輛車和30個行人,還有各種程度的遮擋。
(3)nuScenes數(shù)據(jù)集
nuScenes[21]數(shù)據(jù)集是于2019 年發(fā)布的大型自動駕駛數(shù)據(jù)集,有1000多個場景,其中包含140萬幅圖像、40萬次激光雷達(dá)掃描(判斷物體之間距離)和110萬個三維邊界框。該數(shù)據(jù)集使用了6個攝像頭、1個激光雷達(dá)、5個毫米波雷達(dá)、GPS及慣導(dǎo)系統(tǒng)在內(nèi)的多個傳感器進(jìn)行獲取,包括對于自動駕駛系統(tǒng)有挑戰(zhàn)性的復(fù)雜道路、天氣條件等。
(4)BLVD數(shù)據(jù)集
BLVD 數(shù)據(jù)集[22]由西安交通大學(xué)夸父號無人車采集。采集車上裝載多種傳感器用于周圍感知,包括一個三維激光雷達(dá)、一個全球定位系統(tǒng)(GPS)及慣性導(dǎo)航系統(tǒng)、兩個高分辨率多視點相機。該數(shù)據(jù)集定義了三種參與者,包括車輛、行人和騎行者,其中騎行者包括騎自行車的人和摩托車的人。BLVD一共標(biāo)注654個包含12 萬幀的序列。根據(jù)標(biāo)注場景中交通參與者的密集程度(低和高)和光照條件(白天和晚上),BLVD包含四種場景。
為了評估MOT算法的性能,主要使用兩組評價指標(biāo):VACE指標(biāo)[23]和CLEAR MOT 指標(biāo)[24]。前者從不同的方面描述單個指標(biāo),包括虛警(FP)、漏警(FN)、大部分成功跟蹤的目標(biāo)數(shù)(MT)、大部分丟失的目標(biāo)數(shù)(ML)、身份切換數(shù)(IDS)和軌跡碎片數(shù)(Frag);后者旨在衡量所有預(yù)測軌跡的整體性能,主要包括多目標(biāo)跟蹤準(zhǔn)確度(MOTA)和多目標(biāo)跟蹤精度(MOTP)。在上述所有的評價指標(biāo)中MOTA考慮了各種可能的跟蹤錯誤,所以使用其作為重要的評價指標(biāo)。它的定義如下:
式中:GT—真實標(biāo)記框的數(shù)量。
鑒于不同的跟蹤器采用不同的數(shù)據(jù)集進(jìn)行評估,我們把上文提到的算法分別在MOT15 和MOT17 挑戰(zhàn)數(shù)據(jù)集上進(jìn)行性能比較,如表1、表2所示。其中,考慮了額外的指標(biāo)IDF1[25],以更好地表示跟蹤的準(zhǔn)確性?!硎緮?shù)值越大性能越好,↓表示數(shù)值越小性能越好。
表1 在MOT15數(shù)據(jù)集上的實驗結(jié)果Tab.1 Experimental Results on the MOT15 Dataset
表2 在MOT17數(shù)據(jù)集上的實驗結(jié)果Tab.2 Experimental Results on the MOT17 Dataset
從實驗結(jié)果可以看出,基于深度特征的跟蹤方法—FairMOT取得了最好的MOTA結(jié)果,但是該類的其他方法的效果并不好,說明FairMOT算法使用的無錨框的檢測算法(CenterNet)性能更好,更適用于多目標(biāo)跟蹤。這點從同樣使用該檢測算法的Cen‐terTrack的實驗結(jié)果就可以看出。與此同時,F(xiàn)airMOT的IDSW值并不小,說明一步法相對于兩步法還是存在很大的不足。但從大類上看,聯(lián)合在線檢測跟蹤的算法總體性能比較好,普遍優(yōu)于其他算法,說明檢測器的性能對跟蹤結(jié)果影響深遠(yuǎn),也進(jìn)一步說明了計算機視覺領(lǐng)域各個任務(wù)之間是相互影響的。端到端數(shù)據(jù)關(guān)聯(lián)的算法中,基于全局優(yōu)化的NeuralSolver 表現(xiàn)出色,其IDSW 值很小,說明利用整體信息的方式與在線跟蹤相比,可以獲取更多特征信息?;趩文繕?biāo)跟蹤器的STAM 在Frag 和IDSW也取得較小的值,說明引入的時空注意力機制有效的緩解遮擋帶來的影響。
基于對以上四類多目標(biāo)跟蹤算法的分析比對,提出以后的研究展望。
目前大多數(shù)數(shù)據(jù)集是基于交通環(huán)境中行人和車輛的跟蹤研究,對于其他類別的跟蹤研究少之又少。改變多目標(biāo)跟蹤現(xiàn)狀,提出包含更多類別的多目標(biāo)跟蹤數(shù)據(jù)集至關(guān)重要。
除了增加類別外,現(xiàn)有的跟蹤器遠(yuǎn)沒有足夠的標(biāo)記數(shù)據(jù)集來訓(xùn)練滿意的模型以在所有條件下進(jìn)行跟蹤,所以如何對數(shù)據(jù)集進(jìn)行大量準(zhǔn)確豐富的標(biāo)記來輔助跟蹤器進(jìn)行跟蹤是個巨大挑戰(zhàn)。
綜上,創(chuàng)建標(biāo)注全面、類別豐富的多目標(biāo)跟蹤數(shù)據(jù)集是該領(lǐng)域的一個重點研究方向。
目標(biāo)檢測作為多目標(biāo)跟蹤組成部分的第一環(huán)節(jié),其性能對跟蹤結(jié)果有巨大影響。雖然目標(biāo)檢測領(lǐng)域已經(jīng)取得巨大成功(Cen‐terNet等),但是針對于多目標(biāo)跟蹤領(lǐng)域的檢測還需要進(jìn)一步發(fā)展。漏警影響著MOTA的得分,使用更高質(zhì)量的檢測器仍然是減少漏警的最有效方法,也是多目標(biāo)跟蹤需要進(jìn)一步探索的方向。
利用深度神經(jīng)網(wǎng)路提取的深度特征代替?zhèn)鹘y(tǒng)手工特征來進(jìn)行跟蹤,對跟蹤性能有很大提升。同樣,把深度學(xué)習(xí)應(yīng)用到跟蹤的其他部分,像匹配矩陣的計算、注意力機制的加入等,也推進(jìn)了多目標(biāo)跟蹤領(lǐng)域的發(fā)展。但是由于深度學(xué)習(xí)的計算量過大,一方面會導(dǎo)致計算速度慢并使跟蹤達(dá)不到實時速度,另一方面需要計算性能更好的設(shè)備。所以繼續(xù)推進(jìn)深度學(xué)習(xí)在多目標(biāo)跟蹤領(lǐng)域的發(fā)展并提高計算速度也是未來需要深入研究的重點。
多目標(biāo)跟蹤對于智能監(jiān)控、人機交互、虛擬現(xiàn)實、自動駕駛汽車以及人群行為分析具有巨大的實用價值。詳細(xì)分析了深度學(xué)習(xí)的多目標(biāo)跟蹤的研究進(jìn)展,并根據(jù)不同的跟蹤框架和網(wǎng)絡(luò)結(jié)構(gòu),將其分為基于深度特征、基于端到端數(shù)據(jù)關(guān)聯(lián)、基于單目標(biāo)跟蹤器擴(kuò)展和聯(lián)合檢測跟蹤的四類方法,綜合分析其跟蹤原理、性能特點以及優(yōu)缺點。預(yù)測多目標(biāo)跟蹤的發(fā)展趨勢和研究方向,對其進(jìn)一步研究具有建設(shè)性意義。隨著深度學(xué)習(xí)的深入發(fā)展以及硬件系統(tǒng)計算性能的提升,多目標(biāo)跟蹤的研究和應(yīng)用將會呈現(xiàn)更美好的前景。