深度學(xué)習(xí)的多目標(biāo)跟蹤研究進(jìn)展

2024-02-29 09:24張紅艷黃宏博何嘉玉

機械設(shè)計與制造 2024年2期

張紅艷，黃宏博，2，何嘉玉

（1.北京信息科技大學(xué)計算機學(xué)院，北京 100101；2.北京信息科技大學(xué)計算智能研究所，北京 100192）

1 引言

多目標(biāo)跟蹤是對于給定的視頻序列，找到每一幀圖像中的運動目標(biāo)，在連續(xù)視頻幀中對同一個目標(biāo)分配相同的身份標(biāo)識號（ID），從而形成不同物體各自的運動軌跡。這些物體可以是任意的，如行人、車輛、運動員、動物以及足球等無生命物體。多目標(biāo)跟蹤在智能監(jiān)控［1］、人機交互、虛擬現(xiàn)實、自動駕駛汽車［2］以及人群行為分析等領(lǐng)域都有許多實際應(yīng)用價值。但是多目標(biāo)跟蹤也面臨著一系列挑戰(zhàn)，主要有：（1）目標(biāo)種類繁多且復(fù)雜多變；（2）新目標(biāo)的產(chǎn)生和舊目標(biāo)的消失；（3）目標(biāo)的數(shù)量未知；（4）遮擋以及目標(biāo)之間的相互遮擋；（5）跟蹤的物體消失一段時間后重新出現(xiàn)；（6）不同的目標(biāo)擁有相似的外觀；（7）背景干擾；（8）物體形變；（9）光照變化；（10）不同幀中同一目標(biāo)身份切換次數(shù)過高，等等。解決這些問題對多目標(biāo)跟蹤的發(fā)展以及視頻結(jié)構(gòu)化和視頻語義理解有著重要的意義。

在大數(shù)據(jù)時代背景下，隨著計算機算力的提高和深度學(xué)習(xí)的發(fā)展，基于深度學(xué)習(xí)的圖像處理方法變得越來越流行。并且隨著更深的網(wǎng)絡(luò)結(jié)構(gòu)和更大量的數(shù)據(jù)應(yīng)用，使用深度學(xué)習(xí)的多目標(biāo)跟蹤器性能也變得更好?；谏疃葘W(xué)習(xí)的多目標(biāo)跟蹤算法主要采用兩個步驟：目標(biāo)檢測和數(shù)據(jù)關(guān)聯(lián)，即首先通過目標(biāo)檢測在視頻的每個幀中檢測感興趣的對象，然后通過數(shù)據(jù)關(guān)聯(lián)在不同幀中在檢測到的對象之間建立對應(yīng)關(guān)系以獲得最終的運動軌跡。目標(biāo)檢測可以根據(jù)目標(biāo)跟蹤的速度和精度等性能要求選用適當(dāng)?shù)臋z測器來實現(xiàn)。數(shù)據(jù)關(guān)聯(lián)的實現(xiàn)過程比較復(fù)雜，包括很多組件，其中有：（1）特征提??；（2）親和度/匹配成本計算；（3）標(biāo)識號匹配。針對深度學(xué)習(xí)在跟蹤框架中的應(yīng)用以及深度網(wǎng)絡(luò)結(jié)構(gòu)的不同，將多目標(biāo)跟蹤分為四類，并在此基礎(chǔ)上對未來的發(fā)展趨勢與前景進(jìn)行深入探討。

2 使用深度學(xué)習(xí)的多目標(biāo)跟蹤方法

2.1 基于深度特征的多目標(biāo)跟蹤方法

深度神經(jīng)網(wǎng)絡(luò)具有強大的學(xué)習(xí)能力，具體體現(xiàn)在特征提?。?］方面，其提取的深度特征具有更豐富、更抽象的語義信息。這些特征可以應(yīng)用在圖像分類和目標(biāo)檢測等計算機視覺子方向，并極大促進(jìn)了這些領(lǐng)域的發(fā)展。使用深度特征代替?zhèn)鹘y(tǒng)的手工特征可以有效的提高多目標(biāo)跟蹤的性能。

文獻(xiàn)［4］使用深度學(xué)習(xí)的方法提出了DeepSORT。該算法使用自定義殘差網(wǎng)絡(luò)在行人重識別數(shù)據(jù)集上進(jìn)行訓(xùn)練，提取深度外觀特征并映射到一個超球面。接著使用這些特征來計算檢測目標(biāo)與跟蹤目標(biāo)之間的最小余弦距離。在關(guān)聯(lián)階段，利用卡爾曼濾波得到的跟蹤預(yù)測框與當(dāng)前幀的檢測框之間的馬氏距離和余弦距離的線性加權(quán)作為關(guān)聯(lián)度量并計算成本矩陣，隨后使用級聯(lián)匹配將跟蹤預(yù)測框和檢測框進(jìn)行配對。這種簡潔的跟蹤方法既融合了運動信息又考慮了外觀信息，可以在保持實時速度的同時獲得較高的多目標(biāo)跟蹤準(zhǔn)確度（MOTA），并且可以有效減少遮擋問題帶來的影響。

文獻(xiàn)［5］認(rèn)為DeepSORT 把目標(biāo)檢測與重識別特征提取作為兩個獨立任務(wù)（兩步法）進(jìn)行，不僅沒有特征共享而且時間利用率低。所以他們提出了一種新的跟蹤基準(zhǔn)（FairMOT）—把目標(biāo)檢測與重識別特征提取兩個任務(wù)聯(lián)合起來，稱為一步法。輸入的圖像幀首先經(jīng)過多尺度融合網(wǎng)絡(luò)提取特征，解決目標(biāo)尺度不同的問題，然后輸出高分辨率特征圖。接著把特征圖送人目標(biāo)檢測重識別網(wǎng)絡(luò)兩個并行分支。后續(xù)關(guān)聯(lián)階段與DeepSORT采用的方法一致。實驗證明，最終結(jié)果達(dá)到了最好的跟蹤性能，而且相對于兩步法速度更快。

該類方法利用深度特征進(jìn)行跟蹤，可以有效地減少遮擋帶來的身份切換次數(shù)，并且在數(shù)據(jù)關(guān)聯(lián)階段使用卡爾曼濾波加匈牙利算法結(jié)合的方式，有效地提高了跟蹤效率。缺點是僅在外觀方面使用深度特征并不能完全代表目標(biāo)，影響跟蹤精度。

2.2 基于端到端的數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤方法

深度學(xué)習(xí)不僅可以應(yīng)用于特征提取，還可用于數(shù)據(jù)關(guān)聯(lián)的其他部分。多目標(biāo)跟蹤框架中存在很多相互影響的模塊，包括軌跡歷史信息與當(dāng)前檢測之間的匹配、更新跟蹤目標(biāo)的狀態(tài)以及管理目標(biāo)軌跡的開始與結(jié)束等關(guān)鍵子模塊，如何在一個整體框架中實現(xiàn)這些子模塊并實現(xiàn)好的跟蹤效果。近年來，不少研究人員通過簡化跟蹤過程，提出了以端到端數(shù)據(jù)關(guān)聯(lián)的方式來實現(xiàn)上述目標(biāo)。

在在線多目標(biāo)跟蹤框架中，可以使用由預(yù)測和觀測值更新組成的貝葉斯濾波器估計被跟蹤對象的狀態(tài)。文獻(xiàn)［6］將循環(huán)神經(jīng)網(wǎng)絡(luò)擴(kuò)展為對這些過程進(jìn)行建模，模擬貝葉斯濾波算法。該算法主要由三部分組成，分別是運動預(yù)測、匹配以及管理軌跡的起止，并且使用循環(huán)神經(jīng)網(wǎng)絡(luò)完成全部過程。盡管跟蹤結(jié)果有提高，但實際多目標(biāo)跟蹤評估數(shù)據(jù)集中的跟蹤結(jié)果并沒有達(dá)到最高精度，原因有如下兩點：（1）此方法僅考慮運動特征；（2）啟動和終止軌跡沒有考慮對目標(biāo)關(guān)聯(lián)有重要作用的上下文特征。

為了解決這些問題，文獻(xiàn)［7］設(shè)計了一個分層的深度網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)包含三個子長短期記憶網(wǎng)絡(luò)，分別用來預(yù)測長期運動特征、提取外觀特征和上下文特征。然后這些特征被串聯(lián)起來，并送入到最高級長短期記憶網(wǎng)絡(luò)，用來計算檢測結(jié)果與已有軌跡之間的親和度矩陣。為了學(xué)習(xí)這種分層結(jié)構(gòu)，三個子網(wǎng)絡(luò)首先經(jīng)過預(yù)訓(xùn)練，然后從頂部的長短期記憶網(wǎng)絡(luò)進(jìn)行微調(diào)。因此，該方法實現(xiàn)了整個網(wǎng)絡(luò)結(jié)構(gòu)端到端的訓(xùn)練學(xué)習(xí)。實驗結(jié)果表明，同時考慮運動和外觀特征比僅使用運動特征更強大，并且還可以實現(xiàn)最新的人員重識別任務(wù)性能。

在全局優(yōu)化的多目標(biāo)跟蹤中，跟蹤被視為檢測集的最佳分區(qū)，可以使用概率圖、網(wǎng)絡(luò)流等在整個檢測范圍內(nèi)進(jìn)行全局推理使最終的關(guān)聯(lián)代價總和最小。文獻(xiàn)［8］提出了一個基于信息傳遞網(wǎng)絡(luò)的多目標(biāo)跟蹤器，利用問題的自然圖結(jié)構(gòu)來同時執(zhí)行特征學(xué)習(xí)和結(jié)果預(yù)測。其具體跟蹤流程為：首先是圖的構(gòu)建，節(jié)點對應(yīng)視頻的檢測，邊對應(yīng)檢測之間的連接；其次是特征編碼包括外觀特征與幾何特征；然后是神經(jīng)信息傳遞，節(jié)點與鄰邊分享外觀信息，邊與伴隨節(jié)點分享特征信息；最后對圖中的每條邊引入了一個二元變量，判斷該邊是否被激活。實驗證明，離線圖在全局范圍內(nèi)進(jìn)行跟蹤，相對于在線跟蹤，可以得到更準(zhǔn)確的結(jié)果。

端到端的數(shù)據(jù)關(guān)聯(lián)減輕手工設(shè)計成本，無需人工調(diào)參，靈活性好，并且在在線跟蹤中，相對于卷積神經(jīng)網(wǎng)絡(luò)僅能提供空間信息，使用循環(huán)神經(jīng)網(wǎng)絡(luò)還可以處理時序信息更適用于多目標(biāo)跟蹤。在離線跟蹤中，使用端到端的全局推理可以得到更準(zhǔn)確的跟蹤結(jié)果。但該類方法對硬件要求高，運行速度低。

2.3 基于單目標(biāo)跟蹤器擴(kuò)展的多目標(biāo)跟蹤方法

上述多目標(biāo)跟蹤方法主要采用基于檢測跟蹤的策略，并通過使用數(shù)據(jù)關(guān)聯(lián)算法進(jìn)行跨幀鏈接檢測來處理任務(wù)。但是，這些方法嚴(yán)重依賴于檢測結(jié)果的質(zhì)量。如果檢測丟失或不準(zhǔn)確，則容易丟失目標(biāo)對象。隨著單目標(biāo)跟蹤器的不斷完善，研究人員提出了一種基于單目標(biāo)跟蹤器擴(kuò)展的多目標(biāo)跟蹤流程，可以緩解多目標(biāo)跟蹤中由于遮擋、檢測器性能不好導(dǎo)致的目標(biāo)丟失等情況，增強跟蹤魯棒性。

文獻(xiàn)［9］提出了一個基于單目標(biāo)跟蹤的在線多目標(biāo)跟蹤框架（STAM），如圖1所示。該框架使用卷積神經(jīng)網(wǎng)路學(xué)習(xí)強大的辨別性外觀模型，利用單個對象跟蹤器的優(yōu)點來調(diào)整外觀模型并在下一幀中搜索目標(biāo)，每個目標(biāo)分配一個單目標(biāo)跟蹤器。但是直接將單目標(biāo)跟蹤應(yīng)用于多目標(biāo)跟蹤會因為遮擋導(dǎo)致漂移，針對這個問題，他們引入了時空注意力模型機制。時間注意力機制使用加權(quán)損失函數(shù)來更新模型參數(shù)，使得被遮擋越嚴(yán)重的樣本對損失函數(shù)的影響越小?？臻g注意力機制對樣本的空間特征進(jìn)行加權(quán)，更加關(guān)注未被遮擋目標(biāo)區(qū)域的特征，使得分類器的輸出結(jié)果更加準(zhǔn)確。除了目標(biāo)之間的相互遮擋會造成跟蹤漂移，還有當(dāng)出現(xiàn)和目標(biāo)相似的干擾時也會引起漂移，出現(xiàn)這種現(xiàn)象的原因主要是訓(xùn)練樣本的數(shù)據(jù)不平衡導(dǎo)致單目標(biāo)跟蹤器學(xué)不到可區(qū)分性特征。

圖1 STAM算法結(jié)構(gòu)Fig.1 Structure of STAM Algorithm

為了減輕數(shù)據(jù)不平衡，文獻(xiàn)［10］基于最新的單目標(biāo)跟蹤器（ECO）引入一種新的成本敏感損失函數(shù)使處于目標(biāo)附近的難樣本的懲罰權(quán)重變大。除此之外，還加入了數(shù)據(jù)關(guān)聯(lián)部分來協(xié)助單目標(biāo)跟蹤器。首先應(yīng)用單目標(biāo)跟蹤器來跟蹤每個目標(biāo)，直到跟蹤結(jié)果變得不可靠（例如，跟蹤得分低或跟蹤結(jié)果與檢測結(jié)果不一致）時，目標(biāo)被視為丟失。接著掛起跟蹤器并執(zhí)行數(shù)據(jù)關(guān)聯(lián)來計算軌跡與檢測之間的匹配概率。一旦丟失的目標(biāo)通過數(shù)據(jù)關(guān)聯(lián)連接到檢測，將更新狀態(tài)并恢復(fù)跟蹤過程。雖然該跟蹤器取得了不錯的性能，但是仍存在一些問題：首先，從兩個單獨的模型中提取用于單目標(biāo)跟蹤器和親和力度量的功能，這會增加較多的計算開銷；其次，由于在關(guān)聯(lián)性計算中沒有使用單目標(biāo)跟蹤器功能，因此他們必須訓(xùn)練額外的關(guān)聯(lián)網(wǎng)絡(luò)對此進(jìn)行補救，這進(jìn)一步增加了他們的內(nèi)存需求；最后，單目標(biāo)跟蹤器和親和力模型的獨立特征提取以及復(fù)雜的親和力網(wǎng)絡(luò)設(shè)計，使訓(xùn)練程序變得復(fù)雜。文獻(xiàn)［11］對此進(jìn)行了改進(jìn)，提出了一種基于多任務(wù)學(xué)習(xí)的在線多目標(biāo)跟蹤模型（UMA），該模型將基于單目標(biāo)跟蹤的運動模型和親和力網(wǎng)絡(luò)端到端地集成到一個統(tǒng)一的框架中。利用親和力模型可以幫助單目標(biāo)跟蹤器學(xué)習(xí)更多的區(qū)分特征以更好地處理遮擋，從而簡化了訓(xùn)練和測試過程，有效地提高了計算效率。

該類方法對于檢測缺乏的問題有一定的魯棒性，可以通過區(qū)域搜索得到暫時的目標(biāo)定位信息。如果單目標(biāo)跟蹤器自身的定位能力強，那就相當(dāng)于做了額外的檢測，所以其跟蹤性能不錯。缺點是該類方法是針對每個目標(biāo)進(jìn)行依次跟蹤，跟蹤效率太低。

2.4 聯(lián)合在線檢測與跟蹤的多目標(biāo)跟蹤方法

不論是基于檢測的跟蹤，還是基于單目標(biāo)跟蹤器的框架，都是把檢測或單目標(biāo)跟蹤與數(shù)據(jù)關(guān)聯(lián)分開進(jìn)行，要么重點考慮選擇性能更好的檢測器，要么重點研究跟蹤部分，并沒有考慮兩者之間的聯(lián)系。使用聯(lián)合檢測跟蹤框架，一方面好的檢測可以提高跟蹤器的性能，另一方面，跟蹤結(jié)果可以在一定程度上彌補目標(biāo)檢測器的漏檢、錯檢等問題。

文獻(xiàn)［12］訓(xùn)練了具有ResNet-101和特征金字塔網(wǎng)絡(luò)的目標(biāo)檢測器（Faster R-CNN），將目標(biāo)檢測器轉(zhuǎn)換為跟蹤器（Tracktor++）并利用上一幀中的目標(biāo)邊界框回歸目標(biāo)在當(dāng)前幀中的位置，當(dāng)出現(xiàn)遮擋或分類分?jǐn)?shù)低于閾值時認(rèn)為軌跡終止，否則繼續(xù)。新目標(biāo)的產(chǎn)生是根據(jù)檢測結(jié)果與已有軌跡的交并比（小于閾值）來創(chuàng)建，算法思想，如圖2所示。除此之外，為了減少幀間身份切換次數(shù)，他們還對跟蹤器進(jìn)行了拓展，一方面是運動模型部分，應(yīng)用相機運動補償（CMC）和恒定速度假設(shè)（CVC）分別來解決大幅度的相機運動和視頻的低幀率問題；另一方面利用外觀模型，針對重新出現(xiàn)的目標(biāo)使用孿生網(wǎng)絡(luò)進(jìn)行重識別。實驗表明，在Faster RCNN、DPM和SDP三種不同檢測器的輸入下，跟蹤性能差距不大，所以該算法對于平衡檢測的輸入效果提升很大。

圖2 Tracktor++算法思想Fig.2 The Algorithm Idea of Tracktor++

在此跟蹤框架基礎(chǔ)上，文獻(xiàn)［13］通過將Faster R-CNN 換成CenterNet［14］實現(xiàn)跟蹤，因此跟蹤的邊界框也就變成了跟蹤邊界框的中心點?；谶吔缈虻臋z測器會列舉出潛在目標(biāo)的所有位置，并對每個目標(biāo)進(jìn)行分類以及后處理?；谥行狞c（CenterNet）的方法與Tracktor++相比，是端到端的，更簡單快速準(zhǔn)確。他們訓(xùn)練檢測器以輸出從當(dāng)前目標(biāo)中心點到前一幀中心點的偏移矢量，僅基于此預(yù)測偏移量與前一幀中檢測到的中心點之間的距離進(jìn)行的貪心匹配就足以實現(xiàn)目標(biāo)對象關(guān)聯(lián)。為了結(jié)構(gòu)簡單，當(dāng)一個目標(biāo)離開圖像或被遮擋并重新出現(xiàn)時，將為其分配新的標(biāo)識，即不考慮重識別部分?；谳p量級架構(gòu)，此跟蹤器可以實時運行并且跟蹤性能比較好。

該類方法把檢測和跟蹤整合到統(tǒng)一框架，可以利用檢測與跟蹤相輔相成，實現(xiàn)更好的跟蹤結(jié)果。但是該類方法并不能很好的應(yīng)對遮擋帶來的問題，其身份切換次數(shù)比較高、漂移問題嚴(yán)重。

3 算法性能比對

公開數(shù)據(jù)集和評價指標(biāo)對于推動計算機視覺的發(fā)展非常重要，同樣對于推動多目標(biāo)跟蹤的發(fā)展也具有十分重要的意義。本節(jié)主要介紹了多目標(biāo)跟蹤領(lǐng)域的常見數(shù)據(jù)集和評價指標(biāo)，并對上文提到的方法進(jìn)行性能比對。

3.1 數(shù)據(jù)集

（1）多目標(biāo)跟蹤挑戰(zhàn)（MOT Challenge）是最常用的多目標(biāo)跟蹤基準(zhǔn)，它為行人跟蹤提供了目前公開的一些最大的數(shù)據(jù)集。對于每個數(shù)據(jù)集，提供真實標(biāo)注信息并劃分訓(xùn)練集和測試集。多目標(biāo)跟蹤挑戰(zhàn)為大部分?jǐn)?shù)據(jù)集提供檢測，這樣研究者可以只專注于提升跟蹤性能，并且為研究者提供測試平臺。

MOT15［15］：全稱為2D MOT 2015，它包含22個視頻，其中11個用于訓(xùn)練，11個用于測試。收集在固定或移動攝像機拍攝、不同的環(huán)境和照明條件等情況下的各類視頻。它總共包含11283個不同分辨率的幀，1221個不同的標(biāo)識和101345個檢測框。

MOT16：具有更大的行人密度，視頻也更具有挑戰(zhàn)性。數(shù)據(jù)集中總共包含14個視頻，其中7個用于訓(xùn)練，7個用于測試。這次數(shù)據(jù)集包含11235幀，1342個標(biāo)識，總共292733個檢測框。

MOT17［16］：與MOT16 具有相同的視頻，但具有更準(zhǔn)確的標(biāo)記，并且每個視頻有三組檢測：一組來自Faster R-CNN，一組來自DPM，一組來自SDP。使用三個檢測器提供的結(jié)果更加準(zhǔn)確，也是現(xiàn)在主要使用的數(shù)據(jù)集。

MOT20［17］：具有極大的行人密度，包含8個視頻（4個用于訓(xùn)練，4個用于測試），該數(shù)據(jù)集包含13410幀、6869個軌跡（標(biāo)識）和2259143個檢測框，比以前的數(shù)據(jù)集多得多。

多目標(biāo)跟蹤與分割（MOTS）［18］：該數(shù)據(jù)集將多目標(biāo)跟蹤任務(wù)擴(kuò)展到實例分割跟蹤，使用半自動標(biāo)注程序在兩個現(xiàn)有的跟蹤數(shù)據(jù)集（MOT Challenge 和KITTI）上創(chuàng)建了密集的像素級的標(biāo)注。新標(biāo)注包含了10870個視頻幀、977個不同對象（汽車和行人）以及65，213個像素掩碼。

跟蹤任何目標(biāo)（TAO）［19］：多目標(biāo)跟蹤領(lǐng)域的類別往往來自自動駕駛和視頻監(jiān)控中特定的幾種對象（車輛、行人、動物等），從而忽略了現(xiàn)實世界的大多數(shù)物體。于是為了改變多目標(biāo)跟蹤的現(xiàn)狀，TAO數(shù)據(jù)集可以跟蹤任何對象。該數(shù)據(jù)集包含2907個不同環(huán)境的高清視頻。每段視頻平均長度半分鐘，包含833個對象類別。

（2）KITTI數(shù)據(jù)集

多目標(biāo)跟蹤挑戰(zhàn)數(shù)據(jù)集重點關(guān)注行人跟蹤，KITTI數(shù)據(jù)集［20］關(guān)注于人和車輛的跟蹤。該數(shù)據(jù)集由21個訓(xùn)練序列和29個測試序列組成，總共約19000幀（32分鐘），于2012年發(fā)布。它們由安裝在行駛汽車上的攝像機收集，包含市區(qū)、鄉(xiāng)村和高速公路等場景采集的真實圖像數(shù)據(jù)，每張圖像中最多達(dá)15輛車和30個行人，還有各種程度的遮擋。

（3）nuScenes數(shù)據(jù)集

nuScenes［21］數(shù)據(jù)集是于2019 年發(fā)布的大型自動駕駛數(shù)據(jù)集，有1000多個場景，其中包含140萬幅圖像、40萬次激光雷達(dá)掃描（判斷物體之間距離）和110萬個三維邊界框。該數(shù)據(jù)集使用了6個攝像頭、1個激光雷達(dá)、5個毫米波雷達(dá)、GPS及慣導(dǎo)系統(tǒng)在內(nèi)的多個傳感器進(jìn)行獲取，包括對于自動駕駛系統(tǒng)有挑戰(zhàn)性的復(fù)雜道路、天氣條件等。

（4）BLVD數(shù)據(jù)集

BLVD 數(shù)據(jù)集［22］由西安交通大學(xué)夸父號無人車采集。采集車上裝載多種傳感器用于周圍感知，包括一個三維激光雷達(dá)、一個全球定位系統(tǒng)（GPS）及慣性導(dǎo)航系統(tǒng)、兩個高分辨率多視點相機。該數(shù)據(jù)集定義了三種參與者，包括車輛、行人和騎行者，其中騎行者包括騎自行車的人和摩托車的人。BLVD一共標(biāo)注654個包含12 萬幀的序列。根據(jù)標(biāo)注場景中交通參與者的密集程度（低和高）和光照條件（白天和晚上），BLVD包含四種場景。

3.2 評價指標(biāo)

為了評估MOT算法的性能，主要使用兩組評價指標(biāo)：VACE指標(biāo)［23］和CLEAR MOT 指標(biāo)［24］。前者從不同的方面描述單個指標(biāo)，包括虛警（FP）、漏警（FN）、大部分成功跟蹤的目標(biāo)數(shù)（MT）、大部分丟失的目標(biāo)數(shù)（ML）、身份切換數(shù)（IDS）和軌跡碎片數(shù)（Frag）；后者旨在衡量所有預(yù)測軌跡的整體性能，主要包括多目標(biāo)跟蹤準(zhǔn)確度（MOTA）和多目標(biāo)跟蹤精度（MOTP）。在上述所有的評價指標(biāo)中MOTA考慮了各種可能的跟蹤錯誤，所以使用其作為重要的評價指標(biāo)。它的定義如下：

式中：GT—真實標(biāo)記框的數(shù)量。

3.3 實驗對比

鑒于不同的跟蹤器采用不同的數(shù)據(jù)集進(jìn)行評估，我們把上文提到的算法分別在MOT15 和MOT17 挑戰(zhàn)數(shù)據(jù)集上進(jìn)行性能比較，如表1、表2所示。其中，考慮了額外的指標(biāo)IDF1［25］，以更好地表示跟蹤的準(zhǔn)確性?！硎緮?shù)值越大性能越好，↓表示數(shù)值越小性能越好。

表1 在MOT15數(shù)據(jù)集上的實驗結(jié)果Tab.1 Experimental Results on the MOT15 Dataset

表2 在MOT17數(shù)據(jù)集上的實驗結(jié)果Tab.2 Experimental Results on the MOT17 Dataset

從實驗結(jié)果可以看出，基于深度特征的跟蹤方法—FairMOT取得了最好的MOTA結(jié)果，但是該類的其他方法的效果并不好，說明FairMOT算法使用的無錨框的檢測算法（CenterNet）性能更好，更適用于多目標(biāo)跟蹤。這點從同樣使用該檢測算法的Cen‐terTrack的實驗結(jié)果就可以看出。與此同時，F(xiàn)airMOT的IDSW值并不小，說明一步法相對于兩步法還是存在很大的不足。但從大類上看，聯(lián)合在線檢測跟蹤的算法總體性能比較好，普遍優(yōu)于其他算法，說明檢測器的性能對跟蹤結(jié)果影響深遠(yuǎn)，也進(jìn)一步說明了計算機視覺領(lǐng)域各個任務(wù)之間是相互影響的。端到端數(shù)據(jù)關(guān)聯(lián)的算法中，基于全局優(yōu)化的NeuralSolver 表現(xiàn)出色，其IDSW 值很小，說明利用整體信息的方式與在線跟蹤相比，可以獲取更多特征信息?；趩文繕?biāo)跟蹤器的STAM 在Frag 和IDSW也取得較小的值，說明引入的時空注意力機制有效的緩解遮擋帶來的影響。

4 研究展望

基于對以上四類多目標(biāo)跟蹤算法的分析比對，提出以后的研究展望。

4.1 數(shù)據(jù)集的完善

目前大多數(shù)數(shù)據(jù)集是基于交通環(huán)境中行人和車輛的跟蹤研究，對于其他類別的跟蹤研究少之又少。改變多目標(biāo)跟蹤現(xiàn)狀，提出包含更多類別的多目標(biāo)跟蹤數(shù)據(jù)集至關(guān)重要。

除了增加類別外，現(xiàn)有的跟蹤器遠(yuǎn)沒有足夠的標(biāo)記數(shù)據(jù)集來訓(xùn)練滿意的模型以在所有條件下進(jìn)行跟蹤，所以如何對數(shù)據(jù)集進(jìn)行大量準(zhǔn)確豐富的標(biāo)記來輔助跟蹤器進(jìn)行跟蹤是個巨大挑戰(zhàn)。

綜上，創(chuàng)建標(biāo)注全面、類別豐富的多目標(biāo)跟蹤數(shù)據(jù)集是該領(lǐng)域的一個重點研究方向。

4.2 目標(biāo)檢測算法性能的提升

目標(biāo)檢測作為多目標(biāo)跟蹤組成部分的第一環(huán)節(jié)，其性能對跟蹤結(jié)果有巨大影響。雖然目標(biāo)檢測領(lǐng)域已經(jīng)取得巨大成功（Cen‐terNet等），但是針對于多目標(biāo)跟蹤領(lǐng)域的檢測還需要進(jìn)一步發(fā)展。漏警影響著MOTA的得分，使用更高質(zhì)量的檢測器仍然是減少漏警的最有效方法，也是多目標(biāo)跟蹤需要進(jìn)一步探索的方向。

4.3 深度學(xué)習(xí)的應(yīng)用

利用深度神經(jīng)網(wǎng)路提取的深度特征代替?zhèn)鹘y(tǒng)手工特征來進(jìn)行跟蹤，對跟蹤性能有很大提升。同樣，把深度學(xué)習(xí)應(yīng)用到跟蹤的其他部分，像匹配矩陣的計算、注意力機制的加入等，也推進(jìn)了多目標(biāo)跟蹤領(lǐng)域的發(fā)展。但是由于深度學(xué)習(xí)的計算量過大，一方面會導(dǎo)致計算速度慢并使跟蹤達(dá)不到實時速度，另一方面需要計算性能更好的設(shè)備。所以繼續(xù)推進(jìn)深度學(xué)習(xí)在多目標(biāo)跟蹤領(lǐng)域的發(fā)展并提高計算速度也是未來需要深入研究的重點。

5 結(jié)論

多目標(biāo)跟蹤對于智能監(jiān)控、人機交互、虛擬現(xiàn)實、自動駕駛汽車以及人群行為分析具有巨大的實用價值。詳細(xì)分析了深度學(xué)習(xí)的多目標(biāo)跟蹤的研究進(jìn)展，并根據(jù)不同的跟蹤框架和網(wǎng)絡(luò)結(jié)構(gòu)，將其分為基于深度特征、基于端到端數(shù)據(jù)關(guān)聯(lián)、基于單目標(biāo)跟蹤器擴(kuò)展和聯(lián)合檢測跟蹤的四類方法，綜合分析其跟蹤原理、性能特點以及優(yōu)缺點。預(yù)測多目標(biāo)跟蹤的發(fā)展趨勢和研究方向，對其進(jìn)一步研究具有建設(shè)性意義。隨著深度學(xué)習(xí)的深入發(fā)展以及硬件系統(tǒng)計算性能的提升，多目標(biāo)跟蹤的研究和應(yīng)用將會呈現(xiàn)更美好的前景。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡