曾文獻,李偉光,馬 月,李岳松
(河北經(jīng)貿(mào)大學(xué)信息技術(shù)學(xué)院,河北 石家莊 050061)
多目標(biāo)追蹤MOT(Multiple-Object Tracking)是指在視頻序列中進行目標(biāo)檢測、特征提取并對幀間數(shù)據(jù)關(guān)聯(lián)與匹配從而得到多個目標(biāo)的運動軌跡[1]。隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的MOT方法在自動駕駛[2]、自動監(jiān)控[3]、行人追蹤[4]、車輛追蹤[5]等領(lǐng)域得到了廣泛應(yīng)用,但是MOT仍然存在在場景復(fù)雜、遮擋、目標(biāo)軌跡重疊[6]、目標(biāo)像素值過小、目標(biāo)密集等特定場景下準確度低、誤檢漏檢等問題。隨著Transformer網(wǎng)絡(luò)結(jié)構(gòu)成功應(yīng)用于MOT,與基于卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)的方法相比,性能指標(biāo)得到大幅提升。本文分析Transformer結(jié)構(gòu),總結(jié)優(yōu)勢,對基于Transformer結(jié)構(gòu)的MOT方法進行分類分析和性能指標(biāo)對比,提出基于Transformer結(jié)構(gòu)在MOT上面臨的挑戰(zhàn)以及未來發(fā)展趨勢。
Transformer網(wǎng)絡(luò)結(jié)構(gòu)[7]由谷歌公司于2017年提出并應(yīng)用于自然語言處理NLP(Natural Language Processing)領(lǐng)域。作為一種新型骨干網(wǎng)絡(luò),Transformer網(wǎng)絡(luò)逐漸成為NLP領(lǐng)域的研究熱點,并隨著遷移學(xué)習(xí)的發(fā)展在圖像處理領(lǐng)域已經(jīng)獲得良好效果。
圖1 Transformer模塊結(jié)構(gòu)圖
Transformer網(wǎng)絡(luò)由6個相同的編碼器塊與6個相同的解碼器塊組成,模塊結(jié)構(gòu)如圖1所示。
Transformer編碼器塊由多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)組成,解碼器塊由多頭注意力層、帶掩碼的多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)組成。Transformer使用帶掩碼的多頭注意力機制將未知信息掩蓋,避免模型在訓(xùn)練過程中參考未知后續(xù)信息。為了適應(yīng)處理不定長輸入序列任務(wù)與提升網(wǎng)絡(luò)穩(wěn)定性,Transformer采用層歸一化LN(Layer Normal)[8]操作。提出使用位置編碼解決Transformer無法像RNN和CNN結(jié)構(gòu)一樣獲取輸入元素之間的位置信息的問題,Transformer使用三角函數(shù)進行位置編碼,如公式(1)所示。
(1)
Transformer結(jié)構(gòu)采用的多頭注意力機制使模型在不同子層空間中學(xué)習(xí)到不同語義特征,在投影過程中調(diào)整權(quán)重和不同的投影方法,使模型更具泛化性。多頭注意力機制計算公式如公式(2)和公式(3)所示。
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
(2)
(3)
圖2 Transformer中的點積注意力機制
(4)
相較于NLP領(lǐng)域經(jīng)典網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network),Transformer直接處理句子整體,建立長距離依賴,避免線性序列結(jié)構(gòu)與遞歸計算方式,模塊中注意力機制和前饋神經(jīng)網(wǎng)絡(luò)允許并行計算。因此,Transformer網(wǎng)絡(luò)訓(xùn)練時間與預(yù)測時間都大幅降低,準確率得以提升。
在計算機視覺領(lǐng)域通常采用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)作為骨干網(wǎng)絡(luò),目前已有眾多基于CNN結(jié)構(gòu)的模型用于處理多目標(biāo)跟蹤任務(wù)[9-10],實現(xiàn)了端到端MOT網(wǎng)絡(luò)[11]與實時MOT網(wǎng)絡(luò)[12]。雖然CNN網(wǎng)絡(luò)在MOT任務(wù)上取得SOTA效果,但是CNN存在卷積操作缺乏對圖像的全局理解,無法形成建模特征之間的依賴,上下文信息利用不足且權(quán)重固定,不能適應(yīng)動態(tài)輸入等缺點。因此,有大量研究將Transformer研究成果遷移到圖像處理領(lǐng)域[13-15],且使MOT性能得到多方面提升。
在MOT領(lǐng)域Transformer相較于CNN結(jié)構(gòu)具有的優(yōu)勢:
(1)有效學(xué)習(xí)長距離關(guān)系。CNN學(xué)習(xí)全局信息時需要經(jīng)過多級卷積核計算,學(xué)習(xí)不同位置的信息所需要的操作次數(shù)與距離長度成正比。Transformer結(jié)構(gòu)可以直接學(xué)習(xí)長距離關(guān)系,不需要隱層傳遞,更適合實時MOT任務(wù)計算。
(2)網(wǎng)絡(luò)結(jié)構(gòu)靈活。卷積神經(jīng)網(wǎng)絡(luò)在進行卷積和池化操作時容易丟失部分信息,且網(wǎng)絡(luò)精度提升需要更深層次的網(wǎng)絡(luò)結(jié)構(gòu)。Transformer結(jié)構(gòu)塊輸入輸出向量維度相同,易于搭建深層架構(gòu),提升MOT準確度。
新經(jīng)濟形態(tài)下,數(shù)字化、信息化是各行各業(yè)發(fā)展的重要趨勢。在建筑工程領(lǐng)域,BIM技術(shù)是其數(shù)字化應(yīng)用的基本形態(tài);在BIM技術(shù)支撐下,建筑工程項目信息管理的方式得以系統(tǒng)轉(zhuǎn)變,其在同一平臺上實現(xiàn)了建筑工程各利益方的信息交互與共享,有效的提升了信息管理、信息決策的效率和質(zhì)量。新時期,要實現(xiàn)工程項目信息管理質(zhì)量的提升,保證工程建設(shè)效益獲得,進行深層次的BIM技術(shù)應(yīng)用勢在必行。基于此,本文就BIM在項目信息管理中的應(yīng)用展開分析。
(3)更具可解釋性。Transformer結(jié)構(gòu)便于查看注意力分布,結(jié)構(gòu)塊中的多頭注意力機制可以投影到不同子層空間,提取MOT任務(wù)中更有效的特征信息。
(4)更適合處理多模態(tài)任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)常被用來處理圖片視頻等多媒體信息,但不擅長與文字等信息結(jié)合處理。Transformer結(jié)構(gòu)可以使用編碼后的圖片和文字等信息作為輸入,擅長融合多類多媒體信息[16],通過多傳感器信息融合進一步提升MOT精度。
2.1.1 TransTrack
文獻[17]提出TransTrack網(wǎng)絡(luò),首次將Transformer結(jié)構(gòu)應(yīng)用于MOT任務(wù)。引入可學(xué)習(xí)目標(biāo)查詢序列LOQ(Learned Object Queries)查詢檢測框,保存當(dāng)前幀中的目標(biāo)OD(Object Detection)特征,以減少將單目標(biāo)追蹤SOT(Single-Object Tracking)網(wǎng)絡(luò)應(yīng)用于MOT任務(wù)時存在的目標(biāo)漏檢情況。使用對象特征查詢OFQ(Object Feature Queries)記錄目標(biāo)歷史位置、外觀等信息并查詢跟蹤框。TransTrack進行多目標(biāo)追蹤時序圖如圖3所示。Backbone塊使用ResNet網(wǎng)絡(luò)提取當(dāng)前幀的目標(biāo)特征,經(jīng)過Encoder塊編碼處理得到Key向量集合。Decoder塊分別使用LOQ和OFQ對Key查詢得到當(dāng)前幀中目標(biāo)和目標(biāo)軌跡,應(yīng)用Kuhn-Munkres算法的IoU標(biāo)準進行相同目標(biāo)匹配。
圖3 TransTrack進行多目標(biāo)追蹤時序圖
TransTrack雖然在MOT任務(wù)取得SOTA的成績,但其還存在很多問題:(1)TransTrack存在數(shù)據(jù)鏈接匹配計算IoU過程,并不是一個端到端的模型。(2)對于LOQ和OFQ存在特征信息冗余,可以通過對OFQ進行變換與LOQ進行融合。(3)TransTrack無法利用歷史特征信息。(4)對于遮擋和重復(fù)檢測等問題未做處理。
2.1.2 TrackFormer
Meinhardt T等人將MOT任務(wù)定義為一個幀到幀的集合預(yù)測問題,提出基于tracking-by-attention范式的TrackFormer網(wǎng)絡(luò)[18]。將注意力機制作用于數(shù)據(jù)關(guān)聯(lián)和檢測追蹤,避免對于外觀特征等信息的依賴,實現(xiàn)了軌跡隱式關(guān)聯(lián)。TrackFormer進行多目標(biāo)跟蹤時序圖如圖4所示。
圖4 TrackFormer進行多目標(biāo)追蹤時序圖
TrackFormer提出一種同時在時間和空間上對目標(biāo)進行檢測追蹤的方法track query,通過自注意力機制,將軌跡查詢特征變換到可學(xué)習(xí)目標(biāo)查詢特征空間,與TransTrack相比,實現(xiàn)了可學(xué)習(xí)目標(biāo)查詢與軌跡查詢特征融合。由于TrackFormer網(wǎng)絡(luò)特征提取不充分,存在大量誤檢與ID切換情況,提取高鑒別性特征可以進一步提升網(wǎng)絡(luò)精度。
2.1.3 MOTR
MOTR[1]將目標(biāo)檢測端到端網(wǎng)絡(luò)DETR[19]擴展到MOT領(lǐng)域,提出Track Query方法結(jié)合軌跡標(biāo)簽感知策略TALA(Tracklet-Aware Label Assignment)實現(xiàn)目標(biāo)跟蹤, MOTR網(wǎng)絡(luò)整體結(jié)構(gòu)如圖5所示。
圖5 MOTR整體結(jié)構(gòu)圖
為增強長期時間關(guān)系建模能力,MOTR提出集體平均損失CAL(Collective Average Loss)與時間聚集網(wǎng)絡(luò)TAN(Temporal Aggregation Network)。CAL使用視頻序列整體損失更新權(quán)重,充分利用歷史信息。TAN收集跟蹤對象的歷史track queries,將歷史信息與當(dāng)前幀信息首次結(jié)合輸入到多頭注意力模塊,進行權(quán)重更新。TAN計算公式如下:
(5)
MOTR是第一個基于Transformer結(jié)構(gòu)的完全端到端MOT神經(jīng)網(wǎng)絡(luò),對目標(biāo)實現(xiàn)隱式關(guān)聯(lián),逐幀更新迭代預(yù)測軌跡信息,實現(xiàn)學(xué)習(xí)數(shù)據(jù)時間變化信息。
Xu Y等人受基于錨點方式的MOT任務(wù)解決網(wǎng)絡(luò)[20]的啟發(fā),提出了第一個基于Transformer結(jié)構(gòu)應(yīng)用像素級密集多尺度熱力圖檢測跟蹤的網(wǎng)絡(luò)TransCenter[21]。TransCenter整體采用孿生網(wǎng)絡(luò)結(jié)構(gòu),使用相鄰兩幀圖像作為輸入,通過共享權(quán)重的CNN與Encoder提取特征,當(dāng)前幀Mt經(jīng)過查詢學(xué)習(xí)網(wǎng)絡(luò)(QLN)得到多尺度圖像特征DQt,由Decoder解碼得到當(dāng)前幀多尺度檢測特征DFt。前一幀熱力圖、Mt-1和Mt經(jīng)過處理進行位移預(yù)測。網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 TransCenter網(wǎng)絡(luò)結(jié)構(gòu)圖
TransTrack和TrackFormer網(wǎng)絡(luò)基于邊界框Bbox(Bounding box)進行檢測與跟蹤,在目標(biāo)密集場景下容易受目標(biāo)重疊影響,為解決這一問題,TransCenter使用二維高斯分布表示目標(biāo),對于目標(biāo)密集數(shù)據(jù)可以獲得更好的追蹤效果。相較于樸素密集查詢,TransCenter自適應(yīng)輸入圖像像素大小,無需重復(fù)訓(xùn)練,避免采用匈牙利算法匹配與人工設(shè)計queries大小,節(jié)省計算時間,并且受噪聲干擾更小。
多目標(biāo)跟蹤常用數(shù)據(jù)集MOT16、17等數(shù)據(jù)集由MOTChallenge平臺發(fā)布。
MOT15數(shù)據(jù)集[22]:共包含11個視頻訓(xùn)練數(shù)據(jù)集和11個測試數(shù)據(jù)集。包括多角度與無約束條件下由靜態(tài)或動態(tài)相機拍攝的視頻序列。
MOT16數(shù)據(jù)集[23]:共包含7個視頻訓(xùn)練數(shù)據(jù)集和7個測試數(shù)據(jù)集,MOT16數(shù)據(jù)集為全新收集的數(shù)據(jù)集。對比MOT15數(shù)據(jù)集訓(xùn)練集和測試集行人密度為7.3和10.6,MOT16數(shù)據(jù)集的訓(xùn)練集和測試集的目標(biāo)密度分別達到20.8和30.8,使檢測與跟蹤任務(wù)更具有挑戰(zhàn)性。
MOT17數(shù)據(jù)集:與MOT16數(shù)據(jù)集使用相同視頻序列,但提供多種檢測器。
MOT20數(shù)據(jù)集[24]:共包含4個視頻訓(xùn)練數(shù)據(jù)集和4個測試數(shù)據(jù)集,在非約束條件環(huán)境下拍攝,具有更精確的標(biāo)注,同時測試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集精度分別達到了149.7和170.9,適用于擁擠場景。
除MOT系列數(shù)據(jù)集,KITTI數(shù)據(jù)集[25]提供汽車與行人標(biāo)注的數(shù)據(jù);ETHZ數(shù)據(jù)集[26]通過車載攝像頭采集,視頻幀率為13-14fps;EPFL數(shù)據(jù)集[27]提供多種場景下的視頻序列,拍攝角度均為離地面2m左右角度。
多目標(biāo)跟蹤任務(wù)常用的性能評價指標(biāo)有:多目標(biāo)跟蹤精度MOTA(Multiple-Object Tracking Accuracy)、身份F1分數(shù)IDF1(Identity F1 Score)、命中軌跡占比MT(Mostly Tracked Trajectories)、丟失軌跡占比ML(Mostly Lost Trajectories)誤檢測數(shù)量FP(False Postive)、未命中檢測數(shù)量FN(False Negetive)、身份ID切換次數(shù)IDS(Identity Switches)。其中,多目標(biāo)跟蹤精度MOTA為衡量模型追蹤質(zhì)量與性能的主要指標(biāo)。MOTA計算見公式(6),其中t表示視頻幀時刻。
(6)
TransTrack、TrackFormer、MOTR、TransCenter在以上數(shù)據(jù)集上實驗,實驗結(jié)果對比如表1所示。
表1 不同模型在數(shù)據(jù)集上實驗結(jié)果對比
基于MOT16、17、20數(shù)據(jù)集得到的MOTA指標(biāo)均達到60%以上,TransTrack在JDE范式下同時優(yōu)化檢測與跟蹤分支,在MOTA指標(biāo)上有較大提升,但仍需要使用匈牙利算法進行數(shù)據(jù)關(guān)聯(lián)。TrackFormer網(wǎng)絡(luò)提出的TBA范式檢測追蹤避免了對外觀等特征的依賴,實現(xiàn)了隱式的多幀注意力。TransCenter受噪音影響更小,更適合處理目標(biāo)密集的數(shù)據(jù),但身份ID切換次數(shù)IDS指標(biāo)過高,是該模型需要改進的方向之一。MOTR是首個完全端到端的基于Transformer結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),避免了啟發(fā)式算法,更適合建模長時間關(guān)系。
Transformer結(jié)構(gòu)適合建模長距離關(guān)系,搭建深層神經(jīng)網(wǎng)絡(luò),已經(jīng)成功應(yīng)用于MOT領(lǐng)域并取得良好的效果。但是目前基于Transformer結(jié)構(gòu)的MOT網(wǎng)絡(luò)仍存在對于小型目標(biāo)和密集場景檢測跟蹤效果不佳等問題。基于現(xiàn)狀,提出未來發(fā)展趨勢:(1)針對視頻序列小目標(biāo)檢測與跟蹤。(2)針對復(fù)雜環(huán)境條件下多目標(biāo)的檢測與跟蹤。(3)針對具有極高密度目標(biāo)視頻序列的檢測與跟蹤。