国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于層級特征與相似性估計(jì)的跟蹤器

2019-11-12 02:40:30傅成華
關(guān)鍵詞:相似性層級時(shí)刻

楊 捍, 傅成華

(四川輕化工大學(xué)自動化與信息學(xué)院, 四川 自貢 643000)

引 言

目標(biāo)跟蹤在計(jì)算機(jī)視覺中有著廣泛的應(yīng)用,例如機(jī)器人、自動駕駛、或者視頻監(jiān)控。然而對于多目標(biāo)跟蹤來說,需要定位視頻中每個(gè)物體的位置以及身份序號,并且在不同的幀中將同一身份的物體關(guān)聯(lián)起來。在多目標(biāo)跟蹤中,大多數(shù)算法采用基于檢測的跟蹤,得益于檢測算法的發(fā)展,大多數(shù)的工作著重于數(shù)據(jù)關(guān)聯(lián)部分,也就是將在不同幀間檢測到的物體,關(guān)聯(lián)起來,實(shí)現(xiàn)多目標(biāo)的跟蹤。Fast-RCNN[1]等雙階段檢測算法,或者YOLO[2]、SSD[3]等單階段的檢測算法都能獲得很好的效果。同樣地,本文也聚焦于基于檢測的數(shù)據(jù)關(guān)聯(lián)部分來實(shí)現(xiàn)多目標(biāo)的跟蹤。

在多目標(biāo)跟蹤中,比較廣泛的做法是,通過建模,提取不同幀間的不同物體的特征,衡量跨幀間物體的相似度,比如有采用運(yùn)動模型的文獻(xiàn)[4-6]等,也有采用外觀特征的文獻(xiàn)[7-9]等,以及多模態(tài)組合特征文獻(xiàn)[10-12]等。而外觀特征著重于對比,不同時(shí)刻目標(biāo)框表示外觀的相似性。傳統(tǒng)的做法是手工提取特征,由于未考慮到外觀的多樣性、受光照變化、及遮擋等影響,效果較差,并且基于提取外觀特征的模型,往往在遇到外觀特征特別相似的情況下,表現(xiàn)很差。而基于運(yùn)動模型,往往是假設(shè)運(yùn)動速度為常數(shù)的情況下,在當(dāng)前狀態(tài)預(yù)測下一個(gè)時(shí)刻的狀態(tài),通??煞譃榛诰€性的運(yùn)動模型以及非線性的模型,但是在長時(shí)間的跟蹤下,運(yùn)動模型對于物體遮擋并不能很好地處理。

因此,為了使多目標(biāo)跟蹤衡量跨幀物體間相似度判別能力更可靠,在面對遮擋問題時(shí)具有更好的特征提取能力,本文設(shè)計(jì)了一個(gè)深度層級特征提取的神經(jīng)網(wǎng)絡(luò)來得到不同視頻幀間物體的特征,以及不同幀間物體之間相似度的衡量矩陣。使得所提取的特征更具有代表性和魯棒性,并作為數(shù)據(jù)關(guān)聯(lián)部分的輸入。

1 方 法

本文提出了基于深度學(xué)習(xí)的多層級特征提取和相似性計(jì)算網(wǎng)絡(luò)。該網(wǎng)絡(luò)融合了不同層級間的外觀特征,并同時(shí)生成不同幀間物體間的相似性矩陣,實(shí)現(xiàn)端到端的學(xué)習(xí)。

1.1 檢測部分

由于深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測得到了很大的發(fā)展。本文采用基于YOLOv3[13]的行人檢測技術(shù),來做多目標(biāo)跟蹤的第一步,為多目標(biāo)跟蹤提取視頻中每一幀中物體所在的位置。

1.2 層級特征提取以及相似性計(jì)算網(wǎng)絡(luò)

深度特征層級抽取網(wǎng)絡(luò),如圖1所示,由兩部分組成,一部分是基于特征提取網(wǎng)絡(luò)(前半部分),剩余部分為相似性估計(jì)網(wǎng)絡(luò)。網(wǎng)絡(luò)輸入為兩幀和檢測算法所檢測到物體的中心坐標(biāo),層級特征抽取網(wǎng)絡(luò)是雙端網(wǎng)絡(luò),例如,t時(shí)刻的視頻幀輸入上端,t-n時(shí)刻的視頻幀輸入下端,隨著網(wǎng)絡(luò)的逐漸加深,特征圖的尺寸會越來越小。其中,抽取9個(gè)特征圖的特征,其中有3個(gè)特征圖來自圖1中moblenet[14],有6個(gè)特征圖來自圖1中的擴(kuò)展網(wǎng)絡(luò)。得到的9個(gè)特征分別經(jīng)過圖1中moblenet[14]和擴(kuò)展網(wǎng)絡(luò)各自的層級降維網(wǎng)絡(luò)。設(shè)置在一幀中所檢測物體最多有個(gè)Nm,最后將得到的9個(gè)特征向量拼接在一起形成Nm*520維特征向量。如圖1中的F1特征向量對應(yīng)于t時(shí)刻視頻幀經(jīng)過特征層級提取與降維網(wǎng)絡(luò)所得到的特征向量矩陣。同理,F(xiàn)t-n對應(yīng)于t-n時(shí)刻的視頻幀數(shù)。得到Ft-n的矩陣大小同樣為Nm*520,將得到的F1和Ft-n特征組合成Nm*Nm*1040三維的特征組合矩陣。1040是由2個(gè)520維度的通道數(shù)拼接而成,而Nm*Nm對應(yīng)于兩幀間各個(gè)物體間的對應(yīng)關(guān)系,Nm為每幀中所能檢測到的最大行人數(shù)量。

圖1中由不同幀所得到特征矩陣組合而成的特征組合矩陣作為相似性估計(jì)網(wǎng)絡(luò)的輸入,經(jīng)過表1中相似性估計(jì)網(wǎng)絡(luò)中的結(jié)構(gòu),最終得到相似性矩陣M,如圖2中矩陣C,表明兩幀間物體的對應(yīng)關(guān)系。在矩陣C的基礎(chǔ)上做了改進(jìn)(圖2中有改進(jìn)原因),使得圖1中的M1可以表示相對于t-n幀,t幀中離開的物體,同理,M2可以表示相對于t幀中,t-n幀中沒有的物體,也就是剛進(jìn)入視野的物體。M1經(jīng)過行方向上的softmax得到A1,M2經(jīng)過列方向上的softmax得到A2。A1、A2作為損失的輸入,其中由A1、A2得到的a1、a2也將作為損失函數(shù)的輸入,章節(jié)1.3部分會詳細(xì)介紹。

圖1 層級特征提取和相似性估計(jì)網(wǎng)絡(luò)流程

表1 層級特征抽取與相似性估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)

表1為圖1中擴(kuò)展網(wǎng)絡(luò)部分以及相似性估計(jì)網(wǎng)絡(luò)部分的結(jié)構(gòu)圖參數(shù)。擴(kuò)展網(wǎng)絡(luò)部分由11層卷積神經(jīng)網(wǎng)絡(luò)組成,輸入為moblenet[14]最后一層特征的輸出。而相似性估計(jì)網(wǎng)絡(luò)是由5層卷積神經(jīng)網(wǎng)絡(luò)組成,輸入為兩幀間所提取到的特征組合。擴(kuò)展網(wǎng)絡(luò)所提取的特征是為了輸入到層級降維網(wǎng)絡(luò)中(見表2),分別從表1所提取的特征取6層輸入層級特征降維網(wǎng)絡(luò),同時(shí)也從moblenet[14]所提取的特征抽取3層輸入層級特征降維網(wǎng)絡(luò)。最后通過各自的降維網(wǎng)絡(luò)得到520維度的特征(由輸出通道數(shù)相加得到)。

表2 層級降維網(wǎng)絡(luò)

圖2 相似性矩陣

圖2中,圖2(a)表示視頻中的一幀,圖2(b)表示視頻中的另一幀。圖2(a)幀中包含有序號1、2、3、4的行人,而圖2(b)幀中包含了序號為1、2、3、5的行人,其中1、2、3序號的行人同時(shí)出現(xiàn)在圖2(a)幀和圖2(b)幀中,此時(shí)c矩陣表示兩幀間的相似矩陣。假設(shè)每幀中最多檢測到5個(gè)物體(本文設(shè)置最大檢測目標(biāo)數(shù)為100),故矩陣的大小為5*5,其中矩陣C中行表示圖2(a)幀中的身份序號,而列表示圖2(b)幀中的身份序號,在圖2(a)與圖2(b)兩幀中同時(shí)出現(xiàn)并且匹配的為1、2、3序號的行人,故在矩陣對應(yīng)位置值為紅色標(biāo)記1。另外,圖2(a)幀中序號4與圖2(b)幀中序號5行人在對應(yīng)幀中沒有行人可以匹配,也可以理解為行人4離開了當(dāng)前視頻,以及行人5剛進(jìn)入視頻,因此為了解決在矩陣中也可以表明兩幀間物體的離開與進(jìn)入,分別在矩陣C的最后一行最后一列加入第◎列和第◎行,得到矩陣D來表示兩幀物體間的離開與進(jìn)入。其中,x表示每幀中剩余的可檢測與可跟蹤的物體數(shù)。

1.3 損失函數(shù)

圖1后部分網(wǎng)絡(luò)為網(wǎng)絡(luò)的損失部分,M1矩陣的第m行表示關(guān)聯(lián)t-n時(shí)刻第m個(gè)物體在t時(shí)刻與之對應(yīng)的物體,此時(shí)對應(yīng)的矩陣大小為Nm*(Nm+1)。最后一列表示相對于t-n時(shí)刻,t時(shí)刻舊的物體離開所對應(yīng)的幀或者新的物體進(jìn)入的幀。同理可得M2矩陣添加的最后行。M2矩陣的第n列表示在t時(shí)刻第n個(gè)物體對應(yīng)于t-n時(shí)刻幀的物體。如圖,將得到的M矩陣分別添加一列和一行后得到M1與M2矩陣,分別表示從t-n時(shí)刻到t時(shí)刻物體關(guān)聯(lián)信息,以及從t時(shí)刻幀到t-n時(shí)刻幀物體間的關(guān)聯(lián)信息,此時(shí)M1、M2矩陣大小為Nm*(Nm+1)。得到的M1矩陣和M2矩陣分別在行方向和列方向經(jīng)過softmax函數(shù),得到對應(yīng)的A1矩陣和A2矩陣。A1矩陣大小為Nm*(Nm+1),A2矩陣大小為Nm*(Nm+1)。

所得到的A1、A2作為深度層級可分離網(wǎng)絡(luò)的輸出,并以此作為網(wǎng)絡(luò)的損失函數(shù)的輸入,此時(shí)可得從t-n時(shí)刻到t時(shí)刻對應(yīng)的前向損失loss1,如公式1,同理可得從t時(shí)刻輸入幀到t-n時(shí)刻輸入幀的后向損失,如公式2。Tt-n,t是損失函數(shù)的標(biāo)簽值,大小為(Nm+1)*(Nm+1)。公式(1)與公式(2)中,T1、T2分別表示標(biāo)簽矩陣Tt-n,t。為了和矩陣A1、A2的大小相對應(yīng),分別減去第◎行和第◎列。a1、a2表示分別從A1、A2減去◎行◎列所得到的矩陣。公式(3)表示一致性損失,因?yàn)?,無論從t-n到t時(shí)刻所得到的相似性矩陣,還是t到t-n時(shí)刻的特征相似性矩陣,其差異值理應(yīng)越小越好。

公式(4)中T3表示標(biāo)簽相似矩陣D同時(shí)去掉◎行和◎列所得到的矩陣,而max(a1,a2)也可由圖1中的M0表示,公式(4)衡量最終網(wǎng)絡(luò)所得到的不計(jì)未同時(shí)出現(xiàn)物體的相似性矩陣與同樣的不計(jì)未同時(shí)出現(xiàn)物體相似性的標(biāo)簽標(biāo)矩陣的差異。由公式(1)~公式(4)可得網(wǎng)絡(luò)的最終損失Loss。

(1)

(2)

(3)

(4)

(5)

1.4 數(shù)據(jù)關(guān)聯(lián)部分

1.4.1 跟蹤流程中的層級特征抽取與相似性估計(jì)

訓(xùn)練的時(shí)候采用雙端網(wǎng)絡(luò),雙端網(wǎng)絡(luò)是共享網(wǎng)絡(luò)權(quán)重,而在數(shù)據(jù)關(guān)聯(lián)部分,使用單端網(wǎng)絡(luò),流程如圖3所示。視頻的每一幀經(jīng)過檢測器件得到跟蹤類別物體的坐標(biāo),將每一幀圖片以及檢測物體的坐標(biāo)傳入到特征抽取網(wǎng)絡(luò),也就是圖1中的前半部分單端的流程。 對于特征抽取網(wǎng)絡(luò)的部分,視頻的每一幀所提取的特征矩陣都會被儲存,以便與下一時(shí)刻視頻幀所提取的特征組成特征組合矩陣傳入相似性估計(jì)網(wǎng)絡(luò)中,得到相似性矩陣。

圖3 數(shù)據(jù)關(guān)聯(lián)流程

1.4.2 數(shù)據(jù)關(guān)聯(lián)流程

如何將不同幀間的同一物體關(guān)聯(lián)起來,是解決跟蹤問題的關(guān)鍵。檢測部分決定了能否檢測到物體,而數(shù)據(jù)關(guān)聯(lián)部分決定了能否將同一物體匹配起來。本文設(shè)計(jì)了基于層級特征網(wǎng)絡(luò)提取到的特征,輸入到相似性估計(jì)網(wǎng)絡(luò)中得到不同時(shí)刻幀間不同物體間的相似性矩陣。例如在視頻開始第一幀,初始化軌跡數(shù)量和檢測到的物體數(shù)量一致,在后續(xù)幀輸入網(wǎng)絡(luò)后,會根據(jù)前面N幀提取得到的特征矩陣,與當(dāng)前幀的特征矩陣一起輸入圖3中的相似性估計(jì)網(wǎng)絡(luò),得到各自的相似性矩陣。最終將當(dāng)前幀,與前面N幀的相似性矩陣做累加得到最終的相似性矩陣,并利用匈牙利算法[15]在得到累加相似性矩陣上做全局最優(yōu)的指派問題,也就是兩幀間同一物體的匹配。再根據(jù)匈牙利算法指派的結(jié)果,做軌跡的更新。

總體看來,本文設(shè)計(jì)的跟蹤器是在線的跟蹤器,與離線跟蹤器不同點(diǎn)在于,不需要未來的視頻幀來跟蹤當(dāng)前幀的物體,只需要輸入當(dāng)前幀之前的視頻幀,因此,相對于離線的跟蹤器,在線跟蹤更適用于實(shí)際的場景,例如監(jiān)控等需要實(shí)時(shí)跟蹤的場合。

2 實(shí)驗(yàn)部分

2.1 實(shí)驗(yàn)細(xì)節(jié)

選用MOT16數(shù)據(jù)集,數(shù)據(jù)集包含了7個(gè)視頻場景,分為訓(xùn)練集和測試集,利用pytorch框架在NVIDIA RTX 2070GPU訓(xùn)練而得,訓(xùn)練每次批次為4,總的訓(xùn)練輪數(shù)140輪,設(shè)置Nm為100,采用SGD[16]優(yōu)化器。

2.2 結(jié)果對比

在最終的測試集上得到實(shí)驗(yàn)結(jié)果見表3。

表3 基于MOT16測試集的實(shí)驗(yàn)結(jié)果

表3中,箭頭向上表示指標(biāo)越大越好,箭頭向下表示指標(biāo)越小越好。MOTA[19]指標(biāo)表示目標(biāo)跟蹤的準(zhǔn)確率,是衡量多目標(biāo)跟蹤最重要的指標(biāo)。MOTP[19]則表示多目標(biāo)跟蹤的精度,其計(jì)算是由標(biāo)簽上物體目標(biāo)框與檢測所得到的目標(biāo)框的重合率計(jì)算而得。MT[20]表示大部分被跟蹤的目標(biāo),而ML[20]表示大部分未被跟蹤的目標(biāo)。實(shí)驗(yàn)結(jié)果表明在測試指標(biāo)上本文采用的方法相對于一些其他的方法取得了一定的優(yōu)勢。其中,MOTA指標(biāo)由公式(6)計(jì)算得到:

(6)

其中:FPt由表示在t時(shí)刻的目標(biāo)誤檢數(shù)量,F(xiàn)Nt表示在t時(shí)刻目標(biāo)漏檢測的數(shù)量,ID_Swt表示在跟蹤過程中目標(biāo)發(fā)生身份互換的數(shù)量,GTt表示t時(shí)刻對應(yīng)的標(biāo)簽。

2.3 實(shí)驗(yàn)結(jié)果展示

實(shí)驗(yàn)的部分仿真結(jié)果如圖4所示。由圖4可知,本文所提出的基于層級特征提取相似性計(jì)算網(wǎng)絡(luò)能有效提取不同物體的特征,經(jīng)過計(jì)算所得到的相似矩陣具有很好的判別性,能夠緩解由于遮擋問題造成的物體身份的改變。如,序號73以及序號16的物體都能夠在被遮擋后有效地還原目標(biāo)的身份。緩解了多目標(biāo)跟蹤中遮擋問題造成的身份改變問題。

圖4 部分視頻跟蹤效果圖

3 結(jié)束語

在基于檢測的在線多目標(biāo)跟蹤的框架下,提出了基于層級特征提取的跨幀間物體相似度計(jì)算的網(wǎng)絡(luò),該網(wǎng)絡(luò)可以端到端的訓(xùn)練,在得到網(wǎng)絡(luò)的固定權(quán)重后,應(yīng)用于跟蹤的流程,并利用匈牙利算法,在得到的各幀間相似矩陣的基礎(chǔ)上,做物體間各物體最優(yōu)的指派,也就是不同幀間同一物體的匹配,并不斷更新跟蹤的軌跡。實(shí)驗(yàn)結(jié)果表明,經(jīng)過層級特征提取得到的相似性矩陣具有對不同幀間物體相似性很好判別能力,同時(shí)對遮擋問題有一定的緩解,并在多目標(biāo)跟蹤的一系列指標(biāo)上得到了一定的提高。

猜你喜歡
相似性層級時(shí)刻
一類上三角算子矩陣的相似性與酉相似性
冬“傲”時(shí)刻
捕獵時(shí)刻
軍工企業(yè)不同層級知識管理研究實(shí)踐
淺析當(dāng)代中西方繪畫的相似性
基于軍事力量層級劃分的軍力對比評估
低滲透黏土中氯離子彌散作用離心模擬相似性
任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
街拍的歡樂時(shí)刻到來了
一天的時(shí)刻
防城港市| 新营市| 巫溪县| 庆阳市| 八宿县| 襄城县| 确山县| 于都县| 铜川市| 天台县| 泸水县| 全南县| 航空| 方正县| 金阳县| 宁海县| 万山特区| 西吉县| 肥城市| 密山市| 武乡县| 北宁市| 南皮县| 塔城市| 高淳县| 涿鹿县| 眉山市| 吴江市| 万山特区| 丹阳市| 和平区| 中牟县| 合水县| 莆田市| 黄陵县| 鱼台县| 陵川县| 通化县| 广宗县| 大姚县| 忻城县|