国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合改進YOLOv2網(wǎng)絡(luò)的視覺多目標跟蹤方法

2020-12-09 09:45:46昝珊珊
小型微型計算機系統(tǒng) 2020年12期
關(guān)鍵詞:邊框變化率卡爾曼濾波

昝珊珊,李 波

(遼寧工業(yè)大學 電子與信息工程學院,遼寧 錦州 121001)

1 引 言

近年來,深度神經(jīng)網(wǎng)絡(luò)[1]為圖像檢測分類[2,3]、人臉檢測與識別[4]和語音識別[5]等實際應用做出了巨大貢獻.相比于傳統(tǒng)方式所提取的目標特征信息,深度特征[6]擁有更豐富與完整的信息,具有較強的特征提取能力.深度神經(jīng)網(wǎng)絡(luò)推動了視覺跟蹤技術(shù)的發(fā)展,為多目標跟蹤提供了更廣闊的發(fā)展方向.因此,融合深度神經(jīng)網(wǎng)絡(luò)與目標跟蹤方法可有效提升視覺多目標的跟蹤性能.

在深度學習[7]飛速發(fā)展的今天,涌現(xiàn)出諸多性能優(yōu)越的深度神經(jīng)網(wǎng)絡(luò)模型.文獻[8]提出了R-CNN(Region-based Convolutional Neural Network)模型.文獻[9,10]分別討論了Fast R-CNN模型和Faster R-CNN模型.常見的網(wǎng)絡(luò)模型還有SSD(Single Shot Detector)模型[11]和YOLO(You Only Look Once)模型[12].文獻[13]提出了一種性能更優(yōu)的YOLOv2模型.隨后,Redmon等提出一種具有更多網(wǎng)絡(luò)層數(shù)的YOLOv3模型(1)https://arxiv.org/abs/1804.02767.通常,YOLOv2網(wǎng)絡(luò)基于貫序式結(jié)構(gòu),由卷積層與池化層組成,較YOLOv3網(wǎng)絡(luò)更容易實現(xiàn)和訓練.因此,本文對YOLOv2網(wǎng)絡(luò)進行改進,將其作為目標檢測模型,充分利用特征信息以提高目標跟蹤可靠性.

視覺的多目標跟蹤方法主要包括SORT(Simple Online And Realtime Tracking)[14]方法和Deep-SORT(SORT with a Deep Association Metric)方法.SORT方法由標準卡爾曼濾波獲取目標信息,通過評估跟蹤與檢測結(jié)果的重疊率完成目標跟蹤.盡管該方法實時性較高,但只有當目標狀態(tài)估計偏差較小時才有較好的效果.于是,文獻[15]在SORT基礎(chǔ)上引入了神經(jīng)網(wǎng)絡(luò)模型用于目標表觀匹配,提出了Deep-SORT多目標跟蹤方法.但該方法在表觀匹配過程需要一定的時間.針對上述問題,本文利用MobileNet網(wǎng)絡(luò)結(jié)構(gòu)(2)https://arxiv.org/abs/1704.04861中的深度可分離卷積重新構(gòu)造表觀匹配部分的特征提取網(wǎng)絡(luò),提取匹配部分的特征向量,以提高目標跟蹤有效性.

綜合考慮目標跟蹤系統(tǒng)對有效性和可靠性的需求,本文提出一種融合改進YOLOv2網(wǎng)絡(luò)的視覺多目標跟蹤方法.首先,利用改進的深度學習網(wǎng)絡(luò)檢測視頻流的幀目標,提出改進的并聯(lián)結(jié)構(gòu)YOLOv2網(wǎng)絡(luò).利用以Deep-SORT為核心的視覺多目標跟蹤方法,推導修正目標狀態(tài)變化率的數(shù)學體系,解決目標遮擋的實際問題.其次,采用基于馬氏距離的運動匹配和特征向量最小余弦相似度的表觀匹配的加權(quán)融合方法確定目標位置,在表觀匹配部分采用了MobileNet深度可分離卷積.最后,由數(shù)據(jù)關(guān)聯(lián)結(jié)果將檢測位置作為目標的位置信息,實現(xiàn)視覺多目標跟蹤.本文結(jié)構(gòu)如下:第2節(jié)闡述了改進YOLOv2網(wǎng)絡(luò)的結(jié)構(gòu)與原理;第3節(jié)推導出目標遮擋情況下的狀態(tài)變化率修正策略;第4節(jié)論證了Deep-SORT方法與數(shù)據(jù)關(guān)聯(lián)過程;第5節(jié)驗證了本文方法的綜合性能;最后,總結(jié)全文并給出了未來的研究與展望.

2 改進的YOLOv2

2.1 YOLOv2原理

YOLOv2網(wǎng)絡(luò)去掉了YOLO網(wǎng)絡(luò)的全連接層與最后的池化層,利用19個卷積層和5個最大池化層搭建出特征提取網(wǎng)絡(luò),引入批量標準化處理,保證了穩(wěn)定訓練與加速收斂.YOLOv2網(wǎng)絡(luò)的貫序式結(jié)構(gòu)將提取的特征信息直接作為分類器的輸入來獲取目標的位置.然而,該網(wǎng)絡(luò)未能充分利用特征信息,在一定程度上制約著目標跟蹤的可靠性.

2.2 改進YOLOv2的結(jié)構(gòu)

改進的并聯(lián)YOLOv2網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.該結(jié)構(gòu)主要由卷積層、池化層和批量標準化層組成特征提取網(wǎng)絡(luò),將獲得的目標特征信息復制為兩份:一份輸入到由卷積層和批量標準化層搭建的分類器;另一份輸入到由殘差塊搭建的判別器.這里,殘差塊將輸入的特征信息由卷積—殘差函數(shù)—卷積輸出,并將原始輸入加到輸出結(jié)果中;分類器對檢測目標分類與關(guān)注,得出目標的大致位置;判別器則對輸入的特征信息進行判斷.融合判別器和分類器的輸出結(jié)果后,可進行池化和歸一化指數(shù)操作.

利用YOLOv2網(wǎng)絡(luò)檢測目標時,將輸入原始圖像分割為S×S個網(wǎng)格,每個網(wǎng)格預測D個邊框,每個邊框再預測中心坐標、長寬和置信度.利用分類器對提取的特征展開分類,由判別器進行特征判斷,去除無用的邊框,獲得準確的目標檢測邊框.

注釋 1.改進的并聯(lián)YOLOv2網(wǎng)絡(luò)不但完成了分類器與判別器的訓練,還對特征信息實現(xiàn)了多路復用,在不顯著增加網(wǎng)絡(luò)參數(shù)前提下,簡化了原有網(wǎng)絡(luò)模型結(jié)構(gòu).

3 目標遮擋時的狀態(tài)變化率修正

3.1 卡爾曼濾波

基于線性遞推最小方差估計[16]的卡爾曼濾波[17]主要涵蓋狀態(tài)預測與狀態(tài)更新兩個重要步驟.

假定離散時間的線性狀態(tài)模型為:

Xt=AXt-1+qt

(1)

Zt=HXt+rt

(2)

式中,A為狀態(tài)轉(zhuǎn)移矩陣,狀態(tài)向量Xt滿足Xt~N(mt,Pt),mt和Pt分別為狀態(tài)的均值與協(xié)方差,qt為狀態(tài)噪聲且滿足qt~N(0,Qt),Qt為狀態(tài)噪聲方差.Zt為觀測向量,H為觀測矩陣,rt為觀測噪聲且滿足rt~N(0,Rt),Rt為觀測噪聲方差.

在t-1時刻,狀態(tài)預測值Xt|t-1和協(xié)方差預測值Pt|t-1為:

Xt|t-1=AXt-1|t-1

(3)

Pt|t-1=APt-1|t-1AT+Qt

(4)

在t時刻,狀態(tài)估計值Xt|t與卡爾曼增益Kt為:

Xt|t=Xt|t-1+Kt(Zt-HXt|t-1)

(5)

Kt=Pt|t-1HT(HPt|t-1HT+Rt)-1

(6)

系統(tǒng)的協(xié)方差可由式(7)更新:

Pt|t=(I-KtH)Pt|t-1

(7)

注釋 2.雖然卡爾曼濾波方法的速度很快,但應用于目標遮擋時的可靠性較低,性能需進一步提高.

3.2 修正狀態(tài)變化率

在視覺多目標的跟蹤過程中,目標遮擋情況較為常見.此時,遮擋目標并未消失,依舊在檢測范圍內(nèi),這需要繼續(xù)對遮擋目標的軌跡進行預測,提升其再次出現(xiàn)的跟蹤效果.本文采用的方法為:當目標被遮擋時,調(diào)整遮擋目標的狀態(tài)變化率來預估運動狀態(tài),并存儲預估的位置信息.當下一幀視頻輸入時,先判斷是否能檢測到該目標.若能,利用卡爾曼濾波跟蹤;否則,判斷遮擋幀數(shù)是否超過預設(shè)值.若超過,則刪除該目標軌跡;否則,繼續(xù)預測該目標狀態(tài).

(8)

(9)

由式(9)計算遮擋目標的狀態(tài)變化率,所得的僅是粗略結(jié)果.要獲取更可靠的目標狀態(tài)信息,應該考慮距遮擋時刻較近的目標狀態(tài)變化率,通過修正式(9)中權(quán)重系數(shù)加以實現(xiàn).于是,將每項都乘不同的權(quán)重系數(shù)得出不同時刻遮擋目標的狀態(tài)變化率,即將所選時長N內(nèi)的目標狀態(tài)變化率乘相應的權(quán)重系數(shù)來代替式(9)中的權(quán)重系數(shù)1/N.利用系數(shù)加權(quán)法,選取權(quán)重系數(shù)γn使其滿足:

(10)

式中,δ(0<δ<1)為遺忘因子,由上式知,γn有如下性質(zhì):

(11)

(12)

(13)

(14)

將式(14)代入式(8),由于距離遮擋較近時刻的狀態(tài)變化率對遮擋目標的狀態(tài)會產(chǎn)生影響,需增加相鄰時刻的權(quán)重系數(shù).根據(jù)修正后的目標狀態(tài)變化率可實現(xiàn)遮擋時刻的目標狀態(tài)估計.最后,利用式(1)~式(7)所示的卡爾曼濾波完成視覺多目標跟蹤.

4 數(shù)據(jù)關(guān)聯(lián)

當改進的YOLOv2網(wǎng)絡(luò)獲取第1幀目標位置后,由卡爾曼濾波實現(xiàn)各目標跟蹤,再對每幀視頻序列進行檢測,將卡爾曼濾波獲取的跟蹤信息和YOLOv2網(wǎng)絡(luò)獲取的檢測信息關(guān)聯(lián)匹配.一旦匹配成功,其檢測到的目標位置即為此幀目標跟蹤位置.

在關(guān)聯(lián)匹配階段,首先計算本文YOLOv2網(wǎng)絡(luò)得到的位置和卡爾曼濾波獲取目標位置的馬氏距離[19]比,然后求取檢測框和跟蹤框?qū)卣鞯淖钚∮嘞蚁嗨贫?,將上述兩個結(jié)果加權(quán)求和作為評價指標,評價檢測框和跟蹤框之間的匹配程度,成功匹配的位置邊框即為最優(yōu)的目標位置輸出.

Deep-Sort方法可由馬氏距離來度量跟蹤位置與檢測位置之間的運動匹配程度.根據(jù)式(15)計算第j個目標檢測邊框與第i個目標跟蹤框之間的馬氏距離:

(15)

假定檢測時長N內(nèi)的最大馬氏距離值為max{Mi,j},則當前馬氏距離的歸一化值為:

(16)

由于目標被遮擋后可能再次出現(xiàn)在檢測區(qū)域,Deep-SORT方法利用目標特征信息度量第j個檢測邊框與第i個跟蹤邊框之間的匹配程度.同時,輕量級卷積神經(jīng)網(wǎng)絡(luò)提取目標特征的過程減少了網(wǎng)絡(luò)參數(shù)的使用.MobileNet網(wǎng)絡(luò)不再使用池化層,并將卷積操作分兩步:深度可分離卷積用于特征信息提取;逐點卷積則用于特征信息融合.上述操作有效降低了網(wǎng)絡(luò)計算量,對于一個尺寸為3×3的卷積核,可降低7~9倍的計算量.

在標準卷積操作中,卷積核的通道數(shù)與對應特征圖的通道數(shù)相同.例如,輸入的特征圖為64×64×32,則標準卷積核的通道數(shù)為32.相比之下,在輕量級神經(jīng)網(wǎng)絡(luò)中的深度可分離卷積的通道數(shù)為1,逐點卷積的通道數(shù)與標準卷積相同.于是,利用深度可分離卷積提升網(wǎng)絡(luò)的運算速度.

接下來,求取檢測邊框與跟蹤邊框之間特征向量的余弦值[20]作為目標表觀匹配部分的權(quán)衡指標.檢測邊框的特征向量αj和跟蹤邊框的特征向量βi的相似程度為:

(17)

若兩個向量之間夾角的余弦值越接近1,它們之間的差異就越小.因此,利用最小余弦相似度度量兩類特征向量的差異:

(18)

最后,融合式(16)所述的運動匹配指標和式(18)所述的表觀匹配指標,得到新的度量指標Di,j:

(19)

式中,λ(0<λ<1)為加權(quán)系數(shù).因此,式(19)可用來衡量跟蹤邊框和檢測邊框的匹配程度.

綜上,融合改進YOLOv2網(wǎng)絡(luò)的視覺多目標跟蹤方法總結(jié)如下:

1)利用改進的YOLOv2網(wǎng)絡(luò)獲取目標的初始位置;

2)利用卡爾曼濾波跟蹤各目標,對每幀視頻序列進行檢測和跟蹤,利用檢測信息更新卡爾曼濾波.如果目標被遮擋,執(zhí)行步驟3);否則執(zhí)行步驟4);

3)當目標被遮擋時,修正遮擋目標的狀態(tài)變化率,獲取更精確的狀態(tài)信息;

4)計算改進YOLOv2網(wǎng)絡(luò)和卡爾曼濾波所提供位置的馬氏距離,獲取運動匹配的評價指標;

5)計算檢測邊框與跟蹤邊框之間特征向量的最小余弦相似度,獲取表觀匹配的評價指標;

6)融合步驟4)和步驟5)得出的兩類評價指標,獲取新的評價指標;

7)當檢測結(jié)果與跟蹤結(jié)果匹配時,輸出檢測位置作為該時刻的目標位置;

8)重復上述操作步驟,直到完成跟蹤任務(wù).

5 實驗分析與性能評價

本文實驗環(huán)境為Windows 10操作系統(tǒng),8G內(nèi)存,采用Python開發(fā)環(huán)境下的Anaconda管理工具包和PyCharm編輯器.實驗場景包括行人數(shù)據(jù)集跟蹤與實測車輛視頻跟蹤.其中,行人跟蹤的圖像采集速率為15幀/秒,幀尺寸為640像素×480像素;車輛跟蹤的圖像采集速率為25幀/秒,幀尺寸為1280像素×720像素.實驗截取的圖像幀主要涵蓋關(guān)注目標的出現(xiàn)區(qū)域.

本文實驗δ取0.96,對調(diào)整系數(shù)λ的不同數(shù)值在MOT(The Multiple Object Tracking)數(shù)據(jù)集上進行測試,實驗結(jié)果如表1所示.其中,recall為檢測目標數(shù)與真實目標數(shù)的正確匹配比;precision為正確匹配的檢測目標數(shù)與檢測目標數(shù)之比.當λ取0.1時的匹配效果更為理想.隨著訓練次數(shù)的增加,本文改進的YOLOv2網(wǎng)絡(luò)在準確度和召回率方面均有所改善.當網(wǎng)絡(luò)訓練次數(shù)達到50000次時,網(wǎng)絡(luò)準確度和召回率變化幅度很??;當訓練次數(shù)達到70000次時,本文YOLOv2網(wǎng)絡(luò)準確度達到95%,召回率達到90%.

表1 調(diào)整系數(shù)的選取Table 1 Selection of adjustment coefficient

5.1 行人跟蹤

圖2是本文方法在跟蹤行人目標時隨機截取的圖像幀.可以看出,該方法有效地跟蹤了視頻中的多目標,給出了準確的目標框與目標編號.

圖2 本文算法跟蹤行人的效果Fig.2 Effect of proposed algorithm that tracks pedestrians

接下來,將本文方法與KCF(Kernel Correlation Filter)、MIL(Multiple Instance Learning)、GOTURN(Generic Object Tracking Using Regression Networks)和MOSSE(Minimum Output Sum of Squared Error filter)等常用方法進行對比.圖3給出了目標5在第67~99幀的中心位置與各類跟蹤方法獲取的中心位置.本文方法基于改進YOLOv2網(wǎng)絡(luò)結(jié)構(gòu)充分利用特征信息,得到了更準確的目標位置區(qū)域.由匹配成功的檢測結(jié)果作為目標位置輸出,其可靠性也進一步提高.尤其,本文方法在大多數(shù)幀情況下比KCF方法和MOSSE方法更接近目標的真實位置.

圖3 目標5的中心位置估計Fig.3 Estimated center position of target 5

圖4進一步給出了行人目標遮擋時的跟蹤結(jié)果.場景1中目標10即將被目標9遮擋;場景2中目標10完全被目標9遮擋,但并沒有離開檢測區(qū)域,需繼續(xù)預測其運動軌跡.本文對目標10的狀態(tài)變化率進行加權(quán)修正預測位置.當場景3中的目標10再次出現(xiàn)時,由改進的YOLOv2網(wǎng)絡(luò)獲取位置,通過數(shù)據(jù)關(guān)聯(lián)匹配確認該目標后繼續(xù)跟蹤.

圖4 行人被遮擋時跟蹤結(jié)果Fig.4 Tracking results of occluded pedestrians

表2給出了遮擋情況下目標10的狀態(tài)修正結(jié)果.在第126幀無法獲取目標10的檢測結(jié)果;目標10在第145幀再次被檢測;在第126~144幀均無法得到遮擋目標的檢測信息,影響了目標10再次出現(xiàn)時的跟蹤結(jié)果.在目標遮擋期間,本文將修正遮擋目標的狀態(tài)變化率,由修正后的目標位置計算遮擋目標10在x方向上的狀態(tài)變化率為0.5像素/幀,在y方向的狀態(tài)變化率為0.25像素/幀.當它出現(xiàn)在視頻中,本文方法用檢測結(jié)果更新卡爾曼濾波模型.

表2 目標10的狀態(tài)修正情況Table 2 State correction of target 10

表3對比了各類跟蹤方法在行人跟蹤實驗中處理每幀圖像的平均運算時間.可以看出,MOSSE方法的運算時間最短.而本文方法融合了卡爾曼濾波與數(shù)據(jù)關(guān)聯(lián)步驟,較其KCF和MOSSE方法的運算時間長,與MIL方法的運算時間相近,可滿足常見視覺多目標跟蹤的時間需求.

5.2 車輛跟蹤

圖5給出了本文方法在遮擋情況下的車輛跟蹤結(jié)果.場景1中,本文方法由目標檢測框與跟蹤框之間的運動匹配與特征相似度,獲取到目標1與目標2的準確位置;場景2中,目標2完全被目標1遮擋,由修正后的目標2狀態(tài)變化率估計目標2的運動狀態(tài);場景3中,遮擋目標再次出現(xiàn),根據(jù)運動匹配與特征相似度結(jié)果將其作為原目標繼續(xù)跟蹤.

表3 平均運算時間Table 3 Average computation time

圖5 車輛被遮擋跟蹤結(jié)果Fig.5 Tracking results of occluded vehicles

圖6對比了各類跟蹤方法對目標1的中心位置估計.可以看出,本文方法由改進YOLOv2網(wǎng)絡(luò)結(jié)構(gòu)將判別器和分類器的結(jié)果融合后得到了準確的目標檢測位置.同時,基于馬氏距離的運動匹配與特征向量最小余弦相似度的表觀匹配加權(quán)融合方法,較其他跟蹤方法可靠性有顯著提高.

圖6 目標1的中心位置估計Fig.6 Estimated center position of target 1

遮擋期間的目標2狀態(tài)修正結(jié)果如表4所示.當目標2被遮擋時,由修正權(quán)重系數(shù)調(diào)整狀態(tài)變化率,并計算狀態(tài)信息.當它再次出現(xiàn)時,YOLOv2網(wǎng)絡(luò)獲取其檢測信息,進而更新卡爾曼濾波模型.實驗中的目標2在第8幀被目標1遮擋住,無法得出遮擋目標的檢測信息,需利用狀態(tài)變化率修正方法獲取目標位置;目標2在第28幀再次被檢測到,將其作為原目標跟蹤.因此,第8~27幀需要修正遮擋目標的狀態(tài)變化率.表4給出了目標2修正后的中心位置.可以看出,目標2在x方向的狀態(tài)變化率為5像素/幀,在y方向的狀態(tài)變化率為0.1像素/幀.

表4 目標2的狀態(tài)修正情況Table 4 State correction of target 2

表5 平均運算時間Table 5 Average computation time

表5對比了各類常見方法在跟蹤車輛目標實驗中每幀圖像的平均運算時間.其中,MOSSE方法的平均運算時間最短,而KCF方法和GOTURN方法的時間居中.本文方法所需的時間比MIL方法更短.

6 結(jié)束語

本文提出了一種融合改進YOLOv2網(wǎng)絡(luò)的視覺多目標跟蹤方法.首先,利用改進的YOLOv2網(wǎng)絡(luò)檢測每幀視頻中的目標.其次,通過修正遮擋目標的狀態(tài)變化率解決目標遮擋問題.當遮擋目標再次出現(xiàn)時,本文方法將該目標作為原目標并利用卡爾曼濾波進行跟蹤.然后,通過運動匹配與表觀匹配加權(quán)融合的結(jié)果將檢測信息與跟蹤信息進行關(guān)聯(lián)匹配.由于表觀匹配步驟需要一定時長,采用了深度可分離卷積重建特征提取網(wǎng)絡(luò),減少了計算量.最后,將匹配成功的檢測結(jié)果作為該幀的目標位置輸出.實驗證明,本文方法能提高視覺多目標跟蹤的綜合性能.

本文方法改善了目標遮擋時的跟蹤效果,但當目標特征發(fā)生突變時還需繼續(xù)完善,接下來將在目標跟蹤步驟引入異類傳感器以提升復雜場景下的跟蹤性能.另一方面,本文方法在表觀匹配步驟花費了一定的時長,接下來將從降低目標特征維度方面提升實時跟蹤的有效性,使其更為廣泛地適用于各類視頻目標跟蹤領(lǐng)域,如船舶動態(tài)跟蹤及航行軌跡規(guī)劃等.

猜你喜歡
邊框變化率卡爾曼濾波
一模六產(chǎn)品篩板模具的設(shè)計與應用
智能制造(2022年4期)2022-08-18 16:21:14
基于電流變化率的交流濾波器失諧元件在線辨識方法
湖南電力(2021年4期)2021-11-05 06:44:42
例談中考題中的變化率問題
用Lightroom添加寶麗來邊框
基于遞推更新卡爾曼濾波的磁偶極子目標跟蹤
給照片制作專業(yè)級的邊框
擺脫邊框的束縛優(yōu)派
中國照明(2016年6期)2016-06-15 20:30:14
利用基波相量變化率的快速選相方法
基于模糊卡爾曼濾波算法的動力電池SOC估計
川滇地區(qū)地殼應變能密度變化率與強震復發(fā)間隔的數(shù)值模擬
酉阳| 漾濞| 景东| 滨州市| 德保县| 黔江区| 习水县| 越西县| 苍南县| 萨迦县| 内黄县| 城步| 天台县| 得荣县| 库车县| 陈巴尔虎旗| 息烽县| 泸西县| 陇南市| 南投市| 顺义区| 辽阳市| 商城县| 婺源县| 灵寿县| 天水市| 湾仔区| 彭州市| 渝中区| 新昌县| 宁强县| 老河口市| 苍山县| 大田县| 河间市| 龙陵县| 杭州市| 彭阳县| 满洲里市| 南宫市| 炉霍县|