王文遠(yuǎn), 金晅宏, 宋文凈, 王軼煒
(上海理工大學(xué) 光電信息與計算機(jī)工程學(xué)院,上海 200093)
隨著人口數(shù)量以及其流動性的增加,人群密集現(xiàn)象越來越常見,這就對治理公共空間和社會安全提出了巨大的挑戰(zhàn)。智能視頻監(jiān)控系統(tǒng)在該領(lǐng)域包含豐富的內(nèi)容及算法,人群場景分析在現(xiàn)實(shí)生活中存在巨大的應(yīng)用價值,近年來吸引了大量研究者的關(guān)注[1~6]。人群密度高、模式變化快、場景中存在著巨大的遮擋等使得傳統(tǒng)視頻監(jiān)控技術(shù)不能直接應(yīng)用于人群場景[1,2]。傳統(tǒng)的目標(biāo)檢測方法如背景模型的建立[7]、Kalman濾波[8]、混合相關(guān)濾波[9]、ViBe算法[10]等檢測效率較低,準(zhǔn)確率也低。目前應(yīng)用廣泛的機(jī)器學(xué)習(xí)算法[10]和深度學(xué)習(xí)算法如OverFeat算法[11]、Faster R-CNN(Regions with CNN featrutes)算法[12],能夠達(dá)到較高的檢測精度。OverFeat算法使用深度卷積網(wǎng)絡(luò)一次完成分類、定位和檢測這3個機(jī)器視覺任務(wù),對單個網(wǎng)格產(chǎn)生的卷積特征使用分類器判斷目標(biāo)類別以及預(yù)測位置信息。Faster R-CNN算法利用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像檢測的算法,該方法使用CNN生成卷積網(wǎng)絡(luò)特征圖,并從卷積特征圖中使用全連接層提取特征用于類別分類和位置預(yù)測,使用多尺度的錨點(diǎn)窗口融合網(wǎng)格卷積特征檢測不同尺度與長寬比的圖像目標(biāo)。但OverFeat和Faster R-CNN算法都要通過置信度結(jié)果進(jìn)行比對、移除。當(dāng)檢測目標(biāo)存在遮擋時,極可能會移除掉被遮擋目標(biāo)。若調(diào)整重疊面積判斷參數(shù),則又可能出現(xiàn)大量的重復(fù)檢測結(jié)果[13~15]。
為解決上述問題,本文提出了基于ReInspect算法多目標(biāo)追蹤方法,通過利用LSTM網(wǎng)絡(luò)的記憶特性,有效解決了遮擋問題;不僅檢測精度比傳統(tǒng)方法高,且能有效解決重疊、遮擋等問題。通過對不同場景下針對多個運(yùn)動目標(biāo)進(jìn)行捕獲處理,證明算法具有較高的可靠性;同時對比傳統(tǒng)的多目標(biāo)追蹤算法,證明了該算法具有更好的處理效果。
在OverFeat算法的基礎(chǔ)上使用LSTM網(wǎng)絡(luò)[13]能夠極大地提高對遮擋目標(biāo)的檢測效果。這使得一個網(wǎng)格卷積特征能夠被復(fù)用,并產(chǎn)生多個序列特征來表征在圖像中被遮擋的目標(biāo)。ReInspect算法就是一種基于CNN與LSTM相結(jié)合的遮擋目標(biāo)檢測算法[16~19]。具體算法框圖如圖1所示。
圖1 ReInspect算法框圖
ReInspect算法與OverFeat算法在整體流程上基本是一致的,二者的區(qū)別在于是否使用了LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和對應(yīng)損失函數(shù)的預(yù)處理操作[16~19]。ReInspect算法采用LSTM網(wǎng)絡(luò)結(jié)構(gòu)對同一網(wǎng)絡(luò)生成特征序列表示遮擋目標(biāo)。假設(shè)LSTM網(wǎng)絡(luò)產(chǎn)生的m個特征序列,對應(yīng)的原始圖像標(biāo)記有n個目標(biāo)真值。則在訓(xùn)練過程中,m個樣本序列對應(yīng)的目標(biāo)類型將根據(jù)m個樣本的預(yù)測結(jié)果與n個目標(biāo)真值進(jìn)行相似匹配產(chǎn)生。匹配目標(biāo)類型的最大數(shù)量為min(m,n),而沒有匹配的特征序列將標(biāo)記為負(fù)樣本類型,對應(yīng)的坐標(biāo)位置填0。另外,ReInspect算法還采用了一種特殊的損失函數(shù)預(yù)處理方式。這種處理每次進(jìn)行操作后只會移除一個重疊檢測結(jié)果。這種操作能夠確保同一網(wǎng)格卷積特征產(chǎn)生的重疊目標(biāo)不會被認(rèn)為是重復(fù)檢測而被錯誤移除。
ReInspect算法在GoogLeNet網(wǎng)絡(luò)[20]的基礎(chǔ)上加入LSTM循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)抽取特征值[16~19]。而LSTMs能夠?qū)W習(xí)長期依賴關(guān)系[21]。
若網(wǎng)絡(luò)存在被遮擋的目標(biāo),ReInspect算法期望能夠利用LSTM網(wǎng)絡(luò)的記憶特性對被遮擋的目標(biāo)做進(jìn)一步的判斷檢測。理論上疊加的次數(shù)越多,越能概括更復(fù)雜的圖像遮擋情況,但需要的樣本也越多[21]。
在ReInspect算法中一個網(wǎng)絡(luò)特征最多能夠產(chǎn)生rnn_len個目標(biāo)檢測結(jié)果,這就使ReInspect在訓(xùn)練時向前傳播,單個網(wǎng)絡(luò)將會返回多個特征和多個類型標(biāo)簽。在計算損失函數(shù)前,ReInspect算法需要將序列特征值的預(yù)測結(jié)果與真值進(jìn)行匹配,再對序列樣本賦予類別標(biāo)簽計算損失函數(shù)[22]。所以在損失函數(shù)的計算前,有必要對樣本序列的排列次序進(jìn)行調(diào)整。這項(xiàng)操作稱為損失函數(shù)預(yù)處理。
通過調(diào)整循環(huán)LSTM網(wǎng)絡(luò)結(jié)構(gòu)產(chǎn)出特征的標(biāo)簽信息,能夠確保特征序列正確反映遮擋檢測目標(biāo)。當(dāng)循環(huán)LSTM網(wǎng)絡(luò)的循環(huán)次數(shù)為m時,每一個網(wǎng)絡(luò)將產(chǎn)生m對特征樣本和標(biāo)簽信息組成的序列。若網(wǎng)絡(luò)對應(yīng)存在n個遮擋目標(biāo)時,前n個網(wǎng)絡(luò)特征序列對應(yīng)的具體真值信息是沒有邏輯關(guān)聯(lián)的。ReInspect算法使用匈牙利算法[23]完成前n個特征序列與真值間的匹配,即希望訓(xùn)練時,前n個特征序列的預(yù)測結(jié)果與真值的總體加權(quán)匹配損失是最小的。
匹配距離計算方法如式(1)所示。
(1)
如圖2所示的匹配問題,其中2個虛線框表示目標(biāo)真值,標(biāo)有序號的實(shí)線方框代表網(wǎng)絡(luò)產(chǎn)生的4個預(yù)測結(jié)果。預(yù)測3與2個真值都沒有重疊區(qū)域,所以有oij=1,直接剔除;預(yù)測1、2和4與真值的重疊區(qū)域都大于閾值,而預(yù)測1和預(yù)測2相比序列號為1優(yōu)先匹配,因此預(yù)測1和預(yù)測4與真值匹配成功。
圖2 檢測結(jié)果匹配預(yù)處理示意圖
圖像檢測算法需要大量的訓(xùn)練圖像,通過損失函數(shù)計算的反向傳播梯度實(shí)現(xiàn)模型參數(shù)優(yōu)化,并最終訓(xùn)練得到檢測模型。損失函數(shù)如式(2)所示。
(2)
(3)
(4)
ReInspect算法使用循環(huán)LSTM網(wǎng)絡(luò)結(jié)構(gòu)令單個網(wǎng)絡(luò)單元產(chǎn)生多個序列特征值,并以此特征序列對遮擋目標(biāo)進(jìn)行檢測。然后,相鄰的網(wǎng)格特征因感知區(qū)域范圍存在重疊部分,若兩重疊檢測結(jié)果來自相同網(wǎng)絡(luò),則同時保留。若兩重疊檢測結(jié)果來自不同網(wǎng)絡(luò),則移除可信度較小的檢測結(jié)果。
另外,考慮到一個檢測結(jié)果可能會與多個不同網(wǎng)格的檢測結(jié)果重復(fù),檢測后處理方法再一次使用了匈牙利算法,實(shí)現(xiàn)了不同網(wǎng)格重復(fù)檢測結(jié)果的移除。由于同一目標(biāo)可能出現(xiàn)多次重復(fù)檢測,后處理算法采用了置信度分段的方式對檢測結(jié)果進(jìn)行了多次匹配移除。
基于ReInspect算法的目標(biāo)追蹤框架如圖3所示。
圖3 基于ReInspect算法的多目標(biāo)追蹤框架
本文實(shí)驗(yàn)使用平臺為Ubuntu 18.04操作系統(tǒng),內(nèi)存為16 GB,并使用顯存為6 GB的NVIDIA GeForce RTX 2060顯卡進(jìn)行加速。本實(shí)驗(yàn)所使用的訓(xùn)練數(shù)據(jù)集為NICTA行人數(shù)據(jù)庫,該數(shù)據(jù)庫是目前規(guī)模較大的靜態(tài)圖像行人數(shù)據(jù)庫, 25 551張含單人的圖片, 5 207張高分辨率非行人圖片。
實(shí)驗(yàn)測試數(shù)據(jù)集使用UCSD Ped數(shù)據(jù)集,該數(shù)據(jù)集由加州大學(xué)圣地亞哥分校提供。分別使用背景減除算法、ViBe算法、機(jī)器學(xué)習(xí)算法(HOG特征值+SVM訓(xùn)練)和本文算法對測試數(shù)據(jù)中的人型目標(biāo)進(jìn)行追蹤。
實(shí)驗(yàn)從測試數(shù)據(jù)集中隨機(jī)抽取場景1中的第300幀,各算法處理后結(jié)果如圖4所示,追蹤效果如表1所示。
圖4 場景1第300幀各算法處理效果圖
表1 場景1第300幀追蹤結(jié)果對比
由圖4及表1可以看出,在人群密集、人與人之間出現(xiàn)重疊的情況下,傳統(tǒng)的背景減除法和Vibe算法已經(jīng)不能正確檢測出單個的人,甚至?xí)⒌孛嫔系年幱罢`檢成一個人,準(zhǔn)確率只有18.75%和31.25%,而機(jī)器學(xué)習(xí)算法雖然識別準(zhǔn)確率顯著提高,但是對于重疊和邊緣的人群依然無法檢測出。本文提出的算法不僅能夠?qū)⒅丿B的行人明確檢測出,還能區(qū)別地面上的陰影,效果遠(yuǎn)好于傳統(tǒng)算法。
然后隨機(jī)抽取場景3中的第6 500幀,各算法處理后結(jié)果如圖5所示,追蹤效果如表2所示。
圖5 場景3第6 500幀各算法處理效果圖
表2 場景3第6 500幀追蹤結(jié)果對比
從實(shí)驗(yàn)結(jié)果看,當(dāng)出現(xiàn)陰影遮擋情況的時候,背景減除算法、ViBe算法準(zhǔn)確率都不高,機(jī)器學(xué)習(xí)算法雖然準(zhǔn)確率為92.03%,但對于被遮擋的人也檢測不出。而本文算法最顯著的效果就是能將完全被陰影遮住的人檢測出。
本文提出了一種基于深度學(xué)習(xí)的對多目標(biāo)進(jìn)行有效追蹤的方法。從目標(biāo)識別入手,首先將視頻轉(zhuǎn)化為圖片形式,通過ReInspect算法將行人從圖像中標(biāo)出,判斷圖片中追蹤物體是不是人并進(jìn)行追蹤。理論上,如果訓(xùn)練使用的樣本庫足夠大,神經(jīng)卷積網(wǎng)絡(luò)的迭代次數(shù)足夠多,實(shí)驗(yàn)可以達(dá)到準(zhǔn)確率100%目標(biāo)檢測與追蹤結(jié)果,尤其是能檢測出被陰影覆蓋或被人群遮擋的目標(biāo)。雖然本方法具有較高的追蹤準(zhǔn)確性,但是處理時間上的消耗巨大,無法在一般環(huán)境下(無GPU加速的情況)處理正常視頻流。因此,如何在保證高可靠性前提下盡量提高運(yùn)算的處理速度,將是本課題進(jìn)一步研究的重點(diǎn)。