胡海苗 沈柳青 高立崑 李明竹
(北京航空航天大學(xué) 計(jì)算機(jī)學(xué)院, 北京 100083)
近年來,隨著監(jiān)控設(shè)備的不斷更新?lián)Q代,越來越多的便捷實(shí)惠的視頻監(jiān)控設(shè)備被大范圍地應(yīng)用于日常生活之中[1]。 這些隨處可見的監(jiān)控設(shè)備不僅記錄著人們的生活,而且保障著人們的安全。但現(xiàn)實(shí)監(jiān)控場(chǎng)景是比較復(fù)雜的,場(chǎng)景中目標(biāo)的尺寸、姿態(tài)也是多種多樣,會(huì)出現(xiàn)被遮擋目標(biāo)、小目標(biāo)等容易漏檢的困難目標(biāo),降低目標(biāo)檢測(cè)算法的準(zhǔn)確率。 因此,針對(duì)固定攝像機(jī)拍攝出來的監(jiān)控視頻進(jìn)行目標(biāo)檢測(cè)依然是一項(xiàng)充滿挑戰(zhàn)的任務(wù)。
在目標(biāo)檢測(cè)算法的發(fā)展歷程中,算法種類可以分為傳統(tǒng)的目標(biāo)檢測(cè)算法和在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上發(fā)展起來的目標(biāo)檢測(cè)算法。
傳統(tǒng)的目標(biāo)檢測(cè)算法又可以分為2 類:一類是利用手工設(shè)計(jì)特征的檢測(cè)算法;另一類是利用運(yùn)動(dòng)變換信息的檢測(cè)算法。
對(duì)于利用手工設(shè)計(jì)特征的目標(biāo)檢測(cè)算法,都遵循著同樣的流程,分別是區(qū)域選擇、特征提取和分類器分類。 首先是區(qū)域選擇,也被稱為候選區(qū)域提取,是為了從圖像中生成大量的候選區(qū)域,用于下一步的特征提取。 在特征提取階段,一般使用手工設(shè)計(jì)的特征,也就是紋理、顏色等底層特征,如梯度方向直方圖特征(histogram of oriented gridients, HOG)[2]、局部二值模式(local binary pattern, LBP)[3]、尺度不變特征變換(scale invariant feature transform, SIFT)[4],這些底層特征經(jīng)過編碼學(xué)習(xí)后,能夠得到更深一層的特征,包括主成分分析(principal component analysis, PCA)特征、線性判別分析(linear discriminant analysis, LDA)特征等。 總體來說,手工設(shè)計(jì)的特征在光照變化、遮擋等復(fù)雜場(chǎng)景下的魯棒性較差,因此會(huì)導(dǎo)致目標(biāo)檢測(cè)的準(zhǔn)確率不高。 進(jìn)入到分類階段,使用訓(xùn)練過的分類器對(duì)提取的特征進(jìn)行分類,得到目標(biāo)檢測(cè)的結(jié)果。 另一種傳統(tǒng)的目標(biāo)檢測(cè)算法是利用運(yùn)動(dòng)變換信息對(duì)目標(biāo)進(jìn)行檢測(cè)。 具體來說,是利用運(yùn)動(dòng)目標(biāo)檢測(cè)算法,如幀間差分法[5]、背景差分法[6-8]等,生成運(yùn)動(dòng)前景圖,從而得到運(yùn)動(dòng)目標(biāo)的位置。
基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法可以分為單階段算法和兩階段算法,不同在于是否有明確的感興趣區(qū)域(region of interest,ROI)提取步驟。在單階段算法中,會(huì)將整幅圖像劃分為小格子,在小格子上按照預(yù)先設(shè)定的錨框直接對(duì)圖像進(jìn)行分類和回歸,典型算法有SSD 系列算法[9]、YOLO 系列算法[10-13]、RetinaNet 算法[14]。 兩階段算法通常會(huì)使用區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN),通過預(yù)先設(shè)定的錨框,提取出ROI,再通過全連接網(wǎng)絡(luò)針對(duì)提取出的ROI 進(jìn)行分類和回歸操作,典型算法有R-CNN[15]、Fast R-CNN[16]、Faster R-CNN[17]、Cascade R-CNN[18]。 相比較而言,單階段檢測(cè)器時(shí)間效率更高,但兩階段檢測(cè)器的準(zhǔn)確率更高。
基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法的性能很大程度上依賴于訓(xùn)練時(shí)所使用的數(shù)據(jù)集,而在大部分?jǐn)?shù)據(jù)集中,困難目標(biāo)的數(shù)量較少,導(dǎo)致模型分布不均衡,無法對(duì)該類目標(biāo)有充分的學(xué)習(xí);同時(shí),困難目標(biāo)由于特征不顯著,很容易被檢測(cè)器忽略,造成漏檢;不僅如此,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法還要求對(duì)數(shù)據(jù)要有較高質(zhì)量的標(biāo)注,如果要對(duì)困難目標(biāo)進(jìn)行標(biāo)注,需要花費(fèi)較多的人力,對(duì)數(shù)據(jù)集中的目標(biāo)進(jìn)行仔細(xì)的辨認(rèn)和精準(zhǔn)的標(biāo)注,代價(jià)比較昂貴,甚至在標(biāo)注時(shí)很可能會(huì)引入干擾,反而降低了檢測(cè)器的性能。 除此之外,現(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法對(duì)候選目標(biāo)框置信度的預(yù)測(cè)考慮不夠全面,只考慮到了分類置信度,即目標(biāo)屬于該類別的概率。 但是,分類置信度高并不能說明該候選目標(biāo)框的位置也是十分精準(zhǔn)的,只考慮分類置信度,可能會(huì)導(dǎo)致定位精準(zhǔn)的候選目標(biāo)框被篩除,影響目標(biāo)檢測(cè)算法的準(zhǔn)確率。
傳統(tǒng)目標(biāo)檢測(cè)算法中的利用運(yùn)動(dòng)變換信息的目標(biāo)檢測(cè)算法[5-8],可以快速發(fā)現(xiàn)困難目標(biāo),并且運(yùn)動(dòng)前景圖中的前景位置能夠體現(xiàn)目標(biāo)的空間位置信息。 而在室外監(jiān)控場(chǎng)景下,大部分的目標(biāo)都是能提取到運(yùn)動(dòng)信息的,同時(shí),處于運(yùn)動(dòng)狀態(tài)的目標(biāo)是更應(yīng)該關(guān)注的目標(biāo)。 因此,可以考慮將運(yùn)動(dòng)信息與目標(biāo)檢測(cè)算法相結(jié)合,提升目標(biāo)檢測(cè)的準(zhǔn)確性。 但是運(yùn)動(dòng)目標(biāo)檢測(cè)算法的缺點(diǎn)也是顯而易見的,該類算法主要針對(duì)的是運(yùn)動(dòng)目標(biāo)的檢測(cè),因此,在目標(biāo)靜止或運(yùn)動(dòng)幅度不大時(shí),很難或不能完整提取出目標(biāo)區(qū)域。
本文提出了一種運(yùn)動(dòng)信息引導(dǎo)的目標(biāo)檢測(cè)算法主要?jiǎng)?chuàng)新點(diǎn)如下:①提出一種改進(jìn)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法,在ViBe 背景建模算法[7]的基礎(chǔ)上進(jìn)行了改進(jìn),改進(jìn)后的算法能夠減少靜止目標(biāo)融入背景的情況;②提出一種基于運(yùn)動(dòng)信息的多尺度特征融合模型,將以運(yùn)動(dòng)前景圖為主的運(yùn)動(dòng)信息作為空間權(quán)重與特征金字塔網(wǎng)絡(luò)提取的特征圖相融合;③提出一種運(yùn)動(dòng)前景圖指導(dǎo)的定位分支模塊,根據(jù)前景的位置信息學(xué)習(xí)預(yù)測(cè)候選目標(biāo)的定位置信度,作為目標(biāo)分類置信度的補(bǔ)充。
目前來說,運(yùn)動(dòng)信息在目標(biāo)檢測(cè)算法中的應(yīng)用分為2 種:①傳統(tǒng)目標(biāo)檢測(cè)算法中利用運(yùn)動(dòng)變換信息的檢測(cè)算法;②將運(yùn)動(dòng)信息(主要是光流信息)引入到卷積神經(jīng)網(wǎng)絡(luò)中,簡(jiǎn)化卷積神經(jīng)網(wǎng)絡(luò)特征的提取或進(jìn)行多幀特征的融合。
深度特征流(deep feature flow, DFF)[19]方法首次將光流信息引入到了目標(biāo)檢測(cè)網(wǎng)絡(luò)中,Zhu等發(fā)現(xiàn),在基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法中,最耗時(shí)的步驟是特征提取,并且對(duì)于一個(gè)連續(xù)的視頻序列來說,相鄰幀提取的特征差別并不大,因此,在卷積神經(jīng)網(wǎng)絡(luò)中引入了光流信息來預(yù)測(cè)特征圖,減少神經(jīng)網(wǎng)絡(luò)在提取特征方面的時(shí)間開銷。DFF 網(wǎng)絡(luò)中,將視頻幀分為關(guān)鍵幀和非關(guān)鍵幀。卷積神經(jīng)網(wǎng)絡(luò)對(duì)關(guān)鍵幀提取特征;而對(duì)非關(guān)鍵幀,會(huì)與關(guān)鍵幀一起輸入到光流網(wǎng)絡(luò)中,得到光流信息,再根據(jù)光流信息對(duì)關(guān)鍵幀的特征進(jìn)行修正,作為非關(guān)鍵幀的特征進(jìn)行后續(xù)的分類回歸。
光流引導(dǎo)的特征融合(flow guild feature aggregation, FGFA)[20]網(wǎng)絡(luò)在DFF 網(wǎng)絡(luò)的基礎(chǔ)上,利用光流信息聚集相鄰幀上的特征,提高檢測(cè)的精度。 對(duì)于當(dāng)前幀,FGFA 網(wǎng)絡(luò)會(huì)將其前后各k幀的特征按照DFF 網(wǎng)絡(luò)的方法預(yù)測(cè)出對(duì)應(yīng)的當(dāng)前幀特征,再將這2k幀特征按照權(quán)值平均的方法與當(dāng)前幀特征聚合,將聚合后的特征進(jìn)行后續(xù)的分類回歸。
光流信息可以通過深度學(xué)習(xí)方法或傳統(tǒng)方法獲取。 深度學(xué)習(xí)方法需要進(jìn)行額外的標(biāo)注和訓(xùn)練,傳統(tǒng)方法在背景發(fā)生劇烈變化時(shí)會(huì)失效,并且光流信息對(duì)光照的變化比較敏感,也不能像運(yùn)動(dòng)前景圖那樣明確地反映出來前景的位置。 而本文的應(yīng)用場(chǎng)景是針對(duì)固定攝像機(jī)拍攝的監(jiān)控視頻,不用考慮到周圍環(huán)境的運(yùn)動(dòng),因此,可以使用幀間差分法或背景差分法來獲取運(yùn)動(dòng)信息,運(yùn)動(dòng)信息的獲取更加快速,能更加準(zhǔn)確地反映前景位置。 同時(shí),本文引入運(yùn)動(dòng)信息,目的是采用一種便捷的方式為卷積神經(jīng)網(wǎng)絡(luò)提供目標(biāo)的位置信息,而不用進(jìn)行代價(jià)昂貴的標(biāo)注,光流信息的深度學(xué)習(xí)方法需要引入額外的標(biāo)注,反而違背了這一初衷。
為了提高檢測(cè)器的定位精度,目前使用的改進(jìn)方法大致有2 類:一類是選擇更加能夠反映定位準(zhǔn)確性的定位損失函數(shù);另一類是在檢測(cè)器中加入定位置信度的預(yù)測(cè)。 一般來說,判斷預(yù)測(cè)目標(biāo)定位是否精準(zhǔn),是通過計(jì)算預(yù)測(cè)目標(biāo)的檢測(cè)框和標(biāo)注信息中真值框的IoU 值。 但是IoU 存在一個(gè)問題,對(duì)于沒有重疊的2 個(gè)框,因?yàn)镮oU 值為0,所以無法進(jìn)行學(xué)習(xí)訓(xùn)練。 在這種情況下,有學(xué)者提 出 了 GIoU ( generalized intersection over union)[21]的概念。 GIoU 同時(shí)關(guān)注了重疊區(qū)域和不重疊區(qū)域,即使兩框沒有重疊,也能計(jì)算出距離值,取值范圍為[ -1,1],越接近1 表示兩框的重疊程度越大,越接近- 1 表示兩框的距離越遠(yuǎn)。而對(duì)于在檢測(cè)器中加入定位置信度預(yù)測(cè)的方法,IoU-Net[22]中為檢測(cè)器設(shè)計(jì)了一個(gè)獨(dú)立的定位分支,在Faster R-CNN 網(wǎng)絡(luò)的基礎(chǔ)上,使用真值框和檢測(cè)框IoU 作為定位置信度進(jìn)行學(xué)習(xí);IoUaware RetinaNet[23]是在RetinaNet 網(wǎng)絡(luò)的基礎(chǔ)上,在回歸分支中增加了一個(gè)模塊預(yù)測(cè)定位置信度。
以上方法對(duì)于定位精度的衡量都是根據(jù)檢測(cè)框和真值框來計(jì)算的,需要精確的標(biāo)注信息,但是對(duì)于數(shù)據(jù)集中的困難目標(biāo),在很多時(shí)候是缺少標(biāo)注的,而在運(yùn)動(dòng)前景圖中可以顯示出這類目標(biāo)的位置,因此,可以通過計(jì)算運(yùn)動(dòng)前景圖中前景的外接矩形框和預(yù)測(cè)目標(biāo)檢測(cè)框的匹配程度,作為候選目標(biāo)的定位置信度指標(biāo)。 同時(shí),相較于采用獨(dú)立的定位分支,本文在檢測(cè)器中直接增加一個(gè)定位分支,使用與回歸分支和分類分支相同的特征,學(xué)習(xí)候選目標(biāo)的定位置信度,保證特征的一致性。
在室外視頻監(jiān)控的環(huán)境下,針對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法對(duì)困難目標(biāo)標(biāo)注代價(jià)高和置信度預(yù)測(cè)時(shí)考慮不全面這2 個(gè)問題,本文提出了一種運(yùn)動(dòng)信息引導(dǎo)的目標(biāo)檢測(cè)算法。 從基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法的特征提取和置信度預(yù)測(cè)這2 個(gè)方面展開研究,分為3 個(gè)模塊:運(yùn)動(dòng)前景圖獲取模塊、多尺度特征融合模塊和定位分支模塊。 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 本文方法網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of the proposed method
本文所提目標(biāo)檢測(cè)算法以原始視頻幀和視頻幀對(duì)應(yīng)的運(yùn)動(dòng)前景圖作為輸入。 運(yùn)動(dòng)前景圖獲取模塊的作用是獲取視頻幀對(duì)應(yīng)的運(yùn)動(dòng)前景圖。 本文針對(duì)的是攝像機(jī)固定下的監(jiān)控場(chǎng)景,因此選取了快速的、無監(jiān)督的ViBe 背景建模算法來獲取運(yùn)動(dòng)前景圖,并對(duì)ViBe 算法進(jìn)行了改進(jìn)。 改進(jìn)后的算法能夠減少靜止目標(biāo)融入背景或提取前景有殘缺的情況。 整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)可以看作2 個(gè)階段:①特征提取階段。 通過ResNet 的骨架網(wǎng)絡(luò)輸出一系列的特征圖,經(jīng)過特征金字塔網(wǎng)絡(luò)(feature pyramid networks, FPN)輸出金字塔網(wǎng)絡(luò)的各層尺寸不同的特征,通過本文提出的多尺度特征融合模塊,將運(yùn)動(dòng)信息與金字塔網(wǎng)絡(luò)的各層輸出進(jìn)行融合,形成各層最終的特征圖。 ②檢測(cè)階段。將特征提取階段獲取的特征圖輸入到檢測(cè)器中進(jìn)行檢測(cè),經(jīng)過分類分支、回歸分支及本文提出的定位分支,得到檢測(cè)框、分類置信度和定位置信度,再經(jīng)過非極大值抑制(non maximum suppression,NMS)[24]得到最終的檢測(cè)結(jié)果。
ViBe[7]算法是一種像素級(jí)的背景建模算法。在初始化時(shí)會(huì)對(duì)像素點(diǎn)建立一個(gè)鄰域集合,對(duì)于之后新的圖像幀,為每個(gè)像素點(diǎn)計(jì)算其與每個(gè)鄰域像素點(diǎn)的歐氏距離。 如果該像素與足夠多的鄰域像素點(diǎn)(一般設(shè)置為20)歐氏距離小于設(shè)置的閾值(一般為16),則認(rèn)為該像素點(diǎn)屬于背景像素;否則認(rèn)為該像素點(diǎn)屬于前景像素,由此生成運(yùn)動(dòng)前景圖。
運(yùn)動(dòng)目標(biāo)檢測(cè)算法存在一個(gè)問題,對(duì)于視頻中運(yùn)動(dòng)一段時(shí)間后長(zhǎng)時(shí)間靜止的目標(biāo),會(huì)將其判斷為靜止目標(biāo),或在檢測(cè)的前景上出現(xiàn)空洞。 為了減少這種情況的發(fā)生,本文對(duì)ViBe 算法進(jìn)行了改進(jìn),利用歷史幀與當(dāng)前幀的相似度對(duì)靜止目標(biāo)作二次判斷,避免靜止目標(biāo)融入到背景之中。
改進(jìn)的ViBe 背景建模算法會(huì)為每個(gè)像素點(diǎn)設(shè)置一個(gè)前景計(jì)數(shù)器fgCount 和一個(gè)前景標(biāo)志fgFlag。 初始時(shí)前景計(jì)數(shù)器fgCount 設(shè)置為0,表示該像素點(diǎn)被判斷為前景的次數(shù)為0,前景標(biāo)志fgFlag 也設(shè)置為0,表示該像素為背景。
對(duì)于輸入的圖像,將圖像中的各個(gè)像素與初始背景模型進(jìn)行匹配度計(jì)算。 如果像素點(diǎn)與背景模型匹配,則認(rèn)為該像素點(diǎn)為背景點(diǎn),將該像素點(diǎn)的fgCount 和fgFlag 都置為0,對(duì)該像素點(diǎn)對(duì)應(yīng)的鄰域背景模型進(jìn)行更新;如果不匹配,則認(rèn)為像素點(diǎn)為前景點(diǎn),fgCount 值加1,fgFlag 置為1,表示該像素點(diǎn)為前景。
當(dāng)一個(gè)像素的前景計(jì)數(shù)器fgCount 達(dá)到閾值(設(shè)置為10)時(shí),認(rèn)為該前景已經(jīng)持續(xù)存在了一段時(shí)間,需要判斷該前景對(duì)應(yīng)的是否為靜止目標(biāo)。判斷方法是:計(jì)算該像素與所保存的歷史背景幀的對(duì)應(yīng)像素的誤差平方,確定相似度,如果相似,認(rèn)為該點(diǎn)為靜止目標(biāo),fgCount 置為0,fgFlag 保持為1;否則fgCount 和fgFlag 都置為0,對(duì)該像素點(diǎn)對(duì)應(yīng)的鄰域背景模型進(jìn)行更新,并用當(dāng)前幀的像素更新歷史背景幀的對(duì)應(yīng)像素。
圖2(a)為原始視頻幀,圖2(b)為ViBe 算法得出的前景圖,圖2(c)為改進(jìn)的ViBe 算法得出的前景圖,第1 行中目標(biāo)長(zhǎng)時(shí)間靜止,消失在前景圖中,改進(jìn)的ViBe 算法能夠得到靜止目標(biāo)的前景,第2、3 行中目標(biāo)靜止導(dǎo)致前景圖中有空洞,改進(jìn)的ViBe 算法能夠填補(bǔ)前景中的空洞。
圖2 運(yùn)動(dòng)前景圖結(jié)果比較Fig.2 Comparison of foreground map results
基于運(yùn)動(dòng)信息的多尺度特征融合方法網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 基于運(yùn)動(dòng)信息的多尺度特征融合模塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of multi-scale feature fusion module based on motion information
為了獲取更多目標(biāo)的信息,本文在運(yùn)動(dòng)前景圖的基礎(chǔ)上,將原始視頻幀的灰度圖與運(yùn)動(dòng)前景圖進(jìn)行通道拼接,得到引導(dǎo)圖。 這樣,不僅可以對(duì)運(yùn)動(dòng)前景圖補(bǔ)充信息,而且可以將運(yùn)動(dòng)前景圖也擴(kuò)充為三通道的圖像,方便后續(xù)操作。 同時(shí),基于運(yùn)動(dòng)信息的多尺度特征融合模塊是在特征層面進(jìn)行運(yùn)動(dòng)信息與特征圖的融合操作,因此,為了保證最終獲得的運(yùn)動(dòng)信息和卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的特征圖具有相同的尺寸和通道數(shù),會(huì)將獲得的引導(dǎo)圖也輸入到相同的骨架網(wǎng)絡(luò)中,得到最終的運(yùn)動(dòng)信息。
輸入的原始視頻幀經(jīng)過骨架網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)之后得到了自上而下X1、X2、X3、X4四層特征,同樣,運(yùn)動(dòng)前景圖與原始圖像灰度圖通道拼接后的引導(dǎo)圖經(jīng)過骨架網(wǎng)絡(luò)后得到了G1、G2、G3、G4四層的運(yùn)動(dòng)信息,這些信息是特征融合模塊的輸入。 下文就以第4 層的特征融合模塊為例進(jìn)行介紹,特征融合方式如圖4 所示。
圖4 多尺度特征融合模塊示意圖Fig.4 Schematic diagram of multi-scale feature fusion module
式中:X′1、X′2、X′3分別為將X1、X2、X3經(jīng)過上采樣操作處理成與X4相同大小的特征;M4為將X4與獲取的引導(dǎo)圖拼接在一起,經(jīng)過一個(gè)簡(jiǎn)單的卷積網(wǎng)絡(luò)后得 到的 注意力分布圖;X1→4、X2→4、X3→4分別為特征金字塔網(wǎng)絡(luò)前3 層特征圖與注意力分布圖按元素相乘后的特征;X~4為第4 層融合后的特征。
其他層的特征融合模塊的操作與第4 層類似,通過這種方式將運(yùn)動(dòng)信息與特征金字塔網(wǎng)絡(luò)各層特征融合,使得特征圖重點(diǎn)關(guān)注可能存在目標(biāo)的區(qū)域。
本文根據(jù)計(jì)算的候選目標(biāo)檢測(cè)框與前景區(qū)域外接矩形框的匹配程度作為衡量候選目標(biāo)定位置信度的指標(biāo)。 受到IoU 計(jì)算公式的啟發(fā),考慮可以用兩者區(qū)域交集的面積比上并集的面積來表示匹配程度。 但是通過對(duì)運(yùn)動(dòng)目標(biāo)前景區(qū)域的觀察發(fā)現(xiàn),在目標(biāo)比較密集的區(qū)域,其前景區(qū)域會(huì)粘連在一起,提取的外接矩形框也會(huì)包含多個(gè)目標(biāo),使用兩者區(qū)域的并集作為分母就會(huì)得到一個(gè)比較小的值,無法正確地反映兩者的匹配程度。 因此,在計(jì)算檢測(cè)網(wǎng)絡(luò)提取到的預(yù)測(cè)目標(biāo)檢測(cè)框與前景圖中的外接矩形框匹配程度時(shí),對(duì)IoU 的計(jì)算方法進(jìn)行了改進(jìn),如下:
本文在目標(biāo)檢測(cè)算法的檢測(cè)器中增加一個(gè)分支作為定位分支,該分支與分類分支和回歸分支共享2 個(gè)全連接層,3 個(gè)分支保持特征的一致性。增加定位分支后的檢測(cè)器結(jié)構(gòu)如圖5 所示,圖中各組成結(jié)構(gòu)上的數(shù)字代表該結(jié)構(gòu)輸出的大小,C表示使用的數(shù)據(jù)集中目標(biāo)種類的數(shù)目。
圖5 引入定位分支后的檢測(cè)器結(jié)構(gòu)Fig.5 Detection head structure after introducing localization branch
定位分支和分類分支、回歸分支一樣,會(huì)共同參與到對(duì)于全連接層的訓(xùn)練中,提升全連接層在提取特征時(shí)的定位準(zhǔn)確率,使候選目標(biāo)能夠得到一個(gè)定位置信度的同時(shí),也能夠提升回歸分支中檢測(cè)框的定位精度。
3 個(gè)分支使用的訓(xùn)練損失函數(shù)各不相同,分類分支使用了交叉熵?fù)p失函數(shù):
式中:Ltotal為整個(gè)網(wǎng)絡(luò)的損失。
在測(cè)試階段,通過定位分支獲得每個(gè)預(yù)測(cè)目標(biāo)的定位置信度,再與分類分支獲得的分類置信度進(jìn)行加權(quán)求和,獲得目標(biāo)最終的置信度:
confidencescore= ?·clsscore+ (1- ?)locscore(11)
式中:confidencescore為目標(biāo)最終的置信度;clsscore從分類分支獲得,為候選目標(biāo)的分類置信度;locscore從定位分支得到,為候選目標(biāo)的定位置信度;?為權(quán)重,本文取值0.6。 得到預(yù)測(cè)目標(biāo)的最終置信度后,用這一置信度指導(dǎo)NMS 方法進(jìn)行重復(fù)候選框的篩除,獲得檢測(cè)結(jié)果。
本文實(shí)驗(yàn)在Ubuntu 系統(tǒng)下進(jìn)行,整體神經(jīng)網(wǎng)絡(luò)框架基于Pytorch 構(gòu)建而成。 程序編寫中使用的主要編程語言為Python3,同時(shí)為了方便程序的管理和使用,通過anaconda 搭建了一個(gè)虛擬環(huán)境,全部實(shí)驗(yàn)都在虛擬環(huán)境下進(jìn)行。 除此之外,在硬件方面,使用了GPU 加速訓(xùn)練過程。
本文使用的基線方法是Cascade R-CNN[18]網(wǎng)絡(luò),包括ResNet-50 骨架網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)、RPN 網(wǎng)絡(luò)和級(jí)聯(lián)檢測(cè)網(wǎng)絡(luò)。 在訓(xùn)練策略上采用聯(lián)合訓(xùn)練方法,使用隨機(jī)梯度下降法(stochastic gradient descent, SGD)訓(xùn)練策略,初始學(xué)習(xí)率設(shè)置為0.001,使用step 方法進(jìn)行學(xué)習(xí)率的調(diào)整,動(dòng)量設(shè)置為0.9,權(quán)值衰減系數(shù)為0.000 1。
本文在進(jìn)行實(shí)驗(yàn)時(shí)選用了3 個(gè)數(shù)據(jù)集:①筆者所在實(shí)驗(yàn)室自建的且已經(jīng)公開發(fā)表的數(shù)據(jù)集DML_det[25];②DukeMTMC[26]數(shù)據(jù)集中的一部分?jǐn)?shù)據(jù);③PETS09[27]數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)。 其中,DML_det 數(shù)據(jù)集來自于筆者所在實(shí)驗(yàn)室,拍攝于北京航空航天大學(xué),時(shí)間跨度較長(zhǎng),數(shù)據(jù)集中的目標(biāo)較小。 訓(xùn)練階段使用了DML_det 中的18 段視頻段,測(cè)試階段使用了其中10 個(gè)視頻段,并且對(duì)視頻段進(jìn)行了采樣間距為100 幀的采樣。 Duke-MTMC 數(shù)據(jù)集拍攝于杜克大學(xué)校園。 本文選擇了Cam1 和Cam9 兩個(gè)場(chǎng)景進(jìn)行實(shí)驗(yàn),同樣使用了采樣方法,每隔100 幀選取一張圖像,共獲得了2 556幀圖像,其中一半圖像作為訓(xùn)練集,另一半圖像作為測(cè)試集。 PETS09 數(shù)據(jù)集拍攝于英國(guó)雷丁大學(xué),選擇了S0 作為訓(xùn)練集,S2 中的L2 難度的測(cè)試集作測(cè)試。 S0 中共包含7 163 張訓(xùn)練圖像,S2 的L2 中共包含1 131 張測(cè)試圖像。 針對(duì)使用的3 個(gè)數(shù)據(jù)集,在訓(xùn)練測(cè)試時(shí)只對(duì)其中的行人目標(biāo)進(jìn)行檢測(cè),騎自行車或三輪車的行人也歸屬于行人類別。
評(píng)價(jià)標(biāo)準(zhǔn)方面,本文采用了與COCO 數(shù)據(jù)集相同的評(píng)價(jià)方式,即通過平均精確率(average precision, AP)和召回率(Recall)來評(píng)價(jià)模型[28]。
對(duì)于網(wǎng)絡(luò)給出的檢測(cè)框,只有當(dāng)其與真值框計(jì)算出的IoU 大于設(shè)定的閾值時(shí),才認(rèn)為檢測(cè)結(jié)果是正確的。 這個(gè)目標(biāo)被成功地檢測(cè)出來,則屬于正確的正樣本(true positive, TP),而如果有一個(gè)被標(biāo)注的目標(biāo),沒有檢測(cè)框與其對(duì)應(yīng),就認(rèn)為這是一個(gè)錯(cuò)誤的負(fù)樣本(false negtive, FN),當(dāng)一個(gè)沒有被標(biāo)注過的區(qū)域出現(xiàn)了檢測(cè)框,就認(rèn)為這是一個(gè)錯(cuò)誤的正樣本(false positive, FP)。 基于上述對(duì)不同檢測(cè)結(jié)果的定義,精確率(Precision)和召回率(Recall)的計(jì)算公式如下:
式中:Recall 表示正確檢測(cè)出來的目標(biāo)占所有目標(biāo)的比率。
本文采用了多個(gè)IoU 閾值對(duì)提出的算法進(jìn)行評(píng)估,其中AP@ [0.5:0.95]代表選取了從0.5、0.55 到0. 95 的IoU 閾值,計(jì)算這些閾值下的平均精確率,再求這些平均精確率的平均值,Recall@ [0.5:0.95]代表從0.5、0.55 到0.95 的IoU 閾值下的平均召回率。
本文提出了一種基于運(yùn)動(dòng)信息的多尺度特征融合方法。 利用運(yùn)動(dòng)目標(biāo)檢測(cè)算法可以獲得目標(biāo)位置信息,尤其是困難目標(biāo)信息的特點(diǎn),并對(duì)運(yùn)動(dòng)目標(biāo)檢測(cè)算法進(jìn)行改進(jìn),將運(yùn)動(dòng)前景圖作為空間權(quán)重融合到卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖中。 同時(shí),提出了一種運(yùn)動(dòng)前景圖指導(dǎo)的定位分支模塊,根據(jù)運(yùn)動(dòng)前景圖中前景的空間位置,衡量卷積神經(jīng)網(wǎng)絡(luò)候選目標(biāo)的定位置信度。
為了說明本文算法對(duì)目標(biāo)檢測(cè)算法準(zhǔn)確率的提升,選取了幾種近年提出的目標(biāo)檢測(cè)算法,同樣在 DML _ det 數(shù) 據(jù) 集、 DukeMTMC 數(shù) 據(jù) 集 和PETS09 數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試,與本文算法做對(duì)比,實(shí)驗(yàn)結(jié)果如表1 ~表3 所示。
從表1 ~表3 的實(shí)驗(yàn)結(jié)果可以看出,YOLOX、YOLOF、Sparse R-CNN、Deformable DETR 等算法對(duì)于本文所使用的數(shù)據(jù)集表現(xiàn)不好。 一方面,本文選用的數(shù)據(jù)集數(shù)據(jù)量遠(yuǎn)小于COCO 數(shù)據(jù)集;另一方面,如Sparse R-CNN 算法需要多個(gè)輪次的訓(xùn)練才可以達(dá)到最好的效果。 整體的實(shí)驗(yàn)結(jié)果表明,對(duì)于固定攝像機(jī)拍攝的監(jiān)控視頻場(chǎng)景下的行人檢測(cè),本文算法表現(xiàn)較好。
表1 DML_det 數(shù)據(jù)集上本文算法與其他目標(biāo)檢測(cè)算法對(duì)比Table 1 Comparison of the proposed algorithm with other object detection algorithms on DML_det dataset %
表2 DukeMTMC 數(shù)據(jù)集上本文算法與其他目標(biāo)檢測(cè)算法對(duì)比Table 2 Comparison of the proposed algorithm with other object detection algorithms on DukeMTMC dataset %
表3 PETS09 數(shù)據(jù)集上本文算法與其他目標(biāo)檢測(cè)算法對(duì)比Table 3 Comparison of the proposed algorithm with other object detection algorithms on PETS09 dataset %
將本文提出的多尺度特征融合方法和定位分支模塊,分別應(yīng)用于基線方法Cascade R-CNN 中,在DML_det 數(shù)據(jù)集、DukeMTMC 數(shù)據(jù)集和PETS09數(shù)據(jù)集上對(duì)算法進(jìn)行了消融實(shí)驗(yàn),得到的結(jié)果如表4 ~表6 所示。
表4 DML_det 數(shù)據(jù)集性能評(píng)價(jià)指標(biāo)Table 4 Performance evaluation indexes of DML_det dataset
表5 DukeMTMC 數(shù)據(jù)集性能評(píng)價(jià)指標(biāo)Table 5 Performance evaluation indexes of DukeMTMC dataset
表6 PETS09 數(shù)據(jù)集性能評(píng)價(jià)指標(biāo)Table 6 Performance evaluation indexes of PETS09 dataset
從表4 ~表6 實(shí)驗(yàn)結(jié)果可以看出,引入多尺度特征融合模塊和定位分支都可以在基線方法上帶來精確率和召回率的提升,并且將2 種方法整合之后,在精確率和召回率方面有更近一步的提升,可以說明本文算法的有效性。 同時(shí),對(duì)改進(jìn)的ViBe 算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,從表4 ~表6 中的結(jié)果可以看出,使用改進(jìn)后的算法獲取運(yùn)動(dòng)前景圖,能夠提升目標(biāo)檢測(cè)的準(zhǔn)確率。
圖6 ~圖11 分別展示了3 個(gè)數(shù)據(jù)集上基線方法和引入了本文算法后的部分結(jié)果示意圖,綠框代表真值框,紅框代表檢測(cè)框。 圖6 中的第1幅圖和第4 幅圖中,環(huán)境中存在與行人目標(biāo)相似的物體,因此產(chǎn)生了誤檢。 在引入本文算法后,增加了運(yùn)動(dòng)前景圖的信息,誤檢的物體在前景圖中沒有對(duì)應(yīng)的前景,因此特征響應(yīng)值降低,從而去除誤檢。 圖8 中的第1、3、4 幅圖和圖10,因?yàn)闇y(cè)試數(shù)據(jù)中的目標(biāo)被遮擋或目標(biāo)太小,而沒有被檢測(cè)器檢測(cè)出來,引入本文算法后,這些困難目標(biāo)在前景圖中可以反映出來,提升了特征圖的響應(yīng)值,因此能夠被檢測(cè)到。 圖6 中的第2、3 幅圖和圖8 中的第2 幅圖,使用基線方法檢測(cè)框的位置偏離目標(biāo),而引入本文算法后,能夠使檢測(cè)框位置更加準(zhǔn)確。
圖6 DML_det 數(shù)據(jù)集基線方法結(jié)果Fig.6 Baseline method results of DML_det dataset
圖7 DML_det 數(shù)據(jù)集本文算法結(jié)果Fig.7 The proposed algorithm results of DML_det dataset
圖8 DukeMTMC 數(shù)據(jù)集基線方法結(jié)果Fig.8 Baseline method results of DukeMTMC dataset
圖9 DukeMTMC 數(shù)據(jù)集本文算法結(jié)果Fig.9 The proposed algorithm results of DukeMTMC dataset
圖10 PETS09 數(shù)據(jù)集基線方法結(jié)果Fig.10 Baseline method results of PETS09 dataset
圖11 PETS09 數(shù)據(jù)集本文算法結(jié)果Fig.11 The proposed algorithm results of PETS09 dataset
本文提出了一種運(yùn)動(dòng)信息引導(dǎo)的目標(biāo)檢測(cè)算法,適用于固定攝像頭下的監(jiān)控視頻場(chǎng)景,包括改進(jìn)的運(yùn)動(dòng)前景圖獲取方法、基于運(yùn)動(dòng)信息的多尺度特征融合方法和運(yùn)動(dòng)前景圖指導(dǎo)的定位分支模塊。 所提算法在設(shè)計(jì)時(shí)沒有引入復(fù)雜的先驗(yàn)信息或需要進(jìn)行精細(xì)的標(biāo)注,并且通過在3 個(gè)固定監(jiān)控視頻行人檢測(cè)數(shù)據(jù)集上所作的實(shí)驗(yàn),驗(yàn)證了本文算法可以提升目標(biāo)檢測(cè)算法的準(zhǔn)確率。