国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的稀疏目標(biāo)場景下智能視頻人數(shù)統(tǒng)計(jì)方法

2018-02-28 11:19焦會(huì)英
電子技術(shù)與軟件工程 2018年21期
關(guān)鍵詞:機(jī)器學(xué)習(xí)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

焦會(huì)英

摘要

行人檢測(cè)是智能交通視頻分析的基礎(chǔ)技術(shù)之一,也是計(jì)算機(jī)視覺中的關(guān)鍵技術(shù)本文基于卷積神經(jīng)網(wǎng)絡(luò)的Faster R-CNN框架,采用多層網(wǎng)絡(luò)構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)復(fù)雜環(huán)境下的行人檢測(cè)?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,此外,還采用了基于openev的高斯前景檢測(cè)方法,將其與深度神經(jīng)網(wǎng)絡(luò)檢測(cè)方法融合,從而整合了運(yùn)動(dòng)信息與靜態(tài)檢測(cè)的結(jié)果,降低了漏檢率,提高了檢測(cè)準(zhǔn)確度,相比傳統(tǒng)的目標(biāo)檢測(cè)算法有更好的檢測(cè)效果。最后,本文給出了稀疏人群場景下的行人人數(shù)評(píng)估方法,以減少當(dāng)前幀視頻人數(shù)檢測(cè)的誤檢率,提高檢測(cè)精度。

【關(guān)鍵詞】神經(jīng)網(wǎng)絡(luò) 深度學(xué)習(xí) 機(jī)器學(xué)習(xí) 行人檢測(cè) 行人計(jì)數(shù)

1 引言

近幾年來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和目標(biāo)檢測(cè)框架的成功應(yīng)用大大提高了目標(biāo)檢測(cè)的性能。目標(biāo)檢測(cè)最先進(jìn)的檢測(cè)框架例如R-CNN以及其后繼改進(jìn)框架Fast R-CNN,F(xiàn)asterR-CNN都是從區(qū)域檢測(cè)窗口中提取深度卷積特征,再將檢測(cè)區(qū)域分為不同的類別。這些基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)方法,通過大量的數(shù)據(jù)訓(xùn)練,在目標(biāo)分類和目標(biāo)檢測(cè)領(lǐng)域表現(xiàn)出了非常優(yōu)秀的檢測(cè)準(zhǔn)確率和魯棒性。但其檢測(cè)算法更適用于靜態(tài)圖片行人檢測(cè),在視頻檢測(cè)領(lǐng)域仍然存在一定的缺陷。由于視頻信息的時(shí)序性要求目標(biāo)的出現(xiàn)概率和位置在時(shí)間上是連續(xù)的,即隨著時(shí)間的推移所檢測(cè)出的目標(biāo)位置和在固定位置上檢測(cè)出的目標(biāo)的概率不會(huì)有突然變化。如果將卷積神經(jīng)網(wǎng)絡(luò)靜態(tài)圖片的檢測(cè)框架直接應(yīng)用于視頻檢測(cè)問題,由于每幀的檢測(cè)結(jié)果相互獨(dú)立,無法關(guān)聯(lián)行人的運(yùn)動(dòng)信息,將導(dǎo)致相鄰幀之間的行人計(jì)數(shù)結(jié)果容易出現(xiàn)較大偏差。

本文主要研究針對(duì)稀疏人群監(jiān)控場景下的行人計(jì)數(shù)算法。主要貢獻(xiàn)有以下幾點(diǎn):

(1)提出了融合深度神經(jīng)網(wǎng)絡(luò)和運(yùn)動(dòng)信息的行人檢測(cè)方法,提升了稀疏目標(biāo)場景下的行人檢測(cè)準(zhǔn)確率。在技術(shù)細(xì)節(jié)上,我們采用非極大值抑制方法融合靜態(tài)圖像檢測(cè)結(jié)果和運(yùn)動(dòng)前景標(biāo)定的行人檢測(cè)框結(jié)果,并通過實(shí)驗(yàn)設(shè)置檢測(cè)框的大小邊界,減除冗余標(biāo)定檢測(cè)框,提高了稀疏目標(biāo)場景下行人檢測(cè)的準(zhǔn)確率。

(2)提出稀疏目標(biāo)運(yùn)動(dòng)場景下的行人計(jì)數(shù)評(píng)估方法,提高檢測(cè)系統(tǒng)的準(zhǔn)確率和魯棒性。

2 相關(guān)工作

傳統(tǒng)的目標(biāo)檢測(cè)方法,一般采用人工提取的圖像特征,包括SIFT、HOG、LBP等特征。在此基礎(chǔ)上,考慮到單一模型無法解決遮擋和復(fù)雜背景等問題,F(xiàn)elzenszwalb等人提出DPM(Deformable part-based models)模型,它運(yùn)用整體和部分的多模型系統(tǒng)解決遮擋等問題,在深度卷積神經(jīng)網(wǎng)絡(luò)問世之前,該算法在目標(biāo)檢測(cè)領(lǐng)域一直處于核心地位。

深度學(xué)習(xí)模型采用多層神經(jīng)網(wǎng)絡(luò),從大規(guī)模數(shù)據(jù)深度挖掘圖像的特征,并將這些特征表示出來應(yīng)用在各種計(jì)算模型之中。W.Ouyang等人提出聯(lián)合深度學(xué)習(xí)(UDN)的概念,將行人檢測(cè)的幾個(gè)重要的部分進(jìn)行了聯(lián)合學(xué)習(xí),在處理海量視頻圖像方面取得了很好的效果。

2.1 Faster R-CNN框架檢測(cè)

針對(duì)現(xiàn)有行人目標(biāo)檢測(cè)的方法,我們采用Faster R-CNN框架,將一直以來分離的regionproposal和CNN分類融合到了一起,使用端到端的網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè),并且對(duì)框架進(jìn)行模型選擇和微調(diào),簡單網(wǎng)絡(luò)目標(biāo)檢測(cè)速度達(dá)到17fps,復(fù)雜網(wǎng)絡(luò)達(dá)到5fps。通過實(shí)驗(yàn)比較,我們采用中型網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè),其檢測(cè)速度接近于簡單網(wǎng)絡(luò)的檢測(cè)速度,檢測(cè)準(zhǔn)確率卻能基本達(dá)到復(fù)雜網(wǎng)絡(luò)的效果。圖1展示了采用中型復(fù)雜網(wǎng)絡(luò)對(duì)靜態(tài)行人圖片的檢測(cè)結(jié)果。

然而,采用基于Faster-RCNN的中型復(fù)雜網(wǎng)絡(luò)無法關(guān)聯(lián)視頻圖像的時(shí)序和運(yùn)動(dòng)信息,前一幀中標(biāo)定的行人目標(biāo)檢測(cè)框,在下一幀中同一目標(biāo)的檢測(cè)結(jié)果有可能會(huì)丟失。從而,整體視頻的檢測(cè)結(jié)果存在一定的突變性和不穩(wěn)定性。

2.2 混合高斯背景建模檢測(cè)

通過混合高斯模型,得到視頻圖像中目標(biāo)的運(yùn)動(dòng)信息,對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行前景圖像提取,采用形態(tài)學(xué)處理,定位前景連通區(qū)域的邊界像素,得到標(biāo)記目標(biāo)前景連通區(qū)域的矩形框,如圖2所示。

高斯混合背景檢測(cè)方法的優(yōu)點(diǎn)是可以利用相鄰視頻幀的時(shí)序和運(yùn)動(dòng)信息檢測(cè)出視頻中的運(yùn)動(dòng)目標(biāo):缺點(diǎn)是對(duì)于靜止的目標(biāo)檢測(cè)存在很大的局限性,并且對(duì)于運(yùn)動(dòng)聯(lián)通區(qū)域無法進(jìn)行行人識(shí)別,對(duì)相鄰運(yùn)動(dòng)目標(biāo)的計(jì)數(shù)存在誤差。且無法識(shí)別圖像中的陰影區(qū)域,造成統(tǒng)計(jì)誤差。因此,本文融合基于Faster R-CNN的檢測(cè)方法和基于高斯混合模型的運(yùn)動(dòng)信息檢測(cè)方法,得出更高效的視頻目標(biāo)檢測(cè)算法。

3 主要成果論述

3.1 融合神經(jīng)網(wǎng)絡(luò)和運(yùn)動(dòng)信息的檢測(cè)方法

本文提出的融合運(yùn)動(dòng)信息與神經(jīng)網(wǎng)絡(luò)靜態(tài)檢測(cè)的行人視頻計(jì)數(shù)算法,主要運(yùn)用混合高斯背景建模和Faster R-CNN深度網(wǎng)絡(luò)對(duì)視頻圖像進(jìn)行處理。其主要思想是:以深度神經(jīng)網(wǎng)絡(luò)從視頻圖像中檢測(cè)出的行人區(qū)域R為基準(zhǔn),將混合高斯背景建模提取的前景運(yùn)動(dòng)區(qū)域D與R融合,生成更為準(zhǔn)確的最終檢測(cè)結(jié)果,如圖3所示。該算法的細(xì)節(jié)在3.2和3.3節(jié)進(jìn)行介紹。

3.2 標(biāo)定框計(jì)數(shù)優(yōu)化

使用混合高斯前景檢測(cè)算法和深度神經(jīng)網(wǎng)絡(luò)行人檢測(cè)算法兩種方法同時(shí)對(duì)相同視頻幀進(jìn)行行人檢測(cè),一定會(huì)出現(xiàn)標(biāo)定框重疊現(xiàn)象。并且,當(dāng)行人相距較近時(shí),采用混合高斯前景檢測(cè)算法得到的前景運(yùn)動(dòng)區(qū)域極大可能包含多個(gè)運(yùn)動(dòng)行人,得到錯(cuò)誤的包含多個(gè)檢測(cè)結(jié)果的標(biāo)定框。

針對(duì)上而發(fā)生的情況,我們提出標(biāo)定框計(jì)數(shù)優(yōu)化算法:

(1)以深度神經(jīng)網(wǎng)絡(luò)檢測(cè)到的行人標(biāo)定框?yàn)榛?,將與基本框重合面積超過50%的前景動(dòng)態(tài)檢測(cè)框清除,保留Faster R-CNN和基于運(yùn)動(dòng)背景檢測(cè)算法得出的相對(duì)獨(dú)立的檢測(cè)結(jié)果。

(2)設(shè)置代表單人標(biāo)定框的而積范圍。在該范圍內(nèi),通常每個(gè)標(biāo)定框代表計(jì)數(shù)一個(gè)行人。對(duì)于檢測(cè)框標(biāo)定出的連通區(qū)域包含兩個(gè)以上行人的情況,其標(biāo)定框的像素而積一般遠(yuǎn)大于正常情況下單人標(biāo)定框的面積范圍。因此,我們?cè)谒惴ㄖ性O(shè)置當(dāng)標(biāo)定框的像素個(gè)數(shù)大于400時(shí),我們對(duì)框內(nèi)的人數(shù)統(tǒng)計(jì)為2.

(3)前景檢測(cè)中出現(xiàn)的陰影區(qū)域也會(huì)被作為前景運(yùn)動(dòng)目標(biāo)提取出來,產(chǎn)生一些較小的標(biāo)定框。在算法中我們?cè)O(shè)置當(dāng)標(biāo)定框像素小于120時(shí),清除此標(biāo)定框。

(4)根據(jù)上述方法,對(duì)不同大小的標(biāo)定框統(tǒng)計(jì)相應(yīng)的人數(shù)值,從而計(jì)算出視頻圖片中的實(shí)時(shí)人數(shù)。

經(jīng)標(biāo)定框計(jì)數(shù)優(yōu)化后的效果如圖4所示。

3.3 計(jì)數(shù)評(píng)估優(yōu)化算法

我們進(jìn)一步提出了稀疏目標(biāo)運(yùn)動(dòng)場景下的行人計(jì)數(shù)評(píng)估優(yōu)化方法。在稀疏目標(biāo)監(jiān)控場景下,通常短時(shí)間內(nèi)(一般為1~2秒)的人數(shù)可以認(rèn)為是一個(gè)常數(shù)。在算法中,我們將這個(gè)時(shí)間段設(shè)置為2秒,每秒的視頻幀率認(rèn)為是15ft,故在30幀內(nèi),我們認(rèn)為視頻中的實(shí)際人數(shù)是保持不變的。然而由于漏檢和錯(cuò)檢,相近幀視頻的計(jì)數(shù)結(jié)果往往存在一定差異。設(shè)當(dāng)前時(shí)刻下最近30幀視頻的人數(shù)統(tǒng)計(jì)結(jié)果為X=(x1,x2,x3,…,x30),我們將向量內(nèi)出現(xiàn)頻率最高的檢測(cè)數(shù)作為當(dāng)前幀的行人計(jì)數(shù)結(jié)果(S'j)。

設(shè)xi為當(dāng)前視頻圖像第i幀的真實(shí)行人數(shù)量,si為未采用計(jì)數(shù)優(yōu)化算法時(shí)第i幀視頻圖像的檢測(cè)人數(shù),si'為使用上述計(jì)數(shù)優(yōu)化算法得到的第i幀的人數(shù)計(jì)數(shù)結(jié)果。對(duì)大量視頻幀數(shù)(N)的人數(shù)估計(jì)結(jié)果與真實(shí)情況進(jìn)行對(duì)比,可計(jì)算出:

兩個(gè)統(tǒng)計(jì)量。其中,|1-p|為未采用計(jì)數(shù)優(yōu)化的檢測(cè)錯(cuò)誤率,|1-p|為采用計(jì)數(shù)優(yōu)化的檢測(cè)錯(cuò)誤率,N為視頻幀數(shù),實(shí)驗(yàn)結(jié)果顯示|1-p|<|1-p|。

4 關(guān)鍵實(shí)現(xiàn)技術(shù)

4.1 Faster-Rcnn檢測(cè)框架

R-CNN以及它的改進(jìn)框架Fast R-CNN、Faster R-CNN都是從區(qū)域檢測(cè)窗口中提取深度卷積特征,然后再將檢測(cè)區(qū)域分為不同類別。通過大量的數(shù)據(jù)訓(xùn)練,能夠提升這些基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)方法對(duì)復(fù)雜環(huán)境下目標(biāo)檢測(cè)、識(shí)別的準(zhǔn)確性和魯棒性。

基于Faster-rcnn卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)分類算法如下所示:

(1)將整張圖片輸入CNN,進(jìn)行特征提取。

(2)用區(qū)域建議網(wǎng)絡(luò)(Region ProposalNetwork,簡稱RPN)生成候選區(qū)域(RegionProposal),每張圖片生成300個(gè)候選區(qū)域。

(3)把候選區(qū)域映射到CNN的最后一層卷積特征圖(feature map)上。

(4)通過Rol pooling層使每個(gè)RoI生成固定尺寸的feature map。

利用Softmax Loss(探測(cè)分類概率)和Smooth Ll Loss(探測(cè)邊框回歸)對(duì)分類概率和邊框回歸(Bounding box regression)聯(lián)合訓(xùn)練。技術(shù)細(xì)節(jié)可參考[5]。

4.2 Faster-Rcnn模型動(dòng)]練與微調(diào)

在訓(xùn)練RPN時(shí),一個(gè)Mini-batch是由一幅圖像中任意選取的256個(gè)proposal組成的,其中正負(fù)樣本的比例為1:1。如果正樣本不足128,則多用一些負(fù)樣本以滿足有256個(gè)Proposal可以用于訓(xùn)練,反之亦然。訓(xùn)練RPN時(shí),與VGG網(wǎng)絡(luò)共有的層參數(shù)可直接拷貝經(jīng)ImageNet訓(xùn)練得到的模型中的參數(shù);其余層參數(shù)用標(biāo)準(zhǔn)差=0.01的高斯分布初始化。

5 實(shí)驗(yàn)驗(yàn)證

5.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)采用VOC數(shù)據(jù)集【】進(jìn)行訓(xùn)練,在USCD行人檢測(cè)數(shù)據(jù)集的vidd子集上進(jìn)行測(cè)試,程序的運(yùn)行環(huán)境為:

Ubuntu 14.10

Opencv2.9

Caffe7.5

GPU gtx860

內(nèi)存:8.00G

CPU:i7-4720HQ2.6GHz

5.2 實(shí)驗(yàn)結(jié)果

圖5是基于卷積神經(jīng)網(wǎng)絡(luò)和運(yùn)動(dòng)前景檢測(cè)算法在USCD vidd.數(shù)據(jù)集上某個(gè)視頻幀的檢測(cè)效果。(a)為原始的視頻輸入圖像,(b)為基于混合高斯背景建模算法經(jīng)形態(tài)學(xué)處理后檢測(cè)出的前景運(yùn)動(dòng)目標(biāo),(c)圖融合了卷積神經(jīng)網(wǎng)絡(luò)的靜態(tài)檢測(cè)結(jié)果和混合高斯模型的運(yùn)動(dòng)前景檢測(cè)結(jié)果。其中,綠色框是深度卷積神經(jīng)網(wǎng)絡(luò)在每幀靜態(tài)圖像中檢測(cè)出的行人目標(biāo),藍(lán)色框是將運(yùn)動(dòng)前景圖像檢測(cè)與深度神經(jīng)網(wǎng)絡(luò)靜態(tài)檢測(cè)結(jié)果融合后標(biāo)記出的神經(jīng)網(wǎng)絡(luò)漏檢的行人目標(biāo)。(d)圖是經(jīng)標(biāo)定框計(jì)數(shù)優(yōu)化和最終計(jì)數(shù)評(píng)估優(yōu)化后得到的行人目標(biāo)計(jì)數(shù)結(jié)果。

從圖5中可以看出,本文提出的算法彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)在視頻圖像行人計(jì)數(shù)方面的主要缺陷,提高了視頻行人計(jì)數(shù)統(tǒng)計(jì)的魯棒性和準(zhǔn)確率。

6 總結(jié)

本文提出了一種融合卷積神經(jīng)網(wǎng)絡(luò)與前景運(yùn)動(dòng)信息的視頻行人計(jì)數(shù)方法。我們解決了Faster R-CNN等基于深度神經(jīng)網(wǎng)絡(luò)的檢測(cè)模型不能有效利用動(dòng)態(tài)信息的主要問題,提高了視頻幀行人檢測(cè)的準(zhǔn)確性。并提出了標(biāo)定框計(jì)數(shù)優(yōu)化和計(jì)數(shù)評(píng)估優(yōu)化兩個(gè)新方法,利用魯棒統(tǒng)計(jì)技術(shù),有效降低了人數(shù)的誤檢率。實(shí)驗(yàn)結(jié)果表明,本文提出的算法在相當(dāng)程度上解決了在稀疏目標(biāo)場景中存在一定形變、遮擋時(shí)目標(biāo)行人計(jì)數(shù)不準(zhǔn)確的問題,具有準(zhǔn)確率高,魯棒性好,檢測(cè)速率快等優(yōu)點(diǎn),具有較強(qiáng)的實(shí)際應(yīng)用價(jià)值。

參考文獻(xiàn)

[1]C.Szegedy,W.Liu,y.Jia,P.Serinanet,S.Reed,D.Anguelov,D.Ethan,V.Vanhoucke,and A.Rabinovich,“Going deeper withconvolutions,”CVPR,2015.

[2]K.Simonyan and A. Zisserman,“Very deep convolutionalnetworks for large-scale imagerecognition,”IntI Conf.LearningRepresentations,2014.

[3]R.Girshick,J.Donahue,T.Darrell,and J.Malik,“Richfeature hierarchies for accurateobject detection and semanticsegmentation,”CVPR,2014.

[4]R.Girshick,“Fast r-cnn,”ICCV,2015.

[5]S.Ren,K.He,R.Girshick,and J.Sun,“Faster r-cnn:Towards real-time object detection with regionproposal networks,”NIPS,2015.

[6]K.He,X.Mang,S.Ren,and J.Sun,“Deep residual learning for imagerecognition,”in Proceedings of theIEEE Conference on Computer Visionand Pattern Recognition,2016,pp.770-778.

[7]S.loffe and C.Szegedy,“Batchnormalization:Accelerating deepnetwork training by reducing internalcovariate shift,”arXiv preprintarXiv:1502.03167,2015.

[8]W.Ouyang,X.Wang,X.Zeng,S.Qiu,P.Luo,Y.Tian,H.Li,S.Yang,Z.Wang,C.-C.Loy et al.,“DeepID-net:Deformable deep convolutional neuralnetworks for object detection,”CVPR,2015.

[9]David G.Lowe,Distinctive ImageFeatures from Scale-InvariantKeypoints,International Journal ofComputer Vision,Vol.60,Page 91-110,Nov 2004.

[10]Dalal N, Triggs B.Histogramsof oriented gradients for humandetection[C]//Computer Vision andPattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.

[11]Ahonen T,Hadid A,Pietikdinen M.Face description with local binarypatterns:application to facerecognition[J].IEEE Trans PatternAnal Mach Intell,2006,28(12):2037-2041.

[12]Felzenszwalb P,Mcallester D,Ramanan D.A discriminativelytrained,multiscale,deformable partmodel[J].Cvpr,2008,8::1-8.

[13]Ouyang W,Wang X.JointDeep Learning for PedestrianDetection[C]//IEEE InternationalConference on Computer Vision.IEEE,2014:2056-2063.

猜你喜歡
機(jī)器學(xué)習(xí)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
当涂县| 浪卡子县| 揭阳市| 大同市| 涿鹿县| 白水县| 南召县| 郑州市| 阿尔山市| 霞浦县| 碌曲县| 南通市| 绥中县| 盐津县| 萝北县| 沐川县| 嵩明县| 四子王旗| 五河县| 溆浦县| 甘孜县| 邓州市| 顺昌县| 菏泽市| 乐安县| 太仓市| 巨鹿县| 长顺县| 商城县| 河津市| 曲松县| 漳州市| 宜宾县| 崇义县| 中江县| 藁城市| 池州市| 株洲县| 定日县| 军事| 阜康市|