国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度多列卷積神經(jīng)網(wǎng)絡(luò)的密集人群計數(shù)模型

2019-01-06 07:27陸金剛張莉
計算機應(yīng)用 2019年12期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)

陸金剛 張莉

摘要:針對尺度和視角變化導(dǎo)致的監(jiān)控視頻和圖像中的人數(shù)估計性能差的問題,提出了一種基于多尺度多列卷積神經(jīng)網(wǎng)絡(luò)(MsMCNN)的密集人群計數(shù)模型。在使用MsMCNN進行特征提取之前,使用高斯濾波器對數(shù)據(jù)集進行處理得到圖像的真實密度圖,并且對數(shù)據(jù)集進行數(shù)據(jù)增強。MsMCNN以多列卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為主干,首先從具有多尺度的多個列中提取特征圖;然后,用MsMCNN在同一列上連接具有相同分辨率的特征圖,以生成圖像的估計密度圖;最后,對估計密度圖進行積分來完成人群計數(shù)的任務(wù)。為了驗證所提模型的有效性,在Shanghaitech數(shù)據(jù)集和UCF_CC_50數(shù)據(jù)集上進行了實驗,與經(jīng)典模型Crowdnet、多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)、級聯(lián)多任務(wù)學(xué)習(xí)(CMTL)方法、尺度自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(SaCNN)相比,所提模型在Shanghaitech數(shù)據(jù)集Part_A和UCF_CC_50數(shù)據(jù)集上平均絕對誤差(MAE)分別至少減小了10.6和24.5,均方誤差(MSE)分別至少減小了1.8和29.3;在Shanghaitech數(shù)據(jù)集Part_B上也取得了較好的結(jié)果。MsMCNN更注重特征提取過程中的淺層特征的結(jié)合以及多尺度特征的結(jié)合,可以有效減少尺度和視角變化帶來的精確度偏低的影響,提升人群計數(shù)的性能。

關(guān)鍵詞:密集人群計數(shù);密度圖;卷積神經(jīng)網(wǎng)絡(luò);多尺度;尺度和視角變化

中圖分類號: TP311;TP391.4文獻標志碼:A

Crowd counting model based on multi-scale multi-column convolutional neural network

LU Jingang1, ZHANG Li1,2*

(1. School of Computer Science and Technology, Soochow University, Suzhou Jiangsu 215006, China;

2. Jiangsu Provincial Key Laboratory for Computer Information Processing Technology (Soochow University), Suzhou Jiangsu 215006, China)

Abstract: To improve the bad performance of crowd counting in surveillance videos and images caused by the scale and perspective variation, a crowd counting model, named Multi-scale Multi-column Convolutional Neural Network (MsMCNN) was proposed. Before extracting features with MsMCNN, the dataset was processed with the Gaussian filter to obtain the true density maps of images, and the data augmentation was performed. With the structure of multi-column convolutional neural network as the backbone, MsMCNN firstly extracted feature maps from multiple columns with multiple scales. Then, MsMCNN was used to generate the estimated density map by combining feature maps with the same resolution in the same column. Finally, crowd counting was realized by integrating the estimated density map. To verify the effectiveness of the proposed model, experiments were conducted on Shanghaitech and UCF_CC_50 datasets. Compared to the classic methods: Crowdnet, Multi-column Convolutional Neural Network (MCNN), Cascaded Multi-Task Learning (CMTL) and Scale-adaptive Convolutional Neural Network (SaCNN), the Mean Absolute Error (MAE) of MsMCNN respectively decreases 10.6 and 24.5 at least on Part_A and UCF_CC_50 of Shanghaitech dataset, and the Mean Squared Error (MSE) of MsMCNN respectively decreases 1.8 and 29.3 at least. Furthermore, MsMCNN also achieves the better result on the Part_B of the Shanghaitech dataset. MsMCNN pays more attention to the combination of shallow features and the combination of multi-scale features in the feature extraction process, which can effectively reduce the impact of low accuracy caused by scale and perspective variation, and improve the performance of crowd counting.

Key words: crowd counting; density map; Convolutional Neural Network (CNN); multi-scale; perspective and scale variation

0引言

近年來,國內(nèi)外發(fā)生了多起重大的人群踩踏事故,造成了眾多人員的傷亡。此外,由于諸如視頻監(jiān)控、公共安全設(shè)計和交通監(jiān)控等實際應(yīng)用的需求,準確地對視頻圖像中的人群進行人數(shù)估計引起了人們的極大關(guān)注[1]。人群計數(shù)任務(wù)面臨著許多挑戰(zhàn),究其原因是圖像中的人群存在嚴重遮擋、分布密集、視角失真以及尺度顯著變化等問題。

早期的人群計數(shù)方法是基于檢測或者回歸的。基于檢測的方法把人群看作是一組被檢測的個體實體,通常采用基于滑動窗口的檢測算法來計算圖像中對象實例的數(shù)量[2-6]。雖然基于檢測的方法在人群計數(shù)上有一定的效果,但在估計有嚴重遮擋和背景雜亂的圖像時,該類方法會受到嚴重影響。相關(guān)研究中,基于回歸的方法被提出來應(yīng)用于解決人群計數(shù)問題。基于回歸的方法通常學(xué)習(xí)一種從特征到人數(shù)[1,7-10]或者密度圖[11-13]的映射關(guān)系。然而,基于回歸的方法會受到尺度和視角急劇變化的影響,導(dǎo)致基于回歸的方法的準確度很難進一步提升,而這些變化在圖像中是普遍存在的。

近年來,因為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)已經(jīng)在各種計算機視覺任務(wù)中取得了成功,所以基于CNN的方法相繼被提出并用于人群計數(shù)任務(wù)[14-21]。Zhang等[14]利用深度卷積神經(jīng)網(wǎng)絡(luò)來估計不同場景的人群計數(shù)。該模型在訓(xùn)練場景和測試場景上都需要生成視角圖,并且利用視角圖來訓(xùn)練和微調(diào)。盡管這個模型在大多數(shù)公開數(shù)據(jù)集上取得了比較好的效果,但是在人群計數(shù)的實際應(yīng)用中很難生成視角圖。Boominathan等[15]提出了Crowdnet模型,該模型通過結(jié)合淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)來解決圖像的尺度變化問題。之后,Zhang等[16]注意到已有方法固定了感受野,只適合提取單一尺度的特征,所以提出了多列卷積神經(jīng)網(wǎng)絡(luò)(Multi-column CNN, MCNN)來提取圖像在不同尺度下的特征。在此基礎(chǔ)上,Sindagi等[17]提出了一種端到端的級聯(lián)多任務(wù)學(xué)習(xí)(Cascaded Multi-task Learning, CMTL)方法,該網(wǎng)絡(luò)同時學(xué)習(xí)人群計數(shù)的分類和密度圖的估計。Zhang等[18]隨后提出了尺度自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)(Scale-adaptive CNN, SaCNN),該網(wǎng)絡(luò)結(jié)合了從多個層提取的多尺度特征圖。

雖然以上幾種經(jīng)典方法都取得了不錯的計數(shù)效果,但是都不能很全面地解決人群圖像中存在的尺度和視角變化導(dǎo)致的誤差較大的問題。因此,為了進一步提高計數(shù)效果,本文在MCNN和SaCNN的基礎(chǔ)上提出了多尺度多列卷積神經(jīng)網(wǎng)絡(luò)(Multi-scale Multi-column CNN, MsMCNN ),適用于任意圖像的人群計數(shù)。在MsMCNN中,輸入為單張圖像,輸出為圖像對應(yīng)的密度圖,對密度圖積分就可以獲得人數(shù)的估計。在Shanghaitech數(shù)據(jù)集和UCF_CC_50數(shù)據(jù)集上進行實驗,實驗結(jié)果表明,本文提出的MsMCNN相較于大多數(shù)現(xiàn)有的人群計數(shù)方法有更好的計數(shù)能力。本文的主要工作如下:

1)設(shè)計了一種新的網(wǎng)絡(luò)模型MsMCNN用于人群計數(shù)。和MCNN相比,MsMCNN模型深度更深,每列有更多的卷積層,能提取更多的細節(jié)特征。

2)MsMCNN在每列中引入了多尺度,并通過結(jié)合不同層的特征來適應(yīng)圖像中人頭或者人的尺度和視角的變化,使得這些層可以共享相同的低層特征圖。

3)為了方便結(jié)合不同層的特征圖,MsMCNN在MCNN的基礎(chǔ)上增加了一個反卷積層和一個核大小為3×3、步長為1的最大池化層,其目的是使得要連接的特征圖具有相同的分辨率。

1本文模型MsMCNN

受到MCNN和SaCNN的啟發(fā),本文提出了一種新的多尺度多列卷積神經(jīng)網(wǎng)絡(luò)模型MsMCNN,用來學(xué)習(xí)圖像的密度圖,以此來估計圖像中的人數(shù)。在本節(jié)中,將詳細介紹MsMCNN模型的網(wǎng)絡(luò)結(jié)構(gòu),并討論訓(xùn)練的實現(xiàn)細節(jié)。1.1網(wǎng)絡(luò)結(jié)構(gòu)

MsMCNN模型以MCNN模型為主干網(wǎng)絡(luò),同時引入了SaCNN模型中多尺度連接的概念。和MCNN模型類似,MsMCNN也由三組并行的子卷積神經(jīng)網(wǎng)絡(luò)組成,其中每組子網(wǎng)絡(luò)除了卷積核的大小和個數(shù)不同外其他的結(jié)構(gòu)都相同。在CNN模型中,池化操作雖然能對特征圖進行壓縮并降低網(wǎng)絡(luò)計算復(fù)雜度,但是也會導(dǎo)致特征的丟失。受到SaCNN模型的啟發(fā),在每組子網(wǎng)絡(luò)中,對不同層的特征圖進行多尺度連接,以此來自適應(yīng)圖像中的尺度和視角變化。經(jīng)連接后的特征圖具有多尺度特征的特點,包括低級特征和高級特征,分別對應(yīng)小尺度和大尺度的人頭或人。

MsMCNN的整體結(jié)構(gòu)如圖1所示。

正如在圖1中能看到的,每組子網(wǎng)絡(luò)共有12個卷積層、1個反卷積層、4個最大池化層以及2個多尺度連接。結(jié)合圖1,下面對子網(wǎng)絡(luò)中的組成分量進行簡要介紹:

1)多尺度連接。在圖1中concat表示多尺度連接。多尺度連接將不同卷積層輸出的相同分辨率的特征圖在通道數(shù)上連接起來。這樣做的目的是能夠共享相同的低層次參數(shù)和特征圖,進而可以減少參數(shù)的數(shù)量和訓(xùn)練數(shù)據(jù),并且可以加速訓(xùn)練過程。

2)卷積層。在圖1中Conv表示卷積層,參數(shù)p1×p2×p3×p4中p1表示卷積層個數(shù),p2×p3表示卷積核大小,p4表示卷積核通道數(shù)。

3)最大池化層。在圖1中MP表示最大池化層,池化區(qū)域大小為p5×p6。除了最大池化層MP4以外,其他最大池化層的池化區(qū)域大小都定義為2×2且步長為2。為了能將Conv4和Conv5輸出的特征圖多尺度連接起來,本文方法設(shè)定MP4的池化區(qū)域大小為3×3及步長為1。

4)反卷積層。在圖1中Deconv表示反卷積層,其參數(shù)形式和卷積層相似。本文方法使用一個反卷積層將Conv4和Conv5進行多尺度連接后的特征圖上采樣到輸入圖像分辨率的1/4。因此,可以進一步將Deconv輸出的特征圖和Conv3輸出的特征圖進行多尺度連接。

本文方法把三組子卷積神經(jīng)網(wǎng)絡(luò)在Conv7上輸出的特征圖連接起來,并且經(jīng)Conv8將連接之后的特征圖生成估計密度圖。在Conv8上,使用一個卷積核大小為1×1且通道數(shù)為1的卷積層。因為最后輸出的估計密度圖的分辨率是輸入圖像的1/4,所以為了計算網(wǎng)絡(luò)損失,將真實的密度圖下采樣到輸入圖像的1/4。在整個網(wǎng)絡(luò)中,采用線性整流函數(shù)ReLU(Rectified Linear Unit)作為激活函數(shù)。如上所述,MsMCNN是在MCNN和SaCNN的基礎(chǔ)上提出的,這樣可以同時繼承兩者的優(yōu)點。和MCNN相比,MsMCNN有更多的卷積層和池化層來提取更細節(jié)的特征,而且引入了MCNN沒有的多尺度和反卷積的概念。和SaCNN相比,MsMCNN有更多列(這些列有不同大小的卷積核,對應(yīng)著不同尺度的人頭),同時減少了VGG16中不重要的層。這些不同之處使得MsMCNN對尺度和視角的顯著變化更加具有魯棒性。

1.2訓(xùn)練和實施細節(jié)

1.2.1真實密度圖

假設(shè)訓(xùn)練集為{(Xk,Zk)}Nk=1,這里Xk表示第k張圖像,Zk表示圖像Xk的真實人頭標注圖像,N表示訓(xùn)練圖像的總數(shù)。要想直接訓(xùn)練從Xk到Zk的映射關(guān)系是比較困難的,所以研究者們偏向于使用真實密度圖而不是真實人頭標注圖像。本文采用比較成熟的真實密度圖生成方法,詳見文獻[16]。

令D是(X,Z)的真實密度圖。對于給定的(X,Z),假設(shè)圖像Z的坐標點(xi,yi)處有一個人頭,或者Z(xi,yi)=1,用δ函數(shù)來表示:

δ(x-xi,y-yi)=1,x=xi∧y=yi

0,其他(1)

真實密度圖D在坐標點(x,y)處的值可以通過將該δ函數(shù)和一個高斯濾波器進行卷積計算而得:

D(x,y)=∑Mi=1δ(x-xi,y-yi)Gσ(x,y)(2)

其中:M表示圖像X中的人頭總數(shù);Gσ(x,y)是元素總和為1的高斯濾波器,σ>0是高斯濾波器的參數(shù),σ的設(shè)置可以參考文獻[15-16]。密度圖D中元素總和等于圖像中的人頭總數(shù):

M=∑x∑yD(x,y)(3)

在圖2中,展示了兩張Shanghaitech數(shù)據(jù)集上的圖像及其對應(yīng)的密度圖?,F(xiàn)在,通過這樣處理后,可以令新的訓(xùn)練集為{(Xk,Dk)}Nk=1。

1.2.2網(wǎng)絡(luò)損失

在訓(xùn)練階段,MsMCNN采用平方損失來衡量估計密度圖和真實密度圖之間的距離。平方損失函數(shù)定義如下:

L(Θ)=12N∑Nk=1‖D^k(Θ)-Dk‖22(4)

其中:Θ表示MsMCNN要學(xué)習(xí)的參數(shù)集;D^k(Θ)表示圖像Xk的估計密度圖;Dk表示圖像Xk的真實密度圖;L(Θ)表示估計密度圖和真實密度圖之間的損失。L(Θ)和D^k(Θ)都是與Θ參數(shù)集相關(guān)的函數(shù)。

對于一張未見過的圖像X,通過如下方法估計它的人數(shù):

M^=∑x∑yD^(x,y)(5)

2實驗與結(jié)果分析

為了驗證MsMCNN的效果,在Shanghaitech和UCF_CC_50數(shù)據(jù)集上對它進行評估。這里選擇四種方法用于比較:Crowdnet[15]、MCNN[16]、CMTL[17]以及SaCNN[18]。所有的實驗均在Ubuntu系統(tǒng)下,以Python 2.7在Pytorch框架下,在GPU上進行。在本文方法的實施中,采用隨機梯度下降(Stochastic Gradient Descent, SGD)優(yōu)化器來訓(xùn)練MsMCNN。另外,經(jīng)驗表明,將學(xué)習(xí)率設(shè)為10-5且動量設(shè)為0.9比較適合訓(xùn)練。實驗結(jié)果均為在相同的實驗參數(shù)設(shè)置和訓(xùn)練集數(shù)據(jù)增強下的復(fù)現(xiàn)結(jié)果。

2.1數(shù)據(jù)集

Shanghaitech和UCF_CC_50數(shù)據(jù)集是兩個典型的用于人群計數(shù)的數(shù)據(jù)集,其基本情況見表1,詳細描述如下:

1)Shanghaitech數(shù)據(jù)集是由Zhang等 [16]提出的一個大規(guī)模人群計數(shù)數(shù)據(jù)集。該數(shù)據(jù)集包含1198張標注圖像,總共有330165個標注人頭。該數(shù)據(jù)集包括兩部分:Part_A和Part_B。Part_A包含從網(wǎng)上隨機獲取的482張圖像,被分成300張訓(xùn)練集和182張測試集;Part_B包括716張來自上海繁華街頭的圖像,也被分為訓(xùn)練集和測試集,其中400張用于訓(xùn)練,316張用于測試。

2)UCF_CC_50數(shù)據(jù)集是由Idrees等 [9]提出,只有50張圖像,總共有63974個人頭標注,每張圖像的人頭數(shù)從94到4543不等。因為該數(shù)據(jù)集規(guī)模小,人群密度跨度大,所以該數(shù)據(jù)集是極富挑戰(zhàn)性的。參考文獻[9],進行5倍交叉驗證來得到平均測試效果。

2.2評估準則

和已有的人群計數(shù)工作一樣,采用平均絕對誤差(Mean Absolute Error, MAE)和均方誤差(Mean Squared Error, MSE)來評估不同的方法,MAE和MSE的定義如下:

MAE=1N′∑N′i=1Mi-M^i(6)

MSE=1N′∑N′i=1(Mi-M^i)2(7)

其中:N′表示測試圖像數(shù);Mi表示第i張測試圖像中的實際人數(shù);M^i表示第i張測試圖像的估計人數(shù)。一般來說,MAE評估估計的準確性,MSE評估估計的魯棒性。

2.3Shanghaitech數(shù)據(jù)集上的實驗結(jié)果

為了增強訓(xùn)練集來訓(xùn)練MsMCNN,在每張原始訓(xùn)練圖像上不同位置裁剪9張圖像,每張小圖像是原始訓(xùn)練圖像的1/4。這樣,Part_A和Part_B分別有2700張圖像和3600張圖像來訓(xùn)練MsMCNN。使用式(2)來生成圖像的真實密度圖,根據(jù)經(jīng)驗σ=4。圖3(a)和圖3(b)分別展示了在Part_A和Part_B上單張測試圖像的真實密度圖和估計密度圖,并和SaCNN的估計密度圖進行了對比。可以看到估計密度圖能在一定程度上反映真實密度圖。

將MsMCNN和四種已有方法進行對比,結(jié)果如表2所示。

由表2可以看出,本文方法在Part_A上取得了最好的MAE(即89.1)和最好的MSE(即142.8)。與排在第二的SaCNN方法相比,MsMCNN在MAE和MSE上分別減少了10.6和1.8。此外,本文方法在Part_B上也取得了不錯的結(jié)果,為20.3和37.2。和最好的CMTL方法相比,MsMCNN在MAE和MSE上分別只差了3.2和7.9。

分析在Part_B上未能達到最好的原因:Part_B中的圖像來源于街道,人群密度相對較小且干擾背景比較多。

2.4UCF_CC_50數(shù)據(jù)集上的實驗結(jié)果

和Shanghaitech數(shù)據(jù)集類似,在UCF_CC_50數(shù)據(jù)集上進行了數(shù)據(jù)增強。在每次實驗中,原始訓(xùn)練圖像被隨機裁剪成25張圖像,每張大小為原始圖像的1/4。這樣,共有1000張圖像用于訓(xùn)練,10個原始圖像用于測試。圖3(c)展示了UCF_CC_50數(shù)據(jù)集上兩張測試圖像的真實密度圖和其估計密度圖,并和SaCNN得到的估計密度圖進行了對比。

實驗執(zhí)行五倍交叉驗證,取其平均值,并將本文方法和四種經(jīng)典方法進行了比較。實驗結(jié)果如表3所示,MsMCNN在MAE和MSE上取得了最好的效果,分別為383.5和513.0,相比經(jīng)典的方法,MsMCNN取得了顯著提高,且和第二好的SaCNN相比,MsMCNN的MAE和MSE分別減少了24.5和29.3。

3結(jié)語

本文提出了多尺度多列卷積神經(jīng)網(wǎng)絡(luò)(MsMCNN)模型,該模型在MCNN模型基礎(chǔ)上引入了多尺度連接,對圖像中尺度和視角的變化不是很敏感,能較為準確地估計圖像中的人數(shù)。在兩個常見的人群數(shù)據(jù)集上進行實驗,結(jié)果表明本文的方法MsMCNN在Shanghaitech數(shù)據(jù)集的Part_A和UCF_CC_50數(shù)據(jù)集上均優(yōu)于對比的方法,充分驗證了該方法對尺度和視角變化的穩(wěn)定性。盡管如此,MsMCNN也有進一步提升的空間。該方法在Shanghaitech數(shù)據(jù)集的Part_B上的性能弱于CMTL和SaCNN,主要原因是MCNN對復(fù)雜背景的圖像較為敏感,導(dǎo)致了以其為主干網(wǎng)絡(luò)的MsMCNN也具有此缺點。雖然引入多尺度連接在一定程度上緩解了此問題,但解決得并不徹底。在下一步工作中,考慮對圖像進行前景分割,以消除復(fù)雜背景對人群計數(shù)的影響。

參考文獻 (References)

[1]CHAN A B, LIANG Z S J, VASCONCELOS N. Privacy preserving crowd monitoring: counting people without people models or tracking [C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2008: 1-7.

[2]WANG M, WANG X. Automatic adaptation of a generic pedestrian detector to a specific traffic scene [C]// Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2011: 3401-3408.

[3]WU B, NEVATIA R. Detection of multiple, partially occluded humans in a single image by Bayesian combination of edgelet part detectors [C]// Proceedings of the 2005 10th IEEE International Conference on Computer Vision. Piscataway: IEEE, 2005: 90-97.

[4]STEWART R, ANDRILUKA M, NG A Y. End-to-end people detection in crowded scenes [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 2325-2333.

[5]TOPKAYA I S, ERDOGAN H, PORIKLI F. Counting people by clustering person detector outputs [C]// Proceedings of the 2014 11th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway: IEEE, 2014: 313-318.

[6]LEIBE B, SEEMANN E, SCHIELE B. Pedestrian detection in crowded scenes [C]// Proceedings of the 2005 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2005: 878-885.

[7]CHAN A B, VASCONCELOS N. Bayesian poisson regression for crowd counting [C]// Proceedings of the 2009 12th IEEE International Conference on Computer Vision. Piscataway: IEEE, 2009: 545-551.

[8]RYAN D, DENMAN S, FOOKES C. Crowd counting using multiple local features [C]// Proceedings of the 2009 Digital Image Computing: Techniques and Applications. Piscataway: IEEE, 2009: 81-88.

[9]IDREES H, SALEEMI I, SEIBERT C, et al. Multi-source multi-scale counting in extremely dense crowd images [C]// Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2013: 2547-2554.

[10]LIU B, VASCONCELOS N. Bayesian model adaptation for crowd counts [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 4175-4183.

[11]LEMPITSKY V, ZISSERMAN A. Learning to count objects in images [C]// Proceedings of the 2010 24th Annual Conference on Neural Information Processing Systems. New York: Curran Associates, 2010: 1324-1332.

[12]CHEN K, LOY C C, GONG S, et al. Feature mining for localised crowd counting [C]// Proceedings of the 2012 British Machine Vision Conference. Durham: BMVA Press, 2012: 1-11.

[13]KONG D, GRAY D, TAO H. Counting pedestrians in crowds using viewpoint invariant training [C]// Proceedings of the 2005 British Machine Vision Conference. Durham: BMVA Press, 2005: 1-10.

[14]ZHANG C, LI H, WANG X, et al. Cross-scene crowd counting via deep convolutional neural networks [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 833-841.

[15]BOOMINATHAN L, KRUTHIVENTI S S, BABU R V. Crowdnet: a deep convolutional network for dense crowd counting [C]// Proceedings of the 24th ACM International Conference on Multimedia. New York: ACM, 2016: 640-644.

[16]ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 589-597.

[17]SINDAGI V A, PATEL V M. CNN-based cascaded multi-task learning of high-level prior and density estimation for crowd counting [C]// Proceedings of the 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway: IEEE, 2017: 1-6.

[18]ZHANG L, SHI M, CHEN Q. Crowd counting via scale-adaptive convolutional neural network [C]// Proceedings of the 2018 IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway: IEEE, 2018: 1113-1121.

[19]郭繼昌,李翔鵬.基于卷積神經(jīng)網(wǎng)絡(luò)和密度分布特征的人數(shù)統(tǒng)計方法[J].電子科技大學(xué)學(xué)報,2018,47(6):806-813.(GUO J C, LI X P. A crowd counting method based on convolutional neural networks and density distribution features [J]. Journal of University of Electronic Science and Technology of China, 2018, 47(6): 806-813.)

[20]唐清,王知衍,嚴和平.基于模糊神經(jīng)網(wǎng)絡(luò)的大場景人群密度估計方法[J].計算機應(yīng)用研究,2010,27(3):989-991,1008.(TANG Q, WANG Z Y, YAN H P. Crowd density estimation of wide scene based on fuzzy neural network [J]. Application Research of Computers, 2010, 27(3): 989-991, 1008.)

[21]譚智勇,袁家政,劉宏哲.基于深度卷積神經(jīng)網(wǎng)絡(luò)的人群密度估計方法[J].計算機應(yīng)用與軟件,2017,34(7):130-136.(TAN Z Y, YUAN J Z, LIU H Z. Crowd density estimation method based on deep convolutional neural networks [J]. Computer Applications and Software, 2017, 34(7): 130-136.)

The work is partially supported by the Six Talent Peak Project of Jiangsu Province (XYDXX-054).

LU Jingang, born in 1993, M. S. candidate. His research interests include crowd counting, deep learning, machine learning.

ZHANG Li, born in 1975, Ph. D., professor. Her research interests include machine learning, pattern recognition.

收稿日期:2019-04-29;修回日期:2019-08-14;錄用日期:2019-08-16

基金項目:江蘇省“六大人才高峰”高層次人才項目(XYDXX-054)。

作者簡介:陸金剛(1993—),男,江蘇南通人,碩士研究生 ,主要研究方向:密集人群計數(shù)、深度學(xué)習(xí)、機器學(xué)習(xí);張莉(1975—),女,江蘇張家港人,教授,博士,CCF會員,主要研究方向:機器學(xué)習(xí)、模式識別。

文章編號:1001-9081(2019)12-3445-05DOI:10.11772/j.issn.1001-9081.2019081437

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)
基于深度神經(jīng)網(wǎng)絡(luò)的微表情識別
卷積神經(jīng)網(wǎng)絡(luò)中減少訓(xùn)練樣本時間方法研究
卷積神經(jīng)網(wǎng)絡(luò)語言模型研究
基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
基于卷積神經(jīng)網(wǎng)絡(luò)溫室智能大棚監(jiān)控系統(tǒng)的研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
深度學(xué)習(xí)技術(shù)下的中文微博情感的分析與研究
基于卷積神經(jīng)網(wǎng)絡(luò)的樹葉識別的算法的研究
阳西县| 碌曲县| 三门县| 邵武市| 宝坻区| 陆丰市| 准格尔旗| 罗定市| 和林格尔县| 保亭| 蓬安县| 湾仔区| 鸡东县| 吉首市| 凭祥市| 巩义市| 共和县| 甘孜| 大渡口区| 比如县| 汉沽区| 黑水县| 濮阳市| 托克托县| 永胜县| 普兰店市| 开阳县| 东乌珠穆沁旗| 双鸭山市| 山丹县| 郁南县| 清苑县| 高青县| 庆城县| 伊金霍洛旗| 垫江县| 辽中县| 新民市| 定边县| 静宁县| 习水县|