国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于尺度自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的人群計(jì)數(shù)算法

2020-02-19 15:18:30王陸洋殷保群彭思凡邢思思
計(jì)算機(jī)工程 2020年2期
關(guān)鍵詞:尺度計(jì)數(shù)卷積

翟 強(qiáng),王陸洋,殷保群,彭思凡,邢思思

(中國(guó)科學(xué)技術(shù)大學(xué) 自動(dòng)化系,合肥 230027)

0 概述

近些年來(lái),發(fā)生在世界各地的大型人群踩踏事故屢見不鮮。及時(shí)檢測(cè)人群急劇變化,優(yōu)化公共交通調(diào)度可以避免類似安全事故的發(fā)生,因此準(zhǔn)確估計(jì)人群數(shù)量具有重要的研究?jī)r(jià)值,而透視效果導(dǎo)致的人群遮擋、尺度變化問(wèn)題仍是人群計(jì)數(shù)面臨的重大挑戰(zhàn)。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型[1-2]在圖像處理上表現(xiàn)優(yōu)異,使得研究人員將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人群計(jì)數(shù)中[3]。文獻(xiàn)[4]提出使用卷積神經(jīng)網(wǎng)絡(luò)統(tǒng)計(jì)不同場(chǎng)景中的人群數(shù)目,先為某些場(chǎng)景預(yù)先訓(xùn)練一個(gè)網(wǎng)絡(luò),當(dāng)給定來(lái)自新場(chǎng)景的測(cè)試圖像時(shí),根據(jù)透視信息和密度圖中的相似性選擇相似訓(xùn)練數(shù)據(jù)對(duì)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行微調(diào)。該方法在大多數(shù)現(xiàn)有數(shù)據(jù)集上表現(xiàn)出良好的性能,但在訓(xùn)練和測(cè)試時(shí)對(duì)透視圖的需求,限制了該方法在實(shí)際人群場(chǎng)景中的適用性和擴(kuò)展性。文獻(xiàn)[5]提出一個(gè)端到端的CNN架構(gòu),將整個(gè)圖像作為輸入并直接輸出計(jì)數(shù)結(jié)果。但由于難以解決圖像尺度多變的問(wèn)題,基于單列CNN的方法的計(jì)算精度和魯棒性效果均不佳。文獻(xiàn)[6]提出Switching CNN網(wǎng)絡(luò),先將圖像分塊,通過(guò)VGG16網(wǎng)絡(luò)把圖像塊密度分成高中低3類,選擇針對(duì)特定人群密度設(shè)計(jì)的CNN回歸模型來(lái)估計(jì)圖像塊的人群密度圖。然而人群在圖像中的分布通常是不均勻的,對(duì)圖像的簡(jiǎn)單分塊影響了計(jì)數(shù)的準(zhǔn)確性。文獻(xiàn)[7]提出多列卷積網(wǎng)絡(luò),其能夠適應(yīng)部分人群的尺度變化,在一定程度上減少由于透視而導(dǎo)致的計(jì)數(shù)誤差,但其使用一個(gè)1×1卷積對(duì)多列密度圖進(jìn)行簡(jiǎn)單平均融合,會(huì)給最終結(jié)果帶來(lái)一定的誤差。

本文提出一種用于圖像人群計(jì)數(shù)的新型卷積神經(jīng)網(wǎng)絡(luò)模型??紤]到經(jīng)典VGG16網(wǎng)絡(luò)[8]具有良好的特征提取能力,該網(wǎng)絡(luò)模型前半部分采用VGG16的前13層提取圖像特征,后半部分利用具有3列不同感受野的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步提取多樣化的圖像特征。在此基礎(chǔ)上,構(gòu)建特征注意力模塊提取判別信息,對(duì)3列卷積神經(jīng)網(wǎng)絡(luò)得到的特征圖進(jìn)行評(píng)判打分,生成與特征圖尺寸相同的注意力特征圖,通過(guò)加權(quán)求和得到最終密度圖,并在Shanghai Tech和UCF_CC_50兩個(gè)數(shù)據(jù)集上訓(xùn)練并測(cè)試人群計(jì)數(shù)算法。

1 基于尺度自適應(yīng)網(wǎng)絡(luò)的人群計(jì)數(shù)算法

1.1 密度圖

本文旨在準(zhǔn)確估計(jì)輸入圖像的人群密度圖,其積分值代表圖中的人數(shù)。人群計(jì)數(shù)數(shù)據(jù)庫(kù)只提供人頭標(biāo)記的坐標(biāo)點(diǎn),在網(wǎng)絡(luò)訓(xùn)練前首先需要生成訓(xùn)練圖片的密度圖。對(duì)于圖片中坐標(biāo)為xi的人頭標(biāo)記點(diǎn),可將其表示為δ(x-xi),那么對(duì)于一張具有N個(gè)人頭標(biāo)記點(diǎn)的圖片可以表示為:

(1)

然后結(jié)合高斯核濾波器Gσ與式(1)進(jìn)行卷積操作得到密度方程,表示為:

(2)

對(duì)于人群均勻分布的圖片,可以使用自適應(yīng)高斯濾波器[4]進(jìn)行卷積,密度圖生成過(guò)程中需考慮圖片視角扭曲因素。在此情況下的密度圖方程可以表示為:

(3)

1.2 網(wǎng)絡(luò)結(jié)構(gòu)

針對(duì)人群計(jì)數(shù)中的人群遮擋和尺度變化問(wèn)題,本文提出一個(gè)用于人群計(jì)數(shù)的尺度自適應(yīng)網(wǎng)絡(luò)。在圖1中,尺度自適應(yīng)網(wǎng)絡(luò)分為3個(gè)模塊,具體為:第一模塊引入經(jīng)典VGG16網(wǎng)絡(luò)的前13層對(duì)圖片提取特征,由于VGG 4個(gè)池化層的存在,導(dǎo)致輸出變?yōu)樵瓐D的1/16,而本文采用1/8密度圖作為輸出結(jié)果,因此加入上采樣層將特征圖變?yōu)樵瓐D尺寸的1/8;第二模塊基于多列卷積神經(jīng)網(wǎng)絡(luò)思想,分別用3×3、5×5、7×7不同感受野的卷積核對(duì)第一模塊輸出提取多尺度特征,在此階段本文引入在目標(biāo)檢測(cè)、語(yǔ)義分割領(lǐng)域的可變形卷積,憑借其良好的空間幾何形變學(xué)習(xí)能力,進(jìn)一步改善特征圖;第三模塊為特征注意力模塊,其對(duì)3列卷積神經(jīng)網(wǎng)絡(luò)得到的特征圖經(jīng)Softmax層進(jìn)行評(píng)判打分及優(yōu)化,從而生成高質(zhì)量的密度圖。

圖1 尺度自適應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)

1.2.1 可變形卷積

近年來(lái)卷積神經(jīng)網(wǎng)絡(luò)在視覺領(lǐng)域表現(xiàn)優(yōu)異,其良好的特征提取能力和端對(duì)端的學(xué)習(xí)方式,避免了傳統(tǒng)方法的弊端。但網(wǎng)絡(luò)模型的幾何形變能力來(lái)自于數(shù)據(jù)本身的多樣性,即卷積操作。該操作在輸入圖像的每個(gè)位置都會(huì)進(jìn)行基于對(duì)應(yīng)位置的采樣,然后對(duì)于采樣到的特征區(qū)域做卷積并作為該位置的輸出。以3×3卷積核為例,設(shè)R={(-1,-1),(-1,0),…,(0,1),(1,1)},R代表卷積核覆蓋特征圖的感受野區(qū)域。對(duì)于特征圖上的像素點(diǎn)p0,標(biāo)準(zhǔn)卷積方式表示為:

(4)

但該方式會(huì)導(dǎo)致網(wǎng)絡(luò)自身難以適應(yīng)尺度多變的人群計(jì)數(shù)問(wèn)題,因此本文引入可變形卷積[9]。可變形卷積是對(duì)卷積核的每個(gè)采樣點(diǎn)的位置都增加一個(gè)偏移的變量,通過(guò)這些變量,卷積核可以在當(dāng)前位置附近采樣,而不再局限于之前對(duì)應(yīng)的位置采樣。可變形卷積方式表示為:

(5)

其中,Δpn通過(guò)對(duì)網(wǎng)絡(luò)訓(xùn)練得到。標(biāo)準(zhǔn)卷積加上該偏移量的學(xué)習(xí)后,可變形卷積核的大小和位置可以根據(jù)當(dāng)前需要識(shí)別的圖像內(nèi)容進(jìn)行動(dòng)態(tài)調(diào)整,即不同位置的卷積核采樣點(diǎn)位置會(huì)根據(jù)圖像內(nèi)容發(fā)生自適應(yīng)變化,從而適應(yīng)不同場(chǎng)景人群形狀、大小、尺度變化等幾何形變。分析上述計(jì)算方式可知,若可變形卷積的偏移量Δpn為0,則可變形卷積退化成普通卷積,本文算法也能達(dá)到普通卷積的算法性能。當(dāng)可變形卷積起作用時(shí),特別是卷積核在處理人群與樹木、馬路、房屋等干擾背景交界的區(qū)域時(shí),普通卷積只能對(duì)卷積核相應(yīng)尺寸大小的特征進(jìn)行計(jì)算,這樣無(wú)形中把非人群的無(wú)用特征計(jì)算進(jìn)來(lái),會(huì)給結(jié)果帶來(lái)一定的誤差。而可變形卷積可以有效地解決該問(wèn)題,當(dāng)算法在訓(xùn)練過(guò)程中遇到上述場(chǎng)景時(shí),通過(guò)訓(xùn)練卷積核附帶的偏移量參數(shù)Δpn,將普通卷積核部分對(duì)應(yīng)計(jì)算的非人群特征偏移到人群特征中,這樣整個(gè)卷積核提取的都是人群特征,有效避免了非人群特征的干擾,從而提高人群計(jì)數(shù)性能。

1.2.2 特征注意力模塊

人腦每個(gè)時(shí)刻接收的外界輸入信息非常多,當(dāng)人腦在接收這些信息時(shí)會(huì)自覺或不自覺地利用注意力機(jī)制獲取重要的信息。目前,這種注意力機(jī)制被引入自然語(yǔ)言處理、物體檢測(cè)、語(yǔ)義分割等領(lǐng)域,并具有很好的應(yīng)用效果。本文將注意力機(jī)制作為一個(gè)模塊加入卷積神經(jīng)網(wǎng)絡(luò),旨在優(yōu)化第二模塊的3列特征圖,因此本文將其命名為特征注意力模塊。為解決圖片中人群尺度變化問(wèn)題,該注意力模塊將第一模塊結(jié)果作為輸入,對(duì)經(jīng)過(guò)可變形卷積處理的3列多尺度特征圖逐像素點(diǎn)生成具有判別能力的高級(jí)信息,即3列多尺度特征圖對(duì)應(yīng)的每個(gè)像素點(diǎn)都生成相應(yīng)的權(quán)重,以此衡量3列多尺度特征圖對(duì)應(yīng)像素點(diǎn)的重要程度??傮w來(lái)看,注意力模塊是對(duì)3列多尺度特征圖進(jìn)行打分,評(píng)判3列多尺度特征圖所有對(duì)應(yīng)像素點(diǎn)的重要程度。計(jì)算方式如下:假設(shè)Fk為注意力模塊輸出的3列特征圖中的某一列,Sk為經(jīng)過(guò)可變形卷積處理的多尺度特征圖中的某一列,則網(wǎng)絡(luò)經(jīng)Softmax層生成相應(yīng)的注意力特征圖(與特征圖相同尺寸的概率矩陣)。

(6)

注意力特征圖與特征圖相對(duì)應(yīng)的像素點(diǎn)相乘,再對(duì)其求和生成最終的密度圖。

(7)

通過(guò)該方式使網(wǎng)絡(luò)在3列多尺度特征圖上從像素點(diǎn)級(jí)別尋找與真實(shí)密度圖相關(guān)的有用信息,對(duì)密度圖生成有益的像素點(diǎn)獲得更高的權(quán)重,對(duì)密度圖生成無(wú)益的像素點(diǎn)獲得更低的權(quán)重,即評(píng)判特征圖的重要程度,從而提高最終密度圖的生成質(zhì)量。

1.3 網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化

本文采用自適應(yīng)學(xué)習(xí)率的Adam優(yōu)化算法進(jìn)行網(wǎng)絡(luò)優(yōu)化,使用歐氏距離作為目標(biāo)函數(shù),計(jì)算預(yù)測(cè)得到的密度圖與真實(shí)密度圖之間的差距。損失函數(shù)的定義如下:

(8)

其中,Θ是網(wǎng)絡(luò)參數(shù),N是訓(xùn)練集圖片總數(shù),Xi是第i張圖片,F(Xi;Θ)和Fi分別表示第i張圖片的估計(jì)密度圖和真實(shí)密度圖。

2 實(shí)驗(yàn)結(jié)果與分析

本文在Shanghai Tech和UCF_CC_50數(shù)據(jù)集上訓(xùn)練并測(cè)試人群計(jì)數(shù)算法,借鑒經(jīng)典網(wǎng)絡(luò)VGG[8]、MCNN[7]、SANet[10]等的參數(shù)設(shè)置方法,若沒有特殊聲明,卷積核尺寸默認(rèn)為3×3,卷積核的激活函數(shù)均為ReLU非線性激活函數(shù)。網(wǎng)絡(luò)對(duì)VGG提取的特征(原圖片的1/16)進(jìn)行上采樣后,特征圖尺寸變?yōu)樵瓉?lái)的2倍(原圖片的1/8),則卷積核通道變?yōu)樵瓉?lái)的1/2,數(shù)目為256。本文基于1/8密度圖估計(jì)人群數(shù)目,因此卷積層通道數(shù)均采用256通道。在設(shè)置可變形卷積通道超參數(shù)時(shí),由于該卷積方式的復(fù)雜性,實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)對(duì)內(nèi)存的消耗較大,訓(xùn)練時(shí)間較長(zhǎng),因此對(duì)每列特征圖只設(shè)置32通道的可變形卷積。本文在Pytorch深度學(xué)習(xí)環(huán)境下進(jìn)行訓(xùn)練,在網(wǎng)絡(luò)訓(xùn)練權(quán)值初始化方面,VGG特征提取器使用已訓(xùn)練好的模型參數(shù)進(jìn)行初始化,其他層使用標(biāo)準(zhǔn)差為0.01的高斯分布進(jìn)行初始化,網(wǎng)絡(luò)的初始訓(xùn)練學(xué)習(xí)率為1e-5,共訓(xùn)練300個(gè)周期。

2.1 評(píng)價(jià)標(biāo)準(zhǔn)

本文使用平均絕對(duì)誤差(Mean Absolute Error,MAE)和均方誤差(Mean Squared Error,MSE)評(píng)價(jià)算法性能。MAE和MSE的定義如下:

(9)

(10)

其中,zi和z′分別表示第i張圖片的真實(shí)人數(shù)和算法估計(jì)人數(shù)。

2.2 Shanghai Tech數(shù)據(jù)集

Shanghai Tech數(shù)據(jù)集共包含1 198張圖片,標(biāo)記人數(shù)達(dá)到330 165人。該數(shù)據(jù)集由Part_A和Part_B兩部分組成。兩個(gè)數(shù)據(jù)集無(wú)論是人群規(guī)模還是人群密度都有很大的區(qū)別。Part_A人群密度較大,Part_B人群密度中等但分布變化較大。

在數(shù)量上,Part_A由482張從網(wǎng)絡(luò)抓取的圖片組成,Part_B包含從上海街頭拍攝的716張圖片,同時(shí)它們都分為訓(xùn)練集和測(cè)試集兩部分。Part_A中300張作為訓(xùn)練集,182張作為測(cè)試集。Part_B中訓(xùn)練集和測(cè)試集圖片分別為400張和316張。

由于Part_A和Part_B數(shù)據(jù)集的訓(xùn)練集分別是300張和400張圖片,圖片數(shù)量太少,因此采用數(shù)據(jù)增強(qiáng)方式,從每一張訓(xùn)練圖片中截取36張圖片,同時(shí)過(guò)濾單幅少于5人的圖片,每一張圖片尺寸都為原圖片尺寸的1/4,采用該方式增加訓(xùn)練圖片的數(shù)量。在訓(xùn)練過(guò)程中,手動(dòng)將初始學(xué)習(xí)率降低10倍再次訓(xùn)練,使本文算法達(dá)到更好效果。

表1為本文算法與8種當(dāng)前主流人群計(jì)數(shù)算法的性能比較結(jié)果,由此可知:在Part_A數(shù)據(jù)集上,本文算法MAE和MSE均為最優(yōu);在Part_B數(shù)據(jù)集上,本文算法與其他算法性能接近。

表1 Shanghai Tech數(shù)據(jù)集上各算法性能對(duì)比結(jié)果

本文算法不僅在人群密集場(chǎng)景的Part_A數(shù)據(jù)集上有效,對(duì)于人群密度中等且分布變化較大的Part_B數(shù)據(jù)集依然表現(xiàn)良好,說(shuō)明本文算法的適用性強(qiáng)和準(zhǔn)確性高。圖2分別展示了兩個(gè)數(shù)據(jù)集上測(cè)試圖片的估計(jì)密度圖和真實(shí)密度圖。

圖2 測(cè)試圖片的估計(jì)密度圖與真實(shí)密度圖1

2.3 UCF_CC_50數(shù)據(jù)集

UCF_CC_50數(shù)據(jù)集[15]是一個(gè)復(fù)雜的數(shù)據(jù)集,該數(shù)據(jù)集人群密度大,僅有50張圖片,但卻有63 974人。同時(shí),該數(shù)據(jù)集圖片的人群數(shù)目從94人到4 543人不等,平均每張圖片有1 280人。本文采用與當(dāng)前主流人群計(jì)數(shù)算法相同的方式,對(duì)原數(shù)據(jù)集進(jìn)行五折交叉驗(yàn)證,并采取與Shanghai Tech數(shù)據(jù)集相同的方式進(jìn)行數(shù)據(jù)增強(qiáng),最后用本文算法分別在5個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。表2為本文算法與該數(shù)據(jù)集上表現(xiàn)良好的9種當(dāng)前主流人群計(jì)數(shù)算法的性能比較結(jié)果,數(shù)據(jù)顯示本文算法的MAE和MSE兩項(xiàng)指標(biāo)均優(yōu)于其他算法,說(shuō)明本文算法具有良好的泛化能力和較高的準(zhǔn)確性。

表2 UCF_CC_50數(shù)據(jù)集上各算法性能對(duì)比結(jié)果

圖3展示了兩張測(cè)試圖片的估計(jì)密度圖和真實(shí)密度圖。綜合來(lái)看,本文算法在Shanghai Tech和UCF_CC_50數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果均已超越目前大部分計(jì)數(shù)算法,具有較高的準(zhǔn)確性和較好的魯棒性。數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近該上限且在深度學(xué)習(xí)領(lǐng)域同樣適用,算法對(duì)圖片特征的提取能力決定算法性能的優(yōu)劣。鑒于以上思想,本文算法設(shè)計(jì)以提取和優(yōu)化圖片特征為目的,基于VGG前13層及使用多列不同尺寸的卷積核提取特征,并從以下方面優(yōu)化特征:1)引入可變形卷積改進(jìn)3列多尺度特征;2)構(gòu)建注意力模塊對(duì)3列多尺度特征進(jìn)行打分評(píng)判,使對(duì)密度圖生成有益的特征獲得更高權(quán)重,對(duì)密度圖生成無(wú)益的特征獲得更低權(quán)重,從而優(yōu)化所得特征。通過(guò)圖2、圖3估計(jì)密度圖與真實(shí)密度圖的比較,算法生成的密度圖人群分布與真實(shí)密度圖接近,由此可知算法輸出了較高質(zhì)量的密度圖,從而提升了計(jì)數(shù)準(zhǔn)確度。而目前典型網(wǎng)絡(luò)大多只從多列網(wǎng)絡(luò)、更深層次網(wǎng)絡(luò)進(jìn)行設(shè)計(jì),并未考慮影響模型性能的特征優(yōu)化這一因素,而上述兩方面保障了本文網(wǎng)絡(luò)結(jié)構(gòu)具有良好的特征提取能力,因此整體性能優(yōu)于現(xiàn)有大部分經(jīng)典網(wǎng)絡(luò)。

圖3 測(cè)試圖片的估計(jì)密度圖與真實(shí)密度圖2

為驗(yàn)證本文算法引入可變形卷積和特征注意力模塊的有效性,并測(cè)試其對(duì)本文算法的性能影響,在Shanghai Tech數(shù)據(jù)集Part_A上進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示。在驗(yàn)證過(guò)程中,基于無(wú)可變形卷積網(wǎng)絡(luò)和無(wú)注意力模塊網(wǎng)絡(luò)的算法與本文算法的訓(xùn)練方法一致,手動(dòng)將初始學(xué)習(xí)率降低10倍再次訓(xùn)練,可使算法達(dá)到更好效果。

表3Shanghai Tech數(shù)據(jù)集Part_A驗(yàn)證模塊對(duì)算法性能的影響

Table 3 Impact of the Part_A verification module in the Shanghai Tech dataset on algorithm performance

算法MAEMSE基于無(wú)可變形卷積網(wǎng)絡(luò)的算法69.6110.0基于無(wú)注意力模塊網(wǎng)絡(luò)的算法68.0101.6本文算法66.8100.0

3 結(jié)束語(yǔ)

本文提出一種尺度自適應(yīng)的基于多列卷積神經(jīng)網(wǎng)絡(luò)的人群計(jì)數(shù)算法。為解決圖片中的人群遮擋和尺度變化問(wèn)題,引入具有良好空間幾何形變學(xué)習(xí)能力的可變形卷積,以提取多尺度特征。在此基礎(chǔ)上,構(gòu)建特征注意力模塊自適應(yīng)地融合多尺度特征并生成密度圖。在Shanghai Tech和UCF_CC_50數(shù)據(jù)集上的實(shí)驗(yàn)數(shù)據(jù)顯示,本文算法具有較強(qiáng)的魯棒性和較高的準(zhǔn)確性。后續(xù)將通過(guò)提高密度圖質(zhì)量和改進(jìn)損失函數(shù)等技術(shù)進(jìn)一步優(yōu)化人群計(jì)數(shù)算法。

猜你喜歡
尺度計(jì)數(shù)卷積
古人計(jì)數(shù)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
遞歸計(jì)數(shù)的六種方式
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
古代的計(jì)數(shù)方法
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
這樣“計(jì)數(shù)”不惱人
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
9
莒南县| 庄浪县| 昌图县| 长阳| 西乌珠穆沁旗| 敦煌市| 沅江市| 济宁市| 乐都县| 灵山县| 容城县| 邻水| 沐川县| 普兰店市| 迭部县| 抚远县| 达州市| 澄江县| 大荔县| 阿巴嘎旗| 嘉荫县| 静安区| 建湖县| 嘉定区| 长武县| 华亭县| 西林县| 丰城市| 和田县| 常宁市| 辉南县| 昔阳县| 雅安市| 静安区| 马山县| 六枝特区| 宝应县| 高雄县| 晋州市| 故城县| 榆树市|