国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度特征融合與注意力機(jī)制的人群計(jì)數(shù)算法

2022-03-16 00:10:12劉東華魏賓王國(guó)棟
關(guān)鍵詞:特征融合注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)

劉東華 魏賓 王國(guó)棟

摘要:針對(duì)特征提取過(guò)程中缺乏對(duì)人群區(qū)域的針對(duì)性,不同大小人頭目標(biāo)不能同時(shí)檢測(cè)以及特征融合時(shí)多尺度特征信息丟失問(wèn)題,提出多尺度注意力模塊,增強(qiáng)特征對(duì)高密度人群區(qū)域的關(guān)注。采用多尺度空洞卷積,結(jié)合提出的多通道特征融合模塊,提取更完善的多尺度特征,提高對(duì)不同尺寸人頭計(jì)數(shù)能力;利用密度圖回歸模塊,融合多尺度特征,減少了多尺度信息的損耗。實(shí)驗(yàn)結(jié)果表明,本算法的計(jì)數(shù)結(jié)果更精確穩(wěn)定。

關(guān)鍵詞:圖像處理;卷積神經(jīng)網(wǎng)絡(luò);特征融合;注意力機(jī)制

中圖分類號(hào):STP291???????? 文獻(xiàn)標(biāo)志碼:A

近年來(lái),城市化進(jìn)程不斷推進(jìn),城市人口日益增多,各種公共場(chǎng)所人群聚集現(xiàn)象更加頻繁,這使得高密度人群情況下的安全問(wèn)題亟待解決。為減少意外事故,需要對(duì)聚集的人數(shù)進(jìn)行估計(jì)。此外,人群計(jì)數(shù)還可以遷移到其他計(jì)數(shù)任務(wù),如細(xì)胞計(jì)數(shù)、魚群計(jì)數(shù)等。隨著深度學(xué)習(xí)的快速發(fā)展,提出了很多卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network)[1-6],并應(yīng)用于人群計(jì)數(shù)。當(dāng)前人群計(jì)數(shù)面臨的主要問(wèn)題為人頭尺寸的多變性、復(fù)雜背景干擾以及透視失真。針對(duì)透視失真問(wèn)題。有如下解決方法,如利用自適應(yīng)空洞卷積和自糾正監(jiān)督網(wǎng)絡(luò),解決透視失真造成的尺度變化問(wèn)題,糾正點(diǎn)標(biāo)注位置[7];采用多分支金字塔網(wǎng)絡(luò),提取上下文多尺度特征向量[8];將透視分析方法與計(jì)數(shù)網(wǎng)絡(luò)相結(jié)合,挖掘透視信息,促進(jìn)計(jì)數(shù)網(wǎng)絡(luò)進(jìn)行場(chǎng)景分析[9];將金字塔池模塊進(jìn)行特征聚合,修復(fù)池化層導(dǎo)致的像素失真[10];利用反透視網(wǎng)絡(luò),顯式地評(píng)估透視失真,均勻地扭曲輸入圖像校正畸變[11]。這些算法雖然在一定程度上解決了透視失真問(wèn)題,但其效果提升并不明顯,且極大增加了網(wǎng)絡(luò)復(fù)雜度。針對(duì)人頭尺寸變化,學(xué)者們嘗試使用多通道或者多任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)提取多尺度特征。Zhang等[12]采用三列不同大小卷積核的卷積神經(jīng)網(wǎng)絡(luò)提取不同尺度的特征。Liu等[13]設(shè)計(jì)了一個(gè)由兩部分組成的網(wǎng)絡(luò):檢測(cè)網(wǎng)絡(luò)(DNet)和編解碼網(wǎng)絡(luò)(ENet)。DNet在圖像中檢測(cè)清晰的人,并覆蓋這些人所在區(qū)域,ENet評(píng)估剩余區(qū)域的密度圖。Shi等[14]使用了四個(gè)通道的組合提取特征,Zhang等[15]利用多個(gè)通道提取不同角度的特征圖。這些網(wǎng)絡(luò)雖然注意到多尺度特征的提取,但其獲取多尺度特征信息時(shí),僅采用多通道的結(jié)構(gòu),多尺度信息提取不完全,且特征融合時(shí),采用簡(jiǎn)單的相加或串聯(lián)操作,導(dǎo)致多尺度信息損耗。前期研究中,針對(duì)透視失真、尺度變化問(wèn)題,提出了不同的解決方法,雖不同程度提高了計(jì)數(shù)精確度,仍存在一定缺陷。一方面,僅在網(wǎng)絡(luò)中嵌入多列卷積結(jié)構(gòu),將多列卷積提取的特征相加或合并,提取的多尺度特征不完善,無(wú)法獲取到足夠的多尺度特征信息,不能有效檢測(cè)不同大小目標(biāo)。另一方面,數(shù)據(jù)集背景復(fù)雜,且有時(shí)背景信息與頭部區(qū)域特征相似,導(dǎo)致誤判。為此,本文采用多尺度空洞卷積網(wǎng)絡(luò),提出多列特征融合模塊(MsFF),在特征提取時(shí)將多尺度特征信息相互融合,促進(jìn)特征信息的互補(bǔ)和完善;提出密度圖回歸模塊,采用逐步融合策略,減少有用特征信息消損;提出多尺度注意力機(jī)制,減小復(fù)雜背景對(duì)計(jì)數(shù)任務(wù)的影響,增強(qiáng)對(duì)目標(biāo)的激活響應(yīng)。

1 算法分析

1.1 基于檢測(cè)與基于回歸的算法

人群計(jì)數(shù)算法有兩類:基于檢測(cè)的算法和基于回歸的算法。其中,基于檢測(cè)的方法是早期研究的重點(diǎn),主要思想是使用滑動(dòng)檢測(cè)窗遍歷整個(gè)圖像,定位和統(tǒng)計(jì)滑動(dòng)窗口中的人數(shù)[16]。檢測(cè)器主要通過(guò)支持向量機(jī)(Support vector machine)、隨機(jī)森林、Boosting等方法訓(xùn)練得到,提取低層特征,如哈爾小波(Haar wavelet)[17]或方向梯度直方圖(Histogram of oriented gradient)[18]檢測(cè)行人。由于圖像中人的互相遮擋和模糊,檢測(cè)整體行人具有很大的挑戰(zhàn)性。后續(xù)研究通過(guò)檢測(cè)身體的一部分定位目標(biāo),如肩膀和頭部,與檢測(cè)整體相比,只檢測(cè)部分人體的方法取得更高的精度。這種基于檢測(cè)的方法在稀疏人群圖像上表現(xiàn)良好,然而,隨著人群密度增加,人與人之間的相互遮擋越來(lái)越嚴(yán)重,給檢測(cè)精度帶來(lái)巨大挑戰(zhàn)。因此,基于檢測(cè)的方法不適用于高密度人群場(chǎng)景。而基于回歸的算法是通過(guò)學(xué)習(xí)特征得到人數(shù)的映射,完成人群計(jì)數(shù)任務(wù)。該類算法一般由特征提取和回歸模型兩部分構(gòu)成:提取低層特征,如邊緣特征、紋理特征等;利用線性回歸或嶺回歸等回歸模型得到特征與人數(shù)的映射關(guān)系。這種使用可學(xué)習(xí)的參數(shù)估計(jì)人數(shù)的方法明顯優(yōu)于檢測(cè)方法。

針對(duì)檢測(cè)方法無(wú)法充分檢測(cè)的問(wèn)題,Zhang等[12]提出基于密度圖回歸的算法。密度圖回歸是指根據(jù)圖像中人頭的坐標(biāo),估計(jì)人頭的大小并得到人頭區(qū)域,進(jìn)而使用高斯核模糊該人頭區(qū)域得到區(qū)域內(nèi)可能是人頭的概率,每個(gè)人頭模糊后概率總和為1,區(qū)域內(nèi)概率總和即為該區(qū)域內(nèi)的人數(shù)。假設(shè)人頭部的中心在像素xi

(a)??????????????? (b)

圖1 原始圖像及對(duì)應(yīng)的密度圖

(a)原始圖像;(b)密度圖

處,使用δ函數(shù)δx-xi表示。一張有N個(gè)人頭標(biāo)注的人群圖像可表示為

H(x)=∑Ni=1δx-xi (1)

對(duì)于高人群密度的數(shù)據(jù)集,如ShanghaiTech數(shù)據(jù)集的A部分和UCF_CC_50數(shù)據(jù)集,用幾何自適應(yīng)高斯核模糊處理每個(gè)頭部注釋,生成密度圖

F(x)=∑Ni=1δx-xi*Gσix(2)

其中,Gσi是幾何自適應(yīng)高斯核,σi=βi,i表示人頭xi與其最近的3個(gè)頭部注釋點(diǎn)之間距離的平均值, 在本文中,β設(shè)為0.3。對(duì)于人群稀疏的ShanghaiTech數(shù)據(jù)集的B部分,本文使用固定標(biāo)準(zhǔn)差15的高斯核成密度圖。原始圖像及對(duì)應(yīng)的密度圖如圖1所示。

1.2 注意力機(jī)制

注意力機(jī)制是人類視覺系統(tǒng)的特有機(jī)制,人類大腦在處理獲取的視覺信號(hào)時(shí),會(huì)篩選出最值得關(guān)注的信息,過(guò)濾部分無(wú)用信息。計(jì)算機(jī)視覺模仿人的視覺特性,將注意力機(jī)制應(yīng)用到深度學(xué)習(xí)中,為特征分配重要權(quán)重,促使特征提取過(guò)程傾向于注意有用信息,忽略冗余和噪聲。在人群計(jì)數(shù)任務(wù)中,錯(cuò)綜復(fù)雜的背景會(huì)被誤認(rèn)為人頭,影響計(jì)數(shù)結(jié)果的準(zhǔn)確性,這是因?yàn)樵诰幋a過(guò)程中,部分背景特征可能與人頭相似,回歸模型解碼時(shí),將部分背景判斷為人。因此,引入多尺度注意力機(jī)制,在前期特征編碼時(shí),有效區(qū)分背景和人群并兼顧多尺度特征的提取,減少錯(cuò)誤計(jì)數(shù)。

2 算法實(shí)現(xiàn)

2.1 總體結(jié)構(gòu)

本文算法的具體步驟為:圖像首先進(jìn)入主干網(wǎng)絡(luò)提取淺層特征,主干網(wǎng)絡(luò)由VGG16前10層和多尺度注意力模塊構(gòu)成,VGG16具有優(yōu)秀的特征提取能力且結(jié)構(gòu)簡(jiǎn)單,僅由3×3卷積層(conv)和最大池化層(Max Pooling Layer)構(gòu)成,VGG16使用3×3串聯(lián)卷積,參數(shù)比單獨(dú)使用大卷積核少。同時(shí),比單個(gè)卷積層包含更多非線性變換。VGG16提取的特征接著輸送到多尺度注意力模塊中,提取全局注意力和局部注意力權(quán)重,與輸入特征融合。主干網(wǎng)絡(luò)的輸出是輸入圖像的1/8,因?yàn)閂GG16前10層中包括3個(gè)最大池化層。

圖2(a)多列特征融合模塊以主干網(wǎng)絡(luò)輸出的淺層特征為輸入,使用空洞率分別為1,2,3的3列空洞卷積提取多尺度特征,并在特征提取后將不同尺度特征相互融合,彼此完善、互補(bǔ)特征信息。提取到的多尺度特征圖{M1,M2,M3},被輸入到圖2(b)密度圖回歸模塊,進(jìn)行兩步融合,回歸輸出預(yù)測(cè)密度圖。

(a)多列特征融合網(wǎng)絡(luò);(b)密度圖回歸模塊

圖3 MSA模塊結(jié)構(gòu)

2.2 多尺度注意力機(jī)制

VGG16前10層提取的特征圖不包含注意力信息,不能有效區(qū)分前景和背景,為防止背景對(duì)計(jì)數(shù)精度的干擾,引入多尺度注意力機(jī)制,并命名為MSA。MSA模塊提取兩種尺度的注意力權(quán)重:局部注意力權(quán)重和全局注意力權(quán)重,具體結(jié)構(gòu)如圖3所示。

MSA模塊有3個(gè)分支,上分支提取全局注意力,首先使用全局平均池化處理輸入特征,得到一個(gè)C×1×1的向量(C為輸入特征通道數(shù)),然后使用1×1卷積加權(quán),加權(quán)后的向量使用ReLU激活函數(shù)激活后再用 1×1卷積加權(quán),輸出全局注意力向量;中間分支提取局部注意力,其輸出是一個(gè)與輸入特征尺寸相同的特征圖。將輸入特征用1×1卷積加權(quán)后,經(jīng)ReLU激活函數(shù)激活特征,再用1×1卷積加權(quán),得到最終輸出。全局注意力和局部注意力相加后,經(jīng)Sigmoid激活函數(shù)激活,與殘差分支相加。多尺度注意力機(jī)制可有效強(qiáng)化不同尺寸的頭部區(qū)域特征,抑制背景區(qū)域特征。

2.3 多尺度特征融合網(wǎng)絡(luò)

傳統(tǒng)算法中,只通過(guò)一個(gè)多列卷積神經(jīng)網(wǎng)絡(luò)提取多尺度特征,然后將不同列的特征串聯(lián),這種方式所提取的多尺度特征不夠完善。為解決這一問(wèn)題,本文設(shè)計(jì)了多尺度特征融合網(wǎng)絡(luò),并命名為MsFF,核心思想是基于每一列獨(dú)立的特征提取過(guò)程,實(shí)現(xiàn)特征信息互通共享,3個(gè)獨(dú)立的通道,分別使用空洞率為1,2,3的空洞卷積提取特征??斩淳矸e首次提出于圖像分割領(lǐng)域,在語(yǔ)義切分上取得很好的效果,得到廣泛應(yīng)用??斩淳矸e的引入可以在不增加參數(shù)量的情況下,有效增加感受野,靈活地聚合多尺度信息,同時(shí)保持相同的分辨率。空洞率為r的空洞卷積的感受野尺寸為k+(k-1)(r-1)。例如,空洞率為3的3×3空洞卷積的感受野為49。普通3×3卷積的感受野僅為9。不同空洞率的卷積有不同大小的感受野,可以感知不同尺寸的目標(biāo),每一階段特征提取后,每一列利用其他列的特征信息完善自身提取的特征。

1)多尺度特征融合網(wǎng)絡(luò)以主干網(wǎng)絡(luò)提取的淺層特征為輸入,進(jìn)行三階段特征融合。第一階段,分別使用空洞率為1,2,3的3×3空洞卷積處理輸入特征,得到特征圖{F1,F(xiàn)2,F(xiàn)3},將一,二通道(空洞率為1和2的通道)的特征相互融合,融合后的特征圖與第三通道的特征繼續(xù)用空洞卷積處理,得到特征圖{Q1,Q2,Q3}

Qi=conv_iF1+convF2+convcatF1,F(xiàn)2,i=1conv_iF2+convF1+convcatF1,F(xiàn)2,i=2conv_iF3,i=3(3)

其中,conv_i代表空洞率為i的3×3空洞卷積,conv表示1×1的普通卷積操作,cat是串聯(lián)操作。

2)第二階段為三個(gè)通道特征的相互融合,輸入特征為{Q1,Q2,Q3},輸出特征圖是{D1,D2,D3}

Di=conv_i∑j≠iconvQj+convcatQ1,Q2,Q3,i=1,2,3(4)

3)第三階段重復(fù)了第二階段的所有操作。將特征相互融合后,各個(gè)通道的特征都得到完善,包含的多尺度特征信息更豐富。

2.4 密度圖回歸

密度圖回歸模塊的提出旨在減少密度圖回歸過(guò)程中多尺度特征的丟失。如圖2(b)所示,多尺度特征融合網(wǎng)絡(luò)有3個(gè)輸出{M1,M2,M3}。分別將M1,M2和M2,M3串聯(lián)(concatenation),然后使用1×1卷積和3×3卷積將通道數(shù)減少到1,得到初步密度圖d1和d2。最后,使用3×3卷積將d1加權(quán)處理,并融合到d2中,最終生成的密度圖包含了所有列的多尺度特征

d=α1γ1catM2,M3+ωα2γ2catM1,M2(5)

其中,d為最終預(yù)測(cè)密度圖,cat是串聯(lián)操作,{w,α1,α2,γ1,γ2}為卷積學(xué)習(xí)的參數(shù)。

2.5 損失函數(shù)

為了度量真值密度圖與該方法生成的密度圖之間的相似性,本文使用歐氏距離作為損失函數(shù)。歐氏距離能有效衡量真值圖與預(yù)測(cè)密度圖的差距,監(jiān)督參數(shù)往縮小差距方向?qū)W習(xí)[5,12]。損失函數(shù)

Lθ=12N∑Ni=1GiIi;θ-Pi22(6)

其中,θ是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的參數(shù),N是訓(xùn)練圖像的總數(shù),Gi(Ii,θ)和Pi分別代表第i張訓(xùn)練圖像的真實(shí)密度圖和預(yù)測(cè)密度圖,Ii表示第i張訓(xùn)練圖像。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

ShanghaiTech數(shù)據(jù)集包括1 198張圖像,共330 165個(gè)頭部標(biāo)注點(diǎn),頭部標(biāo)注的數(shù)量是最大的數(shù)據(jù)集[12]。ShanghaiTech數(shù)據(jù)集分為A、B兩部分。A部分是互聯(lián)網(wǎng)上收集的高密度人群圖像,共有241 677個(gè)頭部注釋,單張圖像中頭部注釋的數(shù)量范圍從33到3 139,圖像的分辨率不固定,A部分共有482張圖像,其中300張用于訓(xùn)練,182張用于測(cè)試。B部分取自上海街道的監(jiān)控?cái)z像頭,人群密度低。每幅圖像的分辨率為768×1 024。B部分共有716張圖像,其中400張用于訓(xùn)練,316張用于測(cè)試。

UCF_CC_50數(shù)據(jù)集[19]共包含50張圖像,每張圖像平均有1 280個(gè)頭部注釋。由于該數(shù)據(jù)集中圖像數(shù)量相對(duì)較少,且人群密度高,具有很大挑戰(zhàn)性。此數(shù)據(jù)集共有63 705個(gè)頭部標(biāo)注。每張圖像中頭部標(biāo)注數(shù)量范圍為94到4 543。UCF_CC_50數(shù)據(jù)集的50幅圖像均為互聯(lián)網(wǎng)上的公共圖像,具有不同的場(chǎng)景和密度,以及不同角度的扭曲。圖像中的場(chǎng)景包括抗議、馬拉松、體育場(chǎng)、音樂(lè)會(huì)和朝圣。在UCF_CC_50數(shù)據(jù)集上訓(xùn)練和測(cè)試時(shí),本文將數(shù)據(jù)集分成10組,進(jìn)行5次交叉驗(yàn)證,計(jì)算5次測(cè)試的平均MAE和MSE評(píng)價(jià)本算法。

3.2 實(shí)驗(yàn)參數(shù)

實(shí)驗(yàn)使用NVIDIA Tesla K80顯卡,在Pytorch框架上訓(xùn)練網(wǎng)絡(luò)參數(shù),采用隨機(jī)梯度下降(SGD)優(yōu)化算法優(yōu)化參數(shù)[20]。網(wǎng)絡(luò)輸出的密度圖的大小是輸入的1/8,因?yàn)榫W(wǎng)絡(luò)中使用的預(yù)訓(xùn)練VGG16包括3個(gè)最大池化層。為增強(qiáng)數(shù)據(jù)集,將訓(xùn)練集的圖像復(fù)制為原始圖像的4倍,將圖像順序洗牌,作為新訓(xùn)練集。在訓(xùn)練過(guò)程中,從訓(xùn)練集的原始圖像中隨機(jī)選取1/4的裁剪圖像塊,按一定幾率翻轉(zhuǎn)處理作為網(wǎng)絡(luò)輸入。經(jīng)過(guò)反復(fù)實(shí)驗(yàn),翻轉(zhuǎn)的概率設(shè)為0.2。這種數(shù)據(jù)增強(qiáng)方法可以保證每次訓(xùn)練的數(shù)據(jù)不同,有效防止過(guò)擬合。

3.3 評(píng)估指標(biāo)

用平均絕對(duì)誤差(MAE)和均方誤差(MSE)評(píng)測(cè)算法的計(jì)數(shù)能力

MAE=1M∑Mi=1Ri-RGTi(7)

MSE= 1M∑Mi=1Ri-RGTi2(8)

其中,M表示測(cè)試集中圖像總數(shù),Ri和RGTi分別表示第i張圖像的預(yù)測(cè)人數(shù)和真實(shí)人數(shù)。MAE和MSE的值越低,算法的性能越好。

3.4 對(duì)比實(shí)驗(yàn)

為證明算法的有效性,在ShanghaiTech數(shù)據(jù)集和UCF_CC_50數(shù)據(jù)集上進(jìn)行充分實(shí)驗(yàn),結(jié)果見表1。

本方法在ShanghaiTech的A部分的MAE和MSE分別達(dá)到63.8和99.3,均優(yōu)于其他對(duì)比算法,與深度卷積神經(jīng)網(wǎng)絡(luò)(D-ConvNet)相比,MAE降低了12.1%;在B部分中,本文的MAE和MSE分別為8.5和14.4。這是因?yàn)楸疚奶岢龅乃惴ㄒ攵喑叨茸⒁饬C(jī)制抑制了背景信息的影響,同時(shí)設(shè)計(jì)多尺度特征融合網(wǎng)絡(luò),提取了更豐富的多尺度特征信息。在UCF_CC_50數(shù)據(jù)集上,平均絕對(duì)誤差和均方誤差分別為207.1和273.3,遠(yuǎn)遠(yuǎn)領(lǐng)先其他對(duì)比算法,相比于檢測(cè)評(píng)估網(wǎng)絡(luò)(DENet),本算法的平均絕對(duì)誤差降低了34.8,均方誤差降低了72.1。這表明本算法在不同數(shù)據(jù)集上具有良好的泛化能力,部分預(yù)測(cè)結(jié)果如圖4所示。

3.5 消融實(shí)驗(yàn)

為了測(cè)試不同主干網(wǎng)絡(luò)對(duì)實(shí)驗(yàn)效果的影響,本文分別使用幾何組網(wǎng)絡(luò)(VGG)的前13層,殘差網(wǎng)絡(luò)(ResNet),谷歌網(wǎng)絡(luò)(GoogLeNet)替換算法主干網(wǎng)絡(luò)中VGG前10層,在上??萍紨?shù)據(jù)集的A部分上測(cè)試;為驗(yàn)證多尺度注意力機(jī)制(MSA)和多尺度特征融合模塊(MsFF)的有效性,分別將網(wǎng)絡(luò)中的多尺度注意力機(jī)制和多尺度特征融合模塊刪除,對(duì)比實(shí)驗(yàn)結(jié)果見表2??梢钥闯?,以VGG前10層作為主干網(wǎng)絡(luò)效果最好,在此基礎(chǔ)上去掉MSA和MsFF模塊,效果均下降。

4 結(jié)論

本文提出一種新的基于密度圖回歸的卷積神經(jīng)網(wǎng)絡(luò)解決人群計(jì)數(shù)問(wèn)題,引入多尺度注意力機(jī)制,學(xué)習(xí)特征圖不同區(qū)域的重要程度;采用多尺度空洞卷積網(wǎng)絡(luò)和多列交叉特征融合提取多尺度特征,獲取包含完整的多尺度信息的特征。融合后的多尺度特征對(duì)尺度變化具有良好魯棒性;設(shè)計(jì)了密度圖回歸模塊,防止多尺度信息弱化,充分解決了圖像中相互遮擋和尺寸多樣性問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該方法生成的密度圖較對(duì)比算法更為精確,充分證明了本算法的魯棒性。但本算法無(wú)法有效解決透視失真問(wèn)題,在下一步的研究中,將設(shè)計(jì)高效的失真處理模塊,消除圖像透視造成的畸變。

參考文獻(xiàn)

[1]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]// IEEE Conference on Computer Vision and Pattern Recognition, Boston, 2015: 1-9.

[2]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[DB/OL]. [2021-04-29]. https://arxiv.org/abs/1409.1556.

[3]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, 2016: 770-778.

[4]ZHU X Z, HU H, LIN S, et al. Deformable ConvNets V2: More deformable better results[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, 2019: 9308-9316.

[5]陳磊,王國(guó)棟.用于人群密度估計(jì)的多級(jí)融合卷積神經(jīng)網(wǎng)絡(luò)[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,33(4):31-36.

[6]鞠成國(guó),王國(guó)棟.用于人體實(shí)例分割的卷積神經(jīng)網(wǎng)絡(luò)[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,34(1):34-39.

[7]BAI S, HE Z Q, QIAO Y, et al. Adaptive dilated network with self-correction supervision for counting[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 2020: 4593-4602.

[8]YANG Y F, LI G R, WU Z, et al. Weakly-supervised crowd counting learns from sorting rather than locations[C]// European Conference on Computer Vision, Online, 2020: 1-17.

[9]YANG Y F, LI G R, DU D W, et al. Embedding perspective analysis into multi-column convolutional neural network for crowd counting[J]. IEEE Transactions on Image Processing, 2020, 30: 1395-1407.

[10] WANG Z, XIAO Z H, XIE K, et al. In Defense of single-column networks for crowd counting[DB/OL]. [2021-04-10]. https://arxiv.org/abs/1808.06133.

[11] YANG Y F, LI G R, WU Z, et al. Reverse perspective network for perspective-aware object counting[C]//IEEE/CVF Conference on Computer Vision and Pattern Recognition, Electr Network, 2020: 4373-4382.

[12] ZHANG Y Y, ZHOU D S,? CHEN S Q, et al. Single-image crowd counting via multi-column convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition, Seatlle, 2016: 589-597.

[13] LIU L, JIANG W, JIA W J, et al. Denet: A universal network for counting crowd with varying densities and scales[J]. IEEE Transactions on Multimedia, 2021, 23: 1060-1068.

[14] SHI M J, YANG Z H, XU C, et al. Revisiting perspective information for efficient crowd counting[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 7271-7280.

[15] ZHANG Q, CHAN A B. Wide-area crowd counting via ground-plane density maps and multi-view fusion CNNs[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 8289-8298.

[16] 王亮亮,王國(guó)棟,趙毅,等.基于車窗特征的快速車輛檢測(cè)算法[J].青島大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,32(3):1-7.

[17] VIOLA P, JONES M J. Robust real-time face detection[J]. International Journal of Computer Vision, 2004, 57(2): 137-154.

[18] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Conference on Computer Vision and Pattern Recognition, San Diego, 2005: 886-893.

[19] IDREES H, SALEEMI I, SEIBERT C, et al. Multi-source multi-scale counting in extremely dense crowd images[C]// 26th IEEE Conference on Computer Vision and Pattern Recognition, Portland, 2013: 2547-2554.

[20] PASZKE A, GROSS S, MASSA F, et al. Pytorch: An imperative style, high-performance deep learning library[C]//33 rd Conference on Neural Information Processing Systems,Vancouver,2019.

[21] SAM D B, SURYA S, BABU R V. Switching convolutional neural network for crowd counting[C]// 30th IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, 2017: 4031-4039.

[22] SINDAGI V A, PATEL V M. Generating high-quality crowd density maps using contextual pyramid CNNs[C]// 16th IEEE International Conference on Computer Vision, Venice, 2017: 1879-1888.

[23] SAM D B, SAJJAN N N, BABU R V, et al. Divide and grow: Capturing huge diversity in crowd images with incrementally growing CNN[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 3618-3626.

[24] LI Y H, ZHANG X F, CHEN D M. Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 1091-1100.

[25] RANJAN V, LE H, HOAI M. Iterative crowd counting[C]// 15th Proceedings of the European Conference on Computer Vision (ECCV), Munich, 2018: 270-285.

[26] ZHANG L, SHI Z L, CHENG M M, et al. Nonlinear regression via deep negative correlation learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(3): 982-998.

[27] LIU Y T, SHI M J, ZHAO Q J, et al. Point in, box out: Beyond counting persons in crowds[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 6462-6471.

[28] DING X H, HE F J, LIN Z R, et al. Crowd density estimation using fusion of multi-layer features[J]. IEEE Transactions on Intelligent Transportation Systems, 2020,99(8): 4776-4787.

[29] 杜培德,嚴(yán)華.基于多尺度空間注意力特征融合的人群計(jì)數(shù)網(wǎng)絡(luò)[J].計(jì)算機(jī)應(yīng)用,2021,41(2) :537-543.

Crowd Counting Algorithm Based on Multi Scale Feature

Fusion and Attention Mechanism

LIU Dong-huaa, WEI Binb, WANG Guo-donga

(a. College of Computer Science and Technology, b. Key Laboratory of Digital Medicine and

Computer Aid, Affiliated Hospital, Qingdao University, Qingdao 266071, China)

Abstract:

Due to the lack of pertinence to the crowd area in the process of feature extraction, human heads of different sizes cannot be detected at the same time. And multi-scale feature information is lost during feature fusion. A multi-scale attention module was proposed to enhance the attention of features to high-density crowd areas. Multi-scale dilated convolution was used to extract more perfect multi-scale features and improve the counting ability of heads of different sizes by combining with the proposed multi-channel feature fusion module. Density map regression module was proposed to gradually integrate multi-scale features and reduce the loss of multi-scale information.? Experimental results show that the counting results of this algorithm are more accurate and stable.

Keywords:

image processing; convolutional neural network; feature fusion; attention mechanism

收稿日期:2021-05-11

基金項(xiàng)目:

山東省自然科學(xué)基金(批準(zhǔn)號(hào):ZR2019MF050)資助。

通信作者:王國(guó)棟,男,博士,副教授,主要研究方向?yàn)樽兎謭D像科學(xué)、人臉識(shí)別、三維重建和醫(yī)學(xué)圖像處理和分析等。E-mail:doctorwgd@gmail.com

1837501186290

猜你喜歡
特征融合注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)
基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
基于移動(dòng)端的樹木葉片識(shí)別方法的研究
科技資訊(2017年11期)2017-06-09 18:28:13
基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
融合整體與局部特征的車輛型號(hào)識(shí)別方法
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
苏尼特右旗| 隆林| 河津市| 阳信县| 清远市| 漳平市| 木里| 渑池县| 托里县| 巩义市| 福泉市| 石家庄市| 苍梧县| 马公市| 江城| 左云县| 阳原县| 文安县| 乌海市| 门头沟区| 清水县| 馆陶县| 临泽县| 攀枝花市| 钟祥市| 额尔古纳市| 兰西县| 湟源县| 醴陵市| 林甸县| 曲麻莱县| 广安市| 武川县| 乐昌市| 朔州市| 绥宁县| 德令哈市| 新民市| 多伦县| 农安县| 页游|