国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多級特征和混合注意力機(jī)制的室內(nèi)人群檢測網(wǎng)絡(luò)

2019-01-06 07:27沈文祥秦品樂曾建潮
計(jì)算機(jī)應(yīng)用 2019年12期
關(guān)鍵詞:注意力機(jī)制

沈文祥 秦品樂 曾建潮

摘 要:針對室內(nèi)人群目標(biāo)尺度和姿態(tài)多樣性、人頭目標(biāo)易與周圍物體特征混淆的問題,提出了一種基于多級特征和混合注意力機(jī)制的室內(nèi)人群檢測網(wǎng)絡(luò)(MFANet)。該網(wǎng)絡(luò)結(jié)構(gòu)包括三部分,即特征融合模塊、多尺度空洞卷積金字塔特征分解模塊以及混合注意力模塊。首先,通過將淺層特征和中間層特征信息融合,形成包含上下文信息的融合特征,用于解決淺層特征圖中小目標(biāo)語義信息不豐富、分類能力弱的問題;然后,利用空洞卷積增大感受野而不增加參數(shù)的特性,對融合特征進(jìn)行多尺度分解,形成新的小目標(biāo)檢測分支,實(shí)現(xiàn)網(wǎng)絡(luò)對多尺度目標(biāo)的定位和檢測;最后,用局部混合注意力模塊來融合全局像素關(guān)聯(lián)空間注意力和通道注意力,增強(qiáng)對關(guān)鍵信息貢獻(xiàn)大的特征,來增強(qiáng)網(wǎng)絡(luò)對目標(biāo)和背景的區(qū)分能力。實(shí)驗(yàn)結(jié)果表明,所提方法在室內(nèi)監(jiān)控場景數(shù)據(jù)集SCUT-HEAD上達(dá)到了0.94的準(zhǔn)確率、0.91的召回率和0.92的F1 分?jǐn)?shù),在召回率、準(zhǔn)確率和F1指標(biāo)上均明顯優(yōu)于當(dāng)前用于室內(nèi)人群檢測的其他算法。

關(guān)鍵詞:室內(nèi)人群檢測;特征融合;注意力機(jī)制;空洞卷積;特征金字塔

中圖分類號: TP389.1 人工神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī);TP391.41圖像識別及其裝置文獻(xiàn)標(biāo)志碼:A

Indoor crowd detection network based on multi-level features and

hybrid attention mechanism

SHEN Wenxiang, QIN Pinle, ZENG Jianchao*

(College of Big Data, North University of China, Taiyuan Shanxi 030051, China)

Abstract: In order to solve the problem of indoor crowd target scale and attitude diversity and confusion of head targets with surrounding objects, a new Network based on Multi-level Features and hybrid Attention mechanism for indoor crowd detection (MFANet) was proposed. It is composed of three parts: feature fusion module, multi-scale dilated convolution pyramid feature decomposition module, and hybrid attention module. Firstly, by combining the information of shallow features and intermediate layer features, a fusion feature containing context information was formed to solve the problem of the lack of semantic information and the weakness of classification ability of the small targets in the shallow feature map. Then, with the characteristics of increasing the receptive field without increasing the parameters, the dilated convolution was used to perform the multi-scale decomposition on the fusion features to form a new small target detection branch, realizing the positioning and detection of the multi-scale targets by the network. Finally, the local fusion attention module was used to integrate the global pixel correlation space attention and channel attention to enhance the features with large contribution on the key information in order to improve the ability of distinguishing target from background. The experimental results show that the proposed method achieves an accuracy of 0.94, a recall rate of 0.91 and an F1 score of 0.92 on the indoor monitoring scene dataset SCUT-HEAD. All of these three are significantly better than those of other algorithms currently used for indoor crowd detection.

Key words: indoor crowd detection; feature fusion; attention mechanism; dilate convolution; feature pyramid

0 引言

計(jì)算機(jī)視覺一直是計(jì)算機(jī)科學(xué)領(lǐng)域研究熱點(diǎn)之一。作為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)典型應(yīng)用,公共室內(nèi)場所人數(shù)統(tǒng)計(jì)在人流量商業(yè)數(shù)據(jù)統(tǒng)計(jì)分析、公共安全等許多方面有著重要的應(yīng)用價(jià)值。目前室內(nèi)場景人群計(jì)數(shù)主要有兩種思路:一種是直接通過回歸的方式得到人群數(shù)量,另一種是采用檢測的方式進(jìn)行人群檢測。基于回歸的方法只能預(yù)測人群密度,得到一個(gè)粗略的結(jié)果;基于檢測的方法可以得出精確的定位信息和人數(shù)統(tǒng)計(jì)。目前針對人的檢測方法主要有兩種:一類是人臉識別的算法[1-4],一類是行人識別的算法[5-6]。但是,這兩種方法在室內(nèi)人群檢測中性能均不好。人臉識別只能檢測人臉,這意味著相機(jī)無法檢測人的背面。由于室內(nèi)場景人群的復(fù)雜性,很多身體部位被相互遮擋,因此,行人識別同樣也無法很好地解決該問題。然而,人頭檢測卻沒有這些限制,可以很好地適用于室內(nèi)人群定位和計(jì)數(shù)。當(dāng)然,室內(nèi)場景人頭檢測同樣存在很多挑戰(zhàn)。

頭部姿態(tài)和尺度的多樣性是人頭檢測的第一大關(guān)鍵難題。目前主要采用測試階段輸入多尺度圖像和訓(xùn)練過程中對中間特征層進(jìn)行多尺度變換兩種主要的思路改善這個(gè)問題。第一種圖像金字塔結(jié)構(gòu)的思路,如圖1(a)所示。多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(Multi-Task Convolutional Neural Network, MTCNN) [4]直接通過下采樣得到不同尺度的輸入圖像送入訓(xùn)練好的檢測網(wǎng)絡(luò)中進(jìn)行預(yù)測,最終通過非極大值抑制(Non Maximum Suppression, NMS)[7]輸出目標(biāo)位置和種類。Singh等[8]提出在訓(xùn)練和測試中,建立大小不同的圖像金字塔,在每張圖上都運(yùn)行一個(gè)檢測網(wǎng)絡(luò),同時(shí)只保留那些大小在指定范圍之內(nèi)的輸出結(jié)果,最終通過非極大抑制操作輸出目標(biāo)位置和種類。由于這類基于圖像金字塔結(jié)構(gòu)的算法計(jì)算復(fù)雜度高,內(nèi)存消耗嚴(yán)重,耗時(shí)長,因此在檢測任務(wù)上的效率非常低。第二種特征金字塔結(jié)構(gòu)的思路是目前目標(biāo)檢測算法中出現(xiàn)最多的,SSD(Single Shot multibox Detector)[9]采用多層特征圖獨(dú)立檢測輸出,構(gòu)成多尺度特征檢測結(jié)構(gòu),如圖1(b)所示。Lin等[10]提出了一種將高層特征和淺層特征圖融合的至上而下的結(jié)構(gòu)FPN (Feature Pyramid Networks),最后在融合后的不同層進(jìn)行獨(dú)立預(yù)測,如圖1(c)所示。Zhou等[11]同樣也提出了一種對稱的結(jié)構(gòu)進(jìn)行多尺度融合。相比于第一種思路,第二種思路利用更少的內(nèi)存和耗時(shí),并且還可以作為組件嵌入到不同的檢測網(wǎng)絡(luò)中。因此本文也采用這種思路。通過分析,發(fā)現(xiàn)淺層特征對于小尺度目標(biāo)有很好的定位能力,但是語義表征信息弱,由于連續(xù)下采樣,小目標(biāo)區(qū)域在中間層特征圖中的表征區(qū)域已經(jīng)降為1×1像素大小,因此,本文只利用上采樣融合淺層和中間層特征,然后采用多尺度空洞卷積金字塔結(jié)構(gòu)生成新的淺層和中間層檢測分支,高層檢測分支仍然采用原來的特征層,形成一個(gè)兩級檢測的混合結(jié)構(gòu),如圖1(d)所示。通過本文設(shè)計(jì)的特征融合結(jié)構(gòu)和多尺度空洞卷積金字塔結(jié)構(gòu)很好地改善了頭部姿態(tài)和尺度多樣性的問題。

圖像質(zhì)量不高容易使得人頭區(qū)域與周圍物體特征混淆,因此如何只關(guān)注目標(biāo)特征,忽略背景特征干擾是室內(nèi)場景人頭檢測另一個(gè)關(guān)鍵難題。目前很多算法引入注意力機(jī)制,引導(dǎo)神經(jīng)網(wǎng)絡(luò)關(guān)注目標(biāo)區(qū)域,排除背景特征的干擾。Jaderberg等[12]發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)中池化和下采樣操作直接將信息合并會導(dǎo)致關(guān)鍵信息無法識別出來,提出了一種新的空間轉(zhuǎn)換模塊結(jié)構(gòu),用于指導(dǎo)網(wǎng)絡(luò)顯式的學(xué)習(xí)目標(biāo)的空間特性,例如旋轉(zhuǎn)、平移等,這相當(dāng)于空間域的注意力機(jī)制。Hu等[13]發(fā)現(xiàn)不同的特征圖對關(guān)鍵信息的貢獻(xiàn)不同,因此通過學(xué)習(xí)的方式來自動獲取到每個(gè)特征通道的重要程度,然后依照這個(gè)重要程度去提升有用的特征并抑制對當(dāng)前任務(wù)用處不大的特征,這相當(dāng)于通道域的注意力機(jī)制。Zhang等[14]引入一種關(guān)注特征相似性,從而擴(kuò)大圖像感受野的注意力機(jī)制用于圖像超分辨率。因此,注意力機(jī)制已經(jīng)被很好地證明適用于關(guān)鍵特征的提取。本文提出了一種混合通道域和空間域的注意力模塊,嵌入到不同的檢測分支中,增強(qiáng)了不同分支對目標(biāo)特征和背景特征的區(qū)分能力。

通過本文設(shè)計(jì)的特征融合模塊和混合注意力模塊很好地解決了上述兩個(gè)難題。本文算法在標(biāo)準(zhǔn)數(shù)據(jù)集上達(dá)到了0.91的召回率(recall),大幅優(yōu)于現(xiàn)有的單階段人群檢測算法[9,15-17]。

本文的主要工作有以下幾點(diǎn):

1)設(shè)計(jì)了一種新穎的特征融合結(jié)構(gòu)。首先通過上采樣操作將中間層特征圖和淺層特征圖尺度歸一化,然后利用concate操作融合特征圖,構(gòu)成包含豐富小目標(biāo)定位信息和語義信息的融合層,改善了網(wǎng)絡(luò)淺層對小目標(biāo)表征不足的問題。

2)設(shè)計(jì)了一種新穎的多尺度空洞卷積金字塔特征分解結(jié)構(gòu)。利用多尺度空洞卷積金字塔結(jié)構(gòu)對融合特征圖進(jìn)行多尺度分解,構(gòu)成對小目標(biāo)和中等目標(biāo)檢測的新分支,利用原網(wǎng)絡(luò)針對大目標(biāo)的檢測分支和新生成的檢測分支構(gòu)成多特征層檢測結(jié)構(gòu),有效地利用了網(wǎng)絡(luò)不同層對目標(biāo)檢測的貢獻(xiàn),有效地改善了單階段網(wǎng)絡(luò)對多尺度和多姿態(tài)人頭的檢測性能不足的問題。

3)設(shè)計(jì)了一種混合空間域和通道域的注意力結(jié)構(gòu)嵌入到不同的檢測分支中,增強(qiáng)對關(guān)鍵信息貢獻(xiàn)大的特征圖,大幅增強(qiáng)了網(wǎng)絡(luò)對目標(biāo)區(qū)域和背景區(qū)域的分辨能力。

4)以VGG(Visual Geometry Group)16輕量級特征提取網(wǎng)絡(luò)為基本網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合本文提出的特征融合分解結(jié)構(gòu)和注意力機(jī)制,構(gòu)成了單階段兩級檢測的端到端網(wǎng)絡(luò),在訓(xùn)練和檢測階段實(shí)現(xiàn)了實(shí)時(shí)的人群檢測網(wǎng)絡(luò)。

1 相關(guān)工作

目前基于深度學(xué)習(xí)的目標(biāo)檢測算法主要分為兩類:一類是兩階段檢測算法,例如Fast-RCNN(Fast Region-CNN)[18],F(xiàn)aster-RCNN[15]和R-FCN(Region-based Fully Convolutional Network)[16]。這類方法都是先生成目標(biāo)的候選區(qū)域并進(jìn)行粗篩選,然后對篩選后的候選區(qū)域進(jìn)行目標(biāo)分類和邊界框回歸。第二類是單階段檢測算法,主要有:OverFeat[19]、SSD[9]、YOLO(You Only Look Once)[17]系列。

單階段檢測網(wǎng)絡(luò)增強(qiáng)淺層特征對小目標(biāo)表征能力的方法主要分為兩類:第一類是是直接將輸入圖像放大提升小目標(biāo)尺度,如MTCNN(Multi-Task Convolutional Neural Network)、SNIP(Scale Normalization for Image Pyramids),這一類算法都是將輸入圖像多尺度放大后用于訓(xùn)練或測試階段。第二類是對特征圖進(jìn)行多尺度變換再利用,如多尺度深度卷積神經(jīng)網(wǎng)絡(luò)(Multi-Scale deep CNN, MS-CNN)[20]、反卷積單目標(biāo)檢測器(Deconvolutional Single Shot Detector, DSSD) [21]。

深度學(xué)習(xí)中的注意力是一種模擬人大腦處理視覺任務(wù)的機(jī)制,人類視覺只關(guān)注感興趣區(qū)域,忽略其他背景干擾。注意力機(jī)制(Attention mechanism)[22]可以被解釋為將可用的計(jì)算資源的分配偏向于包含最有用信息的特征部分,首先用于自然語言處理中關(guān)注對下文詞語貢獻(xiàn)高的詞語,之后在很多圖像處理任務(wù)中也已經(jīng)證明了注意力機(jī)制的實(shí)用性,包括目標(biāo)檢測[13]、圖像超分辨率[14]等。在這些任務(wù)中,注意力機(jī)制作為一種模塊嵌入網(wǎng)絡(luò)層中,表示用于模態(tài)之間的自適應(yīng)高級抽象。

2 本文室內(nèi)人群檢測網(wǎng)絡(luò)

2.1 網(wǎng)絡(luò)整體結(jié)構(gòu)

本文提出的基于多級特征和混合注意力機(jī)制的室內(nèi)人群檢測網(wǎng)絡(luò)(Network based on Multi-level Features and hybrid Attention mechanism for indoor crowd detection, MFANet)整體結(jié)構(gòu)如圖2所示,它和SSD一樣是端到端的單階段檢測網(wǎng)絡(luò)。主干網(wǎng)絡(luò)采用輕量級網(wǎng)絡(luò)VGG16的卷積層用于提取特征,替換用于分類的全連接層,并且額外增加了卷積層,形成特征提取主干網(wǎng)絡(luò);通過上采樣操作將淺層和中間層特征尺度歸一化,再通過concate操作構(gòu)建融合層融合淺層和中間層特征圖,對原有淺層和中間層特征進(jìn)行融合形成新的融合特征圖;然后,再利用多尺度空洞卷積分解結(jié)構(gòu)對融合層進(jìn)行多尺度分解形成新的小目標(biāo)檢測分支,結(jié)合原有特征層形成的大目標(biāo)檢測分支,形成一個(gè)兩級檢測分支用于產(chǎn)生密集的預(yù)測框和分類置信度;最后,通過軟化非極大值抑制(soft Non-Maximum Suppression, soft-NMS)輸出最終的檢測結(jié)果。MFANet主要包含3部分結(jié)構(gòu):特征融合模塊(Feature Fusion Module, FFM)、多尺度空洞卷積金字塔特征分解結(jié)構(gòu)(Multi-Scale Dilated convolution Feature Pyramid decomposition Module, MSDFPM)、混合注意力模塊(Fusion Attention Module, FAM)。特征融合模塊通過將淺層特征和中間層特征信息融合,形成包含上下文信息的融合特征,用于解決淺層特征圖中小目標(biāo)語義信息不豐富、分類能力弱的問題;多尺度空洞卷積金字塔結(jié)構(gòu)主要利用空洞卷積感受野增大、參數(shù)不增加的特性,對融合特征進(jìn)行多尺度分解,形成新的小目標(biāo)檢測分支,滿足網(wǎng)絡(luò)對多尺度目標(biāo)的定位和檢測;局部混合注意力模塊通過融合全局像素關(guān)聯(lián)空間注意力和通道注意力,增強(qiáng)對關(guān)鍵信息貢獻(xiàn)大的特征,大幅增強(qiáng)網(wǎng)絡(luò)對目標(biāo)和背景的區(qū)分能力。

2.2 特征融合模塊

本文將絕對尺寸在圖像中占據(jù)的區(qū)域小于32×32像素的目標(biāo)定義為小目標(biāo)。單次檢測網(wǎng)絡(luò)均存在小目標(biāo)檢測能力弱的問題,究其原因是由于用于特征提取的主干網(wǎng)絡(luò)淺層特征圖雖然包含豐富的細(xì)節(jié)定位信息,但是包含的小目標(biāo)語義信息少,對小目標(biāo)的分類能力弱。隨著網(wǎng)絡(luò)層加深,深層特征圖包含豐富的語義信息,但是丟失了小目標(biāo)的細(xì)節(jié)定位信息。因此,最直接的想法是將包含豐富細(xì)節(jié)定位信息的淺層特征圖和包含豐富語義信息的深層特征圖通過一定的融合規(guī)則融合形成既包含豐富細(xì)節(jié)定位信息又包含豐富語義信息的特征圖。由于小目標(biāo)特征在經(jīng)過多層下采樣之后,原有細(xì)節(jié)和語義信息已經(jīng)丟失,在深層網(wǎng)絡(luò)層中已經(jīng)不再包含小目標(biāo)的語義信息。如圖3所示,當(dāng)原圖像中一個(gè)頭部區(qū)域?yàn)?0×30時(shí),淺層特征圖中的豐富細(xì)節(jié)特征隨著網(wǎng)絡(luò)層的加深,圖像不斷被下采樣,最終在conv7_2特征圖中目標(biāo)區(qū)域已經(jīng)被抽象成一個(gè)點(diǎn)特征,在conv7_2之后的特征圖中已經(jīng)丟失了該目標(biāo)的特征信息。因此,直接使用最深層特征圖對淺層進(jìn)行語義增強(qiáng)的效果并不明顯。

基于此分析,采用將中間層特征和淺層特征進(jìn)行融合的思路,在SSD模型中原有的主干特征提取網(wǎng)絡(luò)中嵌入了新穎的特征融合模塊形成包含全局上下文信息的融合特征。如圖4所示,首先利用1×1的卷積構(gòu)建瓶頸層壓縮淺層和中間層特征圖的通道,然后分別將中間層特征圖通過上采樣放大到和淺層特征圖相同的尺寸,最后這里沒有采用將所有特征圖相加形成新的特征圖,而是利用concate將所有相同尺寸的特征圖連接起來形成第二層特征圖,主要是由于像素級相加操作要求兩個(gè)特征圖有相同的長寬和通道,那么就需要在融合前確保兩個(gè)特征圖尺度完全一致,這么做的缺點(diǎn)是新增了額外的歸整化操作,并限制了被融合feature map的靈活性,并且concate連接操作可以很好地保證不同特征圖檢測的同一個(gè)目標(biāo)所包含的特征區(qū)域被相同激活。相較于主干網(wǎng)絡(luò)提取的特征,新的融合特征圖既包含特征提取主干網(wǎng)絡(luò)中淺層特征圖中小目標(biāo)豐富的細(xì)節(jié)特征,同時(shí)又利用中間層特征圖中小目標(biāo)豐富的語義信息,這大幅提升了檢測小目標(biāo)的準(zhǔn)確率。

2.3 多尺度空洞卷積金字塔結(jié)構(gòu)

在得到融合特征圖后,需要生成新的檢測分支。受FPN的啟發(fā),對融合后的特征圖可以進(jìn)行多尺度下采樣,構(gòu)成多尺度金字塔結(jié)構(gòu)用于生成新的檢測分支。由于主要目標(biāo)是需要提升小目標(biāo)的檢測能力,因此,本文只生成conv4_3和fc7兩個(gè)新的檢測分支,用于構(gòu)成小目標(biāo)檢測分支,如圖5所示。新生成的檢測特征圖需要和原檢測特征圖尺寸相同,感受野相同,這樣可以保證平均地檢測不同尺度的目標(biāo),而標(biāo)準(zhǔn)的卷積由于感受野局限,傳統(tǒng)做法一般采用池化操作進(jìn)行下采樣,但是這樣容易丟失定位信息。因此,為了增大感受野的同時(shí),又不丟失小目標(biāo)定位信息,研究者們提出一種新的卷積操作:空洞卷積[23]。如圖6所示,它是在標(biāo)準(zhǔn)卷積的基礎(chǔ)上,通過填零操作,增大了感受野的同時(shí),而不增加學(xué)習(xí)參數(shù),只增加了一個(gè)超參數(shù):空洞率(dilate rate)。由于空洞卷積操作容易引起網(wǎng)格效應(yīng),根據(jù)Wang等[24]提出的空洞卷積級聯(lián)參考設(shè)計(jì)準(zhǔn)則,首先利用空洞率為2的空洞卷積操作增大感受野,再級聯(lián)一個(gè)空洞率為1的標(biāo)準(zhǔn)卷積用于消除網(wǎng)格效應(yīng),最后利用滑動步長為2的3×3卷積進(jìn)行下采樣操作生成conv7_2,在新生成的檢測分支之后,均添加了一個(gè)3×3卷積用于整合通道內(nèi)部相關(guān)性信息。新生成的小目標(biāo)檢測分支相較原檢測分支,擁有更豐富的小目標(biāo)細(xì)節(jié)特征和語義特征。

2.4 混合注意力模塊

由于室內(nèi)監(jiān)控圖像成像質(zhì)量差、人群密度大、場景內(nèi)容復(fù)雜,很容易造成目標(biāo)和周圍背景的特征相似度高,影響網(wǎng)絡(luò)對目標(biāo)的判斷,因此,要求設(shè)計(jì)的模型能夠很好地區(qū)分目標(biāo)和背景特征。最直接的想法是對圖像進(jìn)行超分辨率,然后再進(jìn)行目標(biāo)識別;但是,這樣會造成內(nèi)存占用高、計(jì)算復(fù)雜度增加,并且無法滿足端到端的訓(xùn)練和推理,大幅增加了推理和訓(xùn)練時(shí)間。根據(jù)壓縮感知神經(jīng)網(wǎng)(Squeeze-and-Excitation Networks, SENet)的論述[13],神經(jīng)網(wǎng)絡(luò)不同特征圖、同一特征圖內(nèi)不同區(qū)域?qū)Σ煌繕?biāo)的貢獻(xiàn)率都是不同的,如果能夠只使用對關(guān)鍵目標(biāo)貢獻(xiàn)率高的特征圖,舍棄對關(guān)鍵目標(biāo)貢獻(xiàn)率不高的特征圖,則會大幅提升對目標(biāo)的定位和識別效果。而新近快速發(fā)展的注意力機(jī)制可以很好地實(shí)現(xiàn)這個(gè)功能。因此,本文設(shè)計(jì)了一種混合注意力模塊用于提取關(guān)鍵特征,整體結(jié)構(gòu)如圖7所示。輸入特征圖x∈RH×W×C,經(jīng)過通道注意力模塊提取對目標(biāo)貢獻(xiàn)率大的的通道注意力圖F(x)∈R1×1×C,通過級聯(lián)的方式,利用空間注意力模塊提取二維的空間注意力圖G(x)∈RH×W×1,得到最終的輸出。整個(gè)注意力提取的過程如式(1)所示:

Z(x)=G(F(x)x)F(x)(1)

其中:是像素級點(diǎn)乘,在點(diǎn)乘過程中,注意力圖被廣播到不同通道、不同區(qū)域的特征圖中;最終的輸出Z(x)既包含空間注意力,又包括通道注意力。如圖8所示,輸出了淺層添加注意力機(jī)制和不添加注意力機(jī)制后的部分特征圖,可以看出,本文設(shè)計(jì)的注意力結(jié)構(gòu)很好地增強(qiáng)了特征圖中目標(biāo)區(qū)域的語義信息和細(xì)節(jié)定位信息。

2.4.1 通道注意力子模塊

每一個(gè)通道特征圖都可以看作是特征檢測器,針對不同的目標(biāo),不同通道的特征圖對關(guān)鍵信息的貢獻(xiàn)率是不同的,通道注意力關(guān)注的就是不同的通道對關(guān)鍵信息的貢獻(xiàn)率。因此本文設(shè)計(jì)了一種用于提取通道和目標(biāo)之間內(nèi)在關(guān)系的結(jié)構(gòu),如圖9所示。

為了只學(xué)習(xí)不同通道的貢獻(xiàn)率,首先壓縮空間信息,目前普遍采用全局平均池化的方法。Hu等[13]提出使用全局平均池化來獲得目標(biāo)檢測候選區(qū)域,文中提出的SENet在注意力模塊中使用了全局平均池化統(tǒng)計(jì)特征圖的空間信息。不同于他們的思路,本文認(rèn)為全局最大池化操作可以獲得目標(biāo)之間差異性最大的特征,可以有助于推斷更精細(xì)的通道注意力。因此,本文同時(shí)采用全局平均池化和全部最大池化兩種操作。首先利用全局平均池化和全局最大池化分別生成不同的空間描述特征:Mcave∈R1×1×C,Mcmax∈R1×1×C。然后通過像素級相加得到融合后的通道描述特征Mcmerge。融合后的通道描述特征送入一個(gè)多層感知機(jī)得到最終的通道注意力圖。為了壓縮參數(shù),本文設(shè)置了一個(gè)壓縮比(ratio),通過大量實(shí)驗(yàn),最終該參數(shù)設(shè)置為16。最后整個(gè)通道注意力提取的過程可以描述如下:

Mcmerge(x)=Mcave(x)+Mcmax(x)(2)

F(x)=σ(W1(ReLU(W0Mcmerge(x))))(3)

其中σ為sigmoid函數(shù),因?yàn)橥ǖ雷⒁饬μ崛∵^程是獲得通道特征圖對關(guān)鍵信息的貢獻(xiàn)率,屬于廣義二分類問題。多層感知機(jī)的權(quán)重: W0∈RC×C/r,W1∈RC/r×C,W0之后使用ReLU激活函數(shù)來提升網(wǎng)絡(luò)的非線性程度。

2.4.2 空間注意力子模塊

空間位置注意力主要是尋找特征圖中對關(guān)鍵信息重要的區(qū)域,這是對通道注意力的一種補(bǔ)充。由于普通的卷積操作受限于卷積核的大小,只能考慮鄰域內(nèi)的特征內(nèi)在聯(lián)系,無法考慮全局區(qū)域中相似特征的關(guān)聯(lián)性。因此為了獲取全局區(qū)域?qū)﹃P(guān)鍵信息的貢獻(xiàn),本文受非局部網(wǎng)絡(luò)啟發(fā),設(shè)計(jì)了一種新穎的空間注意力結(jié)構(gòu),如圖10所示。

輸入特征圖x∈RH×W×C首先通過全局最大池化和全局平均池化操作,沿通道維度生成兩個(gè)新的特征描述: Msave∈RH×W×1,Msmax∈RH×W×1。然后通過concate操作融合新的特征描述,之后通過一個(gè)標(biāo)準(zhǔn)的卷積操作激活獲得最終的注意力圖。整個(gè)注意力提取過程描述如下所示:

Msmerge(x)=[Msave,Msmax](4)

G(x)=σ(f3×3Msmerge(x))(5)

其中:σ為sigmoid函數(shù); f3×3表示3×3的標(biāo)準(zhǔn)卷積操作。本文設(shè)計(jì)的空間注意力機(jī)制首先通過壓縮通道維度,只留下空間位置信息,然后通過卷積操作對全局區(qū)域進(jìn)行注意力學(xué)習(xí),得到包含全局上下文信息的注意力圖。通過本文設(shè)計(jì)的空間注意力模塊,網(wǎng)絡(luò)可以有效地學(xué)習(xí)到不同區(qū)域?qū)δ繕?biāo)的增益,從而有效地增強(qiáng)目標(biāo)識別能力。最后,本文通過級聯(lián)的方式融合了通道注意力模塊和空間位置注意力模塊,構(gòu)成混合注意力模塊。

3 損失函數(shù)

目標(biāo)檢測既包含分類任務(wù)又包含回歸任務(wù),因此需要構(gòu)建多任務(wù)損失函數(shù)。本文的損失函數(shù)定義為定位損失和分類損失加權(quán)求和,如下所示:

L(x,c,l,g)=1N(Lconf(x,c)+αLloc(x,l,g))(6)

其中超參數(shù)α為平衡系數(shù),用于平衡分類損失和定位損失對最終結(jié)構(gòu)的影響,這里根據(jù)多次實(shí)驗(yàn)選取α=1。N是匹配到的默認(rèn)框數(shù)量,如果N=0,則設(shè)置損失為0。本文使用框的中心點(diǎn)坐標(biāo)(cx,cy)和寬(ω)、高(h)四個(gè)參數(shù)定義一個(gè)目標(biāo)框的圖像位置。由于smoothL1相較于直接使用L2回歸損失更平滑,因此使用預(yù)測框(l)和真實(shí)標(biāo)簽(g)之間的smoothL1損失作為定位損失,如式(7)所示:

Lloc(x,l,g)=∑Ni∈Pos∑m∈{cx,cy,ω,h}xkij smoothL1(lmi-mj)(7)

cxj=(gcxj-dcxi)/dωi

cyj=(gcyj-dcyi)/dhi

ωj=lg(gωj/dωi)

hj=lg(ghj/dhi)

分類損失使用softmax多分類損失,如式(8)所示:

Lconf(x,c)=-∑Ni∈Posxpij lg(pi)-∑i∈Neglg(0i)(8)

pi=exp(cpi)/∑pexp(cpi)

4 實(shí)驗(yàn)與結(jié)果分析

本文在公開的大學(xué)教室人群檢測數(shù)據(jù)集SCUT-HEAD[25]上進(jìn)行實(shí)驗(yàn)。SCUT-HEAD數(shù)據(jù)集包含兩個(gè)部分:PartA包含2000張大學(xué)教室監(jiān)控圖片,其中標(biāo)記人頭數(shù)67321個(gè)。PartB包含2405張互聯(lián)網(wǎng)中下載的圖片,其中標(biāo)記人頭數(shù)43930個(gè)。該數(shù)據(jù)集采用Pascal VOC標(biāo)注標(biāo)準(zhǔn)。本文采用PartA部分訓(xùn)練,其中1500張用于訓(xùn)練,500張用于測試。訓(xùn)練完成后本文選用查準(zhǔn)率(Precision, P)、查全率(Recall, R)和F1 score指標(biāo)共同評估本文模型和其他模型的性能。同時(shí),針對特征融合模塊、注意力模塊的結(jié)構(gòu)合理性進(jìn)行了對比實(shí)驗(yàn),驗(yàn)證結(jié)構(gòu)設(shè)計(jì)的合理性。

4.1 SCUT-HEAD實(shí)驗(yàn)

首先將本文提出的算法和其他常用目標(biāo)檢測算法進(jìn)行性能對比實(shí)驗(yàn)。數(shù)據(jù)集使用SCUT-HEAD PartA和PartB數(shù)據(jù)集。通過分析主干網(wǎng)絡(luò)的感受野,設(shè)置default box默認(rèn)尺寸如表1所示。數(shù)據(jù)增廣采用了隨機(jī)左右鏡像、隨機(jī)亮度和數(shù)據(jù)歸一化三種方式對數(shù)據(jù)進(jìn)行了預(yù)處理。訓(xùn)練時(shí),設(shè)備使用了1臺NVIDIA P100 GPU服務(wù)器,基于VGG16作為骨干網(wǎng)絡(luò)的SSD在MSCOCO數(shù)據(jù)上預(yù)訓(xùn)練的參數(shù)開始訓(xùn)練。采用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)優(yōu)化器,動量設(shè)置為0.9,權(quán)重正則衰減系數(shù)設(shè)置為0.0005,初始學(xué)習(xí)率設(shè)置為1E-3;當(dāng)訓(xùn)練80000次后,學(xué)習(xí)率設(shè)置為1E-4;當(dāng)再訓(xùn)練20000次后,學(xué)習(xí)率設(shè)置為1E-5;最后,再訓(xùn)練20000次。網(wǎng)絡(luò)訓(xùn)練階段的分類損失和定位損失曲線分別如圖11所示。

表格(有表名)表1 默認(rèn)框基礎(chǔ)尺寸設(shè)置和理論感受野

Tab. 1 Basic size setting and theoretical receptive field of default boxes

檢測層步長候選框尺寸感受野尺寸conv4_383292fc732128420conv6_232128452conv7_264256516conv8_2128512644conv9_2128512772

本文對比了Faster-RCNN、YOLOv3、SSD、R-FCN(ResNet-50)和Redmon等[17]提出的基于特征增強(qiáng)網(wǎng)絡(luò)(Feature Refine Net, FRN)的改進(jìn)R-FCN算法,對比結(jié)果如表2 所示。相較于其他算法,本文算法在各個(gè)評估指標(biāo)下均有很高的提升,并且各個(gè)性能指標(biāo)均高于0.9,在人群檢測領(lǐng)域,本文算法MFANet達(dá)到了最好的檢測效果。

4.2 結(jié)構(gòu)對比實(shí)驗(yàn)

本文為驗(yàn)證特征融合模塊融合淺層和中間層的合理性,設(shè)計(jì)了不同的淺層特征圖和中間層特征圖組合結(jié)構(gòu)進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集選用SCUT-HEAD PartA部分,所有實(shí)驗(yàn)訓(xùn)練配置均相同。如表3所示,可以發(fā)現(xiàn)使用淺層conv4_3至中間層conv7_2進(jìn)行融合,最終性能指標(biāo)最好,表明了本文特征融合模塊結(jié)構(gòu)設(shè)計(jì)的合理性。

為驗(yàn)證新檢測分支生成數(shù)量設(shè)計(jì)的合理性,設(shè)計(jì)了兩種不同數(shù)目的檢測分支結(jié)構(gòu):第一種是只生成新的conv4_3檢測分支;第二種是生成新的conv4_3 fc7檢測分支。數(shù)據(jù)集選用SCUT-HEAD PartA部分,所有實(shí)驗(yàn)訓(xùn)練配置均相同。如表4所示,可以發(fā)現(xiàn),本文選取的新檢測分支數(shù)量合理,可以有效地提升算法性能。

本文設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證混合注意力模塊結(jié)構(gòu)設(shè)計(jì)的合理性,數(shù)據(jù)集選用SCUT-HEAD PartA 部分。設(shè)計(jì)了五種不同的結(jié)構(gòu):第一種是在檢測分支中不增加局部注意力模塊;第二種是在檢測分支中增加SENet 的中通道注意力模塊(SEBlock);第三種是在檢測分支中增加本文設(shè)計(jì)的通道注意力模塊(Channel Attention Module, CAM);第四種是在檢測分支中增加本文設(shè)計(jì)的空間注意力模塊(Spatial Attention Module, SAM);第五種是在檢測分支中增加本文設(shè)計(jì)的混合注意力模塊(CAM+SAM)。根據(jù)表5 所示的結(jié)果可以看出,本文設(shè)計(jì)的混合注意力機(jī)制可以更好地提升網(wǎng)絡(luò)的性能。

4.3 測試結(jié)果展示

如圖11所示,第一行展示的是小目標(biāo)有遮擋的場景測試結(jié)果;第二行展示了既有多尺度目標(biāo),也有多姿態(tài)目標(biāo)的一般場景;第三行和第四行分別展示的是前向和后向密集場景測試結(jié)果;最后一行展示的是在人工手動標(biāo)注無法包含全部真實(shí)目標(biāo)的場景下,不同算法的檢測結(jié)果。通過不同方法的結(jié)果對比可以看出,本文提出的MFANet很好地解決了目標(biāo)多尺度、多姿態(tài)的檢測問題和目標(biāo)易與環(huán)境特征相似的檢測問題,并且本文算法在密集型人群中的檢測結(jié)果性能達(dá)到了領(lǐng)先水平。

5 結(jié)語

本文提出了一種基于多級特征和混合注意力機(jī)制的人群目標(biāo)檢測網(wǎng)絡(luò)MFANet,主要是用于檢測室內(nèi)人群,并根據(jù)檢測結(jié)果得到最終的人群計(jì)數(shù)統(tǒng)計(jì)。首先,設(shè)計(jì)了淺層和中間層特征融合模塊用于解決目標(biāo)尺寸多樣性的問題;然后,設(shè)計(jì)了混合注意力模塊用來解決目標(biāo)區(qū)域和周圍背景特征混淆的問題;最后,采用類SSD的單階段檢測框架融合設(shè)計(jì)的新結(jié)構(gòu),實(shí)現(xiàn)了端到端的訓(xùn)練和預(yù)測,在GPU上的推理速度達(dá)到每秒25幀,并且在標(biāo)準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了0.92的F1 score和0.91的召回率;并且,本文算法靈活簡單,同樣可以用于其他目標(biāo)的檢測任務(wù)中。目前,只使用了以輕量級的VGG16作為主干網(wǎng)絡(luò),使用ResNet-50、DenseNet等性能更優(yōu)的深度網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)會更好地提升模型的性能,這也是我們接下來的研究方向。

參考文獻(xiàn) (References)

[1]WANG Q, FAN H, SUN G, et al. Laplacian pyramid adversarial network for face completion [J]. Pattern Recognition, 2019, 88: 493-505.

[2]YIN X, LIU X. Multi-task convolutional neural network for pose-invariant face recognition [J]. IEEE Transactions on Image Processing, 2018, 27(2): 964-975.

[3]LU J, YUAN X, YAHAGI T. A method of face recognition based on fuzzy clustering and parallel neural networks [J]. Signal Processing, 2006, 86(8): 2026-2039.

[4]ZHANG K, ZHANG Z, LI Z, et al. Joint face detection and alignment using multitask cascaded convolutional networks [J]. IEEE Signal Processing Letters, 2016, 23(10): 1499-1503.

[5]CAO Y, GUAN D, HUANG W, et al. Pedestrian detection with unsupervised multispectral feature learning using deep neural networks [J]. Information Fusion, 2019, 46: 206-217.

[6]JUNG S I, HONG K S. Deep network aided by guiding network for pedestrian detection [J]. Pattern Recognition Letters, 2017, 90: 43-49

[7]NEUBECK A, VAN GOOL L. Efficient non-maximum suppression [C]// Proceedings of the 18th International Conference on Pattern Recognition. Piscataway: IEEE, 2006: 850-855

[8]SINGH B, DAVIS L S. An analysis of scale invariance in object detection-SNIP [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 3578-3587

[9]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// Proceedings of the 14th European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.

[10]LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 936-944.

[11]ZHOU P, NI B, GENG C, et al. Scale-transferrable object detection [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 528-537.

[12]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks [C]// Proceedings of the 2015 International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2015: 2017-2025.

[13]HU J, SHEN L, SUN G. Squeeze-and-excitation networks [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 7132-7141.

[14]ZHANG H, GOODFELLOW I, METAXAS D, et al. Self-attention generative adversarial networks [C]// Proceedings of the 36th International Conference on Machine Learning. New York: PMLR, 2019: 7354-7363.

[15]李曉光,付陳平,李曉莉,等.面向多尺度目標(biāo)檢測的改進(jìn)Faster R-CNN算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2019,31(7):1095-1101.(LI X G, FU C P, LI X L, et al. Improved faster R-CNN for multi-scale object detection [J]. Journal of Computer-Aided Design and Computer Graphics, 2019, 31(7): 1095-1101.)

[16]李靜,降愛蓮.復(fù)雜場景下基于R-FCN的小人臉檢測研究[J/OL].計(jì)算機(jī)工程與應(yīng)用:1-12[2019-04-22].http://kns.cnki.net/kcms/detail/Detail.aspx?dbname=CAPJLAST&filename=JSGG20190123006&v=.(LI J, JIANG A L. Face detection based on R-FCN in complex scenes [J/OL]. Journal of Computer Engineering and Applications: 1-12[2019-04-22]. http://kns.cnki.net/kcms/detail/Detail.aspx?dbname=CAPJLAST&filename=JSGG20190123006&v=.)

[17]REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6517-6525.

[18]LI J, LIANG X, SHEN S, et al. Scale-aware fast R-CNN for pedestrian detection [J]. IEEE Transactions on Multimedia, 2018, 20(4): 985-996.

[19]SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks? [EB/OL]. [2019-04-11]. https://arxiv.org/pdf/1312.6229v4.pdf.

[20]CAI Z, FAN Q, FERIS R S, et al. A unified multi-scale deep convolutional neural network for fast object detection [C]// Proceedings of the 14th European Conference on Computer Vision, LNCS 9908. Cham: Springer, 2016: 354-370.

[21]FU C, LIU W, RANGA A, TYAGI A, et al. DSSD: deconvolutional single shot detector [EB/OL]. [2019-04-11]. https://arxiv.org/pdf/1701.06659.pdf.

[22]楊康,宋慧慧,張開華.基于雙重注意力孿生網(wǎng)絡(luò)的實(shí)時(shí)視覺跟蹤[J].計(jì)算機(jī)應(yīng)用,2019,39(6):1652-1656.(YANG K, SONG H H, ZHANG K H. Real-time visual tracking based on dual attention Siamese network [J]. Journal of Computer Applications, 2019, 39(6): 1652-1656.)

[23]QUAN Y, LI Z, ZHANG C. Object detection by combining deep dilated convolutions network and light-weight network [C]// Proceedings of the 12th International Conference on Knowledge Science, Engineering and Management, LNCS 11775. Cham: Springer, 2019: 452-463.

[24]WANG P, CHEN P, YUAN Y, et al. Understanding convolution for semantic segmentation [C]// Proceedings of the 2018 IEEE Winter Conference on Applications of Computer Vision. Piscataway: IEEE, 2018: 1451-1460.

[25]PENG D, SUN Z, CHEN Z, et al. Detecting heads using feature refine net and cascaded multi-scale architecture [C]// Proceedings of the 24th International Conference on Pattern Recognition. Piscataway: IEEE, 2018: 2528-2533.

This work is partially supported by the Shanxi Provincial Key Research and Development Plan (201803D31212-1).

SHEN Wenxiang, born in 1995, M. S. candidate. His research interests include deep learning, computer vision.

QIN Pinle, born in 1978, Ph. D., associate professor. His research interests include computer vision, big data, medical imaging.

ZENG Jianchao, born in 1963, Ph. D., professor. His research interests include evolutionary calculation, machine learning.

收稿日期:2019-06-24;修回日期:2019-09-19;錄用日期:2019-09-19?;痦?xiàng)目:山西省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(201803D31212-1)。

作者簡介:沈文祥(1995—),男,安徽淮南人,碩士研究生,主要研究方向:深度學(xué)習(xí)、計(jì)算機(jī)視覺; 秦品樂(1978—),男,山西長治人,副教授,博士,CCF會員,主要研究方向:機(jī)器視覺、大數(shù)據(jù)、醫(yī)學(xué)影像; 曾建潮(1963—)男,陜西大荔縣人,教授,博士,CCF會員,主要研究方向:演化計(jì)算、機(jī)器學(xué)習(xí)。

文章編號:1001-9081(2019)12-3496-07DOI:10.11772/j.issn.1001-9081.2019061075

猜你喜歡
注意力機(jī)制
基于注意力機(jī)制的行人軌跡預(yù)測生成模型
基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
多特征融合的中文實(shí)體關(guān)系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度學(xué)習(xí)的手分割算法研究
從餐館評論中提取方面術(shù)語
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
安义县| 仁寿县| 嵊州市| 凌海市| 白山市| 阿拉尔市| 布拖县| 崇礼县| 昭平县| 河曲县| 珠海市| 安多县| 阿巴嘎旗| 汉阴县| 沿河| 南开区| 宁陵县| 会同县| 郓城县| 鹰潭市| 新余市| 盘山县| 乌拉特中旗| 永顺县| 沈阳市| 宁安市| 沧州市| 镇平县| 长白| 宁波市| 安康市| 宁安市| 清镇市| 南汇区| 南澳县| 景泰县| 武宁县| 苍溪县| 巫溪县| 肇庆市| 衡阳县|