国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多分支特征融合的密集人群計(jì)數(shù)網(wǎng)絡(luò)

2024-03-21 02:01:02何立風(fēng)張夢(mèng)穎
關(guān)鍵詞:尺度計(jì)數(shù)注意力

孫 爽,何立風(fēng),朱 紛,張夢(mèng)穎

(陜西科技大學(xué) 電子信息與人工智能學(xué)院,陜西 西安 710021)

0 引 言

人群計(jì)數(shù)可以用于預(yù)測(cè)擁擠場(chǎng)景中人群數(shù)量和密度分布,有助于在人群擁擠場(chǎng)所下的人群管理和控制,在視頻監(jiān)控領(lǐng)域和公共安全管理領(lǐng)域都具有十分重要的應(yīng)用價(jià)值[1]。

近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于計(jì)數(shù)任務(wù)。MCNN[2]多列網(wǎng)絡(luò)通過(guò)使用3個(gè)不同大小的卷積核來(lái)捕獲不同的感受野以提取不同的尺度特征,得了不錯(cuò)的計(jì)數(shù)結(jié)果。但是當(dāng)網(wǎng)絡(luò)較深時(shí),多列網(wǎng)絡(luò)會(huì)導(dǎo)致更多的參數(shù)量和計(jì)算量,網(wǎng)絡(luò)的訓(xùn)練難度較大。因此,Li等[3]提出了一種單列深層網(wǎng)絡(luò)CSRNet,使用多個(gè)空洞卷積來(lái)提取多尺度上下文信息,在保留原圖分辨率的情況下擴(kuò)大模型的感受野,大大提高了人群計(jì)數(shù)精度。

然而,人頭尺度多樣性與復(fù)雜背景干擾等問(wèn)題仍是人群計(jì)數(shù)任務(wù)的主要挑戰(zhàn)[4]。以往方法在提取特征時(shí),大多采用特征單向流動(dòng),并未充分利用網(wǎng)絡(luò)淺層的細(xì)節(jié)信息與深層的語(yǔ)義信息,為了進(jìn)一步學(xué)習(xí)到圖像的尺度特征,同時(shí)排除復(fù)雜背景的干擾,本文提出了一種基于多分支特征融合的人群計(jì)數(shù)網(wǎng)絡(luò)(multi-branch feature fusion network,MFNet),主要工作可以分為以下幾個(gè)方面:

(1)提出一種多尺度特征增強(qiáng)模塊(multi-scale feature enhancement module,MFEM)來(lái)提取連續(xù)變化的尺度特征,解決人群計(jì)數(shù)中的多尺度變化問(wèn)題。

(2)提出一種多分支上下文注意模塊(multi-branch context attention module,MCAM)來(lái)融合網(wǎng)絡(luò)淺層和深層的特征,并使用注意力機(jī)制抑制背景噪聲干擾。

(3)在3個(gè)公開(kāi)數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試,本文提出的計(jì)數(shù)網(wǎng)絡(luò)模型都表現(xiàn)出了良好的計(jì)數(shù)性能,驗(yàn)證了該模型的有效性。

1 相關(guān)工作

傳統(tǒng)的人群計(jì)數(shù)算法可以分為基于檢測(cè)和回歸的計(jì)數(shù)方法[5]。基于檢測(cè)的方法主要通過(guò)檢測(cè)出圖像中的單個(gè)個(gè)體并相加得到人群數(shù)量。該類算法在稀疏場(chǎng)景下的計(jì)數(shù)精度高,在密集的人群場(chǎng)景下性能較差?;诨貧w的方法可以分為基于數(shù)量回歸和基于密度圖回歸[6]?;跀?shù)量的回歸方法需要先從擁擠的圖像中提取手工繪制的特征,然后利用回歸函數(shù)來(lái)學(xué)習(xí)這些特征與人數(shù)之間的映射關(guān)系。提取的圖像特征包括形狀、大小、邊緣等信息。使用回歸函數(shù)如高斯過(guò)程回歸、貝葉斯回歸和線性回歸等函數(shù)來(lái)回歸擁擠圖像中的總?cè)藬?shù)。然而,大多數(shù)基于回歸的方法只提供了人群的數(shù)量而忽略了圖像中人群分布的空間信息。針對(duì)上述問(wèn)題,研究者提出基于密度圖回歸[7]的方法,通過(guò)使用人群密度圖來(lái)表示圖像中人群的分布信息,學(xué)習(xí)圖像和密度圖之間的映射關(guān)系。密度圖既可以反映出人群分布情況,也可以得到人群數(shù)量,幫助我們獲得更準(zhǔn)確、更全面的信息,并大幅度提升了相關(guān)性能。

伴隨著深度學(xué)習(xí)技術(shù)的進(jìn)步,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)也被應(yīng)用于人群計(jì)數(shù)任務(wù)[8]。在人群計(jì)數(shù)領(lǐng)域,利用CNN生成人群密度圖,密度中的每個(gè)像素表示該點(diǎn)周圍區(qū)域內(nèi)預(yù)測(cè)出現(xiàn)人物的密度估計(jì)值,然后對(duì)密度圖進(jìn)行逐像素求和獲得圖像中人群的數(shù)量。為了解決尺度變化問(wèn)題,MCNN[2]網(wǎng)絡(luò)通過(guò)設(shè)置多列不同大小的感受野來(lái)提取多尺度特征,計(jì)數(shù)準(zhǔn)確性明顯提高。在MCNN的基礎(chǔ)上,研究者設(shè)計(jì)了一種多列計(jì)數(shù)網(wǎng)絡(luò)Switch-CNN[9],該網(wǎng)絡(luò)用一個(gè)密度分類器來(lái)為輸入圖像選擇一個(gè)最優(yōu)分支進(jìn)行訓(xùn)練。由于多列網(wǎng)絡(luò)中各列之間互相獨(dú)立,缺乏關(guān)聯(lián),導(dǎo)致最終生成密度圖質(zhì)量不高。CP-CNN[10]通過(guò)融合從圖像中學(xué)習(xí)全局和局部的上下文信息來(lái)獲得高質(zhì)量的人群密度圖。Hossain等[11]提出的SAAN使用注意力機(jī)制自動(dòng)選擇全局和局部的上下文信息,人群計(jì)數(shù)精度進(jìn)一步得到提升。然而使用多列網(wǎng)絡(luò)存在參數(shù)量多、訓(xùn)練困難等問(wèn)題,相比之下使用單列網(wǎng)絡(luò)結(jié)構(gòu)更簡(jiǎn)單,模型更容易訓(xùn)練。Li等[3]提出了一種單列深層網(wǎng)絡(luò)CSRNet,該網(wǎng)絡(luò)的特征提取部分采用VGG16的前10層,后端使用多個(gè)空洞卷積來(lái)提取多尺度信息,在保留原圖分辨率的情況下擴(kuò)大模型的感受野,提升了計(jì)數(shù)的準(zhǔn)確性。Liu等[12]提出了一個(gè)上下文感知網(wǎng)絡(luò)CAN,該網(wǎng)絡(luò)可以自適應(yīng)的預(yù)測(cè)人群密度所需要的上下文信息,減少了人頭多尺度問(wèn)題帶來(lái)的干擾。Cao等[13]提出了一種尺度聚合網(wǎng)絡(luò)SANet,它將多個(gè)不同尺寸的卷積核并聯(lián)用于提取圖尺度特征,并利用轉(zhuǎn)置卷積來(lái)恢復(fù)圖像的分辨率,從而生成高分辨率密度圖。Gao等[14]提出的SCAR網(wǎng)絡(luò)采用注意力機(jī)制來(lái)提取圖像的像素級(jí)上下文信息和不同通道之間的特征信息,使模型在像素級(jí)水平上精確預(yù)測(cè)密度圖。Shi等[15]提出的PA-CNN采用透視圖和密度圖相結(jié)合的方法生成高質(zhì)量的密度圖。PDD-CNN[16]通過(guò)金字塔空洞卷積模塊來(lái)提取圖像的多尺度信息生成密度圖。這些方法都有著優(yōu)秀的計(jì)數(shù)性能,但是在實(shí)際應(yīng)用場(chǎng)景中,行人分布不均、復(fù)雜背景干擾、多尺度變化等問(wèn)題仍是當(dāng)前人群計(jì)數(shù)任務(wù)面臨的挑戰(zhàn)。

2 基于多分支特征融合的密集人群計(jì)數(shù)

2.1 網(wǎng)絡(luò)整體結(jié)構(gòu)

本文提出的基于多分支特征融合的密集人群計(jì)數(shù)網(wǎng)絡(luò)(MFNet)的結(jié)構(gòu)如圖1所示。VGG-16[17]結(jié)構(gòu)簡(jiǎn)單高效并且具有強(qiáng)大的特征提取能力,適用于準(zhǔn)確快速的人群計(jì)數(shù),本文采取VGG-16的前10層作為骨干網(wǎng)絡(luò),表1列出了VGG-16前10層的相關(guān)參數(shù)。同時(shí)本文在網(wǎng)絡(luò)前端構(gòu)建多分支上下文注意模塊MCAM,使用一個(gè)自頂向下和自底向上的雙向特征融合路徑來(lái)提取網(wǎng)絡(luò)不同深度的特征。在網(wǎng)絡(luò)后端采用多尺度特征增強(qiáng)模塊MFEM,通過(guò)密集殘差連接的空洞卷積來(lái)應(yīng)對(duì)人頭尺度連續(xù)變化問(wèn)題,提高網(wǎng)絡(luò)多尺度特征信息提取能力,最后輸出人群密度估計(jì)圖,實(shí)現(xiàn)人群計(jì)數(shù)。

表1 VGG-16前10層相關(guān)參數(shù)

圖1 MFNet網(wǎng)絡(luò)結(jié)構(gòu)

2.2 多分支上下文注意模塊

網(wǎng)絡(luò)淺層可以提取到圖片的低級(jí)特征,例如邊緣信息等;而網(wǎng)絡(luò)深層則可以更好的提取高級(jí)語(yǔ)義信息[18]。此前多數(shù)研究進(jìn)行特征融合時(shí)多采用單向特征流動(dòng)的方式進(jìn)行,這導(dǎo)致網(wǎng)絡(luò)淺層與深層的特征不能被很好的利用起來(lái)。使用雙向特征流動(dòng)的方式進(jìn)行特征提取,可以更充分地融合淺層與深層的特征,從而有效提高模型的性能表現(xiàn)。在目標(biāo)檢測(cè)領(lǐng)域中,研究者提出了一種自頂向下的特征融合策略即特征金字塔結(jié)構(gòu)(feature pyramid network,F(xiàn)PN)[18],它能夠整合不同尺度的特征圖,使其同時(shí)具有深層的語(yǔ)義信息和淺層的紋理信息。受FPN啟發(fā),本文引入多分支特征注意模塊,使用一個(gè)自頂向下和自底向上的雙向特征融合路徑來(lái)提取前端網(wǎng)絡(luò)的特征。為了對(duì)多尺度變化的人頭特征進(jìn)行有選擇性的加強(qiáng),使用通道注意力和位置注意力來(lái)優(yōu)化融合后的特征。如圖2所示,MCAM模塊將網(wǎng)絡(luò)的淺層和深層特征結(jié)合起來(lái),并分別通過(guò)位置注意力機(jī)制(position attention module,PAM)和通道注意力機(jī)制(channel attention module,CAM)進(jìn)行特征加權(quán),使得網(wǎng)絡(luò)能夠更好地注意到人頭位置,以從主干網(wǎng)絡(luò)中獲取并融合足夠多的特征。

圖2 MCAM模塊結(jié)構(gòu)

2.2.1 雙向特征融合路徑

雙向特征融合路徑如圖2所示。本文根據(jù)VGG16前十層的池化層位置將其劃分為4個(gè)子模塊,在文中分別用Conv1_1、Conv2_2、Conv3_3、Conv4_4來(lái)表示。為將網(wǎng)絡(luò)深層的語(yǔ)義信息傳遞到網(wǎng)絡(luò)淺層特征層,首先由Conv1_1、Conv2_2、Conv3_3、Conv4_4這4個(gè)特征層構(gòu)造一個(gè)自頂向下的融合路徑,由于經(jīng)過(guò)最大池化后的4個(gè)特征圖尺寸大小不一,Conv1_1、Conv2_2、Conv3_3、Conv4_4大小分別為原圖的1/2、1/4、1/8、1/8,所以在構(gòu)建融合路徑時(shí)需要統(tǒng)一特征圖尺寸。將Conv4_4與Conv3_3進(jìn)行特征拼接融合得到特征圖P2。將融合后的特征圖P2采用雙線性插值法進(jìn)行上采樣并與Conv2_2進(jìn)行特征拼接融合得到特征圖P3。同理,將P3進(jìn)行上采樣并與Conv1_1進(jìn)行特征拼接融合得到特征圖P4。

隨后將網(wǎng)絡(luò)淺層的空間信息傳遞到網(wǎng)絡(luò)深層。將特征圖P4進(jìn)行下采樣并與P3進(jìn)行特征融合得到新的特征圖Q2。將Q2下采樣并與P2進(jìn)行特征融合得到特征圖Q3,將Q3與P1進(jìn)行特征拼接融合得到特征圖Q4,由此構(gòu)造出一條自底向上的特征融合路徑。將得到的特征圖Q1、Q2、Q3、Q4進(jìn)行特征拼接融合后最終得到一個(gè)同時(shí)具有高級(jí)語(yǔ)義和空間細(xì)節(jié)的特征圖。

2.2.2 混合注意力模塊

在實(shí)際的密度圖估計(jì)過(guò)程中,往往會(huì)將一些雜亂的背景誤識(shí)別為人群,影響了模型預(yù)測(cè)的準(zhǔn)確性。在人群計(jì)數(shù)過(guò)程中,可以通過(guò)引入注意力機(jī)制幫助網(wǎng)絡(luò)更加準(zhǔn)確地關(guān)注圖片重要區(qū)域和關(guān)鍵通道,增強(qiáng)特征表示,從而提高計(jì)數(shù)準(zhǔn)確性[19]。Liu等[20]采用注意力機(jī)制獲取特征圖中的局部位置信息,但是忽略了特征通道之間的全局相關(guān)性。Sindagi等[21]通過(guò)注意力機(jī)制將前景和背景分割信息注入到計(jì)數(shù)網(wǎng)絡(luò)中,但是沒(méi)有考慮到圖像中各個(gè)位置之間的關(guān)系。針對(duì)上述問(wèn)題,我們提出了一個(gè)融合位置注意力和通道注意機(jī)制的混合注意力模塊。

混合注意力模塊如圖2所示。首先將雙向特征融合路徑提取到的特征輸入到位置注意力模塊,經(jīng)過(guò)3個(gè)1×1卷積層,然后通過(guò)重置或轉(zhuǎn)置操作得到3個(gè)特征映射S1,S2和S3,其中 {S1,S2,S3}∈RC×H×W,C為特征映射的通道數(shù),H×W表示空間維度。對(duì)S1和S2進(jìn)行矩陣乘法和Softmax運(yùn)算得到一個(gè)大小為HW×HW的空間注意力圖Sa,其計(jì)算公式如式(1)所示

(1)

將得到的空間注意力圖Sa和S3進(jìn)行矩陣乘法操作,并將得到的特征圖還原為原始輸入特征大小C×H×W。最后用一個(gè)尺度參數(shù)λ對(duì)輸出進(jìn)行縮放,得到最終輸出特征S,其計(jì)算公式如式(2)所示

(2)

式中:λ是可學(xué)習(xí)參數(shù),其初始化為0并逐漸學(xué)習(xí)一個(gè)權(quán)值。

上述公式表明,輸出特征S是注意力圖和原始局部特征圖的加權(quán)和,其中包含全局上下文特征,并且能夠根據(jù)空間注意力圖有選擇的聚合語(yǔ)境。

同樣,將雙向特征融合路徑提取到的特征輸入到通道注意力模塊。通道注意力的主要操作與位置注意力基本相同,不同的是通道注意力不需要通過(guò)卷積重新生成新的特征圖,而是直接通過(guò)輸入特征圖F來(lái)計(jì)算通道注意力圖Ca,其定義如式(3)所示

(3)

(4)

式中:μ為可學(xué)習(xí)參數(shù),其初始化為0并逐漸學(xué)習(xí)一個(gè)權(quán)值。

位置注意力可以捕捉圖像的全局位置的相關(guān)性,感知更廣泛的上下文信息,從而增強(qiáng)局部特征表示。而通道注意力可以關(guān)注特征映射中不同通道之間的相關(guān)性,減少背景噪聲引起的無(wú)用特征映射的影響。同時(shí)使用通道注意力機(jī)制和位置注意力機(jī)制,能夠反映出通道和位置之間的依賴關(guān)系,提高模型的魯棒性。

2.3 多尺度特征增強(qiáng)模塊

上文所述的MCAM模塊融合了網(wǎng)絡(luò)的淺層和深層特征,在此基礎(chǔ)上,本文通過(guò)設(shè)計(jì)多尺度特征增強(qiáng)模塊(multi-scale feature enhancement module,MFEM)來(lái)提取密集人群的多尺度特征。該模塊主要由3個(gè)具有不同空洞率的密集空洞卷積塊(dense dilated convolution module,DDCM)組成,每個(gè)DDCM模塊又由3個(gè)密集殘差連接的空洞卷積組成。

MFEM模塊結(jié)構(gòu)如圖3所示。多列的CNN方法由于列數(shù)有限,只能處理幾種不同尺度的人群特征,本文針對(duì)多尺度變化問(wèn)題采取一種盡可能密集的連接方式來(lái)捕獲連續(xù)變化的尺度特征。DenseNet[22]中使用密集殘差連接的方式將所有的網(wǎng)絡(luò)層連接起來(lái)。網(wǎng)絡(luò)的每一層都會(huì)接收前面所有層的輸入,并將其進(jìn)行串聯(lián),形成了一個(gè)多通道特征圖,在每個(gè)層之間相互傳遞特征信息,這種方式可以使得不同層之間的信息傳遞更加充分,同時(shí)能避免梯度消失和參數(shù)過(guò)多的問(wèn)題,提高模型的準(zhǔn)確性。本文通過(guò)采用密集殘差連接的方式來(lái)連接具有不同空洞率的空洞卷積以捕獲更多的尺度特征,使得后續(xù)層的輸入特征更加豐富,促進(jìn)信息的連續(xù)傳遞,有助于網(wǎng)絡(luò)更大限度的提取人頭信息。

圖3 MFEM模塊結(jié)構(gòu)

普通卷積使用池化層來(lái)增大感受野,同時(shí)也縮小了特征圖尺寸,再利用上采樣還原圖像尺寸。而特征圖在先縮小后放大的過(guò)程中會(huì)丟失一些細(xì)節(jié)信息,容易造成精度上的損失,從而導(dǎo)致還原的圖像質(zhì)量下降。相較于普通卷積,空洞卷積可以在不引入額外參數(shù)的前提下擴(kuò)大感受野,同時(shí)又不丟失圖像信息[24],因此空洞卷積更適用于人群計(jì)數(shù)。圖4展示了空洞率分別為1、2、3的空洞卷積。

圖4 空洞卷積

然而較大的空洞率可能會(huì)導(dǎo)致感受野增加過(guò)快,從而在人群密集區(qū)域出現(xiàn)網(wǎng)格效應(yīng),導(dǎo)致原始特征映射的局部信息缺失,對(duì)計(jì)數(shù)精度造成影響。為解決上述問(wèn)題,同時(shí)考慮到密集場(chǎng)景下人頭的連續(xù)尺度變化問(wèn)題,本文選取3個(gè)空洞率分別為1、2、3的空洞卷積進(jìn)行特征提取。為了讓3個(gè)DDCM模塊之間的特征被充分利用,產(chǎn)生更連續(xù)的信息傳遞,本文再次使用密集殘差連接將DDCM模塊連接起來(lái),提取的特征尺度多樣性進(jìn)一步擴(kuò)大。最后將MFEM模塊提取的特征輸入到由兩個(gè)3×3卷積和一個(gè)1×1卷積組成的密度圖生成模塊來(lái)得到最終的人群密度圖。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 訓(xùn)練細(xì)節(jié)

實(shí)驗(yàn)基于Pytorch框架,在windows10系統(tǒng)下進(jìn)行,訓(xùn)練時(shí)使用的GPU為NVIDIA GeForce GTX 3090。實(shí)驗(yàn)中使用Adam優(yōu)化器對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,用標(biāo)準(zhǔn)差為0.01的高斯函數(shù)隨機(jī)初始化其它層,網(wǎng)絡(luò)的初始學(xué)習(xí)率為0.000 01,衰減率為0.995,迭代次數(shù)為800,batchsize設(shè)置為1。

3.1.1 人群密度圖的生成

為了生成高質(zhì)量密度圖,提高計(jì)數(shù)精度,本文采用自適應(yīng)高斯核的方法生成標(biāo)簽密度圖,自適應(yīng)高斯核可以根據(jù)人頭的尺度自適應(yīng)的改變高斯核大小。對(duì)于人群相對(duì)稀疏的數(shù)據(jù)集如ShanghaiTech Part_B則采用固定高斯核來(lái)處理人群場(chǎng)景生成密度圖。使用自適應(yīng)高斯核的方法計(jì)算出真實(shí)人群密度圖Yi,其表示為

(5)

式中:Gσi為高斯核濾波器,σi為高斯核大小,由k最鄰近算法得出,δ(x-xi) 表示在像素點(diǎn)xi處的人頭標(biāo)注,di表示點(diǎn)xi和k個(gè)頭部之間的平均距離,本文將k設(shè)置為3,β為0.3。最終生成的人群密度圖標(biāo)簽如圖5所示,從左到右依次為原圖、人頭位置標(biāo)注圖、人群密度圖。

圖5 人群密度圖示例

3.1.2 損失函數(shù)

損失函數(shù)用于衡量網(wǎng)絡(luò)輸出與真實(shí)標(biāo)簽之間的誤差。本文采用歐幾里距離損失,其計(jì)算公式如式(6)所示

(6)

3.1.3 評(píng)價(jià)指標(biāo)

本文采用平均絕對(duì)誤差(MAE)和均方誤差(MSE)來(lái)評(píng)估網(wǎng)絡(luò)模型的性能,MAE反映計(jì)數(shù)模型的準(zhǔn)確性,MSE反映模型的魯棒性,其計(jì)算公式如下

(7)

(8)

其中,N為測(cè)試集中的圖像數(shù),yi為輸入圖像的預(yù)測(cè)人數(shù),Yi為輸入圖片的真實(shí)人數(shù)。

3.2 實(shí)驗(yàn)結(jié)果分析

3.2.1 實(shí)驗(yàn)數(shù)據(jù)集

本文在常用的大規(guī)模數(shù)據(jù)集ShanghaiTech,UCF_CC_50和UCF-QNRF上進(jìn)行實(shí)驗(yàn)。

ShanghaiTech數(shù)據(jù)集[23]分為Part_A和Part_B兩個(gè)子集。該數(shù)據(jù)集共有1198張圖片,330 165個(gè)注釋頭。其中Part_A由482張圖片構(gòu)成,這些圖片是從網(wǎng)絡(luò)上隨機(jī)下載得到的,圖片分辨率不統(tǒng)一。其中訓(xùn)練集有300張圖片,測(cè)試集有182張圖片。Part_B共有716張圖片,圖片來(lái)源于上海某街道的監(jiān)控錄像,圖片分辨率為768×1024。其中訓(xùn)練集有400張圖片,測(cè)試集有316張圖片。其中Part_A數(shù)據(jù)集人群密度相對(duì)較高,Part_B部分人群密度相對(duì)稀疏。

UCF_CC_50數(shù)據(jù)集[24]是一個(gè)小樣本數(shù)據(jù)集,其來(lái)源于網(wǎng)絡(luò)上的圖片,場(chǎng)景類型包含了音樂(lè)會(huì)、體育場(chǎng)等多個(gè)場(chǎng)所的圖片。該數(shù)據(jù)集共有50張圖片,圖片分辨率大小不一,標(biāo)記總?cè)藬?shù)達(dá)到63 075人,如片中的人群密度變化極大,人群數(shù)量從94到4543不等。實(shí)驗(yàn)過(guò)程中隨機(jī)抽取其中40張圖片進(jìn)行訓(xùn)練,10張圖片進(jìn)行測(cè)試。由于該數(shù)據(jù)集樣本數(shù)量較少,我們采用五折交叉驗(yàn)證的方法來(lái)評(píng)估模型。

UCF-QNRF數(shù)據(jù)集[25]由1535張高分辨率圖片組成,包含多個(gè)視角、多種光線及多種密度變化的大規(guī)模場(chǎng)景。圖片分辨率不統(tǒng)一,平均分辨率為2013×2902。該數(shù)據(jù)集人群密度變化較大,單張圖片最大人數(shù)可達(dá)到12 865。其中訓(xùn)練集1201張,測(cè)試集334張。

3.2.2 結(jié)果分析

為了驗(yàn)證MFNet在人群計(jì)數(shù)任務(wù)上的有效性,本文在3個(gè)公開(kāi)的人群計(jì)數(shù)數(shù)據(jù)集ShanghaiTech、UC_CC_50以及UCF_QNRF上進(jìn)行了訓(xùn)練和測(cè)試,通過(guò)與近幾年的先進(jìn)算法進(jìn)行對(duì)比,驗(yàn)證了MFNet計(jì)數(shù)性能的優(yōu)越性,對(duì)比結(jié)果見(jiàn)表2。

表2 不同方法在多個(gè)數(shù)據(jù)集上的結(jié)果對(duì)比

由表2可知,本文提出的MFNet在3個(gè)數(shù)據(jù)集上都表現(xiàn)出了優(yōu)秀的計(jì)數(shù)性能。在ShanghaTech數(shù)據(jù)集中,在人群密度較高的Part_A子集上實(shí)現(xiàn)了較低的MAE和MSE,分別達(dá)到了62.4和101.4。與經(jīng)典的多列網(wǎng)絡(luò)MCNN相比,MFNet的MAE和MSE分別降低了43.4%和41.5%,與經(jīng)典的單列網(wǎng)絡(luò)CSRNet相比MAE和MSE分別下降了8.5%和11.8%,但MSE比PD-CNN稍差。同時(shí)在人群相對(duì)稀疏的Part_B子集上也達(dá)到了最低的MAE和MSE,分別為7.9和11.7,與MCNN相比MAE下降了70.1%,MSE下降了71.7%,與CSRNet相比MAE下降了25.5%,MSE下降了26.7%。

在小樣本數(shù)據(jù)集UCF_CC_50中,MFNet達(dá)到了與先前方法相比最低的MAE和MSE,分別為201.4和302.8。與MCNN相比MAE下降了46.7%,MSE下降了39.7%,與CSRNet相比MAE下降了24.3%,MAE下降了23.8%。

在場(chǎng)景豐富,人群數(shù)量差異較大的UCF_QNRF數(shù)據(jù)集上,本文提出的MFNet達(dá)到了最低的誤差,其中MAE為105.5,MSE為182.8。與MCNN相比MAE下降了61.9%,MSE下降了57.1%,與CSRNet相比MAE下降了13.0%,MAE下降了12.1%。

上述實(shí)驗(yàn)結(jié)果表明本文提出的網(wǎng)絡(luò)MFNet在人群不同擁擠程度的場(chǎng)景下均表現(xiàn)出優(yōu)秀的計(jì)數(shù)準(zhǔn)確率,并且在尺度變化較大、背景噪聲干擾嚴(yán)重的情況下,MFNet也能夠保持較高的計(jì)數(shù)精度。

圖6展示了在不同數(shù)據(jù)集上的部分可視化結(jié)果。圖中展示的4個(gè)場(chǎng)景包括了人群稀疏場(chǎng)景、人群密集場(chǎng)景和具有復(fù)雜背景干擾的場(chǎng)景,可以看出,在這些不同的場(chǎng)景下使用MFNet生成的人群密度圖均能夠估計(jì)出與標(biāo)簽人數(shù)接近的人群數(shù)量,再一次驗(yàn)證了MFNet的有效性。

圖6 不同數(shù)據(jù)集生成的密度圖

3.3 消融實(shí)驗(yàn)

為了驗(yàn)證MFNet中每個(gè)模塊的有效性,本文在ShanghaiTech Part_B數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),并將其對(duì)比結(jié)果列于表3中。

表3 Shanghai Part_B數(shù)據(jù)集的消融實(shí)驗(yàn)

首先在基線網(wǎng)絡(luò)VGG-16上進(jìn)行了訓(xùn)練和測(cè)試,并在其基礎(chǔ)上分別增加MFEM模塊和MCAM模塊來(lái)驗(yàn)證兩個(gè)模塊的有效性。由表3可知,基線網(wǎng)絡(luò)VGG16在ShanghaiTech Part_B上的MAE和MSE分別為11.2和17.1。在VGG16網(wǎng)絡(luò)基礎(chǔ)上增加了MFEM模塊后,MAE和MSE分別為9.4和16.2,其中MAE較基線網(wǎng)絡(luò)下降了16.1%,MSE較基線網(wǎng)絡(luò)下降了5.3%,該實(shí)驗(yàn)驗(yàn)證了MFEM模塊的有效性。在VGG16網(wǎng)絡(luò)基礎(chǔ)上增加了MCAM模塊后,MAE為8.4,較基線網(wǎng)絡(luò)下降了25%;MSE為15.5,較基線網(wǎng)絡(luò)下降了9.3%,該實(shí)驗(yàn)驗(yàn)證了MCAM模塊的有效性。最后在VGG16上同時(shí)增加MFEM模塊和MCAM模塊,最終的MAE和MSE下降了29.5%和30.4%,驗(yàn)證了本文所提的兩個(gè)模塊的有效性。其中,在加入MCAM模塊進(jìn)行訓(xùn)練之后,MSE明顯降低,表明了該模塊很好的提升了模型的魯棒性。

上述消融實(shí)驗(yàn)驗(yàn)證了本文提出的兩個(gè)模塊都對(duì)網(wǎng)絡(luò)性能有一定的提升,驗(yàn)證了MFNet合理性和有效性。

4 結(jié)束語(yǔ)

本文提出了一種基于多分支特征融合的人群計(jì)數(shù)網(wǎng)絡(luò),在網(wǎng)絡(luò)前端利用自頂向下和自底向上的雙向特征融合路徑來(lái)促進(jìn)淺層和深層特征之間的融合,并結(jié)合位置注意力和空間注意力加強(qiáng)人頭信息的權(quán)重,增強(qiáng)網(wǎng)絡(luò)的表征能力。在網(wǎng)絡(luò)后端建立密集殘差連接來(lái)提高多尺度信息傳遞能力。在3個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與其它主流算法相比,所提方法具有更高的準(zhǔn)確性和魯棒性。但是在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn)該模型存在參數(shù)較多、計(jì)算量過(guò)大的問(wèn)題,導(dǎo)致計(jì)數(shù)效率偏低,后續(xù)可引入輕量化的網(wǎng)絡(luò)模型進(jìn)行研究,以降低模型的復(fù)雜度和提高計(jì)數(shù)準(zhǔn)確度。

猜你喜歡
尺度計(jì)數(shù)注意力
讓注意力“飛”回來(lái)
古人計(jì)數(shù)
遞歸計(jì)數(shù)的六種方式
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
古代的計(jì)數(shù)方法
這樣“計(jì)數(shù)”不惱人
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
9
义乌市| 瑞昌市| 宣汉县| 昌江| 靖西县| 田林县| 肥西县| 札达县| 漳州市| 三亚市| 凤山市| 开封市| 湘乡市| 宁强县| 西贡区| 河西区| 玉山县| 东阿县| 内黄县| 平昌县| 衡东县| 阿拉善盟| 南宫市| 甘德县| 马关县| 保康县| 廊坊市| 邵阳县| 云霄县| 布尔津县| 靖安县| 青河县| 昭平县| 临潭县| 仁怀市| 新巴尔虎右旗| 宿迁市| 资阳市| 泾阳县| 南溪县| 亳州市|