余 鷹,潘 誠,朱慧琳,錢 進(jìn),湯 洪
華東交通大學(xué) 軟件學(xué)院,南昌330013
人群計(jì)數(shù)作為智能視頻監(jiān)控的重要組成部分,主要任務(wù)是分析統(tǒng)計(jì)場景中人群的數(shù)量、密度和分布,現(xiàn)已廣泛應(yīng)用在大型集會(huì)、旅游景點(diǎn)等人群密集的線下活動(dòng)場景,在維護(hù)群眾人身安全等方面發(fā)揮著巨大的作用。近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)[1-3]在計(jì)算機(jī)視覺領(lǐng)域的大放異彩,基于深度學(xué)習(xí)的人群計(jì)數(shù)算法取得了顯著的進(jìn)展,計(jì)數(shù)形式從簡單的稀疏場景行人數(shù)量統(tǒng)計(jì)發(fā)展到了復(fù)雜密集場景的密度圖計(jì)數(shù),通過充分利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力,提升模型的計(jì)數(shù)精度。
隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)技術(shù)的快速發(fā)展,有關(guān)人群計(jì)數(shù)問題的研究已經(jīng)取得了巨大的進(jìn)展,優(yōu)秀的模型和算法不斷涌現(xiàn),但是在人群密集場景中,要實(shí)現(xiàn)準(zhǔn)確的計(jì)數(shù)依然存在諸多困難和挑戰(zhàn)。如圖1 所示,該現(xiàn)實(shí)場景存在背景干擾、人群分布雜亂、行人尺度變化等問題,極大地影響了計(jì)數(shù)精度。在圖1(a)中,遠(yuǎn)近景人群目標(biāo)尺度差異較大,樹與密集人群特征相似,容易對計(jì)數(shù)造成干擾;在圖1(b)中,同樣存在遠(yuǎn)近景目標(biāo)尺度多樣化問題,同時(shí)人群分布雜亂將對計(jì)數(shù)性能造成影響。
圖1 人群計(jì)數(shù)的挑戰(zhàn)Fig.1 Challenge of crowd counting
為了解決行人尺度變化問題,一些學(xué)者試圖通過引入多陣列卷積結(jié)構(gòu)來感受不同尺度的行人特征[4-5],以提高模型預(yù)測精度。盡管這些方法增強(qiáng)了算法對多尺度特征的感知能力,但同時(shí)也帶來了無效的冗余分支結(jié)構(gòu)和大量訓(xùn)練時(shí)間。對于背景噪聲干擾,Liu等人[6]試圖使用注意力機(jī)制去抑制背景區(qū)域。通過級聯(lián)方式,預(yù)先訓(xùn)練注意力圖生成器,檢測前景人群區(qū)域,抑制弱相關(guān)復(fù)雜背景信息,然后使用人群密度估計(jì)器進(jìn)行人群計(jì)數(shù)。此時(shí),場景圖片已經(jīng)聚焦在前景人群區(qū)域,可以有效減少背景噪聲的干擾。這類方法對注意力生成器要求極高,容易造成前景和背景的誤判,也不能自適應(yīng)地在線調(diào)整背景區(qū)域范圍,可能在計(jì)數(shù)之前引入誤差,增加了計(jì)數(shù)任務(wù)的復(fù)雜性。
針對上述問題,本文提出了一種融合通道與空間注意力的編解碼結(jié)構(gòu)人群計(jì)數(shù)網(wǎng)絡(luò)(channel and spatial attention-based encoder-decoder network for crowd counting,CSANet),以解決計(jì)數(shù)任務(wù)中存在的目標(biāo)尺度變化、人群分布雜亂以及背景噪聲干擾等問題。在編碼階段,通過不同深度層次的卷積提取人群的不同尺度特征;在解碼階段,使用卷積和上采樣操作逐步恢復(fù)空間語義信息,并將多尺度語義信息與空間上下文信息充分融合,然后注入通道和空間注意力,使網(wǎng)絡(luò)關(guān)注點(diǎn)聚焦在感興趣前景人群區(qū)域,進(jìn)一步降低弱相關(guān)背景干擾,以此提高密度圖的生成質(zhì)量。本文的主要貢獻(xiàn)如下:
(1)提出了一種融合通道與空間注意力的編解碼結(jié)構(gòu)計(jì)數(shù)網(wǎng)絡(luò),通過將多尺度信息與空間上下文信息進(jìn)行融合以提高圖像特征的魯棒性,最終提升計(jì)數(shù)精度。
(2)將多維度注意力機(jī)制引入人群計(jì)數(shù),使得端到端的計(jì)數(shù)網(wǎng)絡(luò)能夠自適應(yīng)地聚焦前景人群區(qū)域,降低弱相關(guān)背景區(qū)域的干擾,提升生成密度圖質(zhì)量。
人群計(jì)數(shù)任務(wù)所遇到的挑戰(zhàn)主要為場景擁擠、人群尺度變化多樣和人群分布雜亂等。為了降低其帶來的計(jì)數(shù)精度下降問題,主要研究路線大致可分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法使用經(jīng)過預(yù)訓(xùn)練的分類器人工提取目標(biāo)底層特征[7-8],然后判別出行人從而實(shí)現(xiàn)計(jì)數(shù);基于深度學(xué)習(xí)的方法利用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)人群特征并生成場景密度圖,密度圖中不僅包含行人數(shù)量信息,還有豐富的空間位置信息。
傳統(tǒng)方法可分為基于檢測和基于回歸兩類?;跈z測的方法[9]首先通過滑動(dòng)窗口提取圖像特征,然后使用已經(jīng)訓(xùn)練好的分類器來識別行人。此類方法在人群稀疏的場景中計(jì)數(shù)效果良好,但是在復(fù)雜的人群密集場景中,由于行人之間的嚴(yán)重遮擋和背景雜亂干擾,導(dǎo)致無法提取完整的個(gè)體特征,計(jì)數(shù)性能較差。為了克服密集場景中行人特征不完整等問題,研究者設(shè)計(jì)出判別身體部分特征的檢測器[10],但是算法仍然難以勝任高密度場景的計(jì)數(shù)需求?;诖?,提出了另一種自適應(yīng)的回歸預(yù)測方法[11],直接從場景中提取特征,然后學(xué)習(xí)圖像特征至人群數(shù)量的映射關(guān)系。
總之,傳統(tǒng)方法大都依賴人工提取的特征。由于現(xiàn)實(shí)環(huán)境復(fù)雜,人群變化等因素普遍存在,導(dǎo)致人工提取的特征判別性不強(qiáng),從而計(jì)數(shù)模型應(yīng)用時(shí)預(yù)測效果較差。
近些年,深度學(xué)習(xí)技術(shù)在圖像分類[12]、目標(biāo)檢測[13-14]、語義分割[15]等視覺任務(wù)上的應(yīng)用表現(xiàn)搶眼。相對于使用傳統(tǒng)技術(shù),使用深度學(xué)習(xí)技術(shù)可以使算法的性能得到顯著提升,并且其更擅長處理復(fù)雜場景問題。因此,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的人群計(jì)數(shù)方法的研究陸續(xù)開展[16-18],并取得了卓有成效的進(jìn)展。其主要過程是通過卷積神經(jīng)網(wǎng)絡(luò)提取特征,再利用全卷積形式生成包含人群數(shù)量和空間位置信息的人群分布密度圖。
為了處理多尺度問題,已有模型大多采用多陣列卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)[4-5],通過不同的感受野去提取行人多尺度特征。Sindagi等人[19]提出了一種上下文金字塔網(wǎng)絡(luò)(contextual pyramid CNN,CP-CNN),通過融合全局和局部上下文信息,來提高生成密度圖的質(zhì)量和人數(shù)預(yù)測的精度;Sam 等人[20]提出Switch-CNN(switching convolutional neural network)模型,通過訓(xùn)練密度分類器,將圖像劃分為局部圖像塊,用分類器自適應(yīng)地輸出對應(yīng)等級;Cao等人[21]提出了一種基于編解碼結(jié)構(gòu)的尺度聚焦網(wǎng)絡(luò)(scale aggregation network,SANet),利用多尺度聚焦模塊來提取行人多尺度特征。此類方法的計(jì)數(shù)性能相比傳統(tǒng)方法雖然有了很大突破,但是其網(wǎng)絡(luò)結(jié)構(gòu)冗余,參數(shù)量過大,導(dǎo)致模型訓(xùn)練困難。為了簡化網(wǎng)絡(luò)復(fù)雜度和提高訓(xùn)練效率,單列網(wǎng)絡(luò)架構(gòu)重新獲得關(guān)注。Li 等人提出單列計(jì)數(shù)網(wǎng)絡(luò)CSRNet(network for congested scene recognition)[22],通過空洞卷積擴(kuò)大感受野,以捕獲多尺度特征同時(shí)降低網(wǎng)絡(luò)模型的參數(shù)量。為了解決背景噪聲干擾問題,Liu等人[6]提出了一種用于人群計(jì)數(shù)的可形變卷積網(wǎng)絡(luò)(attention-injective deformable convolutional network for crowd understanding,ADCrowdNet),該網(wǎng)絡(luò)融合了注意力機(jī)制,讓模型只關(guān)注人群區(qū)域,從而忽略背景噪聲的干擾。此外,亦有研究通過將圖像語義分割技術(shù)應(yīng)用于人群計(jì)數(shù)領(lǐng)域,以去除背景噪聲??傊?,如何增強(qiáng)特征的尺度適應(yīng)性和降低背景噪聲干擾仍然是人群計(jì)數(shù)領(lǐng)域目前重點(diǎn)關(guān)注的問題。
本文提出的融合通道與空間注意力的人群計(jì)數(shù)模型CSANet的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。整體采用了易于端到端訓(xùn)練的編解碼架構(gòu)。其中,編碼器使用VGG16[1]網(wǎng)絡(luò)的前13 層作為主干,構(gòu)建特征提取網(wǎng)絡(luò),提取多個(gè)不同深度層次的語義特征,來辨識場景中的多尺度人群;解碼器在逐步恢復(fù)空間信息的同時(shí),將多尺度信息與空間上下文信息充分融合,以增強(qiáng)網(wǎng)絡(luò)的表征能力。并且融入通道與空間注意力模塊,聚焦前景人群區(qū)域,抑制弱相關(guān)背景特征,以生成高質(zhì)量、高分辨率的密度圖進(jìn)行人群計(jì)數(shù)。
圖2 CSANet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Architecture of CSANet
編解碼器包含兩部分,其中編碼器可以提取不同尺度行人特征。為了提取多層次更具有表征能力的深度特征,且易于網(wǎng)絡(luò)的搭建和訓(xùn)練,本部分選取了經(jīng)過預(yù)訓(xùn)練的VGG16 網(wǎng)絡(luò)前13 層作為編碼器的主干網(wǎng)絡(luò)。在訓(xùn)練的過程中,保留4個(gè)具有代表性的不同層次深度語義特征Conv2_2、Conv3_3、Conv4_3、Conv5_3,其尺寸分別為原始輸入圖片分辨率的1/2、1/4、1/8、1/16,這些不同深度提取的特征可以捕獲不同尺度的行人信息。隨著網(wǎng)絡(luò)深度遞增,特征圖分辨率逐漸減小,維度逐步增加。解碼器主要用于逐步恢復(fù)圖像空間特征信息與聚焦前景人群區(qū)域。通過解碼恢復(fù)的多層次深度特征與編碼器各階段輸出的對應(yīng)層特征進(jìn)行融合,最大程度上減少卷積和下采樣等操作造成的特征損失,并進(jìn)一步整合空間上下文信息。在融合之后,對特征添加通道與空間注意力,以此來凸出前景人群區(qū)域,抑制弱相關(guān)背景區(qū)域特征的權(quán)重。解碼器對不同階段特征圖進(jìn)行融合主要是對兩個(gè)特征圖進(jìn)行通道拼接,特征融合之后新的特征圖分辨率大小不變,通道為兩者之和。其網(wǎng)絡(luò)參數(shù)配置如表1所示。
表1 網(wǎng)絡(luò)參數(shù)Table 1 Network parameters
在ConvX_Y(K-C-S)中,X_Y代表卷積所在層的深度,K表示卷積核大小,C為卷積核個(gè)數(shù),S為步長。最后輸出的密度圖分辨率大小與原始輸入圖片的相等。Upsampling 使用雙線性插值將分辨率擴(kuò)大至輸入特征的2 倍,Concat 為特征融合操作,將輸入的2 組特征圖進(jìn)行通道拼接,CBAM module 為通道與空間特征注意力模塊。
背景噪聲干擾問題給人群計(jì)數(shù)任務(wù)帶來了嚴(yán)峻的挑戰(zhàn),復(fù)雜背景可能極大降低模型的預(yù)測精度。視覺注意力機(jī)制的作用已經(jīng)在大量的工作中被證實(shí),它在關(guān)鍵特征提取以及模型性能增強(qiáng)等方面有著良好的效果。如果將注意力機(jī)制應(yīng)用于人群計(jì)數(shù),將有助于模型更加關(guān)注感興趣的人群區(qū)域,從而抑制弱相關(guān)背景信息的影響。Woo 等人[23]提出的CBAM(convolutional block attention module)注意力模型可以在通道和空間兩個(gè)維度上添加注意力,相較于單通道域或單空間域注意力,更適合人群計(jì)數(shù)任務(wù)。因?yàn)槿巳河?jì)數(shù)模型生成的特征圖不僅包含人群數(shù)量信息,還包含空間位置信息。對于一個(gè)給定的中間特征圖,CBAM 模塊會(huì)沿著通道和空間兩個(gè)獨(dú)立的維度依次推斷注意力圖,然后將注意力圖與輸入特征圖相乘以進(jìn)行自適應(yīng)特征優(yōu)化來提高感興趣區(qū)域的權(quán)重。添加CBAM 注意力模塊時(shí),一般將其添加到網(wǎng)絡(luò)每個(gè)卷積層之后或結(jié)合殘差添加。
為了增強(qiáng)模型在多層次特征融合之后對人群區(qū)域的聚焦能力,CSANet 網(wǎng)絡(luò)在解碼器部分添加了CBAM注意力模塊,融合方式如圖3所示。編碼器和解碼器提取的特征圖在對應(yīng)層次進(jìn)行通道疊加,以充分整合空間上下文信息,再使用通道與空間注意力模塊,對其前景行人區(qū)域進(jìn)行關(guān)注,并對背景區(qū)域特征權(quán)重進(jìn)行抑制。具體過程為:首先將編碼階段提取的多尺度特征Fe與對應(yīng)層解碼恢復(fù)的特征Fd做特征疊加操作,得到特征累加之后的特征圖F′,如式(1)所示:
圖3 注意力融合方式Fig.3 Fusing attention method
其中,⊕為特征通道疊加操作,F(xiàn)′為多層信息融合之后的特征圖,并作為注意力模塊的輸入,然后依次利用通道和空間注意力模塊微調(diào)輸入特征F′,得到最終經(jīng)過加權(quán)之后的特征圖FAtt。通道注意力模塊學(xué)習(xí)通道上的權(quán)重信息,再按通道元素相乘,作為后一階段的輸入;空間注意力模塊學(xué)習(xí)空間權(quán)重,與輸入特征空間相乘,如式(2)和式(3)所示:
σ為Sigmoid函數(shù),輸入特征圖F∈RC×H×W,通道注意力為Mc∈RC×1×1,為每個(gè)單獨(dú)通道上的平均池化和最大池化,MLP為多層感知機(jī),這里僅使用了一個(gè)隱藏層,其神經(jīng)元個(gè)數(shù)為RC/r×1×1,r為參 數(shù)縮減率,r=16 ;空間注意力為為所有通道上的全局平均池化和最大池化,做通道相加操作,f7×7為7×7 卷積。
在訓(xùn)練過程中,使用歐式距離評估真實(shí)密度圖與預(yù)測密度圖之間的差異,其定義如式(4)所示:
N是一次訓(xùn)練圖片的總數(shù)量,Xi為第i張訓(xùn)練圖片,Z(Xi;θ)為第i張圖片的預(yù)測密度圖,其中i∈[1,N],θ為網(wǎng)絡(luò)模型參數(shù),為第i張訓(xùn)練圖片的真實(shí)密度圖。
本章將詳細(xì)闡述端到端人群計(jì)數(shù)模型CSANet的訓(xùn)練環(huán)境,包括真實(shí)密度圖的生成方式、數(shù)據(jù)增強(qiáng)方法以及實(shí)驗(yàn)參數(shù)和硬件配置。
由于當(dāng)下主流人群計(jì)數(shù)數(shù)據(jù)集通常只提供人頭中心點(diǎn)的坐標(biāo)位置信息,而模型對于單個(gè)像素點(diǎn)的預(yù)測效率低下,普遍做法是將坐標(biāo)點(diǎn)進(jìn)行區(qū)間擴(kuò)散,以提升模型的學(xué)習(xí)效率。本文使用幾何自適應(yīng)高斯核生成密度圖,作為預(yù)測學(xué)習(xí)的標(biāo)簽,具體如式(5)所示:
其中,x為當(dāng)前圖像中的每個(gè)像素點(diǎn),xi為第i個(gè)人頭中心點(diǎn)坐標(biāo),G(x)為高斯核濾波器,為人頭坐標(biāo)點(diǎn)xi與其最近的K個(gè)人頭的平均距離。參照文獻(xiàn)[22]的參數(shù)設(shè)置,將β設(shè)為0.3。
由于人群數(shù)據(jù)集圖片數(shù)量有限,而標(biāo)注圖片代價(jià)過高,為了獲得更多的圖片用于訓(xùn)練,本文在數(shù)據(jù)輸入網(wǎng)絡(luò)之前對數(shù)據(jù)集中的圖片進(jìn)行了一系列數(shù)據(jù)增強(qiáng)操作。具體為對每張圖片隨機(jī)裁剪出分辨率大小為400×400 的局部圖像塊,如圖4 所示。對于邊長不足400 的圖片,對其進(jìn)行雙線性插值,使得邊長增大到400。再對裁剪出的局部圖像塊隨機(jī)進(jìn)行鏡像翻轉(zhuǎn),調(diào)整對比度和灰度來擴(kuò)大數(shù)據(jù)量,以獲得更豐富的訓(xùn)練數(shù)據(jù)。
圖4 隨機(jī)裁剪示例Fig.4 Example of random cropping
實(shí)驗(yàn)所使用的操作系統(tǒng)為Windows 10,深度學(xué)習(xí)框架為PyTorch 1.6.0,使用兩塊顯存為11 GB 的NVIDIA-1080Ti顯卡。
編碼器部分使用基于ImageNet[24]預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)的前13層參數(shù)對網(wǎng)絡(luò)進(jìn)行初始化,其他參數(shù)則利用均值為0,方差為0.01的高斯函數(shù)進(jìn)行隨機(jī)初始化。模型訓(xùn)練過程中,使用學(xué)習(xí)率為1E-4 的Adam優(yōu)化器進(jìn)行模型優(yōu)化,訓(xùn)練迭代次數(shù)收斂即停止。對于UCF-QNRF 數(shù)據(jù)集,其平均尺寸為2 013×2 902,分辨率過大,訓(xùn)練效率低,因此在進(jìn)行數(shù)據(jù)增強(qiáng)之前,本文使用雙線性插值方法將其大小統(tǒng)一調(diào)整至1 024×768。
為了驗(yàn)證算法的有效性和性能,在4個(gè)經(jīng)典人群計(jì)數(shù)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。與已有計(jì)數(shù)算法相比,CSANet 性能更優(yōu),而且訓(xùn)練過程更加簡單、靈活。本章首先介紹計(jì)數(shù)模型的評價(jià)指標(biāo),然后簡單描述用于實(shí)驗(yàn)的4個(gè)數(shù)據(jù)集的基本情況,并比較分析了各個(gè)算法的實(shí)驗(yàn)結(jié)果。
平均絕對誤差(mean absolute error,MAE)和均方根誤差(root mean square error,RMSE)是人群計(jì)數(shù)算法常用的評價(jià)指標(biāo);MAE 和RMSE 均可以表示預(yù)測人數(shù)與真實(shí)人數(shù)的差異程度,但是MAE 通常用來評估模型的準(zhǔn)確性,而RMSE通常用來度量被評估模型的魯棒性。MAE 和RMSE 的值越小,表示模型性能越好,其計(jì)算方法如式(6)和式(7)所示:
其中,N為數(shù)據(jù)集圖像總數(shù);Ci為第i張圖片的預(yù)測人數(shù);為第i張圖片的真實(shí)人數(shù)。
4.2.1 ShanghaiTech數(shù)據(jù)集
ShanghaiTech[5]是一個(gè)大型的人群計(jì)數(shù)數(shù)據(jù)集,共標(biāo)注了1 198 幅圖像,人頭總數(shù)為330 165 個(gè)。按照數(shù)據(jù)來源和場景稀疏程度劃分,可分為Part_A 和Part_B 這兩部分,其中Part_A 隨機(jī)采集自互聯(lián)網(wǎng),人群分布較為密集,共有300幅圖像作為訓(xùn)練集,182幅圖像作為測試集;而Part_B 采集自上海市的部分監(jiān)控視頻,人群分布較為稀疏,有400 幅圖像作為訓(xùn)練集,316幅圖像作為測試集。該數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同計(jì)數(shù)方法在ShanghaiTech數(shù)據(jù)集上的性能比較Table 2 Performance comparison of different methods on ShanghaiTech dataset
與已有算法相比,CSANet 在Part_A 上的性能指標(biāo)MAE與RMSE均達(dá)到了最優(yōu)值,而在Part_B上,性能僅次于SFANet??倱p失變化趨勢如圖5 所示,訓(xùn)練之初由于隨機(jī)程度較高,損失較大,但是隨著模型不斷迭代訓(xùn)練,損失呈現(xiàn)明顯的下降趨勢并趨于穩(wěn)定;Part_A 部分在整體可控范圍內(nèi)波動(dòng),Part_B 部分在400次迭代之后基本達(dá)到了穩(wěn)定狀態(tài)。
圖5 ShanghaiTech數(shù)據(jù)集訓(xùn)練過程Fig.5 Training process on ShanghaiTech dataset
4.2.2 UCF_QNRF數(shù)據(jù)集
UCF_QNRF[29]是一個(gè)挑戰(zhàn)性極大的數(shù)據(jù)集,場景豐富且人群分布雜亂,共標(biāo)注了1 535 幅圖像,其中訓(xùn)練集有1 201 幅圖像,測試集有334幅圖像,標(biāo)注總?cè)藬?shù)達(dá)到了1 251 642。
表3顯示了各種人群計(jì)數(shù)算法在UCF_QNRF 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。由表3 可見,CSANet 網(wǎng)絡(luò)的兩個(gè)性能指標(biāo)MAE 和RMSE 均為最優(yōu),證明CSANet模型在跨場景計(jì)數(shù)時(shí)具有較好的性能。CSANet 的訓(xùn)練損失曲線如圖6 所示,前500 次迭代的波動(dòng)較大,500次后逐漸趨于穩(wěn)定。
圖6 UCF_QNRF數(shù)據(jù)集訓(xùn)練過程Fig.6 Training process on UCF_QNRF dataset
表3 不同計(jì)數(shù)方法在UCF_QNRF數(shù)據(jù)集上的性能比較Table 3 Performance comparison of different methods on UCF_QNRF dataset
4.2.3 UCF_CC_50數(shù)據(jù)集
UCF_CC_50數(shù)據(jù)集[33]中的圖像全部采集自互聯(lián)網(wǎng),其場景包括音樂會(huì)、游行示威等人群高度密集的場合,總共有50幅不同分辨率、不同視角拍攝的極度密集圖像,共標(biāo)注人頭數(shù)量為63 974 個(gè),每幅圖像標(biāo)注人數(shù)從最低94人到最高4 543 人不等,平均每張圖片標(biāo)注的人頭數(shù)為1 280 個(gè),其數(shù)量遠(yuǎn)超其他人群計(jì)數(shù)數(shù)據(jù)集。數(shù)據(jù)集使用5折標(biāo)準(zhǔn)交叉驗(yàn)證訓(xùn)練,實(shí)驗(yàn)結(jié)果如表4所示。由表4可見,即使是在極端密集的場景中,CSANet 網(wǎng)絡(luò)的計(jì)數(shù)準(zhǔn)確性和魯棒性依然優(yōu)于已有模型。
表4 不同計(jì)數(shù)方法在UCF_CC_50數(shù)據(jù)集上的性能比較Table 4 Performance comparison of different methods on UCF_CC_50 dataset
4.2.4 實(shí)驗(yàn)結(jié)果可視化分析
為了更好地說明模型的預(yù)測效果,本小節(jié)展示了CSANet網(wǎng)絡(luò)在不同數(shù)據(jù)集上預(yù)測的部分密度圖,如圖7 所示。其中,第1 行圖片選自ShanghaiTechPart_A測試集,代表了高度擁擠和嚴(yán)重背景干擾場景的預(yù)測效果;第2行圖片選自ShanghaiTech Part_B測試集,表示了在正常街道中,人群分布不均時(shí)的預(yù)測效果;第3行為UCF_QNRF測試集圖片,來自一個(gè)游行集會(huì)場景。由絕大多數(shù)場景的可視化表現(xiàn)可知,CSANet 模型生成的人群分布密度圖非常接近真實(shí)的人群分布密度圖,說明CSANet具有良好的多尺度特征提取能力和背景噪聲抑制能力。
圖7 結(jié)果可視化Fig.7 Result visualization
為了驗(yàn)證CSANet 網(wǎng)絡(luò)中各模塊的有效性,在ShanghaiTech數(shù)據(jù)集上做了相關(guān)的消融實(shí)驗(yàn),結(jié)果如表5所示。
表5 ShanghaiTech數(shù)據(jù)集消融實(shí)驗(yàn)Table 5 Ablation study on ShanghaiTech dataset
主干網(wǎng)絡(luò)為CSANet網(wǎng)絡(luò)中設(shè)計(jì)的編解碼部分,由表5 可見,其計(jì)數(shù)精度優(yōu)于絕大多數(shù)經(jīng)典計(jì)數(shù)網(wǎng)絡(luò),表現(xiàn)出了骨干網(wǎng)絡(luò)強(qiáng)大的特征提取能力。在融入通道與空間注意力模塊之后,CSANet網(wǎng)絡(luò)的計(jì)數(shù)效果顯著提升。本節(jié)還對消融實(shí)驗(yàn)的結(jié)果進(jìn)行了可視化,如圖8 所示。由圖8 可見,對于圖中紅色框中的背景區(qū)域部分,主干網(wǎng)絡(luò)已經(jīng)能夠獲得比較準(zhǔn)確的密度圖,但是經(jīng)過注意力前景增強(qiáng)和背景抑制之后可以看出,密度圖的前景部分更加顯著,背景誤差也相對減少。
圖8 消融實(shí)驗(yàn)結(jié)果可視化Fig.8 Visualization of ablation study results
本文提出了一種融合通道與空間注意力的編解碼人群計(jì)數(shù)網(wǎng)絡(luò)CSANet。該模型能夠以端到端的形式進(jìn)行訓(xùn)練,整體采用了編解碼結(jié)構(gòu)以提取多尺度特征和充分融合空間上下文信息,并加以通道與空間注意力模塊來提升前景行人區(qū)域的權(quán)重,并抑制弱相關(guān)背景特征,以此生成高質(zhì)量的密度圖。經(jīng)過實(shí)驗(yàn)分析,證明CSANet網(wǎng)絡(luò)具有良好的準(zhǔn)確性與魯棒性。未來的工作中,將考慮如何采用可形變卷積等方面,更加準(zhǔn)確地聚焦人群區(qū)域,以進(jìn)一步提高人群計(jì)數(shù)的精度。