王大正,張 濤
(江南大學 人工智能與計算機學院,江蘇 無錫 214122)
當前世界經(jīng)濟飛速發(fā)展且人口呈爆炸式增長,為了更好地保障社會治安,準確估計各類復雜場景中的人數(shù)并預測其分布趨勢變得尤為重要,特別是在監(jiān)控治安、智慧交通等視覺相關(guān)領(lǐng)域.因此,人群計數(shù)和密度估計作為最基本的人群分析方法在近幾年也得到了廣泛研究.
傳統(tǒng)的人群計數(shù)方法包含基于檢測的方法[1]和基于回歸的方法[2],分別通過檢測后計數(shù)和直接特征回歸來估計圖中總?cè)藬?shù),其在人群分布相對稀疏和均勻的場景下表現(xiàn)尚可,卻嚴重囿于密集場景下的人群遮擋問題和由相機視角造成的多尺度問題.此外,這些方法均僅使用計數(shù)標簽預測總?cè)藬?shù),并不關(guān)注人群的具體分布狀態(tài),這為各個場景下的人群狀態(tài)理解帶來了局限性.Pham等人[3]將圖片分塊,然后通過隨機森林方法學習每個塊的特征和塊中物體相對位置的映射,最后通過高斯核密度估計來生成密度圖.至此,人群計數(shù)開始由簡單的回歸問題逐漸演化為密度估計問題[4].近幾年卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)憑借其優(yōu)秀的表征能力在計算機視覺任務中大放異彩,為人群的分布預測奠定了技術(shù)基礎.Fu等人[5]首次使用CNN進行人群計數(shù),有效地提高了計數(shù)精度;Zhang等人[6]設計了一個多列卷積神經(jīng)網(wǎng)絡,通過3列不同大小的卷積核來控制感受野大小以學習不同尺度形態(tài)下的人頭特征,有效減少了因為透視或人頭遮擋對計數(shù)和密度估計造成的影響;Li等人[7]則使用空洞卷積代替上下采樣操作擴大網(wǎng)絡感受野,在特征學習過程中保留了更多的細節(jié)信息,不僅顯著提高了計數(shù)精度,還生成了更高質(zhì)量的密度估計圖.
然而上述介紹的都是基于單任務監(jiān)督的方法,這些方法一般僅生成人群密度估計圖,然后將其上所有像素相加得到人群總數(shù),或者直接計數(shù).此舉會導致最終的預測結(jié)果中不僅包含由人頭特征產(chǎn)生的正確預測,還包括背景區(qū)域上的誤判,這將對最終的計數(shù)結(jié)果產(chǎn)生不利影響[8].此外,基于多任務學習的計數(shù)方法證明了在不同任務中共享向量表達能夠讓模型的泛化效果顯著提升.Liu等人[9]針對人群密度問題將檢測方法和回歸方法結(jié)合到一起,并使用注意力模塊調(diào)整網(wǎng)絡參數(shù)在兩種模式中自動切換,以此來提升人群密度估計精度.Sam等人[10]采用模型增長的方式在訓練過程中自動劃分不同的密度等級,并生成一組不同的模型在特定的數(shù)據(jù)上訓練.由于其為基于分成聚類的模型,對于不同復雜度的數(shù)據(jù)集,也可以通過模型的調(diào)整和增長得到出色的結(jié)果.Shen等人[11]則充分利用對抗性損失來減弱密度圖估計的模糊效果,并提出交叉尺度一致性追求損失來限制不同尺度人群帶來的誤差,既增強了密度圖的清晰度,又提升了模型的計數(shù)性能.這些方法通過不同任務間的協(xié)作來分別提高網(wǎng)絡的計數(shù)精度和密度估計能力,然而其均采用多列結(jié)構(gòu),雖然在一定程度上提升了模型性能,卻付出了一定的空間代價,使得檢測效率不高.本文則傾向于使用單列結(jié)構(gòu),通過合理利用特征學習中不同階段語義的物理含義來自適應地尋找感興趣區(qū)域,在幾乎不增加參數(shù)的前提下提高網(wǎng)絡的計數(shù)能力和密度估計能力.
本文提出雙任務交互下的四段監(jiān)督網(wǎng)絡(Four-stage supervised crowd counting network,F2SNet),通過計數(shù)監(jiān)督、早期分布優(yōu)化、終期分布修正模塊和背景抑制有效兼顧了計數(shù)準確性和密度估計圖的分布一致性.Shanghai Tech[6]、UCF-CC-50[12]、UCF-QNRF[13]及JHU-CROWD++[14]4個常用人群數(shù)據(jù)集的實驗結(jié)果也充分證明了所提方法的有效性.
雙任務交互下的四段監(jiān)督人群計數(shù)網(wǎng)絡(F2SNet)的具體結(jié)構(gòu)如圖1所示,其由主干網(wǎng)絡、計數(shù)監(jiān)督、早期分布優(yōu)化、終期分布修正模塊以及背景抑制5個部分組成.其中,主干網(wǎng)絡使用具有良好遷移能力和學習能力的VGG19前16層卷積層提取基礎人頭特征,并且為了在保留更多細節(jié)的前提下學習人頭特征的不同尺度形態(tài),使用膨脹率為2的空洞卷積代替原結(jié)構(gòu)中的一組下采樣上采樣操作.計數(shù)監(jiān)督用來直接預測圖片總?cè)藬?shù),并生成評估各個位置上特征對計數(shù)任務重要程度的人群響應圖來鎖定人群區(qū)域,其不考慮人群具體分布情況,僅從計數(shù)的角度來約束預測值與人數(shù)標簽之間的誤差,以提升網(wǎng)絡的計數(shù)準確性.早期分布優(yōu)化關(guān)注了淺層網(wǎng)絡對人頭特征的學習情況和早階段分布預測的準確性,有效緩解了低級特征對后期計數(shù)的干擾.終期分布修正模塊在網(wǎng)絡進一步擴大感受野并使用高頻語義信息對預測圖加權(quán)后再一次監(jiān)督人群的分布預測.背景抑制監(jiān)督懲罰了最終密度估計圖在背景區(qū)域上的誤判,以獲得更準確的密度分布估計和更干凈的人群密度估計圖.4個部分將協(xié)同工作,利用網(wǎng)絡中不同階段語義信息的特性來自適應地鎖定感興趣區(qū)域,分別從計數(shù)準確度、分布一致性和背景誤判三方面來監(jiān)督網(wǎng)絡訓練,彼此獨立工作卻又相互約束,計數(shù)監(jiān)督所產(chǎn)生的人群響應圖將放大感興趣區(qū)域特征在密度估計任務中的貢獻度,同時,對密度估計圖分布的監(jiān)督也將幫助人群響應圖更好地鎖定前景區(qū)域.
圖1 F2SNet結(jié)構(gòu)Fig.1 Overall structure of F2SNet
2.2.1 計數(shù)監(jiān)督
人群計數(shù)任務最直接的目標是準確預測圖片中的總?cè)藬?shù).計數(shù)層用特征回歸的方法來尋找分辨力強的人群區(qū)域.將終期中間特征圖Ff使用1×1卷積處理為單通道密度圖作為用于計數(shù)的人群響應圖Pc,如公式(1)所示:
Pc=conv1512(Ff)
(1)
其中conv1512(Ff)為通道數(shù)為512的1×1卷積.人群響應圖Pc為人群圖片經(jīng)過層層學習后在最大感受野下所呈現(xiàn)的抽象的高級特征,其為特征提取器所篩選過的對最終計數(shù)任務非常重要的深層語義信息,反映了網(wǎng)絡對原人群圖片整體的理解情況.將人群區(qū)域響應圖中所有像素值之和作為對原圖中總?cè)藬?shù)的預測,具體計數(shù)損失函數(shù)Lcs定義為公式(2):
(2)
由于人群響應圖為高級語義特征與人數(shù)標簽之間映射,其像素值之間的差異諭示了不同位置特征對最終計數(shù)結(jié)果的貢獻,也暗示了不同區(qū)域特征對計數(shù)任務的重要程度.人群響應圖在原圖上的對應如圖2所示,可以看到在經(jīng)過多層卷積核過濾后,人群響應圖可以將人群區(qū)域從背景中甄別出來,但是會不可避免地產(chǎn)生一些來自背景噪聲的錯誤預測,如圖2(c)方框標識區(qū)域所示,這將會補償網(wǎng)絡對前景的預測不足,從而影響計數(shù).因此,為了進一步強調(diào)人群區(qū)域,同時使對人數(shù)的預測更多來自于人頭特征,提出前景突出損失函數(shù)來監(jiān)督標注點位置的預測,其定義如公式(3)所示:
(3)
其中人群響應圖與分布標簽的乘積界定了網(wǎng)絡前景像素點上的預測,監(jiān)督前景預測將會提高網(wǎng)絡對前景區(qū)域的關(guān)注度,從而增強該區(qū)域特征對計數(shù)的響應能力.在計數(shù)損失函數(shù)的基礎上,前景關(guān)注損失將使得預測點凝聚在前景區(qū)域,從而有效減少背景噪聲對計數(shù)的干擾.
圖2 人群區(qū)域響應圖在原圖上的對應Fig.2 Correspondence of crowd response map on the original image
此外,人群響應圖在人群越密集的區(qū)域?qū)A測值越大,在分布相對稀疏的地方的預測則較為發(fā)散,這意味著其強調(diào)了密集區(qū)域.人群響應圖作為高級語義特征與計數(shù)標簽的直接映射結(jié)果,體現(xiàn)了網(wǎng)絡對原人群圖片的理解,暗示了不同特征對預測結(jié)果的重要性,同時給出了前景和背景的概念.在后續(xù)對早期分布以及終期分布的監(jiān)督中,將使用人群響應圖對其進行加權(quán)調(diào)整,突出關(guān)鍵信息并著重關(guān)注密集場景下的預測,以得到更清晰準確的人群密度估計圖.
2.2.2 早期分布優(yōu)化
在基于CNN的人群計數(shù)方法中,模型性能主要取決于特征提取器對目標信息的表征能力,即其所提取的特征的質(zhì)量.特別是在感興趣目標不突出且缺乏細節(jié)的人群計數(shù)任務中,對人頭特征的理解水平將直接影響計數(shù)精度和預測分布準確度.
為了提高網(wǎng)絡對人頭信息的理解能力,提出早期分布優(yōu)化來監(jiān)督淺層網(wǎng)絡對人群分布的預測,使得其能在感受野受限情況下更早地聚焦前景,從而突出人頭特征.如圖1所示,首先使用1×1卷積將早期特征提取過程中產(chǎn)生的中間特征圖Fe處理為單通道的早期中間密度圖Pe_mid,Pe_mid為由淺層網(wǎng)絡提取的低級特征所映射的、對人群密度分布預測的呈現(xiàn),反映了早階段下對人群概念的理解情況.其次,將Pe_mid與體現(xiàn)不同區(qū)域信息重要程度的人群響應圖Pc進行逐像素相乘重新調(diào)整特征權(quán)重,生成早期密度估計圖Pe,具體操作如公式(4)所示:
Pe=conv1512(Fe)?Pc
(4)
其中conv1512同樣為通道數(shù)為512的1×1卷積,為像素級乘法.
使用早期分布優(yōu)化損失函數(shù)Led來優(yōu)化早期密度估計圖Pe的分布,其由像素級歐氏距離定義,具體如公式(5)所示:
(5)
Pei為早期密度估計圖上的每個像素值,gti為人群分布標簽在對應位置上的真實人數(shù),為了與預測圖大小保持一致,所有參與計算的分布標簽均為原標簽3次下采樣操作后所得.早期分布優(yōu)化損失函數(shù)約束了淺層網(wǎng)絡對人群的密度估計與實際分布之間的一致性,在關(guān)注淺層網(wǎng)絡對關(guān)鍵特征的學習情況的同時,自適應地重新校準了人群響應圖中對不同區(qū)域特征的響應,幫助網(wǎng)絡更準確地鎖定人群區(qū)域,并且促使由早期分布產(chǎn)生的梯度更多地來自于難例像素區(qū)域,以進一步減少背景誤判.
對早期分布的監(jiān)督能夠幫助網(wǎng)絡提升其在早期階段對人頭與背景信息的辨別力,從而將后續(xù)的參數(shù)和計算力用于進一步探尋關(guān)鍵特征區(qū)域以及細化修正人頭點分布.同時,對淺層網(wǎng)絡的優(yōu)化同樣能夠提升計數(shù)網(wǎng)絡的魯棒性,減少人體軀干信息及復雜背景對計數(shù)的干擾,使得人群響應圖中預測值更多來自于人頭特征,從而減少背景區(qū)域誤判對前景預測不足的補償,進而提升網(wǎng)絡的計數(shù)能力.
值得一提的是,相比于整個網(wǎng)絡,早期分布優(yōu)化模塊只是一個很小的組成部分,只增添了極小的參數(shù)量,卻明顯提高了計數(shù)精度.同時,對淺層網(wǎng)絡的監(jiān)督也避免了訓練過程中的梯度消失以及收斂過慢問題.
2.2.3 終期分布修正
在網(wǎng)絡使用空洞卷積擴大感受野之后,終期分布修正模塊將進一步整合高級語義信息來鎖定人頭位置.相比于早期階段由低級特征產(chǎn)生的對人群密度的估計,終期的分布預測則來源于象征語義的高級特征,對圖片中所包含的人群信息有了更深層的理解,其由終期中間特征圖Ff學習而來,如公式(6)所示:
Pfmid=conv1128(conv3128(conv3256(Ff)))
(6)
其中conv1128為通道數(shù)為128的1×1卷積,conv3128和conv3256分別為通道數(shù)為128和256的3×3卷積.終期密度估計圖Pf_mind展示了更深層次網(wǎng)絡對人頭特征的理解,對其進行分布一致性監(jiān)督則幫助網(wǎng)絡對圖中的人群結(jié)構(gòu)和分布狀態(tài)有更全面和直接的把握.終期密度估計圖Pf_mind還進一步強調(diào)了關(guān)鍵特征和人群在不同區(qū)域的密集程度,并且自主地分割了前背景區(qū)域,進一步減少了密度圖中很多由背景誤判產(chǎn)生的噪聲.對終期分布的修正由公式(7)定義:
(7)
Pfmidi為終期密度估計圖中的每個像素值,終期分布監(jiān)督損失Lfd同樣使用像素級的歐式距離來約束同分布標簽之間的一致性,且其在早期分布監(jiān)督的基礎上進一步細化修正了人頭預測的具體分布.相比于同樣來自于高級特征卻僅在圖片和前景區(qū)域?qū)用嫔嫌捎嫈?shù)標簽監(jiān)督的人群響應圖,終期密度估計圖強調(diào)了單獨的人的概念,其具體體現(xiàn)為即使是在存在嚴重遮擋現(xiàn)象、分布極其密集的區(qū)域,網(wǎng)絡的預測范圍也更加向標注點靠攏,減少了影響密度估計圖中標注點四周大量的小峰值預測,且其沒有忽略分散在稀疏場景下的個體,有效緩解了單張圖片中由于不同區(qū)域密度跨度過大而導致的漏判現(xiàn)象.
同樣,為了強調(diào)人群特征并抑制背景噪聲,通過將終期分布密度估計圖與人群響應圖逐像素相乘的方式調(diào)整不同特征在最終分布中所占的比重,以得到能更好的呈現(xiàn)重要區(qū)域的密度估計圖P,并將其作為最終反映人群分布情況的密度估計圖進行后續(xù)工作,如公式(8)所示:
P=Pfmid?Pc
(8)
2.2.4 背景抑制
為了進一步抑制圖片中復雜的背景信息對計數(shù)和密度估計的干擾,同時生成能更準確呈現(xiàn)人群分布的預測圖,本文還對最終輸出的密度估計圖進行了背景誤判抑制處理.
與前景專注損失函數(shù)設計思路一致,背景損失函數(shù)將在分割預測圖中前背景區(qū)域的基礎上鎖定假陽性預測,通過懲罰非標注點區(qū)域的預測值總和來降低背景信息的響應,其具體定義如公式(9)所示:
(9)
其物理意義為密度估計圖減去前景點預測后的預測值總和,其不僅包括被誤判的背景預測,還包括未被標記區(qū)域人頭特征對計數(shù)的響應.因此,背景損失不僅能夠有效提高網(wǎng)絡對前背景的甄別能力,還能使標注點周邊區(qū)域的人頭預測值集中于標注區(qū)域,使得在人群嚴重擁擠區(qū)域和被遮擋所影響的預測更加明朗化.
在以上四段監(jiān)督中,計數(shù)層輸出的人群響應圖作為對原人群圖片中所有特征重要性的評估將貫穿并作用于各個環(huán)節(jié),且直接決定計數(shù)結(jié)果.其過濾了低級特征中的背景噪聲,提升了早期分布監(jiān)督對淺層網(wǎng)絡的分布修正能力.此外,人群響應圖還同樣為終期密度估計圖強調(diào)了人群區(qū)域,使得最終人群密度的呈現(xiàn)更加清晰明朗,尤其體現(xiàn)在在其所強調(diào)的密集區(qū)域.最終F2SNet的總體損失函數(shù)由公式(10)定義:
L=Lcs+Lf+Led+Lfd+Lbg
(10)
相比于堆疊卷積塊來完成各個任務,F2SNet更側(cè)重于充分利用不同階段下不同任務所學特征本身的物理含義,其對網(wǎng)絡計數(shù)能力以及密度估計能力的提升并沒有以參數(shù)量作為代價,恰恰相反,整個F2SNet的結(jié)構(gòu)相比于基礎特征提取器僅增加了兩個通道數(shù)為512、用于降維的1×1卷積.這體現(xiàn)了計數(shù)與密度估計雙任務交互協(xié)作的重要性.
本文在UCF-CC-50、Shanghai Tech、UCF-QNRF以及JHU-CROWD++這4個人群數(shù)據(jù)集上進行了實驗.UCF-CC-50是一個極其密集但樣本量非常小的數(shù)據(jù)集,每張圖片的人數(shù)從94~4543不等,平均為1280人,因此即使是最先進的模型在其上的計數(shù)結(jié)果也遠非最佳.Shanghai Tech是當前最常用的人群數(shù)據(jù)集,其樣本量和分辨率都相對較小.其它由1198張圖片和330165個注釋組成,并且根據(jù)不同的密度分布被分為Part A和Part B兩部分.Shanghai Tech Part A為高密度場景圖片.Part B中人群的分布則相對稀疏,因受相機視角的影響,人頭的比例跨度很大.UCF-QNRF和JHU-CROWD++為近幾年新公開的大規(guī)模數(shù)據(jù)集,其中所包含的數(shù)據(jù)更加豐富,同時涵蓋了人群計數(shù)中更大范圍的瓶頸問題.UCF-QNRF包括1535張具有挑戰(zhàn)性的高分辨率圖像和大約125萬個標簽,它涵蓋了人群計數(shù)中更廣泛的瓶頸問題,包含更多樣化的場景以及視角、密度和光照變化,內(nèi)容更加豐富.JHU-CROWD++則有更多的圖像和更豐富的不利因素,如基于天氣的退化和光照變化.有別于之前所有數(shù)據(jù)集,JHU_CROWD++給每個人頭提供了一套豐富的標簽,如頭部位置、遮擋級別、近似邊界框和其他圖像級別等.這兩者比之前的所有數(shù)據(jù)集均更全面、更有代表性,近年來也吸引了諸多研究者的關(guān)注.圖3展示了每個數(shù)據(jù)集中頗具有代表性的測試集人群圖像.
圖3 來自5個人群計數(shù)數(shù)據(jù)集的代表性示例Fig.3 Representative examples from five crowd counting datasets
本文采用人群計數(shù)中最通用的計數(shù)評價指標平均絕對誤差(Mean Absolute Error,MAE)和平均平方誤差(Root Mean Square Error,RMSE)來評估不同方法間的性能,其定義如公式(11)和公式(12)所示:
(11)
(12)
本文實驗均在顯卡配置為NVIDIA GTX 3090下的pytorch深度學習框架下運行.使用由ImageNet[15]預訓練的VGG19結(jié)構(gòu)作為基礎特征提取網(wǎng)絡.對于不同數(shù)據(jù)集的訓練周期均定為800代.訓練期間使用權(quán)重衰減為1×10-4的Adam優(yōu)化器優(yōu)化模型參數(shù).初始學習率為5×10-5,其將隨著迭代自適應地進行調(diào)整.本文取驗證集的最佳絕對誤差結(jié)果模型用于最終測試.
為了更充分地利用已有數(shù)據(jù)進行實驗,訓練圖像將被隨機裁剪和水平翻轉(zhuǎn)作為數(shù)據(jù)增強.與DM Count[16]中的設置一致,在投入網(wǎng)絡訓練之前,Shanghai Tech Part A和UCF-CC-50將被隨機裁剪成256×256分辨率的子圖,Shanghai Tech Part B和UCF-QNRF則被隨機裁出512×512,而JHU-CROWD++的裁剪尺寸為384×384,大小不足的圖像則按比例放大后再進行裁剪.
將F2SNet在各個數(shù)據(jù)集上的運行結(jié)果與近兩年來的優(yōu)秀方法進行了比較,結(jié)果如表1和表2所示.與同樣使用VGG19作為基礎特征提取網(wǎng)絡且使用點監(jiān)督的Bayesian Loss和DM Count相比,F2SNet均在各個數(shù)據(jù)集上獲得了更優(yōu)的計數(shù)結(jié)果,這意味著在同等參數(shù)量下F2SNet要更高效,且更能適應不同場景,具有更好的泛化能力.與近幾年的一些較好的方法比較,除了尺度跨度大且分布稀疏的Shanghai Tech Part B計數(shù)誤差比AutoScale高一些,其余均獲得更好的結(jié)果.這意味著所提的F2SNet在沒有使用更復雜結(jié)構(gòu)的前提下依然能擁有很好的計數(shù)能力,這也側(cè)面體現(xiàn)了使用雙任務交互模式監(jiān)督訓練對于準確計數(shù)的有效性.
表1 不同方法在Shanghai Tech和UCF-CC-50上的性能比較Table 1 Performance comparison of different methods on Shanghai Tech
表2 不同方法在UCF-QNRF和JHU-CROWD++上的比較Table 2 Comparison of different methods on UCF-QNRF and JHU-CROWD++
為了驗證F2SNet對于密度估計任務的有效性,在Shanghai Tech Part A上進行了密度估計圖質(zhì)量評估實驗,其結(jié)果如表3所示.本文采用衡量圖片間結(jié)構(gòu)相似性的SSIM指標和反映像素點誤差敏感度的PSNR指標來比較預測圖與分布標簽間的一致性,其值越高意味著預測圖與標簽越相似.由表3可見,F2SNet在兩項圖像質(zhì)量評價指標上均獲得了更好的性能,這意味著相比于其他方法,F2SNet所生成的密度估計圖能夠能好地擬合真實分布.
圖4展示了F2SNet所生成的密度估計圖的可視化結(jié)果,以顯示對人群密度分布的推理.這些圖像選自Shanghai Tech Part A中一些密集場景、人頭尺度跨度較大的場景以及缺乏顏色信息且人群分布稀疏的場景.由于主干網(wǎng)絡一致以及采用相同的點監(jiān)督形式,將預測圖與DM Count進行了比較.由圖4可見,不管是在人群分布較為密集的區(qū)域還是相對稀疏的區(qū)域,F2SNet對于人頭的預測均比DM Count要集中,且準確度更高.同時,由于更關(guān)注重要響應區(qū)域,因此即使是在人頭特征不充分且存在嚴重遮擋現(xiàn)象的分布極度密集的區(qū)域,F2SNet也能獲得更強調(diào)人頭作為單目標的概念,使得預測分布更加清晰明朗.體現(xiàn)了F2SNet對于不同密度區(qū)域很好的適應能力.
表3 各方法在Shanghai Tech Part A上的密度估計圖質(zhì)量比較Table 3 Comparison of density map of different methods on Shanghai Tech Part A
圖4 結(jié)果可視化Fig.4 Result visualization
從表4中可以看出,與參數(shù)量較少的模型相比,F2SNet的計數(shù)準確性得到顯著提高;與近幾年精度較高的方法相比,
表4 不同方法空間復雜度分析Table 4 Analysis of the space overhead of different methods
在保持參數(shù)量較小的情況下,F2SNet明顯取得了更好的效果.這體現(xiàn)了所提方法的有效性,并給出了一個很好的權(quán)衡,F2SNet有一個可比較的空間開銷,同時大大改善了人群計數(shù)的準確性.
為驗證四段監(jiān)督以及雙任務交互訓練對計數(shù)準確性和密度分布估計的有效性,在Shanghai Tech Part A上進行了一系列的消融實驗.其對應實驗結(jié)構(gòu)設計如圖5所示.首先將僅受計數(shù)標簽監(jiān)督所得的計數(shù)結(jié)果作為比較基準,隨后依次單獨驗證早期分布優(yōu)化模塊圖5(a)和終期分布細化模塊圖5(b)對計數(shù)及分布估計的重要性,再后驗證雙階段分布監(jiān)督的作用圖5(c),再后驗證背景抑制損失對密度估計圖中不同區(qū)域預測的修繕能力圖5(d),最后在計數(shù)層添加前景關(guān)注損失,來探索其對人群計數(shù)準確度及分布估計的作用圖5(e).不同結(jié)構(gòu)所對應的計數(shù)結(jié)果如表5所示.
圖5 四段監(jiān)督消融實驗不同結(jié)構(gòu)對應圖Fig.5 Diagrams corresponding to the different structures of the four-stage supervision ablation
表5 四段監(jiān)督消融實驗Table 5 Ablation experiments of four-stage supervision
由表5可見,對每個階段及任務的監(jiān)督均能有效提升網(wǎng)絡的計數(shù)能力,這意味著在監(jiān)督不同階段分布的同時也會調(diào)整計數(shù)層中人群響應圖上的權(quán)值分布,重新評判不同特征對于計數(shù)任務的貢獻度,每個結(jié)果的下標部分為相對于比較基準得到的精度提升.
為了體現(xiàn)其在特征提取過程中對人頭特征的掌控能力以及展示其各自對前景背景的甄別能力,將各個實驗各個階段所得的密度估計圖進行可視化,如圖6所示,其中和分別為4段監(jiān)督消融實驗中不同結(jié)構(gòu)下所產(chǎn)生的人群響應圖和最終密度估計圖的可視化結(jié)果,展示了訓練過程中不同階段下4段監(jiān)督模塊輸出的密度圖,分別為人群響應圖、早期分布估計圖、終期分布估計圖以及最終輸出的密度估計圖.由圖6可見,隨著對不同階段分布以及最終密度估計圖背景關(guān)注度的提升,僅用于計數(shù)的人群響應圖開始強調(diào)人頭的概念,提升了標注點四周特征的響應程度,減少了大量來自上下文信息的低峰值預測,能夠更好的為后續(xù)分布預測調(diào)整權(quán)重以及落點.由圖6(Ⅱ)可見,在監(jiān)督了不同階段分布以及背景誤判后,最終密度估計圖對人群的分布情況呈現(xiàn)的要更加清晰明朗,尤其體現(xiàn)在人群密集分布區(qū)域,這體現(xiàn)了不同監(jiān)督方式對于準確估計人群密度分布的能力.
圖6 消融實驗可視化Fig.6 Results of ablation study
本文提出了雙任務交互下的四段監(jiān)督人群計數(shù)網(wǎng)絡(F2SNet),雙任務交互是指計數(shù)和密度估計協(xié)同工作,在保證計數(shù)準確度的前提下,關(guān)注了人群的分布狀態(tài).四段監(jiān)督分別為計數(shù)監(jiān)督、早期分布優(yōu)化、終期分布修正和背景抑制,其分別從計數(shù)準確度、分布一致性和背景誤判三方面來監(jiān)督網(wǎng)絡訓練,彼此獨立工作卻又相互約束.F2SNet充分利用了不同階段下的特征語義信息,在幾乎不增加參數(shù)量的情況下大幅提高了計數(shù)精度,并生成了更高質(zhì)量的密度估計圖,尤其改善了極度密集區(qū)域的預測情況.實驗結(jié)果驗證了所提方法的有效性,并取得了與當前先進方法相比更具競爭力的結(jié)果.此外,實驗效果表明本文所提方法可以應對各種復雜場景,并且包含更小的參數(shù)量,因此可以考慮將來部署到街道人群聚集區(qū)域或商場的人群密度監(jiān)控等場景中.下一步,則考慮通過調(diào)整網(wǎng)絡對前背景預測的關(guān)注度來進一步緩解背景誤判,同時將考慮每個人頭的尺度大小并使用回歸框?qū)ζ溥M行定位.