姜建勇,吳 云,龍慧云,黃自萌,藍(lán) 林
(貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽(yáng) 550025)
行人檢測(cè)作為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)[1],在車(chē)輛高級(jí)駕駛輔助系統(tǒng)、視頻監(jiān)控、安全檢查以及反恐防暴等方面有著重要應(yīng)用。在過(guò)去的幾十年中,研究人員針對(duì)行人檢測(cè)問(wèn)題做了大量研究并取得一系列成果。行人檢測(cè)方法主要分為基于人工設(shè)計(jì)特征和基于神經(jīng)網(wǎng)絡(luò)特征的2 種檢測(cè)方法。
傳統(tǒng)的檢測(cè)器多數(shù)使用HOG 方法進(jìn)行檢測(cè),如文獻(xiàn)[2]通過(guò)改進(jìn)HOG 并且聯(lián)合使用SVM 進(jìn)行行人檢測(cè)。在傳統(tǒng)的檢測(cè)方法中,需要人工手動(dòng)去提取圖像特征,使得檢測(cè)模型存在可擴(kuò)展性、泛化能力差以及計(jì)算速度慢等問(wèn)題。
隨著在機(jī)器視覺(jué)中使用深度學(xué)習(xí),研究人員開(kāi)始尋找深度學(xué)習(xí)方案來(lái)解決目標(biāo)檢測(cè)問(wèn)題。R-CNN[3]提出結(jié)合深度學(xué)習(xí)的方法解決對(duì)象檢測(cè)的問(wèn)題,后續(xù)很多兩階段的方法都是基于R-CNN[3]去構(gòu)建的,如Fast-RCNN[4]、Faster-RCNN[5]等。在行人檢測(cè)上,如文獻(xiàn)[6]使用更為快速的Faster-RCNN[5]進(jìn)行行人檢測(cè),在Caltech 數(shù)據(jù)集上比其他傳統(tǒng)方法更為準(zhǔn)確和快速,文獻(xiàn)[7]使用單階段式網(wǎng)絡(luò)YOLO[8-10]進(jìn)行行人檢測(cè),在INRIA 數(shù)據(jù)集上取得比傳統(tǒng)方法更好的準(zhǔn)確度。雖然Faster-RCNN 在RCNN 的基礎(chǔ)上改進(jìn)了很多組件,使得在準(zhǔn)確度和速度上有了很大的提升,速度能夠達(dá)到20 frame/s,但運(yùn)用在實(shí)時(shí)檢測(cè)中效果還不是很理想。而單階段網(wǎng)絡(luò)YOLO[8-10]在速度上很快,但是準(zhǔn)確度距離Faster-RCNN 相差較大。
CenterNet[11]與R-CNN[3]相比,不需要區(qū)域建議網(wǎng)絡(luò)以及ROI 等重要組件,而與YOLO[8]和SSD[12]相比,則無(wú)需預(yù)先去設(shè)定Anchor 的大小,并且CenterNet 在推理階段不需要NMS(Non-Maximum Suppression)[13],因此在速度上有很大的提升。為了能夠平衡檢測(cè)的速度和準(zhǔn)確度,本文基于CenterNet,提出PD-CenterNet 改進(jìn)模型對(duì)行人進(jìn)行檢測(cè)。該模型通過(guò)融合低級(jí)語(yǔ)義信息來(lái)減少細(xì)節(jié)性信息在下采樣過(guò)程中丟失的問(wèn)題,并設(shè)計(jì)一個(gè)新的損失函數(shù)來(lái)解決正負(fù)樣本不平衡的問(wèn)題。
目標(biāo)檢測(cè)往往在圖像上將目標(biāo)以軸對(duì)稱(chēng)的框形式框出,成功的目標(biāo)檢測(cè)器都是先窮舉出潛在目標(biāo)位置,然后對(duì)該位置進(jìn)行分類(lèi),但這種做法浪費(fèi)時(shí)間、低效、需要額外的后處理。PD-CenterNet 在構(gòu)建模型時(shí)將目標(biāo)作為一個(gè)點(diǎn),即目標(biāo)BBox(Bounding Box)的中心點(diǎn),檢測(cè)器能夠通過(guò)特征圖的相對(duì)位置來(lái)估計(jì)出BBox 的中心點(diǎn)和尺寸。本文設(shè)計(jì)的PDCenterNet 主要由網(wǎng)絡(luò)結(jié)構(gòu)、Anchor 和損失函數(shù)3 個(gè)部分構(gòu)成,下文將圍繞這3 個(gè)方面進(jìn)行介紹。
PD-CenterNet 由主干網(wǎng)絡(luò)、上采路徑和網(wǎng)絡(luò)頂端2 個(gè)卷積組成,如圖1(b)所示。由于在目標(biāo)檢測(cè)中,感受野的大小在很大程度上直接影響檢測(cè)的效果,因此本文通過(guò)主干網(wǎng)絡(luò)來(lái)獲取一個(gè)1/32 的特征圖,編碼高層的語(yǔ)義信息。其中向下箭頭表示下采樣過(guò)程,向上箭頭表示上采樣過(guò)程。
圖1 CenterNet 和PD-CenterNet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of CenterNet and PD-CenterNet
在網(wǎng)絡(luò)結(jié)構(gòu)上,使用主干網(wǎng)絡(luò)和上采路徑的設(shè)計(jì)方式能夠?yàn)檎麄€(gè)模型帶來(lái)很好的可擴(kuò)展性,通過(guò)主干網(wǎng)絡(luò)可切換為MobileNet[14]、ResNet18[15]、Xception[16]、ShuffleNet[17]等輕量級(jí)網(wǎng)絡(luò)即可獲得更快的速度,也可切換至ResNet101[15]、GoogLeNet[18]、DenseNet[19]等較大的網(wǎng)絡(luò)來(lái)獲取更高的準(zhǔn)確度。
在上采路徑上,BiSeNet[20]指出在特 征表示的層面上,低層和高層的特征表示不同,僅以通道來(lái)連接低層和高層特征,則就會(huì)帶來(lái)很多噪音,所以本文設(shè)計(jì)了一個(gè)特征融合模塊(FFM)來(lái)融合低層豐富的空間信息和高層的語(yǔ)義信息,如圖2 所示。在特征融合模塊中,首先將高層特征進(jìn)行上采至低層特征圖一致的大小,然后按通道進(jìn)行連接,后面緊接一個(gè)深度可分離卷積來(lái)學(xué)習(xí)通道上每一層的表示,最后使用類(lèi)似于SENet[21]的通道特征注意力機(jī)制,把相連接的特征使用全局平均池化為一個(gè)特征向量,并學(xué)習(xí)出一個(gè)權(quán)重向量,然后對(duì)先前的特征進(jìn)行加權(quán),增強(qiáng)了低層和高層特征融合之后的表示能力,同時(shí)也減少了特征融合之后帶來(lái)的噪音。
圖2 特征融合模塊Fig.2 Feature fusion module
在網(wǎng)絡(luò)頂端分別使用2 個(gè)卷積用來(lái)預(yù)測(cè)類(lèi)別置信度、BBox 的位置和尺寸信息。
通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),使得模型的網(wǎng)絡(luò)參數(shù)和計(jì)算量大幅減少。尤其將MobileNet[14]作為主干網(wǎng)絡(luò)時(shí)使得模型的參數(shù)減少了50%,降低了計(jì)算量,在以ResNet[15]作為主干網(wǎng)絡(luò)時(shí)參數(shù)量和計(jì)算量也得到了很大的降低,具體的信息如表1 所示。
表1 模型參數(shù)及數(shù)量Table 1 Model parameters and quantity
在訓(xùn)練時(shí)獲得網(wǎng)絡(luò)輸出的類(lèi)別置信度和BBox后,需要用BBox 去匹配GT BBox,在這個(gè)過(guò)程中,BBox 即為Anchor BBox。標(biāo)準(zhǔn)的Anchor 設(shè)計(jì)了在低分辨率特征圖中一系列固定的BBox,通過(guò)計(jì)算交并比(IoU)來(lái)判斷是否為正樣本,若交并比大于0.7 則標(biāo)記為正樣本,若小于0.3 則標(biāo)記為負(fù)樣本。而本文則將對(duì)象的中心點(diǎn)在低分辨率上所對(duì)應(yīng)BBox 作為正樣本,其他沒(méi)有包含對(duì)象中心點(diǎn)的標(biāo)記為負(fù)樣本,并且一個(gè)中心點(diǎn)僅檢測(cè)一個(gè)對(duì)象,如圖3所示。
圖3 PD-CenterNet Anchor 的設(shè)計(jì)Fig.3 Design of PD-CenterNet Anchor
基于圖3 所示的設(shè)計(jì),網(wǎng)絡(luò)只需要預(yù)測(cè)在某一個(gè)單元格內(nèi)的偏移即可。對(duì)于網(wǎng)絡(luò)輸出的每一個(gè)BBox 為(px,py,pw,ph),其中:(px,py)為BBox 的中心點(diǎn)位置;(pw,ph)為BBox 的寬和高。如果該單元格對(duì)應(yīng)于圖像單元格左上角的坐標(biāo)為(tx,ty),則最后預(yù)測(cè)的BBox 為(bx,by,bw,bh),計(jì)算公式如下:
PD-CenterNet 由BBox 的中心點(diǎn)、BBox 尺寸和BBox 類(lèi)別置信度3 個(gè)部分損失構(gòu)成,計(jì)算公式如下:
其中:Ldet為總損失;Lk為BBox 類(lèi)別置信度損失;Lsize為BBox 尺寸損失;Lk為置信度損失;Loff為中心點(diǎn)損失。由于模型的輸入是300×300,因此最終得到一個(gè)75×75 的一個(gè)特征圖,并且模型一個(gè)特征點(diǎn)僅預(yù)測(cè)一個(gè)對(duì)象,極端情況下會(huì)出現(xiàn)1∶5 625 的正負(fù)樣本極度不平衡,所以,本文設(shè)計(jì)一個(gè)損失函數(shù)來(lái)解決這個(gè)問(wèn)題。
在類(lèi)別置信度損失中,本文設(shè)計(jì)α、γ、δ3 個(gè)影響因子提高正樣本的損失和減小負(fù)樣本的損失以解決正負(fù)樣本不平衡的問(wèn)題,定義如式(8)~式(10)所示:
在負(fù)樣本損失中通過(guò)設(shè)置δ和γ12 個(gè)因子來(lái)減小負(fù)樣本的損失,定義見(jiàn)式(9),在正樣本損失中通過(guò)γ2進(jìn)行調(diào)節(jié),定義見(jiàn)式(10),最后通過(guò)α因子來(lái)控制正樣本和負(fù)樣本損失所占的比例。通過(guò)對(duì)損失函數(shù)中的α1、α2、γ1、γ2、δ使用網(wǎng)格搜索得到最佳的一組參數(shù),如表2 所示。
表2 損失函數(shù)參數(shù)值Table 2 Loss function parameter value
本文對(duì)殘差網(wǎng)絡(luò)(ResNet[15])進(jìn)行修改以適應(yīng)PD-CenterNet。選取 ResNet[15]網(wǎng)絡(luò)中“l(fā)ayer2”“l(fā)ayer3”和“l(fā)ayer4”的輸出分別作為“8×”“16×”和“32×”的特征圖,然后通過(guò)特征融合模塊來(lái)對(duì)這3 個(gè)特征圖進(jìn)行融合,接著在融合后“8×”倍的特征圖上通過(guò)反卷積上采到“4×”,最后通過(guò)網(wǎng)絡(luò)頂端的2 個(gè)卷積來(lái)進(jìn)行類(lèi)別置信度和BBox 預(yù)測(cè)。
MobileNet 專(zhuān)注于移動(dòng)端或者嵌入式設(shè)備中的輕量級(jí)CNN 網(wǎng)絡(luò),它使得推理速度能夠得到極大的提高。因此,修改MobileNet[12]作為本文模型的主干網(wǎng) 絡(luò),選 取MobileNet[12]中 第7 層、第14 層和最后 一個(gè)卷積層的輸出分別作為“8×”“16×”和“32×”的特征圖,然后通過(guò)上采路徑和2 個(gè)卷積來(lái)進(jìn)行類(lèi)別置信度和BBox 預(yù)測(cè)。
根據(jù)Anchor 的設(shè)計(jì),使得一個(gè)特征點(diǎn)僅能預(yù)測(cè)一個(gè)對(duì)象,如果一張圖像中有超過(guò)一個(gè)對(duì)象的中心點(diǎn)重疊,則導(dǎo)致模型存在漏檢。而由于在行人檢測(cè)中存在很多對(duì)象會(huì)存在中心點(diǎn)一致的問(wèn)題,因此在A(yíng)nchor 選擇時(shí),如果BBox 被占用,則選擇離中心點(diǎn)最近的BBox 來(lái)預(yù)測(cè)對(duì)象,這樣就避免了中心點(diǎn)重復(fù)的問(wèn)題,算法過(guò)程如下:
通過(guò)網(wǎng)絡(luò)的輸出得出B(W×H,4),其中B的寬和高在本文中為(75,75),第三維分別為BBox 的中心點(diǎn)位置(x,y)和大?。╳,h)。對(duì)于GT(Ground Truth)中的每一個(gè)Gi,計(jì)算其在特征圖大小為(W,H)的中心點(diǎn)位置(x,y),然后計(jì)算出(x,y)在B上的索引c(見(jiàn)算法1第5 行)。如果c不在正樣本集合A中,則將c添加到集合A中,否則計(jì)算出離c最近的一個(gè)點(diǎn)并添加到集合A中。最后通過(guò)構(gòu)建一個(gè)D集合,其中D的區(qū)間為[0,W×H],此時(shí)正樣本Anchor為B[A],負(fù)樣本Anchor為B[DA]。Anchor 選擇算法如算法1 所示。
訓(xùn)練使用分辨率為300 像素×300 像素的圖像作為輸入,對(duì)于輸入的圖像使用隨機(jī)翻轉(zhuǎn)、隨機(jī)縮放(0.5~1.5 的比例)、隨機(jī)裁剪和色彩抖動(dòng)做數(shù)據(jù)增強(qiáng),使用學(xué)習(xí)率為1e?4 的Adam[22]作為優(yōu)化器,使用批大小為4 訓(xùn)練80 輪,其中前5 輪使用線(xiàn)性學(xué)習(xí)率進(jìn)行預(yù)熱,后75 輪使用余弦退火算法來(lái)對(duì)學(xué)習(xí)率進(jìn)行衰減,如圖4 所示。
圖4 學(xué)習(xí)率衰減Fig.4 Decline of learning rate
在推理階段不使用數(shù)據(jù)增強(qiáng),將輸入的圖片進(jìn)行等比例的縮放,其余的地方用0 進(jìn)行填充至300 像素×300 像素的輸入。目前大多數(shù)的目標(biāo)檢測(cè)模型都依賴(lài)于NMS[13]對(duì)模型最后輸入的BBox進(jìn)行篩選,由于NMS的時(shí)間復(fù)雜度為O(n2),因此使得在后處理階段變得更加耗時(shí)。結(jié)合本文模型的設(shè)計(jì),本文設(shè)計(jì)一種時(shí)間復(fù)雜度為O(n)的后處理算法,算法過(guò)程如下:
在模型的推理和模型的訓(xùn)練中規(guī)定類(lèi)別置信度第一個(gè)位置的值為背景的置信度,在推理時(shí)設(shè)置一個(gè)置信度閾值d用來(lái)過(guò)濾置信度低的BBox。當(dāng)獲得網(wǎng)絡(luò)輸出的預(yù)測(cè)框B和類(lèi)別置信度C時(shí),則需要遍歷每一個(gè)Bi所對(duì)應(yīng)的類(lèi)別置信度Ci,如果Ci的最大值位置為0 或者對(duì)象的置信度低于設(shè)置好的置信度閾值,那么就忽略該預(yù)測(cè)框,否則保存Bi和Ci作為最好的輸出,最后將面積特別小的預(yù)測(cè)框移除,以及將預(yù)測(cè)框超出圖像范圍的區(qū)域裁剪掉,最終的輸出即為對(duì)行人的檢測(cè)以及置信度,具體的實(shí)現(xiàn)如算法2 所示。
實(shí)驗(yàn)使用INRIA 行人數(shù)據(jù)集,它是當(dāng)前使用較為廣泛的靜態(tài)行人檢測(cè)數(shù)據(jù)集[23],具有拍攝條件多樣化、背景復(fù)雜、存在人體遮擋以及光線(xiàn)強(qiáng)度變化大等情況。
實(shí)驗(yàn)使用的深度學(xué)習(xí)框架為PyTorch,模型中的主干網(wǎng)絡(luò)ResNet 和MobileNet 均來(lái)自于torchvision 的實(shí)現(xiàn),實(shí)驗(yàn)使用的GPU 為T(mén)esla P100 16G 型號(hào)。
本文通過(guò)比較改進(jìn)后的主干網(wǎng)絡(luò)和損失函數(shù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)采用不同的IoU 閾值計(jì)算平均精度(AP)去評(píng)價(jià)預(yù)測(cè)的結(jié)果,IoU 閾值的選取分別為0.50~0.95(AP)、0.5(AP50)和0.75(AP75)。
實(shí)驗(yàn)將原有的CenterNet、改進(jìn)后的PD-CenterNet和損失函數(shù)進(jìn)行對(duì)比,在實(shí)驗(yàn)中使用輕量級(jí)主干網(wǎng)絡(luò)MobileNet 和較大的ResNet 作為主干網(wǎng)絡(luò)進(jìn)行不同的實(shí)驗(yàn)。
第1 組實(shí)驗(yàn)使用原有的CenterNet 和Focal Loss 損失函數(shù),并在MobileNet 和ResNet 上進(jìn)行實(shí)驗(yàn),如表3所示。
表3 CenterNet 網(wǎng)絡(luò)和Focal loss 函數(shù)Table 3 CenterNet network and Focal Loss function %
第2組實(shí)驗(yàn)使用CenterNet來(lái)預(yù)測(cè)BBox和置信度,在訓(xùn)練時(shí)使用改進(jìn)后的損失函數(shù)來(lái)計(jì)算損失,如表4所示。
表4 CenterNet 網(wǎng)絡(luò)和改進(jìn)的損失函數(shù)Table 4 CenterNet network and improved loss function %
第3 組實(shí)驗(yàn)使用改進(jìn)后的預(yù)測(cè)網(wǎng)絡(luò)PD-CenterNet來(lái)預(yù)測(cè)BBox 和置信度,在訓(xùn)練時(shí)使用Focal Loss 來(lái)計(jì)算損失,如表5 所示。
表5 PD-CenterNet 網(wǎng)絡(luò)和Focal loss 函數(shù)Table 5 PD-CenterNet letwork and Focal Loss function %
第4 組實(shí)驗(yàn)使用改進(jìn)后的預(yù)測(cè)網(wǎng)絡(luò)PD-CenterNet來(lái)預(yù)測(cè)BBox 和置信度,在訓(xùn)練時(shí)使用改進(jìn)后的損失函數(shù)來(lái)計(jì)算損失,如表6 所示。
表6 PD-CenterNet 網(wǎng)絡(luò)和改進(jìn)后的損失函數(shù)Table 6 PD-CenterNet network and improved loss function %
本文改進(jìn)的PD-CenterNet 相對(duì)于CenterNet 在準(zhǔn)確度上有了明顯的提升,最高提升了9.81%,如圖5 所示。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)由于使用了特征融合模塊,所以在A(yíng)P50 準(zhǔn)確度上提高了5.1%(見(jiàn)表3、表5),在A(yíng)P準(zhǔn)確度上提高了1.23%,在A(yíng)P75 準(zhǔn)確度提高了0.39%;改進(jìn)后的損失函數(shù)也相對(duì)于Focal Loss 函數(shù)[24]在使用ResNet18作為主干網(wǎng)絡(luò)時(shí),AP50準(zhǔn)確度也提高了5.16%(見(jiàn)表3、表4),同時(shí)在A(yíng)P 和AP75 準(zhǔn)確度上也都有著明顯的提升。最終改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)在使用ResNet18 作為主干網(wǎng)絡(luò)時(shí)提升最大,在A(yíng)P50 準(zhǔn)確度提升了9.81%(見(jiàn)表3、表6),在A(yíng)P準(zhǔn)確度上提高了8.09%,在A(yíng)P75 準(zhǔn)確度上提高了20.35%。
圖5 模型準(zhǔn)確度比較Fig.5 Comparison of model accuracy
ResNet 在所有主干網(wǎng)絡(luò)中平均精度最高,但相對(duì)于MobileNet 作為主干網(wǎng)絡(luò)在速度上相對(duì)較慢。ResNet18速度在ResNet系統(tǒng)中最快,達(dá)到136 frame/s(圖6),在A(yíng)P50 準(zhǔn)確度上與ResNet50 和ResNet101持 平,但PD-CenterNet 在使用ResNet101 時(shí)AP 和AP75 最高。實(shí)驗(yàn)結(jié)果表明,主干網(wǎng)絡(luò)越大,則AP 和AP75 就越好,因此在對(duì)行人進(jìn)行檢測(cè)時(shí)也就更為準(zhǔn)確。
圖6 模型檢測(cè)速度比較Fig.6 Comparison of mode detectl speeds
MobileNet 相對(duì)于ResNet 在速度上優(yōu)勢(shì)更為明顯,能夠達(dá)到199 frame/s(圖6),但是在準(zhǔn)確度上低于ResNet,而改進(jìn)后的模型準(zhǔn)確度相比ResNet 提高了8.01%。
從上述實(shí)驗(yàn)結(jié)果可以看出,在網(wǎng)絡(luò)結(jié)構(gòu)中使用特征融合改進(jìn)后的PD-CenterNet,AP、AP50 以 及AP75 都具有較好的表現(xiàn);改進(jìn)后的損失函數(shù)也表現(xiàn)出了良好的結(jié)果。最終的檢測(cè)結(jié)果如圖7 所示,其中,第1 行為GT(Ground Truth),第2 行為模型預(yù)測(cè)的結(jié)果,在檢測(cè)結(jié)果中設(shè)置的置信度閾值為0.5。從圖7 可以看出,本文模型在大對(duì)象、小對(duì)象、對(duì)象重疊、密集對(duì)象等場(chǎng)景下仍然能獲得較好的結(jié)果。
圖7 行人檢測(cè)結(jié)果Fig.7 Pedestrian detection results
為平衡行人檢測(cè)速度和準(zhǔn)確度的問(wèn)題,本文提出一種基于CenterNet的行人檢測(cè)模型PD-CenterNet。在速度上設(shè)計(jì)一個(gè)輕量級(jí)特征融合模塊來(lái)減小網(wǎng)絡(luò)結(jié)構(gòu)中上采路徑的計(jì)算量,并在推理時(shí)降低后處理程序的時(shí)間復(fù)雜度。在準(zhǔn)確度上設(shè)計(jì)特征融合模塊對(duì)低層和高層特征進(jìn)行融合,并在損失函數(shù)中設(shè)計(jì)α、γ、δ3 個(gè)因子來(lái)改善正負(fù)樣本不平衡的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,該模型對(duì)行人檢測(cè)的AP50 準(zhǔn)確度為84.94%,檢測(cè)速度達(dá)到136 frame/s。本文在網(wǎng)絡(luò)設(shè)計(jì)時(shí)僅使用了2 個(gè)特征融合模塊,在小對(duì)象上的IoU 不是最優(yōu),因此提高小對(duì)象的IoU 將是下一步的主要工作。