翟明浩,張 威,黃子龍,劉 晨,李 巍,曹 毅
(1. 江南大學(xué) 機(jī)械工程學(xué)院, 江蘇 無錫 214122;2. 蘇州工業(yè)職業(yè)技術(shù)學(xué)院, 江蘇 蘇州 215104)
行人檢測旨在識別并定位圖像中的行人目標(biāo),是計算機(jī)視覺領(lǐng)域的一個重要研究方向,被廣泛應(yīng)用于自動駕駛汽車、交通安防、視頻監(jiān)控、智能機(jī)器人等領(lǐng)域[1],具有重要的研究意義。近年來,行人檢測技術(shù)受到國內(nèi)外學(xué)者的廣泛關(guān)注。目前,行人檢測方法主要有基于人工特征的檢測方法和基于深度學(xué)習(xí)的檢測方法兩大類[2]。
基于人工特征的行人檢測方法采用人工特征表征圖像,使用高質(zhì)量分類器實(shí)現(xiàn)行人檢測。Dalal等[3]提出方向梯度直方圖(histogram of oriented gradient,HOG)特征作為行人的特征表示,并使用支持向量機(jī)(support vector machine,SVM)分類器進(jìn)行分類,成為行人檢測領(lǐng)域的經(jīng)典方法。Felzenszwalb等[4]使用可形變部件模型(deformable parts model,DPM),結(jié)合Latent SVM,緩解遮擋問題,在保證實(shí)時性檢測的同時可提高檢測精度。Dollar等[5]提出聚合通道特征(aggregate channel feature,ACF)方法,提取多種通道特征構(gòu)成特征金字塔,并通過AdaBoost分類器檢測行人,極大地加快了行人檢測速度。但是,上述方法依賴手工設(shè)計的特征,其泛化能力和穩(wěn)健性較差,存在一定的局限性,對復(fù)雜場景下行人的表征能力不足。
近幾年,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)因其強(qiáng)大的特征表征能力和泛化能力,在圖像分類、目標(biāo)檢測、音頻分類[6]等領(lǐng)域取得突破性進(jìn)展。許多學(xué)者開始將CNN引入到行人檢測領(lǐng)域,基于深度學(xué)習(xí)的行人檢測方法逐漸成為主流。Ouyang等[7]提出JointDeep,將特征提取、變形處理、遮擋處理和分類等4部分結(jié)合在一起,形成一個聯(lián)合的深度學(xué)習(xí)框架,提高了行人檢測的精度。Paisitkriangkrai等[8]提出SpatialPooling,在深度CNN中使用空間池化進(jìn)行行人檢測,增強(qiáng)了行人檢測模型的穩(wěn)健性。Angelova等[9]提出一種基于級聯(lián)網(wǎng)絡(luò)的行人檢測方法DeepCascade,該方法將深度CNN與級聯(lián)分類器相結(jié)合,進(jìn)一步提升了行人檢測的準(zhǔn)確率。Zhang等[10]利用區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)生成候選區(qū)域,將提取出的特征輸入到增強(qiáng)森林(boosted forest,BF)分類器進(jìn)行分類,大幅度提高行人檢測的精度。Cai等[11]提出一種用于端到端行人檢測的多尺度卷積神經(jīng)網(wǎng)絡(luò)(multi-scale convolutional neural network,MSCNN),提高了小目標(biāo)行人檢測準(zhǔn)確率。Liu等[12]提出多階段檢測網(wǎng)絡(luò)ALFNet,利用漸近定位模塊獲取高質(zhì)量行人樣本,在精度和速度方面均取得很好的效果。
雖然近年來行人檢測方法已經(jīng)取得巨大的進(jìn)展,但由于在復(fù)雜場景下存在遮擋、光照變化、人體姿態(tài)變化、尺度等干擾因素,這些因素會導(dǎo)致行人目標(biāo)發(fā)生畸變,為行人檢測增加許多新挑戰(zhàn)。為改善復(fù)雜場景下遮擋行人和小尺寸行人的檢測效果,提出一種結(jié)合語義分割和特征融合的行人檢測方法:通過深度CNN提取特征,利用語義分割所得到的語義信息來輔助行人檢測,抑制遮擋因素對行人的干擾;通過特征融合實(shí)現(xiàn)不同卷積層的跳躍連接,融合不同層次特征,增強(qiáng)特征質(zhì)量,提高檢測精度,降低行人檢測的漏檢率;最后在行人檢測標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行試驗,驗證行人檢測方法的有效性。
提出的結(jié)合語義分割和特征融合的行人檢測方法如圖1所示,以區(qū)域全卷積神經(jīng)網(wǎng)絡(luò)(region-based fully convolutional networks,R-FCN)[13]為基礎(chǔ)框架,根據(jù)行人檢測任務(wù)進(jìn)行改進(jìn),由5部分組成:特征提取網(wǎng)絡(luò)、語義分割網(wǎng)絡(luò)、特征融合模塊、區(qū)域建議網(wǎng)絡(luò)、檢測網(wǎng)絡(luò)。
圖1 行人檢測總體框架Fig.1 The general framework of pedestrian detection
特征提取網(wǎng)絡(luò)能夠從原始圖像中提取出多層次的特征映射圖,其特征表征能力在一定程度上決定行人檢測方法的性能。選擇殘差網(wǎng)絡(luò)Resnet-50[14]作為特征提取網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)使用殘差連接,在加深網(wǎng)絡(luò)層次的同時,避免梯度消失和網(wǎng)絡(luò)退化問題的出現(xiàn),提高網(wǎng)絡(luò)的收斂速度。在原網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,進(jìn)行如下改進(jìn):(1)去除平均池化層、全連接層和分類層,只使用全卷積神經(jīng)網(wǎng)絡(luò)部分;(2)在Conv5_x模塊后增加一個1×1×1 024 卷積層,以實(shí)現(xiàn)特征降維,降低參數(shù)規(guī)模。具體網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)和特征圖尺寸如表1所示。
表1 特征提取網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)表Table 1 The structure parameters of feature extraction network
遮擋問題是行人檢測領(lǐng)域的一大難題。在復(fù)雜場景下,受遮擋行人易受到周圍物體干擾,從而導(dǎo)致其部分信息損失。因此,在檢測過程中,被遮擋的行人經(jīng)常被誤判為背景區(qū)域而剔除,增大了行人檢測的漏檢率。為了抑制遮擋因素產(chǎn)生的干擾,利用語義分割網(wǎng)絡(luò)將原始圖像按照類別分割成若干個區(qū)域,獲得具有像素級別分類結(jié)果的語義分割圖,并將其融入到行人檢測網(wǎng)絡(luò)中,增強(qiáng)網(wǎng)絡(luò)模型對于遮擋目標(biāo)的辨識能力。語義分割網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖2所示。
圖2 語義分割網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 The structure of semantic segmentation network
由圖2可知,語義分割網(wǎng)絡(luò)使用Conv4_x和Conv5_x兩個特征圖作為輸入。在Conv5_x之后連接1個反卷積層和1個卷積層:反卷積層的卷積核個數(shù)為512,大小為4×4,步長為2;卷積層的卷積核個數(shù)為512,大小為3×3,步長為1。在Conv4_x后連接1個卷積層,卷積核個數(shù)為512,大小為1×1。然后通過求和運(yùn)算進(jìn)行特征圖融合,得到分辨率為原圖1/16的特征圖。最后通過Softmax分類層得到語義分割結(jié)果。
目前,語義分割網(wǎng)絡(luò)的學(xué)習(xí)方法主要有兩種:監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)[15]。監(jiān)督學(xué)習(xí)利用圖像和其對應(yīng)的像素級別標(biāo)注信息對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,雖然需要耗費(fèi)大量的人工成本,但語義分割結(jié)果精度高。弱監(jiān)督學(xué)習(xí)使用粗糙的標(biāo)簽信息,如邊框、線條、點(diǎn)以及圖像標(biāo)簽等,利用這些不完全可靠的標(biāo)簽信息對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,可以使網(wǎng)絡(luò)獲得簡單的語義分割能力。為了使網(wǎng)絡(luò)實(shí)現(xiàn)精確的語義分割,本文采用監(jiān)督學(xué)習(xí)。由于常見的行人檢測數(shù)據(jù)集只具有邊框標(biāo)注信息,不具有像素級別標(biāo)注信息,因此借助Cityscapes語義分割數(shù)據(jù)集[16]訓(xùn)練語義分割網(wǎng)絡(luò)。Cityscapes數(shù)據(jù)集包含大量具有像素級別標(biāo)注信息的圖像,在網(wǎng)絡(luò)訓(xùn)練前,對數(shù)據(jù)集進(jìn)行處理,將行人在標(biāo)簽中的對應(yīng)位置標(biāo)注設(shè)為1,其他類別在標(biāo)簽中的對應(yīng)位置標(biāo)注設(shè)為0,突出行人目標(biāo)。
原R-FCN方法在行人檢測過程中存在小尺寸行人檢測效果不佳的問題。其主要原因在于:(1)小尺寸行人的分辨率較低,攜帶的位置信息較少,特征表達(dá)能力弱;(2)卷積神經(jīng)網(wǎng)絡(luò)中淺層特征感受野小,是一種局部信息,深層特征感受野大,是一種全局信息,而原R-FCN方法只使用特征提取網(wǎng)絡(luò)的最后一層特征圖,雖然其語義信息豐富,但是分辨率低且感受野大,導(dǎo)致小尺度行人的檢測能力進(jìn)一步降低。在目標(biāo)檢測領(lǐng)域,基于特征融合的單次多框檢測器(feature fusion single shot multibox detector,F(xiàn)SSD)[17]、HyperNet[18]、特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)[19]等方法充分證明,多尺度特征表示及其特征融合能夠有效提高小目標(biāo)的檢測精度。行人檢測屬于目標(biāo)檢測的一種特殊情況,因此將特征融合方法移植到行人檢測領(lǐng)域,通過特征融合模塊將細(xì)節(jié)信息豐富的淺層特征與高度抽象的深層特征結(jié)合起來,同時利用語義分割圖的語義特征,充分利用不同層次、不同形式的特征,可以檢測不同尺度的目標(biāo),提高小尺寸行人的檢測精度。特征融合模塊結(jié)構(gòu)如圖3所示。
圖3 特征融合模塊結(jié)構(gòu)圖Fig.3 The structure of feature fusion module
設(shè)輸入特征圖為Xi,選擇Conv3_x、Conv4_x、Conv5_x共3個特征圖;經(jīng)過語義分割網(wǎng)絡(luò)得到的語義分割圖為S;特征融合模塊輸出的融合特征圖為Y。特征融合過程如式(1)和(2)所示。
Xf=φf{γ(Xi, …,S)}
(1)
Y=φc(Xf)
(2)
式中:γ為特征融合之前的組合變換函數(shù);φf為特征融合函數(shù);Xf為特征融合后生成的特征圖;φc為特征融合后的組合變換函數(shù),包括3×3卷積、批量歸一化和非線性激活函數(shù)ReLU。
為保證不同尺度的特征圖與語義分割圖正常融合,組合變換函數(shù)γ根據(jù)特征圖的尺度采取不同的設(shè)置。首先,在每個特征圖后使用1×1卷積變換實(shí)現(xiàn)特征降維,降低參數(shù)規(guī)模,增強(qiáng)網(wǎng)絡(luò)非線性程度;其次,針對不同分辨率的特征圖,采用不同的采樣策略,Conv3_x通過2×2最大池化實(shí)現(xiàn)下采樣,Conv5_x通過2×2反卷積實(shí)現(xiàn)上采樣;最后,使用批量歸一化(batch normalization,BN)將特征圖歸一化。語義分割圖后只需進(jìn)行批量歸一化操作以防止過擬合。常見的特征融合函數(shù)有拼接(concat)、元素求和(element-wise summation)和元素點(diǎn)積(element-wise product)[20]。拼接將特征圖在維度通道上進(jìn)行合并級聯(lián),元素求和將特征圖對應(yīng)位置元素相加,元素點(diǎn)積將特征圖對應(yīng)位置元素相乘。由于元素求和、元素點(diǎn)積均要求特征圖尺度相同、維度相同,拼接僅需保證特征圖尺度相同。融合前的特征圖尺度相同、維度不同,因此特征融合函數(shù)選擇拼接函數(shù)。
區(qū)域建議網(wǎng)絡(luò)的主要作用是提取出高質(zhì)量的候選區(qū)域,其結(jié)構(gòu)如圖4所示。輸入為特征融合模塊生成的融合特征圖,輸出為一組感興趣區(qū)域(regions of interest,RoI)。區(qū)域建議網(wǎng)絡(luò)采用滑動窗口策略,在融合特征圖上使用3×3窗口進(jìn)行滑動選擇,每個滑動窗口區(qū)域通過卷積層映射為512維的特征向量,然后將特征向量輸入到分類層和邊框回歸層。其中在每個滑動窗口位置,同時預(yù)測k個不同大小的感興趣區(qū)域,稱為錨(anchor)[21]。本文將k值設(shè)為12,區(qū)域尺度設(shè)為{64, 128, 256, 512},區(qū)域長寬比設(shè)為{1, 1/2, 2}。分類層對感興趣區(qū)域進(jìn)行打分,輸出行人與背景的概率,輸出參數(shù)數(shù)量為2k。邊框回歸層對感興趣區(qū)域的邊框位置參數(shù)進(jìn)行回歸,邊框位置參數(shù)形式為(x,y,w,h),包括邊框的左上角坐標(biāo)及寬和高,輸出參數(shù)數(shù)量為4k。
圖4 RPN示意圖Fig.4 The diagrammatic drawing of RPN
首先,檢測網(wǎng)絡(luò)由兩個并行連接的子網(wǎng)絡(luò)組成,即分類子網(wǎng)絡(luò)和邊框回歸子網(wǎng)絡(luò),其具體結(jié)構(gòu)如圖1中檢測網(wǎng)絡(luò)部分所示。分類子網(wǎng)絡(luò)首先利用卷積操作在融合特征圖Y后生成位置敏感分?jǐn)?shù)圖z,如式(3)所示。
z=Fk2×(C+1)(Y)
(3)
式中:F(·)為1×1卷積變換;C為物體類別數(shù),加上背景類,共有C+1類;k2為子區(qū)域數(shù)量,代表位置敏感RoI池化層將每個感興趣區(qū)域平均劃分成k2個子區(qū)域。每個類別都有k2個位置敏感分?jǐn)?shù)圖描述對應(yīng)空間位置的信息。
其次,通過位置敏感RoI池化層對每個RPN網(wǎng)絡(luò)生成的RoI進(jìn)行平均池化操作,輸出維數(shù)為C+1的特征圖。位置敏感RoI池化只在編碼相應(yīng)位置的位置敏感圖時做出池化反應(yīng)。對于RoI中任意1個子區(qū)域,位置敏感RoI池化操作定義如式(4)所示[13]。
(4)
式中:bin(i,j)為子區(qū)域, 0≤i,j≤k-1;rc(i,j|Θ)為子區(qū)域?qū)Φ赾類的池化響應(yīng);Θ為網(wǎng)絡(luò)學(xué)習(xí)得到的參數(shù);n為子區(qū)域中的像素點(diǎn)數(shù);zi, j, c為子區(qū)域所對應(yīng)的位置敏感分?jǐn)?shù)圖;(x,y)為子區(qū)域內(nèi)任意一點(diǎn)的坐標(biāo);(x0,y0)為RoI左上角的坐標(biāo)。
然后,將池化后的特征圖在維度通道上求均值得到C+1維特征向量,如式(5)所示。
(5)
最后,利用Softmax回歸計算得到RoI屬于每個類別的概率,如式(6)所示。
(6)
式中:sc為RoI屬于第c類的概率;rc為RoI對應(yīng)第c類的特征向量;rc′為RoI對應(yīng)第c′類的特征向量,0≤c′≤C。
邊框回歸子網(wǎng)絡(luò)旨在保證RoI更加精準(zhǔn),網(wǎng)絡(luò)結(jié)構(gòu)與分類子網(wǎng)絡(luò)相同,在融合特征圖后構(gòu)建另外1個維度為4k2的位置敏感分?jǐn)?shù)圖,然后使用位置敏感RoI池化層為每個RoI生成1個四維特征向量,對RoI的邊框位置參數(shù)進(jìn)行回歸修正,位置參數(shù)形式與區(qū)域建議網(wǎng)絡(luò)保持一致。
檢測網(wǎng)絡(luò)生成預(yù)測框后,存在一些高度重疊的預(yù)測框。為了減少冗余,采用非極大值抑制(non-maximum suppression, NMS),閾值設(shè)置為0.7, 去除重疊預(yù)測框,利用剩余的預(yù)測框?qū)崿F(xiàn)行人檢測。
損失函數(shù)代表預(yù)測區(qū)域與真實(shí)標(biāo)記區(qū)域之間的誤差,每個RoI的目標(biāo)損失函數(shù)由分類損失和位置損失兩部分組成,其表達(dá)式如式(7)~(10)所示。
L(s,tx, y, w, h)=Lcls(sc*)+α[c*>0]Lloc(t,t*)
(7)
Lcls(sc*)=-log(sc*)
(8)
(9)
(10)
式中:L為總損失;Lcls(sc*)為分類損失,采用交叉熵?fù)p失函數(shù);c*為感興趣區(qū)域的真實(shí)分類標(biāo)簽,行人為1,背景為0;sc*為Softmax輸出的分類概率集合;t為預(yù)測框的位置參數(shù);t*為真實(shí)框的位置參數(shù);Lloc(t,t*)為預(yù)測框的位置回歸損失,采用smooth損失函數(shù);α為權(quán)衡系數(shù),用于調(diào)整分類損失和位置損失之間的比例,α取1;[c*>0]為指標(biāo)系數(shù),如果參數(shù)為真,則等于1,否則為0,感興趣區(qū)域是行人時才激活位置損失。
CPU:Intel i7-7700k;內(nèi)存:32G DDR4;顯卡:Nvidia Geforce GTX1080Ti;操作系統(tǒng):64位Ubuntu16.04 LTS;在深度學(xué)習(xí)框架Caffe[22]上進(jìn)行網(wǎng)絡(luò)訓(xùn)練和測試。
為驗證行人檢測方法的有效性和可靠性,將該方法在Caltech數(shù)據(jù)集[23]和ETH數(shù)據(jù)集[24]上進(jìn)行試驗。Caltech數(shù)據(jù)集和ETH數(shù)據(jù)集是用于行人檢測性能評估的標(biāo)準(zhǔn)數(shù)據(jù)集。Caltech行人檢測數(shù)據(jù)集包含30萬行人標(biāo)注框,圖像原始分辨率為640像素×480像素。數(shù)據(jù)集有Set 00~Set 10共11個部分。選擇Set 00~Set 05作為訓(xùn)練集,并以5 Hz采樣,得到42 782張訓(xùn)練圖像;選擇Set 06~Set 10為測試集,并以1 Hz采樣,得到4 024張測試圖像。ETH數(shù)據(jù)集包括3個視頻序列,分別在正常光照、陰天、強(qiáng)光等3種光照條件下拍攝,采樣頻率設(shè)為1 Hz, 得到1 799張圖片,每張圖片分辨率為640像素×480像素。
訓(xùn)練數(shù)據(jù)在訓(xùn)練前經(jīng)過左右翻轉(zhuǎn)、旋轉(zhuǎn)變換和隨機(jī)采樣實(shí)現(xiàn)數(shù)據(jù)增廣,隨機(jī)采樣的最小重疊率設(shè)為0.5。訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分辨率均設(shè)置為640像素×480像素。采用預(yù)訓(xùn)練模型來初始化網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率為0.001,迭代160 000次后學(xué)習(xí)率降為0.000 1。網(wǎng)絡(luò)每迭代1 000次,在驗證集上測試網(wǎng)絡(luò)模型的損失,當(dāng)模型的損失達(dá)到收斂時,停止迭代。通過隨機(jī)梯度下降法(stochastic gradient descent,SGD)優(yōu)化網(wǎng)絡(luò)模型,權(quán)重衰減率(weight decay)設(shè)為0.005,動量設(shè)為0.9。模型訓(xùn)練采用在線難例挖掘方法(online hard example mining, OHEM)[25],每次迭代隨機(jī)選擇1張圖,選擇128個感興趣區(qū)域為一個批次進(jìn)行梯度回傳。
評價指標(biāo)使用漏檢率-每幅圖像誤檢數(shù)曲線,當(dāng)評估行人檢測方法性能時,通過設(shè)置不同的參數(shù),得到不同組的漏檢率和每幅圖像誤檢數(shù)值,從而畫出漏檢率-每幅圖像誤檢數(shù)曲線。漏檢率(miss rate,MR)和每幅圖像誤檢數(shù)(false positives per image,F(xiàn)PPI)計算方法分別如式(11)和(12)所示。
(11)
(12)
式中:M為漏檢率;T為被正確識別的正樣本數(shù)量;F為負(fù)樣本被錯誤識別為正樣本的數(shù)量;P為每幅圖像誤檢數(shù);N為圖片總數(shù)目。
根據(jù)圖片中行人目標(biāo)的尺寸與被遮擋情況,將Caltech數(shù)據(jù)集的測試集劃分成不同子集。其中:All子集行人高度大于20像素,任意遮擋;Reasonable子集行人高度大于50像素,無遮擋或部分遮擋;Far子集行人高度小于30像素,為小尺度行人;Medium子集行人高度大于30像素且小于80像素;Near子集行人高度大于80像素。模型訓(xùn)練結(jié)束后使用不同測試子集測試模型性能,并根據(jù)評價指標(biāo)繪制漏檢率-每幅圖像誤檢數(shù)曲線,取每幅圖像誤檢數(shù)為0.1 條件下的漏檢率進(jìn)行對比。本文方法與其他方法在All、Reasonable測試子集下的測試結(jié)果對比如圖5所示。
圖5 本文方法與其他方法在All、Reasonable測試子集下的測試結(jié)果對比Fig.5 Comparison of test results of this method and other methods on the test subsets underAll and Reasonable setup
由圖5所示曲線可知:
(1) 本文提出的改進(jìn)R-FCN方法在All測試子集下的漏檢率為53%,在Reasonable測試子集下的漏檢率為9%,較原R-FCN方法分別降低了14個百分點(diǎn)和5個百分點(diǎn)。在任意遮擋情況下的漏檢率明顯降低,說明本文方法通過添加語義分割網(wǎng)絡(luò),能夠提升網(wǎng)絡(luò)模型對遮擋目標(biāo)的識別能力,提高遮擋行人的檢測精度。
(2) 相對于MS-CNN方法,本文方法在All子集和Reasonable子集的漏檢率分別降低8個百分點(diǎn)和2個百分點(diǎn);相對于RPN+BF方法,本文方法則分別降低12個百分點(diǎn)和1個百分點(diǎn)。結(jié)果表明,與其他方法相比,本文方法在遮擋情況和無遮擋情況下,均具有更好的行人檢測性能。
本文方法與其他方法在Far、Medium、Near測試子集下的漏檢率測試結(jié)果對比如表2所示。
表2 在Far、Medium、Near測試子集下不同方法的漏檢率測試結(jié)果對比Table 2 Comparison of miss rate test results of different methods on the test subsets under Far, Medium and Near setup %
由表2數(shù)據(jù)可知:
(1) 與MS-CNN、RPN+BF等主流方法相比,本文方法在Far、Medium測試子集下的漏檢率更低,在Near測試子集下的漏檢率非常接近。由此說明,本文方法能夠更精確地檢測小尺寸行人,對中尺寸、大尺寸行人也取得較高的檢測精度。
(2) 原R-FCN方法基本完全漏檢小尺度行人。與原R-FCN方法相比,本文方法在Far測試子集下的漏檢率降低7.4個百分點(diǎn),說明通過增加特征融合模塊和語義分割圖,小尺度行人的檢測性能得到提高。
本文方法與原R-FCN方法在Caltech數(shù)據(jù)集下的部分檢測結(jié)果如圖6所示,圖中方框為檢測結(jié)果框,橢圓虛線框為漏檢目標(biāo)框。從圖6可以看出:原R-FCN方法雖然能夠檢測出大部分大尺寸行人,但是對遮擋行人和小尺寸行人的檢測效果較差;本文提出的改進(jìn)R-FCN方法可以檢測出一些在近景和遠(yuǎn)景下的被部分遮擋目標(biāo),盡管依舊無法識別被完全遮擋目標(biāo),但對遮擋目標(biāo)的漏檢更少,預(yù)測框更精細(xì),有效緩解了遮擋問題;許多原R-FCN方法漏檢的小尺寸行人被本文方法成功檢出,在小尺寸行人上的檢測效果有所改善。
圖6 本文方法與原R-FCN方法在Caltech數(shù)據(jù)集下的部分檢測結(jié)果Fig.6 Some detection results of this method and the original R-FCN on Caltech datasets
為更進(jìn)一步驗證本文方法的有效性和泛化能力,在ETH數(shù)據(jù)集測試模型,并與其他方法對比,測試結(jié)果如圖7所示。
圖7 ETH數(shù)據(jù)集下不同方法的測試結(jié)果對比Fig.7 Comparison of test results of different methods on ETH datasets
由圖7可知,本文方法在ETH數(shù)據(jù)集下的漏檢率為33%,與JointDeep和SpatialPooling方法相比,漏檢率分別下降了12個百分點(diǎn)和4個百分點(diǎn),并且明顯優(yōu)于傳統(tǒng)HOG方法。由此表明,通過語義分割和特征融合,本文方法具有更高的檢測精度、良好的泛化能力。
為測試本文方法的檢測速度,從數(shù)據(jù)集中隨機(jī)選取200張圖片進(jìn)行測試,使用每秒檢測圖像數(shù)(frame per second, FPS)作為檢測指標(biāo),并與其他方法進(jìn)行對比,測試結(jié)果如表3所示。
表3 不同方法檢測速度對比Table 3 Comparison of detection speed of different detection methods
由表3可知,本文方法的檢測速度為4.5張/s,快于JointDeep和RPN+BF,慢于DeepCascade和MS-CNN。檢測速度受到影響的主要原因:(1) 與其他方法相比,本文方法的整體網(wǎng)絡(luò)層次更深,參數(shù)規(guī)模更大;(2) 特征提取網(wǎng)絡(luò)和語義分割網(wǎng)絡(luò)階段導(dǎo)致網(wǎng)絡(luò)模型的計算量增加,耗費(fèi)大量運(yùn)行內(nèi)存,降低了模型運(yùn)行速度。但是本文方法平均每幅圖像檢測時間約為0.22 s,能夠滿足行人檢測的實(shí)時性要求。
本文提出一種結(jié)合語義分割和特征融合的行人檢測方法。利用語義分割網(wǎng)絡(luò)提取出語義分割圖,并融入到網(wǎng)絡(luò)中,提升遮擋行人檢測精度;利用特征融合模塊,引入上下文信息,充分利用高層語義信息與低層細(xì)節(jié)信息進(jìn)行檢測,改善小尺度行人的檢測效果。在Caltech數(shù)據(jù)集和ETH數(shù)據(jù)集上的試驗結(jié)果證明,該方法具有很強(qiáng)的準(zhǔn)確性與穩(wěn)健性,能夠有效降低遮擋行人和小尺度行人在復(fù)雜場景下的漏檢率,同時滿足實(shí)時性要求。未來將使用本文方法與更好的目標(biāo)檢測框架相結(jié)合,并調(diào)整相應(yīng)的結(jié)構(gòu),進(jìn)一步提高行人檢測性能。