国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度可分離卷積和標(biāo)準(zhǔn)卷積相結(jié)合的高效行人檢測(cè)器

2022-05-09 07:03:12張運(yùn)波易鵬飛周東生魏小鵬
圖學(xué)學(xué)報(bào) 2022年2期
關(guān)鍵詞:集上檢測(cè)器主干

張運(yùn)波,易鵬飛,周東生,,張 強(qiáng),,魏小鵬

深度可分離卷積和標(biāo)準(zhǔn)卷積相結(jié)合的高效行人檢測(cè)器

張運(yùn)波1,易鵬飛1,周東生1,2,張 強(qiáng)1,2,魏小鵬2

(1.大連大學(xué)軟件工程學(xué)院先進(jìn)設(shè)計(jì)與智能計(jì)算省部共建教育部重點(diǎn)實(shí)驗(yàn)室,遼寧 大連 116622;2.大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

行人檢測(cè)器對(duì)算法的速度和精確度有很高的要求。雖然基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的行人檢測(cè)器具有較高的檢測(cè)精度,但是這類(lèi)檢測(cè)器對(duì)硬件設(shè)備的計(jì)算能力要求較高,因此,這類(lèi)行人檢測(cè)器無(wú)法很好地部署到諸如移動(dòng)設(shè)備、嵌入式設(shè)備和自動(dòng)駕駛系統(tǒng)等輕量化系統(tǒng)中?;诖?,提出了一種更好地平衡速度和精度的輕量級(jí)行人檢測(cè)器(EPDNet)。首先,主干網(wǎng)絡(luò)的淺層卷積使用深度可分離卷積以壓縮模型的參數(shù)量,深層卷積使用標(biāo)準(zhǔn)卷積以提取高級(jí)語(yǔ)義特征。另外,為了進(jìn)一步提高模型的性能,主干網(wǎng)絡(luò)采用特征融合方法來(lái)增強(qiáng)其輸出特征的表達(dá)能力。通過(guò)實(shí)驗(yàn)對(duì)比分析,EPDNet在2個(gè)具有挑戰(zhàn)性的行人數(shù)據(jù)集Caltech和CityPersons上表現(xiàn)出了優(yōu)越的性能,與基準(zhǔn)模型相比,EPDNet在速度和精確度之間獲得了更好的權(quán)衡,EPDNet的速度和精確度同時(shí)得到了提高。

標(biāo)準(zhǔn)卷積;深度可分離卷積;特征融合;輕量化;行人檢測(cè)

行人檢測(cè)在諸如自動(dòng)駕駛、智能監(jiān)控和機(jī)器人等計(jì)算機(jī)視覺(jué)應(yīng)用中,扮演著舉足輕重的作用。隨著深度學(xué)習(xí)的興起,盡管近年來(lái)的一些行人檢測(cè)算法已獲得了顯著成效[1-2],但最先進(jìn)的行人檢測(cè)器仍然達(dá)不到人類(lèi)的認(rèn)知水平[3],在行人遮擋、模糊、尺度多變等具有挑戰(zhàn)性的情況下,其檢測(cè)效果通常會(huì)受到嚴(yán)重影響。為了解決這些問(wèn)題,諸多研究學(xué)者已經(jīng)提出了處理特定情況的機(jī)制。這些機(jī)制包括在檢測(cè)之前使用分割[4]和分別為不同的行人遮擋模式設(shè)計(jì)對(duì)應(yīng)的模型[5-6]等。CAO等[7]提出了位置指導(dǎo)和語(yǔ)義轉(zhuǎn)換2個(gè)模塊,以提取對(duì)象更多的上下文信息。但是,上述方法的檢測(cè)速度較慢,并且與實(shí)時(shí)檢測(cè)目標(biāo)相距甚遠(yuǎn)。文獻(xiàn)[6]提出的Faster-RCNN+ATT檢測(cè)器,利用通道注意力模塊加強(qiáng)算法對(duì)遮擋行人的檢測(cè)性能,但需要添加額外的模塊才能從數(shù)據(jù)集中獲取注意力信息,計(jì)算復(fù)雜度較高。文獻(xiàn)[2]提出了行人檢測(cè)和語(yǔ)義分割進(jìn)行聯(lián)合監(jiān)督的框架——SDS-RCNN,但是僅添加了語(yǔ)義分割分支,并將獲得的語(yǔ)義特征輸入到主干網(wǎng)絡(luò)中,而未將語(yǔ)義分割結(jié)果直接用于行人檢測(cè)。LIU等[8]提出了差分矩陣投影(difference matrix projection,DMP),使用全局矩陣運(yùn)算計(jì)算聚合的多方向像素差異。上述的兩階段行人檢測(cè)器主要致力于檢測(cè)精度的研究。重要的是,行人檢測(cè)對(duì)速度的要求也是很高的。與兩階段行人檢測(cè)器相比,單階段檢測(cè)器具有更高的檢測(cè)速度[9-10]。單階段行人檢測(cè)器通常使用輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為主干網(wǎng)絡(luò),例如MobileNet[11]和YOLOv3[12]。ZHAO等[13]提出了一種行人檢測(cè)的新思路,即利用人體姿態(tài)估計(jì)來(lái)提高行人檢測(cè)的檢測(cè)和定位精度。實(shí)際上,缺乏多樣化的行人數(shù)據(jù)集也限制了行人檢測(cè)器的性能,ZHANG等[14]提出了一個(gè)具有豐富場(chǎng)景的高分辨率行人數(shù)據(jù)集,可以在一定程度上提高模型的泛化能力。為了進(jìn)一步促進(jìn)未來(lái)的行人檢測(cè)研究,其團(tuán)隊(duì)發(fā)布了一個(gè)名為WiderPerson[15]的大規(guī)模多樣化數(shù)據(jù)集,用于野外環(huán)境下的密集行人檢測(cè)。雖檢測(cè)速度快,但是檢測(cè)精度不高,無(wú)法在速度和精度之間取得更好的折衷。LIU等[16]提出一種無(wú)錨點(diǎn)框的行人檢測(cè)新方法,即利用行人的關(guān)鍵點(diǎn)和尺度獲得回歸框,在速度和精度之間取得了新的權(quán)衡。但是,在這項(xiàng)工作中,使用MobileNet作為主干網(wǎng)絡(luò)時(shí),行人檢測(cè)器的檢測(cè)精度較低。

本文針對(duì)使用關(guān)鍵點(diǎn)與輕量級(jí)主干網(wǎng)絡(luò)相結(jié)合對(duì)行人檢測(cè)時(shí)精度較低的問(wèn)題,提出了一種基于標(biāo)準(zhǔn)卷積和深度可分離卷積相結(jié)合的主干網(wǎng)絡(luò)構(gòu)造方法。其主要思想是在模型的淺層使用深度可分離卷積來(lái)壓縮DCNN模型的參數(shù),在模型的深層采用標(biāo)準(zhǔn)卷積以增強(qiáng)特征的語(yǔ)義表達(dá)能力。為了進(jìn)一步提高輕量級(jí)行人檢測(cè)器(effective pedestrian detector network,EPDNet)的檢測(cè)精度,本文采用特征融合方法將淺層和深層特征融合在一起,以增強(qiáng)輸出特征的語(yǔ)義表達(dá)能力。另外,基于所設(shè)計(jì)的主干網(wǎng)絡(luò),在Caltech[17]和CityPersons[14]2個(gè)行人數(shù)據(jù)集上評(píng)估了EPDNet的性能。評(píng)估過(guò)程主要包括消融實(shí)驗(yàn)和基準(zhǔn)模型比較實(shí)驗(yàn)。與基準(zhǔn)模型相比,EPDNet在保持更快的檢測(cè)速度同時(shí),在Caltech和CityPersons數(shù)據(jù)集上均實(shí)現(xiàn)了更高的檢測(cè)精度。

1 相關(guān)工作

1.1 有錨點(diǎn)框檢測(cè)

目前,大多數(shù)高性能行人檢測(cè)器主要由主干網(wǎng)絡(luò)和特定的檢測(cè)頭組成。早期的目標(biāo)檢測(cè)算法主要使用CNN作為主干網(wǎng)絡(luò),例如VGG[18]和ResNet[19]。Faster R-CNN[20]是兩階段目標(biāo)檢測(cè)框架,該算法的主干網(wǎng)絡(luò)使用ResNet50。RPN+BF[21]采用了區(qū)域建議網(wǎng)絡(luò)——RPN,并通過(guò)人工對(duì)這些建議框進(jìn)行了重新評(píng)分,研究團(tuán)隊(duì)對(duì)Faster R-CNN在行人檢測(cè)中的效果做出了相應(yīng)的研究和改進(jìn)。TESEMA等[22]提出了一種新的行人檢測(cè)框架,成功地?cái)U(kuò)展了RPN + BF框架,將手動(dòng)提取的特征和CNN提取的特征相結(jié)合。文獻(xiàn)[21]工作成為了兩階段行人檢測(cè)器的先例。例如,在LI等[23]的工作中,基于CNN的兩階段框架在小尺度行人檢測(cè)方面取得了重大進(jìn)展;在MS-CNN[24]中也應(yīng)用了Faster R-CNN框架,但是該算法是在多尺度特征圖上生成候選建議框;Faster RCNN+ATT[6]的作者建議采用通道注意力模塊來(lái)處理行人檢測(cè)的遮擋問(wèn)題;上述方法在基于CNN的有錨點(diǎn)框行人檢測(cè)方向獲得了重要進(jìn)展,充分證明了CNN在兩階段行人檢測(cè)器中的有效性和可行性。

1.2 無(wú)錨點(diǎn)框檢測(cè)

與有錨點(diǎn)框目標(biāo)檢測(cè)器的設(shè)計(jì)思路相反,近年來(lái)流行采用無(wú)錨點(diǎn)框進(jìn)行目標(biāo)檢測(cè),該方法摒棄了候選建議框的生成過(guò)程,直接從圖像中檢測(cè)目標(biāo)。CornerNet[25]是將無(wú)錨點(diǎn)框檢測(cè)思想推向高潮的杰作,其摒棄了傳統(tǒng)的目標(biāo)檢測(cè)思想,直接從圖像中檢測(cè)出目標(biāo)的左上角和右下角關(guān)鍵點(diǎn),根據(jù)這一對(duì)關(guān)鍵點(diǎn)確定目標(biāo)框。受無(wú)錨點(diǎn)檢測(cè)思想的啟發(fā),SONG等[26]將此思想引入了行人檢測(cè)之中,提出的拓?fù)渚€(xiàn)性定位(topological line localization,TLL)算法大幅提高了行人檢測(cè)的性能,尤其是在小尺度行人檢測(cè)方面的成效尤為突出。此后,文獻(xiàn)[16]提出通過(guò)直接檢測(cè)行人的中心點(diǎn)和尺度來(lái)對(duì)圖像中的特征進(jìn)行分類(lèi)和回歸。該方法將行人檢測(cè)轉(zhuǎn)換為分類(lèi)和回歸2類(lèi)問(wèn)題,并在Caltech數(shù)據(jù)集上獲得了先進(jìn)的檢測(cè)性能,為行人檢測(cè)提供了新思路。為了設(shè)計(jì)更為輕量的行人檢測(cè)器,文獻(xiàn)[16]還使用MobileNet[11]作為主干網(wǎng)絡(luò),并設(shè)計(jì)了一種檢測(cè)速度更快的行人檢測(cè)模型。

本文工作主要是基于無(wú)錨點(diǎn)框的行人檢測(cè),但與上述所有方法均有顯著差異。本文嘗試通過(guò)設(shè)計(jì)高效、輕量的主干網(wǎng)絡(luò)來(lái)壓縮行人檢測(cè)器的參數(shù),以獲得更快、更準(zhǔn)確的行人檢測(cè)器。EPDNet提供了一種基于標(biāo)準(zhǔn)卷積和深度可分離卷積構(gòu)建主干網(wǎng)絡(luò)和特征融合方法。

2 方 法

2.1 整體框架

EPDNet的總體框架如圖1所示,總體架構(gòu)主要由主干網(wǎng)絡(luò)和檢測(cè)頭模塊組成。

2.1.1 主干網(wǎng)絡(luò)

主干網(wǎng)絡(luò)主要負(fù)責(zé)圖像特征提取,是深度可分離卷積塊和深度殘差塊的組合。該設(shè)計(jì)將整個(gè)主干網(wǎng)絡(luò)分為6個(gè)階段進(jìn)行描述。首先,將原始圖像輸入到步長(zhǎng)為2的卷積塊中,對(duì)原始圖像進(jìn)行下采樣,濾波器數(shù)量為32,將3通道的RGB圖像提取成具有32通道的特征圖。為了減少模型的計(jì)算量,第2到第4階段采用深度可分離卷積的卷積方法,這是整個(gè)檢測(cè)器模型輕量化的關(guān)鍵。為了提取圖像的高級(jí)語(yǔ)義信息并提高模型的可訓(xùn)練性,該網(wǎng)絡(luò)結(jié)合了深度殘差網(wǎng)絡(luò)的優(yōu)點(diǎn)和原理,在第5和第6階段使用殘差塊,以提高分類(lèi)精度。從第1階段到第6階段,下采樣率分別為2,4,8,16,16和16。在加深模型深度的同時(shí),考慮到分辨率對(duì)行人目標(biāo)定位的重要性,最終輸出特征圖的分辨率為原始特征圖的1/16。

2.1.2 檢測(cè)頭

檢測(cè)頭模塊負(fù)責(zé)目標(biāo)檢測(cè)中特征的分類(lèi)和回歸,在檢測(cè)任務(wù)中起著重要的作用[27]。首先,將主干網(wǎng)絡(luò)提取的特征圖輸入到一個(gè)濾波器個(gè)數(shù)為256的卷積層,將特征圖的特征維度壓縮為256,然后將壓縮后的特征圖輸入到3個(gè)卷積層預(yù)測(cè)分支中,分別生成中心點(diǎn)特征圖、尺度圖和中心點(diǎn)偏置。特征圖的下采樣過(guò)程將引起關(guān)鍵點(diǎn)偏移的問(wèn)題,不利于行人的定位。增加偏移量的預(yù)測(cè)分支可以微調(diào)下采樣過(guò)程中的中心位置預(yù)測(cè)精度的損失,中心點(diǎn)的偏移量預(yù)測(cè)可以定義為

2.2 整體架構(gòu)

表1給出了EPDNet的詳細(xì)信息,包括卷積塊的類(lèi)型(Type)、步長(zhǎng)(Stride)、濾波器個(gè)數(shù)(Filter Shape)和輸入圖像大小(Input size)。例如,Conv/s2表示標(biāo)準(zhǔn)卷積塊,卷積核移動(dòng)步長(zhǎng)為2。深度可分離卷積是將標(biāo)準(zhǔn)卷積分解為深度卷積(Conv dw/s1)和點(diǎn)卷積(Conv/s1)。Conv_block Res/s1表示步長(zhǎng)為1的卷積塊,Identity_block Res/s1表示恒等塊。

表1 EPDNet主干的架構(gòu)

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

3.1.1 數(shù)據(jù)集

CityPersons數(shù)據(jù)集源自Cityscapes[28],具有多個(gè)遮擋級(jí)別的行人注釋。本文實(shí)驗(yàn)使用2 975張圖像的訓(xùn)練集和500張圖像的測(cè)試集。評(píng)估指標(biāo)遵循Caltech中的評(píng)估標(biāo)準(zhǔn)[17],即在[10-2, 100]范圍內(nèi),每幅圖像平均誤報(bào)率的對(duì)數(shù)值(false positive per image,F(xiàn)PPI)表示為-2,數(shù)值越小表示性能越好。

3.1.2 訓(xùn)練參數(shù)

本文實(shí)驗(yàn)在Keras框架中實(shí)現(xiàn)的。訓(xùn)練和測(cè)試在單個(gè)GTX 1080Ti GPU顯卡上進(jìn)行。主干網(wǎng)絡(luò)使用基于深度可分離卷積和深度殘差網(wǎng)絡(luò)設(shè)計(jì)。當(dāng)使用Caltech數(shù)據(jù)集訓(xùn)練模型時(shí),批量設(shè)置為16,學(xué)習(xí)率為10-4。訓(xùn)練過(guò)程中加載MobileNet的預(yù)訓(xùn)練權(quán)重[11],網(wǎng)絡(luò)訓(xùn)練在200代后停止。Caltech數(shù)據(jù)集上的訓(xùn)練模型還包括從CityPersons數(shù)據(jù)集初始化的模型。此外,當(dāng)使用CityPersons數(shù)據(jù)集訓(xùn)練模型時(shí),批量大小(batch_size)設(shè)置為3,學(xué)習(xí)率為2×10-4,在訓(xùn)練過(guò)程中加載MobileNet的預(yù)訓(xùn)練權(quán)重,并且訓(xùn)練150代后停止訓(xùn)練。

3.2 消融實(shí)驗(yàn)

消融實(shí)驗(yàn)在Caltech數(shù)據(jù)集上進(jìn)行,并將閾值設(shè)置為官方標(biāo)準(zhǔn),即IoU=0.5。本文從4個(gè)方面展開(kāi)實(shí)驗(yàn)和討論:①結(jié)合深度可分離卷積和標(biāo)準(zhǔn)卷積的重要性;②可分離卷積輸出特征與殘差塊輸出特征融合的重要性;③模型的卷積層數(shù)和特征尺度對(duì)模型性能的影響;④深度卷積層使用空洞卷積的對(duì)模型性能的影響。

3.2.1 結(jié)合深度可分離卷積和標(biāo)準(zhǔn)卷積的重要性

本文提出的主干網(wǎng)絡(luò)分為深度可分離卷積和標(biāo)準(zhǔn)卷積2部分。深度可分離卷積可以成倍地壓縮模型參數(shù),殘差網(wǎng)絡(luò)可以增加模型的可訓(xùn)練性。通過(guò)增加模型的深度,可以提取圖像的高級(jí)語(yǔ)義特征。結(jié)合兩者的優(yōu)勢(shì),構(gòu)建了輕量級(jí)的主干網(wǎng)絡(luò),并且進(jìn)一步設(shè)計(jì)的行人檢測(cè)器可以提高速度和精度。這組實(shí)驗(yàn)證明了深度可分離卷積和標(biāo)準(zhǔn)卷積相結(jié)合的模型壓縮方法的有效性。實(shí)驗(yàn)結(jié)果見(jiàn)表2。

表2 不同檢測(cè)器的比較

注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

表2展示了不同檢測(cè)器之間的性能對(duì)比結(jié)果。CSP[16]使用MobileNet作為主干網(wǎng)絡(luò)的模型。EPDNet是本文設(shè)計(jì)的行人檢測(cè)器模型,其融合了第3到第6階段的輸出特征圖。EPDNet3使用殘差塊將輸出特征圖擴(kuò)展到1 024維,并融合了第3到第5階段的輸出特征圖,融合后的特征圖作為主干網(wǎng)的最終輸出。通過(guò)與CSP比較,可以發(fā)現(xiàn)EPDNet3模型的檢測(cè)速度提高了約16%,而檢測(cè)精度僅僅下降了1.8%,由此可知,在確保檢測(cè)精度的同時(shí),EPDNet3在檢測(cè)速度上有了顯著提高。

3.2.2 特征融合的重要性

為了分析EPDNet融合的有效,及證明融合高級(jí)與低級(jí)特征圖的重要性,本文做了對(duì)比實(shí)驗(yàn),整個(gè)實(shí)驗(yàn)集均在Caltech數(shù)據(jù)集上進(jìn)行,并且將閾值設(shè)置為官方標(biāo)準(zhǔn)IoU=0.5。實(shí)驗(yàn)結(jié)果見(jiàn)表3,其中2~6分別表示第2到第6階段的輸出特征圖。

表3 融合不同特征圖的模型對(duì)比

注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

由表3可看出,融合不同階段輸出特征圖的模型在檢測(cè)時(shí)間和準(zhǔn)確性上存在很大差異。融合了3,4,5和6階段的特征圖的模型具有6.38-2。此模型具有最佳的檢測(cè)精度。盡管該模型在檢測(cè)速度上沒(méi)有優(yōu)勢(shì),但仍然可以達(dá)到約22 FPS。此外,融合了2和3階段特征圖的模型具有最快的檢測(cè)速度(約40 FPS)和最小的參數(shù),但是該模型的檢測(cè)精度非常低。因此可以看出,淺層模型具有較高的檢測(cè)速度,但代價(jià)是檢測(cè)精度的損失,這種模型不適合處理背景復(fù)雜的高分辨率圖像,也不適合處理復(fù)雜的檢測(cè)任務(wù)。

3.2.3 卷積層數(shù)和特征圖維度的影響

在圖1所示的主干網(wǎng)絡(luò)中,除下采樣層外,第4階段的可分離卷積塊數(shù)為4,5和6。另外,卷積層數(shù)和輸出特征圖維度也對(duì)模型的性能有很大影響。為了討論第4階段中卷積層數(shù)對(duì)模型性能的影響,本文通過(guò)對(duì)比實(shí)驗(yàn)展示不同模型的性能,包括模型參數(shù)量、測(cè)試時(shí)間和損失率的比較。整個(gè)實(shí)驗(yàn)是在IoU=0.5的條件下進(jìn)行。實(shí)驗(yàn)結(jié)果見(jiàn)表4。

表4 不同卷積層數(shù)的模型性能對(duì)比

注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

由表4數(shù)據(jù)可知,對(duì)于輸出特征圖維度相同的可分離卷積層,卷積層數(shù)較多的模型具有更好的檢測(cè)精度,但是該類(lèi)模型在檢測(cè)時(shí)間上略高于卷積層數(shù)少的模型。其中,在EPDNet的第4階段中設(shè)6個(gè)深度可分離的卷積塊,主干網(wǎng)通道維數(shù)為2 048。EPDNet2在EPDNet的基礎(chǔ)上將4階段的卷積塊數(shù)減少到3個(gè),EPDNet4在EPDNet的基礎(chǔ)上將第4階段的卷積塊數(shù)減少到4個(gè),EPDNet5在第4階段的基礎(chǔ)上將卷積塊的數(shù)量減少到5個(gè)。EPDNet3是在EPDNet的基礎(chǔ)上將主干網(wǎng)絡(luò)的特征輸出維度減少到1 024。實(shí)驗(yàn)結(jié)果表明,無(wú)論是減少標(biāo)準(zhǔn)卷積的層數(shù)還是可分離卷積的層數(shù),淺層網(wǎng)絡(luò)都會(huì)導(dǎo)致模型檢測(cè)的準(zhǔn)確性下降。但是,與EPDNet相比,簡(jiǎn)化后的模型提高了檢測(cè)速度,EPDNet2將模型的檢測(cè)速度提高了約10%,但損失了約28%的精度。EPDNet3將模型速度提高約26%,但損失了約44%的精度。與EPDNet,EPDNet3,EPDNet4和EPDNet5相比,EPDNet具有最佳性能。因此,可以看出,過(guò)度壓縮模型參數(shù)以提高算法的效率是不可取的。只有合適的卷積層數(shù)和特征圖維度才能達(dá)到最優(yōu)的性能。

3.2.4 空洞卷積對(duì)模型性能的影響

擴(kuò)大卷積核的感受野對(duì)檢測(cè)任務(wù)是有幫助的。但是,通過(guò)增加卷積層數(shù)來(lái)增加感受野的做法,不可避免地會(huì)增加模型的參數(shù)量,導(dǎo)致模型的計(jì)算效率下降。另外一種擴(kuò)大感受野的方法是使用空洞卷積,該方法不會(huì)增加參數(shù)量。本組實(shí)驗(yàn)比較了使用空洞卷積與否的模型的性能,對(duì)比結(jié)果包括模型參數(shù)、測(cè)試時(shí)間和丟失率。整個(gè)實(shí)驗(yàn)均在IoU=0.5的條件下進(jìn)行,實(shí)驗(yàn)結(jié)果見(jiàn)表5。

注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

由表5可知,在第5和第6階段中的卷積層使用空洞卷積。從實(shí)驗(yàn)結(jié)果可以看出,在其他條件不變的情況下,不使用空洞卷積模型的精度會(huì)大大降低。由于感受野變小,計(jì)算量增大,因此模型測(cè)試時(shí)間也稍微變長(zhǎng)。從本組實(shí)驗(yàn)可以看出,在必要的卷積層中引入空洞卷積可以有效提高模型精度。

3.3 基線(xiàn)模型對(duì)比試驗(yàn)

本文將在Caltech和CityPersons數(shù)據(jù)集上,對(duì)比EPDNet模型與其他行人檢測(cè)器模型之間的性能。在本文實(shí)驗(yàn)中,EPDNet和EPDNet+City分別表示初始化權(quán)重來(lái)自ImageNet[29]和CityPersons數(shù)據(jù)集上訓(xùn)練的模型。

3.3.1 Caltech數(shù)據(jù)集上對(duì)比結(jié)果

本組實(shí)驗(yàn)對(duì)比了基線(xiàn)模型的性能參數(shù),在幾個(gè)檢測(cè)精度相當(dāng)?shù)男腥藱z測(cè)器模型中,對(duì)比模型的檢測(cè)速度。本文方法與幾種基準(zhǔn)模型進(jìn)行對(duì)比,包括DeepParts[30],MS-CNN[24],F(xiàn)asterRCN+ATT[6],SA-FasterRCNN[31],RPN+BF[21],SDS-RCNN[2],EPDNet1 (本文算法),EPDNet (本文算法),EPDNet+City (本文算法)和CSP[16]。分別在IoU=0.5和IoU=0.75時(shí)進(jìn)行了比較,F(xiàn)PPI曲線(xiàn)分別如圖2和圖3所示。

圖2 IoU=0.5時(shí),Caltech數(shù)據(jù)集上的比較

圖2顯示了當(dāng)IoU=0.5時(shí)各個(gè)模型的FPPI曲線(xiàn)。從圖中可以看出,EPDNet模型在基準(zhǔn)模型中具有更好的準(zhǔn)確性。從檢測(cè)精度比較可見(jiàn),EPDNet1和RPN + BF的檢測(cè)結(jié)果相當(dāng)。與CSP相比,EPDNet的檢測(cè)精度提高了2個(gè)百分點(diǎn);與DeepParts相比,EPDNet的檢測(cè)精度提高了6.52個(gè)百分點(diǎn),性能提高了約50%。如圖3所示,當(dāng)IoU=0.75時(shí),EPDNet顯示的檢測(cè)結(jié)果也明顯要好于基準(zhǔn)模型。

圖3 IoU=0.75時(shí),Caltech的數(shù)據(jù)集上的比較

為了更詳細(xì)地對(duì)比模型的運(yùn)行速度,在表6中報(bào)告了包括模型訓(xùn)練和測(cè)試的硬件設(shè)備、測(cè)試時(shí)間和丟失率。對(duì)比分析發(fā)現(xiàn),CSP1達(dá)到了最好的檢測(cè)速度,但是其丟失率為8.33%,排名比較靠后。與CSP2相比,EPDNet1在速度和精度上均占有優(yōu)勢(shì),在檢測(cè)精度上提高了20個(gè)百分點(diǎn)。EPDNet也在保持檢測(cè)速度的同時(shí),達(dá)到了新的精度。使用CityPersons數(shù)據(jù)集訓(xùn)練的模型EPDNet+ City在2個(gè)閾值下均達(dá)到了最好的檢測(cè)結(jié)果,分別為4.43%和23.32%,性能均較之前模型有大幅度地提升。綜合來(lái)看,EPDNet在各個(gè)方面的性能均超過(guò)了其他的兩階段檢測(cè)器。通過(guò)對(duì)比實(shí)驗(yàn),使用可分離卷積和標(biāo)準(zhǔn)卷積相結(jié)合的思想,能夠更好地對(duì)模型進(jìn)行優(yōu)化,是目前平衡速度與精度的一種有效方法。

表6 Caltech數(shù)據(jù)集上檢測(cè)器性能對(duì)比

注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

3.3.2 CityPersons數(shù)據(jù)集上對(duì)比結(jié)果

本文實(shí)驗(yàn)展示了EPDNet和基準(zhǔn)模型在CityPersons數(shù)據(jù)集上的性能對(duì)比結(jié)果。對(duì)于CityPersons數(shù)據(jù)集的訓(xùn)練,本文實(shí)驗(yàn)采用單張GTX 1080Ti型號(hào)的GPU進(jìn)行,批量設(shè)置為3。表7數(shù)據(jù)顯示EPDNet在CityPersons的數(shù)據(jù)集上,獲得了12.6%的檢測(cè)丟失率和288 ms/img的檢測(cè)速度,在大分辨率圖片的檢測(cè)速度中具有突出的優(yōu)勢(shì)。在部分遮擋子集上,EPDNet相比基線(xiàn)模型在精度方面提高的更多,相比于TLL(MRF)模型提高超過(guò)3個(gè)百分點(diǎn)。特別是在無(wú)遮擋子集上,EPDNet達(dá)到了8.37%的-2。從嚴(yán)重遮擋子集上的檢測(cè)結(jié)果看,EPDNet在高遮擋的數(shù)據(jù)集上的性能仍然有待提高。受限于現(xiàn)階段計(jì)算機(jī)硬件設(shè)備的性能,對(duì)于大分辨率圖像的處理只能設(shè)置較小的批量。以計(jì)算機(jī)硬件的發(fā)展趨勢(shì)看,未來(lái)硬件設(shè)備能夠滿(mǎn)足大分辨率圖像的處理需求,設(shè)置更大的批量,可以進(jìn)一步提高模型的精度。

表7 CityPersons數(shù)據(jù)集上檢測(cè)器性能對(duì)比

注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

4 結(jié)論及展望

本文通過(guò)對(duì)行人檢測(cè)實(shí)時(shí)性能的研究,提出了一種深度可分卷積和標(biāo)準(zhǔn)卷積相結(jié)合的方法,并設(shè)計(jì)了深度卷積神經(jīng)網(wǎng)絡(luò)模型作為主干網(wǎng)絡(luò)來(lái)提取圖像特征,然后結(jié)合無(wú)錨點(diǎn)框的檢測(cè)思想,將主干網(wǎng)絡(luò)提取的特征圖直接輸入到檢測(cè)頭中,直接對(duì)特征進(jìn)行分類(lèi)和回歸。此外,為了增強(qiáng)特征圖的表達(dá)能力,本文通過(guò)特征融合方法,將2種卷積方式提取的特征圖進(jìn)行了融合,以進(jìn)一步提高模型的性能。實(shí)驗(yàn)結(jié)果表明,結(jié)合標(biāo)準(zhǔn)卷積和深度可分離卷積可有效提高模型的性能;不同階段的特征圖融合可以進(jìn)一步提高網(wǎng)絡(luò)性能。

在未來(lái)的工作中,將致力于進(jìn)一步研究輕量化模型的構(gòu)建方法,獲取更為高效的行人檢測(cè)器模型,在檢測(cè)精度和檢測(cè)速度方面達(dá)到新的權(quán)衡。

[1] 陳寧, 李夢(mèng)璐, 袁皓, 等. 遮擋情形下的行人檢測(cè)方法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(16): 13-20.

CHEN N, LI M L, YUAN H, et al. Review of pedestrian detection with occlusion[J]. Computer Engineering and Applications, 2020, 56(16): 13-20 (in Chinese).

[2] BRAZIL G, YIN X, LIU X M. Illuminating pedestrians via simultaneous detection and segmentation[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 4960-4969.

[3] ZHANG S S, BENENSON R, OMRAN M, et al. How far are we from solving pedestrian detection?[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1259-1267.

[4] HARIHARAN B, ARBELAEZ P, GIRSHICK R, et al. Simultaneous Detection and Segmentation[C]//European Conference on Computer Vision. Heidelberg: Springer, 2014: 297-312.

[5] PANG Y W, XIE J, KHAN M H, et al. Mask-guided attention network for occluded pedestrian detection[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 4966-4974.

[6] ZHANG S S, YANG J, SCHIELE B. Occluded pedestrian detection through guided attention in CNNs[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6995-7003.

[7] CAO J L, PANG Y W, HAN J G, et al. Taking a look at small-scale pedestrians and occluded pedestrians[J]. IEEE Transactions on Image Processing, 2020, 29: 3143-3152.

[8] LIU X, TOH K A, ALLEBACH J P. Pedestrian detection using pixel difference matrix projection[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 21(4): 1441-1454.

[9] ZHANG W J, TIAN L H, LI C, et al. A SSD-based crowded pedestrian detection method[C]//2018 International Conference on Control, Automation and Information Sciences. New York: IEEE Press, 2018: 222-226.

[10] LAN W B, DANG J W, WANG Y P, et al. Pedestrian detection based on YOLO network model[C]//2018 IEEE International Conference on Mechatronics and Automation. New York: IEEE Press, 2018: 1547-1551.

[11] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. [2017-04-17]. https://arxiv.org/abs/1704. 04861.

[12] REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. [2018-04-08]. https://arxiv.org/abs/ 1804.02767.

[13] ZHAO Y, YUAN Z J, CHEN B D. Accurate pedestrian detection by human pose regression[J]. IEEE Transactions on Image Processing, 2020, 29: 1591-1605.

[14] ZHANG S S, BENENSON R, SCHIELE B. CityPersons: a diverse dataset for pedestrian detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4457-4465.

[15] ZHANG S F, XIE Y L, WAN J, et al. WiderPerson: a diverse dataset for dense pedestrian detection in the wild[J]. IEEE Transactions on Multimedia, 2020, 22(2): 380-393.

[16] LIU W, LIAO S C, REN W Q, et al. High-level semantic feature detection: a new perspective for pedestrian detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5182-5191.

[17] DOLLAR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: an evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761.

[18] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2014-09-04]. https://arxiv.org/abs/1409.1556.

[19] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[20] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[21] ZHANG L L, LIN L, LIANG X D, et al. Is faster R-CNN doing well for pedestrian detection?[M]//Computer Vision – ECCV 2016. Cham: Springer International Publishing, 2016: 443-457.

[22] TESEMA F B, WU H, CHEN M J, et al. Hybrid channel based pedestrian detection[J]. Neurocomputing, 2020, 389: 1-8.

[23] LI J N, LIANG X D, SHEN S M, et al. Scale-aware fast R-CNN for pedestrian detection[J]. IEEE Transactions on Multimedia, 2018, 20(4): 985-996.

[24] CAI Z W, FAN Q F, FERIS R S, et al. A unified multi-scale deep convolutional neural network for fast object detection[C]// European Conference on Computer Vision. Heidelberg: Springer, 2016: 354-370.

[25] LAW H, DENG J. CornerNet: detecting objects as paired keypoints[J]. International Journal of Computer Vision, 2020, 128(3): 642-656.

[26] SONG T, SUN L Y, XIE D, et al. Small-scale pedestrian detection based on topological line localization and temporal feature aggregation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 554-569.

[27] LIU S T, HUANG D, WANG Y H. Receptive field block net for accurate and fast object detection[C]//European Conference on Computer Vision. Heidelberg: Springer, 2018: 404-419.

[28] CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3213-3223.

[29] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 248-255.

[30] TIAN Y L, LUO P, WANG X G, et al. Deep learning strong parts for pedestrian detection[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1904-1912.

[31] LI J N, LIANG X D, SHEN S M, et al. Scale-aware fast R-CNN for pedestrian detection[J]. IEEE Transactions on Multimedia, 2018, 20(4): 985-996.

[32] WANG X L, XIAO T T, JIANG Y N, et al. Repulsion loss: detecting pedestrians in a crowd[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 7774-7783.

Efficient pedestrian detector combining depthwise separable convolution and standard convolution

ZHANG Yun-bo1, YI Peng-fei1, ZHOU Dong-sheng1,2, ZHANG Qiang1,2, WEI Xiao-peng2

(1. Key Laboratory of Advanced Design and Intelligent Computing (Dalian University), Ministry of Education, Dalian Liaoning, 116622, China; 2. School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning, 116024, China)

Pedestrian detectors require the algorithm to be fast and accurate. Although pedestrian detectors based on deep convolutional neural networks (DCNN) have high detection accuracy, such detectors require higher capacity of calculation. Therefore, such pedestrian detectors cannot be deployed well on lightweight systems, such as mobile devices, embedded devices, and autonomous driving systems. Considering these problems, a lightweight and effective pedestrian detector (EPDNet) was proposed, which can better balance speed and accuracy. First, the shallow convolution layers of the backbone network employed depthwise separable convolution to compress the parameters of model, and the deeper convolution layers utilized standard convolution to extract high-level semantic features. In addition, in order to further improve the performance of the model, the backbone network adopted a feature fusion method to enhance the expression ability of its output features. Through comparative experiments, EPDNet has shown superior performance on two challenging pedestrian datasets, Caltech and CityPersons. Compared with the benchmark model, EPDNet has obtained a better trade-off between speed and accuracy, improving the speed and accuracy of EPDNet at the same time.

standardconvolution; depthwise separable convolution; feature fusion; lightweight; pedestrian detection

TP 391

10.11996/JG.j.2095-302X.2022020230

A

2095-302X(2022)02-0230-09

2021-07-21;

2021-10-21

國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(U1908214);遼寧特聘教授資助計(jì)劃;遼寧省中央指導(dǎo)地方科技發(fā)展專(zhuān)項(xiàng)(2021JH6/10500140);遼寧省高等學(xué)校、大連市及大連大學(xué)創(chuàng)新團(tuán)隊(duì)資助計(jì)劃;大連市雙重項(xiàng)目(2020JJ25CY001)

張運(yùn)波(1993–),男,碩士研究生。主要研究方向?yàn)閿?shù)字圖像處理與模式識(shí)別。E-mail:zhangyunbo1993@163.com

周東生(1978–),男,教授,博士。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、人機(jī)交互、人工智能和機(jī)器人等。E-mail:zhouds@dlu.edu.cn

21 July,2021;

21 October,2021

Key Program of Natural Science Foundation of China (U1908214); Program for the Liaoning Distinguished Professor; Special Project of Central Government Guiding Local Science and Technology Development (2021JH6/10500140); Program for Innovative Research Team in University of Liaoning Province; Dalian and Dalian University, and in Part by the Science and Technology Innovation Fund of Dalian (2020JJ25CY001)

ZHANG Yun-bo (1993–), master student. His main research interests cover digital image processing and pattern recognition. E-mail:zhangyunbo1993@163.com

ZHOU Dong-sheng (1978–), professor, Ph.D. His main research interests cover computer graphics, HRI, AI and robotics, etc. E-mail:zhouds@dlu.edu.cn

猜你喜歡
集上檢測(cè)器主干
全球首條1.2T超高速下一代互聯(lián)網(wǎng)主干通路
軍事文摘(2024年2期)2024-01-10 01:58:34
抓主干,簡(jiǎn)化簡(jiǎn)單句
二代支架時(shí)代數(shù)據(jù)中糖尿病對(duì)無(wú)保護(hù)左主干患者不同血運(yùn)重建術(shù)預(yù)后的影響
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
高齡無(wú)保護(hù)左主干病變患者血運(yùn)重建術(shù)的長(zhǎng)期預(yù)后
復(fù)扇形指標(biāo)集上的分布混沌
車(chē)道微波車(chē)輛檢測(cè)器的應(yīng)用
一種霧霾檢測(cè)器的研究與設(shè)計(jì)
一體化火焰檢測(cè)器常見(jiàn)故障分析
河南科技(2014年22期)2014-02-27 14:18:12
腾冲县| 蒲城县| 贡觉县| 邛崃市| 安义县| 鲁甸县| 乐亭县| 广丰县| 沁水县| 喜德县| 霍山县| 郓城县| 罗平县| 山阴县| 建湖县| 罗田县| 玉林市| 长寿区| 新化县| 上林县| 广水市| 新邵县| 荆州市| 于都县| 乐亭县| 长宁县| 鹤山市| 衡水市| 永善县| 依兰县| 大方县| 高邑县| 衡东县| 阿克陶县| 商南县| 横峰县| 乡城县| 舟曲县| 称多县| 迁西县| 东乡族自治县|