摘 ?要: 隨著無人駕駛技術(shù)的蓬勃發(fā)展,針對行人的檢測成為一大難點(diǎn),同時(shí)也是熱點(diǎn)研究問題。而針對傳統(tǒng)行人檢測框架(One-stage和Two-stage等)對小尺度行人檢測效果不佳的問題,本文在FPN網(wǎng)絡(luò)基礎(chǔ)上嘗試了新的策略,致力于提高視頻序列不同尺度行人的識別精度。算法先通過ResNet50提取特征,并采用FPN進(jìn)行多尺度特征融合,同時(shí)利用RPN產(chǎn)生推薦區(qū)域,最后Fast RCNN對RPN產(chǎn)生的推薦區(qū)域?qū)崿F(xiàn)分類與回歸,經(jīng)過非極大值抑制后處理等到最終結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文基于FPN構(gòu)建的行人檢測算法,在CityPersons數(shù)據(jù)集上達(dá)到了11.88% MR,比基準(zhǔn)模型Adapted Faster RCNN在小尺度行人檢測上有較大提升,相比于傳統(tǒng)檢測框架能更好的檢測不同尺度的行人。該技術(shù)可以廣泛應(yīng)用在智能視頻監(jiān)控,車輛輔助駕駛等領(lǐng)域中。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò);小尺度;行人檢測;FPN;特征融合
中圖分類號: TP3 ? ?文獻(xiàn)標(biāo)識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.12.023
本文著錄格式:羅強(qiáng),蓋佳航,鄭宏宇. 基于多尺度特征融合的小尺度行人檢測[J]. 軟件,2019,40(12):100105
Small-scale Pedestrian Detection Based on Multi-scale Feature Fusion
LUO Qiang, GAI Jia-hang, ZHENG Hong-yu
(Computer Science and Engineering School, Nanjing University of Technology, Nanjing, Jiangsu 210000)
【Abstract】: With vigorous development of unmanned driving technology, pedestrian detection has become a major difficulty, and a hot research issue. To solve the problem of being ineffective of traditional pedestrian detection frameworks (One-stage and Two-stage, etc.) for small-scale pedestrian, the paper tries to improve pedestrian recognition accuracy of different scales in video sequence with new strategy based on FPN network. Firstly, the algorithm carries on multi-scale feature fusion based on ResNet50 feature extractration with FPN. At the same time, generate recommendation regions with RPN. Finally, carry on classification and regression for RPN generated recommendation regions with Fast RCNN, obtainfinal results after non-maximum suppression processing. Experimental results show pedestrian detection algorithm based on FPN achieves 11.88% MR on CityPersons data set, which is much better than small-scale pedestrian detection with benchmark model Adapted Faster RCNN, and can detect pedestrians of different scales better than traditional detection framework. The technology can be widely applied in intelligent video surveillance, vehicle assisted driving and other fields.
【Key words】: Convolutional neural network; Small scale; Pedestrian detection; FPN; Feature fusion
0 ?引言
近年來,隨著人工智能的蓬勃發(fā)展,無人駕駛車輛的研究得到了重大發(fā)展。行人檢測是無人駕駛車輛研究的一個(gè)重要課題,對于提升車輛感知周圍行人的能力有重要影響。
目前,針對行人的檢測技術(shù)還不夠成熟,因?yàn)閺?fù)雜場景下的行人檢測面臨著許多挑戰(zhàn),如尺度、外觀姿態(tài)變化和遮擋等。第一點(diǎn)是在圖像或者視頻序列中所采集到的行人圖像尺度范圍分布較廣,且常常存在較遠(yuǎn)處的小尺度行人,難以被識別,加大了行人檢測的難度。第二點(diǎn)是行人的外觀變化,即不同場景下往往行人具有不同的光照條件、衣著、姿態(tài)等,給行人檢測帶來了巨大的挑戰(zhàn)。第三點(diǎn)便
是密集場景下行人的互相遮擋,使得行人檢測算法很難做出較為全面的檢測,限制了算法的精度。
本文主要研究的是行人檢測小尺度問題。現(xiàn)實(shí)場景中在視頻監(jiān)控時(shí)行人的尺度變化范圍較廣,目前通用的行人檢測算法不能很好的識別不同尺度的行人。本文在FPN網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行了新的嘗試,致力于提高不同尺度行人的識別精度。本文的研究 ?使得小尺度的行人檢測精度有了新的提高,理論上可以應(yīng)用在智能監(jiān)控、無人駕駛等領(lǐng)域精確的檢測行人。
1 ?小尺度行人檢測
對圖像中的物體進(jìn)行識別和定位是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)問題之一,作為目標(biāo)檢測的實(shí)際應(yīng)用之一的行人檢測,是利用計(jì)算機(jī)視覺技術(shù)判斷圖像或者視頻序列中是否存在行人并給予精確定位的技術(shù)。基于深度學(xué)習(xí)的行人檢測器可根據(jù)有無區(qū)域推薦過程分為一階段檢測器和二階段檢測器,還可根據(jù)是否依賴錨框分為Anchor-Based檢測器和Anchor- Free檢測器。
(1)一階段檢測器不依賴于區(qū)域推薦的過程,一般先定義一系列的先驗(yàn)框,然后由卷積神經(jīng)網(wǎng)絡(luò)從圖像提取特征,利用提取的特征對先驗(yàn)框經(jīng)過一次分類和回歸,最后經(jīng)過一次非極大值抑制算法進(jìn)行后處理,去除多余的檢測框,得到最終結(jié)果。由于算法流程簡單,因此算法速度較快,但精度一般低于兩階段檢測算法。例如YOLO[1]-[3]、SSD[4]等。
(2)兩階段檢測器依賴于區(qū)域推薦的過程,由區(qū)域推薦算法生成推薦區(qū)域,然后由卷積神經(jīng)網(wǎng)絡(luò)從圖像提取特征,利用提取的特征對推薦的區(qū)域進(jìn)行分類和回歸,得出精確的位置,最后經(jīng)過一次非極大值抑制算法進(jìn)行后處理,去除多余的檢測框,得到最終結(jié)果。由于存在區(qū)域推薦和兩階段級聯(lián)檢測,兩階段檢測算法精度上具有優(yōu)勢,但由于步驟繁瑣,速度總體慢于一階段檢測算法。例如RCNN[5]、Fast RCNN[6]、Faster RCNN[7]等。
圖1 ?一階段檢測算法流程
Fig.1 ?One phase detection algorithmic process
圖2 ?兩階段檢測算法流程
Fig.2 ?Two phase detection algorithmic process
(3)Anchor-Free檢測器不依賴于預(yù)定義的先驗(yàn)框,先由卷積神經(jīng)網(wǎng)絡(luò)從圖像提取特征,然后分類分支對特征圖逐點(diǎn)分類得到一個(gè)分類結(jié)果的熱力圖,由回歸分支對特征圖逐點(diǎn)回歸得出尺度和偏移量信息,最后通過后處理,得到最終的檢測結(jié)果。例如CSP[8]等。
圖3 ?Anchor-Free檢測算法流程
Fig.3 ?Anchor-Free detection algorithm process
1.1 ?算法流程
1.1.1 ?特征提取與融合流程
(1)特征提取
FPN算法[10]使用的主干卷積神經(jīng)網(wǎng)絡(luò)為ResNet50[9]。ResNet主要解決的是訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)困難的問題,其通過在網(wǎng)絡(luò)中加入跳層連接引入恒等映射,使得深層網(wǎng)絡(luò)更容易學(xué)得恒等映射,使得在適當(dāng)?shù)臅r(shí)候,網(wǎng)絡(luò)可與淺層網(wǎng)絡(luò)達(dá)到近似的效果,使得一般情況下深層神經(jīng)網(wǎng)絡(luò)至少不會(huì)產(chǎn)生比淺層神經(jīng)網(wǎng)絡(luò)更高的錯(cuò)誤率,同時(shí)也降低了優(yōu)化網(wǎng)絡(luò)的難度,并且解決了梯度消失的訓(xùn)練問題。ResNet50即為擁有50層卷積的ResNet,其中還引入了Bottleneck結(jié)構(gòu),通過1x1的卷積來降低運(yùn)算量,從而加速計(jì)算。ResNet50共有五個(gè)階段,特征提取時(shí),第一到第四階段的特征,分別取名為C2-C5,通道數(shù)為256,512,1024,2048,C2-C5全部輸出作為下一步特征融合的輸入。
(2)多尺度特征融合
FPN接收ResNet50的四個(gè)階段的特征C2-C5作為輸入,提供過引入橫向連接,使用1x1卷積先將C2-C5的通道數(shù)全部統(tǒng)一降為256,得到LC2- LC5,然后將從LC5開始,先通過最近鄰插值對其進(jìn)行上采樣,使得長寬擴(kuò)大為原來的一倍,并與LC4進(jìn)行逐點(diǎn)相加得到VC4,之后再將VC4上采樣,與LC3逐點(diǎn)相加得到VC3,如此往復(fù)可得到VC2-VC4,同時(shí)令LC5為VC5,然后再利用3x3,填充為1的卷積逐一作用在VC2-VC5上進(jìn)行進(jìn)一步特征融合,得到P2-P5,最后再利用1x1,步長為2最大池化作用于P5得到P6。P2-P6為多尺度、高低層特征融合得到的特征金字塔,各層都具有較強(qiáng)的語義信息,同時(shí)整個(gè)金字塔具有不同的感受野,有利于尺度變化情況較大場景下的行人檢測。
圖4 ?算法流程圖
Fig.4 ?Algorithm flowchart
圖5 ?殘差塊
Fig.5 ?Residual block
圖6 ?Bottleneck結(jié)構(gòu)
Fig.6 ?Bottleneck structure
圖7 ?多尺度特征融合
Fig.7 ?Multi-scale feature fusion
1.1.2 ?RPN區(qū)域推薦流程
(1)錨框計(jì)算
定義在特征圖上一個(gè)點(diǎn)的錨框即為一組擁有相同中心點(diǎn),但擁有不同的寬高比的矩形框,引入錨框可以作為坐標(biāo)回歸時(shí)的參照,從而降低坐標(biāo)回歸的難度。RPN接收到提取的特征后,根據(jù)預(yù)定義的一組尺度和寬高比參數(shù)為特征圖上每一個(gè)點(diǎn)都計(jì)算
圖8 ?錨框
Fig.8 ?Anchor frame
一組錨框,密集覆蓋了整張圖片。
(2)分類與回歸
RPN接收到P2-P6的特征后,為每一級特征都先使用一個(gè)3x3卷積進(jìn)行處理,然后由分類分支對特征圖上定義的每一個(gè)錨框進(jìn)行前景和背景二分類,同時(shí)還使用回歸分支為每一個(gè)錨框進(jìn)行坐標(biāo)偏移量的回歸,得出初步的坐標(biāo)位置。分類分支和回歸分支都僅由一個(gè)1x1卷積組成。
(3)后處理產(chǎn)生推薦區(qū)域
RPN對P2-P6的所有錨框進(jìn)行了分類和回歸后,分別對每一級產(chǎn)生的推薦區(qū)域進(jìn)行一次非極大值抑制抑制處理,減少了大量的虛檢,最后再綜合各級檢測結(jié)果,篩選前1000個(gè)置信度最高的框作為最終的推薦區(qū)域。
1.1.3 ?Fast RCNN
(1)ROIAlign
得到推薦區(qū)域后,ROIPooling操作可以根據(jù)輸入的推薦區(qū)域和特征圖對推薦區(qū)域進(jìn)行特征提取對齊,輸入到后一步的分類和回歸。但由于ROIPooling存在兩次量化操作,導(dǎo)致了一定程度上的特征對齊問題,因此影響了精度,而在MaskRCNN中提出的ROIAlign使用雙線性插值操作,避免了量化,因此可以更好的進(jìn)行特征對齊,因此在此處使用ROIAlign操作對推薦區(qū)域進(jìn)行特征提取對齊。
由于存在P2-P6的多級特征,且靠近低層的P2、P3等具有較高的分辨率,較小的感受野,適合檢測小物體,靠近高層的P5、P6具有較低的分辨率,較大的感受野,適合檢測大物體,因此在此處根據(jù)每一個(gè)推薦區(qū)域的尺度大小,將其動(dòng)態(tài)映射到適當(dāng)?shù)奶卣鹘鹱炙蛹夁M(jìn)行特征提取,更加有利于多尺度行人檢測。
(2)分類與回歸
推薦區(qū)域經(jīng)過特征提取后,F(xiàn)ast RCNN[6]對其使用全連接層進(jìn)行二次分類和回歸,得出更加準(zhǔn)確的分類結(jié)果和更加精確的坐標(biāo)位置,進(jìn)一步提升了算法的精度。
1.1.4 ?非極大值抑制后處理
經(jīng)過了Fast RCNN的分類和回歸后,仍然存在大量的虛檢,而這些虛檢的框往往與正確的框之間有很大的交并比(Intersection Over Union),因此可以預(yù)先設(shè)置一個(gè)閾值,并先將所有檢測框按置信度由高到低排列,取出有最大置信度的框與剩余所有框計(jì)算交并比,若大于該閾值,則將其移除,并將高置信度的框加入到最終結(jié)果集合,反復(fù)執(zhí)行貪心合并的過程,即可得到最終的檢測結(jié)果。
1.2 ?FPN訓(xùn)練細(xì)節(jié)
1.2.1 ?遷移學(xué)習(xí)
我們使用在ImageNet上預(yù)訓(xùn)練過的ResNet50進(jìn)行模型微調(diào),并將其前兩個(gè)階段凍結(jié),不進(jìn)行參
圖9 ?IoU計(jì)算
Fig.9 ?IoU calculation
圖10 ?非極大值抑制之前
Fig.10 ?Before non-maximum suppression
圖11 ?非極大值抑制之后
Fig.11 ?After non-maximum suppression
數(shù)更新。遷移學(xué)習(xí)被廣泛運(yùn)用在計(jì)算機(jī)視覺各個(gè)領(lǐng)域,它使得我們能在較小的數(shù)據(jù)集上加速收斂,并取得更好的結(jié)果。
1.2.2 ?數(shù)據(jù)預(yù)處理
對輸入圖片先進(jìn)行歸一化處理,然后以0.5的概率隨機(jī)進(jìn)行水平翻轉(zhuǎn),最后將其進(jìn)行0填充使得高和寬為32的倍數(shù)。
1.2.3 ?錨框參數(shù)
根據(jù)對數(shù)據(jù)集的統(tǒng)計(jì)和行人寬高比的先驗(yàn)知識的綜合考量,高寬比選擇為2.44,尺度為8。
1.2.4 ?非極大值抑制閾值
過高的閾值會(huì)導(dǎo)致較多的虛檢,而過低的閾值則會(huì)導(dǎo)致較多的漏檢,經(jīng)過實(shí)驗(yàn)考量,最終選擇閾值為0.5。
1.2.5 ?優(yōu)化參數(shù)
優(yōu)化器選擇為帶動(dòng)量的批量隨機(jī)梯度下降,學(xué)習(xí)率初始設(shè)置為0.02??偣灿?xùn)練12輪,前500次迭代進(jìn)行模型預(yù)熱,將學(xué)習(xí)率從0.006逐步線性增長到0.02,并在第9輪和第10輪時(shí)將學(xué)習(xí)率分別調(diào)整為0.002和0.0002。
2 ?實(shí)驗(yàn)結(jié)果與分析
2.1 ?實(shí)驗(yàn)數(shù)據(jù)集
本次實(shí)驗(yàn)使用的數(shù)據(jù)集為CityPersons行人檢測數(shù)據(jù)集[11]。CityPersons是在Cityscapes數(shù)據(jù)集的基礎(chǔ)上進(jìn)行精細(xì)的邊框標(biāo)注得到的一個(gè)具有多樣且復(fù)雜場景的行人檢測數(shù)據(jù)集。該數(shù)據(jù)集由訓(xùn)練集和驗(yàn)
表1 ?CityPersons數(shù)據(jù)集組成
Tab.1 ?Composition of CityPersons data set
Train Val. Test Sum
#cities 18 3 6 27
#images 2975 500 1575 5000
#persons 19654 3938 11424 35016
#ignore regions 6768 1631 4773 13172
圖12 ?CityPersons數(shù)據(jù)集
Fig.12 ?CityPersons data set
證集以及測試集組成。本次實(shí)驗(yàn)在訓(xùn)練集上進(jìn)行訓(xùn)練,在驗(yàn)證集上進(jìn)行實(shí)驗(yàn)效果評估,評估的標(biāo)準(zhǔn)為MR(Log Miss Rate Averaged Over FPPI Range Of [0.02, 1.00])。
2.2 ?實(shí)驗(yàn)環(huán)境
操作系統(tǒng):Ubuntu16.04
GPU:GTX 1080TI 11G
CPU:I7-8700
GPU加速庫:CUDA9.0
C++編譯器:GCC5.5
編程語言:Python3.6
深度學(xué)習(xí)框架: PyTorch1.1
2.3 ?實(shí)驗(yàn)結(jié)果
本次實(shí)驗(yàn)的基準(zhǔn)模型為Adapted Faster RCNN,如圖13所示。
2.4 ?實(shí)驗(yàn)結(jié)果分析
從實(shí)驗(yàn)結(jié)果1和2的MR_Resonable指標(biāo)可看出,在1x分辨率下,F(xiàn)PN達(dá)到了15.4%MR,略高于基準(zhǔn)模型Adapted Faster RCNN,從MR_Resonable_ small指標(biāo)來看,F(xiàn)PN在小尺度數(shù)據(jù)子集上達(dá)到了21.38% MR,大幅領(lǐng)先于基準(zhǔn)模型Adapted Faster RCNN,這表明了經(jīng)過多尺度特征融合后的FPN檢測算法在小尺度行人檢測上的優(yōu)越性。
由實(shí)驗(yàn)結(jié)果2和3可得出,在高寬比的選擇上,2.44由于更加符合人體的結(jié)構(gòu),使得先驗(yàn)框更加貼近目標(biāo)對象,降低了檢測的難度,因此也取得了更好的結(jié)果。
由實(shí)驗(yàn)結(jié)果2和4可得出,在FPN多尺度特征融合過程的特征選擇上,P2由于感受野過小,在ROIAlign操作中的特征圖匹配過程中并未起到太大的貢獻(xiàn),使用的價(jià)值并不大,去掉P2之后,模型得到了一定的提升。
圖13 ?CityPersons實(shí)驗(yàn)結(jié)果
Fig.13 ?CityPersons experimental results
在經(jīng)由對原圖進(jìn)行1.3倍上采樣后,從MR_ Resonable指標(biāo)可看出,使用單個(gè)寬高比2.44的FPN依舊領(lǐng)先于基準(zhǔn)模型Adapted Faster RCNN,同時(shí)在MR_Resonable_small指標(biāo)上,F(xiàn)PN依舊具有較大的優(yōu)勢。
為了進(jìn)一步提升FPN的表現(xiàn),在實(shí)驗(yàn)7,將圖片分別進(jìn)行1.2倍、1.3倍、1.4倍的上采樣,構(gòu)成圖像金字塔進(jìn)行多尺度測試,最后將所有的檢測結(jié)果通過非極大值抑制進(jìn)行融合,進(jìn)一步提升模型的精度,此時(shí)模型達(dá)到了最高的精度11.88% MR。
2.5 ?行人檢測效果展示
在CityPersons數(shù)據(jù)集上實(shí)驗(yàn)部分結(jié)果如圖14所示,本文提出的小尺度行人檢測算法能夠較好的檢測不同尺度的行人。
圖14 ?效果圖
Fig.14 ?Design sketch
3 ?結(jié)論
本項(xiàng)目實(shí)現(xiàn)了基于FPN的行人檢測算法,在CityPersons數(shù)據(jù)集上達(dá)到了11.88% MR,相對于基準(zhǔn)模型Adapted Faster RCNN在小尺度行人檢測上有較大提升,對多尺度場景下行人檢測具有一定的改進(jìn)。利用該技術(shù)可以在智能視頻監(jiān)控,車輛輔助駕駛和人體行為分析等應(yīng)用中發(fā)揮非常突出的作用,同時(shí)也可應(yīng)用于航空拍攝照相,自然災(zāi)害受害人員營救等領(lǐng)域,具有廣闊的應(yīng)用前景和較高的使用價(jià)值。
參考文獻(xiàn)
[1]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
[2]Redmon J, Farhadi A. YOLO9000: better, faster, stronger[C] //Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7263-7271.
[3]Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.
[4]Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot MultiBox Detector[J]. 2015.
[5]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.
[6]Uijlings J R R, Van De Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154-171.
[7]Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]// Advances in neural information processing systems. 2015: 91-99.
[8]Liu W, Liao S, Ren W, et al. High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 5187-5196.
[9]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[10]Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.
[11]Zhang S, Benenson R, Schiele B. Citypersons: A diverse dataset for pedestrian detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3213-3221.