朱繁 王洪元 張繼
摘 要:針對(duì)復(fù)雜場(chǎng)景下行人檢測(cè)效果差的問(wèn)題,采用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)中領(lǐng)先的研究成果,提出了一種基于改進(jìn)Mask RCNN框架的行人檢測(cè)算法。首先,采用Kmeans算法對(duì)行人數(shù)據(jù)集的目標(biāo)框進(jìn)行聚類(lèi)得到合適的長(zhǎng)寬比,通過(guò)增加一組長(zhǎng)寬比(2 ∶5)使12種anchors適應(yīng)圖像中行人的尺寸;然后,結(jié)合細(xì)粒度圖像識(shí)別技術(shù),實(shí)現(xiàn)行人的高定位精度;其次,采用全卷積網(wǎng)絡(luò)(FCN)分割前景對(duì)象,并進(jìn)行像素預(yù)測(cè)獲得行人的局部掩碼(上半身、下半身),實(shí)現(xiàn)對(duì)行人的細(xì)粒度檢測(cè); 最后,通過(guò)學(xué)習(xí)行人的局部特征獲得行人的整體掩碼。為了驗(yàn)證改進(jìn)算法的有效性,將其與當(dāng)前具有代表性的目標(biāo)檢測(cè)方法(如更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster RCNN)、YOLOv2、RFCN)在同數(shù)據(jù)集上進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的算法提高了行人檢測(cè)的速度和精度,并且降低了誤檢率。
關(guān)鍵詞:Mask RCNN;行人檢測(cè);Kmeans算法;細(xì)粒度;全卷積網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A
Finegrained pedestrian detection algorithm based on improved Mask RCNN
ZHU Fan, WANG Hongyuan*, ZHANG Ji
College of Information Science and Engineering, Changzhou University, Changzhou Jiangsu 213164, China
Abstract:
Aiming at the problem of poor pedestrian detection effect in complex scenes, a pedestrian detection algorithm based on improved Mask RCNNframework was proposed with the use of the leading research results in deep learningbased object detection. Firstly,Kmeans algorithm was used to cluster the object frames of the pedestrian datasets to obtain the appropriate aspect ratio. By adding the set of aspect ratio (2∶5), 12 anchors were able to be adapted to the size of the pedestrian in the image. Secondly, combined with the technology of finegrained image recognition, the high accuracy of pedestrian positioning was realized. Thirdly, the foreground object was segmented by the Full Convolutional Network (FCN), and pixel prediction was performed to obtain the local mask (upper body, lower body) of the pedestrian, so as to achieve the finegrained detection of pedestrians. Finally, the overall mask of the pedestrian was obtained by learning the local features of the pedestrian. In order to verify the effectiveness of the improved algorithm, the proposed algorithm was compared with the current representative object detection methods (such as Faster Regionbased Convolutional Neural Network (Faster RCNN), YOLOv2 and RFCN (Regionbased Fully Convolutional Network)) on the same dataset. The experimental results show that the improved algorithm increases the speed and accuracy of pedestrian detection and reduces the false positive rate.
Key words:
Mask RCNN (Region with Convolutional Neural Network); pedestrian detection;Kmeans algorithm; finegrained; Fully Convolutional Network (FCN)
0?引言
行人檢測(cè)技術(shù)由于應(yīng)用的廣泛性使其在計(jì)算機(jī)視覺(jué)領(lǐng)域成為一個(gè)重要的分支,對(duì)視頻監(jiān)控、車(chē)輛輔助駕駛、智能機(jī)器人等多個(gè)領(lǐng)域提供了重要的技術(shù)支持。它與行人重識(shí)別、目標(biāo)跟蹤等領(lǐng)域的聯(lián)系密切相關(guān),被認(rèn)為是一個(gè)圖像檢索的子問(wèn)題。
傳統(tǒng)的行人檢測(cè)方法大多以圖像識(shí)別為基礎(chǔ),并基于人工設(shè)計(jì)的特征提取器進(jìn)行特征的提取。首先, 在圖片上使用窮舉法選出所有物體可能出現(xiàn)的目標(biāo)區(qū)域框; 然后,對(duì)這些區(qū)域框提取Haar[1]、方向梯度直方圖(Histogram of Oriented Gradient,HOG)[2]、局部二值模式(Local Binary Pattern, LBP)[3]等特征,并使用圖像識(shí)別方法分類(lèi)得到所有分類(lèi)成功的區(qū)域;最后,通過(guò)非極大值抑制將結(jié)果輸出。但這種方法不僅復(fù)雜度高、魯棒性差,而且產(chǎn)生了大量的候選區(qū)冗余區(qū)域。
2014年,Girshick等[4]設(shè)計(jì)了基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Region with Convolutional Neural Network, RCNN),使用候選區(qū)域(Region Proposal)和分類(lèi)卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型用于檢測(cè)。這使得目標(biāo)檢測(cè)與識(shí)別技術(shù)取得了巨大突破,并掀起了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)與識(shí)別的熱潮。RCNN算法遵循了傳統(tǒng)目標(biāo)檢測(cè)的思路,同樣采用提取框、對(duì)每個(gè)框提取特征、圖像分類(lèi)、非極大值抑制4個(gè)步驟進(jìn)行目標(biāo)檢測(cè),只不過(guò)在提取特征這一步,將傳統(tǒng)的特征(如尺度不變特征變換(ScaleInvariant Feature Transform, SIFT)[5-6]、HOG特征[7-9]等)換成了深度卷積網(wǎng)絡(luò)提取的特征??焖賲^(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast Regionbased Convolutional Neural Network, Fast RCNN)[10]、更快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Regionbased Convolutional Neural Network, Faster RCNN)[11]、Mask RCNN[12]等深度網(wǎng)絡(luò)框架都是建立在RCNN的基礎(chǔ)之上,以及單階段檢測(cè)器算法YOLO(You Only Look Once)[13-15]、SSD(Single Shot MultiBoxDetector)[16],均獲得了更多研究者的追捧[17-22]。
隨著深度網(wǎng)絡(luò)框架的逐步成熟,對(duì)于行人檢測(cè)技術(shù)的要求也進(jìn)一步地提升。而對(duì)于在復(fù)雜場(chǎng)景下或者目標(biāo)較遠(yuǎn)的行人圖像,行人檢測(cè)的檢測(cè)問(wèn)題依舊存在,并且對(duì)于檢測(cè)精度和檢測(cè)速度有著更高的要求。因此考慮到使用細(xì)粒度圖像的技術(shù),細(xì)粒度圖像識(shí)別被認(rèn)為是一個(gè)具有挑戰(zhàn)性的計(jì)算機(jī)視覺(jué)問(wèn)題,由于高度相似的從屬類(lèi)別引起的小的類(lèi)間變化,以及姿勢(shì)、尺度和旋轉(zhuǎn)的大的類(lèi)內(nèi)變化。細(xì)粒度識(shí)別任務(wù),如識(shí)別鳥(niǎo)類(lèi)[23]、花[24]和汽車(chē)[25]等,在計(jì)算機(jī)視覺(jué)和模式識(shí)別的應(yīng)用中很受歡迎。細(xì)粒度識(shí)別更有利于學(xué)習(xí)目標(biāo)的關(guān)鍵部分,這有助于區(qū)分不同子類(lèi)的對(duì)象并匹配相同子類(lèi)的對(duì)象[26-30],可以更加準(zhǔn)確地學(xué)習(xí)行人的特征。
因此,本文采用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)中領(lǐng)先的研究成果,提出將Mask RCNN結(jié)構(gòu)用于行人檢測(cè),主要工作包含以下幾個(gè)部分:
1)數(shù)據(jù)集選取與制作階段,在已標(biāo)注好的數(shù)據(jù)集上,采用水平翻轉(zhuǎn)及加噪的方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。
2)數(shù)據(jù)訓(xùn)練階段,采用Kmeans算法對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)獲得合適的anchors的長(zhǎng)寬比,并采用全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)構(gòu)建部位分割模型,分別提取行人的上半身、下半身和整體的特征,將這些特征信息融合完成行人的檢測(cè)。
3)模型評(píng)估階段,從檢測(cè)精度、檢測(cè)速度和誤檢率3個(gè)指標(biāo)對(duì)本文的模型進(jìn)行評(píng)估,并與當(dāng)前主流的目標(biāo)檢測(cè)算法進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證本文算法的可行性和有效性。
1?網(wǎng)絡(luò)框架
1.1?Mask RCNN算法
本文采用Mask RCNN算法實(shí)現(xiàn)對(duì)圖像中行人的檢測(cè),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。首先對(duì)輸入(input)任意尺寸大小的行人圖像進(jìn)行卷積特征提取構(gòu)成特征圖(feature map),之后在區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network, RPN)中,使得區(qū)域生成(proposals)、分類(lèi)(category)、回歸(bbox regression)共用卷積層,加快計(jì)算速度。與之并行的特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network, FPN)在實(shí)現(xiàn)行人檢測(cè)的同時(shí)把行人目標(biāo)的像素分割出來(lái),并給出行人在圖片中的位置坐標(biāo)(coordinates)。
Mask RCNN算法采用兩階段檢測(cè)方法。第一階段是生成目標(biāo)候選區(qū)域,提出候選對(duì)象邊界框(與Faster RCNN算法相同);在第二階段, Mask RCNN為每個(gè)感興趣區(qū)域(Region of Interest, RoI)輸出二進(jìn)制掩碼,與預(yù)測(cè)類(lèi)和邊界框偏移并行,其中分類(lèi)取決于掩碼預(yù)測(cè)(例如文獻(xiàn)[31-32])。在訓(xùn)練期間,Mask RCNN算法為每個(gè)采樣的RoI上的多任務(wù)損失函數(shù)定義為:
L=Lcls+Lbox+Lmask(1)
其中:Lcls表示分類(lèi)損失,Lbox表示邊界框損失,Lmask表示分割損失。
Mask RCNN算法提出了一個(gè)RoIAlign層,采用雙線(xiàn)性?xún)?nèi)插的方法獲得坐標(biāo)為浮點(diǎn)數(shù)的像素點(diǎn)上的圖像數(shù)值,避免對(duì)RoI邊界或區(qū)間進(jìn)行任何量化(例如,使用x/16而不是[x/16]),從而將整個(gè)特征聚集過(guò)程轉(zhuǎn)化為一個(gè)連續(xù)的操作。在具體的算法操作上,RoIAlign并不是簡(jiǎn)單地補(bǔ)充出候選區(qū)域邊界上的坐標(biāo)點(diǎn)進(jìn)行池化,而是通過(guò):1)遍歷每一個(gè)候選區(qū)域,保持浮點(diǎn)數(shù)邊界不做量化;2)將候選區(qū)域分割成K×K個(gè)單元,每個(gè)單元的邊界也不做量化;3)在每個(gè)單元中計(jì)算固定四個(gè)坐標(biāo)位置,用雙線(xiàn)性?xún)?nèi)插的方法計(jì)算出這四個(gè)位置的值,然后進(jìn)行最大池化操作。RoIAlign是在Mask RCNN中區(qū)域特征聚集方式,可以很好地解決RoI池化操作中兩次量化造成的區(qū)域不匹配(misalignment)的問(wèn)題,進(jìn)而提升檢測(cè)模型的準(zhǔn)確性。
1.2?改進(jìn)的Mask RCNN算法
本文在原有Mask RCNN檢測(cè)框架的基礎(chǔ)上,做了一些改進(jìn),網(wǎng)絡(luò)框架如圖2所示。同樣為兩個(gè)部分:第一部分是生成候選區(qū)域;第二部分是學(xué)習(xí)全局和局部圖像塊的特征,主要是借助FCN學(xué)習(xí)部位分割模型(partbased segmentation model),具體見(jiàn)1.2.3節(jié)內(nèi)容。
1.2.1?區(qū)域生成網(wǎng)絡(luò)
RPN是在最后一層特征圖上進(jìn)行特征提取,采用滑動(dòng)窗口的方式掃描整張圖像,尋找存在的目標(biāo)區(qū)域(anchor)。對(duì)于圖像上的每一個(gè)位置考慮9個(gè)可能的候選窗口:3種尺度(1282,2562,5122)和3種長(zhǎng)寬比(1∶1,1∶2,2∶1)。在不同的尺寸大小和長(zhǎng)寬比下,在該圖像上會(huì)產(chǎn)生將近20-000個(gè)目標(biāo)區(qū)域,并且這些區(qū)域相互重疊,盡可能地覆蓋在整張圖像上。RPN為每個(gè)anchor生成兩個(gè)輸出,即anchor類(lèi)別和邊框調(diào)整。對(duì)于互相重疊的多個(gè)anchor,采用非極大值抑制給出目標(biāo)的粗略結(jié)果,保留擁有最高前景分?jǐn)?shù)的anchor,因此,使用RPN預(yù)測(cè)可以選出最好的包含目標(biāo)的anchor,并應(yīng)用邊框進(jìn)行精調(diào)。
1.2.2?特征金字塔網(wǎng)絡(luò)
由于RPN是在得到的最后一層特征圖上進(jìn)行特征提取,在頂層的特征中不能完整地反映目標(biāo)的信息。因此,結(jié)合多層級(jí)的特征可以大幅提高多尺度檢測(cè)的準(zhǔn)確性。FPN主要解決目標(biāo)檢測(cè)的多尺度問(wèn)題,通過(guò)簡(jiǎn)單的網(wǎng)絡(luò)連接改變,在基本不增加原有模型計(jì)算量的情況下,可以大幅度提升目標(biāo)的檢測(cè)性能。
1.2.3?圖像分割
本文使用FCN用于圖像的分割,F(xiàn)CN可以采用任何分辨率的輸入圖像,并產(chǎn)生相同大小的輸出。FCN不僅在細(xì)粒度圖像中定位目標(biāo),而且還將分割預(yù)測(cè)視為目標(biāo)掩碼。對(duì)于有效的訓(xùn)練,所有訓(xùn)練和測(cè)試細(xì)粒度圖像保持其原始圖像的分辨率。
FCN掩碼學(xué)習(xí)過(guò)程如圖3所示。首先將原始圖片通過(guò)FCN進(jìn)行像素預(yù)測(cè),獲得目標(biāo)的局部掩碼,如果像素預(yù)測(cè)為目標(biāo)的局部位置(上半身、下半身),則保留掩碼的實(shí)際值,即對(duì)行人進(jìn)行細(xì)粒度檢測(cè);否則,如果像素指示區(qū)域是背景,則掩碼中這些背景區(qū)域的值被重置為零值。對(duì)于圖像中的每一個(gè)行人,均會(huì)學(xué)習(xí)到每個(gè)人的全局和局部特征,學(xué)習(xí)的FCN模型也能夠返回更準(zhǔn)確的目標(biāo)掩碼。同時(shí),這些目標(biāo)掩碼還可以通過(guò)找到它們的包圍矩形來(lái)定位目標(biāo)位置。本文實(shí)驗(yàn)中,采用FCN-8[33]來(lái)學(xué)習(xí)和預(yù)測(cè)目標(biāo)掩碼。
特征學(xué)習(xí)如圖4所示。
圖4中三個(gè)流分別對(duì)應(yīng)行人的整體、上半身和下半身圖像塊,通過(guò)卷積、激活、池化、判別器選擇等一系列操作,分別學(xué)習(xí)這三個(gè)圖像塊的特征。為提高圖像中行人的檢測(cè)精度,讓不同細(xì)粒度的特征參與行人檢測(cè),因此,本文結(jié)合不同細(xì)粒度圖像特征,可以增強(qiáng)行人檢測(cè)的魯棒性。
2?網(wǎng)絡(luò)訓(xùn)練
本文采用改進(jìn)的Mask RCNN結(jié)構(gòu)為模型,訓(xùn)練行人檢測(cè)器。為加快訓(xùn)練速度并防止過(guò)擬合,在訓(xùn)練期間需設(shè)置合理的參數(shù),具體參數(shù)設(shè)置如表1所示。
2.1?數(shù)據(jù)集選取與制作
基于深度學(xué)習(xí)的行人檢測(cè)方法需要大量的數(shù)據(jù)集, 因此,本文從最具典型的COCO2014數(shù)據(jù)集中選取具有代表性的圖像,主要包括復(fù)雜場(chǎng)景下、行人密集、光照變化明顯等難檢測(cè)的行人圖像1-500張,以及2018年江蘇省研究生計(jì)算機(jī)視覺(jué)創(chuàng)新實(shí)踐大賽官方給出的205張行人圖像。使用labelme軟件完成數(shù)據(jù)集的標(biāo)注工作,主要標(biāo)注行人上半身、下半身和全身的標(biāo)簽信息。其中訓(xùn)練集包含正樣本圖像1-455張,行人數(shù)目為4-368個(gè);測(cè)試集包含正樣本圖像250張,行人數(shù)目為756個(gè)。
針對(duì)不同的數(shù)據(jù)集及不同大小的目標(biāo),修改anchor的大小和數(shù)量,可以加快收斂速度,提高檢測(cè)精度。考慮到2018年江蘇省研究生計(jì)算機(jī)視覺(jué)創(chuàng)新實(shí)踐大賽官方給出的數(shù)據(jù)集中行人姿勢(shì)、動(dòng)作的特點(diǎn),采用1.2.1節(jié)中的3種尺度和3種長(zhǎng)寬比并不合理,因此本文增加1組長(zhǎng)寬比,此時(shí)anchor對(duì)應(yīng)長(zhǎng)寬比為(1∶1,1∶2,2∶1,2∶5),尺度不變。
2.2?預(yù)訓(xùn)練
為減少訓(xùn)練時(shí)間,采用MSCOCO預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練。在COCO2014數(shù)據(jù)集上訓(xùn)練20個(gè)循環(huán)(epoch)后得預(yù)訓(xùn)練參數(shù)。選擇了ResNet50網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),需要檢測(cè)的物體只有行人,再加上背景則一共有兩類(lèi)。
2.3?聚類(lèi)選取初始候選框
在網(wǎng)絡(luò)訓(xùn)練階段,隨著迭代次數(shù)的不斷增加,網(wǎng)絡(luò)學(xué)習(xí)到行人的全局特征,預(yù)測(cè)框的參數(shù)不斷調(diào)整,最終接近真實(shí)框。為了加快收斂速度,提高行人檢測(cè)的位置精度,本文通過(guò)分析圖像中行人寬高的特點(diǎn),采用Kmeans算法進(jìn)行聚類(lèi),本文的Kmeans聚類(lèi)算法采用歐氏距離來(lái)衡量數(shù)據(jù)對(duì)象間的距離,其中Kmeans聚類(lèi)算法通過(guò)給定bounding boxes的anchors數(shù)量的中心位置,計(jì)算兩者之間的歐氏距離,選取距離真實(shí)框最近的一個(gè)anchor。重復(fù)這樣的操作,直至滿(mǎn)足所給定的anchors數(shù)量。最終確定anchor的長(zhǎng)寬比為(1∶1,1∶2,2∶1,2∶5)。
預(yù)測(cè)框和真實(shí)框的交并比 (Intersection Over Union,IOU)是反映預(yù)測(cè)框與真實(shí)框差異的重要指標(biāo),IOU值越大,則(1-IOU)的值就越小,這表明兩者差異越小,“距離”越近。聚類(lèi)的目標(biāo)函數(shù)為:
min∑N∑M(1-IOU(Box[N],Truth[M]))(2)
其中:N表示聚類(lèi)的類(lèi)別,M表示聚類(lèi)的樣本集,Box[N]表示聚類(lèi)得到預(yù)測(cè)框的寬高,Truth[M]表示真實(shí)框的寬高。
3?實(shí)驗(yàn)結(jié)果與分析
本文實(shí)驗(yàn)環(huán)境為:ubuntu18.04,64位操作系統(tǒng),深度學(xué)習(xí)框架為T(mén)ensorFlow,1個(gè)GPU,代碼運(yùn)行環(huán)境為Python3.6.3。對(duì)于行人圖像目標(biāo)檢測(cè),本文采用檢測(cè)精度(Average Precision,AP)、誤檢率(False Positive Rate,F(xiàn)RP)、檢測(cè)速度(Detection Rate,DR)3個(gè)指標(biāo),其中DR表示每張圖片的檢測(cè)時(shí)間,單位:秒。
3.1?實(shí)驗(yàn)可視化結(jié)果
本文實(shí)驗(yàn)的可視化結(jié)果如圖5所示。從數(shù)據(jù)集中選取了2張典型的圖像,包括光照變化明顯、行人密集、姿勢(shì)復(fù)雜的圖像,用矩形框正確標(biāo)記出圖像中的行人,并利用實(shí)例分割將每個(gè)行人作為一個(gè)實(shí)例顯現(xiàn)地標(biāo)記出來(lái)。
3.2?數(shù)據(jù)增強(qiáng)對(duì)比實(shí)驗(yàn)
由于深度學(xué)習(xí)需要大量的數(shù)據(jù)量,為了增加訓(xùn)練集的數(shù)據(jù)量,本文對(duì)現(xiàn)有的數(shù)據(jù)集采用水平翻轉(zhuǎn)、加噪等方式對(duì)數(shù)據(jù)進(jìn)行擴(kuò)充,如圖6所示。
根據(jù)表2的實(shí)驗(yàn)可知,當(dāng)訓(xùn)練集從1-455張行人圖像擴(kuò)充至5-820張行人圖像后,目標(biāo)的檢測(cè)精度提高了9.58%,誤檢率降低了2.64%。因此,對(duì)數(shù)據(jù)集進(jìn)行合理的擴(kuò)充,有利于網(wǎng)絡(luò)充分學(xué)習(xí)行人圖像的特征,提高目標(biāo)的檢測(cè)性能。接下來(lái)的實(shí)驗(yàn)均是在數(shù)據(jù)集擴(kuò)充的基礎(chǔ)上進(jìn)行。
3.3?采用不同策略訓(xùn)練網(wǎng)絡(luò)的檢測(cè)結(jié)果對(duì)比
為了驗(yàn)證本文所提出方法的有效性,分別采用不同策略對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測(cè)試,具體檢測(cè)結(jié)果如表3所示。原始Mask RCNN算法中anchors的個(gè)數(shù)為9,即3種長(zhǎng)寬比(1∶1,1∶2,2∶1)和3種尺度(1282,2562,5122)。本文根據(jù)行人數(shù)據(jù)集的特點(diǎn)采用Kmeans聚類(lèi)的方法獲得適合本實(shí)驗(yàn)數(shù)據(jù)的長(zhǎng)寬比為(1∶1,1∶2,2∶1,2∶5),最終將anchor數(shù)量從9增加至12。如表3所示,對(duì)比兩種策略實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn):選用合適的anchors的尺度和長(zhǎng)寬比,可使平均檢測(cè)精度提升6.53個(gè)百分點(diǎn),誤檢率降低2.15個(gè)百分點(diǎn)。
3.4?消融實(shí)驗(yàn)
為了分析目標(biāo)的每個(gè)部分對(duì)于模型的貢獻(xiàn)度,本文對(duì)數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn)。將在原始整體特征學(xué)習(xí)的模型的基礎(chǔ)上只加入上半身特征學(xué)習(xí)的模型表示為part-1,只加入下半身特征學(xué)習(xí)的模型表示為part-2。實(shí)驗(yàn)結(jié)果如表4所示,根據(jù)表4可知,本文只加入上半身特征學(xué)習(xí)后檢測(cè)精度提高了2.27個(gè)百分點(diǎn),只加入下半身特征學(xué)習(xí)后檢測(cè)精度提高了0.76 個(gè)百分點(diǎn)。二者特征學(xué)習(xí)均加入之后的檢測(cè)精度整體上提高了3.24個(gè)百分點(diǎn)。
3.5?不同目標(biāo)檢測(cè)算法結(jié)果對(duì)比
本文將改進(jìn)后的算法(即本文算法)同具有代表性的目標(biāo)檢測(cè)算法進(jìn)行比較,包括單階段檢測(cè)器(回歸系列算法)中的YOLOv2算法、YOLOv3算法和SSD算法;兩階段檢測(cè)器(區(qū)域建議系列算法)中的RFCN算法、Faster RCNN算法和Mask RCNN算法。其中單階段檢測(cè)器將目標(biāo)檢測(cè)視作單個(gè)回歸問(wèn)題,網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,直接給出最終的檢測(cè)結(jié)果,其檢測(cè)速度較快,但準(zhǔn)確率較低;兩階段檢測(cè)器首先生成可能包含物體的候選區(qū)域,之后對(duì)候選區(qū)域作進(jìn)一步的分類(lèi)和校準(zhǔn),得到最終的檢測(cè)結(jié)果,其準(zhǔn)確率較高,但檢測(cè)速度較慢。
實(shí)驗(yàn)對(duì)比結(jié)果如表5所示,對(duì)比幾種目標(biāo)檢測(cè)算法的實(shí)驗(yàn)結(jié)果可發(fā)現(xiàn):本文在Mask RCNN基礎(chǔ)上考慮細(xì)粒度圖像的特點(diǎn),增加anchors的個(gè)數(shù),在提高檢測(cè)精度的同時(shí)提高了檢測(cè)速度。本文算法較回歸算法中YOLOv2算法的檢測(cè)精度提高了9.06個(gè)百分點(diǎn),誤檢率降低了1.09個(gè)百分點(diǎn);較區(qū)域建議系列算法中Faster RCNN算法的檢測(cè)精度提高了1.90個(gè)百分點(diǎn),誤檢率降低了0.49個(gè)百分點(diǎn);較Mask RCNN算法的檢測(cè)精度提高了3.24個(gè)百分點(diǎn),且誤檢率降低了0.55個(gè)百分點(diǎn),而檢測(cè)速度略低于單階段檢測(cè)器算法,約0.1個(gè)百分點(diǎn);但相較區(qū)域建議系列算法有了明顯的提高。
3.6?不同數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文算法的普適性,將訓(xùn)練出來(lái)的模型分別在INRIA數(shù)據(jù)集、COCO2017數(shù)據(jù)集上進(jìn)行測(cè)試。
3.6.1?INRIA數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
數(shù)據(jù)集INRIA的測(cè)試集有288張正樣本(包含2-416個(gè)行人),453張負(fù)樣本(包含1-126個(gè)行人)。在INRIA上的實(shí)驗(yàn)結(jié)果如表6所示,可以發(fā)現(xiàn): 本文算法相較于其他的檢測(cè)算法在檢測(cè)精度仍占有一定的優(yōu)勢(shì),檢測(cè)精度比YOLOv3算法和Mask RCNN算法分別提高了9.56個(gè)百分點(diǎn)、2.18個(gè)百分點(diǎn);檢測(cè)速度相較于Mask RCNN算法仍提高了0.411個(gè)百分點(diǎn),略低于單階段檢測(cè)器YOLOv2和YOLOv3算法的檢測(cè)速度。
3.6.2?COCO2017數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
COCO2017數(shù)據(jù)集的測(cè)試集包含40-670張圖像,從中隨機(jī)挑選200張圖像進(jìn)行測(cè)試。在挑選出來(lái)的200張圖像上的實(shí)驗(yàn)結(jié)果如表7所示。可以發(fā)現(xiàn):本文算法的檢測(cè)精度較YOLOv2算法、YOLOv3算法、Mask RCNN算法分別提高了11.54個(gè)百分點(diǎn)、7.61個(gè)百分點(diǎn)、5.48個(gè)百分點(diǎn);檢測(cè)速度與其他算法十分接近。
4?結(jié)語(yǔ)
本文針對(duì)復(fù)雜場(chǎng)景下的行人圖像進(jìn)行深入研究,在初始Mask RCNN框架的基礎(chǔ)上,采用數(shù)據(jù)增強(qiáng)的方式對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,針對(duì)數(shù)據(jù)集的特點(diǎn)采用Kmeans算法調(diào)整anchor數(shù)量和大小,結(jié)合ResNet50、FPN、FCN等架構(gòu)來(lái)提升行人的檢測(cè)能力,并結(jié)合了行人細(xì)粒度屬性,有效地提高了行人的檢測(cè)精度。由于行人檢測(cè)與行人重識(shí)別、行人跟蹤等領(lǐng)域密切相關(guān),因此行人檢測(cè)技術(shù)的提升有利于行人重識(shí)別、行人跟蹤技術(shù)的提升。但本文對(duì)于行人的檢測(cè)速度仍低于單階段檢測(cè)器的檢測(cè)速度,因此,接下來(lái)對(duì)于檢測(cè)速度的提升還有待研究。并且近年來(lái),很多研究者致力于提取更多信息輔助檢測(cè)(如光流信息、運(yùn)動(dòng)信息和環(huán)境信息等),提高特征表達(dá)能力,未來(lái)將對(duì)其進(jìn)行更深一步的探討。
參考文獻(xiàn) (References)
[1]PAPAGEORGIOU C P, OREN M, POGGIO T. A general framework for object detection [C]// Proceedings of the 6th IEEE International Conference on Computer Vision. Piscatway: IEEE, 1998:555-562.
[2]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2005: 886-893.
[3]WANG X Y, HAN T, YAN S C. An HOGLBP human detector with partial occlusion handling [C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway: IEEE, 2009: 32-39.
[4]GIRSHICK R, DONAHUE J, DARRELL T, et al. Regionbased convolutional networks for accurate object detection and segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(1): 142-158.
[5]LOWE D G. Object recognition from local scaleinvariant features [C]// Proceedings of the 1999 International Conference on Computer Vision. Piscataway: IEEE, 1999:1150-1157.
[6]LOWE D G. Distinctive image features from scaleinvariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.
[7]WANG S F, YAN J H, WANG Z G. Improved moving object detection algorithm based on local united feature [J]. Chinese Journal of Scientific Instrument, 2015, 36(10): 2241-2248.
[8]VIOLA P A, JONES M J. Rapid object detection using a boosted cascade of simple features [C]// Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2001:511-518.
[9]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2005:886-893.
[10]GIRSHICK R. Fast RCNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1440-1448.
[11]REN S Q, HE K M, GIRSHICK R, et al. Faster RCNN: towards realtime object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.
[12]HE K M, GKIOXARI G, GIRSHICK R, et al. Mask RCNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.
[13]REDMON J, DIVVALA S K, GIRSHICK R, et al. You only look once: unified, realtime object detection [C]// Proceedings of the 29th IEEE Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016:779-788.
[14]REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6517-6525.
[15]REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. [2019-03-26]. https://arxiv.org/pdf/1804.02767.pdf.
[16]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.
[17]張中寶, 王洪元, 楊薇. 基于FasterRCNN的遙感圖像飛機(jī)檢測(cè)算法[J]. 南京師大學(xué)報(bào)(自然科學(xué)版), 2018, 41(4): 79-86.(ZHANG Z B, WANG H Y, YANG W. Remote sensing image aircraft detection algorithm based on Faster RCNN [J]. Journal of Nanjing Normal University (Natural Science Edition), 2018, 41(4): 79-86.)
[18]YANG W, ZHANG J, ZHANG Z B, et al. Research on realtime vehicle detection algorithm based on deep learning [C]// Proceedings of the 2018 Chinese Conference on Pattern Recognition and Computer Vision. Berlin: Springer, 2018: 126-127.
[19]YANG W, ZHANG J, WANG H Y, et al. A vehicle realtime detection algorithm based on YOLOv2 framework [C]// Proceedings of the 2018 RealTime Image and Video Processing. Bellingham, WA: SPIE, 2018: 106700N.
[20]PHAM M T, LEFEVRE S. Buried object detection from BScan ground penetrating radar data using FasterRCNN [C]// Proceedings of the 2018 IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE, 2018: 6804-6807.
[21]KIM J, BATCHULUUN G, PARK K. Pedestrian detection based on Faster RCNN in nighttime by fusing deep convolutional features of successive images [J]. Expert Systems with Applications, 2018, 114: 15-33.
[22]SCHWEITZER D, AGRAWAL R. Multiclass object detection from aerial images using Mask RCNN [C]// Proceedings of the 2018 IEEE International Conference on Big Data. Piscataway: IEEE, 2018: 3470-3477.
[23]WEI X, XIE C, WU J. MaskCNN: localizing parts and selecting descriptors for finegrained bird species categorization [J]. Pattern Recognition, 2018, 76: 704-714.
[24]ANGELOVA A, ZHU S H, LIN Y Q. Image segmentation for largescale subcategory flower recognition [C]// Proceedings of the 2013 IEEE Workshop on Applications of Computer Vision. Piscataway: IEEE, 2013: 39-45.
[25]KRAUSE J, STARK M, DENG J, et al. 3D object representations for finegrained categorization [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision Workshops. Washington, DC: IEEE Computer Society, 2013:554-561.
[26]HUANG S, XU Z, TAO D, et al. Partstacked CNN for finegrained visual categorization [C]// Proceedings of the 29th IEEE Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1173-1182.
[27]LIN D, SHEN Y, LU C, et al. Deep LAC: deep localization, alignment and classification for finegrained recognition [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1666-1674.
[28]ZHANG Y, WEI X, WU J, et al. Weakly supervised finegrained categorization with partbased image representation [J]. IEEE Transactions on Image Processing, 2016, 25(4): 1713-1725.
[29]XIE G, ZHANG X, YANG W, et al. LGCNN: from local parts to global discrimination for finegrained recognition [J]. Pattern Recognition, 2017, 71: 118-131.
[30]LEE S, CHAN C, MAYO S J, et al. How deep learning extracts and learns leaf features for plant classification [J]. Pattern Recognition, 2017, 71: 1-13.
[31]DAI J, HE K, SUN J. Instanceaware semantic segmentation via multitask network cascades [C]// Proceedings of the 29th IEEE Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 3150-3158.
[32]LI Y, QI H Z, DAI J, et al. Fully convolutional instanceaware semantic segmentation [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4438-4446.
[33]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3431-3440.
This work is partially supported by the National Natural Science Foundation of China (61572085).
ZHU Fan, born in 1994, M. S. candidate. Her research interests include computer vision.
WANG Hongyuan, born in 1960, Ph. D., professor. His research interests include computer vision.
ZHANG Ji, born in 1981, M. S., lecturer. His research interests include computer vision.