張潔 陳莉 李錚 王森 陳昃
摘要:針對復雜環(huán)境中由于行人間相互遮擋導致檢測準確率低的問題,考慮到行人頭部與行人是一一對應關系,且頭部在行人運動過程中不易被遮擋,提出了一種基于聚類與Faster RCNN的行人頭部檢測算法。設計一種新的距離度量方法,并結合k-means++算法對已標注人頭檢測框進行聚類,以確定anchor大小與長寬比;優(yōu)化NMS算法懲罰函數(shù)剔除無效人頭預測框,改善行人之間由于遮擋導致的召回率低的問題。仿真實驗表明,該算法相比其他方法可有效提升行人頭部檢測精度,在Brainwash和SCUT-HEAD兩個人頭檢測數(shù)據(jù)集上的最高AP值分別為90.2%和87.7%。
關鍵詞:行人檢測;聚類;Faster RCNN;非極大值抑制
中圖分類號:TP391
DOI:10.16152/j.cnki.xdxbzr.2020-06-013
Pedestrian head detection algorithm basedon clustering and Faster RCNN
ZHANG Jie, CHEN Li, LI Zheng, WANG Sen, CHEN Ze
(School of Information Science and Technology, Northwest University, Xi′an 710127, China)
Abstract: Aiming at the problem that the pedestrian detection accuracy is low due to the pedestrian occlusion in a complex environment, considering that there is a one-to-one correspondence between the head and the person, and the head is not easily occluded during pedestrian movement,? a pedestrian head detection algorithm based on clustering and Faster RCNN is proposed. The k-means++algorithm used the newly designed distance measurement method to cluster all labeled head detection boxes and determine the anchor size and aspect ratio. The penalty function of the NMS algorithm is optimized to remove invalid head prediction boxes, which can alleviate the problem of low recall due to pedestrian occlusion. The experiments show that compared with other methods, the proposed algorithm effectively improves the detection accuracy of pedestrian head. The highest AP on Brainwash and SCUT-HEAD datasets reached 90.2% and 87.7% respectively.
Key words: pedestrian detection; clustering; Faster RCNN; non-maximum suppression
行人檢測是計算機視覺處理領域的一個重要研究分支,可應用于智能視頻監(jiān)控、人體行為分析、汽車無人駕駛和智能交通等領域,因而,對行人檢測問題的研究具有重要的理論意義和廣闊的應用前景。由于人體姿態(tài)復雜,易變形,且有附著物和遮擋等問題,在不同場景下能否準確檢測到行人的理論和技術研究仍具有很大挑戰(zhàn)。
行人檢測可分為傳統(tǒng)的行人檢測方法和基于深度學習技術的檢測方法兩大類。傳統(tǒng)的行人檢測方法重點是將特征提取算法和特征分類器結合以完成檢測,目前通過提取圖像特征的方法來衡量兩幅圖片相似性的算法均取得了不錯的效果[1-2],代表性的特征提取算法有尺度不變特征變換(scale invariant feature transform, SIFT)[3]、哈爾特征(Haar-like features, Haar)[4]、方向梯度直方圖(histogram of oriented gradient, HOG)[5]等;代表性的分類器有自適應級聯(lián)分類器(adaptive boosting, AdaBoost)[6]、支持向量機(support vector machine, SVM)[7]、可變型部件模型(deformable parts model, DPM)[8]等。但傳統(tǒng)的行人檢測方法使用人工設計的底層特征實現(xiàn)對行人的表達,易造成分類錯誤率高,行人檢測效果不佳的問題。
自2006年深度學習被Hinton等人[9]提出以來,使用卷積神經(jīng)網(wǎng)絡學習目標特征的方法便成為學術界的研究熱點。Girshick等人提出兩階段的RCNN[10]是基于深度學習目標檢測算法的開山之作,該算法用卷積神經(jīng)網(wǎng)絡提取圖像特征,并采用選擇性搜索(selective search)[11]方法進行候選區(qū)域提取,取得了不錯的檢測效果,但RCNN網(wǎng)絡整體設計復雜,圖片處理速度慢;Redmon等人提出一階段的YOLO算法[12],從輸入圖像中直接回歸目標所在位置,檢測速度可達45 f/s,大幅提高了目標檢測速度,但檢測精度不理想。針對以上兩類算法的不足,相繼涌現(xiàn)出一系列改進算法,如兩階段的改進算法SPP-Net[13]、Fast RCNN[14]、Faster RCNN[15]等和一階段的改進算法YOLO9000[16]、SSD[17]等。文獻[18-19]都是基于以上兩類目標檢測框架實現(xiàn)的行人檢測算法。Mao等人以Faster RCNN為主體框架,對其進行改進并提出一個新的網(wǎng)絡框架HyperLearner,通過學習額外特征來提升行人檢測性能,然而該算法在行人被遮擋時容易出現(xiàn)漏檢[20];García J等人[21]將行人檢測轉(zhuǎn)換成對行人頭部的檢測以改善行人遮擋導致的檢測精度低問題,但使用手工設計的特征對人頭進行檢測時特征的表達能力不足,檢測效果不佳,易造成漏檢問題;文獻[22-23]利用卷積神經(jīng)網(wǎng)絡提取行人頭部特征,有效提升了行人頭部檢測精度,然而在行人遮擋時仍然會出現(xiàn)漏檢問題。
雖然現(xiàn)有的行人頭部檢測算法已取得了可觀的檢測結果,但由于行人姿態(tài)復雜、遮擋等造成的檢測效果不佳問題仍然存在。針對此類問題,本文以Faster RCNN網(wǎng)絡為檢測基準,提出一種基于聚類與Faster RCNN的行人頭部檢測算法(簡記為CFR-PHD)。CFR-PHD算法主要有兩個方面的改進:①設計一種新的距離度量方法,同時將聚類算法引入到Faster RCNN網(wǎng)絡中以自適應設置anchor參數(shù),使模型訓練過程更容易學習;②在檢測階段,對傳統(tǒng)NMS算法的懲罰函數(shù)進行優(yōu)化,避免由于行人頭部被遮擋導致的有效預測框被誤刪,提升人頭檢測算法召回率。在Brainwash[22]和SCUT-HEAD[23]兩個大型人頭數(shù)據(jù)集上的實驗結果表明,CFR-PHD算法體現(xiàn)了更優(yōu)的人頭檢測性能。
1 相關知識
1.1 Faster RCNN算法
Faster RCNN是在RCNN和Fast RCNN等算法基礎上的一個改進,其網(wǎng)絡結構如圖1所示。Faster RCNN主要創(chuàng)新點有兩個:①提出RPN(region proposal networks)網(wǎng)絡,用來提取候選區(qū)域;② RPN網(wǎng)絡與ROI Pooling層共享卷積層參數(shù),使網(wǎng)絡訓練更高效。在Faster RCNN之前的RCNN算法系列中,均通過Selective Search算法抽取候選區(qū)域,而候選區(qū)域的提取包含大量計算,實驗結果表明,通過Selective Search算法獲取一張圖片的候選區(qū)域平均需要2 s,而Faster RCNN中使用RPN網(wǎng)絡提取候選區(qū)域平均僅需10 ms,大幅提升了檢測速度。
1.2 Anchor機制
在RPN中anchor機制是核心。RPN網(wǎng)絡的本質(zhì)是通過滑動窗口的方式生成候選區(qū)域,但它不是直接在輸入的原始圖像上進行操作,而是與卷積神經(jīng)網(wǎng)絡的最后一個卷積層共享卷積特征,即把卷積層提取的特征作為RPN網(wǎng)絡的輸入,采用滑動窗口的方式直接生成候選區(qū)域。
具體做法為:把Faster RCNN網(wǎng)絡卷積層最后一層產(chǎn)生的特征圖作為RPN網(wǎng)絡的輸入,用窗口大小為3*3,步長(padding)為1的卷積核在特征圖上執(zhí)行卷積操作。當3*3的卷積核滑動到特征圖的每一個位置時,當前滑動窗口中心在原圖中的映射點稱為錨點,以錨點為中心生成不同大小和長寬比的anchor,在Faster RCNN中,為了滿足目標的多尺度特性,使用3種大?。?282,2562,5122)和3種長寬比(1∶1,1∶2,2∶1),則RPN進行卷積操作時每滑動一次就對應于原圖上3*3=9個anchor,如圖2所示。假設特征圖的通道數(shù)是256,則RPN每進行一次3*3卷積操作后產(chǎn)生1*256的特征被9個anchor共同使用,進行位置回歸和類別判斷,對所有的輸出框進行類別置信度排序后,選擇top-N個輸出框作為候選框。
1.3 非極大值抑制
非極大值抑制(non-maximum suppression,NMS)是目標檢測后處理中的一個經(jīng)典算法,最早由Neubeck A提出[24],用來對兩階段目標檢測算法的重復預測框進行去重并保存最佳預測框。NMS算法首先過濾置信度小于閾值St的預測框,然后不斷以擁有最大分類置信度的預測框與其他預測框做交并比(intersection over union, IOU)操作,并過濾IOU值大于預設交并比閾值的預測框,通過迭代的形式尋找局部最優(yōu)預測框。
2 基于聚類與Faster RCNN的行人頭部檢測算法
為了改善行人檢測中由于行人遮擋導致的檢測效果不佳的問題,本文擬從行人頭部檢測角度出發(fā),將聚類算法引入到Faster RCNN中,并對傳統(tǒng)NMS算法的懲罰函數(shù)進行優(yōu)化,以獲得更高的檢測準確率。
2.1 聚類算法自適應生成anchor
不同檢測數(shù)據(jù)集中所標注的檢測框大小和長寬比差異較大,若依然使用Faster RCNN模型中設置的9種大小和長寬比的anchor,不僅會增加網(wǎng)絡訓練時間,甚至難以得到較好的檢測效果。若能根據(jù)不同的數(shù)據(jù)集自適應選擇合適的anchor大小和長寬比,則有望提高目標檢測的性能。基于這一思路,本文將k-means++聚類算法和Faster RCNN算法結合,以自適應設置anchor參數(shù)。傳統(tǒng)的k-means算法通常隨機選取k個樣本點作為初始的聚類中心,若聚類中心選擇不當,噪聲點和孤立點將使算法迭代次數(shù)增多,時間復雜度增大。k-means++算法中為了避免隨機選擇初始聚類中心點導致的不足,使用下述方法選擇初始聚類中心點:假設已經(jīng)選取了n個初始聚類中心點(1≤n 在聚類算法中,選取合適的距離度量方法是確定合適anchor的關鍵。本文融合k-means++聚類算法的目的是確保每個anchor與其鄰近的真實檢測框有較大的IOU值。anchor大小的確定與標注框的長和寬尺寸沒有直接關系,而歐氏距離度量方法對標注框的長和寬的取值敏感,尺寸較大的邊界框容易出錯,聚類結果更加偏向尺寸較小的標注框,對此,本節(jié)設計一種新的距離度量公式,如式(1)。 d12=e-α·IOU-C(b,clusteri),α>0(1) 其中,b和clusteri分別為標注框和第i個聚類中心,IOU-C(b,clusteri)實質(zhì)是b和clusteri的交并比值,但與傳統(tǒng)交并比計算不同的是需要將b和clusteri兩個邊界框中心點重合之后再計算交并比;α是可調(diào)因子,實驗中α取2;由式(1)可知,本文設計的距離度量公式可以保證距離越小,標注框與聚類中心的面積越接近,IOU值越大,改善了歐氏距離度量方法對標注框長和寬尺寸敏感的現(xiàn)象。 2.2 改進的NMS算法 經(jīng)典的非極大值抑制算法雖然可以有效地剔除重復的預測框,挑選出某一目標的最佳預測框,但對于圖3所示的目標,由于目標之間存在遮擋,兩個目標的預測框IOU大于交并比閾值Nt時,僅僅保留置信度高的預測框,而擁有較低置信度的預測框會被抑制,降低了算法的召回率。 對于預測框bi與分類置信度最高的預測框M,NMS算法對bi的懲罰函數(shù)如式(2)。 si=si,iou(M,bi) 0,iou(M,bi)≥Nt(2) 由式(2)可知,NMS算法的不足在于將IOU值大于Nt的預測框bi分類置信度置零,這樣雖可有效剔除無效預測框,但遇到目標遮擋時容易誤刪有效預測框。針對NMS算法的不足,本節(jié)將NMS算法中的懲罰函數(shù)進行優(yōu)化,優(yōu)化后的懲罰函數(shù)見式(3)。 si=si,iou(M,bi) sif(iou(M,bi)),iou(M,bi)≥Nt (3) 其中,f(iou(M,bi))=e-iou(M,bi)。(4) 通常預測框bi與局部最優(yōu)框M的交并比越大,表明兩個預測框越接近,預測框bi是假正例的可能性越大,對其的抑制理應也越大。從式(3)可看出優(yōu)化后的懲罰函數(shù)對距離最優(yōu)框M越近的預測框bi懲罰越嚴重,si降低地越小;距離最優(yōu)框M越遠的預測框bi基本不受懲罰。 懲罰函數(shù)優(yōu)化后的NMS算法對于IOU值大于閾值Nt的預測框bi,不再像NMS算法一樣直接刪除,而是將其置信度降低,可一定程度避免目標遮擋時擁有較低置信度的預測框被誤刪,導致檢測召回率降低。 2.3 CFR-PHD算法描述 綜合以上分析,CFR-PHD算法結合式(1)設計的距離度量公式,利用k-means++算法對所用數(shù)據(jù)集中已標注的邊界框進行聚類,自適應設置anchor大小和長寬比,使模型訓練過程更容易學習;在模型檢測時,利用式(3)對傳統(tǒng)NMS算法的懲罰函數(shù)進行優(yōu)化,將檢測出的所有候選框進行去重操作之后作為最終的預測框。算法具體實現(xiàn)步驟如下: 算法:基于聚類與Faster RCNN的行人頭部檢測算法 輸入:訓練數(shù)據(jù)集 輸出:用于行人頭部檢測的神經(jīng)網(wǎng)絡 step 1 結合式(1)利用k-means++算法對不同數(shù)據(jù)集自適應生成anchor大小和長寬比,確定anchor的個數(shù)k配置Faster RCNN; step 2 將訓練集輸入到Faster RCNN網(wǎng)絡,由VGG16中的卷積層提取每張圖片特征得到大小為(W/16)*(H/16)的Feature Map; step 3 將Feature Map中的每一個點映射到原圖上的一個區(qū)域,并以該區(qū)域中心在原圖生成k個anchor,總共生成k*(W/16)*(H/16)個anchor; step 4 RPN網(wǎng)絡對第3步生成的anchor進行分類,并對存在人頭目標的anchor進行位置回歸,選擇top-N作為候選框; step 5 RoI pooling層將每個候選框在Feature Map上映射的特征轉(zhuǎn)換為固定尺寸的特征向量; step 6 全連接層利用轉(zhuǎn)換成的固定尺寸特征向量判別候選框有無人頭,并進行位置回歸生成最終預測框; step 7 結合式(3)用改進的NMS算法對上一步預測框執(zhí)行去重操作,保證每一個目標最終只輸出一個置信度最大的邊界框。 3 實驗結果及分析 本文算法實驗環(huán)境見表1。 3.1 實驗數(shù)據(jù)集 實驗中使用的兩個數(shù)據(jù)集為Brainwash和SCUT-HEAD。 Brainwash數(shù)據(jù)集數(shù)據(jù)標注信息保存在一個txt文檔中,需先將標注方式轉(zhuǎn)換成標準Pascal VOC格式。該數(shù)據(jù)集圖片均來自一個咖啡館的監(jiān)控視頻,其標注情況為:訓練集10 769張圖像,共標注81 975個人頭; 驗證集500張圖像, 共標注3 318個人頭; 測試集500張圖像, 共標注5 007個人頭。 SCUT-HEAD數(shù)據(jù)集是華南理工大學2018年發(fā)布的一個大規(guī)模人頭檢測數(shù)據(jù)集, 總共有4 405張圖片,標注了111 251個人頭坐標,數(shù)據(jù)集標注遵循Pascal VOC標準。該數(shù)據(jù)集由partA和partB兩部分組成,partA中圖片均從教室監(jiān)控中采集,共2 000張,其中67 321個人頭被標注,訓練集1 500張,測試集500張。partB中圖片均從互聯(lián)網(wǎng)中爬取,共2 405張,其中43 930個人頭被標注,訓練集1 905張,測試集500張。 3.2 評估指標 目標檢測主要度量方法包括準確率(precision)、召回率(recall)和平均精度(mean average precision,mAP)。 Precision指檢測器檢測正確的目標占檢測的目標的比例,其計算公式如下: precision=TP/(TP+FP)。(4) recall指測試集中的目標被正確檢測出的比例,其計算公式如下: recall=TP(TP+FN)。(5) 其中: TP表示與真實標注框的IOU大于所設閾值的檢測框; FP表示與真實標注框的IOU小于所設閾值檢測框; FN表示沒有被檢測出的真實標注框。 平均精度(average precision,AP)指某一類別目標precision-recall曲線下的面積,AP值越高,表明檢測器對該類別的檢測性能越好;而mAP是對多個類別的AP再求平均值,mAP值越大,表明檢測器整體檢測性能越好,mAP指標是目標檢測算法中最重要的一個。 3.3 對比算法及參數(shù)設置 為了驗證本文算法(CFR-PHD)的有效性,將本文算法與端對端的行人檢測算法(ReInspect)[22]和基于特征細化網(wǎng)絡與級聯(lián)多尺度結構的頭部檢測算法(FRN-CMA)[23]進行對比,所有算法均采取同樣的評估指標。 本文實驗所用兩個數(shù)據(jù)集的anchor參數(shù)設置由k-means++聚類算法產(chǎn)生, 考慮到設置過多數(shù)量的anchor會使模型時間復雜度增高, 所以聚類中心的個數(shù)k僅取2和3兩個值。 Faster RCNN網(wǎng)絡中用來進行特征提取的網(wǎng)絡選用VGG16,訓練過程中其他關鍵參數(shù)設置如表2。 表2中迭代次數(shù)的設置很大程度影響模型的性能,設置過小,會出現(xiàn)欠擬合問題;設置過大,又容易出現(xiàn)過擬合問題,在進行大量實驗的基礎上,本文實驗的迭代次數(shù)最終選擇60 000。 3.4 結果分析 對Brainwash和SCUT-HEAD兩個大型人頭數(shù)據(jù)集聚類中心個數(shù)取k=2和k=3時,生成的anchor大小和長寬比如表3。 從表3可以看出,不管k取何值,對于兩個數(shù)據(jù)集而言,其長寬比均接近于1,所以后續(xù)實驗中長寬比統(tǒng)一按1處理。為了便于網(wǎng)絡后續(xù)訓練,將自適應得到的anchor大小都調(diào)整至2的整數(shù)次冪,對于Brainwash數(shù)據(jù)集k=2和3時,其大小均可以調(diào)整成(162, 322);SCUT-HEAD數(shù)據(jù)集k=2時,大小調(diào)整為(162, 322),k=3時,大小調(diào)整為(162, 322, 642)。 分別用聚類算法為兩個數(shù)據(jù)集自適應產(chǎn)生的anchor配置Faster RCNN網(wǎng)絡的anchor參數(shù)值,其中,anchor的長寬比均為1,并根據(jù)式(3)提出的優(yōu)化懲罰函數(shù)對傳統(tǒng)NMS后處理算法改進(記為Better-NMS)之后,在兩個數(shù)據(jù)集上的實驗結果如表4和表5所示。 表4中的第1行以及表5中的第1和第4行的anchor大小通過聚類算法自適應產(chǎn)生,其他anchor大小為手工設計。從兩個數(shù)據(jù)集的實驗結果可看出通過聚類算法生成的自適應anchor大小對應的AP值均高于其他anchor對應的AP值。若再用Brtter-NMS進行后處理,SCUT-HEAD數(shù)據(jù)集上AP值會進一步大幅提升,而Brainwash數(shù)據(jù)集上的AP值提升較小,原因之一為Brainwash數(shù)據(jù)集中頭部之間的遮擋較少。以上實驗結果表明利用聚類算法自適應的anchor參數(shù),并結合Brtter-NMS后處理算法可一定程度上緩解由于行人遮擋導致的召回率低問題,提高檢測精度,充分體現(xiàn)了CFR-PHD算法的可行性。 為了進一步驗證CFR-PHD算法的性能,在Brainwash和SCUT-HEAD數(shù)據(jù)集上與ReInspect和FRN-CMA兩個算法進行對比。 Brainwash數(shù)據(jù)集對比實驗中,anchor大小為(16*16,32*32),長寬比為1,其對比實驗結果如圖4和表6所示。 SCUT-HEAD數(shù)據(jù)集中,anchor大小為(16*16,32*32,64*64),長寬比為1,其對比實驗結果如圖5和表7所示。 Brainwash和SCUT-HEAD數(shù)據(jù)集上的實驗結果表明,本文所提CFR-PHD算法相比于其他兩個對比算法,檢測性能均有所提升。在Brainwash數(shù)據(jù)集上CFR-PHD算法的檢測結果相對于ReInspect和FRN-CMA算法AP值分別提升了12.1%和2.1%;在SCUT-HEAD數(shù)據(jù)集上CFR-PHD算法的檢測結果相對于ReInspect和FRN-CMA算法AP值分別提升了10.2%和1.4%。兩個數(shù)據(jù)集上AP值的提升進一步驗證了CFR-PHD算法的有效性。 4 結語 針對行人運動過程中姿態(tài)復雜、遮擋等導致的檢測精度低的問題,本文提出一種結合聚類與Faster RCNN的行人頭部檢測CFR-PHD算法。通過為聚類算法設計一種新的距離度量方法以自適應設置anchor大小和長寬比,使模型訓練過程更容易學習;同時,改進傳統(tǒng)NMS算法的懲罰函數(shù)以改善目標之間由于遮擋導致的召回率低的問題。在SCUT-HEAD和Brainwash數(shù)據(jù)集的實驗結果表明本文所提CFR-PHD算法可以有效提升人頭檢測的AP值??紤]到Faster RCNN網(wǎng)絡復雜,檢測時間復雜度較大,如何在保證檢測精度的同時提高檢測速度是后續(xù)研究的主要方向。 參考文獻: [1] 李鳴,張鴻.基于深度特征分析的雙線性圖像相似度匹配算法[J].計算機應用,2016,36(10):2822-2825,2831. LI M,ZHANG H.Bilinear image similarity matching algorithm based on deep feature analysis[J]. Journal of Computer Applications, 2016,36(10):2822-2825,2831. [2] 鄒承明,薛棟,郭雙雙,等.一種改進的圖像相似度算法[J].計算機科學,2016,43(6):72-76. ZOU C M,XUE D,GUO S S,et al.Improved image similarity algorithm[J].Computer Science,2016,43(6):72-76. [3] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110. [4] VIOLA P A, JONES M. Rapid object detection using a boosted cascade of simple features [C]∥IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2001. [5] DALAL N, TRIGGGS B. Histograms of oriented gradients for human detection [C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE, 2005. [6] FERREIRA A J, FIGUEIREDO M A T. Boosting algorithms: A review of methods, theory, and applications[M]∥Ensemble Machine Learning. Boston, MA: Springer, 2012: 35-85. [7] VAPNIK V N. The Nature of Statistical Learning Theory[M].New York:Springer Science and Business Media, 2000. [8] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Trans actions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645. [9] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507. [10]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2014. [11]VAN DE SANDE K E A, UIJLINGS J R R, GEVERS T, et al. Segmentation as selective search for object recognition [C]∥IEEE International Conference on Computer Vision.IEEE, 2011. [12]REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[EB/OL].2015: arXiv:1506.02640[cs.CV]. https:∥arxiv.org/abs/1506.02640 . [13]HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916. [14]GIRSHICK R. Fast R-CNN [C]∥2015 International Conference on Computer Vision.ICCV, 2015: 1440-1448. [15]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[EB/OL].2015: arXiv:1506.01497[cs.CV]. https:∥arxiv.org/abs/1506.01497. [16]REDMON J, FARHADI A. YOLO9000: Better, faster, stronger [C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2017. [17]LIU W, ANGUELOV D, ERHAN D, et al. SSD:Single Shot MultiBox Detector [M]∥Comuter Vision-ECCV 2016. Cham:Springer International Publishing, 2016:21-37. [18]李偉山,衛(wèi)晨,王琳.改進的Faster RCNN煤礦井下行人檢測算法[J].計算機工程與應用,2019,55(4):200-207. LI W S,WEI C,WANG L.Improved Faster RCNN approach for pedestrian detection in underground coal mine[J].Computer Engineering and Applications,2019,55(4):200-207. [19]高宗,李少波,陳濟楠,等.基于YOLO網(wǎng)絡的行人檢測方法[J].計算機工程,2018,44(5):215-219,226. GAO Z,LI S B,CHEN J N,et al.Pedestrian detection method based on YOLO network[J]. Computer Engineering, 2018,44(5):215-219,226. [20]MAO J Y, XIAO T, JIANG Y N, et al. What can help pedestrian detection? [C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE, 2017. [21]GARCA J, GARDEL A, BRAVO I, et al. Directional people counter based on head tracking[J]. IEEE Transactions on Industrial Electronics, 2013, 60(9): 3991-4000. [22]STEWART R, ANDRILUKA M, NG A Y, et al. End-to-end people detection in crowded scenes [C]∥IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2016. [23]PENG D Z, SUN Z K, CHEN Z R, et al. Detecting heads using feature refine net and cascaded multi-scale architecture[EB/OL].2018: arXiv:1803.09256[cs.CV]. https:∥arxiv.org/abs/1803.09256. [24]NEUBECK A, VAN G L. Efficient non-maximum suppression [C]∥The 18th International Conference on Pattern Recognition.IEEE, 2006. (編 輯 李 靜)