韋皓瀚 曹 國 尚巖峰 孫權(quán)森 王必勝
(1.南京理工大學(xué)計算機科學(xué)與工程學(xué)院,南京,210094; 2.公安部第三研究所,上海,201204)
行人檢測在視頻監(jiān)控、虛擬現(xiàn)實技術(shù)和機器人視覺中都有著廣泛的應(yīng)用研究。由于行人具有姿態(tài)多變性的特征,外觀易受衣著、尺度變化、外物遮擋、姿態(tài)改變和拍攝角度等因素的影響,一直是圖像處理領(lǐng)域的研究熱點與難點。目前主流的行人檢測算法包括兩部分:特征提取和分類器學(xué)習(xí)。常用的目標(biāo)特征有梯度方向直方圖(Histograms of oriented gradient, HOG)[1]、顏色特征如(RGB, LUV和HSV等)、Harr小波變換以及梯度幅度等,分類器主要包括支持向量機(Support vector machine, SVM) 、隨機森林[2](RandomForest)、決策樹以及深度學(xué)習(xí)[3]等。
2005年Dalal和Triggs提出的基于梯度直方圖加支持向量機(HOG+SVM)的行人檢測算法,是行人檢測領(lǐng)域中的一大突破;Oliver等[4]利用邊緣圖像來對不同的形狀模型進(jìn)行匹配(ASM);2008年Felzenswalb教授基于HOG+SVM框架的理論知識,提出了經(jīng)典的目標(biāo)形變部件模型檢測算法(Deformable part models, DPM)[5],極大提高了行人形變檢測的魯棒性和準(zhǔn)確性,不過該算法的時間復(fù)雜度太高,不適合用來進(jìn)行實時檢測;曾波波[6]于2012年提出了一種顏色自相似性(CSS)特征,其計算方法是在LUV顏色通道上計算大小一致、不同位置的矩形區(qū)域內(nèi)的數(shù)值和之比,該特征具有計算快、尺度不變等特點;文獻(xiàn)[7]等針對5種干擾類型:物體遮擋、圖像失焦、亮度異常、偏色、噪聲干擾提取出有效的特征,進(jìn)行分類檢測和識別,具有較好的檢測效果,且能夠滿足監(jiān)控系統(tǒng)實時性的要求。ACF[8]采用決策樹為弱分類器訓(xùn)練Boosting分類器,訓(xùn)練和檢測階段時間花費較少,適合用于實時檢測,但在實際檢測中會有較多的誤檢數(shù)。對于Objectness[9]窗口篩選方法,文獻(xiàn)[10]將BING[11]及EdgeBoxes[12]結(jié)合經(jīng)典的DPM模型[13]來進(jìn)行行人檢測,在一定程度上可以提高模型的檢測效果,但該模型在檢測速度上仍有待提高, Gadeski E等[14]在DPM模型的基礎(chǔ)上采用了GPU實現(xiàn),用于實時圖像處理。經(jīng)典的ACF算法采用多通道特征和Boosting分類器進(jìn)行行人檢測,而未結(jié)合目標(biāo)在圖片中的一些先驗知識,同時在行人檢測后處理過程中僅僅采用了面積信息,而忽略了重要的得分信息,造成在實際檢測過程中存在誤檢數(shù)較高的情況。本文基于ACF行人檢測算法進(jìn)行改進(jìn),在不影響檢測效率的條件下,首先結(jié)合Objectness方法對低得分區(qū)域進(jìn)行進(jìn)一步驗證,可以在一定程度上減少算法的誤檢數(shù);其次結(jié)合檢測窗口的得分及位置信息,對非極大值抑制算法(Non-maximum suppression, Nms)[15]進(jìn)行了改進(jìn);最后采用星型可形變部件模型(Star-cascade DPM, casDPM)[16]進(jìn)行級聯(lián)檢測,對低得分窗口進(jìn)行二次檢測。實驗表明,在充分結(jié)合目標(biāo)在圖片中的先驗知識和后處理過程中的得分信息,極大地降低了誤檢數(shù),在滿足實時檢測的條件下,提升了行人檢測的準(zhǔn)確率,具有較好的行人檢測效果。
聚合通道特征(Aggregate channel features, ACF)[8]是將多個通道特征結(jié)合到一起形成一種聚合特征,結(jié)合多通道特征包含的信息,能夠高效描述行人特征,給定檢測圖像I,對應(yīng)通道特征可以表示為圖像像素的線性或非線性的輸出響應(yīng),即有
C=Ω(I)→C1=∑(C)
(1)
其中:Ω表示計算特征的函數(shù),C表示特征,∑為聚合運算,C1為聚合特征,灰度圖像C=I,該通道特征即為灰度圖本身,灰度是最簡單的特征通道,ACF算法檢測流程如圖1所示。輸入檢測圖像I,分別計算顏色、梯度幅值和梯度方向直方圖特征金字塔,將3種特征組合形成ACF,采用決策樹為弱分類器訓(xùn)練Boosting分類器,得到初始檢測窗口及本文方法檢測結(jié)果。
圖1 ACF行人檢測算法流程Fig.1 Flow of ACF human detection algorithm
ACF算法采用與文獻(xiàn)[8]相同的通道特征:標(biāo)準(zhǔn)化的1通道梯度幅度,6通道梯度方向直方圖,3通道LUV顏色通道,結(jié)合形成10通道的聚合特征F,圖像I使用[1 2 1]/4算子f進(jìn)行濾波,可以有效降低噪聲的影響。將特征F劃分為4×4的小塊,并對每一塊中的像素大小求和,再次采用f算子進(jìn)行濾波處理。在計算圖像特征金字塔[17]時,將圖像分組到金字塔層結(jié)構(gòu)中,每組金字塔內(nèi)的特征只需計算一層,其他層通過該層采樣得到,降低了時間開銷,采用的分類器是Boosting,弱分類器為決策樹,訓(xùn)練正負(fù)樣本(INRIA數(shù)據(jù)集2007),得到最終的檢測子。
為了量化檢測器的性能,這里采用PR曲線和DET曲線作為評價標(biāo)準(zhǔn)。TP表示檢測為正樣本,實際為正樣本;TN檢測為負(fù)樣本,實際為負(fù)樣本;FP檢測為正樣本,實際為負(fù)樣本;FN檢測為負(fù)樣本,實際為正樣本;其中precision=TP/(TP+FP),recall=FP/(FP+TN),F(xiàn)EPPI=FP/(圖片數(shù))。
一般目標(biāo)當(dāng)歸一化到某一個小尺度時都具有定義完好的封閉輪廓和中心,在封閉的輪廓中,目標(biāo)梯度比較明顯,所以是一個很好的可區(qū)分特征。范數(shù)梯度(Normed gradients, NG)特征是緊湊且密集的Objectness[9]特征,無論對象窗口如何改變尺度、位置及縱橫比,它對應(yīng)的NG特征基本不會改變,這一特性在對象檢測中很有用,其次NG特征使得計算和核實更加有效率,能夠很好地應(yīng)用在實時檢測中。
將圖像縮放成不同的尺寸,然后使用大小的窗口掃描,提取NG特征,詳細(xì)步驟見文獻(xiàn)[11]。通過cascade SVM訓(xùn)練,可以學(xué)習(xí)得到一個線性模型w∈R64,對于待檢測圖像,仍采用8×8大小的窗口滑動提取NG特征,然后通過式(2)可以求出窗口得分,即有
sl=〈w,gl〉
(2)
l=(i,x,y)
(3)
式中:l是尺度為i窗口坐標(biāo)為(x,y)的位置;gl是其對應(yīng)的NG特征;sl代表過濾器得分。
為每個尺度提供一些建議窗口,不同尺寸圖像中的物體可能性是不一樣的,模型對于不同尺度的圖像學(xué)習(xí)了一個權(quán)值,重新計算窗口的得分。
Ol=vi·Sl+ti
(4)
式中vi,ti為模型學(xué)習(xí)的參數(shù),Ol是窗口最終得分。
圖2 BING模型效果圖Fig.2 Effect diagram of BING model
在INRIA數(shù)據(jù)集上訓(xùn)練得到BING模型記為M,每張640像素×480像素大小的測試圖片上產(chǎn)生大約1 000個候選窗口,在測試集上檢測召回率可以達(dá)到98%左右,基于這種特性,可以有效的引入BING目標(biāo)區(qū)域來降低ACF算法的誤檢數(shù)。首先用M檢測圖像得到A1區(qū)域,部分篩選情況如圖2(c)所示;其次用ACF算法檢測圖像,得到目標(biāo)區(qū)域A2,采用目標(biāo)區(qū)域A1對每一個目標(biāo)區(qū)域A2的窗口進(jìn)行篩選,記為BACF算法。學(xué)習(xí)到的64D線性BING模型w及標(biāo)注信息如圖2所示,其中圖2(c)中的紅色區(qū)域為篩選得到的行人窗口,綠色區(qū)域為非行人目標(biāo)窗口對比圖2(d),可以看出BING模型已大致將行人區(qū)域提取出來。實驗表明,引入BING目標(biāo)區(qū)域,在不影響精度、效率情況下,可以一定程度上減少ACF算法的誤檢數(shù)。
在目標(biāo)檢測中Nms算法應(yīng)用十分廣泛,主要用以消除多余的檢測框,找到最佳的物體位置,如圖3所示。
圖3 Nms算法Fig.3 Non-maximum suppression algorithm
Nms算法本質(zhì)是搜索局部極大值,抑制非極大值元素。本文采用的是基于貪心策略的抑制算法,算法主要分為4個步驟:(1)按照檢測分?jǐn)?shù)降序排序初始檢測窗口;(2)選取抑制窗口(當(dāng)前分?jǐn)?shù)最高窗口)Bi;(3)檢測窗口得分低于抑制窗口的作為被抑制窗口Bj,計算overlap=(Bi∩Bj)/(min (Bi,Bj)),剔除重合面積比率高于設(shè)定閾值的窗口; (4)若只剩一個初始檢測窗口則結(jié)束,反之按照得分信息降序,取下一個得分高的作為抑制窗口,轉(zhuǎn)到步驟(3)。該Nms算法只是簡單的結(jié)合面積信息與得分信息,對抑制窗口進(jìn)行剔除,未利用抑制與被抑制窗口的相對位置信息,造成較高的誤檢數(shù)。本文引入保留外圍窗口的Nms方法,記為NBACF。
Suppress(Bi)where{(Bi∈Bj)&&(score(Bi)-score(Bj)≤15)}
(5)
即當(dāng)窗口完全覆蓋窗口Bi,同時score(Bi)-score(Bj)≤15時,抑制當(dāng)前抑制窗口Bi,并將窗口Bi得分賦值給窗口Bj,實驗表明,在提升檢測精度的同時減少了誤檢數(shù)。
首先在ACF初始檢測窗口上引入BING模型,提出了BACF算法,如序號①,得到檢測窗口區(qū)域A,引入保留外圍窗口的Nms方法,如序號②,窗口區(qū)域A通過NBACF算法得到窗口區(qū)域B,級聯(lián)casDPM模型檢測策略,提出了NBACF-casDPM算法,如序號③,得到后續(xù)分類結(jié)果,flag=0為誤檢,flag=1為行人,詳細(xì)流程見圖4。
圖4 總體檢測流程圖Fig.4 Overall detection flow chart
本文采用PASCAL準(zhǔn)則來判斷模型檢測的結(jié)果是否正確,具體含義:若Groud truth與檢測結(jié)果交的大小與并的大小比值大于0.5,即檢測為行人,否則檢測錯誤。并且,每個Ground truth最多對應(yīng)一個檢測結(jié)果,其余窗口則為誤檢。
本文采用INRIA2007數(shù)據(jù)集614幅中的1 237個行人作為訓(xùn)練正樣本,912幅背景圖中隨機裁剪區(qū)域作為負(fù)樣本訓(xùn)練BING模型,訓(xùn)練得到的BING模型,在每張測試圖片上可以得到約1 000個目標(biāo)區(qū)域。在INRIA數(shù)據(jù)集上進(jìn)行檢測,其中有288幅圖片包含589個行人,ACF算法檢測區(qū)域為Bi,BING模型篩選區(qū)域為Bj,對每一個測試圖片的Bi,對應(yīng)的篩選區(qū)域Bj,計算重疊面積,overlap=(Bi∩Bj)/(Bi∪Bj),當(dāng)overlap<0.57,并且score(Bj)<30,認(rèn)為檢測結(jié)果為誤檢,反之為行人,改進(jìn)的BACF算法可以降低誤檢窗口數(shù)量,檢測效果如圖5。
圖5 改進(jìn)的BACF算法 圖6 ACF和BACF算法誤檢對比
ACF算法和BACF算法誤檢數(shù)對比如圖6所示, 藍(lán)色表示ACF算法,黃色表示BACF,實驗可知,漏檢數(shù)在36~42的情況下,召回率(Recall)為約94%,BACF算法明顯優(yōu)于ACF算法,不影響檢測精度的情況下,平均誤檢數(shù)降低了163個,在漏檢數(shù)為36的情況下效果尤為明顯,減少了347個誤檢數(shù)。
ACF檢測時的步長較小,在整個金字塔層空間搜索,使得檢測出的真實行人窗口周圍往往會存在若干個冗余窗口,Nms算法貪心的保留檢測分?jǐn)?shù)最高的窗口,可以抑制大部分重合目標(biāo)區(qū)域,未充分考慮到檢測得分與窗口位置之間的包含關(guān)系,會造成一定程度上的漏檢和誤檢,本節(jié)采用2.2節(jié)提出的NBACF算法,該方法可以在一定程度上減少大量的誤檢窗口,結(jié)果如圖7(c)所示。
圖7中紅色框表示誤檢窗口,黃色框表示行人窗口,改進(jìn)的NBACF算法剔除了所有的誤檢窗口,檢測效果最佳,同時算法的平均精度(AP)由88.82%提升到了89.23%,提升了0.41%,平均對數(shù)漏檢率(LAMR)由16.69%下降到了15.20%,降低了1.49%,具有較好的檢測效果,ACF算法和NBACF算法誤檢對比如圖8所示,其中藍(lán)色表示ACF算法,紅色表示NBACF算法,實驗可知,漏檢數(shù)在36~42的情況下,NBACF算法誤檢數(shù)明顯少于ACF算法,同時通過實驗發(fā)現(xiàn),漏檢數(shù)從原來的36下降到了32,在漏檢數(shù)為36的情況下效果尤為明顯,降低了734個誤檢數(shù),具有較好的檢測效果。
圖7 ACF,BACF,NBACF算法對比 圖8 ACF和NBACF算法誤檢對比
通過改進(jìn)的NBACF算法,可以在一定程度上降低誤檢數(shù),但對于背景相對復(fù)雜的場景,存在一些特征較豐富的目標(biāo),NBACF算法將此類目標(biāo)檢測為行人即誤檢窗口,如圖9所示。
針對圖9的紋理豐富的誤檢窗口,提出利用casDPM模型進(jìn)行低得分窗口的級聯(lián)檢測,記為NBACF-casDPM,利用上述2.3節(jié)提出的方法,實驗發(fā)現(xiàn),可以減少誤檢數(shù),提升算法檢測的效果,平均精度從89.23%提升到了89.47%,提升了0.24%,平均對數(shù)漏檢率從15.20%下降到14.63%,降低了0.57%。ACF算法和NBACF-casDPM算法誤檢對比如圖10所示,其中藍(lán)色表示ACF算法,紅色表示NBACF-casDPM算法。實驗可知,漏檢數(shù)在37~42之間,在多1個漏檢數(shù)的情況下,NBACF-casDPM算法誤檢數(shù)明顯少于ACF算法,在漏檢數(shù)為37的情況下效果尤為明顯,降低了635個誤檢數(shù)。
圖9 特征較豐富誤檢窗口 圖10 ACF和NBACF-casDPM算法對比
3.5.1 整體效果對比
ACF,BACF,NBACF和NBACF-casDPM算法誤檢對比如圖11所示,NBACF-casDPM算法具有最好的檢測效果,在漏檢數(shù)為43的情況下,誤檢數(shù)僅僅只有196個,相比ACF算法,降低了誤檢數(shù),檢測時間及檢測精度對比如表1所示。
3.5.2 性能分析
環(huán)境參數(shù):8 GB內(nèi)存,CPU為Intel(R)core(TM)i7-6700k@ 4.00 GHz,4線程。
圖11 整體誤檢對比圖Fig.11 Overall comparison of false positive chart
表1 6種方法性能比較
注:DPM算法采用的ACF算法測試集及Ground truth,閾值與本實驗設(shè)置一致,閾值為-0.9
召回率(Recall)、精度(Precision)、平均精度(AP)如圖12所示。圖12可以發(fā)現(xiàn),在引入BING模型及保留外圍檢測窗口后,NBACF算法平均精度相比ACF算法有1.41%的提升;在級聯(lián)casDPM模型檢測后,NBACF-casDPM算法平均精度有0.65%的提升。
圖13可以發(fā)現(xiàn),在采用改進(jìn)的NBACF算法后,LAMR相比ACF算法下降了1.49%;在采用NBACF-casDPM算法后,LAMR相比NBACF算法又下降了0.57%,相比ACF算法,下降了2.06%,實驗表明,該改進(jìn)方法可以在一定程度上提升算法的檢測精度。
圖12 Recall和Precision對比 圖13 False positive per image和Miss rate對比
本文提出了一種改進(jìn)ACF算法的行人檢測算法,該算法針對ACF算法在實際檢測過程中誤檢數(shù)較多的情況,引入了Objectness方法來過濾ACF算法檢測出的部分誤檢窗口,同時結(jié)合檢測窗口得分及位置信息提升了非極大值抑制算法的效果,最后級聯(lián)casDPM模型檢測來剔除背景特征復(fù)雜的非行人窗口,最終得到改進(jìn)的NBACF-casDPM算法。實驗證明與原始ACF算法相比,本文提出的NBACF-casDPM算法提升了算法的檢測性能,AP提升了0.65%,LAMR降低了2.06%,具有良好的行人檢測效果。同時,結(jié)合深度學(xué)習(xí)和其他Objectness方法,提高算法的檢測效果是以后工作的重點;并以行人檢測為基礎(chǔ),繼續(xù)進(jìn)行行人跟蹤、再識別方向的研究。
參考文獻(xiàn):
[1] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]∥IEEE Conference on Computer Vision & Pattern Recognition.[S.l]:IEEE,2005:886-893.
[2] Marín J, Vázquez D, López A M, et al. random forests of local experts for pedestrian detection[C]∥International Conference on Computer Vision.[S.l.]:IEEE,2013:2592-2599.
[3] Ouyang W, Wang X. Joint deep learning for pedestrian detection[C]∥IEEE International Conference on Computer Vision. [S.l.]:IEEE,2013:2056-2063.
[4] Sidla O, Lypetskyy Y, Brandle N, et al. Pedestrian detection and tracking for counting applications in crowded situations[C]∥IEEE International Conference on Video and Signal Based Surveillance. [S.l.]:IEEE,2006:70.
[5] Felzenszwalb P, Mcallester D, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]∥IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE,2008:1-8.
[6] 曾波波,王貴錦,林行剛.基于顏色自相似度特征的實時行人檢測[J].清華大學(xué)學(xué)報(自然科學(xué)版),2012(4): 571-574.
Zeng Bobo, Wang Guijin, Lin Xinggang. Color self-similarity feature based real-time pedestrian detection [J]. Journal of Tsinghua University (Science and Technology), 2012,(4):571-574.
[7] 姬貫新, 周利莉. 智能視頻監(jiān)控系統(tǒng)中的干擾檢測及分類[J]. 數(shù)據(jù)采集與處理, 2013, 28(2):231-238.
Ji Guanxin, Zhou Lili. Tampering detection and classification of intelligent video surveillance system[J]. Journal of Data Acquisition & Processing, 2013,28(2):231-238.
[8] Dollar P, Appel R, Belongie S, et al. Fast feature pyramids for object detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 36(8):1532-1545.
[9] Benenson R, Omran M, Hosang J, et al. Ten years of pedestrian detection, what have we learned?[J]. Computer Science, 2014, 8926:613-627.
[10] Wu X, Kim K Y, Wang G, et al. Fast human detection using deformable part model at the selected candidate detection positions[C]∥Rough Sets and Knowledge Technology.[S.l.]:[s.n.], 2015.
[11] Cheng M M, Zhang Z, Lin W Y, et al. BING: Binarized normed gradients for objectness estimation at 300fps[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.[S.l]:IEEE, 2014: 3286-3293.
[12] Zitnick C L, Dollár P. Edge boxes: locating object proposals from edges[C]∥Computer Vision-ECCV 2014, [S.l]:[s.n.], 2014:391-405.
[13] Felzenszwalb P F, Girshick R B, David M A, et al. Object detection with discriminatively trained part-based models[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2010, 32(9):1627-1645.
[14] Gadeski E, Fard H O, Borgne H L. GPU deformable part model for object recognition[J]. Journal of Real-Time Image Processing, 2014:1-13.
[15] 陳金輝, 葉西寧. 行人檢測中非極大值抑制算法的改進(jìn)[J]. 華東理工大學(xué)學(xué)報(自然科學(xué)版), 2015, 41(3):371-378.
Chen Jinhui, Ye Xining. Improvement of non-maximum suppression in pedestrian detection [J]. Journal of East China University of Science and Technology (Natural Science Edition), 2015, 41(3):371-378.
[16] Felzenszwalb P F, Girshick R B, McAllester D. Cascade object detection with deformable part models[C]∥Computer vision and pattern recognition (CVPR), 2010 IEEE Conference on. [S.l.]:IEEE, 2010: 2241-2248.
[17] Dollár P, Belongie S, Perona P. The fastest pedestrian detector in the west[C]∥BMVC.[S.l]:[s.n.],2010.