張曉 李峰 秦曉飛 張曉初
摘 要:針對俯視的行人,提出一種基于俯視行人特征、矩形分塊特征、顏色均勻特征等多特征融合的行人檢測和跟蹤方法。該方法主要由4個(gè)部分組成:運(yùn)動檢測、目標(biāo)識別、目標(biāo)跟蹤建模、目標(biāo)跟蹤。系統(tǒng)在整張圖像上用檢測窗遍歷掃描的方式檢測是否含有人頭目標(biāo),每次移動都是在原圖像的一個(gè)采樣,將所有候選目標(biāo)都依次檢測,保留目標(biāo)圖像;同時(shí),對檢測到的目標(biāo)重新建模以便后續(xù)跟蹤;最終利用MeanShift算法跟蹤檢測到的目標(biāo)。實(shí)驗(yàn)表明:該算法精度高、速度快,能有效避免漏檢、誤檢等情況,可以很好地適應(yīng)復(fù)雜場景下的行人檢測。
關(guān)鍵詞:行人檢測;客流計(jì)數(shù);MeanShift算法;跟蹤算法
DOI:10.11907/rjdk.172876
中圖分類號:TP301
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2018)006-0027-05
Abstract:In this paper, a pedestrian detection and tracking method based on multi-feature fusion such as pedestrian character, rectangular block feature and color uniform feature is proposed. The method mainly includes four components: motion detection, target recognition, target tracking modeling and target tracking. The system employs the the detection window traversal scan to detect if there are head targets in the whole image and each move is a sampling of the original image of. All the candidate targets are detected in turn, and the target images are kept and remodeled for subsequent tracking; Finally, the MeanShift algorithm is used to track the detected targets. Experiments show that the algorithm is of high precision and speed and it can well adapt to the pedestrian detection in complex scenes for it can effectively avoid misdiagnosis and false detection.
Key Words:pedestrian detection; passenger flow counting; MeanShift algorithm; tracking; algorithm
0 引言
當(dāng)今社會對行人檢測的需求越來越多[1],比如商場的進(jìn)出口、火車站或地鐵的進(jìn)出口、小區(qū)的安防系統(tǒng)[2]。隨著社會的發(fā)展,行人檢測的重要性日益突出,行人檢測儀器及原理也愈加豐富。人頭檢測可以用于行人計(jì)數(shù)[14-15]、行人檢測等[16],具有很好的應(yīng)用前景,并且在工程中易于實(shí)現(xiàn),只需要將攝像機(jī)安裝在人流通過區(qū)域的正上方,這樣拍攝到的圖像幾乎都會包含完整的人頭。
該領(lǐng)域最有影響力的早期作品之一是Papageorgiou等[3]的方法,他們使用幾個(gè)尺度的哈爾小波濾波器提取人物的特征。對于面部檢測的問題,類似Haar特征被證明是非常有效的,但對行人外觀和形狀變化較大的處理能力較差。在引入SIFT描述符之后出現(xiàn)了重大突破。受SIFT的啟發(fā),Dalal和Triggs[5]提出了方向梯度直方圖(HOG)特征。 HOG出現(xiàn)后,引入了HOG的幾個(gè)推導(dǎo)。Wu等[6]與HOG和Wang等[7]將局部二值模式(LBP)與HOG結(jié)合在一起[8]。盡管看起來與HOG的所有可能功能組合已被徹底探索,但事實(shí)并非如此。如Dollar等[9]回顧了原始的HOG,并開發(fā)了積分通道特征(ICF),它是多個(gè)通道的矩形總和,如LUV顏色、灰度、梯度和方向。Benenson等[10]采用平方和代替矩形計(jì)算ICF特征,并命名為平方通道特征(SCF)。此外還引入了聚合通道特征(ACF)[11],以多尺度加速特征計(jì)算,不再利用矩形而是使用像素查找。 Nam等引入局部去相關(guān)濾波器消除鄰域中信道特征的相關(guān)性,將其命名為局部相關(guān)通道特征(LDCF),該方法提高了ACF的性能。ZLD等[12]受LDCF啟發(fā),創(chuàng)建了過濾通道特征(FCF)的框架,比較了幾種過濾組合的性能,并打破了LDCF的記錄。Park等[13]提高了ACF的性能,增加了從弱穩(wěn)定序列提取的光流特征,并將其命名為SDt。
為了從視頻序列中提取移動的行人區(qū)域,已經(jīng)提出幾種方法:幀差分法、光流法和背景減法。幀差分法不能很好地適應(yīng)環(huán)境。光流法可以分析從圖像序列到近似計(jì)算移動的目標(biāo)字段的光流場,可以通過分割場景圖像來檢測對象領(lǐng)域。然而,流量不能在本地計(jì)算,因?yàn)樵趫D像序列的某一點(diǎn)只能獲得一個(gè)獨(dú)立的測量值,而流速具有兩個(gè)分量[12]。本文提出用一種通用的背景減法提取前景。前景圖像可以從背景減去的輸入圖像中快速提取。背景減法的結(jié)果可以呈現(xiàn)目標(biāo)形狀、位置和大小信息。
綜合以上幾類方法為基礎(chǔ),本文提出了基于多特征融合的人頭檢測和跟蹤算法。該算法主要包括運(yùn)動檢測、目標(biāo)識別、目標(biāo)跟蹤建模、目標(biāo)跟蹤4個(gè)部分。通過檢測窗對候選目標(biāo)快速篩選,檢測出目標(biāo)圖像,然后用MeanShift算法進(jìn)行目標(biāo)跟蹤識別。
1 俯視行人特征分析
根據(jù)實(shí)際拍攝的圖片,檢測窗體大小設(shè)為 75×75,滑動檢測窗,矩形框每一次移動都是在原圖像的一個(gè)采樣,如圖1。
其中圖1中的(1)、(2)、(3)、(4)、(6)、(7)、(13)、(14)、(15)為人頭圖像,且圖(2)和圖(3),圖(6)和圖(7)都分別為同一個(gè)人。遍歷方框采用75×75,由于白色部分為1,黑色部分為0,75×75=5 625,白色部分積分值大概在1 700—3 500之間,其中1 700是直徑為75的圓,5 625-75^2/4*3.14=1 700,3 500是測得的人頭最小極限。圖(5)、(8)、(9)、(10)、(11)、(12)均為干擾項(xiàng),其中圖1的(5)為一個(gè)黑色肩膀,圖1的(8)、(9)、(10)為同一條褲子,圖1的(11)、(12)是同一個(gè)書包。(圖1的(1)、(2)、(3)來自圖2(1);圖1的(5)、(6)、(7)來自圖2(2);圖1的(8)、(9)、(10)來自圖2(3);圖1的(14)、(15)來自圖2(4)。
針對圖1(1-15)進(jìn)行特征分析,其中圖1(3)是最理想的目標(biāo)對象。二值化人頭特征是把不符合條件特征的樣本刪去,無論是HOUGH變換圓檢測、輪廓特征檢測,還是矩形分塊特征檢測,圖(3)都是最理想的樣本,但實(shí)際檢測中背景變換太復(fù)雜,當(dāng)行人穿著為黑色衣褲,或者披長發(fā),檢測就比較困難,因此有必要分析復(fù)雜背景下人頭特征。具體特征描述如下:(遍歷取樣取積分值為1 700-3 500)
(1)一個(gè)人頭后面的背景如果不是黑色,那么取樣結(jié)果任意三條邊不能同時(shí)含有黑色,也就是說任意三條邊的積分值不能同時(shí)不等于75,否則刪除所得樣本。
(2)當(dāng)然對于圖1(11)、(12)特征二同樣有效,但圖1(8)特征二并不能剔除,因此提出檢測直線的方法,,圖1(8)、(9)、(10)中直線形成的原因主要是,在腐蝕膨脹后,圖像中一些近似直線的線條會變成純粹的直線,而人頭圖像不會產(chǎn)生長度超過20個(gè)像素的直線。圖4是圖1(9)放大后的圖像,可以清楚看出圖中左下方有一條直線,以及中上方有一條短直線,因此建立函數(shù)detectline,檢測采樣樣本中是否含有長度超過20像素的直線。
(3)假定一個(gè)人頭圖像只能位于檢測窗的左下角,不能位于右上部分,即類似圖1(2)、(3)的人頭,這樣可以剔除圖1(10)、(11)的干擾。基于此,設(shè)定任意一個(gè)采樣樣本黑色部分如果與兩條邊相交,那它只能與左邊和下邊相交,而右邊和上邊設(shè)定為白色,按照這個(gè)標(biāo)準(zhǔn)能采到一個(gè)人頭圖像相應(yīng)樣本。同時(shí)也直接排除了圖1(9)、(10)、(11)。
(4)頭部顏色也是突出特征,但本文沒有直接用黑色作為目標(biāo)特征,而是通過計(jì)算矩形框內(nèi)所有像素值的方差來確定。這樣,也可以有效辨識那些頭發(fā)染色或禿頭的行人。
2 矩形分塊特征
本文將矩形分塊特征應(yīng)用于俯視人頭檢測。根據(jù)其左右、上下邊界特征作為判斷標(biāo)準(zhǔn),如圖5為人頭矩形分塊。
左右邊界特征:即將矩形框從左到右分成4個(gè)列,如果目標(biāo)在矩形框的中間,則矩形框左側(cè)兩列矩形塊之間和右側(cè)兩列矩形塊之間都會存在很明顯差異,如圖1。檢測窗從左向右第 1、2、3、4 列矩形分塊的積分值分別用R(1L)、R(2L)、R(3L)、R(4L)表示;分別用F-1、F-2檢測矩形框左右兩邊是否存在邊界。
上下邊界特征,同左右邊界特征類似,如果被檢測目標(biāo)在矩形框中間,將矩形框從上到下分為4行,如果目標(biāo)在中間,那么矩形框上邊的兩行和下邊的兩行之間都會存在較大差異。因此可將式(1)-(6)稍加改動,作為上下邊界特征的判斷準(zhǔn)則。
矩形特征閾值的確定只需要正樣本,每一種矩形特征都需要通過所有的正樣本確定相應(yīng)的閾值。
3 目標(biāo)檢測及跟蹤
3.1 目標(biāo)檢測
此外,將前兩節(jié)得到的每一個(gè)特征都設(shè)計(jì)為簡單的分類器,分類器之間是級聯(lián)的關(guān)系,只有滿足所有特征的目標(biāo)才是真正的目標(biāo)。
3.2 人頭目標(biāo)跟蹤
3.2.1 目標(biāo)模型建立
3.2.2 候選模型建立
H表示核函數(shù)窗口的大小,決定權(quán)重的分布,其它參數(shù)則同目標(biāo)模型。
3.2.3 相似性度量
本文采用Bhattacharyya系數(shù)作為相似函數(shù),其定義為:
以前一幀中的目標(biāo)中心位置為搜索窗口中心,逐漸尋找候選區(qū)域。若在該區(qū)域中相似函數(shù)最大,則該區(qū)域即是本幀中的目標(biāo)位置。
3.2.4 MeanShift區(qū)域搜索
對式(18)進(jìn)行泰勒展開,得到Bhattacharyya系數(shù)的近似表達(dá)式為:
通過候選區(qū)域中心向真實(shí)區(qū)域中心的MeanShift迭代方程完成其極大化過程:
根據(jù)2.2.1-2.2.3所建立的狀態(tài)方程估算出目標(biāo)存在的粗略位置,進(jìn)而采用 Mean Shift 算法在該區(qū)域?qū)δ繕?biāo)位置搜索,減少了對整幅圖像搜索帶來的無效計(jì)算,提高了算法效率。
3.3 算法總體框架
系統(tǒng)整體架構(gòu)如圖6所示。系統(tǒng)主要包括3個(gè)模塊:運(yùn)動目標(biāo)檢測模塊、人頭檢測模塊、目標(biāo)跟蹤模塊。
4 實(shí)驗(yàn)結(jié)果與分析
選取監(jiān)控視頻,并選取500幀圖片作為測試樣本,圖像大小為320×240,采用64×64尺度的檢驗(yàn)窗,依次遍歷掃描,每次步長6個(gè)像素。檢測效果如圖7所示。
為驗(yàn)證本文方法有效性,利用基于多特征融合的人頭檢測算法,對上述500幀圖片進(jìn)行檢測,并與傳統(tǒng)的基于Hough變換的人頭檢測方法進(jìn)行對比。如表1和表2所示。
由表1可知本文算法與Though變換算法相比,漏檢率降低14.44%,查全率提高14.44%,查準(zhǔn)率提高3.76%,因此本文算法更有效。由表2可得本文算法與Though變換算法相比,速度提高7.205s,實(shí)時(shí)性更好,更有利于實(shí)時(shí)監(jiān)測。
5 結(jié)語
本文提出一種基于多特征融合的俯視行人檢測與跟蹤方法,通過檢測窗對候選目標(biāo)快速篩選,將不符合人頭特征和非人頭干擾特征的采樣目標(biāo)刪去,最終保留目標(biāo)圖像,然后用MeanShift算法進(jìn)行目標(biāo)跟蹤識別。該方法精度高、抗干擾性好,對于復(fù)雜場景中的人頭圖像可以有效地檢測、實(shí)時(shí)處理數(shù)據(jù),具有較強(qiáng)的實(shí)用性和推廣性。
參考文獻(xiàn):
[1] 蘇松志,李紹滋,陳淑媛等.行人檢測技術(shù)綜述[J].電子學(xué)報(bào),2012,40(4):814-820.
[2] NGUYEN D T, LI W Q ,OGUNBONA P O. Human detection from images and videos: a survey[J]. Pattern Recognition, 2016,51:148-175.
[3] EUM H, YOON C, LEE H, et al.Continuous human action recognition using Depth MHI-HOG and a Spotter Model[J]. Sensors, 2015(15):5197-5227.
[4] HAN J,BHANU B. Human activity recognition in thermal infrared imagery[C]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops,2005:17-24.
[5] ANTONUCCI A, ROSA R D, GIUSTI A. Action recognition by imprecise Hidden Markov Models[C]. In Proceedings of the 2011 International Conference on Image Processing, Computer Vision and Pattern Recognition, 2011:474-478.
[6] Human activity video datasets. accessed on 26 January (2017)[EB/OL].https://www.cs.utexas.edu/~chaoyeh/web_action_data/dataset_list.htmal.
[7] HARDING P R G, ELLIS T.Recognizing hand gesture using Fourier descriptors[C]. Proceedings of the IEEE International Conference on Pattern Recognition,2004:286-289.
[8] DIAZ-RODRIGUEZ N, CADAHIA O L, CUELLAR M P, et al. Handling real-world context awareness, uncertainty and vagueness in real-time human activity tracking and recognition with a fuzzy ontology-based hybrid method[J]. Sensors, 2014,14(10):18131-18171.
[9] BATCHULUUN G, KIM Y G, KIM J H,et al. Robust behavior recognition in intelligent surveillance environments[J]. Sensors,2016(16):1-23.
[10] Actions as space-time shapes. [EB/OL]. http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html
[11] BARUA A, MUDUNURI L S, KOSHELEVA O. Why trapezoidal and triangular membership functions work so well: towards a theoretical explanation[J].Uncertain System,2014(8):164-168.
[12] JIANG H, DREW M S, LI Z N. Successive convex matching for action detection[C]. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006:1646-1653
[13] FATING K,GHOTKAR A. Performance analysis of chain code descriptor for hand shape classification[J]. International Journal of Computer Graphics and Animation,2014(4):9-19.
[14] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C].IEEE International Conference on Computer Vision and Pattern Recognition, 2014:580-587.
[15] WANG Z,CAO X B, YANG P K . Transfer learning for pedestrian detection [J]. Neurocomputing, 2013,100(1):51-57.
[16] GERONIMO D,LOPEZ A M. Vision-based pedestrian protection systems for intelligent vehicles[M],New York:Springer Publishing Company, 2013 .
[17] 朱夢超,潘今一 .基于 HOG-PCA 和 SVM 的人行橫道信號燈識別方法[J].工業(yè)控制計(jì)算機(jī),2015,28(4):125-126.
[18] 牛勝石,毛曉暉,侯建華,等.基于 Adaboost 和SVM 的人頭實(shí)時(shí)檢測[J].微型機(jī)及應(yīng)用,2010(3):33-36.
[19] 文嘉俊,徐勇,戰(zhàn)蔭偉.基于 Ada Boost 和幀間特征的人數(shù)統(tǒng)計(jì)[J].中國圖像圖形學(xué)報(bào),2011,16(9):1729-1735.
[20] 張海洋,陳國龍,李現(xiàn)偉.基于曲率尺度空間的人頭檢測方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(14):195-197.
[21] 鄭佳,李江勇.基于背景差分和信息熵的運(yùn)動目標(biāo)檢測算法[J].激光與紅外,2014,44(5):563-566.
[22] 陳磊,鄒北驥.基于動態(tài)閾值對稱差分和背景差法的運(yùn)動對象檢測算法[J].計(jì)算機(jī)應(yīng)用研究,2008,25(2):488-494.
[23] KRYIAK T,GORGON M. Real-time implementation of the ViBe foreground object segmentation algorithm[C]. Computer Science and Information Systems, 2013:591-596.
[24] LI Y, CHEN W, JIANG R. The integration adjacent frame difference of improved Vi Be for foreground object detection[C]. Wuhan:IEEE Conference on WiCOM, 2011:1-4.
[25] 洪虹,李文耀.基于背景重構(gòu)的運(yùn)動對象越界偵測方法[J].電視技術(shù),2012,36(7):123-126.
(責(zé)任編輯:江 艷)