邵奇可,李 路,周 宇,顏世航
(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)
一種基于滑動(dòng)窗口優(yōu)化算法的行人檢測算法
邵奇可,李路,周宇,顏世航
(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310023)
摘要:行人檢測是計(jì)算機(jī)視覺中的關(guān)鍵技術(shù)之一,在智能交通領(lǐng)域有大量實(shí)際應(yīng)用,如何在提高行人檢測精度的同時(shí)提高檢測速度一直是研究的熱點(diǎn).首先采用基于高斯混合模型的背景建模方法分離出運(yùn)動(dòng)目標(biāo),將原始視頻序列轉(zhuǎn)換為二值圖片,得到大量固定大小的訓(xùn)練樣本;然后提取樣本圖片的HOG特征,通過SVM訓(xùn)練得到分類器;接著用固定大小的滑動(dòng)窗口檢測行人,并提出了一種滑動(dòng)窗口優(yōu)化算法來篩選檢測結(jié)果;進(jìn)而用前景像素密度估算方法調(diào)整檢測結(jié)果,輸出最終統(tǒng)計(jì)人數(shù),最后實(shí)驗(yàn)表明方法的有效性。
關(guān)鍵詞:行人檢測;高斯混合模型;HOG;背景建模
Pedestrian detection in videos based on optimization
algorithm using sliding window
SHAO Qike, LI Lu, ZHOU Yu, YAN Shihang
(College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China)
Abstract:Pedestrian detection is one of the key technologies in computer vision. It has applied in intelligent transportation field widely. How to improve the detection precision as well as the detection speed is a hot research topic. Background modeling method based on Gauss mixture model is used in this paper to separate the moving target from the background. Then the original video sequence can be converted into binary image for training. Then the HOG feature in the sample images are extracted through the Support Vector Machines. A size-fixed sliding window is used to detect pedestrians. Here an optimization algorithm using sliding window is proposed to screen the test results. Then the foreground pixel density estimation method is used to adjust the detection result. Finally the experimental results show the proposed method is effective。
Keywords:pedestrian detection; Gaussian mixture model; HOG; background modeling
隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,基于行人檢測技術(shù)的應(yīng)用給人們的生活和出行帶來了諸多便利[1-2],尤其是在城市智能交通領(lǐng)域中的應(yīng)用,對(duì)開展交通規(guī)劃和控制人流起著至關(guān)重要的作用[3].近年來,行人檢測技術(shù)的應(yīng)用領(lǐng)域也在不斷擴(kuò)展[4-6],這對(duì)行人檢測技術(shù)提出了更高的要求,復(fù)雜的環(huán)境(如光照變化,遮擋,天氣變化等)下,如何提高行人檢測的速度以及精度一直困擾著眾多研究者[7].目前行人檢測方法主要有基于運(yùn)動(dòng)特性的方法、基于模版匹配的方法以及基于機(jī)器學(xué)習(xí)的方法等.大多數(shù)基于運(yùn)動(dòng)特性的方法為了提取運(yùn)動(dòng)節(jié)奏特征要求一些重要部位(如腿、腳)是可見的,這對(duì)檢測目標(biāo)有了過高的要求,在復(fù)雜場景下很難得到保證.Pedro F. Felzenszwalb等提出的圖形結(jié)構(gòu)匹配算法是基于模版匹配的典型代表,該算法能較準(zhǔn)確地檢測出復(fù)雜的行人姿態(tài),但是匹配算法過于復(fù)雜,匹配速度過慢,且對(duì)復(fù)雜環(huán)境下的匹配精度無法保障[8].文獻(xiàn)[9]中Broggi等人提出了一種基于形狀的局部匹配算法,以大量不同大小的二值圖像為模板,對(duì)人的頭肩部分進(jìn)行建模用于匹配和識(shí)別行人,提高了檢測速度,但這個(gè)方法過于依賴模版的質(zhì)量.Mohan和Poggio提出的通過檢測人體部位來檢測行人的算法是基于機(jī)器學(xué)習(xí)的方法,能兼顧檢測速度和檢測精度,但訓(xùn)練階段工作量過于龐大[10].針對(duì)訓(xùn)練工作量大且耗時(shí)的問題,文獻(xiàn)[11]中提出了一種基于場景模型與統(tǒng)計(jì)學(xué)習(xí)的魯棒行人檢測算法,利用GMM(Gaussian mixture model)來建模[12],用Haar-like特征描述行人特征,以AdaBoost級(jí)聯(lián)結(jié)構(gòu)作為分類器,并提出一種改進(jìn)的弱分類器選擇算法,提高了弱分類器選擇和分類器重新訓(xùn)練的速度.Dalal和Triggs提出的HOG(Histogram of oriented gradients)行人檢測算法有很好的檢測效果[13],為之后的行人檢測算法建立了良好的基礎(chǔ),但HOG行人檢測算法對(duì)于檢測場景與訓(xùn)練樣本有較高要求,場景的變化會(huì)對(duì)檢測精度和檢測穩(wěn)定性造成影響,并且檢測速度過慢。
鑒于目前的研究狀況,筆者提出了一種基于滑動(dòng)窗口優(yōu)化的行人檢測算法,前期通過高斯混合模型的背景建模方法提取目標(biāo)[14],降低背景因素的干擾,減少負(fù)樣本的訓(xùn)練量,同時(shí)縮減檢測區(qū)域,提高檢測速度;然后提取目標(biāo)的HOG特征[15],用SVM(Supportvector machines)訓(xùn)練大量樣本得到自己的分類器[16],再用固定大小的滑動(dòng)窗口檢測行人;并提出了滑動(dòng)窗口距離優(yōu)化算法對(duì)檢測到的行人進(jìn)行篩選,最后通過特定的前景像素密度估計(jì)方法調(diào)整檢測結(jié)果[17],進(jìn)一步提高檢測精度,輸出最終統(tǒng)計(jì)人數(shù)。
1總體概述
文中行人檢測算法是基于機(jī)器學(xué)習(xí)的行人檢測研究方法,前期需要對(duì)攝像機(jī)進(jìn)行標(biāo)定,檢測距離在3~7 m之間。
具體步驟如下:
Step 1:讀入特點(diǎn)區(qū)域視頻序列,用基于高斯混合模型的背景建模方法處理,得到大量二值圖片。
Step 2:從處理后圖片中截取固定大小為64×128像素的樣本圖片,提取正負(fù)樣本圖片的HOG特征,訓(xùn)練自己的分類器。
Step 3:讀取待測區(qū)域的視頻序列,結(jié)合自己訓(xùn)練的分類器,用固定大小的滑動(dòng)窗口遍歷圖片,檢測行人目標(biāo),將檢測到的目標(biāo)存入內(nèi)存。
Step 4:用滑動(dòng)窗口距離優(yōu)化算法篩選檢測到的目標(biāo),調(diào)節(jié)閾值,去除一個(gè)目標(biāo)重復(fù)檢測和一個(gè)檢測窗口多個(gè)分離目標(biāo)的情況。
Step 5:用前景像素密度估計(jì)的方法調(diào)整檢測結(jié)果,輸出最終人數(shù)。
系統(tǒng)的總體流程圖如圖1所示。
圖1 系統(tǒng)總體流程圖Fig.1 The overall flow chart
Step 2中圖片的HOG特征計(jì)算公式如下:
圖像某點(diǎn)(x,y)水平方向梯度值Gx(x,y)方程式為
Gx(x,y)=H(x+1,y)-H(x-1,y)
(1)
垂直方向梯度值Gy(x,y)為
Gy(x,y)=H(x,y+1)-H(x,y-1)
(2)
式中H(x,y)為圖像原始點(diǎn)像素值。
梯度值G(x,y)為
(3)
梯度方向?(x,y)為
(4)
Step 3的檢測結(jié)果為固定大小的滑動(dòng)窗口檢測到的所有目標(biāo),其中包括很多重復(fù)檢測,Step 4是筆者提出的優(yōu)化算法用于去除重復(fù)檢測的目標(biāo),并保證一個(gè)檢測窗口中不存在多個(gè)分離的目標(biāo),Step 5是針對(duì)一個(gè)窗口中有多個(gè)重疊的目標(biāo)而加入的人數(shù)調(diào)整方法,具體內(nèi)容將在下節(jié)展開。
2滑動(dòng)窗口距離優(yōu)化算法和前景像素密度估計(jì)方法
用固定大小的滑動(dòng)窗口檢測出所有對(duì)象W,定義一個(gè)變量i(0≤i 圖2 滑動(dòng)窗口優(yōu)化算法流程圖Fig.2 The flow chart of optimization algorithm using sliding window 測試可知:在當(dāng)前場景下,閾值取值為410~600時(shí),檢測效果最佳,誤檢和漏檢率最低,在研究過程中,為了能檢測到完整行人,為后續(xù)用前景像素密度估計(jì)的方法調(diào)整檢測結(jié)果作鋪墊,將閾值D設(shè)置為510.另外,由于對(duì)滑動(dòng)窗口間距離的優(yōu)化,有效去除了兩個(gè)人不互相遮擋但在一個(gè)檢測窗口的情況,筆者對(duì)1 000張不同圖片進(jìn)行測試,都不存在此類情況,證明了算法的可靠性。 在前后兩人出現(xiàn)遮擋的情況下,由于無法通過距離優(yōu)化算法將兩人分開檢測,采用了前景像素密度估計(jì)的方法來調(diào)整檢測結(jié)果[17].將經(jīng)過距離優(yōu)化算法檢測后的結(jié)果取出來,遍歷整個(gè)窗口,統(tǒng)計(jì)所有像素值為255的點(diǎn),將統(tǒng)計(jì)數(shù)量記為N,檢測到的矩形窗口大小記為S,并將N/S的值作為調(diào)節(jié)閾值,記為TH,經(jīng)檢測,當(dāng)TH<0.28,檢測窗口內(nèi)只有一個(gè)人,當(dāng)0.28 3分類器的訓(xùn)練與檢測結(jié)果 樣本主要來自校園人行道,公路人行道以及公交站臺(tái)等行人較多的場合,攝像機(jī)需要提前標(biāo)定.為了得到檢測目標(biāo)并盡量減少背景因素的干擾,筆者采用基于混合高斯模型的背景建模來處理視頻序列。 對(duì)于視頻幀中的某一點(diǎn)p(x,y),在一段時(shí)間內(nèi),它的像素值序列{X1,…,Xt}可以用K個(gè)混合高斯分布來描述.其中Xt表示t時(shí)刻點(diǎn)p的像素值.點(diǎn)p在t時(shí)刻的概率分布為 (5) 式中:K為該模型中高斯分布的個(gè)數(shù);ωi,t為t時(shí)刻第i個(gè)高斯分布的權(quán)重;μi,t為t時(shí)刻第i個(gè)高斯分布的均值;∑i,t為t時(shí)刻第i個(gè)高斯分布的協(xié)方差矩陣;η為一個(gè)高斯概率密度函數(shù),即 (6) 這里采用OnlineK-means算法初始化參數(shù)μ、ω和∑,具體如下: 1) 猜測每一類別的均值,標(biāo)記為{m1,m2,…,mk}。 2) 為每一個(gè)類別設(shè)置一個(gè)計(jì)數(shù)變量,標(biāo)記為n1,n2,…,nk,并且初始化為0。 4) 用各類的均值作為μ,并計(jì)算協(xié)方差∑,樣本的比例作為ω。 每個(gè)新到達(dá)的像素值Xt+1,都會(huì)與K個(gè)高斯分布進(jìn)行比較,直到找到匹配的分布為止.匹配的條件為 (7) 式中k普遍認(rèn)為取值為2.5時(shí)效果最佳。 當(dāng)匹配過程結(jié)束時(shí),若匹配到某個(gè)高斯分布時(shí),更新如下: ωi,t+1=(1-α)ωi,t+α (8) μi,t+1=(1-ρ)μi,t+ρ·Xt+1 (9) (10) 式中:α為學(xué)習(xí)率,取值范圍為0~1,初始化背景時(shí)若α過大,雖然有利于背景模型的建立,但是背景模型建立后會(huì)導(dǎo)致模型不穩(wěn)定,而過小則不利于模型的建立,此處取值為0.02;ρ=α·η(Xt+1,μi,∑i)為權(quán)值更新率.每次更新完成后,重新對(duì)高斯混合分布按從高到低的順序進(jìn)行排序。 當(dāng)未匹配到某個(gè)高斯分布時(shí),用新的高斯分布代替最小的高斯分布,參數(shù)作相應(yīng)修改。 經(jīng)過基于混合高斯模型的背景建模方法處理視頻序列后,得到大量二值化圖片,從中提取正負(fù)樣本來訓(xùn)練得到自己的分類器。 筆者共訓(xùn)練了5 000張正樣本,2 115張負(fù)樣本.其中正樣本是形態(tài)各異的行人,負(fù)樣本是各種帶有噪聲點(diǎn)的背景圖片以及正樣本中誤檢的圖片,圖3是部分正樣本圖片示例,圖4是部分負(fù)樣本圖片示例。 圖3 部分正樣本圖片F(xiàn)ig.3 Part of the positive samples 圖4 部分負(fù)樣本圖片F(xiàn)ig.4 Part of the negative samples 采用大小為64×128像素的樣本圖片來訓(xùn)練分類器,每8×8個(gè)像素為一個(gè)單元,梯度方向(0~180度)分為9個(gè),每個(gè)20度,再對(duì)單元內(nèi)各個(gè)像素所屬方向做一個(gè)投票統(tǒng)計(jì),得到的票數(shù)就是該像素的邊緣強(qiáng)度.每2×2個(gè)單元構(gòu)成一個(gè)塊,塊每次滑動(dòng)的步長為一個(gè)單元(即8個(gè)像素),如此,每個(gè)塊中有4×9=36個(gè)特征,水平方向有7個(gè)步長,豎直方向有15個(gè)步長,共36×7×15=3 780個(gè)特征,對(duì)各個(gè)塊的梯度方向加權(quán)直方圖進(jìn)行統(tǒng)計(jì)后,得到每個(gè)塊的特征,把檢測窗口內(nèi)所有的塊的特征串聯(lián)起來,就構(gòu)成了人體特征向量。 利用SVM訓(xùn)練得到分類器后,用固定大小的滑動(dòng)窗口遍歷整個(gè)待檢圖片,檢測窗口中是否有目標(biāo),若檢測到目標(biāo)則存儲(chǔ)到內(nèi)存,再用滑動(dòng)窗口距離優(yōu)化算法對(duì)檢測到的行人進(jìn)行篩選,將篩選結(jié)果傳遞,最后通過特定的前景像素密度估計(jì)方法調(diào)整檢測結(jié)果,輸出最終統(tǒng)計(jì)人數(shù)。 筆者共測試了1 000張行人圖片并與原始HOG算法檢測效果進(jìn)行比較,原始HOG算法檢測效果如圖5所示,筆者方法的檢測效果如圖6所示。 圖5 HOG檢測算法檢測效果Fig.5 The effect of HOG algorithm 圖6 筆者方法的檢測效果Fig.6 The effect of this method 在1 000張測試圖片中,同樣的訓(xùn)練樣本,檢測的結(jié)果如表1所示。 表1 檢測效果比較 從以上檢測結(jié)果可知:當(dāng)兩個(gè)檢測目標(biāo)分離較遠(yuǎn)時(shí),原始HOG算法能有效地檢測出運(yùn)動(dòng)目標(biāo),但當(dāng)兩個(gè)目標(biāo)距離接近時(shí),原始HOG算法會(huì)出現(xiàn)漏檢或誤檢現(xiàn)象.而提出的算法在兩個(gè)目標(biāo)靠近時(shí)仍能精確地檢測出目標(biāo),在檢測精度上有了很大的改進(jìn)。 同時(shí),檢測結(jié)果顯示檢測一幀視頻序列的時(shí)間一般在140~260 ms(已將前期用混合高斯建模處理視頻時(shí)間約3 ms/幀計(jì)入)之間,而普通HOG算法檢測行人需要1 s以上的時(shí)間,可見在檢測速度上也有明顯的提升,符合實(shí)時(shí)性的要求。 4結(jié)論 提出了一種高效且較精確的行人檢測算法,用基于混合高斯模型的背景建模方法削弱背景的干擾,用HOG來描述行人特征并訓(xùn)練自己的分類器,用固定大小的滑動(dòng)窗口來檢測行人,同時(shí)提出了一種滑動(dòng)窗口優(yōu)化算法來篩選檢測結(jié)果,提高檢測精度,最后用前景像素密度估計(jì)的方法調(diào)整檢測結(jié)果,進(jìn)一步提高檢測精度.在理論上分析和實(shí)際應(yīng)用中,都具有良好的檢測效果.下一步研究工作主要是在確保檢測精度的基礎(chǔ)上,進(jìn)一步提升高密度人群的檢測精度。 參考文獻(xiàn): [1]湯一平,陸海峰.基于計(jì)算機(jī)視覺的電梯內(nèi)防暴力智能視頻監(jiān)控[J].浙江工業(yè)大學(xué)學(xué)報(bào),2009,37(6):591-597。 [2]陳敏智,湯一平.基于支持向量機(jī)的針對(duì)ATM機(jī)的異常行為識(shí)別[J].浙江工業(yè)大學(xué)學(xué)報(bào),2010,38(5):546-551。 [3]王為,姚明海.基于計(jì)算機(jī)視覺的智能交通監(jiān)控系統(tǒng)[J].浙江工業(yè)大學(xué)學(xué)報(bào),2010,38(5):574-579。 [4]SILBERSTEIN S, LEVI D, KOGAN V, et al. Vision-based pedestrian detection for rear-view cameras[C]//Intelligent Vehicles Symposium Proceedings. Dearborn: IEEE publisher,2014:853-860。 [5]PRIOLETTI A, MOGELMOSE A, GRISLIERI P, et al. Part-based pedestrian detection and feature-based tracking for driver assistance: real-time, robust algorithms and evaluation[J]. IEEE Transactions on Intelligent Transportation Systems,2013,14(3):1346-1359。 [6]OLMEDA D, PREMEBIDA C, NUNES U, et al. Pedestrian detection in far infrared images[J]. Integrated Computer-Aided Engineering,2013,20(4):347-360。 [7]DOLLAR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: an evaluation of the state of the art[J].Pattern Analysis and Machine Intelligence, IEEE Transactions on,2012,34(4):743-761。 [8]FELZENSZWALB P F, HUTTENLOCHER D P. Efficient matching of pictorial structures[C] //Computer Vision and Pattern Recognition. Hilton Head Island: IEEE publisher,2000:66-73。 [9]BROGGI A, BERTOZZI M, FASCIOLI A, et al. Shape-based pedestrian detection[C]//IEEE Intelligent Vehicles Symp. Dearborn: IEEE publisher,2000:215-220。 [10]MOHAN A, PAPAGEORGIOU C, POGGIO T. Example-based object detection in images by components[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2001,23(4):349-361。 [11]楊濤,李靜,潘泉,等.基于場景模型與統(tǒng)計(jì)學(xué)習(xí)的魯棒行人檢測算法[J].自動(dòng)化學(xué)報(bào),2010,36(4):499-508。 [12]STAUFFER C, GRIMSON W E L. Adaptive background mixture models for real-time tracking[C]//Computer Vision and Pattern Recognition. Fort Collins: IEEE publisher,1999:1063-1069。 [13]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition. San Diego: IEEE publisher,2005:886-893。 [14]STAUFFER C, GRIMSON W E L. Learning patterns of activity using real-time tracking[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2000,22(8):747-757。 [15]ZHU Qiang, YEH M C, CHENG K T, et al. Fast human detection using a cascade of histograms of oriented gradients[C]//Computer Vision and Pattern Recognition. New York: IEEE publisher,2006:1491-1498。 [16]CHAPELLE O, HAFFNER P, VAPNIK V N. Support vector machines for histogram-based image classification[J]. Neural Networks, IEEE Transactions on,1999,10(5):1055-1064。 [17]ZIVKOVIC Z, FERDINAND V D H. Efficient adaptive density estimation per image pixel for the task of background subtraction[J]. Pattern Recognition Letters,2006,27(7):773-780。 [18]原春鋒,王傳旭,張祥光,等.光照突變環(huán)境下基于高斯混合模型和梯度信息的視頻分割[J].中國圖象圖形學(xué)報(bào),2007,12(11):2068-2072。 (責(zé)任編輯:陳石平) 中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-4303(2015)02-0212-05 作者簡介:邵奇可(1976—),男,浙江舟山人,副教授,博士,研究方向?yàn)榫W(wǎng)絡(luò)控制系統(tǒng),E-mail:sqk@zjut.edu.cn。 基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61104095) 收稿日期:2014-11-200.7的情況,將調(diào)整數(shù)記為0,取下一幀視頻序列重新檢測,避免因突變引起誤差。