黃 鵬, 于鳳芹, 陳 瑩
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
行人檢測是計(jì)算機(jī)視覺中極具挑戰(zhàn)性的課題,被廣泛應(yīng)用于視頻監(jiān)控、機(jī)器人輔助駕駛和智能攝像機(jī)。行人兼具剛性和柔性物體的特性,外觀易受穿著、尺度、遮擋、姿態(tài)和視角等影響,使得行人檢測成為計(jì)算機(jī)視覺的研究難點(diǎn)與熱點(diǎn)[1]。
獲取人體描述特征之前需要建立人體模型,輪廓信息的提取至關(guān)重要。典型的行人檢測方法提取梯度方向直方圖(histogram of oriented gradients,HOG)[2,3]特征,能有效刻畫人體邊緣特征,但維度高、計(jì)算慢;Dollár P等人[4]提出了積分通道特征(integral channel features,ICF),從不同角度對(duì)行人進(jìn)行描述,大幅提升了檢測精度,但特征維數(shù)大,檢測速度慢;Dollár P等人[5]提出了聚合通道特征(aggregate channel features,ACF)算法,計(jì)算塊中像素和作為特征向量,具有較快的檢測速度,但對(duì)行人外觀輪廓描述不穩(wěn)定導(dǎo)致檢測率下降;Zhang S S等人[6]對(duì)ACF算法進(jìn)行了改進(jìn),使用濾波器組來突出行人輪廓信息,在遮擋情況下仍然有較好的檢測精度,但計(jì)算量較大;Hwang S等人[7]在ACF算法中增加了紅外圖像通道,增強(qiáng)在夜間環(huán)境下的檢測率,但應(yīng)用成本較高;Sermanet P等人[8]提出了使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)學(xué)習(xí)多個(gè)層級(jí)的特征來檢測行人;Lim J等人[9]提出了使用無監(jiān)督的學(xué)習(xí)方法來獲取能夠準(zhǔn)確捕捉行人輪廓的中層特征;Lim J等人[10]利用快速邊緣檢測[11]提取邊緣信息獲取可能存在的目標(biāo)區(qū)域,提出了通用目標(biāo)檢測EdgeBox算法,檢測區(qū)域與實(shí)際目標(biāo)重合50 %的情況下,取得了96 %的檢測率。
本文針對(duì)ACF算法中行人外觀輪廓不穩(wěn)定導(dǎo)致檢測率下降的問題,提出了基于快速邊緣檢測和Real Adaboost的行人檢測。在ACF算法的基礎(chǔ)上,引入了EdgeBox算法中邊緣檢測獲取目標(biāo)輪廓信息的思想,利用快速邊緣檢測得到圖像的輪廓通道,替代梯度幅值通道,獲取較穩(wěn)定的行人輪廓信息;對(duì)新組成的10個(gè)圖像通道進(jìn)行4×4的求和降采樣得到特征向量,送入分類性能較強(qiáng)的Real Adaboost分類器進(jìn)行分類。
Dollár P等人[11]提出了一種結(jié)構(gòu)化的快速邊緣檢測算法,并在此基礎(chǔ)上提出了EdgeBox算法[10],利用邊緣信息能夠快速定位目標(biāo)的預(yù)選區(qū)域。本文采用的快速邊緣檢測算法提取圖像塊內(nèi)的特征,訓(xùn)練結(jié)構(gòu)化的隨機(jī)森林對(duì)每個(gè)像素點(diǎn)進(jìn)行分類,從而確定該像素點(diǎn)是否為邊緣,最終得到圖像的邊緣圖。
圖像塊特征使用類似積分通道特征[4]的圖像通道,從32×32的圖像塊中學(xué)習(xí)16×16大小的分割掩碼,首先提取圖像塊中的K個(gè)圖像通道信息,則該圖像塊的特征向量為x∈R32×32×K,其中K為通道個(gè)數(shù),圖像塊特征包含逐個(gè)像素特征x(i,j,k)(i,j,k為像素)和每對(duì)像素之間的差異性特征x(i1,j1,k)-x(i2,j2,k)。圖像通道使用3個(gè)LUV圖像通道和原尺度和1/2尺度下的梯度幅值通道,另外將2個(gè)梯度幅值分別量化為4個(gè)方向的梯度幅值,組成8個(gè)量化方向的梯度幅值通道,共組成13個(gè)圖像通道。然后對(duì)圖像通道進(jìn)行尺度為2的降采樣,則32×32的圖像塊的特征維數(shù)為3 328維,同時(shí)為了比較每對(duì)像素點(diǎn)之間的差異性,將每個(gè)圖像通道降采樣到5像素×5像素大小,再對(duì)這25個(gè)像素點(diǎn)逐對(duì)計(jì)算差異值,各通道特征維數(shù)增加300維,因此,32×32大小圖像塊共有7 228維特征向量。
隨機(jī)森林通過將多個(gè)去相關(guān)的決策樹的預(yù)測結(jié)果相融合能夠取得具有較高魯棒性的結(jié)果。然而直接對(duì)多個(gè)分割掩碼y∈Y進(jìn)行融合非常困難,對(duì)多個(gè)邊緣地圖y′∈Y′求均值能夠得到較為柔和的邊緣響應(yīng)。利用決策樹能夠在其葉子結(jié)點(diǎn)儲(chǔ)存任意信息的特性,除了學(xué)習(xí)得到的分割掩碼y,還將存儲(chǔ)相應(yīng)的邊緣地圖y′。通過求均值即可對(duì)多個(gè)決策樹的預(yù)測結(jié)果進(jìn)行融合。
ACF算法中采用計(jì)算梯度幅值的方式獲取行人輪廓信息,一幅灰度圖像中,像素點(diǎn)(x,y)的梯度幅值為
G(x,y)=
(1)
式中H(x,y)為像素點(diǎn)(x,y)的像素值。在圖像中許多像素點(diǎn)的幅值比較大,如行人的服裝中存在斑點(diǎn)狀的色塊,因此,僅僅通過計(jì)算一個(gè)像素點(diǎn)的梯度幅值,并不能準(zhǔn)確界定該點(diǎn)是否為邊緣點(diǎn),即通過計(jì)算梯度幅值的邊緣較寬,對(duì)行人的輪廓描述比較模糊,對(duì)行人檢測的精度有所影響。
本文使用結(jié)構(gòu)化的快速邊緣檢測得到行人檢測圖的二值化的邊緣圖像,640像素×480像素大小的圖像邊緣圖像計(jì)算速度平均僅需0.2 s。檢測圖像得到二值化的邊緣圖像后,采用邊緣圖像代替ACF算法中的梯度幅值通道作為新的輪廓通道,因此,新的圖像通道包含輪廓通道、6個(gè)量化方向的梯度幅值以及LUV顏色通道。
本文采用Real Adaboost分類器進(jìn)行訓(xùn)練分類,最終的強(qiáng)分類器由4次迭代產(chǎn)生4 096個(gè)弱分類器構(gòu)成。
首先將訓(xùn)練數(shù)據(jù)集劃分為n個(gè)不相交的子空間,再隨機(jī)選取訓(xùn)練樣本中不相交的子集Sj,對(duì)每個(gè)弱分類器ht計(jì)算pr+,pr-,pw+,pw-,分別表示正樣本分類正確概率,正樣本分類錯(cuò)誤概率,負(fù)樣本分類錯(cuò)誤概率,負(fù)樣本分類正確概率。計(jì)算G(j)的值
(2)
(3)
式中ε為一個(gè)很小的正常量,用于平滑輸出。當(dāng)前弱分類器的輸出gt的計(jì)算公式
(4)
(5)
實(shí)驗(yàn)分別在INRIA和Caltech行人數(shù)據(jù)庫上進(jìn)行。INRIA包含2 416個(gè)行人訓(xùn)練樣本和288張含有行人的測試圖片。Caltech數(shù)據(jù)庫是目前規(guī)模較大的行人數(shù)據(jù)庫,由車載攝像機(jī)拍攝城市道路所得,約10 h左右,視頻分辨率為640×480,標(biāo)注了約250 000幀,350 000個(gè)矩形框,2 300個(gè)行人,另外對(duì)矩形框之間對(duì)應(yīng)關(guān)系及遮擋情況進(jìn)行了標(biāo)注,是公認(rèn)規(guī)模較大,挑戰(zhàn)性較大的數(shù)據(jù)庫。實(shí)驗(yàn)所用軟件環(huán)境為MATLAB R2012a,系統(tǒng)環(huán)境為Windows7,內(nèi)存為8 GB。
為了驗(yàn)證分類器的分類性能,首先在Caltech數(shù)據(jù)庫上使用ACF算法分別比較Adaboost與本文訓(xùn)練的Real Adaboost分類器的分類結(jié)果。采用查準(zhǔn)率—查全率(precision-recall,PR)曲線對(duì)比兩者分類性能,PR曲線如圖1所示,可以看出:本文Real Adaboost分類器較原ACF算法中的Adaboost分類器分類性能更好,具有效提高檢測率。
圖1 PR曲線對(duì)比
圖2分別給出本文算法與ACF算法在INRIA和Caltech數(shù)據(jù)庫上的部分檢測效果對(duì)比,從圖2(a)可以看出:本文算法與ACF算法相比,誤檢窗口較少,同時(shí)行人的檢測框更加契合真實(shí)的行人位置,說明了輪廓信息的應(yīng)用使得對(duì)行人輪廓描述更好,增加了檢測框的準(zhǔn)確性;從圖2(b)可以看出:本文算法誤檢窗口減少,對(duì)于較小的行人也能部分檢測出,但對(duì)前方車輛的車輪以及兩側(cè)位置存在部分誤檢,由于Caltech數(shù)據(jù)庫拍攝自真實(shí)行駛路況,背景極其復(fù)雜,邊緣復(fù)雜,輪廓信息具有很大局限性,對(duì)檢測性能產(chǎn)生影響。
圖2 2種算法在2個(gè)數(shù)據(jù)庫部分檢測效果對(duì)比
為了客觀評(píng)價(jià)本文算法,將本文算法與ACF[5]算法、InformedHaar[6]方法分別在INRIA和Caltech數(shù)據(jù)庫上進(jìn)行精度比較,性能評(píng)價(jià)采用文獻(xiàn)[12]提出的漏檢率(miss rate)與每張圖片平均誤檢率(false positives per image,FPPI)曲線作為評(píng)價(jià)指標(biāo),并以0.1FPPI作為參考點(diǎn),若漏檢率降低,則誤檢窗口減少,檢測率提升。對(duì)比結(jié)果如圖3所示。
圖3 3種算法在2數(shù)據(jù)庫檢測精度對(duì)比
圖3分別為INRIA和Caltech數(shù)據(jù)庫上3種算法的比較結(jié)果,在0.1FPPI參考點(diǎn),圖3(a)顯示,INRIA數(shù)據(jù)庫上本文算法相對(duì)于原始ACF算法,漏檢率降低了5.1 %,相比于InformedHaar算法,漏檢率降低了2.2 %;圖3(b)顯示,Caltech數(shù)據(jù)庫上本文算法相對(duì)于原ACF算法,漏檢率降低14.8 %,相比于InformedHaar方法,漏檢率降低了5.2 %,說明本文算法在2種數(shù)據(jù)庫上檢測率均高于上述2種方法,檢測性能較好。
為了驗(yàn)證本文算法的時(shí)間復(fù)雜度,分別在INRIA和Caltech數(shù)據(jù)庫上用同一電腦將本文方法與ACF和InformedHaar方法進(jìn)行檢測速度對(duì)比實(shí)驗(yàn),圖像大小為640×480,實(shí)驗(yàn)結(jié)果如表1。
表1 不同方法的檢測速度比較 幀/s
表1顯示,在兩個(gè)數(shù)據(jù)庫上,本文算法與InformedHaar算法檢測速度均低于原ACF算法,InformedHaar算法在通道圖上使用了額外的濾波器,提升檢測率的同時(shí)增加了運(yùn)算復(fù)雜度,而本文算法增加了快速邊緣檢測的同時(shí)采用優(yōu)化的Real Adaboost分類器,弱分類器個(gè)數(shù)增加,算法復(fù)雜度提升,檢測速度較ACF算法和InformedHaar算法慢,但取得了一定的精度提升。
本文針對(duì)ACF算法中行人外觀輪廓不穩(wěn)定導(dǎo)致檢測率下降的問題,提出了基于快速邊緣檢測和Real Adaboost的行人檢測。仿真實(shí)驗(yàn)表明:本文算法檢測精度較原ACF算法提高,誤檢窗口減少。但本文算法使用邊緣檢測以及分類性能較強(qiáng)的Real Adaboost分類器,導(dǎo)致計(jì)算量增大,
檢測速度下降,故在保證檢測精度的前提下,優(yōu)化算法效率,為需要進(jìn)一步研究的內(nèi)容。
參考文獻(xiàn):
[1] 蘇松志,李紹滋,陳淑媛.行人檢測計(jì)數(shù)綜述[J].電子學(xué)報(bào),2012(4):814-820.
[2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,San Diego,USA:IEEE Press,2005:886-893.
[3] 程廣濤,陳 雪,郭照莊.基于HOG特征的行人視覺檢測方法[J].傳感器與微系統(tǒng),2011,30(7):68-70.
[4] Dollár P,Tu Z,Perona P,et al.Integral channel features[C]∥Proceedings of British Machine Vision Conference,Washington D C,USA:IEEE Press,2009:1-11.
[5] Dollár P,Appel R,Belongie S,et al.Fast feature pyramids for object detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(8):1532-1545.
[6] Zhang S S,Bauckhage C,Cremers A.Informed haar-like features improve pedestrian detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:947-954.
[7] Hwang S,Park J,Kim N,et al.Multispectral pedestrian detection:Benchmark dataset and baseline[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015:347-360.
[8] Sermanet P,Kavukcuoglu K,Chintala S,et al.Pedestrian detection with unsupervised multistage feature learning[C]∥Procee-dings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013:3626-3633.
[9] Lim J,Zitnick C,Dollár P.Sketch tokens:A learned mid-level representation for contour and object detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013:3158-3165.
[10] Zitnick C,Dollár P.Edge boxes:Locating object proposals from edges[C]∥Proceedings of the IEEE European Conference on Computer Vision(ECCV),2014:391-405.
[11] Dollár P,Zitnick C.Structured forests for fast edge detection[C]∥Proceedings of the IEEE International Conference on Computer Vision(ICCV),2013:1841-1848.
[12] Dollár P,Wojek C,Chiele S B,et al.Pedestrian detection:An evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligent,2012,34(4):743-761.