胡 彬, 趙春霞, 孫 玲
(1. 南京理工大學計算機科學與工程學院,江蘇 南京 210094;2. 北方導航控制技術(shù)股份有限公司,北京 100176)
基于多特征融合的行人檢測
胡 彬1, 趙春霞1, 孫 玲2
(1. 南京理工大學計算機科學與工程學院,江蘇 南京 210094;2. 北方導航控制技術(shù)股份有限公司,北京 100176)
研究了3種不同類型的特征算子:梯度直方圖(HOG),基于Gabor變換的局部二值特征直方圖(LGBPHS)和基于剪切波變換的直方圖(HSC)在基于圖像的行人檢測中的應用。提出了基于多特征融合的檢測算子,對單一特征進行 L1范式規(guī)格化之后,將3個特征融合為一個高維的擁有大量信息的新特征,之后引入偏最小二乘法(PLS)進行特征降維,得到最終的人體特征。利用線性SVM作為分類器,在INRIA人體庫上進行了實驗,結(jié)果表明,融合后的特征極大的提高了檢測率,在FPPW=10-5時,檢測率達到了95.6%。
行人檢測;梯度直方圖(HOG);LGBPHS;HSC;偏最小二乘法;SVM
基于圖像的行人檢測在視頻監(jiān)控、主動安全等領域有著廣泛的應用,同時也是模式識別和機器視覺領域的重要研究方向。由于不同的行人在身材、姿勢、衣著和光照方面有著極大的變化,加之背景的變化,如何在圖像中快速而準確的檢測出行人仍然是一個難點。
隨著近幾年的研究發(fā)展,針對行人檢測,主要形成了兩類方法:一種方法是將人體分為頭部、軀干、四肢等部分,通過模板匹配的方法檢測各個部分從而找到行人;另一種是基于統(tǒng)計分類的方法,也是近幾年的主流方法。該方法通過統(tǒng)計提取行人的特征,然后利用模式識別的方法進行分類,圖1描述了這種方法的主要流程。
圖1 基于統(tǒng)計分類方法的流程
在特征選取方面,包括邊緣特征、紋理特征和小波特征都被用來描述人體,如Papageorgiou等提出的基于 Haar小波的行人檢測[1]。2005年DALAL等在 CVPR上梯度方向直方圖(Histogram of Oriented Gradient)[2]是最具影響力的一組描述行人的特征集,HOG特征很好的描述了圖像的局部梯度信息,具有良好的行人檢測性能,已成為當前主流的行人檢測方法。隨后學者們對DALAL的方法進行了改進,使其不斷完善。比較著名的有2006年Zhu[3]等提出的變長的HOG特征提高了檢測速度;2009年Wang[4]等將人臉識別領域中的局部二值特征(LBP)結(jié)合HOG特征,提出了基于HOG-LBP特征的行人檢測,克服了HOG特征的一些缺陷,較大的提高了檢測正確率。在分類器選取方面,包括Adaboost[5]、線性 SVM[6]、各種核函數(shù)的 SVM[7]用來進行分類訓練。由于現(xiàn)有的一些特征提取方法都是基于單一特征的,或者進行融合的特征之間相關(guān)性比較小,因此識別率較低。本文研究了3種的特征算子:HOG特征、基于Gabor變換的LBP特征直方圖(LGBPHS)[8]和基于剪切波變換的的直方圖特征(HSC)[9],提出一種新的基于多特征融合的特征。并引入偏最小二乘法(PLS)[10]對融合后的特征進行降維,最后利用線性SVM進行訓練分類。這3種特征算子雖然應用于不同領域,但都采用了基于直方圖的提取方法,因此,具有一定的相通性,而且HOG描述了圖像的局部梯度信息,是一種局部特征;LGBP先對圖像進行了全局Gabor變換后進行局部二值處理,因此也具有一定的全局特征性質(zhì);HSC是基于剪切波變換的特征,剪切波變換是一種多尺度的幾何分析方法,所以,融合后特征能夠極大的提高目標識別率。
獲取的信息越多,檢測結(jié)果越好,結(jié)合多種特征可以提高檢測精度。本文將3種特征結(jié)合得到一種新的融合的特征,用來描述行人。
HOG特征是一種局部區(qū)域描述符,它通過統(tǒng)計圖像局部方向梯度來構(gòu)成人體特征。在計算梯度值時,DALAL等比較了不同的梯度掩碼,發(fā)現(xiàn)一維梯度算子[1-, 0, 1]計算得到的效果最好。對于圖像中一點(X,Y),其梯度值定義為:
首先,把圖像劃分成若干個單元格(Cell),將梯度方向劃分為若干個區(qū)間(Bin),在每個cell 內(nèi)對所有像素的梯度幅值在各個方向 Bin 區(qū)間進行直方圖統(tǒng)計。若干個Cell形成一個塊(Block),把塊中的單元格的梯度直方圖連起來得到塊內(nèi)特征。用Block對樣本圖像進行掃描,最后,將每個 Block的特征串聯(lián)得到最終的描述符。DALAL在他的文章中比較了不同的Cell、Bin、Block大小對檢測結(jié)果的影響,發(fā)現(xiàn)最好是采用6*6像素的Cell,Block由3*3個Cell組成,[0,π]的方向劃分為9個區(qū)間。本文提取HOG特征時采用了這個參數(shù)。
LGBPHS特征是一種非統(tǒng)計的描述符,它經(jīng)由如下過程計算得到:(1)將輸入圖像進行Gabor變換,得到Gabor圖;(2)將Gabor圖進行局部二值處理;(3)將第二步得到的圖分割成若干區(qū)域,在每個區(qū)域統(tǒng)計其直方圖;(4)統(tǒng)計整幅圖像的直方圖,得到最終的描述算子。首先對輸入圖像進行 Gabor變換,定義Gabor
濾波器ψu,v(z)如下:
第二步對 Gabor圖進行 LBP運算,得到LGBP圖,LBP算子定義如下:
第三步在LGBP圖上計算直方圖,將LGBP圖分為若干個不重疊的區(qū)域,統(tǒng)計每個區(qū)域的直方圖,最后所有區(qū)域的直方圖串聯(lián)起來得到最終的描述符。
諸如小波變換和Gabor變換等信號處理方法近幾年在圖像處理界得到廣泛應用,但是,這些方法對方向不敏感的缺點,使得它們在描述一些方向特征時顯得力不從心,而近幾年新提出的多尺度幾何分析方法——剪切波變換(Shearlet Transforms)正可以克服傳統(tǒng)的小波變換的這些缺點。
剪切波變換為具有多方向和多尺度信息的數(shù)據(jù)提供了一種處理框架,因此,對于圖像中的邊緣特征,它能夠提供更精確的描述,并能進行更好的檢測。對于一幅圖像f的連續(xù)剪切波變換定義如下:
其中ψ是母函數(shù),a是尺度參數(shù),a>0;s是剪切參數(shù),s∈R;t是平移參數(shù),t∈R2;剪切波基本方程ψa,s,t定義如下:
連續(xù)剪切波變換可以通過正確采樣尺度參數(shù)、剪切參數(shù)和平移參數(shù)來離散化。
在每個尺度層面,通過剪切波變換,統(tǒng)計每個具有相同方向的剪切波系數(shù),定義如下直方圖:
其中 )(sHl表示在l尺度層上第s方向的直方圖大小,s指方向角度。最后,所有尺度上的直方圖被合并形成最終的HSC特征。
偏最小二乘法(PLS)是一種新型的對多組變量進行建模的多元統(tǒng)計數(shù)據(jù)分析方法,其研究的焦點是通過抽取潛在成分(Latent Component,Latent Variable),它的核心假設就是認為觀測到的數(shù)據(jù)是由這些少量的潛在成分驅(qū)動的系統(tǒng)或進程產(chǎn)生的[10]。作為一種有監(jiān)督的特征抽取方法,PLS明顯優(yōu)于常規(guī)的無監(jiān)督的主成分分析(PCA)降維方法。Herman Wold等研究了如何使用PLS方法將觀測值降維到潛在成分,并提出了NIPALS算法[11]。下面對PLS的降維方法進行簡要介紹。
定義x?Rm是m維的樣本特征向量,y?R表示一維的分類標記,令樣本的數(shù)量為n。PLS將矩陣 X(n×m)和向量 y(n×1)分解為
實驗環(huán)境為英特爾雙核處理器,3G內(nèi)存,操作系統(tǒng)為Windows XP中文系統(tǒng)。
數(shù)據(jù)庫選擇 INRIA人體庫,其中包含了64*128大小的正圖像集和負圖像集。該樣本庫中行人的服飾、姿態(tài)、光照和視角等因素的變化很大,是一個難度非常高的數(shù)據(jù)庫。實驗使用2416個正樣本和 5000個負樣本作為訓練集,負樣本從負圖像集中隨機抽取 64*128大小的窗口。使用不同于訓練集的1126個正樣本和5000個負樣本作為測試集。SVM使用OpenCV提供的接口,核函數(shù)為線性,在比較單一特征和融合特征的結(jié)果時,為了使結(jié)果具有可比性,SVM 的最大迭代次數(shù)和閾值等參數(shù)都是一樣的,實驗結(jié)果使用錯檢率(False Negative, FN)和漏檢率(False Positive,F(xiàn)P)來描述特征的分類性能。其中 FN為FalseNeg/(FalseNeg+TruePos),F(xiàn)P為FalsePos/(TrueNeg+FalsePos)。
之后對于融合后降維的特征,通過調(diào)節(jié)分類器閾值得到 DET(Detection Error Tradeoff)曲線圖,其中X軸代表誤報率(False Positive Per window, FPPW),由 FalsePos/(TrueNeg+FalsePos)計算得到,Y軸為漏檢率(Miss Rate),由FalseNeg/(FalseNeg+TruePos)計算得到。
首先我們測試HOG的分類效果,HOG的參數(shù)如 1.1中所述,Cell大小為 6*6像素,Block由3*3個Cell組成,[0,π]方向內(nèi)平均劃分9個Bin,最終得到的分類結(jié)果為 FN=4.09%,F(xiàn)P=3.02%。
對于HSC特征,我們比較了不同尺度和不同方向下的分類效果,結(jié)果如表1所示。
表1 不同尺度和方向下HSC特性分類結(jié)果
從表1可以看出,隨著尺度和方向的提高,HSC的分類精度隨著提高,當尺度達到2、方向達到8時,HSC的分類結(jié)果基本上接近HOG特征了。
表2比較了3種特征的分類性能,其中HSC特征取尺度數(shù)2、方向數(shù)為8時的結(jié)果,可以看出,使用單一特征時,錯檢率和漏檢率都比較高。
表2 3種特征的分類結(jié)果
接下來我們將3種特征串聯(lián)起來,首先對各個特征向量進行歸一化處理,使用L1范式:ε取0.01防止除數(shù)為0。使用PLS對融合的特征進行降維,之后用線性SVM進行訓練和分類測試。
我們分別將HOG特征與另兩個特征進行融合,測試其分類效果,最后將3個特征進行融合,測試結(jié)果。對所融合的特征,使用PLS進行降維,分別測試了2維到20維這19種情況下的分類結(jié)果。
如圖 2所示,圖 2描述了 HOG特征和LGBPHS特征融合后的分類效果,其中縱軸為錯誤率,橫軸為維數(shù)。從圖2可以發(fā)現(xiàn),當維數(shù)為9時,錯誤率達到最低點 1.35%,此時 FN為0.46%,F(xiàn)P為0.89%。
如圖3所示,圖3是HOG特征和HSC特征融合后的分類結(jié)果,從圖3可以看出,當維數(shù)降到9時,錯誤率達到最低點1.38%,此時FN為0.40%,F(xiàn)P為0.98%,
如圖4所示,圖4為3個特征融合后的測試結(jié)果,當維數(shù)降到10時,錯誤率達到最低點0.72%,此時FN為0.44%,F(xiàn)P為0.27%。
從實驗結(jié)果可以看過,融合后的特征錯誤率得到了明顯的下降,兩個特征融合的錯誤率比單個特征的錯誤率至少降低了80%,3個特征全部都使用時,錯誤率得到了進一步的降低。實驗數(shù)據(jù)說明我們的融合特征取得了良好的效果。
圖2 HOG-LGBPHS融合特征不同維數(shù)下的分類結(jié)果
圖3 HOG-HSC融合特征不同維數(shù)下的分類結(jié)果
圖4 HOG-HSC-LGBP融合特征不同維數(shù)的分類結(jié)果
圖5 3種特征的DET圖比較
接下來我們調(diào)節(jié)分類器閾值,得到融合特征的DET曲線圖,并將其與HOG特征、文獻[4]中的HOG-LBP特征的DET圖進行比較。如圖5所示,融合特征的效果要明顯優(yōu)于單一的 HOG特征,相較于文獻[4]中采用的兩種特征的方法也有一定的提高。
在計算復雜度方面,本算法主要包含3個步驟,特征提取、降維和分類。由于特征提取部分采用了特征疊加的融合方式,所以,特征提取過程雖然有多個特征,但可以同步處理,不會因為特征的增加而造成計算復雜度的增加。PLS降維過程處理時間也在毫秒級,而對于低維特征的分類,其耗時是要明顯低于高維特征的分類的。因此,本文雖然使用了融合了多種特征,但時間復雜度并沒有明顯增加。
研究分析了HOG、LGBPHS和HSC這3種用于不同目標識別的具有類似特性的特征算子在行人檢測上的應用,并把這些特征進行了融合,提出了一種新的特征算子。由于融合后的特征維數(shù)較高,引入了PLS對特征進行了降維。在INRIA樣本庫上的實驗結(jié)果表明了本方法有效的提高了識別率。
[1]Papageorgiou C, Poggio T. A trainable system for object detection [J]. International Journal of Computer Vision, 2000, 38(1):15-33.
[2]Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//IEEE Conference on Computer Vision and Pattern Recognition, San Diego,CA, USA, 2005:886-893.
[3]Zhu Q, Yeh M C, Cheng K T, et al. Fast human detection using a cascade of histograms of oriented gradients[C]//IEEE Conference on Computer Vision and Pattern Recognition, New York, USA, 2006:1491-1498.
[4]Wang Xiaoyu, Han Tony X, Yan Shuicheng. An HOG-LBP human detector with partial occlusion handling[C]//IEEE International Conference on Computer Vision, Kyoto, Japan, 2009:32-39.
[5]Viola P, Jones M. Rapid object detection using a boosted cascade of simple features[C]//IEEE Conference on Computer Vision and Pattern Recognition, USA, 2001:511-518.
[6]Mu Yadong, Yan Shuicheng, Liu Yi, et al.Discriminative local binary patterns for human detection in personal album[C]//IEEE Conference on Computer Vision and Pattern Recognition, Anchorage,AK, USA, 2008:1-8.
[7]Mohan A, Papageorgiou C, Poggio T. Example-based object detection in images by components[C]//IEEE Transactions on PAMI, 2001:349-360.
[8]Zhang Wenchao, Shan Shiguang, Gao Wen, et al.Local Gabor binary pattern histogram sequence(LGBPHS):a novel non-statistical model for face representation and recognition[C]//IEEE International Conference on Computer Vision, Beijing, China, 2005:786-791.
[9]Schwartz W R, da Silva R D, Davis L S, et al. A novel feature descriptor based on the Shearlet transform[C]//IEEE International Conference on Image Processing, Brussels, Belguim, 2011:1053-1056.
[10]Rosipal R, Kramer N. Overview and recent advances in partial least squares [J]. Lecture Notes in Computer Science, 2006, (3940):34-51.
[11]WOLD H. Path models with latent variables:the NIPALS approach [M]. Quantitative Sociology:International perspectives on mathematical and statistical model building, Academic Press, 1975:307-357.
Human Detection based on Multi Features Fusion
Hu Bin1, Zhao Chunxia1, Sun Ling2
( 1. School of Computer Science and Technology, NUST, Nanjing Jiangsu 210094, China;2. China North Optical-Electrical Technology Co., Ltd, Beijing 100176, China )
Based on the study of the applications of three different types of feature operators in human detection, which are Histogram of Oriented Gradient (HOG), Local Gabor Binary Pattern Histogram Sequence (LGBPHS) and Histogram of Shearlet Coefficients (HSC), we combine them together and propose a new human detection feature operator. We employ Partial Least Squares (PLS) analysis, an efficient dimensionality reduction technique, to project the feature onto a much lower dimensional subspace. Using a linear SVM as the classifier, we compare the fusion feature with the three single features in INRIA person dataset. Experiments results shows we achieve a detection rate of 95.6% with FPPW=10-5.
human detection; HOG; LGBPHS; HSC; PLS; SVM
TP 391
A
2095-302X (2013)04-0029-06
2012-11-06;定稿日期:2012-12-26
國家自然科學基金重大研究計劃重點資助項目(90820306);青年科學基金基礎(61101197);江蘇省青年基金(BK2012399)
胡 彬(1985-),男,江蘇南通人,博士研究生,主要研究方向為模式識別與智能系統(tǒng)。E-mail:nj_chris@126.com