朱 龍,戰(zhàn)蔭偉
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006)
基于局部二值模式和四元數(shù)的行人檢測
朱 龍,戰(zhàn)蔭偉
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006)
局部二值模式(LBP)特征具有光照不變性、旋轉(zhuǎn)不變性及計(jì)算簡單等特性,能有效表示行人特征,廣泛應(yīng)用于行人檢測。LBP 特征的提取方法通?;诨叶葓D像,如果用于彩色圖像,則沒有充分考慮各通道之間的相關(guān)性,不能保證行人檢測的準(zhǔn)確性。為此,對彩色圖像的紅、綠、藍(lán)三通道的LBP 特征,以四元數(shù)的形式表示,利用四元數(shù)的性質(zhì),提出一種P-LBP特征,再利用k-最近鄰算法訓(xùn)練分類器。該方法在INRIA數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與HOG、S-LBP、F-LBP、HOG-LBP特征進(jìn)行比較,具有更好的效果。
行人檢測;局部二值模式;四元數(shù);k-最近鄰算法
隨著信息技術(shù)的發(fā)展,視頻監(jiān)控系統(tǒng)被廣泛應(yīng)用于人們生活工作中(如城市公路、大型商場、居民小區(qū)等)。行人檢測是視頻監(jiān)控中一個(gè)重要的環(huán)節(jié),是實(shí)現(xiàn)身份鑒定和行為分析的基礎(chǔ)。因?yàn)樾腥说亩鄻有?如衣著、姿態(tài)、外形等)與環(huán)境的易變性(如光照變化、樹枝擺動等),行人檢測一直是計(jì)算機(jī)視覺中的研究難點(diǎn)。
目前最流行的行人檢測方法是基于特征的機(jī)器學(xué)習(xí)方法。該類方法首先對樣本圖像提取特征,然后利用機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,最后使用分類器對目標(biāo)圖像進(jìn)行檢測。提取一個(gè)能有效描述行人的特征是確保檢測精度的關(guān)鍵,近年來對特征提取的研究有了大量的成果。Papageorgiou[1]首先提出使用 Haar-like特征來描述行人,用水平、垂直和對角3個(gè)方向的小波在不同尺度上提取特征,構(gòu)成特征模板,該模板在整幅圖像上的全部特征值構(gòu)成了Haar-like特征。為了得到更加精確的特征,Viola和Jones[2]進(jìn)一步對Haar-like特征進(jìn)行了擴(kuò)展,增加了在旋轉(zhuǎn)45°角方向上的特征。Dalal等[3]在2005年提出的方向梯度直方圖(HOG)是目前廣泛使用的行人特征描述子。將圖像窗口分為一些小的空間區(qū)域(單元格),對每一個(gè)單元格,計(jì)算出關(guān)于它的像素的梯度方向或邊緣方向的一維直方圖,這些直方圖的聯(lián)合就構(gòu)成了HOG 特征。它對光照變化和小量的偏移有很好的魯棒性,能有效地刻畫出人體的邊緣特征。HOG特征因?yàn)榫S度高、計(jì)算量大使得檢測速度較慢。Wojek等[4]采用并行計(jì)算,在GPU上實(shí)現(xiàn)HOG,大大提高了檢測速度。Mu 等[5]根據(jù)行人的特點(diǎn),提出了Semantic LBP(S-LBP)和Fourier LBP(F-LBP)。S-LBP利用幾何特征降低了LBP的維度,提高了計(jì)算速度;F-LBP將空域問題轉(zhuǎn)換到頻域,并通過去除高頻進(jìn)行壓縮,降低了計(jì)算的復(fù)雜度。Wang等[6]提出了以HOG-LBP 聯(lián)合特征來訓(xùn)練分類器進(jìn)行行人檢測,并且通過利用全局分類器和局部分類器有效解決了部分閉塞問題。Wu[7]等人提出描述局部形狀的Edgelet 特征,它記錄一段長為k的直線(或曲線)上各像素點(diǎn)的梯度幅值和方向,每一個(gè)Edgelet描述人體的某個(gè)部位,然后使用Adaboost算法訓(xùn)練出一組最能有效描述整個(gè)人體的Edgelet。Payam[8]提出了Shapelet特征,它是一系列中層特征的集合。這些特征是通過adaboost方法將底層的梯度信息組合構(gòu)建而成,該特征將HOG特征的誤檢率降低了10倍。Wang 等[9-10]指出在交通場景中行人和汽車的路徑是不同的,行人多出現(xiàn)在斑馬線上,以此場景特征訓(xùn)練分類器能有效地進(jìn)行行人檢測。
一般監(jiān)控系統(tǒng)所采集的圖像都是彩色圖像。但是上述方法都忽略了彩色圖像各通道間的相關(guān)性,這在一定程度上影響了分類器的準(zhǔn)確率。Sangwine[11]使用四元數(shù)來表示彩色圖像,將所有通道表述為一個(gè)整體,保證了各通道間的相關(guān)性,能更有效地描述彩色圖像。Rushi等[12]根據(jù)四元數(shù)的旋轉(zhuǎn)性質(zhì),提出了一種新穎的相位特征,并利用相位差來比較兩個(gè)四元數(shù),得到了四元數(shù)的LBP特征(QLBP),然而該方法忽略了四元數(shù)的模對其大小的影響。為了解決該問題,本文先分別提取了彩色圖像RGB三個(gè)通道的LBP特征,將各通道的LBP 特征用四元數(shù)表示,提出一種四元數(shù)的相位特征(P-LBP)與四元數(shù)的模特征結(jié)合,并利用k-最近鄰算法訓(xùn)練分類器。實(shí)驗(yàn)表明,利用該分類器能得到更好的效果。
1.1 LBP算子
局部二值模式(Local Binary Pattern,LBP)是一種用于紋理分類的特征。最初的 LBP 算子定義為:在3×3的窗口內(nèi), 以窗口中心像素點(diǎn)的灰度值為閾值,將鄰域的 8 個(gè)像素點(diǎn)的灰度值與其作比較,大于該閾值的像素點(diǎn)被標(biāo)記為 1,否則標(biāo)記為 0,從而得到一個(gè) 8 位的二進(jìn)制數(shù),將它轉(zhuǎn)換為十進(jìn)制數(shù)作為該窗口中心像素點(diǎn)的LBP值。LBP的計(jì)算過程如圖1所示。
圖1 LBP的計(jì)算過程
基本的 LBP 算子只覆蓋了一個(gè)固定半徑范圍內(nèi)的小區(qū)域,因而無法提取大尺寸結(jié)構(gòu)紋理特征。為了適應(yīng)不同尺度的紋理特征,并滿足旋轉(zhuǎn)不變性的要求,Ojala等[13]對LBP算子進(jìn)行了改進(jìn),將3×3矩形區(qū)域擴(kuò)展到任意大小的圓形區(qū)域,如圖2所示。設(shè)當(dāng)前像素點(diǎn)為c,對應(yīng)像素值為gc。以c為心,做半徑為R的圓,在圓周上均勻選取P個(gè)點(diǎn),通過插值得到對應(yīng)的像素值gp,p=0,1,2,…,P-1,定義像素點(diǎn)c的LBP值為
(1)
a LBP8,1 b LBP16,2 c LBP8,2圖2 LBP算子
這兩點(diǎn)變化使得LBPP,R得到了循環(huán)對稱的采樣點(diǎn),因此具有了旋轉(zhuǎn)不變性。通過改變鄰域半徑R,可以得到不同尺度的紋理特征。從式(1)中看出,隨著采樣點(diǎn)的增加、二進(jìn)制模式呈指數(shù)增長,存儲空間和紋理表達(dá)的難度也隨之增大。定義循環(huán)二進(jìn)制數(shù)從1到0或者從0到1的跳變次數(shù)
(2)
Ojala等[13]通過實(shí)驗(yàn)證明絕大多數(shù)LBP對應(yīng)的循環(huán)二進(jìn)制數(shù)最多只包含兩次從 1 到 0 或者從 0 到 1 的跳變,于是采用所謂的“均勻模式”重新定義LBP值
(3)
由式(3)可以看出,均勻模式LBP值的數(shù)量為P(P-1)+2,所有非均勻模式都取值為P+1。顯然,采用均勻模式極大地降低了總體模式的數(shù)量,并且參文[13]表明,均勻模式可以描述絕大部分的紋理信息。
1.2 四元數(shù)
四元數(shù)是由著名的數(shù)學(xué)家Hamilto[14]于1843年提出的。定義四元數(shù)q=a+ib+jc+kd,其中a,b,c和d為實(shí)數(shù),i,j,k為虛數(shù)單位,滿足i2=j2=k2=ijk=-1,a稱為四元數(shù)q的實(shí)部,ib+jc+kd為虛部,分別記作S(q)和V(q),q可表示為q=S(q)+V(q),對于一個(gè)彩色圖像像素f(x,y),可以用純四元數(shù)的形式表示為
f(x,y)=fR(x,y)i+fG(x,y)j+fB(x,y)k
(4)
式中:fR(x,y),fG(x,y)和fB(x,y)分別代表紅、綠和藍(lán)通道分量。
四元數(shù)擁有復(fù)數(shù)的一些性質(zhì):
4)純四元數(shù):q=ib+jc+dk。
5)四元數(shù)乘法的不可交換性:ij=-ji=k,jk=-kj=i,ki=-ik=j
6)四元數(shù)的歐拉表示:q=|q|euθ,其中u為單位純虛數(shù),θ為相位角,其大小為0≤θ≤π。
本文先得到表示彩色圖像的紅、綠、藍(lán)3個(gè)通道的LBP特征向量,并利用四元數(shù)進(jìn)行表示。根據(jù)四元數(shù)的特性,提出了一種四元數(shù)的相位特征(P-LBP)和四元數(shù)的k-最近鄰算法來訓(xùn)練分類器,實(shí)現(xiàn)行人檢測。
2.1 LBP特征提取
彩色圖像的LBP特征的提取步驟:
1)圖像分塊:將圖像分割為多個(gè)固定大小的子圖像。
2)求取子圖像的LBP特征直方圖:處理灰度圖像時(shí),采用LBP8,1算子,根據(jù)式(1)~(3)求出59個(gè)不同的LBP特征值,統(tǒng)計(jì)每一個(gè)LBP特征值出現(xiàn)的頻率,從而得到子圖像的 LBP 特征直方圖;對于彩色圖像,采用上述方法分別對紅、綠和藍(lán)3個(gè)通道進(jìn)行處理,得到子圖像在紅、綠和藍(lán)3個(gè)通道的 LBP特征直方圖。
3)特征級聯(lián):處理灰度圖像時(shí),將所有子圖像的LBP特征直方圖進(jìn)行連接成為一個(gè)特征向量,也就是整幅圖的LBP紋理特征向量;對于彩色圖像,紅、綠和藍(lán)3個(gè)通道都按照相同的子圖像連接順序來連接LBP特征直方圖,得到表示彩色圖像的3個(gè)特征向量。
2.2 四元數(shù)的 k-最近鄰算法
k-最近鄰 (kNN) 算法是由 Hastie等[15]首先提出的,Sunil 等[16]進(jìn)一步將其推廣應(yīng)用。kNN 算法的工作原理:存在一個(gè)訓(xùn)練樣本集,其中每一個(gè)數(shù)據(jù)都有一個(gè)標(biāo)簽表示其對應(yīng)的類別。輸入沒有標(biāo)簽的新數(shù)據(jù)后,將新數(shù)據(jù)的每一個(gè)特征與樣本集中數(shù)據(jù)對應(yīng)的特征進(jìn)行比較,然后提取樣本集中與新數(shù)據(jù)最相似 (最近鄰) 的分類標(biāo)簽。一般來說,只選擇樣本集中前k個(gè)最相似的數(shù)據(jù),這就是 kNN 算法中k的出處,通常k是不大于20的整數(shù)。最后,選擇k個(gè)最相似數(shù)據(jù)中出現(xiàn)次數(shù)最多的類別,作為新數(shù)據(jù)的類別。
在一般的kNN算法中,都是計(jì)算不同特征值之間的歐式距離來實(shí)現(xiàn)分類。但彩色圖像的每一個(gè)特征包括紅、綠和藍(lán)3個(gè)通道的特征值,為了保證3個(gè)通道顏色信息的相關(guān)性,使用四元數(shù)來表示該特征值,并利用P-LBP特征和四元數(shù)的kNN算法訓(xùn)練分類器。
假設(shè)q是一個(gè)四元數(shù),p是一個(gè)單位四元數(shù),將q繞p的左旋轉(zhuǎn)和右旋轉(zhuǎn)定義為
Rl(q,p)=pq,Rr(q,p)=qp
(5)
根據(jù)四元數(shù)的性質(zhì),q繞p的左旋轉(zhuǎn)和右旋轉(zhuǎn)沒有改變q的模大小,即|q|=|Rl(q,p)|=|Rr(q,p)|。將從訓(xùn)練樣本提取的特征向量中的一個(gè)特征記作F,將測試樣本的特征向量中一個(gè)特征記作T,用四元數(shù)表示F和T,即F=ir+jg+kb,T=ir0+jg0+kb0。假設(shè)p=ix+jy+kz為單位純四元數(shù),Rr(F,p)表示F繞p的右旋轉(zhuǎn)
Rr(F,p)= (ir+jg+kb)(ix+kz)=-(rx+gx+bz)+
i(gz-by)+k(ry-gx)
(6)
記θF為F繞p右旋轉(zhuǎn)后的相位角度,通過式(6)得到
(7)
D=?Dθ+(1-?)Dl
(8)
式(8)中的?為影響因子,通過改變?值,利用滑動窗口法進(jìn)行目標(biāo)檢測,得到每個(gè)窗口正樣本行人檢測的準(zhǔn)確率TPPW。如表1所示,當(dāng)?=0.8時(shí),能更好地檢測出行人。
表1 不同?值下的行人檢測準(zhǔn)確率
00.20.50.81.0TPPW0.40.60.80.90.8
利用上述方法計(jì)算從每一個(gè)訓(xùn)練樣本的特征向量與測試樣本中特征向量的差異值,并將這些差異值從小到大進(jìn)行排序,選擇前k個(gè)差異最小的訓(xùn)練樣本,這里將k值取為20。統(tǒng)計(jì)訓(xùn)練樣本對應(yīng)的類別,將出現(xiàn)次數(shù)最多的類別作為測試樣本的類別。
3.1 數(shù)據(jù)集預(yù)處理
在INRIA Person行人檢測樣本庫上進(jìn)行實(shí)驗(yàn)。INRIA數(shù)據(jù)集的訓(xùn)練樣本中有2 416個(gè)正樣本,大小為96×160,1 218個(gè)負(fù)樣本,大小從320×240到486×648不等。在INRIA數(shù)據(jù)集的測試樣本中有1 126個(gè)正樣本和453個(gè)負(fù)樣本。為了方便提取特征,將訓(xùn)練樣本圖像剪切為64×128的圖片,對正樣本要保留包含行人的部分,圖3顯示了部分訓(xùn)練樣本圖像。接下來將剪切后的訓(xùn)練樣本進(jìn)行分塊,文獻(xiàn)[13]指出LBP8,1算子能表示最大比例的紋理信息,因此,選擇LBP8,1算子來進(jìn)行特征提取。如果采用8×8的塊大小對樣本圖像進(jìn)行分割,計(jì)算塊的LBP8,1算子時(shí),需要將塊的邊界點(diǎn)舍棄,導(dǎo)致丟失的信息比重太大。如果以32×32的塊大小對樣本圖像進(jìn)行分割,而圖像本身大小為64×128,分割后的塊數(shù)量太少,無法得到足夠的局部信息。于是采用16×16的塊大小對樣本圖像進(jìn)行分割。
圖3 訓(xùn)練樣本示例(前3幅為正樣本,后3幅為負(fù)樣本)
3.2 數(shù)據(jù)分析
將本文的方法與HOG、S-LBP、F-LBP、HOG-LBP等方法進(jìn)行了比較。分別統(tǒng)計(jì)這五種方法的正樣本正確分類數(shù)(TP)、正樣本錯(cuò)誤分類數(shù)(FP)、負(fù)樣本正確分類數(shù)(TN)以及負(fù)樣本錯(cuò)誤分類數(shù)(FN),如表2所示。 為了讓檢測結(jié)果更直觀,使用DET(Detection Error Tradeoff) 曲線來表述檢測結(jié)果,即對數(shù)尺度下的誤檢率對漏檢率曲線,橫坐標(biāo)表示誤檢率,縱坐標(biāo)表示漏檢率,如圖4所示。從中可以看出P-LBP算法優(yōu)于其他算法,提高了行人檢測的準(zhǔn)確率。圖5展示了部分行人檢測結(jié)果,從中可以看出,使用HOG等方法進(jìn)行行人檢測時(shí),當(dāng)背景中出現(xiàn)類似于行人的柱狀物時(shí),容易出現(xiàn)誤檢,如圖4中出現(xiàn)的石柱;當(dāng)行人所穿的衣服與背景相似或相互靠近的行人像素值差異不大時(shí),容易出現(xiàn)漏檢。本方法因?yàn)槌浞掷昧烁魍ǖ赖念伾畔?,對于色彩差異比較敏感,能有效避免上述情況出現(xiàn)的漏檢和誤檢。
表2 HOG,S-LBP,F-LBP,HOG-LBP 和 P-LBP 分類情況
方法TPFPTNFNHOG83629041736S-LBP87724942429F-LBP89723942924HOG-LBP95417243518P-LBP100112543914
a HOG等方法
b 本文方法
圖4 檢測結(jié)果
圖5 5種算法在INRIA 數(shù)據(jù)集上的DET 曲線
本文通過利用四元數(shù)的旋轉(zhuǎn)性質(zhì),提出了能有效描述彩色圖像各通道信息的P-LBP特征,并且利用P-LBP 特征與 kNN 算法來進(jìn)行行人檢測。通過與 HOG、S-LBP 等方法進(jìn)行對比,發(fā)現(xiàn)本文方法提高了行人檢測的精確度。但是 k-最近鄰算法需要大量的計(jì)算,時(shí)間復(fù)雜度較高,將來會采用基于GPU的并行算法來提高計(jì)算速度。
[1] VIOLA P,JONES M J.Detecting pedestrians using patterns of motion and appearance[C]//Proc. International Conference on Computer Vision.Nice,F(xiàn)rance:IEEE Press,2003:734-741.
[2] JONES M J,SNOW D.Pedestrian detection using boosted features over many frames[C]//Proc. International Conference on Pattern Recognition.Tampa,F(xiàn)L:IEEE Press,2008:1-4.
[3] NAVNEET D,BILL T.Histograms of oriented gradients for human detection[C]//Proc. International Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press,2005:886-893.
[4] WOJEK C,SCHIELE B.Dagm symposium on pattern recognition[M]. German:Springer,2008.
[5] MU Yadong,YAN Shuicheng.Discriminative local binary patterns for pedestrian detection in personal album[C]//Proc. International Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE Press,2008:1-8.
[6] WANG Xiaoyu,YAN Shuicheng.A hog-lbp human detector with partial occlusion handling[C]//Proc. International Conference on Computer Vision. [S.l.]:IEEE Press,2009:32-39.
[7] WU B,NEVATIA R.Detection of multiple, partially occluded humans in a single image by bayesian combinationof edgelet part detectors[C]//Proc. International Conference on Computer Vision. [S.l.]:IEEE Press,2005:90-97.
[8] GREG M,PAYAM S.Detecting pedestrians by learning shapelet features[C]//Proc. International Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE Press,2007:1-8.
[9] WANG Xiaogang,LI Wei. Scene-specific pedestrian detection for static video surveillance[J].IEEE Trans. Pattern Analysis & Machine,2013,36(2):361-374.
[10] WANG Xiaogang,WANG Meng.Automatic adaptation of a generic pedestrian detector to a specific traffic scene[C]//Proc. International Conference on Computer Vision and Pattern Recognition. [S.l.]:IEEE Press,2011:3401-3408.
[11] PEI S C,CHENG C M.A novel block truncation coding of color images by using quaternion moment preserving principle[C]//Proc. International Symposium on Circuits and Systems.Atlanta,GA:IEEE Press,1996:684-687.
[12] LAN Rushi,ZHOU Yicong.Person reidentification using quaternionic local binary pattern[C]//Proc. International Conference on Multimedia and Expo.Chengdu:IEEE Press,2014:1-6.
[13] OJALA T,PIETIKAINEN M.Multi-resolution gray scale and rotation invariant texture analysis with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2002,24(7):971-987.
[14] HAMILTON W.Elements of quaternions[M].London,U.K:Longmans Green,1886.
[15] HASTIE T,TIBSHIRANI R. Discriminant adaptive nearest neighbor classification[J]. IEEE Trans. Pattern Analysis & Machine Intelligence,1996,18(6):607-616.
[16] ARYA S,SILVERMAN R. An optimal algorithm for approximate nearest neighbor searching in fixed dimensions[J]. JACM,1994,45(6):573-582.
Pedestrian Detection Based on Local Binary Pattern and Quaternion
ZHU Long, ZHAN Yinwei
(ComputerDepartment,GuangdongUniversityofTechnology,Guangzhou510006,China)
Local binary pattern (LBP) feature owns the properties of invariability in illumination, invariability in illumination rotation and simplicity in calculation. Therefore it can describe pedestrian effectively, and is widely used in pedestrian detection. Most existing methods usually extract LBP features from gray images, if these methods are used in the color image, they can't guarantee the accuracy of pedestrian detection for the reason of neglecting the correlation between each color channel. Therefore, the quaternion is used to express the LBP features of red, green and blue channels which are extracted from the color images. By using the property of quaternion, a P-LBP feature is put forward, and then the k-neighbour algorithm is used to train the classifier. Comparing with the HOG, S-LBP, F-LBP and HOG-LBP features, the experiments in the INRIA dataset show that the proposed method perform better.
pedestrian detection; local binary pattern; quaternion; k-nearest neighbour algorithm
廣東省教育廳高等院校學(xué)科建設(shè)專項(xiàng)(12ZK0362)
TN98
A
10.16280/j.videoe.2015.24.025
2015-06-23
【本文獻(xiàn)信息】朱龍,戰(zhàn)蔭偉.基于局部二值模式和四元數(shù)的行人檢測[J].電視技術(shù),2015,39(24).
朱 龍(1989— ),碩士生,主研計(jì)算機(jī)視覺、圖像處理、人工智能;
戰(zhàn)蔭偉(1966— ),碩士生導(dǎo)師,主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、圖像處理和視頻分析等。
責(zé)任編輯:許 盈