秦彬鑫,路 紅,邱 春,萬文明
(南京工程學(xué)院 機械工程學(xué)院,南京 211167)
隨著人工智能和計算機視覺領(lǐng)域的蓬勃發(fā)展,基于視覺的異常行為檢測成為研究熱點[1-2]。在交通安全領(lǐng)域,通過異常行為檢測技術(shù)可以監(jiān)控到車內(nèi)外的異常情況,從而減少交通事故[3];在公共場所安全領(lǐng)域,該技術(shù)可用于判斷公共場所人員是否摔倒等異常行為,提高公共安全[4]。由于異常行為的少數(shù)性和不可預(yù)測性,并且復(fù)雜的視頻場景和運動目標(biāo)的不同姿態(tài),影響著行為檢測的精準(zhǔn)性[5]。因此,準(zhǔn)確檢測、標(biāo)識運動目標(biāo)并且及時判斷視頻中出現(xiàn)的不正常情況是異常行為檢測的關(guān)鍵[6]。
國內(nèi)外學(xué)者在該領(lǐng)域開展了大量研究,取得了一系列成果。異常行為檢測算法大致可以分為基于模型和基于規(guī)則的檢測方法?;谀P偷漠惓P袨闄z測方法[7]基礎(chǔ)是數(shù)據(jù)的驅(qū)動,從采集到的視頻圖像序列中的正常樣本進行模型建立,所有在異常行為檢測時將偏離建立好的正常樣本判定為異常,但該方法容易造成運算資源浪費[8]?;谝?guī)則的異常行為檢測方法[9]是自定義規(guī)則去判斷目標(biāo)行為,比如通過提取采集到圖像的全局光流強度作為特征,結(jié)合統(tǒng)計圖像熵在正常狀態(tài)下的參數(shù)區(qū)間從而判定是否發(fā)生異常行為。但此類方法存在不足:當(dāng)背景圖像不穩(wěn)定時,目標(biāo)檢測的準(zhǔn)確性較低;對有光照等的復(fù)雜場景具有局限性;缺乏基于深度學(xué)習(xí)方法的特征選擇的可解釋性;計算復(fù)雜度高,運算時間長。
與以上方法不同,本文提出一種基于運動分析的異常行為檢測方法,主要貢獻有:利用三幀法建立背景模型,獲取連續(xù)三幀圖像中的像素信息進行背景圖像重構(gòu),實現(xiàn)自適應(yīng)背景更新,同時增加大津法自動獲取最佳閾值,在保證環(huán)境自適應(yīng)前提下利用背景差分準(zhǔn)確提取前景目標(biāo);融合質(zhì)心差值、外接矩形寬高比和傾斜角度的多個特征,設(shè)定不同行為的判定規(guī)則,判斷是否發(fā)生異常行為,并設(shè)置預(yù)警檢測方法,當(dāng)行人將要發(fā)生異常行為時,發(fā)出警報聲。
算法流程如圖1所示。
圖1 本文總體算法流程圖
1.2.1 圖像預(yù)處理
為去除陰影的干擾,本文根據(jù)HSV顏色空間前后陰影處像素點的差異,將陰影消除[10]。首先利用式(1)將像素顏色信息從RGB轉(zhuǎn)換到HSV顏色空間:
(1)
式中:H表示色調(diào),分量規(guī)范化在0°~360°;S、V分別表示飽和度和亮度,將S和V分量規(guī)范化在0~1。
再進行式(2)的陰影檢測:
(2)
式中:SHSV(x,y)表示陰影檢測結(jié)果值,SHSV(x,y)的值為1時判定為陰影部分;Hk、Sk、Vk表示第k幀圖像在HSV空間H、S、V分量的值;Hb、Sb、Vb表示背景圖像在HSV空間H、S、V分量的值;TH、TS、λ、μ為閾值。
1.2.2 背景建模
幀差法運算簡單快速且對場景具有較強的適應(yīng)性,但在灰度信息變化不大的場景中容易產(chǎn)生空洞。本文引入三幀法建立初始化背景模型。首先采集n幀視頻圖像序列,利用加權(quán)平均法對第k-1、k、k+1幀圖像進行如式(3)的灰度化處理得到灰度圖像ta(x,y):
ta(x,y)=0.299Ra(x,y)+0.587Ga(x,y)+
0.114Ba(x,y)。
(3)
式中:a=k-1,k,k+1;Ra(x,y)、Ga(x,y)和Ba(x,y)分別為第a幀圖像的R、G和B三個分量的值。
然后進行如式(4)的運算,得到二值圖像:
Ck(x,y)=|tk(x,y)-tk-1(x,y)|∩|tk+1(x,y)-tk(x,y)|。
(4)
式中:Ck(x,y)為二值圖像,tk-1(x,y)、tk(x,y)和tk+1(x,y)分別為第k-1、k、k+1幀圖像的灰度圖像。
創(chuàng)建全部像素值為1的初始化背景模板和全部像素值為0的初始化背景圖像,由式(4)分離第k幀圖像的靜止區(qū)域和前景目標(biāo)區(qū)域。若當(dāng)前像素值為0,則將該位置的灰度像素值更新到初始化背景圖像中,并將背景模板的對應(yīng)位置的像素值置為0。當(dāng)k≤n時,繼續(xù)對第k-1、k、k+1幀進行如式(4)的運算,若存在未填充的背景像素,則將該位置的像素及其周圍8鄰域的點都填充到初始化背景圖像中,同時背景模板對應(yīng)位置的像素值置為0;若不存在,繼續(xù)對其余幀進行差分,直至背景模板中非零像素的個數(shù)小于設(shè)定的閾值時,背景模型建立完成。當(dāng)k>n時,若背景建立完成則輸出背景圖像并保存;若背景仍不完整,將最靠近該像素點的鄰近點作為背景像素點更新到對應(yīng)初始化背景圖像中,直至背景模板中非零像素的個數(shù)小于設(shè)定的閾值。
同時,為保證在復(fù)雜場景下的背景學(xué)習(xí)能力,提取連續(xù)三幀圖像中的背景像素進行背景重構(gòu)。若根據(jù)式(4)求出的前景目標(biāo)的像素值變?yōu)?,且當(dāng)前位置的背景像素值也為0,則認(rèn)為該處為背景部分,并將背景模型中的對應(yīng)位置的像素值置為0,實現(xiàn)背景圖像的自適應(yīng)更新,增強了在復(fù)雜場景下的背景模型的穩(wěn)定性和環(huán)境適應(yīng)性。
圖2給出了常用的背景建模方法(均值法、混合高斯法)與本文方法的對比?;旌细咚狗ú粌H運算量大且容易產(chǎn)生噪聲點,建立的背景模型模糊;均值法容易受環(huán)境影響,建立的背景模型與實際相差較大,尤其在第80幀的圖像中還殘留之前幀的運動目標(biāo)部分;本文方法通過背景像素的不斷填充融合,在第80幀時已經(jīng)建立穩(wěn)定的背景模型。與混合高斯、均值法相比,本文方法建立模型的速度更快、更穩(wěn)定且貼合于實際場景。
圖2 背景建模的對比
1.2.3 前景目標(biāo)檢測
Otsu法[11]計算簡單且不受圖像亮度的影響,本文使用該算法自動獲取最佳閾值。假設(shè)圖像IM×N在(x,y)位置的灰度值為f(x,y),當(dāng)灰度值i的總像素數(shù)為n時,對應(yīng)的灰度出現(xiàn)的概率為
(5)
式中:g(i)為灰度值i出現(xiàn)的概率,灰度i范圍為[0,L-1],M×N為圖像I的總像素數(shù)。
接著利用閾值T將像素分為C0和C1兩部分,此時C0部分出現(xiàn)的概率為
(6)
式中:w0為C0部分的概率,C0部分由灰度值在[0,T-1]的像素組成。
C1部分出現(xiàn)的概率為
(7)
式中:w1為C1部分的概率,C1部分由灰度值在[T,L-1]的像素組成。
(8)
(9)
(10)
式中:j為在[0,L-1]選取的最佳閾值,T=j時,方差σ2(j)最大。
得到背景圖像b(x′,y′)后,與當(dāng)前幀進行如式(11)的差分運算:
(11)
式中:fk(x′,y′)為第k幀的圖像,cf,b(x′,y′)為含有運動目標(biāo)的二值圖像。
最后對cf,b(x′,y′)進行如式(12)的形態(tài)學(xué)處理,去除圖像中存在的噪聲點及目標(biāo)的空洞部分:
(12)
式中:Close()表示形態(tài)學(xué)開運算,Open()表示形態(tài)學(xué)閉運算。
選取標(biāo)準(zhǔn)公共數(shù)據(jù)庫WEIZMAN、庭院Courtyard、UCF-ARG 數(shù)據(jù)集和國際標(biāo)準(zhǔn)數(shù)據(jù)集subway的不同場景,將本文方法與幀差、背景差分法進行對比,結(jié)果如圖3所示。
(a)WEIZMAN場景的目標(biāo)檢測結(jié)果對比
其中,圖3(a)~(d)的第1行為原始圖像,第2~3行分別為背景差分、幀差法和本文方法的檢測結(jié)果。圖3(c)場景的背景比圖3(a)的背景更加復(fù)雜且前景目標(biāo)與背景顏色特征相似,此時利用幀差法檢測到的目標(biāo)不明顯,如圖3(c)第163幀的目標(biāo)檢測丟失;背景差分法比幀差法檢測的目標(biāo)輪廓更加清晰,但目標(biāo)存在拖影現(xiàn)象,如圖3(c)第26幀產(chǎn)生嚴(yán)重的目標(biāo)拖影;而本文方法在面對背景復(fù)雜場景時,不僅可以較好檢測出目標(biāo),不造成目標(biāo)丟失,并且不會因為拖影、目標(biāo)丟失而影響進一步的行為檢測。圖3(b)中存在光照影響,利用背景差分法檢測的目標(biāo)因受光照影響而檢測出不屬于目標(biāo)的部分;幀差法與背景差分相比,能夠較好地適應(yīng)光照的影響,但檢測的目標(biāo)不夠完整;根據(jù)幀差法具有較強環(huán)境適應(yīng)性和背景差分法檢測準(zhǔn)確性高的優(yōu)點,在有光照影響的場景中也能較好的檢測出運動目標(biāo),如圖3(b)第2列的第27幀檢測結(jié)果對比圖。圖3(d)是多目標(biāo)檢測的結(jié)果對比,利用幀差法檢測的目標(biāo)缺失嚴(yán)重;背景差分法稍優(yōu)于幀差法,能夠檢測出部分目標(biāo),但容易漏檢且出現(xiàn)拖影,如圖3(d)第70幀中背景差分法只檢測到場景中的4個目標(biāo),其他目標(biāo)丟失;本文方法相較于以上兩種方法可以更完整、更清晰地檢測到目標(biāo),如圖3(d)第1幀的檢測結(jié)果,本文方法檢測的目標(biāo)更完整。
1.3.1 運動目標(biāo)標(biāo)識
為更好標(biāo)識目標(biāo),提高行為檢測的準(zhǔn)確性,本文以行人為檢測對象,如圖4中利用最小面積和垂直于地面的兩種外接矩形完整描述人體輪廓,對人體進行擬合。當(dāng)人正常行走時,兩個矩形重合(圖4(a));當(dāng)行人行為變化時(如圖4(b)行人彎腰),最小外接矩形會隨著人體變化而發(fā)生傾斜。
圖4 目標(biāo)標(biāo)識
1.3.2 運動目標(biāo)特征提取
為有效檢測異常行為的發(fā)生,基于兩種外接矩形對人體進行分析,通過提取三個區(qū)域特征(質(zhì)心、矩形寬高比、傾斜角度)對人體運動狀態(tài)進行描述。
(1)質(zhì)心的差值分布
質(zhì)心的位置可以準(zhǔn)確反映人體所處位置,并且不受人體姿態(tài)等變化的影響。假設(shè)運動目標(biāo)的外接矩形區(qū)域為rect,按式(13)求出質(zhì)心坐標(biāo):
(13)
再求出質(zhì)心的差值分布β:
(14)
當(dāng)行人正常行走時,質(zhì)心高度變化平穩(wěn),β處于一個較小的范圍;當(dāng)行人奔跑時,質(zhì)心忽高忽低,β的值會不穩(wěn)定;當(dāng)行人發(fā)生摔倒時,質(zhì)心逐漸下降,β的值會突變,明顯變小。
(2)矩形的寬高比
運動人體行為發(fā)生變化時,其最小外接矩形框也會發(fā)生一定變化。比如,當(dāng)運動人體發(fā)生摔倒時,矩形的寬W和高H會發(fā)生變化,結(jié)合圖4可求得寬高比B:
(15)
式中:xAa和yAa(a=1,2,3,4)分別為矩形區(qū)域rect在x軸和y軸上的坐標(biāo)值。
當(dāng)行人正常行走和奔跑時,最小外接矩形的H的值遠(yuǎn)遠(yuǎn)大于W的值,則B的值明顯小于1;當(dāng)行人發(fā)生摔倒時,行人高度降低,H的值會逐漸減小,W的值增大,此時矩形的寬高比B的值會大于1。
(3)矩形框的傾斜角度
定義如圖5所示的傾斜角度φ(φ∈[0,π])。
圖5 運動人體的傾斜角度
根據(jù)式(16)計算出傾斜角度φ,根據(jù)φ的變化判斷行人是正常行走、奔跑還是摔倒。
(16)
利用投影法將含有目標(biāo)的二值圖像投影到x-y軸上,其中,x1和y1分別表示點A1的橫縱坐標(biāo)值,x2和y2分別表示點A2的橫縱坐標(biāo)值。
當(dāng)行人正常行走時,矩形框垂直于地面,不發(fā)生傾斜,傾斜角為90°;當(dāng)行人發(fā)生奔跑時,此時人體會向前后傾斜,其中前傾斜角比后傾斜角度大,前傾斜角不會小于45°,后傾斜角相對較小,一般不會超過20°,因此傾斜角度基本維持在一定的范圍;當(dāng)行人忽發(fā)摔倒,人體向前傾斜摔倒時傾斜角度為(0°,45°),人體向后傾斜時傾斜角度在(145°,180°)范圍內(nèi)。
1.3.3 設(shè)定行為的判定規(guī)則
不同行人的外接矩形寬高比之間存在較大差異,人體質(zhì)心在正常行走時一般保持恒定,在奔跑或者摔倒時的質(zhì)心和傾斜角度會有明顯變化,因此本文融合1.3.2節(jié)中提取的多個特征,設(shè)定檢測行人行為的判定規(guī)則,更好地反映行為的本質(zhì)特點,并在多種應(yīng)用條件下進行運動行為分析,提高異常行為識別的準(zhǔn)確率。主要對行人正常行走、奔跑、摔倒的行為進行實驗。
定義一個集合F{f1,f2,f3}幫助區(qū)分正常和異常行為,其中f1、f2和f3分別表示行人正常行走、奔跑和摔倒的判定規(guī)則,如式(17)~(19)所示:
(17)
(18)
(19)
式(17)~(19)中的“0”和“1”表示沒有發(fā)生和發(fā)生正常行走、奔跑、摔倒的行為。當(dāng)滿足12 實驗與分析
為了測試視頻中行人行為的檢測性能,本文所有實驗均在Windows 10、Matlab R2018b操作系統(tǒng)下完成;采用標(biāo)準(zhǔn)公共數(shù)據(jù)庫WEIZMAN、庭院拍攝的視頻Courtyard、UCF-ARG數(shù)據(jù)集、跌倒數(shù)據(jù)集UR和國際標(biāo)準(zhǔn)數(shù)據(jù)集subway,其中視頻序列Courtyard主要面臨的挑戰(zhàn)為光照不均,WEIZMAN和UCF-ARG主要面臨的挑戰(zhàn)為背景環(huán)境的復(fù)雜程度,subway主要面臨的挑戰(zhàn)為目標(biāo)數(shù)量較多,UR主要面臨的挑戰(zhàn)為不同角度的摔倒檢測。利用本文方法在不同場景中進行檢測,利用綠、紅色矩形框標(biāo)識運動人體并用綠、紅色字體表示當(dāng)前發(fā)生的行為,用“?。?!”作為系統(tǒng)的預(yù)警,表示該視頻中的行人可能要發(fā)生異常行為,圖像左上角表示幀數(shù)。
檢測行人正常行走的實驗結(jié)果如圖6所示。圖6(a)的場景較為簡單且為單目標(biāo)檢測,檢測目標(biāo)框能夠完整包圍行人且能夠正確檢測出行人行為,此時行為檢測準(zhǔn)確率較高。與圖6(a)相比,圖6(b)由于光照影響產(chǎn)生陰影,本文方法能夠較好地抑制陰影,圖6(b)第73幀的外接矩形框未完全擬合行人,但總體不影響對行為檢測。與圖6(a)、(b)兩個場景相比,圖6(c)的場景中的行人數(shù)量較多,屬于多目標(biāo)檢測,圖6(c)第2幀中身穿黑衣服的行人與背景的顏色特征相似,導(dǎo)致漏檢,第41幀中目標(biāo)大部分離開場景,不認(rèn)為是正常行為??傮w而言,本文融合多特征進行行為檢測的方法能較為準(zhǔn)確地定位和檢測出場景中行人的行為,尤其是對單目標(biāo)的檢測。
圖6 行人正常行走的檢測結(jié)果
檢測行人奔跑的實驗結(jié)果如圖7所示。圖7(a)為較簡單的WEIZMAN場景,融合多個特征進行行為檢測的方法能夠準(zhǔn)確檢測出行人行為。圖7(b)為存在光照影響的Courtyard場景,由于光照而產(chǎn)生陰影的影響,圖7(b)第31幀的矩形框未能完全擬合行人,但對整體的行為檢測沒有造成太大影響,因此本文方法在有光照影響的情況下具有可行性。圖7(c)的UCF-ARG場景的部分背景區(qū)域特征與目標(biāo)特征相似,但仍能較好地定位行人位置并準(zhǔn)確判定出行為。面對圖7(a)、(b)和(c)場景中的行人大小、奔跑角度和高度等各不相同的問題,本文方法對行人的奔跑行為檢測仍能取得良好的效果。
圖7 行人奔跑的檢測結(jié)果
檢測行人發(fā)生摔倒的實驗結(jié)果如圖8所示。圖8(a)UR1場景的第69~150幀時,檢測到行人正常行走時忽然摔倒,此時的β、B和φ符合設(shè)定的摔倒規(guī)則,到第226幀時,行人自己慢慢站立起來,此時β、B和φ符合設(shè)定的預(yù)警規(guī)則,出現(xiàn)紅色的“?。?!”并發(fā)出聲音進行警告,與圖8(b)Courtyard場景的第74幀和圖8(c)UR2場景的第324幀類似,行人將要摔倒,系統(tǒng)進行預(yù)警。圖8(c)UR2場景的第581幀中,能夠完整檢測行人,未將與行人顏色特征相似的外套檢測成行人部分,可以看出,本文方法有較高的檢測準(zhǔn)確性和魯棒性。在圖8(a)、(b)和(c)中,不管是行人的摔倒方向、姿態(tài)還是行人的正面與背面,利用本文方法都可以較為準(zhǔn)確地檢測出來,并且對有可能發(fā)生的異常行為進行預(yù)警,保證了視頻中行人的人身安全。
圖8 行人摔倒的檢測結(jié)果
為測試本文方法檢測行人行為的準(zhǔn)確性,定義檢測準(zhǔn)確率P如式(20)所示:
(20)
式中:W為檢測次數(shù),A和B分別為正常和異常行為檢測正確的次數(shù)。該檢測準(zhǔn)確率可以直觀反映本文方法行為檢測的準(zhǔn)確性。為更好地表現(xiàn)本文目標(biāo)檢測方法的準(zhǔn)確性,表1給出了不同目標(biāo)檢測方法的對比實驗結(jié)果。
表1 不同目標(biāo)檢測方法下的行為檢測準(zhǔn)確率對比
表1中采用標(biāo)準(zhǔn)公共數(shù)據(jù)庫WEIZMAN、自己拍攝的庭院視頻Courtyard、UCF-ARG數(shù)據(jù)集、跌倒數(shù)據(jù)集UR和國際標(biāo)準(zhǔn)數(shù)據(jù)集subway。分析表1的實驗數(shù)據(jù)可知,不管是不同場景還是不同的目標(biāo)檢測方法,由于行人奔跑的幅度不夠大,質(zhì)心的差值和傾斜角度變化不明顯,導(dǎo)致奔跑行為的檢測準(zhǔn)確率比行走和摔倒行為低高,但在本文方法的平均檢測準(zhǔn)確率達到92.23%。由于背景差分法對應(yīng)用場景具有較高的要求,幀差法具有較好的環(huán)境適應(yīng)性,因此在存在光照影響的Courtyard場景中,幀差法比背景差分的檢測準(zhǔn)確率高,本文提取幀差法良好的適應(yīng)性和背景差分檢測準(zhǔn)確性高的優(yōu)點并進一步改進,最后在有光照場景中的三種行為的平均檢測率達到92.51%;UCF-ARG的場景環(huán)境較為復(fù)雜,目標(biāo)在移動過程中會與背景的部分顏色特征相似,此時背景差分法容易造成漏檢,幀差法容易產(chǎn)生空洞無法對前景目標(biāo)進行精確提取,造成行為檢測準(zhǔn)確率的降低,而本文方法可以較好地克服以上問題,準(zhǔn)確率提高約10%;UR1和UR2的場景分別為行人不同姿勢的摔倒,由于UR2場景背景更為復(fù)雜且場景中行人在穿衣過程中摔倒,衣服的顏色特征與行人相似,容易產(chǎn)生誤檢,但相較于背景差分和幀差法,本文方法的檢測準(zhǔn)確率提高約6%;subway場景的目標(biāo)較多并且背景區(qū)域的顏色特征與部分行人相似,導(dǎo)致漏檢,相比于單目標(biāo)的檢測,多目標(biāo)的檢測準(zhǔn)確率較低。綜上所述,目標(biāo)檢測的準(zhǔn)確性是行為檢測的關(guān)鍵,本文方法可以建立穩(wěn)定的背景模型,準(zhǔn)確描述目標(biāo)輪廓,提高目標(biāo)檢測的準(zhǔn)確率,有利于提高家庭、實驗室等場所的行人安全。
由上述分析可知,基于改進三幀法和背景差分結(jié)合的目標(biāo)檢測方法對行人行走、奔跑和摔倒的行為檢測具有較好的效果。
表2為Courtyard場景中不同行為的檢測方法的對比,該視頻中存在光照影響。文獻[14]和[15]的方法對三種行為的平均檢測率分別為83.51%和86.97%和92.51%。文獻[14]利用矩形的寬高比進行檢測,雖然可以較好地判別行走和摔倒行為,但當(dāng)行人奔跑時,無法區(qū)分是行走還是奔跑。文獻[15]在文獻[14]的基礎(chǔ)上增加輪廓特征選取,但環(huán)境適應(yīng)性較低,尤其是在Courtyard場景中,檢測的準(zhǔn)確性降低。本文融合多個特征進行行為檢測,更加全面地描述行人行為,平均檢測準(zhǔn)確率達到92.51%,證明了本文方法的準(zhǔn)確性與可行性。
表2 不同異常行為檢測方法的檢測準(zhǔn)確率對比
本文提出了一種基于運動分析的行人異常行為檢測的方法,利用HSV色彩空間變換法進行圖像預(yù)處理,有效去除陰影對檢測精度的影響;利用三幀法進行背景模型訓(xùn)練,建立初始化模型,構(gòu)建自適應(yīng)背景更新策略,從而建立穩(wěn)定的背景圖像;增加自適應(yīng)選取最佳閾值,利用背景差分準(zhǔn)確提取運動目標(biāo);通過融合多個特征進行行人的行為分析,根據(jù)設(shè)定的判定規(guī)則進行行為檢測。
盡管本文方法在現(xiàn)有場景中的單個目標(biāo)檢測取得較高的準(zhǔn)確性,后續(xù)工作中還需加強對環(huán)境變化較大以及多個運動目標(biāo)的視頻場景的行人異常行為檢測,提高檢測方法的普適性和準(zhǔn)確性,以保證行人在不同場所的安全。