金壯壯,曹江濤,姬曉飛
(1.遼寧石油化工大學 信息與控制工程學院,遼寧 撫順 113001;2.沈陽航空航天大學 自動化學院,遼寧 沈陽 110136)
在信息技術(shù)高速發(fā)展的今天,機器視覺越來越受到研究者的關(guān)注,其中雙人交互行為識別算法研究已成為熱點問題。相比單人行為模型,雙人交互行為更為復雜,因此,如何有效地提取運動特征和合理地建立交互運動模型是雙人交互行為識別與理解的重要研究內(nèi)容。國內(nèi)外科研工作者們已經(jīng)展開了相關(guān)項目的研究[1-5]。對雙人交互行為進行自動的識別不僅對計算機視覺、人工智能和模式識別的理論研究具有很高的價值,而且在解決公共場合暴力沖突和實現(xiàn)智能視頻監(jiān)控等方面具有現(xiàn)實意義。
在過去的十幾年中,雙人交互行為識別主要針對RGB視頻序列進行。Kong等[6]提出一種基于補丁感知模型的雙人交互行為識別方法,該方法從包含雙人交互的視頻中提取時空興趣點,構(gòu)造視覺詞匯直方圖,然后從直方圖中采樣非重疊的3D補丁,使用提出的補丁感知模型來推斷潛在補丁變量的標簽并對交互動作進行分類識別。Zhang等[7]使用鳥瞰圖攝像機的空間線索來識別發(fā)生交互的時間間隔,然后從分段視頻中檢測時空興趣點,利用K-means構(gòu)建視覺碼本。在視覺碼本上投影每個視頻,構(gòu)造視覺詞匯直方圖來實現(xiàn)交互識別。這些算法具有較好的性能,但RGB視頻將人體及人體運動投影到二維平面,導致深度信息的缺失,因此對于復雜交互動作識別的準確性很難得到保證。
近年來,微軟推出一種可以同時拍攝視覺圖像(RGB圖像)與深度圖像的Kinect設(shè)備,大大降低了深度信息的獲取成本,在智能監(jiān)控、人機交互等領(lǐng)域受到了重視,一些研究者將其引入到雙人交互行為識別的研究中。Yun等[8]采用文獻[9]中的幾何特征提取方法并設(shè)計多種相關(guān)的距離特征(如關(guān)節(jié)距離、關(guān)節(jié)運動、平面特征和速度特征)來進行雙人交互識別,發(fā)現(xiàn)關(guān)節(jié)距離特征和關(guān)節(jié)運動特征在雙人交互行為識別上優(yōu)于平面特征和速度特征。該類方法依賴于Kinect設(shè)備對關(guān)節(jié)點信息的準確估計,對于復雜行為識別的準確率不高。Ji等[10]通過提取關(guān)節(jié)點運動與關(guān)節(jié)點距離特征來進行交互身體部位描述,然后構(gòu)建對比特征分布模型(contrastive feature distribution model,CFDM)實現(xiàn)雙人交互行為識別。該方法依賴骨架模型的構(gòu)建及關(guān)節(jié)點信息之間的準確聯(lián)系,盡管識別準確率較高,但其計算復雜度也較高,不適于實時應用。
目前基于RGB視頻和深度視頻的雙人交互行為識別研究均取得了一定的進展,但結(jié)合兩者進行的研究還處于起步階段。Ni等[11]對傳統(tǒng)時空興趣點檢測算法做了相應改進,提出了一種基于深度信息分層的時空興趣點特征描述算法。其算法主要思想是把深度圖像按灰度級分成M層通道,將RGB視頻構(gòu)建的K維視覺詞典與每一層通道進行匹配,生成M×K維特征矢量。該算法在一定程度上提高了識別的準確性,但當K值較大時才能得到較好的效果,且特征矢量維數(shù)增加會降低動作識別效率。
根據(jù)以上分析,綜合考慮到基于RGB圖像與深度圖像各自的優(yōu)點且具有信息互補的特性,文中提出一種多源信息融合的雙人交互行為識別算法。算法框圖如圖1所示。
圖1 算法結(jié)構(gòu)框圖
算法實現(xiàn)步驟如下:
(1)RGB視頻的特征表示:時空興趣點特征(spatio-temporal interest point,STIP)在RGB視頻上已成功應用,因此在RGB視頻方面首先進行時空興趣點檢測,用三維尺度不變特征轉(zhuǎn)換(3-dimensional scale invariant feature transform,3DSIFT)對興趣點進行描述,采用BOW模型對RGB視頻進行直方圖表示。
(2)深度視頻的特征表示:在深度視頻方面,首先進行深度圖像檢測分割處理??紤]到一般情況下前景和背景之間在深度方向存在一定的距離,因此在深度圖像中,前景的邊緣信息明顯,選取方向梯度直方圖(histogram of oriented gradient,HOG)特征對每個視頻幀中的檢測區(qū)域進行特征表示,然后采用關(guān)鍵幀統(tǒng)計特征對整個深度視頻進行表示。
(3)決策級融合識別:使用最近鄰分類器計算待測試視頻與動作模板的相似性概率,之后對RGB圖像上提取時空興趣點特征的識別結(jié)果與深度圖像上提取HOG特征的識別結(jié)果進行加權(quán)融合,得到待測視頻的最終識別結(jié)果。
在人類交互行為視頻里,時空興趣點能夠用較少的信息量正確地定位視頻序列中具有明顯運動的區(qū)域,對環(huán)境的變化、局部的遮擋具有較強的魯棒性[12-13]?;跁r空興趣點表征行為的算法被廣泛應用于人類行為識別領(lǐng)域,因此文中使用時空興趣點與視覺詞袋(bag of word,BOW)模型結(jié)合的方法對RGB視頻進行特征表示。
如圖2所示,使用時空興趣點和詞袋模型相結(jié)合的雙人交互行為表征算法由時空興趣點檢測、特征描述、詞典建立三個部分組成。
圖2 生成BOW描述符的圖形表示
廣泛使用的興趣點檢測方法是由Dollars等[14]提出的基于Gabor濾波器和高斯濾波器組合計算函數(shù)響應值的方法。將空間和時間兩個單獨的線性濾波器應用在檢測器上,從視頻序列中提取出豐富的時空興趣點,用來充分捕捉視頻序列中的人體行為特征。這里把它應用在彩色視頻雙人交互局部特征提取上,其表達式為:
R=(I*g(σ)*hev)2+(I*g(σ)*hod)2
(1)
其中,g(x,y;σ)是二維高斯平滑核函數(shù),用于空間域濾波。
(2)
其中,hev和hod是一維Gabor函數(shù)的正交分量,用于時間域濾波。
hev(t;τ,ω)=-cos(2πωt)e-t2/τ2
(3)
hod(t;τ,ω)=-sin(2πωt)e-t2/τ2
(4)
其中,σ和τ分別對應空間和時間尺度。
被檢測為興趣點需滿足兩個條件,響應函數(shù)R大于設(shè)定閾值且在某一鄰域內(nèi)取得局部極大值,閾值大小的選取可以控制檢測出的興趣點數(shù)目[15]。
采用3D SIFT方法進行興趣點描述,步驟如下:
(1)在興趣點周圍的鄰域內(nèi)提取時空立方體并將其劃分為固定大小的單位子立方體;
(2)使用多面球計算每個單位立方體的時空梯度直方圖;
(3)組合所有單位立方體直方圖,形成時空興趣點的3D SIFT描述符[16]。
文中X×Y×Z像素大小的立方體被劃分為M個子立方。采用P個面對Q個梯度方向進行描述,因此每個點的特征維數(shù)是R×S,用以描述交互行為的時空興趣點特征[17]。
使用簡單有效的K均值聚類算法對所有特征向量進行聚類,其處理過程是:先在數(shù)據(jù)集中隨機選擇K個樣本作為聚類中心,根據(jù)一定的相似性度量把所有樣本劃分到與之距離最近的聚類中心所代表的類中,形成K個聚類,然后對這K個聚類重新計算聚類中心,并按照新的聚類中心重新劃分樣本類別,如此迭代進行下去,直到式5準則函數(shù)收斂為止。
(5)
其中,E為所有研究對象的平方誤差總和;p為空間的點,即數(shù)據(jù)對象;mi為簇Ci的平均值。
把每個聚類中心作為詞典中的一個單詞,每個特征向量用與之距離最近的單詞表示,然后對詞典中的單詞在視頻中出現(xiàn)的頻率進行統(tǒng)計,構(gòu)建視頻的直方圖表示。
深度圖像也稱為距離影像,是指將圖像采集器到場景中各點的距離(深度)作為像素值的圖像[18]。當人體前景與背景存在一定的距離時,深度圖像可以通過灰度值信息直觀地體現(xiàn)??紤]到HOG可以較好地對人體周圍的邊緣信息進行提取和表示,因此選用HOG特征進行深度視頻全局表示。文中采用幀差法[19]檢測深度圖像中的運動目標。
HOG特征[20]的構(gòu)建通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來實現(xiàn)。針對梯度進行提取操作,不但可以捕獲輪廓和紋理信息,還可以減小光照變化的影響。像素點(x,y)橫坐標和縱坐標方向的梯度可表示為:
(6)
其中,Gx(x,y)、Gy(x,y)、H(x,y)分別表示輸入圖像中像素點(x,y)處的水平方向梯度、垂直方向梯度和像素值。
像素點(x,y)處的梯度幅值和梯度方向分別表示為:
(7)
將運動目標所在區(qū)域進行HOG特征提取。即梯度圖像均等劃分為P×Q個不重疊子區(qū)域,并計算每個區(qū)域中像素點的梯度對K個不同方向的貢獻權(quán)重大小,將其疊加到所有的梯度方向上,構(gòu)建梯度方向直方圖,如圖3所示。最終得到每幀圖像中運動目標的P×Q×K維特征向量。
圖3 HOG特征圖形表示
為了與興趣點特征進行有效融合,使用關(guān)鍵幀統(tǒng)計特征對深度視頻進行表示。即采用K-means聚類方法,對訓練視頻的HOG特征生成關(guān)鍵幀特征庫。然后根據(jù)相似度量函數(shù)對一個待測視頻中的所有幀特征在關(guān)鍵幀特征庫中出現(xiàn)的頻率進行統(tǒng)計,得到深度視頻的統(tǒng)計直方圖表示[21]。
最近鄰分類器是一種結(jié)構(gòu)簡單、識別效果良好的識別方法[22]。文中采用最近鄰分類器對兩種視頻特征進行識別,并融合兩種特征的識別概率對交互動作進行最終識別,具體方法如下:
獲得RGB視頻與深度視頻的識別概率后,通過加權(quán)融合的方式可以得到融合后的識別概率及結(jié)果:
PFinal=w1×Prgb+w2×Pdepth
(8)
其中,PFinal為加權(quán)融合后的最終識別概率;Prgb和Pdepth分別為RGB視頻和深度視頻的識別概率;w1、w2
為RGB視頻和深度視頻識別概率的加權(quán)參數(shù)。
實驗采用公開的SBU Kinect interaction[8]雙人交互動作視頻數(shù)據(jù)庫。該數(shù)據(jù)庫是運用微軟Kinect傳感器創(chuàng)建的一個擁有深度圖像、彩色圖像和骨架圖像的雙人交互動作數(shù)據(jù)庫。數(shù)據(jù)庫記錄了八類雙人交互動作(approaching,departing,kicking,punching,pushing,hugging,shaking hands,exchanging),共有七人在同一實驗室環(huán)境中參與行為動作拍攝,每一類動作都由不同的動作執(zhí)行人完成,整個數(shù)據(jù)庫有260組交互動作。庫內(nèi)的行為不僅是非周期性行為,而且不乏有非常相似的身體動作,因此對庫中的行為進行識別具有一定的挑戰(zhàn)性。
在實驗過程中,每類動作隨機選取10個視頻作為測試數(shù)據(jù),余下的視頻作為訓練數(shù)據(jù)。參數(shù)選取如下:興趣點附近12×12×12像素大小的立方體被劃分為2個子立方,采用32個面對32個梯度方向進行描述,即每個點的特征是256維用以描述文中交互行為的時空興趣點特征。在深度圖像上,將梯度圖像均等劃分為不重疊子區(qū)域,每一幅運動區(qū)域做4×4的分割,方向個數(shù)為12。在進行決策級融合之前,使用最近鄰算法計算測試視頻動作模板的相似性概率,為確定決策級融合時加權(quán)數(shù)值的分配提供參考識別結(jié)果。
表1 不同特征的識別結(jié)果
由表1可以看出,RGB視頻上采用的BOW特征表示相對于深度視頻的HOG特征表示“推搡”和“遠離”交互動作識別效果較差,而“握手”識別效果較好。對于雙人交互動作識別,深度圖像攜帶更多動作信息,因此基于深度圖像的識別率較RGB視頻有了大幅提高。上述結(jié)果表明,文中將BOW特征和HOG特征識別結(jié)果進行決策級融合是有意義的。
針對BOW和HOG各自的特征優(yōu)勢和特點,分別將它們的最近鄰識別結(jié)果進行決策級融合,根據(jù)上面得到的結(jié)果,運用遍歷的方法得到最優(yōu)權(quán)值分別為0.45和0.55,深度視頻的融合系數(shù)較高一些。最終的識別結(jié)果采用歸一化后的混淆矩陣表示,如圖4所示。
圖4 決策級融合后的混淆矩陣
從混淆矩陣可以看出,決策級融合后的正確識別率為92.5%,遠遠優(yōu)于單一特征的識別結(jié)果。對比單一識別結(jié)果,“靠近”、“遠離”和“握手”識別效率得到明顯提高。由于數(shù)據(jù)庫有些動作存在相似性,導致融合后有20%的“打拳”動作視頻被識別成“推搡”交互動作。
為了驗證文中算法的有效性,對同樣在SBU Kinect interaction數(shù)據(jù)庫上進行實驗的相關(guān)文獻使用的算法與文中算法進行比較和分析,如表2所示。
表2 不同方法的識別結(jié)果
由表2可以看出,文獻[8,10,23-25]選取了骨架結(jié)構(gòu)模型進行雙人交互動作識別。從識別率上看,文中多源信息融合方法得到了較高的正確識別率,并且文獻[24]中的算法需要獲取人體骨架節(jié)點信息之間的關(guān)聯(lián),而且LSTM存在訓練復雜度高、解碼時延高的問題。文獻[25]的LCNN算法存在訓練需分多個階段,步驟繁瑣,速度慢,對硬件要求高的問題。而文中算法直接在RGB和深度圖像上提取特征,簡單易實現(xiàn)。
根據(jù)RGB圖像與深度圖像特性,提出一種RGB視頻與深度視頻特征在決策級加權(quán)融合的交互動作識別算法。該算法充分利用了兩種視頻信息各自的優(yōu)點及信息互補的特性,并采取了適用于兩種視頻的特征表示方法。在SBU Kinect interaction數(shù)據(jù)庫的測試結(jié)果表明,該算法對于復雜的雙人交互行為取得了良好的識別結(jié)果,并且實現(xiàn)簡單,不依賴于Kinect設(shè)備對骨架模型的估計,為雙人交互行為識別提供了一種新的解決方案。為了進一步提高算法的準確性,下一步的研究重點是更好地構(gòu)建聯(lián)合特征模型,研究兩種視頻信息的特征級融合。