郭煒婷,夏利民
GUO Weiting,XIALimin
中南大學(xué) 信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410075
College of Information Science and Engineering,Central South University,Changsha 410075,China
近年來,基于視頻的人體行為分析引起了計(jì)算機(jī)視覺研究者的廣泛關(guān)注,在視覺監(jiān)控系統(tǒng)、人機(jī)交互、體育運(yùn)動(dòng)分析等方面都具有廣闊的應(yīng)用前景。
在以往的研究工作中,研究人員采取不同的方法提高單個(gè)攝像頭的人體行為識(shí)別準(zhǔn)確率。Ronao等[1]提出一種深度卷積神經(jīng)網(wǎng)絡(luò),探索行為和一維時(shí)間序列信號(hào)的固有特性,同時(shí)自動(dòng)從原始數(shù)據(jù)中提取穩(wěn)定特征。Gao等[2]提出基于SR-L12稀疏表示的人類行為識(shí)別算法。Gao等[3]提出基于RGB和深度運(yùn)動(dòng)歷史圖像的全局結(jié)構(gòu)動(dòng)作描述符。周鑫燚等[4]提出一種RGB和深度圖像特征聯(lián)合的人體行為識(shí)別方法。
然而在單視角環(huán)境下,觀測(cè)角度和光線的變化會(huì)使得識(shí)別難度增加,而且在當(dāng)前觀測(cè)角度下,未必能夠捕捉到最理想的行為特征。因此,許多研究者嘗試?yán)枚嘁暯欠椒▉斫鉀Q此類問題。Shen等[5]將動(dòng)作姿態(tài)用三關(guān)節(jié)點(diǎn)集合表示,在兩幀間尋找由三節(jié)點(diǎn)構(gòu)成的剛性運(yùn)動(dòng)的不變量。Li等[6]提出一種生成貝葉斯模型,不僅將特征和視圖聯(lián)合起來考慮,還學(xué)習(xí)不同類別的判別表示。Li等[7]通過學(xué)習(xí)一個(gè)低維度流形,并對(duì)動(dòng)態(tài)過程建模重建3D模型。這些多視角算法,通常需要提前知道不同視角之間的角度,這就嚴(yán)重限制了它們的應(yīng)用。因此,研究者們更注重視角不變特征學(xué)習(xí)。例如,Zheng等[8]提出將兩個(gè)同時(shí)學(xué)習(xí)的源域和目標(biāo)域的字典組成可轉(zhuǎn)換字典對(duì),使得同一動(dòng)作在兩個(gè)不同視角下具有相同的稀疏表示。Liu等[9]用一個(gè)雙向圖來建模依賴于視角的視覺詞袋模型,這就將一個(gè)BOVW動(dòng)作模型轉(zhuǎn)換為一個(gè)BOBW模型,在不同視角下?lián)碛酗@著穩(wěn)定性。Junejo等[10]利用自相似矩陣與SVM分類器,為每個(gè)視圖分配一個(gè)單獨(dú)的SVM分類器,應(yīng)用融合方法實(shí)現(xiàn)最終結(jié)果,但是無法發(fā)現(xiàn)視圖之間的相關(guān)性。Gao等[11]提出基于組稀疏與圖集的多視圖判別結(jié)構(gòu)化字典。Hsu等[12]提出金字塔結(jié)構(gòu)的詞袋模型(BoW-Pyramid)描述時(shí)空矩陣,但不適當(dāng)?shù)姆指顣?huì)對(duì)識(shí)別率產(chǎn)生影響。Hao等[13]利用稀疏編碼算法將不同視圖的低層次特征轉(zhuǎn)換為高層次特征,然后采用多任務(wù)學(xué)習(xí)(MTL)方法進(jìn)行聯(lián)合動(dòng)作建模,但低層次特征在不同視角下具有差異性,將會(huì)影響動(dòng)作建模。
本文提出一種基于時(shí)空矩陣和多視角非負(fù)矩陣分解的人體行為識(shí)別方法。在底層特征提取過程中,提取每個(gè)視頻幀的時(shí)空描述符,其包含足夠充分的動(dòng)態(tài)和靜態(tài)信息。原始動(dòng)作視頻包含很多圖像幀,而一個(gè)動(dòng)作可以只用幾幀來表示從而達(dá)到降低計(jì)算量的效果,因此本文利用人工免疫聚類算法提取視頻的關(guān)鍵幀。自相似矩陣(Self-Similarities Matrix,SSM)特征具有仿射不變性和投影不變性,可以用來解決觀測(cè)角度改變對(duì)人體行為識(shí)別的影響,本文改進(jìn)自相似矩陣,從而構(gòu)建基于時(shí)空描述符的時(shí)空矩陣(Spatio-Temporal Matrix,STM)??紤]到視頻大小存在不同,每一個(gè)視頻包含的幀數(shù)將有所不同,則形成的時(shí)空矩陣大小不盡相同,而提取視頻關(guān)鍵幀可以統(tǒng)一時(shí)空矩陣的大小。為了進(jìn)一步得到不同視角下同一個(gè)行為的共享相似性特征,本文利用多視角非負(fù)矩陣分解算法(Multi-View Nonnegative Matrix Factor,MultiNMF)同時(shí)分解不同視角下的時(shí)空矩陣,得到共識(shí)矩陣。最后,通過計(jì)算共識(shí)矩陣的最大相關(guān)系數(shù)對(duì)人體行為進(jìn)行分類。通過多視角非負(fù)矩陣分解算法分解不同視角下相同動(dòng)作的時(shí)空矩陣得到的共識(shí)特征矩陣,對(duì)視角改變擁有良好的魯棒性,提高了識(shí)別精度。
使用時(shí)空矩陣(STM)進(jìn)行動(dòng)作表示。首先需要提取動(dòng)作的低級(jí)特征,提取的低級(jí)特征應(yīng)能詳盡地描述一個(gè)動(dòng)作。其次改進(jìn)自相似矩陣上下三角形對(duì)稱的結(jié)構(gòu),使得改進(jìn)的自相似矩陣(即時(shí)空矩陣)同時(shí)包括運(yùn)動(dòng)信息和形態(tài)信息。關(guān)鍵幀提取則是為了統(tǒng)一時(shí)空矩陣的大小以及去除冗余幀。
為了得到視頻幀中的運(yùn)動(dòng)和形態(tài)信息,從而完整地描述一個(gè)動(dòng)作,本文提取方向梯度直方圖(HOG)和光流直方圖(HOF)作為低級(jí)特征。將視頻幀分為n個(gè)子區(qū)間,將每個(gè)子區(qū)間劃分為2×2個(gè)網(wǎng)格,在每個(gè)網(wǎng)格內(nèi),計(jì)算像素點(diǎn)梯度方向并量化為8個(gè)單位的直方圖生成當(dāng)前網(wǎng)格的HOG描述符,同時(shí)計(jì)算其中光流并量化為9個(gè)單位的直方圖生成當(dāng)前網(wǎng)格的HOF描述符。結(jié)合各網(wǎng)格的直方圖,得到第i個(gè)子區(qū)間維度為68的低級(jí)描述符pi=[HOGT,HOFT],其中HOG向量維度為32(2×2×8),HOF向量維度為36(2×2×9)。結(jié)合各子區(qū)間的直方圖,得到第i幀的聯(lián)合特征描述符Pi=[p1,p2,…,pn],第i幀HOG特征描述符第i幀HOF特征描述符
為了去除視頻冗余幀并提高計(jì)算性能,本文對(duì)原始視頻提取關(guān)鍵幀。K-means聚類算法對(duì)初始化很敏感,若初始化不當(dāng),很可能導(dǎo)致算法收斂到局部極值點(diǎn)而得不到最優(yōu)劃分,但其原理簡(jiǎn)單,收斂速度快。人工免疫聚類算法將免疫原理與K-means方法相結(jié)合,可以獲得比K-means方法更接近于全局最優(yōu)的解,同時(shí)具有計(jì)算效率高,聚類能力強(qiáng)等優(yōu)點(diǎn),因此本文采用人工免疫聚類算法提取關(guān)鍵幀。該算法一方面將待處理的數(shù)據(jù)視作免疫系統(tǒng)的抗原,另一方面將待處理的數(shù)據(jù)經(jīng)K-means方法后得到的聚類中心視作初始抗體,通過抗體對(duì)抗原不斷進(jìn)行識(shí)別,最終得到最優(yōu)抗體。
(1)將原始視頻的T幀圖像P=[ ]P1,P2,…,PT根據(jù)式(1)計(jì)算N個(gè)類心,其中Cj.center表示待處理數(shù)據(jù)經(jīng)過K-means聚類得到的第j個(gè)聚類中幀的數(shù)目,Cj(j=1,2,…,N)表示第j個(gè)聚類中心,即初始抗體。
(2)將抗體與抗原之間的歐式距離定義為兩者之間的親和度,根據(jù)親和力最大原則,將T幀圖像分配到不同的Cj中。每完成一次聚類,采用式(2)判斷抗原的分配情況:
其中,uij表示抗原Pi屬于Cj(j=1,2,…,N)的程度,取值為0或1,有如下定義:
(3)根據(jù)式(4)對(duì)抗體進(jìn)行變異,其中ξ是學(xué)習(xí)率或成活率,確定系統(tǒng)搜索抗原的方向,取值需要依據(jù)抗體和抗原的親和程度確定;PY是每一類中含有的抗原;C是根據(jù)每一類中含有的抗原數(shù)克隆出同樣數(shù)目的抗體;Cis為新抗體。選擇新抗體與抗原之間親和度最大的一個(gè)抗體為最佳抗體,即新的聚類中心,而對(duì)其他抗體進(jìn)行清除。
(4)重復(fù)上述(2)、(3)步驟,直到式(2)達(dá)到最小,產(chǎn)生的最優(yōu)抗體作為聚類中心,并輸出聚類結(jié)果。
(5)聚類完成后,選擇各類中處于中間位置或距類心最近的一幀圖像為關(guān)鍵幀,關(guān)鍵幀數(shù)為N。
自相似矩陣是一個(gè)反映圖像序列相互關(guān)系的矩陣,其擁有仿射不變性和投影不變性。特征自相似矩陣中丟棄幀的特征而只保留幀與幀之間的特征差異,特征差異由兩個(gè)特征描述符之間的距離來體現(xiàn)并且其與觀察運(yùn)動(dòng)的視點(diǎn)位置關(guān)系不大[14]。對(duì)于兩個(gè)不同時(shí)刻的相似動(dòng)作,這兩個(gè)特征描述符之間的距離??;而對(duì)于兩個(gè)不同時(shí)刻差異很大的動(dòng)作,則這兩個(gè)特征描述符之間的距離較大。自相似矩陣特征在視點(diǎn)改變時(shí),變化較小,可以很好地表示不同視點(diǎn)下的人體運(yùn)動(dòng)。因此本文用自相似矩陣來描述運(yùn)動(dòng)。
經(jīng)人工免疫聚類算法后,得到N個(gè)關(guān)鍵幀。給定視頻關(guān)鍵幀圖像序列P={P1,P2,…,PN} ,則SSM定義如下:
其中,‖?‖表示低級(jí)特征向量之間的距離。因?yàn)閷?duì)角線上的每一個(gè)元素都代表特征向量與其本身的距離,所以等于0。因?yàn)镻i到Pj之間的距離與Pj到Pi之間的距離相等,顯然D是一個(gè)對(duì)稱矩陣。該矩陣的模式取決于用于計(jì)算的特征和距離度量。
本文將rij定義為從動(dòng)作序列中提取的HOG特征描述符之間和HOF特征描述符之間的歐氏距離。用關(guān)鍵幀的結(jié)構(gòu)描述符G={g1,g2,…,gN}和運(yùn)動(dòng)描述符F={f1,f2,…,fN}表示一個(gè)行為,因?yàn)镈是一個(gè)對(duì)稱矩陣,上下三角形會(huì)擁有重復(fù)的信息,所以將自相似矩陣重新定義為時(shí)空矩陣:
時(shí)空矩陣上三角形表示HOG特征描述符的歐式距離,而下三角形則表示HOF特征描述符的歐式距離,對(duì)角線仍然為0。自相似矩陣上下三角形使用同樣特征的距離(形狀特征距離或運(yùn)動(dòng)特征距離)表示一個(gè)動(dòng)作,是一個(gè)對(duì)稱矩陣,即擁有重復(fù)的特征信息,只能從形狀或運(yùn)動(dòng)一個(gè)方面描述行為;而時(shí)空矩陣上三角形包含形狀特征距離,下三角形包含運(yùn)動(dòng)特征距離,是一個(gè)非對(duì)稱矩陣,擁有不同的特征信息,全面描述了一個(gè)行為的形狀和運(yùn)動(dòng)。因?yàn)镠OG(形狀特征)與HOF(運(yùn)動(dòng)特征)為互補(bǔ)特征,所以HOG與HOF特征結(jié)合比單一HOG或HOF特征能更好地表示一個(gè)動(dòng)作,從而時(shí)空矩陣相比自相似矩陣能更好地描述一個(gè)動(dòng)作。
上文得到的時(shí)空矩陣在視角變化下具有高度穩(wěn)定性。為了深度挖掘不同視角下相同動(dòng)作的時(shí)空矩陣共享的相似穩(wěn)定結(jié)構(gòu),用于在視角改變的情況下進(jìn)行人體行為分析。本文采用多視角非負(fù)矩陣分解算法對(duì)不同視圖的時(shí)空矩陣進(jìn)行聯(lián)合因式分解。
假設(shè)第j類動(dòng)作有S個(gè)樣本由nv個(gè)視角觀察。定義表示第v個(gè)視角下的時(shí)空矩陣,對(duì)于每一個(gè)視角下的,可以分解為其中是每個(gè)視角下的基礎(chǔ)矩陣,而是每個(gè)視角下的系數(shù)矩陣。V*為共識(shí)矩陣,反映了不同視角下時(shí)空矩陣共享的相似和穩(wěn)定結(jié)構(gòu),即所要得到的共享視角不變特征。本文提出關(guān)于的聯(lián)合最小化問題:
則式(9)等價(jià)于最小化目標(biāo)函數(shù)O:
為了解決優(yōu)化問題,提出了一種迭代更新過程。具體地說,重復(fù)以下兩個(gè)步驟,直到收斂:(1)固定V*,更新和使函數(shù)O最??;(2)固定和,更新V*使函數(shù)O最小。
3.2.1 固定V*,更新和
當(dāng)V*是固定的,對(duì)于每個(gè)給定的視角v,U()v的計(jì)算不依賴于或因此,使用STM、U、V和Q來表示和,顯示本小節(jié)的簡(jiǎn)潔性。則式(11)轉(zhuǎn)化成如下形式:
采用拉格朗日乘子法求解V:
目標(biāo)函數(shù)O對(duì)V*求偏導(dǎo),得到:
從而得到V*的精確解:
基于多視角非負(fù)矩陣分解算法分解不同視角下的時(shí)空矩陣如算法1所示。
算法1多視角非負(fù)矩陣分解算法(MultiNMF)
3.Repeat
4.Forv=1tonvdo
5.Repeat
9.直到式(12)收斂
10.end for
12.直到式(11)收斂
上文計(jì)算得到的共識(shí)矩陣V*反映了不同視角下時(shí)空矩陣共享的相似穩(wěn)定結(jié)構(gòu),為確保深度視角不變特征,其融合了多視角的信息且對(duì)視角改變具有魯棒性。為了在視角變化情況下,仍有較高人體行為識(shí)別率,本文對(duì)共識(shí)矩陣V*進(jìn)行人體行為分類,采用的分類方法是共識(shí)矩陣的最大相關(guān)系數(shù)。
其中,V*s∈RN×K表示一類動(dòng)作中第s個(gè)樣本的最終訓(xùn)練共識(shí)矩陣;V*j∈RN×K表示第j類動(dòng)作的測(cè)試共識(shí)矩陣;
分別表示訓(xùn)練共識(shí)矩陣和測(cè)試共識(shí)矩陣的平均值。L表示一類動(dòng)作中所有訓(xùn)練特征矩陣與測(cè)試特征矩陣相關(guān)系數(shù)的總和,因?yàn)榫仃嚨南嚓P(guān)系數(shù)越大,說明兩個(gè)矩陣越相似,所以認(rèn)為測(cè)試樣本屬于最大L值的那一類動(dòng)作。
為了驗(yàn)證所提方法的有效性,本文在WVU數(shù)據(jù)集、i3Dpose數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)??紤]到數(shù)據(jù)集中視頻數(shù)量的限制,本文采用留一交叉方法驗(yàn)證分類效果。電腦配置是Intel?CoreTMi5-3210M CPU,2.5 GHz主頻,4 GB內(nèi)存的普通電腦,運(yùn)行環(huán)境是Win7操作系統(tǒng)。其中根據(jù)文獻(xiàn)[15],K取4,λv取0.01,N取30。
WVU數(shù)據(jù)集由12個(gè)動(dòng)作組成,分別是靜止站立、點(diǎn)頭、鼓掌、單手揮、雙手揮、打拳、慢跑、跳、踢、撿、投、打保齡球。每個(gè)動(dòng)作由20個(gè)人在相同位置執(zhí)行,由8臺(tái)攝像機(jī)記錄,記錄角度如圖1C1~C8標(biāo)注所示,幀大小為640×480像素,WVU數(shù)據(jù)集均為單一行為,識(shí)別相對(duì)簡(jiǎn)單。WVU數(shù)據(jù)集中的操作示例如圖1所示。
圖1 WVU數(shù)據(jù)集操作示例(雙手揮、打保齡球)
表1 不同視角融合方法對(duì)識(shí)別的影響
5.1.1 不同視角融合方法對(duì)識(shí)別的影響
本文改變多視角信息融合方法并與本文方法進(jìn)行了對(duì)比。其中FV/Bowv與稀疏編碼相結(jié)合;GM-GS-DSDL[11]是基于組稀疏與圖集的多視圖判別結(jié)構(gòu)化字典學(xué)習(xí)用來融合不同視角信息與識(shí)別人體行為。結(jié)果如表1所示,采用單視角進(jìn)行識(shí)別時(shí),最高的人體識(shí)別率為C3攝像頭下的87.47%,采用多視角進(jìn)行視角信息融合然后識(shí)別時(shí),最好的識(shí)別率分別為88.61%、89.77%、91.04%、91.49%、92.31%、93.87%、94.82%??梢钥闯?,多視角識(shí)別率遠(yuǎn)遠(yuǎn)高于單視角識(shí)別率,而且隨著用作訓(xùn)練數(shù)據(jù)的視角越多,人體行為識(shí)別率越高。原因是用作訓(xùn)練數(shù)據(jù)的視角越多,則共識(shí)矩陣V*包含的不同視角信息越豐富,對(duì)視角改變愈穩(wěn)定。所提方法的識(shí)別率為94.82%,高于FV/Bowv結(jié)合稀疏編碼方法的93.28%、92.56%。因?yàn)閺牟煌臄z像機(jī)視角記錄特定的動(dòng)作時(shí),動(dòng)作外觀完全不同,最終也會(huì)得到完全不同的FV/Bowv底層特征,這將會(huì)降低人體行為識(shí)別率,而時(shí)空矩陣由時(shí)空特征向量之間的歐氏距離表示,隨著視角改變變化較小,同時(shí),多視角非負(fù)矩陣分解算法進(jìn)一步挖掘了不同視角下時(shí)空矩陣共享的相似穩(wěn)定結(jié)構(gòu),使得最終得到的特征對(duì)視角改變具有很強(qiáng)的魯棒性。所提方法的性能略低于GM-GS-DSDL方法,因?yàn)镚M-GS-DSDL一方面利用圖集算法融合不同視圖,去除重疊興趣點(diǎn),探究其一致性屬性,另一方面構(gòu)建了判別結(jié)構(gòu)化字典發(fā)現(xiàn)多個(gè)視圖之間的潛在相關(guān)性。由表1可以看出利用時(shí)空特征向量之間的歐氏距離表示的時(shí)空矩陣結(jié)合多視角非負(fù)矩陣分解能很好地融合多視角信息,進(jìn)行多視角下人體行為識(shí)別,識(shí)別率達(dá)到94.82%。
5.1.2 不同非負(fù)矩陣分解方法對(duì)識(shí)別的影響
為了驗(yàn)證本文多視角非負(fù)矩陣分解方法的優(yōu)越性,分別使用非負(fù)矩陣分解(NMF)、局部非負(fù)矩陣分解(LNMF)、稀疏非負(fù)矩陣(SNMF)以及凸非負(fù)矩陣分解算法(CNMF)分解所有視角下的時(shí)空矩陣,由5.1.1小節(jié)可知使用所有視角的信息進(jìn)行訓(xùn)練時(shí)擁有最高的人體行為識(shí)別率,結(jié)果如表2所示,多視角非負(fù)矩陣分解方法性能遠(yuǎn)優(yōu)于其他非負(fù)矩陣分解方法。因?yàn)镸ultiNMF算法通過對(duì)多視圖進(jìn)行因式分解得到了不同視圖共享的一致性結(jié)構(gòu),即共識(shí)矩陣V*,其對(duì)視角改變具有很好的魯棒性;而其他NMF方法提出的傳統(tǒng)標(biāo)準(zhǔn)化策略要么難以優(yōu)化求解,要么不能產(chǎn)生有意義的一致性結(jié)構(gòu),使得不同視圖的融合變得困難。
表2 不同非負(fù)矩陣方法對(duì)識(shí)別的影響
5.1.3 與其他方法比較
本文通過交叉驗(yàn)證方法測(cè)試WVU數(shù)據(jù)集得到每個(gè)動(dòng)作的詳細(xì)識(shí)別率,從而驗(yàn)證提出方法的有效性。本文方法整體識(shí)別率為94.82%。表3中對(duì)單揮手、慢跑、撿行為具有100%識(shí)別率,打保齡球行為識(shí)別率最低,為87.50%。因?yàn)榇虮}g球行為容易與撿、投行為混淆。
從表4可以清晰地看出本文提出的方法總體識(shí)別率高于其他多視角方法,準(zhǔn)確率達(dá)94.82%。在關(guān)鍵幀提取部分,雖然K-means具有收斂速度快的優(yōu)點(diǎn),但得到的聚類中心并非為最佳聚類中心,而免疫原理中學(xué)習(xí)率確定系統(tǒng)搜索抗原的方向,這種啟發(fā)式的搜索方法,可以尋找到比K-means方法更接近于全局最優(yōu)的解,因此利用免疫原理對(duì)K-means結(jié)果進(jìn)行優(yōu)化,在某種程度上,人工免疫聚類算法提高了收斂速度,形成了更穩(wěn)定的類,提高了對(duì)原始視頻提取關(guān)鍵幀的準(zhǔn)確性,則由關(guān)鍵幀構(gòu)成的時(shí)空矩陣能更精確地描述一個(gè)行為。其次時(shí)空矩陣在不同視角下的穩(wěn)定性以及基于多視角非負(fù)矩陣分解構(gòu)建的多視角目標(biāo)函數(shù),使得得到的行為特征對(duì)視角變化具有很強(qiáng)的魯棒性,提高了行為在多視角下識(shí)別準(zhǔn)確率。另外,對(duì)本文方法的計(jì)算復(fù)雜度在WVU數(shù)據(jù)集上進(jìn)行測(cè)試,統(tǒng)計(jì)6種方法分別在數(shù)據(jù)集中計(jì)算平均時(shí)間。從表4中可以看出文獻(xiàn)[11]計(jì)算時(shí)間長(zhǎng),因?yàn)镚M-GS-DSDL一方面使用了圖集算法,另一方面構(gòu)建了判別結(jié)構(gòu)化字典,消耗大量時(shí)間;文獻(xiàn)[12]并未對(duì)原始視頻提取關(guān)鍵幀,導(dǎo)致計(jì)算量龐大;文獻(xiàn)[13]中,F(xiàn)isher向量的計(jì)算復(fù)雜度大于詞袋模型的計(jì)算復(fù)雜度,所以前者消耗時(shí)間較長(zhǎng)。所提方法提取了關(guān)鍵幀,大大減少了需要處理的視頻幀數(shù),并且利用多視角非負(fù)矩陣方法分解時(shí)空矩陣,計(jì)算簡(jiǎn)單有效,因此計(jì)算速度較快。
表3MVU數(shù)據(jù)集的混淆矩陣 %
圖2 i3Dpose數(shù)據(jù)集實(shí)例(跑步、彎腰)
表4 與其他方法比較結(jié)果
在i3Dpose數(shù)據(jù)集上對(duì)本文方法進(jìn)行了測(cè)試。該數(shù)據(jù)集包含了12種不同行為的視頻,其中包括6種單一行為,分別是走、跑、向前跳、原地跳、彎腰、單手揮,4種混合行為,分別為坐下-起立、走路-坐下、跑步-下落、跑步-跳-走路,2種交互行為,兩人招手與推人,每一個(gè)行為由8人執(zhí)行8臺(tái)攝像機(jī)記錄,攝像機(jī)記錄角度如圖2 C1~C8所示。i3Dpose數(shù)據(jù)集不僅包括了單一行為,還包括了混合行為以及交互行為,后兩者行為識(shí)別難度大于單一行為識(shí)別難度。
5.2.1 不同視角融合方法對(duì)識(shí)別的影響
在i3Dpose數(shù)據(jù)集上,同樣改變多視角信息融合方法并與本文方法進(jìn)行對(duì)比。由表5可知,正視角C6擁有最高單視角識(shí)別率;所有視角融合具有最高多視角識(shí)別率。所提方法性能優(yōu)于其他視角融合方法,原因在5.1.1小節(jié)有詳細(xì)闡述,但低于在WVU數(shù)據(jù)集上的表現(xiàn)。因?yàn)閕3Dpose數(shù)據(jù)集有混合行為以及交互行為,混合行為難以確定有效的關(guān)鍵幀;對(duì)于交互行為,本文沒有建立多個(gè)目標(biāo)之間的復(fù)雜交互模型,也沒有對(duì)交互區(qū)域有效地提取運(yùn)動(dòng)特征,因此識(shí)別準(zhǔn)確率較低。
5.2.2 不同非負(fù)矩陣分解方法對(duì)識(shí)別的影響
本文同樣使用不同的非負(fù)矩陣分解算法對(duì)時(shí)空矩陣進(jìn)行分解,進(jìn)行對(duì)比的非負(fù)矩陣分解算法與5.1.2小節(jié)相同。結(jié)果如表6所示,MultiNMF明顯優(yōu)于其他非負(fù)矩陣分解算法,因?yàn)镸ultiNMF能有效提取出不同視角下時(shí)空矩陣的一致性結(jié)構(gòu)。
5.2.3 與其他方法比較
表7給出了i3Dpose數(shù)據(jù)集的混淆矩陣。本文方法整體識(shí)別率為88.68%,其中單一行為識(shí)別率明顯高于混合行為以及交互行為,因?yàn)榛旌闲袨殡y以確定關(guān)鍵幀;對(duì)于交互行為,沒有對(duì)實(shí)施交互行為的主體之間建立交互模型,同時(shí)也沒有對(duì)交互區(qū)域進(jìn)行有效特征提取。表8給出了在i3Dpose數(shù)據(jù)集上與其他方法比較的結(jié)果,所提方法在人體行為識(shí)別準(zhǔn)確率上以及復(fù)雜度計(jì)算上優(yōu)于其他先進(jìn)方法。因?yàn)閕3Dpose數(shù)據(jù)集存在混合行為以及交互行為,其在視頻大小與視頻內(nèi)容上比單一行為視頻更加豐富、復(fù)雜,提取關(guān)鍵幀難度增加,所以在i3Dpose數(shù)據(jù)集上所用時(shí)間增長(zhǎng)。
表5 i3Dpose數(shù)據(jù)集上不同視角融合方法對(duì)識(shí)別的影響
表6 不同非負(fù)矩陣方法對(duì)識(shí)別的影響
表7 i3Dpose數(shù)據(jù)集的混淆矩陣 %
表8 與其他方法比較結(jié)果
本文提出了一種基于時(shí)空矩陣和多視角非負(fù)矩陣分解的多視角人體行為識(shí)別方法。主要工作如下:
(1)為了去除視頻冗余幀提高計(jì)算性能,利用人工免疫聚類算法提取視頻的關(guān)鍵幀。
(2)聯(lián)合不同視角下相同動(dòng)作的時(shí)空矩陣進(jìn)行多視角非負(fù)矩陣分解得到的共識(shí)矩陣,減小了視角變化對(duì)同類動(dòng)作產(chǎn)生的差異性;與其他多視角方法相比,本文方法不需要重建三維模型,也不需要對(duì)不同視角之間的關(guān)系進(jìn)行計(jì)算。
(3)在WVU、i3Dpose數(shù)據(jù)集上利用本文方法與已有方法進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果表明該方法具有更高的識(shí)別精度。