基于多視角非負(fù)矩陣分解的人體行為識(shí)別

2018-08-20 03:42郭煒婷夏利民

計(jì)算機(jī)工程與應(yīng)用 2018年16期

關(guān)鍵詞：關(guān)鍵幀識(shí)別率時(shí)空

郭煒婷，夏利民

GUO Weiting,XIALimin

中南大學(xué) 信息科學(xué)與工程學(xué)院，長(zhǎng)沙 410075

College of Information Science and Engineering,Central South University,Changsha 410075,China

1 引言

近年來，基于視頻的人體行為分析引起了計(jì)算機(jī)視覺研究者的廣泛關(guān)注，在視覺監(jiān)控系統(tǒng)、人機(jī)交互、體育運(yùn)動(dòng)分析等方面都具有廣闊的應(yīng)用前景。

在以往的研究工作中，研究人員采取不同的方法提高單個(gè)攝像頭的人體行為識(shí)別準(zhǔn)確率。Ronao等[1]提出一種深度卷積神經(jīng)網(wǎng)絡(luò)，探索行為和一維時(shí)間序列信號(hào)的固有特性，同時(shí)自動(dòng)從原始數(shù)據(jù)中提取穩(wěn)定特征。Gao等[2]提出基于SR-L12稀疏表示的人類行為識(shí)別算法。Gao等[3]提出基于RGB和深度運(yùn)動(dòng)歷史圖像的全局結(jié)構(gòu)動(dòng)作描述符。周鑫燚等[4]提出一種RGB和深度圖像特征聯(lián)合的人體行為識(shí)別方法。

然而在單視角環(huán)境下，觀測(cè)角度和光線的變化會(huì)使得識(shí)別難度增加，而且在當(dāng)前觀測(cè)角度下，未必能夠捕捉到最理想的行為特征。因此，許多研究者嘗試?yán)枚嘁暯欠椒▉斫鉀Q此類問題。Shen等[5]將動(dòng)作姿態(tài)用三關(guān)節(jié)點(diǎn)集合表示，在兩幀間尋找由三節(jié)點(diǎn)構(gòu)成的剛性運(yùn)動(dòng)的不變量。Li等[6]提出一種生成貝葉斯模型，不僅將特征和視圖聯(lián)合起來考慮，還學(xué)習(xí)不同類別的判別表示。Li等[7]通過學(xué)習(xí)一個(gè)低維度流形，并對(duì)動(dòng)態(tài)過程建模重建3D模型。這些多視角算法，通常需要提前知道不同視角之間的角度，這就嚴(yán)重限制了它們的應(yīng)用。因此，研究者們更注重視角不變特征學(xué)習(xí)。例如，Zheng等[8]提出將兩個(gè)同時(shí)學(xué)習(xí)的源域和目標(biāo)域的字典組成可轉(zhuǎn)換字典對(duì)，使得同一動(dòng)作在兩個(gè)不同視角下具有相同的稀疏表示。Liu等[9]用一個(gè)雙向圖來建模依賴于視角的視覺詞袋模型，這就將一個(gè)BOVW動(dòng)作模型轉(zhuǎn)換為一個(gè)BOBW模型，在不同視角下?lián)碛酗@著穩(wěn)定性。Junejo等[10]利用自相似矩陣與SVM分類器，為每個(gè)視圖分配一個(gè)單獨(dú)的SVM分類器，應(yīng)用融合方法實(shí)現(xiàn)最終結(jié)果，但是無法發(fā)現(xiàn)視圖之間的相關(guān)性。Gao等[11]提出基于組稀疏與圖集的多視圖判別結(jié)構(gòu)化字典。Hsu等[12]提出金字塔結(jié)構(gòu)的詞袋模型（BoW-Pyramid）描述時(shí)空矩陣，但不適當(dāng)?shù)姆指顣?huì)對(duì)識(shí)別率產(chǎn)生影響。Hao等[13]利用稀疏編碼算法將不同視圖的低層次特征轉(zhuǎn)換為高層次特征，然后采用多任務(wù)學(xué)習(xí)（MTL）方法進(jìn)行聯(lián)合動(dòng)作建模，但低層次特征在不同視角下具有差異性，將會(huì)影響動(dòng)作建模。

本文提出一種基于時(shí)空矩陣和多視角非負(fù)矩陣分解的人體行為識(shí)別方法。在底層特征提取過程中，提取每個(gè)視頻幀的時(shí)空描述符，其包含足夠充分的動(dòng)態(tài)和靜態(tài)信息。原始動(dòng)作視頻包含很多圖像幀，而一個(gè)動(dòng)作可以只用幾幀來表示從而達(dá)到降低計(jì)算量的效果，因此本文利用人工免疫聚類算法提取視頻的關(guān)鍵幀。自相似矩陣（Self-Similarities Matrix，SSM）特征具有仿射不變性和投影不變性，可以用來解決觀測(cè)角度改變對(duì)人體行為識(shí)別的影響，本文改進(jìn)自相似矩陣，從而構(gòu)建基于時(shí)空描述符的時(shí)空矩陣（Spatio-Temporal Matrix，STM）?？紤]到視頻大小存在不同，每一個(gè)視頻包含的幀數(shù)將有所不同，則形成的時(shí)空矩陣大小不盡相同，而提取視頻關(guān)鍵幀可以統(tǒng)一時(shí)空矩陣的大小。為了進(jìn)一步得到不同視角下同一個(gè)行為的共享相似性特征，本文利用多視角非負(fù)矩陣分解算法（Multi-View Nonnegative Matrix Factor，MultiNMF）同時(shí)分解不同視角下的時(shí)空矩陣，得到共識(shí)矩陣。最后，通過計(jì)算共識(shí)矩陣的最大相關(guān)系數(shù)對(duì)人體行為進(jìn)行分類。通過多視角非負(fù)矩陣分解算法分解不同視角下相同動(dòng)作的時(shí)空矩陣得到的共識(shí)特征矩陣，對(duì)視角改變擁有良好的魯棒性，提高了識(shí)別精度。

2 基于時(shí)空矩陣的動(dòng)作表示

使用時(shí)空矩陣（STM）進(jìn)行動(dòng)作表示。首先需要提取動(dòng)作的低級(jí)特征，提取的低級(jí)特征應(yīng)能詳盡地描述一個(gè)動(dòng)作。其次改進(jìn)自相似矩陣上下三角形對(duì)稱的結(jié)構(gòu)，使得改進(jìn)的自相似矩陣（即時(shí)空矩陣）同時(shí)包括運(yùn)動(dòng)信息和形態(tài)信息。關(guān)鍵幀提取則是為了統(tǒng)一時(shí)空矩陣的大小以及去除冗余幀。

2.1 特征描述符提取

為了得到視頻幀中的運(yùn)動(dòng)和形態(tài)信息，從而完整地描述一個(gè)動(dòng)作，本文提取方向梯度直方圖（HOG）和光流直方圖（HOF）作為低級(jí)特征。將視頻幀分為n個(gè)子區(qū)間，將每個(gè)子區(qū)間劃分為2×2個(gè)網(wǎng)格，在每個(gè)網(wǎng)格內(nèi)，計(jì)算像素點(diǎn)梯度方向并量化為8個(gè)單位的直方圖生成當(dāng)前網(wǎng)格的HOG描述符，同時(shí)計(jì)算其中光流并量化為9個(gè)單位的直方圖生成當(dāng)前網(wǎng)格的HOF描述符。結(jié)合各網(wǎng)格的直方圖，得到第i個(gè)子區(qū)間維度為68的低級(jí)描述符pi=[HOGT,HOFT]，其中HOG向量維度為32（2×2×8），HOF向量維度為36（2×2×9）。結(jié)合各子區(qū)間的直方圖，得到第i幀的聯(lián)合特征描述符Pi=[p1,p2,…,pn]，第i幀HOG特征描述符第i幀HOF特征描述符

2.2 關(guān)鍵幀提取

為了去除視頻冗余幀并提高計(jì)算性能，本文對(duì)原始視頻提取關(guān)鍵幀。K-means聚類算法對(duì)初始化很敏感，若初始化不當(dāng)，很可能導(dǎo)致算法收斂到局部極值點(diǎn)而得不到最優(yōu)劃分，但其原理簡(jiǎn)單，收斂速度快。人工免疫聚類算法將免疫原理與K-means方法相結(jié)合，可以獲得比K-means方法更接近于全局最優(yōu)的解，同時(shí)具有計(jì)算效率高，聚類能力強(qiáng)等優(yōu)點(diǎn)，因此本文采用人工免疫聚類算法提取關(guān)鍵幀。該算法一方面將待處理的數(shù)據(jù)視作免疫系統(tǒng)的抗原，另一方面將待處理的數(shù)據(jù)經(jīng)K-means方法后得到的聚類中心視作初始抗體，通過抗體對(duì)抗原不斷進(jìn)行識(shí)別，最終得到最優(yōu)抗體。

（1）將原始視頻的T幀圖像P=[ ]P1,P2,…,PT根據(jù)式（1）計(jì)算N個(gè)類心，其中Cj.center表示待處理數(shù)據(jù)經(jīng)過K-means聚類得到的第j個(gè)聚類中幀的數(shù)目，Cj(j=1,2,…,N)表示第j個(gè)聚類中心，即初始抗體。

（2）將抗體與抗原之間的歐式距離定義為兩者之間的親和度，根據(jù)親和力最大原則，將T幀圖像分配到不同的Cj中。每完成一次聚類，采用式（2）判斷抗原的分配情況：

其中，uij表示抗原Pi屬于Cj(j=1,2,…,N)的程度，取值為0或1，有如下定義：

（3）根據(jù)式（4）對(duì)抗體進(jìn)行變異，其中ξ是學(xué)習(xí)率或成活率，確定系統(tǒng)搜索抗原的方向，取值需要依據(jù)抗體和抗原的親和程度確定；PY是每一類中含有的抗原；C是根據(jù)每一類中含有的抗原數(shù)克隆出同樣數(shù)目的抗體；Cis為新抗體。選擇新抗體與抗原之間親和度最大的一個(gè)抗體為最佳抗體，即新的聚類中心，而對(duì)其他抗體進(jìn)行清除。

（4）重復(fù)上述（2）、（3）步驟，直到式（2）達(dá)到最小，產(chǎn)生的最優(yōu)抗體作為聚類中心，并輸出聚類結(jié)果。

（5）聚類完成后，選擇各類中處于中間位置或距類心最近的一幀圖像為關(guān)鍵幀，關(guān)鍵幀數(shù)為N。

2.3 時(shí)空矩陣構(gòu)建

自相似矩陣是一個(gè)反映圖像序列相互關(guān)系的矩陣，其擁有仿射不變性和投影不變性。特征自相似矩陣中丟棄幀的特征而只保留幀與幀之間的特征差異，特征差異由兩個(gè)特征描述符之間的距離來體現(xiàn)并且其與觀察運(yùn)動(dòng)的視點(diǎn)位置關(guān)系不大[14]。對(duì)于兩個(gè)不同時(shí)刻的相似動(dòng)作，這兩個(gè)特征描述符之間的距離??；而對(duì)于兩個(gè)不同時(shí)刻差異很大的動(dòng)作，則這兩個(gè)特征描述符之間的距離較大。自相似矩陣特征在視點(diǎn)改變時(shí)，變化較小，可以很好地表示不同視點(diǎn)下的人體運(yùn)動(dòng)。因此本文用自相似矩陣來描述運(yùn)動(dòng)。

經(jīng)人工免疫聚類算法后，得到N個(gè)關(guān)鍵幀。給定視頻關(guān)鍵幀圖像序列P={P1,P2,…,PN} ，則SSM定義如下：

其中，‖?‖表示低級(jí)特征向量之間的距離。因?yàn)閷?duì)角線上的每一個(gè)元素都代表特征向量與其本身的距離，所以等于0。因?yàn)镻i到Pj之間的距離與Pj到Pi之間的距離相等，顯然D是一個(gè)對(duì)稱矩陣。該矩陣的模式取決于用于計(jì)算的特征和距離度量。

本文將rij定義為從動(dòng)作序列中提取的HOG特征描述符之間和HOF特征描述符之間的歐氏距離。用關(guān)鍵幀的結(jié)構(gòu)描述符G={g1,g2,…,gN}和運(yùn)動(dòng)描述符F={f1,f2,…,fN}表示一個(gè)行為，因?yàn)镈是一個(gè)對(duì)稱矩陣，上下三角形會(huì)擁有重復(fù)的信息，所以將自相似矩陣重新定義為時(shí)空矩陣：

時(shí)空矩陣上三角形表示HOG特征描述符的歐式距離，而下三角形則表示HOF特征描述符的歐式距離，對(duì)角線仍然為0。自相似矩陣上下三角形使用同樣特征的距離（形狀特征距離或運(yùn)動(dòng)特征距離）表示一個(gè)動(dòng)作，是一個(gè)對(duì)稱矩陣，即擁有重復(fù)的特征信息，只能從形狀或運(yùn)動(dòng)一個(gè)方面描述行為；而時(shí)空矩陣上三角形包含形狀特征距離，下三角形包含運(yùn)動(dòng)特征距離，是一個(gè)非對(duì)稱矩陣，擁有不同的特征信息，全面描述了一個(gè)行為的形狀和運(yùn)動(dòng)。因?yàn)镠OG（形狀特征）與HOF（運(yùn)動(dòng)特征）為互補(bǔ)特征，所以HOG與HOF特征結(jié)合比單一HOG或HOF特征能更好地表示一個(gè)動(dòng)作，從而時(shí)空矩陣相比自相似矩陣能更好地描述一個(gè)動(dòng)作。

3 基于非負(fù)矩陣分解的多視角學(xué)習(xí)

上文得到的時(shí)空矩陣在視角變化下具有高度穩(wěn)定性。為了深度挖掘不同視角下相同動(dòng)作的時(shí)空矩陣共享的相似穩(wěn)定結(jié)構(gòu)，用于在視角改變的情況下進(jìn)行人體行為分析。本文采用多視角非負(fù)矩陣分解算法對(duì)不同視圖的時(shí)空矩陣進(jìn)行聯(lián)合因式分解。

3.1 多視角非負(fù)矩陣分解

假設(shè)第j類動(dòng)作有S個(gè)樣本由nv個(gè)視角觀察。定義表示第v個(gè)視角下的時(shí)空矩陣，對(duì)于每一個(gè)視角下的，可以分解為其中是每個(gè)視角下的基礎(chǔ)矩陣，而是每個(gè)視角下的系數(shù)矩陣。V*為共識(shí)矩陣，反映了不同視角下時(shí)空矩陣共享的相似和穩(wěn)定結(jié)構(gòu)，即所要得到的共享視角不變特征。本文提出關(guān)于的聯(lián)合最小化問題：

則式（9）等價(jià)于最小化目標(biāo)函數(shù)O：

3.2 優(yōu)化求解

為了解決優(yōu)化問題，提出了一種迭代更新過程。具體地說，重復(fù)以下兩個(gè)步驟，直到收斂：（1）固定V*，更新和使函數(shù)O最??；（2）固定和，更新V*使函數(shù)O最小。

3.2.1 固定V*，更新和

當(dāng)V*是固定的，對(duì)于每個(gè)給定的視角v，U()v的計(jì)算不依賴于或因此，使用STM、U、V和Q來表示和，顯示本小節(jié)的簡(jiǎn)潔性。則式（11）轉(zhuǎn)化成如下形式：

采用拉格朗日乘子法求解V：

目標(biāo)函數(shù)O對(duì)V*求偏導(dǎo)，得到：

從而得到V*的精確解：

基于多視角非負(fù)矩陣分解算法分解不同視角下的時(shí)空矩陣如算法1所示。

算法1多視角非負(fù)矩陣分解算法（MultiNMF）

3.Repeat

4.Forv=1tonvdo

5.Repeat

9.直到式（12）收斂

10.end for

12.直到式（11）收斂

4 人體行為分類

上文計(jì)算得到的共識(shí)矩陣V*反映了不同視角下時(shí)空矩陣共享的相似穩(wěn)定結(jié)構(gòu)，為確保深度視角不變特征，其融合了多視角的信息且對(duì)視角改變具有魯棒性。為了在視角變化情況下，仍有較高人體行為識(shí)別率，本文對(duì)共識(shí)矩陣V*進(jìn)行人體行為分類，采用的分類方法是共識(shí)矩陣的最大相關(guān)系數(shù)。

其中，V*s∈RN×K表示一類動(dòng)作中第s個(gè)樣本的最終訓(xùn)練共識(shí)矩陣；V*j∈RN×K表示第j類動(dòng)作的測(cè)試共識(shí)矩陣；

分別表示訓(xùn)練共識(shí)矩陣和測(cè)試共識(shí)矩陣的平均值。L表示一類動(dòng)作中所有訓(xùn)練特征矩陣與測(cè)試特征矩陣相關(guān)系數(shù)的總和，因?yàn)榫仃嚨南嚓P(guān)系數(shù)越大，說明兩個(gè)矩陣越相似，所以認(rèn)為測(cè)試樣本屬于最大L值的那一類動(dòng)作。

5 實(shí)驗(yàn)與結(jié)果

為了驗(yàn)證所提方法的有效性，本文在WVU數(shù)據(jù)集、i3Dpose數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)?？紤]到數(shù)據(jù)集中視頻數(shù)量的限制，本文采用留一交叉方法驗(yàn)證分類效果。電腦配置是Intel?CoreTMi5-3210M CPU，2.5 GHz主頻，4 GB內(nèi)存的普通電腦，運(yùn)行環(huán)境是Win7操作系統(tǒng)。其中根據(jù)文獻(xiàn)[15]，K取4，λv取0.01，N取30。

5.1WVU數(shù)據(jù)集

WVU數(shù)據(jù)集由12個(gè)動(dòng)作組成，分別是靜止站立、點(diǎn)頭、鼓掌、單手揮、雙手揮、打拳、慢跑、跳、踢、撿、投、打保齡球。每個(gè)動(dòng)作由20個(gè)人在相同位置執(zhí)行，由8臺(tái)攝像機(jī)記錄，記錄角度如圖1C1～C8標(biāo)注所示，幀大小為640×480像素，WVU數(shù)據(jù)集均為單一行為，識(shí)別相對(duì)簡(jiǎn)單。WVU數(shù)據(jù)集中的操作示例如圖1所示。

圖1 WVU數(shù)據(jù)集操作示例（雙手揮、打保齡球）

表1 不同視角融合方法對(duì)識(shí)別的影響

5.1.1 不同視角融合方法對(duì)識(shí)別的影響

本文改變多視角信息融合方法并與本文方法進(jìn)行了對(duì)比。其中FV/Bowv與稀疏編碼相結(jié)合；GM-GS-DSDL[11]是基于組稀疏與圖集的多視圖判別結(jié)構(gòu)化字典學(xué)習(xí)用來融合不同視角信息與識(shí)別人體行為。結(jié)果如表1所示，采用單視角進(jìn)行識(shí)別時(shí)，最高的人體識(shí)別率為C3攝像頭下的87.47%，采用多視角進(jìn)行視角信息融合然后識(shí)別時(shí)，最好的識(shí)別率分別為88.61%、89.77%、91.04%、91.49%、92.31%、93.87%、94.82%?？梢钥闯?，多視角識(shí)別率遠(yuǎn)遠(yuǎn)高于單視角識(shí)別率，而且隨著用作訓(xùn)練數(shù)據(jù)的視角越多，人體行為識(shí)別率越高。原因是用作訓(xùn)練數(shù)據(jù)的視角越多，則共識(shí)矩陣V*包含的不同視角信息越豐富，對(duì)視角改變愈穩(wěn)定。所提方法的識(shí)別率為94.82%，高于FV/Bowv結(jié)合稀疏編碼方法的93.28%、92.56%。因?yàn)閺牟煌臄z像機(jī)視角記錄特定的動(dòng)作時(shí)，動(dòng)作外觀完全不同，最終也會(huì)得到完全不同的FV/Bowv底層特征，這將會(huì)降低人體行為識(shí)別率，而時(shí)空矩陣由時(shí)空特征向量之間的歐氏距離表示，隨著視角改變變化較小，同時(shí)，多視角非負(fù)矩陣分解算法進(jìn)一步挖掘了不同視角下時(shí)空矩陣共享的相似穩(wěn)定結(jié)構(gòu)，使得最終得到的特征對(duì)視角改變具有很強(qiáng)的魯棒性。所提方法的性能略低于GM-GS-DSDL方法，因?yàn)镚M-GS-DSDL一方面利用圖集算法融合不同視圖，去除重疊興趣點(diǎn)，探究其一致性屬性，另一方面構(gòu)建了判別結(jié)構(gòu)化字典發(fā)現(xiàn)多個(gè)視圖之間的潛在相關(guān)性。由表1可以看出利用時(shí)空特征向量之間的歐氏距離表示的時(shí)空矩陣結(jié)合多視角非負(fù)矩陣分解能很好地融合多視角信息，進(jìn)行多視角下人體行為識(shí)別，識(shí)別率達(dá)到94.82%。

5.1.2 不同非負(fù)矩陣分解方法對(duì)識(shí)別的影響

為了驗(yàn)證本文多視角非負(fù)矩陣分解方法的優(yōu)越性，分別使用非負(fù)矩陣分解（NMF）、局部非負(fù)矩陣分解（LNMF）、稀疏非負(fù)矩陣（SNMF）以及凸非負(fù)矩陣分解算法（CNMF）分解所有視角下的時(shí)空矩陣，由5.1.1小節(jié)可知使用所有視角的信息進(jìn)行訓(xùn)練時(shí)擁有最高的人體行為識(shí)別率，結(jié)果如表2所示，多視角非負(fù)矩陣分解方法性能遠(yuǎn)優(yōu)于其他非負(fù)矩陣分解方法。因?yàn)镸ultiNMF算法通過對(duì)多視圖進(jìn)行因式分解得到了不同視圖共享的一致性結(jié)構(gòu)，即共識(shí)矩陣V*，其對(duì)視角改變具有很好的魯棒性；而其他NMF方法提出的傳統(tǒng)標(biāo)準(zhǔn)化策略要么難以優(yōu)化求解，要么不能產(chǎn)生有意義的一致性結(jié)構(gòu)，使得不同視圖的融合變得困難。

表2 不同非負(fù)矩陣方法對(duì)識(shí)別的影響

5.1.3 與其他方法比較

本文通過交叉驗(yàn)證方法測(cè)試WVU數(shù)據(jù)集得到每個(gè)動(dòng)作的詳細(xì)識(shí)別率，從而驗(yàn)證提出方法的有效性。本文方法整體識(shí)別率為94.82%。表3中對(duì)單揮手、慢跑、撿行為具有100%識(shí)別率，打保齡球行為識(shí)別率最低，為87.50%。因?yàn)榇虮｝g球行為容易與撿、投行為混淆。

從表4可以清晰地看出本文提出的方法總體識(shí)別率高于其他多視角方法，準(zhǔn)確率達(dá)94.82%。在關(guān)鍵幀提取部分，雖然K-means具有收斂速度快的優(yōu)點(diǎn)，但得到的聚類中心并非為最佳聚類中心，而免疫原理中學(xué)習(xí)率確定系統(tǒng)搜索抗原的方向，這種啟發(fā)式的搜索方法，可以尋找到比K-means方法更接近于全局最優(yōu)的解，因此利用免疫原理對(duì)K-means結(jié)果進(jìn)行優(yōu)化，在某種程度上，人工免疫聚類算法提高了收斂速度，形成了更穩(wěn)定的類，提高了對(duì)原始視頻提取關(guān)鍵幀的準(zhǔn)確性，則由關(guān)鍵幀構(gòu)成的時(shí)空矩陣能更精確地描述一個(gè)行為。其次時(shí)空矩陣在不同視角下的穩(wěn)定性以及基于多視角非負(fù)矩陣分解構(gòu)建的多視角目標(biāo)函數(shù)，使得得到的行為特征對(duì)視角變化具有很強(qiáng)的魯棒性，提高了行為在多視角下識(shí)別準(zhǔn)確率。另外，對(duì)本文方法的計(jì)算復(fù)雜度在WVU數(shù)據(jù)集上進(jìn)行測(cè)試，統(tǒng)計(jì)6種方法分別在數(shù)據(jù)集中計(jì)算平均時(shí)間。從表4中可以看出文獻(xiàn)[11]計(jì)算時(shí)間長(zhǎng)，因?yàn)镚M-GS-DSDL一方面使用了圖集算法，另一方面構(gòu)建了判別結(jié)構(gòu)化字典，消耗大量時(shí)間；文獻(xiàn)[12]并未對(duì)原始視頻提取關(guān)鍵幀，導(dǎo)致計(jì)算量龐大；文獻(xiàn)[13]中，F(xiàn)isher向量的計(jì)算復(fù)雜度大于詞袋模型的計(jì)算復(fù)雜度，所以前者消耗時(shí)間較長(zhǎng)。所提方法提取了關(guān)鍵幀，大大減少了需要處理的視頻幀數(shù)，并且利用多視角非負(fù)矩陣方法分解時(shí)空矩陣，計(jì)算簡(jiǎn)單有效，因此計(jì)算速度較快。

表3MVU數(shù)據(jù)集的混淆矩陣 %

圖2 i3Dpose數(shù)據(jù)集實(shí)例（跑步、彎腰）

表4 與其他方法比較結(jié)果

5.2 i3Dpose數(shù)據(jù)集

在i3Dpose數(shù)據(jù)集上對(duì)本文方法進(jìn)行了測(cè)試。該數(shù)據(jù)集包含了12種不同行為的視頻，其中包括6種單一行為，分別是走、跑、向前跳、原地跳、彎腰、單手揮，4種混合行為，分別為坐下-起立、走路-坐下、跑步-下落、跑步-跳-走路，2種交互行為，兩人招手與推人，每一個(gè)行為由8人執(zhí)行8臺(tái)攝像機(jī)記錄，攝像機(jī)記錄角度如圖2 C1～C8所示。i3Dpose數(shù)據(jù)集不僅包括了單一行為，還包括了混合行為以及交互行為，后兩者行為識(shí)別難度大于單一行為識(shí)別難度。

5.2.1 不同視角融合方法對(duì)識(shí)別的影響

在i3Dpose數(shù)據(jù)集上，同樣改變多視角信息融合方法并與本文方法進(jìn)行對(duì)比。由表5可知，正視角C6擁有最高單視角識(shí)別率；所有視角融合具有最高多視角識(shí)別率。所提方法性能優(yōu)于其他視角融合方法，原因在5.1.1小節(jié)有詳細(xì)闡述，但低于在WVU數(shù)據(jù)集上的表現(xiàn)。因?yàn)閕3Dpose數(shù)據(jù)集有混合行為以及交互行為，混合行為難以確定有效的關(guān)鍵幀；對(duì)于交互行為，本文沒有建立多個(gè)目標(biāo)之間的復(fù)雜交互模型，也沒有對(duì)交互區(qū)域有效地提取運(yùn)動(dòng)特征，因此識(shí)別準(zhǔn)確率較低。

5.2.2 不同非負(fù)矩陣分解方法對(duì)識(shí)別的影響

本文同樣使用不同的非負(fù)矩陣分解算法對(duì)時(shí)空矩陣進(jìn)行分解，進(jìn)行對(duì)比的非負(fù)矩陣分解算法與5.1.2小節(jié)相同。結(jié)果如表6所示，MultiNMF明顯優(yōu)于其他非負(fù)矩陣分解算法，因?yàn)镸ultiNMF能有效提取出不同視角下時(shí)空矩陣的一致性結(jié)構(gòu)。

5.2.3 與其他方法比較

表7給出了i3Dpose數(shù)據(jù)集的混淆矩陣。本文方法整體識(shí)別率為88.68%，其中單一行為識(shí)別率明顯高于混合行為以及交互行為，因?yàn)榛旌闲袨殡y以確定關(guān)鍵幀；對(duì)于交互行為，沒有對(duì)實(shí)施交互行為的主體之間建立交互模型，同時(shí)也沒有對(duì)交互區(qū)域進(jìn)行有效特征提取。表8給出了在i3Dpose數(shù)據(jù)集上與其他方法比較的結(jié)果，所提方法在人體行為識(shí)別準(zhǔn)確率上以及復(fù)雜度計(jì)算上優(yōu)于其他先進(jìn)方法。因?yàn)閕3Dpose數(shù)據(jù)集存在混合行為以及交互行為，其在視頻大小與視頻內(nèi)容上比單一行為視頻更加豐富、復(fù)雜，提取關(guān)鍵幀難度增加，所以在i3Dpose數(shù)據(jù)集上所用時(shí)間增長(zhǎng)。

表5 i3Dpose數(shù)據(jù)集上不同視角融合方法對(duì)識(shí)別的影響

表6 不同非負(fù)矩陣方法對(duì)識(shí)別的影響

表7 i3Dpose數(shù)據(jù)集的混淆矩陣 %

表8 與其他方法比較結(jié)果

6 結(jié)論

本文提出了一種基于時(shí)空矩陣和多視角非負(fù)矩陣分解的多視角人體行為識(shí)別方法。主要工作如下：

（1）為了去除視頻冗余幀提高計(jì)算性能，利用人工免疫聚類算法提取視頻的關(guān)鍵幀。

（2）聯(lián)合不同視角下相同動(dòng)作的時(shí)空矩陣進(jìn)行多視角非負(fù)矩陣分解得到的共識(shí)矩陣，減小了視角變化對(duì)同類動(dòng)作產(chǎn)生的差異性；與其他多視角方法相比，本文方法不需要重建三維模型，也不需要對(duì)不同視角之間的關(guān)系進(jìn)行計(jì)算。

（3）在WVU、i3Dpose數(shù)據(jù)集上利用本文方法與已有方法進(jìn)行了對(duì)比實(shí)驗(yàn)，結(jié)果表明該方法具有更高的識(shí)別精度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡