基于3D CNN的大規(guī)模視頻手勢(shì)識(shí)別研究

2017-09-07 14:20苗啟廣李宇楠徐昕

中興通訊技術(shù) 2017年4期

苗啟廣+李宇楠+徐昕

摘要：提出了一種基于三維卷積神經(jīng)網(wǎng)絡(luò)（CNN）的大規(guī)模視頻手勢(shì)識(shí)別算法。首先，為了獲得統(tǒng)一尺度的輸入數(shù)據(jù)，在時(shí)域上對(duì)所有輸入視頻進(jìn)行了歸一化處理得到32幀的輸入視頻；然后，為了從不同的角度描述手勢(shì)特征，通過(guò)真彩（RGB）視頻數(shù)據(jù)生成了光流視頻，并將RGB視頻和光流視頻分別通過(guò)C3D模型（一個(gè)3D CNN模型）提取特征，并通過(guò)特征連接的方式加以融合輸入到支持向量機(jī)（SVM）分類器來(lái)提高識(shí)別性能。該方法在Chalearn LAP 獨(dú)立手勢(shì)數(shù)據(jù)集（IsoGD）的驗(yàn)證集上達(dá)到了46.70%的準(zhǔn)確率。

關(guān)鍵詞：手勢(shì)識(shí)別；三維卷積神經(jīng)網(wǎng)絡(luò)；光流；SVM

手勢(shì)是一種交流的形式，它指的是利用人的肢體動(dòng)作來(lái)說(shuō)明其意圖或態(tài)度的行為。由于在視頻監(jiān)測(cè)控制、標(biāo)志語(yǔ)言理解、虛擬現(xiàn)實(shí)和人機(jī)交互等領(lǐng)域有著巨大的應(yīng)用前景，越來(lái)越多的研究人員開(kāi)始研究手勢(shì)識(shí)別算法，以實(shí)現(xiàn)將人類手勢(shì)解釋給機(jī)器的目標(biāo)。

手勢(shì)識(shí)別最早期的研究是從20世紀(jì)80年代開(kāi)始，是一種典型的涉及到各方面知識(shí)的研究。為了對(duì)人體動(dòng)作的含義加以識(shí)別，研究人員先后使用了大量不同種類的方法。早期的大部分方法都是基于復(fù)雜的人工制作特征。Stamer和Pentl[1]首先利用隱馬爾科夫模型（HMM）進(jìn)行美國(guó)手語(yǔ)的相關(guān)研究；Elmezain[2]等利用HMM模型對(duì)手勢(shì)的動(dòng)態(tài)軌跡進(jìn)行了識(shí)別；Sgouropoulos等人[3]將神經(jīng)網(wǎng)絡(luò)方法和HMM方法結(jié)合使用，可提高動(dòng)態(tài)手勢(shì)的識(shí)別效果，并且該方法具有光照魯棒性。Wan等人將尺度不變特征變換（SIFT）特征加以擴(kuò)充，得到3D增強(qiáng)動(dòng)作SIFT（EMoSIFT）[4]和3D稀疏動(dòng)作SIFT（SMoSIFT）[5]，并通過(guò)稀疏關(guān)鍵點(diǎn)混合特征（MFSK）[6]來(lái)進(jìn)行手勢(shì)識(shí)別。隨著近來(lái)深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展，利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)手勢(shì)識(shí)別受到了研究者的廣泛關(guān)注，且相對(duì)于傳統(tǒng)手工特征方法，在識(shí)別率上也取得了重大突破。Karpathy等人[7]利用卷積神經(jīng)網(wǎng)絡(luò)（CNN）來(lái)實(shí)現(xiàn)手勢(shì)行為識(shí)別；Simonyan和Zisserman[8]利用一個(gè)雙流CNN網(wǎng)絡(luò)同時(shí)提取手勢(shì)視頻中的時(shí)域和空域的特征；Tran等人[9]提出了一個(gè)3D CNN模型——C3D模型，解決了基于視頻的手勢(shì)識(shí)別需要同時(shí)處理時(shí)域和空域的特征這一問(wèn)題。

在文章中，我們提出了一種基于同源數(shù)據(jù)融合的大規(guī)模的手勢(shì)識(shí)別方法。首先，我們通過(guò)對(duì)數(shù)據(jù)分布特征的分析，將所有幀數(shù)不一的視頻進(jìn)行預(yù)處理，獲得統(tǒng)一的幀數(shù)為32幀的視頻；隨后，我們由真彩（RGB）視頻生成了光流視頻，以進(jìn)一步提取動(dòng)作信息，同時(shí)避免表演者服飾、膚色等因素的干擾；我們?cè)倮蒙衔奶岬降腃3D模型，對(duì)RGB數(shù)據(jù)和光流數(shù)據(jù)同時(shí)提取空域和時(shí)域上的特征信息，并將這些特征加以融合，最終通過(guò)支持向量機(jī)（SVM）分類器來(lái)獲得分類結(jié)果，整個(gè)流程如圖1所示。

1 基于C3D模型的視頻手勢(shì)識(shí)別

1.1 預(yù)處理

一般的CNN由于其中全連接層的限制，都要求輸入數(shù)據(jù)具有相同的大小。因此我們首先需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理，即統(tǒng)一的幀數(shù)，各幀相同的寬和高。為了盡可能地獲取代表手勢(shì)含義的特征，我們采取一種數(shù)據(jù)驅(qū)動(dòng)的策略來(lái)實(shí)現(xiàn)這一過(guò)程，即通過(guò)對(duì)數(shù)據(jù)分布情況的分析來(lái)確定歸一化的方式。首先，我們分析了實(shí)驗(yàn)數(shù)據(jù)集——Chalearn LAP IsoGD Database（簡(jiǎn)稱IsoGD數(shù)據(jù)集），該數(shù)據(jù)集由Wan等人[10]建立，它源自于Guyon等人[11]建立的ChaLearn手勢(shì)數(shù)據(jù)集（CGD）。IsoGD數(shù)據(jù)集包含了47 933個(gè)獨(dú)立的視頻，每個(gè)視頻包含一個(gè)手勢(shì)，這些手勢(shì)被分為249類，它被用于2016年首屆Chalearn LAP大規(guī)模手勢(shì)識(shí)別競(jìng)賽，其詳細(xì)信息如表1所示。由于IsoGD數(shù)據(jù)集中，每個(gè)視頻的寬度和高度都是一致的，因此需要?dú)w一化處理的主要是時(shí)域，即幀數(shù)信息。

如圖2所示，由于在數(shù)據(jù)集中，一些類別的手勢(shì)看起來(lái)非常相似，因此在處理視頻成統(tǒng)一幀數(shù)時(shí)，就需要在保留動(dòng)作的運(yùn)動(dòng)路徑信息和降低視頻的空間占用之間進(jìn)行折衷。在分析了35 878個(gè)訓(xùn)練集的視頻的幀數(shù)后，我們發(fā)現(xiàn)：盡管視頻的幀數(shù)從1～405幀各不相同，但是大部分視頻的幀數(shù)在29～39之間，其中33幀的視頻數(shù)量最多，達(dá)1 202個(gè)。為了便于處理，我們選擇32作為視頻的基準(zhǔn)幀數(shù)，將所有視頻統(tǒng)一至32幀。幀數(shù)大于32的視頻需進(jìn)行采樣，而幀數(shù)小于32的視頻則通過(guò)復(fù)制按一定比例選出的幀進(jìn)行插值。通過(guò)這樣的預(yù)處理方式，超過(guò)98%的視頻至少每3幀進(jìn)行了1次采樣，大部分的運(yùn)動(dòng)路徑信息得以保留。

1.2 光流特征提取

光流，是視覺(jué)場(chǎng)中的一種目標(biāo)、表面和邊緣的表征運(yùn)動(dòng)的模型，它是由觀察者和場(chǎng)景之間的相對(duì)運(yùn)動(dòng)產(chǎn)生的。在文章中，我們通過(guò)RGB視頻提取光流特征，一方面用于提取動(dòng)作路徑信息，另一方面也去除了背景、表演者膚色等與動(dòng)作無(wú)關(guān)的信息。我們通過(guò)Brox等人[12]提出的基于亮度恒常性、梯度恒常性和時(shí)空平滑約束假設(shè)的能量方程來(lái)計(jì)算光流特征，該能量方程可表述為：

其中，是一個(gè)正則化參數(shù)，可表述為：

其中，是用于平衡兩者的權(quán)重系數(shù)，和是視頻兩幀之間的灰度和梯度增量，用來(lái)增強(qiáng)能量方程的魯棒性，為積分區(qū)間，即整個(gè)視頻，可表述為：

表示時(shí)空平滑約束假設(shè)中的時(shí)空梯度。通過(guò)利用拉格朗日方程和數(shù)值近似來(lái)最小化該能量函數(shù)，獲得最終的光流結(jié)果。顯然，光流數(shù)據(jù)更加關(guān)注運(yùn)動(dòng)信息，能夠把運(yùn)動(dòng)無(wú)關(guān)的信息全部去除。

1.3 特征提取模型

如前所述，基于深度神經(jīng)網(wǎng)絡(luò)的特征提取由于能夠更好地體現(xiàn)數(shù)據(jù)本身的信息，且不像手工特征那樣需要研究者具備大量領(lǐng)域相關(guān)信息，因而受到了研究者的青睞。文中所述需要提取的特征關(guān)注的手勢(shì)是在視頻中，所以解決手勢(shì)識(shí)別任務(wù)更多的是依靠提取到的時(shí)序特征。因此，我們通過(guò)一種三維CNN——C3D模型來(lái)實(shí)現(xiàn)視頻手勢(shì)特征的自動(dòng)提取。與二維的CNN相比，三維的CNN針對(duì)視頻幀序列圖像集合，并不僅僅是把視頻劃分成為幀集合，再用多通道輸出到多個(gè)圖像，而是將卷積核應(yīng)用到時(shí)域，時(shí)空域的卷積核特性相互結(jié)合，更好地獲取視頻的特征。

如圖3所示，C3D模型包括8個(gè)卷積層、5個(gè)池化層、2個(gè)全連接層來(lái)學(xué)習(xí)特征，和1個(gè)softmax層來(lái)提供預(yù)測(cè)的類別。8個(gè)卷積層的卷積核個(gè)數(shù)分別是64、128、256、256、512、512、512和512，卷積核的最佳大小是3×3×3。通過(guò)對(duì)視頻的時(shí)空卷積，可以獲得在不同尺度上的特征圖。在1次或2次卷積操作之后，通過(guò)1次池化操作，來(lái)對(duì)特征進(jìn)行降采樣，以獲得更具全局性的特征。在文中，第2～5層的池化層的卷積核大小是2×2×2，而第1個(gè)池化層的卷積核大小是1×2×2，以保證在網(wǎng)絡(luò)中時(shí)域信息能夠得到最大程度上的保留。在經(jīng)過(guò)多次卷積和池化操作之后，特征圖被抽象成一個(gè)4 096維的特征向量，用來(lái)標(biāo)記樣本的分類信息。

1.4 融合方案

Tran等人結(jié)合3個(gè)不同的網(wǎng)絡(luò)提取出的特征來(lái)提高準(zhǔn)確率。這給了我們靈感：使用特征融合的方法可以提高識(shí)別能力。通過(guò)實(shí)驗(yàn)我們發(fā)現(xiàn)：由于RGB視頻和光流視頻在描述特征的方式并不相同，因此直接將兩個(gè)視頻簡(jiǎn)單融合，反而不利于正確率的提升。相反，因?yàn)樘卣魇且曨l的抽象，對(duì)于C3D提取出的特征向量，可以很好地闡述手勢(shì)的特點(diǎn)。因此，我們選擇了特征級(jí)融合。這樣做的另一個(gè)優(yōu)勢(shì)是特征都是相同維度的，統(tǒng)一的格式有助于正確、有效地融合。為了保證兩種數(shù)據(jù)的信息能夠同時(shí)保留，我們選擇通過(guò)將兩種特征拼接得到高維特征的方式來(lái)實(shí)現(xiàn)融合。

2 手勢(shì)識(shí)別實(shí)驗(yàn)結(jié)果和分析

由于目前IsoGD數(shù)據(jù)集的測(cè)試集部分的標(biāo)簽尚未公開(kāi)，所以文中提到的所有實(shí)驗(yàn)和比較都是在該數(shù)據(jù)集的驗(yàn)證集上進(jìn)行的。

2.1 實(shí)驗(yàn)環(huán)境

文中所提到的神經(jīng)網(wǎng)絡(luò)訓(xùn)練和特征提取在配有Intel Core i7-6700 CPU @ 3.40 GHz、16 GB內(nèi)存和Nvidia Geforce GTX TITAN X 圖形處理器（GPU）的PC上實(shí)現(xiàn)，C3D模型依托Linux Ubuntu 16.04 長(zhǎng)期支持版本（LTS）系統(tǒng)和caffe框架實(shí)現(xiàn) 32幀視頻的生成，特征融合和SVM分類則在 Windows 7系統(tǒng)（64 bit）上通過(guò)Matlab R2012b軟件實(shí)現(xiàn)。

2.2 訓(xùn)練過(guò)程

考慮到訓(xùn)練一個(gè)較深的網(wǎng)絡(luò)是很耗時(shí)的，特別是在IsoGD這樣的大型數(shù)據(jù)集上，因此我們首先通過(guò)Sport-1M（最大的視頻分類的標(biāo)準(zhǔn)數(shù)據(jù)集，包含110萬(wàn)個(gè)運(yùn)動(dòng)視頻，共487類）預(yù)訓(xùn)練模型，使其能夠適應(yīng)視頻動(dòng)作分類的應(yīng)用場(chǎng)景，隨后再在實(shí)驗(yàn)所需的IsoGD數(shù)據(jù)集上調(diào)參。我們通過(guò)隨機(jī)梯度下降法（SGD）來(lái)訓(xùn)練網(wǎng)絡(luò)：首先將數(shù)據(jù)打亂，以減少數(shù)據(jù)排列信息對(duì)訓(xùn)練的干擾，在每一次訓(xùn)練的迭代過(guò)程中，有10個(gè)視頻輸入網(wǎng)絡(luò)，網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)為0.0001，并且在每5 000次迭代后以10%的比例下降，在10萬(wàn)次迭代后訓(xùn)練停止。

2.3 迭代的影響

作為一個(gè)基于學(xué)習(xí)的方法，迭代次數(shù)對(duì)分類結(jié)果有很大的影響。因此，在這個(gè)部分，我們分別在RGB和光流數(shù)據(jù)的輸入上測(cè)試不同迭代次數(shù)的影響。識(shí)別率和損失函數(shù)值的變化情況如圖4所示。

在訓(xùn)練過(guò)程的早期，網(wǎng)絡(luò)的學(xué)習(xí)能力較強(qiáng)，損失函數(shù)值下降很快，在經(jīng)過(guò)約3萬(wàn)次迭代后，RGB和光流數(shù)據(jù)的損失函數(shù)值都趨于穩(wěn)定。最后，在10萬(wàn)次迭代之后，損失函數(shù)值非常接近于0，這時(shí)網(wǎng)絡(luò)已經(jīng)從訓(xùn)練數(shù)據(jù)中學(xué)到了足夠多的東西。另一方面，識(shí)別率顯示出類似的趨勢(shì)：正確率在訓(xùn)練早期上升很快。同時(shí)，不同數(shù)據(jù)的特征間的關(guān)系也在這個(gè)階段展現(xiàn)出來(lái)。在1萬(wàn)次迭代之后，光流數(shù)據(jù)的優(yōu)勢(shì)開(kāi)始顯現(xiàn)出來(lái)，而且直到最后一次迭代，光流數(shù)據(jù)的準(zhǔn)確率一直比RGB的高5%左右。

2.4 預(yù)處理效果

在本節(jié)中，我們驗(yàn)證預(yù)處理，即32幀歸一化策略的效果。我們對(duì)比了輸入視頻分別為16幀和32幀的結(jié)果，這兩種輸入都是10萬(wàn)次迭代后的結(jié)果。

如圖5所示，通過(guò)我們對(duì)輸入數(shù)據(jù)的分析，32幀的歸一化策略取得顯著的效果，無(wú)論是在RGB還是光流數(shù)據(jù)上，相比16幀的輸入，兩種數(shù)據(jù)的32幀的輸入都提高了約4%的識(shí)別率。這證明更多關(guān)于運(yùn)動(dòng)路徑的信息有助于分辨不同的手勢(shì)，從而在很大程度上提高了識(shí)別率。

2.5 融合結(jié)果

我們通過(guò)融合RGB和光流特征來(lái)提高性能。融合結(jié)果和單獨(dú)RGB、光流數(shù)據(jù)的比較如圖6所示。

相比于任何一種單一特征，融合策略對(duì)識(shí)別性能的提升都是顯著的。融合特征相比單獨(dú)RGB特征將正確率提升了將近10%，相比單獨(dú)的光流特征，融合特征也有近5%的提升。這證明了特征融合的策略是行之有效的。

2.6 和傳統(tǒng)方法的比較

在本節(jié)中，我們將我們的方法與Wan等人提出的基于手工制作特征的方法進(jìn)行對(duì)比，從圖7中可以看出：CNN在對(duì)圖片或視頻的特征提取方面展示出了極大的優(yōu)勢(shì)，我們的方法大概將識(shí)別率提高了30%。

2.7最終結(jié)果對(duì)比

我們的方法和大賽中前3名的方法，以及大賽的基準(zhǔn)方法在校驗(yàn)集上的結(jié)果對(duì)比如圖8所示。結(jié)果顯示：相對(duì)于使用手工制作特征的基準(zhǔn)方法，我們基于深度學(xué)習(xí)的方法在特征提取上具有更好的性能。此外，使用光流數(shù)據(jù)進(jìn)行去背景處理，使我們的識(shí)別率更進(jìn)一步提升，相對(duì)于大賽中的方法，加入光流數(shù)據(jù)使得準(zhǔn)確率提升了4%。

3 結(jié)束語(yǔ)

我們提出了一種基于RGB和光流數(shù)據(jù)及三維CNN的手勢(shì)識(shí)別方法。輸入的數(shù)據(jù)首先被統(tǒng)一成32幀的視頻，以便更好地保存動(dòng)作路徑信息；然后，我們通過(guò)RGB數(shù)據(jù)生成了光流數(shù)據(jù)來(lái)去除視頻中與手勢(shì)無(wú)關(guān)的因素；接著，RGB和光流視頻的特征被C3D模型分別提取并加以融合來(lái)提高識(shí)別性能；之后，我們使用SVM分類器進(jìn)行最終分類。實(shí)驗(yàn)證明：我們的策略是有效的，而且我們的方法優(yōu)于其他現(xiàn)有的技術(shù)。相較于Chalearn LAP大規(guī)模手勢(shì)識(shí)別競(jìng)賽中的方法及傳統(tǒng)手工特征方法，我們方法的識(shí)別正確率有了較大提升。

然而，仍然存在著很多因素影響著識(shí)別率。由于運(yùn)動(dòng)信息還不足以區(qū)分那些差別細(xì)微的類別，還需要學(xué)習(xí)更多復(fù)雜的特征來(lái)解決這些問(wèn)題。同時(shí)，還有很多其他的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)，如深度置信網(wǎng)絡(luò)，在目標(biāo)識(shí)別方面展示出了很大的優(yōu)勢(shì)。這些網(wǎng)絡(luò)結(jié)構(gòu)在視頻手勢(shì)識(shí)別方面的使用還值得更多的研究。

參考文獻(xiàn)

[1] STARNER T， PENTL A. Visual Recognition of American Sign Language Using Hidden Markov Models[J]. International Workshop on Automatic Face&Gesture Recognition， 1995（2）：189-194

[2] ELMEZAIN M， HAMADI A， MICHAELIS B. Hand Trajectory-Based Gesture Spotting and Recognition using HMM[C]//The 16th IEEE International Conference on Image Processing （ICIP）. USA：IEEE，2009：3577-3580. DOI： 10.1109/ICIP.2009.5414322

[3] SGOUROPOULOS K， STERGIOPOULOU E， PAPAMARKOS N.A Dynamic Gesture and Posture Recognition system[J]. Journal of Intelligent&Robotic Systems， 2013（1）：1-14

[4] WAN J， RUAN Q， LI W， et al. One-Shot Learning Gesture Recognition from RGB-D Data Using Bag of Features[J]. Journal of Machine Learning Research， 2013， 14（1）： 2549-2582

[5] WAN J， RUAN Q， LI W， et al. 3D SMoSIFT： Three-Dimensional Sparse Motion Scale Invariant Feature Transform for Activity Recognition from RGB-D Videos[J]. Journal of Electronic Imaging， 2014， 23（2）： 023017-023017

[6] WAN J， RUAN Q， LI W， et al. One-Shot Learning Gesture Recognition from RGB-D Data Using Bag of Features[J]. Journal of Machine Learning Research， 2013， 14（1）： 2549-2582

[7] KARPATHY A， TODERICI G， SHETTY S， et al. Large-Scale Video Classification with Convolutional Neural Networks[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. USA： IEEE， 2014： 1725-1732

[8] SIMONYAN K， ZISSERMAN A. Two-Stream Convolutional Networks for Action Recognition in Videos[C]//Advances in Neural Information Processing Systems. Canda： NIPS， 2014： 568-576

[9]TRAN D， BOURDEV L， FERGUS R， et al. Learning Spatiotemporal Features with 3d Convolutional Networks[C]//Proceedings of the IEEE International Conference on Computer Vision. USA： IEEE， 2015： 4489-4497

[10] WAN J， ZHAO Y， ZHOU S， et al. Chalearn Looking at People RGB-D Isolated and Continuous Datasets for Gesture Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. USA：IEEE， 2016： 56-64

[11] GUYON I， ATHITSOS V， JANGYODSUK P， et al. The ChaLearn Gesture Dataset （CGD 2011）[J]. Machine Vision and Applications， 2014， 25（8）： 1929-1951

[12] BROS T， BRUHN A， PAPENBERG N， et al. High Accuracy Optical Flow Estimation Based on a Theory for Warping[J]. Computer Vision-ECCV 2004， 2004（3024）： 25-36. DOI： 10.1007/978-3-540-24673-2_3

中興通訊技術(shù)2017年4期

中興通訊技術(shù)的其它文章: 深度學(xué)習(xí)進(jìn)展及其在圖像處理領(lǐng)域的應(yīng)用; 深度學(xué)習(xí)的能與不能; 當(dāng)深度學(xué)習(xí)遇到大視頻數(shù)據(jù); 關(guān)于人機(jī)對(duì)話系統(tǒng)的思考; 移動(dòng)通信Small Cell基站供電解決方案與趨勢(shì)分析; 基于運(yùn)行大數(shù)據(jù)學(xué)習(xí)的復(fù)雜裝備故障診斷技術(shù)及其典型應(yīng)用

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于3D CNN的大規(guī)模視頻手勢(shì)識(shí)別研究