苗啟廣+李宇楠+徐昕
摘要:提出了一種基于三維卷積神經(jīng)網(wǎng)絡(luò)(CNN)的大規(guī)模視頻手勢(shì)識(shí)別算法。首先,為了獲得統(tǒng)一尺度的輸入數(shù)據(jù),在時(shí)域上對(duì)所有輸入視頻進(jìn)行了歸一化處理得到32幀的輸入視頻;然后,為了從不同的角度描述手勢(shì)特征,通過(guò)真彩(RGB)視頻數(shù)據(jù)生成了光流視頻,并將RGB視頻和光流視頻分別通過(guò)C3D模型(一個(gè)3D CNN模型)提取特征,并通過(guò)特征連接的方式加以融合輸入到支持向量機(jī)(SVM)分類器來(lái)提高識(shí)別性能。該方法在Chalearn LAP 獨(dú)立手勢(shì)數(shù)據(jù)集(IsoGD)的驗(yàn)證集上達(dá)到了46.70%的準(zhǔn)確率。
關(guān)鍵詞: 手勢(shì)識(shí)別;三維卷積神經(jīng)網(wǎng)絡(luò);光流;SVM
手勢(shì)是一種交流的形式,它指的是利用人的肢體動(dòng)作來(lái)說(shuō)明其意圖或態(tài)度的行為。由于在視頻監(jiān)測(cè)控制、標(biāo)志語(yǔ)言理解、虛擬現(xiàn)實(shí)和人機(jī)交互等領(lǐng)域有著巨大的應(yīng)用前景,越來(lái)越多的研究人員開(kāi)始研究手勢(shì)識(shí)別算法,以實(shí)現(xiàn)將人類手勢(shì)解釋給機(jī)器的目標(biāo)。
手勢(shì)識(shí)別最早期的研究是從20世紀(jì)80年代開(kāi)始,是一種典型的涉及到各方面知識(shí)的研究。為了對(duì)人體動(dòng)作的含義加以識(shí)別,研究人員先后使用了大量不同種類的方法。早期的大部分方法都是基于復(fù)雜的人工制作特征。Stamer和Pentl[1]首先利用隱馬爾科夫模型(HMM)進(jìn)行美國(guó)手語(yǔ)的相關(guān)研究;Elmezain[2]等利用HMM模型對(duì)手勢(shì)的動(dòng)態(tài)軌跡進(jìn)行了識(shí)別;Sgouropoulos等人[3]將神經(jīng)網(wǎng)絡(luò)方法和HMM方法結(jié)合使用,可提高動(dòng)態(tài)手勢(shì)的識(shí)別效果,并且該方法具有光照魯棒性。Wan等人將尺度不變特征變換(SIFT)特征加以擴(kuò)充,得到3D增強(qiáng)動(dòng)作SIFT(EMoSIFT)[4]和3D稀疏動(dòng)作SIFT(SMoSIFT)[5],并通過(guò)稀疏關(guān)鍵點(diǎn)混合特征(MFSK)[6]來(lái)進(jìn)行手勢(shì)識(shí)別。隨著近來(lái)深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,利用深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)手勢(shì)識(shí)別受到了研究者的廣泛關(guān)注,且相對(duì)于傳統(tǒng)手工特征方法,在識(shí)別率上也取得了重大突破。Karpathy等人[7]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)實(shí)現(xiàn)手勢(shì)行為識(shí)別;Simonyan和Zisserman[8]利用一個(gè)雙流CNN網(wǎng)絡(luò)同時(shí)提取手勢(shì)視頻中的時(shí)域和空域的特征;Tran等人[9]提出了一個(gè)3D CNN模型——C3D模型,解決了基于視頻的手勢(shì)識(shí)別需要同時(shí)處理時(shí)域和空域的特征這一問(wèn)題。
在文章中,我們提出了一種基于同源數(shù)據(jù)融合的大規(guī)模的手勢(shì)識(shí)別方法。首先,我們通過(guò)對(duì)數(shù)據(jù)分布特征的分析,將所有幀數(shù)不一的視頻進(jìn)行預(yù)處理,獲得統(tǒng)一的幀數(shù)為32幀的視頻;隨后,我們由真彩(RGB)視頻生成了光流視頻,以進(jìn)一步提取動(dòng)作信息,同時(shí)避免表演者服飾、膚色等因素的干擾;我們?cè)倮蒙衔奶岬降腃3D模型,對(duì)RGB數(shù)據(jù)和光流數(shù)據(jù)同時(shí)提取空域和時(shí)域上的特征信息,并將這些特征加以融合,最終通過(guò)支持向量機(jī)(SVM)分類器來(lái)獲得分類結(jié)果,整個(gè)流程如圖1所示。
1 基于C3D模型的視頻手勢(shì)識(shí)別
1.1 預(yù)處理
一般的CNN由于其中全連接層的限制,都要求輸入數(shù)據(jù)具有相同的大小。因此我們首先需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,即統(tǒng)一的幀數(shù),各幀相同的寬和高。為了盡可能地獲取代表手勢(shì)含義的特征,我們采取一種數(shù)據(jù)驅(qū)動(dòng)的策略來(lái)實(shí)現(xiàn)這一過(guò)程,即通過(guò)對(duì)數(shù)據(jù)分布情況的分析來(lái)確定歸一化的方式。首先,我們分析了實(shí)驗(yàn)數(shù)據(jù)集——Chalearn LAP IsoGD Database(簡(jiǎn)稱IsoGD數(shù)據(jù)集),該數(shù)據(jù)集由Wan等人[10]建立,它源自于Guyon等人[11]建立的ChaLearn手勢(shì)數(shù)據(jù)集(CGD)。IsoGD數(shù)據(jù)集包含了47 933個(gè)獨(dú)立的視頻,每個(gè)視頻包含一個(gè)手勢(shì),這些手勢(shì)被分為249類,它被用于2016年首屆Chalearn LAP大規(guī)模手勢(shì)識(shí)別競(jìng)賽,其詳細(xì)信息如表1所示。由于IsoGD數(shù)據(jù)集中,每個(gè)視頻的寬度和高度都是一致的,因此需要?dú)w一化處理的主要是時(shí)域,即幀數(shù)信息。
如圖2所示,由于在數(shù)據(jù)集中,一些類別的手勢(shì)看起來(lái)非常相似,因此在處理視頻成統(tǒng)一幀數(shù)時(shí),就需要在保留動(dòng)作的運(yùn)動(dòng)路徑信息和降低視頻的空間占用之間進(jìn)行折衷。在分析了35 878個(gè)訓(xùn)練集的視頻的幀數(shù)后,我們發(fā)現(xiàn):盡管視頻的幀數(shù)從1~405幀各不相同,但是大部分視頻的幀數(shù)在29~39之間,其中33幀的視頻數(shù)量最多,達(dá)1 202個(gè)。為了便于處理,我們選擇32作為視頻的基準(zhǔn)幀數(shù),將所有視頻統(tǒng)一至32幀。幀數(shù)大于32的視頻需進(jìn)行采樣,而幀數(shù)小于32的視頻則通過(guò)復(fù)制按一定比例選出的幀進(jìn)行插值。通過(guò)這樣的預(yù)處理方式,超過(guò)98%的視頻至少每3幀進(jìn)行了1次采樣,大部分的運(yùn)動(dòng)路徑信息得以保留。
1.2 光流特征提取
光流,是視覺(jué)場(chǎng)中的一種目標(biāo)、表面和邊緣的表征運(yùn)動(dòng)的模型,它是由觀察者和場(chǎng)景之間的相對(duì)運(yùn)動(dòng)產(chǎn)生的。在文章中,我們通過(guò)RGB視頻提取光流特征,一方面用于提取動(dòng)作路徑信息,另一方面也去除了背景、表演者膚色等與動(dòng)作無(wú)關(guān)的信息。我們通過(guò)Brox等人[12]提出的基于亮度恒常性、梯度恒常性和時(shí)空平滑約束假設(shè)的能量方程來(lái)計(jì)算光流特征,該能量方程可表述為:
其中,是一個(gè)正則化參數(shù),可表述為:
其中,是用于平衡兩者的權(quán)重系數(shù),和是視頻兩幀之間的灰度和梯度增量,用來(lái)增強(qiáng)能量方程的魯棒性,為積分區(qū)間,即整個(gè)視頻,可表述為:
表示時(shí)空平滑約束假設(shè)中的時(shí)空梯度。通過(guò)利用拉格朗日方程和數(shù)值近似來(lái)最小化該能量函數(shù),獲得最終的光流結(jié)果。顯然,光流數(shù)據(jù)更加關(guān)注運(yùn)動(dòng)信息,能夠把運(yùn)動(dòng)無(wú)關(guān)的信息全部去除。
1.3 特征提取模型
如前所述,基于深度神經(jīng)網(wǎng)絡(luò)的特征提取由于能夠更好地體現(xiàn)數(shù)據(jù)本身的信息,且不像手工特征那樣需要研究者具備大量領(lǐng)域相關(guān)信息,因而受到了研究者的青睞。文中所述需要提取的特征關(guān)注的手勢(shì)是在視頻中,所以解決手勢(shì)識(shí)別任務(wù)更多的是依靠提取到的時(shí)序特征。因此,我們通過(guò)一種三維CNN——C3D模型來(lái)實(shí)現(xiàn)視頻手勢(shì)特征的自動(dòng)提取。與二維的CNN相比,三維的CNN針對(duì)視頻幀序列圖像集合,并不僅僅是把視頻劃分成為幀集合,再用多通道輸出到多個(gè)圖像,而是將卷積核應(yīng)用到時(shí)域,時(shí)空域的卷積核特性相互結(jié)合,更好地獲取視頻的特征。
如圖3所示,C3D模型包括8個(gè)卷積層、5個(gè)池化層、2個(gè)全連接層來(lái)學(xué)習(xí)特征,和1個(gè)softmax層來(lái)提供預(yù)測(cè)的類別。8個(gè)卷積層的卷積核個(gè)數(shù)分別是64、128、256、256、512、512、512和512,卷積核的最佳大小是3×3×3。通過(guò)對(duì)視頻的時(shí)空卷積,可以獲得在不同尺度上的特征圖。在1次或2次卷積操作之后,通過(guò)1次池化操作,來(lái)對(duì)特征進(jìn)行降采樣,以獲得更具全局性的特征。在文中,第2~5層的池化層的卷積核大小是2×2×2,而第1個(gè)池化層的卷積核大小是1×2×2,以保證在網(wǎng)絡(luò)中時(shí)域信息能夠得到最大程度上的保留。在經(jīng)過(guò)多次卷積和池化操作之后,特征圖被抽象成一個(gè)4 096維的特征向量,用來(lái)標(biāo)記樣本的分類信息。
1.4 融合方案
Tran等人結(jié)合3個(gè)不同的網(wǎng)絡(luò)提取出的特征來(lái)提高準(zhǔn)確率。這給了我們靈感:使用特征融合的方法可以提高識(shí)別能力。通過(guò)實(shí)驗(yàn)我們發(fā)現(xiàn):由于RGB視頻和光流視頻在描述特征的方式并不相同,因此直接將兩個(gè)視頻簡(jiǎn)單融合,反而不利于正確率的提升。相反,因?yàn)樘卣魇且曨l的抽象,對(duì)于C3D提取出的特征向量,可以很好地闡述手勢(shì)的特點(diǎn)。因此,我們選擇了特征級(jí)融合。這樣做的另一個(gè)優(yōu)勢(shì)是特征都是相同維度的,統(tǒng)一的格式有助于正確、有效地融合。為了保證兩種數(shù)據(jù)的信息能夠同時(shí)保留,我們選擇通過(guò)將兩種特征拼接得到高維特征的方式來(lái)實(shí)現(xiàn)融合。
2 手勢(shì)識(shí)別實(shí)驗(yàn)結(jié)果和分析
由于目前IsoGD數(shù)據(jù)集的測(cè)試集部分的標(biāo)簽尚未公開(kāi),所以文中提到的所有實(shí)驗(yàn)和比較都是在該數(shù)據(jù)集的驗(yàn)證集上進(jìn)行的。
2.1 實(shí)驗(yàn)環(huán)境
文中所提到的神經(jīng)網(wǎng)絡(luò)訓(xùn)練和特征提取在配有Intel Core i7-6700 CPU @ 3.40 GHz、16 GB內(nèi)存和Nvidia Geforce GTX TITAN X 圖形處理器(GPU)的PC上實(shí)現(xiàn),C3D模型依托Linux Ubuntu 16.04 長(zhǎng)期支持版本(LTS)系統(tǒng)和caffe框架實(shí)現(xiàn) 32幀視頻的生成,特征融合和SVM分類則在 Windows 7系統(tǒng)(64 bit)上通過(guò)Matlab R2012b軟件實(shí)現(xiàn)。
2.2 訓(xùn)練過(guò)程
考慮到訓(xùn)練一個(gè)較深的網(wǎng)絡(luò)是很耗時(shí)的,特別是在IsoGD這樣的大型數(shù)據(jù)集上,因此我們首先通過(guò)Sport-1M(最大的視頻分類的標(biāo)準(zhǔn)數(shù)據(jù)集,包含110萬(wàn)個(gè)運(yùn)動(dòng)視頻,共487類)預(yù)訓(xùn)練模型,使其能夠適應(yīng)視頻動(dòng)作分類的應(yīng)用場(chǎng)景,隨后再在實(shí)驗(yàn)所需的IsoGD數(shù)據(jù)集上調(diào)參。我們通過(guò)隨機(jī)梯度下降法(SGD)來(lái)訓(xùn)練網(wǎng)絡(luò):首先將數(shù)據(jù)打亂,以減少數(shù)據(jù)排列信息對(duì)訓(xùn)練的干擾,在每一次訓(xùn)練的迭代過(guò)程中,有10個(gè)視頻輸入網(wǎng)絡(luò),網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)為0.0001,并且在每5 000次迭代后以10%的比例下降,在10萬(wàn)次迭代后訓(xùn)練停止。
2.3 迭代的影響
作為一個(gè)基于學(xué)習(xí)的方法,迭代次數(shù)對(duì)分類結(jié)果有很大的影響。因此,在這個(gè)部分,我們分別在RGB和光流數(shù)據(jù)的輸入上測(cè)試不同迭代次數(shù)的影響。識(shí)別率和損失函數(shù)值的變化情況如圖4所示。
在訓(xùn)練過(guò)程的早期,網(wǎng)絡(luò)的學(xué)習(xí)能力較強(qiáng),損失函數(shù)值下降很快,在經(jīng)過(guò)約3萬(wàn)次迭代后,RGB和光流數(shù)據(jù)的損失函數(shù)值都趨于穩(wěn)定。最后,在10萬(wàn)次迭代之后,損失函數(shù)值非常接近于0,這時(shí)網(wǎng)絡(luò)已經(jīng)從訓(xùn)練數(shù)據(jù)中學(xué)到了足夠多的東西。另一方面,識(shí)別率顯示出類似的趨勢(shì):正確率在訓(xùn)練早期上升很快。同時(shí),不同數(shù)據(jù)的特征間的關(guān)系也在這個(gè)階段展現(xiàn)出來(lái)。在1萬(wàn)次迭代之后,光流數(shù)據(jù)的優(yōu)勢(shì)開(kāi)始顯現(xiàn)出來(lái),而且直到最后一次迭代,光流數(shù)據(jù)的準(zhǔn)確率一直比RGB的高5%左右。
2.4 預(yù)處理效果
在本節(jié)中,我們驗(yàn)證預(yù)處理,即32幀歸一化策略的效果。我們對(duì)比了輸入視頻分別為16幀和32幀的結(jié)果,這兩種輸入都是10萬(wàn)次迭代后的結(jié)果。
如圖5所示,通過(guò)我們對(duì)輸入數(shù)據(jù)的分析,32幀的歸一化策略取得顯著的效果,無(wú)論是在RGB還是光流數(shù)據(jù)上,相比16幀的輸入,兩種數(shù)據(jù)的32幀的輸入都提高了約4%的識(shí)別率。這證明更多關(guān)于運(yùn)動(dòng)路徑的信息有助于分辨不同的手勢(shì),從而在很大程度上提高了識(shí)別率。
2.5 融合結(jié)果
我們通過(guò)融合RGB和光流特征來(lái)提高性能。融合結(jié)果和單獨(dú)RGB、光流數(shù)據(jù)的比較如圖6所示。
相比于任何一種單一特征,融合策略對(duì)識(shí)別性能的提升都是顯著的。融合特征相比單獨(dú)RGB特征將正確率提升了將近10%,相比單獨(dú)的光流特征,融合特征也有近5%的提升。這證明了特征融合的策略是行之有效的。
2.6 和傳統(tǒng)方法的比較
在本節(jié)中,我們將我們的方法與Wan等人提出的基于手工制作特征的方法進(jìn)行對(duì)比,從圖7中可以看出:CNN在對(duì)圖片或視頻的特征提取方面展示出了極大的優(yōu)勢(shì),我們的方法大概將識(shí)別率提高了30%。
2.7最終結(jié)果對(duì)比
我們的方法和大賽中前3名的方法,以及大賽的基準(zhǔn)方法在校驗(yàn)集上的結(jié)果對(duì)比如圖8所示。結(jié)果顯示:相對(duì)于使用手工制作特征的基準(zhǔn)方法,我們基于深度學(xué)習(xí)的方法在特征提取上具有更好的性能。此外,使用光流數(shù)據(jù)進(jìn)行去背景處理,使我們的識(shí)別率更進(jìn)一步提升,相對(duì)于大賽中的方法,加入光流數(shù)據(jù)使得準(zhǔn)確率提升了4%。
3 結(jié)束語(yǔ)
我們提出了一種基于RGB和光流數(shù)據(jù)及三維CNN的手勢(shì)識(shí)別方法。輸入的數(shù)據(jù)首先被統(tǒng)一成32幀的視頻,以便更好地保存動(dòng)作路徑信息;然后,我們通過(guò)RGB數(shù)據(jù)生成了光流數(shù)據(jù)來(lái)去除視頻中與手勢(shì)無(wú)關(guān)的因素;接著,RGB和光流視頻的特征被C3D模型分別提取并加以融合來(lái)提高識(shí)別性能;之后,我們使用SVM分類器進(jìn)行最終分類。實(shí)驗(yàn)證明:我們的策略是有效的,而且我們的方法優(yōu)于其他現(xiàn)有的技術(shù)。相較于Chalearn LAP大規(guī)模手勢(shì)識(shí)別競(jìng)賽中的方法及傳統(tǒng)手工特征方法,我們方法的識(shí)別正確率有了較大提升。
然而,仍然存在著很多因素影響著識(shí)別率。由于運(yùn)動(dòng)信息還不足以區(qū)分那些差別細(xì)微的類別,還需要學(xué)習(xí)更多復(fù)雜的特征來(lái)解決這些問(wèn)題。同時(shí),還有很多其他的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),如深度置信網(wǎng)絡(luò),在目標(biāo)識(shí)別方面展示出了很大的優(yōu)勢(shì)。這些網(wǎng)絡(luò)結(jié)構(gòu)在視頻手勢(shì)識(shí)別方面的使用還值得更多的研究。
參考文獻(xiàn)
[1] STARNER T, PENTL A. Visual Recognition of American Sign Language Using Hidden Markov Models[J]. International Workshop on Automatic Face&Gesture Recognition, 1995(2):189-194
[2] ELMEZAIN M, HAMADI A, MICHAELIS B. Hand Trajectory-Based Gesture Spotting and Recognition using HMM[C]//The 16th IEEE International Conference on Image Processing (ICIP). USA:IEEE,2009:3577-3580. DOI: 10.1109/ICIP.2009.5414322
[3] SGOUROPOULOS K, STERGIOPOULOU E, PAPAMARKOS N.A Dynamic Gesture and Posture Recognition system[J]. Journal of Intelligent&Robotic Systems, 2013(1):1-14
[4] WAN J, RUAN Q, LI W, et al. One-Shot Learning Gesture Recognition from RGB-D Data Using Bag of Features[J]. Journal of Machine Learning Research, 2013, 14(1): 2549-2582
[5] WAN J, RUAN Q, LI W, et al. 3D SMoSIFT: Three-Dimensional Sparse Motion Scale Invariant Feature Transform for Activity Recognition from RGB-D Videos[J]. Journal of Electronic Imaging, 2014, 23(2): 023017-023017
[6] WAN J, RUAN Q, LI W, et al. One-Shot Learning Gesture Recognition from RGB-D Data Using Bag of Features[J]. Journal of Machine Learning Research, 2013, 14(1): 2549-2582
[7] KARPATHY A, TODERICI G, SHETTY S, et al. Large-Scale Video Classification with Convolutional Neural Networks[C]//Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. USA: IEEE, 2014: 1725-1732
[8] SIMONYAN K, ZISSERMAN A. Two-Stream Convolutional Networks for Action Recognition in Videos[C]//Advances in Neural Information Processing Systems. Canda: NIPS, 2014: 568-576
[9]TRAN D, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3d Convolutional Networks[C]//Proceedings of the IEEE International Conference on Computer Vision. USA: IEEE, 2015: 4489-4497
[10] WAN J, ZHAO Y, ZHOU S, et al. Chalearn Looking at People RGB-D Isolated and Continuous Datasets for Gesture Recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. USA:IEEE, 2016: 56-64
[11] GUYON I, ATHITSOS V, JANGYODSUK P, et al. The ChaLearn Gesture Dataset (CGD 2011)[J]. Machine Vision and Applications, 2014, 25(8): 1929-1951
[12] BROS T, BRUHN A, PAPENBERG N, et al. High Accuracy Optical Flow Estimation Based on a Theory for Warping[J]. Computer Vision-ECCV 2004, 2004(3024): 25-36. DOI: 10.1007/978-3-540-24673-2_3