閉世蘭
(中南民族大學(xué)生物醫(yī)學(xué)工程學(xué)院,湖北武漢430074)
近年來,基于機器學(xué)習(xí)的方法作用于人體動作識別取得了卓越的成效,其中以計算機模擬生物體神經(jīng)系統(tǒng)視覺感知機制的深度學(xué)習(xí)法最為有效。然而,人體動作在空域和時域上呈現(xiàn)不可分割性,但現(xiàn)有的動作識別方法主要采用純粹提取單域信息或時空信息分離處理的技術(shù)來實現(xiàn)人體動作識別,從而導(dǎo)致識別性能仍然不太理想。
眾所周知,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在視覺皮層的多級處理的啟發(fā)下可以自動學(xué)習(xí)特征,模擬視頻空間相關(guān)性效果最好。
Ji Shuiwang等人將傳統(tǒng)的CNN擴展到3D-CNN以捕捉視頻中的空間時間特征[1],但識別精度不理想且增加了學(xué)習(xí)的復(fù)雜性。
研究者為了提取視頻的時域特性,提出將循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[2]及長短時記憶網(wǎng)絡(luò)LSTM[3]應(yīng)用于動作識別,V.Veeriah等人在研究中提出微分式循環(huán)神經(jīng)網(wǎng)絡(luò)dRNN模型[4],使用密集取樣的HOG3D特征,并證實了循環(huán)神經(jīng)網(wǎng)絡(luò)的記憶能力,然而LSTM忽略了幀中局部像素之間的空間相關(guān)性。
為了同時利用CNN與LSTM的優(yōu)勢,研究者考慮將RNN或LSTM模型與CNN結(jié)合,生成CNNRNN(CNNLSTM)模型,它的基本架構(gòu)是CNN序列特征作為輸入引入到LSTM模型中。
M.Baccouche等人在科研中使用3D-ConvNet+LSTM、3DCNN+Voting兩種組合方式,取得了較高的準確性[5]。
雖然這些模型可以解決動作識別的問題,但是在模型的兩個不同階段,它們分別考慮了空間性和時間性,然而空間性和時間性是生物體運動識別不可分割的特性。
為了揭示動作識別的本質(zhì)特征,專注于時空信息相關(guān)性,必須將時間相關(guān)的LSTM網(wǎng)絡(luò)融合到二維CNN中,實現(xiàn)空間和時間不可分割的功能,Shi Xingjian等人將完全連接的LSTM擴展到卷積LSTM[6]。
為解決RNN梯度消失和記憶衰減的問題,S.Schuster和J.Schmidhuber等人引入了長短時記憶結(jié)構(gòu)(LSTM)[3],模型具有聯(lián)想和記憶功能,能較好地獲取視頻序列空間信息在時間上流動的結(jié)構(gòu)特征,在處理時序數(shù)據(jù)問題上成效非凡,但是由于LSTM的內(nèi)部接近于全連接的方式,這就帶來嚴重的信息冗余問題,且LSTM將輸入數(shù)據(jù)視為向量,即使它們具有空間結(jié)構(gòu),忽略幀中局部像素之間的空間相關(guān)性,違背了視頻的本質(zhì)。為了解決這個問題,Shi Xingjian等人提出將FC-LSTM的思想擴展到卷積結(jié)構(gòu)中,用卷積運算替換FC-LSTM的input-to-state和state-to-state的點乘運算,最終形成LSTM融合CNN的一種卷積LSTM模型(ConvLSTM[6]單元)。ConvLSTM是對LSTM結(jié)構(gòu)的改進,其信息處理過程展示如圖1所示,由輸入門、遺忘門、輸出門、記憶單元、隱藏門組成,這些門運算過程如式(1)~(5)所示。
圖1 卷積LSTM信息處理過程
以上公式中,*表示卷積運算;·表示點乘運算;xt代表t時刻的輸入圖像;it代表t時刻的輸入門輸出信息;Ct-1代表t-1時刻記憶單元的信息;whi是輸入門到遺忘門的權(quán)值矩陣,其余矩陣依此類推。
值得注意的是,這里的xt、it、ft、Ot、Ct、ht都是三維的變量,第一維是時間信息,后兩維代表行和列的空間信息。
該模型結(jié)構(gòu)既充分發(fā)揮了空間卷積神經(jīng)網(wǎng)絡(luò)的特性,模擬視覺系統(tǒng)感受野,較好地感知視頻中人體動作結(jié)構(gòu)特征,提取圖像中的空間局部相關(guān)性,又能發(fā)揮LSTM模型在長時間序列處理問題上的聯(lián)想和記憶功能,提取視頻的時空特征,獲取動作在時間上流動的特征,是一個既有空間深度,又有時間深度的“雙重”深度學(xué)習(xí)網(wǎng)絡(luò)。
雖然卷積長短時記憶網(wǎng)絡(luò)模型能提取時間和空間上的特征,對任何復(fù)雜動力學(xué)的時間序列數(shù)據(jù)進行建模,但不幸的是該模型對輸入視頻序列隱藏狀態(tài)的動態(tài)演化不敏感,不具備精準分類的能力。
為解決這個問題,本文在ConvLSTM的基礎(chǔ)上,提出一個具有時間狀態(tài)微分的卷積長短時記憶網(wǎng)絡(luò)模型——狀態(tài)微分ConvLSTM模型(簡稱d_ConvLSTM),該模型強調(diào)視頻幀間運動引起的信息增益,這些信息增益的變化是通過狀態(tài)導(dǎo)數(shù)量化的。
狀態(tài)微分是對記憶單元Ct進行求導(dǎo),其值越大表明在相同時間上信息的變化量越大,因此模型對輸入序列的時空結(jié)構(gòu)變化很敏感,其結(jié)構(gòu)內(nèi)的門運算過程見公式(6)~(10),變量信息、各門關(guān)系與ConvLSTM相同。
上式中,是記憶單元Ct的n階導(dǎo)數(shù),狀態(tài)微分也是時間采樣的一種形式,體現(xiàn)了狀態(tài)Ct在時間上的變化程度,其一階導(dǎo)數(shù)、二階導(dǎo)數(shù)見公式(11)~(12),較高階的導(dǎo)數(shù)可用類似方式求出。為了不放大包含在輸入序列中的不必要噪聲,本文的離散模型不對輸入序列進行求導(dǎo)。
在搭建網(wǎng)絡(luò)模型中,需要考慮的是卷積核大小、網(wǎng)絡(luò)層數(shù)、過擬合等問題。
回顧近年來提出的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)框架:從LeNet-5網(wǎng)絡(luò)架構(gòu)到AlexNet架構(gòu),再到Googlenet[7]網(wǎng)絡(luò)與VGG網(wǎng)絡(luò),最后擴展到NIN[8]網(wǎng)絡(luò)與darknet-19[9]網(wǎng)絡(luò)架構(gòu)。隨著模型架構(gòu)的改進,發(fā)現(xiàn)伴隨著卷積核的減少,卷積層數(shù)的增加,模型在識別問題上表現(xiàn)的性能越來越出色。
因此本文判定結(jié)合這些網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)點所搭建的框架也具有從圖像提取特征映射的能力,本文模仿Darknet-19的網(wǎng)絡(luò)結(jié)構(gòu),并對其進行擴展和簡化,通過將其卷積層替換成新模型ConvLSTM單元。在深度方向,本文的模型使用了15個ConvLSTM層、6個池化層,并采取在每層ConvLSTM卷積后增加批量標準化防止網(wǎng)絡(luò)過擬合。此外,施加在權(quán)重上的正則項使用L2正則規(guī)范化等初始化方式防止過擬合。
本文的模型框架是ConvLSTM層與池化層堆疊而成的,然后送入LSTM單元,LSTM融合視頻序列的所有幀信息,然后將特征向量傳送到softmax分類器,為每一個視頻生成一個標簽。訓(xùn)練采用批量隨機梯度下降法(SGD)迭代160次,批量處理大小為10個樣本,網(wǎng)絡(luò)的學(xué)習(xí)率初始化為0.1,momentum為0.9,權(quán)重衰減為0.000 5。
KTH數(shù)據(jù)庫是評估動作識別算法的基準[10],數(shù)據(jù)庫包含六類動作四種場景,由25個人組成共599個灰度視頻。
本文使用其中的20組作為訓(xùn)練集,5組作為測試集,在網(wǎng)絡(luò)訓(xùn)練之前,首先將圖片進行線性插值、減去均值、除方差等預(yù)處理。
深度ConvLSTM是一種“雙深”結(jié)構(gòu),提取時空特征以識別人體動作。為了證明網(wǎng)絡(luò)模型的有效性,本文進行了一些探索性實驗,選用不同的時間深度T進行不同場景(d1、d2、d3、d4)的測試,用于評估時間深度對動作識別的影響,實驗效果如表1所示,識別率(ARRs)是判別網(wǎng)絡(luò)性能的標準。
表1 KTH數(shù)據(jù)庫在不同場景不同幀長下的識別率
實驗證明在時間深度T<10時,識別精度隨著深度(或幀長)增加而增加,當T>10時,精度卻呈現(xiàn)微弱的下降。這是因為時間深度越深包含的運動信息越多,越有助于行動識別,當深度值接近動作的循環(huán)周期時,識別率最高。
然而,當時間深度大于10時識別率并不能顯著提高,與此同時深度的增加特征提取的計算量也成倍的增加,計算負載越重。
考慮到傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)中采樣能有效地提高識別精度,加速模型收斂,融合上下文信息。本文的網(wǎng)絡(luò)結(jié)構(gòu)中,在對視頻系列的時間維度進行簡單的特征提取基礎(chǔ)上,提出了狀態(tài)微分采樣、三維池化、幀間采樣三種時間采樣方式,并在4.2.1~4.2.3章節(jié)中對這三種方式進行實驗分析。為了便于理解,利用ConvLSTM模型搭建的框架結(jié)構(gòu)稱為對比試驗中的原始結(jié)構(gòu)。
4.2.1 狀態(tài)微分
首先對狀態(tài)微分進行實驗,微分結(jié)構(gòu)d_ConvLSTM替換原始框架結(jié)構(gòu)中的ConvLSTM層,其他框架結(jié)構(gòu)不改變,實驗比較狀態(tài)微分與原始結(jié)構(gòu)在KTH數(shù)據(jù)庫不同實驗幀長中的識別效果,實驗結(jié)果如表2所示。
表2 三種時間采樣方式與原始結(jié)構(gòu)的對比
在實驗結(jié)果表2中,注意到d_ConvLSTM模型相比ConvLSTM模型在不同長度的輸入序列下動作識別效果好,每個長度的平均識別率都增長了0.5至1個百分點。實驗證明狀態(tài)導(dǎo)數(shù)確實對輸入的變化量敏感,從而捕獲細小的變化,提高識別率。
4.2.2 三維池化
在本文的框架中,使用了六層池化層,但是時空融合在哪一層的效果最好呢?為此,本文進行了探究實驗,文章首先選取以10幀圖片作為參照標準,在每一層都單獨做三維時間池化,實驗得出第一層池化精確度91.54%,第二層池化精確度91.87%,第三層池化精確度91.75%,第四層池化精確度92.17%,第五層池化精確度91.34%,第六層池化精確度91.38%。不難發(fā)現(xiàn),當本文的框架選取第四層做三維池化時,實驗精度最高。
第二個實驗里,我們選取第一層池化層做三維池化,比較不同時間深度T下,三維池化與非池化的動作識別差異,結(jié)果見表2,三維池化的平均結(jié)果略低于非池化的平均結(jié)果,這是因為在時間軸上發(fā)生了池化,而時間采樣相當于一個模糊濾波器,導(dǎo)致了信息模糊化,運動特征區(qū)分性不明顯,造成識別精度較低。
4.2.3 幀間采樣
KTH實驗數(shù)據(jù)采用等間隔的單倍幀間采樣法,當增加間隔的步長,相當于變相地增加了數(shù)據(jù)樣本的距離,使得序列在時間上跳躍性大,幀間信息差別明顯,拉大動作的類內(nèi)差距。
本文第一組實驗中先討論不同的幀間采樣方式對動作識別的影響,考慮到當輸入序列小于8幀時若選取4倍的采樣間隔,實驗毫無意義,因此,本文只考慮兩倍的采樣間隔。兩倍幀間采樣有奇采樣與偶采樣的兩種不同的采樣方式,兩種采樣方式的實驗結(jié)果見表2。
通過實驗可知奇采樣與偶采樣兩種兩倍幀間采樣方式對于不同幀長下的實驗結(jié)果影響并不明顯,但是兩倍幀間采樣的平均識別率低于單倍幀間采樣,因此,本文可以得出結(jié)論:識別精度與采樣方式無關(guān),而與采樣步長相關(guān)。
為了評估本文方法的有效性,將本文的方法與傳統(tǒng)的LSTM和最先進的非LSTM方法進行比較,對比結(jié)果如表3所示,本文的方法的識別性能要優(yōu)于其他方法。
表3 在KTH數(shù)據(jù)集上比較ConvLSTM模型與其他模型算法
本文針對視頻圖像的識別,采用卷積LSTM模型在時域空域方向提取特征,實現(xiàn)動作識別。實驗結(jié)果證明:本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)模型算法在學(xué)習(xí)時空特征動作識別過程中更優(yōu)于傳統(tǒng)的單獨學(xué)習(xí)空間、時間特征,也優(yōu)于CNN+LSTM的結(jié)構(gòu),識別精度獲得了較大的提升,微分形式的采樣更有利于特征的提取。
[1]JI S W,XU W,YANG M,et al.3D Convolutional Neural Networks for Human Action Recognition [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,35(1):221-231.
[2]SCHUSTER M,PALIWAL K K.Bidirectional Recurrent Neural Networks [J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.
[3] HOCHREITER S,SCHMIDHUBER J.Long Short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[4]VEERIAH V,ZHUANG N F,QI G J.Differential Recurrent Neural Networks for Action Recognition[C]//proceedings of the IEEE International Conference on Computer Vision,2015:4041-4049.
[5]BACCOUCHE M,MAMALET F,WOLF C,et al.Sequential deep learning for human action recognition[C]//proceedings oftheInternationalConferenceonHumanBehavior Unterstanding,2011:29-39.
[6]SHI X J,CHEN Z R,WANG H,et al.Convolutional LSTM Network:A Machine Learning Approach for Precipitation Nowcasting [C]//Advances in Neural Information Processing Systems 28(NIPS),2015:802-810.
[7]SZEGEDY C,LIU W,JIA Y Q,et al.Goingdeeperwith convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2015:1-9.
[8]LIN M,CHEN Q,YAN S C.Network in Network[C]//International Conference on Learning Representations(ICLR),2014.
[9] REDMON J,FARHADI A.YOLO9000:Better,Faster,Stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017:6517-6525.
[10]SCHULDT C,LAPTEV I,CAPUTO B.Recognizing Human Actions:A Local SVM Approach[C]//Proceedings of the 17thInternational Conference on Pattern Recognition(ICPR),2004:32-36.
[11]GRUSHIN A,MONNER D D,REGGIA J A,et al.Robust human action recognition via long short-term memory[C]//International Joint Conference on Neural Networks,2014:1-8.
[12]SCHINDLER K,GOOL L V.Action snippets:How many frames does human action recognition require?[C]//IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8.