曾明如 鄭子勝 羅順
摘 ?要: 為了更好地獲取視頻中連續(xù)幀之間的時間信息,提出一種新穎的雙流卷積網絡結構用于視頻的人體行為識別。該網絡在不改變雙流卷積中空間流結構的情況下,在時間流的卷積模型中加入長短時記憶(LSTM)網絡,并且時間流的訓練相較于以往的雙流卷積架構采用端對端的訓練方式。同時在新的網絡結構上嘗試使用組合誤差函數來獲得更好的光流信息。在KTH和UCF101兩個通用人體行為視頻數據集上進行實驗,實驗結果證明,提出的使用組合誤差函數結合LSTM的雙流卷積與普通的雙流卷積、使用以往誤差函數結合LSTM的雙流卷積相比,識別率有明顯的提高。
關鍵詞: LSTM; 雙流卷積; 人體行為識別; 卷積神經網絡; 光流信息; 模型融合
中圖分類號: TN911.73?34; TP391.41 ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)19?0037?04
Abstract: In order to better obtain the time information between consecutive frames in the video, a novel two?stream convolutional network structure is proposed for recognition of human behavior in the video. In the network, a long?short?time memory (LSTM) network is added into the convolution model of the temporal stream without changing the spatial stream structure in the double stream convolution, and in compared with the previous two?stream convolution architecture, the end?to?end training mode is used in the training of the temporal stream. An attempt to use combined error function in the new network structure was made to obtain the better optical flow information. The experiment was carried out on two universal human behavior video datasets of KTH and UCF101. The results verify that the proposed two?stream convolution combined with LSTM has more significant recognition rate in comparison with the conventional two?stream convolution.
Keywords: LSTM; two?stream convolution; human behavior recognition; convolutional nerual network; optical flow information; model fusion
人體行為識別領域在過去幾年飛速發(fā)展,但是視頻中的人體行為識別仍然面臨著巨大的挑戰(zhàn)。相比靜態(tài)圖像分類,視頻中的時間流信息為識別提供了一個重要的線索,因為大部分動作可以通過時間流中的運動信息準確地識別出來。因此近年來,大部分研究都是針對如何從視頻幀中獲取視頻的時間流信息,從而得到運動信息[1?2]。
最初,傳統手工提取特征的方法在行為識別領域興起了一段時間,如文獻[3]提出的改進稠密軌跡(IDT)用來表示運動信息的特征或基于時空興趣點的特征。接著,文獻[4]提出單一的卷積結構在視頻處理中比傳統的手工提取方法更快,但是表現卻不如傳統的手工提取方法。因為單一的卷積結構存在難以獲取視頻幀之間運動信息的問題。隨后,文獻[5]提出雙流卷積結構解決了這個問題。雙流卷積結構在以往的結構上增加了一個額外的卷積結構(時間流)來計算時間流信息,新的結構相較于單一的卷積結構在準確率上有了明顯的提高,并且相比傳統的手工提取特征的方法在視頻處理中更快。
雙流卷積結構的不足在于,在視頻分類中經常使用抽樣幀作為輸入數據,而這個可能導致視頻級別的標簽信息不完整甚至缺失[6]。本文的創(chuàng)新之處在于,在時間流中加入長短時記憶(Long?Short?Time Memory,LSTM)網絡,LSTM是在循環(huán)神經網絡的基礎上加入了記憶單元來存儲信息,使得它在視頻幀處理中更容易獲得長距離的光流信息,從而避免使用視頻中的抽樣幀作為輸入數據。并且在時間卷積流的訓練過程中,相比以往的雙流卷積結構采用端對端的訓練方式,減少了對輸入數據的額外處理。同時,在新的網絡結構上嘗試使用新的誤差函數來獲得更好的光流信息。
雙流卷積網絡通過模仿人體視覺過程,將視頻的處理分為兩個流(空間流和時間流)[7],如圖1所示。其中,每個流都使用一個深層的卷積網絡與一個softmax分類器連接,最終將兩個流的分類結果進行融合。
從以上多個實驗可知:結合LSTM的雙流卷積神經網絡對人體識別的準確率有較大的性能提升。新的網絡結構在UCF101數據集上進行了實驗,獲得了78.1%的準確率,比雙流卷積神經網絡的識別準確率高。
本文在雙流卷積神經網絡的基礎上進行了改進,并在UCF101數據集上進行了實驗驗證。本文設計的網絡模型,在雙流卷積神經網絡中的時間流結構中引入LSTM網絡,其使用記憶單元來存儲之前的信息,使得新的網絡能更好地獲取更長的視頻幀信息。同時,本文使用的網絡采用新的誤差函數,新的誤差函數通過將標準像素重建誤差函數、平滑誤差函數和SSIM誤差函數進行整合,利用三個誤差函數的優(yōu)點從視頻幀獲取更好的光流信息。從UCF101數據集中的實驗證明,結合LSTM的雙流卷積神經網絡在一定程度上獲取了更好的光流信息,較大幅度地提高了雙流卷積網絡的識別準確率。同時,在運動背景復雜且包含相機運動的情況下,結合LSTM雙流卷積神經網絡的表現也比雙流卷積神經網絡更好。
參考文獻
[1] CHEN B. Deep learning of invariant spatio?temporal features from video A [D]. Vancouver: The University of British Columbia, 2010.
[2] YEFFET L, WOLF L. Local trinary patterns for human action recognition [C]// 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 492?497.
[3] WANG H, SCHMID C. Action recognition with improved trajectories [C]// IEEE International Conference on Computer Vision. Sydney: IEEE, 2014: 3551?3558.
[4] KARPATHY A, TODERICI G, SHETTY S, et al. Large?scale video classification with convolutional neural networks [C]// IEEE Conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 1725?1732.
[5] SIMONYAN K, ZISSERMAN A. Two?stream convolutional networks for action recognition in videos [J]. Advances in neural information processing systems, 2014, 1(4): 568?576.
[6] JOE Y H N, MATTHEW H, SUDHEENDRA V, et al. Beyond short snippets: deep networks for video classification [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE, 2015: 4694?4702.
[7] 王昕培.基于雙流CNN的異常行為分類算法研究[D].哈爾濱:哈爾濱工業(yè)大學,2017.
WANG Xinpei. Research on two stream CNN based abnormal bahavior classification [D]. Harbin: Harbin Institute of Techno?logy, 2017.
[8] DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long?term recurrent convolutional networks for visual recognition and description [J]. IEEE transactions on pattern analysis & machine intelligence, 2014, 39(4): 677?691.
[9] ZHAO H, GALLO O, FROSIO I, et al. Loss functions for image restoration with neural networks [J]. IEEE transactions on computational imaging, 2017, 3(1): 47?57.
[10] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis & machine intelligence, 2012, 35(1): 221?231.