張君秋 趙建光
摘? 要:由于視頻數(shù)據(jù)大量,視覺內(nèi)容豐富,如何有效地提取視頻中的時(shí)間特征,有效地融合時(shí)空特征是動(dòng)作識(shí)別中的一個(gè)難題。針對(duì)這些困難,提出了一種基于注意力機(jī)制和三維卷積聚合的動(dòng)作識(shí)別新算法。為了驗(yàn)證該算法的有效性,在大型公共行為數(shù)據(jù)集UCF101上進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該算法具有良好的時(shí)間特征建模能力,有效地提高了動(dòng)作識(shí)別的精度。
關(guān)鍵詞:動(dòng)作識(shí)別;注意力機(jī)制;模型聚合;三維卷積;雙流架構(gòu)
中圖分類號(hào):TP391.4? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)17-0071-05
Action Recognition Based on Attention Mechanism and Three-dimensional Convolutional Aggregation
ZHANG Junqiu, ZHAO Jianguang
(Information Engineering College, Hebei University of Architecture, Zhangjiakou? 075000, China)
Abstract: Due to the large amount of video data and rich visual content, how to effectively extract the temporal features in the video and effectively fuse the spatiotemporal features is a difficult problem in action recognition. To solve these difficulties, a new algorithm for action recognition based on attention mechanism and three-dimensional convolutional aggregation is proposed. To verify the effectiveness of the algorithm, it is verified on the large public behavior dataset UCF101. The experimental results show that the algorithm has good temporal feature modeling ability, which effectively improves the accuracy of action recognition.
Keywords: action recognition; attention mechanisms; model aggregation; three-dimensional convolution; dual-stream architecture
0? 引? 言
近年來,動(dòng)作識(shí)別[1]已逐漸成為研究的熱點(diǎn)領(lǐng)域,并在智能監(jiān)控[2]和人機(jī)交互[3]中得到了廣泛的應(yīng)用。動(dòng)作識(shí)別任務(wù)的重點(diǎn)是如何準(zhǔn)確地判斷視頻中人體正在進(jìn)行的行為。在深度學(xué)習(xí)發(fā)展之前,動(dòng)作識(shí)別主要依靠手動(dòng)選擇的特征來對(duì)特定的視頻進(jìn)行分類。隨著視頻多樣性的增加,視頻動(dòng)作特征的表達(dá)逐漸從二維發(fā)展到三維,傳統(tǒng)手工特征提取的復(fù)雜性也在增加。深度學(xué)習(xí)為動(dòng)作識(shí)別的深入研究提供了一種新的方案。目前,基于深度學(xué)習(xí)的主流動(dòng)作算法包括雙流卷積網(wǎng)絡(luò)[4]、長短期記憶網(wǎng)絡(luò)[5]和三維卷積網(wǎng)絡(luò)[6]。
1? 相關(guān)工作
早期的動(dòng)作識(shí)別方法主要采用人工特征提取來進(jìn)行動(dòng)作表示。Davis等人利用空間中的人體等高線信息,利用時(shí)間上的運(yùn)動(dòng)能量圖和運(yùn)動(dòng)歷史圖來描述動(dòng)作的變化和動(dòng)作發(fā)生的順序[7]。丁重陽[8]等以人體骨骼特征作為動(dòng)作表示特征,利用雙線性分類器計(jì)算時(shí)空編碼特征的權(quán)重,獲得了較好的識(shí)別效果。
2012年,在ILSVRC圖像分類比賽中,Hinton隊(duì)伍使用AlexNet模型獲得冠軍,以神經(jīng)網(wǎng)絡(luò)為中心的深度學(xué)習(xí)開始發(fā)展。2014年,Simonyan等人提出了一種雙流卷積神經(jīng)網(wǎng)絡(luò)[9]模型??臻g網(wǎng)絡(luò)以RGB圖像作為輸入來描述空間特征,時(shí)間網(wǎng)絡(luò)以堆疊的光流圖像作為輸入來描述時(shí)間特征,將兩個(gè)網(wǎng)絡(luò)的最大分類分?jǐn)?shù)進(jìn)行融合,作為最終的識(shí)別結(jié)果。為了更好地整合外觀信息和運(yùn)動(dòng)信息,F(xiàn)eichtenhofer[10]等人研究了雙流卷積神經(jīng)網(wǎng)絡(luò)的多種融合方法。然而,上述方法只能捕捉到較短的時(shí)間依賴性。為了獲取較長的時(shí)間依賴性,謝昭[11]等人增加了LSTM網(wǎng)絡(luò)中的時(shí)空注意,利用空間注意抑制空間冗余信息,利用時(shí)間注意抑制大量無用的幀圖像。
動(dòng)作識(shí)別的研究雖然取得了一定的進(jìn)展,但在時(shí)間特征表征方面仍處于停滯狀態(tài),導(dǎo)致動(dòng)作識(shí)別不能廣泛應(yīng)用于實(shí)踐。針對(duì)這一問題,我們引入了時(shí)間注意機(jī)制,通過時(shí)間注意機(jī)制增強(qiáng)了連續(xù)圖像之間的運(yùn)動(dòng)信息,并利用三維卷積來聚合視頻幀級(jí)特征,有效地捕獲了圖像序列之間的相關(guān)性,并在一定程度上增強(qiáng)了長距離的時(shí)間特征。
2? 方法設(shè)計(jì)
針對(duì)存在的問題,我們提出了一種基于注意機(jī)制的三維卷積特征聚合的動(dòng)作識(shí)別新算法。該網(wǎng)絡(luò)結(jié)構(gòu)由雙流網(wǎng)絡(luò)的時(shí)空特征提取模塊、時(shí)間注意模塊、基于三維卷積的特征聚合模塊和雙流網(wǎng)絡(luò)的融合與識(shí)別模塊四個(gè)部分組成。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2.1? 視頻預(yù)處理
視頻預(yù)處理的兩個(gè)主要任務(wù)是光流圖像的提取和片段采樣。為了提取光流,首先通過OpenCV庫將數(shù)據(jù)集中的視頻轉(zhuǎn)換為圖像,然后利用總變化線性范數(shù)(TVL-1)提取光流。光流圖像示意圖如圖2所示。
由于視頻序列中存在大量冗余幀,為了消除冗余幀信息,采用稀疏采樣策略,在一定的時(shí)間間隔內(nèi)獲取一張圖像,組成序列數(shù)據(jù),以此作為網(wǎng)絡(luò)模型的輸入。
2.2? 雙流網(wǎng)絡(luò)的時(shí)空特征提取模塊
時(shí)空特征提取模塊采用雙流卷積網(wǎng)絡(luò)結(jié)構(gòu)。根據(jù)不同的輸入源,一個(gè)分支是空間流網(wǎng)絡(luò)分支,以RGB圖像作為輸入源,提取視頻圖像的空間特征;另一個(gè)分支是運(yùn)動(dòng)流網(wǎng)絡(luò)分支,利用堆疊的光流圖像作為輸入源,提取連續(xù)視頻圖像的時(shí)間特征。這兩個(gè)網(wǎng)絡(luò)分支都使用在大型數(shù)據(jù)集ImageNet[12]上預(yù)先訓(xùn)練過的ResNet101網(wǎng)絡(luò)模型來提取高級(jí)語義特征。圖3就是一個(gè)ResNet的殘差學(xué)習(xí)單元。
2.3? 時(shí)間注意模塊
由于進(jìn)入三維卷積網(wǎng)絡(luò)的信道輸入對(duì)網(wǎng)絡(luò)模型識(shí)別結(jié)果的貢獻(xiàn)不同,因此引入注意模塊來建立各信道之間的相關(guān)性,以增強(qiáng)特征圖之間關(guān)鍵信息的提取。本文在時(shí)空特征提取模塊后面引入了SENet[13]通道注意力模塊,用來連接特征提取模塊和三維的聚合網(wǎng)絡(luò)。通道注意模塊結(jié)構(gòu)如圖4所示。
注意力機(jī)制的兩個(gè)重要步驟是壓縮操作和激勵(lì)操作。首先,在空間維度上進(jìn)行全局平均池化操作,以融合特征,并對(duì)特征圖進(jìn)行壓縮:
2.4? 基于三維卷積特征聚合模塊的雙流網(wǎng)絡(luò)融合與識(shí)別模塊
由于數(shù)據(jù)預(yù)處理過程中的稀疏采樣步驟,導(dǎo)致相鄰的兩幀之間存在較大的時(shí)間間隔,因此本文選擇三維神經(jīng)卷積網(wǎng)絡(luò)來對(duì)相鄰圖像之間的相關(guān)性進(jìn)行建模。將融入時(shí)間注意加權(quán)的信道輸入到三維卷積網(wǎng)絡(luò)模塊中,進(jìn)行特征聚合。本文設(shè)計(jì)的三維卷積網(wǎng)絡(luò)的具體結(jié)構(gòu)如表1所示。在訓(xùn)練過程中為了加快網(wǎng)絡(luò)的收斂速度,避免過擬合的產(chǎn)生,在每個(gè)卷積過程中都增加了一個(gè)BN層。
經(jīng)過三維卷積聚合模塊生成多個(gè)特征向量,然后分別用一個(gè)分類器得到每個(gè)分支的分類結(jié)果。最后,將時(shí)間特征聚合和空間特征聚合這兩個(gè)分支進(jìn)行融合,得到最終的分類結(jié)果。
3? 實(shí)驗(yàn)及結(jié)果分析
3.1? 數(shù)據(jù)集
本文選用的行為識(shí)別數(shù)據(jù)集為UFC101[14],采用01劃分來劃分訓(xùn)練集和測(cè)試集。視頻種類有101種,主要包含人和物體交互、只有肢體動(dòng)作、人與人交互、玩音樂器材和各類運(yùn)動(dòng)5大類動(dòng)作。
3.2? 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
實(shí)驗(yàn)中的硬件環(huán)境如表2所示。
網(wǎng)絡(luò)訓(xùn)練采用小批量樣本迭代的方式,由于考慮到顯卡的性能以及收斂速度等多方面的因素影響,設(shè)置批處理大小值為4,初始學(xué)習(xí)率為0.001。網(wǎng)絡(luò)模型訓(xùn)練參數(shù)設(shè)置如表3所示。
實(shí)驗(yàn)中使用了交叉熵?fù)p失函數(shù)[15]。目標(biāo)函數(shù)表示為:
3.3? 網(wǎng)絡(luò)訓(xùn)練過程
為了降低實(shí)驗(yàn)過程中過擬合的風(fēng)險(xiǎn),增加了訓(xùn)練的樣本數(shù)量,在網(wǎng)絡(luò)訓(xùn)練前進(jìn)行圖像增強(qiáng)處理,對(duì)處理完的RGB圖像和光流圖像進(jìn)行角裁剪和水平翻轉(zhuǎn)操作,以此來擴(kuò)大數(shù)據(jù)集的規(guī)模。為了加速網(wǎng)絡(luò)模型的收斂速度,同時(shí)達(dá)到更好的訓(xùn)練效果,對(duì)網(wǎng)絡(luò)模型進(jìn)行了預(yù)訓(xùn)練。使用現(xiàn)有模型對(duì)所設(shè)計(jì)的網(wǎng)絡(luò)模型進(jìn)行初始化,后續(xù)在UCF101數(shù)據(jù)集上繼續(xù)訓(xùn)練進(jìn)行參數(shù)的調(diào)整,以此獲得最優(yōu)的網(wǎng)絡(luò)模型。
3.4? 實(shí)驗(yàn)結(jié)果與分析
網(wǎng)絡(luò)模型在經(jīng)過100次迭代后,訓(xùn)練損失趨于平穩(wěn),說明訓(xùn)練基本完成。網(wǎng)絡(luò)的損失變化曲線如圖5所示。網(wǎng)絡(luò)在迭代20次之前,損失變化十分明顯,之后損失變化緩慢,經(jīng)過100次的迭代后,網(wǎng)絡(luò)模型訓(xùn)練的損失趨于穩(wěn)定,由此可見網(wǎng)絡(luò)的預(yù)測(cè)值和真實(shí)值越來越接近,其準(zhǔn)確率也達(dá)到了90.7%。
由于本文算法參數(shù)量較大且計(jì)算成本高,對(duì)訓(xùn)練好的網(wǎng)絡(luò)模型結(jié)構(gòu)和參數(shù)進(jìn)行微調(diào)。為解決網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、訓(xùn)練速度較慢的問題,引入加速神經(jīng)網(wǎng)絡(luò)模塊,加速網(wǎng)絡(luò)收斂速度,同時(shí)允許使用更大的學(xué)習(xí)率,使得訓(xùn)練更快;且BatchNorm(BN)能將非線性層輸入分布更多的拉到0附近,在使用sigmoid等非線性層時(shí)梯度不容易消失。如圖6所示,加入BN模塊的網(wǎng)絡(luò)模型的損失值更貼近于0。
為了提高模型整體的準(zhǔn)確率,避免網(wǎng)絡(luò)輸出都是輸入的線性組合,使得深層神經(jīng)網(wǎng)絡(luò)有意義,引入了LeakyReLU(LR)函數(shù),如圖7所示,加入LR函數(shù)的網(wǎng)絡(luò)模型的損失值更貼近于0。
針對(duì)網(wǎng)絡(luò)模型的結(jié)構(gòu)和參數(shù)微調(diào),分別對(duì)比了基礎(chǔ)網(wǎng)絡(luò)和加入BN模塊、融入LR函數(shù)的網(wǎng)絡(luò)在UCF101數(shù)據(jù)集上的分類結(jié)果,基礎(chǔ)網(wǎng)絡(luò)指未加入BN模塊和LR函數(shù)的網(wǎng)絡(luò)。比較的結(jié)果如表4所示。從表格4中可以看出,對(duì)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行微調(diào)在對(duì)識(shí)別準(zhǔn)確率影響不大的情況下,大大提高了網(wǎng)絡(luò)模型的收斂速度和模型的穩(wěn)定性。
4? 模型評(píng)價(jià)
為了能直觀地展示本文算法的優(yōu)勢(shì),與目前在行為識(shí)別領(lǐng)域先進(jìn)的深度學(xué)習(xí)算法進(jìn)行了比較,表5比較了UCF101數(shù)據(jù)集上各種行為識(shí)別算法的Top-1精度??梢?,本文的方法在一定程度上取得了良好的識(shí)別效果。但由于硬件等資源的限制,并未完全解決識(shí)別速度問題。在識(shí)別速度上還有一定的提升空間,下一步的研究工作還要注重識(shí)別速度和網(wǎng)絡(luò)輕量化模型的構(gòu)建,在保證識(shí)別準(zhǔn)確率的前提下,盡可能地降低模型的復(fù)雜度。
5? 結(jié)? 論
本文提出了注意機(jī)制和三維聚合的行為識(shí)別算法。通過對(duì)UCF101數(shù)據(jù)集的測(cè)試,結(jié)果表明該方法具有較好的識(shí)別效果。雖然行為識(shí)別目前已經(jīng)取得了一定的研究成果,但仍沒有非常成熟的識(shí)別框架,在實(shí)際的場(chǎng)景中應(yīng)用還存在不足。目前針對(duì)光流計(jì)算成本高、三維卷積參數(shù)較多且大多數(shù)都是基于視頻片段的方法,研究者們更關(guān)注于輕量化模塊和卷積維數(shù)更高的殘差4D模塊,這也成為未來行為識(shí)別的重要研究目標(biāo)。
參考文獻(xiàn):
[1] 朱相華,智敏.基于改進(jìn)深度學(xué)習(xí)方法的人體動(dòng)作識(shí)別綜述 [J].計(jì)算機(jī)應(yīng)用研究,2022,39(2):342-348.
[2] SHARIF A,KHAN M A,JAVED K. Intelligent Human Action Recognition:A Framework of Optimal Features Selection based on Euclidean Distance and Strong Correlation [J].Control Engineering and Applied Informatics,2019,21(3):3-11.
[3] 劉均發(fā).面向人機(jī)交互的3D人體姿態(tài)估計(jì)與行為識(shí)別研究 [D].廣州:廣東工業(yè)大學(xué),2021.
[4] 丁雪琴,朱軼昇,朱浩華,等.基于時(shí)空異構(gòu)雙流卷積網(wǎng)絡(luò)的行為識(shí)別 [J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(3):154-158.
[5] HOCHREITER S,SCHMIDHUBER J. Long short-term memory [J].Neural Computation,1997,9(8):1735-1780.
[6] 齊琦,錢慧芳.基于融合3DCNN神經(jīng)網(wǎng)絡(luò)的行為識(shí)別[J].電子測(cè)量技術(shù),2019,42(22):140-144.
[7] RODR?GUEZ N D,CU?LLAR M P,LILIUS J,et al. A survey on ontologies for human behavior recognition [J].ACM Computing Surveys,2014,46(4):1-33.
[8] 丁重陽,劉凱,李光,等.基于時(shí)空權(quán)重姿態(tài)運(yùn)動(dòng)特征的人體骨架行為識(shí)別研究 [J].計(jì)算機(jī)學(xué)報(bào),2020,43(1):29-40.
[9] WANG X H ,GAO L L,WANG P,et al.Two-Stream 3-D convNet Fusion for Action Recognition in Videos With Arbitrary Size and Length [J].IEEE Transactions on Multimedia,2018,20(3):634-644.
[10] FEICHTENHOFER C,PINZ A,ZISSERMAN A. Convolutional Two-Stream Network Fusion for Video Action Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:1933-1941.
[11] 謝昭,周義,吳克偉,等.基于時(shí)空關(guān)注度LSTM的行為識(shí)別 [J].計(jì)算機(jī)學(xué)報(bào),2021,44(2):261-274.
[12] RUSSAKOVSKY O,DENG J,SU H,et al. ImageNet Large Scale Visual Recognition Challenge [J/OL].arXiv:1409.0575 [cs.CV].(2014-09-01).https://arxiv.org/abs/1409.0575v3.
[13] CHEN Q,LIU L,HAN R,et al. Image identification method on high speed railway contact network based on YOLO v3 and SENet [C]//2019 Chinese Control Conference (CCC).Guangzhou:IEEE,2019:8772-8777.
[14] XUE F,JI H B,ZHANG W B,et al. Attention-based spatial–temporal hierarchical ConvLSTM network for action recognition in videos [J].IET Computer Vision,2019,13(8):708-718.
[15] 周博言.基于殘差神經(jīng)網(wǎng)絡(luò)的代價(jià)敏感人臉識(shí)別研究 [D].南京:南京大學(xué),2019.
[16] KARPATHY A,TODERICI G,SHETTY S,et al. Large-scale video classification with convolutional neural networks [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus:IEEE,2014:1725–1732.
[17] CARREIRA J,ZISSERMAN A. Quo vadis,action recognition? A new model and the kinetics dataset [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:4724-4733.
[18] TRAN D,BOURDEV L,F(xiàn)ERGUS R,et al. Learning spatiotemporal features with 3D convolutional networks [C]//2015 IEEE International Conference on Computer Vision(ICCV).Santiago:IEEE,2015:4489-4497.
[19] SIMONYAN K,ZISSERMAN A. Two-stream convolutional networks for action recognition [J/OL].arXiv:1406.2199 [cs.CV].(2014-06-09).https://arxiv.org/abs/1406.2199.
[20] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al. Long-term recurrent convolutional networks for visual recognition and description [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston:IEEE,2015:2625-2634.
作者簡(jiǎn)介:張君秋(1999—),女,漢族,河北唐山人,碩士研究生在讀,研究方向:計(jì)算機(jī)視覺;通訊作者:趙建光(1978—),男,漢族,河北大名人,副教授,碩士生導(dǎo)師,博士,研究方向:感知互聯(lián)與智能計(jì)算。