国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙流獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)的人體動(dòng)作識(shí)別

2020-07-23 06:27:48葛鵬花智敏于華郝巖
現(xiàn)代電子技術(shù) 2020年4期
關(guān)鍵詞:特征融合特征提取

葛鵬花 智敏 于華 郝巖

摘? 要: 針對(duì)RGB視頻中遮擋物以及其他外界因素對(duì)人體動(dòng)作識(shí)別產(chǎn)生影響,以及識(shí)別精確度有待提升的問題,提出基于雙流獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)人體動(dòng)作識(shí)別算法。在提取特征方面,時(shí)間網(wǎng)絡(luò)采用分層IndRNN對(duì)時(shí)序中3D骨架坐標(biāo)信息進(jìn)行特征提取;空間網(wǎng)絡(luò)采用深層的IndRNN對(duì)每個(gè)時(shí)刻骨架的空間位置關(guān)系進(jìn)行特征提取,其中骨架的空間結(jié)構(gòu)采用了圖遍歷的方法。對(duì)于空間網(wǎng)絡(luò)和時(shí)間網(wǎng)絡(luò)的特征融合采用加權(quán)求和的方式,最后用softmax對(duì)動(dòng)作進(jìn)行分類。在3D骨架動(dòng)作數(shù)據(jù)集(NTU RGB+D)以及交互數(shù)據(jù)集(SBU Interaction Dataset)上驗(yàn)證了模型的有效性。

關(guān)鍵詞: 人體動(dòng)作識(shí)別; 雙流網(wǎng)絡(luò); 獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò); 特征提取; 特征融合; 模型驗(yàn)證

中圖分類號(hào): TN915?34; TP391.4? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)04?0137?05

Human action recognition based on two?stream independently recurrent neural network

GE Penghua, ZHI Min, YU Hua, HAO Yan

(College of Computer Science and Technology, Inner Mongolia Normal University, Hohhot 010020, China)

Abstract: An algorithm of human action recognition based on two?stream independently recurrent neural network(IndRNN) is proposed to avoid the influence of obstructions and other external factors in RGB video on human action recognition and improve its recognition accuracy. In terms of extracting features, the hierarchical IndRNN is used in temporal network to extract the coordinate information of 3D skeleton in time series, and the deep IndRNN is used in spatial network to perform the feature extraction of the spatial position relation of the skeleton at each moment, in which the spatial structure of the skeleton is extracted by means of the graph traversal method. The feature fusion of spatial network and temporal network is carried out with the weighted sum, and the action is classified with the Softmax. The validity of the model is verified on the 3D skeletal motion dataset (NTU RGB + D) and interaction datasets (SBU Interaction Dataset).

Keywords: human action recognition; IndRNN; two?stream network; feature extraction; feature fusion; model validation

0? 引? 言

人體動(dòng)作識(shí)別不僅在機(jī)器人服務(wù)上有很大的應(yīng)用前景,而且對(duì)醫(yī)療、公共安全、人群異常事件分析等方面也發(fā)揮著舉足輕重的作用。但是受到背景雜亂、光照條件、影像采集設(shè)備各異、人體動(dòng)作庫類別不足等因素的影響,人體動(dòng)作識(shí)別仍然面臨著很大的挑戰(zhàn)。近年來人體數(shù)據(jù)庫在動(dòng)作類別、不同視覺角度等方面的擴(kuò)充,以及深度傳感器在人體上的應(yīng)用,為研究動(dòng)作識(shí)別提供了新的機(jī)會(huì),越來越多的深度學(xué)習(xí)方法被應(yīng)用到人體行為識(shí)別上。

根據(jù)調(diào)查基于深度學(xué)習(xí)的人體動(dòng)作識(shí)別研究取得了一系列的成果[1],其中基于RGB視頻主要利用CNN,3DCNN[2?4]提取人體的空間結(jié)構(gòu)特征和連續(xù)幀中的運(yùn)動(dòng)信息或者CNN與RNN相結(jié)合提取空間與時(shí)間關(guān)系的特征[5?7]?;诠羌芎蜕疃葓D主要是利用RNN及其變體提取關(guān)節(jié)點(diǎn)之間時(shí)間維度特征進(jìn)行動(dòng)作分類,另外還有部分文獻(xiàn)中采用CNN將骨架關(guān)節(jié)信息編碼為圖像信息[8?10]。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[11]能夠?qū)χ暗妮斎牒蜖顟B(tài)進(jìn)行存儲(chǔ),對(duì)獲取時(shí)間動(dòng)態(tài)的信息發(fā)揮著很大的優(yōu)勢(shì)。文獻(xiàn)[12]提出了分層循環(huán)神經(jīng)網(wǎng)絡(luò),將人體分為五個(gè)部分,分別輸入五個(gè)子網(wǎng)訓(xùn)練它們,最后將提取的特征輸入到一個(gè)單層感知機(jī)中決定最終的動(dòng)作類別。而文獻(xiàn)[13]在LSTM的基礎(chǔ)上將其記憶單元分為基于部件的子單元網(wǎng)絡(luò)——P?LSTM網(wǎng)絡(luò),它能夠獨(dú)立地記憶每個(gè)身體部件的上下文信息。文獻(xiàn)[14]提出雙流循環(huán)神經(jīng)網(wǎng)絡(luò),分別對(duì)時(shí)間通道和空間通道獲取的特征信息結(jié)合起來更好地保證了關(guān)節(jié)的空間信息。文獻(xiàn)[15]提出了一個(gè)可以捕獲相鄰關(guān)節(jié)時(shí)空信息的ST?LSTM網(wǎng)絡(luò),并將關(guān)節(jié)轉(zhuǎn)換為樹狀結(jié)構(gòu)作為框架的輸入。文獻(xiàn)[16]將全連接層作為前饋融合層,可以自動(dòng)結(jié)合所有關(guān)節(jié)之間的運(yùn)動(dòng)信息。Zhang S等人首先計(jì)算8個(gè)幾何特征,如關(guān)節(jié)、線和平面之間的距離、方向和角度[17]。然后,將各種特征輸入到多層LSTM網(wǎng)絡(luò)中。

卷積神經(jīng)網(wǎng)絡(luò)對(duì)靜態(tài)圖片特征提取有著無與倫比的優(yōu)勢(shì),近年來也逐漸被使用到視頻特征處理方面[18]。然而由于循環(huán)神經(jīng)網(wǎng)絡(luò)的特殊性,大多數(shù)研究者將其應(yīng)用于語音識(shí)別、機(jī)器翻譯、圖像描述等方面,而對(duì)于視頻人體動(dòng)作識(shí)別的相關(guān)研究相對(duì)比較少,且現(xiàn)有的循環(huán)神經(jīng)網(wǎng)絡(luò)方法精確度有待提高。本文采用Li S等人提出的獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(IndRNN)模型構(gòu)建雙流獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)[19],能夠有效地結(jié)合時(shí)間特征以及空間特征對(duì)人體動(dòng)作進(jìn)行識(shí)別,有效地提高了人體動(dòng)作的識(shí)別精度。

1? 循環(huán)神經(jīng)網(wǎng)絡(luò)

1.1? 傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的結(jié)構(gòu)與前饋神經(jīng)網(wǎng)絡(luò)相比就是在神經(jīng)元之間形成了一個(gè)定向循環(huán),其中上一時(shí)刻隱藏狀態(tài)和此時(shí)的輸入同時(shí)作為神經(jīng)元的輸入,所以網(wǎng)絡(luò)能夠?qū)η耙粫r(shí)刻的信息進(jìn)行記憶。

狀態(tài)更新可以表示為:

[ht=δ(uht-1+wxt+b)]? ? ? ? ?(1)

式中:[ht]為隱藏層狀態(tài);u和w分別為循環(huán)權(quán)重和輸入權(quán)重;b為偏置。

理論上循環(huán)神經(jīng)網(wǎng)絡(luò)能夠處理任意長(zhǎng)度的序列,但是在訓(xùn)練過程中由于權(quán)重的重復(fù)相乘會(huì)產(chǎn)生梯度消失和爆炸的問題以及很難進(jìn)行長(zhǎng)期的學(xué)習(xí),如下:

[ht=δ(u(uht-2+wxt-1+b)+wxt+b)? ? =δ(u2ht-2+u(wxt-1+b)+wxt+b)] (2)

1.2? 長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)

為了解決長(zhǎng)序列依賴的問題,LSTM中引入了單獨(dú)的記憶單元,記憶可從上個(gè)時(shí)刻傳遞到下個(gè)時(shí)刻,但是有些事情做過后就不能再記著,所以在記憶單元中加入了門控機(jī)制。

門的主要結(jié)構(gòu)是使用sigmoid神經(jīng)網(wǎng)絡(luò),sigmoid通過輸出一個(gè)大于0小于1之間的數(shù)值,來控制當(dāng)前輸入有多少信息量。

LSTM在一定程度上緩解了梯度消失和梯度爆炸的問題,但是LSTM使用sigmoid函數(shù)和雙曲正切函數(shù)會(huì)使梯度隨圖層衰減,對(duì)于構(gòu)建一個(gè)深層的網(wǎng)絡(luò)就變得很困難。

1.3? 獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)

獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)不同之處就是在同一層的神經(jīng)元之間沒有連接,神經(jīng)元只接收此時(shí)的輸入以及前一時(shí)刻它自己的隱藏狀態(tài),所以能夠?qū)崿F(xiàn)并行運(yùn)算,加快訓(xùn)練速度。傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)與獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)隱藏層之間的連接對(duì)比圖如圖1所示。

IndRNN的狀態(tài)更新可以表示為:

[ht=ReLu(wxt+u⊙ht-1+b)] (3)

不同神經(jīng)元之間的相關(guān)性可以通過堆疊兩層或多層進(jìn)行利用。在這種情況下,下一層中的每個(gè)神經(jīng)元處理前一層中所有神經(jīng)元的輸出。對(duì)于第n個(gè)神經(jīng)元,可以得到隱藏狀態(tài)如下:

[hn,t=ReLu(wnxt+unhn,t-1+bn)] (4)

式中,wn和un分別是第n行的輸入權(quán)重和循環(huán)權(quán)重。IndRNN基本的循環(huán)結(jié)構(gòu)如圖2所示,可以通過堆疊基本的結(jié)構(gòu)構(gòu)建更深更長(zhǎng)的網(wǎng)絡(luò)。

獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)采用ReLu激活函數(shù)有效地解決了LSTM的不足,不僅可以有效地防止梯度爆炸和消失,還可以構(gòu)建更深更長(zhǎng)的網(wǎng)絡(luò),同時(shí)還能讓網(wǎng)絡(luò)長(zhǎng)期學(xué)習(xí)。

2? 雙流獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

人體的不同行為能夠通過骨架的主要關(guān)節(jié)點(diǎn)運(yùn)動(dòng)來表現(xiàn),關(guān)節(jié)點(diǎn)隨時(shí)間運(yùn)動(dòng)的時(shí)序特征通過循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層獲得,而骨骼的空間結(jié)構(gòu)信息則需要以圖遍歷的形式輸入到空間網(wǎng)絡(luò)中。所以本文采取雙流獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò),其中在輸入骨骼數(shù)據(jù)之前先對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,為了防止過擬合每一層之間都加入了dropout層。通過堆疊多層使網(wǎng)絡(luò)能夠有效的學(xué)習(xí),對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)IndRNN在六層的時(shí)候效率最高,所以在時(shí)間和空間網(wǎng)絡(luò)都采用六層網(wǎng)絡(luò)。在特征融合方面采用加權(quán)求和的方式,得到最終的分類結(jié)果,整體框架如圖3所示。

2.1? 時(shí)間獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)

人的身體被劃分為五個(gè)部分:兩個(gè)胳膊、軀干、兩條腿,身體運(yùn)動(dòng)是靠這五個(gè)部分中的一個(gè)部分或者幾個(gè)部分相互配合產(chǎn)生。本文將時(shí)間網(wǎng)絡(luò)結(jié)構(gòu)劃分為五個(gè)子網(wǎng)絡(luò),分別學(xué)習(xí)這五個(gè)部分的特征,每個(gè)子網(wǎng)通過堆疊多層構(gòu)建深層網(wǎng)絡(luò),數(shù)據(jù)X=(X1,X2,…,X5)分別作為各個(gè)子網(wǎng)的輸入,用向量[Xit]表示t時(shí)刻第i層子網(wǎng)的輸入,t時(shí)刻隱藏狀態(tài)為:

[hti=ReLu(wixti+ui⊙ht-1i+bi)]? ?(5)

不同關(guān)節(jié)點(diǎn)[Xtij]的相關(guān)性通過堆疊多層IndRNN循環(huán)結(jié)構(gòu)(見圖2)可以得到,子網(wǎng)絡(luò)最終的隱藏狀態(tài)可以表示為:

[htij=ReLu(wijxt+uijht-1ij+bij)]? (6)

將子網(wǎng)絡(luò)的特征進(jìn)行融合后輸入到下一層IndRNN得到整個(gè)身體的運(yùn)動(dòng)特征,最后輸入到具有softmax激活函數(shù)的全連接層映射為動(dòng)作類,結(jié)果可表示為:

[y=softmax(ht)] (7)

式中:[y]表示預(yù)測(cè)標(biāo)簽值;[ht]表示為整個(gè)身體的運(yùn)動(dòng)特征。訓(xùn)練過程中使用交叉熵方法使得輸出標(biāo)簽[y]與真實(shí)標(biāo)簽yi差距達(dá)到最小,如下:

[loss=-yilog(y)]? ? ? ? ? ? ? (8)

時(shí)間分層IndRNN結(jié)構(gòu)如圖4所示。

2.2? 空間獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)

將人體骨架視作圖結(jié)構(gòu),根據(jù)骨骼中相鄰關(guān)節(jié)點(diǎn)的關(guān)系采用圖遍歷的方法將骨架信息轉(zhuǎn)化為序列,然后作為空間網(wǎng)絡(luò)的輸入,遍歷順序以人體脊柱關(guān)節(jié)為起始點(diǎn),先遍歷左胳膊,然后遍歷右胳膊、軀干左腿、右腿,最后返回到脊柱中心的起點(diǎn)位置,采用遍歷的方法能夠更好地模擬關(guān)節(jié)間的空間依賴性??臻g網(wǎng)絡(luò)的結(jié)構(gòu)采用堆疊的形式,狀態(tài)更新原理與時(shí)間網(wǎng)絡(luò)的子網(wǎng)絡(luò)相同。以NTU RGB+D數(shù)據(jù)庫中的人體骨架為例[13],遍歷順序?yàn)椋?1?9?10?11?12?25?24?25?12?11?10?9?21?5?6?7?8?23?22?23?8?7?6?5?3?4?3?21?2?1?17?18?19?20?19?18?17?1?13?14?15?16?15?14?13?1?2?21,如圖5所示。

2.3? 特征融合

時(shí)間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)分別提取骨骼特征對(duì)動(dòng)作映射為n個(gè)類。然后利用加權(quán)求和的方式,得到最終的分類結(jié)果,特征融合公式為:

[Y=w1xT+w2xPw1+w2=1] (9)

式中:xT,xP分別表示時(shí)間和空間特征;w1,w2分別為時(shí)間特征和空間特征的權(quán)重。根據(jù)式(9)能夠計(jì)算出融合時(shí)間特征以及空間特征的加權(quán)和,最終映射為動(dòng)作類別。

3? 實(shí)? 驗(yàn)

3.1? 數(shù)據(jù)集

NTU RGB+D是當(dāng)前最大的基于Kinect的人體動(dòng)作識(shí)別數(shù)據(jù)集,它包括RGB視頻、深度圖序列、3D骨架數(shù)據(jù)以及紅外視頻等一共56 880個(gè)動(dòng)作樣本。3D骨架數(shù)據(jù)每個(gè)幀包含25個(gè)主要身體關(guān)節(jié)的坐標(biāo)信息。數(shù)據(jù)集中包含了60個(gè)不同的行為類,分別為40個(gè)日常生活類(包括喝水、搖頭、擦臉等)、9個(gè)疾病類(包括頭疼、背疼、嘔吐等)、11個(gè)交互類(包括擁抱、握手等)。這個(gè)數(shù)據(jù)集有兩個(gè)標(biāo)準(zhǔn)的評(píng)估標(biāo)準(zhǔn)。 第一個(gè)是跨受試者評(píng)估協(xié)議,其中一半受試者用來訓(xùn)練,另一半用于測(cè)試。第二個(gè)是交叉視角,其中兩個(gè)視角2和3用于訓(xùn)練,視角1用來測(cè)試。

SBU Interaction Dataset數(shù)據(jù)集中包含8類交互動(dòng)作,共有282個(gè)序列,每個(gè)骨架由15個(gè)關(guān)節(jié)表示,每幀由2個(gè)骨架組成。將數(shù)據(jù)集分為5個(gè)交叉集,然后選4個(gè)交叉集進(jìn)行訓(xùn)練,1個(gè)作為驗(yàn)證,然后對(duì)每種交叉驗(yàn)證的準(zhǔn)確率求平均值作為最后的準(zhǔn)確率。

3.2? 實(shí)驗(yàn)細(xì)節(jié)

在實(shí)驗(yàn)中,本文采用pytorch深度學(xué)習(xí)框架,并利用NVIDIA推出的Cuda 9.0版本對(duì)IndRNN基本的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行加速。由于IndRNN每一層中神經(jīng)元相互獨(dú)立,在程序運(yùn)行過程中能夠充分利用GPU的并行運(yùn)算能力。數(shù)據(jù)集中的每個(gè)序列包含一個(gè)或者兩個(gè)骨架,首先將兩個(gè)骨架序列作為輸入,如果只有一個(gè)骨架時(shí)將另外一個(gè)骨架用零向量填充。本文采用的分層網(wǎng)絡(luò)每個(gè)部分分別設(shè)置為5層,最后1層融合整個(gè)身體信息。在NTU RGB+D數(shù)據(jù)集上身體部分神經(jīng)元個(gè)數(shù)采用128個(gè),整個(gè)身體的神經(jīng)元個(gè)數(shù)為512個(gè)。對(duì)于SBU數(shù)據(jù)集,因?yàn)閿?shù)據(jù)集的樣本較少,通過減少神經(jīng)元個(gè)數(shù)設(shè)置為64和256。而空間網(wǎng)絡(luò)同樣設(shè)置為6層,神經(jīng)元個(gè)數(shù)在NTU RGB+D數(shù)據(jù)集和SBU數(shù)據(jù)集上分別設(shè)置為512個(gè)和256個(gè)。

3.3? 實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)在常用的兩個(gè)數(shù)據(jù)集SBU數(shù)據(jù)集以及NTU RGB+D數(shù)據(jù)集上對(duì)不同的方法進(jìn)行了對(duì)比,由于NTU RGB+D數(shù)據(jù)集較大有不同的人、不同的視角做相同的動(dòng)作,所以對(duì)NTU RGB+D動(dòng)作類進(jìn)行了混淆度的分析。首先在SBU數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),選取了精確度較高的雙流循環(huán)神經(jīng)網(wǎng)絡(luò)與本文的方法進(jìn)行對(duì)比。從表1中可以看出,本文的模型在5層的時(shí)候精確度略低于Wang H S等人的方法,但是在6層的時(shí)候,能夠看到本文的方法與其他相比提高了2~3個(gè)百分點(diǎn)。

在NTU RGB+D數(shù)據(jù)集中,根據(jù)文獻(xiàn)[13]提出的評(píng)估標(biāo)準(zhǔn),對(duì)不同的方法分別在跨目標(biāo)和跨視角兩個(gè)方面進(jìn)行對(duì)比。從表2中可以看出,本文的模型使用6層網(wǎng)絡(luò)結(jié)構(gòu)在跨視角和跨目標(biāo)都比其他人的模型識(shí)別率高,由此可以看出本文的模型優(yōu)于其他人的方法。

在此畫出了模型在NTU RGB+D數(shù)據(jù)集中動(dòng)作識(shí)別的部分混淆矩陣,如圖6所示。從混淆矩陣中可以看出,本文模型在一些動(dòng)作比如穿鞋和脫鞋、搓手和拍手、掉和扔?xùn)|西等動(dòng)作相差不大的類別更容易判斷錯(cuò)誤。這是由于數(shù)據(jù)集不同類別的人以及不同視角產(chǎn)生的誤判,以及數(shù)據(jù)集數(shù)據(jù)較大具有一定的的挑戰(zhàn)性。

4? 結(jié)? 論

本文在基本的獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上針對(duì)3D骨架信息的人體動(dòng)作識(shí)別提出了雙流獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)模型,分別對(duì)人體骨架信息時(shí)間和空間特征進(jìn)行提取,彌補(bǔ)了人體隨時(shí)間運(yùn)動(dòng)的空間結(jié)構(gòu)信息。本文模型通過在SBU數(shù)據(jù)集和NTU RGB+D數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),與前人的方法相比精確度得到了提高。在之后的研究中將試圖加入注意力模型或者在模型中加入推理模塊結(jié)合人體以及與人體動(dòng)作相關(guān)的物體對(duì)象進(jìn)一步提高動(dòng)作分類結(jié)果。

注:本文通訊作者為智敏。

參考文獻(xiàn)

[1] ZHANG Z, MA X, SONG R, et al. Deep learning based human action recognition: a survey [C]// 2017 Chinese Automation Congress.? Jinan: IEEE, 2017: 3780?3785.

[2] CHERON G, LAPTEV I, SCHMID C. P?CNN: pose?based CNN features for action recognition [C]// 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3218?3226.

[3] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221?231.

[4] LIU H, TU J, LIU M. Two?stream 3D convolutional neural network for skeleton?based action recognition [J]. Computer science, 2017(1): 47?52.

[5] VAROL G, LAPTEV I, SCHMID C. Long?term temporal convolutions for action recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2018, 40(6): 1510?1517.

[6] DONAHUE J, ANNE HENDRICKS L, GUADARRAMA S, et al. Long?term recurrent convolutional networks for visual recognition and description [C]// Proceedings of Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 2625?2634.

[7] ZHAO R, ALI H, SMAGT P. Two?stream RNN/CNN for action recognition in 3D videos [C]// 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems. Vancouver: IEEE, 2017: 4260?4267.

[8] LIU H, TU J, LIU M. Two?stream 3D convolutional neural network for skeleton?based action recognition [J]. Computer science, 2017(1): 47?52.

[9] YANG Zhengyuan, LI Yuncheng, YANG Jianchao, et al. Action recognition with spatio?temporal visual attention on skeleton image sequences [J]. IEEE transactions on circuits and systems for video technology, 2018(6): 1.

[10] LI C, WANG P, WANG S, et al. Skeleton?based action recognition using LSTM and CNN [C]// 2017 IEEE International Conference on Multimedia & Expo Workshops. Hong Kong, China: IEEE, 2017: 585?590.

[11] PINEDA F J. Generalization of back?propagation to recurrent neural networks [J]. Physical review letters, 1987, 59(19): 2229.

[12] DU Y, WANG W, WANG L. Hierarchical recurrent neural network for skeleton based action recognition [C]// Proceedings of IEEE Conference: Computer Vision and Pattern Recognition. Seattle: IEEE, 2015: 1110?1118.

[13] SHAHROUDY A, LIU J, NG T T, et al. NTU RGB+D: A large scale dataset for 3D human activity analysis [C]// Proceedings of IEEE Conference: Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1010?1019.

[14] WANG H S, WANG L. Modeling temporal dynamics and spatial configurations of actions using two?stream recurrent neural networks [J]. Computer science, 2017(17): 147?150.

[15] LIU J, SHAHROUDY A, XU D, et al. Spatio?temporal LSTM with trust gates for 3D human action recognition [M]// BASTIAN Leibe, JIRI Matas, NICU Sebe, et al. Computer Vision?ECCV 2016. Amsterdam: Springer, 2016: 816?833.

[16] ZHU W, LAN C, XING J, et al. Co?occurrence feature learning for skeleton based action recognition using regularized deep LSTM networks [J]. AAAI, 2016, 2(5): 6.

[17] ZHANG S, LIU X, XIAO J. On geometric features for skeleton?based action recognition using multilayer lstm networks [C]// 2017 IEEE Winter Conference on Applications of Computer Vision. Santa Rosa: IEEE, 2017: 148?157.

[18] 曹晉其,蔣興浩,孫錟鋒.基于訓(xùn)練圖CNN特征的視頻人體動(dòng)作識(shí)別算法[J].計(jì)算機(jī)工程,2017,43(11):234?238.

[19] LI S, LI W, COOK C, et al. Independently recurrent neural network (IndRNN): building a longer and deeper RNN [C]// Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 14?20.

猜你喜歡
特征融合特征提取
特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
電子制作(2019年15期)2019-08-27 01:12:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識(shí)別的分析
基于移動(dòng)端的樹木葉片識(shí)別方法的研究
科技資訊(2017年11期)2017-06-09 18:28:13
基于SIFT特征的港口內(nèi)艦船檢測(cè)方法
融合整體與局部特征的車輛型號(hào)識(shí)別方法
Bagging RCSP腦電特征提取算法
基于MATLAB的道路交通標(biāo)志識(shí)別
灯塔市| 广州市| 舟曲县| 阳高县| 栾城县| 武功县| 阳朔县| 澄城县| 含山县| 钟山县| 离岛区| 承德市| 准格尔旗| 瓦房店市| 阳新县| 嘉黎县| 神木县| 德令哈市| 印江| 朝阳区| 墨江| 灵武市| 博罗县| 新蔡县| 缙云县| 永济市| 乌兰察布市| 舞阳县| 项城市| 淳化县| 峡江县| 若羌县| 温州市| 吉隆县| 庆元县| 镇雄县| 英超| 永安市| 黔江区| 南雄市| 西昌市|