国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于三維卷積神經(jīng)網(wǎng)絡(luò)的動作識別算法

2023-09-17 12:25:52趙建洗景海彬程磊
科技與創(chuàng)新 2023年17期
關(guān)鍵詞:姿態(tài)準確率卷積

趙建洗,景海彬,程磊

(沈陽理工大學信息科學與工程學院,遼寧 沈陽 110170)

目前,由于人工智能和深度學習的飛速發(fā)展,對社會生活的各個方面都產(chǎn)生了重要的影響,其中計算機領(lǐng)域尤為顯著。比如在機器視覺領(lǐng)域,如圖像分類、目標檢測、圖像分割等;在自然語言處理方面,如機器翻譯、語音識別、情感分析、文本分類等。本文重點研究的技術(shù)是動作識別技術(shù),與之相比,動作識別技術(shù)的研究及其應(yīng)用相對較少。其中一方面,由于動作識別視頻數(shù)據(jù)源不穩(wěn)定,動作類間差異較小或重疊;另一方面,連續(xù)動作識別及長視頻識別動作的起始和結(jié)束沒有明確的邊界等[1-2]?;谝陨显蛟斐蓜幼髯R別技術(shù)難度較大,且準確率難以保證。

1 動作識別方法的發(fā)展歷程

迄今為止,動作識別方法主要包括2 類,即基于傳統(tǒng)特征的方法和基于深度學習的方法。

傳統(tǒng)特征的動作識別方法分為標志點動作識別技術(shù)和視頻分析處理動作識別技術(shù)。標志點動作識別技術(shù)的原理是使用標志點進行識別,在人的不同關(guān)節(jié)放置很多的標志點,通過多個攝像機在不同的地理位置和攝像機到人體的位置關(guān)系拍攝人物的運動,結(jié)合相關(guān)的數(shù)字模型來得到多個標志點的位置關(guān)系,通過這種方式連續(xù)進行識別,組成人物動作,以此來達到動作識別的相關(guān)目的;視頻分析處理動作識別技術(shù)的原理是不依賴任何裝置及外部設(shè)備,直接對拍攝的圖片幀進行分析,提取出特征,進而得到人體的相關(guān)動作[3]。

深度學習的動作識別方法分為基于二維卷積神經(jīng)網(wǎng)絡(luò)技術(shù)和基于三維卷積神經(jīng)網(wǎng)絡(luò)技術(shù)。

基于二維卷積神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展經(jīng)歷了2個階段,即雙流網(wǎng)絡(luò)基礎(chǔ)網(wǎng)絡(luò)階段和二維卷積神經(jīng)網(wǎng)絡(luò)階段。雙流網(wǎng)絡(luò)基礎(chǔ)網(wǎng)絡(luò)由空間流和時間流網(wǎng)絡(luò)組成,空間流網(wǎng)絡(luò)以單幀圖像作為輸入,作用是建模外觀特征;時間流網(wǎng)絡(luò)以光流圖像作為輸入,作用是建模運動特征。訓練時,空間流網(wǎng)絡(luò)和時間流網(wǎng)絡(luò)單獨地訓練。二維卷積神經(jīng)網(wǎng)絡(luò)是被FEICHTENHOFER 等[4]提出的,采用卷積網(wǎng)絡(luò)融合雙流特征的方法,通過CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))學習空間線索和時間線索的對應(yīng)關(guān)系,實現(xiàn)了分類器級融合到特征級融合的轉(zhuǎn)變。CNN 網(wǎng)絡(luò)在圖像分類上的表現(xiàn)優(yōu)異,將它應(yīng)用于動作識別,一定程度上推動了動作識別技術(shù)的發(fā)展。

基于三維卷積神經(jīng)網(wǎng)絡(luò)技術(shù)對輸入圖像在時間和空間維度上同時進行卷積操作,這樣在獲取每一幀表觀特征的同時,也能提取出相鄰幀隨時間推移而產(chǎn)生的關(guān)聯(lián)與變化,實現(xiàn)圖像序列中時空信息建模[5]。

由于技術(shù)的不斷推進與發(fā)展,人體姿態(tài)估計技術(shù)橫空而出。人體姿態(tài)估計是指通過一張圖片能夠檢測出人體關(guān)節(jié)的關(guān)節(jié)點,并按照人體的結(jié)構(gòu)將此相連接,從而得到一張人體關(guān)節(jié)姿態(tài)圖[6]。人體姿態(tài)估計可被廣泛地應(yīng)用在動作識別[7-8]、人機交互[9]、智能跟蹤[10]等很多領(lǐng)域,已成為計算機視覺領(lǐng)域的研究熱點之一。 在此基礎(chǔ)上進行動作識別技術(shù)的研究,既不需要外部設(shè)備,也不需要設(shè)置標志點進行復(fù)雜的操作。一方面,大大節(jié)省了時間成本;另一方面也使動作識別技術(shù)變得相對簡單,為動作識別技術(shù)的發(fā)展作出了重大貢獻。

近年來,由于深度學習的廣泛應(yīng)用,基于深度學習的人體姿態(tài)估計方法陸續(xù)被提出,準確率也越來越高。其中比較著名的有基于Google 的Mediapipe 框架下的人體姿態(tài)估計方法[11]、由卡內(nèi)基梅隆大學提出的基于卷積神經(jīng)網(wǎng)絡(luò)和監(jiān)督學習的OpenPose 人體姿態(tài)估計方法[12]、由上海交通大學提出的AlphaPose 人體姿態(tài)估計方法[13]、基于YOLO 框架的YOLO-Pose 人體姿態(tài)估計方法[14]。

經(jīng)過查閱資料,發(fā)現(xiàn)僅僅有較少的論文將人體姿態(tài)估計和動作識別結(jié)合到一起,應(yīng)用于動作識別。本文結(jié)合人體姿態(tài)估計得到了人體關(guān)節(jié)關(guān)鍵區(qū)域的姿態(tài)圖,使用連續(xù)25 張圖片動作序列作為一個動作輸入,使用改進的圖片分類網(wǎng)絡(luò)模型進行訓練,將二維卷積神經(jīng)網(wǎng)絡(luò)改為三維卷積神經(jīng)網(wǎng)絡(luò),以適應(yīng)訓練連續(xù)25張圖片動作序列的目的[15]。

雖然通過人體姿態(tài)估計能夠得到人體關(guān)節(jié)姿態(tài)圖,但并不能很好地實現(xiàn)動作識別的要求。僅僅通過一張圖片的關(guān)節(jié)姿態(tài)圖,可簡單地識別人物的動作,如站、坐、躺、蹲等。但是對于一些復(fù)雜的動作,單單通過一張圖片難以推測人物的真實動作。本文的主旨是通過人體姿態(tài)估計連續(xù)提取25 張圖片的人體姿態(tài)圖作為一個動作序列,之后結(jié)合三維卷積神經(jīng)網(wǎng)絡(luò),將大量的連續(xù)動作序列作為網(wǎng)絡(luò)的輸入,最后訓練出一個較好的三維卷積神經(jīng)網(wǎng)絡(luò)模型,通過訓練三維卷積神經(jīng)網(wǎng)絡(luò)模型進行視頻動作的識別。結(jié)果表明,三維卷積神經(jīng)網(wǎng)絡(luò)模型具有較好的動作識別的辨別能力。

2 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學習的代表算法之一[16-17]。

卷積神經(jīng)網(wǎng)絡(luò)的研究始于20 世紀80—90 年代,Lenet-5 是最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)[18];不過剛開始時,由于電腦運算能力的低下及各種環(huán)境條件的限制,卷積神經(jīng)網(wǎng)絡(luò)并未得到過多的發(fā)展和重視。直到21 世紀后,隨著電腦性能的大幅度提升及卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的卓越能力,再加上深度學習的不斷完善,為卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和進步提供了得天獨厚的條件。卷積神經(jīng)網(wǎng)絡(luò)不斷發(fā)展進步,并被應(yīng)用到圖像分類、圖像識別、圖像分割等各個領(lǐng)域。

2.1 Lenet-5 網(wǎng)絡(luò)

Lenet-5 網(wǎng)絡(luò)模型最早誕生于1994 年,是最早的卷積神經(jīng)網(wǎng)絡(luò)之一[18]。它的網(wǎng)絡(luò)結(jié)構(gòu)非常簡單,只包含了卷積層、池化層、全連接層,但包含了卷積神經(jīng)網(wǎng)絡(luò)的核心,是各種卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)發(fā)展的基石。事實證明,該神經(jīng)網(wǎng)絡(luò)在數(shù)字識別和字符識別領(lǐng)域獲得了卓越的成就。

Lenet-5 網(wǎng)絡(luò)模型結(jié)構(gòu)一共由7 層組成,即C1 卷積層、S2 池化層、C3 卷積層、S4 池化層、C5 全連接層、F6 全連接層和輸出層。該網(wǎng)絡(luò)結(jié)構(gòu)全部采用5×5的卷積核和2×2 的池化核,3 層全連接數(shù)量依次為120、84、10。網(wǎng)絡(luò)中padding 選擇valid 的方式,卷積計算后會縮小輸入圖片的形狀,池化會成倍縮小圖片的尺寸。事實證明,該網(wǎng)絡(luò)雖然簡單,但對手寫數(shù)字識別及字符識別這樣的數(shù)據(jù)無論是訓練集、驗證集還是測試集都有不錯的擬合效果。Lenet-5 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1 所示。

圖1 Lenet-5 網(wǎng)絡(luò)模型結(jié)構(gòu)圖

2.2 Alexnet 網(wǎng)絡(luò)

Alexnet 網(wǎng)絡(luò)模型結(jié)構(gòu)在2012 年的ImageNet 競賽中脫穎而出后,卷積神經(jīng)網(wǎng)絡(luò)又引起了人們的廣泛關(guān)注[19]。它是以Lenet-5 模型結(jié)構(gòu)為基礎(chǔ)改進的,一方面增加了網(wǎng)絡(luò)的深度,另一方面采用了不同的卷積核大小。實際說明,一定的網(wǎng)絡(luò)深度和不同的卷積核尺寸能夠在一定程度上提高神經(jīng)網(wǎng)絡(luò)的準確率。

Alexnet 網(wǎng)絡(luò)模型結(jié)構(gòu)由5 個卷積層、3 個池化層和3 個全連接層組成。5 個卷積層分別使用11×11、5×5、3×3、3×3、3×3 的卷積核大小,卷積核的深度依次為48、128、192、192、128,padding 選擇same的方式,卷積計算后,保持原尺寸大小,不足的部分使用0 填充;3 個池化層使用的是2×2 池化核大小的最大池化,使輸入圖片變?yōu)樵瓉淼?/2;3 個全連接層數(shù)量依次為2 048、2 048、1 000。事實證明,該網(wǎng)絡(luò)結(jié)構(gòu)有效地提高了圖片分類的準確率。Alexnet 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。

圖2 Alexnet 網(wǎng)絡(luò)模型結(jié)構(gòu)圖

2.3 Vggnet 網(wǎng)絡(luò)

Vggnet 網(wǎng)絡(luò)模型結(jié)構(gòu)于2014 年在ILSVRC 競賽中榮獲亞軍,各種卷積神經(jīng)網(wǎng)絡(luò)層出不窮,卷積神經(jīng)網(wǎng)絡(luò)迎來了發(fā)展高峰。Vggnet 網(wǎng)絡(luò)模型也是在Alexnet模型結(jié)構(gòu)基礎(chǔ)上進行的改進,網(wǎng)絡(luò)的準確度進一步提高。雖然網(wǎng)絡(luò)深度增加,由于網(wǎng)絡(luò)結(jié)構(gòu)近似統(tǒng)一,不但看起來整潔易懂,而且準確率也能達到不錯的效果。

Vggnet16 由5 個卷積層、5 個池化層、3 個全連接層組成。卷積核大小全部為3×3,卷積核深度依次為64、128、256、512、512,卷積核數(shù)量依次為2、2、3、3、3,padding 選擇same 的方式,卷積計算后,保持原尺寸大?。? 個池化層的池化核采用2×2 大小的最大池化;3 個全連接層數(shù)量依次為4 096、4 096、1 000。Vggnet 網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3 所示。

圖3 Vggnet 網(wǎng)絡(luò)模型結(jié)構(gòu)圖

3 改進的三維卷積神經(jīng)網(wǎng)絡(luò)

3.1 改進的Lenet-5 網(wǎng)絡(luò)

Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò)最大的改進就是使用三維卷積替代二維卷積,目的就是能夠使用圖片序列作為網(wǎng)絡(luò)模型的輸入,而不僅僅是一張圖片。相同的是該網(wǎng)絡(luò)模型由卷積層、池化層、卷積層、池化層和3個全連接層組成。

改進的三維卷積神經(jīng)網(wǎng)絡(luò)模型輸入層的維度是25×128×72×1 的連續(xù)動作序列;輸出層為訓練模型的動作類別,本文中為12 種不同動作類別。2 個卷積層均使用3×3×3 的卷積核大小替代原網(wǎng)絡(luò)的5×5 的卷積核,步長為2。2 個池化層均采用1×2×2 的池化核大小,步長也為1×2×2。Lenet-5 三維網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4 所示。

圖4 Lenet-5 三維網(wǎng)絡(luò)模型結(jié)構(gòu)圖

3.2 改進的Alexnet 網(wǎng)絡(luò)

Alexnet 三維卷積神經(jīng)網(wǎng)絡(luò)與上文相同,最大的改進也是將二維卷積改為三維卷積,以達到使模型能夠訓練動作序列的要求。和上文相同的是輸入層和輸出層,不同的是卷積層和池化層。

改進的Alexnet 三維卷積神經(jīng)網(wǎng)絡(luò)有5 個卷積層和2 個池化層。5 個卷積層卷積核大小依次為7×7×7、5×5×5、3×3×3、3×3×3、3×3×3,步長全部為2×2×2,卷積核深度和原始網(wǎng)絡(luò)保持一致,依次為48、128、192、192、128。池化層采用最大池化,池化核大小均使用2×2×2,步長也均為2×2×2。Alexnet三維網(wǎng)絡(luò)模型結(jié)構(gòu)如圖5 所示。

圖5 Alexnet 三維網(wǎng)絡(luò)模型結(jié)構(gòu)圖

3.3 改進的Vggnet 網(wǎng)絡(luò)

Vggnet 三維卷積神經(jīng)網(wǎng)絡(luò)的處理方式也是將二維卷積改為三維卷積,以達到使模型能夠訓練動作序列的要求,并且使得模型能夠預(yù)測動作序列。和上文保持了相同的輸入維度和輸出維度,與輸入層的圖片維度保持一致;不同的是中間層的處理,即卷積層和池化層。輸入層大小依舊是25×128×72×1,輸出層依舊為設(shè)定的動作類別的數(shù)量。卷積核大小全部為3×3×3 的卷積核,池化核出最后一層外全部為2×2×2的最大池化。和原始網(wǎng)絡(luò)對比,5 個卷積層除了由二維卷積改為三維卷積外,卷積核數(shù)量、卷積核深度、卷積步長均有調(diào)整。5 個卷積層均包含2 次卷積,未改變5 個卷積層的第一次卷積,只調(diào)整了第二次卷積的參數(shù),將每個卷積層第二次卷積步長設(shè)定為2×2×2,第一次卷積步長不變;將第三、第四、第五這3 個卷積層的卷積次數(shù)由3 次改為2 次。由于電腦配置不足,將5 個卷積核的深度由64、128、256、512、512 調(diào)整為8、16、32、64、128。池化層除最后一個池化層使用1×1×1 的池化核外,其他均采用2×2×2 的池化核大小,步長也為2×2×2。為了更方便地觀察Vggent三維網(wǎng)絡(luò)模型結(jié)構(gòu),繪制了Vggent 三維網(wǎng)絡(luò)模型結(jié)構(gòu)圖,如圖6 所示。

圖6 Vggnet 三維網(wǎng)絡(luò)模型結(jié)構(gòu)圖

4 結(jié)論

4.1 數(shù)據(jù)集的準備

首先,圖片輸入是一組人物動作的人體姿態(tài)估計的圖片序列。何為人體姿態(tài)估計呢?本文的人體姿態(tài)估計方法是利用已有深度學習方法在給定的一張包含人體的圖片之中,得到人體骨架的大致形狀輪廓。本文采用的是谷歌開源的Mediapipe 中的人體姿態(tài)估計方法,相比OpenPose 和AlphaPose,人體姿態(tài)估計的最大優(yōu)點是速度較快,能夠達到每秒提取30 張左右。將大量的動作視頻拆分成連續(xù)的動作序列,并將同種類別的視頻放到相同類別名稱的目錄之下,為訓練三維卷積神經(jīng)網(wǎng)絡(luò)模型做準備。

25 張人體姿態(tài)估計的連續(xù)序列圖片如圖7 所示,圖中展示了一個人跑步的25 張人體姿態(tài)估計的連續(xù)序列。

4.2 模型數(shù)據(jù)及訓練參數(shù)設(shè)置

本節(jié)進行模型訓練前的準備工作,包括三維卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)集、數(shù)據(jù)處理、參數(shù)設(shè)置等。首先,為了滿足實驗的要求本文沒有使用官方數(shù)據(jù)集,收集了符合實驗要求的大量數(shù)據(jù)。本文將大量的視頻數(shù)據(jù)通過人體姿態(tài)估計的方法,制成一個個連續(xù)的動作序列作為訓練的基礎(chǔ)數(shù)據(jù)。將數(shù)據(jù)集劃分為訓練集數(shù)據(jù)和測試集數(shù)據(jù),訓練集數(shù)據(jù)包含37 000 多個動作序列文件,測試集數(shù)據(jù)包含8 000 多個文件。將訓練數(shù)據(jù)的85%作為訓練集,15%作為驗證集;測試數(shù)據(jù)全部作為測試集。初始學習率設(shè)置為0.000 01,訓練次數(shù)為50 次。為了提高準確率將訓練的數(shù)據(jù)集和驗證集重復(fù)32 次,這樣可以在訓練次數(shù)較少的情況下提高準確率;同樣也有缺點,就是訓練速度過慢。通過實驗證明,不重復(fù)數(shù)據(jù)集時,訓練次數(shù)調(diào)整為30 倍,訓練的模型不能達到很好的效果,會造成局部過擬合。

4.3 模型實驗效果分析

經(jīng)過實驗分析,3 種不同的三維卷積神經(jīng)網(wǎng)絡(luò)模型都能夠達到對應(yīng)的動作識別的預(yù)測效果。Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò)由于網(wǎng)絡(luò)簡單、計算量較小,因而訓練速度較快,經(jīng)過驗證該模型預(yù)測效果還可以;Alexnet三維卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相對復(fù)雜,訓練速度慢3~4倍,經(jīng)過多次嘗試準確率卻并沒有提升,且網(wǎng)絡(luò)訓練效果不穩(wěn)定;Vggnet 三維卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)最為復(fù)雜,計算量更大,所用時間更長,模型預(yù)測效果經(jīng)驗證是最好的。實驗時的筆記本電腦顯卡配置較低,能夠較短時間內(nèi)訓練出較好的Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò);另外2 種卷積神經(jīng)網(wǎng)絡(luò)因電腦配置較低,訓練模型需要幾天。電腦配置不足的情況下,建議使用Lenet-5三維卷積神經(jīng)網(wǎng)絡(luò);電腦配置較高時,可以考慮使用更復(fù)雜的三維卷積神經(jīng)網(wǎng)絡(luò)模型。

經(jīng)過多次實驗,Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò)訓練準確率為96%左右,驗證準確率為80%,測試準確率為40%~50%;Alexnet 三維卷積神經(jīng)網(wǎng)絡(luò)模型效果不穩(wěn)定,不能夠進行有效使用;Vggnet 三維卷積神經(jīng)網(wǎng)絡(luò)準確率相比Lenet-5 三維卷積神經(jīng)網(wǎng)絡(luò)稍有提升,但提升不大。本實驗的數(shù)據(jù)量不多,動作相似性較低,每個動作只采用了5~10 個視頻,測試集數(shù)據(jù)是一個全新的動作序列,和訓練集數(shù)據(jù)關(guān)聯(lián)性不強。

為了更直觀地顯示改進的三維卷積神經(jīng)網(wǎng)絡(luò)的動作識別模型的效果,經(jīng)過多次實驗通過相關(guān)代碼繪制出了以下準確率曲線變化圖、損失函數(shù)變化曲線圖及混淆矩陣圖、ROC 曲線圖,如圖8 和圖9 所示,通過這些圖像使本文的實驗結(jié)果更加直觀。

圖8 訓練集及驗證集準確率和損失函數(shù)變化曲線圖

圖9 混淆矩陣和ROC 曲線圖

混淆矩陣和ROC 曲線都是圖像分類的一個重要評價指標。從以上結(jié)果可知,模型實驗結(jié)果對大部分的動作類別分類效果是比較不錯的,但是也有一小部分的分類結(jié)果不能達到預(yù)期效果。通過擴大數(shù)據(jù)集或進一步改進網(wǎng)絡(luò)有望達到更好的結(jié)果,若要達到更高的準確率還需要進一步進行實驗與深入研究。

猜你喜歡
姿態(tài)準確率卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
攀爬的姿態(tài)
學生天地(2020年3期)2020-08-25 09:04:16
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
全新一代宋的新姿態(tài)
汽車觀察(2018年9期)2018-10-23 05:46:40
跑與走的姿態(tài)
中國自行車(2018年8期)2018-09-26 06:53:44
高速公路車牌識別標識站準確率驗證法
基于傅里葉域卷積表示的目標跟蹤算法
景东| 工布江达县| 綦江县| 乌鲁木齐县| 阿克陶县| 彭州市| 新民市| 神农架林区| 博乐市| 澄江县| 舟山市| 霍州市| 宁强县| 景宁| 绥滨县| 泗阳县| 土默特右旗| 湘乡市| 三门县| 偃师市| 开鲁县| 日喀则市| 张掖市| 青铜峡市| 改则县| 新田县| 开鲁县| 虞城县| 文水县| 岑溪市| 平罗县| 岳阳市| 洱源县| 冀州市| 汕尾市| 通山县| 吴川市| 张家界市| 昆山市| 八宿县| 随州市|