国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于骨架信息的民族舞蹈典型動(dòng)作識(shí)別

2023-03-13 10:05:34王衛(wèi)星劉清華蒙德慶
關(guān)鍵詞:骨架卷積舞蹈

秦 晴,王衛(wèi)星,劉清華,蒙德慶

1.貴州大學(xué) 機(jī)械工程學(xué)院,貴陽 550025

2.貴州大學(xué) 現(xiàn)代制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,貴陽 550025

在計(jì)算機(jī)視覺領(lǐng)域,人體動(dòng)作識(shí)別是近年來熱門的研究主題,隨著學(xué)者們過去十年不斷的探索和研究,人體動(dòng)作識(shí)別方向產(chǎn)生了很多優(yōu)秀的成果,并且這項(xiàng)技術(shù)開始被應(yīng)用于各行各業(yè)。非物質(zhì)文化遺產(chǎn)如何永久保存是一個(gè)吸引學(xué)界研究的問題,比如少數(shù)民族舞蹈數(shù)字化保護(hù)。少數(shù)民族舞蹈是我國不可或缺的非物質(zhì)文化遺產(chǎn),每個(gè)民族都有自己的文化與精神,少數(shù)民族舞蹈將自己的文化展現(xiàn)于舞蹈動(dòng)作中,十九大報(bào)告中強(qiáng)調(diào)要傳承中華優(yōu)秀傳統(tǒng)文化,將“加強(qiáng)文化遺產(chǎn)保護(hù)傳承”作為新時(shí)代建設(shè)社會(huì)主義文化強(qiáng)國的重要工作內(nèi)容。文獻(xiàn)[1]中也再次強(qiáng)調(diào),新時(shí)期推動(dòng)民族傳統(tǒng)文化的傳承與發(fā)展需要的策略。因此,民族舞蹈保護(hù)是一項(xiàng)具有重大意義的研究工作,也能幫助民族文化的傳承與更廣泛的傳播。每一種民族舞蹈通常都會(huì)有一些標(biāo)志性的動(dòng)作、手勢(shì)、道具等來表達(dá),這些特點(diǎn)可以作為記錄和分類各個(gè)民族舞蹈的關(guān)鍵元素,用于構(gòu)建一個(gè)少數(shù)民族舞蹈動(dòng)作數(shù)據(jù)庫,并且能夠?yàn)楦嗟膭?chuàng)新應(yīng)用提供數(shù)據(jù)支撐。

民族舞蹈研究領(lǐng)域出現(xiàn)了一些民族舞蹈數(shù)字化保存和展示的技術(shù)方案,但幾乎是通過大型三維運(yùn)動(dòng)捕捉設(shè)備來記錄舞蹈動(dòng)作,這些設(shè)備價(jià)格昂貴且靈活性差,影響了動(dòng)作的執(zhí)行與識(shí)別,以及對(duì)于人體動(dòng)作中的遮擋問題、不同場(chǎng)景下運(yùn)動(dòng)特征至今仍然沒有達(dá)到令人滿意的效果,也限制了民族舞蹈的傳承與保護(hù)。對(duì)于動(dòng)作數(shù)據(jù)采集,Kinect深度視覺傳感器設(shè)備具有深度圖分辨率高、成本低、能夠直接追蹤人體骨架運(yùn)動(dòng)軌跡等優(yōu)勢(shì),而且使用骨架信息進(jìn)行動(dòng)作識(shí)別具有以下兩大優(yōu)點(diǎn)[2]:(1)骨骼數(shù)據(jù)是對(duì)三維空間里的人體信息的抽象,其對(duì)背景、光照等噪聲具有一定的魯棒性,從而提供了良好的人體行為表征;(2)相比于RGB視頻數(shù)據(jù),骨骼數(shù)據(jù)的數(shù)據(jù)維度較小,這也使得設(shè)計(jì)輕量級(jí)和硬件友好的模型成為可能性。

針對(duì)舞蹈的動(dòng)作識(shí)別研究目前較少,民族舞蹈需要數(shù)字化保護(hù)與傳承,本文篩選出20個(gè)少數(shù)民族舞蹈典型動(dòng)作片段,利用Kinect動(dòng)作數(shù)據(jù)采集系統(tǒng)收集600組民族典型動(dòng)作的骨架信息,構(gòu)建少數(shù)民族舞蹈典型動(dòng)作數(shù)據(jù)集,設(shè)計(jì)一種3D CNNs用于識(shí)別該數(shù)據(jù)集。為了驗(yàn)證本文所構(gòu)建的數(shù)據(jù)集合理性以及提出的3D CNNs的識(shí)別性能,將該方法在其他的公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),將三種數(shù)據(jù)集實(shí)驗(yàn)結(jié)果進(jìn)行了對(duì)比,并且將本文的方法與其他經(jīng)典算法進(jìn)行了實(shí)驗(yàn)對(duì)比,包括C3D、P3D、ConvLSTM,結(jié)果顯示,本文的3D CNNs獲得了較好的識(shí)別精度,其他的方法在本文的數(shù)據(jù)集上也獲得了不錯(cuò)的識(shí)別精度,驗(yàn)證了該數(shù)據(jù)集構(gòu)建的合理性。該研究的目的是使用現(xiàn)有的動(dòng)作識(shí)別技術(shù)應(yīng)用于民族舞蹈動(dòng)作,實(shí)現(xiàn)更好的傳承和保護(hù)少數(shù)民族舞蹈動(dòng)作。

1 相關(guān)工作

1.1 民族舞蹈動(dòng)作識(shí)別研究現(xiàn)狀

計(jì)算機(jī)運(yùn)動(dòng)捕捉技術(shù)和傳統(tǒng)的照片、錄像等方法相比,可以更加全方位地實(shí)現(xiàn)舞蹈的記錄、傳播和發(fā)揚(yáng)。Kishore等人[3]使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)對(duì)印度古典舞蹈動(dòng)作進(jìn)行分類。分別從線上視頻和線下錄制收集200個(gè)舞蹈姿勢(shì)及手勢(shì),實(shí)驗(yàn)在同一數(shù)據(jù)集上與其他分類算法進(jìn)行了結(jié)果對(duì)比,最后獲得了93.33%的識(shí)別率。針對(duì)少數(shù)民族非物質(zhì)文化遺產(chǎn)舞蹈的保護(hù)和傳承,蒙曦[4]利用大型3DMo Cap動(dòng)作捕捉系統(tǒng)對(duì)貴州民俗舞蹈進(jìn)行數(shù)字化數(shù)據(jù)采集,記錄舞者動(dòng)作在三維空間的運(yùn)動(dòng)軌跡,結(jié)合VR虛擬現(xiàn)實(shí)技術(shù)展示舞蹈動(dòng)作,為今后的民族舞蹈提供數(shù)字化平臺(tái)。除了直接捕捉記錄保存民族舞蹈動(dòng)作的研究,還有一些研究實(shí)現(xiàn)了舞蹈與舞譜自動(dòng)生成與轉(zhuǎn)換。朱晨旭[5]將拉班舞譜運(yùn)用到記錄傳統(tǒng)動(dòng)態(tài)文化中,提出了基于極限學(xué)習(xí)的拉班舞譜自動(dòng)生成算法。通過分析運(yùn)動(dòng)捕捉數(shù)據(jù),將各個(gè)基本動(dòng)作進(jìn)行分類并轉(zhuǎn)換成拉班舞譜符號(hào),并且建立了自動(dòng)轉(zhuǎn)換的平臺(tái)。周子鳴[6]提出了一種基于動(dòng)態(tài)規(guī)劃的拉班舞譜自動(dòng)生成方法,通過分析BVH(bio-vision hierarchical)格式的運(yùn)動(dòng)捕捉數(shù)據(jù),識(shí)別各個(gè)基本動(dòng)作,轉(zhuǎn)換成舞譜,實(shí)現(xiàn)了舞譜生成的平臺(tái)。

Kitsikidis等人[7]首次使用多個(gè)Kinect傳感器捕捉舞蹈動(dòng)作,以解決遮擋和自遮擋跟蹤問題。融合的骨骼數(shù)據(jù)被分成五個(gè)不同的身體部位,然后進(jìn)行轉(zhuǎn)換以允許視圖不變的姿勢(shì)識(shí)別,并展示了實(shí)驗(yàn)結(jié)果,以證明所提出方法的高識(shí)別精度。Protopapadakis等人[8]同樣使用Kinect傳感器采集6種希臘民族舞蹈動(dòng)作,并且使用了4種常用的分類器對(duì)原始數(shù)據(jù)直接進(jìn)行動(dòng)作分類對(duì)比了分類結(jié)果,同時(shí)研究了不同的人體關(guān)節(jié)對(duì)于識(shí)別率的影響。

1.2 基于3D CNNs的動(dòng)作識(shí)別

基于深度學(xué)習(xí)的動(dòng)作識(shí)別研究也層出不窮,其中研究成果較好的有三維卷積神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[9]首次提出了3D CNNs架構(gòu)用于動(dòng)作識(shí)別。三維卷積網(wǎng)絡(luò)是二維卷積網(wǎng)絡(luò)的直接擴(kuò)展,三維卷積網(wǎng)絡(luò)比二維卷積網(wǎng)絡(luò)多了一維捕獲時(shí)間信息。Ji等人[10]提出了一種3D CNNs架構(gòu),它從相鄰的視頻幀中生成多個(gè)信道的信息,并在每個(gè)信道中分別執(zhí)行卷積和子采樣,然后通過綜合各通道的信息得到最終的特征表示。Tran等人[11]在前者的基礎(chǔ)上提出了一種C3D(convolutional 3D)的現(xiàn)代深層架構(gòu),該架構(gòu)可以在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)。C3D網(wǎng)絡(luò)由五個(gè)卷積層、五個(gè)最大池化層、兩個(gè)全連接層和一個(gè)softmax損失層組成,結(jié)果表明基于線性分類器的C3D方法在動(dòng)作視頻的識(shí)別精度均優(yōu)于或接近目前最先進(jìn)的方法。綜上所述,基于3D CNNs動(dòng)作識(shí)別模型是目前識(shí)別精度比較高的方法。本文中選用的民族舞蹈典型動(dòng)作中,這些舞蹈的特征是動(dòng)作連續(xù)時(shí)間較長,動(dòng)作數(shù)據(jù)維度較大,因此選用三維卷積神經(jīng)網(wǎng)絡(luò)直接從骨架信息中提取特征,降低計(jì)算量和硬件要求,能夠更廣泛地應(yīng)用到相關(guān)研究行業(yè)中。但是目前的研究中,使用3D CNNs對(duì)骨架信息進(jìn)行動(dòng)作識(shí)別的成果較少,由于骨骼數(shù)據(jù)輕量化、不受背景、光照等影響的優(yōu)勢(shì),因此本文直接使用深度攝像機(jī)采集了20類民族典型舞蹈動(dòng)作的骨架信息用于動(dòng)作識(shí)別。

1.3 少數(shù)民族舞蹈典型動(dòng)作特點(diǎn)

少數(shù)民族舞蹈典型動(dòng)作數(shù)據(jù)集包括5類民族舞蹈,每類舞蹈各自包含4個(gè)不同的動(dòng)作,一共為20個(gè)動(dòng)作。圖1為篩選的部分少數(shù)民族舞蹈動(dòng)作序列RGB圖展示。后續(xù)每個(gè)動(dòng)作都將采集一組連續(xù)的骨架序列來表示。研究的少數(shù)民族舞蹈種類包括:

圖1 部分少數(shù)民族舞蹈動(dòng)作序列RGB圖展示Fig.1 Part of RGB dance sequence of ethnic dance

(1)傣族舞:傣族舞蹈是西南地區(qū)傣族人民代表性舞蹈,動(dòng)作多以模仿當(dāng)?shù)氐膭?dòng)物行為為主。傣族動(dòng)作中名為“三道彎”的動(dòng)作最為典型[12],這個(gè)動(dòng)作是指舞者上身向一旁傾斜,下身半蹲,頭部、胸部、腰部、跨步和腿部都呈現(xiàn)出反向的“S”型。傣族舞動(dòng)作較平穩(wěn),跳躍動(dòng)作少。

(2)藏族舞:藏族舞是藏族人民傳統(tǒng)的舞蹈,受高原地區(qū)的影響,藏族舞蹈的發(fā)力點(diǎn)多體現(xiàn)在下半身,舞者通過各個(gè)關(guān)節(jié)有規(guī)律地屈伸,呈現(xiàn)出一張一弛的美感[13]。藏族舞蹈的身體中心偏前,兩臂呈垂態(tài),女性優(yōu)雅端麗,男性雄壯粗獷。藏族舞蹈蘊(yùn)含著藏族人民的藝術(shù)精髓,體現(xiàn)了他們的歷史韻味。

(3)維族舞:維族舞蹈有著挺拔立腰的造型感,頭部、頸部、肩部、胸部、腰部和腳都有動(dòng)作特點(diǎn)。維族舞最大的特點(diǎn)就是立感[14],身體保持昂首挺胸,整體給人一種高傲、外向和挺拔的感覺。維族舞蹈動(dòng)作造型優(yōu)美多變,配合舞者的眼神、移頸、彈指和響指等動(dòng)作便顯出了維族舞蹈的熱情、歡快等特點(diǎn)。

(4)蒙古族舞:蒙古族舞蹈有著動(dòng)作幅度較大、節(jié)奏明快的特點(diǎn)。其中,最重要的動(dòng)作就是聳肩、轉(zhuǎn)腕和胳膊的動(dòng)作[15]。舞者應(yīng)該始終保持一種熱情、勇敢、奔放的形象,手部動(dòng)作不能僵硬,要與節(jié)奏協(xié)調(diào),要展現(xiàn)出蒙古族人的英姿颯爽,蒙古族舞蹈也傳揚(yáng)了草原風(fēng)光、風(fēng)土人情。

(5)苗族舞:本文選用了苗族錦雞舞蹈動(dòng)作,是貴州黔東南地區(qū)的傳統(tǒng)舞蹈。錦雞是苗族的圖騰,苗族人民通過錦雞舞來感恩錦雞、緬懷先祖[16]。舞者需要跟隨著蘆笙的曲調(diào)變化來翩翩起舞,按照逆時(shí)針方向起舞,隨著不同的節(jié)拍進(jìn)行動(dòng)作的變化,上肢與腳部自然擺動(dòng),膝蓋微曲。

2 實(shí)驗(yàn)原型

在實(shí)驗(yàn)之前,首先利用Kinect for Windows SDK與Kinect V2開發(fā)了一個(gè)動(dòng)作采集系統(tǒng),用于捕捉和記錄舞者的民族舞蹈動(dòng)作數(shù)據(jù),可以同時(shí)采集骨架信息,RGB圖和深度圖。動(dòng)作采集系統(tǒng)界面如圖2所示。該設(shè)備可以在比較黑暗或者明亮的環(huán)境下工作,不受光照情況的影響,動(dòng)作捕捉的幀率為30 FPS,有效運(yùn)動(dòng)區(qū)域受到限制,左右各1 m,前后距離7 m以內(nèi)。Kinect人體跟蹤的骨架由25個(gè)關(guān)節(jié)點(diǎn)組成,每個(gè)關(guān)節(jié)點(diǎn)包括3D位置坐標(biāo)。本文利用該設(shè)備采集了左肩、右肩、肩部中心、脊柱、左髖、右髖、髖部中心、左肘、右肘、左腕、右腕、左手、右手、左膝、右膝、左踝、右踝、左腳、右腳和頭部,一共20個(gè)人體關(guān)節(jié)點(diǎn)。

圖2 動(dòng)作數(shù)據(jù)采集系統(tǒng)界面Fig.2 Action data collection system interface

民族舞蹈動(dòng)作數(shù)據(jù)采集實(shí)驗(yàn),共有10位身體健康的志愿者(平均為(20±3)歲)參與了這項(xiàng)研究。在實(shí)驗(yàn)期間,被試者實(shí)驗(yàn)前12小時(shí)內(nèi)沒有進(jìn)行劇烈的身體運(yùn)動(dòng),身體健康狀況良好,每個(gè)被試者都學(xué)習(xí)過不同的民族舞蹈,有4~5年的舞蹈學(xué)習(xí)經(jīng)驗(yàn)。在實(shí)驗(yàn)開始前,被試者需要學(xué)習(xí)20個(gè)少數(shù)民族典型舞蹈動(dòng)作示例,能夠跟隨要求的節(jié)奏順利地表演,被試者們接受本研究的書面說明和簽署知情同意書。實(shí)驗(yàn)要求被試者在Kinect設(shè)備前有效范圍內(nèi),按照順序依次表演每個(gè)舞蹈動(dòng)作,避免動(dòng)作的停頓、過快和過慢,進(jìn)行流暢的、有節(jié)奏的舞蹈動(dòng)作表演。在實(shí)驗(yàn)的過程中,會(huì)有口令及節(jié)拍聽覺提示作為指導(dǎo)。通過操作開發(fā)的動(dòng)作采集系統(tǒng)設(shè)計(jì)實(shí)驗(yàn)范式,實(shí)驗(yàn)一共包括以下兩個(gè)部分:

(1)少數(shù)民族舞蹈典型動(dòng)作篩選和采集,共確定了5種少數(shù)民族舞蹈,20個(gè)典型舞蹈動(dòng)作,采集20個(gè)動(dòng)作骨架信息,被試者每個(gè)動(dòng)作執(zhí)行3次。

(2)20個(gè)少數(shù)民族舞蹈動(dòng)作識(shí)別,數(shù)據(jù)集中共計(jì)600個(gè)樣本。

實(shí)驗(yàn)范式描述如下,要求被試者先在深度攝像機(jī)前拍攝范圍內(nèi)站立,在動(dòng)作采集系統(tǒng)實(shí)時(shí)反饋畫面中確認(rèn)每個(gè)被試者的骨架信息能夠完整的被深度攝像機(jī)捕捉,規(guī)劃動(dòng)作活動(dòng)范圍,為左右各1 m,前后各1 m,根據(jù)擬定的動(dòng)作順序,由10位被試者依次表演一個(gè)動(dòng)作結(jié)束后再采集下一個(gè)動(dòng)作。要求被試者統(tǒng)一動(dòng)作標(biāo)準(zhǔn),根據(jù)語音提示開始,隨著八拍流暢的表演動(dòng)作,表演結(jié)束后根據(jù)語音提示停止動(dòng)作。由于不同的動(dòng)作長短不同,因此單個(gè)動(dòng)作的實(shí)驗(yàn)時(shí)長也不同,時(shí)長范圍為5~20 s。實(shí)驗(yàn)過程中,每個(gè)被試者一共執(zhí)行了60次實(shí)驗(yàn),每個(gè)動(dòng)作各3次,所有被試者執(zhí)行的動(dòng)作共計(jì)600次。在實(shí)驗(yàn)中,為了減少采集冗余無效的動(dòng)作數(shù)據(jù),要求被試者統(tǒng)一動(dòng)作,根據(jù)語音提示開始與結(jié)束表演,同時(shí)也在動(dòng)作采集系統(tǒng)中開始記錄與停止記錄。

3 理論與方法

為了實(shí)現(xiàn)對(duì)少數(shù)民族舞蹈動(dòng)作的識(shí)別,本文首先要構(gòu)建一個(gè)少數(shù)民族舞蹈動(dòng)作數(shù)據(jù)集,需要記錄舞者的骨架信息,利用骨架信息進(jìn)行識(shí)別能夠更快地處理,減少存儲(chǔ)空間。其次,在3D CNNs的基礎(chǔ)上,提出一種改進(jìn)的模型,用于識(shí)別民族舞蹈動(dòng)作。

3.1 數(shù)據(jù)預(yù)處理

對(duì)記錄的原始數(shù)據(jù)進(jìn)行骨骼點(diǎn)數(shù)據(jù)缺失檢查,對(duì)于實(shí)驗(yàn)中骨骼點(diǎn)數(shù)據(jù)丟失無法記錄的情況,為了減小后續(xù)模型對(duì)不同動(dòng)作判斷的影響,將某一幀缺失的骨骼點(diǎn)數(shù)據(jù)填充為上一幀的骨骼數(shù)據(jù)。獲取的少數(shù)民族舞蹈典型動(dòng)作骨架序列幀率是30 FPS,由于舞蹈動(dòng)作的速度較慢,動(dòng)作時(shí)長較長,為了減少冗余的信息,將原始數(shù)據(jù)每5幀中只保留一幀,處理后的數(shù)據(jù)集各個(gè)動(dòng)作與最大幀數(shù)如表1所示。在數(shù)據(jù)集中每個(gè)動(dòng)作的時(shí)長不同,對(duì)應(yīng)的幀數(shù)也不同,對(duì)數(shù)據(jù)集的每個(gè)動(dòng)作序列統(tǒng)一序列長度,獲取數(shù)據(jù)集中樣本的最大幀數(shù),將其余少于最大幀數(shù)的動(dòng)作樣本復(fù)制最后一幀,補(bǔ)充為最大幀數(shù),以便于后續(xù)輸入模型中進(jìn)行訓(xùn)練。

表1 民族舞蹈動(dòng)作數(shù)據(jù)集動(dòng)作名稱及最大幀數(shù)Table 1 Ethnic dance moves dataset action name and maximum number of frames

3.2 三維卷積神經(jīng)網(wǎng)絡(luò)

與其他的傳統(tǒng)深度學(xué)習(xí)方法相比,3D CNNs不局限于2D單幀圖像的輸入,可以從時(shí)間維度和空間維度提取特征,能夠提取多個(gè)連續(xù)幀的運(yùn)動(dòng)信息。本文采用3D CNNs對(duì)民族舞蹈典型動(dòng)作骨架信息進(jìn)行識(shí)別,骨架信息是單通道信息,計(jì)算量更小,模型識(shí)別性能更好。本文使用的3D CNNs模型框架如圖3所示。本文使用的3D深度卷積神經(jīng)網(wǎng)絡(luò),包括4個(gè)卷積層、2個(gè)下采樣層、2個(gè)全連接層及1個(gè)Softmax分類層。下采樣層使用Max-pooling,內(nèi)核大小為3×3×3,步長為1。

圖3 三維卷積神經(jīng)網(wǎng)絡(luò)框架圖Fig.3 Three-dimensional convolutional neural network framework

為了捕獲多個(gè)連續(xù)幀中的運(yùn)動(dòng)信息,從空間和時(shí)間維度計(jì)算特征。第i層的第j個(gè)特征圖中的位置坐標(biāo)為(x,y,z)的單元的值,公式如下:

其中,3D卷積核的時(shí)間維度為ni,位置(l,m,n)與第r個(gè)特征圖相連卷積核的權(quán)重值為ωlimjrn。

ReLU函數(shù)是深度學(xué)習(xí)模型中最常用的激活函數(shù)。該函數(shù)當(dāng)輸入的特征值大于0時(shí),保持原始特征值不變進(jìn)行輸出;當(dāng)小于0時(shí),則置為0。這就是該激活函數(shù)的單側(cè)抑制性,該性質(zhì)可以使得模型參數(shù)變得稀疏從而在一定程度上可以減少過擬合的風(fēng)險(xiǎn)。除此之外,該激活函數(shù)導(dǎo)數(shù)計(jì)算十分簡(jiǎn)單在一定程度上可以加速計(jì)算,并且在輸入為正值時(shí)導(dǎo)數(shù)永遠(yuǎn)是1,因此可以有效地緩解梯度消失的問題。ReLU激活函數(shù)定義為:

池化也稱為下采樣,此時(shí)與二維圖像的處理不同,需要考慮視頻在時(shí)間維度上的信息。通過池化操作,特征圖減小,降低了數(shù)據(jù)的維度,減少了數(shù)量的計(jì)算,易于訓(xùn)練提高準(zhǔn)確率。最大池化的計(jì)算如下式:

其中,μ表示三維輸入向量,V表示池化操作后的輸出,s、t、r表示方向上的采樣步長。Softmax函數(shù)常用于分類任務(wù)的最后一層,它可以將一個(gè)n維的向量x映射為一個(gè)概率分布,使得正確的類別概率趨近于1,其他的概率趨近于0,并使所有類別的概率之和為1。

過擬合現(xiàn)象是訓(xùn)練模型時(shí)對(duì)測(cè)試數(shù)據(jù)表現(xiàn)比較差的一種現(xiàn)象,Dropout策略是指在深度模型進(jìn)行訓(xùn)練時(shí),對(duì)模型中的神經(jīng)元,依據(jù)一定概率將其暫時(shí)地從網(wǎng)絡(luò)中丟棄并斷開相應(yīng)的連接,被關(guān)閉的神經(jīng)元不參與前向傳播的計(jì)算與反向梯度對(duì)權(quán)重的更新。每次隨機(jī)地丟棄神經(jīng)元相當(dāng)于對(duì)原模型的結(jié)構(gòu)做了不同的修改,每一次迭代訓(xùn)練都是不相同的模型,參數(shù)的更新也更加關(guān)注那些被激活的神經(jīng)元。因此,Dropout可以看作一種集成方法,即對(duì)多次迭代的不同模型架構(gòu)的平均,從而顯著地降低了過擬合的風(fēng)險(xiǎn)。本文中也使用Dropout技術(shù)減少過擬合現(xiàn)象,Dropout通過設(shè)置不同的比率進(jìn)行了實(shí)驗(yàn)對(duì)比。

該實(shí)驗(yàn)采用5折交叉驗(yàn)證法,將預(yù)處理過的少數(shù)民族舞蹈典型動(dòng)作數(shù)據(jù)集隨機(jī)分為5組,其中4組作為訓(xùn)練集,1組作為測(cè)試集,再平均5次的結(jié)果作為識(shí)別率。

3.3 經(jīng)典動(dòng)作識(shí)別算法

目前,基于深度學(xué)習(xí)的動(dòng)作識(shí)別方法層出不窮,常用的經(jīng)典算法有Tran等人[11]提出的3D卷積神經(jīng)網(wǎng)絡(luò)(C3D),使之與本文的方法進(jìn)行對(duì)比。首先,C3D是作為一個(gè)通用的網(wǎng)絡(luò)提出的,在各種研究中被用于動(dòng)作識(shí)別、場(chǎng)景識(shí)別、視頻相似度分析等領(lǐng)域。該方法計(jì)算高效,實(shí)現(xiàn)簡(jiǎn)單,許多研究都證明了該模型良好的性能。C3D包含8個(gè)卷積層、5個(gè)池化層、2個(gè)全連接層,以及1個(gè)softmax輸出層,所有3D卷積核均為3×3×3,步長為1×1×1,為了在早期階段保留更多的時(shí)間信息,設(shè)置pooling1核大小為1×2×2、步長1×2×2,其余所有3D池化層均為2×2×2,步長為2×2×2,每個(gè)全連接層有4 096個(gè)輸出單元。Qiu等人[17]提出的偽三維殘差網(wǎng)絡(luò)(pseudo-3D residual networks,P3D)對(duì)于動(dòng)作識(shí)別有較好的效果,只以視頻幀為輸入的P3D ResNet的效果甚至要好于一些以視頻幀和光流為輸入的網(wǎng)絡(luò)的效果。將3D卷積核3×3×3用空間域2D卷積1×3×3以及在時(shí)間域1D卷積3×1×1的聯(lián)合表示,這樣不僅能夠減少模型的訓(xùn)練參數(shù)而且能夠發(fā)揮在2D CNNs上預(yù)訓(xùn)練的優(yōu)勢(shì)。作者還研究了幾種P3D的變體,以及如何組合形成一種結(jié)構(gòu)多樣性的最終的P3D網(wǎng)絡(luò)架構(gòu)。Shi等人[18]提出的卷積長短期記憶網(wǎng)絡(luò)(ConvLSTM)為了更好地模擬時(shí)空關(guān)系,將LSTM函數(shù)的思想推廣到在輸入到狀態(tài)和狀態(tài)到狀態(tài)的轉(zhuǎn)換中具有卷積結(jié)構(gòu)的卷積模型。通過疊加多個(gè)ConvLSTM層并形成編碼預(yù)測(cè)結(jié)構(gòu)。對(duì)于通用序列建模,LSTM作為一種特殊的RNN結(jié)構(gòu),在以前的各種研究中已經(jīng)被證明是穩(wěn)定和強(qiáng)大的,在此基礎(chǔ)上改進(jìn)的ConvLSTM方法,在行為識(shí)別、時(shí)間預(yù)測(cè)領(lǐng)域已經(jīng)得到驗(yàn)證,具有較好的性能。

3.4 實(shí)驗(yàn)數(shù)據(jù)分析方法

使用數(shù)據(jù)集中的測(cè)試集,對(duì)20個(gè)民族舞蹈典型動(dòng)作各方法識(shí)別結(jié)果進(jìn)行精度評(píng)價(jià)。計(jì)算使用本文方法實(shí)驗(yàn)的識(shí)別結(jié)果的混淆矩陣,能夠清楚地表達(dá)每個(gè)動(dòng)作正確識(shí)別和錯(cuò)誤識(shí)別的類別和個(gè)數(shù),然后計(jì)算三種經(jīng)典識(shí)別算法的總體識(shí)別精度,最后將本文方法與經(jīng)典算法進(jìn)行對(duì)比。

4 實(shí)驗(yàn)結(jié)果與分析

本文的3D CNN在Python3.6平臺(tái)上實(shí)現(xiàn),使用環(huán)境為AMD Ryzen 7 4800H with Radeon Graphics 2.90 GHz的Windows 10系統(tǒng)計(jì)算機(jī)。

首先,為了緩解過擬合現(xiàn)象,使用了Dropout技術(shù),將Dropout比率設(shè)置為0.2、0.4、0.5、0.6、0.8并分別對(duì)本文的數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),驗(yàn)證集結(jié)果如圖4所示,迭代100次,對(duì)比不同Dropout比率的測(cè)試集識(shí)別精度,當(dāng)Dropout比率設(shè)置為0.4和0.5時(shí),都獲得了不錯(cuò)的識(shí)別結(jié)果,在迭代50次之后,Dropout比率為0.5的識(shí)別精度略高于比率為0.4的識(shí)別精度。

圖4 不同Dropout比率的實(shí)驗(yàn)結(jié)果Fig.4 Experimental results of different Dropout ratios

為了驗(yàn)證文本提出的方法的有效性,對(duì)公開數(shù)據(jù)集UTKinect數(shù)據(jù)集、MSRAction3D數(shù)據(jù)集及本文的民族舞蹈動(dòng)作數(shù)據(jù)集(ETHDance)進(jìn)行了實(shí)驗(yàn)。UTKinect動(dòng)作數(shù)據(jù)集和MSRAction3D動(dòng)作數(shù)據(jù)集均由Kinect深度傳感器采集,包含了人體20個(gè)關(guān)節(jié)點(diǎn)動(dòng)作數(shù)據(jù),與本文的舞蹈動(dòng)作數(shù)據(jù)結(jié)構(gòu)一致。UTKinect數(shù)據(jù)集包含10類動(dòng)作,共計(jì)200個(gè)動(dòng)作樣本,MSRAction3D數(shù)據(jù)集包含20類動(dòng)作,共計(jì)567個(gè)動(dòng)作樣本,本文的舞蹈動(dòng)作數(shù)據(jù)集包含了20類舞蹈動(dòng)作,共計(jì)600個(gè)動(dòng)作樣本。圖5為訓(xùn)練集識(shí)別精度,圖6為測(cè)試集識(shí)別精度。本文方法在UTKinect數(shù)據(jù)集上獲得了81%的識(shí)別率,在MSRAciton3D數(shù)據(jù)集上獲得了91%的識(shí)別率,在ETHDance數(shù)據(jù)集上獲得了95%的識(shí)別率。通過結(jié)果可知本文的3D CNNs在其他的動(dòng)作數(shù)據(jù)集中也獲得了不錯(cuò)的結(jié)果,由此可以驗(yàn)證本文方法的有效性,同時(shí)也說明了本文的數(shù)據(jù)集構(gòu)建比較合理。民族舞蹈典型動(dòng)作數(shù)據(jù)集能獲得更好的識(shí)別效果原因分析如下:(1)在民族舞蹈典型動(dòng)作篩選過程中,選擇了動(dòng)作差異比較大的舞蹈動(dòng)作;(2)采集了更多的動(dòng)作樣本數(shù),獲得了更多的深度學(xué)習(xí)數(shù)據(jù);(3)采集的舞蹈動(dòng)作比一般的動(dòng)作有更多的時(shí)長,也獲取了更多的動(dòng)作表征。

圖5 三種數(shù)據(jù)集的訓(xùn)練識(shí)別率Fig.5 Training recognition rate of three data sets

圖6 三種數(shù)據(jù)集的測(cè)試識(shí)別率Fig.6 Test recognition rate of three data sets

在實(shí)驗(yàn)過程中,對(duì)所有被試的訓(xùn)練集和驗(yàn)證集進(jìn)行3D CNNs模型訓(xùn)練,得到如圖7所示損失函數(shù)曲線。圖中,縱坐標(biāo)為損失值,橫坐標(biāo)為迭代次數(shù)。從圖7中可以看出迭代次數(shù)進(jìn)行到45次以后,Loss逐漸穩(wěn)定在0.019 1左右,達(dá)到模型的最佳訓(xùn)練效果。

圖7 訓(xùn)練集和測(cè)試集的損失函數(shù)Fig.7 Loss function of training set and test set

如圖8所示,為實(shí)驗(yàn)得到訓(xùn)練集和驗(yàn)證集識(shí)別精度函數(shù)圖,圖中在模型訓(xùn)練迭代45次以后,訓(xùn)練集識(shí)別率達(dá)到99.74%,然后曲線保持基本穩(wěn)定,達(dá)到模型最佳識(shí)別效果。

圖8 訓(xùn)練集和測(cè)試集的識(shí)別率Fig.8 Accuracy of training set and test set

如圖9所示,為本文實(shí)驗(yàn)結(jié)果的混淆矩陣,圖中比較了各個(gè)動(dòng)作的測(cè)試集的識(shí)別效果。由于測(cè)試集是從總的樣本中的20%隨機(jī)抽取各個(gè)動(dòng)作構(gòu)成,因此測(cè)試集中每個(gè)動(dòng)作的個(gè)數(shù)不同。從圖中可以看出少數(shù)動(dòng)作錯(cuò)誤的預(yù)測(cè)為動(dòng)作12,其余的動(dòng)作都具有不錯(cuò)的識(shí)別結(jié)果。

圖9 測(cè)試集識(shí)別結(jié)果混淆矩陣Fig.9 Confusion matrix of test set recognition results

其他經(jīng)典算法同樣使用骨架數(shù)據(jù)輸入,與本文方法相比,結(jié)果如表2所示,本文使用的模型在本文的數(shù)據(jù)集中識(shí)別精度較高,其中,略高于P3D,比ConvLSTM高出約6個(gè)百分點(diǎn),比C3D(1 net)高出約3.5個(gè)百分點(diǎn)。

表2 與其他方法對(duì)比結(jié)果Table 2 Comparison results with other methods

通過實(shí)驗(yàn)結(jié)果可以知道,使用人體骨架信息能夠占用更小的存儲(chǔ)空間獲得很好的識(shí)別結(jié)果,因此各個(gè)模型在本文的數(shù)據(jù)集中都有不錯(cuò)的識(shí)別結(jié)果。與C3D模型相比,本文沿用了卷積核大小3×3×3,因?yàn)樵谖墨I(xiàn)[10]中已經(jīng)證明此大小有更好的性能,但是C3D中有8層卷積層,對(duì)于本文的數(shù)據(jù)集說來,數(shù)據(jù)容量過大,本文在模型上調(diào)整了層數(shù)與卷積核數(shù)量,從而獲得了更好的識(shí)別結(jié)果。相較于傳統(tǒng)的RGB信息,向模型中輸入骨架信息,能夠獲得更快的計(jì)算速度,這也是本文采集民族舞蹈動(dòng)作骨架信息的原因之一,而本文實(shí)驗(yàn)后得到較好的結(jié)果,驗(yàn)證了動(dòng)作采集實(shí)驗(yàn),以及數(shù)據(jù)預(yù)處理及該數(shù)據(jù)集的合理性。

5 結(jié)束語

每一個(gè)民族都擁有自己獨(dú)特的民族文化和精神,舞蹈是人類使用肢體語言來表達(dá)情緒情感、傳達(dá)心意的一種方式,這種語言是不分國界,不分種族,是屬于人類的共通的語言。隨著動(dòng)作識(shí)別的技術(shù)發(fā)展,有不少研究將動(dòng)作識(shí)別方法應(yīng)用于非物質(zhì)文化遺產(chǎn),在面臨少數(shù)民族舞蹈動(dòng)作傳承困難的問題下,民族舞蹈也應(yīng)該被更多更好地記錄。本文實(shí)現(xiàn)了從舞蹈動(dòng)作數(shù)據(jù)采集到動(dòng)作識(shí)別一套完整的流程。通過Kinect深度傳感器采集民族舞蹈典型動(dòng)作骨架信息,排除了背景、光照等因素的干擾,構(gòu)建了民族舞蹈典型動(dòng)作數(shù)據(jù)集,用改進(jìn)的3D CNNs識(shí)別該數(shù)據(jù)集,并在公開數(shù)據(jù)集上對(duì)該方法進(jìn)行了驗(yàn)證。研究結(jié)果表明,本文的3D CNNs能夠?qū)γ褡逦璧竸?dòng)作識(shí)別產(chǎn)生比較令人滿意的結(jié)果,驗(yàn)證了民族舞蹈動(dòng)作的采集到識(shí)別具有可行性,骨架信息輕量化的特點(diǎn)也使民族舞蹈動(dòng)作應(yīng)用開發(fā)更加便捷。然而,有少數(shù)相似度較高的動(dòng)作識(shí)別結(jié)果上仍有偏差,而且數(shù)據(jù)集的構(gòu)建只采集了一些典型動(dòng)作片段作為數(shù)據(jù)樣本,對(duì)于整段完整的表演,仍然有很大的研究空間。因此,下一步研究方向,是使用更優(yōu)化的深度學(xué)習(xí)算法去優(yōu)化對(duì)于民族舞蹈動(dòng)作識(shí)別精度,同時(shí)采集更多的民族舞蹈動(dòng)作數(shù)據(jù)擴(kuò)充數(shù)據(jù)集,并且在較長的舞蹈表演中識(shí)別出不同的舞蹈動(dòng)作,同時(shí),在民族舞蹈動(dòng)作數(shù)據(jù)集的基礎(chǔ)上,可以開發(fā)更多相關(guān)應(yīng)用。

猜你喜歡
骨架卷積舞蹈
淺談管狀骨架噴涂方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
學(xué)舞蹈的男孩子
文苑(2020年8期)2020-09-09 09:30:34
骨架密度對(duì)炭/炭多孔骨架壓力浸滲銅的影響
冰上舞蹈搭檔
舞蹈課
孩子(2019年10期)2019-11-22 08:06:01
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
我和舞蹈
內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
中國煤層氣(2014年3期)2014-08-07 03:07:45
会理县| 玉溪市| 建始县| 饶河县| 隆昌县| 宣威市| 龙岩市| 通道| 伊宁县| 榕江县| 景谷| 城口县| 武安市| 渝中区| 高安市| 昭平县| 南投市| 桐城市| 沅江市| 西峡县| 龙游县| 尚志市| 漠河县| 四平市| 平山县| 泾川县| 荣昌县| 吴江市| 裕民县| 博爱县| 固原市| 明溪县| 东方市| 杭锦后旗| 册亨县| 阿拉善盟| 胶州市| 定安县| 郧西县| 丽水市| 乡宁县|