謝靜文 王衛(wèi)星 馬連丹 胡寧峰
摘? 要: 少數(shù)民族原生態(tài)舞蹈是國家非物質(zhì)文化遺產(chǎn)的重要組成部分,但由于文化的多元化使其發(fā)展和傳承受到?jīng)_擊。為了更好地保護(hù)與傳承原生態(tài)民族舞蹈,本研究結(jié)合Kinect深度相機(jī)設(shè)計(jì)并開發(fā)了一套原生態(tài)舞蹈動作的學(xué)習(xí)框架。該框架通過Kinect采集并存儲專業(yè)原生態(tài)舞者動作的骨骼信息,并使用改進(jìn)的3D CNNS模型對原生態(tài)舞蹈進(jìn)行識別,根據(jù)識別結(jié)果,采用Cosine-DTW算法對訓(xùn)練者的舞蹈動作進(jìn)行評價,從而實(shí)現(xiàn)原生態(tài)舞蹈動作的數(shù)字化保護(hù)與傳承。
關(guān)鍵詞: Kinect; 骨骼信息; 3D CNNS; Cosine-DTW; 原生態(tài)舞蹈
中圖分類號:TP399? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? 文章編號:1006-8228(2023)09-136-05
Research on digital protection of primitive dance based on skeletal information
Xie Jingwen1, Wang Weixing1,2, Ma Liandan2, Hu Ningfeng2
(1. Key Laboratory of Modern Manufacturing Technology of Ministry of Education, Guizhou University, Guiyang, Guizhou 550025, China;
2. School of Mechanical Engineering, Guizhou University)
Abstract: The primitive dance of ethnic minorities is an important part of the national intangible cultural heritage, but its development and inheritance are affected by the diversity of culture. In order to better protect and inherit the primitive dance, a learning framework of primitive dance movements is designed and developed combined with the Kinect depth camera. The skeletal information of professional primitive dancers' movements is collected and stored by Kinect, and the improved 3D CNNS model is used to recognize the primitive dance. Based on the recognition results, the Cosine-DTW algorithm is used to evaluate the dance movements of the trainers, so as to realize the digital protection and heritage of primitive dance movements.
Key words: Kinect; skeletal information; 3D CNNS; Cosine-DTW; primitive dance
0 引言
原生態(tài)少數(shù)民族舞蹈作為中華民族非物質(zhì)文化遺產(chǎn)的重要組成部分,以其獨(dú)特的肢體動作來表達(dá)社會生活、民族歷史文化和情感。然而,這種非物質(zhì)文化遺產(chǎn)如今卻面臨著流失的風(fēng)險(xiǎn)[1]。傳統(tǒng)的舞蹈動作記錄工作中,專業(yè)的舞蹈動作大多是通過文字、圖像或視頻等方式對其進(jìn)行記錄。然而這些方式很難準(zhǔn)確、全面地將少數(shù)民族原生態(tài)舞蹈動作傳承下去。隨著數(shù)字化技術(shù)的飛速發(fā)展,基于骨骼信息的人體動作研究正逐漸成為研究與應(yīng)用的熱點(diǎn),人體骨架信息中包含豐富的動作特征信息,為少數(shù)民族原生態(tài)舞蹈動作研究奠定了基礎(chǔ)。本文基于骨架信息的舞蹈動作數(shù)字化研究包括:原生態(tài)舞蹈動作的數(shù)字化識別與評價。舞蹈動作數(shù)字化識別是指對錄入的原生態(tài)舞蹈動作與數(shù)據(jù)庫中的標(biāo)準(zhǔn)動作進(jìn)行匹配,得到最為相似的動作類別;舞蹈動作的數(shù)字化評價是指通過人體骨架中各關(guān)節(jié)運(yùn)動軌跡的動態(tài)變化,對動作的規(guī)范程度進(jìn)行衡量。本研究使用改進(jìn)的3D-CNN算法、Cosine-DTW算法,對原生態(tài)舞蹈動作進(jìn)行識別與評價,同時對訓(xùn)練者舞蹈動作的完成質(zhì)量進(jìn)行反饋,反饋框架可有效地評估出訓(xùn)練者動作與標(biāo)準(zhǔn)動作的差異,訓(xùn)練者可根據(jù)反饋,改進(jìn)自身不規(guī)范動作,促進(jìn)原生態(tài)舞蹈動作的數(shù)字化傳承。綜上所述,本文開發(fā)基于三維骨骼信息的舞蹈動作識別和評價框架,對原生態(tài)舞蹈動作的傳承和保護(hù)具有重要研究意義。
1 原生態(tài)舞蹈數(shù)據(jù)集的制作
1.1 原生態(tài)舞蹈動作調(diào)研
貴州是一個少數(shù)民族居多的省份,擁有數(shù)量龐大且極具特色的少數(shù)民族部落村寨。如西江千戶苗寨、肇興侗寨、朗德上寨等。據(jù)文獻(xiàn)[2]記錄,貴州地區(qū)少數(shù)民族主要有苗族、土家族、布依族、侗族等。其代表性舞種有:錦雞舞、擺手舞、織布舞、糠包舞、蘆笙舞、竹鼓舞、花鼓子、八寶銅鈴舞等。本研究從上述原生態(tài)舞種中篩選六種作為研究對象。
⑴ 擺手舞:土家族的擺手舞,舞姿大方粗獷,擺手動作有單擺、雙擺、回旋擺、邊擺邊跳等[3]。
⑵ 錦雞舞:苗族的代表性舞蹈,形如錦雞樣式的一種蘆笙樂曲舞姿。產(chǎn)生并盛行于貴州省苗族村寨中。錦雞舞步伐分三排式、四拍式、五拍式、七拍式不等,上身動作小,腳步動作多,輕巧靈活,腰及膝蓋以下以自然蠕動為主[4]。
⑶ 織布舞:布依族民間舞蹈形式之一,流行于貴州省等布依族地區(qū)。主要表現(xiàn)種棉、摘棉、抽紗、紡線到織成布匹的全過程。
⑷ 糠包舞:集中在黔南、黔西南。布依族男女青年以拋舞糠包的形式來選擇情侶,相互表達(dá)愛慕之情??钒璧奈璧竸幼饔絮悴较蚯?、轉(zhuǎn)身、起步、退步等。
⑸ 竹鼓舞:布依族原生態(tài)舞蹈。表演時舞者雙手拿相同大小或一大一小的竹鼓相互敲打,通過跳躍、轉(zhuǎn)體、擊地等方式進(jìn)行演繹。擊鼓迎送、望鼓、跳鼓等是竹鼓舞關(guān)鍵動作。
⑹ 蘆笙舞:苗族原生態(tài)舞蹈。蘆笙舞的動作以矮步、蹲踢、旋轉(zhuǎn)、騰躍等為主。蘆笙舞的動作類型主要有滾山珠、蘆笙拳、蚯蚓滾沙等。
本研究篩選上述六類原生態(tài)舞蹈作為典型范例,每類舞蹈均包含3~4個能代表該舞蹈特征的動作片段,使用Kinect深度相機(jī)錄制專業(yè)舞者舞蹈動作并將其保存在原生態(tài)舞蹈數(shù)據(jù)集中,數(shù)據(jù)集中共包含六種原生態(tài)舞蹈的20種動作。
1.2 原生態(tài)舞蹈動作數(shù)據(jù)集錄制
10名身體健康的專業(yè)舞蹈志愿者(年齡(23±3)歲)參與了原生態(tài)舞蹈動作數(shù)據(jù)集的錄制。被試者實(shí)驗(yàn)前12小時內(nèi)沒有進(jìn)行劇烈的身體運(yùn)動,身體健康狀況良好,每位被試者都學(xué)習(xí)過不同的舞蹈類型,有4~5年的原生態(tài)舞蹈學(xué)習(xí)經(jīng)驗(yàn)。
實(shí)驗(yàn)開始前,實(shí)驗(yàn)者需簽署本研究的書面說明和知情同意書。實(shí)驗(yàn)過程中,根據(jù)實(shí)驗(yàn)室的實(shí)際環(huán)境,設(shè)置本實(shí)驗(yàn)的限制條件如下:①Kinect距地面的垂直距離應(yīng)為1~1.2m,距訓(xùn)練者的水平距離應(yīng)為2~3m。此距離范圍內(nèi),人體全部骨骼節(jié)點(diǎn)恰好能被Kinect相機(jī)完全檢測,數(shù)據(jù)捕獲最優(yōu)且跟蹤效能最好。②人體與Kinect的相對角度不能超過45度。若相對角度過大,Kinect檢測到關(guān)節(jié)點(diǎn)會出現(xiàn)失真的情況。③捕捉人體動作信息時,訓(xùn)練者應(yīng)站在Kinect的正前方,并保證受試地點(diǎn)開闊,無物體遮擋。
實(shí)驗(yàn)要求專業(yè)被試舞者在數(shù)據(jù)采集前3~5天內(nèi)按動作視頻與動作解釋學(xué)習(xí)20個原生態(tài)典型舞蹈動作示例,并能依次熟悉地跟隨音樂節(jié)奏流暢地表演。實(shí)驗(yàn)期間盡量避免動作的停頓、過快和過慢。實(shí)驗(yàn)過程中,根據(jù)語音指導(dǎo)與節(jié)拍口令舞動20個動作片段,每個動作片段執(zhí)行三次,通過動作采集程序?qū)I(yè)舞者的標(biāo)準(zhǔn)舞蹈動作各骨骼點(diǎn)坐標(biāo)進(jìn)行采集,實(shí)驗(yàn)結(jié)束后,將錄制的600個樣本存入數(shù)據(jù)集。
2 方法
2.1 三維卷積神經(jīng)網(wǎng)絡(luò)
三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)可以從時間維度和空間維度提取特征,提取多個連續(xù)幀的運(yùn)動信息。本文采用改進(jìn)的3D CNNs對原生態(tài)舞蹈典型動作骨架信息進(jìn)行識別,骨架信息是單通道信息,計(jì)算量更小,模型識別性能更好。本文改進(jìn)的3D CNNs模型框架如圖1所示,其結(jié)構(gòu)包括四個卷積層、二個池化層、二個全連接層和一個Softmax分類層。
卷積層對輸出矩陣按指定步長進(jìn)行卷積操作:并利用激活函數(shù)將卷積操作后的非線性特征進(jìn)行提取,其公式表達(dá)為:
[Vxyzij=tanh (bij+mp=0pi-1q=0pi-1r=0pi-1wpqrijmv(x+p)(y+q)(z+r)(i-1)m)] ⑴
其中,[bij]為偏置,[Ri]表示三維卷積核的大小,[wpqrijm]為上一層第m個特征圖在點(diǎn)(p、q、r)處的值。
不同于二維圖像的處理,動作識別過程中需要考慮數(shù)據(jù)集在時間維度上的信息。池化層的出現(xiàn)可以縮小參數(shù)矩陣尺寸的形式減小特征圖,降低數(shù)據(jù)維度,從而減少最后連接層中的參數(shù)數(shù)量,并訓(xùn)練提高訓(xùn)練速度與準(zhǔn)確率。最大池化的公式如下:
[Vxyz=Max(ym*n+i,n*t+j,l*r+k)] ⑵
其中,V為池化操作后的輸出,y為三維輸入向量,n,t,r為采樣步長。
若模型在訓(xùn)練集中結(jié)果較好而在測試集中結(jié)果較差則為過擬合現(xiàn)象,Dropout策略是指在訓(xùn)練過程中按一定比例隨機(jī)忽略或屏蔽一些神經(jīng)元,從而防止過擬合現(xiàn)象的產(chǎn)生。Dropout參數(shù)影響了訓(xùn)練模型的準(zhǔn)確度。本文訓(xùn)練過程中,也將通過Dropout 比例的調(diào)節(jié),從而減少過擬合現(xiàn)象。
Softmax函數(shù)為用于多分類問題的激活函數(shù),對于長度為K的任意實(shí)向量,Softmax函數(shù)可以將其壓縮為長度K,并將其值取在[0,1]范圍內(nèi),向量中元素的總和為1。
[Softmaxx=exiiexi]? ⑶
本實(shí)驗(yàn)將預(yù)處理過的原生態(tài)舞蹈典型動作數(shù)據(jù)集平均分為五組,每次實(shí)驗(yàn)?zāi)靡唤M進(jìn)行測試,其余組用作訓(xùn)練,五次實(shí)驗(yàn)結(jié)束后,求平均值作為實(shí)驗(yàn)結(jié)果。
2.2 改進(jìn)的動態(tài)時間規(guī)整算法
動態(tài)時間規(guī)整算法(DTW)具有數(shù)據(jù)需求量小、計(jì)算簡單等優(yōu)勢,常用于動作評價類研究。本文對傳統(tǒng)DTW動作匹配算法進(jìn)行改進(jìn),以使其更好地適用于人體骨架數(shù)據(jù)的匹配。
骨架數(shù)據(jù)中相鄰骨骼點(diǎn)之間的連線構(gòu)成了一個骨骼向量,考慮到人體舞蹈動作姿態(tài)主要以四肢的運(yùn)動為主,故選取人體運(yùn)動中權(quán)重較大的肩肘、肘腕、髖膝、膝踝等骨架特征向量與其對應(yīng)的四個特征平面。待匹配的兩個骨架向量,起點(diǎn)均位于空間坐標(biāo)軸原點(diǎn),其終點(diǎn)位置的空間差異可作為兩者相似性的評價依據(jù)。本文在傳統(tǒng)方法的基礎(chǔ)上,提出一種基于余弦距離的DTW匹配算法(Cosine-DTW),相比歐式距離,余弦距離更加注重兩個向量在方向上的差異,可更好的反映待匹配的兩向量每幀之間的差異。將骨架特征向量單位化,可以減少匹配時由于測試者肢體長度不同而帶來的相對誤差;使用Cosine-DTW算法計(jì)算出待匹配的兩個向量在方向上的差異;比較骨架整體間的相似性時,將各骨架特征向量Cosine-DTW距離相加,累加值可反映兩幀骨架的整體相似程度。
[V'(Xi,Yi,Zi)=U(Xi,Yi,Zi)(U2Xi+U2Yi+U2Zi)(i=1,2…,12)]? ⑷
[V'(Xi,Yi,Zi)=V(Xi,Yi,Zi)(V2Xi+V2Yi+V2Zi)(i=1,2…,12)]? ⑸
[DU'iV'i=1-U'(Xi,Y,Zi)?V'(Xi,Y,Zi)|U'(Xi,Y,Zi)|?|V'(Xi,Y,Zi)|(i=1,2,…,12)]? ⑹
[Dsum=i=112DU'iV'i]? ⑺
其中,[U(Xi,YiZi)]代表各幀中標(biāo)準(zhǔn)動作中骨架向量[Ui]的位置信息,[U'(Xi,YiZi)]代表標(biāo)準(zhǔn)動作中[Ui]單位化后的位置信息;[V(Xi,YiZi)]代表訓(xùn)練動作中骨架向量[Vi]的位置信息,[V'(Xi,YiZi)]代表訓(xùn)練動作中[Vi]單位化后的位置信息;[DU'iV'i]為標(biāo)準(zhǔn)動作與測試動作骨架關(guān)節(jié)向量i的距離差距值,[Dsum]表示該骨架幀的整體差距值。
相比于無對齊的序列匹配與傳統(tǒng)基于歐式距離的DTW匹配算法,使用Cosine-DTW算法對舞蹈動作的標(biāo)準(zhǔn)程度進(jìn)行度量,其結(jié)果更加科學(xué)合理,匹配結(jié)果與原始動作骨架幀能更好的對應(yīng),解決了長度不一致的動作序列的對齊問題,且余弦值能反推出待匹配的兩骨骼向量之間的角度差異,增加了骨架整體匹配精度。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 動作識別實(shí)驗(yàn)與結(jié)果分析
動作識別的實(shí)驗(yàn)環(huán)境為AMD Ryzen 7 4800H with Radeon Graphics 2.90 GHz的Windows 10系統(tǒng)計(jì)算機(jī),使用Python3.7編寫了實(shí)驗(yàn)代碼。為了緩解過擬合現(xiàn)象,使用Dropout技術(shù)并對其設(shè)置不同比率(0.25、0.5、0.65、0.8)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中每種比率的Dropout均迭代100次。實(shí)驗(yàn)結(jié)果如圖2所示。由圖2可知,將Dropout 比率設(shè)置為0.5時,原生態(tài)舞蹈識別結(jié)果較好,故后續(xù)實(shí)驗(yàn)中,Dropout比率統(tǒng)一設(shè)置為0.5。
為驗(yàn)證本文方法的有效性,使用本文方法對公開數(shù)據(jù)集 MSRAction3D 數(shù)據(jù)集、UTKinec數(shù)據(jù)集及本文的原生態(tài)舞蹈數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。MSRAction3D數(shù)據(jù)集使用Kinect進(jìn)行錄制,記錄了十名被試者的20種動作。UT-Kinect 數(shù)據(jù)集記錄了十個受試者十種日常動作。圖3為使用本文方法在三種數(shù)據(jù)集上的訓(xùn)練精度與測試精度。由下圖可知,本文方法在三種數(shù)據(jù)集上均取得了90%以上的識別精度,且在原生態(tài)舞蹈動作數(shù)據(jù)集上獲得了95%以上的識別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。
在實(shí)驗(yàn)過程中,使用3D CNNs對原生態(tài)舞蹈數(shù)據(jù)集進(jìn)行訓(xùn)練,得到如圖4所示的訓(xùn)練-損失曲線。 圖中,縱坐標(biāo)為損失值,橫坐標(biāo)為迭代次數(shù)。從圖4可以看出,迭代次數(shù)進(jìn)行到40次左右訓(xùn)練值與損失值逐漸趨于穩(wěn)定,訓(xùn)練集識別效率為96%,為模型的最佳訓(xùn)練結(jié)果。訓(xùn)練結(jié)束后,將訓(xùn)練模型保存。
隨后,使用本文算法與C3D、P3D、I3D、X3D、ConvLSTM等經(jīng)典算法,對原生態(tài)舞蹈數(shù)據(jù)集進(jìn)行識別。實(shí)驗(yàn)結(jié)果如表1所示,由表1可知,上述七種經(jīng)典算法在本文數(shù)據(jù)集中均取得了較高的識別準(zhǔn)確度,本文模型的識別準(zhǔn)確度高于其他經(jīng)典方法。本實(shí)驗(yàn)同時驗(yàn)證了數(shù)據(jù)集采集、特征提取以及本文所用算法合理性。原生態(tài)舞蹈數(shù)據(jù)集將提取出來的人體骨骼信息作為關(guān)鍵動作信息進(jìn)行保留,節(jié)省了存儲空間。
3.2 動作評價實(shí)驗(yàn)與結(jié)果分析
本文動作識別模型被驗(yàn)證取得良好效果后,隨后對測試舞蹈數(shù)據(jù)進(jìn)行采集,測試舞蹈采集對被試者的舞蹈經(jīng)驗(yàn)不做要求。實(shí)驗(yàn)對象選取了年齡在18-30歲三名志愿者。實(shí)驗(yàn)中志愿者以下述三種方式模仿上述標(biāo)準(zhǔn)動作,每種類別重復(fù)十次。通過本文方法對動作進(jìn)行識別并根據(jù)閾值計(jì)算動作得分。
⑴ 測試動作與標(biāo)準(zhǔn)動作在位置和速度上基本保持一致;
⑵ 測試動作與標(biāo)準(zhǔn)動作在位置上相似,只是在節(jié)奏上有輕微差異;
⑶ 測試動作與標(biāo)準(zhǔn)動作在位置和節(jié)奏上均有較大差異;
使用Python3.7編寫程序提取骨架信息,通過模型正確識別出動作所屬類別后,使用Cosine-DTW算法匹配訓(xùn)練者動作數(shù)據(jù)與標(biāo)準(zhǔn)舞蹈動作數(shù)據(jù),根據(jù)匹配結(jié)果計(jì)算出該測試者Cosine-DTW匹配距離,實(shí)驗(yàn)前期依據(jù)測試動作偏離標(biāo)準(zhǔn)動作中心的程度對原生態(tài)舞蹈動作進(jìn)行了閾值確定,后續(xù)將通過閾值計(jì)算出測試者的動作得分。三名實(shí)驗(yàn)者錦雞舞動作評價結(jié)果如表2所示。
從表2可以看出,測試者的測試動作與標(biāo)準(zhǔn)動作在位置和速度上基本保持一致時,Cosine-DTW算法計(jì)算出的平均距離較小,測試者平均分?jǐn)?shù)較高;當(dāng)測試者的測試動作與標(biāo)準(zhǔn)動作在速度和節(jié)奏上差異較大時,Cosine-DTW算法計(jì)算出的平均距離最大,平均分?jǐn)?shù)最低;當(dāng)測試者的測試動作與標(biāo)準(zhǔn)動作在節(jié)奏上有輕微差異時,Cosine-DTW算法計(jì)算出的平均距離和平均分?jǐn)?shù)介于上述兩種情況之間。實(shí)驗(yàn)結(jié)果符合預(yù)期。之后對動作幀數(shù)據(jù)匹配結(jié)果進(jìn)行可視化表示,部分動作幀數(shù)據(jù)的距離損失矩陣映射圖如圖5所示。其中橫坐標(biāo)為標(biāo)準(zhǔn)舞蹈動作幀數(shù),縱坐標(biāo)為測試舞蹈動作幀數(shù);白色線段代表各幀匹配關(guān)系;背景圖為部分舞蹈損失矩陣數(shù)值的jet色譜映射。
從圖5可以看出,使用Cosine-DTW進(jìn)行原生態(tài)舞蹈動作的匹配,實(shí)驗(yàn)者1原生態(tài)舞蹈動作的1類動作匹配中,整體與標(biāo)準(zhǔn)動作相似度高,匹配較好;2類動作匹配中,有部分骨架幀和標(biāo)準(zhǔn)骨架幀發(fā)生了偏移,但整體與標(biāo)準(zhǔn)動作具有一定的相似性,3類動作的匹配性能最差,損失矩陣數(shù)值也比較大,3類動作幀的后期與標(biāo)準(zhǔn)動作匹配失敗。結(jié)合圖5的結(jié)果,驗(yàn)證了本文算法在舞蹈評價中的準(zhǔn)確性。
4 結(jié)束語
本文針對原生態(tài)舞蹈動作傳承困難的問題,對原生態(tài)舞蹈進(jìn)行調(diào)研,并使用Kinect對原生態(tài)舞蹈動作進(jìn)行錄制,以改進(jìn)的3D CNNS與Cosine-DTW算法實(shí)現(xiàn)了原生態(tài)舞蹈動作的識別與評價,公共數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了本文方法的普適性。本項(xiàng)目對原生態(tài)舞蹈動作的數(shù)字化發(fā)展、非物質(zhì)文化遺產(chǎn)傳承均具有重要意義。
參考文獻(xiàn)(References):
[1] 王鵑.基于動作捕捉技術(shù)的少數(shù)民族舞蹈數(shù)字化開發(fā)[J].貴州民族研究,2017,38(11):4.
[2] 王夢佳.談貴州少數(shù)民族舞蹈的發(fā)展和保護(hù)[J].大眾文藝:學(xué)術(shù)版,2013(1):1.
[3] 楊妮,宋歌瑪.土家擺手舞文化內(nèi)涵及價值探析[J].藝術(shù)科技,2021,34(5):2.
[4] 歐光艷.淺析貴州苗族原生態(tài)舞蹈“錦雞舞”的藝術(shù)特征[J].大眾文藝:學(xué)術(shù)版,2011(14):2.
[5] Xie S, Sun C, Huang J, et al. Rethinking spatiotemporalfeature learning: Speed-accuracy trade-offs in video classification[C]//(ECCV),2018:305-321.
[6] Diba A, Fayyaz M, Sharma V, et al. Temporal 3DConvNets: New Architecture and Transfer Learning for Video Classification[J],2017.
[7] Shi X, Chen Z, Wang H, et al. Convolutional LSTM?Network: A Machine Learning Approach for Precipitation Nowcasting[J],2015,28:802-810.
[8] Qiu Z, Yao T, Mei T. Learning Spatio-Temporal?Representation with Pseudo-3D Residual Networks[C]. IEEE,2017:5534.
[9] Ji S, Xu W, Yang M, et al. 3D Convolutional NeuralNetworks for Human Action Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2013,35(1):221-231.
[10] Tran D, Bourdev L, Fergus R, et al. Learningspatiotemporal features with 3D convolutional networks[C].Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, Chile,2015:4489-4497.