張聰聰,何 寧,孫琪翔,尹曉杰
(1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.北京聯(lián)合大學(xué) 智慧城市學(xué)院,北京 100101)
人體動(dòng)作識(shí)別已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)之一,在視頻監(jiān)控[1]、人機(jī)交互、醫(yī)療保?。?]、智能人機(jī)界面[3]等領(lǐng)域具有廣泛的應(yīng)用[4]。不同于圖像處理,視頻中動(dòng)作識(shí)別仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。視頻序列包括空間特征和時(shí)序特征,視頻分類效果的好壞很大程度上取決于能否從視頻中提取和利用這兩類特征。有效地從人體動(dòng)作視頻中提取到具有高區(qū)分度的時(shí)空特征,對(duì)于提高人體行為識(shí)別的準(zhǔn)確率有著重要作用。然而,視頻由大量的連續(xù)幀序列組成,具有極大的變化性和復(fù)雜性,例如遮擋、視點(diǎn)變化、背景差異、混亂、照明變化等情況[5],這對(duì)視頻中人體動(dòng)作的識(shí)別提出了更高的要求。
隨著計(jì)算機(jī)視覺(jué)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)從圖像分類問(wèn)題擴(kuò)展到視頻中動(dòng)作識(shí)別問(wèn)題[6]。在針對(duì)視頻中動(dòng)作的識(shí)別問(wèn)題中,多數(shù)研究都集中在提取可以表達(dá)視頻動(dòng)作的有效特征上,與圖像空間中的特征表示不同,視頻中人體動(dòng)作的特征表示不僅要描述圖像空間中人的表觀特征,而且還需提取動(dòng)作外觀和姿勢(shì)的變化。因此,特征表示的問(wèn)題從二維空間擴(kuò)展到了三維時(shí)空[7],這樣提取的有效特征信息能夠顯著提升視頻識(shí)別的準(zhǔn)確性。目前視頻中動(dòng)作特征主要是利用基于深度學(xué)習(xí)的方法進(jìn)行提取,SIMONYAN 等[8]提出雙流網(wǎng)絡(luò)模型,分別使用RGB 圖像和光流圖像作為網(wǎng)絡(luò)輸入,提取視頻的空間特征和時(shí)間特征,最后將2 個(gè)特征融合來(lái)識(shí)別視頻中的動(dòng)作。3D 卷積網(wǎng)絡(luò)將視頻視為3D 時(shí)空結(jié)構(gòu),TRAN 等[9]通過(guò)開(kāi)發(fā)3D 卷積和3D 池化層,將2D CNN 擴(kuò)展到3D CNN,并使用3D 卷積方法來(lái)學(xué)習(xí)視頻中動(dòng)作的空間和時(shí)間特征。
本文提出一種基于注意力機(jī)制的3D 密集卷積網(wǎng)絡(luò)模型。使用雙流網(wǎng)絡(luò)基本框架,將原DenseNet網(wǎng)絡(luò)的二維卷積內(nèi)核擴(kuò)展到三維空間,以提升視頻序列特征的提取效率。為準(zhǔn)確提取視頻中人的動(dòng)作特征,在3D 密集卷積網(wǎng)絡(luò)中加入空間和通道注意力機(jī)制,結(jié)合時(shí)間網(wǎng)絡(luò)對(duì)連續(xù)視頻序列提取的運(yùn)動(dòng)光流進(jìn)行特征提取,并在雙流網(wǎng)絡(luò)之間對(duì)時(shí)空網(wǎng)絡(luò)的相互作用進(jìn)行建模,最后進(jìn)行時(shí)空特征融合得到視頻中人體動(dòng)作的識(shí)別結(jié)果。
視頻中動(dòng)作識(shí)別盡管在許多領(lǐng)域中得到了廣泛應(yīng)用,但準(zhǔn)確有效的人體動(dòng)作識(shí)別仍然是計(jì)算機(jī)視覺(jué)研究的一個(gè)具有挑戰(zhàn)的領(lǐng)域[7]。視頻中巨大的信息冗余需要大量的存儲(chǔ)空間,而且從視頻幀中發(fā)現(xiàn)具有區(qū)分性的信息非常復(fù)雜且過(guò)程緩慢。近年來(lái),雙流網(wǎng)絡(luò)模型[8]和3D 卷積模型[9]在視頻中的動(dòng)作識(shí)別上取的了較好的效果。雙流卷積網(wǎng)絡(luò)有一些代表性擴(kuò)展工作,如ZHANG 等[10]使用視頻流中的運(yùn)動(dòng)矢量而不是光流序列來(lái)提高計(jì)算速度并實(shí)現(xiàn)實(shí)時(shí)的視頻中人體動(dòng)作識(shí)別,F(xiàn)EICHTENHOFER 等[11]將空間和時(shí)間信息融合的過(guò)程從原始的最終分類層更改為網(wǎng)絡(luò)的中間部分,從而進(jìn)一步提高了動(dòng)作識(shí)別的準(zhǔn)確性,WANG 等[12]詳細(xì)討論了雙流卷積網(wǎng)絡(luò)的輸入、卷積網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略,并提出了時(shí)域網(wǎng)(TSN)進(jìn)一步改善雙流卷積網(wǎng)絡(luò)的結(jié)果。另外,LAN[13]和ZHOU[14]的工作也進(jìn)一步提高了TSN 的識(shí)別結(jié)果。WANG 等[15]對(duì)雙流網(wǎng)絡(luò)進(jìn)行跨任務(wù)擴(kuò)展,使用動(dòng)作識(shí)別網(wǎng)絡(luò)中的信息促進(jìn)動(dòng)作預(yù)測(cè)網(wǎng)絡(luò)的學(xué)習(xí),構(gòu)建的師生模型在視頻中動(dòng)作的預(yù)測(cè)任務(wù)中取得了較好的效果。
許多研究人員嘗試將不同的二維卷積網(wǎng)絡(luò)擴(kuò)展到三維時(shí)空結(jié)構(gòu),以學(xué)習(xí)和識(shí)別視頻中的人體動(dòng)作特征。3D 卷積網(wǎng)絡(luò)可以直接從視頻中提取時(shí)空特征,因此具有較高的識(shí)別效率。JI 等[16]將卷積神經(jīng)網(wǎng)絡(luò)在時(shí)間維度上進(jìn)行了擴(kuò)充,提出使用3D 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)作識(shí)別。TRAN 等[9]提出一種C3D(Convolutional 3D)的標(biāo)準(zhǔn)3D 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。3D 卷積神經(jīng)網(wǎng)絡(luò)通過(guò)3D 內(nèi)核卷積將多個(gè)連續(xù)幀堆疊在一起,進(jìn)而形成多維數(shù)據(jù)特征來(lái)實(shí)現(xiàn)對(duì)視頻動(dòng)作時(shí)空特征的提取。通過(guò)3D 卷積核這種構(gòu)造,卷積層中的特征圖被連接到前一層中的多個(gè)連續(xù)幀,從而捕獲到運(yùn)動(dòng)信息。CARREIRA 等[17]將Inception-V1 的網(wǎng)絡(luò)結(jié)構(gòu)從二維擴(kuò)展到了三維,并提出用于動(dòng)作識(shí)別的雙流3D ConvNet。此后出現(xiàn)了一系列基于3D 卷積的網(wǎng)絡(luò)框架[18-20],ZHU 等[21]提出將合并操作從原始空間維擴(kuò)展到3 個(gè)時(shí)空維,并將雙流卷積網(wǎng)絡(luò)擴(kuò)展到3D 結(jié)構(gòu)。
注意力機(jī)制可以利用人類視覺(jué)機(jī)制進(jìn)行直觀解釋,視覺(jué)系統(tǒng)中傾向于關(guān)注圖像中輔助判斷的部分信息,并忽略掉不相關(guān)的信息[22],使用注意力機(jī)制對(duì)于視頻中復(fù)雜特征信息的提取是有效的。ZHANG 等[23]提出空間自注意力機(jī)制,使得網(wǎng)絡(luò)對(duì)感興趣區(qū)域有更多的關(guān)注。JADERBERG 等[24]提出一種注意力模塊,通過(guò)對(duì)圖像進(jìn)行空間變換來(lái)提取圖像中的關(guān)鍵信息。HU等[25]提出通道注意力模塊,通過(guò)對(duì)不同通道賦予不同的權(quán)重來(lái)獲取每個(gè)特征通道的重要程度。WANG 等[26]提出一種編解碼器注意模塊,并將其與ResNet相結(jié)合,經(jīng)過(guò)端到端的學(xué)習(xí),該網(wǎng)絡(luò)不僅表現(xiàn)良好,而且對(duì)噪聲具有較好的魯棒性。TU 等[27]使用時(shí)空聚合視頻特征進(jìn)行動(dòng)作識(shí)別,同時(shí)設(shè)計(jì)RGBF 模式捕獲RGB 圖像中與動(dòng)作活動(dòng)對(duì)應(yīng)的運(yùn)動(dòng)突出區(qū)域,丟棄視頻幀中的冗余特征。WOO 等[28]在HU 等[25]的基礎(chǔ)上提出了卷積塊注意力模型(Convolutional Block Attention Module,CBAM)。CBAM 結(jié)合空間和通道的注意力模塊,可以有效提升卷積神經(jīng)網(wǎng)絡(luò)的表達(dá)能力,在各項(xiàng)任務(wù)中都取得了較好的效果。本文為了更好地提取視頻中動(dòng)作的特征,在三維密集卷積神經(jīng)網(wǎng)絡(luò)中嵌入改進(jìn)的CBAM注意力模塊以提高其性能。本文的主要工作如下:
1)為充分提取視頻的時(shí)空特征,本文采用雙流網(wǎng)絡(luò)為基本框架,以視頻數(shù)據(jù)的RGB 圖像和視頻幀的光流圖像作為輸入,分別提取視頻動(dòng)作的時(shí)間和空間特征,最后通過(guò)融合進(jìn)行分類識(shí)別。
2)為更準(zhǔn)確地提取特征并對(duì)時(shí)空網(wǎng)絡(luò)之間的相互作用進(jìn)行建模,在雙流網(wǎng)絡(luò)之間使用跨流連接乘法殘差塊對(duì)時(shí)空網(wǎng)絡(luò)提取的特征進(jìn)行融合。
3)將DenseNet網(wǎng)絡(luò)由二維卷積內(nèi)核擴(kuò)展到三維時(shí)空,加強(qiáng)特征傳播與重用,有效地減少了參數(shù)的數(shù)量。
4)在三維密集卷積網(wǎng)絡(luò)中加入空間和通道注意力機(jī)制,更加準(zhǔn)確有效地提取了視頻中人的動(dòng)作特征,在UCF101 和HMDB51 數(shù)據(jù)集上取得較好的效果。
本文使用密集連接網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),引入通道和空間注意力學(xué)習(xí)機(jī)制,提出一種適用于視頻中人體動(dòng)作識(shí)別的算法。從特征提取、注意力機(jī)制模塊、特征融合等3 個(gè)方面對(duì)網(wǎng)絡(luò)模型進(jìn)行詳細(xì)的描述。模型網(wǎng)絡(luò)框架如圖1 所示,輸入視頻幀和相應(yīng)的光流圖片之后分別在空間網(wǎng)絡(luò)和時(shí)間網(wǎng)絡(luò)中進(jìn)行特征提取,在提取特征過(guò)程中通過(guò)注意力模塊進(jìn)一步提升特征提取效率,且時(shí)空網(wǎng)絡(luò)中存在特征交互,最后在分類層進(jìn)行融合輸出最后的識(shí)別結(jié)果。在特征提取部分,使用雙流網(wǎng)絡(luò)從RGB 圖像和光流圖像兩方面對(duì)視頻幀的表觀信息和運(yùn)動(dòng)信息進(jìn)行提取,在雙流網(wǎng)絡(luò)之間用乘法殘差塊使視頻的運(yùn)動(dòng)信息與表觀信息進(jìn)行交互,從而更準(zhǔn)確地提取視頻中的關(guān)鍵特征。為使CBAM 注意力模塊能夠融合到本文網(wǎng)絡(luò)中,注意力機(jī)制模塊部分將CBAM 模塊從二維擴(kuò)展到了三維,以便更好地嵌入到三維密集網(wǎng)絡(luò)中。特征融合主要是介紹時(shí)空網(wǎng)絡(luò)之間的交互以及最終分類結(jié)果的融合,圖1 中時(shí)間網(wǎng)絡(luò)到空間網(wǎng)絡(luò)的連接表示時(shí)空網(wǎng)絡(luò)之間的交互連接。
圖1 模型網(wǎng)絡(luò)框架Fig.1 Model network framework
由于DenseNet 網(wǎng)絡(luò)具有參數(shù)更少、計(jì)算成本低和較好的圖像分類性能,本文將傳統(tǒng)的DenseNet 網(wǎng)絡(luò)的卷積核由二維擴(kuò)展到三維卷積核,DenseNet 網(wǎng)絡(luò)使用密集連接方式,每層網(wǎng)絡(luò)與前層所有網(wǎng)絡(luò)相連接,連接方式如圖2 所示。3D卷積核的擴(kuò)展源于DenseNet 和C3D,與T3D 中的DenseBlock 相似,3D 卷積層在空間上對(duì)類似于2D卷積的輸入特征圖進(jìn)行卷積,并在時(shí)間上對(duì)連續(xù)視頻幀之間的時(shí)間依賴性進(jìn)行建模。同樣,3D 池化層在空間和時(shí)間上對(duì)輸入特征圖的大小進(jìn)行下采樣。3D 卷積層和3D 池化層的內(nèi)核大小均為s×s×d,其中,s是空間大小,d是輸入視頻幀的深度/長(zhǎng)度。
圖2 3D DenseNet 結(jié)構(gòu)Fig.2 3D DenseNet structure
3D DenseBlock 與二維密集網(wǎng)絡(luò)中的2D DenseBlock 相似,三維密集網(wǎng)絡(luò)中每一層的特征直接連接到3D DenseBlock 中后續(xù)各層,連接方式是通過(guò)元素級(jí)相加,所以,對(duì)于一個(gè)lth 層的block,共有l(wèi)(l+1)/2 個(gè)連接,同時(shí)lth 層與(l-1)th 層之間可能實(shí)際上包含多個(gè)卷積層。lth 層的輸入為lth 層之前所有3D Dense-Block 的輸出,lth 層的輸出為xl,該過(guò)程可以描述如下:
其中:表示前面所有層的輸入特征圖的密集連接;H(?)為非線性轉(zhuǎn)化函數(shù),是BN-ReLU-3DConv 組合操作的復(fù)合函數(shù)。與2D DenseNet 相似,3D DenseNet 中的每個(gè)Dense-Block 模塊包含批處理歸一化(BN)、ReLU 激活函數(shù)、池化(Pooling)和3D 卷積(大小為3×3×3)三部分。與其他網(wǎng)絡(luò)逐層傳遞的方式不同,DenseNet 網(wǎng)絡(luò)每層網(wǎng)絡(luò)與前層所有網(wǎng)絡(luò)相連接,能夠直接獲得輸入的特征,通過(guò)特征在通道上的連接實(shí)現(xiàn)特征重用,并且魯棒性更好。
雖然三維卷積神經(jīng)網(wǎng)絡(luò)在動(dòng)作識(shí)別領(lǐng)域已有大量的研究,但仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。對(duì)于視頻來(lái)講,信息主要包含在視頻序列關(guān)鍵幀的關(guān)鍵區(qū)域中。但在實(shí)際實(shí)驗(yàn)中,3D 卷積神經(jīng)網(wǎng)絡(luò)往往缺乏提取這類關(guān)鍵信息的能力[23-24]。研究結(jié)果表明,注意力機(jī)制是一種忽略不重要信息而提取關(guān)鍵信息的方法,且在圖像領(lǐng)域,許多網(wǎng)絡(luò)模型都引入了注意力機(jī)制,并取得了良好的效果[25-26]。因此,本文提出在三維卷積神經(jīng)網(wǎng)絡(luò)中引入注意機(jī)力機(jī)制,以便更好地提取視頻中關(guān)鍵信息的特征。
本節(jié)描述了雙流網(wǎng)絡(luò)中的三維CBAM 模塊。基于傳統(tǒng)的CBAM[26]將其中的卷積池化操作從二維擴(kuò)展到了三維,生成一個(gè)三維CBAM 的注意力模塊,結(jié)合3D DenseNet 網(wǎng)絡(luò)能夠有效提升對(duì)視頻幀特征的提取,三維CBAM 模塊可以對(duì)特定區(qū)域選擇性聚焦來(lái)更好地捕獲視頻幀中的特征。注意力模塊框架如圖3 所示,注意力模塊由通道注意力模塊與空間注意力模塊串聯(lián)組成,在深度網(wǎng)絡(luò)的每個(gè)卷積塊上,使用注意力模塊能夠有效地細(xì)化網(wǎng)絡(luò)中的特征映射,提高特征提取效率。
圖3 三維卷積塊注意力模塊Fig.3 3D convolutional block attention module
通道注意力模塊:與傳統(tǒng)CBAM 模塊類似,通道注意力模塊主要是確定視頻幀中關(guān)鍵區(qū)域“是什么”,輸入的特征圖為?∈RT×C×H×W,如圖4 所示,采用3D 最大池化和3D 平均池化操作相結(jié)合的方法壓縮輸入特征映射的空間維數(shù),提高了通道注意力的效率。通過(guò)池化操作后生成2 個(gè)不同的特征描述符輸入到含有一個(gè)隱藏層的多層感知器(MLP)中生成通道注意力特征圖ΜC(F),經(jīng)過(guò)通道注意力機(jī)制模塊中激活函數(shù)σ后得到各通道的權(quán)重系數(shù),這樣對(duì)不同的通道特征圖分配不同的權(quán)值,對(duì)包含有效關(guān)鍵信息的通道分配較高的權(quán)值,對(duì)其他通道分配較低的權(quán)值,從而確定了視頻幀中包含有效特征的通道。為了減少參數(shù)的開(kāi)銷,將隱藏層的特征維數(shù)為C∕r(r為約簡(jiǎn)率),每個(gè)特征描述符通過(guò)多層感知器后,使用按元素進(jìn)行求和的方法合并輸出特征向量,通道注意力的計(jì)算公式如下:
圖4 通道注意力模塊Fig.4 Channel attention module
其 中:σ為sigmoid 激活函 數(shù);W0,W2∈RC/r×c與W1,W3∈RC×C/r中的W0、W1和W2、W3是MLP 的權(quán)重,對(duì)于2 個(gè)輸入,分別屬于不同的多層感知器(MLP)。最后將輸入的特征圖與通道注意力特征圖進(jìn)行元素的加和操作,從而對(duì)視頻幀中關(guān)鍵通道進(jìn)行有效提取。
空間注意力模塊:與通道注意力機(jī)制不同,空間注意更多關(guān)注圖像中的有效特征“在哪里”,這是對(duì)通道注意提取的特征的補(bǔ)充??臻g注意力機(jī)制是對(duì)視頻幀中不同的空間區(qū)域分配不同的權(quán)重,對(duì)視頻幀中存在動(dòng)作的關(guān)鍵區(qū)域分配較高的權(quán)重,從而確定關(guān)鍵信息在視頻幀中的位置??臻g注意力模塊如圖5 所示,本文使用3D 池化內(nèi)核對(duì)空間注意力模塊進(jìn)行擴(kuò)展,并使用最大池化和平均池化操作得到,將其連接得到一個(gè)有效的特征描述符經(jīng)過(guò)一個(gè)三維卷積層生成一個(gè)空間注意力特征圖MS(F),空間注意力的計(jì)算過(guò)程如下:
圖5 空間注意力模塊Fig.5 Spatial attention module
其中:fT×7×7為三維卷積運(yùn)算,其3D 卷積過(guò)濾器大小為T(mén)×7×7。在空間注意力模塊中對(duì)輸入特征圖與空間注意力特征圖進(jìn)行累積合并操作,給視頻幀中的關(guān)鍵區(qū)域較高的權(quán)重,從而提取出視頻幀中的關(guān)鍵部分。
在本文的網(wǎng)絡(luò)模型中,對(duì)于輸入的視頻,通過(guò)對(duì)視頻均勻采樣RGB 幀和對(duì)應(yīng)的光流幀,分別輸入到具有相同CNN 結(jié)構(gòu)的時(shí)空網(wǎng)絡(luò),采用雙流結(jié)構(gòu)能夠更好地模擬視頻中運(yùn)動(dòng)的外觀和運(yùn)動(dòng)特征的相關(guān)性。傳統(tǒng)的雙流網(wǎng)絡(luò)是時(shí)空網(wǎng)絡(luò)提取相應(yīng)的特征后進(jìn)行Softmax 預(yù)測(cè),最后計(jì)算最終的分類結(jié)果,由于這種結(jié)構(gòu)并行地提取了視頻的外觀特征和運(yùn)動(dòng)特征,在最終融合之前沒(méi)有交互作用,無(wú)法對(duì)視頻幀中細(xì)微的時(shí)空線索進(jìn)行建模。因此,在時(shí)間網(wǎng)絡(luò)與空間網(wǎng)絡(luò)之間加入跨流連接來(lái)進(jìn)一步對(duì)視頻幀中細(xì)微的時(shí)空線索進(jìn)行建模,跨流連接使用乘法殘差塊對(duì)時(shí)空網(wǎng)絡(luò)特征進(jìn)行融合,跨流連接模塊方式如圖6所示。
6 跨流連接方式Fig.6 Cross-stream connection mode
在提取特征部分對(duì)網(wǎng)絡(luò)進(jìn)行從空間網(wǎng)絡(luò)到時(shí)間網(wǎng)絡(luò)的跨流連接特征融合,分別進(jìn)行4 次融合,每次融合都在池化操作之后,融合特征后通過(guò)注意力機(jī)制模塊準(zhǔn)確有效地提取運(yùn)動(dòng)特征,融合方式如式(4)所示。最后在分類層對(duì)時(shí)空網(wǎng)絡(luò)進(jìn)行融合,時(shí)空網(wǎng)絡(luò)分別輸出一個(gè)Softmax 層,最后通過(guò)加權(quán)融合將兩個(gè)Softmax 層的輸出結(jié)果進(jìn)行融合,得到視頻中人體動(dòng)作識(shí)別的最終識(shí)別準(zhǔn)確率。同時(shí),在反向傳播過(guò)程中,來(lái)自每一個(gè)網(wǎng)絡(luò)的信號(hào)可以共同參與并影響梯度,這有助于緩解原雙流網(wǎng)絡(luò)在建模細(xì)微時(shí)空相關(guān)性方面的不足。
數(shù)據(jù)集主要包括以下2 種:
1)UCF101[29]數(shù)據(jù)集。UCF101 數(shù)據(jù)集是一個(gè)人體運(yùn)動(dòng)視頻數(shù)據(jù),包含101類動(dòng)作,共有13 320個(gè)視頻段,101 個(gè)動(dòng)作類別中的視頻分為25 組,每組可包含4~7 個(gè)動(dòng)作視頻,主要分為人與物體互動(dòng)、人體動(dòng)作、人與人互動(dòng)、樂(lè)器演奏、體育運(yùn)動(dòng)等5 種類別,如化妝、打字、吹頭發(fā)、騎馬、跳高等動(dòng)作。它在動(dòng)作方面提供了最大的多樣性,并且在相機(jī)運(yùn)動(dòng)、物體外觀和姿勢(shì)、物體比例、視點(diǎn)、雜亂的背景、照明條件等方面存在較大的變化。部分動(dòng)作示意圖如圖7 所示。
圖7 UCF101 數(shù)據(jù)集部分動(dòng)作示意圖Fig.7 Schematic diagram of partial actions in UCF101 dataset
2)HMDB51[30]數(shù)據(jù)集。包 含51 類動(dòng)作,共 有6 849 個(gè)視頻段,分辨率為320 像素×240 像素。主要分為面部動(dòng)作、面部操作、身體動(dòng)作、交互動(dòng)作、人體動(dòng)作等5 類,如微笑、吸煙、拍手、梳頭、打球、擁抱等動(dòng)作。該數(shù)據(jù)集的視頻大多來(lái)源于電影剪輯片段,小部分來(lái)自YouTube 等視頻網(wǎng)站,像素相對(duì)較低。部分動(dòng)作示意圖如圖8 所示。
本文將數(shù)據(jù)集的最終識(shí)別準(zhǔn)確率值作為人體動(dòng)作識(shí)別模型的評(píng)估指標(biāo)。對(duì)于UCF101 和HMDB51這2 個(gè)數(shù)據(jù)集,采用原始訓(xùn)練/測(cè)試拆分,并遵循這2 個(gè)數(shù)據(jù)集提供的標(biāo)準(zhǔn)評(píng)估協(xié)議,將3 個(gè)拆分的平均值作為最終結(jié)果,每種拆分方式都是將數(shù)據(jù)集分為70%的訓(xùn)練集和30%的測(cè)試集。
對(duì)于雙流網(wǎng)絡(luò),使用文獻(xiàn)[11]中預(yù)先計(jì)算的視頻RGB 和光流作為模型的輸入,輸入視頻后對(duì)視頻幀進(jìn)行均勻取樣,以保證視頻中動(dòng)作的連續(xù)性,取樣視頻的RGB 圖像和相對(duì)應(yīng)的光流幀用作模型的輸入。對(duì)于空間網(wǎng)絡(luò),采用數(shù)據(jù)庫(kù)ImageNet[31]對(duì)其進(jìn)行預(yù)訓(xùn)練。對(duì)于時(shí)間網(wǎng)絡(luò),采用TL-V1[32]方法提取RGB 數(shù)據(jù)的光流運(yùn)動(dòng)信息,通過(guò)線性變換將光流數(shù)據(jù)離散到[0,255]上,以便與RGB 數(shù)據(jù)同區(qū)間。
由于人體動(dòng)作數(shù)據(jù)集中取樣的視頻幀有限,在較深的網(wǎng)絡(luò)結(jié)構(gòu)中容易產(chǎn)生過(guò)擬合現(xiàn)象,因此對(duì)輸入的視頻幀采用與文獻(xiàn)[33]相同的數(shù)據(jù)增強(qiáng)策略,對(duì)視頻幀進(jìn)行隨機(jī)位置裁剪、適當(dāng)翻轉(zhuǎn)等操作擴(kuò)大訓(xùn)練集。視頻的最大裁剪大?。磮D像的高度和寬度)設(shè)置為224×224,以減少GPU 內(nèi)存的使用。在Linux 系統(tǒng)搭建Ubuntu16.04 的TensorFlow 平臺(tái)進(jìn)行實(shí)驗(yàn)。由于深度神經(jīng)網(wǎng)絡(luò)容易陷入過(guò)擬合現(xiàn)象,因此本文將模型中空間網(wǎng)絡(luò)和時(shí)間網(wǎng)絡(luò)dropout 層的丟失率分別設(shè)置為0.7 和0.8,設(shè)置初始學(xué)習(xí)率為10-3,并在之后的訓(xùn)練中對(duì)學(xué)習(xí)率進(jìn)行適當(dāng)調(diào)整。在對(duì)比實(shí)驗(yàn)中,除了對(duì)該模型在數(shù)據(jù)集上的識(shí)別準(zhǔn)確率進(jìn)行分析外,還對(duì)是否添加注意力機(jī)制及跨流連接方式進(jìn)行了消融實(shí)驗(yàn)。
本文對(duì)基于注意力機(jī)制的三維密集網(wǎng)絡(luò)模型的注意力機(jī)制部分進(jìn)行了可視化,將通過(guò)注意力機(jī)制生成的熱圖與原始圖像進(jìn)行結(jié)合,可以看出,通過(guò)注意力機(jī)制模塊后,能夠準(zhǔn)確地識(shí)別出人體動(dòng)作的關(guān)鍵特征,觀察可視化圖片可以發(fā)現(xiàn),人體動(dòng)作的關(guān)鍵信息主要集中在運(yùn)動(dòng)的部分??梢暬Y(jié)果如圖9 所示,紅色部分表示學(xué)習(xí)到的注意力機(jī)制的預(yù)測(cè),代表圖像中具有關(guān)鍵運(yùn)動(dòng)信息的部分,藍(lán)色部分代表視頻中的背景部分(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。表1 為是否添加注意力模塊對(duì)最終識(shí)別準(zhǔn)確率的影響。從表1 可以看出,在時(shí)間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)上使用添加注意力機(jī)制的網(wǎng)絡(luò)模型比不使用注意力機(jī)制的動(dòng)作識(shí)別準(zhǔn)確率高,表明添加注意力機(jī)制的網(wǎng)絡(luò)模型比視頻中人體動(dòng)作識(shí)別任務(wù)更有效。
圖9 注意力機(jī)制可視化圖像Fig.9 Attention mechanism visualization images
表1 添加注意力模塊對(duì)最終識(shí)別準(zhǔn)確率的影響Table 1 Effect of adding attention module on the final recognition accuracy %
表2 為本文方法模型和其他經(jīng)典的動(dòng)作識(shí)別方法模型在UCF101 和HMDB51 數(shù)據(jù)集識(shí)別準(zhǔn)確率的結(jié)果對(duì)比。文獻(xiàn)[8-9]分別提出了雙流網(wǎng)絡(luò)模型和C3D 卷積網(wǎng)絡(luò)模型,文獻(xiàn)[11]提出的時(shí)空融合網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)是雙流VGG 模型,分析了時(shí)空網(wǎng)絡(luò)的不同融合方式,為本文提供了工作基礎(chǔ)。文獻(xiàn)[34]引入一種新的時(shí)域?qū)訛榭勺儠r(shí)域卷積核深度建模。實(shí)驗(yàn)結(jié)果表明,本文模型對(duì)視頻中人體動(dòng)作的識(shí)別有較高的準(zhǔn)確率。
表2 不同模型在UCF101 數(shù)據(jù)集和HMDB51 數(shù)據(jù)集上的識(shí)別準(zhǔn)確率對(duì)比Table 2 Comparison of the recognition accuracy of different models on UCF101 dataset and HMDB51 dataset %
表3 為3D DenseNet 與C3D 兩種模型在UCF101和HMDB51 數(shù)據(jù)集上識(shí)別準(zhǔn)確率的結(jié)果對(duì)比。通過(guò)實(shí)驗(yàn)可以看出,基于C3D 與DenseNet 網(wǎng)絡(luò)改進(jìn)的3D DenseNet 網(wǎng)絡(luò)在時(shí)間網(wǎng)絡(luò)、空間網(wǎng)絡(luò)以及雙流網(wǎng)絡(luò)中都取得了較好的效果。實(shí)驗(yàn)中對(duì)兩種3D 網(wǎng)絡(luò)模型進(jìn)行對(duì)比,由于未使用注意力機(jī)制,避免了注意力機(jī)制對(duì)該實(shí)驗(yàn)的影響。從表3 還可以看出,與空間網(wǎng)絡(luò)提取的外觀信息相比,時(shí)間網(wǎng)絡(luò)提取的光流運(yùn)動(dòng)信息識(shí)別準(zhǔn)確率更高。這也說(shuō)明了在視頻中的人體動(dòng)作識(shí)別任務(wù)中,運(yùn)動(dòng)信息更加重要。
表3 3D DenseNet 與C3D 兩種模型在UCF101 和HMDB51 數(shù)據(jù)集上識(shí)別準(zhǔn)確率的結(jié)果對(duì)比Table 3 Comparison of results of classification accuracy between 3D DenseNet and C3D models on UCF101 and HMDB51 datasets %
從表3 可以看出,結(jié)合光流運(yùn)動(dòng)信息的雙流網(wǎng)絡(luò)能夠有效改善單支網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率。本文對(duì)時(shí)空網(wǎng)絡(luò)在最終分類層的融合進(jìn)行探究,時(shí)空網(wǎng)絡(luò)融合的識(shí)別準(zhǔn)確率如表4 所示,設(shè)置不同時(shí)間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)分類的識(shí)別置信度,以便對(duì)時(shí)空網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率進(jìn)行線性加權(quán)融合得到最終的識(shí)別結(jié)果,在UCF101 數(shù)據(jù)集的3 個(gè)拆分(split)方式下進(jìn)行實(shí)驗(yàn),由表4 可以看出,時(shí)空網(wǎng)絡(luò)的識(shí)別置信度設(shè)置為1∶1 時(shí),最終的融合識(shí)別準(zhǔn)確率優(yōu)于1∶1.2 和1∶1.5 的情況。
表4 UCF101 數(shù)據(jù)集上時(shí)空網(wǎng)絡(luò)融合的識(shí)別準(zhǔn)確率Table 4 The recognition accuracy of spatiotemporal network fusion on the UCF101 dataset %
本文在特征融合的跨流連接如圖6 所示,采用乘法殘差塊對(duì)時(shí)空網(wǎng)絡(luò)特征進(jìn)行融合,本文將加法與乘法兩種融合方式進(jìn)行比較,對(duì)比結(jié)果如表5所示。使用加法進(jìn)行融合,在UCF101 和HMDB51的第1 個(gè)分段上分別產(chǎn)生9.73%和43.86%的測(cè)試誤差,相比之下使用乘法方式進(jìn)行融合,測(cè)試誤差降低到了8.56%和39.43%。因此,在進(jìn)行跨流連接的選擇上本文采用的是乘法殘差塊進(jìn)行特征融合。
表5 不同跨流連接方式在UCF101 和HMDB51 數(shù)據(jù)集上的測(cè)試誤差率Table 5 Different cross-stream connection modes test error rate on UCF101 and HMDB51 datasets %
表6 為雙流網(wǎng)絡(luò)中對(duì)不同跨流連接方向的研究,使用乘法殘差塊進(jìn)行特征融合,分別對(duì)空間網(wǎng)絡(luò)到時(shí)間網(wǎng)絡(luò)、時(shí)間網(wǎng)絡(luò)到空間網(wǎng)絡(luò)以及時(shí)空網(wǎng)絡(luò)相互連接3 種連接方向進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),將跨流連接的方向設(shè)置為從時(shí)間網(wǎng)絡(luò)到空間網(wǎng)絡(luò)能夠有效減少測(cè)試誤差,但也發(fā)現(xiàn),從空間網(wǎng)絡(luò)的動(dòng)作表觀信息流到時(shí)間網(wǎng)絡(luò)的光流信息進(jìn)行連接容易發(fā)生表觀信息的嚴(yán)重過(guò)擬合。
表6 在UCF101 和HMDB51 數(shù)據(jù)集上不同跨流連接方向的測(cè)試誤差率對(duì)比Table 6 Comparison of test error rates of different cross-stream connection directions on UCF101 and HMDB51 datasets %
本文提出一種基于注意力機(jī)制的三維DenseNet雙流網(wǎng)絡(luò)結(jié)構(gòu)用于視頻中的人體動(dòng)作識(shí)別。該模型針對(duì)光流圖片中動(dòng)作的運(yùn)動(dòng)信息,有效提取視頻序列的時(shí)間特征,結(jié)合視頻動(dòng)作的表觀信息,通過(guò)適當(dāng)?shù)木矸e層特征融合和分類層融合,提高視頻中人體動(dòng)作的識(shí)別準(zhǔn)確率。同時(shí),在網(wǎng)絡(luò)中加入注意力機(jī)制和時(shí)空網(wǎng)絡(luò)的跨流連接,通過(guò)提取動(dòng)作關(guān)鍵特征對(duì)時(shí)空線索進(jìn)行建模,進(jìn)一步提升特征提取效率,從而提高識(shí)別準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,本文模型能夠在UCF101 數(shù)據(jù)集和HMDB51 數(shù)據(jù)集上取得較好的識(shí)別準(zhǔn)確率,并且能夠減少模型的參數(shù),加快訓(xùn)練測(cè)試過(guò)程,具有更好的泛化能力。本文模型由于訓(xùn)練了時(shí)間和空間兩個(gè)網(wǎng)絡(luò),導(dǎo)致降低模型參數(shù)的效果有限,下一步將對(duì)時(shí)空網(wǎng)絡(luò)進(jìn)行更好的融合,減少模型參數(shù),從而提高識(shí)別準(zhǔn)確率。