国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

3D多重注意力機(jī)制下的行為識(shí)別

2022-01-21 07:35吳麗君李斌斌陳志聰林培杰程樹英
關(guān)鍵詞:注意力卷積精度

吳麗君,李斌斌,陳志聰,林培杰,程樹英

(福州大學(xué)物理與信息工程學(xué)院, 福建 福州 350108)

0 引言

人的行為識(shí)別是視頻分析中一個(gè)備受關(guān)注和具有挑戰(zhàn)性的研究課題.相比于圖片,視頻存在更多的時(shí)間信息及多幀之間的關(guān)聯(lián)性,且數(shù)據(jù)量龐大.因此,用于視頻的人的行為識(shí)別模型需能提取時(shí)間關(guān)聯(lián)信息,且需兼顧處理速度.

近幾年,深度卷積網(wǎng)絡(luò)對(duì)圖像的處理能力得以飛速提升.大量CNN結(jié)構(gòu)被提出,如GoogLeNet、DenseNet、ResNet、VGG等[1-3]二維卷積神經(jīng)網(wǎng)絡(luò),在單張圖像特征的提取上取得良好性能.然而,二維卷積神經(jīng)網(wǎng)絡(luò)難以提取視頻中的時(shí)間信息且難以關(guān)注圖像中的重點(diǎn)空間信息.針對(duì)第一個(gè)問題,Tran等[4]提出三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNN),利用三維卷積和三維池化操作來兼顧視頻中的時(shí)間信息的處理,ResNet和GoogLeNet等二維卷積網(wǎng)絡(luò)在后續(xù)也有三維結(jié)構(gòu)的版本[5-8];針對(duì)第二個(gè)問題,一些注意力機(jī)制[9, 10]被提出,這些模塊都有一個(gè)共同的特性,就是能夠幫助二維卷積網(wǎng)絡(luò)更加關(guān)注一張圖像當(dāng)中的重點(diǎn)信息.其中,Woo等[11]提出的一種卷積塊注意模塊(convolutional block attention module, CBAM),分為通道和空間兩個(gè)子模塊,以分別關(guān)注圖像中重點(diǎn)信息“是什么”以及“在哪里”.

視頻不僅包含著單幀的信息,還有幀與幀之間的關(guān)聯(lián)信息,因此現(xiàn)有的二維的注意力機(jī)制難以在三維的數(shù)據(jù)及相應(yīng)的三維卷積網(wǎng)絡(luò)上進(jìn)行部署.Wang等[9]認(rèn)為卷積的操作只考慮了局部區(qū)域,而丟失了全局的聯(lián)系,提出一種非局部網(wǎng)絡(luò),其非局部操作對(duì)空間中所有位置取加權(quán)平均值,以表示圖像中某個(gè)位置的響應(yīng).此結(jié)構(gòu)不僅能在同一張圖像中建立某一個(gè)像素與其他任意像素點(diǎn)的聯(lián)系,也能針對(duì)視頻建立不同幀之間像素點(diǎn)的聯(lián)系,從而為后面的層提供一些更豐富的信息.然而該結(jié)構(gòu)涉及到矩陣點(diǎn)乘的操作導(dǎo)致在三維任務(wù)中產(chǎn)生大量參數(shù),計(jì)算量龐大.

基于此,本文提出一種多重注意力機(jī)制,可用于提升3D卷積網(wǎng)絡(luò)的性能.由于3D ResNet計(jì)算簡單、效率高、能解決梯度消失等優(yōu)點(diǎn),因此選擇3D ResNet[5]作為基礎(chǔ)網(wǎng)絡(luò).多重注意力機(jī)制結(jié)構(gòu)簡單緊湊,能夠無縫適用于3D卷積網(wǎng)絡(luò),使卷積網(wǎng)絡(luò)能夠更加關(guān)心時(shí)間的重點(diǎn)信息和空間位置的重點(diǎn)信息,在僅增加微量參數(shù)的情況下提升一定的精度.本文主要貢獻(xiàn)點(diǎn)包括:1)設(shè)計(jì)一種多重注意力機(jī)制,分為通道結(jié)合時(shí)間注意力機(jī)制和空間位置注意力機(jī)制兩個(gè)模塊;2) 分別在空間位置注意力機(jī)制上進(jìn)行冗余時(shí)間壓縮、在通道時(shí)間注意力機(jī)制上進(jìn)行信息保留的改進(jìn);3) 將多重注意力機(jī)制部署到3D ResNet中,使其在參數(shù)只有微量增加的情況下,在UCF-101和HMDB-51數(shù)據(jù)集的性能有一定的提升.

1 相關(guān)工作

在視頻分析中行為識(shí)別一直是重點(diǎn)研究的方向,傳統(tǒng)特征提取方法如改機(jī)密集軌跡方法(improved dense trajectories,iDT)[12],其在性能上可以達(dá)到不錯(cuò)的效果,但是手動(dòng)設(shè)計(jì)帶來的繁瑣及復(fù)雜尤為不便;自從深度學(xué)習(xí)在行為識(shí)別被引入以后,不斷取得更優(yōu)的效果.該領(lǐng)域中,深度學(xué)習(xí)主要分為3種方法: 雙流法(two-stream)[13]、長短期記憶網(wǎng)絡(luò)方法(long short-term memory, LSTM)[14]及3D卷積方法(3D CNN)[5].雙流法通過提取視頻中的光流信息和單幀圖像進(jìn)行融合訓(xùn)練,最終整合輸出結(jié)果,目前能夠達(dá)到的精度最高,然而其光流的提取需要占用大量的訓(xùn)練時(shí)間[15];LSTM方法通過選擇性忘記和選擇性記憶來傳輸狀態(tài),在序列建模問題上具有一定優(yōu)勢(shì),能夠解決長序列訓(xùn)練過程中梯度消失和梯度爆炸的問題,然而其在面對(duì)超長序列時(shí)依舊會(huì)失去效果且網(wǎng)絡(luò)計(jì)算量很大、耗時(shí)偏多;3D卷積網(wǎng)絡(luò)通過引入3D卷積和3D池化的操作.解決了2D卷積在時(shí)間維度上時(shí)間信息丟失的問題,雖然計(jì)算量較大于2D卷積網(wǎng)絡(luò),但相比于前兩種方法處理速度會(huì)更快,在2015年就已達(dá)到了313 f·s-1[4].

注意力機(jī)制被引入卷積神經(jīng)網(wǎng)絡(luò)后對(duì)網(wǎng)絡(luò)的提升效果相當(dāng)顯著,它能夠讓網(wǎng)絡(luò)更加關(guān)注重點(diǎn)信息并且抑制無關(guān)信息.注意力機(jī)制按作用域來區(qū)分有空間域、通道域、層域、混合域的注意力機(jī)制.Xiao等[16]提出的空間變換器網(wǎng)絡(luò),其通過一個(gè)空間變換來提取空間域的信息;Hu等[17]提出的擠壓激勵(lì)網(wǎng)絡(luò) (squeeze-and-excitation networks, SENET)通過擠壓、激勵(lì)、注意3個(gè)步驟來完成通道域的注意力機(jī)制;Wang等[18]提出的殘差注意力網(wǎng)絡(luò)借鑒了殘差網(wǎng)絡(luò)的想法,將當(dāng)前層的信息加上掩碼作為下一層的輸入來完成混合域的注意力機(jī)制,這使得網(wǎng)絡(luò)得到的特征更為豐富.

在行為識(shí)別中,也有注意力機(jī)制的引入.Girdhar等[19]結(jié)合變換器設(shè)計(jì)一種注意力機(jī)制,能夠自發(fā)學(xué)習(xí)跟蹤并且從人的行為中獲取上下文的語義信息.Kim等[20]通過引入一種自我監(jiān)督來學(xué)習(xí)視頻幀的空間外觀和時(shí)間關(guān)系,以此進(jìn)行行為識(shí)別的任務(wù).可以發(fā)現(xiàn),目前注意力機(jī)制更多的是在二維卷積上使用,而三維卷積則很少使用注意力機(jī)制.

基于以上問題的思考,本文提出一種適用于3D卷積網(wǎng)絡(luò)的多重注意力機(jī)制.此注意力機(jī)制分為兩個(gè)子模塊,一個(gè)是通道結(jié)合時(shí)間的注意力機(jī)制模塊,關(guān)心視頻中的重要時(shí)間信息;另一個(gè)是空間位置注意力機(jī)制模塊,關(guān)心的是單幀視頻中空間位置的重點(diǎn)信息.此外,分別在通道結(jié)合時(shí)間的注意力機(jī)制上加強(qiáng)信息提取、在空間位置注意力機(jī)制上進(jìn)行冗余時(shí)間壓縮,改進(jìn)完的注意力機(jī)制性能均有提升.

2 原理實(shí)現(xiàn)

2.1 整體方案

研究一種多重注意力機(jī)制的結(jié)構(gòu),使卷積網(wǎng)絡(luò)能夠更加關(guān)注視頻中重點(diǎn)的時(shí)間信息和空間信息.文中將多重注意力機(jī)制部署至3D ResNet的每個(gè)卷積塊中: 在卷積層之后先提取特征圖中通道和時(shí)間上的重點(diǎn)信息,然后提取輸出特征圖中的重點(diǎn)空間位置信息, 如圖1所示.

圖1 鑲嵌多重注意力機(jī)制的3D ResNet結(jié)構(gòu)Fig.1 3D ResNet structure embedded with multiple attention mechanisms

2.2 通道結(jié)合時(shí)間注意力機(jī)制

在3D卷積中輸入和輸出的特征圖一共有5個(gè)維度,分別是(N、C、D、H、W),其中N代表批尺寸大小,C代表通道數(shù),D代表時(shí)間長度,H和W代表高度和寬度. 由于通道信息維度C和時(shí)間維度D的信息具有關(guān)聯(lián)性,因此將通道信息與時(shí)間信息進(jìn)行結(jié)合以更好地關(guān)注視頻中的重點(diǎn)時(shí)域信息. 具體實(shí)現(xiàn)方式如圖2所示,設(shè)計(jì)了三種不同的結(jié)構(gòu).

圖2 兩種通道結(jié)合時(shí)間的注意力機(jī)制結(jié)構(gòu)Fig.2 Two attention mechanism structures of channel combined with time

2.3 空間位置注意力機(jī)制

如圖3所示,借鑒經(jīng)典的CBAM算法中空間注意力機(jī)制子模塊的思想,并將其推廣到3D卷積網(wǎng)絡(luò)中得到空間位置模塊A(spatial position A,SPA)模塊.

(a) SPA模塊

(b) SPB模塊 圖3 兩種空間位置的注意力機(jī)制結(jié)構(gòu)Fig.3 Two attention mechanism structures of spatial position

2.4 網(wǎng)絡(luò)架構(gòu)

3 實(shí)驗(yàn)驗(yàn)證

3.1 數(shù)據(jù)集

實(shí)驗(yàn)使用的數(shù)據(jù)集為UCF-101[21]和HMDB-51[22]兩個(gè)中型數(shù)據(jù)集.UCF-101包含101類動(dòng)作,共13 000多個(gè)視頻,在動(dòng)作的采集上具有多樣性.HMDB-51包含51類動(dòng)作,共6 000多個(gè)視頻,包含一般的身體動(dòng)作和交互動(dòng)作等.

在所有實(shí)驗(yàn)中,網(wǎng)絡(luò)的參數(shù)設(shè)置如下: 視頻一次輸入16幀,并以紅綠藍(lán)顏色的形式被調(diào)整成大小為128 px×171 px的尺寸;而后在每個(gè)輸入中加入一個(gè)16 px×112 px×112 px 的隨機(jī)抖動(dòng)和50%概率的水平翻轉(zhuǎn);優(yōu)化器選擇帶有動(dòng)量的隨機(jī)最速下降法,設(shè)置動(dòng)量為0.9;批尺寸設(shè)為16,初始學(xué)習(xí)率設(shè)為10-3,并且每30個(gè)回合下降為原來的十分之一,共訓(xùn)練100個(gè)回合.

3.2 消融實(shí)驗(yàn)

本研究分別進(jìn)行了5組實(shí)驗(yàn),即3D ResNet-18、CTA模塊與SPA模塊的組合、CTA模塊與SPB模塊的組合、CTB模塊與SPA模塊的組合、CTB模塊與SPB模塊的組合.從頭開始訓(xùn)練最終得到幾組實(shí)驗(yàn)的Top-1精度,如表1所示.

表1 幾種組合在UCF-101和HMDB-51下的Top-1精度

3.3 實(shí)驗(yàn)分析

根據(jù)表1可看到,在4種組合的多重注意力機(jī)制上,CTB模塊與SPB模塊的組合性能最好,且它們?cè)趩为?dú)和模塊A組合時(shí)性能也優(yōu)于CTA和SPA模塊的組合.最終,CTB模塊與SPB模塊的組合在UCF-101數(shù)據(jù)集精度上可達(dá)到91.70%,相比于原始3D ResNet-18的90.2%的精度提升了1.5%;且在HMDB-51數(shù)據(jù)集上相比于3D-ResNet提升了1.24%.

為進(jìn)一步驗(yàn)證多重注意力機(jī)制的通用性,文中將CTB + SPB模塊的組合嵌入現(xiàn)有的3D網(wǎng)絡(luò),并在UCF-101下訓(xùn)練得到精度對(duì)比, 如表2所示.在加入多重注意力機(jī)制后,各3D卷積網(wǎng)絡(luò)的性能相較于原始結(jié)構(gòu)的性能均有提升,由此證明多重注意力機(jī)制的通用性強(qiáng),可嵌入各3D卷積網(wǎng)絡(luò).

表2 各3D網(wǎng)絡(luò)加入CTB + SPB與原始結(jié)構(gòu)精度對(duì)比

3.4 對(duì)比實(shí)驗(yàn)

從表1中可得到在鑲嵌了多重注意力機(jī)制的3D ResNet-18上的Top-1精度為91.7%.如表3所示,和現(xiàn)有的其他3D網(wǎng)絡(luò)相比,它在UCF-101數(shù)據(jù)集上精度僅次于雙流I3D方法.然而,雙流法高精度因光流信息的提取步驟占據(jù)整個(gè)訓(xùn)練過程90%的時(shí)間,較為費(fèi)時(shí).文中的結(jié)構(gòu)無需提取光流信息,在訓(xùn)練速度上優(yōu)于雙流I3D方法.為進(jìn)一步探索模型的速度和衡量模型的復(fù)雜度,文中還進(jìn)行了各網(wǎng)絡(luò)之間浮點(diǎn)運(yùn)算次數(shù)(FLOPs)的對(duì)比,如表4所示.可見雙流I3D的光流輸入及紅綠藍(lán)顏色輸入需要經(jīng)過兩次網(wǎng)絡(luò),浮點(diǎn)運(yùn)算為原I3D的兩倍;而文中提出的 3D ResNet-18 + CTB + SPB結(jié)構(gòu)浮點(diǎn)運(yùn)算優(yōu)于雙流I3D.

在3D ResNet-18網(wǎng)絡(luò)結(jié)構(gòu)添加了多重注意力機(jī)制之后,參數(shù)量從33.24 MB增加到33.32 MB,只增加0.24%,可見加入多重注意力機(jī)制的殘差網(wǎng)絡(luò)參數(shù)量僅會(huì)微量增加.此外,本文的模型是未經(jīng)過預(yù)訓(xùn)練的,在容易產(chǎn)生過擬合的中型數(shù)據(jù)集上依舊能夠取得較佳的性能.

表3 現(xiàn)有3D網(wǎng)絡(luò)在UCF-101上精度和參數(shù)量的對(duì)比

表4 現(xiàn)有3D網(wǎng)絡(luò)浮點(diǎn)運(yùn)算次數(shù)(FLOPs)的對(duì)比

4 結(jié)語

本文提出一種多重注意力機(jī)制用于提升3D卷積網(wǎng)絡(luò)的表達(dá)能力,此多重注意力機(jī)制分為通道結(jié)合時(shí)間注意力機(jī)制和空間位置注意力機(jī)制.在探索結(jié)構(gòu)中提出兩種優(yōu)化方法: 首先,去除通道結(jié)合時(shí)間注意力機(jī)制中的多層感知器并先進(jìn)行卷積,減少信息損失并提高精度;其次,壓縮空間位置的注意力機(jī)制中的時(shí)間維度,減少冗余時(shí)間信息.文中將多重注意力機(jī)制部署到3D ResNet-18中,相比于原始3D ResNet-18,在保持參數(shù)量僅增加0.24%情況下,在從頭訓(xùn)練的UCF-101數(shù)據(jù)集上提升了1.5%,在HMDB-51數(shù)據(jù)集上提升了1.24%.此外,多重注意力機(jī)制模塊通用性強(qiáng),可以無縫鑲嵌到各種3D卷積網(wǎng)絡(luò)中.

猜你喜歡
注意力卷積精度
讓注意力“飛”回來
熱連軋機(jī)組粗軋機(jī)精度控制
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
如何培養(yǎng)一年級(jí)學(xué)生的注意力
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
基于DSPIC33F微處理器的采集精度的提高
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
A Beautiful Way Of Looking At Things
以工匠精神凸顯“中國精度”