基于動態(tài)時序移位的視頻特征學(xué)習(xí)方法

2022-12-11 12:23談偉峰程春玲

計算機(jī)技術(shù)與發(fā)展 2022年12期

談偉峰，程春玲，毛毅

(南京郵電大學(xué) 計算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院，江蘇南京 210023)

0 引言

視頻動作識別是計算機(jī)視覺領(lǐng)域中一個重要的任務(wù)，旨在從視頻片段識別對應(yīng)的動作類別。由于視頻中包含豐富且復(fù)雜的信息，其中圖像的空間信息和時間維度上的時序信息是所有視頻都具備的基本信息，因此對視頻動作的特征表達(dá)的學(xué)習(xí)也變得尤為復(fù)雜。隨著深度學(xué)習(xí)在圖像領(lǐng)域的成功應(yīng)用，卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)[1]能夠很好地滿足對圖像的空間特征的學(xué)習(xí)，獲得深層次的圖像特征表達(dá)。但是，對于視頻動作識別任務(wù)而言，僅依賴CNN提取到的空間特征無法達(dá)到較好的識別效果。因此，如何利用時序信息來增強(qiáng)動作特征表達(dá)成為一個重要研究方法，即如何有效學(xué)習(xí)時序特征。

不同于CNN只處理單張圖像，時序信息的學(xué)習(xí)需要考慮多個連續(xù)視頻幀，而無論是利用CNN網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)連續(xù)兩幀之間的光流場信息，還是利用LSTM[2]學(xué)習(xí)連續(xù)視頻幀的上下文依賴關(guān)系，在已經(jīng)使用了CNN學(xué)習(xí)空間特征基礎(chǔ)上都會極大地增加網(wǎng)絡(luò)模型的復(fù)雜度，帶來額外的開支。TSM(Temporal Shift Module)[3]在不增加網(wǎng)絡(luò)結(jié)構(gòu)的前提下，對從基礎(chǔ)網(wǎng)絡(luò)(ResNet-50[4])提取出的特征沿時間維度進(jìn)行移位操作，實現(xiàn)了時序信息的建模。但TSM是按固定的通道比例來選擇需要進(jìn)行時序移位的通道，所獲取的時序信息也只是針對部分淺層通道而言的，且未考慮到時間維度上的特征移位對整個特征結(jié)構(gòu)的影響。

因此，考慮到不同層次通道上的時序信息對識別結(jié)果的貢獻(xiàn)存在差異，并且時序移位改變了全局時空特征結(jié)構(gòu)，提出基于全連接神經(jīng)網(wǎng)絡(luò)的動態(tài)時序移位和全局時空特征學(xué)習(xí)方法。在對不同時間維度上特征進(jìn)行移位時，將產(chǎn)生信息共享，而信息間的差異很大程度上決定了交互后的有效性，因此可以利用不同時間維度上特征之間的相關(guān)性，作為時序移位通道的選擇依據(jù)。在相關(guān)性學(xué)習(xí)方法的選擇上，該文采用全連接神經(jīng)網(wǎng)絡(luò)，不僅是因為其能很好學(xué)習(xí)多個特征間的長期依賴關(guān)系，而且可以用于學(xué)習(xí)全局時空特征。固定全連接網(wǎng)絡(luò)學(xué)習(xí)時序特征間相關(guān)性的學(xué)習(xí)參數(shù)，用于后期的全局時空特征學(xué)習(xí)，大大減少了模型的復(fù)雜度和參數(shù)量。

1 相關(guān)工作

1.1 基于深度學(xué)習(xí)的時序特征學(xué)習(xí)方法

現(xiàn)有的基于深度學(xué)習(xí)的視頻動作識別的網(wǎng)絡(luò)結(jié)構(gòu)主要分為Two-Stream、C3D(Convolution 3 Dimension)、CNN+RNN三大類。

Simonyan等[5]首次提出了雙流網(wǎng)絡(luò)(Two-Stream Network)，采用兩個分支的網(wǎng)絡(luò)架構(gòu)分別捕捉視頻的空間和時間特征，然后對兩種特征的分類結(jié)果進(jìn)行融合。Feihtenhofer等[6]沿襲了雙流網(wǎng)絡(luò)結(jié)構(gòu)，提出了5種融合時間特征和空間特征的策略，將融合的特征用于分類，更有效地利用了時空信息。Wang等[7]將不同的CNN基礎(chǔ)架構(gòu)(GoogLeNet[8]，VGG-16[9])與雙流網(wǎng)絡(luò)相結(jié)合，并對比了不同CNN架構(gòu)下的雙流網(wǎng)絡(luò)的準(zhǔn)確率。Xiong等[10]針對當(dāng)前網(wǎng)絡(luò)對長期動作(long-range)時間結(jié)構(gòu)理解不足且訓(xùn)練樣本較小等問題，提出了稀疏時間采樣策略和基于視頻監(jiān)督的策略，創(chuàng)建了時域分割網(wǎng)絡(luò)(Temporal Segment Network，TSN)。在海洋鉆井的實際應(yīng)用場景下，文獻(xiàn)[11]利用雙分支網(wǎng)絡(luò)融合關(guān)鍵點和光流軌跡，實現(xiàn)了人體動作的識別。文獻(xiàn)[12]為進(jìn)一步增強(qiáng)特征表達(dá)能力，引入深度信息，分別提取了RGB視頻特征表示和深度視頻的直方圖特征表示，并對分類結(jié)果進(jìn)行融合。黃菲菲等人[13]則利用HIS顏色空間模型，分別提取H、S、I三個通道下的HOG特征，并對分類結(jié)果進(jìn)行等比例融合。

除了單獨使用一個網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)時序信息，還可以將時間視為第三個維度，使用三維卷積(3D Conv)提取視頻的時空特征。Tran等[14]提出了C3D模型，對所有網(wǎng)絡(luò)層均采用3×3×3卷積核尺寸，在C3D基礎(chǔ)上又提出了Res3D網(wǎng)絡(luò)[15]，即在深度殘差學(xué)習(xí)網(wǎng)絡(luò)(ResNet8-style)中執(zhí)行3D卷積，其精度高于C3D模型。Qiu等[16]對Inception-v3[17]進(jìn)行分析后發(fā)現(xiàn)，1×3和3×1的2D卷積可以替代3×3的卷積核，并且計算量更小，于是從卷積核的尺寸設(shè)計的角度出發(fā)提出了偽3D網(wǎng)絡(luò)。

隨著RNN在NLP中的成功應(yīng)用，體現(xiàn)出RNN在處理序列信息方面具有極好的能力，因此有人提出使用RNN學(xué)習(xí)視頻的時序信息。LRCN[18]結(jié)合了CNN和LSTM，將由CNN獲取到的空間特征視為有序的序列，作為LSTM的輸入進(jìn)一步學(xué)習(xí)時序特征。

無論是使用單獨的網(wǎng)絡(luò)學(xué)習(xí)時序特征，還是使用三維卷積，都大大增加了網(wǎng)絡(luò)的結(jié)構(gòu)、訓(xùn)練參數(shù)及計算量，很大程度上犧牲了識別的速度，且對設(shè)備的計算能力有著更高的要求。因此，針對時序信息的學(xué)習(xí)成本較大的問題，該文在時序移位(Temporal Shift)的基礎(chǔ)上提出了動態(tài)時序移位方法(Dynamic Temporal Shift，DTS)，從多個時間維度上特征間的相關(guān)性出發(fā)，動態(tài)選擇不同層次通道進(jìn)行時序移位，既不需要添加額外的網(wǎng)絡(luò)結(jié)構(gòu)，也學(xué)習(xí)到了更有效的時序特征。

1.2 基于時序移位的時序特征學(xué)習(xí)方法

針對現(xiàn)有主流的視頻動作識別方法中存在的模型復(fù)雜度較高、網(wǎng)絡(luò)參數(shù)較多的問題，TSM(Temporal Shift Module)將從基礎(chǔ)網(wǎng)絡(luò)中提取到多個連續(xù)幀的空間特征，沿時間維度對部分通道進(jìn)行移位操作，從而促進(jìn)了時間維度上信息的交互，建立了相鄰幀之間的聯(lián)系。TSM將常規(guī)的卷積操作分解為位移和乘積累加兩個步驟，假設(shè)1D卷積為W=(w1,w2,w3)，輸入為X，輸出Y=conv(W,X)=w1Xi-1+w2Xi+w3Xi+1。首先，對輸入X進(jìn)行移位：

(1)

然后，乘以卷積核參數(shù)并累加：

Y=w1X(-1)+w2X0+w3X(+1)

(2)

第一步的移位操作并不會產(chǎn)生任何的計算量，通過創(chuàng)建與輸入尺寸相同的零變量，并使用Python中的切片符號(Slice Notation)對輸入進(jìn)行移位，最后將移位后的特征值賦值給零變量即可實現(xiàn)移位操作。第二步的卷積操作與移位前的卷積操作一致，并沒有引入額外的計算成本。

GSN(Gate-Shift Networks)[19]基于分離空間和時間的思想，利用門控單元來決定是否進(jìn)行時序移位操作。GSN首先在輸入層使用空間卷積(2D Conv)，然后將學(xué)習(xí)到的空間特征作為門控單元的輸入；門控單元由單個3D時空卷積核和tanh激活函數(shù)構(gòu)成，利用3D卷積學(xué)習(xí)短期時空信息，tanh激活函數(shù)則為短期時空信息提供了一個門控平面，決定了是否對門控單元的輸入進(jìn)行時序移位。

無論是TSM還是GSN，進(jìn)行時序移位操作都必須考慮以下兩個問題：

(1)移位的通道數(shù)。如果移動的通道太多，雖然不會增加任何計算量，但大量數(shù)據(jù)的移動和賦值會增加內(nèi)存的占用以及模型推斷的時延；如果移動的通道太少，時序信息間的交互太少，不足以學(xué)習(xí)到有效的時間特征。

(2)移位的通道。將部分通道沿時間維度進(jìn)行移位，在一定程度上破壞了時空特征的整體結(jié)構(gòu)，尤其是當(dāng)某個通道上多個時間維度的特征間相關(guān)性很低時，對該通道進(jìn)行移動不僅不能有效獲取時序信息，甚至可能是噪聲。

針對上述兩個問題，TSM通過人為設(shè)定通道移位比例(1/2,1/4,1/8)，通過多組對比實驗的結(jié)果確定最終的通道移位比例；并且利用殘差結(jié)構(gòu)，將移位前的特征與移位后的特征進(jìn)行融合以保持對空間特征的學(xué)習(xí)能力。但是，TSM每次按照不同比例所選擇的通道都是局部低層次的通道，且僅比較了局部連續(xù)的通道整體上對時序移位的影響，只獲取到局部時序信息。此外，TSM通過殘差結(jié)構(gòu)也僅僅保證了空間特征的學(xué)習(xí)能力，忽略了時間特征結(jié)構(gòu)的改變對整個特征學(xué)習(xí)的影響。GSN則利用門控單元改善了TSM中人為設(shè)定通道移動比例的局限性。但是，GSN所考慮的是短期時空信息，并未分析不同層次通道上的時序信息，仍然存在著一定的局限性，且采用的殘差結(jié)構(gòu)依舊只能保證空間特征的學(xué)習(xí)。

2 文中方法

對于進(jìn)行時序移位的通道的選擇，該文設(shè)計一個動態(tài)時序移位(DTS)模塊，利用雙層全連接學(xué)習(xí)多個時間維度的特征間的相關(guān)性，獲得不同層次通道的注意力分布，并固定雙層全連接的網(wǎng)絡(luò)參數(shù)用于保存時空特征信息。此外，為消除時間維度上特征的移位對整個特征結(jié)構(gòu)的影響，利用雙層全連接的網(wǎng)絡(luò)參數(shù)進(jìn)一步學(xué)習(xí)全局時空特征。

2.1 整體網(wǎng)絡(luò)結(jié)構(gòu)

基于全連接神經(jīng)網(wǎng)絡(luò)的動態(tài)時序移位和全局時空特征學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，主要由特征提取器(ResNet-50)、FFN(FC+Activation+FC)和動態(tài)時序移位模塊(DTS)構(gòu)成。首先，從采樣到的視頻圖像中提取出基礎(chǔ)特征X。然后，利用FFN+Softmax實現(xiàn)通道注意力分布的學(xué)習(xí)；動態(tài)時序移位模塊(DTS)依據(jù)通道注意力分布有選擇地對通道特征進(jìn)行時序移位操作；對FFN進(jìn)行拆分并對網(wǎng)絡(luò)參數(shù)進(jìn)行維度轉(zhuǎn)換，學(xué)習(xí)全局時空特征；對全局時空特征和動態(tài)時序移位后的特征進(jìn)行融合，獲得視頻動作特征表示Y。最后，將特征表示Y輸入分類器獲得最終的分類結(jié)果。

圖1 整體網(wǎng)絡(luò)結(jié)構(gòu)

2.2 動態(tài)時序移位模塊(DTS)

動態(tài)時序移位(DTS)模塊如圖2所示。該模塊依據(jù)由FFN學(xué)習(xí)到的不同層次通道上的注意力分布，對注意力值大于設(shè)定閾值的通道進(jìn)行有選擇的時序移位，實現(xiàn)在同一通道維度上不同時間維度間的信息交互，從而增強(qiáng)時序特征的表達(dá)。

圖2 動態(tài)時序移位(DTS)模塊結(jié)構(gòu)

針對上述關(guān)于通道選擇的兩個問題，該文從多個時間維度的特征間的相關(guān)性角度出發(fā)，當(dāng)特征間的相關(guān)性較大時，表明特征所包含的信息更具交互性。在對某通道進(jìn)行時序移位時，若該通道上多個時間維度特征相關(guān)性較大，對時間維度上的特征的改變并不會產(chǎn)生差異性較大或無用的信息。因此，基于注意力機(jī)制的思想，利用雙層全連接學(xué)習(xí)時間維度上特征間的相關(guān)性，獲得不同層次通道的注意力分布，并設(shè)置閾值，對通道上注意力值大于閾值的通道進(jìn)行時序移位，這樣不僅確定了對哪些通道進(jìn)行時序移位，也確定了進(jìn)行時序移位的通道數(shù)。

首先，利用基礎(chǔ)網(wǎng)絡(luò)(ResNet-50[4]，BNInception[17])進(jìn)行初步特征提取，定義L個基礎(chǔ)特征集合X∈RC×L，即從同一視頻片段上的L幀圖像中所學(xué)習(xí)到的基礎(chǔ)特征：

X=(X1,X2,…,XL)

(3)

為學(xué)習(xí)通道維度上的注意力分布，需對通道維度上的特征間的相關(guān)性進(jìn)行學(xué)習(xí)，因此先對特征集合X進(jìn)行維度轉(zhuǎn)換，再輸入到全連接層：

(4)

然后，利用雙層全連接計算出不同層次通道的注意力分布，并利用Softmax對注意力值進(jìn)行歸一化。注意力分布a∈R1×L計算如下：

(5)

其中，W1∈RL×H,b1∈RH×1,W2∈RH×1,b1∈R1×C。將基礎(chǔ)特征集合X進(jìn)行維度轉(zhuǎn)換后，將每個通道上的一組特征視為一個輸入，進(jìn)入雙層全連接后，將獲得每個輸入中時序信息間的依賴關(guān)系，再利用Softmax將獲得的依賴關(guān)系數(shù)值化得到整個通道的注意力分布。這樣就可以根據(jù)每個通道位置上的注意力大小，決定是否對該通道位置上的特征進(jìn)行時序移位操作。這樣不僅實現(xiàn)了時間維度上的建模，而且從相鄰時間維度上的特征之間的相關(guān)性全面考慮了不同層次通道上的特征，利用網(wǎng)絡(luò)學(xué)習(xí)出的時序特征間的依賴關(guān)系對通道進(jìn)行選擇，實現(xiàn)了對時序信息最大程度的利用。

2.3 全局時空特征學(xué)習(xí)

考慮到經(jīng)過動態(tài)時序移位后，時間特征的結(jié)構(gòu)信息的改變對整個時空特征學(xué)習(xí)的影響，該文進(jìn)一步學(xué)習(xí)了全局時空特征，并將全局時空特征與時序移位后的特征進(jìn)行融合，作為最后分類的輸入。

基于全局時空特征的結(jié)構(gòu)特性，利用全連接層可以有效保留完整的特征結(jié)構(gòu)，并且可以獲取長期依賴關(guān)系，因此全連接層可以很好實現(xiàn)對全局時空特征的學(xué)習(xí)。但引入新的全連接層學(xué)習(xí)全局時空特征會引入大量網(wǎng)絡(luò)參數(shù)，現(xiàn)有雙層全連接學(xué)習(xí)不同層次通道注意力分布時，已獲得整個通道上不同時間維度間的依賴關(guān)系，而在整個時空特征中，通道域的信息可以看作是原始輸入的層次化特征/層次化信息的層疊，因此可以直接利用現(xiàn)有全連接層學(xué)習(xí)全局時空特征，即將基礎(chǔ)特征集合進(jìn)行了維度轉(zhuǎn)換后作為雙全連接層的輸入，從而學(xué)習(xí)不同層次通道上多個時間維度特征間的相關(guān)性，實現(xiàn)在不增加額外網(wǎng)絡(luò)參數(shù)的情況下，利用雙全連接層對全局時空特征進(jìn)行學(xué)習(xí)。

該文將兩層全連接層進(jìn)行拆分，并對已經(jīng)學(xué)習(xí)到的網(wǎng)絡(luò)參數(shù)進(jìn)行維度轉(zhuǎn)換，對兩個全連接的輸出特征進(jìn)行融合獲得全局時空特征。這樣可以在不增加額外網(wǎng)絡(luò)參數(shù)的情況下，不僅保證了對空間特征的學(xué)習(xí)，而且消除了時序信息移位對整個時空特征的影響，提升了網(wǎng)絡(luò)對時空特征的學(xué)習(xí)能力。

Z=σ(W1X+b1)

(6)

S(Z)=W2Z+b2

(7)

Y=Z·S(Z)

(8)

2.4 損失函數(shù)

該文采用了TSN[10]中的分割思想，將視頻分割成L個等長的視頻片段，再對每個視頻片段進(jìn)行采樣，在使用分類結(jié)果計算損失之前，需要將特征的學(xué)習(xí)分為兩個部分：第一個部分是經(jīng)過動態(tài)時序移位后的特征；第二部分是動態(tài)時序移位后的特征與全局時空特征的融合特征。將C個通道的特征經(jīng)過動態(tài)時序移位后的特征定義為F，如式(9)所示：

F=[S(X1;W),S(X2;W),…,S(XC;W)]

(9)

(10)

最后，采用分類任務(wù)中經(jīng)典的Cross Entropy Loss計算網(wǎng)絡(luò)的損失：

(11)

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集

UCF101[20]是收集自YouTube的現(xiàn)實動作的視頻動作識別數(shù)據(jù)集，包含了101個動作類別的13 320個視頻，101個動作類別大致可分為人與動物互動、人物肢體運動、人與人之間的互動、演奏樂器以及體育運動這5種類型。該數(shù)據(jù)源自YouTube用戶錄制并上傳的視頻，更貼切現(xiàn)實生活場景。該文將同一類別的視頻分成25組，每組包含4～7個視頻片段，其中訓(xùn)練集和驗證集的視頻數(shù)量分別為9 537和3 783，并采用RGB和Optical Flow兩種特征類型。

Something-something v2[21]數(shù)據(jù)集由1 133位工作者提供的視頻片段構(gòu)成，按照同一上傳者的視頻放在一個集合內(nèi)進(jìn)行劃分，下面簡稱為Sthv2。相比于其他數(shù)據(jù)集，Sthv2更加復(fù)雜，其視頻數(shù)據(jù)量龐大，高達(dá)220 847，包含174個動作類別，每個視頻片段時長為2～6秒。

3.2 實驗結(jié)果分析

在UCF101數(shù)據(jù)集和Sthv2數(shù)據(jù)集上，主要進(jìn)行兩組實驗：與TSM以及現(xiàn)有主流方法(TSN，GSN)進(jìn)行精度對比；基于消融實驗分析注意力閾值的選擇以及驗證全局時空特征的有效性。實驗基于Pytorch深度學(xué)習(xí)框架，操作系統(tǒng)為Ubuntu 18.04.1，顯卡型號為GeForce RTX 2080i。

3.2.1 文中方法與主流算法的性能比較

本組實驗研究文中方法與TSM、TSN[10]以及GSN[19]在UCF101和Something-something v2數(shù)據(jù)集上的識別精度。

實驗采用了TSN的分段采樣策略(Segment based Sampling)，將視頻數(shù)據(jù)分割成8個片段，即num_segments=8，再對每個視頻片段進(jìn)行密集采樣(Dense Sampling)；使用ResNet-50作為特征提取器，初始特征維度為batch_size×64×224×224；使用Softmax函數(shù)作為最終的分類器。實驗結(jié)果采用Top-1和Top-5性能指標(biāo)進(jìn)行評測。

在UCF101數(shù)據(jù)集上，epoch為25，初始學(xué)習(xí)率為0.001，且每經(jīng)過10個epoch進(jìn)行學(xué)習(xí)率衰減，即降為原先的0.1倍；在Something-something v2數(shù)據(jù)集上，考慮到數(shù)據(jù)量的龐大性，該文將epoch設(shè)置為50，初始學(xué)習(xí)率為0.01，學(xué)習(xí)率衰減的步數(shù)為20，其他參數(shù)設(shè)置保持不變?？紤]到物理設(shè)備的限制，batch_size為16；TSM算法中通道移位比例為1∶8，文中方法的注意力閾值為0.5，精度比較結(jié)果如表1所示。

表1 文中方法與其他方法的識別精度比較 %

通過表1可發(fā)現(xiàn)，在UCF101和Something-something v2數(shù)據(jù)集上，文中方法在Top-1和Top-5指標(biāo)上均取得最好的識別精度，表明文中方法沿著時間維度有選擇地進(jìn)行通道特征移位，能夠獲取到更有效的時序信息，有利于最終的識別任務(wù)。此外，在Something-something v2數(shù)據(jù)集分類任務(wù)上，表1中算法所取得的識別精度均低于UCF101數(shù)據(jù)集上的結(jié)果，原因在于UCF101數(shù)據(jù)集相對簡單，數(shù)據(jù)量較小、類別數(shù)較少，網(wǎng)絡(luò)所需要學(xué)習(xí)的特征較少從而容易達(dá)到相對較好的分類效果。其中，TSN算法在兩個數(shù)據(jù)集上Top-1精度差最大(ΔPrec@1=47.15%)，表明基于時序移位的方法(TSM、GSN、Our Method)所建模的時序信息有利于處理數(shù)據(jù)更為復(fù)雜的分類任務(wù)。在UCF101數(shù)據(jù)集上，文中方法與TSM相比，Top-1精度僅提升0.45%；而在更復(fù)雜的Sthv2數(shù)據(jù)集上，文中方法與GSN相比，Top-1精度提升6.61%，與TSM相比精度提升達(dá)9.46%，體現(xiàn)了文中方法具有更好的識別性能。

3.2.2 注意力閾值的選擇

動態(tài)時序移位模塊(DTS)基于由FFN獲得的不同層次通道上注意力分布，選擇通道注意力值大于閾值的通道進(jìn)行時序移位，即選擇出不同時間維度間特征相關(guān)性較大的通道。而閾值的大小決定著時序信息的交互程度，如果閾值過大，某些通道上緊密相關(guān)的時序信息未被得到有效利用；如果閾值過小，則會對時序信息不緊密的通道進(jìn)行時序移位，不同時間維度上會產(chǎn)生無關(guān)信息。為了進(jìn)一步分析注意力閾值的選擇，在UF101數(shù)據(jù)集上進(jìn)行消融實驗。對基礎(chǔ)網(wǎng)絡(luò)(ResNet-50)提取到的特征(32×64×224×224)計算每個通道上32個時間維度特征間的相關(guān)性，獲得維度為64的通道注意力分布，并對注意力分布進(jìn)行歸一化處理，不同層次通道的注意力分布如圖3所示。橫坐標(biāo)為特征的通道，縱坐標(biāo)上的注意力值對應(yīng)著每個特征通道。

圖3 不同層次通道的注意力分布

從圖3中可以看出，不同層次通道上的注意力分布存在較大的差異，表明不同層次通道上所包含的時序信息是不同的，呈現(xiàn)出正相關(guān)和負(fù)相關(guān)兩種截然不同的結(jié)果，因此從多個時間維度間的相關(guān)性考慮選擇通道進(jìn)行時序移位，可以獲取到更全面更有效的時序信息。注意力閾值的選擇采取兩種方式：根據(jù)注意力分布的結(jié)果人為選擇閾值(0.5)；計算所有通道上注意力的均值作為閾值。實驗發(fā)現(xiàn)，當(dāng)對注意力值大于0.5的通道進(jìn)行時序移位效果更好，因為不同通道上注意力值差異較大，且存在負(fù)值，不能很好地反映注意力值的整體分布。

3.2.3 全局時空特征有效性分析

經(jīng)過動態(tài)時序移位后，實現(xiàn)不同時間維度上的信息交互，進(jìn)一步增強(qiáng)時序特征表達(dá)。但時序移位操作對整個時空特征結(jié)構(gòu)產(chǎn)生了一定影響，因此，該文在已有全連接層結(jié)構(gòu)的基礎(chǔ)上，進(jìn)一步學(xué)習(xí)全局時空特征。為驗證全局時空特征的有效性，去除所提方法中的全局時空特征學(xué)習(xí)過程，即取消對雙層全連接(FNN)的拆分，對基礎(chǔ)特征進(jìn)行動態(tài)時序移位后直接用于最終的分類任務(wù)，獲得基于全連接神經(jīng)網(wǎng)絡(luò)的動態(tài)時序移位方法(Our Method-)，其整體網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。在具體實現(xiàn)過程中，不固定雙層全連接的參數(shù)，且沒有特征融合過程。

圖4 基于全連接神經(jīng)網(wǎng)絡(luò)的動態(tài)時序移位方法

為探究全局時空特征的有效性，在UCF101數(shù)據(jù)集上對5組視頻動作識別方法進(jìn)行了對比實驗，所有參數(shù)設(shè)置均與3.2.1節(jié)實驗設(shè)置一致，并繪制了測試精度隨迭代變化曲線，如圖5所示。其中橫坐標(biāo)為迭代次數(shù)，縱坐標(biāo)為識別精度。

圖5 UCF101數(shù)據(jù)集上的測試精度比較

由圖可知，5組算法的識別精度均隨著迭代次數(shù)增加，整體呈上升趨勢，其中Our Method取得最高識別精度；與TSM和Our Method-相比，Our Method在迭代前期未取得較好的識別效果，這可能是因為Our Method的特征規(guī)模較大，需要不斷學(xué)習(xí)全局時空特征，而隨著迭代步數(shù)的增加，學(xué)習(xí)到的全局時空特征更加穩(wěn)定，為最終分類任務(wù)提供更有效的特征信息，Our Method取得了更好的分類結(jié)果；缺失全局時空特征學(xué)習(xí)的方法(Our Method-)識別精度明顯低于Our Method，進(jìn)一步驗證了全局時空特征的有效性。

4 結(jié)束語

針對處理視頻時序信息中存在的模型復(fù)雜度高、時序信息不全面的問題，提出基于時序動作移位和時空特征學(xué)習(xí)的視頻動作識別方法。首先，利用卷積網(wǎng)絡(luò)學(xué)習(xí)初始特征，通過雙層全連接學(xué)習(xí)多個時間維度上特征間的相關(guān)性，充分挖掘不同層次通道上所包含的時序信息。然后，固定部分網(wǎng)絡(luò)參數(shù)幫助學(xué)習(xí)全局時空特征，消除了時序移位對整個特征結(jié)構(gòu)的影響。實驗表明，與現(xiàn)有主流方法以及基于時序移位的方法相比較，該方法的學(xué)習(xí)效果得到了明顯提升。

視頻動作識別是計算機(jī)視覺領(lǐng)域中的研究熱點之一，在智能家居、游戲交互以及安防等多個方面得到廣泛的應(yīng)用。隨著人工智能技術(shù)的不斷發(fā)展，不斷創(chuàng)新視頻動作識別的方法，比如Vision Transformer[22]，為加強(qiáng)圖像特征學(xué)習(xí)、減少訓(xùn)練時計算量等問題提供了新的研究思路，對于改進(jìn)視頻動作識別方法有著很大的研究價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡