国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合注意力與多尺度時空信息的行為識別算法

2021-08-24 03:06秦宇龍王永雄胡川飛
小型微型計算機系統(tǒng) 2021年9期
關(guān)鍵詞:尺度準確率卷積

秦宇龍,王永雄,胡川飛,邵 杭

(上海理工大學 光電信息與計算機工程學院,上海 200093)

1 引 言

視頻人體行為識別指的是利用計算機相關(guān)算法,對視頻序列進行特征捕獲、提取、分析、處理,并實現(xiàn)對其中的人體動作行為進行正確理解和認知[1].隨著信息技術(shù)的發(fā)展,視頻行為識別已被廣泛地應(yīng)用于安防監(jiān)控、人機交互、異常行為檢測、人機混合增強、自動駕駛、智能服務(wù)等領(lǐng)域[2].但是,相比于二維靜態(tài)圖像的處理和識別,識別視頻中的人體動作行為不僅要利用視頻序列的空間信息,還需要獲取其時間信息.因此,視頻行為識別在具有廣闊的應(yīng)用前景的同時,仍面臨著模型參數(shù)量較大、時空特征提取效率較低、對視角敏感和識別精度不理想等諸多挑戰(zhàn)[3].

當前,視頻行為識別算法主要可以分為兩個大類:基于手工特征提取的識別方法和基于深度學習的識別方法.傳統(tǒng)的行為識別,需要逐幀地對視頻進行手工特征提取,以獲得相應(yīng)的特征向量,再基于特定的分類器進行分類[4].這類方法主要包括:基于3D-Harris角點特征的行為識別[5],基于3D梯度直方圖(3DHOG)特征描述子的行為識別[6],基于光流直方圖(HOF)特征描述子的行為識別[7]以及改進的密集軌跡光流算法(iDT)[8]等.但是,這些傳統(tǒng)算法在特征提取過程中的計算量較大且泛化能力較差,通常只適用于在特定、規(guī)模較小的視頻數(shù)據(jù)集上完成識別任務(wù),難以滿足對大規(guī)模視頻數(shù)據(jù)進行高效處理的需求.

得益于深度學習的快速發(fā)展,通過卷積層和池化層進行堆疊的卷積神經(jīng)網(wǎng)絡(luò),已被證明具有優(yōu)異的特征提取能力.在目標檢測、圖像分割、圖像修復(fù)[9]等領(lǐng)域取得到了廣泛的應(yīng)用和顯著的成果.基于深度學習的行為識別方法,在減少計算成本、提高網(wǎng)絡(luò)泛化能力的同時,可以實現(xiàn)端到端的訓練、測試與應(yīng)用,實現(xiàn)對海量數(shù)據(jù)的高效處理.

根據(jù)卷積核形式的不同,基于深度學習的行為識別方法,可以分為基于2D卷積網(wǎng)絡(luò)和基于3D卷積網(wǎng)絡(luò)兩大類別.其中,基于2D卷積網(wǎng)絡(luò)的算法以Simonyan等人[10]提出的雙流卷積網(wǎng)絡(luò)(Two-stream CNN)為代表.該方法提出對雙分支結(jié)構(gòu),分別使用RGB圖像和相鄰幀之間的光流圖像作為兩個網(wǎng)絡(luò)分支模塊的輸入,以此來同時獲取視頻的時間信息和空間信息.網(wǎng)絡(luò)對兩部分的分類得分進行融合并得到最終的判別結(jié)果.雙流結(jié)構(gòu)的出現(xiàn),為其后一系列的行為識別算法奠定了基礎(chǔ).Feichtenhofer等人[11]在雙流主干網(wǎng)絡(luò)中,結(jié)合特定的VGGNet,研究了信息融合的位置對于識別精度的影響;Wang等人[12]將Bn-Inception應(yīng)用到雙流結(jié)構(gòu),提出TSN算法,實現(xiàn)對長時間序列的視頻進行建模分類;Christoph等人[13]提出橫向連接的SlowFast網(wǎng)絡(luò),使用不同速率的視頻序列作為兩個分支的輸入,并通過橫向連接進行識別分類.基于2D卷積網(wǎng)絡(luò)的方法,大多采用信息融合的方式,間接實現(xiàn)視頻中時空信息的提取.但是,這樣的做法會破壞視頻中時空信息的完整性,同時采用手工標定的特征作為網(wǎng)絡(luò)額外的輸入信息,導(dǎo)致計算開銷仍舊較大,極大影響算法的訓練效率和應(yīng)用范圍.

相比于2D卷積的方法,基于3D卷積網(wǎng)絡(luò)的方法,網(wǎng)絡(luò)結(jié)構(gòu)更加簡單高效.可以直接有效地從原始視頻中提取時空特征信息,而無需額外的信息融合,極大提高網(wǎng)絡(luò)提取時空特征的效率.Ji等人[14]在傳統(tǒng)2D卷積的基礎(chǔ)上,引入3D卷積對時空維度進行提取,并首次將其應(yīng)用在行為識別領(lǐng)域.Tran等人[15]通過3D卷積層、3D池化層的堆疊連接,構(gòu)建了一個簡單高效的網(wǎng)絡(luò)架構(gòu)C3D.該網(wǎng)絡(luò)可直接從原始輸入視頻中提取時空特征,證明了3D卷積網(wǎng)絡(luò)在時空信息提取方面的優(yōu)越表現(xiàn).

此后,以C3D 網(wǎng)絡(luò)為基礎(chǔ)的3D卷積神經(jīng)網(wǎng)絡(luò)成為主流方法之一,但其結(jié)構(gòu)復(fù)雜、參數(shù)量龐大、不易于訓練.針對3D卷積神經(jīng)網(wǎng)絡(luò)和人體行為多樣化等問題,研究者以提高時空特征提取的效率或減少網(wǎng)絡(luò)參數(shù)為目標,進行更深層次的探索.Tran等人[16]提出Res3D網(wǎng)絡(luò),將殘差思想與3D卷積相結(jié)合,來解決網(wǎng)絡(luò)中梯度消失的問題.Diba等人[17]和Carreira等人[18]從不同的層面將Inception的思想擴展到3D卷積,提出T3D和I3D網(wǎng)絡(luò).通過不同尺度的卷積,來捕獲豐富的時空信息.但其參數(shù)量較大,易造成模型參數(shù)的大量冗余.Qiu等人[19]和Tran等人[20]結(jié)合時空分割的思想,對經(jīng)典的3D卷積的結(jié)構(gòu)分解為時間卷積和空間卷積.有效減少網(wǎng)絡(luò)參數(shù)量同時,增加了卷積內(nèi)部的非線性關(guān)系,提高網(wǎng)絡(luò)提取時空特征效果.但其卷積尺寸固定不變,缺乏對不同尺度時空特征的層次結(jié)構(gòu)進行分析,導(dǎo)致其時空感受野單一,對多樣化的人體行為識別的泛化性較差.Tran等人[21]借助分組卷積,在通道維度進行研究,通過通道維度的交互,提高特征提取的效率.Yang等人[22]引入視覺速率(Visual tempo)的概念,對視頻動作的速率快慢進行研究,提出TPN網(wǎng)絡(luò).該網(wǎng)絡(luò)通過特征金字塔結(jié)構(gòu)特性,實現(xiàn)多尺度特征的提取與融合,驗證了多尺度的特征提取,有利于網(wǎng)絡(luò)識別效果的提升.但是,利用金字塔結(jié)構(gòu)獲取多尺度信息,時間復(fù)雜度較高,網(wǎng)絡(luò)結(jié)構(gòu)較復(fù)雜,在訓練優(yōu)化方面有一定的難度.

為了更簡潔、有效地實現(xiàn)視頻中的行為識別目標,本文提出一種新穎的多尺度通道分離的時空卷積網(wǎng)絡(luò)(MCST-Net)用于人體行為識別.該網(wǎng)絡(luò)以MCST模塊為基礎(chǔ),在特征的通道維度進行分割,特征子集通過不同分支的卷積處理后,得到不同尺度的時空特征并進行多尺度融合.MCST模塊的類殘差結(jié)構(gòu),在參數(shù)量有所降低的前提下,可以有效地獲得多種尺度的時空感受野范圍,充分地利用特征各維度的信息進行訓練.這使網(wǎng)絡(luò)在視頻樣本中提取豐富的時空特征,達到提高網(wǎng)絡(luò)對視頻對象理解能力的目標.同時,為了優(yōu)化MCST-Net提出了一種改進的非局部注意力模塊(Improved non-local attention module,INLA).該模塊在Wang等人[23]提出非局部注意力模塊的基礎(chǔ)上,增加了多種尺度的池化模塊進行采樣操作.通過多種尺度的采樣點信息,等效的代替特征圖中的所有位置,在時空維度上降低特征的尺寸大小,有效解決了非局部注意力機制中的時間復(fù)雜度高和占用顯存較大的問題.并建立時空特征的全局依賴關(guān)系,獲取時空特征中的關(guān)鍵信息.本文提出的網(wǎng)絡(luò)結(jié)構(gòu)有利于解決人體行為識別中,網(wǎng)絡(luò)泛化能力較弱、參數(shù)量大、結(jié)構(gòu)復(fù)雜等問題,并在公開數(shù)據(jù)集UCF101[24]和HMDB51[25]上取得了優(yōu)異的識別效果,分別達到77.4%和45.2%的識別準確率,超過目前主流的行為識別方法.

2 多尺度通道分離的時空卷積網(wǎng)絡(luò)MCST-Net

本文提出的網(wǎng)絡(luò)架構(gòu)MCST-Net如圖1所示.使用多個MCST模塊(見圖2)作為網(wǎng)絡(luò)的主體卷積層,并在網(wǎng)絡(luò)的中段加入INLA模塊(見圖3).該網(wǎng)絡(luò)可以有效地提取視頻中的時空特征,具有較優(yōu)異的視頻理解能力.

圖1 MCST-Net網(wǎng)絡(luò)架構(gòu)圖

2.1 多尺度通道分離的時空卷積模塊MCST

提出的多尺度通道分離的時空卷積模塊(MCST),是MCST-Net的主體部分,用于提高網(wǎng)絡(luò)的視頻識別能力.在多尺度時空特征提取的過程中,MCST模塊沒有采用并行時空金字塔的方法,而是借鑒Res2net[26]中圖像特征的提取方式,通過構(gòu)建層內(nèi)的類殘差結(jié)構(gòu),對輸入特征的通道進行分割,獲得多個子集依次進行卷積操作,并將各分支的輸出層次化連接,實現(xiàn)多尺度融合.這樣在不引入額外參數(shù)的條件下,依次將一組卷積的輸出特征和另一組卷積的輸入特征相組合,等效地擴大每個卷積的感受野范圍,獲得多尺度的時空特征.MCST模塊充分利用了特征通道維度的信息,獲得更豐富的時空特征,提高網(wǎng)絡(luò)的行為識別效果.MCST模塊的結(jié)構(gòu)如圖2所示.

圖2 MCST模塊結(jié)構(gòu)圖

在我們的MCST模塊中,使用時空分割的2+1D卷積塊,代替經(jīng)典的3×3×3的3D卷積,分別處理特征的時間維度和空間維度,以此控制卷積部分的參數(shù)量.然后采用類殘差的結(jié)構(gòu),將卷積塊組合,等效地獲取多個尺度的時空感受野.具體來講,對于給定的輸入特征X,首先經(jīng)過1×1×1的卷積處理,完成特征通道維度的交互,并均勻地將輸入特征X的C1個通道分割為S個子集(圖1中尺度參數(shù)S=4),記為xi,其中i∈{1,2,…,S}.則每個子集的時空維度大小與輸入特征相同,而通道數(shù)C′輸入特征的1/S,即C′=C1/S.然后,除了x1子集外,每個特征子集xi分別經(jīng)過一個類殘差結(jié)構(gòu)的分支,每個分支都有一組對應(yīng)的2+1D卷積,記作Ri().一個特征xi經(jīng)過一組2+1D卷積處理后,提取出一個尺度的時空特征yi.得到的yi通過類殘差結(jié)構(gòu),與下一組輸入特征xi+1相結(jié)合,一起作為下一分支中2+1D卷積Ri+1()的輸入,進行處理.依次重復(fù)該過程,使每個子集都經(jīng)過2+1D卷積的進行特征提取,等效地獲得擴大時空感受野范圍,直到獲得所有分支輸出的時空特征.各分支輸出特征yi的獲取過程,可表示為:

(1)

在分割過程中,通過層次化連接的類殘差結(jié)構(gòu),重復(fù)利用不同卷積組之間的特征,有利于擴大卷積層的時空感受野范圍,實現(xiàn)多尺度時空特征的提取,使網(wǎng)絡(luò)獲得更加豐富的視頻信息.此外,在x1子集對應(yīng)的分支中,MCST模塊省略了卷積操作,直接對該子集特征進行重復(fù)利用,一定程度上減少了模塊的參數(shù)數(shù)量.

獲得各子集的時空特征yi后,將所有的時空特征連接起來,并通過1×1×1的卷積,進行信息融合.通過一個2+1D卷積塊進一步處理,并與殘差結(jié)構(gòu)相結(jié)合,避免梯度消失等問題.最后獲得MCST模塊輸出的時空特征,輸出結(jié)果的計算如公式(2)所示:

Y=X+F([y1;y2;…;ys])

(2)

其中,X代表MCST模塊的輸入特征,Y代表輸出特征,F(xiàn)()代表最后的2+1D卷積處理操作.

MCST模塊通過控制尺度參數(shù)S,調(diào)整模塊中時空感受野的范圍.相比于固定感受野的方法,MCST模塊可以學習更豐富的時空特征,參數(shù)數(shù)量也有一定的降低.

2.2 改進的非局部注意力模塊INLA

注意力機制是一種權(quán)重自動配置的機制.通過學習相關(guān)特征,對輸入特征的權(quán)重重新分配,提高網(wǎng)絡(luò)對于相關(guān)特征的提取效果.Wang等人提出的非局部注意力模塊(Non-local Black,NL),采用非局部均值設(shè)計,通過建立特征圖中所有位置的全局依賴關(guān)系,獲取特征的時空上下文關(guān)系,進而提高網(wǎng)絡(luò)的特征提取能力.在I3D、SlowFast等網(wǎng)絡(luò)中已經(jīng)證明,NL模塊可以有效地提升網(wǎng)絡(luò)對于全局特征的表達能力,進一步提高人體行為的識別準確率.

但是,在使用3D卷積網(wǎng)絡(luò)對視頻任務(wù)進行處理的過程中,采用NL模塊計算特征圖中所有位置的全局依賴關(guān)系,會導(dǎo)致注意力機制的計算量較大,占用過多的顯卡內(nèi)存,降低了網(wǎng)絡(luò)的訓練效率.所以本文提出一種改進的非局部注意力模塊(INLA).此模塊在建立特征全局依賴關(guān)系的同時,通過采樣操作,降低注意力機制的計算量,減少注意力機制占用的顯存空間,使MCST-Net更加高效的完成人體行為識別任務(wù).

INLA模塊的整體結(jié)構(gòu)如圖3所示.與NL模塊相類似,INLA模塊由Value、Key和Query 3個分支組成.但在Value和Key分支中,增加了采樣操作.采樣的操作過程如圖3中虛線框內(nèi)所示.具體來講,首先將輸入的特征X∈RC×T×H×W,分別送入3個分支的1×1×1卷積,進行通道維度的重構(gòu).然后對Query分支的時空維度進行展開處理,即N=T×H×W.得到該分支的輸出特征q∈RN×C,可由公式(3)表示,其中Wq()代表該分支的卷積和展開過程.

圖3 INLA結(jié)構(gòu)圖

q=Wq(X)

(3)

而對于Value和Key分支,增加了采樣處理的操作.采樣過程參考了空間金字塔池化層的思想,使用多種尺度的3D自適應(yīng)池化層,對輸入特征進行采樣處理.采樣的尺度分別為[1,3,5,8],將時空特征按照4種尺度進行平均池化,以代表不同時空特征區(qū)域的注意力特征.并對輸出的注意力特征,進行展開和拼接處理,則采樣點總數(shù)U可通過公式(4)表示.

(4)

兩個分支的輸出特征為v∈RU×C和k∈RC×U,通過公式(5)、公式(6)表示,其中Wv()、Wk()代表兩分支的卷積過程,S()代表各分支的采樣過程.

v=S(Wv(X))

(5)

k=S(Wk(X))

(6)

將輸出特征k和q相乘,并經(jīng)過softmax函數(shù)進行歸一化處理,得到該模塊中的相似矩陣.最后與輸出特征q相乘,得到INLA模塊的最終輸出Y,則INLA模塊獲得注意力權(quán)重的過程可通過公式(7)表示:

Y=v×softmax(k×q)

(7)

在NL模塊中,通過計算所有位置的全局依賴關(guān)系,獲得注意力權(quán)重.其時間復(fù)雜度主要來自于3個分支的矩陣乘積部分,可以記作O(CN2).而INLA模塊通過計算采樣點的全局依賴關(guān)系,來降低計算量.以U個采樣點代替特征的所有點,則INAL的時間復(fù)雜度為O(CNU).當輸入注意力模塊的特征尺寸為8×28×28時,特征的位置點個數(shù)N=T×H×W=6272,遠遠大于采樣點U=665,因此INLA模塊可以有效降低模塊的時間復(fù)雜度,減少模塊占用的顯存空間.INLA模塊在保留特征的全局依賴關(guān)系的前提下,不會改變輸入輸出特征的尺寸,可以與多種網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,具有一定的通用性.同時,該模塊解決了非局部注意力機制中計算量較大的問題,提高MCST-Net在人體行為識別任務(wù)中的準確率和訓練效率.

3 實驗結(jié)果與分析

為了驗證本文提出的MCST-Net在視頻行為識別任務(wù)中的有效性,本文在兩個主流的數(shù)據(jù)集UCF101和HMDB51進行大量的實驗.所做實驗基于Pytorch 3.0的深度學習框架,使用Nvidia Geforce GTX 1080 GPU硬件平臺來實現(xiàn).本節(jié)首先介紹本文算法中相關(guān)細節(jié)和參數(shù)設(shè)定.然后在相關(guān)數(shù)據(jù)集下,對網(wǎng)絡(luò)的不同部分的進行消融實驗,研究各部分對網(wǎng)絡(luò)識別效果的影響.最后與目前主流識別方法的測試準確率進行比較.

3.1 實驗數(shù)據(jù)集

為驗證本文所提算法的有效性和普適性,我們使用兩個不同類型的人體行為公開數(shù)據(jù)集UCF101和HMDB51進行實驗.

UCF101數(shù)據(jù)集是人體行為識別領(lǐng)域最經(jīng)典的數(shù)據(jù)集之一.其數(shù)據(jù)樣本來源于視頻網(wǎng)站YouTube上的各類行為動作視頻,分為101個動作類別,共13320段視頻.主要包括人-物交互,人-人交互,彈奏樂器等行為.UCF101數(shù)據(jù)集具有行為動作多樣、背景雜亂和相機抖動等特點,使得樣本內(nèi)容更貼近現(xiàn)實動作,識別起來更具挑戰(zhàn)性.也是行為識別領(lǐng)域評估網(wǎng)絡(luò)效果時,最常使用的數(shù)據(jù)集之一.

HMDB51數(shù)據(jù)集由布朗大學發(fā)布的一個行為識別數(shù)據(jù)集.該數(shù)據(jù)集的樣本主要來源于電影、YouTube和Google視頻等.其中包含了51個動作類別,共6849個視頻片段,每個類別至少包含101個視頻樣本.主要包括面部動作、一般身體動作和對象交互動作等5種類型.由于樣本的來源較廣、視頻場景復(fù)雜、光照條件多變等因素,HMDB51是目前最具挑戰(zhàn)性的行為識別數(shù)據(jù)集之一.

3.2 網(wǎng)絡(luò)訓練設(shè)置

預(yù)處理:首先,參考C3D、Resnet3D等文章的方式,對視頻數(shù)據(jù)進行預(yù)處理.將25fps的視頻樣本,逐幀地分解為若干個視頻段,每段包含16幀連續(xù)的RGB視頻幀.在網(wǎng)絡(luò)訓練的過程中,數(shù)據(jù)擴充的方法,可以有效處理過擬合問題.所以本文在訓練網(wǎng)絡(luò)時,為了防止出現(xiàn)樣本不足導(dǎo)致過擬合而影響網(wǎng)絡(luò)泛化能力的問題,采用隨機翻轉(zhuǎn)和多尺度偏移隨機裁剪的方法,對數(shù)據(jù)集的訓練樣本進行數(shù)據(jù)擴充,來增加數(shù)據(jù)樣本的多樣性,提高網(wǎng)絡(luò)學習特征效果.因為有序的視頻幀之間存在復(fù)雜的時空特征信息,所以在進行數(shù)據(jù)擴充時,同一視頻段的16個視頻幀,需采用相同的處理方式進行處理,避免破壞其時序相關(guān)性.對于訓練樣本,將輸入尺寸的320×240像素的視頻幀,按比例縮放為171×128像素大小.再進行隨機裁剪,固定為112×112像素的視頻段,并使用ImageNet dataset標準化系數(shù),對輸入視頻段進行標準化處理,以加快網(wǎng)絡(luò)的收斂速度.最后,按50%的概率對數(shù)據(jù)樣本進行水平翻轉(zhuǎn)處理.而對于驗證集的樣本,只進行尺寸縮放、中心裁剪和標準化處理.

參數(shù)設(shè)定和訓練:本實驗在相關(guān)數(shù)據(jù)集下,使用隨機初始化權(quán)值的方式訓練網(wǎng)絡(luò)模型.經(jīng)過預(yù)處理后,以大小為16×112×112像素的RGB視頻幀作為網(wǎng)絡(luò)輸入.訓練過程中,使用隨機梯度下降法和交叉熵損失函數(shù),對模型進行優(yōu)化訓練,動量設(shè)為0.9,權(quán)重衰減系數(shù)設(shè)為0.005.網(wǎng)絡(luò)訓練的初始學習率設(shè)為0.005,每迭代10次,學習率就減少為原來的1/10,共進行39次迭代.

3.3 網(wǎng)絡(luò)架構(gòu)

本文主要使用MCST-Net-10以及Res3D-10的網(wǎng)絡(luò)進行實驗,網(wǎng)絡(luò)架構(gòu)的具體設(shè)定如表1所示.MCST-Net-10在卷積1后,采用大小為1×2×2,時間步長為1,空間步長為2的3D池化層進行空間下采樣,來縮小特征圖的空間尺度.在網(wǎng)絡(luò)的前期,為了保留更多的時序信息,不進行時間下采樣.而在卷積塊3、4、5后,統(tǒng)一使用大小為2×2×2,步長為2的3D池化層,對特征進行時空下采樣,降低特征的時空尺度.網(wǎng)絡(luò)模型中,所有時空卷積的步長設(shè)為1,并在卷積處理后進行批量歸一化和激活函數(shù)(ReLU)操作.最后通過全局平均池化、全連接層以及softmax函數(shù)完成網(wǎng)絡(luò)的動作分類.

表1 MCST-Net-10和Res3D-10網(wǎng)絡(luò)架構(gòu)

3.4 MCST模塊與基于3D卷積方法的對比實驗與分析

為了驗證本文所提出的MCST模塊的有效性,我們首先對基于3D卷積的兩種經(jīng)典方法:Res3D網(wǎng)絡(luò)和R2+1D網(wǎng)絡(luò)進行復(fù)現(xiàn).Res3D網(wǎng)絡(luò)在經(jīng)典的3D卷積結(jié)構(gòu)中,增加殘差結(jié)構(gòu),解決了梯度消失的問題;而R2+1D網(wǎng)絡(luò)將3D卷積進行時空分割,有效降低3D卷積的參數(shù)量,提高網(wǎng)絡(luò)的提取效率.本文在相同條件下,基于UCF101數(shù)據(jù)集與未添加注意力模塊的MCST-Net進行對比實驗,從識別準確率和網(wǎng)絡(luò)參數(shù)兩方面進行分析評估.其中MCST模塊的尺度參數(shù)設(shè)為4,實驗結(jié)果如表2所示.整個訓練過程中,各網(wǎng)絡(luò)測試準確率的變化情況如圖4所示.

圖4 基于UCF101數(shù)據(jù)集的測試準確率

表2 基于UCF101數(shù)據(jù)集的實驗結(jié)果

實驗結(jié)果可以看出,本文所提出的MCST-Net在識別準確率和網(wǎng)絡(luò)參數(shù)方面明顯優(yōu)于Res3D網(wǎng)絡(luò)和R2+1D網(wǎng)絡(luò)兩種經(jīng)典的3D卷積方法.在網(wǎng)絡(luò)深度相同的條件下,MCST-Net-10的識別準確率達到了76.0%,比R2+1D-10提高約5.4%,比Res3D-10提高約10.9%.而且MCST-Net-10的網(wǎng)絡(luò)參數(shù)大約為583萬個,僅為R2+1D-10的81%,Res3D-10的40.4%.參數(shù)量的下降,對于網(wǎng)絡(luò)的優(yōu)化與訓練是非常有利的.實驗結(jié)果進一步驗證了MCST模塊的優(yōu)越表現(xiàn).分析其原因是:MCST模塊采用類殘差的結(jié)構(gòu)對輸入特征進行通道分離,獲得多尺度的時空感受野范圍,可以更充分的利用各維度的特征信息.因此,MCST模塊有利于學習更豐富的時空特征信息,使網(wǎng)絡(luò)能夠更全面的完成復(fù)雜動作的識別任務(wù),而且識別準確率更高,參數(shù)利用更高效.

3.5 不同尺度MCST模塊的對比實驗與分析

MCST模塊的核心思想是通過類殘差的結(jié)構(gòu),分別對通道的多個子集進行卷積處理,獲得多尺度時空特征.而這種分割的操作就引入了一個尺度參數(shù)S.在保證網(wǎng)絡(luò)的深度、寬度等條件一致的前提下,本節(jié)通過一系列的實驗,評估尺度參數(shù)S的改變,對于網(wǎng)絡(luò)性能的影響.

由于S=2時,MCST模塊在特征重利用的比例較高,不利于時空特征提取效果的提升,所以本節(jié)未對尺度參數(shù)S=2的情況進行研究.本節(jié)實驗主要設(shè)定了3種尺度參數(shù)的方案,分別為S=3、S=4和S=5.在UCF101數(shù)據(jù)集上進行對比驗證,整個實驗過程中,各種尺度的訓練準確率和測試準確率變化情況如圖5(a)-圖5(c)所示.根據(jù)實驗結(jié)果可以看出,在實驗前期,隨著尺度參數(shù)的增大,訓練準確率的提升速度略微減慢.這是由于尺度的增加,使網(wǎng)絡(luò)的參數(shù)有所改變,導(dǎo)致網(wǎng)絡(luò)的前期的優(yōu)化效率略微降低.但隨著迭代次數(shù)的增加,最終的訓練準確率均可以達到很好的收斂效果.而測試準確率隨著尺度參數(shù)的增大而有所提高,且后期測試準確率曲線更加平滑.

圖5 不同尺度MCST-Net的實驗結(jié)果

具體的測試準確率和網(wǎng)絡(luò)參數(shù)結(jié)果如表3所示.由于尺度參數(shù)的增加,使得x1子集中的通道數(shù)下降,進行卷積處理的通道比例上升,所以網(wǎng)絡(luò)所需的卷積數(shù)量也略有增加,參數(shù)量也逐步增加.而測試準確率,卻隨著尺度參數(shù)的增加而有所提升.但尺度S=5時,測試準確率的提升是有限的,相比S=4的結(jié)果,僅提升了0.3%.本文認為這是由于S=5時等效感受野將達到9×9×9,超出網(wǎng)絡(luò)的后期的輸入特征大小,無法進一步提高MCST模塊提取時空特征的效果.所以在考慮測試結(jié)果和網(wǎng)絡(luò)參數(shù)等條件下,尺度參數(shù)S=4時,MCST-Net的識別性能更加高效.實驗結(jié)果證明了多尺度的時空感受野,有利于網(wǎng)絡(luò)學習更豐富的時空特征,來提高網(wǎng)絡(luò)在人體行為識別任務(wù)中的識別準確率.

表3 不同尺度MCST-Net的實驗結(jié)果

3.6 引入INLA模塊的實驗與分析

為了更有效地實現(xiàn)時空信息的提取,本文還提出了改進的非局部注意力模塊INLA,增強相關(guān)特征的全局依賴關(guān)系.在相同的實驗條件下,對未加注意模塊、添加NL模塊和添加INLA模塊的3種網(wǎng)絡(luò)進行對比實驗.從識別準確率、網(wǎng)絡(luò)參數(shù)、占用顯存和訓練時長方面進行對比.其中占用顯存的大小是在batch size=1的條件下進行統(tǒng)計的,以避免并行訓練等原因?qū)ζ鋽?shù)值造成影響.實驗結(jié)果如表4所示.

表4 添加注意力機制的實驗結(jié)果

通過實驗結(jié)果可以發(fā)現(xiàn),添加了注意力模塊的網(wǎng)絡(luò),在識別準確率方面都有所上升,大約提升1.42%~1.44%,而參數(shù)量僅增加約0.4%.證明了注意力機制的使用,可以有效地提高網(wǎng)絡(luò)提取時空特征信息效果.INLA模塊與NL模塊對于網(wǎng)絡(luò)性能的提升效果基本一致,僅相差0.02%,而二者在訓練時長和占用顯存方面有很大差別.相比于添加NL模塊的網(wǎng)絡(luò)83.2小時的訓練時長,添加INLA模塊的訓練時長為78.0小時,大約降低了6.25%.間接證明了INLA模塊有效的降低了注意力機制部分的時間復(fù)雜度.同時,添加NL模塊的網(wǎng)絡(luò)所需顯存為2809MB,而添加INLA模塊的網(wǎng)絡(luò)僅需1957MB.大約降低了30.34%.對比實驗的結(jié)果,進一步證明了INLA模塊,在保持特征全局依賴關(guān)系的前提下,有效地降低了注意力模塊的時間復(fù)雜度和占用顯存空間,更有利于網(wǎng)絡(luò)的訓練與優(yōu)化.

3.7 與目前主流方法的對比

為了進一步驗證MCST-Net在行為識別方面的優(yōu)越表現(xiàn),分別在公開的人體行為數(shù)據(jù)集UCD101和HMDB51上訓練網(wǎng)絡(luò),以RGB視頻作輸入,與目前主流的多種方法進行比較,識別準確率的對比結(jié)果如表5所示.

表5 不同方法的識別準確率對比

對比的結(jié)果可分為3組,分別為基于2D卷積的方法、基于3D卷積的方法和本文進行復(fù)現(xiàn)的方法.基于2D卷積的方法,選取了5個比較具有代表性的方法,以此與3D卷積的方法形成對比,其中*表示該方法需要額外的預(yù)訓練或多類別輸入等操作,才能達到的實驗結(jié)果.基于3D卷積的幾種方法,從不同角度,對3D卷積網(wǎng)絡(luò)進行優(yōu)化或考慮不同的方式,來處理視頻樣本.本文復(fù)現(xiàn)的幾種方法,為了保證實驗的公平性,網(wǎng)絡(luò)深度統(tǒng)一設(shè)為10層.

通過表5的對比結(jié)果可知,本文提出的MCST-Net,在兩個公開數(shù)據(jù)集中都取得了最好的識別效果,分別達到77.4%和45.2%的測試準確率.相比2D卷積的方法,本文的MCST-Net無需預(yù)訓練等額外操作,就能取得更優(yōu)的識別準確率,比多類別輸入的Two-stream方法,還要提高4.4%和3.2%,較大幅度地提高了網(wǎng)絡(luò)的泛化性和普適性.而相比3D卷積的方法,同樣使用UCF101和HMDB51從新開始訓練,MCST-Net獲得了最高的識別準確率,比表中最優(yōu)的3D卷積方法T3D網(wǎng)絡(luò),還要提高約5%和4%的識別準確率.從表5可以看出,MCST模塊和INLA模塊相結(jié)合,可以有效地提取視頻樣本中的時空特征.從而使整個網(wǎng)絡(luò)具有較好的泛化能力和識別效果.

4 結(jié) 論

本文提出了一種簡單高效的多尺度通道分離的時空卷積網(wǎng)絡(luò)(MCST-Net)用于人體行為識別.在網(wǎng)絡(luò)中使用類殘差結(jié)構(gòu)的MCST模塊,獲得多尺度的時空特征,使網(wǎng)絡(luò)從視頻樣本中提取到的時空信息更加豐富.此外,提出了一種改進的注意力機制INLA模塊,進一步增強時空特征的全局依賴關(guān)系,使網(wǎng)絡(luò)更加高效的完成人體行為識別任務(wù).所提出的MCST-Net在兩個經(jīng)典數(shù)據(jù)集UCF101和HMDB51進行多組實驗評估,識別準確率可以達到77.4%和45.2%.相比目前人體行為識別的幾種主流方法,MCST-Net都取得了更優(yōu)異的識別效果,具有提取時空信息更豐富、參數(shù)量更少、泛化性更強等優(yōu)點,進一步提高人體行為識別的準確率.

猜你喜歡
尺度準確率卷積
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準確測定
環(huán)境史衰敗論敘事的正誤及其評判尺度
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
以長時間尺度看世界
鄂尔多斯市| 房山区| 比如县| 鄂托克前旗| 花莲县| 昌平区| 玉山县| 邯郸市| 长寿区| 建昌县| 上栗县| 那坡县| 红原县| 汾西县| 师宗县| 农安县| 北宁市| 兴和县| 红原县| 达孜县| 尼勒克县| 宁德市| 嘉兴市| 泾源县| 板桥市| 华蓥市| 金华市| 武川县| 靖边县| 保靖县| 稷山县| 盐边县| 阿鲁科尔沁旗| 延庆县| 巢湖市| 广西| 繁峙县| 永春县| 茌平县| 广州市| 昌邑市|