張坤,楊靜,,張棟,陳躍海,李杰,杜少毅
(1.西安交通大學自動化科學與工程學院,710049,西安;2.西安交通大學人工智能學院,710049,西安)
temporal attention
近年來,行為識別在智能視頻監(jiān)控、輔助醫(yī)療監(jiān)護、智能人機交互、全息運動分析及虛擬現(xiàn)實等領域均具有廣泛的應用需求[1]。從應用場景看,行為識別可分為異常行為識別、單人行為識別、多人行為識別等[2]。行為定義模糊、類內和類間差異較大、計算代價等問題給視頻行為識別帶來了巨大的挑戰(zhàn)[3]。
隨著深度學習的崛起,許多深度學習方法被用于行為識別。由于行為識別需要同時獲取空間和時間信息,所以兩個網絡并行的雙流結構成為了目前視頻行為識別領域的主流架構。雙流網絡大多使用光流作為時間流、RGB圖像作為空間流。由于光流本身只使用于短時間的動作信息提取,所以此類網絡無法解決長跨度動作的時間信息提取問題[4]。
循環(huán)神經網絡在序列數據的處理上表現(xiàn)優(yōu)異,而視頻也是按照時序排列的序列數據,所以諸如LSTM[5]等循環(huán)神經網絡被用于視頻行為識別任務。然而,使用CNN-LSTM的方法在行為識別問題上并不能取得令人滿意的效果。原因在于行為識別中作出主要貢獻的是幀圖像的空間信息[6],且相鄰的視頻幀能提供的時序信息十分有限。
3D卷積相較于2D卷積多了一個維度,對應視頻比圖像多了時間維度,因此3D卷積被引入用作行為識別的特征提取。隨著視頻領域大規(guī)模數據集的建立,3D卷積逐步超越了傳統(tǒng)2D卷積的表現(xiàn)[7]。然而,視頻信息在時空維度具有完全不同的分布方式和信息量,經典的3D卷積方法在時空維度并沒有對此進行區(qū)分[8],由此導致了3D卷積計算了過多的冗余信息。如何減少3D卷積的計算消耗從而建立一個輕量級的網絡是目前的研究熱點。
長跨度的時間建模是行為識別中的一大難點[9]。由于時間維度信息與空間信息不平衡,已有的行為識別方法受限于采樣密度較低和時間跨度限制,對于一些變化緩慢或者變化較小動作,如傾聽、注視、打電話等,難以提取出有效的動作信息。對于部分需要依賴時間信息進行區(qū)分的動作,如講話和唱歌、躺下和睡覺等,已有方法的效果不夠理想。如何從冗余的視頻信息中找到出含有動作信息的關鍵視頻幀,目前的行為識別方法還未給出一個完善的解決方案。
本文針對RGB視頻的輕量行為識別,提出了一種時間-動作感知的多尺度時間序列實時行為識別方法MRTP,旨在解決視頻中空間和時序信息不平衡以及長時動作的關鍵幀難以提取的問題。本文提出的MRTP方法在行為識別的經典數據集UCF-101和大規(guī)模數據集AVA2.2上進行了訓練和相關指標測試。測試結果表明,相比于主流的行為識別方法,MRTP方法具有更高的準確率和更小的計算成本,能夠在方法部署階段實現(xiàn)實時行為識別。
行為識別傳統(tǒng)方法一般使用時空興趣點[10]、立體興趣點[11]、運動歷史圖像[12]、光流直方圖(HOF)[13]等局部描述符,通過視覺詞袋[14]、Fisher Vector[15]等特征融合方法,用KNN、SVM等傳統(tǒng)分類器進行分類。在2015年以前,iDT[16]是行為識別領域精度最高的方法。該方法通過提升的密集軌跡方法對相機運動進行估計,使用行人檢測消除干擾信息,再基于光流直方圖和光流梯度直方圖等描述子進行SVM分類。iDT方法識別效果優(yōu)良、魯棒性好,但人工特征提取流程復雜且特征不夠全面。隨著深度神經網絡的不斷發(fā)展,基于深度學習的方法在精度和計算成本上都超越了傳統(tǒng)方法。
目前,基于深度學習的行為識別方法有雙流網絡、循環(huán)神經網絡、3D卷積等。
視頻理解除了空間信息之外還需要運動信息,雙流網絡使用兩個并行的卷積神經網絡,分別獨立進行特征提取,主流的雙流方法有TSN[17]、Convolutional Two-Stream[18]、Flownet[19]等。在經典的Two-steam[20]方法中,一個網絡處理單幀的圖像,提取環(huán)境、視頻中的物體等空間信息,另一個網絡使用光流圖做輸入,提取動作的動態(tài)特征??紤]到光流是一種手工設計的特征,雙流方法通常都無法實現(xiàn)端到端的學習。另外,隨著行為識別領域數據集規(guī)模的不斷擴大,由光流圖計算帶來的巨大計算成本和存儲空間消耗等問題使得基于光流的雙流卷積神經網絡不再適用于大規(guī)模數據集的訓練和實時部署。
LSTM[21]是循環(huán)神經網絡中一種,該網絡用于解決某些動作的長依賴問題。文獻[22]研究了同時使用卷積網絡和循環(huán)神經網絡的CNN-LSTM網絡結構在行為識別任務中的表現(xiàn),發(fā)現(xiàn)需要對視頻進行預分段,LSTM才能提取到較為明確的時間信息。文獻[23]探索了多種LSTM網絡在行為識別任務中的應用效果,發(fā)現(xiàn)相比于行為識別,LSTM更適合于動作定位任務。在視頻行為識別中,很大一部分動作只需要空間特征就能夠識別,但LSTM網絡只能對短時的時間信息進行特征提取,無法很好地處理空間信息。因此,該類方法已逐漸被3D卷積等主流方法取代。
視頻行為識別中,主流的3D卷積方法有C3D[24]、I3D[25]、P3D[26]等。文獻[27]將經典的殘差神經網絡ResNet由2D拓展為3D,并在各種視頻數據集中探索了從較淺到深的3D ResNet體系結構,結果發(fā)現(xiàn)在大規(guī)模數據集上,較深的3D殘差神經網絡能夠取得更好的效果。然而,視頻信息在時空維度具有完全不同的分布方式和信息量,經典的3D卷積方法在時空維度并沒有對此進行區(qū)分,計算了過多的冗余信息,由此帶來了過高的計算代價以及部署成本。
文獻[8]提出了一種受生物機制啟發(fā)的行為識別模型,通過分解架構分別處理空間信息和時間信息。在人類視覺中,空間語義(顏色、紋理、光照等)信息變化較慢,可使用較低的幀率。相比之下,大部分動作(拍手、揮手、搖晃、走路、跳躍等)比空間語義信息變化速度快得多,因此使用更高的幀率來進行有效建模。但是,該方法只改變了兩個路徑輸入視頻幀的數量。對單個視頻幀沒有進行更細致的處理,在空間流也未添加更多的動作信息予以輔助。
當前,已經存在很多基于3D卷積和雙路徑網絡架構的行為識別方法,但效果均不理想,這主要是由于對于行為識別任務,視頻中的信息較為冗余,對任務做出實際貢獻的視頻幀和含有動作信息的特征通道在視頻中的分布十分稀疏。因此,如何找出含有關鍵信息的視頻幀和特征通道亟待解決。
本文設計了一個時間與動作感知的雙路徑行為識別方法MRTP,網絡結構見圖1。模型使用雙路徑結構,以視頻包為輸入,在時間維度上以步長1為滑動窗口,可得到視頻中順序排列的連續(xù)n幀圖像。
每個視頻以2 s長度截取視頻包,對于視頻包中的64幀圖像再進行采樣。T為每次采樣的視頻幀數,在高幀率動作路徑設置T=32,低幀率空間路徑設置T=4。低幀率空間路徑所取視頻幀的位置由高幀率動作路徑的時間注意力模塊生成的α和β決定,α和β為時間注意力篩選出的權重最大兩幀圖像對應的坐標。
高幀率動作路徑采樣的圖像數量較多但通道數較少,低幀率空間路徑采樣的圖像數量較少但通道數較多。設高幀率動作路徑輸入的圖像數為低幀率空間路徑的p倍,高幀率動作路徑特征的通道數為低幀率空間路徑的q倍,在UCF-101數據集和AVA數據集上,p=8,q=1/16。
Res1~Res4是ResNet3D的殘差結構。使用Kinetics 400和Kinetics 600上預訓練的ResNet3D 50和ResNet3D 101作為特征提取的骨干網絡。
通道注意力模塊用于衡量動作路徑各個特征通道的重要性并進行加權。時間注意力模塊在通道注意力模塊篩選出的通道權重基礎上衡量各個視頻幀的重要性,將α和β輸入到低幀率空間路徑作為圖像提取的位置坐標依據。動作感知模塊基于相鄰兩幀的特征差分矩陣衡量前后兩個視頻幀的特征變化,并對通道賦予權重。
在卷積網絡的Pool1、Res1、Res2、Res3之后建立側向連接,將動作路徑的特征通過重構之后傳遞到空間路徑。
特征融合部分將高幀率動作路徑和低幀率空間路徑的特征連接起來。
Softmax函數將融合后的特征向量轉換為類別概率向量,并選取其中的最大值所對應的類別作為輸出結果。
2.1.1 長時間跨度動作特征 在由圖像序列組成的視頻數據中,動態(tài)信息被定義為幀間圖像的像素運動,即光流。然而,光流需要時間的變化不引起目標位置的劇烈變化,因此光流矢量只能在幀間位移較小的前提下使用。在需要長時間跨度動作特征提取的情況下,光流作為動態(tài)信息的一種表示,并不能提取出所需的動作信息表征。因此,本文引入高幀率采樣的動作路徑,該路徑輸入RGB視頻幀,在本文實驗的兩個數據集上將幀率變?yōu)樵瓉淼膒倍。同時,為了降低模型的計算量,使該路徑更加聚焦于動態(tài)信息,本文將動作路徑的通道數量變?yōu)樵瓉淼膓倍,在保證了模型輕量化的同時實現(xiàn)了動態(tài)信息的提取。相比于基于光流的動態(tài)信息,本文通過使用RGB視頻幀輸入實現(xiàn)了端到端的訓練和部署,并且特征的提取不再受光流的場景固定和小范圍時間跨度的約束。
2.1.2 通道注意力機制 由于輸入特征向量在通道維度有較大差異,有的通道對識別任務有較大貢獻,但部分通道貢獻較小,所以在3D卷積中引入通道注意力機制。將提取特征向量作為輸入,通過計算通道權重對通道加權。
設輸入特征向量的維度用數組X表示,X=[N,C,ωT,W,H],其中:N為輸入的視頻數;C為通道數量;ω為整個視頻中所取的片段數,即進行3D卷積的次數,若視頻長度在2 s以內,則ω=1;W和H為特征的寬和高。首先,在時間維度對特征進行融合
(1)
然后,在空間維度通過池化融合特征
(2)
式中zC為池化操作的結果。通過在特征的寬和高進行池化,特征向量的維度變?yōu)閄=[N,C,1,1,1]。
最后,計算出每個通道的權重向量
a=Sigmoid(Y2ReLU(Y1zC))
(3)
式中:a為通道注意力計算出的權重向量;Y1和Y2為權重參數,在訓練中得到;Sigmoid為S型激活函數;ReLU為線性激活函數。
2.1.3 時間注意力機制 由于每幀圖像的重要性不同,所以對于通道加權后的特征向量,選取其中權值最大的通道特征作為時間注意力機制的輸入并計算權重,從而對視頻幀加權。
首先,利用輸入的通道權重對通道數據進行篩選
uT=x[N,amax,ωT,W,H]
(4)
式中:x為輸入特征向量;amax為上一步通道注意力機制中提取出的權重最大值對應的通道坐標;uT為通道注意力提取出的權重最大通道對應的特征向量。通過第1步提取操作,特征向量維度變化為X=[N,1,ωT,W,H]。
然后,在空間維度通過池化融合特征
(5)
式中zT為池化操作的輸出特征。通過在特征的寬和高進行池化,特征向量的維度變化為X=[N,1,ωT,1,1]。
最后,計算出每個視頻幀的權重向量
s=Sigmoid(W2ReLU(W1zT))
(6)
式中:s為時間注意力計算出的權重向量;W1和W2為權重參數,在訓練中得到。
2.2.1 視頻幀按權重采樣 空間路徑采樣視頻幀的數量只有動作路徑的1/p,在空間路徑使用均勻采樣會因為位置不準確導致無法提取出足夠的信息。因此,MRTP方法采用動作路徑生成的權重對空間路徑進行非均勻采樣指導,流程如圖2所示。動作路徑中的通道注意力和時間注意力模塊生成了視頻幀權重?;谠摍嘀?在空間路徑按權值從大到小,以2幀/s的處理速度在視頻對應位置采樣圖像。假設時間注意力計算出的權重s中最大的兩個值為sα和sβ,則在視頻中按α和β所在位置抽取圖像。相比于現(xiàn)有模型均勻抽取的方法,這種采樣方法能夠提取到信息量更多、對識別貢獻更大的視頻幀。
圖2 空間路徑視頻幀按動作路徑時間注意力權重進行非均勻采樣示意Fig.2 Non-uniform sampling in spatial path according to time attention weight in motion path
圖3 動作感知結構Fig.3 Motion perception structure
2.2.2 動作空間特征提取 空間特征主要描述動作中涉及到的物體外觀和場景配置。為了提取視頻幀中細節(jié)的空間信息,本文使用低幀率空間路徑,一次卷積中只使用4幀圖像。預處理隨機裁剪將圖像歸一化為224×224像素,在訓練出的ResNet-3D網絡模型中,Res4的特征通道數達到了2 048。更多的特征通道能夠讓該路徑提取到顏色、紋理、背景等細節(jié)的空間信息。
為了替代以光流為基礎的像素級動作表示方式,并將時空特征結合起來,本文在低幀率空間路徑使用了動作感知模塊,從特征通道來進行動作表征和激勵。該模塊通過衡量前后兩個視頻幀的特征變化,賦予視頻幀中動作信息對應的特征通道更大的激勵權重,以此來增強網絡對動作的感知能力。動作感知模塊的計算流程如圖3所示。
設輸入特征為X,X的特征維度即為X=[N,C,ωT,W,H],此處X為一次卷積獲得的特征,即ω=1,可得X=[N,C,T,W,H]。首先,使用一個3D卷積層來降低通道數以提高計算效率
Xk=conv3D(X)
(7)
式中:Xk表示通道減少后的特征,Xk特征維度為[N,C/k,T,W,H],k=16是減少的比率;conv3D表示使用尺寸為1×1×1的卷積核對通道維度進行降維操作。
對于運動特征向量,使用前后兩幀圖像對應的特征Xk(t+1)和Xk(t)之間的差來表示運動信息
P(t)=convshift(Xk(t+1))-Xk(t)
(8)
式中:P(t)是時間t時的動作特征向量,特征維度為[N,C/k,1,W,H],1≤t≤T-1;convshift是一個3×32通道卷積層,對每個通道進行轉換。
假設T時刻動作已經結束,即T時刻已經沒有動作特征,令P(T)為0特征向量。在計算出每個時刻的P(t)之后,構造出整個T幀序列的動作矩陣P。通過全局平均池化層激發(fā)對動作敏感的通道
Pl=pool(P)
(9)
式中Pl特征維度為[N,C/k,T,W,H]。使用3D卷積層將動作特征的通道維度C/k擴展到原始通道維度C,再利用Sigmoid函數得到動作感知權值
E=2Sigmoid(conv3D(Pl))-1
(10)
至此,得到了特征向量中各通道的動作相關性權重E。為了不影響原低幀率動作路徑的空間特征信息,借鑒ResNet中殘差連接的方法,在增強動作信息的同時保留原有的空間信息
XR=X+X⊙E
(11)
式中:XR是該模塊的輸出;⊙表示按通道的乘法。
3.1.1 損失函數 在訓練過程當中,對于同一輸入有多個動作共存的情況,Sigmoid函數計算公式為
(12)
由于經過Sigmoid網絡層后的輸出為[0,1]內的概率值,因此本文選擇二分類交叉熵損失函數進行訓練,即對每一類動作都進行二分類判別。在判別時設定概率閾值為0.8,當大于該閾值時認為判別有效,即視頻中包含該類動作,從而避免多分類的類別互斥情況,損失函數計算公式為
(13)
3.1.2 訓練參數 本文實驗使用深度學習框架Pytorch實現(xiàn),訓練使用SGD優(yōu)化器,學習率調整策略為StepLR,基于epoch訓練次數進行學習率調整,即每到給定的epoch數時,學習率都改變?yōu)槌跏紝W習率的指定倍數。初始學習率設置為0.05,指定當epoch數為10、15、20時,學習率分別設置為初始學習率的0.1、0.01、0.001倍,權重衰減設置為1×10-7,Dropout rate設置為0.5。AVA數據集訓練樣本龐大,剛開始采用較大的學習率可能會帶來模型不穩(wěn)定。為了防止出現(xiàn)提前過擬合的現(xiàn)象和保持分布的平穩(wěn),本文在訓練過程中還加入了學習率預熱策略,在epoch數小于5時,使用0.000 125的學習率進行訓練,當模型具備了一定的先驗知識,再使用預先設置的學習率,這樣可以避免初期訓練時錯過最優(yōu)點導致?lián)p失振蕩,從而加快模型的收斂速度。
本文使用兩個數據集評估MRTP的性能。其中,UCF101是行為識別領域的經典數據集,AVA2.2是目前最具挑戰(zhàn)性的大規(guī)模數據集。在UCF101和AVA2.2上,分別使用三折交叉驗證準確率和平均精度(mAP)作為評價指標,與經典方法以及近期方法進行了對比,并單獨驗證了MRTP的有效性。
3.2.1 UCF101 UCF101[28]是一個由佛羅里達大學創(chuàng)建的動作識別數據集,收集自YouTube。UCF101擁有來自101個動作類別的13 320個視頻,在攝像機運動、外觀、姿態(tài)、比例、視角、背景、照明條件等方面存在很大的差異。101個動作類別中的視頻被分成25組,每組可以包含一個動作的4~7個視頻。同一組視頻可能有一些共同特點,比如相似的背景或類別等。數據集包括人與物體交互、單純的肢體動作、人與人交互、演奏樂器、體育運動共5大類動作。
3.2.2 AVA AVA數據集[29]來自谷歌實驗室,包含430個視頻,其中,235個用于訓練,64個用于驗證,131個用于測試。每個視頻有15 min的注釋時間,間隔為1 s。盡管很多數據集采用了圖像分類的標注機制,即數據的每一個視頻片段分配一個標簽,但是仍然缺少包含不同動作的多人復雜場景數據集。與其他動作數據集相比,AVA具備每個動作標簽都與人更加相關的關鍵特征。在同一場景中執(zhí)行不同動作的多人具有不同的標簽。AVA的數據源來自不同類型和國家的電影,覆蓋大多數的人類行為并且十分貼近實際部署情況。相比于AVA2.1,AVA2.2數據源沒有變化,但在標簽文件中添加了2.5%的缺失動作標簽。
相比于傳統(tǒng)的UCF101和HMDB51等數據集,AVA數據集十分具有挑戰(zhàn)性,該數據集的數據量是傳統(tǒng)數據集的數10倍,場景切換十分頻繁,除了相機運動帶來的場景連續(xù)變化,還出現(xiàn)了電影鏡頭切換帶來的場景突變。相比于主流的Kinetics和Youtube-8M等數據集,AVA數據集使用了多人標注,在更加貼近真實場景的同時,增加了對人的檢測和跟蹤,人數增多和遮擋問題也造成了包含單個動作的源數據大幅減少。因此,該數據集識別難度遠超現(xiàn)有的其他主流數據集。在此之前,文獻[8]訓練的模型達到了27.1%的mAP精度(由文獻[30]進行復現(xiàn)和評估),是該數據集上的最高精度。
3.3.1 準確率 準確率為分類正確的樣本數占總樣本的比例,公式為
(14)
式中:A為準確率;m為總樣本數;f(xi)為第i個樣本xi的預測分類結果;yi為xi的實際分類結果;I為判別函數,當樣本xi的分類結果與實際結果yi相同時,I(f(xi)=yi)=1,否則I(f(xi)≠yi)=0。
在UCF-101中使用三折交叉驗證準確率作為評價指標。將數據集平均分成3份,使用其中1份作為測試數據,其余作為訓練數據。在3份數據上重復進行這個訓練測試過程,取最后的測試準確率平均值作為結果。
3.3.2 mAP AP是某一類P-R曲線下的面積,mAP則是所有類別P-R曲線下面積的平均值。P-R曲線是以查全率為橫坐標、查準率為縱坐標構成的曲線。查全率公式為
(15)
式中:R為查全率;T′為真陽性數,表示交并比大于0.5的檢測框數;N′為假陰性數,表示交并比小于0.5的檢測框數。查準率公式為
(16)
式中:P為查準率;F為假陽性數,表示漏檢的真實檢測框的數量。
AVA數據集中存在同一場景多人同時執(zhí)行動作的情況,因此需要目標檢測來區(qū)分每個人對應的動作,使用mAP來衡量實驗結果。
3.4.1 UCF101實驗結果 使用Kinetics-400數據集進行預訓練,在預訓練模型的基礎上對UCF-101數據集的行為識別數據進行訓練建模,對UCF-101的3個split進行測試,與同樣使用3D卷積的C3D[24]方法和同樣使用了雙路徑結構的TSN[17]、Two-stream I3D[7]以及近期的I3D-LSTM[31]、TesNet[32]進行了準確率的對比,結果如表1所示??梢钥闯?相比于主流的行為識別方法,本文在同樣的數據集上取得了更高的測試精度。
表1 UCF101數據集上不同方法的準確率對比
3.4.2 AVA2.2實驗結果 同一視頻片段識別結果對比示例如圖4所示,該視頻片段真實的動作標簽為“站立(stand)”和“演奏樂器(play musical instrument)”?;A模型使用了2幀/s的固定幀率對視頻進行采樣,未加入本文提出的MRTP方法,同樣使用ResNet3D作為骨干網絡。在使用基礎模型和本文提出的MRTP方法對相同輸入進行識別時,基礎模型無法正確地識別出動作類別,識別出的結果為“坐(sit)”,而本文提出的MRTP方法在同樣的輸入數據下相比基礎模型有更準確的識別結果。
在Kinetics-400和Kinetics-600上進行預訓練,得到含有低層基礎特征的預訓練模型,基于預訓練模型對AVA2.2的數據進行訓練建模。在測試集上計算交并比閾值為0.5時的mAP精度,ARCN[33]、I3D w/RPN[34]、I3D Tx HighRes方法在AVA2.1上進行了測試,AVA數據集上的mAP精度結果如表2所示。可以看出,相比于ARCN[33]、I3D w/RPN[34]、I3D Tx HighRes[35]、D3D[36]和X3D[30]等行為識別方法,MRTP取得了更高的測試精度。在網絡深度相同的情況下,MRTP超過了之前效果最好的SlowFast方法,在加深骨干網絡到101層之后,MRTP達到了28.0%的mAP精度,刷新了目前AVA2.2數據集上最高的mAP精度。
3.4.3 ResNet3D骨干網絡實驗結果 為了證明本文MRTP方法的有效性,固定了骨干網絡和預訓練模型,在兩個數據集上對比了添加MRTP方法前后的評價指標,結果如表3所示??梢钥闯?相比于基礎模型,添加了MRTP方法后在不同的數據集和網絡深度都能夠實現(xiàn)精度的提升。
(a)基礎模型識別結果
(b)MRTP識別結果
表2 AVA數據集上不同方法的mAP對比
加入MRTP方法前后,部分類別mAP精度對比見表4。可以看出,在基礎模型中加入本文提出的MRTP方法后,AVA數據集中大部分行為類別的準確率都有了一定程度的提升,特別是“演奏樂器(play musical instrument)”,“射擊(shoot)”以及“游泳(swim)”這3類動作,更是取得了10%以上的提升。原因在于本文使用的時間注意力和動作感知方法都是聚焦于動作的動態(tài)信息。這3類動作都是在視頻畫面中動作變化相對較小的。在所提取的特征中,這類變化較小的動作信息容易被場景、光線、角度變化所干擾,而MRTP在時間維度使用時間注意力聚焦于含有動作變化的視頻幀,在通道維度使用特征差分的動作感知聚焦于含有動作信息的通道。這樣就使得模型所獲取的動態(tài)信息大多來自于動作本身,從而在這些動態(tài)信息不明顯的動作類別上實現(xiàn)mAP精度的提升。
表3 加入MRTP方法前后的對比結果
表4 AVA數據集加入MRTP方法前后的部分類別mAP精度對比
3.4.4 復雜度分析 各方法訓練出的模型復雜度對比見表5。可以看出:本文提出的MRTP方法在使用ResNet3D-50作為骨干網絡時的參數量小于同樣使用3D卷積網絡的I3D-NL方法[37]的,甚至小于使用2D卷積網絡的TSN方法的;同樣使用RTX 3090顯卡進行模型測試,輸入同一個分辨率為640×480像素的測試視頻,MRTP達到了110.24幀/s的處理速度,在所有方法中是最優(yōu)的,雖然使用ResNet3D-101作為骨干網絡時模型參數量較大,但是處理速度依然遠超使用了光流輸入的TSN方法[17]的,也高于使用偽3D卷積的R2+1D[38]方法的。本文方法使用RGB視頻作為輸入,極大地減少了由于計算光流圖帶來的時間和計算成本,并且通過在動作路徑將特征通道數量減少,使得在動作路徑增加的輸入視頻幀沒有帶來更大的計算消耗。
表5 不同方法的模型復雜度對比
針對時空信息分布不均衡以及對長時間跨度信息表征獲取難的問題,本文提出了一種時間-動作感知的多尺度時間序列實時行為識別方法MRTP。本文得出的主要結論如下。
(1)提出的網絡使用雙路徑結構,在不同的時間分辨率上對視頻進行特征提取,相比于只使用固定幀率的網絡,對長時動作能夠更好地聚焦于時序信息。
(2)在低幀率空間路徑中,使用基于特征差分的動作感知尋找并加強通道動作特征,將變化明顯的特征通道作為動作的表征;在高幀率動作路徑中加入通道注意力和時間注意力加強關鍵特征,細化了各個視頻幀的重要性度量。
(3)低幀率空間路徑基于動作路徑中的時間注意力生成的視頻幀權重對輸入視頻進行采樣,相比于現(xiàn)有方法的均勻采樣,能夠提取到識別貢獻更大的視頻幀;在高幀率動作路徑中,基于空間路徑動作感知的權重進行通道篩選,保留了動作信息豐富的特征通道。
(4)本文提出的MRTP方法僅使用RGB幀作為輸入,通過衡量幀權重,在時序維度上獲得了更好的依賴,通過動作感知尋找并加強了通道維度動作特征表征。兩個路徑的信息交互和指導使得整個網絡更加聚焦于動作信息在時間和通道所處的位置。本文方法在公共數據集上表現(xiàn)出良好的識別性能,在AVA2.2數據集上達到了28%的mAP精度,刷新了AVA2.2數據集目前最高的mAP精度。不同環(huán)境的實驗結果也表明了MRTP良好的魯棒性。
(5)在未來的工作中,將從時序特征出發(fā),通過特征差分提取更為有效和顯式的時序信息表征,并繼續(xù)探索雙路徑網絡并行分支互相交互的可能性。