陳 瑩 龔蘇明
(江南大學(xué)輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室 無錫 214122)
在計算機(jī)視覺領(lǐng)域,對人類行為識別的研究既能發(fā)展相關(guān)理論基礎(chǔ)又能擴(kuò)大其工程應(yīng)用范圍。對于理論基礎(chǔ),行為識別領(lǐng)域融合了圖像處理、計算機(jī)視覺、人工智能、人體運(yùn)動學(xué)和生物科學(xué)等多個學(xué)科的知識,對人類行為識別的研究可以促進(jìn)這些學(xué)科的共同進(jìn)步。對于工程應(yīng)用,視頻中的人類行為識別系統(tǒng)有著豐富的應(yīng)用領(lǐng)域和巨大的市場價值,其應(yīng)用領(lǐng)域包括自動駕駛、人機(jī)交互、智能安防監(jiān)控等。
早期的行為識別方法主要依賴較優(yōu)異的人工設(shè)計特征,如密集軌跡特征[1]、視覺增強(qiáng)單詞包法[2]等。得益于神經(jīng)網(wǎng)絡(luò)的發(fā)展,目前基于深度學(xué)習(xí)的行為識別方法已經(jīng)領(lǐng)先于傳統(tǒng)的手工設(shè)計特征的方法。盡管如此,基于深度學(xué)習(xí)的人體行為識別方法依舊存在著難點(diǎn):Karpathy等人[3]率先將神經(jīng)網(wǎng)絡(luò)運(yùn)用于行為識別,其將單張RGB圖作為網(wǎng)絡(luò)的輸入,這只考慮了視頻的空間表觀特征,而忽略了時域上的運(yùn)動信息。Simonyan等人[4]提出了雙流網(wǎng)絡(luò)。該方法使用基于RGB圖片的空間流卷積神經(jīng)網(wǎng)絡(luò)和基于光流圖的時間神經(jīng)網(wǎng)絡(luò)分別提取人類行為的靜態(tài)特征和動態(tài)特征,最后將雙流信息融合進(jìn)行識別。一個視頻通常持續(xù)幾秒至幾十秒,Wang等人[5]提出了TSN結(jié)構(gòu)來處理此問題,其將一個輸入視頻分成K段,然后每個段中隨機(jī)采樣得到一個片段。不同片段的類別得分采用段共識函數(shù)進(jìn)行融合來產(chǎn)生段共識。最后對所有模型的預(yù)測融合產(chǎn)生最終的預(yù)測結(jié)果。借鑒2D卷積神經(jīng)網(wǎng)絡(luò)在靜態(tài)圖像的成功,Ji等人[6]將2D卷積拓展為3D卷積,從而提出了3D-CNN方法來提取視頻中的運(yùn)動信息。但3D-CNN計算參數(shù)太過龐大,難以優(yōu)化。Zhu等人[7]提出了偽雙流結(jié)構(gòu),網(wǎng)絡(luò)采用RGB序列作為輸入,分支1提取表觀信息;分支2則通過圖像重建的方法來獲得運(yùn)動信息,然后將預(yù)測結(jié)果映射到真實(shí)標(biāo)簽上。
上述方法都注重尋找額外的時間維信息,如光流運(yùn)動信息、幀間信息等,而忽略了RGB圖像本身富含著重要且豐富的信息。人類在觀察不同行為時,對整個空間區(qū)域會有不同的關(guān)注度,會更加注意人體進(jìn)行活動的區(qū)域。引入空間注意力機(jī)制有助于關(guān)鍵特征的增強(qiáng),提升網(wǎng)絡(luò)判別性能。Sharma等人[8]首次將注意力機(jī)制引入到行為識別中來提升網(wǎng)絡(luò)在空域上提取關(guān)鍵信息的能力。相比之前的方法,該方法成功提高了識別正確率但結(jié)果依舊較低且只關(guān)注高層特征。胡正平等人[9]將2維通道注意力拓展為3維通道注意力并運(yùn)用到3維網(wǎng)絡(luò)中提升網(wǎng)絡(luò)的特征提取能力。本文在分析現(xiàn)有通道注意力模塊不足的基礎(chǔ)上,提出了改進(jìn)的通道注意力模塊,并將此模塊插入現(xiàn)有基礎(chǔ)網(wǎng)絡(luò)(如ResNet[10]),實(shí)現(xiàn)了識別正確率的提升。
卷積神經(jīng)網(wǎng)絡(luò)中,每一張圖片初始會由RGB三通道表示出來,之后經(jīng)過不同的卷積操作,每一個通道又會生成新的信息。每個通道的特征表示的是該輸入在不同卷積核上的分量,這些分量對關(guān)鍵信息的貢獻(xiàn)有多有少,因此受人類注意力感知機(jī)制啟發(fā),在網(wǎng)絡(luò)中加入通道注意力映射模塊,能有效建模通道間關(guān)系從而提升網(wǎng)絡(luò)特征提取能力。Hu等人[11]提出了輕量級可插入注意力(Squeezeand-Excitation, SE)模塊,其結(jié)構(gòu)如圖1所示。此模塊主要構(gòu)成部分為維度壓縮模塊、激勵、加權(quán)。該模塊首先利用全局平均池化(global average pooling)操作將每個2維的特征通道變成一個實(shí)數(shù),然后利用全連接操作與激活函數(shù)(ReLU, Sigmoid)得到比較全面的通道級別的權(quán)重關(guān)系,最后利用元素乘法將得到的權(quán)重與原始特征進(jìn)行融合。
圖1 SE模塊
行為識別的主體是人,對于人這個目標(biāo)來說,中心位置和邊界位置的權(quán)重應(yīng)該是不同的。SE_Block中采用全局平均池化操作賦予特征圖每個位置相同的權(quán)重,在某種程度上加強(qiáng)了不重要信息,抑制了重要信息。為了賦予特征圖每個位置可學(xué)習(xí)權(quán)重,本文考慮了兩種改進(jìn)的注意力模塊:(1) 矩陣操作的時空交互(Spatial-Temporal, ST)模塊,如圖2(a)所示;(2) 深度可分離卷積的特征提取(Depth-wise-Separable, DS)模塊,如圖2(b)所示。
圖2 改進(jìn)的通道注意力模塊
和SE模塊一樣,本文提出的改進(jìn)注意力模塊是一種即插即用模塊,因此可以直接在現(xiàn)有基礎(chǔ)網(wǎng)絡(luò)中加入改進(jìn)后的注意力模塊構(gòu)成新的識別網(wǎng)絡(luò)。以DS模塊和ResNet為例,圖3給出了網(wǎng)絡(luò)模塊示意圖。圖3(a)為原始ResNet殘差塊,圖3(b)則是加入DS模塊之后的網(wǎng)絡(luò)模塊。
圖3 網(wǎng)絡(luò)模塊示意圖
神經(jīng)網(wǎng)絡(luò)中的特征圖本質(zhì)上是矩陣數(shù)據(jù),那么便可以采用矩陣乘法來對特征圖進(jìn)行處理。在矩陣乘法中需要注意操作數(shù)維度匹配問題,綜合考慮這些因素,圖4給出了ST模塊的詳細(xì)細(xì)節(jié)。從圖中可以知道該模塊主要分為3個部分:輸入維度轉(zhuǎn)換(圖4(b))、時空交互模塊(圖4(c))、激勵加權(quán)(圖4(d))。為了簡化輸入,本文將批尺寸(batchsize)省略了。在圖4中,輸入維度為[C×T×H×W],其中C表示通道數(shù),T表示圖像序列數(shù)值,H表示高度,W表示寬度。若網(wǎng)絡(luò)輸入為單張RGB圖像,則T為1,若輸入為RGB序列,則T為序列數(shù)值。
圖4 ST模塊詳細(xì)示意圖
在輸入維度轉(zhuǎn)換部分,針對模塊輸入[C×T×H×W]通過簡單的矩陣轉(zhuǎn)換操作將其變?yōu)閇CT×HW],這樣便得到了矩陣乘法的第1個操作數(shù)。
時空交互模塊輸入與維度轉(zhuǎn)換模塊相同,此模塊目的是獲得矩陣乘法的第2個操作數(shù),同時進(jìn)行賦權(quán)重操作??紤]到輸入若為RGB序列,那么在維度變換過程中同時提取輸入特征間的相關(guān)信息對整體結(jié)果會有所提升,因此采用Reshape-Conv復(fù)合操作來達(dá)到這一目的。2.1節(jié)已經(jīng)提到,特征圖每個位置的權(quán)重是不同的,于是在此部分結(jié)束處使用Softmax操作對每個位置賦予不同的可學(xué)習(xí)權(quán)重。
將上述兩部分的輸出進(jìn)行矩陣乘法便得到了第3部分的輸入。第3部分采用文獻(xiàn)[11]提出的激勵加權(quán)操作,其作用是將通道權(quán)重通過乘法逐通道加權(quán)到原來的特征上,完成在通道維度上的原始特征重標(biāo)定。
雖然ST模塊能滿足建模通道間關(guān)系這一要求,但其操作復(fù)雜且引入的額外計算參數(shù)過多,因此提出了DS(圖5(a))這一更有效的模塊。DS模塊主要分為兩部分:維度壓縮、激勵加權(quán)。
圖5 DS_Block詳細(xì)示意圖
在維度壓縮部分,利用深度可分離卷積來實(shí)現(xiàn),其詳細(xì)操作見圖5(b)?,F(xiàn)作出如下假設(shè):輸入(Cin×H×W),卷積核(K1×K2),卷積核數(shù)量(Cout),分組數(shù)(G)。對于正常卷積,參數(shù)數(shù)量為:Cin×K1×K2×Cout;采取分組卷積,參數(shù)數(shù)量則為:(1/G)×Cin×K1×K2×Cout,參數(shù)數(shù)量比之前減少了G倍。當(dāng)Cin=Cout=G時,分組卷積就是Depthwise-Conv。更進(jìn)一步,當(dāng)Cin=Cout=G,且K1=H,K2=W時,輸出特征圖尺寸就成了Cout×1×1,實(shí)現(xiàn)了全局池化的功能同時賦予了特征圖每個位置可學(xué)習(xí)的權(quán)重。
在激勵加權(quán)部分(圖5(c)),相比于SE模塊與ST模塊,做出了2個改動。首先,由于BatchNorm[12]操作每次計算均值和方差是在一個批量(batch)上,所以如果批尺寸(batchsize)太小,則計算的均值、方差不足以代表整個數(shù)據(jù)分布,因此采用GroupNorm[13]來替代,這樣便與批尺寸(batchsize)無關(guān),不受其約束。當(dāng)有較好預(yù)訓(xùn)練時,可以考慮不使用。其次,考慮到sigmoid函數(shù)存在兩端飽和,在傳播過程中容易丟棄信息,因此可以考慮將其舍棄。
考慮到可能存在樣本不均衡的情況,本文采用了Lin等人[14]提出的Focal Loss函數(shù)作為網(wǎng)絡(luò)的損失函數(shù)。Focal Loss函數(shù)是交叉熵函數(shù)的改進(jìn)版,其表達(dá)式為
普通的交叉熵對于正樣本而言,輸出概率越大損失越小。對于負(fù)樣本而言,輸出概率越小則損失越小。此時的損失函數(shù)在大量簡單樣本的迭代過程中比較緩慢且可能無法優(yōu)化至最優(yōu)。因此Focal Loss引入了平衡因子α,其主要用來平衡正負(fù)樣本。為了解決簡單與困難樣本的問題,F(xiàn)ocal Loss還引入了另一個平衡因子γ。周波等人[15]在其論文中經(jīng)過實(shí)驗(yàn)分析得出,當(dāng)γ取值范圍在2~5之間時,結(jié)果一樣。因此在本文中,γ取值為2,α取值為0.75。
本文在最常見的行為識別數(shù)據(jù)集UCF101和HMDB51上對本文網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行評估實(shí)驗(yàn),以便將其性能與目前主流的方法進(jìn)行比較。
UCF101數(shù)據(jù)集是從YouTube收集的具有101個動作類別的逼真動作視頻的動作識別數(shù)據(jù)集。101個動作類別中的視頻分為 25 組,每組可包含4~7個動作視頻。來自同一組的視頻可能共享一些共同的功能,例如類似的背景、類似的觀點(diǎn)等。
HMDB51數(shù)據(jù)集內(nèi)容主要來自電影,一小部分來自公共數(shù)據(jù)庫,如YouTube視頻。該數(shù)據(jù)集包含6849個剪輯,分為51個動作類別,每個動作類別至少包含101個剪輯。
本文實(shí)驗(yàn)中,卷積神經(jīng)網(wǎng)絡(luò)基于PyTorch平臺設(shè)計實(shí)現(xiàn)。網(wǎng)絡(luò)訓(xùn)練采用小批量隨機(jī)梯度下降法,動量為 0.9,權(quán)值在每35個epoch衰減一次,衰減率為0.1,損失函數(shù)采用Focal Loss函數(shù),其平衡因子α,γ分別為0.75和2。HMDB51數(shù)據(jù)集的批大小為2,UCF101數(shù)據(jù)集的批大小為4。本文網(wǎng)絡(luò)是在ImageNet數(shù)據(jù)庫上預(yù)訓(xùn)練的Resnet網(wǎng)絡(luò)修改而來,初始學(xué)習(xí)率設(shè)為0.01。
5.3.1 注意力模塊驗(yàn)證
本文重點(diǎn)是注意力機(jī)制,因此本節(jié)對提出的注意力模塊進(jìn)行驗(yàn)證。首先,圖6給出了在ResNet50網(wǎng)絡(luò)中分別加入SE模塊、DS模塊、ST模塊之后的可視化結(jié)果。在圖6中,圖6(a)表示原圖,圖6(b)為ResNet50輸出結(jié)果,圖6(c)表示加SE模塊后的結(jié)果,圖6(d)是加ST模塊后的結(jié)果,圖6(e)為加DS模塊后的結(jié)果。
圖6 不同注意力模塊可視化結(jié)果
從結(jié)果能看到加了注意力模塊后,網(wǎng)絡(luò)能更關(guān)注有效區(qū)域。對于第3行結(jié)果,相較于DS模塊和ST模塊,SE模塊出現(xiàn)了明顯差距,SE模塊關(guān)注的無效背景區(qū)域更大而且并沒有重點(diǎn)關(guān)注動作幅度較大的手臂區(qū)域;在另外3幅圖中,SE模塊關(guān)注的無效區(qū)域也更多一點(diǎn),這表明本文提出的注意力模塊更具優(yōu)勢。
表1給出了3個注意力模塊在幾個主流方法上的實(shí)驗(yàn)結(jié)果。在該系列實(shí)驗(yàn)中,只采用RGB圖作為輸入,預(yù)訓(xùn)練數(shù)據(jù)集均為ImageNet,主干網(wǎng)絡(luò)均為ResNet。從表1結(jié)果可以看出,3個注意力模塊均對網(wǎng)絡(luò)預(yù)測起到了提升作用。例如TSN[5],基礎(chǔ)正確率為85.7%,加了SE模塊后正確率提升了0.4%,而DS模塊則帶來了1.5%的正確率提升。對于MiCT[16],DS模塊提升效果比SE模塊高了0.7%。從整體結(jié)果來看,DS模塊提升最大,ST模塊雖然也有提升,但效果不如DS模塊。
表1 驗(yàn)證注意力模塊
注意力模塊的引入將帶來額外的網(wǎng)絡(luò)參數(shù),對此,本文通過實(shí)驗(yàn)給出了各個模塊對網(wǎng)絡(luò)的具體影響,結(jié)果如表2所示。對于MiCT[16]網(wǎng)絡(luò)來說,SE與DS只引入了0.14 M左右的額外參數(shù),這對整個網(wǎng)絡(luò)而言計算負(fù)擔(dān)并不是很大,而ST模塊則引入了較多的額外參數(shù),這對整個網(wǎng)絡(luò)是不利的。同樣,對于ResNet[10]結(jié)構(gòu),SE與DS引入的額外參數(shù)幾乎一樣,且對網(wǎng)絡(luò)影響不大,而ST模塊依舊引入了大量的額外參數(shù)。綜合上述分析,DS模塊要優(yōu)于ST模塊。
表2 網(wǎng)絡(luò)參數(shù)對比結(jié)果
此外,以ResNet50為Baseline,對增加注意力模塊前后的精度和運(yùn)行時間進(jìn)行了比較,結(jié)果如表3所示。分析比較發(fā)現(xiàn),相比未加入注意力模塊的Baseline,加入SE模塊后精度提升了0.4%,運(yùn)行時間增加了0.27 s,加了DS模塊后精度提升了1.5%,運(yùn)行時間增加了1.27 s,加入ST模塊后精度提升了1.3%,運(yùn)行時間增加了2.46 s,DS模塊無論在準(zhǔn)確率還是速度上都優(yōu)于ST模塊。相比于SE模塊,DS模塊精度提升增加了1.1%,運(yùn)行時間增加了1 s。從上述數(shù)據(jù)可以看出,增加注意力模塊都會在提高精度的同時,降低計算速度,而DS模塊相比于SE模塊,在準(zhǔn)確率上取得了較大的提升,但同時增加了一定的計算損耗,今后工作將圍繞如何更好地平衡速度精度問題進(jìn)一步展開。
表3 注意力模塊的精度及運(yùn)行時間比較
5.3.2 與主流網(wǎng)絡(luò)對比結(jié)果
通過5.3.1節(jié)的驗(yàn)證實(shí)驗(yàn)可以知道本文提出的通道注意力模塊在提升模型識別精度上的有效性,其中DS模塊效果最好。為了與主流網(wǎng)絡(luò)進(jìn)行比較,本文將DS模塊及Focal Loss運(yùn)用到TSN, MiCT兩個基本網(wǎng)絡(luò)中,實(shí)驗(yàn)結(jié)果見表4。
首先,為了驗(yàn)證DS模塊對于RGB圖像能起到提升作用,在表4上半部分系列實(shí)驗(yàn)中,所有網(wǎng)絡(luò)輸入均采用RGB序列。在這些方法中,P3D[17]通過將3D卷積分解成沿空間維度的2D卷積和沿時間維度的1D卷積來構(gòu)建時空信息模型;I3D[18]直接將最新的2D卷積架構(gòu)膨脹成3D卷積,以利用預(yù)訓(xùn)練的2D模型;TS+LSTM[19]利用2D網(wǎng)絡(luò)提取視頻幀的表征信息,緊接著連接一個循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)來學(xué)習(xí)幀與幀之間的運(yùn)動信息。從表4可以看出,加了本文注意力模塊的方法相比于其它方法,獲得了更好的性能。以UCF101結(jié)果為例,DS模塊與Focal Loss給TSN[5]帶去了1.6%的增長,同時在所有方法中表現(xiàn)最優(yōu)。此外,TLE[20]采用精心設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)(BN-Inception);P3D[17]則使用了更大的預(yù)訓(xùn)練數(shù)據(jù)集(Kinetics),它們均比原始的TSN[5],MiCT[16]表現(xiàn)更好,但加入DS模塊后,后者表現(xiàn)更好,這意味著本文注意力模塊對識別結(jié)果有較大的提升。
表4 不同算法在UCF101與HMDB51數(shù)據(jù)集上識別準(zhǔn)確率對比(單流輸入)
為了驗(yàn)證本文注意力模塊對于光流也有效同時方便與其他方法比較,對所有網(wǎng)絡(luò)采用RGB和光流兩種模態(tài)輸入,實(shí)驗(yàn)結(jié)果見表5。以UCF101結(jié)果為例,對于MiCT[16]方法,構(gòu)建了RGB流和光流兩條支流,表5中MiCT-A表示在RGB流引入DS模塊而光流支流中不加入DS模塊,其最終識別結(jié)果為94.2%;MiCT-B表示在RGB流與光流兩流中均引入DS模塊,其最終結(jié)果達(dá)到了94.6%。這表明本文的注意力模塊在光流中依舊能起作用。
表5 不同算法在UCF101與HMDB51數(shù)據(jù)集上識別準(zhǔn)確率對比(雙流輸入)
本文提出了改進(jìn)注意力機(jī)制下的人體行為識別方法。通過分析現(xiàn)有通道注意力機(jī)制的不足,提出了改進(jìn)的注意力模塊。為了驗(yàn)證改進(jìn)注意力模塊的有效性,分別從可視化結(jié)果、網(wǎng)絡(luò)精度提升、額外網(wǎng)絡(luò)參數(shù)等方面進(jìn)行實(shí)驗(yàn)驗(yàn)證。最后將模塊運(yùn)用到現(xiàn)有的基礎(chǔ)網(wǎng)絡(luò)中,在通用數(shù)據(jù)集上與其他主流方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果再次證明了改進(jìn)后的模塊的有效性。今后工作將圍繞如何提高模塊速度上進(jìn)一步展開。一些說明及源碼見:https://github.com/gongsuming/paper1。