宣 琦,李甫憲
(浙江工業(yè)大學(xué) 信息工程學(xué)院,浙江 杭州 310023)
隨著多媒體工具的普及與發(fā)展,產(chǎn)生了大量的視頻數(shù)據(jù),對視頻中的人體行為進(jìn)行識別逐漸成為計算機(jī)視覺領(lǐng)域的研究熱點。對人體行為進(jìn)行有效且精準(zhǔn)地識別是許多智能服務(wù)的基礎(chǔ),如智能人機(jī)交互[1]、安防視頻監(jiān)控[2]、視頻檢索[3]等。在行為識別問題中,近年來大多數(shù)方法都采用2D卷積神經(jīng)網(wǎng)絡(luò)的變體——3D卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ),對從視頻中等間隔采樣得到的序列圖像進(jìn)行特征提取而后進(jìn)行分類[4-5]。相對于2D卷積神經(jīng)網(wǎng)絡(luò),3D卷積神經(jīng)網(wǎng)絡(luò)能夠同時提取單張二維圖像中的空間信息以及序列圖像中的時間信息,結(jié)果表明結(jié)合利用時間維度信息能夠有效地提升人體行為識別的準(zhǔn)確率。盡管在許多學(xué)者提出的以不同方式利用時間維度信息方面取得了較大的進(jìn)展[6-8],但仍存在不足的地方,即簡單的3D卷積神經(jīng)網(wǎng)絡(luò)在每一個卷積層進(jìn)行特征提取的時候,都采用具有固定時間長度的3D卷積核進(jìn)行特征計算,使其無法利用視頻中的不同時間長度的時間信息,從而影響了最終模型的分類性能。
為此,筆者提出了多時長特征融合模塊,該模塊能夠有效地提取不同時間長度的動態(tài)行為信息,將這些特征信息融合后進(jìn)行下一步的特征提取。同時,基于該模塊設(shè)計了一個多時長特征融合的密集連接3D卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠有效地對人體行為進(jìn)行識別。此外,提出了一種從2D神經(jīng)網(wǎng)絡(luò)到3D神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)策略,使得模型訓(xùn)練時間大大縮短,同時分類性能取得一定提升。
人體行為識別通常包含兩個步驟:行為表征與行為分類。行為表征通常是將一段人體行為映射到特征空間,而行為分類則是針對映射生成的特征向量進(jìn)行分類。Bobick等[9]提出將人體行為的動態(tài)信息分別映射成運動能力圖特征和運動記錄圖特征,前者用來檢測人體行為發(fā)生的位置,后者用來記錄人體行為發(fā)生的過程,而該方法存在較大缺點,即對于從不同角度下記錄的同種行為會生成差異較大的特征,使得其分類效果較差。
近年來,由于深度學(xué)習(xí)方法在計算機(jī)視覺領(lǐng)域的其他問題中表現(xiàn)優(yōu)異,學(xué)者們逐漸提出基于卷積神經(jīng)網(wǎng)絡(luò)的方法對人體行為進(jìn)行識別。卷積神經(jīng)網(wǎng)絡(luò)作為人工神經(jīng)網(wǎng)絡(luò)的典型代表,通常包含輸入層、卷積層、池化層、全連接層和輸出層,能夠有效實現(xiàn)端到端的圖像分類[10]、圖像分割[11]、目標(biāo)檢測[12]等任務(wù)。常見的卷積神經(jīng)網(wǎng)絡(luò)是二維的,而人體行為是一個動態(tài)的過程,從單張圖像中通常無法判斷行為類別,因此其無法直接應(yīng)用在人體行為識別任務(wù)當(dāng)中。而Ji等[13]首次將深度學(xué)習(xí)方法引入人體行為識別任務(wù)當(dāng)中,提出將2D卷積神經(jīng)網(wǎng)絡(luò)擴(kuò)展至3D卷積神經(jīng)網(wǎng)絡(luò),使得卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)π蛄袌D像進(jìn)行特征提取,該方法預(yù)先獲取每張圖像5 種不同的信息:灰度信息、x方向梯度信息、y方向梯度信息、x方向光流信息、y方向光流信息,隨后分別將其輸入到3D卷積神經(jīng)網(wǎng)絡(luò)得到時間特征與空間特征,然后采用全連接層將特征映射為128 維的向量后進(jìn)行分類。Simonyan等[14]提出雙通道卷積網(wǎng)絡(luò)框架,該框架包含兩個獨立的3D卷積神經(jīng)網(wǎng)絡(luò),分別用于提取人體行為的空間特征和時間特征,其中空間特征主要從單張圖像中提取,而時間特征主要從視頻光流場中提取,將得到的兩種特征以直接相加的方式融合后進(jìn)行分類。Wang等[15]改進(jìn)了Simonyan提出的方法,從單張圖像中提取多尺度卷積特征,并計算以時間特征為中心的卷積響應(yīng)特征,實現(xiàn)空間特征與時間特征的融合。雙通道卷積網(wǎng)絡(luò)框架存在一個較大的缺點,即提取空間特征與時間特征相互獨立,僅在后續(xù)步驟進(jìn)行融合,而空間特征和時間特征存在很大程度的關(guān)聯(lián)性,獨立計算將丟失部分信息。Donahue等[16]提出混合形式網(wǎng)絡(luò)框架來同時進(jìn)行空間特征與時間特征的提取,該框架包括卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò),使用卷積神經(jīng)網(wǎng)絡(luò)對單張圖像提取空間特征后將其輸入循環(huán)神經(jīng)網(wǎng)絡(luò)提取時間特征,有效地實現(xiàn)空間特征與時間特征的共同提取。然而,以上幾種方法在提取時間特征都采用具有固定維度的卷積核,使得其無法兼顧提取長時間時長、中等時間時長、短時間時長的時間特征,使得在大型人體行為識別數(shù)據(jù)集上的分類性能較差。
3D卷積操作由2D卷積操作擴(kuò)展得到,能夠有效計算多張序列圖像之間的特征以獲取時間信息,如圖1所示。
圖1 不同的卷積方式Fig.1 Different convolution methods
在常規(guī)的2D卷積神經(jīng)網(wǎng)絡(luò)中,2D卷積操作主要用于提取單張?zhí)卣鲌D內(nèi)的區(qū)域空間特征。假設(shè)單張圖像I∈RH×W,卷積核W大小為S×S,則對該圖像做2D卷積特征提取得到特征圖f為
(1)
式中:f(x,y)為特征圖f在位置(x,y)的值;w(Δx,Δy)為卷積核W在位置(Δx,Δy)的值;v(x+Δx,y+Δy)為圖像I在位置(x+Δx,y+Δy)的值。而在3D卷積操作中,需要將多張圖像堆疊成長方體后進(jìn)行計算。假設(shè)視頻中連續(xù)多張圖像組成的長方體數(shù)據(jù)I∈RH×W×F,3D卷積核W大小為S×S×T,則對該長方體數(shù)據(jù)做3D卷積計算得到特征長方體數(shù)據(jù)f為
(2)
式中:f(x,y,t)為特征長方體數(shù)據(jù)f在位置(x,y,t)的值;w(Δx,Δy,Δt)為3D卷積核W在位置(Δx,Δy,Δt)的值;v(x+Δx,y+Δy,t+Δt)為堆疊圖像長方體I中第t+Δt張圖像在位置(x+Δx,y+Δy)的值。圖1中3D卷積計算的時間方向維度T設(shè)定為3。
常見3D卷積神經(jīng)網(wǎng)絡(luò)在某一卷積層內(nèi)都使用大小統(tǒng)一的卷積核來進(jìn)行特征提取,然而這種設(shè)定無法有效提取時間跨度不同的動態(tài)行為特征。為此,筆者提出了多時長特征融合模塊,該模塊由多個互相獨立的3D卷積計算、融合計算與平均池化計算所組成,其中每一個3D卷積計算都使用了不同時間跨度的3D卷積核,如圖2所示。
圖2 多時長特征融合模塊Fig.2 Multiple duration fusion block
對于輸入數(shù)據(jù)x∈RH×W×F,在經(jīng)過K個分別獨立的3D卷積核Wi計算后分別產(chǎn)生對應(yīng)的特征長方體數(shù)據(jù)fi為
fi=Gconv(x,Wi)
(3)
式中:Gconv為3D卷積計算的函數(shù);x為輸入數(shù)據(jù);Wi為第i個3D卷積核的參數(shù)矩陣,且i∈K。由于3D卷積核有不同的時間跨度,則產(chǎn)生的特征長方體的時間維度大小也不同,即f1∈RH×W×T1,f2∈RH×W×T2,fK∈RH×W×TK。將具有不同時間跨度信息的多個特征長方體數(shù)據(jù)fi做融合得到融合特征fv為
fv=Gconcat(f1,f2,…,fi)
(4)
式中:Gconcat為拼接操作;得到的融合特征fv∈RH×W×(T1+T2+…+TK)。為減小特征長方體的大小,需要對融合特征進(jìn)行平均池化計算得到favg為
(5)
式中:n為池化區(qū)域中元素個數(shù);fv(xi,yi,ti)為特征長方體fv在位置(xi,yi,ti)的值。為增加特征的表達(dá)能力,引入非線性激活函數(shù)得到多時長特征融合模塊的最終輸出x′為
x′=GReLU(favg)
(6)
式中GReLU為ReLU函數(shù)。通過該模塊計算能夠有效地提取不同時間跨度下的動態(tài)行為特征,將更多的行為類別信息進(jìn)行映射。
訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)過程中,常采用反向傳播算法對網(wǎng)絡(luò)參數(shù)進(jìn)行更新,從而會出現(xiàn)梯度消失等問題,導(dǎo)致網(wǎng)絡(luò)模型分類性能下降[17-19]。因此,在設(shè)計網(wǎng)絡(luò)模型時候,引入了密集連接模塊以減輕梯度消失現(xiàn)象,同時更加有效地復(fù)用訓(xùn)練過程中產(chǎn)生的行為特征信息,其結(jié)構(gòu)如圖3所示。
圖3 密集連接模塊Fig.3 Densely connected block
對于輸入數(shù)據(jù)x∈RH×W×F,該模塊共產(chǎn)生i個中間特征長方體數(shù)據(jù)fi為
fconv=Gconv(xi-1,Wi)
(7)
fi=GReLU(fconv)
(8)
式中:Gconv為3D卷積計算的函數(shù);xi-1為第i個中間層的輸入數(shù)據(jù);Wi為第i層的卷積核參數(shù)矩陣;GReLU為ReLU函數(shù)。其中密集連接得到的中間層輸入數(shù)據(jù)xi為
xi=Gconcat(x,f1,f2,…,fi-1)
(9)
式中Gconcat為拼接操作。該模塊最終得到的特征長方體數(shù)據(jù)x′為
x′=H(Gconcat(x,f1,f2,…,fi))
(10)
式中H為密集連接模塊計算的函數(shù)。
多時長特征融合密集連接網(wǎng)絡(luò)模型采用多時長特征融合模塊與密集連接模塊交替連接的方式,具體結(jié)構(gòu)如圖4所示。其中k為待分類視頻類別數(shù)。
圖4 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.4 The model architecture
對人體行為視頻進(jìn)行等間隔采樣得到16 張序列圖像作為網(wǎng)絡(luò)的輸入數(shù)據(jù),每張圖像大小為224×224。首先使用卷積核大小為7×7×3的3D卷積計算將序列圖像數(shù)據(jù)映射至特征空間,再對得到的特征長方體進(jìn)行最大池化計算;緊接著使用4 個密集連接模塊和3 個多時長特征融合模塊交替連接對其進(jìn)行動態(tài)行為特征的提取,其中多時長特征融合模塊使用3 個獨立的3D卷積計算,3D卷積核大小分別為1×1×1,3×3×3,3×3×4,密集連接模塊分別設(shè)定6,16,24,16 個中間層;經(jīng)過多個特征融合模塊與密集連接模塊的計算得到最終特征fu。對特征fu進(jìn)行分類,得到概率向量y為
y=Gs(fu,θs)
(11)
式中:Gs為softmax函數(shù);θs為參數(shù)矩陣。其中yi∈(0,1]表示該視頻屬于第i種行為的概率。
直接在目標(biāo)數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)模型將消耗大量的時間,同時容易產(chǎn)生過擬合現(xiàn)象使得模型分類性能降低。將已經(jīng)嚴(yán)格訓(xùn)練過的2D卷積神經(jīng)網(wǎng)絡(luò)與參數(shù)隨機(jī)初始化的3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行混合訓(xùn)練,可以有效地實現(xiàn)遷移學(xué)習(xí),節(jié)約大量訓(xùn)練時間,同時提升模型分類性能。如圖5所示,假定一個已經(jīng)在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的2D卷積神經(jīng)網(wǎng)絡(luò)M和一個未經(jīng)過訓(xùn)練的3D卷積神經(jīng)網(wǎng)絡(luò)N,利用序列幀圖像與視頻片段之間的對應(yīng)關(guān)系,同時使用這兩種數(shù)據(jù)對網(wǎng)絡(luò)M與N進(jìn)行訓(xùn)練。
圖5 遷移學(xué)習(xí)示意圖Fig.5 Schematric illustration of transfer learning
(12)
(13)
(14)
(15)
式中Gconcat為拼接操作。對特征fmn進(jìn)行二分類得到匹配特征向量y為
y=Gs(Gfc(fmn,θfc))
(16)
實驗在搭載NVIDIA GeForce GTX 1080 Ti圖像處理器、Intel(R) Core(TM) i7-6700 CPU的服務(wù)器下運行。模型代碼基于Tensorflow框架編寫實現(xiàn)。模型訓(xùn)練采用Adam優(yōu)化算法,初始學(xué)習(xí)率設(shè)定為0.000 1,每訓(xùn)練20 個輪次后縮小到1/10,從而使得其能夠更好地收斂。損失函數(shù)Ltotal為
(17)
實驗數(shù)據(jù)采用人類行為視頻UCF101數(shù)據(jù)集與HMDB51數(shù)據(jù)集。UCF101主要取自Youtube視頻網(wǎng)站,共包含101 種不同的行為類別;HMDB51主要取自電影片段,共包含51 種不同的行為類別;具體信息如表1所示。
表1 數(shù)據(jù)集信息Table 1 The details of datasets
由于數(shù)據(jù)集中行為視頻每秒傳輸幀數(shù)值(FPS)為30,直接對這種視頻進(jìn)行連續(xù)圖像提取(即采樣間隔為1),將無法包含完整的行為信息,使得分類效果變差。為此,筆者對比了不同的采樣間隔下該網(wǎng)絡(luò)模型的分類性能,如表2所示。
表2 不同采樣間隔下的分類準(zhǔn)確率Table 2 Classification accuracy with different sampling intervals
通過實驗結(jié)果發(fā)現(xiàn):采樣間隔為16時模型能夠獲得最好的分類性能。在后續(xù)實驗當(dāng)中,都采用這種設(shè)定。為了驗證多時長特征融合模塊和密集連接模塊的有效性,對比了不同網(wǎng)絡(luò)模型結(jié)構(gòu)下的分類性能。為了保證網(wǎng)絡(luò)模型的一致性,不采用筆者設(shè)計的模塊,將采用常規(guī)3D卷積計算替代,實驗結(jié)果如表3所示。由表3可以看出:相比常規(guī)3D卷積計算,多時長特征融合模塊能夠更加有效提取動態(tài)行為特征,顯著提升模型分類性能,分類準(zhǔn)確率提升了18%左右。此外,密集連接模塊同樣使得模型分類性小幅度提升了3%左右。
表3 不同網(wǎng)絡(luò)模型結(jié)構(gòu)的分類準(zhǔn)確率Table 3 Classification accuracy with different models
此外,為了評估遷移學(xué)習(xí)策略對模型分類性能的影響,對比實驗結(jié)果如表4所示。相比采用隨機(jī)初始化參數(shù)的方法,采用遷移學(xué)習(xí)策略對模型進(jìn)行預(yù)訓(xùn)練能夠提升模型分類性能。
表4 不同參數(shù)初始化策略的分類準(zhǔn)確率
對于視頻中的人體行為識別任務(wù),針對現(xiàn)有3D卷積神經(jīng)網(wǎng)絡(luò)無法有效同時提取具有不同時間長度的動態(tài)行為特征的問題,筆者提出了多時長特征融合模塊,該模塊由多個具有不同時間維度的3D卷積計算組成,有效地提取了長時間時長、中等時間時長、短時間時長的多種動態(tài)行為特征,并結(jié)合密集連接模塊提出了基于多時長特征融合模塊的密集連接卷積神經(jīng)網(wǎng)絡(luò),端到端地實現(xiàn)了對人體行為的準(zhǔn)確識別。同時,提出了一種3D卷積神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練策略,有效地實現(xiàn)了從2D到3D到卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí),顯著縮短模型訓(xùn)練時間,提升模型分類準(zhǔn)確率。