王新文,謝林柏,彭 力
物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院),江蘇無(wú)錫 214122
異常行為識(shí)別是視頻行為識(shí)別領(lǐng)域中的重要研究方向,對(duì)社會(huì)安全和發(fā)展具有重要意義。跌倒識(shí)別作為異常行為識(shí)別任務(wù)之一,尤其老人跌倒識(shí)別,是關(guān)愛(ài)弱勢(shì)群體的重要研究課題。根據(jù)聯(lián)合國(guó)2015年世界人口老齡化報(bào)告,在2015年至2030年間,年齡在60歲及以上的人數(shù)預(yù)計(jì)將增長(zhǎng)55%[1]。每年全球估計(jì)有64.6萬(wàn)人死于跌倒,有3 730萬(wàn)人跌倒嚴(yán)重到需要醫(yī)療照顧[2]。隨著計(jì)算機(jī)視覺(jué)技術(shù)和傳感器技術(shù)的發(fā)展,國(guó)內(nèi)外對(duì)老人跌倒檢測(cè)進(jìn)行了研究,并取得了一定的進(jìn)展[3-8]。根據(jù)跌倒檢測(cè)的方式,跌倒檢測(cè)主要分為兩類,基于可穿戴設(shè)備[4,7]和視覺(jué)圖像[5-6,8]的跌倒檢測(cè)方法。基于視覺(jué)圖像技術(shù)是對(duì)攝像設(shè)備采集的視頻或圖像數(shù)據(jù)進(jìn)行跌倒識(shí)別處理。Mirmahboub等人[8]使用背景建模的方法提取運(yùn)動(dòng)目標(biāo)輪廓,然后根據(jù)運(yùn)動(dòng)目標(biāo)輪廓的特征進(jìn)行行為分類。Kong等人[5]通過(guò)深度相機(jī)和Canny濾波器得到二值圖像的輪廓,然后根據(jù)輪廓圖像中的每個(gè)白色像素的切線向量角度判斷動(dòng)作行為是否為跌倒。Min等人[6]使用快速區(qū)域卷積網(wǎng)絡(luò)[9]檢測(cè)人體形狀的縱橫比、質(zhì)心和運(yùn)動(dòng)速度,通過(guò)這些特征隨時(shí)間的變化關(guān)系來(lái)判斷動(dòng)作行為是否為跌倒。
隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像處理[10-11]和視頻分析[12-16]領(lǐng)域取得了很大的突破。與傳統(tǒng)方法相比,深度學(xué)習(xí)有較強(qiáng)的特征學(xué)習(xí)能力。在視頻行為識(shí)別領(lǐng)域中,行為特征提取主要采用兩種思路。第一種是采用二維卷積分別提取RGB和光流圖像的空間特征和時(shí)間特征[12]。第二種是直接使用三維卷積神經(jīng)網(wǎng)絡(luò)提取圖像序列的時(shí)空特征,如三維卷積網(wǎng)絡(luò)(3-dimensional convolutional networks,C3D)[13]、三維殘差網(wǎng)絡(luò)(3D residual networks,3DResnet)[15]、偽三維殘差(pseudo-3D residual networks,P3D)[14]等。Tran等人[13]把二維卷積拓展到三維提取時(shí)空特征,該方法將時(shí)間和空間信息在一個(gè)卷積網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)完成,速度較快。為改善深層結(jié)構(gòu)帶來(lái)的梯度消失問(wèn)題,He等人[11]提出二維殘差網(wǎng)絡(luò)(residual network,Resnet)結(jié)構(gòu),Hara等人[15]把二維Resnet擴(kuò)展到三維得到3D-Resnet,提高了行為識(shí)別效果。Qiu等人[14]在殘差結(jié)構(gòu)基礎(chǔ)上提出一種偽3D的P3D模型,用1×3×3的空間卷積和3×1×1的時(shí)間卷積代替3×3×3的時(shí)空卷積,降低了模型計(jì)算量。Tran等人[16]也提出了一種用空間卷積和時(shí)間卷積代替3×3×3時(shí)空卷積的2+1維殘差網(wǎng)絡(luò)((2+1)D residual network,R(2+1)D)。不同于P3D包含三種殘差模塊,R(2+1)D僅包含一種殘差模塊,并進(jìn)行了超參數(shù)設(shè)計(jì)。
當(dāng)監(jiān)控視角、動(dòng)作姿態(tài)和場(chǎng)景等復(fù)雜時(shí),為了使深度學(xué)習(xí)方法提取更有效的視覺(jué)特征,需要通過(guò)增加卷積網(wǎng)絡(luò)的層數(shù)來(lái)增強(qiáng)模型表征能力。以上3D卷積網(wǎng)絡(luò)方法中,C3D網(wǎng)絡(luò)的參數(shù)較多,不適合進(jìn)行深層的拓展;3D-Resnet是一種殘差結(jié)構(gòu),更適用于模型的深層拓展,但是模型訓(xùn)練時(shí)仍然存在梯度消失問(wèn)題,導(dǎo)致訓(xùn)練損失下降慢、模型過(guò)擬合和測(cè)試識(shí)別率低。
針對(duì)以上問(wèn)題,本文提出了一種雙重殘差網(wǎng)絡(luò)模型(double 3D residual network,D3D)用于跌倒識(shí)別。雙重殘差網(wǎng)絡(luò)模型是通過(guò)在殘差網(wǎng)絡(luò)中嵌套殘差網(wǎng)絡(luò),使得卷積網(wǎng)絡(luò)層數(shù)加深時(shí),誤差反向傳播的梯度能夠傳入淺層卷積,緩解訓(xùn)練時(shí)梯度消失問(wèn)題,并充分融合了淺層和深層視覺(jué)特征。本文將雙重殘差網(wǎng)絡(luò)在UCF101行為識(shí)別數(shù)據(jù)集和多相機(jī)跌倒數(shù)據(jù)集(multiple cameras fall dataset,MCFD)上進(jìn)行了測(cè)試,驗(yàn)證了提出的雙重殘差網(wǎng)絡(luò)對(duì)削弱梯度消失影響的有效性。最后,在MCFD和熱舒夫大學(xué)跌倒數(shù)據(jù)集(UR fall dataset,URFD)上進(jìn)行了跌倒識(shí)別實(shí)驗(yàn),分別達(dá)到了較好的效果,有效地解決了在監(jiān)控視角、人體姿態(tài)和場(chǎng)景等復(fù)雜的情況下跌倒識(shí)別率較低的問(wèn)題。
卷積神經(jīng)網(wǎng)絡(luò)是一種通過(guò)卷積和池化等操作從圖片中提取更為高級(jí)和抽象特征的深度學(xué)習(xí)模型。二維卷積只能夠有效地提取二維圖像的空間特征,而三維卷積可以提取到視頻圖像序列的時(shí)間和空間特征。是第i層的第j特征圖上(x,y,z)位置處的特征值,如式(1)所示:
其中,F(xiàn)為非線性函數(shù),如Relu、Softmax。P、Q、R分別是3D卷積核的高、寬和時(shí)間維度大小,是卷積核點(diǎn)(p,q,r)與上一層第m個(gè)特征圖相連接的權(quán)重,b為卷積核的偏置。
跌倒和蹲下以及坐下等其他日常行為復(fù)雜多樣,并且在不同的攝像角度下呈現(xiàn)不同的姿態(tài),如圖1[17]。傳統(tǒng)跌倒識(shí)別算法[5-6,8]需要對(duì)視頻進(jìn)行大量的預(yù)處理,如背景減除和提取輪廓等,而基于3D卷積網(wǎng)絡(luò)的方法可以通過(guò)訓(xùn)練學(xué)習(xí)模型來(lái)自動(dòng)提取視頻中動(dòng)作的時(shí)空特征,從而對(duì)跌倒、行走和蹲下等其他日常行為以及背景(沒(méi)有動(dòng)作發(fā)生)進(jìn)行分類識(shí)別?;?D卷積網(wǎng)絡(luò)的行為識(shí)別框架如圖2所示。
Fig.1 Types of fall and daily action圖1 跌倒及日常動(dòng)作類型
Fig.2 Fall recognition method based on 3D convolution neural network圖2 基于3D卷積神經(jīng)網(wǎng)絡(luò)的跌倒識(shí)別方法
將幀長(zhǎng)為L(zhǎng)的視頻序列V輸入到3D卷積模型進(jìn)行動(dòng)作識(shí)別。由于3D卷積模型輸入維度固定,因此將視頻序列V劃分為幀長(zhǎng)為l的視頻單元,步長(zhǎng)為δ,則,T為視頻單元總數(shù)。把視頻單元ut輸入到3D卷積網(wǎng)絡(luò)模型輸出yt,經(jīng)Softmax層得出n類行為的概率值
取所有測(cè)試單元的Softmax層輸出的均值作為最終的結(jié)果p。
則p中最大的概率值pmax所對(duì)應(yīng)的類別標(biāo)簽i即為最終的識(shí)別結(jié)果。
當(dāng)人體行為姿態(tài)和場(chǎng)景復(fù)雜時(shí),為了提取更深層次和更抽象的時(shí)空特征,需要增加卷積網(wǎng)絡(luò)的深度,但是三維卷積網(wǎng)絡(luò)深度過(guò)大時(shí),會(huì)產(chǎn)生梯度消失的問(wèn)題。梯度消失是在誤差反向傳播訓(xùn)練模型時(shí),越靠前的卷積層權(quán)重參數(shù)的梯度值越小,使得淺層卷積的權(quán)重參數(shù)無(wú)法進(jìn)行調(diào)整,這會(huì)導(dǎo)致模型訓(xùn)練收斂速度緩慢和模型表征能力變差。為了解決梯度消失問(wèn)題,He等人[11]提出了二維殘差卷積網(wǎng)絡(luò),有效地提高了圖片分類的精度。由于人體行為不僅包含圖像空間信息還包含時(shí)間信息,因此把二維殘差網(wǎng)絡(luò)擴(kuò)展到三維殘差網(wǎng)絡(luò)得到3D-Resnet[15]。本文在進(jìn)行行為識(shí)別實(shí)驗(yàn)時(shí)發(fā)現(xiàn),3D-Resnet網(wǎng)絡(luò)模型仍出現(xiàn)梯度消失、損失收斂速度緩慢和測(cè)試精度差的問(wèn)題。因此為了進(jìn)一步削弱網(wǎng)絡(luò)加深帶來(lái)的梯度消失影響,提高模型質(zhì)量和跌倒識(shí)別精度,本文對(duì)3D-Resnet改進(jìn)如下:
定義一個(gè)3D-Resnet單元為:
其中,x、y為殘差單元的輸入與輸出,F(xiàn)(x,W)是x經(jīng)過(guò)兩個(gè)三維卷積輸出的特征圖。W1、W2為殘差單元卷積核的權(quán)重,σ為Relu激活函數(shù)。為了方便顯示,把卷積中的偏置舍棄。
圖3給出了兩個(gè)相連接的3D-Resnet單元結(jié)構(gòu),輸出為:
其中,F1(x,W)、F2(x,W)是分別經(jīng)過(guò)卷積輸出的特征圖。W1、W2、W3、W4為殘差單元中卷積核的參數(shù)矩陣。3D-Resnet單元內(nèi)部卷積層通道梯度為卷積層輸出對(duì)輸入的導(dǎo)數(shù):
Fig.3 3D-Resnet unit and D3D unit圖3 3D-Resnet和D3D單元
把圖3中兩個(gè)3D-Resnet作為一個(gè)整體模塊。假設(shè)一個(gè)殘差網(wǎng)絡(luò)中共有M殘差模塊相連接,則訓(xùn)練誤差反向傳播時(shí),殘差網(wǎng)絡(luò)的第m(0 ≤m≤M)模塊層的梯度為:
其中,J為誤差函數(shù),Y(m) 為第m模塊層的輸出和m+1層的輸入為第i模塊內(nèi)部卷積層通道梯度。根據(jù)式(8)可知,3D-Resnet第m模塊層的梯度為其后面所有內(nèi)部卷積層通道梯度之積。隨著網(wǎng)絡(luò)的加深會(huì)導(dǎo)致第m層的梯度較小或接近于0,造成梯度消失情形。
為了進(jìn)一步削弱梯度消失的影響,令第m模塊層的梯度為:
式(9)中加入“1”的目的是為了在進(jìn)行誤差反向傳播時(shí),使得模型淺層卷積的梯度不接近于0,從而避免梯度消失,使得淺層卷積參數(shù)得到充分訓(xùn)練。因此對(duì)于每一個(gè)殘差模塊,內(nèi)部卷積層通道梯度為:
則y的網(wǎng)絡(luò)結(jié)構(gòu)形式是在殘差結(jié)構(gòu)中再嵌套兩個(gè)殘差模塊。同時(shí)針對(duì)跌倒視頻數(shù)據(jù)集小的特點(diǎn)并為了防止模型出現(xiàn)過(guò)擬合情形,本文通過(guò)減少殘差模塊內(nèi)部的非線性函數(shù)數(shù)量,提高模型線性表征能力,形成了一種雙重殘差網(wǎng)絡(luò)(D3D)[15],如圖3所示。
對(duì)比反向傳播梯度公式(8)和(9),改進(jìn)的殘差單元D3D內(nèi)嵌套兩個(gè)3D-Resnet殘差單元可以削弱梯度消失影響,從而保證模型參數(shù)充分得到學(xué)習(xí)和訓(xùn)練。同理為了拓展模型的深度,在D3D單元內(nèi)嵌套多個(gè)3D-Resnet殘差單元,如圖4所示。
Fig.4 Improved structure of D3D unit圖4 改進(jìn)結(jié)構(gòu)的D3D單元模塊
考慮到跌倒數(shù)據(jù)集視頻數(shù)量較小,為了便于和3D-Resnet[15]對(duì)比,以3D-Resnet為基準(zhǔn)模型,分別構(gòu)建網(wǎng)絡(luò)層數(shù)為18層和34層的D3D模型。D3D的網(wǎng)絡(luò)層數(shù)、卷積核數(shù)量和大小與文獻(xiàn)[15]里的3D-Resnet相同,但兩者的內(nèi)部結(jié)構(gòu)連接方式不同。
構(gòu)建的D3D網(wǎng)絡(luò)模型結(jié)構(gòu)如下:
(1)輸入層(Input)第一個(gè)卷積層(conv1)和第一個(gè)下采樣層(Max Pool)與3D-Resnet相同。
(2)4個(gè)D3D殘差模塊,每個(gè)D3D殘差模塊包含不同數(shù)量的3D-Resnet單元模塊(Block)。其中每個(gè)3D-Resnet單元包含2個(gè)卷積層,大小為3×3×3,并去除了內(nèi)部的非線性函數(shù)提高線性表征能力。每個(gè)3D卷積核的數(shù)量在4個(gè)模塊中分別為64、128、256、512,與3D-Resnet相同。D3D殘差模塊在模型中用于解決梯度消失問(wèn)題。
(3)第二個(gè)下采樣層(Average Pool)采用3×3×3的均值池化操作進(jìn)行特征融合。
(4)全連接層(FC)和Softmax,其輸出維度大小為動(dòng)作種類的數(shù)量。Softmax分類器接在全連接層后面,輸出每個(gè)視頻所屬行為類別的概率。
圖5給出了D3D網(wǎng)絡(luò)模型結(jié)構(gòu),而對(duì)于18層的D3D網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)D3D模塊包含2個(gè)3D-Resnet單元,即圖5中n1~n4都為2。同時(shí)對(duì)模型進(jìn)行深層拓展,構(gòu)建34層的D3D模型,網(wǎng)絡(luò)層數(shù)與3D-Resnet相同。對(duì)于34層的D3D模型結(jié)構(gòu),同樣包含1個(gè)卷積層、4個(gè)D3D模塊和1個(gè)全連接層,4個(gè)D3D模塊內(nèi)部分別含有3、4、6、3個(gè)3D-Resnet單元。表1給出了18層和34層D3D模型的具體參數(shù)以及輸入輸出大小。為了充分地提取時(shí)序特征,所有的卷積采用的時(shí)間步長(zhǎng)為1。為了降低維度并充分提取空間特征,conv1、conv5_1、conv5_3采用降采樣方法,空間步長(zhǎng)為2,其余卷積的空間步長(zhǎng)為1。由于網(wǎng)絡(luò)模型各層卷積核的數(shù)量和步長(zhǎng)參數(shù)設(shè)置不同,導(dǎo)致基于跨連接方式的殘差結(jié)構(gòu)輸入與輸出特征圖的維度不一致而不能直接相加,采用1×1×1卷積來(lái)調(diào)整維度。
Fig.5 Double residual network structure圖5 雙重殘差網(wǎng)絡(luò)結(jié)構(gòu)
Table 1 Parameters of D3D structure表1 D3D結(jié)構(gòu)參數(shù)
MCFD[17]是由在同一房間位于不同位置和角度的8個(gè)攝像頭拍攝而成,包含24個(gè)場(chǎng)景視頻,幀率120 frame/s。每個(gè)場(chǎng)景包含不同的動(dòng)作,如跌倒、行走、做家務(wù)和下蹲等。根據(jù)實(shí)驗(yàn)需求,將數(shù)據(jù)集中每個(gè)視頻剪切成單一動(dòng)作的視頻片段,時(shí)間長(zhǎng)度為1~3 s,其中跌倒視頻持續(xù)時(shí)間為1 s左右。表2給出了剪切好的視頻數(shù)量,包含8個(gè)類別,分別是背景、行走、跌倒、躺下、坐下或坐起來(lái)、下蹲或匍匐、做家務(wù)、假摔。實(shí)驗(yàn)時(shí)將數(shù)據(jù)集隨機(jī)分成5個(gè)子集,進(jìn)行5折交叉驗(yàn)證。
Table 2 MCFD quantity distribution表2 MCFD數(shù)量分布
URFD[18]包含70個(gè)活動(dòng)(30個(gè)跌倒和40個(gè)日常動(dòng)作),視頻總數(shù)量為100個(gè),幀率30 frame/s,其中跌倒視頻是由兩個(gè)位于不同位置和角度的攝像頭拍攝得來(lái)。將視頻剪切成單一行為的視頻片段,持續(xù)時(shí)間1~4 s。URFD數(shù)據(jù)集的行為分為4個(gè)類別,分別是跌倒、走、坐下或躺下以及其他日常活動(dòng)(彎腰、下蹲和趴著等),對(duì)應(yīng)的視頻數(shù)量如表3所示。
Table 3 URFD quantity distribution表3 URFD數(shù)量分布
UCF101[19]是從YouTube收集的具有101個(gè)類別的動(dòng)作視頻數(shù)據(jù)集,一共包含13 320個(gè)視頻,每個(gè)時(shí)長(zhǎng)2~15 s,幀率25 frame/s。該數(shù)據(jù)集大致可以分為5種動(dòng)作:人與物互動(dòng)、人與人的互動(dòng)、肢體動(dòng)作、演奏樂(lè)曲和體育運(yùn)動(dòng)。把UCF101數(shù)據(jù)集劃分為兩部分,訓(xùn)練集和測(cè)試集,劃分比例為4∶1。此數(shù)據(jù)集在本文僅用于評(píng)估D3D模型緩解梯度消失問(wèn)題的泛化能力。
為了便于模型訓(xùn)練測(cè)試,并減少連續(xù)圖片幀之間的冗余信息,首先以一定的采樣頻率將每個(gè)視頻轉(zhuǎn)為圖片序列。根據(jù)經(jīng)驗(yàn),UCF101視頻每秒間隔采樣5張圖片,URFD視頻每秒間隔采樣6張圖片。由于MCFD數(shù)據(jù)集的原始視頻幀率為120 frame/s,因此每個(gè)視頻轉(zhuǎn)為圖片序列時(shí),每秒間隔采樣25張圖片。訓(xùn)練測(cè)試時(shí),采用數(shù)據(jù)增強(qiáng)技術(shù)[20],把視頻采樣的圖片按照中心剪切,將其裁剪成112×112作為網(wǎng)絡(luò)模型的輸入。模型訓(xùn)練時(shí),從訓(xùn)練集的每個(gè)圖片序列中隨機(jī)選取連續(xù)的16幀圖片序列作為網(wǎng)絡(luò)模型的輸入,則卷積網(wǎng)絡(luò)模型的輸入大小是16×112×112。
采用隨機(jī)梯度下降算法對(duì)模型進(jìn)行優(yōu)化,動(dòng)量參數(shù)為0.9。為了防止模型過(guò)擬合,全連接層在訓(xùn)練時(shí)加入dropout,并設(shè)置dropout為0.5。學(xué)習(xí)速率設(shè)為0.000 1,批量大小為8,迭代次數(shù)(epoch)為50。采用呈正態(tài)分布的隨機(jī)數(shù)作為參數(shù)初始化,標(biāo)準(zhǔn)差為0.01。本文實(shí)驗(yàn)的軟件和硬件環(huán)境為Tensorflow1.8、Ubuntu16.04和GeForce GPU1070Ti。
測(cè)試階段如圖2所示,從每個(gè)測(cè)試視頻中的圖片序列中重疊采樣連續(xù)16幀的圖片作為一個(gè)測(cè)試單元,以14幀為步長(zhǎng)(即相鄰采樣重疊幀數(shù)為2,經(jīng)驗(yàn)值)。將每個(gè)視頻的所有測(cè)試單元輸入到網(wǎng)絡(luò)模型中,計(jì)算所有Softmax輸出的平均值作為該視頻最終的測(cè)試結(jié)果。每個(gè)視頻對(duì)應(yīng)一個(gè)動(dòng)作類別標(biāo)簽,如果測(cè)試得到的視頻分類結(jié)果和標(biāo)簽相同,則該視頻被判斷為正確識(shí)別。
通常跌倒識(shí)別算法使用以下指標(biāo)來(lái)進(jìn)行評(píng)估:
(1)準(zhǔn)確率(accuracy,Ac):跌倒與其他日常行為被正確分類的比例。
(2)靈敏度(sensitivity,Se):跌倒被正確識(shí)別出的比例。
(3)特異性(specificity,Sp):日常行為沒(méi)有被識(shí)別為跌倒的比例。
其中,TP(true positive)代表被正確識(shí)別為跌倒的數(shù)量;FP(false positive)代表其他日常行為被錯(cuò)誤地識(shí)別為跌倒的數(shù)量;TN(true negative)代表其他日常行為沒(méi)有被識(shí)別為跌倒的數(shù)量;FN(false negative)代表跌倒被錯(cuò)誤地識(shí)別為其他行為的數(shù)量。
為了驗(yàn)證本文提出的D3D殘差模型對(duì)緩解梯度消失問(wèn)題的效果,本文采用D3D和3D-Resnet的18層和34層網(wǎng)絡(luò)在數(shù)據(jù)集UCF101和MCFD進(jìn)行訓(xùn)練。不同節(jié)點(diǎn)梯度值變化和模型損失函數(shù)值變化,如圖6、圖7所示。
由于篇幅原因,僅給出了D3D和3D-Resnet模型在卷積淺層conv2_1和深層conv5_1的梯度均值,如圖6所示。從圖6中可以發(fā)現(xiàn),3D-Resnet的conv2_1處的梯度較小接近于0,而D3D模型增加了conv2_1的梯度,并且conv2_1和conv5_1的梯度值差距相比3D-Resnet較小,驗(yàn)證了公式(8)和(9)的理論分析,表明D3D緩解了梯度消失問(wèn)題。從圖7中可以看出,與相同層數(shù)的3D-Resnet相比,D3D結(jié)構(gòu)模型的損失函數(shù)收斂速度較快,表明D3D網(wǎng)絡(luò)模型削弱了誤差反向傳播時(shí)梯度消失問(wèn)題,使得模型參數(shù)得到充分訓(xùn)練而且加快了模型損失收斂速度。
3.5.1 跌倒識(shí)別實(shí)驗(yàn)結(jié)果及分析
將MCFD數(shù)據(jù)集隨機(jī)分成5個(gè)子集,視頻數(shù)量分別是169、169、169、169、168。把其中4個(gè)子集用于訓(xùn)練,剩余1個(gè)作為測(cè)試集,進(jìn)行5折交叉驗(yàn)證(Fold1、Fold2、Fold3、Fold4、Fold5)。
Fig.6 Node gradient value curve圖6 節(jié)點(diǎn)梯度值變化曲線
Fig.7 Iterative training curve of loss function圖7 損失函數(shù)迭代訓(xùn)練曲線
為了充分顯示D3D和3D-Resnet網(wǎng)絡(luò)模型對(duì)跌倒識(shí)別的效果,表4、表5列出了18層的D3D和3DResnet進(jìn)行5折交叉驗(yàn)證的結(jié)果。從表4、表5特異性、靈敏度和準(zhǔn)確率的平均數(shù)據(jù)可以看出,D3D模型對(duì)跌倒識(shí)別的效果均超過(guò)了3D-Resnet,分別提升了0.101、0.167、0.117。說(shuō)明改進(jìn)后的殘差網(wǎng)絡(luò)增強(qiáng)了模型質(zhì)量,降低了跌倒的誤檢率和漏檢率,提高了跌倒的識(shí)別率。MCFD數(shù)據(jù)集的動(dòng)作種類較多且較為復(fù)雜,本文改進(jìn)的殘差網(wǎng)絡(luò)方法在MCFD數(shù)據(jù)集上得到了較大的提升,說(shuō)明D3D模型解決了由于監(jiān)控視角、人體姿態(tài)和場(chǎng)景等復(fù)雜情況下導(dǎo)致模型識(shí)別性能較低的問(wèn)題。
Table 4 Cross-validation results of D3D-18 on MCFD dataset表4 D3D-18在MCFD數(shù)據(jù)集上的交叉驗(yàn)證結(jié)果
Table 5 Cross-validation results of 3D-Resnet-18 on MCFD dataset表5 3D-Resnet-18在MCFD數(shù)據(jù)集上的交叉驗(yàn)證結(jié)果
為了驗(yàn)證D3D模型對(duì)跌倒識(shí)別的泛化能力,本文在URFD跌倒數(shù)據(jù)集上進(jìn)行5折交叉驗(yàn)證。將數(shù)據(jù)集隨機(jī)分成5個(gè)子集,視頻數(shù)量分別是30、30、32、29、32。把其中4個(gè)子集用于訓(xùn)練,剩余1個(gè)作為測(cè)試集。
從表6和表7的數(shù)據(jù)對(duì)比分析看出,相對(duì)于3DResnet模型,D3D模型在跌倒數(shù)據(jù)集上的特異性、靈敏度和準(zhǔn)確率的均值都有較大的提升,由此說(shuō)明本文提出的D3D模型在跌倒識(shí)別中具有良好的泛化性能。
3.5.2 與其他3D卷積算法對(duì)比
為了更為客觀地顯示本文改進(jìn)的3D殘差卷積網(wǎng)絡(luò)模型的性能和在跌倒識(shí)別上的有效性,表8列出了幾種3D卷積網(wǎng)絡(luò)算法在數(shù)據(jù)集MCFD和URFD上的測(cè)試結(jié)果以及Tensorflow模型存儲(chǔ)大小。
Table 6 Cross-validation results of D3D-18 on URFD dataset表6 D3D-18在URFD數(shù)據(jù)集上的交叉驗(yàn)證結(jié)果
Table 7 Cross-validation results of 3D-Resnet-18 on URFD dataset表7 3D-Resnet-18在URFD數(shù)據(jù)集上的交叉驗(yàn)證結(jié)果
對(duì)比兩個(gè)數(shù)據(jù)集的識(shí)別結(jié)果發(fā)現(xiàn),18層和34層D3D模型的評(píng)估指標(biāo)特異性、靈敏度和準(zhǔn)確率結(jié)果均比3D-Resnet優(yōu)越,說(shuō)明改進(jìn)的殘差網(wǎng)絡(luò)的性能得到了提升。同時(shí)發(fā)現(xiàn)如下問(wèn)題:D3D和3D-Resnet的18層與34層在兩個(gè)數(shù)據(jù)集上的識(shí)別效果不一致,34層結(jié)構(gòu)在數(shù)據(jù)集MCFD上的指標(biāo)Se、Ac效果較18層網(wǎng)絡(luò)結(jié)構(gòu)差。這是因?yàn)閿?shù)據(jù)集MCFD的行為種類較多且復(fù)雜,而且模型卷積層數(shù)較深,導(dǎo)致深層模型的卷積參數(shù)不能較好地學(xué)習(xí),造成過(guò)擬合,但是從3DResnet和D3D的34層相對(duì)于18層跌倒評(píng)估指標(biāo)Se、Ac的增量(分別為-0.168、-0.014和-0.065、-0.007)可以看出,D3D-34的增量較大。由此可以說(shuō)明D3D相對(duì)于3D-Resnet性能得到了提升,進(jìn)一步降低了模型過(guò)擬合的影響,提高了跌倒識(shí)別效果。
與其他3D卷積算法C3D、P3D和R(2+1)D進(jìn)行對(duì)比,本文提出的D3D網(wǎng)絡(luò)模型在兩個(gè)數(shù)據(jù)集上的識(shí)別效果較好。P3D和R(2+1)D是簡(jiǎn)化后的63和35層殘差結(jié)構(gòu)模型,兩者都采用1×3×3的空間卷積和3×1×1的時(shí)間卷積代替3×3×3卷積,其優(yōu)點(diǎn)是模型參數(shù)少和存儲(chǔ)較小。與同是殘差結(jié)構(gòu)的P3D和R(2+1)D相比,改進(jìn)后的雙重殘差模型D3D在兩個(gè)跌倒數(shù)據(jù)集上的識(shí)別效果較好。這是因?yàn)楸疚脑跉埐罹W(wǎng)絡(luò)中嵌套殘差網(wǎng)絡(luò),一方面緩解了梯度消失問(wèn)題,另一方面進(jìn)一步融合了淺層和深層的特征。C3D模型和本文提出的D3D模型跌倒識(shí)別效果接近,這是因?yàn)镃3D卷積網(wǎng)絡(luò)由8個(gè)卷積層和2個(gè)全連接層以及池化層構(gòu)成,網(wǎng)絡(luò)層數(shù)較低,因此受梯度消失的影響較小,使得模型參數(shù)得到較好訓(xùn)練。與殘差網(wǎng)絡(luò)模型相比,C3D模型參數(shù)較多,模型存儲(chǔ)量較大。
Table 8 Performance comparison of several convolution models on MCFD and URFD表8 幾種卷積模型在MCFD、URFD上的性能比較
綜合以上分析,本文提出的雙重殘差網(wǎng)絡(luò)D3D改善了相同層數(shù)的3D-Resnet模型出現(xiàn)的過(guò)擬合導(dǎo)致跌倒識(shí)別率低的問(wèn)題,同時(shí)在監(jiān)控視角、人體姿態(tài)和場(chǎng)景等復(fù)雜的情況下D3D殘差網(wǎng)絡(luò)取得了較好的識(shí)別效果,提高了3D卷積網(wǎng)絡(luò)在跌倒識(shí)別中的精度。
針對(duì)直接通過(guò)增加卷積網(wǎng)絡(luò)層數(shù)來(lái)提取有效的視覺(jué)特征容易出現(xiàn)梯度消失和過(guò)擬合,從而導(dǎo)致行為識(shí)別率較低的問(wèn)題,本文提出了一種基于雙重殘差網(wǎng)絡(luò)的跌倒異常行為識(shí)別方法。通過(guò)在殘差網(wǎng)絡(luò)中嵌套殘差網(wǎng)絡(luò),充分融合了淺層和深層視覺(jué)特征,從而能夠進(jìn)一步降低卷積模型訓(xùn)練時(shí)梯度消失和模型過(guò)擬合的影響。在UCF101和MCFD行為數(shù)據(jù)集上進(jìn)行了驗(yàn)證,D3D模型有效地緩解了相同卷積層數(shù)的殘差卷積網(wǎng)絡(luò)模型的梯度消失問(wèn)題。最后,將D3D網(wǎng)絡(luò)模型在MCFD和URFD兩個(gè)跌倒數(shù)據(jù)集上進(jìn)行驗(yàn)證,性能優(yōu)于3D-Resnet、C3D、P3D和R(2+1)D卷積算法,表明了D3D算法對(duì)跌倒識(shí)別的有效性和可行性。
本文通過(guò)分析和改進(jìn)跨連接方式的殘差網(wǎng)絡(luò)來(lái)緩解模型梯度消失問(wèn)題,從而提高了異常行為識(shí)別的準(zhǔn)確率,但是仍然存在不足。因此下一步研究方向,將結(jié)合殘差網(wǎng)絡(luò)并通過(guò)加寬卷積網(wǎng)絡(luò)融合不同多尺度的視頻特征進(jìn)行行為識(shí)別分析。