国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于骨骼及表觀特征融合的動作識別方法

2022-03-01 01:31:20王洪雁袁海
通信學(xué)報(bào) 2022年1期
關(guān)鍵詞:表觀時(shí)空準(zhǔn)確率

王洪雁,袁海

(1.浙江理工大學(xué)信息學(xué)院,浙江 杭州 310018;2.大連大學(xué)信息工程學(xué)院,遼寧 大連 116622)

0 引言

作為機(jī)器視覺領(lǐng)域的研究熱點(diǎn),人體動作識別在智能監(jiān)控、人機(jī)交互、自動駕駛等領(lǐng)域發(fā)揮重要作用[1]?;诒碛^序列的傳統(tǒng)識別模型通過獲取顏色紋理等來識別動作,此類方法易受光照、尺度、背景變化等因素影響,且由于深度信息缺失,因此識別性能較差[2]。針對此問題,Liu 等[3-4]提出基于深度圖的識別方法,深度圖所含深度信息對光照、背景變化具有較好穩(wěn)健性,識別性能較好,但其信息冗余導(dǎo)致計(jì)算復(fù)雜,從而限制了此類方法的實(shí)際應(yīng)用。

為解決上述問題,Shotton 等[5-7]提出低冗余高可分關(guān)節(jié)信息表示可顯著提升動作識別性能。Vemulapalli 等[8]利用3D 關(guān)節(jié)坐標(biāo)分析運(yùn)動模式識別動作,所采用的運(yùn)動信息提取方法簡單高效,然而該方法忽略了關(guān)節(jié)間空域關(guān)系從而有限提升準(zhǔn)確率。針對此問題,Ahmed 等[9]采用相對距離及角度編碼關(guān)節(jié)改善準(zhǔn)確率,然而其僅依賴手工特征的識別結(jié)果難以令人滿意。隨著人工智能快速發(fā)展,深度學(xué)習(xí)模型利用非線性神經(jīng)網(wǎng)絡(luò)抽取深層次動作特征提升準(zhǔn)確率[10]。其中,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)優(yōu)良的空域特征提取能力,Banerjee 等[11]將骨骼序列編碼為偽圖像,并基于CNN 抽取其深度特征以改進(jìn)識別效果,然而所得編碼圖像缺失時(shí)域信息,導(dǎo)致準(zhǔn)確率提升有限。針對此問題,具有良好時(shí)間建模能力的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)可以較高準(zhǔn)確率識別動作,然而RNN 所固有的梯度彌散缺陷使其難以學(xué)習(xí)較長歷史信息[12]。基于此,長短期記憶(LSTM,long short-term memory)模型重構(gòu)RNN 時(shí)序信息傳遞結(jié)構(gòu)以獲得優(yōu)異的長時(shí)依賴關(guān)系刻畫能力,可有效應(yīng)用于動作識別[13-15]。Kwak等[16]將關(guān)節(jié)時(shí)序編碼為圖像序列,利用LSTM 模型抽取其時(shí)域特征改善識別性能。然而,上述基于深度網(wǎng)絡(luò)的識別方法逐幀處理各幅圖像,缺乏對關(guān)鍵圖像及部位的挖掘,而動作序列通常存在較大信息冗余,使相關(guān)方法實(shí)時(shí)性較差且所獲取高可分信息匱乏,導(dǎo)致準(zhǔn)確率提升有限。基于此,Song 等[17]提出基于時(shí)空注意力機(jī)制的LSTM(STA-LSTM,spatio-temporal attention LSTM)模型,采用時(shí)空注意力機(jī)制抽取骨骼特征,并基于重要性賦予關(guān)節(jié)相應(yīng)權(quán)重以增強(qiáng)關(guān)鍵圖像及部位影響,從而提升動作準(zhǔn)確率。然而,該方法僅考慮關(guān)節(jié)坐標(biāo)而忽略空域拓?fù)湫畔ⅲ瑴?zhǔn)確率改善有限。此外,上述基于3D骨骼的相關(guān)算法僅考慮骨骼深度信息,忽略了有效表達(dá)動作的外觀特征。

針對上述問題,本文提出基于骨骼關(guān)節(jié)及表觀特征融合的雙流網(wǎng)絡(luò)動作識別方法。所提方法首先基于關(guān)節(jié)空間拓?fù)錁?gòu)建空域約束;其次將所得空域約束及關(guān)節(jié)坐標(biāo)轉(zhuǎn)化為偽圖像,并輸入具有時(shí)空注意力機(jī)制的LSTM 模型以降低信息冗余,同時(shí)增強(qiáng)關(guān)鍵圖像及關(guān)節(jié)的重要性提升關(guān)節(jié)深度特征表達(dá)有效性;再次基于時(shí)空注意力機(jī)制引入熱圖,定位圖像重要關(guān)節(jié)點(diǎn)以提取其周圍顏色紋理等外觀特征;最后基于雙流網(wǎng)絡(luò)逐幀融合表觀及關(guān)節(jié)深度特征序列以實(shí)現(xiàn)復(fù)雜場景下人體動作有效識別。

基于以上所述,本文貢獻(xiàn)可簡述如下。

1)利用所構(gòu)建關(guān)節(jié)相對距離與高相關(guān)度關(guān)節(jié)對等空域約束有效補(bǔ)充骨骼時(shí)空動態(tài)信息,并將其轉(zhuǎn)化為偽圖像。

2)構(gòu)建具有時(shí)空注意力機(jī)制的LSTM 模型,采用時(shí)序權(quán)重差值法去除相似幀,基于熱圖定位序列關(guān)鍵幀及關(guān)節(jié),并以所得關(guān)鍵關(guān)節(jié)作為表觀特征提取區(qū)域。

3)基于雙流網(wǎng)絡(luò)逐幀融合手工表觀特征及LSTM 所得深度骨骼特征序列以有效識別相似動作。

1 基于關(guān)節(jié)及外觀特征融合的識別模型

所提動作識別模型主要包含如下4 個部分:首先,構(gòu)建關(guān)節(jié)空間約束,即關(guān)節(jié)相對距離與高相關(guān)度關(guān)節(jié)對;其次,構(gòu)建具有時(shí)空注意力機(jī)制的LSTM模型;再次,基于熱圖定位重要關(guān)節(jié)并抽取附近顏色紋理等外觀特征;最后,基于雙流網(wǎng)絡(luò)逐幀融合骨骼序列所得關(guān)節(jié)特征及表觀序列所得外觀特征以提升動作準(zhǔn)確率。模型如圖1 所示。

圖1 基于深度關(guān)節(jié)特征及手工外觀特征融合的動作識別模型

1.1 關(guān)節(jié)空間約束

1.1.1 關(guān)節(jié)坐標(biāo)

關(guān)節(jié)信息可有效表征人體姿態(tài),從而可作為動作高可分表達(dá),通過將動態(tài)關(guān)節(jié)信息輸入深度網(wǎng)絡(luò)以獲取關(guān)節(jié)序列的深度有效特征,從而提升動作準(zhǔn)確率。人體結(jié)構(gòu)可分為左臂、右臂、軀干、左腿、右腿 5 個部分,對于全部關(guān)節(jié)點(diǎn)K(本文中K=25),Xt,k=(xt,k,yt,k,zt,k)表示第t(t=1,2,…,T)幀內(nèi)關(guān)節(jié)k的坐標(biāo),則所有關(guān)節(jié)坐標(biāo)可表示為Xt=(Xt,1,…,Xt,K),其中T為序列幀數(shù)。

1.1.2 相對距離約束

眾所周知,無論是靜止還是運(yùn)動狀態(tài),關(guān)節(jié)間始終具有特定范圍內(nèi)距離關(guān)系,因此關(guān)節(jié)相對距離可有效表示人體局部感興趣區(qū)域,并且對視角及光照變化具有較強(qiáng)穩(wěn)健性。此外,運(yùn)動過程中髖關(guān)節(jié)Xt,1=(x1,y1,z1)變化幅度較小,其余關(guān)節(jié)均圍繞髖關(guān)節(jié)做定向圓周運(yùn)動,因此,可將其取為坐標(biāo)中心。由此,髖關(guān)節(jié)與其他關(guān)節(jié)之間的歐氏距離可表示為

其中,j=2,3,…,K。

為避免個體間身高差異,歸一化dt,j_1可得如下相對距離

其中,dt,21_1為鎖骨及髖關(guān)節(jié)的距離。由此,動作序列中第t幀內(nèi)關(guān)節(jié)相對距離可表示為

1.1.3 高相關(guān)度關(guān)節(jié)對約束

人體骨骼中任意關(guān)節(jié)間皆存在一定數(shù)量骨骼邊,某關(guān)節(jié)的運(yùn)動將導(dǎo)致相鄰關(guān)節(jié)同步運(yùn)動,兩關(guān)節(jié)間相連邊越少,表明關(guān)節(jié)間距離較近,協(xié)作關(guān)系更密切、相關(guān)度更高?;诖擞^察,本文只選取相關(guān)度較高的一、二(即只有一或兩條邊相連關(guān)節(jié)對)級相關(guān)信息構(gòu)建關(guān)節(jié)空域相關(guān)約束以降低計(jì)算復(fù)雜度,其中關(guān)節(jié)相對位置為

其中,Ct,i_j表示第t幀內(nèi)第j個關(guān)節(jié)相對第i個關(guān)節(jié)的坐標(biāo),即二者空域拓?fù)湫畔ⅰ?/p>

綜上所述,一、二級相關(guān)信息分別為

其中,h_k、m_n、o_p等表示僅由一條邊相連的關(guān)節(jié)對,q_r、u_v、x_y等表示由兩條邊相連的關(guān)節(jié)對。

綜上所述,有效表征某動作的關(guān)節(jié)序列時(shí)空信息可表示為

通常認(rèn)為,整個動作期間可有效表達(dá)動作的圖像幀及關(guān)節(jié)更具重要性[18],以序列“跳躍”為例,相較于直立幀及軀干,跳躍幀及四肢更具指標(biāo)意義。基于此,本節(jié)提出如圖2 所示的基于時(shí)空注意力的LSTM 模型以加權(quán)各幀及部位從而體現(xiàn)其重要性。

圖2 基于時(shí)空注意力的LSTM 模型

1.2 具有空間約束的時(shí)空注意力LSTM 模型

1.2.1 空間注意力

如上所述,視頻幀及各關(guān)節(jié)對動作識別影響不同,基于此事實(shí),本節(jié)基于空間注意力機(jī)制加權(quán)各關(guān)節(jié)以反映其重要程度從而增強(qiáng)動作可區(qū)分度。設(shè)時(shí)刻t所有關(guān)節(jié)權(quán)重為αt=(αt,1,…,αt,l),l為輸入特征ft維數(shù),對應(yīng)得分st=(st,1,…,st,l)可表示為

其中,為避免前向傳播數(shù)值上溢問題采用tanh 激活函數(shù),wf、wh分別為輸入數(shù)據(jù)ft及上層LSTM 隱藏變量ht-1的加權(quán)矢量,b為偏差矢量。

基于上述關(guān)節(jié)得分,經(jīng)由Softmax 計(jì)算,可得如下可有效表征關(guān)節(jié)空域重要性的權(quán)值

由此可得如下輸入主LSTM 模型的空域加權(quán)特征

其中,⊙為Hadamard 積,表示矢量相應(yīng)元素相乘。

1.2.2 時(shí)間注意力

動作識別過程中視頻序列存在大量冗余幀,針對此問題,本節(jié)利用時(shí)間注意力機(jī)制加權(quán)序列以突出關(guān)鍵幀同時(shí)降低信息冗余度從而提升動作準(zhǔn)確率。各幀權(quán)重βt可表示為

1.3 手工表觀特征構(gòu)造

動作識別中顏色紋理特征可直觀反映姿態(tài)變化,由此可將包含豐富顏色及紋理信息的表觀序列作為基于骨骼信息動作識別的有效補(bǔ)充。若對整幅圖像提取外觀特征,則難以直觀反映動作細(xì)微差異?;诖耍竟?jié)利用熱圖定位關(guān)鍵幀及關(guān)節(jié)(如圖3 所示),并在其附近半徑為R的圓形區(qū)域提取顏色紋理直方圖,作為關(guān)節(jié)深度特征的有效補(bǔ)充。

由于關(guān)鍵幀通常處于穩(wěn)態(tài)且相鄰幀差異較小,因此應(yīng)避免提取大量相似幀以降低計(jì)算復(fù)雜度同時(shí)改善準(zhǔn)確率。本節(jié)以各幀時(shí)間注意力權(quán)重差值為區(qū)分準(zhǔn)則來劃分相似幀片段,并提取片段中權(quán)重最大幀來表征相似幀片段。注意到,相鄰幀越相似、權(quán)重值越相近,則其差值越小?;诖?,權(quán)重為βi(1≤i≤T)的序列幀i與參考幀(參考幀為各片段首幀,1≤i*≤N)之間的權(quán)重差值為βc,即

基于此,令δ為相似幀權(quán)重差值閾值,當(dāng)βc<δ時(shí),表明后續(xù)幀和當(dāng)前參考幀類似;當(dāng)βc≥δ時(shí),幀i*為新參考幀,最終提取所有參考幀N構(gòu)成關(guān)鍵幀。

需要注意的是,關(guān)鍵幀內(nèi)不同權(quán)重關(guān)節(jié)可影響相似動作判別,由各關(guān)節(jié)權(quán)重所得熱圖則表征了重要關(guān)節(jié)運(yùn)動趨勢,如圖3 所示相似動作中具有代表性的三幀,其手部周圍區(qū)域體現(xiàn)相似動作細(xì)微差異?;诖?,通過提取手部顏色紋理特征,并加以關(guān)節(jié)點(diǎn)權(quán)重以增強(qiáng)外觀信息,從而可有效獲取手物信息以作為關(guān)節(jié)特征的有力補(bǔ)充。

圖3 基于熱點(diǎn)定位重要關(guān)節(jié)

1.3.1 LBP 紋理特征

由于局部二值模式(LBP,local binary pattern)具有灰度不變及旋轉(zhuǎn)不變性[19],光照變化穩(wěn)健性較好,因而在圖像識別領(lǐng)域得到廣泛應(yīng)用[20-21]?;诖?,重要關(guān)節(jié)附近紋理可基于LBP 表達(dá)。設(shè)nc為中心點(diǎn)灰度值,n0~n7為鄰域點(diǎn)灰度值。以nc為閾值依次比較鄰域像素點(diǎn),若像素灰度值大于閾值將該點(diǎn)標(biāo)記為1,否則為0。將結(jié)果采用順時(shí)針構(gòu)成二進(jìn)制序列,作為該點(diǎn)LBP 值,計(jì)算式為[18]

1.3.2 HSV 顏色直方圖

顏色直方圖可有效描述各色彩比例,HSV 顏色模型將亮度色度分離,因而不易受光照變化等因素干擾[22]?;诖?,本節(jié)基于HSV 顏色空間模型構(gòu)建顏色特征。HSV 空間中色調(diào)H 較飽和度S 及亮度V 敏感,故賦予H 通道更多量化級別。此外,量化間隔越大則信息損失越多;間隔越小則信息損失越少,同時(shí)數(shù)據(jù)量顯著增加,進(jìn)而導(dǎo)致計(jì)算復(fù)雜度上升。由此,本節(jié)基于文獻(xiàn)[23]構(gòu)造如下量化等級

將上述非均勻量化HSV 合成如下矢量G

其中,Qs、Qv分別為S、V分量量化級數(shù)。

由式(14)~式(16)可知,HSV 分別量化為8、3和3 級,則Qs=3,Qv=3。同時(shí)HSV 分別取最大值7、2 和2,則G取值范圍為[0,71]。基于此,可將HSV 空間表述為包含顏色級別為72 的特征向量,統(tǒng)計(jì)該顏色級別頻率以獲得HSV 顏色直方圖,則為各子塊對應(yīng)直方圖向量。

熱圖所指示關(guān)鍵關(guān)節(jié)周圍提取顏色紋理分布直方圖,為保證局部區(qū)域性質(zhì),可先拼接單個圓形區(qū)域,再將表觀序列圓形區(qū)域乘以對應(yīng)關(guān)節(jié)點(diǎn)權(quán)重依次連接可獲得參考幀顏色紋理特征(如圖4 所示)

圖4 顏色紋理直方圖融合

1.4 基于深度關(guān)節(jié)與表觀特征雙流融合

綜上所述,通過具有空間約束的時(shí)空注意力機(jī)制LSTM 模型(STA-SC-LSTM),提取運(yùn)動變化關(guān)鍵關(guān)節(jié)特征,基于熱圖定位表觀關(guān)鍵幀及重要關(guān)節(jié)以手動提取重要關(guān)節(jié)周圍顏色紋理等表觀細(xì)節(jié)信息,所提動作識別模型基于雙流網(wǎng)絡(luò)融合所得深度關(guān)節(jié)及表觀特征。

根據(jù)表觀及深度特征特殊對應(yīng)關(guān)系,本節(jié)采用更利于提升準(zhǔn)確率的逐幀融合再序列融合方法,以突出局部重要部位互補(bǔ)性。根據(jù)上述權(quán)重差值βc判定各段相似幀的參考幀,同時(shí)記錄各段相似幀數(shù)量(1≤i*≤N),則表觀序列參考幀位置i*對應(yīng)由 LSTM 模型提取關(guān)節(jié)深度特征序列位置(當(dāng)i*為1 時(shí),φ0=1)?;诖耍瑓⒖紟碛^特征與對應(yīng)深度關(guān)節(jié)特征以權(quán)重占比λ2與λ1融合。其中,λ1+λ2=1(二者可經(jīng)由實(shí)驗(yàn)確定,具體參見實(shí)驗(yàn)部分),對應(yīng)幀融合特征可表示為

同時(shí),無參考幀對應(yīng)的深度特征補(bǔ)0 以降低系統(tǒng)復(fù)雜性。最后序列融合特征(其中,i=1,…,C,C表示動作類別數(shù))映射至全連接層并基于Softmax 函數(shù)識別動作

為提升訓(xùn)練效果,構(gòu)造如下正則化損失函數(shù)

其中,第一項(xiàng)基于交叉熵y=(y1,…,yC)T為真實(shí)動作,為第i類動作預(yù)測概率;第二項(xiàng)為模型參數(shù)正則化約束以抑制過擬合,λ為損失函數(shù)平衡因子,W為模型參數(shù)。

2 實(shí)驗(yàn)結(jié)果及分析

基于NTU RGB-D、Northwestern-UCLA、SBU Interaction Dataset 這3 個公開動作識別數(shù)據(jù)集,本節(jié)通過與基于手工特征、CNN、RNN 及LSTM 等模型的動作識別方法在視角變化、主體多樣化及同類動作多樣化等方面對比,驗(yàn)證所提方法有效性。

2.1 實(shí)驗(yàn)環(huán)境

本節(jié)實(shí)驗(yàn)基于TensorFlow 深度學(xué)習(xí)框架,處理器Intel Core(TM)i7-7700,主頻3.60 GHz,32 GB內(nèi)存,NVIDIA GeForce GTX 1070。選取4 層LSTM作為主網(wǎng)絡(luò),時(shí)空注意力分別基于單個LSTM,每層神經(jīng)元個數(shù)均為128,表觀特征提取半徑為5 像素點(diǎn),初始學(xué)習(xí)率為0.002,每經(jīng)過30 次訓(xùn)練學(xué)習(xí)率縮小至10%,采用動量為0.8 的隨機(jī)梯度下降法作為優(yōu)化函數(shù)Adam,平衡因子λ=10-5,批處理大小為64,Dropout=0.45 以防止過擬合。

2.2 NTU RGB-D 數(shù)據(jù)集

NTU RGB-D 數(shù)據(jù)集為目前包含受測對象和行為類別數(shù)目最大的RGB-D 行為數(shù)據(jù)集[24]。該數(shù)據(jù)集由40 位受測對象通過3 臺Kinect V2 攝像機(jī)從-45°、0°、45°這3 個不同角度采集60 類動作,56 880 個視頻片段與三維骨骼數(shù)據(jù)序列。其中包括個體日常動作(如跌倒、嘔吐、鼓掌等)、人物交互(如梳頭、撕紙、踢東西等)、雙人交互(如推、拍后背、手指對方等),以及諸如喝水與刷牙、閱讀與寫作、握手與傳遞物品等具有細(xì)微差別的動作。

交叉主體(cross subject)實(shí)驗(yàn)將40 類受測對象分為訓(xùn)練及測試集[24],訓(xùn)練集編號為1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38,其余為測試集,訓(xùn)練集和測試集分別為40 320 和16 560 個樣本;交叉視圖(cross view)實(shí)驗(yàn)選取第一臺攝像機(jī)采集樣本為測試集,其余為訓(xùn)練集,訓(xùn)練集和測試集分別為 37 920和18 960 個樣本。

本節(jié)實(shí)驗(yàn)交叉主體與交叉視圖迭代訓(xùn)練中訓(xùn)練集與測試集對應(yīng)的準(zhǔn)確率與損失曲線如圖5 所示。由圖5 可知,模型準(zhǔn)確率隨著訓(xùn)練次數(shù)增加而增加,迭代至220 次時(shí)準(zhǔn)確率趨于穩(wěn)定且損失值收斂。此外,基于NTU RGB-D 數(shù)據(jù)集可得交叉主體及交叉視角準(zhǔn)確率分別為88.73%和90.01%,其識別結(jié)果可由圖6 所示的混淆矩陣表征。

圖5 NTU RGB-D 數(shù)據(jù)集中訓(xùn)練集與測試集對應(yīng)的準(zhǔn)確率與損失曲線

圖6 中各列及各行分別為所提方法預(yù)測結(jié)果及對應(yīng)真實(shí)類別,主對角線元素表示該動作準(zhǔn)確率,其余為識別錯誤率。由圖6 可知,交互相似動作,即喝水、刷牙與打電話,閱讀、寫作、鍵盤打字與玩手機(jī)的交叉主體及交叉視角準(zhǔn)確率分別不低于84%和86%;雙人交互相似行為,即握手和傳遞物品的交叉主體及交叉視角準(zhǔn)確率分別不低于80%和88%。此外,其他動作交叉主體及交叉視角準(zhǔn)確率分別為85%~92%和87%~94%。由此可知,主題多樣化及視角變化等復(fù)雜場景下所提方法具有較高準(zhǔn)確率。

圖6 基于NTU RGB-D 數(shù)據(jù)集所得混淆矩陣

基于NTU RGB-D 數(shù)據(jù)集,所提方法及主流方法所得交叉主體及交叉視角準(zhǔn)確率如表1 所示。

由表1 可知,基于可變參數(shù)關(guān)聯(lián)骨架的LARP(lie group action recognition point)[8]與基于3D 幾何關(guān)系的Dynamic skeletons[25]沒有考慮深度時(shí)空信息,因而準(zhǔn)確率不高;Multi temporal 3D CNN 將關(guān)節(jié)映射至3D 空間并通過3D CNN 提取深度特征,從而可有效提升準(zhǔn)確率至66.85%、72.58%[26],然而其沒有考慮骨骼識別時(shí)域信息;ST-LSTM+Trust Gate[27]與Two-Stream RNN[28]分別以相關(guān)關(guān)節(jié)作為雙流RNN 輸入以充分利用時(shí)空信息,然而輸入時(shí)序存在較大信息冗余,從而影響識別效果;基于此,STA-LSTM[17]基于時(shí)空注意力機(jī)制以識別關(guān)鍵幀及關(guān)節(jié),從而將準(zhǔn)確率提升至73.40%、81.20%,然而該方法只考慮關(guān)節(jié)特征而忽略拓?fù)潢P(guān)系,故準(zhǔn)確率改善有限;DS-LSTM(denoising sparse LSTM)[15]考慮幀間幀內(nèi)關(guān)節(jié)鏈接相對運(yùn)動趨勢,F(xiàn)uzzy fusion+CNN[11]編碼關(guān)節(jié)間空間關(guān)系以提升準(zhǔn)確率,然而二者缺乏外觀特征,從而限制識別能力;所提方法將空間約束輸入具有時(shí)空注意力機(jī)制的LSTM 模型以抽取深度時(shí)空特征,并基于熱圖抽取表觀特征為有效補(bǔ)充,從而提升準(zhǔn)確率至88.73%、90.01%,這表明復(fù)雜場景下所提方法具有較高準(zhǔn)確率。

表1 NTU RGB-D 數(shù)據(jù)集各方法所得交叉主體及交叉視角準(zhǔn)確率

2.3 Northwestern-UCLA 數(shù)據(jù)集

Northwestern-UCLA 數(shù)據(jù)集由1 494 個序列組成,由10 名實(shí)驗(yàn)者完成如下10 類動作[30]:單手撿、雙手撿、扔垃圾、行走、坐下、站起、穿、脫、扔、拿。該數(shù)據(jù)集由3 個不同視角采集獲得,前2 個攝像機(jī)所得樣本為訓(xùn)練數(shù)據(jù),其余樣本為測試數(shù)據(jù)。

如表2 所示,基于骨骼特征手工提取的HOJ3D(histograms of 3D joint)方法[31]假設(shè)骨骼垂直于地面以投影聚類判別動作,忽略骨骼空域關(guān)系,從而導(dǎo)致準(zhǔn)確率較低;LARP[8]則基于可變參數(shù)關(guān)聯(lián)骨架表征動作,因而性能優(yōu)于HOJ3D,但是其忽略骨骼動態(tài)信息;HBRNN-L(hierarchically bidirectional RNN LSTM)[32]考慮關(guān)節(jié)時(shí)域特征,從而獲得78.52%的準(zhǔn)確率,但是其缺乏外觀信息難以區(qū)分相似動作;Multi-view dynamics+CNN[33]提取多視角動態(tài)圖像以應(yīng)對空域變化,考慮外觀特征,但是其缺乏時(shí)序特征;所提方法基于具有時(shí)空注意力機(jī)制的LSTM 模型以有效表征重要關(guān)節(jié)動態(tài)信息,并基于熱圖抽取顏色紋理信息,從而獲得動作高可分表達(dá),進(jìn)而將準(zhǔn)確率提升至85.73%,分別比HBRNN-L和Multi-view dynamics+CNN 提升7.21%和1.53%,這表明不同視角及主題多樣化條件下所提方法具有較高識別能力。

表2 Northwestern-UCLA 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

2.4 SBU Interaction 數(shù)據(jù)集

SBU Interaction 數(shù)據(jù)集包含如下8 類交互動作[34]:靠近、遠(yuǎn)離、踢、推、握手、擁抱、遞書本、拳擊,共分為5 個交叉集,選取其中4 個作為訓(xùn)練集,其余為測試集,對各交叉集驗(yàn)證結(jié)果取平均值作為最終準(zhǔn)確率。

所提方法及對比方法所得準(zhǔn)確率如表3 所示。由表3 可知,所提方法準(zhǔn)確率可達(dá)95.46%,分別比STA-LSTM[17]、ST-LSTM+Trust Gate[27]、Two-Stream RNN[28]提升3.96%、2.16%、0.66%,這表明小樣本數(shù)據(jù)集下所提方法準(zhǔn)確率較高。

表3 SBU Interaction Dataset 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

2.5 消融實(shí)驗(yàn)

為進(jìn)一步驗(yàn)證所提方法有效性,基于上述數(shù)據(jù)集研究所提方法中具有空間約束時(shí)空注意力LSTM 模型及特征融合模塊對準(zhǔn)確率影響,所得結(jié)果如表4 所示。由表4 可知,相較于僅基于時(shí)空注意力的STA-LSTM 模型,STA-SC-LSTM 所得準(zhǔn)確率分別提升2.43%、1.52%、0.83%,表明所構(gòu)造空域約束條件可提升動作識別能力;相較于僅基于關(guān)節(jié)時(shí)序特征的STA-SC-LSTM,雙流融合所得準(zhǔn)確率分別提升12.90%、7.29%、8.15%及3.13%,表明表觀特征可作為骨骼深度特征的有效補(bǔ)充以彌補(bǔ)基于關(guān)節(jié)時(shí)空特征的相關(guān)模型對相似動作較低區(qū)分度的缺陷。

表4 不同模型實(shí)驗(yàn)結(jié)果

2.6 雙流融合權(quán)重設(shè)置

融合深度關(guān)節(jié)及手工表觀特征可有效提升相似動作判別性能,然而融合權(quán)重難以由理論確定。由此,本節(jié)基于上述數(shù)據(jù)集,通過實(shí)驗(yàn)確定融合權(quán)值。具體地,(λ1,λ2)可依次設(shè)為(0.4,0.6)、(0.5,0.5)、(0.6,0.4)和(0.7,0.3)。由表5 可知,權(quán)重由(0.4,0.6)變化至(0.5,0.5),即關(guān)節(jié)特征權(quán)重占比增加則準(zhǔn)確率提升,表明識別結(jié)果主要依賴于關(guān)節(jié)特征。當(dāng)權(quán)重由(0.6,0.4)變化至(0.7,0.3),準(zhǔn)確率降低,表明外觀特征缺乏,從而影響相似動作區(qū)分。由上述分析可知,權(quán)重為(0.6,0.4)時(shí)識別精確度最高,由此設(shè)定λ1=0.6、λ2=0.4為融合權(quán)重。

表5 不同融合權(quán)重比的實(shí)驗(yàn)結(jié)果

3 結(jié)束語

本文提出基于關(guān)節(jié)序列深度時(shí)空及表觀特征融合的動作識別方法。所提方法首先構(gòu)建關(guān)節(jié)空域拓?fù)浼s束以增強(qiáng)關(guān)節(jié)特征表達(dá)有效性,其次構(gòu)造具有時(shí)空注意力的LSTM 以定位高可分重要幀及關(guān)節(jié),再次基于熱圖提取關(guān)鍵關(guān)節(jié)周圍顏色紋理表觀特征,最后逐幀融合關(guān)節(jié)深度及外觀特征以獲得高可分的動作有效表達(dá)。實(shí)驗(yàn)結(jié)果表明,在NTU RGB-D、Northwestern-UCLA 以及SBU Interaction Dataset 數(shù)據(jù)集上,所提方法的準(zhǔn)確率分別為88.73%、90.01%,85.73%和95.46%,明顯高于現(xiàn)有主流識別方法,表明視角變化、噪聲、主體多樣化等復(fù)雜場景下所提方法的有效性。需要注意的是,由實(shí)驗(yàn)可知,相較于交叉主體,交叉視圖準(zhǔn)確率改善幅度較小,基于此,未來研究將著重關(guān)注多視角場景下表觀及關(guān)節(jié)高可分穩(wěn)健特征抽取及有效融合方法。

猜你喜歡
表觀時(shí)空準(zhǔn)確率
跨越時(shí)空的相遇
綠盲蝽為害與赤霞珠葡萄防御互作中的表觀響應(yīng)
河北果樹(2021年4期)2021-12-02 01:14:50
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
鏡中的時(shí)空穿梭
鋼結(jié)構(gòu)表觀裂紋監(jiān)測技術(shù)對比與展望
上海公路(2019年3期)2019-11-25 07:39:28
例析對高中表觀遺傳學(xué)的認(rèn)識
玩一次時(shí)空大“穿越”
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
华安县| 浑源县| 重庆市| 松江区| 云和县| 海门市| 当涂县| 阿瓦提县| 康马县| 林西县| 南岸区| 南京市| 湖南省| 佛学| 博兴县| 宜兰县| 麻阳| 金湖县| 辽宁省| 平和县| 古蔺县| 万盛区| 永城市| 麻城市| 侯马市| 广灵县| 册亨县| 宜兴市| 东乡族自治县| 临漳县| 金昌市| 安乡县| 贵德县| 井冈山市| 霍林郭勒市| 房山区| 焦作市| 巫溪县| 和硕县| 棋牌| 萝北县|