基于深度學(xué)習(xí)與運(yùn)動(dòng)信息的動(dòng)作識(shí)別算法

2018-08-17 03:18:48吳志攀鄭中韋

計(jì)算機(jī)工程與設(shè)計(jì) 2018年8期

吳志攀，鄭中韋

(1.惠州學(xué)院信息科學(xué)技術(shù)學(xué)院，廣東惠州 516007；2.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院，廣東廣州 510006)

0 引言

不同應(yīng)用領(lǐng)域?qū)τ谌梭w動(dòng)作識(shí)別的要求存在差異[1,2]，例如：機(jī)器人需要識(shí)別用戶的動(dòng)作作為指令，而此類動(dòng)作一般為小幅度的手勢(shì)動(dòng)作[3]；視頻網(wǎng)站需要識(shí)別人體的不同動(dòng)作與行為，從而有效地將視頻進(jìn)行分類，便于視頻的管理，而此類視頻一般分辨率較低，并且數(shù)據(jù)量極大[4]。在未來的應(yīng)用場(chǎng)景中，需要?jiǎng)幼髯R(shí)別技術(shù)既具有識(shí)別小幅度動(dòng)作的能力，并且能夠高效地處理大規(guī)模數(shù)據(jù)集，然而，目前的諸多動(dòng)作識(shí)別技術(shù)均無(wú)法同時(shí)滿足上述兩個(gè)要求，這為動(dòng)作識(shí)別技術(shù)的實(shí)用性帶來了不利的影響。

根據(jù)目前的研究成果，可看出基于多特征融合的人體動(dòng)作識(shí)別算法優(yōu)于單一特征的算法，因此多特征融合的動(dòng)作識(shí)別算法成為了當(dāng)前的主流。文獻(xiàn)[5]設(shè)計(jì)了基于深度圖像的動(dòng)作識(shí)別方法，該算法對(duì)深度圖像在3個(gè)投影面系中進(jìn)行投影，對(duì)3個(gè)投影圖分別提取Gabor特征，使用這些特征訓(xùn)練極限學(xué)習(xí)機(jī)分類器，該算法的計(jì)算效率較高，但對(duì)于小幅度的動(dòng)作識(shí)別性能不理想；文獻(xiàn)[6]提出了一種可以完成在線人體動(dòng)作識(shí)別的時(shí)序深度置信網(wǎng)絡(luò)，該模型解決了目前深度置信網(wǎng)絡(luò)模型僅能識(shí)別靜態(tài)圖像的問題，但該模型訓(xùn)練過程的處理時(shí)間較長(zhǎng)，影響了該算法對(duì)于大規(guī)模數(shù)據(jù)集的應(yīng)用性能。除了對(duì)于大規(guī)模數(shù)據(jù)集的時(shí)間效率問題。人體小幅度的動(dòng)作識(shí)別則是另一個(gè)難點(diǎn)，文獻(xiàn)[6]提出一種基于加速度軌跡圖像的手勢(shì)NMF(非負(fù)矩陣分解)特征提取與識(shí)別方法，該算法通過建立加速度手勢(shì)軌跡圖，將未知手勢(shì)軌跡特征轉(zhuǎn)換為低維子特征序列，提高了手勢(shì)識(shí)別的準(zhǔn)確率與時(shí)間效率；文獻(xiàn)[7]通過非對(duì)稱的系統(tǒng)偏差建模人體動(dòng)作信息，該算法引入姿勢(shì)標(biāo)簽機(jī)制進(jìn)一步提高了小幅度動(dòng)作的識(shí)別性能。算法[6,7]對(duì)小幅度動(dòng)作(例如：手勢(shì)、微動(dòng)作等)均實(shí)現(xiàn)了較高的識(shí)別準(zhǔn)確率，但是需要分析的特征量較大，難以應(yīng)用于大規(guī)模數(shù)據(jù)集。

為了同時(shí)滿足大規(guī)模數(shù)據(jù)集與小幅度動(dòng)作的識(shí)別，設(shè)計(jì)了基于多特征融合與運(yùn)動(dòng)信息的人體動(dòng)作識(shí)別算法。該算法學(xué)習(xí)了手工特征與深度學(xué)習(xí)特征，手工特征采用了改進(jìn)的密集軌跡(IDT)[8]，深度學(xué)習(xí)特征采用了基于運(yùn)動(dòng)信息的卷積神經(jīng)網(wǎng)絡(luò)[9]，利用核支持向量機(jī)的泛化能力將兩種特征進(jìn)行融合。核極限學(xué)習(xí)機(jī)包含兩層：第一層計(jì)算兩個(gè)特征核，并將兩個(gè)特征核融合獲得一個(gè)融合特征核，最終輸出3種特征核的預(yù)測(cè)分?jǐn)?shù)；第二層訓(xùn)練分類器，將所有的預(yù)測(cè)得分映射至最終的動(dòng)作分類。該算法的手工特征與深度學(xué)習(xí)特征具有互補(bǔ)性，從不同的角度描述了視頻的人體動(dòng)作信息。

1 相關(guān)知識(shí)

1.1 極限學(xué)習(xí)機(jī)模型

假設(shè){xi,ti},i=1,…,n為訓(xùn)練數(shù)據(jù)集，其中n是訓(xùn)練樣本的數(shù)量，xi∈Rd是提取的特征，即IDT(密集軌跡特征)與DLF(基于運(yùn)動(dòng)信息的深度學(xué)習(xí)特征)，ti∈Rq是真實(shí)動(dòng)作類，其中q為動(dòng)作的分類總數(shù)量。假設(shè)隱藏層的激活函數(shù)為G(x)，隱藏層共有L個(gè)神經(jīng)元。將隨機(jī)生成的第j個(gè)隱藏層權(quán)重與偏差分別表示為aj與bj，將連接第j個(gè)隱藏層節(jié)點(diǎn)與輸出節(jié)點(diǎn)的權(quán)重向量表示為βj∈Rq。極限學(xué)習(xí)機(jī)的學(xué)習(xí)目標(biāo)是最小化訓(xùn)練誤差，并且最小化輸出權(quán)重的泛數(shù)

(1)

式中：H={Hij}={G(aj,bj,xi)}，i=1,…,n，j=1,…,L，H是隱藏層的輸出矩陣，Hij是第j個(gè)隱藏層節(jié)點(diǎn)的輸出，xi表示一個(gè)隱藏層節(jié)點(diǎn)。式(1)中β=[β1,β2,βL,]T，H(xi)=[h1(xi),h2(xi),hL(xi)]，T=[t1,t2,tn]T。

根據(jù)文獻(xiàn)[10]，可通過下式求解式(1)

β=H+T

(2)

式中：H+是矩陣H的Moore-Penrose廣義逆矩陣。原始的極限學(xué)習(xí)機(jī)理論是為了解決單隱藏層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)的問題，后來許多研究人員將極限學(xué)習(xí)機(jī)推廣至非神經(jīng)網(wǎng)絡(luò)問題中，并且證明了極限學(xué)習(xí)機(jī)的約束條件少于支持向量機(jī)與最小二乘支持向量機(jī)[11]，這是本文采用極限學(xué)習(xí)機(jī)的動(dòng)機(jī)。

極限學(xué)習(xí)機(jī)的主約束優(yōu)化問題定義為下式

約束條件為

(3)

式中：i=[ξi,1,ξi,2,…,ξi,q]T是q個(gè)輸出節(jié)點(diǎn)對(duì)于樣本xi的訓(xùn)練誤差向量，C是正則化參數(shù)。根據(jù)庫(kù)恩塔克條件[12]，可將對(duì)偶優(yōu)化問題轉(zhuǎn)化為下式

(4)

式中：α=(I/C+HHT)-1T是拉格朗日乘子矩陣。

最終的輸出權(quán)重β計(jì)算為下式

β=HT(I/C+HHT)-1T

(5)

因此可將極限學(xué)習(xí)機(jī)輸出函數(shù)定義為下式

f(xj)=h(xi)β=h(xi)HT(I/C+HHT)-1T,j=1,…,n

(6)

1.2 核極限學(xué)習(xí)機(jī)

與支持向量機(jī)相似，可將核函數(shù)集成至極限學(xué)習(xí)機(jī)中。參考文獻(xiàn)[12]，給定一個(gè)滿足Mercer定理的核函數(shù)K，可將核極限學(xué)習(xí)機(jī)的輸出寫為以下的兼容公式

(7)

式中：j=1,…,n。在該處理之后，極限學(xué)習(xí)機(jī)的分類器輸出一個(gè)得分，該得分表示一個(gè)視頻屬于一個(gè)動(dòng)作分類的顯著性。

2 本文算法

2.1 雙層核極限學(xué)習(xí)機(jī)

本文核極限學(xué)習(xí)機(jī)的框架分為兩層，如圖1所示。第一層將深度學(xué)習(xí)的特征核與手工特征核進(jìn)行特征融合處理，第一層的輸出是3個(gè)特征核的預(yù)測(cè)得分。第二層訓(xùn)練出分類器，該分類器將所有的預(yù)測(cè)得分映射到最終的動(dòng)作分類中。

2.1.1 特征核的融合

將不同的特征核融合，能夠包含視頻不同維度的特征。因此，本文結(jié)合了手工特征核與深度學(xué)習(xí)特征核，并且采用L2泛數(shù)計(jì)算線性核?？蓪⒁粋€(gè)線性核矩陣定義為下式

K(xi,xj)=h(xi)hT(xj)

(8)

式中：K(xi,xj)是K的第(i,j)個(gè)元素。通過計(jì)算不同特征源的核矩陣平均值，計(jì)算融合的特征核。特征核融合之后，分別獲得3個(gè)核：深度學(xué)習(xí)特征核、手工特征核、融合特征核。然后，采用核極限學(xué)習(xí)機(jī)計(jì)算不同特征核的預(yù)測(cè)得分。

圖1 本文核極限學(xué)習(xí)機(jī)的框架

2.1.2 預(yù)測(cè)得分的融合

假設(shè)可將預(yù)測(cè)得分合并計(jì)算出視頻序列最終的動(dòng)作分類，因此，本文3個(gè)輸出得分向量融合為一個(gè)得分向量s。假設(shè){si,ti},i=1,…,n表示訓(xùn)練數(shù)據(jù)集，其中n為訓(xùn)練樣本的數(shù)量，si∈R3q為合并的預(yù)測(cè)得分，q是動(dòng)作分類的總數(shù)量，ti∈R3q是真實(shí)的動(dòng)作分類。考慮將第一層的輸出作為輸入第二層的特征，本文使用L1泛數(shù)對(duì)第一層的輸出做正則化處理，之后，本文獲得每個(gè)視頻的一個(gè)特征向量，在第二層計(jì)算核矩陣。因?yàn)閺较蚧瘮?shù)核對(duì)于L1范數(shù)特征的性能優(yōu)于線性核，所以本文采用徑向基函數(shù)核，徑向基函數(shù)核(RBF)定義為下式

(9)

式中：si與sj分別是視頻i與j的預(yù)測(cè)得分。注意K(si,sj)是RBF核K的第(i,j)個(gè)元素，參考文獻(xiàn)[13]的結(jié)論，非線性核對(duì)于基于直方圖特征的性能優(yōu)于線性核。

2.2 算法的實(shí)現(xiàn)方案

(10)

式中：nd設(shè)為4，表示共有4個(gè)不同的描述符，即軌跡線、HOG(描述靜態(tài)特征)，HOF(像素絕對(duì)運(yùn)動(dòng)特征)，MBH(像素相對(duì)運(yùn)動(dòng)特征)。

對(duì)于深度學(xué)習(xí)特征，本文設(shè)計(jì)了基于運(yùn)動(dòng)信息與卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)特征，在下文詳細(xì)描述。使用文獻(xiàn)[15]方案將深度學(xué)習(xí)特征組織成一個(gè)4096維的視頻描述符，并對(duì)該描述符使用L2范數(shù)處理。然后，計(jì)算深度學(xué)習(xí)特征的線性核，建立深度學(xué)習(xí)特征的核矩陣Kd。

在核融合過程中，通過計(jì)算深度學(xué)習(xí)特征Kd與手工特征Kh的平均值獲得核融合的結(jié)果：K=(Kd+Kh)/2。

最終，本文的核極限學(xué)習(xí)機(jī)使用3個(gè)特征核對(duì)輸入的視頻流進(jìn)行動(dòng)作分類處理，3個(gè)特征核分別為：手工特征核、深度學(xué)習(xí)特征核與融合核。

采用開源的核極限學(xué)習(xí)機(jī)代碼庫(kù)實(shí)現(xiàn)本文的兩層核極限學(xué)習(xí)機(jī)算法，在通過網(wǎng)格搜索獲得核極限學(xué)習(xí)機(jī)參數(shù)之后，將另外兩個(gè)未知參數(shù)分別設(shè)為：C=1，σ=10[16]。

3 基于運(yùn)動(dòng)信息的深度學(xué)習(xí)特征

本文針對(duì)人體動(dòng)作識(shí)別提出了一個(gè)運(yùn)動(dòng)信息表示方案，強(qiáng)調(diào)了不同時(shí)域運(yùn)動(dòng)信息的顯著性，從而提高視頻序列中小幅度動(dòng)作的判別性。該模塊的總體架構(gòu)如圖2所示。

圖2 基于運(yùn)動(dòng)信息的深度學(xué)習(xí)流程

3.1 針對(duì)動(dòng)作識(shí)別的運(yùn)動(dòng)表示方案

時(shí)間模板能夠提取一個(gè)圖像幀的全部運(yùn)動(dòng)序列，因此本文的運(yùn)動(dòng)識(shí)別采用時(shí)間模板。時(shí)間模板的計(jì)算方法是統(tǒng)計(jì)視頻運(yùn)動(dòng)信息的加權(quán)調(diào)和值，并且采用視頻幀之間的差異計(jì)算幀之間的運(yùn)動(dòng)信息，時(shí)間模板的計(jì)算公式如下

(11)

其中：n表示視頻幀的數(shù)量，m(i)表示第i個(gè)幀的運(yùn)動(dòng)信息，wi表示第i個(gè)幀的權(quán)重值(設(shè)為灰度值)，權(quán)重的范圍為[0,255]。

對(duì)式(11)進(jìn)行變換，可獲得下式

(12)

將式(12)的wi/255(取值范圍為[0,1])替換為一個(gè)模糊隸屬函數(shù)μ(i)(取值范圍為[0,1])，可獲得下式

(13)

從式(13)可看出，wi決定了時(shí)間模板中分配到第i個(gè)幀運(yùn)動(dòng)信息的顯著度，該機(jī)制能夠通過選擇合適的模糊隸屬函數(shù)μ(i),增強(qiáng)時(shí)間模板中時(shí)域運(yùn)動(dòng)信息的顯著性。圖3是4個(gè)隸屬函數(shù)的圖形，將4個(gè)隸屬函數(shù)設(shè)為μ1～μ4，分別定義為式(14)～式(17)

μ1(i)=1, ?i∈[0,n]

(14)

(15)

(16)

(17)

從圖3中可觀察出：μ1計(jì)算運(yùn)動(dòng)能量圖像(MEI)，μ2計(jì)算運(yùn)動(dòng)歷史圖像(MHI)。因?yàn)棣?是一個(gè)恒定函數(shù)，所以MEI為所有時(shí)域的運(yùn)動(dòng)信息分配相等的權(quán)重。μ2是一個(gè)線性遞增函數(shù)，所以MHI為最近的視頻序列分配最高的顯著度。μ3是一個(gè)線性遞減函數(shù)，所以μ3為最近的視頻序列分配最低的顯著度。μ4則為時(shí)域中間區(qū)域的視頻序列分配最高的顯著度。最終，函數(shù)μ2、μ3、μ4分別強(qiáng)調(diào)時(shí)域的開始、結(jié)尾與中間區(qū)域。

圖3 4個(gè)模糊隸屬函數(shù)的圖形

3.2 基于深度學(xué)習(xí)的特征描述

采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)人體動(dòng)作的特征。將3.1小節(jié)中視頻序列的時(shí)間模板輸入卷積神經(jīng)網(wǎng)絡(luò)中，學(xué)習(xí)人體動(dòng)作識(shí)別的特征集。本文使用5C-2S-5C-2S的CNN架構(gòu)提取深度學(xué)習(xí)特征，其中5C表示每個(gè)卷積層共有5×5個(gè)核，2S表示每個(gè)max-pooling(最大池化)下采樣層需要2×2個(gè)核。RGB彩色視頻序列包含顏色通道模式與時(shí)間深度模式，因此本文將兩個(gè)維度的模式分別進(jìn)行處理，最終計(jì)算統(tǒng)一的人體動(dòng)作特征。因?yàn)闃O限學(xué)習(xí)機(jī)具有較強(qiáng)的泛化能力，所以采用極限學(xué)習(xí)機(jī)進(jìn)行動(dòng)作識(shí)別處理。

4 仿真實(shí)驗(yàn)與結(jié)果分析

為了綜合評(píng)估本算法的性能，分別對(duì)UCF101視頻數(shù)據(jù)集與NATOPS視頻數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。UCF101數(shù)據(jù)集的分辨率較低，數(shù)據(jù)量較大，能夠測(cè)試本算法對(duì)于大規(guī)模數(shù)據(jù)集的識(shí)別性能。NATOPS視頻數(shù)據(jù)集的分辨率較高，共包含24個(gè)動(dòng)作，這些動(dòng)作均為人體上肢的動(dòng)作，動(dòng)作幅度較小，并且有些動(dòng)作的上肢與身體出現(xiàn)重疊，該數(shù)據(jù)集能夠測(cè)試本算法對(duì)小幅度動(dòng)作的識(shí)別效果。

4.1 UCF101數(shù)據(jù)集的實(shí)驗(yàn)

4.1.1 數(shù)據(jù)集介紹

UCF101數(shù)據(jù)集收集于互聯(lián)網(wǎng)，數(shù)據(jù)集的復(fù)雜度較高，視頻均具有明顯的背景雜波。UCF101包含了13 320視頻剪輯，共有101個(gè)動(dòng)作分類。本文使用數(shù)據(jù)集缺省的3個(gè)訓(xùn)練集-測(cè)試集劃分方案，對(duì)于每個(gè)劃分方案，從25個(gè)分組中選擇7個(gè)視頻序列作為測(cè)試序列，其它的18個(gè)視頻序列作為訓(xùn)練序列。圖4是UCF101數(shù)據(jù)集的部分實(shí)例圖像。

圖4 UCF101數(shù)據(jù)集的圖像實(shí)例

對(duì)UCF101數(shù)據(jù)集缺省的3個(gè)劃分方案均進(jìn)行實(shí)驗(yàn)，將3組數(shù)據(jù)的平均值作為最終的實(shí)驗(yàn)結(jié)果。

4.1.2 算法的識(shí)別準(zhǔn)確率

為了評(píng)估本算法對(duì)于UCF101數(shù)據(jù)集的識(shí)別性能，將本算法與其它動(dòng)作識(shí)別算法進(jìn)行比較，分別為：基于卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別算法(CNN)[9]、基于改進(jìn)密集軌跡的動(dòng)作識(shí)別算法(IDT)[8]、基于深度學(xué)習(xí)的動(dòng)作識(shí)別算法(C3D)[15]、基于光流與卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別算法(CNN_T)[17]、基于時(shí)域運(yùn)動(dòng)信息與支持向量機(jī)的動(dòng)作識(shí)別算法(SVM)[15]。不同算法的動(dòng)作識(shí)別率結(jié)果如圖5所示，可看出CNN_T、SVM與本算法的識(shí)別率優(yōu)于CNN、IDT與C3D這3個(gè)算法，CNN_T、SVM與本算法均屬于多特征融合的識(shí)別算法，而CNN、IDT與C3D均為單一特征的識(shí)別算法，可得出結(jié)論：多特征融合的識(shí)別性能優(yōu)于單一特征的識(shí)別性能。此外，本算法的識(shí)別率略優(yōu)于CNN_T、SVM兩個(gè)算法，本算法與SVM算法較為相似，主要區(qū)別在于本算法設(shè)計(jì)了基于事件模板的運(yùn)動(dòng)信息機(jī)制，該機(jī)制能夠有效地提高動(dòng)作識(shí)別的精準(zhǔn)性。

圖5 6個(gè)動(dòng)作識(shí)別算法的動(dòng)作識(shí)別率結(jié)果

4.1.3 兩種融合策略的性能比較

當(dāng)前的特征融合策略主要分為早期融合與后期融合兩種策略，早期融合策略在分類器處理之前進(jìn)行特征核的融合，后期融合策略首先每種特征的得分向量融合為一個(gè)得分向量，然后對(duì)得分向量再一次進(jìn)行分類器處理，圖6是兩種融合策略的流程。評(píng)估兩個(gè)特征的不同融合策略對(duì)動(dòng)作識(shí)別算法性能的影響，在UCF101數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)分析。參考文獻(xiàn)[18]的分析，基于特征核的算法性能優(yōu)于其它類型的識(shí)別算法，因此，將本算法與其它基于核的識(shí)別算法進(jìn)行比較。

圖6 兩種融合策略的流程

對(duì)SVM[15]與本算法均進(jìn)行兩種融合策略的實(shí)驗(yàn)，結(jié)果見表1。從表1中可看出：①對(duì)于SVM與本算法，早期融合策略的識(shí)別準(zhǔn)確率均優(yōu)于后期融合策略；②本算法兩種融合策略的識(shí)別準(zhǔn)確率均優(yōu)于SVM算法。

表1 SVM與本算法在不同融合策略下的識(shí)別準(zhǔn)確率

4.1.4 算法對(duì)大規(guī)模數(shù)據(jù)集的時(shí)間效率

根據(jù)文獻(xiàn)[12]的實(shí)驗(yàn)與分析結(jié)論，極限學(xué)習(xí)機(jī)具有較快的學(xué)習(xí)速度?；诖笠?guī)模UCF101數(shù)據(jù)集進(jìn)行實(shí)踐效率的實(shí)驗(yàn)，并將本算法與其它基于多核融合的算法(SVM算法)進(jìn)行比較。實(shí)驗(yàn)環(huán)境為：Inteli7 3.3 GHz CPU，16 GB內(nèi)存。

圖7是SVM算法與本算法訓(xùn)練過程與測(cè)試過程的計(jì)算時(shí)間，本算法的訓(xùn)練過程平均計(jì)算時(shí)間為33.98 s，測(cè)試過程的平均計(jì)算時(shí)間為15.47 s。SVM算法訓(xùn)練階段的時(shí)間是本算法的4倍以上，而SVM算法測(cè)試階段的時(shí)間是本算法的1.8倍以上?？傻贸鼋Y(jié)論，本算法的計(jì)算效率優(yōu)于同樣基于核融合的SVM算法，本算法的計(jì)算時(shí)間能夠適用于大規(guī)模數(shù)據(jù)集。

圖7 SVM算法與本算法訓(xùn)練過程與測(cè)試過程的計(jì)算時(shí)間

4.2 NATOPS視頻的動(dòng)作識(shí)別實(shí)驗(yàn)

4.2.1 數(shù)據(jù)集介紹

NATOPS視頻數(shù)據(jù)集的分辨率較高，共包含24個(gè)機(jī)場(chǎng)的手勢(shì)信號(hào)動(dòng)作，24個(gè)小幅度動(dòng)作如圖8所示。圖8中可看出，這些手勢(shì)幅度較小，并且一些手勢(shì)信號(hào)包含了手型的變化，該數(shù)據(jù)集能夠評(píng)估動(dòng)作識(shí)別算法的識(shí)別準(zhǔn)確率。視頻的分辨率為320×240，視頻設(shè)計(jì)了20個(gè)主題，每個(gè)主題中按照不同的順序完成24個(gè)手勢(shì)信號(hào)動(dòng)作，每個(gè)主題中包含24×20個(gè)動(dòng)作。選擇前5個(gè)主題作為測(cè)試集，后10個(gè)主題作為訓(xùn)練集。

圖8 NATOPS視頻數(shù)據(jù)集的8個(gè)機(jī)場(chǎng)信號(hào)手勢(shì)

4.2.2 算法的識(shí)別準(zhǔn)確率

為了評(píng)估本算法對(duì)小幅度動(dòng)作的識(shí)別性能，在提取特征之前，選擇64×48個(gè)幀作為深度學(xué)習(xí)特征的時(shí)間模板，表2是4個(gè)隸屬函數(shù)分別對(duì)不同維度特征的識(shí)別準(zhǔn)確率。從表中可看出，總體而言，RGB顏色特征的準(zhǔn)確率優(yōu)于時(shí)間特征，因?yàn)閷?duì)于小幅度的人體動(dòng)作，動(dòng)作與人體發(fā)生較多的重疊現(xiàn)象，在這種情況下，顏色特征的判別性更高。

表2 4個(gè)隸屬函數(shù)對(duì)不同維度特征的識(shí)別準(zhǔn)確率/%

根據(jù)表2的結(jié)果，μ1函數(shù)的效果較差，而μ2,μ3,μ4這3個(gè)隸屬函數(shù)分別強(qiáng)調(diào)了時(shí)域前期、中期、后期的顯著性。將μ2,μ3,μ4這3個(gè)隸屬函數(shù)進(jìn)行疊加融合，使用融合的隸屬函數(shù)重新測(cè)試對(duì)NATOPS數(shù)據(jù)集的識(shí)別準(zhǔn)確率。將本算法與其它6個(gè)支持小幅度手勢(shì)識(shí)別的動(dòng)作識(shí)別算法進(jìn)行對(duì)比，分別為文獻(xiàn)[19,20]中實(shí)驗(yàn)的5個(gè)算法，見表3。從結(jié)果可看出，本算法融合了運(yùn)動(dòng)信息與RGB三色特征，對(duì)小幅度的動(dòng)作表現(xiàn)出較高的識(shí)別準(zhǔn)確率，明顯地優(yōu)于前4個(gè)算法，C_HCRF算法通過提取視頻序列的多視角特征，能夠有效地解析視頻的多層次信息，也取得了極高的識(shí)別準(zhǔn)確率，與本算法接近。

表3 6個(gè)小幅度動(dòng)作識(shí)別算法的識(shí)別準(zhǔn)確率結(jié)果

5 結(jié)束語(yǔ)

為了同時(shí)滿足大規(guī)模數(shù)據(jù)集與小幅度動(dòng)作的識(shí)別，設(shè)計(jì)了基于多特征融合與運(yùn)動(dòng)信息的人體動(dòng)作識(shí)別算法。在雙層核極限學(xué)習(xí)機(jī)的第一層，采用線性核極限學(xué)習(xí)機(jī)學(xué)習(xí)密集軌跡特征與深度學(xué)習(xí)特征，全面地表征視頻序列的動(dòng)作特征；在第二層，為核極限學(xué)習(xí)機(jī)訓(xùn)練徑向基函數(shù)，將密集軌跡特征與深度學(xué)習(xí)特征進(jìn)行融合。在深度學(xué)習(xí)特征中，通過時(shí)間模板分析視頻序列的運(yùn)動(dòng)信息，為運(yùn)動(dòng)信息的不同時(shí)域分配不同的顯著性，視頻序列的時(shí)間模板輸入卷積神經(jīng)網(wǎng)絡(luò)中，學(xué)習(xí)人體動(dòng)作識(shí)別的特征集。該算法的手工特征與深度學(xué)習(xí)特征具有互補(bǔ)性，從不同的角度描述了視頻的人體動(dòng)作信息?；诖笠?guī)模真實(shí)數(shù)據(jù)集與小幅度手勢(shì)數(shù)據(jù)集進(jìn)行了仿真實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果驗(yàn)證了本算法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡