吳志攀,鄭中韋
(1.惠州學(xué)院 信息科學(xué)技術(shù)學(xué)院,廣東 惠州 516007;2.廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006)
不同應(yīng)用領(lǐng)域?qū)τ谌梭w動(dòng)作識(shí)別的要求存在差異[1,2],例如:機(jī)器人需要識(shí)別用戶的動(dòng)作作為指令,而此類動(dòng)作一般為小幅度的手勢(shì)動(dòng)作[3];視頻網(wǎng)站需要識(shí)別人體的不同動(dòng)作與行為,從而有效地將視頻進(jìn)行分類,便于視頻的管理,而此類視頻一般分辨率較低,并且數(shù)據(jù)量極大[4]。在未來的應(yīng)用場(chǎng)景中,需要?jiǎng)幼髯R(shí)別技術(shù)既具有識(shí)別小幅度動(dòng)作的能力,并且能夠高效地處理大規(guī)模數(shù)據(jù)集,然而,目前的諸多動(dòng)作識(shí)別技術(shù)均無(wú)法同時(shí)滿足上述兩個(gè)要求,這為動(dòng)作識(shí)別技術(shù)的實(shí)用性帶來了不利的影響。
根據(jù)目前的研究成果,可看出基于多特征融合的人體動(dòng)作識(shí)別算法優(yōu)于單一特征的算法,因此多特征融合的動(dòng)作識(shí)別算法成為了當(dāng)前的主流。文獻(xiàn)[5]設(shè)計(jì)了基于深度圖像的動(dòng)作識(shí)別方法,該算法對(duì)深度圖像在3個(gè)投影面系中進(jìn)行投影,對(duì)3個(gè)投影圖分別提取Gabor特征,使用這些特征訓(xùn)練極限學(xué)習(xí)機(jī)分類器,該算法的計(jì)算效率較高,但對(duì)于小幅度的動(dòng)作識(shí)別性能不理想;文獻(xiàn)[6]提出了一種可以完成在線人體動(dòng)作識(shí)別的時(shí)序深度置信網(wǎng)絡(luò),該模型解決了目前深度置信網(wǎng)絡(luò)模型僅能識(shí)別靜態(tài)圖像的問題,但該模型訓(xùn)練過程的處理時(shí)間較長(zhǎng),影響了該算法對(duì)于大規(guī)模數(shù)據(jù)集的應(yīng)用性能。除了對(duì)于大規(guī)模數(shù)據(jù)集的時(shí)間效率問題。人體小幅度的動(dòng)作識(shí)別則是另一個(gè)難點(diǎn),文獻(xiàn)[6]提出一種基于加速度軌跡圖像的手勢(shì)NMF(非負(fù)矩陣分解)特征提取與識(shí)別方法,該算法通過建立加速度手勢(shì)軌跡圖,將未知手勢(shì)軌跡特征轉(zhuǎn)換為低維子特征序列,提高了手勢(shì)識(shí)別的準(zhǔn)確率與時(shí)間效率;文獻(xiàn)[7]通過非對(duì)稱的系統(tǒng)偏差建模人體動(dòng)作信息,該算法引入姿勢(shì)標(biāo)簽機(jī)制進(jìn)一步提高了小幅度動(dòng)作的識(shí)別性能。算法[6,7]對(duì)小幅度動(dòng)作(例如:手勢(shì)、微動(dòng)作等)均實(shí)現(xiàn)了較高的識(shí)別準(zhǔn)確率,但是需要分析的特征量較大,難以應(yīng)用于大規(guī)模數(shù)據(jù)集。
為了同時(shí)滿足大規(guī)模數(shù)據(jù)集與小幅度動(dòng)作的識(shí)別,設(shè)計(jì)了基于多特征融合與運(yùn)動(dòng)信息的人體動(dòng)作識(shí)別算法。該算法學(xué)習(xí)了手工特征與深度學(xué)習(xí)特征,手工特征采用了改進(jìn)的密集軌跡(IDT)[8],深度學(xué)習(xí)特征采用了基于運(yùn)動(dòng)信息的卷積神經(jīng)網(wǎng)絡(luò)[9],利用核支持向量機(jī)的泛化能力將兩種特征進(jìn)行融合。核極限學(xué)習(xí)機(jī)包含兩層:第一層計(jì)算兩個(gè)特征核,并將兩個(gè)特征核融合獲得一個(gè)融合特征核,最終輸出3種特征核的預(yù)測(cè)分?jǐn)?shù);第二層訓(xùn)練分類器,將所有的預(yù)測(cè)得分映射至最終的動(dòng)作分類。該算法的手工特征與深度學(xué)習(xí)特征具有互補(bǔ)性,從不同的角度描述了視頻的人體動(dòng)作信息。
假設(shè){xi,ti},i=1,…,n為訓(xùn)練數(shù)據(jù)集,其中n是訓(xùn)練樣本的數(shù)量,xi∈Rd是提取的特征,即IDT(密集軌跡特征)與DLF(基于運(yùn)動(dòng)信息的深度學(xué)習(xí)特征),ti∈Rq是真實(shí)動(dòng)作類,其中q為動(dòng)作的分類總數(shù)量。假設(shè)隱藏層的激活函數(shù)為G(x),隱藏層共有L個(gè)神經(jīng)元。將隨機(jī)生成的第j個(gè)隱藏層權(quán)重與偏差分別表示為aj與bj,將連接第j個(gè)隱藏層節(jié)點(diǎn)與輸出節(jié)點(diǎn)的權(quán)重向量表示為βj∈Rq。極限學(xué)習(xí)機(jī)的學(xué)習(xí)目標(biāo)是最小化訓(xùn)練誤差,并且最小化輸出權(quán)重的泛數(shù)
(1)
式中:H={Hij}={G(aj,bj,xi)},i=1,…,n,j=1,…,L,H是隱藏層的輸出矩陣,Hij是第j個(gè)隱藏層節(jié)點(diǎn)的輸出,xi表示一個(gè)隱藏層節(jié)點(diǎn)。式(1)中β=[β1,β2,βL,]T,H(xi)=[h1(xi),h2(xi),hL(xi)],T=[t1,t2,tn]T。
根據(jù)文獻(xiàn)[10],可通過下式求解式(1)
β=H+T
(2)
式中:H+是矩陣H的Moore-Penrose廣義逆矩陣。原始的極限學(xué)習(xí)機(jī)理論是為了解決單隱藏層前饋神經(jīng)網(wǎng)絡(luò)(SLFN)的問題,后來許多研究人員將極限學(xué)習(xí)機(jī)推廣至非神經(jīng)網(wǎng)絡(luò)問題中,并且證明了極限學(xué)習(xí)機(jī)的約束條件少于支持向量機(jī)與最小二乘支持向量機(jī)[11],這是本文采用極限學(xué)習(xí)機(jī)的動(dòng)機(jī)。
極限學(xué)習(xí)機(jī)的主約束優(yōu)化問題定義為下式
約束條件為
(3)
式中:i=[ξi,1,ξi,2,…,ξi,q]T是q個(gè)輸出節(jié)點(diǎn)對(duì)于樣本xi的訓(xùn)練誤差向量,C是正則化參數(shù)。根據(jù)庫(kù)恩塔克條件[12],可將對(duì)偶優(yōu)化問題轉(zhuǎn)化為下式
(4)
式中:α=(I/C+HHT)-1T是拉格朗日乘子矩陣。
最終的輸出權(quán)重β計(jì)算為下式
β=HT(I/C+HHT)-1T
(5)
因此可將極限學(xué)習(xí)機(jī)輸出函數(shù)定義為下式
f(xj)=h(xi)β=h(xi)HT(I/C+HHT)-1T,j=1,…,n
(6)
與支持向量機(jī)相似,可將核函數(shù)集成至極限學(xué)習(xí)機(jī)中。參考文獻(xiàn)[12],給定一個(gè)滿足Mercer定理的核函數(shù)K,可將核極限學(xué)習(xí)機(jī)的輸出寫為以下的兼容公式
(7)
式中:j=1,…,n。在該處理之后,極限學(xué)習(xí)機(jī)的分類器輸出一個(gè)得分,該得分表示一個(gè)視頻屬于一個(gè)動(dòng)作分類的顯著性。
本文核極限學(xué)習(xí)機(jī)的框架分為兩層,如圖1所示。第一層將深度學(xué)習(xí)的特征核與手工特征核進(jìn)行特征融合處理,第一層的輸出是3個(gè)特征核的預(yù)測(cè)得分。第二層訓(xùn)練出分類器,該分類器將所有的預(yù)測(cè)得分映射到最終的動(dòng)作分類中。
2.1.1 特征核的融合
將不同的特征核融合,能夠包含視頻不同維度的特征。因此,本文結(jié)合了手工特征核與深度學(xué)習(xí)特征核,并且采用L2泛數(shù)計(jì)算線性核??蓪⒁粋€(gè)線性核矩陣定義為下式
K(xi,xj)=h(xi)hT(xj)
(8)
式中:K(xi,xj)是K的第(i,j)個(gè)元素。通過計(jì)算不同特征源的核矩陣平均值,計(jì)算融合的特征核。特征核融合之后,分別獲得3個(gè)核:深度學(xué)習(xí)特征核、手工特征核、融合特征核。然后,采用核極限學(xué)習(xí)機(jī)計(jì)算不同特征核的預(yù)測(cè)得分。
圖1 本文核極限學(xué)習(xí)機(jī)的框架
2.1.2 預(yù)測(cè)得分的融合
假設(shè)可將預(yù)測(cè)得分合并計(jì)算出視頻序列最終的動(dòng)作分類,因此,本文3個(gè)輸出得分向量融合為一個(gè)得分向量s。假設(shè){si,ti},i=1,…,n表示訓(xùn)練數(shù)據(jù)集,其中n為訓(xùn)練樣本的數(shù)量,si∈R3q為合并的預(yù)測(cè)得分,q是動(dòng)作分類的總數(shù)量,ti∈R3q是真實(shí)的動(dòng)作分類。考慮將第一層的輸出作為輸入第二層的特征,本文使用L1泛數(shù)對(duì)第一層的輸出做正則化處理,之后,本文獲得每個(gè)視頻的一個(gè)特征向量,在第二層計(jì)算核矩陣。因?yàn)閺较蚧瘮?shù)核對(duì)于L1范數(shù)特征的性能優(yōu)于線性核,所以本文采用徑向基函數(shù)核,徑向基函數(shù)核(RBF)定義為下式
(9)
式中:si與sj分別是視頻i與j的預(yù)測(cè)得分。注意K(si,sj)是RBF核K的第(i,j)個(gè)元素,參考文獻(xiàn)[13]的結(jié)論,非線性核對(duì)于基于直方圖特征的性能優(yōu)于線性核。
(10)
式中:nd設(shè)為4,表示共有4個(gè)不同的描述符,即軌跡線、HOG(描述靜態(tài)特征),HOF(像素絕對(duì)運(yùn)動(dòng)特征),MBH(像素相對(duì)運(yùn)動(dòng)特征)。
對(duì)于深度學(xué)習(xí)特征,本文設(shè)計(jì)了基于運(yùn)動(dòng)信息與卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)特征,在下文詳細(xì)描述。使用文獻(xiàn)[15]方案將深度學(xué)習(xí)特征組織成一個(gè)4096維的視頻描述符,并對(duì)該描述符使用L2范數(shù)處理。然后,計(jì)算深度學(xué)習(xí)特征的線性核,建立深度學(xué)習(xí)特征的核矩陣Kd。
在核融合過程中,通過計(jì)算深度學(xué)習(xí)特征Kd與手工特征Kh的平均值獲得核融合的結(jié)果:K=(Kd+Kh)/2。
最終,本文的核極限學(xué)習(xí)機(jī)使用3個(gè)特征核對(duì)輸入的視頻流進(jìn)行動(dòng)作分類處理,3個(gè)特征核分別為:手工特征核、深度學(xué)習(xí)特征核與融合核。
采用開源的核極限學(xué)習(xí)機(jī)代碼庫(kù)實(shí)現(xiàn)本文的兩層核極限學(xué)習(xí)機(jī)算法,在通過網(wǎng)格搜索獲得核極限學(xué)習(xí)機(jī)參數(shù)之后,將另外兩個(gè)未知參數(shù)分別設(shè)為:C=1,σ=10[16]。
本文針對(duì)人體動(dòng)作識(shí)別提出了一個(gè)運(yùn)動(dòng)信息表示方案,強(qiáng)調(diào)了不同時(shí)域運(yùn)動(dòng)信息的顯著性,從而提高視頻序列中小幅度動(dòng)作的判別性。該模塊的總體架構(gòu)如圖2所示。
圖2 基于運(yùn)動(dòng)信息的深度學(xué)習(xí)流程
時(shí)間模板能夠提取一個(gè)圖像幀的全部運(yùn)動(dòng)序列,因此本文的運(yùn)動(dòng)識(shí)別采用時(shí)間模板。時(shí)間模板的計(jì)算方法是統(tǒng)計(jì)視頻運(yùn)動(dòng)信息的加權(quán)調(diào)和值,并且采用視頻幀之間的差異計(jì)算幀之間的運(yùn)動(dòng)信息,時(shí)間模板的計(jì)算公式如下
(11)
其中:n表示視頻幀的數(shù)量,m(i)表示第i個(gè)幀的運(yùn)動(dòng)信息,wi表示第i個(gè)幀的權(quán)重值(設(shè)為灰度值),權(quán)重的范圍為[0,255]。
對(duì)式(11)進(jìn)行變換,可獲得下式
(12)
將式(12)的wi/255(取值范圍為[0,1])替換為一個(gè)模糊隸屬函數(shù)μ(i)(取值范圍為[0,1]),可獲得下式
(13)
從式(13)可看出,wi決定了時(shí)間模板中分配到第i個(gè)幀運(yùn)動(dòng)信息的顯著度,該機(jī)制能夠通過選擇合適的模糊隸屬函數(shù)μ(i),增強(qiáng)時(shí)間模板中時(shí)域運(yùn)動(dòng)信息的顯著性。圖3是4個(gè)隸屬函數(shù)的圖形,將4個(gè)隸屬函數(shù)設(shè)為μ1~μ4,分別定義為式(14)~式(17)
μ1(i)=1, ?i∈[0,n]
(14)
(15)
(16)
(17)
從圖3中可觀察出:μ1計(jì)算運(yùn)動(dòng)能量圖像(MEI),μ2計(jì)算運(yùn)動(dòng)歷史圖像(MHI)。因?yàn)棣?是一個(gè)恒定函數(shù),所以MEI為所有時(shí)域的運(yùn)動(dòng)信息分配相等的權(quán)重。μ2是一個(gè)線性遞增函數(shù),所以MHI為最近的視頻序列分配最高的顯著度。μ3是一個(gè)線性遞減函數(shù),所以μ3為最近的視頻序列分配最低的顯著度。μ4則為時(shí)域中間區(qū)域的視頻序列分配最高的顯著度。最終,函數(shù)μ2、μ3、μ4分別強(qiáng)調(diào)時(shí)域的開始、結(jié)尾與中間區(qū)域。
圖3 4個(gè)模糊隸屬函數(shù)的圖形
采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)人體動(dòng)作的特征。將3.1小節(jié)中視頻序列的時(shí)間模板輸入卷積神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)人體動(dòng)作識(shí)別的特征集。本文使用5C-2S-5C-2S的CNN架構(gòu)提取深度學(xué)習(xí)特征,其中5C表示每個(gè)卷積層共有5×5個(gè)核,2S表示每個(gè)max-pooling(最大池化)下采樣層需要2×2個(gè)核。RGB彩色視頻序列包含顏色通道模式與時(shí)間深度模式,因此本文將兩個(gè)維度的模式分別進(jìn)行處理,最終計(jì)算統(tǒng)一的人體動(dòng)作特征。因?yàn)闃O限學(xué)習(xí)機(jī)具有較強(qiáng)的泛化能力,所以采用極限學(xué)習(xí)機(jī)進(jìn)行動(dòng)作識(shí)別處理。
為了綜合評(píng)估本算法的性能,分別對(duì)UCF101視頻數(shù)據(jù)集與NATOPS視頻數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。UCF101數(shù)據(jù)集的分辨率較低,數(shù)據(jù)量較大,能夠測(cè)試本算法對(duì)于大規(guī)模數(shù)據(jù)集的識(shí)別性能。NATOPS視頻數(shù)據(jù)集的分辨率較高,共包含24個(gè)動(dòng)作,這些動(dòng)作均為人體上肢的動(dòng)作,動(dòng)作幅度較小,并且有些動(dòng)作的上肢與身體出現(xiàn)重疊,該數(shù)據(jù)集能夠測(cè)試本算法對(duì)小幅度動(dòng)作的識(shí)別效果。
4.1.1 數(shù)據(jù)集介紹
UCF101數(shù)據(jù)集收集于互聯(lián)網(wǎng),數(shù)據(jù)集的復(fù)雜度較高,視頻均具有明顯的背景雜波。UCF101包含了13 320視頻剪輯,共有101個(gè)動(dòng)作分類。本文使用數(shù)據(jù)集缺省的3個(gè)訓(xùn)練集-測(cè)試集劃分方案,對(duì)于每個(gè)劃分方案,從25個(gè)分組中選擇7個(gè)視頻序列作為測(cè)試序列,其它的18個(gè)視頻序列作為訓(xùn)練序列。圖4是UCF101數(shù)據(jù)集的部分實(shí)例圖像。
圖4 UCF101數(shù)據(jù)集的圖像實(shí)例
對(duì)UCF101數(shù)據(jù)集缺省的3個(gè)劃分方案均進(jìn)行實(shí)驗(yàn),將3組數(shù)據(jù)的平均值作為最終的實(shí)驗(yàn)結(jié)果。
4.1.2 算法的識(shí)別準(zhǔn)確率
為了評(píng)估本算法對(duì)于UCF101數(shù)據(jù)集的識(shí)別性能,將本算法與其它動(dòng)作識(shí)別算法進(jìn)行比較,分別為:基于卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別算法(CNN)[9]、基于改進(jìn)密集軌跡的動(dòng)作識(shí)別算法(IDT)[8]、基于深度學(xué)習(xí)的動(dòng)作識(shí)別算法(C3D)[15]、基于光流與卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作識(shí)別算法(CNN_T)[17]、基于時(shí)域運(yùn)動(dòng)信息與支持向量機(jī)的動(dòng)作識(shí)別算法(SVM)[15]。不同算法的動(dòng)作識(shí)別率結(jié)果如圖5所示,可看出CNN_T、SVM與本算法的識(shí)別率優(yōu)于CNN、IDT與C3D這3個(gè)算法,CNN_T、SVM與本算法均屬于多特征融合的識(shí)別算法,而CNN、IDT與C3D均為單一特征的識(shí)別算法,可得出結(jié)論:多特征融合的識(shí)別性能優(yōu)于單一特征的識(shí)別性能。此外,本算法的識(shí)別率略優(yōu)于CNN_T、SVM兩個(gè)算法,本算法與SVM算法較為相似,主要區(qū)別在于本算法設(shè)計(jì)了基于事件模板的運(yùn)動(dòng)信息機(jī)制,該機(jī)制能夠有效地提高動(dòng)作識(shí)別的精準(zhǔn)性。
圖5 6個(gè)動(dòng)作識(shí)別算法的動(dòng)作識(shí)別率結(jié)果
4.1.3 兩種融合策略的性能比較
當(dāng)前的特征融合策略主要分為早期融合與后期融合兩種策略,早期融合策略在分類器處理之前進(jìn)行特征核的融合,后期融合策略首先每種特征的得分向量融合為一個(gè)得分向量,然后對(duì)得分向量再一次進(jìn)行分類器處理,圖6是兩種融合策略的流程。評(píng)估兩個(gè)特征的不同融合策略對(duì)動(dòng)作識(shí)別算法性能的影響,在UCF101數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)分析。參考文獻(xiàn)[18]的分析,基于特征核的算法性能優(yōu)于其它類型的識(shí)別算法,因此,將本算法與其它基于核的識(shí)別算法進(jìn)行比較。
圖6 兩種融合策略的流程
對(duì)SVM[15]與本算法均進(jìn)行兩種融合策略的實(shí)驗(yàn),結(jié)果見表1。從表1中可看出:①對(duì)于SVM與本算法,早期融合策略的識(shí)別準(zhǔn)確率均優(yōu)于后期融合策略;②本算法兩種融合策略的識(shí)別準(zhǔn)確率均優(yōu)于SVM算法。
表1 SVM與本算法在不同融合策略下的識(shí)別準(zhǔn)確率
4.1.4 算法對(duì)大規(guī)模數(shù)據(jù)集的時(shí)間效率
根據(jù)文獻(xiàn)[12]的實(shí)驗(yàn)與分析結(jié)論,極限學(xué)習(xí)機(jī)具有較快的學(xué)習(xí)速度?;诖笠?guī)模UCF101數(shù)據(jù)集進(jìn)行實(shí)踐效率的實(shí)驗(yàn),并將本算法與其它基于多核融合的算法(SVM算法)進(jìn)行比較。實(shí)驗(yàn)環(huán)境為:Inteli7 3.3 GHz CPU,16 GB內(nèi)存。
圖7是SVM算法與本算法訓(xùn)練過程與測(cè)試過程的計(jì)算時(shí)間,本算法的訓(xùn)練過程平均計(jì)算時(shí)間為33.98 s,測(cè)試過程的平均計(jì)算時(shí)間為15.47 s。SVM算法訓(xùn)練階段的時(shí)間是本算法的4倍以上,而SVM算法測(cè)試階段的時(shí)間是本算法的1.8倍以上??傻贸鼋Y(jié)論,本算法的計(jì)算效率優(yōu)于同樣基于核融合的SVM算法,本算法的計(jì)算時(shí)間能夠適用于大規(guī)模數(shù)據(jù)集。
圖7 SVM算法與本算法訓(xùn)練過程與測(cè)試過程的計(jì)算時(shí)間
4.2.1 數(shù)據(jù)集介紹
NATOPS視頻數(shù)據(jù)集的分辨率較高,共包含24個(gè)機(jī)場(chǎng)的手勢(shì)信號(hào)動(dòng)作,24個(gè)小幅度動(dòng)作如圖8所示。圖8中可看出,這些手勢(shì)幅度較小,并且一些手勢(shì)信號(hào)包含了手型的變化,該數(shù)據(jù)集能夠評(píng)估動(dòng)作識(shí)別算法的識(shí)別準(zhǔn)確率。視頻的分辨率為320×240,視頻設(shè)計(jì)了20個(gè)主題,每個(gè)主題中按照不同的順序完成24個(gè)手勢(shì)信號(hào)動(dòng)作,每個(gè)主題中包含24×20個(gè)動(dòng)作。選擇前5個(gè)主題作為測(cè)試集,后10個(gè)主題作為訓(xùn)練集。
圖8 NATOPS視頻數(shù)據(jù)集的8個(gè)機(jī)場(chǎng)信號(hào)手勢(shì)
4.2.2 算法的識(shí)別準(zhǔn)確率
為了評(píng)估本算法對(duì)小幅度動(dòng)作的識(shí)別性能,在提取特征之前,選擇64×48個(gè)幀作為深度學(xué)習(xí)特征的時(shí)間模板,表2是4個(gè)隸屬函數(shù)分別對(duì)不同維度特征的識(shí)別準(zhǔn)確率。從表中可看出,總體而言,RGB顏色特征的準(zhǔn)確率優(yōu)于時(shí)間特征,因?yàn)閷?duì)于小幅度的人體動(dòng)作,動(dòng)作與人體發(fā)生較多的重疊現(xiàn)象,在這種情況下,顏色特征的判別性更高。
表2 4個(gè)隸屬函數(shù)對(duì)不同維度特征的識(shí)別準(zhǔn)確率/%
根據(jù)表2的結(jié)果,μ1函數(shù)的效果較差,而μ2,μ3,μ4這3個(gè)隸屬函數(shù)分別強(qiáng)調(diào)了時(shí)域前期、中期、后期的顯著性。將μ2,μ3,μ4這3個(gè)隸屬函數(shù)進(jìn)行疊加融合,使用融合的隸屬函數(shù)重新測(cè)試對(duì)NATOPS數(shù)據(jù)集的識(shí)別準(zhǔn)確率。將本算法與其它6個(gè)支持小幅度手勢(shì)識(shí)別的動(dòng)作識(shí)別算法進(jìn)行對(duì)比,分別為文獻(xiàn)[19,20]中實(shí)驗(yàn)的5個(gè)算法,見表3。從結(jié)果可看出,本算法融合了運(yùn)動(dòng)信息與RGB三色特征,對(duì)小幅度的動(dòng)作表現(xiàn)出較高的識(shí)別準(zhǔn)確率,明顯地優(yōu)于前4個(gè)算法,C_HCRF算法通過提取視頻序列的多視角特征,能夠有效地解析視頻的多層次信息,也取得了極高的識(shí)別準(zhǔn)確率,與本算法接近。
表3 6個(gè)小幅度動(dòng)作識(shí)別算法的識(shí)別準(zhǔn)確率結(jié)果
為了同時(shí)滿足大規(guī)模數(shù)據(jù)集與小幅度動(dòng)作的識(shí)別,設(shè)計(jì)了基于多特征融合與運(yùn)動(dòng)信息的人體動(dòng)作識(shí)別算法。在雙層核極限學(xué)習(xí)機(jī)的第一層,采用線性核極限學(xué)習(xí)機(jī)學(xué)習(xí)密集軌跡特征與深度學(xué)習(xí)特征,全面地表征視頻序列的動(dòng)作特征;在第二層,為核極限學(xué)習(xí)機(jī)訓(xùn)練徑向基函數(shù),將密集軌跡特征與深度學(xué)習(xí)特征進(jìn)行融合。在深度學(xué)習(xí)特征中,通過時(shí)間模板分析視頻序列的運(yùn)動(dòng)信息,為運(yùn)動(dòng)信息的不同時(shí)域分配不同的顯著性,視頻序列的時(shí)間模板輸入卷積神經(jīng)網(wǎng)絡(luò)中,學(xué)習(xí)人體動(dòng)作識(shí)別的特征集。該算法的手工特征與深度學(xué)習(xí)特征具有互補(bǔ)性,從不同的角度描述了視頻的人體動(dòng)作信息?;诖笠?guī)模真實(shí)數(shù)據(jù)集與小幅度手勢(shì)數(shù)據(jù)集進(jìn)行了仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本算法的有效性。