徐 訪,黃 俊,陳 權(quán)
(重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065)
人機交互系統(tǒng)是人與機器之間交流與信息傳遞的橋梁[1]。傳統(tǒng)的人機交互需借助鼠標(biāo)、觸摸屏、相機等可輸入設(shè)備進行,傳遞的信息形式也由早期的編碼字符等發(fā)展成圖像、視頻的形式。隨著科技的發(fā)展以及人們對智能設(shè)備日益增多的應(yīng)用需求,目前,通過機器識別出肢體動作已成為熱門研究方向之一[2]。
手勢識別方法主要分為基于數(shù)據(jù)手套及基于視頻數(shù)據(jù)2 種方法。GRIMES 等[3]于1983 年發(fā)明了數(shù)據(jù)手套,里面的傳感設(shè)備將手部運動姿態(tài)等物理信息轉(zhuǎn)化為供計算機使用的數(shù)字信息并進行手勢識別。然而數(shù)據(jù)手套價格昂貴且過度依賴輔助設(shè)備,用戶體驗度不佳,難以推廣。在基于視覺數(shù)據(jù)的方法中,用戶無需佩戴數(shù)據(jù)手套等設(shè)備,僅配備攝像頭就可以實現(xiàn)手勢的識別,且識別的精度及速度均在可接受范圍內(nèi)。
傳統(tǒng)的基于視覺的動態(tài)手勢識別常見模型有隱馬爾科夫模型(HMM)[4]和動態(tài)時間規(guī)整(DTW)模型[5]。文獻[6]提出一種融合手勢全局運動和手指局部運動的手勢識別模型,根據(jù)關(guān)節(jié)坐標(biāo)和距離函數(shù)提取關(guān)鍵幀,利用支持向量機實現(xiàn)動態(tài)手勢識別及分類,該模型使用的手勢數(shù)據(jù)集存在局限性且沒有考慮手勢旋轉(zhuǎn)的情況;WANG 等[7]提出建立手勢三維軌跡特征向量和手形特征,再將識別結(jié)果進行融合的識別模型。雖然該模型能夠提升準(zhǔn)確率,但軌跡特征獲取步驟多,處理復(fù)雜。整體來說,傳統(tǒng)模型往往需要人工提取特征,少量特征的表征能力相對不足,而對復(fù)雜特征進行人工提取操作又十分困難,因此造成基于傳統(tǒng)手勢識別模型和評價指標(biāo)效果不佳的局面。
近年來,深度學(xué)習(xí)在目標(biāo)識別、分類任務(wù)等領(lǐng)域被廣泛使用。傳統(tǒng)的2D 卷積網(wǎng)絡(luò)對圖像具有很強的特征提取能力,但是不能很好地捕捉圖像間的時序關(guān)系,因此在對視頻連續(xù)幀的處理上極易丟失目標(biāo)信息。YU 等[8]提出了3D 卷積網(wǎng)絡(luò)(3DCNN)并用于人體行為識別,該網(wǎng)絡(luò)克服了傳統(tǒng)2DCNN 在視頻處理上的不足。TRAN 等[9]在3D 卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上提出三維CNN 模型并取得較好的性能,該研究主要提出了一種從視頻片段中提取時空特征的結(jié)構(gòu)。文獻[10]利用多向3D 卷積神經(jīng)網(wǎng)絡(luò)做特征融合并進行手勢識別,為了避免手勢視頻中冗余數(shù)據(jù)對網(wǎng)絡(luò)準(zhǔn)確率的影響,利用光流法對視頻進行關(guān)鍵幀提取,雖然該模型得到的實驗結(jié)果好于均勻采樣法,但該模型需要計算每幀的光流,在實際使用或是長視頻上計算消耗較大,可調(diào)參數(shù)的范圍有限。
為了從圖像中提取更完整的特征并進行識別和分類,卷積網(wǎng)絡(luò)的層數(shù)需越來越多。文獻[11-12]將ResC3D 應(yīng)用于手勢識別任務(wù)中并取得了較好效果,這也證明了網(wǎng)絡(luò)層次越深,模型的學(xué)習(xí)能力將會越強。Dense-TCNs 模型[13]將DenseNets 網(wǎng)絡(luò)[14]和增強時間卷積網(wǎng)絡(luò)(TCNs)應(yīng)用于手勢識別中并引入時域注意力機制,獲得了較高的準(zhǔn)確率,但在噪聲大的數(shù)據(jù)上模型正確率較低。除了使用RGB 信息外,基于深度圖像的動態(tài)手勢識別技術(shù)也被廣泛研究[15]。對于視頻序列中的時間信息,常使用LSTM 網(wǎng)絡(luò)。文獻[16]使用CNN 網(wǎng)絡(luò)和LSTM 網(wǎng)絡(luò)相結(jié)合的方式進行動態(tài)手勢的識別,其中CNN 網(wǎng)絡(luò)提取空間特征而LSTM 網(wǎng)絡(luò)提取時域特征,這為后續(xù)將空間域和時間域分開處理提供了經(jīng)驗。文獻[17]改進原有的CNN 架構(gòu),提出一種具有連續(xù)時間分類的R3DCNN 網(wǎng)絡(luò)進行手勢識別,該方法雖然對序列信息處理較好,但該方法的模型構(gòu)造以及預(yù)訓(xùn)練復(fù)雜,對于復(fù)雜環(huán)境不具有魯棒性。而KF+FF 模型[18]首先計算出每一幀的圖像熵,再對熵值做密度聚類計算從而選取關(guān)鍵幀,雖然能夠減少原始幀中的冗余信息,但僅針對野外場景,且魯棒性也有待提高。SIMONYAN 等[19]提出一種時空雙流卷積網(wǎng)絡(luò),并分別從RGB 圖像和疊加光流圖像中提取輸入視頻的時間特征和空間特征,最后進行特征融合以實現(xiàn)手勢分類。
在實際應(yīng)用中,由于動作執(zhí)行者的個人習(xí)慣、反應(yīng)速度等不同,導(dǎo)致采集到的視頻長度不同,又由于視頻中不含有手勢標(biāo)志幀,因此識別困難。本文提出一種具有分級網(wǎng)絡(luò)結(jié)構(gòu)的動態(tài)手勢模型,利用檢測器和分類器分步驟完成識別任務(wù),同時利用卷積核拆分法加快模型的訓(xùn)練和測試速度。
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)通常由卷積層、激活函數(shù)層、池化層和全連接層組成。而在實際的應(yīng)用中會根據(jù)應(yīng)用場景的不同對神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)和結(jié)構(gòu)做出相應(yīng)的調(diào)整。傳統(tǒng)的2D 卷積神經(jīng)網(wǎng)絡(luò)無法處理或需要與其他網(wǎng)絡(luò)組合視頻數(shù)據(jù)中連續(xù)幀的動作,因此本文使用3D 卷積神經(jīng)網(wǎng)絡(luò)對相鄰幀時間維度信息進行處理,3D 卷積過程表示為:
深度卷積神經(jīng)網(wǎng)絡(luò)的深度對最終的分類結(jié)果和識別準(zhǔn)確率的影響較大,以往的設(shè)計思路是把網(wǎng)絡(luò)設(shè)計的越深越好,然而實際卻并非如此。實驗結(jié)果表明,20層以上的深度網(wǎng)絡(luò),繼續(xù)增加網(wǎng)絡(luò)的層數(shù),分類的精度反而會降低,50 層網(wǎng)絡(luò)的測試誤差率約為20 層網(wǎng)絡(luò)的1 倍[20]。主要原因是隨著深度的增加梯度消失現(xiàn)象愈發(fā)明顯,網(wǎng)絡(luò)效果也隨之下降。HE 等[21]提出深度殘差網(wǎng)絡(luò),在網(wǎng)絡(luò)中引入恒等映射的設(shè)計,緩解了由于神經(jīng)網(wǎng)絡(luò)深度增加帶來梯度消失和網(wǎng)絡(luò)退化的問題。圖1(a)為普通模型使用的堆疊連接方式,其中殘差網(wǎng)絡(luò)使用的是用捷徑連接(shortcut connections)方式構(gòu)建的網(wǎng)絡(luò),如圖1(b)所示。
圖1 模型連接方式Fig.1 Model connection method
普通的深層神經(jīng)網(wǎng)絡(luò)輸出結(jié)果為:
殘差網(wǎng)絡(luò)使用捷徑連接,把輸入x直接傳到輸出端,使得輸出的結(jié)果變?yōu)椋?/p>
從式(2)和式(3)可知,普通的深層神經(jīng)網(wǎng)絡(luò)輸出結(jié)果需要調(diào)整內(nèi)部參數(shù)才能實現(xiàn)恒等映射F(x)=x,而殘差神經(jīng)網(wǎng)絡(luò)的殘差單元在學(xué)習(xí)一個殘差F(x)=H(x)-x,當(dāng)F(x)=0 后就可實現(xiàn)恒等映射。在增加模型的訓(xùn)練速度和效果的同時,網(wǎng)絡(luò)的深度也大幅增加。
單個完整的動態(tài)手勢動作可分為手勢開始、高潮和結(jié)束3 個部分,如圖2 所示。
圖2 完整手勢組成Fig.2 Complete gesture composition
針對在不帶有標(biāo)志幀的手勢視頻上進行動態(tài)手勢識別準(zhǔn)確率受影響的問題,本文利用傳統(tǒng)模型中分步驟完成任務(wù)的思路,將整個模型分為2級。第1級為手勢檢測器網(wǎng)絡(luò)模型,第2 級網(wǎng)絡(luò)為手勢分類器網(wǎng)絡(luò)模型。手勢檢測器模型首先進行實時檢測并判斷輸入視頻中是否包含手勢;之后將手勢檢測的結(jié)果保存在緩存隊列中,對緩存結(jié)果進行濾波操作;然后判斷是否啟動下一級分類器網(wǎng)絡(luò)。一旦第2 級網(wǎng)絡(luò)啟動,則能夠保證輸入到第2 級網(wǎng)絡(luò)的視頻段為手勢高潮部分,從而保證第2 級網(wǎng)絡(luò)提取圖像信息的有用性,避免不帶標(biāo)志幀視頻中手勢開始和結(jié)束部分的冗余數(shù)據(jù)對手勢分類準(zhǔn)確率造成影響。本文所提模型的整體框架如圖3 所示。
圖3 本文動態(tài)手勢識別模型整體框架Fig.3 Overall framework of dynamic gesture recognition model in this paper
由于3D 卷積核有3 個維度的信息,與傳統(tǒng)的2D卷積核相比,3D 卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)增加,這導(dǎo)致模型訓(xùn)練時間變長、訓(xùn)練速度變慢。本文受Inception-v3 模 型[22]中 將3×3 卷積核 分解為3×1 和1×3 這2 種卷積核從而加快模型訓(xùn)練速度的啟發(fā),將3D 卷積核拆分成如圖4 所示2 種卷積核的形式。圖4 中的t代表卷積核的時間維度,而w和h分別代表卷積核的寬度和高度。將尺寸為t×h×w的3D 卷積核拆分為1×h×w卷積核和t×1×1 卷積核形式,這兩種卷積核分別對輸入的視頻流進行操作,其中1×h×w卷積核對視頻流中的每幀圖像進行二維特征提取,而t×1×1 卷積核對視頻流進行深度卷積,提取相鄰運動幀之間的信息。
圖4 3D 卷積核拆分示意圖Fig.4 3D convolution kernel split diagram
本文改進網(wǎng)絡(luò)使用的基本結(jié)構(gòu)如圖5 所示。輸入的視頻數(shù)據(jù)被分成2 部處理,對其中的左半部分提取空間域特征,對右半部分提取運行特征。原始輸入經(jīng)過1×1×1 卷積核進行卷積操作后,可以使相加運算的特征圖個數(shù)相等。三維殘差網(wǎng)絡(luò)中基礎(chǔ)塊原有的3×3×3 卷積核參數(shù)個數(shù)為27 個,本文將卷積核進行拆分改進后的參數(shù)個數(shù)為2×(1×3×3+3×1×1)=24 個,卷積核的參數(shù)數(shù)量下降了11.11%。因此,改進后的3D 卷積核參數(shù)及整個網(wǎng)絡(luò)的參數(shù)將會減少,網(wǎng)絡(luò)訓(xùn)練和測試的速度得以加快。
圖5 網(wǎng)絡(luò)基本結(jié)構(gòu)Fig.5 Basic network structure
檢測器網(wǎng)絡(luò)需從手勢開始到結(jié)束保持工作狀態(tài)。與常見的18 層、34 層或更深的殘差網(wǎng)絡(luò)不同,本文所提檢測器網(wǎng)絡(luò)處在整個網(wǎng)絡(luò)的第1 級,故需要輕量級的檢測器模型從而保證較高的識別速度及準(zhǔn)確率。因此,本文在深度殘差結(jié)構(gòu)上改進以滿足對檢測器性能的要求,整個檢測器的層數(shù)為10,網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。
圖6 檢測器網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Detector network structure
檢測器網(wǎng)絡(luò)的輸入由連續(xù)的N幀圖像組成,每一幀圖像的高度和寬度均為112 像素。公共卷積層Conv 的卷積核尺寸為3×7×7。為保留時間維度上的信息,本文只在空間維度上進行2×2 的下采樣,第一個池化層使用步長為2 的最大池化,其余卷積層Layer1、Layer2、Layer3、Layer4 的模塊個數(shù)均為1。F為進行卷積操作后的特征通道數(shù),通道數(shù)分別為16、32、64、128 個,網(wǎng)絡(luò)在經(jīng)過所有卷積層、平均池化層和全連接層后,被送入Softmax 分類器中進行有無手勢的判斷。
本文在單次卷積操作之后均加入批量歸一化,使得每層神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中的平均值保持為0,方差保持為1,這樣有利于提高網(wǎng)絡(luò)的收斂速度,也可避免手勢離開相機視野等情況造成檢測器網(wǎng)絡(luò)誤判,從而降低整個分級網(wǎng)絡(luò)的整體性能。本文使用緩沖隊列保存檢測器網(wǎng)絡(luò)的原始結(jié)果,將檢測器網(wǎng)絡(luò)中本次檢測結(jié)果和前3 次結(jié)果進行中值濾波處理,從而獲得檢測器網(wǎng)絡(luò)的最終決策結(jié)果,并根據(jù)該結(jié)果判斷是否開啟下一級分類網(wǎng)絡(luò)。
目前在圖像或視頻分類領(lǐng)域有諸多性能優(yōu)異的模型,比如LeNet5、AlexNet、ResNet 等網(wǎng)絡(luò)模型。本文的分類器網(wǎng)絡(luò)在ResNeXt 模型上進行改進,ResNeXt 網(wǎng)絡(luò)將 原來基 礎(chǔ)模塊中的2 個3×3×3 卷 積核,先用1×1×1 卷積降維,然后用3×3×3 進行卷積,最后再用1×1×1 升維,以保證模型的精度,同時又減少了整體的參數(shù)數(shù)量。在此基礎(chǔ)上,本文將ResNeXt網(wǎng)絡(luò)基礎(chǔ)塊中的3×3×3 卷積核進一步拆分,以降低網(wǎng)絡(luò)的參數(shù),從而加速網(wǎng)絡(luò)訓(xùn)練和測試。
本文中分類器網(wǎng)絡(luò)的結(jié)構(gòu)模型和檢測器網(wǎng)絡(luò)大致相同,但是卷積層Layer1、Layer2、Layer3、Layer4的塊個數(shù)Block_Num 分別為3、24、36、3。每個卷積層對應(yīng)的輸出特征通道數(shù)F分別為:256、512、1 024、2 048。最后經(jīng)過2 層全連接層送入到Softmax 分類器中進行手勢的分類。分類器網(wǎng)絡(luò)模型的參數(shù)如表1 所示。
表1 分類器網(wǎng)絡(luò)參數(shù)設(shè)置Table 1 Classifier network parameter settings
本文模型先在Jester 數(shù)據(jù)集[23]上進行預(yù)訓(xùn)練,然后遷移到文獻[24]制作的EgoGesture 數(shù)據(jù)集上進行微調(diào)操作,最后與文獻中所述的VGG 網(wǎng)絡(luò)和C3D 網(wǎng)絡(luò)進行對比。EgoGesture 數(shù)據(jù)集包含83 類來自50 個不同 主體的2 081 個RGB-D 視 頻、24 161 個 手勢樣本和2 953 224 幀圖像。手勢的平均持續(xù)時間為38 幀。數(shù)據(jù)集按3∶1∶1 比例分為1 239 個訓(xùn)練集視頻、411 個驗證集視頻和431 個測試集視頻,分別具有14 416、4 768 和4 977 個手勢樣本。單個手勢視頻帶有手勢起始幀和手勢結(jié)束幀標(biāo)注。為得到不帶標(biāo)志幀的數(shù)據(jù)集,人為地將原有的開始和結(jié)束標(biāo)志幀去除,從而得到帶標(biāo)注幀和不帶標(biāo)注幀的2 個EgoGesture 數(shù)據(jù)集。
本文實驗采用的硬件環(huán)境為NVIDIA GeForce GTX 1080Ti 11 GB 顯 卡、Intel i7-8700K 6 核CPU、16 GB DDR4 內(nèi)存;軟件平臺為Ubuntu18.04 操作系統(tǒng),Python 3.6.10 版;PyTorch 為1.3.1;CUDA10.1.105版;cuDNN7.6.4。
在檢測器模型和分類模型的訓(xùn)練和測試時每個圖像的尺寸被隨機剪裁為112 像素×112 像素,并在整個手勢視頻的輸入中進行連續(xù)幀采樣,同時將整個訓(xùn)練集圖像進行歸一化操作。由于3D 卷積神經(jīng)網(wǎng)絡(luò)需要大量的訓(xùn)練數(shù)據(jù),為了避免過擬合,將模型訓(xùn)練中的損失函數(shù)定為交叉熵,并采用隨機梯度下降(Stochastic Gradient Descent,SGD)算法進行參數(shù)優(yōu)化。由于SGD 每次更新并不全會按照正確的方向進行,常存在波動的情況,使得收斂速度變慢。因此,將學(xué)習(xí)速率設(shè)置為0.01,每經(jīng)過10 次迭代,學(xué)習(xí)率減小為原來的1/10。為選取最佳的L2 正則化參數(shù)λ,本文選取常用的λ參數(shù)0.1、0.01、0.001、0.000 1,分別對不同的參數(shù)進行5 折交叉驗證。將訓(xùn)練集和驗證集中的40 個subjects 劃分為5 個子集,每個子集包含8 個subjects。其中分組1 的訓(xùn)練集為子集1~子集4,驗證集為子集5;分組2 的訓(xùn)練集為子集1~子集3和子集5,驗證集為子集4;依次至分組5 訓(xùn)練集為子集2~子集5,驗證集為子集1。對不同λ參數(shù)和每個分組在驗證集上得到的結(jié)果如表2 所示。
表2 不同λ 下的實驗準(zhǔn)確率Table 2 Experimental accuracy rate of different λ %
從表2 可知,不同的λ參數(shù)在驗證集上得到的平均準(zhǔn)確率存在較大區(qū)別。平均準(zhǔn)確率隨著λ參數(shù)的減小呈現(xiàn)先升后減的變化趨勢。本文中選取λ=0.001 可以使在驗證集上的平均準(zhǔn)確率最大。
對空間數(shù)據(jù)流卷積后的特征圖進行可視化,視頻幀原圖如圖7 所示。對于前面的卷積層來說,學(xué)習(xí)的是圖像的淺層特征,越往后的卷積層學(xué)習(xí)到的特征越高級。本文選取分類器第1 層的空間域卷積核進行特征可視化,此層存在256 個特征圖,本文選取了其中64 個進行可視化。分析可視化特征圖可知,空間卷積核能夠有效提取視頻幀的不同特征,如圖8 所示。
圖7 視頻幀原圖Fig.7 Original image of video frame
圖8 卷積特征Fig.8 Convolution feature
本文數(shù)據(jù)集手勢平均持續(xù)時間為38 幀,因此本文在測試時選取最大輸入幀數(shù)為32。表3 為檢測器模型在不同條件下的性能表。從表3 可以看出,本文設(shè)計的檢測器在手勢的檢測上準(zhǔn)確率達到99.61%。實驗結(jié)果表明,隨著輸入幀數(shù)的增大,檢測器模型的準(zhǔn)確率有所提升但幅度有限,且上升幅度呈減小趨勢,這與本文所選取數(shù)據(jù)集的平均手勢持續(xù)時間有關(guān)。從表3 中還可得知,在深度圖像模態(tài)下,模型識別準(zhǔn)確率均比RGB 模態(tài)下的要高,這是由于深度圖像能夠有效去除背景環(huán)境中光照、顏色等噪音干擾,使模型能更順利地獲取區(qū)別特征。
表3 本文檢測器模型在不同條件下的性能Table 3 Performance of the detector model in this paper under different conditions %
由于本文第1 級和第2 級網(wǎng)絡(luò)分別處理不同階段手勢,因此本文分類器模型不依賴于第1 級網(wǎng)絡(luò),可以單獨進行手勢的分類操作。針對有無標(biāo)志幀手勢視頻對識別準(zhǔn)確率造成影響的問題,本文將所設(shè)計的分類器模型與其他現(xiàn)有的分類模型在2 個EgoGesture 數(shù)據(jù)集上進行對比實驗,實驗結(jié)果如表4所示。
表4 標(biāo)志幀對不同分類器模型的影響Table 4 Affected flag frame of different classifier models %
從表4 可以看出,Dense-TCNs 模型利用DenseNet 和TCNs 網(wǎng)絡(luò)分別提取空域特征和時域特征,相對于經(jīng)典模型的準(zhǔn)確率有所提升。KF+FF 模型通過使用關(guān)鍵幀提取和特征融合方法提高了在RGB 模態(tài)上的準(zhǔn)確率。VGG 模型和C3D 模型均屬于經(jīng)典模型,但二維VGG 和ResNet-50 模型無法處理時間域信息,導(dǎo)致其準(zhǔn)確率遠低于C3D 模型。C3D+LSTM+RSTTM 模型能夠處理序列信息,這使得識別準(zhǔn)確率大幅提高。3D 形式的ResNeXt101 模型利用深度殘差網(wǎng)絡(luò)的性能優(yōu)勢,在帶標(biāo)志幀的數(shù)據(jù)集上的準(zhǔn)確率達到90.67%和91.75%。MTUT 則將多模態(tài)網(wǎng)絡(luò)信息嵌入到單模態(tài)網(wǎng)絡(luò),從而使單模態(tài)網(wǎng)絡(luò)達到較高的準(zhǔn)確率。此外,對于含有標(biāo)注手勢起始幀和手勢結(jié)束幀的輸入視頻流,模型的識別準(zhǔn)確率高于不帶有標(biāo)注幀的,這是因為帶有標(biāo)志幀的視頻流中已去除了非手勢高潮部分的同時,去除了手勢開始或結(jié)束階段中冗余數(shù)據(jù)和其他干擾,使最終的識別準(zhǔn)確率得以提高。這表明對于不帶有標(biāo)志幀的視頻數(shù)據(jù),視頻中的非核心部分將對最終的識別準(zhǔn)確率造成較大影響。由于深度模態(tài)輸入去除了背景中的干擾信息,因此識別準(zhǔn)確率高于在RGB 模態(tài)下的準(zhǔn)確率。本文設(shè)計的分類器隨著輸入的幀數(shù)的增加,識別準(zhǔn)確率增加的幅度在逐漸減小,這與本文選取數(shù)據(jù)集的平均手勢持續(xù)時間有關(guān)。由此可知,單純增加輸入幀數(shù)對提升準(zhǔn)確率作用不大。
從表3 可以看出,檢測器的輸入幀數(shù)對檢測器最終識別準(zhǔn)確率的影響不明顯。因此本文在整體性能測試時,選取檢測器輸入幀數(shù)為8,在不帶有手勢起始和結(jié)束標(biāo)志幀的數(shù)據(jù)集上對本文所提模型的整體性能測試結(jié)果如圖9(a)、圖9(b)所示。從圖9(a)可以看出,在RGB 模態(tài)下由于模型使用了預(yù)訓(xùn)練加速,準(zhǔn)確率在早期上升較快,但在經(jīng)歷30 個周期后準(zhǔn)確率趨于穩(wěn)定,不同輸入幀數(shù)的準(zhǔn)確率高達92.67%。而在圖9(b)所示的深度模態(tài)下,在經(jīng)歷25 個周期后,模型的準(zhǔn)確率趨于穩(wěn)定,準(zhǔn)確率高達93.35%。表5 所示為對本文所提模型整體測試的準(zhǔn)確率結(jié)果。
表5 本文所提模型準(zhǔn)確率Table 5 Accuracy rate of the method proposed in this article
圖9 不同條件下模型準(zhǔn)確率變化Fig.9 Model accuracy rate change under different conditions
結(jié)合表4 和表5 可知,與只使用分類器相比,本文提出使用分級網(wǎng)絡(luò)的模型在不帶有標(biāo)志幀的數(shù)據(jù)集上識別準(zhǔn)確率有較高的提升。此外,由于檢測器對手勢起始階段的檢測仍存在偏差,因此本文模型在識別準(zhǔn)確率上要略低于帶標(biāo)志幀的輸入視頻準(zhǔn)確率,但兩者差距較小,可以證明本文提出分級網(wǎng)絡(luò)模型的有效性。
本文選取檢測器網(wǎng)絡(luò)的輸入幀數(shù)為8,將本文所提模型和現(xiàn)有的模型在不帶標(biāo)志幀的數(shù)據(jù)集EgoGesture 上,以固定輸入16 幀的條件進行了對比實驗,結(jié)果如表6 所示。實驗結(jié)果表明,本文所提模型在不帶有標(biāo)志幀的EgoGesture 數(shù)據(jù)集上優(yōu)于現(xiàn)有模型。
表6 不同模型準(zhǔn)確率對比Table 6 Accuracy comparison of different model
Dense-TCNs 模型由于提取短時時空特征時依賴DenseNets 網(wǎng)絡(luò)的正確率,導(dǎo)致準(zhǔn)確率較低。KF+FF模型雖然在野外場景下的小型數(shù)據(jù)集上取得了極高的準(zhǔn)確率,但由于魯棒性較差,導(dǎo)致該模型在本文數(shù)據(jù)集包含的6 個室內(nèi)外場景上準(zhǔn)確率為86.22%,與本文所提方法相差4.74 個百分點。VGG 模型由于使用了對時間域信息缺乏處理能力的2D 卷積神經(jīng)網(wǎng)絡(luò),導(dǎo)致準(zhǔn)確率低于60%。C3D 模型利用3D 卷積對時空域良好的學(xué)習(xí)能力提高了準(zhǔn)確率,在RGB 模態(tài)和深度模態(tài)下的準(zhǔn)確率分別達到了83.70% 和85.53%,但與本文模型相比仍有差距,分別下降了7.26、6.29 個百分 點。ResNet50+HandPoseNet 模 型從姿態(tài)提取網(wǎng)絡(luò)中獲得手勢的坐標(biāo)信息并進行特征融合,大大提升了識別準(zhǔn)確率;C3D+LSTM+RSTTM模型采取C3D 網(wǎng)絡(luò)結(jié)合LSTM、遞歸時空變換模塊RSTTM 的方法,利用遞歸時空變換模塊能夠?qū)⑻卣鲌D轉(zhuǎn)換為更易分類的規(guī)范圖特點提升了準(zhǔn)確率,使該模型和本文模型的差距均縮小至4 個百分點左右。ResNeXt-101 模型由于深度殘差網(wǎng)絡(luò)良好的性能,在RGB 模態(tài)和深度模態(tài)下的準(zhǔn)確率分別高達87.92%和89.86%。MUTU 模型則利用多模態(tài)網(wǎng)絡(luò)信息并將多模態(tài)信息嵌入到單模態(tài)網(wǎng)絡(luò),提升了單模態(tài)網(wǎng)絡(luò)的準(zhǔn)確率,但和本文相比還存在一定差距。
本文提出一種具有分級結(jié)構(gòu)的識別模型,將手勢檢測網(wǎng)絡(luò)為第1 級,手勢分類網(wǎng)絡(luò)為第2 級。第1 級網(wǎng)絡(luò)作為下級網(wǎng)絡(luò)的啟動開關(guān),保證了輸入到第2 級網(wǎng)絡(luò)視頻流中圖像信息的有用性和提取網(wǎng)絡(luò)的完整性。在不帶標(biāo)志幀的EgoGesture 數(shù)據(jù)集上,與其他模型相比準(zhǔn)確率達到最高水平,說明本文所提模型在不帶標(biāo)志幀的動態(tài)手勢識別方面具有一定的優(yōu)越性。
本文所提模型將識別任務(wù)分成2 個階段,且采取三維卷積神經(jīng)網(wǎng)絡(luò)參數(shù)較多,可能對模型的整體耗時產(chǎn)生影響。此外,由于本文檢測器使用ResNet網(wǎng)絡(luò),而分類器模型主要在深度殘差網(wǎng)絡(luò)上進行改進,因此本文選取了ResNeXt101 模型進行耗時性分析。在相同的超參數(shù)設(shè)置情況下,對模型的訓(xùn)練時間(epochs=10)以及對識別速率進行驗證,實驗結(jié)果如表7 所示。
表7 與ResNeXt101 模型的對比Table 7 Comparison with ResNeXt101 network
通過對比訓(xùn)練時間可知,本文提出對3D 卷積核進行拆分的模型相對原有的ResNeXt101 模型減少了6.18%的訓(xùn)練時間,但本文的分級網(wǎng)絡(luò)模型使網(wǎng)絡(luò)整體的訓(xùn)練時間增加了1.93%,增加的部分時間主要由第1 級檢測器網(wǎng)絡(luò)對手勢檢測引起的。雖然本文所提模型在識別的速度上略有下降,但是仍可滿足實時性的要求。
在不帶有標(biāo)志幀的手勢視頻上進行動態(tài)手勢識別會導(dǎo)致準(zhǔn)確率下降。針對該問題,本文提出一種使用分級網(wǎng)絡(luò)完成識別任務(wù)的手勢識別模型。通過拆分3D卷積核避免3D卷積核參數(shù)過多和模型訓(xùn)練時間過長。實驗結(jié)果表明,本文模型能有效縮短模型訓(xùn)練時間,識別速度滿足實時性要求,且準(zhǔn)確率優(yōu)于Dense-TCNs、KF+FF、VGG 等模型。由于單一的RGB 數(shù)據(jù)或深度數(shù)據(jù)使模型對手勢的認(rèn)識仍存在一定偏差,因此,下一步將對模型進行特征融合以提高識別率和泛化能力,此外,還將擴展其在連續(xù)動態(tài)手勢識別場景下的應(yīng)用范圍。