何 堅(jiān),劉 炎,祖天奇
(1.北京市物聯(lián)網(wǎng)軟件與系統(tǒng)工程技術(shù)研究中心,北京 100124;2.北京工業(yè)大學(xué)信息學(xué)部,北京 100124)
近年來(lái),手勢(shì)識(shí)別技術(shù)在體感游戲、手語(yǔ)識(shí)別、輔助駕駛及智能家電控制等領(lǐng)域應(yīng)用廣泛.由于手勢(shì)在人機(jī)交互中的重要性,手勢(shì)識(shí)別系統(tǒng)的研究一直是人們關(guān)注的焦點(diǎn).根據(jù)文獻(xiàn)[1]的調(diào)查,自然手勢(shì)的表達(dá)大多是動(dòng)態(tài)的,通過(guò)人體手部和上半肢協(xié)調(diào)運(yùn)動(dòng)來(lái)完成.因此,動(dòng)態(tài)手勢(shì)相比靜態(tài)手勢(shì)在手勢(shì)表達(dá)中更為重要.
文獻(xiàn)[2-3]中對(duì)近年來(lái)的一些動(dòng)態(tài)手勢(shì)識(shí)別方法進(jìn)行了總結(jié).例如,Adewuyi等[4]結(jié)合手指和手臂肌肉的肌電圖數(shù)據(jù)對(duì)手部抓握和手指動(dòng)作進(jìn)行分類;Huang等[5]通過(guò)雙通道方法融合人體手部加速度、角速度及肌肉電數(shù)據(jù),再結(jié)合K鄰近(K-nearest neighber,KNN)算法識(shí)別手勢(shì);田元等[6]使用Kinect體感設(shè)備獲取人體的骨骼信息和深度圖信息,結(jié)合骨骼關(guān)節(jié)點(diǎn)位置及手指特征對(duì)手勢(shì)進(jìn)行實(shí)時(shí)識(shí)別.
上面提到的一些工作為了達(dá)到更好的識(shí)別效果使用了不止一種模態(tài)信息,這種情況稱為多模態(tài)方法[7].它們通常結(jié)合顏色信息(RGB格式)、深度圖信息和骨骼關(guān)節(jié)點(diǎn)信息來(lái)檢測(cè)識(shí)別手勢(shì).這種多源信息,如深度圖和骨架關(guān)節(jié),積極補(bǔ)充了顏色信息,有助于手勢(shì)分類[8],然而除RGB以外信息的獲取,通常需要特定的傳感器,如微軟的Kinect、華碩Xtion Pro或英特爾的Realsense3.這種對(duì)特定傳感器的依賴導(dǎo)致對(duì)交互環(huán)境的限制,影響手勢(shì)的自然表達(dá).相反,基于RGB視頻數(shù)據(jù)的動(dòng)態(tài)手勢(shì)識(shí)別技術(shù)具有使用方便、成本較低等優(yōu)點(diǎn),另外在許多公共空間也很容易找到監(jiān)控?cái)z像機(jī),交互環(huán)境更多.這也是促使人們致力于發(fā)展僅使用RGB視頻數(shù)據(jù)識(shí)別動(dòng)態(tài)手勢(shì)的原因之一.
之前的研究工作中,也有些工作僅將RGB視頻數(shù)據(jù)作為手勢(shì)識(shí)別的唯一信息來(lái)源,但只有少數(shù)工作者取得到了顯著的結(jié)果,如文獻(xiàn)[8-9].即便如此,這些研究中提到的好的識(shí)別效果也是在固定的幾類手勢(shì)動(dòng)作上實(shí)現(xiàn)的,這些手勢(shì)在表達(dá)時(shí)身體動(dòng)作差異較大,通常也會(huì)簡(jiǎn)化手勢(shì)識(shí)別的任務(wù).
最近,深度學(xué)習(xí)的一些方法在計(jì)算機(jī)視覺(jué)領(lǐng)域的幾個(gè)問(wèn)題上分別取得了最優(yōu)的結(jié)果[9-10],該類方法通常使用三維卷積網(wǎng)絡(luò)(3D convolutional neural networks,3DCNN)[11]、雙流融合網(wǎng)絡(luò)[12-13]、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)和長(zhǎng)短時(shí)記憶(long short term memory,LSTM)網(wǎng)絡(luò)組合的方式[14]來(lái)識(shí)別動(dòng)態(tài)手勢(shì).例如,Nunez等[15]通過(guò)CNN從連續(xù)手勢(shì)幀中提取人體的骨骼數(shù)據(jù)和手部骨骼數(shù)據(jù),再結(jié)合LSTM識(shí)別動(dòng)態(tài)手勢(shì);Al-Hammadi等[16]直接使用3DCNN識(shí)別動(dòng)態(tài)手勢(shì);Zhang等[17]將3DCNN和LSTM結(jié)合從視頻幀中學(xué)習(xí)手勢(shì)的時(shí)空特征圖,再利用CNN從該特征圖中學(xué)習(xí)更高層次的時(shí)空特征用于手勢(shì)識(shí)別.
文獻(xiàn)[13]中雙流融合的方法在HMDB51[18]和UCF101[19]2個(gè)人體動(dòng)作數(shù)據(jù)集上取得最佳識(shí)別效果.該方法通過(guò)2個(gè)卷積網(wǎng)絡(luò)分別提取連續(xù)人體動(dòng)作的空間特征和時(shí)序特征(光流),并探討對(duì)比不同光流提取算法及雙流融合方法對(duì)人體動(dòng)作識(shí)別效果的影響,證明雙向光流能較好表達(dá)人體運(yùn)動(dòng)信息.不過(guò)該方法應(yīng)用于手勢(shì)識(shí)別任務(wù)仍存在2個(gè)主要缺點(diǎn):1)未對(duì)不同時(shí)序幀的初始權(quán)重系數(shù)進(jìn)行考慮;2)空間通道直接對(duì)整幅視頻幀卷積操作,對(duì)較小手部特征關(guān)注度不足.
最近的一些研究發(fā)現(xiàn)注意力機(jī)制能夠幫助深度學(xué)習(xí)從眾多信息中抽選出對(duì)當(dāng)前任務(wù)目標(biāo)更為關(guān)鍵的信息[20],其核心思想是基于原有數(shù)據(jù)找到數(shù)據(jù)間的關(guān)聯(lián)性,進(jìn)而突出某些重要特征.而有效通道注意力 (efficient channel attention,ECA)[21]機(jī)制相比同類型注意力機(jī)制降低了模型的復(fù)雜度并獲得更高準(zhǔn)確度.受雙流融合網(wǎng)絡(luò)和ECA注意力機(jī)制啟發(fā),本文對(duì)雙流融合網(wǎng)絡(luò)進(jìn)行改進(jìn),結(jié)合有效通道注意力機(jī)制和單發(fā)多框檢測(cè)器技術(shù)(single shot multibox detector,SSD)[22]建立了基于視覺(jué)的動(dòng)態(tài)手勢(shì)識(shí)別模型,并在Chalearn 2013公開手勢(shì)數(shù)據(jù)集[23]上進(jìn)行實(shí)驗(yàn)驗(yàn)證.
手勢(shì)交互環(huán)境中,動(dòng)態(tài)手勢(shì)的形態(tài)主要由人體姿態(tài)及手部輪廓構(gòu)成,連續(xù)性手勢(shì)的表達(dá)涉及對(duì)其變化規(guī)律的考慮.雙流融合網(wǎng)絡(luò)的方法分別從空間和時(shí)間上提取手勢(shì)特征,對(duì)身體姿態(tài)差別較大的手勢(shì)識(shí)別較好,但對(duì)身體姿態(tài)相同手部具體形狀不同的手勢(shì)識(shí)別欠佳,如圖1所示(圖1中(a)(b)2個(gè)手勢(shì)在表達(dá)時(shí)身體動(dòng)作差別較大;(c)(d)2個(gè)手勢(shì)身體動(dòng)作相同但手部輪廓不同).分析原因是因?yàn)殡p流融合網(wǎng)絡(luò)在空間流中直接對(duì)整幅手勢(shì)圖像卷積操作,對(duì)較為明顯的人體姿態(tài)特征能夠有效提取,但對(duì)局部較小的手部輪廓特征關(guān)注不足.
圖1 不同手勢(shì)舉例Fig.1 Examples of different gestures
本文首先在雙流融合網(wǎng)絡(luò)中引入ECA注意力機(jī)制增強(qiáng)雙流識(shí)別算法對(duì)手勢(shì)關(guān)鍵幀的關(guān)注度;其次選取關(guān)注度最高的手勢(shì)幀提取手部輪廓特征;最后將補(bǔ)充的手部輪廓特征與雙流特征融合后分類識(shí)別手勢(shì).
表1中匯總了本文主要特征和有關(guān)映射函數(shù)的數(shù)學(xué)符號(hào)表示.
表1 主要符號(hào)和含義對(duì)應(yīng)表Table 1 Main symbols and associated meanings
相比靜態(tài)手勢(shì),動(dòng)態(tài)手勢(shì)的識(shí)別還需要考慮連續(xù)幀之間的手勢(shì)動(dòng)作變換規(guī)律.光流法是利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性來(lái)計(jì)算出相鄰幀之間人體運(yùn)動(dòng)信息的一種方法[24].另外,利用光流作為時(shí)序上的運(yùn)動(dòng)信息可以去除不同背景對(duì)手勢(shì)識(shí)別的影響.本部分參考雙流融合網(wǎng)絡(luò)的思想建立了動(dòng)態(tài)手勢(shì)雙流卷積網(wǎng)絡(luò)(gesture two-stream convolution network,GTSCN),該網(wǎng)絡(luò)分別從空間和時(shí)間上提取手勢(shì)表達(dá)中的人體姿態(tài)特征、運(yùn)動(dòng)特征,結(jié)構(gòu)如圖2所示.
圖2 GTSCN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 GTSCN network structure
對(duì)于一個(gè)輸入寬、高分別為w、h的手勢(shì)視頻,首先平均選取T幀手勢(shì)圖Xτ,X2τ,…,XTτ,將其堆疊作為雙流中空間卷積網(wǎng)絡(luò)的輸入,用來(lái)提取動(dòng)態(tài)手勢(shì)中的人體姿態(tài)特征G.其中每選取的2幀手勢(shì)圖之間相隔τ幀.
(1)
式中Pk表示從第τ幀(u,v)位置開始,沿著這個(gè)軌跡的第k個(gè)點(diǎn),用來(lái)記錄手勢(shì)在每一幀像素上的移動(dòng)軌跡,并且有如下遞推解釋:
(2)
以上建立的雙流卷積網(wǎng)絡(luò)模型分別從堆疊的手勢(shì)幀和光流幀中提取手勢(shì)特征.需要注意的是動(dòng)態(tài)手勢(shì)的表達(dá)是一個(gè)時(shí)序過(guò)程,注重手勢(shì)表達(dá)過(guò)程中易于區(qū)分的關(guān)鍵性動(dòng)作更能增強(qiáng)手勢(shì)的識(shí)別效果.
本文引入ECA通道注意力對(duì)輸入雙流卷積網(wǎng)絡(luò)中的手勢(shì)幀和光流幀的特征圖通道集合進(jìn)行加權(quán),用來(lái)提升手勢(shì)關(guān)鍵幀的關(guān)注度.
ECA的工作原理在于:通過(guò)學(xué)習(xí)每個(gè)特征圖通道在整個(gè)特征圖通道集合中的權(quán)重比例系數(shù),進(jìn)而增強(qiáng)權(quán)重較高特征圖通道的學(xué)習(xí).通過(guò)將手勢(shì)幀和光流幀按照時(shí)間順序堆疊(每個(gè)手勢(shì)幀和光流幀都可以看作一個(gè)特征圖通道),再結(jié)合ECA即可求取每個(gè)手勢(shì)幀和光流幀的加權(quán)權(quán)重,權(quán)重最高的即為動(dòng)態(tài)手勢(shì)表達(dá)過(guò)程中的關(guān)鍵幀.
另外,由于時(shí)序上堆疊的特征圖通道之間具有一定的局部周期性[26](時(shí)間間隔較遠(yuǎn)視頻幀之間的相關(guān)性更小),假設(shè)每個(gè)視頻幀對(duì)應(yīng)的特征圖通道僅與其鄰近k個(gè)特征圖通道相關(guān),依據(jù)ECA注意力機(jī)制的思想可結(jié)合每個(gè)特征圖通道的鄰近k個(gè)通道計(jì)算出該通道的局部加權(quán)權(quán)重
(3)
式中:C表示需要加權(quán)的特征圖通道集合;ci表示C中的第i層特征圖通道;σ表示Sigmoid激活函數(shù);函數(shù)g(·)表示全局平均池化.設(shè)k與C之間的映射關(guān)系為φ(·),依據(jù)ECA本文使用以下非線性函數(shù)映射φ(·)
(4)
式中:|num|odd表示將num向上舍入為最近的奇數(shù);γ、b為任意自然系數(shù),本文設(shè)γ=2、b=1.至此,識(shí)別動(dòng)態(tài)手勢(shì)關(guān)鍵幀的注意力機(jī)制模塊已建立.將輸入GTSCN網(wǎng)絡(luò)中的手勢(shì)幀集合X和光流幀集合I分別代入到式(3)中的C,即可求對(duì)應(yīng)通道的加權(quán)權(quán)重,進(jìn)而增強(qiáng)手勢(shì)關(guān)鍵幀的識(shí)別.
通過(guò)式(3)可計(jì)算出GTSCN空間卷積網(wǎng)絡(luò)中每一幀手勢(shì)的加權(quán)權(quán)重,由于手勢(shì)表達(dá)過(guò)程中的一些特定手部形態(tài)可以幫助區(qū)分不同手勢(shì),因此本文選取加權(quán)權(quán)重最高的手勢(shì)幀用來(lái)提取手部輪廓特征O,增強(qiáng)運(yùn)動(dòng)姿態(tài)相似但手部輪廓不同手勢(shì)的識(shí)別效果.
這里只選擇加權(quán)權(quán)重最高的手勢(shì)幀提取手部輪廓特征的考慮是:動(dòng)態(tài)手勢(shì)的表達(dá)是一個(gè)時(shí)序過(guò)程,手勢(shì)表達(dá)過(guò)程中的初始階段和結(jié)束階段包含信息不多,如果對(duì)每一幀的手勢(shì)都提取手部輪廓特征,作用性不強(qiáng)也增加計(jì)算復(fù)雜度.因此本文設(shè)計(jì)只提取關(guān)鍵幀的手部輪廓特征.
值得注意的是,GTSCN網(wǎng)絡(luò)中提取的人體姿態(tài)特征G和運(yùn)動(dòng)特征S具有像素級(jí)的對(duì)應(yīng)關(guān)系.以刷牙和梳頭2個(gè)動(dòng)作為例,如果一只手在某個(gè)空間位置周期性地移動(dòng),那么時(shí)間卷積網(wǎng)絡(luò)就能識(shí)別其運(yùn)動(dòng)軌跡,而空間卷積網(wǎng)絡(luò)就可以識(shí)別其形態(tài)(牙齒或毛發(fā)),將其組合就可以辨別動(dòng)作.因此本文首先在通道維度上堆疊特征G、S用來(lái)滿足特征圖層的像素級(jí)對(duì)應(yīng)關(guān)系,然后使用三維卷積和三維池化對(duì)特征G、S進(jìn)行融合,最后設(shè)計(jì)在全連接層拼接手部輪廓特征O,有
F=R(ψ(G⊕S))⊕O
(5)
式中:⊕表示變量拼接或通道堆疊;ψ(·)表示對(duì)變量進(jìn)行三維卷積和三維池化;R(·)表示將變量轉(zhuǎn)換為一維變量.最后F通過(guò)全連接層即可計(jì)算每類手勢(shì)的預(yù)測(cè)概率pi,預(yù)測(cè)概率最大pmax即可作為最終的預(yù)測(cè)手勢(shì).
本文建立的動(dòng)態(tài)手勢(shì)識(shí)別機(jī)如圖3所示,由通道注意力模塊、手部輪廓特征提取網(wǎng)絡(luò)、雙流卷積網(wǎng)絡(luò)、特征融合及分類模塊構(gòu)成,其中雙流卷積網(wǎng)絡(luò)中的空間卷積網(wǎng)絡(luò)和時(shí)間卷積網(wǎng)絡(luò)均均采用VGG16[27]構(gòu)建,其他部分的構(gòu)建方法將在本節(jié)逐一介紹.
圖3 動(dòng)態(tài)手勢(shì)識(shí)別框架Fig.3 Dynamic gesture recognition frame
本文選用ECA來(lái)構(gòu)建通道注意力模塊,圖4即為ECA結(jié)構(gòu)的示意圖.對(duì)于輸入通道為C的手勢(shì)幀和光流幀,首先使用全局平均池化操作(golbal average pooling,GAP)將每一層的特征圖通道ci都映射為一個(gè)單一變量li.這里使用該操作的原因是:為保障求取各個(gè)視頻幀對(duì)應(yīng)特征圖通道權(quán)重系數(shù)的合法性,應(yīng)該結(jié)合整個(gè)通道的空間上下文信息,另外將整個(gè)特征圖通道映射為單一變量也可以減少網(wǎng)絡(luò)的訓(xùn)練參數(shù),進(jìn)而降低模型復(fù)雜度.全局平均池化操作的工作原理為:利用當(dāng)前特征圖通道中所有位置像素值的平均值用來(lái)表達(dá)整個(gè)特征圖通道的信息.
圖4 注意力機(jī)制模塊圖Fig.4 Attention module diagram
其次,需要結(jié)合每個(gè)特征圖通道對(duì)應(yīng)變量的鄰近k個(gè)變量計(jì)算出當(dāng)前特征圖通道的加權(quán)權(quán)重vi(時(shí)序上堆疊的特征圖通道具有一定的局部周期性,鄰近的特征圖通道之間相互影響,可只計(jì)算每個(gè)通道在其鄰域內(nèi)的加權(quán)權(quán)重).vi的計(jì)算表達(dá)式為
(6)
最后,使用Sigmoid激活函數(shù)將每個(gè)特征圖通道的權(quán)重歸一化到[0,1]范圍內(nèi)再結(jié)合輸入數(shù)據(jù)即可得到加權(quán)后的特征圖通道集合.?表示乘法操作.
其中,向量L和向量V之間的映射矩陣為
(7)
式中:第i行第k個(gè)非零元素wi,k即表示第i個(gè)特征圖通道鄰近的第k個(gè)特征圖通道對(duì)其影響權(quán)重.
輸入空間卷積網(wǎng)絡(luò)中的連續(xù)手勢(shì)幀經(jīng)過(guò)ECA模塊可選出手勢(shì)表達(dá)過(guò)程中的關(guān)鍵幀,然后再利用手勢(shì)輪廓特征提取網(wǎng)絡(luò)可從關(guān)鍵幀中提取手部輪廓特征,用來(lái)彌補(bǔ)雙流融合網(wǎng)絡(luò)對(duì)較小手部輪廓檢測(cè)不足的問(wèn)題.需要注意的是,多生物特征融合雖然可以提高識(shí)別系統(tǒng)的準(zhǔn)確性,但也無(wú)疑提高了計(jì)算復(fù)雜度.
SSD作為一種多尺度、高精度的目標(biāo)檢測(cè)技術(shù),能夠快速識(shí)別圖片中物體的位置及類別,因此本部分引用SSD技術(shù)從手勢(shì)關(guān)鍵幀中提取手部輪廓特征,圖5即為本文所用SSD網(wǎng)絡(luò)架構(gòu).其中卷積層conv_8~conv_11分別從不同尺度的特征圖中提取手部輪廓進(jìn)行分類,旨在解決不同用戶的不同手部大小對(duì)手部輪廓分類的影響.該方法的具體實(shí)現(xiàn)思路是:首先,在多個(gè)不同尺度特征圖層的每個(gè)像素點(diǎn)周圍預(yù)設(shè)幾個(gè)候選框;然后,針對(duì)每個(gè)候選框都預(yù)測(cè)距離真正手部位置的偏移量及各類手部輪廓的置信度;最后,選擇偏移量較小候選框中置信度最高的類別作為最終的手部輪廓類別.
圖5 手部輪廓特征提取網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 Network structure diagram of hand contour feature extraction
本文建立的特征融合及手勢(shì)分類結(jié)構(gòu)如圖6所示,其中ψ(·)表示對(duì)變量進(jìn)行三維卷積和三維池化操作,R(·)表示將變量轉(zhuǎn)換為一維變量,⊕表示變量拼接或通道堆疊,F(xiàn)C表示全連接層.對(duì)于GTSCN雙流網(wǎng)絡(luò)中提取的人體姿態(tài)特征圖G和手勢(shì)運(yùn)動(dòng)特征圖S,首先,在通道維度上進(jìn)行堆疊并使用三維卷積和三維池化操作融合特征G、S形成動(dòng)態(tài)手勢(shì)的雙流特征D;其次,將融合后的雙流特征D轉(zhuǎn)換成一維變量,并與手部輪廓特征O進(jìn)行變量拼接;最后,使用全連接層進(jìn)行分類得到最終的手勢(shì)識(shí)別類型.
圖6 特征融合分類模塊示意圖Fig.6 Feature fusion and classification module diagram
其中,全連接層的作用在于:通過(guò)多次線性變換求取融合后的手勢(shì)特征F屬于每一類手勢(shì)類型的概率,概率最高的即為最終的手勢(shì)類型.另外,本文的損失函數(shù)定義為交叉熵?fù)p失函數(shù)(全連接層的多分類任務(wù)常使用該損失函數(shù)),即
(8)
式中:M表示手勢(shì)類型個(gè)數(shù);pi表示手勢(shì)屬于第i個(gè)類型的概率.
為驗(yàn)證本方法的泛化性,本文選擇公開的Chalearn 2013意大利手語(yǔ)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).該數(shù)據(jù)集使用Kinect傳感器以每秒20幀的速度記錄了27個(gè)用戶在不同背景下的手勢(shì)詞匯表達(dá),其中共包含20個(gè)手勢(shì)分類,每個(gè)手勢(shì)的時(shí)長(zhǎng)在50幀左右,并提供RGB、RGB-D、骨架、用戶輪廓多種模態(tài)信息.另外該數(shù)據(jù)集共計(jì)13 858個(gè)樣本,其中訓(xùn)練集7 754個(gè)、驗(yàn)證集3 362個(gè)、測(cè)試集2 742個(gè).本文使用該數(shù)據(jù)的RGB模態(tài)數(shù)據(jù)與其他僅使用RGB信息的動(dòng)態(tài)手勢(shì)識(shí)別方法進(jìn)行了對(duì)比.
3.2.1 雙流結(jié)構(gòu)
本文設(shè)計(jì)GTSCN網(wǎng)絡(luò)中的空間和時(shí)間卷積網(wǎng)絡(luò)均采用VGG16特征提取網(wǎng)絡(luò)構(gòu)建,包含5個(gè)卷積層和3個(gè)全連接層,有關(guān)VGG16的具體參數(shù)設(shè)置可參考文獻(xiàn)[27].
由于Chalearn 2013視頻數(shù)據(jù)的分辨率為640×480,因此對(duì)于空間卷積網(wǎng)絡(luò),首先按照手勢(shì)樣本的開始幀和結(jié)束幀在中間平均選取T幀;然后從這T幀手勢(shì)圖中隨機(jī)剪裁480×480的區(qū)域并縮放到224×224的分辨率大小;最后將堆疊的維度為224×224×T的手勢(shì)幀輸入到空間卷積網(wǎng)絡(luò).
對(duì)于時(shí)間卷積網(wǎng)絡(luò),首先按照式(1)計(jì)算出選取T幀手勢(shì)圖中每一幀手勢(shì)的光流圖集合,然后將堆疊的維度為224×224×2L×T的光流圖輸入到時(shí)間卷積網(wǎng)絡(luò).
3.2.2 手部輪廓特征提取網(wǎng)絡(luò)
本文截取Chalearn 2013視頻數(shù)據(jù)的手勢(shì)幀標(biāo)注左右手候選框及對(duì)應(yīng)手部輪廓類型,進(jìn)而訓(xùn)練手部輪廓特征提取網(wǎng)絡(luò).具體實(shí)現(xiàn)步驟如下:
步驟1在38×38的conv_4、19×19的conv_7、10×10的conv_8、5×5的conv_9、3×3的conv_10、1×1的conv_11六個(gè)不同尺度特征圖層中預(yù)設(shè)多個(gè)手部標(biāo)記候選框.其中,每一個(gè)候選框都需要預(yù)測(cè)以下2點(diǎn)信息:候選框中的手部輪廓類型p;左下角及右上角2個(gè)頂點(diǎn)坐標(biāo)(xmin,ymin)、(xmax,ymax)距離真正手部位置的偏移量.
步驟2針對(duì)這6個(gè)特征圖層中的每一個(gè)候選框,都使用5個(gè)卷積過(guò)濾器利用卷積操作的方式得到預(yù)測(cè)的4個(gè)坐標(biāo)偏移量及手部輪廓類型置信度.
步驟3將各個(gè)候選框中預(yù)測(cè)的手部輪廓類型置信度從大到小排序,選取置信度最高的候選框作為其中一個(gè)手的真實(shí)框,并將其預(yù)測(cè)的手部輪廓類型和位置坐標(biāo)作為該手部的預(yù)測(cè)結(jié)果.
步驟4計(jì)算剩余候選框與當(dāng)前真實(shí)框的重疊度(intersection over union,IOU),并根據(jù)預(yù)設(shè)的重疊度閾值IOUt過(guò)濾掉一部分候選框(若上一步已確定左手的真實(shí)框,則可以過(guò)濾掉剩余所有左手的候選框,本文設(shè)置IOUt為0.5).然后從剩余候選框中選擇預(yù)測(cè)置信度最高的作為另外一個(gè)手的真實(shí)框.重疊度的計(jì)算公式為
(9)
式中boxi表示第i個(gè)候選框的面積.
另外,由于Chalearn2013手勢(shì)數(shù)據(jù)集中的左右手輪廓在視頻圖片中占比較小,因此本文按照式(10)對(duì)SSD默認(rèn)候選框的歸一化尺度做了調(diào)整,即
(10)
實(shí)驗(yàn)時(shí)標(biāo)注的左右手候選框大小與視頻畫面的尺度比多數(shù)為0.05~0.30,因此本文設(shè)計(jì)手部輪廓候選框的歸一化尺度見表2.
表2 手部輪廓候選框的歸一化尺度Table 2 Normalized scale of the hand contour candidate box
3.2.3 特征融合及分類模塊
本文設(shè)計(jì)的特征融合及手勢(shì)分類結(jié)構(gòu)如圖6所示.其中,三維卷積核的維度為3×3×3,步長(zhǎng)為1;三維池化的維度為2×2×2,步長(zhǎng)為2(最大池化).另外,本文在全連接層后面添加softmax激活函數(shù)預(yù)測(cè)手勢(shì)類別.
在顯卡為NVIDIA Titan X、處理器為Intel Xeon ES的實(shí)驗(yàn)環(huán)境下,本文方法與之前在該數(shù)據(jù)集上的最佳手勢(shì)識(shí)別結(jié)果進(jìn)行了對(duì)比,如表3中所示.
表3 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Results of different methods
文獻(xiàn)[28]中設(shè)計(jì)的耦合隱式馬爾可夫算法(coupled hidden Markov model,CHMM)僅使用RGB信息在該數(shù)據(jù)集上獲得了之前的最佳手勢(shì)識(shí)別效果,準(zhǔn)確率為60.07%.該方法通過(guò)集成2個(gè)或多個(gè)隱式馬爾可夫鏈(HMM)學(xué)習(xí)不同鏈隱藏節(jié)點(diǎn)的相互作用,進(jìn)而增強(qiáng)單HMM的識(shí)別效果.本文一開始設(shè)計(jì)的GTSCN網(wǎng)絡(luò)結(jié)構(gòu)分別從空間卷積網(wǎng)絡(luò)和時(shí)間卷積網(wǎng)絡(luò)中獲取手勢(shì)的時(shí)空上下文信息,實(shí)驗(yàn)準(zhǔn)確率為64.57%;結(jié)合ECA注意力機(jī)制后實(shí)驗(yàn)準(zhǔn)確率為65.84%;再通過(guò)補(bǔ)充SSD提取的手部輪廓特征后獲得了66.23%的識(shí)別效果.
由上述分析可知,通過(guò)結(jié)合通道注意力和手部輪廓特征,可有效提高雙流融合網(wǎng)絡(luò)的手勢(shì)識(shí)別準(zhǔn)確率.
本文也實(shí)驗(yàn)對(duì)比了不同特征融合策略對(duì)手勢(shì)識(shí)別結(jié)果的影響,如表4所示.Max方法表示選取特征G、S在相同空間位置特征圖通道的最大值作為雙流融合特征,Sum方法表示選取特征G、S在相同空間位置特征圖通道的和作為雙流融合特征.實(shí)驗(yàn)結(jié)果表明利用三維卷積和三維池化能夠更好地提高手勢(shì)識(shí)別準(zhǔn)確率,分析原因是與二維卷積、二維池化相比,三維卷積、三維池化能更好地從視頻序列中學(xué)習(xí)人體手勢(shì)的運(yùn)動(dòng)變化規(guī)律,其卷積和池化操作都是在時(shí)空上執(zhí)行,而二維卷積和二維池化僅在空間上完成.
表4 不同特征融合策略對(duì)實(shí)驗(yàn)結(jié)果影響對(duì)比Table 4 Effect of different feature fusion strategies on experimental results
另外,在本文的實(shí)驗(yàn)環(huán)境中,SSD識(shí)別關(guān)鍵幀中的手部輪廓類型約耗時(shí)50 ms,相鄰兩幀之間的光流計(jì)算約耗時(shí)11 ms(光流在視頻播放過(guò)程中采取實(shí)時(shí)計(jì)算),識(shí)別的總體延遲時(shí)間在200 ms以內(nèi),因此本文的手勢(shì)識(shí)別方法可基本滿足實(shí)時(shí)性要求.
1)提出了一種基于RGB視頻數(shù)據(jù)的動(dòng)態(tài)手勢(shì)識(shí)別模型.首先依據(jù)雙流融合網(wǎng)絡(luò)的思想構(gòu)造了GTSCN網(wǎng)絡(luò),用來(lái)提取動(dòng)態(tài)手勢(shì)中的人體姿態(tài)特征、運(yùn)動(dòng)特征;其次設(shè)計(jì)在GTSCN網(wǎng)絡(luò)中引入ECA注意力增強(qiáng)手勢(shì)關(guān)鍵幀的學(xué)習(xí),并結(jié)合SSD提取手部輪廓特征;最后通過(guò)全連接層分類識(shí)別手勢(shì).
2)通過(guò)在Chalearn 2013公開手語(yǔ)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明結(jié)合ECA和SSD可以增強(qiáng)雙流算法對(duì)相似手勢(shì)的識(shí)別效果.
3)下一步研究計(jì)劃是針對(duì)本文提出的模型開發(fā)設(shè)計(jì)一個(gè)手勢(shì)識(shí)別系統(tǒng),將實(shí)時(shí)拍攝到的手勢(shì)視頻轉(zhuǎn)換為對(duì)應(yīng)文本含義.