陳影柔,田秋紅,楊慧敏,梁慶龍,包嘉欣
(浙江理工大學(xué) 信息學(xué)院,杭州 310018)
手勢(shì)識(shí)別作為一種新興的人機(jī)交互技術(shù),被廣泛應(yīng)用到虛擬現(xiàn)實(shí)系統(tǒng)、互動(dòng)游戲平臺(tái)、手語(yǔ)識(shí)別和控制機(jī)器人等領(lǐng)域[1–4],其最終目的是實(shí)現(xiàn)人機(jī)自然交互.最初的手勢(shì)識(shí)別通過(guò)佩戴內(nèi)置傳感器的物理設(shè)備來(lái)獲取手勢(shì)的空間信息,從而識(shí)別出手勢(shì)語(yǔ)義信息.佩戴物理設(shè)備的方式雖能提高手勢(shì)識(shí)別的準(zhǔn)確度,但在一定程度上影響了人機(jī)交互的自然性.因此,目前眾多學(xué)者轉(zhuǎn)向基于視覺(jué)的手勢(shì)識(shí)別研究.基于視覺(jué)的手勢(shì)識(shí)別利用圖像采集設(shè)備來(lái)捕捉手勢(shì)圖像,通過(guò)對(duì)手勢(shì)圖像分析以提取出手勢(shì)特征,進(jìn)而識(shí)別出手勢(shì)語(yǔ)義信息[5].手勢(shì)特征的選擇直接影響到手勢(shì)識(shí)別的準(zhǔn)確率.目前常見(jiàn)的手勢(shì)特征提取方法主要包括兩類:基于人工設(shè)計(jì)的手勢(shì)特征提取和基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)特征提取.基于人工設(shè)計(jì)的手勢(shì)特征提取通常針對(duì)特定的數(shù)據(jù)集來(lái)設(shè)計(jì)有效的手勢(shì)特征,從而進(jìn)行手勢(shì)建模.
Hu 矩特征和傅里葉描述子是常見(jiàn)的圖像特征,常用來(lái)描述圖像的輪廓信息,因其具有平移、旋轉(zhuǎn)和尺度不變性,常用來(lái)進(jìn)行手勢(shì)建模.Paulraj 等[6]利用從左右手勢(shì)圖像中提取的Hu 矩特征建立手勢(shì)圖像識(shí)別模型,該方法對(duì)手勢(shì)圖像的平均識(shí)別率為92.85%.Fernando 等[7]提出基于手部高寬度比與Hu 矩特征融合的手勢(shì)識(shí)別方法,該方法不受圖像背景和小范圍亮度變化的干擾.李丹嬌等[8]提出一種結(jié)合CSS 和傅里葉描述子的手勢(shì)特征提取方法.基于人工設(shè)計(jì)特征的手勢(shì)特征提取能夠提取出具有針對(duì)性的手勢(shì)特征,且對(duì)于具有相似背景的手勢(shì)圖像集識(shí)別效果較好.但該方法學(xué)習(xí)能力不強(qiáng),提取的手勢(shì)特征不能適應(yīng)多變的手勢(shì)背景環(huán)境.此外,在樣本量不斷增大的情況下,識(shí)別率不會(huì)顯著提高.另外,人手是非剛性物體,手勢(shì)的變換具有多樣性和復(fù)雜性,人工設(shè)計(jì)的手勢(shì)特征往往會(huì)忽略手勢(shì)的細(xì)節(jié)特征,導(dǎo)致對(duì)圖像的描述不夠完整,從而加大手勢(shì)識(shí)別的難度.
基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別方法可以從大量數(shù)據(jù)中自主學(xué)習(xí)手勢(shì)圖像的深層次特征.Pigou 等[9]構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)圖像識(shí)別系統(tǒng),該系統(tǒng)對(duì)20 種意大利手勢(shì)圖像的識(shí)別準(zhǔn)確率為91.7%.Bobi?等[10]將提取的手勢(shì)圖像的梯度方向直方圖作為網(wǎng)絡(luò)的輸入,利用多層前饋神經(jīng)網(wǎng)絡(luò)和反向傳播算法進(jìn)行訓(xùn)練,實(shí)現(xiàn)了手勢(shì)的準(zhǔn)確識(shí)別.Bheda 等[11]提出了一種利用深度卷積網(wǎng)絡(luò)對(duì)美國(guó)手語(yǔ)字母和數(shù)字圖像進(jìn)行分類的方法.Rao 等[12]對(duì)手語(yǔ)視頻幀進(jìn)行預(yù)處理、分割和特征提取,形成手語(yǔ)特征空間,并利用前饋網(wǎng)絡(luò)對(duì)提取的特征訓(xùn)練并進(jìn)行測(cè)試,該方法對(duì)手勢(shì)視頻的識(shí)別率為90%.Chai 等[13]利用Faster R-CNN 對(duì)手部區(qū)域進(jìn)行檢測(cè)和分割,并將手勢(shì)的彩色圖像和深度圖像作為卷積神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練,有效地提高了手勢(shì)識(shí)別率,但該方法在訓(xùn)練網(wǎng)絡(luò)時(shí)產(chǎn)生的參數(shù)量過(guò)多,降低了手勢(shì)識(shí)別效率.基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別方法雖能夠提取深層次的手勢(shì)圖像特征,有效地表征手勢(shì)圖像的全局語(yǔ)義信息,但該方法忽略了底層網(wǎng)絡(luò)提取的手勢(shì)局部特征.另外,目標(biāo)手勢(shì)在原圖中占比較小,手勢(shì)特征信息經(jīng)過(guò)層層卷積、池化等操作后,目標(biāo)手勢(shì)檢測(cè)的敏感度有所降低,而為了豐富手勢(shì)的特征信息,實(shí)現(xiàn)較高的識(shí)別精度,往往需要大量的數(shù)據(jù)集和較深的網(wǎng)絡(luò)層進(jìn)行訓(xùn)練,消耗了大量的運(yùn)行時(shí)間,難以保證手勢(shì)識(shí)別的實(shí)時(shí)性.另外,這兩類方法的研究手勢(shì)圖像中往往忽略脖子、手臂等干擾情況.
綜上所述,單一特征的手勢(shì)識(shí)別在復(fù)雜背景下的識(shí)別率有待提高,因此,本文提出了基于多特征加權(quán)融合的靜態(tài)手勢(shì)識(shí)別方法.該方法提取分割后的手勢(shì)圖像的傅里葉和Hu 矩等形狀特征,將兩者融合作為手勢(shì)圖像的局部特征,利用優(yōu)化的VGG 網(wǎng)絡(luò)和輕量級(jí)Alex-Net 網(wǎng)絡(luò)設(shè)計(jì)雙通道卷積網(wǎng)絡(luò)模型,用來(lái)提取手勢(shì)圖像的深層次特征,最后將分割后的手勢(shì)圖像的局部特征與手勢(shì)灰度圖像的深層次特征進(jìn)行加權(quán)融合,使融合后的特征更有效.手勢(shì)識(shí)別算法流程如圖1所示.
圖1 手勢(shì)識(shí)別算法總體框架
本文采取膚色聚類及腐蝕、膨脹等一系列形態(tài)學(xué)操作對(duì)手部區(qū)域進(jìn)行預(yù)處理[14],得到目標(biāo)手部區(qū)域[15],預(yù)處理流程如圖2所示.由于不同手勢(shì)的手部區(qū)域面積、手勢(shì)方向、手部形狀等均不相同,因此在手勢(shì)識(shí)別中通過(guò)形狀特征來(lái)描述手勢(shì)圖像的特征具有很大的優(yōu)勢(shì).傅里葉描述子可以提取手部形狀信息,Hu 矩則可以描述手部區(qū)域面積、重心與對(duì)稱性等細(xì)節(jié)特征.因此,將兩者融合能夠有效表達(dá)手勢(shì)圖像的局部特征,更好地區(qū)分不同的手勢(shì)圖像.
圖2 手勢(shì)預(yù)處理
傅里葉描述子(Fourier Descriptor,FD)是一種計(jì)算簡(jiǎn)單的手勢(shì)圖像形狀和邊界特征的表示方法[16].每個(gè)傅里葉描述符都具有物理意義,能夠兼顧描述手勢(shì)的局部特征和全局特征.因此,本文選擇傅里葉描述子作為手勢(shì)圖像局部特征的描繪子之一.首先提取手勢(shì)閉合輪廓信息,由輪廓圖像上各像素點(diǎn)的坐標(biāo)可得到手勢(shì)輪廓的傅里葉描述序列,如式(1)所示.
其中,Tu為邊界的傅里葉描述子,u=0,1,···,n?1.t(k)為輪廓像素點(diǎn)的復(fù)數(shù)坐標(biāo)序列.
為了保證手勢(shì)圖像在空間域中旋轉(zhuǎn)、平移以及尺度變換的穩(wěn)定性,需要對(duì)傅里葉描述子進(jìn)行歸一化.歸一化傅里葉描述子dv的定義如式(2)所示.
其中,u=2,3,···,n?1;v=1,2,···,n?2.將dv寫(xiě)成向量形式,則為手勢(shì)輪廓的傅里葉描述子特征向量.
Hu 矩能夠全面地描述手勢(shì)圖像的形狀特征,且不受手勢(shì)旋轉(zhuǎn)和縮放等因素的影響,因此本文采用Hu 矩特征提取手勢(shì)圖像的形狀及輪廓特征,并將其作為手勢(shì)圖像的局部特征.
手勢(shì)圖像的(r+s)階幾何矩可以定義為:
其中,V(i,j)是 點(diǎn)(i,j)處的灰度值,I和J分別是手勢(shì)圖像的寬度和高度,r,s=0,1,2,···.
則對(duì)應(yīng)的圖像的(r+s)階中心矩定義為:
Hu 矩特征包含手部區(qū)域的重心、手部區(qū)域的面積以及對(duì)稱性等局部特征,通過(guò)手勢(shì)圖像的二階和三階歸一化中心矩的線性組合可以構(gòu)造7 個(gè)不變矩,具體計(jì)算公式如下:
根據(jù)7 個(gè)不變矩的具體計(jì)算公式對(duì)手勢(shì)圖像進(jìn)行特征提取,形成的特征向量為H=(φ1,φ2,φ3,φ4,φ5,φ6,φ7).
使用Hu 矩和傅里葉描述子不能完整的描述手勢(shì)圖像的局部表征信息,導(dǎo)致對(duì)手勢(shì)圖像的描述不夠完整.另外,使用通用的特征描述子提取的特征不能適應(yīng)多變的手勢(shì)背景環(huán)境.此外,在樣本量不斷增大的情況下,人工設(shè)計(jì)手勢(shì)特征的方法在特征學(xué)習(xí)方面和識(shí)別率方面表現(xiàn)出了局限性.目前,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)已經(jīng)成為模式識(shí)別領(lǐng)域的研究熱點(diǎn)之一,其在特征提取階段表現(xiàn)出優(yōu)越性,因此普遍應(yīng)用在大規(guī)模圖像分類中.然而,由于目標(biāo)手勢(shì)在手勢(shì)圖像中占比較小,往往需要訓(xùn)練較深的網(wǎng)絡(luò)層來(lái)提高手勢(shì)識(shí)別的精度,但設(shè)計(jì)深層網(wǎng)絡(luò)容易產(chǎn)生冗余參數(shù),不僅容易產(chǎn)生過(guò)擬合問(wèn)題,而且影響手勢(shì)識(shí)別的實(shí)時(shí)性,而參數(shù)量較少的淺層網(wǎng)絡(luò)不足以滿足手勢(shì)特征表示.故本文設(shè)計(jì)了一種新的雙通道卷積神經(jīng)網(wǎng)絡(luò)特征提取方法來(lái)提取手勢(shì)圖像的深層次特征,以提高手勢(shì)識(shí)別精度和實(shí)時(shí)性.
本文采用輕量級(jí)AlexNet 網(wǎng)絡(luò)和優(yōu)化的VGG 網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型的子結(jié)構(gòu)來(lái)設(shè)計(jì)雙通道卷積神經(jīng)網(wǎng)絡(luò)模型,其結(jié)構(gòu)如圖3所示.
圖3 基于雙通道卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)圖像深層次特征提取
2.1.1 輕量級(jí)AlexNet 網(wǎng)絡(luò)
AlexNet 網(wǎng)絡(luò)是2012年提出的一種深度神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)構(gòu)圖如圖2(a)所示.該網(wǎng)絡(luò)包含8 個(gè)用于特征學(xué)習(xí)的網(wǎng)絡(luò)層,前5 個(gè)網(wǎng)絡(luò)層是用于手勢(shì)圖像特征提取的卷積層,后3 個(gè)是用于特征整合的全連接層.AlexNet 網(wǎng)絡(luò)采用隨機(jī)失活、ReLU 激活函數(shù)和截取圖像等方法有效地降低了網(wǎng)絡(luò)的過(guò)擬合概率,且通過(guò)重疊的最大池化豐富圖像特征.綜合上述優(yōu)點(diǎn),選取AlexNet 網(wǎng)絡(luò)作為手勢(shì)圖像的特征提取網(wǎng)絡(luò)之一,為了降低AlexNet 網(wǎng)絡(luò)的參數(shù)量,對(duì)AlexNet 網(wǎng)絡(luò)進(jìn)行壓縮,獲得輕量級(jí)AlexNet 網(wǎng)絡(luò).參數(shù)量對(duì)比如表1所示.
表1 AlexNet 網(wǎng)絡(luò)模型改進(jìn)及參數(shù)量變化
如表1所示,輕量級(jí)AlexNet 網(wǎng)絡(luò)相比于AlexNet網(wǎng)絡(luò),Conv4 和Conv5 的卷積核個(gè)數(shù)分別變?yōu)?8 和32,全連接層的神經(jīng)元個(gè)數(shù)變?yōu)?28,大大減少了參數(shù)量.2.1.2 優(yōu)化的VGG 網(wǎng)絡(luò)
VGG 是AlexNet 網(wǎng)絡(luò)的進(jìn)階版,共有A、B、C、D和E 等5 種網(wǎng)絡(luò)結(jié)構(gòu)[17],本文采用性能最好的VGG16網(wǎng)絡(luò)作為手勢(shì)圖像特征提取網(wǎng)絡(luò)之一,該網(wǎng)絡(luò)包含5 個(gè)塊結(jié)構(gòu),共有13 個(gè)卷積層,3 個(gè)全連接層,且卷積層之間用池化層分開(kāi).VGG 網(wǎng)絡(luò)采用多個(gè)3×3 卷積核,模仿出了更大的感受野,并減少了手勢(shì)識(shí)別模型訓(xùn)練產(chǎn)生的參數(shù)量.故本文選取VGG 網(wǎng)絡(luò)作為手勢(shì)圖像的特征提取網(wǎng)絡(luò)之一并對(duì)其進(jìn)行優(yōu)化,以提高網(wǎng)絡(luò)模型的性能和穩(wěn)定性.優(yōu)化后的VGG 網(wǎng)絡(luò)塊結(jié)構(gòu)如圖4所示,將批量歸一化(Batch Normalization,BN)層加到網(wǎng)絡(luò)模型中,在特征提取網(wǎng)絡(luò)中的每一層卷積層后加入BN 層,使得下一層卷積層的輸入特征與當(dāng)前層的特征服從相同的正態(tài)分布,實(shí)現(xiàn)手勢(shì)圖像的準(zhǔn)確分類.
圖4 VGG 網(wǎng)絡(luò)結(jié)構(gòu)圖
考慮到雙通道卷積神經(jīng)網(wǎng)絡(luò)生成的特征維度較大,易造成特征表示的繁冗以及計(jì)算效率的降低,因此,需要對(duì)提取的特進(jìn)行有效的降維.使用PCA 網(wǎng)絡(luò)進(jìn)行主成分分析是對(duì)多維數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析的方法之一[18].利用PCA 變換不僅減少了輸入信息量,而且將輸入集轉(zhuǎn)換為一組有序的獨(dú)立成分.因此,本文選用PCA 方法對(duì)雙通道卷積神經(jīng)網(wǎng)絡(luò)生成的高維特征進(jìn)行降維.PCA 降維算法如算法1.
算法1.PCA 降維算法X={X1,X2,···,Xm} C=1 m XXT 1 給定輸入向量,計(jì)算其協(xié)方差矩陣 .2 求出協(xié)方差矩陣的特征值及對(duì)應(yīng)的特征向量.K1>K2>···>Km>0 3 將特征值按照重要性排序 .4 將得到的特征向量按對(duì)應(yīng)特征值大小從上到下按行排列成矩陣,取前k 行組成矩陣P.Z=PX 5即為降維到k 維后的數(shù)據(jù).
由于手形的復(fù)雜性,只采取單一手勢(shì)特征無(wú)法實(shí)現(xiàn)手勢(shì)精準(zhǔn)分類,因此本文將提取的手勢(shì)局部特征和降維后的深層次特征進(jìn)行融合.由于雙通道卷積神經(jīng)網(wǎng)絡(luò)得到的深層次手勢(shì)特征識(shí)別結(jié)果優(yōu)于局部特征,因此將提取的手勢(shì)局部特征與手勢(shì)深層次特征進(jìn)行權(quán)重分配,以得到較高的識(shí)別率.
實(shí)驗(yàn)數(shù)據(jù)集共包含26 種手勢(shì),由30 位手語(yǔ)者采集而成,單張手勢(shì)圖像存在脖子、干擾手臂和復(fù)雜的背景區(qū)域.對(duì)于每位手語(yǔ)者,每種手勢(shì)采集50 張手勢(shì)圖像,包括不同背景、不同方向、不同光照的手勢(shì)圖像,該數(shù)據(jù)集的手勢(shì)圖像總數(shù)為39 000(=30×50×26)張.本實(shí)驗(yàn)將手勢(shì)圖像按照3:1 的比例設(shè)置訓(xùn)練集和測(cè)試集.部分手勢(shì)圖如圖5所示.
圖5 部分手勢(shì)圖像數(shù)據(jù)集
3.2.1 批處理大小及學(xué)習(xí)率的設(shè)置
為了選擇最優(yōu)的batch_size,本文對(duì)批處理大小(batch_size)進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖6所示.由圖6可知,當(dāng)batch_size為32 時(shí),損失值波動(dòng)幅度大且準(zhǔn)確率低,而batch_size64 和128 時(shí),損失值波動(dòng)均較小,準(zhǔn)確率提高均較快,且在一定迭代次數(shù)后batch_size為64 準(zhǔn)確率與batch_size為128 的準(zhǔn)確率基本相同.故在兼顧速度和準(zhǔn)確率兩方面因素,本文選用batch_size為64.
為了防止手勢(shì)圖像識(shí)別模型出現(xiàn)過(guò)擬合問(wèn)題,本文網(wǎng)絡(luò)的最大迭代次數(shù)設(shè)為60 000 次,通過(guò)指數(shù)衰減策略來(lái)更新訓(xùn)練過(guò)程中的學(xué)習(xí)率,學(xué)習(xí)率更新公式如式(10).
其中,global_steps為當(dāng)前的迭代次數(shù),lr為初始學(xué)習(xí)率,初值為0.001,decay_rate為學(xué)習(xí)率衰減系數(shù),初值為0.9,decay_steps為學(xué)習(xí)率衰減速度,初值為5000.
3.2.2 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比分析
為了驗(yàn)證本文所構(gòu)建的雙通道卷積神經(jīng)網(wǎng)絡(luò)提取手勢(shì)圖像的可行性,對(duì)自建數(shù)據(jù)庫(kù)中手勢(shì)圖像構(gòu)建四組網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn)研究,分別為:VGG 網(wǎng)絡(luò)模型、AlexNet 網(wǎng)絡(luò)模型、基于 VGG 和AlexNet 的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型、基于優(yōu)化的VGG 和輕量級(jí)AlexNet的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型.實(shí)驗(yàn)結(jié)果如圖7所示.本文提出的雙通道卷積神經(jīng)網(wǎng)絡(luò)模型減少了模型參數(shù)量,同時(shí)有效提高手勢(shì)圖像識(shí)別準(zhǔn)確率。
圖6 使用不同batch_size 訓(xùn)練網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果比較
為了進(jìn)一步驗(yàn)證本文提出方法的有效性,本文在ASL 公共手勢(shì)圖像數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)研究,得到識(shí)別準(zhǔn)確率為96.42%.與MPC 方法[19]、深度學(xué)習(xí)的CNN 方法、DBN 方法[20]和HSF-RDF[21]相比,識(shí)別準(zhǔn)確率有明顯提高,結(jié)果如表2所示.由此充分驗(yàn)證了提出方法的有效性.
圖7 不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)手勢(shì)圖像的識(shí)別效果
表2 不同方法對(duì)不同數(shù)據(jù)集的識(shí)別結(jié)果
3.2.3 VGG 網(wǎng)絡(luò)優(yōu)化
為了提高網(wǎng)絡(luò)穩(wěn)定性,本文在VGG 網(wǎng)絡(luò)模型中增加BN 層,其變化結(jié)果如圖8所示.由圖8可知:BN 層對(duì)網(wǎng)絡(luò)損失的穩(wěn)定性具有重要作用,添加BN 層后隨著迭代次數(shù)增加損失值迅速下降且穩(wěn)定,同時(shí)準(zhǔn)確率得到明顯提高.
圖8 添加BN 層的網(wǎng)絡(luò)模型對(duì)比
3.2.4 特征對(duì)比實(shí)驗(yàn)
基于雙通道卷積神經(jīng)網(wǎng)絡(luò)的特征提取方式雖然能提取手勢(shì)灰度圖像的深層次特征,但會(huì)引起前層網(wǎng)絡(luò)提取的手勢(shì)局部特征丟失.而手勢(shì)局部特征在相似背景下手勢(shì)圖像識(shí)別中起到了非常關(guān)鍵的作用[22].本文基于傅里葉描述子(Fourier Descriptor,FD)[16]和具有旋Hu 矩特征,構(gòu)建手勢(shì)識(shí)別方法進(jìn)行對(duì)比實(shí)驗(yàn).本文分別提取原始手勢(shì)圖像的傅里葉描述子、Hu 矩和傅里葉描述子與Hu 矩融合作為手勢(shì)圖像特征輸入到雙通道卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識(shí)別,如圖9所示.由圖9可知,本文方法比其他方法有較高準(zhǔn)確率,驗(yàn)證了本文提出方法的有效性.
圖9 不同特征組合的實(shí)驗(yàn)結(jié)果
3.2.5 不同權(quán)重比的設(shè)置
通過(guò)對(duì)ASL 公共手勢(shì)圖像數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),本文設(shè)計(jì)的雙通道網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率已達(dá)96.4%.但由于自建數(shù)據(jù)庫(kù)中每張手勢(shì)圖像均存在脖子、干擾手臂等復(fù)雜背景,現(xiàn)有方法的識(shí)別準(zhǔn)確率不高.故本文提出融合局部特征和深層特征方法進(jìn)行手勢(shì)識(shí)別提高復(fù)雜背景下手勢(shì)圖像識(shí)別率.為了驗(yàn)證局部特征和深層次特征在手勢(shì)特征表示中所起作用,賦予手勢(shì)局部特征不同的權(quán)重對(duì)圖5所示數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn).通過(guò)調(diào)整局部特征與深層次特征所占權(quán)重比不同,統(tǒng)計(jì)手勢(shì)識(shí)別率,結(jié)果如圖10所示.由圖10可知:當(dāng)手勢(shì)局部特征所占權(quán)重因子為0.3 時(shí),手勢(shì)識(shí)別率是一個(gè)拐點(diǎn),在其之前手勢(shì)識(shí)別率隨著局部特征權(quán)重比增加而提高,在其之后手勢(shì)識(shí)別率隨著局部特征權(quán)重比增加而降低,故由實(shí)驗(yàn)結(jié)果可知手勢(shì)局部特征所占權(quán)重因子為0.3最佳.
3.2.6 實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證本文提出方法對(duì)自建數(shù)據(jù)庫(kù)中手勢(shì)圖像的有效性,對(duì)自建數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)測(cè)試.與現(xiàn)有手勢(shì)數(shù)據(jù)庫(kù)(ASL)相比,自建數(shù)據(jù)集共包含26 種英文字母手勢(shì),且單張手勢(shì)圖像存在脖子、干擾手臂和復(fù)雜背景區(qū)域等,故現(xiàn)有方法難以實(shí)現(xiàn)對(duì)自建數(shù)據(jù)庫(kù)的準(zhǔn)確識(shí)別.為了減少手勢(shì)圖像中脖子、干擾手臂和復(fù)雜的背景區(qū)域等干擾信息,本文設(shè)計(jì)基于手臂分割獲取局部特征方法,解決深層次特征在卷積過(guò)程中局部信息丟失問(wèn)題.本文提出方法對(duì)圖5中每個(gè)手勢(shì)圖像分別提取FD 特征和Hu 矩特征兩局部特征,基于雙通道卷積神經(jīng)網(wǎng)絡(luò)提取手勢(shì)圖像的深層次特征;然后按照3:10 的權(quán)重將局部特征與深層次特征進(jìn)行融合,并將融合的特征作為Softmax 分類器的輸入訓(xùn)練靜態(tài)手勢(shì)圖像的識(shí)別模型進(jìn)行識(shí)別,每種字母手勢(shì)對(duì)應(yīng)的識(shí)別率如表3所示.由表3可知,對(duì)自建數(shù)據(jù)庫(kù)的26 個(gè)復(fù)雜背景下的靜態(tài)手勢(shì)圖像的識(shí)別準(zhǔn)確率均大于96%,識(shí)別準(zhǔn)確率高,26 個(gè)靜態(tài)手勢(shì)圖像的平均識(shí)別率為99.13%.
圖10 不同局部特征權(quán)重比下的手勢(shì)識(shí)別率
表3 字母手勢(shì)識(shí)別結(jié)果
本文提出了基于多特征加權(quán)融合的手勢(shì)識(shí)別方法.該方法使用傅里葉描述子和Hu 矩提取分割后的手勢(shì)圖像的形狀特征,將融合后的特征作為手勢(shì)圖像的局部特征.其次,對(duì)VGG 網(wǎng)絡(luò)模型和AlexNet 網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,并利用優(yōu)化的VGG 網(wǎng)絡(luò)和輕量級(jí)AlexNet網(wǎng)絡(luò)構(gòu)建雙通道卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提取手勢(shì)圖像的深層次特征,采用主成分分析方法對(duì)深層次特征進(jìn)行降維,并將降維后的特征與局部特征進(jìn)行加權(quán)融合,以充分利用手勢(shì)的各部分特征;最后,采用Softmax 分類器對(duì)輸入的特征進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果表明,提出的方法對(duì)手勢(shì)圖像的識(shí)別準(zhǔn)確率較高.雖然本文方法在進(jìn)行手勢(shì)圖像識(shí)別時(shí)取得了較好的效果,但是訓(xùn)練網(wǎng)絡(luò)模型仍需要較長(zhǎng)的學(xué)習(xí)時(shí)間,未來(lái)將致力于減少算法運(yùn)行時(shí)間,并將其應(yīng)用在大型數(shù)據(jù)集中.