葉茂華
(淮安信息職業(yè)技術(shù)學(xué)院,江蘇 淮安 223003)
基于CNN的手勢(shì)識(shí)別技術(shù)研究
葉茂華
(淮安信息職業(yè)技術(shù)學(xué)院,江蘇 淮安 223003)
手勢(shì)操作作為一種全新的操作方式,在智能設(shè)備中得到了廣泛應(yīng)用。傳統(tǒng)的手勢(shì)識(shí)別方法需要復(fù)雜的預(yù)處理過(guò)程,識(shí)別速度與準(zhǔn)確度比較差。文章提出一種基于CNN的手勢(shì)識(shí)別技術(shù),取得了較好的識(shí)別效果,識(shí)別速度也有明顯的提升。
卷積神經(jīng)網(wǎng)絡(luò);手勢(shì)識(shí)別;特征提取
隨著人工智能技術(shù)的快速發(fā)展,人機(jī)交互得到了極大的豐富,從打字、觸屏到語(yǔ)音,交互方式的發(fā)展給人們的操作帶來(lái)了便利和極佳的使用體驗(yàn)。近年來(lái),手勢(shì)操作得到了人們廣泛的重視,通過(guò)對(duì)用戶(hù)不同手勢(shì)的識(shí)別,系統(tǒng)能夠理解用戶(hù)的意圖并完成相應(yīng)的操作。本文主要利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)較強(qiáng)的容錯(cuò)性與魯棒性,提出了一種新的手勢(shì)識(shí)別技術(shù),實(shí)現(xiàn)了較好的手勢(shì)識(shí)別性能。
神經(jīng)網(wǎng)絡(luò)是一種利用仿生學(xué)原理,模仿大腦神經(jīng)突觸的信息處理過(guò)程而建立的網(wǎng)絡(luò)模型。CNN是一種局部激活的前饋型神經(jīng)網(wǎng)絡(luò),具有局部感受野、權(quán)值共享與降采樣三大基本特征。典型的CNN主要由輸入層、輸出層、卷積層、池化層以及全連接層組成,其典型網(wǎng)絡(luò)結(jié)果如圖1所示。
圖1 CNN結(jié)果
通過(guò)圖1可以看出,當(dāng)待處理圖像傳入輸入層后,需要經(jīng)過(guò)若干個(gè)卷積層與池化層的處理,通過(guò)若干個(gè)全連接層得到最終的輸出結(jié)果。在卷積層通過(guò)濾波掩膜對(duì)圖像進(jìn)行卷積操作,能夠?qū)崿F(xiàn)圖像局部特征的提取,CNN局部感受野的特征得到了體現(xiàn)。同時(shí)在同一卷積層中掩膜的參數(shù)保持一致,體現(xiàn)了CNN權(quán)值共享的特征。經(jīng)過(guò)卷積層的處理,圖像提取的特征進(jìn)入池化層進(jìn)行降采樣以減少后續(xù)數(shù)據(jù)的處理量,最大值池化是最常用的池化方式。通過(guò)上述處理,將提取的圖像特征拉伸為特征向量,再經(jīng)過(guò)若干全連接層后,即可實(shí)現(xiàn)圖像特征的較好分類(lèi)識(shí)別。
CNN主要包括各卷積層的掩膜參數(shù)、層與層間的傳遞權(quán)值等。這些參數(shù)需要利用大量的訓(xùn)練數(shù)據(jù)進(jìn)行優(yōu)化調(diào)節(jié),一般采用誤差反向傳遞傳播的方法,將誤差反向進(jìn)行傳遞,并根據(jù)誤差逐層調(diào)節(jié)模型參數(shù),最終達(dá)到較好的分類(lèi)識(shí)別性能。
CNN的復(fù)雜網(wǎng)絡(luò)結(jié)果、大規(guī)模的可設(shè)置參數(shù)賦予其較強(qiáng)的容錯(cuò)能力與魯棒性。一方面對(duì)圖像特征的提取具備平移、旋轉(zhuǎn)及尺度不變性,使得訓(xùn)練好的CNN模型能夠較好地適應(yīng)不同場(chǎng)景的識(shí)別問(wèn)題。另一方面CNN模型在訓(xùn)練中的調(diào)參過(guò)程耗時(shí)較長(zhǎng),一旦訓(xùn)練完成,其識(shí)別過(guò)程十分迅速,極大增強(qiáng)了CNN的實(shí)用價(jià)值。
傳統(tǒng)的手勢(shì)識(shí)別方法首先通過(guò)邊緣檢測(cè),提取手勢(shì)區(qū)域,之后利用邊緣特征、Hog特征、SIFT特征等實(shí)現(xiàn)手勢(shì)特征的提取,最后利用特征向量完成手勢(shì)的識(shí)別。這種方法學(xué)習(xí)能力較差,對(duì)場(chǎng)景的適應(yīng)性不足。因此基于CNN的手勢(shì)識(shí)別方法,具有較強(qiáng)的容錯(cuò)能力與適應(yīng)性。
在實(shí)際應(yīng)用中,手勢(shì)圖像通常只占全部圖像的一小部分,為了排除無(wú)關(guān)圖像對(duì)手勢(shì)識(shí)別可能造成的影響,需要對(duì)圖像進(jìn)行簡(jiǎn)單的預(yù)處理,主要包括手勢(shì)區(qū)域的檢測(cè)、分割與二值化操作。首先在較大尺度下,通過(guò)對(duì)人體軀干等結(jié)構(gòu)的識(shí)別并在彩色圖像中檢測(cè)手勢(shì)所在區(qū)域;其次利用圖像分割,將手勢(shì)區(qū)域分割出來(lái);然后將得到的手勢(shì)區(qū)域利用自適應(yīng)閾值對(duì)圖像進(jìn)行二值化操作,并將背景區(qū)域置0,手勢(shì)區(qū)域置1;最后再將手勢(shì)區(qū)域平移至圖像中心,并將圖像規(guī)范為統(tǒng)一大小,作為神經(jīng)網(wǎng)絡(luò)的輸入。
考慮到手勢(shì)區(qū)域的圖像不大,特征豐富度不高,因此本文采用了一種6層處理模型,具體如圖2所示。
圖2 CNN結(jié)果
第一層為卷積層C1,利用5×5的卷積掩膜對(duì)圖像進(jìn)行滑動(dòng)卷積,得到局部圖像的初級(jí)特征;第二層為池化層S2,對(duì)C1層得到的局部特征圖像進(jìn)行降采樣,利用2×2最大值池化掩膜實(shí)現(xiàn)特征數(shù)據(jù)的1/4降采樣;第三層為卷積層C3,利用5×5的卷積掩膜對(duì)池化得到的特征圖進(jìn)行進(jìn)一步特征提取,得到圖像的高級(jí)特征;第四層為池化層S4,進(jìn)一步利用2×2最大值池化掩膜并對(duì)C3層得到的圖像高級(jí)特征進(jìn)行降采樣;第五層為卷積層C5,與前兩卷積層不同,該層采用全連接方式,對(duì)S4層的全部特征進(jìn)行卷積操作,得到圖像的特征向量;第六層為全連接層F6,通過(guò)C5特征向量上的全連接權(quán)重和,最終得到長(zhǎng)度為10的識(shí)別結(jié)果向量。
CNN模型建立后,需要對(duì)其進(jìn)行訓(xùn)練,以實(shí)現(xiàn)模型參數(shù)的優(yōu)化調(diào)節(jié)。本文采用了Thomas Moeslund手勢(shì)識(shí)別數(shù)據(jù)庫(kù)作為訓(xùn)練樣本,選擇5類(lèi)手勢(shì)作為訓(xùn)練對(duì)象,每類(lèi)收拾選擇1 000張手勢(shì)圖片,其中每次迭代訓(xùn)練隨機(jī)選擇900張作為訓(xùn)練樣本,另外100張作為測(cè)試樣本,共計(jì)迭代10次,得到最終的CNN模型。
CNN模型訓(xùn)練完成后,利用數(shù)據(jù)集中已選取的測(cè)試樣本對(duì)模型的識(shí)別性能進(jìn)行測(cè)試,得到5種手勢(shì)的識(shí)別結(jié)果,結(jié)果如圖3和表1所示。
圖3 手勢(shì)示意
表1 手勢(shì)識(shí)別結(jié)果
通過(guò)仿真實(shí)驗(yàn)結(jié)果可以看出,模型對(duì)手勢(shì)1、手勢(shì)2以及手勢(shì)5的識(shí)別效果較好,均達(dá)到了100%的準(zhǔn)確識(shí)別率,而手勢(shì)3與手勢(shì)4出現(xiàn)了部分誤識(shí)別情況,這主要由于手勢(shì)3與手勢(shì)4中拇指的間距較小,同時(shí)相互區(qū)分度不大,才導(dǎo)致在不同拍攝角度產(chǎn)生誤識(shí)別情況??傮w來(lái)看,本文提出的基于CNN的手勢(shì)識(shí)別方法取得了較好的識(shí)別效果。
針對(duì)傳統(tǒng)手勢(shì)識(shí)別方法所存在的弊端,本文設(shè)計(jì)了針對(duì)手勢(shì)識(shí)別方法的CNN結(jié)構(gòu),并利用手勢(shì)數(shù)據(jù)集實(shí)現(xiàn)了網(wǎng)絡(luò)模型的訓(xùn)練與參數(shù)的調(diào)節(jié),最后通過(guò)仿真實(shí)驗(yàn)的結(jié)果可以證明該方法在實(shí)際生活中具有較強(qiáng)的應(yīng)用價(jià)值。
[1]蔡娟,蔡堅(jiān)勇,廖曉東,等.基于卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別初探[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2015(4):113-117.
[2]賈維闖,宮進(jìn),吳雄華.基于加速度的BP神經(jīng)網(wǎng)絡(luò)手勢(shì)識(shí)別設(shè)計(jì)[J].電子技術(shù)與軟件工程,2016(21):94.
[3]陳祖雪.基于深度卷積神經(jīng)網(wǎng)絡(luò)的手勢(shì)識(shí)別研究[D].西安:陜西師范大學(xué),2016.
Research on gesture recognition based on CNN
Ye Maohua
(Huai’an College of Information Technology, Huai’an 223003, China)
Gesture manipulation, as a new way of operation, has been widely applied in intelligent devices. Traditional gesture recognition methods generally need complex preprocessing with poor recognition speed and accuracy compared with the new. In this paper, a gesture recognition method based on convolutional neural network is proposed, good recognition results are achieved with recognition speed improved obviously.
convolutional neural network; gesture recognition; feature extraction
葉茂華(1981— ),男,江蘇淮安人,工程師,學(xué)士;研究方向:軟件工程。