陳梯,孫杳如
(同濟(jì)大學(xué)電子與信息工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,上海 201804)
當(dāng)前社會(huì),人機(jī)交互技術(shù)成為了愈加熱門(mén)的研究領(lǐng)域,而通過(guò)手勢(shì)與計(jì)算機(jī)設(shè)備交互則是一種最直接的方式,手勢(shì)識(shí)別的研究因此而生。最初主要是利用專(zhuān)用硬件設(shè)備進(jìn)行輸入,最常見(jiàn)的數(shù)據(jù)手套就是一種通過(guò)人手佩戴來(lái)獲取位置信息,手指伸展信息的設(shè)備。外部設(shè)備的介入雖然可以提高識(shí)別的準(zhǔn)確度和穩(wěn)定性,但卻違背了手勢(shì)自然的表達(dá)方式。于是,基于視覺(jué)的手勢(shì)識(shí)別成為一種必然趨勢(shì)。Pallavi Gurjal和Kiran Kunnur等人提出利用尺度不變性特征變換(SIFT)特征,對(duì)美國(guó)手語(yǔ)26個(gè)英文字母(A-Z)進(jìn)行識(shí)別并取得良好效果[1]。Jiatong Bao和Aiguo Song等人則利用快速魯棒性特征(SURF)同樣對(duì)26個(gè)英文字母進(jìn)行手勢(shì)識(shí)別,識(shí)別率為87.1%[2]。楊全、彭進(jìn)業(yè)則利用Kinect攝像頭獲取字母的手語(yǔ)視頻,對(duì)實(shí)時(shí)圖像提取SIFT特征,利用SVM進(jìn)行訓(xùn)練和識(shí)別,解決了復(fù)雜背景下手勢(shì)的檢測(cè)分割難題,也取得了不錯(cuò)的識(shí)別效果[3]。胡章芳和楊麟也是利用SURF特征對(duì)每個(gè)手語(yǔ)字母進(jìn)行了150次實(shí)驗(yàn)后得到了97.7%的平均識(shí)別率[4]。Mahmud H和Hasan M K等人同樣對(duì)手勢(shì)圖像提取SIFT特征,然后利用SVM用于訓(xùn)練和識(shí),并獲得了很好的識(shí)別率[5]。
基于上述工作,本文提出一種基于深度圖像提取SURF特征和隱馬爾可夫模型(HMM)的手語(yǔ)識(shí)別方法。不同于一般的攝像頭,本次實(shí)驗(yàn)采用的數(shù)據(jù)集是由Kinect攝像頭拍攝的視頻序列,因此可以基于深度信息進(jìn)行手勢(shì)分割,提取實(shí)時(shí)手勢(shì)圖像,并且利用SURF算法對(duì)提取的手勢(shì)圖像進(jìn)行分析,提取特征序列,輸入到HMM中進(jìn)行訓(xùn)練和識(shí)別,一定程度上解決了光照變化、角度旋轉(zhuǎn)和復(fù)雜背景等難題。
深度攝像頭可以獲取深度信息,并且不受環(huán)境光照以及背景復(fù)雜度的影響,將其用于基于視覺(jué)的手勢(shì)識(shí)別中,能幫助我們更好地對(duì)手勢(shì)進(jìn)行檢測(cè)分割。Kinect就是一種由微軟開(kāi)發(fā)的深度攝像頭,本文實(shí)驗(yàn)所采用的數(shù)據(jù)集都是由Kinect攝像頭所拍攝的。深度信息對(duì)應(yīng)于物體與攝像頭之間距離,因此我們可以利用深度值來(lái)區(qū)分出手勢(shì)區(qū)域和背景區(qū)域,因?yàn)橐话闱闆r下,手勢(shì)往往是離深度攝像頭最近的一塊區(qū)域。實(shí)驗(yàn)時(shí),由于人與攝像頭之間的距離并不是固定不變的,所以很難根據(jù)某一具體的閾值來(lái)分割手勢(shì)。根據(jù)深度圖像的特性,同一深度的像素點(diǎn)在深度圖像中的灰度值是相同的,這意味著我們可以通過(guò)建立灰度直方圖[6]的方式來(lái)分割出手勢(shì)。同一段灰度值所對(duì)應(yīng)的區(qū)域即是深度圖像中與攝像頭同樣距離的像素點(diǎn),并且距離越近,則灰度值越大。因此我們選擇灰度值最大的區(qū)域塊進(jìn)行分析,即可以將手勢(shì)區(qū)域與背景區(qū)域分割。
SURF(Speeded Up Robust Features,加速魯棒性特征)是一個(gè)穩(wěn)健的圖像識(shí)別和描述算法,于2006年由Herbert Bay在ECCV大會(huì)上首次提出[7]。SURF算法簡(jiǎn)單高效,并且具有良好的魯棒性。采用此算法提取手勢(shì)圖像的局部特征,實(shí)現(xiàn)尺度不變性的特征點(diǎn)檢測(cè),主要由以下5個(gè)步驟組成:a)Hessian矩陣構(gòu)建;b)尺度空間生成;c)精確定位特征點(diǎn)與主方向;d)構(gòu)造SURF特征點(diǎn)描述算子。
Hessian矩陣是SURF算法的核心,由函數(shù)偏導(dǎo)數(shù)組成。手勢(shì)圖像中每個(gè)像素點(diǎn)的Hessian Matrix可以按公式(1)定義,假設(shè)函數(shù) f(x,y):
利用二階標(biāo)準(zhǔn)高斯函數(shù)作為濾波器,計(jì)算出H矩陣的三個(gè)矩陣元素Lxy,Lxx,Lyy,從而得到H矩陣公式:
上式(3)中L(x,t)表示一幅在不同解析度下的圖像,即可以通過(guò)高斯函數(shù)G(t)與圖像函數(shù)I(x)在點(diǎn)x的卷積來(lái)實(shí)現(xiàn),其中t為高斯方差。通過(guò)這種方法可以為圖像中每個(gè)像素計(jì)算出H矩陣的決定值,并用來(lái)判別特征點(diǎn)。Herbert Bay提出用近似值代替L(x,t),為平衡準(zhǔn)確值與近似值間的誤差引入權(quán)值,權(quán)值隨尺度變化,所以H矩陣判別式可表示為:
圖像的尺度空間是這幅圖像在不同解析度下的表示。SURF中尺度是由方型濾波器的大小決定的,越往上層,尺度濾波器越大。
在多尺度空間中,將經(jīng)過(guò)Hessian矩陣處理過(guò)的每個(gè)像素點(diǎn)與其26個(gè)領(lǐng)域值進(jìn)行比較,保留最大值和最小值,通過(guò)預(yù)設(shè)閾值和增加極值以檢測(cè)出幾個(gè)最強(qiáng)的特征點(diǎn)。統(tǒng)計(jì)特征點(diǎn)的Haar小波特征,計(jì)算響應(yīng)總和,對(duì)這些響應(yīng)相加以形成新的矢量,取矢量最長(zhǎng)的方向?yàn)樵撎卣鼽c(diǎn)的主方向。
在特征點(diǎn)周?chē)∫粋€(gè)正方形框,劃分為16個(gè)子塊,統(tǒng)計(jì)每個(gè)子區(qū)域像素的水平方向和垂直方向的Haar小波特征(水平方向之和∑dx,水平方向絕對(duì)值之和,垂直方向之和∑dy,垂直方向絕對(duì)值之和
此時(shí)獲取的64維特征向量的描述子數(shù)量是不穩(wěn)定的,因?yàn)槿说氖植繀^(qū)域離攝像頭的距離會(huì)影響特征點(diǎn)的檢測(cè),所以還需進(jìn)一步處理SURF特征描述子。
BOF(Bag Of Features)即詞袋[8],是一種用于圖像或視頻檢索的技術(shù),把每幅圖像描述為一個(gè)局部區(qū)域/關(guān)鍵點(diǎn)特征的無(wú)序集合。從上一步提取出的SURF特征數(shù)據(jù)集中隨機(jī)選取K個(gè)作為初始聚類(lèi)中心,聚類(lèi)算法采用K-means算法;求出SURF描述子數(shù)據(jù)集的每個(gè)數(shù)據(jù)與各個(gè)聚類(lèi)中心的距離,按照最小化原則將數(shù)據(jù)劃分入最近鄰聚類(lèi)中心的類(lèi)簇;然后再重新計(jì)算每個(gè)類(lèi)簇的中心直到每個(gè)聚類(lèi)中心不會(huì)再改變時(shí),整個(gè)算法結(jié)束。此時(shí),每個(gè)聚類(lèi)中心就是一個(gè)視覺(jué)詞匯,所有的視覺(jué)詞匯形成一個(gè)視覺(jué)詞典。將手勢(shì)圖像中提取的SURF特征描述子分配到離它最近的一個(gè)視覺(jué)詞匯上,視覺(jué)詞匯對(duì)應(yīng)的維度高度加1,當(dāng)所有的特征描述子分配完畢后,手勢(shì)圖像就可以用一個(gè)K維的視覺(jué)詞匯直方圖表示,然后對(duì)直方圖進(jìn)行歸一化處理。最后通過(guò)TF-IDF對(duì)頻數(shù)表加上權(quán)重,生成最終的BOF。
隱馬爾可夫模型(HMM,Hidden Markov Model)最早在20世紀(jì)60年代后半期被Leonard E.Baum等人在一些統(tǒng)計(jì)學(xué)論文中提出,在隱馬爾可夫模型中,狀態(tài)是不可見(jiàn)的,但是某些變量是可見(jiàn)的,這些變量受狀態(tài)影響,每一種狀態(tài)的輸出都有相應(yīng)的概率分布[9-11]。在隱馬爾可夫模型中包含兩個(gè)過(guò)程,一個(gè)是現(xiàn)實(shí)中可見(jiàn)的觀測(cè)值,另一個(gè)是觀測(cè)值下的隱藏狀態(tài),觀測(cè)值和隱藏狀態(tài)之間存在一個(gè)概率函數(shù),同樣地,每個(gè)隱藏狀態(tài)之間也有相應(yīng)的狀態(tài)轉(zhuǎn)換概率。如下圖所示,x表示隱藏狀態(tài),y表示觀察值,a表示狀態(tài)轉(zhuǎn)換概率,b表示輸出概率。
圖1 隱馬爾可夫模型狀態(tài)變遷圖
一般的隱馬爾可夫模型可以表示為λ=(N,M,A,B,π)。其中N表示隱藏狀態(tài)個(gè)數(shù),M表示觀察值個(gè)數(shù),A表示隱藏狀態(tài)的轉(zhuǎn)換概率矩陣。記A=[aij]N×N。其中aij是在時(shí)刻t,狀態(tài)為qi的條件下,時(shí)刻t+1轉(zhuǎn)移到狀態(tài) qj的概率。如下公式(4),其中 aij≥0,并且
B則表示觀察轉(zhuǎn)換概率矩陣。記B=(bij)N×M。其中bij是在時(shí)刻t,狀態(tài)為qi的條件下,生成觀測(cè)vj的概率。如下公式(5),其中bij≥0,并且
π則表示初始狀態(tài)的概率分布。記π=(πi)N×1。其中 πi是在時(shí)刻 t=1的條件下,處于隱藏狀態(tài) q1的概率。如下公式(6),其中 πi≥0,并且
HMM在語(yǔ)音識(shí)別領(lǐng)域已得到成功應(yīng)用,在手勢(shì)識(shí)別領(lǐng)域,它同樣有著廣泛應(yīng)用。例如Schlenzig等人[12]的實(shí)驗(yàn)就表明了HMM可以成功應(yīng)用在連續(xù)手勢(shì)識(shí)別中。要利用HMM為手勢(shì)識(shí)別建模,首先需初始化一個(gè)HMM模型;提取訓(xùn)練樣本中的觀測(cè)序列Y,采用Viterbi算法[13]求出初始模型下的P(Y|λ);利用Baum-Welch算法[14]重新估計(jì)初始模型的參數(shù),得到一個(gè)新模型;再利用Viterbi算法求出新模型下的P(Y|λ);重復(fù)上兩步計(jì)算,直至 P(Y|λ)收斂,即訓(xùn)練手勢(shì)模型的過(guò)程結(jié)束,這里為樣本庫(kù)中每個(gè)手勢(shì)訓(xùn)練出一個(gè)HMM模型。在識(shí)別階段,提取出測(cè)試集中的觀測(cè)序列Y,利用前向-后向(forward-backward)算法求出該觀測(cè)序列Y與各個(gè)手勢(shì)模型的匹配概率值P(Y|λ),之后選取最大的概率值對(duì)應(yīng)的手勢(shì),即為識(shí)別結(jié)果。整個(gè)過(guò)程中即解決HMM的三大問(wèn)題,如下表所示:
表1
為驗(yàn)證該系統(tǒng)可行性,本次實(shí)驗(yàn)所選的視頻樣本是中國(guó)科學(xué)院計(jì)算技術(shù)研究所視覺(jué)信息處理和學(xué)習(xí)研究組發(fā)布的開(kāi)源DEVISIGN中國(guó)手語(yǔ)數(shù)據(jù)庫(kù)。在數(shù)據(jù)庫(kù)中選取字母A-H等8種手勢(shì)的視頻樣本作為本次實(shí)驗(yàn)的訓(xùn)練測(cè)試集,其中每種手勢(shì)集都由8位不同實(shí)驗(yàn)者,每人演示5次組成,總共400個(gè)手勢(shì)樣本。實(shí)驗(yàn)中,將240個(gè)樣本作為測(cè)試集訓(xùn)練A-H每種手勢(shì)的HMM模型,剩余160個(gè)樣本用于測(cè)試模型的準(zhǔn)確性。圖2是A-H手勢(shì)表示圖。
圖2 手勢(shì)A-H
表2是本次實(shí)驗(yàn)中8種手勢(shì)的手勢(shì)識(shí)別率,由表可得8種手勢(shì)的平均識(shí)別率是93%。因此對(duì)深度手勢(shì)圖像進(jìn)行手勢(shì)分割、提取SURF特征和HMM訓(xùn)練識(shí)別,可以得到較高的識(shí)別率。
表2 A-H手勢(shì)識(shí)別率
本文主要提出了一種基于深度手勢(shì)圖像SURF特征和HMM的手語(yǔ)識(shí)別方法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的可行性以及有效性?;赟URF特征訓(xùn)練模型,可以使系統(tǒng)在背景、光照和尺度變化下都能表現(xiàn)出較強(qiáng)的魯棒性。但是由于手語(yǔ)的表示極其復(fù)雜,而且本次實(shí)驗(yàn)使用樣本的手勢(shì)種類(lèi)較少,隨著手勢(shì)種類(lèi)以及數(shù)目的增加,僅僅提取圖像的局部性特征還不夠,未來(lái)工作將圍繞如何提取更具代表性的手勢(shì)特征,或是將SURF與其他特征,例如Fourier描述子,相結(jié)合以達(dá)到對(duì)復(fù)雜手勢(shì)有更好的識(shí)別效果。此外,本文所涉及的圖像識(shí)別技術(shù)可應(yīng)用于模式識(shí)別、人機(jī)交互、智能增材制造等應(yīng)用領(lǐng)域。
[1]Gurjal P,Kunnur K.Real Time Hand Gesture Recognition Using SIFT[J].International Journal of Electronics and Electrical Engineering,2012,2(3):19-33.
[2]Bao J,Song A,Guo Y,et al.Dynamic Hand Gesture Recognition Based on SURF Tracking[C].Electric Information and Control Engineering(ICEICE),2011 International Conference on.IEEE,2011:338-341.
[3]楊全,彭進(jìn)業(yè).基于手語(yǔ)視覺(jué)單詞特征的手語(yǔ)字母識(shí)別研究[J].計(jì)算機(jī)工程,2014,40(4):192-197,202.
[4]胡章芳,楊麟,羅元,等.一種基于改進(jìn)的SURF算法的靜態(tài)手語(yǔ)字母識(shí)別方法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2013,25(4):544-548.
[5]Mahmud H,Hasan M K,Abdullah-Al-Tariq M A.Hand Gesture Recognition Using SIFT Features on Depth Image[J].
[6]藍(lán)章禮,李益才.數(shù)字圖像處理與圖像通信[M].北京:清華大學(xué)出版社,2009.
[7]Bay H,Ess A,Tuytelaars T,et al.Speeded-up Robust Features(SURF)[J].Computer Vision and Image Understanding,2008,110(3):346-359.
[8]Nowak E,Jurie F,Triggs B.Sampling Strategies for Bag-of-Features Image Classification[J].Computer Vision-ECCV 2006,2006:490-503.
[9]張海波.基于DHMM的視覺(jué)語(yǔ)言識(shí)別[D].吉林大學(xué),2010.
[10]Juang B H,Rabiner L R.Hidden Markov Models for Speech Recognition[J].Technometrics,1991,33(3):251-272.
[11]Kim D,Song J,Kim D.Simultaneous Gesture Segmentation and Recognition Based on Forward Spotting Accumulative HMMs[J].Pattern Recognition,2007,40(11):3012-3026.
[12]Schlenzig J,Hunter E,Jain R.Recursive Identification of Gesture Inputs Using Hidden Markov Models[C].Applications of Computer Vision,1994.,Proceedings of the Second IEEE Workshop on.IEEE,1994:187-194.
[13]Forney G D.The Viterbi Algorithm[J].Proceedings of the IEEE,1973,61(3):268-278.
[14]Welch L R.Hidden Markov Models and the Baum-Welch Algorithm[J].IEEE Information Theory Society Newsletter,2003,53(4):10-13.