林偉強(qiáng) 莊寶山
摘要:為了理解用戶手勢(shì)的含義,該文首先利用攝像頭捕獲連續(xù)運(yùn)動(dòng)的手勢(shì),隨后將其進(jìn)行部分圖像的預(yù)處理操作,利用手勢(shì)分割技術(shù)將手勢(shì)部分分割出來,并提取手勢(shì)的質(zhì)心以及面積的大小作為特征向量,用于建立隱馬爾可夫模型的參數(shù),最終形成一個(gè)能理解用戶手勢(shì)操作的系統(tǒng),并對(duì)其進(jìn)行應(yīng)用。
關(guān)鍵詞:手勢(shì)識(shí)別;隱馬爾可夫模型;手勢(shì)分割
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)32-7714-05
Abstract:To understand the meaning of users hand gestures, first of all, this article uses cameras to capture a series pictures of moving hands and then predo these pictures by using the technology of hand gestures segment to identify hands, extracting the central position and calculating the areas of hands, using these elements to build hidden markov model. Finally to form a system which can understand the meaning of users hand movement.
Key words: Hand Gesture Trajectory Tracking; HMM; Hand Gesture Segment
隨著科技技術(shù)的日新月異,計(jì)算機(jī)科學(xué)的蓬勃發(fā)展,計(jì)算機(jī)已經(jīng)成為了人們生活中不可獲取的一個(gè)主要物品。而在其間,人機(jī)交互技術(shù)大大的方便了人們的生活,儼然成為了眾多學(xué)者研究學(xué)習(xí)的主要內(nèi)容。由于手勢(shì)動(dòng)作能夠很好的表現(xiàn)人們想要傳達(dá)的意思,使之成為計(jì)算機(jī)與人交互的主要方式之一,因此手勢(shì)的識(shí)別在這些研究課題中成為了熱門話題。
本文是基于攝像頭捕獲圖像后,利用圖像處理技術(shù)進(jìn)行動(dòng)態(tài)手勢(shì)軌跡的跟蹤與HMM模式的識(shí)別。其內(nèi)容包括圖像預(yù)處理、手勢(shì)分割與定位、手勢(shì)的分析以及基于HMM模式的手勢(shì)識(shí)別四大塊的研究,并給出了自己的設(shè)計(jì)方案。
在手勢(shì)識(shí)別過程當(dāng)中,不論是靜態(tài)手勢(shì)還是動(dòng)態(tài)手勢(shì),都必須首先獲得手勢(shì)的圖像,隨后進(jìn)行手勢(shì)的檢測(cè),手勢(shì)分割,手勢(shì)的分析,最后進(jìn)行手勢(shì)的識(shí)別。具體流程如圖1所示。
迄今為止,隱馬爾可夫模型在識(shí)別領(lǐng)域已經(jīng)有著形形色色的應(yīng)用。如Schlenzig[1]利用隱馬爾可夫模型進(jìn)行的手勢(shì)識(shí)別,研究過程中為每個(gè)手勢(shì)賦予一個(gè)隱馬爾可夫模型用于后續(xù)識(shí)別手勢(shì)含義。再如Nam與Wohn[2]研究的手勢(shì)識(shí)別系統(tǒng),通過該研究很好的讓計(jì)算機(jī)理解時(shí)空手勢(shì)的含義。卡內(nèi)基梅隆大學(xué)的Christopher Lee與 Yangsheng Xu[3],他們利用隱馬爾可夫模型,開發(fā)了一套手勢(shì)識(shí)別的系統(tǒng),判斷手勢(shì)含義。
1 HMM理論基礎(chǔ)
隱馬爾可夫模型是可用于標(biāo)注問題的統(tǒng)計(jì)學(xué)習(xí)模型。該模型描述由隱藏的馬爾可夫模型隨機(jī)生成觀測(cè)序列的過程,其中狀態(tài)的轉(zhuǎn)移以及觀測(cè)序列的輸出都是隨機(jī)的。其中狀態(tài)轉(zhuǎn)移的隨機(jī)過程是隱式的,通過觀察序列的隨機(jī)過程表達(dá)出來 [4]。由于人的手勢(shì)的運(yùn)動(dòng)(包括其運(yùn)動(dòng)方向和形態(tài)的變化)存在著很大的隨機(jī)性,所以用HMM模型來描述手勢(shì)的運(yùn)動(dòng),可以滿足手勢(shì)的隨機(jī)運(yùn)動(dòng)及變化的特性。
2 手勢(shì)分析
手勢(shì)分析是完成手勢(shì)識(shí)別的關(guān)鍵技術(shù),其結(jié)果將直接影響到識(shí)別階段的識(shí)別率。通過手勢(shì)的分析階段的工作,可以獲得手勢(shì)的一些特征,并將其運(yùn)用到識(shí)別階段。這些特征可以包括手勢(shì)的形狀特征、運(yùn)動(dòng)的軌跡、面積大小等,他們與手勢(shì)所表達(dá)的意義直接相連。該文采用手的質(zhì)心位置的變化特征以及手部分面積變化來對(duì)運(yùn)動(dòng)的手勢(shì)含義進(jìn)行分析。
在對(duì)手勢(shì)進(jìn)行分析之前,首先需要將手勢(shì)部分很好的分割出來,因?yàn)槭欠衲軠?zhǔn)確分割出手的部分對(duì)后續(xù)的特征提取以及手勢(shì)的識(shí)別階段的準(zhǔn)確率會(huì)造成巨大的影響。但是由于光照強(qiáng)度不同的問題,往往會(huì)對(duì)手勢(shì)分割帶來巨大的困難。為了解決光照問題對(duì)手勢(shì)分割的影響,該文采用幀間差分結(jié)合膚色建模的方法來分割手勢(shì)。
2.1 幀間差分技術(shù)
幀間差分法[5]是通過相鄰兩幀圖像做相減操作后,得到運(yùn)動(dòng)部分圖像的方法,只要獲取的圖像內(nèi)物體有變化運(yùn)動(dòng),那么幀間差分法就能很容易的將他們提取與識(shí)別出來。在具體運(yùn)用當(dāng)中常常設(shè)置一個(gè)閾值,當(dāng)攝像頭捕獲的相鄰兩幀圖像相減過后的值大于所設(shè)置的閾值之時(shí),就可以判斷當(dāng)前圖像中有存在運(yùn)動(dòng)的物體。在手勢(shì)識(shí)別系統(tǒng)當(dāng)中運(yùn)用了這種方法,用于判斷在圖像中處于運(yùn)動(dòng)的手勢(shì)的位置,為后續(xù)提取手勢(shì)的特征打下基礎(chǔ)。再確定藍(lán)色分量和紅色分量的取值范圍,如果樣本中的膚色點(diǎn)在此范圍內(nèi),就認(rèn)為此點(diǎn)就在邊界之內(nèi),否則就認(rèn)為在邊界之外。
運(yùn)用幀間差分與膚色建模,就能夠很好的將運(yùn)動(dòng)的手勢(shì)部分分割出來,因?yàn)樵谑謩?shì)運(yùn)動(dòng)的過程當(dāng)中,很有可能除手部分以外的背景物運(yùn)動(dòng)而造成對(duì)手勢(shì)提取的不準(zhǔn)確。利用膚色建模結(jié)合幀間差分首先確定膚色部分,然后疊加運(yùn)動(dòng)部分,就能準(zhǔn)確的分割出運(yùn)動(dòng)的手。
在提取完運(yùn)動(dòng)的手勢(shì)部分,需要提取特征用來支持最后的識(shí)別階段。由于本文對(duì)手勢(shì)運(yùn)動(dòng)的結(jié)果劃分為上、下、左、右、放大、縮小以及旋轉(zhuǎn),針對(duì)上下左右分別對(duì)已經(jīng)通過幀間差分以及膚色建模分割出手的部分利用函數(shù)計(jì)算出手部分的質(zhì)心位置作為特征向量,用于判斷質(zhì)心的走勢(shì),由此將他們分為上下左右。而對(duì)于放大縮小和旋轉(zhuǎn)來說,放大、縮小以及旋轉(zhuǎn)是通過函數(shù)計(jì)算分割出手勢(shì)部分的面子變化作為特征向量,面積變大的為放大操作,面積變小的為縮小操作,面積基本保持不變的為旋轉(zhuǎn)操作。endprint
3 HMM手勢(shì)識(shí)別
在運(yùn)用HMM模型進(jìn)行手勢(shì)識(shí)別的過程中,首先通過攝像頭采集圖像,對(duì)其進(jìn)行簡(jiǎn)單的去噪與增強(qiáng)操作以后,利用手勢(shì)分割階段的技術(shù)(結(jié)合膚色建模以及幀間差分法)將手勢(shì)分割出來,接著運(yùn)用函數(shù)提取手勢(shì)的質(zhì)心,面積等特征向量給手勢(shì)識(shí)別階段的HMM模型建模過程,運(yùn)用訓(xùn)練樣本訓(xùn)練完隱馬爾可夫模型參數(shù)之后,最后使用測(cè)試樣本對(duì)生成的模型的識(shí)別率進(jìn)行測(cè)試。
在這整個(gè)過程當(dāng)中在手勢(shì)分析階段分割出的手勢(shì)以及提取的特征向量的基礎(chǔ)上,采用學(xué)習(xí)率為0.6的HMM模型參數(shù)學(xué)習(xí)的方法對(duì)動(dòng)態(tài)手勢(shì)進(jìn)行訓(xùn)練。該文選取上、下、左、右、放大、縮小以及旋轉(zhuǎn)7個(gè)手勢(shì),采用大量樣本對(duì)其的HMM模型進(jìn)行訓(xùn)練。在HMM建模階段,每個(gè)手勢(shì)對(duì)應(yīng)一個(gè)HMM模型,除放大、縮小和旋轉(zhuǎn)通過面積大小的變化判斷之外(面積變大為放大,面積變小為縮小,面積基本不變?yōu)樾D(zhuǎn)),其余2個(gè)手勢(shì)通過建立HMM模型來進(jìn)行判斷。
實(shí)驗(yàn)結(jié)果表明,利用質(zhì)心移動(dòng)進(jìn)行判斷手勢(shì)走向的識(shí)別率較高,而通過計(jì)算面積進(jìn)行識(shí)別的放大、縮小及旋轉(zhuǎn)的識(shí)別率相對(duì)于通過質(zhì)心移動(dòng)判斷的方法來說要低。這是由于按照質(zhì)心走勢(shì)的運(yùn)動(dòng)方向?qū)τ谑謩?shì)的運(yùn)動(dòng)判斷相對(duì)的直觀,質(zhì)心在圖像內(nèi)的某個(gè)方向上的坐標(biāo)變化相對(duì)明顯(如向上手勢(shì),朝著向上方向的坐標(biāo)變化就相對(duì)明顯),因此比較容易辨別出手勢(shì)的運(yùn)動(dòng)方向,所以識(shí)別率相對(duì)較高。然而,對(duì)于通過計(jì)算面積變化來判斷手勢(shì)含義的放大、縮小以及旋轉(zhuǎn)三個(gè)手勢(shì)來說,由于手勢(shì)分割階段分割出的手的部分還不算好,以及手勢(shì)在做上下左右運(yùn)動(dòng)時(shí)候攝像頭拍攝到手勢(shì)的角度不同,所以導(dǎo)致計(jì)算面積變化的時(shí)候誤差相對(duì)較大,以至于旋轉(zhuǎn)部分的手勢(shì)很容易會(huì)識(shí)別成為放大或者縮小,向左向右的手勢(shì)由于攝像頭的采集圖像角度不同而造成面積的變化,導(dǎo)致識(shí)別率的降低。
對(duì)此要想對(duì)識(shí)別率得以提升,必須增加部分特征向量,上下左右的運(yùn)動(dòng)不僅依靠坐標(biāo)的變化,放大縮小旋轉(zhuǎn)變化不局限于面積的變化,這樣增加了限定條件之后,可以更精確的定義每一個(gè)手勢(shì),以此來提高手勢(shì)的識(shí)別率。
4 結(jié)束語(yǔ)
本文主要通過外部設(shè)備自行采集連續(xù)的圖像之后,對(duì)其進(jìn)行分析,從中提取出手勢(shì)的部分,對(duì)其的運(yùn)動(dòng)狀態(tài)進(jìn)行判斷,從而從計(jì)算機(jī)的角度理解用戶的交互行為。實(shí)現(xiàn)通過攝像頭獲取手勢(shì)動(dòng)作的內(nèi)容,從而實(shí)現(xiàn)翻頁(yè)、上拉、下拉、放大、縮小、旋轉(zhuǎn)等動(dòng)作,從而進(jìn)行人機(jī)交互。
參考文獻(xiàn):
[1] Schlenzig J, Hunter E, Jain R. Recursive Identification of Gesture Inputers Using Hidden Markov Models[C]//Proc.2nd Annual Conf on Applications of Computer Vision,1994:187-194.
[2] Campbell L W, Becker D A, Azarbayejani A, et al. Invariant Features for 3-D Gesture Recognition[C]//Proc.2nd International Workshop on Face and Gesture Recognition. Killington VT,1996.
[3] Lee C, Xu Y. Online, Interactive Learning of Gestures for Human Robot Interfaces[J].IEEE Int Conf on Robotics and Automation,1996,3(1):30-42.
[4] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2012.
[5] 王威.基于背景和幀間差分方法的運(yùn)動(dòng)目標(biāo)檢測(cè)的研究[J].上海大學(xué),2008.
[6] 田欣.基于不同色彩空間的膚色模型[J].西安科技學(xué)院學(xué)報(bào),2011(04):369-371.endprint
3 HMM手勢(shì)識(shí)別
在運(yùn)用HMM模型進(jìn)行手勢(shì)識(shí)別的過程中,首先通過攝像頭采集圖像,對(duì)其進(jìn)行簡(jiǎn)單的去噪與增強(qiáng)操作以后,利用手勢(shì)分割階段的技術(shù)(結(jié)合膚色建模以及幀間差分法)將手勢(shì)分割出來,接著運(yùn)用函數(shù)提取手勢(shì)的質(zhì)心,面積等特征向量給手勢(shì)識(shí)別階段的HMM模型建模過程,運(yùn)用訓(xùn)練樣本訓(xùn)練完隱馬爾可夫模型參數(shù)之后,最后使用測(cè)試樣本對(duì)生成的模型的識(shí)別率進(jìn)行測(cè)試。
在這整個(gè)過程當(dāng)中在手勢(shì)分析階段分割出的手勢(shì)以及提取的特征向量的基礎(chǔ)上,采用學(xué)習(xí)率為0.6的HMM模型參數(shù)學(xué)習(xí)的方法對(duì)動(dòng)態(tài)手勢(shì)進(jìn)行訓(xùn)練。該文選取上、下、左、右、放大、縮小以及旋轉(zhuǎn)7個(gè)手勢(shì),采用大量樣本對(duì)其的HMM模型進(jìn)行訓(xùn)練。在HMM建模階段,每個(gè)手勢(shì)對(duì)應(yīng)一個(gè)HMM模型,除放大、縮小和旋轉(zhuǎn)通過面積大小的變化判斷之外(面積變大為放大,面積變小為縮小,面積基本不變?yōu)樾D(zhuǎn)),其余2個(gè)手勢(shì)通過建立HMM模型來進(jìn)行判斷。
實(shí)驗(yàn)結(jié)果表明,利用質(zhì)心移動(dòng)進(jìn)行判斷手勢(shì)走向的識(shí)別率較高,而通過計(jì)算面積進(jìn)行識(shí)別的放大、縮小及旋轉(zhuǎn)的識(shí)別率相對(duì)于通過質(zhì)心移動(dòng)判斷的方法來說要低。這是由于按照質(zhì)心走勢(shì)的運(yùn)動(dòng)方向?qū)τ谑謩?shì)的運(yùn)動(dòng)判斷相對(duì)的直觀,質(zhì)心在圖像內(nèi)的某個(gè)方向上的坐標(biāo)變化相對(duì)明顯(如向上手勢(shì),朝著向上方向的坐標(biāo)變化就相對(duì)明顯),因此比較容易辨別出手勢(shì)的運(yùn)動(dòng)方向,所以識(shí)別率相對(duì)較高。然而,對(duì)于通過計(jì)算面積變化來判斷手勢(shì)含義的放大、縮小以及旋轉(zhuǎn)三個(gè)手勢(shì)來說,由于手勢(shì)分割階段分割出的手的部分還不算好,以及手勢(shì)在做上下左右運(yùn)動(dòng)時(shí)候攝像頭拍攝到手勢(shì)的角度不同,所以導(dǎo)致計(jì)算面積變化的時(shí)候誤差相對(duì)較大,以至于旋轉(zhuǎn)部分的手勢(shì)很容易會(huì)識(shí)別成為放大或者縮小,向左向右的手勢(shì)由于攝像頭的采集圖像角度不同而造成面積的變化,導(dǎo)致識(shí)別率的降低。
對(duì)此要想對(duì)識(shí)別率得以提升,必須增加部分特征向量,上下左右的運(yùn)動(dòng)不僅依靠坐標(biāo)的變化,放大縮小旋轉(zhuǎn)變化不局限于面積的變化,這樣增加了限定條件之后,可以更精確的定義每一個(gè)手勢(shì),以此來提高手勢(shì)的識(shí)別率。
4 結(jié)束語(yǔ)
本文主要通過外部設(shè)備自行采集連續(xù)的圖像之后,對(duì)其進(jìn)行分析,從中提取出手勢(shì)的部分,對(duì)其的運(yùn)動(dòng)狀態(tài)進(jìn)行判斷,從而從計(jì)算機(jī)的角度理解用戶的交互行為。實(shí)現(xiàn)通過攝像頭獲取手勢(shì)動(dòng)作的內(nèi)容,從而實(shí)現(xiàn)翻頁(yè)、上拉、下拉、放大、縮小、旋轉(zhuǎn)等動(dòng)作,從而進(jìn)行人機(jī)交互。
參考文獻(xiàn):
[1] Schlenzig J, Hunter E, Jain R. Recursive Identification of Gesture Inputers Using Hidden Markov Models[C]//Proc.2nd Annual Conf on Applications of Computer Vision,1994:187-194.
[2] Campbell L W, Becker D A, Azarbayejani A, et al. Invariant Features for 3-D Gesture Recognition[C]//Proc.2nd International Workshop on Face and Gesture Recognition. Killington VT,1996.
[3] Lee C, Xu Y. Online, Interactive Learning of Gestures for Human Robot Interfaces[J].IEEE Int Conf on Robotics and Automation,1996,3(1):30-42.
[4] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2012.
[5] 王威.基于背景和幀間差分方法的運(yùn)動(dòng)目標(biāo)檢測(cè)的研究[J].上海大學(xué),2008.
[6] 田欣.基于不同色彩空間的膚色模型[J].西安科技學(xué)院學(xué)報(bào),2011(04):369-371.endprint
3 HMM手勢(shì)識(shí)別
在運(yùn)用HMM模型進(jìn)行手勢(shì)識(shí)別的過程中,首先通過攝像頭采集圖像,對(duì)其進(jìn)行簡(jiǎn)單的去噪與增強(qiáng)操作以后,利用手勢(shì)分割階段的技術(shù)(結(jié)合膚色建模以及幀間差分法)將手勢(shì)分割出來,接著運(yùn)用函數(shù)提取手勢(shì)的質(zhì)心,面積等特征向量給手勢(shì)識(shí)別階段的HMM模型建模過程,運(yùn)用訓(xùn)練樣本訓(xùn)練完隱馬爾可夫模型參數(shù)之后,最后使用測(cè)試樣本對(duì)生成的模型的識(shí)別率進(jìn)行測(cè)試。
在這整個(gè)過程當(dāng)中在手勢(shì)分析階段分割出的手勢(shì)以及提取的特征向量的基礎(chǔ)上,采用學(xué)習(xí)率為0.6的HMM模型參數(shù)學(xué)習(xí)的方法對(duì)動(dòng)態(tài)手勢(shì)進(jìn)行訓(xùn)練。該文選取上、下、左、右、放大、縮小以及旋轉(zhuǎn)7個(gè)手勢(shì),采用大量樣本對(duì)其的HMM模型進(jìn)行訓(xùn)練。在HMM建模階段,每個(gè)手勢(shì)對(duì)應(yīng)一個(gè)HMM模型,除放大、縮小和旋轉(zhuǎn)通過面積大小的變化判斷之外(面積變大為放大,面積變小為縮小,面積基本不變?yōu)樾D(zhuǎn)),其余2個(gè)手勢(shì)通過建立HMM模型來進(jìn)行判斷。
實(shí)驗(yàn)結(jié)果表明,利用質(zhì)心移動(dòng)進(jìn)行判斷手勢(shì)走向的識(shí)別率較高,而通過計(jì)算面積進(jìn)行識(shí)別的放大、縮小及旋轉(zhuǎn)的識(shí)別率相對(duì)于通過質(zhì)心移動(dòng)判斷的方法來說要低。這是由于按照質(zhì)心走勢(shì)的運(yùn)動(dòng)方向?qū)τ谑謩?shì)的運(yùn)動(dòng)判斷相對(duì)的直觀,質(zhì)心在圖像內(nèi)的某個(gè)方向上的坐標(biāo)變化相對(duì)明顯(如向上手勢(shì),朝著向上方向的坐標(biāo)變化就相對(duì)明顯),因此比較容易辨別出手勢(shì)的運(yùn)動(dòng)方向,所以識(shí)別率相對(duì)較高。然而,對(duì)于通過計(jì)算面積變化來判斷手勢(shì)含義的放大、縮小以及旋轉(zhuǎn)三個(gè)手勢(shì)來說,由于手勢(shì)分割階段分割出的手的部分還不算好,以及手勢(shì)在做上下左右運(yùn)動(dòng)時(shí)候攝像頭拍攝到手勢(shì)的角度不同,所以導(dǎo)致計(jì)算面積變化的時(shí)候誤差相對(duì)較大,以至于旋轉(zhuǎn)部分的手勢(shì)很容易會(huì)識(shí)別成為放大或者縮小,向左向右的手勢(shì)由于攝像頭的采集圖像角度不同而造成面積的變化,導(dǎo)致識(shí)別率的降低。
對(duì)此要想對(duì)識(shí)別率得以提升,必須增加部分特征向量,上下左右的運(yùn)動(dòng)不僅依靠坐標(biāo)的變化,放大縮小旋轉(zhuǎn)變化不局限于面積的變化,這樣增加了限定條件之后,可以更精確的定義每一個(gè)手勢(shì),以此來提高手勢(shì)的識(shí)別率。
4 結(jié)束語(yǔ)
本文主要通過外部設(shè)備自行采集連續(xù)的圖像之后,對(duì)其進(jìn)行分析,從中提取出手勢(shì)的部分,對(duì)其的運(yùn)動(dòng)狀態(tài)進(jìn)行判斷,從而從計(jì)算機(jī)的角度理解用戶的交互行為。實(shí)現(xiàn)通過攝像頭獲取手勢(shì)動(dòng)作的內(nèi)容,從而實(shí)現(xiàn)翻頁(yè)、上拉、下拉、放大、縮小、旋轉(zhuǎn)等動(dòng)作,從而進(jìn)行人機(jī)交互。
參考文獻(xiàn):
[1] Schlenzig J, Hunter E, Jain R. Recursive Identification of Gesture Inputers Using Hidden Markov Models[C]//Proc.2nd Annual Conf on Applications of Computer Vision,1994:187-194.
[2] Campbell L W, Becker D A, Azarbayejani A, et al. Invariant Features for 3-D Gesture Recognition[C]//Proc.2nd International Workshop on Face and Gesture Recognition. Killington VT,1996.
[3] Lee C, Xu Y. Online, Interactive Learning of Gestures for Human Robot Interfaces[J].IEEE Int Conf on Robotics and Automation,1996,3(1):30-42.
[4] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].清華大學(xué)出版社,2012.
[5] 王威.基于背景和幀間差分方法的運(yùn)動(dòng)目標(biāo)檢測(cè)的研究[J].上海大學(xué),2008.
[6] 田欣.基于不同色彩空間的膚色模型[J].西安科技學(xué)院學(xué)報(bào),2011(04):369-371.endprint