賈鶴鳴,朱傳旭,張森,楊澤文,何東旭
(1. 東北林業(yè)大學 機電工程學院,黑龍江 哈爾濱 150040; 2. 哈爾濱工程大學 自動化學院,黑龍江 哈爾濱150001)
手勢語言作為一種常用的交流語言,通過不同手勢的組合、不同手形的變化,能夠表達多種復雜的含義,在非聲音傳遞信息的方式中,如特警手語、聾啞人交流、遠程指揮等方面,起到重要作用[1]。特征提取是手勢識別的關(guān)鍵環(huán)節(jié),即通過對不同的手勢進行數(shù)學描述,表示獨特的特征關(guān)系。常用的特征有幾何特征、形狀特征、Hu矩特征等。
國外方面,Davis等[2]采用不變矩和神經(jīng)網(wǎng)絡,進行數(shù)字手勢的識別;Miyashita等[3]針對靜態(tài)手勢具有平移和旋轉(zhuǎn)性問題,采用基于邊界信息特征描述的方法;Kapu?ciński等[4]提出改進的梯度直方圖方法進行靜態(tài)手勢識別,通過加強圖像坐標系的局部方向,使之能夠找到最佳的關(guān)鍵向量,提高識別率。國內(nèi)方面,譚臺哲等[5]將深度與膚色信息結(jié)合,根據(jù)手指和手掌質(zhì)心判斷方向,從而完成對手勢和左右手的識別,魯棒性強;劉淑萍等[6]在傳統(tǒng)的HOG方法的基礎上加入膚色模型和手指檢測算法,將識別率提高20%;趙磊等[7]對傳統(tǒng)DTW算法進行改進,以歐氏距離為元素組成矩陣,結(jié)合事先錄入的手勢模板,實現(xiàn)手勢識別。通過上述國內(nèi)外研究現(xiàn)狀的分析不難發(fā)現(xiàn)研究問題主要集中于空域特征的提取。實際上,頻譜能在描述紋理特征時體現(xiàn)重要作用[8]。常用的頻域變換主要有傅里葉變換、小波變換等。前期研究中,大多僅采用空域特征或者僅采用小波變換系數(shù)特征,但由于傳統(tǒng)小波變換在獲取頻譜特征時,不具有方向性,因此,擬采用對偶樹復小波變換提取頻域特征,實現(xiàn)–75°、–45°、–15°、15°、45°和 75°等 6 個方向的特征度量,最后為提高特征的完備性,本文將空域特征與頻域特征進行融合。
分類器通常采用人工神經(jīng)網(wǎng)絡,常用的有BP神經(jīng)網(wǎng)絡、支持向量機(SVM)等。經(jīng)過許多學者研究證實,在圖像識別方面,SVM比BP精度更高,且不易陷入過擬合狀態(tài)[9-12]。但是,由于SVM在高維空間中計算量遠遠大于BP,因此,當樣本較多、特征維數(shù)較大時,SVM速度較慢。本文引入BD(best distance)優(yōu)選SVM訓練樣本的算法,一方面減少樣本數(shù),提高訓練速度,另一方面,優(yōu)化樣本質(zhì)量,提高訓練精度。
1)位置。由前面部分手勢跟蹤,可獲取手勢的位置信息,用掌的面積中心表示。設手掌像素的坐標為,其中,那么其質(zhì)心表示為
2)長寬比。手所在的最小矩形,長度定義為L,寬度定義為W,長寬比r定義為
3)矩形度。手勢所占面積S0與最小外接矩形面積Sm之比。矩形度a表示為
4) Hu矩特征。Hu矩特征主要描述圖像旋轉(zhuǎn)的不變性,包含7個分量。對于一幅的圖像,則其階矩為
通過計算函數(shù)的重心,得到:
對中心矩進行歸一化后,使用二階和三階矩構(gòu)造7個h分量矩:
且滿足希爾伯特變換,即:
用樹A和樹B表示,結(jié)構(gòu)圖如圖1所示。
圖 1 對偶樹復小波變換結(jié)構(gòu)圖Fig. 1 Dual tree complex wavelet transform structure
圖 2 對偶樹復小波變換的6個方向性Fig. 2 Six directions of dual tree complex wavelet transform
根據(jù)傳統(tǒng)SVM算法原理,根據(jù)幾何特征,支持向量即同類距離最小,異類距離最大的兩類樣本,若訓練樣本未進行優(yōu)化,則尋找支持向量的過程就會耗時嚴重,因此,改進思路聚集在對訓練樣本的幾何特征上。本文將訓練樣本的點間距離作為度量,通過優(yōu)化訓練樣本集,提高SVM的訓練速度,也因樣本集的品質(zhì)提高,從而間接提高分類器的識別精度。具體數(shù)學描述如下。
將樣本點分布于空間中,定義任意兩點的距離為
3)[令,,計算平均距離矩陣。
4)對矩陣V進行按序排列,其中,V11和V22降序,V12和 V21升序,提取 l·t個樣本,得到新的訓練樣本集。
5)在新樣本集上利用SVM建立模型,并進行測試。
2)在高維空間中,按照式(1)計算距離矩陣
靜態(tài)手勢識別選取60幅“1~9”手勢的圖像作為訓練樣本,30幅作為測試樣本。包括空域及頻域特征提取, BD-SVM分類器精度,輸出識別正確率和分類時間。
進行空域特征提取,首先需對輸入的圖像進行預處理,然后進行分割和檢測,最后,計算相應的空域特征。某一樣本“1~9”手勢的預處理后的圖像及分割檢測后的圖像如圖3所示。
圖 3 “1~9”手勢圖像及分割檢測圖像Fig. 3 "1~9" gesture image and split detection image
按照前文給出的公式,計算空域特征,包括位置、長寬比、矩形度、Hu矩的7個分量。取某一樣本的“1~9”手勢的特征,如表1所示。
對偶樹復小波具有平移不變性和方向多樣化的特性,按照對偶樹復小波變換進行頻域特征提取,dtwavexfm2函數(shù)中可以選擇4個濾波器,本文選legall,進行變換分解。
以其中一幅手勢圖像為例,對偶樹復小波特征提取的結(jié)果如下。某一示例圖像“1”如圖4所示,其他“2~9”手勢特征提取過程相同。
圖 4 示例圖像Fig. 4 Sample image
經(jīng)過分解后的結(jié)果如圖5所示。
圖 5 分析結(jié)果Fig. 5 Results of the analysis
表 1 某一樣本“1~9”手勢的特征提取Table 1 The feature extraction of a sample “1~9” gesture
選取高頻分量輸出的16×16矩陣,作為該手勢圖像的特征參數(shù),方便計算,將該矩陣進行歸一化處理,然后,取主對角線元素作為特征,共計16個分量。
對于每個樣本,將空域特征的11個分量與頻域的16個分量進行融合,組成新的矢量,則新矢量的維度為27,然后,以60個樣本作為訓練集,輸入分類器中訓練,30個樣本預測集,用于驗證分類精度。
本節(jié)主要測試手勢“1~9”的識別效果。利用BD算法優(yōu)化訓練樣本,設置BD-SVM的比例系數(shù)t為0.3,然后,將新的訓練樣本作為SVM訓練集,最后,選取線性核函數(shù)、多項式核函數(shù)和徑向基核函數(shù)分別進行實驗。γ設置為0.1,懲罰參數(shù)設置為10,具體實驗結(jié)果如下所示。
樣本優(yōu)選過程進行二維可視化后,如圖6所示。
圖 6 優(yōu)選的訓練樣本Fig. 6 Preferred training samples
圈內(nèi)的樣本為優(yōu)選后的樣本,作為新的訓練集,挑選出46個新的訓練樣本。
對于每個核函數(shù),輸出識別精度和識別時間,最后計算平均正確率和平均識別時間。采用線性核函數(shù)的識別結(jié)果如表2所示。
表 2 線性核函數(shù)識別結(jié)果Table 2 Linear kernel function recognition result
由表2得出,線性核函數(shù)的平均正確率為84%,平均識別時間為0.022 s。
采用多項式核函數(shù)的識別結(jié)果如表3所示。由表3得出,線性核函數(shù)的平均正確率為86.67%,平均識別時間為0.032 s。
表 3 多項式核函數(shù)識別結(jié)果Table 3 Polynomial kernel function recognition result
采用徑向基核函數(shù)的識別結(jié)果如表4所示。由表4得出,線性核函數(shù)的平均正確率為90.33%,平均識別時間為0.026 s。
通過實驗得出,選擇徑向基核函數(shù)的識別率最高,運算速度也較快,因此,進行靜態(tài)手勢識別,采用徑向基核函數(shù)。
表 4 徑向基核函數(shù)識別結(jié)果Table 4 Radial basis kernel function recognition result
本文主要采用空域特征和對偶樹復小波相融合的特征,空域特征包含水平位置、豎直位置、長寬比、矩形度、Hu矩7個分量,計11維特征,頻域特征采用對偶樹復小波變換的16維特征,特征融合后,共計27維特征;采用BD算法進行訓練樣本優(yōu)選,優(yōu)選出46個新的訓練樣本,再將新的訓練樣本進行SVM分類器的訓練,實驗表明,采用徑向基核函數(shù)識別精度最高,速度最快,“1~9”的靜態(tài)手勢識別效果最好。