丁亮,武林,劉清民
(1.中國科學技術信息研究所,北京 100038;2.重慶理工大學保衛(wèi)處信息科,重慶 400054)
基于邊緣保持中值濾波和BP神經網絡的自然手勢識別研究
丁亮1,武林2,劉清民1
(1.中國科學技術信息研究所,北京 100038;2.重慶理工大學保衛(wèi)處信息科,重慶 400054)
旨在對噪聲干擾下的自然手勢進行提取并識別,通過圖像小波去噪、提取邊緣的中值濾波處理,再將手勢樣本二值化并進行區(qū)域特征的提取,得到自然手勢的二值化圖像?;贐P神經網絡對自然手勢模擬,實現(xiàn)自然手勢的去噪識別。對已有自然手勢識別技術進行分析并做出合理展望,為自然手勢識別研究提供新思路。
中值濾波邊緣提取;區(qū)域特征提取;BP神經網絡
自然手勢識別技術是人工智能和自動化發(fā)展過程中必須解決的問題,生活中自然手勢已經成為人機交互的重要信息。這些自然手勢大數(shù)據(jù)的正確識別成為計算機科學與自動化領域研究的熱點。國內外已經有很多的研究者從不同角度進行了不同程度的研究與應用,并且取得了一些研究成果。因為文化差異和應用情景的不同,使得手勢識別研究不能整合到完整的框架中,理論及技術并沒有成為一個完整的體系。
筆者通過小波去噪處理輸入,將其二值化處理,根據(jù)邊緣保持中值濾波等特征工程進行噪聲去除。利用BP神經網絡學習手勢模型,實現(xiàn)常見手勢識別。
20世紀90年代,Starner首先利用HMM模型進行美國手語(ASL)的識別研究,利用4個特征值構成單手手勢的特征向量[1],University of Illinois的Pavlovic,V.I.等人提出手勢識別的可視化交互研究,首次提出了手勢識別的數(shù)學模型[2],Aditya Institute of Technology的GRS Murthy博士提出手勢識別中的數(shù)據(jù)手套作為輸入設備[3],哈爾濱工業(yè)大學的高文教授提出基于Hausdorff距離的手勢識別[4],清華大學徐光祐教授進行了基于線條特征的手勢識別研究,通過過去特征線條的特征、曲線段的跟蹤、運動參數(shù)的獲取、手勢識別幾個步驟[5],燕山大學的楊阿妮碩士提出基于馬爾科夫模型的手勢識別系統(tǒng)研究[6],上海海事大學的殷濤碩士提出了基于幾何矩的手勢識別算法[7],Jintae Lee和Tosiyasvl kunii進行了通過立體圖像自動分析三維手勢的研究工作,成功提取27個交互作用的手參數(shù),實現(xiàn)了三維手勢的重構[8],這些研究為虛擬現(xiàn)實交互技術的發(fā)展和機器人研究的發(fā)展做出了貢獻。但是均未考慮自然手勢原始圖像中的噪聲信息,即上述研究中的自然手勢均為預處理好的單一場景下的樣本數(shù)據(jù)。本文提出基于邊緣保持中值濾波的噪聲去除方案,對原始圖像中的手勢以外噪音進行去除,并用BP神經網絡訓練實現(xiàn)基本自然手勢識別。
考慮背景干擾發(fā)生在圖像采集中的情況,我們可以把圖像劣化分為兩種,一種是目標失真或者模糊而劣化,另一種是障礙物出現(xiàn)在目標圖像上導致的劣化。像后者那樣的障礙物就是圖像的噪聲。筆者針對手勢圖像采集時候可能出現(xiàn)的噪聲,進行邊緣檢測并基于邊緣保持提取手勢特征實現(xiàn)去噪。
下面簡單介紹連續(xù)小波變換理論將任意地L2(R)空間里的函數(shù) f(t)在小波基下展開,表達式為:小波變換和傅立葉變換一樣,是一種積分變換,f(a,b)為小波變換系數(shù)。不同于傅立葉變換的是小波具有尺度a和平移b兩個參數(shù),這樣有利于提取信號函數(shù)的本質特征。
對于噪聲處理,最好的結果是噪聲被消除了,而邊緣還完好地保留著。如圖1所示,我們采用邊緣保持中值濾波的方式進行,邊緣保持中值濾波不僅可以用于噪聲點消除,還可用于邊緣提取,由于圖像中的自然手勢與背景之間的交界是邊緣,邊緣存在于圖像中灰度、紋理結構或者色素點聚變的地方,首先將其灰度化,然后將焦點集中在灰度上就可以進行RGB256中相鄰色素點大于整體標準偏差的點作為邊界點:
圖1 小波去噪算法
圖2-圖5分別為無障礙自然手勢和有障礙自然手勢加入椒鹽噪聲之后小波去噪的結果和進行邊緣檢測的處理結果。
對于有障礙自然手勢樣本圖像,必須進行適當?shù)奶卣魈崛。覀儾捎没谔卣鲄?shù)來提取物體。研究中我們采用以下幾種特征描述:區(qū)域特征描述(面積、周長、重心)、形狀特征描述(圓形度、歐拉數(shù))、曲線和表面的擬合。在圖像分析中,為了描述物體邊界或者其他特征,需要將局部離散擬合為曲線或者曲面,通常使用最小均方誤差準則來找出一定參數(shù)形式下的最佳擬合函數(shù)。
以圖3為例,樣本中不僅包含自然手勢,還摻雜質圖像,我們首先讀入圖像,進行閾值化處理、圖像平滑、區(qū)域標記,最后計算出每個物體的上述特征,可見其中長寬比和面積最大的區(qū)域只有自然手勢一個區(qū)域,只要把面積較大和長寬比較大區(qū)域提取出來即為自然手勢區(qū)域。通過上述算法流程,得到通過特征提取的自然手勢如圖6所示。
圖6 有障礙自然手勢區(qū)域特征提取
BP算法是Rumelhart等人在1986年提出來的,由于其結構簡單,可調整的參數(shù)多,可操作性好,得到了非常廣泛的應用。
圖2 無障礙自然手勢去噪
圖3 無障礙自然手勢輪廓提取
圖4 有障礙自然手勢去噪
圖5 有障礙自然手勢輪廓提取
該網絡在結構上與自組織特征映射的神經網絡相似,分為輸入層和輸出層,輸入層采集特征提取后的平面圖像數(shù)據(jù),主要在進行手勢識別時候需要各個手指的手部姿勢的信息,需要14個可能活動的紅色節(jié)點信息,如7圖所示,輸入的每個量看作十四維空間中的一個特征向量;連接層采用全連接的方式,即每一個輸出節(jié)點都與輸入層的14個輸入節(jié)點連接,每個連接都有相對應的輸入權值ω。每個輸出節(jié)點對應的14個ω表征了十四個輸入量對于此輸出節(jié)點的不同重要程度,輸入權值在訓練的過程中進行調整;輸出層成為競爭層,每個輸出節(jié)點根據(jù)各個輸入的數(shù)值和權值進行計算后輸出。在這個過程中,每一次全面輸出都對應一種手勢。
圖7 自然手勢關節(jié)
針對9個節(jié)點進行BP神經網絡模型構建,輸入-規(guī)則-輸出三層模型設計必須遵循神經網絡結構,其神經元的傳遞是S型函數(shù),輸出量為0~1的連續(xù)量,可以實現(xiàn)從輸入到輸出的任意非線性映射。其中ωij(i,j=12…9)表示權值,其中傳輸函數(shù)通常采用sigmoid函數(shù)。設計的BP神經網絡的隱含層總共9×5=45個權值,輸入-輸出層構造五種手勢如圖8所示,該研究就以簡單的數(shù)字識別為例,該部分就特征提取部分提取的手勢為例子,進行訓練和仿真。如下為仿真結果,輸入手勢5和0時能得到對應的類別向量。
判定為 5,輸出的類別向量為(0,0,0,0,1,0,0,0,0)
判定為 0,輸出的類別向量為(1,0,0,0,0,0,0,0,0)
圖8 神經網絡模型構建
本文采用了圖像采集、二值化、小波去噪、疊加椒鹽噪聲、提取邊緣的中值濾波處理、提取自然手勢部分的區(qū)域特征處理、模擬自然手勢的BP神經網絡模型這幾種計算機圖像學和人工智能技術進行作為最關鍵的處理機制。通過上述機制很好地解決了有噪聲障礙的自然手勢識別,并取得了很好的效果。
在當今交交互系統(tǒng)應用廣泛的時代,自然手勢識別交互系統(tǒng)的研究可以大大使得生活變得方便,例如可以制造出更加人性化的電子游戲設備、在醫(yī)學上可以進行機器人手術操作來提高手術準確度、在殘疾人療養(yǎng)中心可以采用自然手勢識別交互系統(tǒng)來幫聾啞人方便的交流,甚至在當前流行的電子商務網站中運用自然手勢別是交互系統(tǒng)來便于企業(yè)盈利[9]。
[1]Starnert,Pentland A.Real-Time American Sign Language Recognition from Using Hidden Markov Model[R].Technical Report,375,MIT Media Lab,Perceptual Computing Group,1995.
[2]Pavlovic V I,Sharma R,Huang T S.Visual Interpretation of Hand Gestures for Human-Computer Interaction:A Review[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,1997,19(7):677-695.
[3]Murthy G R S,Jadon R S.A Review of Vision Based Hand Gestures Recognition[J].International Journal of Information Technology and Knowledge Management,2009,2(2):405-410.
[4]張良國,吳江琴,高文,等.基于Hausdorff距離的手勢識別[J].中國圖象圖形學報,2002,7(11):1144-1150.
[5]任海兵,徐光祜.基于特征線條的手勢識別[J].軟件學報,2002,13(5):987-993.
[6]楊阿妮,常丹華.神經網絡與馬爾可夫模型的手勢識別系統(tǒng)[J].電子測量技術,2010,33(4):60-64.
[7]殷濤,葛元,王林泉.基于幾何矩的字母手勢識別算法[J].計算機工程,2004,30(18):127-129.
[8]Hans Rijpkema,Michael Girard.Computer Animation of Knowledge-Based Human Grasping[J].Computer Graplrics,1991,25(4):339-348.
[9]丁亮.關于電子商務網站中商品分類的分析[J].中國電子商務,2012(22):12-12.
Abstract:Extracts and identifies the natural gestures under noise interference.Through the image wavelet denoising,the median filtering process of the edge is extracted,and the gesture samples are binarized and the regional features are extracted to obtain the binarized image of the natu?ral gestures.Based on BP neural network for natural gesture simulation,to achieve the natural gesture denoising identification.Analyzes the existing natural gesture recognition technology and makes a reasonable prospect,and provides a new idea for natural gesture recognition re?search.
Keywords:Edge Extraction Median Filter;Feature Extraction;BP Neural Network
Research on Natural Gesture Recognition Based on Edge Preserving Median Filter and BP Neural Network
DING Liang1,WU Lin2,LIU Qing-min1
(1.Institute of scientific and Technical Information of China,Beijing 100038;2.Chongqing University of Technology,Chongqing 400054)
1007-1423(2017)25-0010-04
10.3969/j.issn.1007-1423.2017.25.003
丁亮(1994-),男,陜西漢中人,碩士研究生,研究方向為自然語言處理與機器翻譯
武林(1991-),男,江蘇連云港人,碩士研究生,研究方向為大數(shù)據(jù)技術及應用
劉清民(1993-),男,遼寧朝陽人,碩士研究生,研究方向為自然語言處理與機器翻譯,Email:dingliang2015@istic.ac.cn
2017-07-27
2017-07-31