江鐵成
(1.安徽大學(xué)藝術(shù)與傳媒學(xué)院,安徽 合肥 230011;2.安徽廣播影視職業(yè)技術(shù)學(xué)院,安徽 合肥 230011)
?
基于視覺手勢識別技術(shù)的實踐研究
江鐵成1,2
(1.安徽大學(xué)藝術(shù)與傳媒學(xué)院,安徽 合肥 230011;2.安徽廣播影視職業(yè)技術(shù)學(xué)院,安徽 合肥 230011)
[摘要]本文首先簡單介紹了市面上手勢識別技術(shù)的應(yīng)用狀況,接著分析了計算機手勢識別的技術(shù)具體內(nèi)容,介紹了手勢識別技術(shù)常見的 幾種方法,分析手勢建模方式,最后研究了現(xiàn)實生活中手勢識別技術(shù)的在人機交互中的應(yīng)用情況。
[關(guān)鍵詞]視覺;手勢;識別技術(shù);應(yīng)用
手勢屬于一種容易接受、形象直觀、自然真實的人機交互手段。人機之間不使用其他媒體,直接用人手作為輸入設(shè)備,通過一種簡單定義得來的手勢進行控制計算機。手勢識別技術(shù)的研究內(nèi)容一般分為兩種:手勢合成技術(shù)與手勢識別技術(shù),手勢合成技術(shù)包含在計算機圖形學(xué)范疇內(nèi),手勢識別技術(shù)包含在模式識別范疇內(nèi),兩個階段共同完成以下任務(wù),也就是識別人臉、面部表情、頭部運動跟蹤、體勢識別等[1]。這種技術(shù)在實踐運用中,具有間接性、直接性和豐富性,所以得到不斷推廣普及。
1視覺手勢識別技術(shù)的發(fā)展
剛開始研究重點是設(shè)計一種專用硬件設(shè)備來輸入數(shù)據(jù)。比如數(shù)據(jù)手套,只要人拿著一個相似于手套的傳感器,通過傳感器的反應(yīng),計算機能夠獲得人手的具體位置,手指的彎曲程度等多種信息。最有代表性的人物是一個叫B.Thamas的學(xué)者,在1993年建立了自由手遙控目標(biāo)系統(tǒng),其輸入媒介就是利用了數(shù)據(jù)套,還是需要人帶著一個特殊的實驗設(shè)備,有些麻煩。
后來,科學(xué)家們發(fā)展到集中精力研究標(biāo)記手勢。也就是在人的手上做一個標(biāo)記,可以在手腕處畫上有顏色的符號,進而達到認識手勢的目的,這種方法方便了識別的同時,也帶來了實驗困難。
為了免除不必要的麻煩,研究者最終集中精力研究人的手掌,經(jīng)過反復(fù)的脫機訓(xùn)練,利用專用實驗硬件,研究出了一套簡單的手勢系統(tǒng)。只可以識別僅有的幾種系統(tǒng)。具有代表性是人是Freeman聯(lián)合Roth等人共同研究出了基于方向直方圖的手勢識別系統(tǒng)。還有一個叫高文的研究者,進一步實驗,創(chuàng)造了在靜態(tài)復(fù)雜背景中對手勢目標(biāo)進行捕獲,加以識別的手勢識別系統(tǒng),經(jīng)過一年的深入研究,又建立了在動態(tài)背景下,進行捕獲手勢目標(biāo),加以識別的系統(tǒng)。
以后對自然手的識別系統(tǒng)的研究是一種流行趨勢,基于視覺的手勢識別技術(shù)不斷改進,逐漸滿足了人們的需求[2]。
2計算機手勢識別技術(shù)具體內(nèi)容
手勢應(yīng)用在人機交互過程中必備的前提條件是,利用計算機進行手勢識別,以及深入分析手勢輸入技術(shù)。當(dāng)前市場上比較流行下面三種不同手段來識別手勢。
(1)利用鼠標(biāo)器和筆來識別手勢,有一個鮮明的缺陷,僅僅是識別手的整體運動形態(tài),無法顯示識別手指的細節(jié)動作。但優(yōu)勢較多,利用軟件算法實現(xiàn)識別功能,特別適合用于普通用戶的桌面系統(tǒng)。在此值得指出,只限于利用鼠標(biāo)光標(biāo)運動,利用筆尖運動或者是運動的方向傳達所需要的信息,如此情況下,所使用的筆、鼠標(biāo)、光標(biāo)等工具就可以看成是手勢表達根據(jù)。在印刷、編輯、排版工作中常有這種技術(shù)來校對文字,比人工校對效率高幾倍。
(2)利用計算機視覺技術(shù),也就是利用攝象機輸入手勢技術(shù),有一個優(yōu)點是絲毫不會影響到用戶,用戶只需要在攝象機面前出現(xiàn),受到市場普遍歡迎,目前這項技術(shù)吸引了大量的計算機技術(shù)工作者深入研究??墒牵胗兴黄?,面臨重重困難,當(dāng)前市場上的計算機識別技術(shù)處于初級階段,無法準(zhǔn)確識別手勢,分析手勢,執(zhí)行命令,前面的路還長。
(3)基于數(shù)據(jù)套建立手勢識別技術(shù),數(shù)據(jù)套(Data Glove)技術(shù)稍微復(fù)雜些,技術(shù)難度也較大,能夠測定出手指的手勢,分辨出手指的姿勢。可是對用戶要求嚴(yán)格些,必須保持手指的干燥、干凈,否則,識別系統(tǒng)會出現(xiàn)問題,數(shù)據(jù)不準(zhǔn)確,可是計算機設(shè)備價格比較貴,難以普及。
3當(dāng)前普遍使用的計算機手勢識別方法
常見手勢識別方法有如下三種:
(1)較為簡單的模版匹配技術(shù)預(yù)先建立一個模版,儲存需要的數(shù)據(jù),然后通過傳感器獲取的原始數(shù)據(jù),原始數(shù)據(jù)與模版自行匹配,出現(xiàn)一定的相似度,以相似度的高低完成手勢識別任務(wù)。
(2)比較新型的神經(jīng)網(wǎng)絡(luò)技術(shù)使用一種新模式,具備了較為全面的能力,有較強的組織能力,自學(xué)能力,有明顯的分布性特點,能夠自行解決有些缺陷的模式,有效抵抗各種噪音,具備了較強的模式推廣功能。
(3)較為復(fù)雜的統(tǒng)計分析技術(shù)是一種計算概率的分類方法,先統(tǒng)計出樣本的各種特征向量,進而確定分類器的分類技巧。手勢模式識別技術(shù)里,一般建立一個分類函數(shù),依據(jù)是貝葉斯極大似然理論,將相關(guān)概率分類。這種手勢識別技術(shù)存在明顯的缺點,就是不能夠直接識別全部獲得的原始數(shù)據(jù),必須通過人們操作,從有關(guān)的原始數(shù)據(jù)中提取部分需要的特種向量,這個步驟在實際使用起來顯得較為麻煩。
當(dāng)前市場上手勢識別技術(shù)運用較多的是數(shù)據(jù)套的神經(jīng)網(wǎng)絡(luò)技術(shù),因為它能夠進行靜態(tài)輸入和動態(tài)輸入,十分有利于訓(xùn)練活動,記錄快速和交互的活動方式,省去了利用一種解析方式定義傳遞特征的步驟。還可以自行調(diào)節(jié)處理,用戶根據(jù)自己需求調(diào)整網(wǎng)絡(luò)的鏈接權(quán)值,以求手勢識別程序符合自己的意愿。但是此種技術(shù)也存在不足之處,必須通過網(wǎng)絡(luò)設(shè)備完成手勢識別技術(shù),如果更改了手套設(shè)備,那么網(wǎng)絡(luò)的拓撲結(jié)構(gòu)也必須隨著改變,還必須從頭開始訓(xùn)練網(wǎng)絡(luò),獲得新的鏈接權(quán)值[3]。
4基于視覺手勢建模分析
4.1手勢建模過程
手勢模型在建立手勢識別系統(tǒng)中處于核心位置,決定著識別范圍的確定過程,選擇模型就是根據(jù)具體應(yīng)用來確定的。針對一個確定的應(yīng)用,只要建立一個簡單、粗糙的模型使用圖像梯度方向直方圖,再用此圖來跟蹤人手,識別靜態(tài)手勢如果要實現(xiàn)人機交互,就要建立3D人手模型。保證所需識別系統(tǒng)能夠正確反應(yīng)出用戶的大部分手勢,(而不是全部的手勢),反應(yīng)也就是識別或者決絕。根據(jù)歷史資料查詢得知,當(dāng)前3D模型分為兩種:基于表現(xiàn)的手勢建模方法,和基于3D模型的手勢建模方法。前者是通過分析手勢在圖像里的變現(xiàn)特這來建立手勢模型,后者是先給手和手臂的靜態(tài)與運動動態(tài)建模的,接著,利用手和手臂的靜態(tài)與動態(tài)模型參數(shù),處理好估計手勢模型參數(shù),從而獲得3D手勢識別技術(shù)。通常來說,手勢建模過程分為兩個步驟:第一步是給手的表面及動態(tài),手臂的動作與形態(tài)進行建模,第二步是按照運動和姿態(tài)的模型,詳細設(shè)計手勢模型參數(shù)。
基于3D手模型的手勢模型基本包含了四種:骨架模型、幾何模型、網(wǎng)絡(luò)模型以及體模型。其中體模型功能是識別身體,跟蹤身體姿態(tài)和動作。這種人體3D模型在實踐中普遍使用的是3D骨架模型。參數(shù)是經(jīng)過簡化處理過的人體關(guān)節(jié)角度參數(shù)和指節(jié)長度數(shù)據(jù)。根據(jù)人手的物理性質(zhì),3D骨架模型可以獲得兩種約束,一個是靜態(tài)約束,分析關(guān)節(jié)角度范圍,另一個是動態(tài)約束,分析運動依賴關(guān)系。
基于3D手臂模型使用過程中經(jīng)常出現(xiàn)兩個重要困難:第一個是參數(shù)空間的維數(shù)高,難以分析。第二個是利用視覺技術(shù)獲得手臂模型的參數(shù)十分困難,技術(shù)復(fù)雜,目前難以克服。
基于表觀的手勢模型分為四類。第一類基于表觀的手勢模型,建立過程發(fā)揮了2D灰度圖像的作用。第二類手勢模型通過手(臂)的可變性2D模版建立的。第三類手勢模型根據(jù)圖像屬性的相關(guān)數(shù)據(jù)建立的。第四類基于表觀的手勢模型主要針對動態(tài)手勢識別運用中,它使用計算機圖像運動參數(shù)進行技術(shù)分析,獲得手勢模型參數(shù)而建立的。
4.2手勢分析階段技術(shù)
目前手勢基于3D手勢分析階段的任務(wù),是對手勢模型的參數(shù)進行分析,加以估計,做出選定。這個階段的任務(wù)包含了兩個內(nèi)容:特征檢測串行,參數(shù)估計串行。
進行特征檢測第一步必須將手勢的主體(人手)做出定位。由于線索不一樣,導(dǎo)致定位技術(shù)也不一樣,出現(xiàn)以下三種:基于運動定位技術(shù)、基于顏色定位技術(shù)和多模式定位技術(shù)?;陬伾ㄎ患夹g(shù)很大程度上利用了皮膚的測驗數(shù)據(jù),或者利用直方圖匹配技術(shù)建立查找表的方法,得到普遍推廣,可是也存在很大的局限性,由于關(guān)照條件發(fā)生變化,引起皮膚顏色發(fā)生相應(yīng)的變化,導(dǎo)致出現(xiàn)了有些皮膚沒有被發(fā)現(xiàn),還會出現(xiàn)錯誤檢測形成非皮膚區(qū)域。如果將背景進行限制,或者領(lǐng)用顏色手套,也許能夠高效率的定位人手,甚至實時定位人手??墒沁@樣以來,對用戶提出了一定要求,對接口設(shè)備也提出了更加嚴(yán)格的限制性質(zhì)的條件[4]。
雖然各種手勢模型的參數(shù)是不一樣,可是有一點基本上是相似的,即用于計算模型參數(shù)的圖像特征基元差不多。普遍使用的圖像特征基元一般有以下幾種:區(qū)域、邊界、輪廓、指尖、二值影響以及灰度圖像等。
對3D模型參數(shù)進行估計不能采用一個模式,應(yīng)該根據(jù)模型對應(yīng)的參數(shù)運用相應(yīng)的參數(shù)估計方法。一個完整的3D手模型一般都具有兩個環(huán)節(jié),一個是原始參數(shù)估計環(huán)節(jié),另一個是參數(shù)隨時間更新環(huán)節(jié)。
2D所包含的四類基于表觀的手勢模型的估計也不能采用一個標(biāo)準(zhǔn),而應(yīng)該是根據(jù)每一個類別,使用該類別相應(yīng)的估計方法。
4.3手勢識別過程
手勢識別具體細節(jié),是把手勢模型參數(shù)空間翠的軌跡,有的是一些點,根據(jù)需要分類到該空間的一個子集當(dāng)中的過程。靜態(tài)手勢只能與一個點或者是幾個點相對應(yīng)。動態(tài)手勢相對來說復(fù)雜一些,只能與模型參數(shù)空間里的一條軌跡做出對應(yīng)。
由此得知,兩種手勢識別方法也不一樣。靜態(tài)手勢識別算法細分為兩種:一種是基于非線性聚類技術(shù)識別算法,另一種是基于經(jīng)典參數(shù)聚類技術(shù)的識別算法。 動態(tài)手勢比靜態(tài)復(fù)雜些,牽連到時間變化和空間上下位置,大部分動態(tài)手勢利用參數(shù)空間的軌跡進行建模。由于不同用戶的手勢動作受到時間、速率、熟練程度的影響,在時間軸上會出現(xiàn)非線性波動。
由于處理時間軸的效果不同,動態(tài)手勢識別技術(shù)可以分為三類:第一類是基于動態(tài)實踐規(guī)整的識別,第二類是基于隱馬爾可夫模型的識別,第三類基于壓縮時間軸的識別。
5手勢識別技術(shù)在實踐中的應(yīng)用狀況
目前手勢識別技術(shù)在以下四個方面得到推廣實用。
(1)手勢識別技術(shù)運用于機器人機械手抓取程序的建立。機器人機械手程序建立的難點就是自然抓取程序的建立,如果利用手勢識別技術(shù),提高機械手的識別事物能力,收集相關(guān)事物表象數(shù)據(jù),進一步分析,得出下一步措施數(shù)據(jù),進而指揮機械手抓取物體,因此,更一步研究基于數(shù)據(jù)庫手勢識別,將會突破機械手的難點,促使機器人技術(shù)躍上一個臺階,將會得到很多行業(yè)重視,市場前景廣闊。
(2) 手勢識別技術(shù)廣泛使用在虛擬環(huán)境中, 進行數(shù)據(jù)交互。虛擬設(shè)計產(chǎn)品,虛擬裝配產(chǎn)品零件,虛擬制造有關(guān)產(chǎn)品,利用手勢識別技術(shù)將會大大提高工作效率。此類虛擬環(huán)境中的作業(yè)都是可以通過手的動作直接裝配零件,具體裝配零件時可以預(yù)先定義零件之間的裝配關(guān)系,利用手勢與語音的合成技術(shù)實現(xiàn)這種定義,每個零件、零件之間的關(guān)系設(shè)定相應(yīng)語音,執(zhí)行裝配自動提醒或預(yù)警報告。手勢識別技術(shù)在輸入復(fù)雜設(shè)計信息中也發(fā)揮同樣的作用[5]。
(3)手勢識別技術(shù)最基本的功能是用于手語識別。手語識別研究最終目的就是聾人的語言給機器人甄別,得出相應(yīng)的反應(yīng)。其中必須建立一個人-機手語翻譯系統(tǒng),這個系統(tǒng)有手語識別與手語合成有機聯(lián)系得出,提供給聾人,幫助聾人與環(huán)境順利交流。手語識別技術(shù)包含兩種:基于視覺手語識別技術(shù),和基于數(shù)據(jù)手套手語識別技術(shù)。其中有一個“感知”手勢過程,如圖2所示:
感知過程就是用戶概念手勢G,經(jīng)過運動控制之后,手勢運動H表達,輸入設(shè)備,變換Thi,轉(zhuǎn)變?yōu)橄到y(tǒng)信息I。由G轉(zhuǎn)變?yōu)镮的過程是:
T gh:G → H·即HT gh (G)
T gi:H →I·即IT hi (G)
T gh:G→ I·即IThi (T gh(G)) T(G)
其中:Tgh為人體運動控制傳送函數(shù):Thi為輸入設(shè)備傳送函數(shù)
(4)手勢識別技術(shù)普遍使用在多媒體界面。如今多媒體用戶界面采用多種交互設(shè)備,鼠標(biāo)與鍵盤同時使用,手勢輸入與鍵盤、鼠標(biāo)都各得其所,手勢輸入雖然技術(shù)先進,可是仍然有不足之處,第一個不足之處是手勢識別所用設(shè)備性能不夠周全,技術(shù)還不夠全面。第二個是手勢本來就有很多難以琢磨的特性:差異性、多義性、多樣性以及不精確性等。二者原因?qū)е铝耸謩葑R別近些年來無法取代傳統(tǒng)式交互設(shè)備。手勢輸入有優(yōu)點,可是在人機交互中應(yīng)用的本來意義,不是用作未獨立的用作空間指點,而是幫助語言、唇語以及視線等交互手段通道提供相應(yīng)的空間約束信息,或者時間等相關(guān)的約束信息,這樣就消除了在單通道輸入過程中出現(xiàn)的歧義問題。如此效果,難以做到用充分性全面代替精確性的目的。
6總結(jié)
本文介紹了手勢識別技術(shù)的使用現(xiàn)狀,手勢識別的具體概念,詳細敘述了手勢識別的幾點關(guān)鍵技術(shù),重點分析了當(dāng)今時代手勢識別的應(yīng)用狀態(tài)。
[參考文獻]
[1]陸穎雋.虛擬現(xiàn)實技術(shù)在數(shù)字圖書館的應(yīng)用研究[D].武漢大學(xué),2013.
[2]任海兵,祝遠新,徐光,林學(xué),張嘵平.基于視覺手勢識別的研究綜述[J].電子學(xué)報,2000,02:118-121.
[3]鄒晨,張樹有,譚建榮,劉振宇.VR環(huán)境中產(chǎn)品設(shè)計手勢的定義與合成[J].工程圖學(xué)學(xué)報,2000,02:107-110.
[4]方志剛.計算機手勢輸入及其在人機交互技術(shù)中的應(yīng)用[J].小型微型計算機系統(tǒng),1999,06:19-22.
[5]高鷹,黃昌正,周子航,劉振能.基于ARM的數(shù)據(jù)手套及其手語識別系統(tǒng)的設(shè)計與實現(xiàn)[J].廣州大學(xué)學(xué)報(自然科學(xué)版),2012,04:68-74.
Practical Research on Recognition Technology based on Visual Gesture
JIANG Tiecheng1,2
(1.SchoolofArtandCommunication,AnhuiUniversity,Hefei230011,China;2.AnhuiVocationalCollegeofRadio,FilmandTelevision,Hefei230011,China)
Abstract:This paper briefly introduces the application of gesture recognition technology in the market, followed by the analysis of the computer gesture recognition technology including the specific content, gesture recognition techniques, and lastly, it studies application of the hand gesture recognition technology in human-computer interaction.
Key words:vision; gesture; recognition technology; application
[收稿日期]2016-03-01
[基金項目]安徽省自然科學(xué)重點項目:《動畫融合技藝在影視制作中應(yīng)用研究》(項目批號:SK2014A447)
[作者簡介]江鐵成(1971-),男,安徽潛山人,碩士,副教授、工程師。研究方向:計算機及應(yīng)用。
[中圖分類號]TP391
[文獻標(biāo)識碼]A
[文章編號]1674-2273(2016)03-0031-04