王曉琳
[摘要]隨著數(shù)字媒體技術(shù)的廣泛應(yīng)用及飛速發(fā)展,人們希望能夠更有效更自然地與計(jì)算機(jī)進(jìn)行交流。雖然新的硬件和應(yīng)用領(lǐng)域不斷涌現(xiàn),而人們熟悉和熟練掌握的人機(jī)交互方式仍然局限于鍵盤、鼠標(biāo)等,但它們限制了人機(jī)交流的速度和自然性?;谝曈X的手勢(shì)識(shí)別就成為了實(shí)現(xiàn)新一代人機(jī)交互不可缺少的一項(xiàng)關(guān)鍵技術(shù)。借助計(jì)算機(jī)視覺,數(shù)字圖像處理,模式識(shí)別等理論與技術(shù),使得計(jì)算機(jī)通過視覺通道(攝像機(jī))正確感知輸入的手勢(shì)語(yǔ),同時(shí)作出用戶所需要的響應(yīng),以實(shí)現(xiàn)自然的人機(jī)交互。
[關(guān)鍵詞]人機(jī)交互手勢(shì)跟蹤手勢(shì)分割手勢(shì)識(shí)別
中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671—7597(2009)1010032—01
一、緒論
人與計(jì)算機(jī)的交互活動(dòng)越來越成為人們?nèi)粘I畹囊粋€(gè)重要組成部分。人類交互往往聲情并茂,除了采用自然語(yǔ)言(口語(yǔ)、書面語(yǔ)言)外,人體語(yǔ)言(表情、體勢(shì)、手勢(shì))也是人類交互的基本方式之一。與人類交互相比,人機(jī)交互就呆板得多。手勢(shì)是由手形動(dòng)作輔之以表情姿勢(shì)而構(gòu)成的比較穩(wěn)定的表達(dá)系統(tǒng),是一種靠動(dòng)作和視覺進(jìn)行交際的特殊語(yǔ)言,它還是一種包含信息量最多的人體語(yǔ)言,它與語(yǔ)言及書面語(yǔ)等自然語(yǔ)言的表達(dá)能力相同,因而在人機(jī)交互方面,手勢(shì)完全可以作為一種手段,而且具有很強(qiáng)的視覺效果,它生動(dòng)、形象、直觀?;谝曈X的手勢(shì)交互是一個(gè)極富挑戰(zhàn)性的多學(xué)科交叉研究課題。
二、基于視覺的手勢(shì)識(shí)別基本原理簡(jiǎn)介
一個(gè)基于視覺的手勢(shì)識(shí)別系統(tǒng)一般有以下幾部分構(gòu)成:首先通過一個(gè)或多個(gè)攝像機(jī)獲取視頻數(shù)據(jù)流,接著系統(tǒng)根據(jù)手勢(shì)輸入的交互模型檢測(cè)數(shù)據(jù)流里是否有手勢(shì)出現(xiàn),如果有則把該手勢(shì)從視頻信號(hào)中切分出來。然后選擇手勢(shì)模型進(jìn)行手勢(shì)分析,分析過程包括特征檢測(cè)和模型參數(shù)估計(jì)。在識(shí)別階段,根據(jù)模型參數(shù)對(duì)手勢(shì)進(jìn)行分類并根據(jù)需要生成手勢(shì)描述,最后系統(tǒng)根據(jù)生成的描述驅(qū)動(dòng)具體應(yīng)用。近年來,手勢(shì)逐漸成為HCI中一種新穎的交互手段。手勢(shì)識(shí)別的解決方法對(duì)于表情識(shí)別、唇讀、步態(tài)識(shí)別、時(shí)空紋理分類、視覺導(dǎo)航、圖像拼接和幕于內(nèi)容的視頻檢索等研究都有直接推廣的意義。
三、手勢(shì)熾別各步驟方法和實(shí)現(xiàn)
(一)系統(tǒng)硬件平臺(tái)。本系統(tǒng)設(shè)計(jì)采用硬件為PC機(jī)一臺(tái),普通的網(wǎng)絡(luò)攝像頭一個(gè)。其中Pc機(jī)的配置:CPU為Intel P4 2.8GHz,IG內(nèi)存;網(wǎng)絡(luò)攝像頭為現(xiàn)代H103G網(wǎng)絡(luò)攝像頭。
(二)系統(tǒng)軟件平臺(tái)。本系統(tǒng)采用c/c++語(yǔ)言編寫界面和算法,開發(fā)平臺(tái)使用微軟的Visual c++6.0,另外,由于本系統(tǒng)是視覺系統(tǒng),因此采用了英特爾公司開發(fā)的計(jì)算機(jī)視覺開源庫(kù)OpenCV。本系統(tǒng)采用c/c++語(yǔ)言進(jìn)行代碼編寫,最終生成可執(zhí)行文件,實(shí)現(xiàn)6個(gè)手勢(shì)的識(shí)別,并用6個(gè)手勢(shì)進(jìn)行簡(jiǎn)單的人機(jī)交互。
(三)攝像頭視頻讀入。由于采用openCV進(jìn)行系統(tǒng)開發(fā),攝像頭視頻讀入部分也變得非常容易,只要調(diào)用其指定函數(shù),建立顯示窗口,并正確安裝攝像頭驅(qū)動(dòng)程序。啟動(dòng)程序后,從網(wǎng)絡(luò)攝像頭讀入的實(shí)時(shí)視頻就很方便的從攝像頭讀入,并顯示在窗口中。
(四)手勢(shì)定位。手勢(shì)定位一般有兩類方法,即基于運(yùn)動(dòng)信息的定位方法和基于顏色信息的定位方法。
1,運(yùn)動(dòng)檢測(cè)。運(yùn)動(dòng)檢測(cè)的目的是從序列圖像中將變化區(qū)域從背景圖像中提取出來。由于背景圖像的動(dòng)態(tài)變化,如天氣、光照及影子等的影響,使得運(yùn)動(dòng)檢測(cè)成為一項(xiàng)相當(dāng)困難的工作。
2,膚色檢測(cè)。由于僅采用運(yùn)動(dòng)檢測(cè)法不能較好地定位手勢(shì)的位置,需要引入膚色檢測(cè)法定位手的位置。HSV色度空間是孟塞爾色彩空間的簡(jiǎn)化形式,是以色彩的色調(diào)(H),飽和度(s),亮度(v)為三要素來表示的。基于HSV顏色模型的膚色檢測(cè)算法采用H分量檢測(cè)膚色,在H分量中的膚色具有較好的聚集性,和其他顏色距離較大,易于與其他顏色區(qū)別和分離,并且受光照影響小,計(jì)算量小,實(shí)時(shí)性很高。實(shí)驗(yàn)表明,采用本方法定位和檢測(cè)手勢(shì)區(qū)域,計(jì)算量小,定位快速,在一定條件下也比較準(zhǔn)確。
(五)手勢(shì)跟蹤。在基于視覺的手勢(shì)分析中,手勢(shì)跟蹤是一個(gè)關(guān)鍵環(huán)節(jié)。實(shí)驗(yàn)表明,結(jié)合Camshift算法和KMman濾波能實(shí)時(shí)、準(zhǔn)確地跟蹤手勢(shì),能有效地處理人臉干擾和手勢(shì)部分被遮擋等問題,為下一步的手勢(shì)識(shí)別作準(zhǔn)備。通過以上改進(jìn)CamShift算法對(duì)攝像頭讀入的視頻序列作膚色跟蹤,得到膚色的反向概率投影圖。
(六)手勢(shì)分割。計(jì)算機(jī)手勢(shì)識(shí)別是計(jì)算機(jī)視覺領(lǐng)域和數(shù)字圖象處理領(lǐng)域一個(gè)迅速發(fā)展的重要的方向,它是計(jì)算機(jī)在人手運(yùn)動(dòng)時(shí)由攝像機(jī)采集到的序列圖像中分割出人手來完成手勢(shì)的識(shí)別工作。
本文采用基于自適應(yīng)閾值的動(dòng)態(tài)手勢(shì)分割,將從CamShift算法輸出的反向膚色概率投影圖做一系列形態(tài)學(xué)處理,如模糊,膨脹,腐蝕等,最后做二值化,使輸出為良好的分割結(jié)果二值圖。
(七)手勢(shì)識(shí)別。手勢(shì)圖像經(jīng)過二值化處理后,提取手勢(shì)圖像的幾何矩特征,取出幾何矩特征7個(gè)特征分量中的4個(gè)分量,形成手勢(shì)的幾何矩特征向量。
本系統(tǒng)具體的做法是:計(jì)算每種手勢(shì)的4個(gè)矩不變量,并作為模板,在視頻讀入時(shí),對(duì)待識(shí)別手勢(shì)計(jì)算4個(gè)矩不變量,和模板比較其Hausdorff距離,距離越小表明越相近,則以此作為識(shí)別出的手勢(shì),并驅(qū)動(dòng)交互操作。通過識(shí)別4種手勢(shì),對(duì)計(jì)算機(jī)進(jìn)行操作,實(shí)現(xiàn)簡(jiǎn)單的圖片縮放和選擇功能。識(shí)別結(jié)果和交互結(jié)果顯示,本系統(tǒng)功能良好。
四、總結(jié)與展望
人機(jī)交互和計(jì)算機(jī)用戶界面剛剛走過基于字符方式的命令語(yǔ)言式界面,目前正處于圖形用戶界面時(shí)代。但是,計(jì)算機(jī)科學(xué)家并不滿足于這種現(xiàn)狀,他們正積極探索新型風(fēng)格的人機(jī)交互技術(shù)。當(dāng)前語(yǔ)音識(shí)別技術(shù)和計(jì)算機(jī)聯(lián)機(jī)手寫識(shí)別技術(shù)的商業(yè)成功讓人們看到了自然人機(jī)交互的曙光。虛擬現(xiàn)實(shí)和多通道用戶界面的迅速發(fā)展顯示出未來人機(jī)交互技術(shù)的發(fā)展趨勢(shì)是追求所謂“人機(jī)和諧”的多維信息空間和“基于自然交互方式的”的人機(jī)交互風(fēng)格。