陳 瑩,黃永彪*,謝 瑾
(1.廣西民族大學(xué),廣西 南寧 530006;2.武漢大學(xué)計(jì)算機(jī)學(xué)院,湖北 武漢 430072)
人機(jī)交互的形式隨著生活水平的日益提升與智能設(shè)備的普及,逐漸進(jìn)入大眾的日常生活,其中,應(yīng)用最多、最常見(jiàn)的手勢(shì)識(shí)別技術(shù),引發(fā)了眾多相關(guān)研究學(xué)者的熱烈討論。針對(duì)手勢(shì)背景復(fù)雜性與形態(tài)多樣性,石雨鑫等[1]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的識(shí)別方法,經(jīng)過(guò)分割靜態(tài)手勢(shì)圖像,采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征向量進(jìn)行提取,通過(guò)森林分類(lèi)器完成特征向量劃分。孫玉等[2]在研究中采用Leap Motion傳感器收集手部的三維坐標(biāo)數(shù)據(jù),并獲得含有手指動(dòng)作與手掌位移的動(dòng)態(tài)手勢(shì)特征序列,通過(guò)與長(zhǎng)短期記憶網(wǎng)絡(luò)模型的結(jié)合,實(shí)現(xiàn)手勢(shì)識(shí)別。而彭玉青等[3]研究得出的手勢(shì)識(shí)別方法,則應(yīng)用了改進(jìn)的TOLO算法來(lái)檢測(cè)手勢(shì),根據(jù)空間金字塔池化,避免卷積神經(jīng)網(wǎng)絡(luò)的多尺度輸入,從復(fù)雜的背景中識(shí)別手勢(shì)。
為進(jìn)一步提高人機(jī)交互手勢(shì)識(shí)別準(zhǔn)確度,提出一種人工智能輔助下人機(jī)交互隔空手勢(shì)識(shí)別模型。根據(jù)人機(jī)交互隔空手勢(shì)識(shí)別的原理,添加語(yǔ)義反饋與交互通道信息整合機(jī)制,設(shè)計(jì)支持隔空手勢(shì)識(shí)別。在色彩空間中,架構(gòu)高斯混合的顏色分布模型,采用最大類(lèi)間方差法,對(duì)相似度圖像實(shí)施二值化處理,完成手勢(shì)姿態(tài)分割。構(gòu)建相對(duì)深度直方圖及其歸一化圖像,通過(guò)級(jí)聯(lián)分類(lèi)器獲取最終的手勢(shì)動(dòng)作,實(shí)現(xiàn)隔空手勢(shì)識(shí)別。
隔空的人機(jī)交互模式作為具有未來(lái)感的方式,具有廣闊的應(yīng)用前景。Norman模型是人機(jī)交互里最具影響力的模型之一,其與人機(jī)之間的直觀認(rèn)知非常接近[4]。交互系統(tǒng)共有四個(gè)部分構(gòu)成,分別為用戶(hù)、系統(tǒng)、輸入與輸出。在識(shí)別隔空手勢(shì)過(guò)程中,需要采用“懸?!钡忍厥鈩?dòng)作表示用戶(hù)對(duì)命令的選取。若靜止時(shí)長(zhǎng)達(dá)到設(shè)定的時(shí)間閾值,則觸發(fā)選中命令,但若靜止時(shí)間長(zhǎng)度不足預(yù)設(shè)閾值,那么將重新計(jì)時(shí)。觸發(fā)選中命令流程如圖1所示。
圖1 觸發(fā)選中命令流程圖
用戶(hù)發(fā)出隔空手勢(shì)動(dòng)作,利用Kinect動(dòng)作跟蹤手勢(shì)并采集手部圖像數(shù)據(jù),當(dāng)判斷手勢(shì)懸空靜止時(shí)間未超過(guò)閾值,則返回至動(dòng)作跟蹤;當(dāng)判斷手勢(shì)懸空靜止時(shí)間超過(guò)閾值,則觸發(fā)選中操作?;谏鲜鍪謩?shì)識(shí)別分析過(guò)程,為計(jì)算機(jī)輔助下隔空手勢(shì)識(shí)別模型的設(shè)計(jì)提供依據(jù)。
多通道交互技術(shù)的逐漸成熟,當(dāng)今的網(wǎng)絡(luò)環(huán)境逐漸演變?yōu)橐粋€(gè)無(wú)處不在的服務(wù)供應(yīng)平臺(tái),而且添加了相對(duì)自然的交互方式。因?yàn)檐?、硬件不斷地更新?lián)Q代,使人機(jī)交互領(lǐng)域出現(xiàn)了隔空手勢(shì)識(shí)別的新型技術(shù)。該模型通過(guò)引入較強(qiáng)的語(yǔ)義反饋與交互通道信息整合機(jī)制,實(shí)現(xiàn)手勢(shì)識(shí)別模型的架構(gòu),其整體框架如圖2所示。
圖2 隔空手勢(shì)識(shí)別模型結(jié)構(gòu)示意圖
識(shí)別模型的組成部分共有五個(gè),分別是用戶(hù)模塊、人機(jī)交互對(duì)象模塊、表現(xiàn)模塊、對(duì)話(huà)控制模塊以及應(yīng)用程序模塊。各部分的相應(yīng)性能描述如下:
1)用戶(hù)模塊:采用交互對(duì)象庫(kù)里的各類(lèi)交互工具與設(shè)備,對(duì)信息進(jìn)行輸入,利用反饋設(shè)備,完成相應(yīng)信息的獲?。?/p>
2)人機(jī)交互對(duì)象模塊:控制管理輸入與輸出設(shè)備,將用戶(hù)的手勢(shì)動(dòng)作轉(zhuǎn)換成交互方式的原語(yǔ),并放入交互原語(yǔ)的隊(duì)列里,且該模塊可以對(duì)表現(xiàn)模塊的驅(qū)動(dòng)進(jìn)行接收,把處理結(jié)果傳輸至用戶(hù)。由于抽象化手勢(shì)姿態(tài)可以得到交互原語(yǔ),因此,所有級(jí)別的原語(yǔ)均與設(shè)備具有一定的關(guān)聯(lián)性,而各模塊則是以增刪變更設(shè)備、確保通道完整性為目的而創(chuàng)建的;
3)表現(xiàn)模塊:對(duì)交互對(duì)象庫(kù)里的交互原語(yǔ)進(jìn)行抽象化處理,得到交互概念原語(yǔ),與此同時(shí),完成對(duì)話(huà)控制模塊返回信息的接收,其概念原語(yǔ)用于處理人機(jī)交互對(duì)象模塊的信息,而對(duì)象顯示的處理目標(biāo)則是對(duì)話(huà)控制模塊;
4)對(duì)話(huà)控制模塊:通過(guò)整合用戶(hù)的所有交互信息,解析交互意圖[5],從而組建成交互任務(wù)原語(yǔ),并放入原語(yǔ)隊(duì)列,該模塊對(duì)應(yīng)用程序發(fā)送的應(yīng)用反饋進(jìn)行接收后,經(jīng)過(guò)表現(xiàn)模塊,將其發(fā)送給用戶(hù);
5)應(yīng)用程序模塊:對(duì)用戶(hù)提交的任務(wù)進(jìn)行處理后,把結(jié)果發(fā)送至對(duì)話(huà)控制模塊,該模塊由多個(gè)處理任務(wù)的非交互式計(jì)算部分構(gòu)成[6]。其運(yùn)算結(jié)果儲(chǔ)存區(qū)域?yàn)橄鄳?yīng)用戶(hù)界面內(nèi)的抽象部分里,最終經(jīng)過(guò)用戶(hù)界面發(fā)送至用戶(hù)。
基于MCG-Skin數(shù)據(jù)庫(kù),采用分量Cr與Cb,在YCrCb的色彩空間內(nèi),架構(gòu)如式(1)所示的顏色分布表達(dá)式
Pc(x)=αCrg(x,μCr,σCr)+αCbg(x,μCb,σCb)
(1)
式(1)中,α表示顏色分量系數(shù),g表示顏色過(guò)濾值,μ表示均勻量化系數(shù)。
根據(jù)顏色分布公式,在深度圖像中手勢(shì)識(shí)別時(shí),通過(guò)背景去除實(shí)現(xiàn)兩個(gè)獨(dú)立高斯模型的合并搭建,采用下列表達(dá)式對(duì)所得的高斯混合模型進(jìn)行描述
Pd(x)=αhg(x,μh,σh)+αfg(x,μf,σf)
(2)
式(2)中,(αh,αf,μh,μf,σh,σf)是該概率密度函數(shù)的參數(shù),且αh與αf之間存在下列關(guān)系式
αh+αf=1
(3)
因?yàn)樵谌藱C(jī)交互的過(guò)程中,手勢(shì)姿態(tài)一直位于身體的前部,所以,將高斯混合模型Pd(x)的μh設(shè)定成手勢(shì)的深度值,身體深度值用μf來(lái)表示,則深度閾值表達(dá)式如式(4)所示
(4)
在顏色分布模型Pc(x)里輸入經(jīng)過(guò)閾值處理的圖像像素點(diǎn),對(duì)所有像素對(duì)應(yīng)的顏色點(diǎn)概率進(jìn)行獲取,通過(guò)將其映射至灰度范圍[0,255]中,完成含有256灰度等級(jí)的膚色相似度圖像重建,相似度隨著各像素灰度值的增加而提升。依據(jù)最大類(lèi)間方差法對(duì)相似度圖像實(shí)施二值化處理[7],膚色點(diǎn)用灰色像素表示,其余點(diǎn)則為黑色像素,令手勢(shì)姿態(tài)得到理想的分割。
建立相對(duì)深度直方圖時(shí),選用下列離散函數(shù)來(lái)指代灰度范圍是[0,L-1]的圖像直方圖
h(rk)=nk
(5)
式(5)中,第k級(jí)灰度表示為rk,圖像含有rk灰度級(jí)的像素?cái)?shù)量是nk,且k=0,1,…,L-1。
對(duì)手勢(shì)跟蹤的重要前提是對(duì)圖像信息進(jìn)行歸一化處理,使之變換為一固定標(biāo)準(zhǔn)形式的過(guò)程,因此歸一化直方圖的推算公式如式(6)所示
(6)
式(6)中,rk灰度級(jí)的出現(xiàn)概率預(yù)估值為P(rk)。根據(jù)式(6)可以得出,把歸一化直方圖的各區(qū)域相加,得到的總和是1。
通過(guò)所有像素的絕對(duì)深度值,求取其相對(duì)極小深度值的絕對(duì)深度,從而設(shè)定相對(duì)深度的取值區(qū)間是[0,D-1]。若采用式(5)表示相對(duì)深度直方圖,則第k級(jí)相對(duì)深度表示為rk,圖像含有rk深度級(jí)的像素?cái)?shù)量是nk,且k=0,1,…,D-1,其歸一化相對(duì)深度直方圖的構(gòu)建方法同灰度直方圖。
選用常用的概率分布相似性評(píng)估方法對(duì)相對(duì)深度直方圖的相似度進(jìn)行判定,則基于離散概率分布條件的巴氏距離定義域X界定公式如(7)所示
DB(p,q)=-ln(Bs(p,q))
(7)
式(7)中,巴氏系數(shù)表示為Bs(p,q)。在巴氏距離計(jì)算的基礎(chǔ)上,計(jì)算手勢(shì)跟蹤公式為
(8)
式(8)中,x表示手勢(shì)運(yùn)動(dòng)速度。至此實(shí)現(xiàn)了隔空手勢(shì)的跟蹤,為手勢(shì)準(zhǔn)確識(shí)別做鋪墊。
鑒于隔空手勢(shì)識(shí)別的難度,需要引入一組級(jí)聯(lián)式的學(xué)習(xí)器,通過(guò)不同階段學(xué)習(xí)器對(duì)姿勢(shì)內(nèi)在模式的學(xué)習(xí),精準(zhǔn)、快速識(shí)別隔空手勢(shì)。該方法的流程圖如圖3所示。
圖3 級(jí)聯(lián)式手勢(shì)識(shí)別流程示意圖
用hi表示第i級(jí)學(xué)習(xí)器,在姿勢(shì)樣本x進(jìn)行至第i級(jí)時(shí),如果學(xué)習(xí)器hi無(wú)法完成高置信度的識(shí)別,那么,將識(shí)別任務(wù)交予下一級(jí)學(xué)習(xí)器,待取得最終的識(shí)別結(jié)果,任務(wù)結(jié)束。因?yàn)榧?jí)聯(lián)的建立理念可以令各級(jí)學(xué)習(xí)器學(xué)習(xí)各種姿勢(shì)模式,讓前兩級(jí)學(xué)習(xí)器精準(zhǔn)識(shí)別難度較低的非控制姿勢(shì),而難以區(qū)分的控制姿勢(shì)則由偏后的學(xué)習(xí)器負(fù)責(zé)識(shí)別,使其不被非控制姿勢(shì)識(shí)別階段所影響。
級(jí)聯(lián)結(jié)構(gòu)逐級(jí)識(shí)別非控制姿態(tài)的過(guò)程中,級(jí)數(shù)的遞增有效緩解了控制姿態(tài)與非控制姿態(tài)的類(lèi)別不平衡性[8]。將后續(xù)學(xué)習(xí)器的關(guān)注點(diǎn)著重放在兩種姿態(tài)的差異模式上,因?yàn)榧?jí)聯(lián)靠前的學(xué)習(xí)器識(shí)別對(duì)象只有非控制姿態(tài),所以,樣本不平衡并不會(huì)影響識(shí)別效果。
假設(shè)隔空手勢(shì)動(dòng)作集合的表達(dá)式如式(9)所示
G={G1,G2,…,Gn}
(9)
式(9)中,姿勢(shì)種類(lèi)數(shù)量表示為n。
(10)
從各姿勢(shì)種類(lèi)中采集一組樣本作為訓(xùn)練數(shù)據(jù),其集合表達(dá)式如(11)所示
G1={xi1,xi2,…,xim}
(11)
式(11)里,第i種姿勢(shì)的樣本數(shù)量是m。
隨機(jī)選擇一組級(jí)聯(lián)分類(lèi)器,采用下列公式對(duì)其進(jìn)行描述
T={(M1,F(xiàn)1),(M2,F(xiàn)2),…,(Mi,F(xiàn)i)}
(12)
式(12)里,第i層分類(lèi)器為Mi,對(duì)應(yīng)特征則為Fi。所以,得到如下特征集合表達(dá)式
F={F1,F(xiàn)2,…,F(xiàn)i}
(13)
手勢(shì)識(shí)別的具體流程描述如下:
(14)
4)在級(jí)聯(lián)分類(lèi)器T內(nèi)加入(Mi,F(xiàn)i),其中,i應(yīng)自加1;
5)返回級(jí)聯(lián)分類(lèi)器T。
隔空手勢(shì)識(shí)別是一種更自然、更易于理解與應(yīng)用的人機(jī)交互形式,只有精準(zhǔn)識(shí)別出隔空手勢(shì),才能進(jìn)行理想的人機(jī)交互。
實(shí)驗(yàn)應(yīng)用Kinect軟件對(duì)手勢(shì)動(dòng)作進(jìn)行采集,并隨機(jī)選取實(shí)驗(yàn)11k Hands數(shù)據(jù)集中100幅像素為50×50的圖像作為實(shí)驗(yàn)對(duì)象,計(jì)算機(jī)配置為奔騰2.8GHz雙核E5500處理器,運(yùn)行內(nèi)存為6GB。
分別采用自學(xué)習(xí)稀疏表示法與本文模型,對(duì)實(shí)驗(yàn)者的“抓”“放”手勢(shì)實(shí)施識(shí)別,效果評(píng)估參數(shù)選用的是F1,該指標(biāo)數(shù)值越高,表示手勢(shì)識(shí)別準(zhǔn)確率越高,識(shí)別效果越好,其表達(dá)式如(15)所示
(15)
式(15)中,precision表示精準(zhǔn)率,recall表示召回率[10],對(duì)應(yīng)的計(jì)算公式分別如下
(16)
(17)
式(16)、(17)中,準(zhǔn)確預(yù)估的樣本數(shù)量為tp,錯(cuò)判的樣本數(shù)量為fp,當(dāng)前類(lèi)別被預(yù)估成其它類(lèi)別的樣本數(shù)量是fn。
如表1所示為各方法得出的手勢(shì)識(shí)別F1指標(biāo)數(shù)統(tǒng)計(jì)表。
表1 手勢(shì)識(shí)別F1指標(biāo)數(shù)統(tǒng)計(jì)表
為了使三種方法的對(duì)比更加直觀,將表中數(shù)據(jù)用下列折線圖(圖4)進(jìn)行展示。
根據(jù)表1、圖4中數(shù)據(jù)可以看出,研究模型比自學(xué)習(xí)稀疏表示法具有更加理想的識(shí)別效果,評(píng)估指標(biāo)F1的識(shí)別數(shù)值高于95%,自學(xué)習(xí)稀疏表示法的評(píng)估指標(biāo)F1的識(shí)別數(shù)值均不滿(mǎn)90%,最高只有90.85%,Leap Motion方法的最高評(píng)估指標(biāo)F1的識(shí)別數(shù)值為90.26%,無(wú)法滿(mǎn)足實(shí)際的精度需求。
為優(yōu)化人機(jī)交互的手勢(shì)識(shí)別方法,提出一種人工智能輔助下人機(jī)交互隔空手勢(shì)識(shí)別模型。依據(jù)隔空手勢(shì)識(shí)別原理,構(gòu)建語(yǔ)義反饋與交互通道信息相結(jié)合的手勢(shì)識(shí)別模型。通過(guò)膚色數(shù)據(jù)庫(kù)與色彩空間,對(duì)高斯混合的顏色分布模型進(jìn)行架構(gòu)。采用計(jì)算得到的深度閾值,獲取顏色點(diǎn)概率,利用最大類(lèi)間方差法對(duì)經(jīng)過(guò)重建的相似度圖像進(jìn)行二值化處理。基于相對(duì)深度直方圖,采用巴氏距離進(jìn)行判定,通過(guò)各級(jí)聯(lián)學(xué)習(xí)器對(duì)動(dòng)作內(nèi)在模式的學(xué)習(xí),使隔空手勢(shì)識(shí)別得以實(shí)現(xiàn)。該模型為未來(lái)的相關(guān)研究提供了良好的數(shù)據(jù)支持,具有重要的現(xiàn)實(shí)價(jià)值與現(xiàn)實(shí)意義。
圖4 評(píng)估指標(biāo)數(shù)值對(duì)比圖