人工智能輔助下人機(jī)交互隔空手勢(shì)識(shí)別模型

2021-11-17 03:12黃永彪

計(jì)算機(jī)仿真 2021年3期

陳瑩，黃永彪*，謝瑾

(1.廣西民族大學(xué)，廣西南寧 530006；2.武漢大學(xué)計(jì)算機(jī)學(xué)院，湖北武漢 430072)

1 引言

人機(jī)交互的形式隨著生活水平的日益提升與智能設(shè)備的普及，逐漸進(jìn)入大眾的日常生活，其中，應(yīng)用最多、最常見(jiàn)的手勢(shì)識(shí)別技術(shù)，引發(fā)了眾多相關(guān)研究學(xué)者的熱烈討論。針對(duì)手勢(shì)背景復(fù)雜性與形態(tài)多樣性，石雨鑫等[1]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)與隨機(jī)森林的識(shí)別方法，經(jīng)過(guò)分割靜態(tài)手勢(shì)圖像，采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征向量進(jìn)行提取，通過(guò)森林分類(lèi)器完成特征向量劃分。孫玉等[2]在研究中采用Leap Motion傳感器收集手部的三維坐標(biāo)數(shù)據(jù)，并獲得含有手指動(dòng)作與手掌位移的動(dòng)態(tài)手勢(shì)特征序列，通過(guò)與長(zhǎng)短期記憶網(wǎng)絡(luò)模型的結(jié)合，實(shí)現(xiàn)手勢(shì)識(shí)別。而彭玉青等[3]研究得出的手勢(shì)識(shí)別方法，則應(yīng)用了改進(jìn)的TOLO算法來(lái)檢測(cè)手勢(shì)，根據(jù)空間金字塔池化，避免卷積神經(jīng)網(wǎng)絡(luò)的多尺度輸入，從復(fù)雜的背景中識(shí)別手勢(shì)。

為進(jìn)一步提高人機(jī)交互手勢(shì)識(shí)別準(zhǔn)確度，提出一種人工智能輔助下人機(jī)交互隔空手勢(shì)識(shí)別模型。根據(jù)人機(jī)交互隔空手勢(shì)識(shí)別的原理，添加語(yǔ)義反饋與交互通道信息整合機(jī)制，設(shè)計(jì)支持隔空手勢(shì)識(shí)別。在色彩空間中，架構(gòu)高斯混合的顏色分布模型，采用最大類(lèi)間方差法，對(duì)相似度圖像實(shí)施二值化處理，完成手勢(shì)姿態(tài)分割。構(gòu)建相對(duì)深度直方圖及其歸一化圖像，通過(guò)級(jí)聯(lián)分類(lèi)器獲取最終的手勢(shì)動(dòng)作，實(shí)現(xiàn)隔空手勢(shì)識(shí)別。

2 人機(jī)交互隔空手勢(shì)識(shí)別分析

隔空的人機(jī)交互模式作為具有未來(lái)感的方式，具有廣闊的應(yīng)用前景。Norman模型是人機(jī)交互里最具影響力的模型之一，其與人機(jī)之間的直觀認(rèn)知非常接近[4]。交互系統(tǒng)共有四個(gè)部分構(gòu)成，分別為用戶(hù)、系統(tǒng)、輸入與輸出。在識(shí)別隔空手勢(shì)過(guò)程中，需要采用“懸?！钡忍厥鈩?dòng)作表示用戶(hù)對(duì)命令的選取。若靜止時(shí)長(zhǎng)達(dá)到設(shè)定的時(shí)間閾值，則觸發(fā)選中命令，但若靜止時(shí)間長(zhǎng)度不足預(yù)設(shè)閾值，那么將重新計(jì)時(shí)。觸發(fā)選中命令流程如圖1所示。

圖1 觸發(fā)選中命令流程圖

用戶(hù)發(fā)出隔空手勢(shì)動(dòng)作，利用Kinect動(dòng)作跟蹤手勢(shì)并采集手部圖像數(shù)據(jù)，當(dāng)判斷手勢(shì)懸空靜止時(shí)間未超過(guò)閾值，則返回至動(dòng)作跟蹤；當(dāng)判斷手勢(shì)懸空靜止時(shí)間超過(guò)閾值，則觸發(fā)選中操作?；谏鲜鍪謩?shì)識(shí)別分析過(guò)程，為計(jì)算機(jī)輔助下隔空手勢(shì)識(shí)別模型的設(shè)計(jì)提供依據(jù)。

3 人機(jī)交互隔空手勢(shì)識(shí)別模型設(shè)計(jì)

3.1 計(jì)算機(jī)輔助下隔空手勢(shì)識(shí)別整體框架

多通道交互技術(shù)的逐漸成熟，當(dāng)今的網(wǎng)絡(luò)環(huán)境逐漸演變?yōu)橐粋€(gè)無(wú)處不在的服務(wù)供應(yīng)平臺(tái)，而且添加了相對(duì)自然的交互方式。因?yàn)檐?、硬件不斷地更新?lián)Q代，使人機(jī)交互領(lǐng)域出現(xiàn)了隔空手勢(shì)識(shí)別的新型技術(shù)。該模型通過(guò)引入較強(qiáng)的語(yǔ)義反饋與交互通道信息整合機(jī)制，實(shí)現(xiàn)手勢(shì)識(shí)別模型的架構(gòu)，其整體框架如圖2所示。

圖2 隔空手勢(shì)識(shí)別模型結(jié)構(gòu)示意圖

識(shí)別模型的組成部分共有五個(gè)，分別是用戶(hù)模塊、人機(jī)交互對(duì)象模塊、表現(xiàn)模塊、對(duì)話(huà)控制模塊以及應(yīng)用程序模塊。各部分的相應(yīng)性能描述如下：

1)用戶(hù)模塊：采用交互對(duì)象庫(kù)里的各類(lèi)交互工具與設(shè)備，對(duì)信息進(jìn)行輸入，利用反饋設(shè)備，完成相應(yīng)信息的獲?。?/p>

2)人機(jī)交互對(duì)象模塊：控制管理輸入與輸出設(shè)備，將用戶(hù)的手勢(shì)動(dòng)作轉(zhuǎn)換成交互方式的原語(yǔ)，并放入交互原語(yǔ)的隊(duì)列里，且該模塊可以對(duì)表現(xiàn)模塊的驅(qū)動(dòng)進(jìn)行接收，把處理結(jié)果傳輸至用戶(hù)。由于抽象化手勢(shì)姿態(tài)可以得到交互原語(yǔ)，因此，所有級(jí)別的原語(yǔ)均與設(shè)備具有一定的關(guān)聯(lián)性，而各模塊則是以增刪變更設(shè)備、確保通道完整性為目的而創(chuàng)建的；

3)表現(xiàn)模塊：對(duì)交互對(duì)象庫(kù)里的交互原語(yǔ)進(jìn)行抽象化處理，得到交互概念原語(yǔ)，與此同時(shí)，完成對(duì)話(huà)控制模塊返回信息的接收，其概念原語(yǔ)用于處理人機(jī)交互對(duì)象模塊的信息，而對(duì)象顯示的處理目標(biāo)則是對(duì)話(huà)控制模塊；

4)對(duì)話(huà)控制模塊：通過(guò)整合用戶(hù)的所有交互信息，解析交互意圖[5]，從而組建成交互任務(wù)原語(yǔ)，并放入原語(yǔ)隊(duì)列，該模塊對(duì)應(yīng)用程序發(fā)送的應(yīng)用反饋進(jìn)行接收后，經(jīng)過(guò)表現(xiàn)模塊，將其發(fā)送給用戶(hù)；

5)應(yīng)用程序模塊：對(duì)用戶(hù)提交的任務(wù)進(jìn)行處理后，把結(jié)果發(fā)送至對(duì)話(huà)控制模塊，該模塊由多個(gè)處理任務(wù)的非交互式計(jì)算部分構(gòu)成[6]。其運(yùn)算結(jié)果儲(chǔ)存區(qū)域?yàn)橄鄳?yīng)用戶(hù)界面內(nèi)的抽象部分里，最終經(jīng)過(guò)用戶(hù)界面發(fā)送至用戶(hù)。

3.2 手勢(shì)分割

基于MCG-Skin數(shù)據(jù)庫(kù)，采用分量Cr與Cb，在YCrCb的色彩空間內(nèi)，架構(gòu)如式(1)所示的顏色分布表達(dá)式

Pc(x)=αCrg(x，μCr，σCr)+αCbg(x，μCb，σCb)

(1)

式(1)中，α表示顏色分量系數(shù)，g表示顏色過(guò)濾值，μ表示均勻量化系數(shù)。

根據(jù)顏色分布公式，在深度圖像中手勢(shì)識(shí)別時(shí)，通過(guò)背景去除實(shí)現(xiàn)兩個(gè)獨(dú)立高斯模型的合并搭建，采用下列表達(dá)式對(duì)所得的高斯混合模型進(jìn)行描述

Pd(x)=αhg(x，μh，σh)+αfg(x，μf，σf)

(2)

式(2)中，(αh，αf，μh，μf，σh，σf)是該概率密度函數(shù)的參數(shù)，且αh與αf之間存在下列關(guān)系式

αh+αf=1

(3)

因?yàn)樵谌藱C(jī)交互的過(guò)程中，手勢(shì)姿態(tài)一直位于身體的前部，所以，將高斯混合模型Pd(x)的μh設(shè)定成手勢(shì)的深度值，身體深度值用μf來(lái)表示，則深度閾值表達(dá)式如式(4)所示

(4)

在顏色分布模型Pc(x)里輸入經(jīng)過(guò)閾值處理的圖像像素點(diǎn)，對(duì)所有像素對(duì)應(yīng)的顏色點(diǎn)概率進(jìn)行獲取，通過(guò)將其映射至灰度范圍[0，255]中，完成含有256灰度等級(jí)的膚色相似度圖像重建，相似度隨著各像素灰度值的增加而提升。依據(jù)最大類(lèi)間方差法對(duì)相似度圖像實(shí)施二值化處理[7]，膚色點(diǎn)用灰色像素表示，其余點(diǎn)則為黑色像素，令手勢(shì)姿態(tài)得到理想的分割。

3.3 手勢(shì)跟蹤

建立相對(duì)深度直方圖時(shí)，選用下列離散函數(shù)來(lái)指代灰度范圍是[0，L-1]的圖像直方圖

h(rk)=nk

(5)

式(5)中，第k級(jí)灰度表示為rk，圖像含有rk灰度級(jí)的像素?cái)?shù)量是nk，且k=0，1，…，L-1。

對(duì)手勢(shì)跟蹤的重要前提是對(duì)圖像信息進(jìn)行歸一化處理，使之變換為一固定標(biāo)準(zhǔn)形式的過(guò)程，因此歸一化直方圖的推算公式如式(6)所示

(6)

式(6)中，rk灰度級(jí)的出現(xiàn)概率預(yù)估值為P(rk)。根據(jù)式(6)可以得出，把歸一化直方圖的各區(qū)域相加，得到的總和是1。

通過(guò)所有像素的絕對(duì)深度值，求取其相對(duì)極小深度值的絕對(duì)深度，從而設(shè)定相對(duì)深度的取值區(qū)間是[0，D-1]。若采用式(5)表示相對(duì)深度直方圖，則第k級(jí)相對(duì)深度表示為rk，圖像含有rk深度級(jí)的像素?cái)?shù)量是nk，且k=0，1，…，D-1，其歸一化相對(duì)深度直方圖的構(gòu)建方法同灰度直方圖。

選用常用的概率分布相似性評(píng)估方法對(duì)相對(duì)深度直方圖的相似度進(jìn)行判定，則基于離散概率分布條件的巴氏距離定義域X界定公式如(7)所示

DB(p，q)=-ln(Bs(p，q))

(7)

式(7)中，巴氏系數(shù)表示為Bs(p，q)。在巴氏距離計(jì)算的基礎(chǔ)上，計(jì)算手勢(shì)跟蹤公式為

(8)

式(8)中，x表示手勢(shì)運(yùn)動(dòng)速度。至此實(shí)現(xiàn)了隔空手勢(shì)的跟蹤，為手勢(shì)準(zhǔn)確識(shí)別做鋪墊。

3.4 手勢(shì)識(shí)別

鑒于隔空手勢(shì)識(shí)別的難度，需要引入一組級(jí)聯(lián)式的學(xué)習(xí)器，通過(guò)不同階段學(xué)習(xí)器對(duì)姿勢(shì)內(nèi)在模式的學(xué)習(xí)，精準(zhǔn)、快速識(shí)別隔空手勢(shì)。該方法的流程圖如圖3所示。

圖3 級(jí)聯(lián)式手勢(shì)識(shí)別流程示意圖

用hi表示第i級(jí)學(xué)習(xí)器，在姿勢(shì)樣本x進(jìn)行至第i級(jí)時(shí)，如果學(xué)習(xí)器hi無(wú)法完成高置信度的識(shí)別，那么，將識(shí)別任務(wù)交予下一級(jí)學(xué)習(xí)器，待取得最終的識(shí)別結(jié)果，任務(wù)結(jié)束。因?yàn)榧?jí)聯(lián)的建立理念可以令各級(jí)學(xué)習(xí)器學(xué)習(xí)各種姿勢(shì)模式，讓前兩級(jí)學(xué)習(xí)器精準(zhǔn)識(shí)別難度較低的非控制姿勢(shì)，而難以區(qū)分的控制姿勢(shì)則由偏后的學(xué)習(xí)器負(fù)責(zé)識(shí)別，使其不被非控制姿勢(shì)識(shí)別階段所影響。

級(jí)聯(lián)結(jié)構(gòu)逐級(jí)識(shí)別非控制姿態(tài)的過(guò)程中，級(jí)數(shù)的遞增有效緩解了控制姿態(tài)與非控制姿態(tài)的類(lèi)別不平衡性[8]。將后續(xù)學(xué)習(xí)器的關(guān)注點(diǎn)著重放在兩種姿態(tài)的差異模式上，因?yàn)榧?jí)聯(lián)靠前的學(xué)習(xí)器識(shí)別對(duì)象只有非控制姿態(tài)，所以，樣本不平衡并不會(huì)影響識(shí)別效果。

假設(shè)隔空手勢(shì)動(dòng)作集合的表達(dá)式如式(9)所示

G={G1，G2，…，Gn}

(9)

式(9)中，姿勢(shì)種類(lèi)數(shù)量表示為n。

(10)

從各姿勢(shì)種類(lèi)中采集一組樣本作為訓(xùn)練數(shù)據(jù)，其集合表達(dá)式如(11)所示

G1={xi1，xi2，…，xim}

(11)

式(11)里，第i種姿勢(shì)的樣本數(shù)量是m。

隨機(jī)選擇一組級(jí)聯(lián)分類(lèi)器，采用下列公式對(duì)其進(jìn)行描述

T={(M1，F(xiàn)1)，(M2，F(xiàn)2)，…，(Mi，F(xiàn)i)}

(12)

式(12)里，第i層分類(lèi)器為Mi，對(duì)應(yīng)特征則為Fi。所以，得到如下特征集合表達(dá)式

F={F1，F(xiàn)2，…，F(xiàn)i}

(13)

手勢(shì)識(shí)別的具體流程描述如下：

(14)

4)在級(jí)聯(lián)分類(lèi)器T內(nèi)加入(Mi，F(xiàn)i)，其中，i應(yīng)自加1；

5)返回級(jí)聯(lián)分類(lèi)器T。

隔空手勢(shì)識(shí)別是一種更自然、更易于理解與應(yīng)用的人機(jī)交互形式，只有精準(zhǔn)識(shí)別出隔空手勢(shì)，才能進(jìn)行理想的人機(jī)交互。

4 實(shí)驗(yàn)分析

實(shí)驗(yàn)應(yīng)用Kinect軟件對(duì)手勢(shì)動(dòng)作進(jìn)行采集，并隨機(jī)選取實(shí)驗(yàn)11k Hands數(shù)據(jù)集中100幅像素為50×50的圖像作為實(shí)驗(yàn)對(duì)象，計(jì)算機(jī)配置為奔騰2.8GHz雙核E5500處理器，運(yùn)行內(nèi)存為6GB。

分別采用自學(xué)習(xí)稀疏表示法與本文模型，對(duì)實(shí)驗(yàn)者的“抓”“放”手勢(shì)實(shí)施識(shí)別，效果評(píng)估參數(shù)選用的是F1，該指標(biāo)數(shù)值越高，表示手勢(shì)識(shí)別準(zhǔn)確率越高，識(shí)別效果越好，其表達(dá)式如(15)所示

(15)

式(15)中，precision表示精準(zhǔn)率，recall表示召回率[10]，對(duì)應(yīng)的計(jì)算公式分別如下

(16)

(17)

式(16)、(17)中，準(zhǔn)確預(yù)估的樣本數(shù)量為tp，錯(cuò)判的樣本數(shù)量為fp，當(dāng)前類(lèi)別被預(yù)估成其它類(lèi)別的樣本數(shù)量是fn。

如表1所示為各方法得出的手勢(shì)識(shí)別F1指標(biāo)數(shù)統(tǒng)計(jì)表。

表1 手勢(shì)識(shí)別F1指標(biāo)數(shù)統(tǒng)計(jì)表

為了使三種方法的對(duì)比更加直觀，將表中數(shù)據(jù)用下列折線圖(圖4)進(jìn)行展示。

根據(jù)表1、圖4中數(shù)據(jù)可以看出，研究模型比自學(xué)習(xí)稀疏表示法具有更加理想的識(shí)別效果，評(píng)估指標(biāo)F1的識(shí)別數(shù)值高于95%，自學(xué)習(xí)稀疏表示法的評(píng)估指標(biāo)F1的識(shí)別數(shù)值均不滿(mǎn)90%，最高只有90.85%，Leap Motion方法的最高評(píng)估指標(biāo)F1的識(shí)別數(shù)值為90.26%，無(wú)法滿(mǎn)足實(shí)際的精度需求。

5 結(jié)論

為優(yōu)化人機(jī)交互的手勢(shì)識(shí)別方法，提出一種人工智能輔助下人機(jī)交互隔空手勢(shì)識(shí)別模型。依據(jù)隔空手勢(shì)識(shí)別原理，構(gòu)建語(yǔ)義反饋與交互通道信息相結(jié)合的手勢(shì)識(shí)別模型。通過(guò)膚色數(shù)據(jù)庫(kù)與色彩空間，對(duì)高斯混合的顏色分布模型進(jìn)行架構(gòu)。采用計(jì)算得到的深度閾值，獲取顏色點(diǎn)概率，利用最大類(lèi)間方差法對(duì)經(jīng)過(guò)重建的相似度圖像進(jìn)行二值化處理。基于相對(duì)深度直方圖，采用巴氏距離進(jìn)行判定，通過(guò)各級(jí)聯(lián)學(xué)習(xí)器對(duì)動(dòng)作內(nèi)在模式的學(xué)習(xí)，使隔空手勢(shì)識(shí)別得以實(shí)現(xiàn)。該模型為未來(lái)的相關(guān)研究提供了良好的數(shù)據(jù)支持，具有重要的現(xiàn)實(shí)價(jià)值與現(xiàn)實(shí)意義。

圖4 評(píng)估指標(biāo)數(shù)值對(duì)比圖

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡