潘言心, 吳 涓, 朱興隆, 王 飛
(東南大學(xué) 儀器科學(xué)與工程學(xué)院,江蘇 南京 210096)
隨著人工智能和機(jī)器人技術(shù)的快速發(fā)展,休閑娛樂機(jī)器人作為一種新興的智能產(chǎn)品逐漸走進(jìn)人們的視野[1-2]。人機(jī)對(duì)抗型機(jī)器人就是其中廣受歡迎的一種[3]。其系統(tǒng)的研發(fā)常常需要研究者對(duì)人機(jī)交互和智能算法進(jìn)行深入研究。手勢(shì)交互作為一種自然、便捷的交互手段,在人機(jī)對(duì)抗型機(jī)器人系統(tǒng)中扮演著越來越重要的角色[4]。手勢(shì)識(shí)別是手勢(shì)交互的首要步驟,準(zhǔn)確、實(shí)時(shí)的手勢(shì)識(shí)別對(duì)交互性能有著重要影響,因此對(duì)手勢(shì)識(shí)別技術(shù)的研究顯得尤為重要。
目前,手勢(shì)識(shí)別技術(shù)主要分為基于可穿戴設(shè)備的手勢(shì)識(shí)別技術(shù)和基于視覺的手勢(shì)識(shí)別技術(shù)。基于可穿戴設(shè)備的手勢(shì)識(shí)別技術(shù)魯棒性強(qiáng)、準(zhǔn)確度高[5],通過使用數(shù)據(jù)手套等設(shè)備捕捉手勢(shì)信息,并使用分類算法進(jìn)行識(shí)別,實(shí)現(xiàn)了高精度的手勢(shì)識(shí)別[6]。但其供電和校準(zhǔn)程序相對(duì)復(fù)雜,限制了其實(shí)際應(yīng)用的范圍[7-8]。而基于視覺的手勢(shì)識(shí)別技術(shù)需要對(duì)攝像頭捕捉到的圖像進(jìn)行處理,包括檢測(cè)和識(shí)別兩個(gè)步驟,通常采用基于模板[9]、方向直方圖、隱馬爾可夫模型[10]、支持向量機(jī)[11]等方法進(jìn)行識(shí)別。手勢(shì)識(shí)別過程中需要從輸入的手勢(shì)圖像中提取特征,識(shí)別效果受光照、背景等因素的影響[12]。近年來,基于手部骨骼關(guān)節(jié)點(diǎn)檢測(cè)的手勢(shì)識(shí)別技術(shù)被提出,其利用骨骼信息,通過分類器實(shí)現(xiàn)手勢(shì)識(shí)別。手部骨骼關(guān)節(jié)模型只保留了人手中最重要的信息,是一種簡(jiǎn)化模型,對(duì)圖像中背景和光線的變化具有較好的魯棒性[13-15]。
盡管人機(jī)對(duì)抗型機(jī)器人系統(tǒng)的設(shè)計(jì)更注重娛樂性功能的實(shí)現(xiàn),但機(jī)器人的實(shí)用性,如系統(tǒng)魯棒性、便攜性和友好交互等問題也需要被重視。因此,本文基于MediaPipe Hand人手骨骼關(guān)節(jié)點(diǎn)檢測(cè)框架設(shè)計(jì)了人機(jī)猜拳博弈機(jī)器人系統(tǒng),并提出一種三維骨骼信息的融合特征提取方法。該方法先利用骨骼關(guān)節(jié)點(diǎn)檢測(cè)算法對(duì)手勢(shì)進(jìn)行細(xì)化,得到手部區(qū)域的骨骼關(guān)節(jié)模型,然后采用多特征融合提取方法,從不同角度、不同尺度的手勢(shì)中提取關(guān)鍵特征,大幅提高了手勢(shì)識(shí)別的準(zhǔn)確率,增強(qiáng)了系統(tǒng)的魯棒性。同時(shí),基于NI myRIO控制器的系統(tǒng)設(shè)計(jì)使其具有較強(qiáng)的便攜性和可靠性,能滿足不同場(chǎng)景的應(yīng)用需求。
人機(jī)對(duì)抗型智能機(jī)器人是目前娛樂機(jī)器人方面研究的熱點(diǎn),而猜拳游戲是人機(jī)對(duì)抗中最直接的游戲模式。因此,本文設(shè)計(jì)了一個(gè)能進(jìn)行猜拳游戲的人機(jī)博弈機(jī)器人系統(tǒng)。其系統(tǒng)架構(gòu)圖如圖1所示,包括數(shù)據(jù)采集、融合特征提取、手勢(shì)識(shí)別和機(jī)械手控制等組件,其中融合特征提取組件是該系統(tǒng)的核心,其主要功能是提取能區(qū)分不同手勢(shì)的融合特征。攝像頭將捕捉到的手勢(shì)圖像作為輸入,經(jīng)過分類算法得到手勢(shì)識(shí)別結(jié)果并通過串口發(fā)送給上位機(jī);下位機(jī)使用NI myRIO控制器完成系統(tǒng)硬件控制,機(jī)械手作為系統(tǒng)的執(zhí)行機(jī)構(gòu),根據(jù)控制指令對(duì)手勢(shì)識(shí)別結(jié)果做出響應(yīng)。本系統(tǒng)采用實(shí)時(shí)性較好的主從控制方式,以保證整體的控制性能。
圖1 系統(tǒng)架構(gòu)圖
數(shù)據(jù)采集是進(jìn)行手勢(shì)識(shí)別的第一步。目前,大多數(shù)手勢(shì)識(shí)別算法使用公開數(shù)據(jù)集進(jìn)行模型訓(xùn)練。這些數(shù)據(jù)集通常是完備的,包含了不同拍攝角度、攝像頭不同擺放位置、不同背景和不同操作者的手勢(shì)圖像。為保證模型的準(zhǔn)確性和系統(tǒng)的完整性,本文使用USB攝像頭采集人手的圖像信息,制作了包含剪刀(Scissor)、石頭(Rock)和布(Paper)3種手勢(shì)的數(shù)據(jù)集(SRP數(shù)據(jù)集)。該數(shù)據(jù)集用于訓(xùn)練和驗(yàn)證手勢(shì)識(shí)別模型,以及后續(xù)的系統(tǒng)設(shè)計(jì)。
為獲得較為理想的模型訓(xùn)練效果,每個(gè)手勢(shì)采集2 400幅大小為480像素×640像素的RGB圖像,這些圖像涵蓋了不同角度和深度的變化??紤]到人手動(dòng)作的復(fù)雜性,本文按照以下標(biāo)準(zhǔn)采集圖像:手掌與攝像頭所在水平面的俯仰角度為-90°~90°,旋轉(zhuǎn)角度為0°~180°,與攝像頭之間的距離為0~50 cm不等。SRP數(shù)據(jù)集中的部分圖像如圖2所示,圖2(a)~圖2(c)依次為剪刀、石頭和布3種手勢(shì)的示例圖像。
圖2 SPR數(shù)據(jù)集中的部分圖像
手勢(shì)動(dòng)作的呈現(xiàn)方式因人而異,同一個(gè)人在不同時(shí)刻做出同一種手勢(shì)動(dòng)作也很難保證前后手勢(shì)動(dòng)作特征完全相同。實(shí)際的手勢(shì)識(shí)別過程面臨著手部特征差異、手勢(shì)不斷變化和外部環(huán)境復(fù)雜等諸多挑戰(zhàn)。因此,需經(jīng)過復(fù)雜的過程來提取多個(gè)手勢(shì)特征。本文采用MediaPipe Hand人手骨骼關(guān)節(jié)點(diǎn)檢測(cè)框架進(jìn)行手勢(shì)識(shí)別,通過其提取圖像中的人手骼信息為后續(xù)的手勢(shì)識(shí)別提供數(shù)據(jù)支持[16]。
為增強(qiáng)模型的魯棒性以適應(yīng)不同的場(chǎng)景,本文基于MediaPipe Hand人手骨骼關(guān)節(jié)點(diǎn)檢測(cè)框架提出了一種融合特征提取方法。該方法提取手勢(shì)的角度特征和二值特征,并通過多特征融合突出不同手勢(shì)之間的差異,能夠更好地應(yīng)對(duì)識(shí)別過程中手部特征差異、手勢(shì)不斷變化和外部環(huán)境復(fù)雜等挑戰(zhàn)。
1.2.1 角度特征提取
MediaPipe Hand人手骨骼關(guān)節(jié)點(diǎn)檢測(cè)框架可以檢測(cè)人手21個(gè)骨骼關(guān)節(jié)點(diǎn),如圖3所示。基于這些關(guān)節(jié)點(diǎn)信息建立手勢(shì)特征是手勢(shì)識(shí)別的主要方法。
圖3 MediaPipe Hand框架
對(duì)于某一特定手勢(shì)而言,它應(yīng)獨(dú)立于手部骨骼關(guān)節(jié)點(diǎn)的空間位置,且依賴于所有骨骼關(guān)節(jié)點(diǎn)的相對(duì)位置。手部關(guān)節(jié)運(yùn)動(dòng)的角度特征符合此要求,角度特征可用于描述手勢(shì)的形態(tài)信息和動(dòng)態(tài)變化,對(duì)不同手勢(shì)具有較好的區(qū)分度和識(shí)別能力。相關(guān)研究[17]已經(jīng)證實(shí),在表現(xiàn)人體運(yùn)動(dòng)時(shí),建立人體球面坐標(biāo)系是一種有效且魯棒性高的骨骼構(gòu)型。為更好地表示三維空間中手部關(guān)節(jié)的位置,首先建立人手球面坐標(biāo)系。
(1)
AiAj={xj-xi,yj-yi,zj-zi}
(2)
人手能很容易地繞著腕部旋轉(zhuǎn),為獲得旋轉(zhuǎn)不變的角度特征,選擇掌骨關(guān)節(jié)為球面坐標(biāo)系的中心點(diǎn),如圖4所示,以食指為例展示手指彎曲時(shí)骨骼關(guān)節(jié)點(diǎn)的變化,A0~A4分別代表手部骨骼關(guān)節(jié)點(diǎn)的三維坐標(biāo):Ai=(xAi,yAi,zAi)。式(1)計(jì)算了點(diǎn)Ai所在的角度αi,分母范數(shù)將兩個(gè)向量長(zhǎng)度規(guī)范化,在一定程度上消除了向量長(zhǎng)度的差異對(duì)角度計(jì)算產(chǎn)生的影響。除拇指外,根據(jù)式(1)和式(2),每個(gè)手指提取α1~α3這3個(gè)角度特征,拇指提取α1、α2這兩個(gè)角度特征,提取長(zhǎng)度為14的角度特征向量[α1,α2,…,α14]。
圖4 食指角度彎曲示意圖
1.2.2 二值特征提取
在進(jìn)行手勢(shì)識(shí)別時(shí),不同試驗(yàn)者的手勢(shì)動(dòng)作差異較大。如圖5所示,同一手勢(shì)除了存在空間位置的差異,還存在手勢(shì)方向的差異。手勢(shì)方向影響手部的幾何形狀和骨骼關(guān)節(jié)點(diǎn)的相對(duì)位置,從而影響手勢(shì)特征。因此融合表征方向信息特征能夠進(jìn)一步提高手勢(shì)識(shí)別準(zhǔn)確率。
圖5 同一手勢(shì)的部分骨骼圖像數(shù)據(jù)集
本文采用二值特征提取方法:將初始讀取的特征點(diǎn)坐標(biāo)轉(zhuǎn)換為二進(jìn)制數(shù)據(jù),選擇每個(gè)手指的前3個(gè)特征點(diǎn)的橫縱坐標(biāo)作為手勢(shì)特征,并提取了腕部骨骼關(guān)節(jié)點(diǎn)[0]以及除大拇指外每個(gè)手指的掌指骨骼關(guān)節(jié)點(diǎn)[5,9,13,17]的橫縱坐標(biāo)。
(3)
(4)
為表示方向信息,對(duì)特征點(diǎn)橫縱坐標(biāo)進(jìn)行兩兩比較并轉(zhuǎn)換二進(jìn)制數(shù)據(jù)。使用式(3)和式(4)提取兩個(gè)相鄰骨骼關(guān)節(jié)點(diǎn)i、j之間的二值特征,對(duì)除拇指外的剩余4個(gè)手指進(jìn)行特征提取,共選取32個(gè)二值特征。
1.2.3 特征融合
前兩節(jié)分別介紹了不同手勢(shì)下角度特征和二值特征的提取方法??紤]到兩種特征的維度不同,結(jié)合其各自的優(yōu)勢(shì),采取拼接的方法融合成維度為46的新特征向量,利用該新特征對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練可得到較高的分類精度。由于在數(shù)據(jù)采集階段考慮了所有可能出現(xiàn)的手勢(shì)類型,相比于其他的特征提取方式[18-19],本文使用的特征提取方法計(jì)算量更小、數(shù)據(jù)可靠性更高、抗干擾性更強(qiáng),能夠克服不同操作方式帶來的影響,增強(qiáng)了模型的魯棒性。
人工神經(jīng)網(wǎng)絡(luò)是一種模仿人腦神經(jīng)網(wǎng)絡(luò)的計(jì)算系統(tǒng),而BP神經(jīng)網(wǎng)絡(luò)正是前向傳播網(wǎng)絡(luò)的核心,因其具有較強(qiáng)的非線性逼近能力而被廣泛使用。BP神經(jīng)網(wǎng)絡(luò)是一種單向多層前饋網(wǎng)絡(luò),由輸入層、隱藏層和輸出層組成。網(wǎng)絡(luò)的學(xué)習(xí)過程由信號(hào)的正向傳播和誤差的反向傳播兩部分組成。本文采用3層BP神經(jīng)網(wǎng)絡(luò),理論上可實(shí)現(xiàn)任意的非線性擬合。
數(shù)據(jù)集有剪刀、石頭、布3種手勢(shì)共7 200個(gè)樣本數(shù)據(jù),在使用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行手勢(shì)分類前,將訓(xùn)練集與測(cè)試集的樣本按7∶3的比例進(jìn)行劃分,訓(xùn)練集用于訓(xùn)練模型參數(shù),測(cè)試集用于驗(yàn)證模型準(zhǔn)確度。在BP神經(jīng)網(wǎng)絡(luò)中,輸入層的神經(jīng)元個(gè)數(shù)由輸入樣本的維度決定,根據(jù)1.2節(jié)提出的手勢(shì)特征提取方式從每一幀圖像中提取46個(gè)手勢(shì)特征。因此,神經(jīng)元的輸入個(gè)數(shù)為46,輸出個(gè)數(shù)為3,將石頭、剪刀和布3個(gè)手勢(shì)的標(biāo)簽分別標(biāo)記為“0”“1”和“2”。隱藏層神經(jīng)元個(gè)數(shù)設(shè)置為64,選擇Adam作為優(yōu)化器,學(xué)習(xí)率設(shè)定為0.001,使用交叉熵?fù)p失進(jìn)行網(wǎng)絡(luò)訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練過程如圖6所示,經(jīng)過80輪訓(xùn)練,訓(xùn)練集上的損失為0.038,測(cè)試準(zhǔn)確率為99.3%。
圖6 網(wǎng)絡(luò)訓(xùn)練過程
NI myRIO控制器是一款基于FPGA的嵌入式系統(tǒng),可實(shí)現(xiàn)低延遲和高響應(yīng)速度的實(shí)時(shí)控制,能夠進(jìn)行高速的脈沖寬度調(diào)制(Pulse Width Modulation,PWM)輸出,快速響應(yīng)機(jī)械手控制指令。本文使用0、1、2對(duì)石頭、剪刀、布3種手勢(shì)進(jìn)行編碼,當(dāng)系統(tǒng)未檢測(cè)到手勢(shì)或用戶的手勢(shì)與本文定義的3種手勢(shì)不一致時(shí),系統(tǒng)會(huì)自動(dòng)判定為Error。機(jī)械手采用連桿結(jié)構(gòu)設(shè)計(jì),單個(gè)舵機(jī)可實(shí)現(xiàn)手指3個(gè)關(guān)節(jié)的運(yùn)動(dòng),由于手指關(guān)節(jié)間的關(guān)聯(lián)性,使用3個(gè)PWM端口就可以實(shí)現(xiàn)文中3種手勢(shì)控制。為保證機(jī)械手的實(shí)時(shí)性和響應(yīng)速度,在手勢(shì)進(jìn)行切換時(shí)需盡量減少舵機(jī)運(yùn)動(dòng)調(diào)整的次數(shù)。因此,每次最多調(diào)整兩個(gè)舵機(jī)的運(yùn)動(dòng)以減少調(diào)整時(shí)間,使機(jī)械手的運(yùn)動(dòng)更加連貫,同時(shí)避免了因頻繁調(diào)整舵機(jī)運(yùn)動(dòng)而導(dǎo)致的響應(yīng)延遲和不穩(wěn)定問題。
為驗(yàn)證系統(tǒng)的魯棒性和實(shí)用性,本節(jié)將對(duì)系統(tǒng)進(jìn)行功能測(cè)試,并分別從不同場(chǎng)景、人員、算法和系統(tǒng)運(yùn)行性能等方面進(jìn)行分析和評(píng)估。通過試驗(yàn)結(jié)果分析,可進(jìn)一步了解本文設(shè)計(jì)的人機(jī)博弈機(jī)器人系統(tǒng)在各種情況下的性能表現(xiàn),并為系統(tǒng)的進(jìn)一步優(yōu)化提供參考。
在進(jìn)行實(shí)時(shí)手勢(shì)識(shí)別過程中,試驗(yàn)環(huán)境會(huì)對(duì)手勢(shì)識(shí)別性能產(chǎn)生影響。為驗(yàn)證本文設(shè)計(jì)的人機(jī)博弈機(jī)器人系統(tǒng)的魯棒性,在會(huì)議室、教室和實(shí)驗(yàn)室3種不同環(huán)境下進(jìn)行系統(tǒng)測(cè)試,其具有不同的物理屬性和人員流動(dòng)性。同時(shí),考慮光照強(qiáng)度的影響,將試驗(yàn)分為3種情況:暗光、正常光和亮光。在暗光條件下,保持室內(nèi)燈光不開啟;在正常光條件下,使用環(huán)境燈光進(jìn)行照明;在亮光條件下,使用更高亮度的燈光進(jìn)行試驗(yàn)。為了使試驗(yàn)結(jié)果更具有代表性和可靠性,對(duì)每種情況下的手勢(shì)動(dòng)作進(jìn)行了隨機(jī)選擇,并在每組試驗(yàn)中記錄30次不同手勢(shì)動(dòng)作的識(shí)別情況。試驗(yàn)結(jié)果如圖7所示,系統(tǒng)在不同的試驗(yàn)環(huán)境下手勢(shì)識(shí)別精度都較穩(wěn)定,在亮光和暗光條件下,系統(tǒng)的識(shí)別精度都相對(duì)較低,而在正常光條件下,系統(tǒng)表現(xiàn)出最佳的識(shí)別性能。需要針對(duì)不同的試驗(yàn)環(huán)境和光照條件進(jìn)行針對(duì)性的優(yōu)化和改進(jìn),以進(jìn)一步提高系統(tǒng)的魯棒性和實(shí)用性。
圖7 不同試驗(yàn)場(chǎng)景的識(shí)別率
在數(shù)據(jù)采集過程中,由于手掌大小、手掌與攝像頭的距離、手掌傾斜程度等因素的影響,不同試驗(yàn)人員在做出相同手勢(shì)時(shí)可能會(huì)呈現(xiàn)不同的形式,導(dǎo)致手勢(shì)特征不同。為使機(jī)器人系統(tǒng)能夠識(shí)別不同試驗(yàn)人員的手勢(shì)動(dòng)作,本文提取了不同手勢(shì)的角度特征和二值特征,將其融合成新的特征。共采集10個(gè)試驗(yàn)人員的3種手勢(shì),每種手勢(shì)采集2 000幅圖片,并對(duì)其進(jìn)行融合特征提取。使用t-SNE[20]算法對(duì)手勢(shì)特征進(jìn)行可視化分析,t-SNE是一種非線性降維算法,用于將高維數(shù)據(jù)轉(zhuǎn)換至低維空間,并且保留原始數(shù)據(jù)的局部結(jié)構(gòu)信息。通過聚類分析提取手勢(shì)的特征,將結(jié)果可視化在二維平面,以便分析不同手勢(shì)類別之間的相似性和差異性,結(jié)果如圖8所示,能夠直觀地發(fā)現(xiàn)不同手勢(shì)之間的相異性和不同試驗(yàn)人員做出相同手勢(shì)時(shí)的相似性,融合特征可更加全面地表征手勢(shì)特征,驗(yàn)證了特征融合方法在實(shí)際應(yīng)用中的有效性。
圖8 t-SNE算法下不同試驗(yàn)人員手勢(shì)特征聚類結(jié)果
特征融合是將不同特征組成一個(gè)新特征向量的過程,特征融合方法的選擇影響手勢(shì)識(shí)別準(zhǔn)確率。本文針對(duì)手勢(shì)識(shí)別任務(wù),采用拼接融合方法進(jìn)行特征融合,并將其與卷積融合[21]和加權(quán)融合[22]兩種方法進(jìn)行對(duì)比。卷積融合是指將不同特征向量進(jìn)行卷積操作后拼接成新特征向量,而加權(quán)融合是指將不同的特征向量進(jìn)行加權(quán)求和得到融合后的新特征向量。采用交叉驗(yàn)證的方法確定了角度特征和二值特征以7∶3的比例融合時(shí)手勢(shì)識(shí)別精度最高。本文對(duì)這3種特征融合方法進(jìn)行試驗(yàn)比較,結(jié)果如表1所示。
表1 不同特征融合方法對(duì)比
由表1可知,拼接融合方法具有最高的手勢(shì)識(shí)別精度。卷積融合會(huì)將二值特征中的0值參與計(jì)算,從而導(dǎo)致特征信息的混淆和損失;加權(quán)融合效果較差的原因可能是特征維度不同,角度特征為連續(xù)的取值范圍,而二值特征為0或1導(dǎo)致加權(quán)融合時(shí)對(duì)不同特征的權(quán)重估計(jì)不準(zhǔn)確,從而影響識(shí)別效果。
算法最終的識(shí)別準(zhǔn)確率主要受兩方面影響:手部骨骼特征點(diǎn)檢測(cè)的可靠性和特征提取方法的有效性。為研究融合特征提取方法相比單一特征提取方法是否具有優(yōu)越性,在SRP數(shù)據(jù)集上進(jìn)行了特征融合前后手勢(shì)識(shí)別效果的對(duì)比試驗(yàn)。具體而言,本文采用3種不同的特征提取方法:角度特征(單一特征)、二值特征和融合特征,并在會(huì)議室、教室和實(shí)驗(yàn)室3種不同的試驗(yàn)環(huán)境下進(jìn)行了系統(tǒng)測(cè)試,結(jié)果如圖9所示,可見單一特征提取方法中角度特征的識(shí)別效果優(yōu)于二值特征,主要由于角度特征能夠反映手指彎曲信息,對(duì)數(shù)據(jù)集中的各種手勢(shì)有更好的表征效果。在SRP數(shù)據(jù)集上,單一特征提取方法的手勢(shì)識(shí)別準(zhǔn)確率較低,主要原因是手勢(shì)在單一特征提取方法的區(qū)分度較低。融合特征的手勢(shì)識(shí)別準(zhǔn)確率均高于單一特征,精度分別達(dá)到了98.9%、99.2%和98.7%,說明相比單一特征提取方法,融合特征提取方法不僅能避免單一特征識(shí)別的偏差性,還能提高識(shí)別算法的泛化能力。同時(shí),在不同環(huán)境下,融合特征提取方法也表現(xiàn)出更好的魯棒性。
圖9 特征融合前后手勢(shì)識(shí)別精度
采用自制的SRP數(shù)據(jù)集進(jìn)行訓(xùn)練,將訓(xùn)練好的BP算法模型在測(cè)試集上進(jìn)行評(píng)估,在ASL數(shù)字手勢(shì)數(shù)據(jù)集[23]上驗(yàn)證模型的泛化性能,將得到的結(jié)果與ART-1型[24]和CNN算法進(jìn)行對(duì)比。CNN算法與其他常規(guī)神經(jīng)網(wǎng)絡(luò)的區(qū)別在于其能夠利用卷積來提取圖像中的特征,是圖像處理領(lǐng)域常用的特征提取網(wǎng)絡(luò);而ART-1型算法適用于處理二進(jìn)制數(shù)據(jù),是為了解決神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性-可塑性問題而提出的,其采用競(jìng)爭(zhēng)學(xué)習(xí)策略和自穩(wěn)機(jī)制,會(huì)自發(fā)地在神經(jīng)網(wǎng)絡(luò)中產(chǎn)生對(duì)環(huán)境信息的編碼,能夠?qū)θ我鈴?fù)雜環(huán)境輸入模式實(shí)現(xiàn)自穩(wěn)定和自組織的識(shí)別,分別使用準(zhǔn)確率(P)、召回率(R)和F1-Score來評(píng)估分類算法性能,結(jié)果如表2所示。
表2 分類算法性能對(duì)比
由表2可知,BP算法在自制SRP數(shù)據(jù)集的3種算法對(duì)比中表現(xiàn)最佳,在準(zhǔn)確度、召回率和F1-Score指標(biāo)上分別達(dá)到了99.57%、99.27%和99.42%。同時(shí),在ASL數(shù)字手勢(shì)數(shù)據(jù)集上,BP算法的準(zhǔn)確率也最高,這表明該算法具有很好的魯棒性。在準(zhǔn)確率方面,BP、CNN和ART-1型算法的效果依次變差,這種試驗(yàn)結(jié)果的原因可能是多方面的。相比其他兩種算法,ART-1型算法是一種聚類算法,根據(jù)相似度閾值進(jìn)行分類,不具備非線性變化能力,因此分類效果最差。針對(duì)實(shí)現(xiàn)特定任務(wù)的分類算法而言,CNN算法具有映射任意復(fù)雜非線性關(guān)系的能力。然而,在試驗(yàn)結(jié)果中它的效果不如BP算法,可能是由于將一維的二進(jìn)制數(shù)據(jù)轉(zhuǎn)換為二維數(shù)據(jù)進(jìn)行卷積操作,從而添加了大量無效的位置信息,導(dǎo)致算法的準(zhǔn)確率有所下降。
友好的交互界面設(shè)計(jì)能夠增強(qiáng)交互的真實(shí)感和用戶體驗(yàn),本文設(shè)計(jì)了一個(gè)包含3種不同游戲模式的交互界面,如圖10所示。在游戲過程中,系統(tǒng)提供語(yǔ)音輔助功能,幫助用戶更好地理解游戲規(guī)則和操作流程。用戶按下“開始”按鈕后,游戲正式開始。在“一局定勝負(fù)”模式中,系統(tǒng)會(huì)提示用戶出拳,以此模擬真實(shí)的石頭剪刀布游戲。在“隨機(jī)模式”中,系統(tǒng)會(huì)在規(guī)定的時(shí)間間隔內(nèi)隨機(jī)變化手勢(shì),讓用戶難以預(yù)測(cè),增加游戲難度和趣味性。在“機(jī)器必贏”模式中,系統(tǒng)能夠準(zhǔn)確識(shí)別試驗(yàn)者手勢(shì)的變化,并根據(jù)手勢(shì)規(guī)律來預(yù)測(cè)下一個(gè)手勢(shì),從而實(shí)現(xiàn)機(jī)器必贏的效果。最終游戲結(jié)果將在前面板上顯示,提供實(shí)時(shí)的反饋和游戲分析。
圖10 交互界面
為驗(yàn)證本文設(shè)計(jì)的人機(jī)猜拳博弈機(jī)器人系統(tǒng)整體運(yùn)行的可靠性,在“機(jī)器必贏”模式下進(jìn)行了試驗(yàn),如圖11所示,在該模式下檢測(cè)到用戶手勢(shì)為剪刀的交互場(chǎng)景。試驗(yàn)開始前,首先進(jìn)行初始化操作,并選擇游戲模式。試驗(yàn)過程中,10名試驗(yàn)人員分成5組,在“機(jī)器必贏”模式下進(jìn)行試驗(yàn)。剪刀、石頭、布分別被編碼為0、1、2,構(gòu)建一維手勢(shì)序列{0,1,2…},并在前面板進(jìn)行顯示。試驗(yàn)人員根據(jù)該提示做出相應(yīng)手勢(shì),另一名試驗(yàn)人員記錄機(jī)械手動(dòng)作變化序列。每組試驗(yàn)包括40次手勢(shì)變化,每名試驗(yàn)人員進(jìn)行10次試驗(yàn),共計(jì)400次手勢(shì)變化。將這400次手勢(shì)變化的序列作為手勢(shì)識(shí)別網(wǎng)絡(luò)的輸入,并將輸出結(jié)果與記錄的機(jī)械手動(dòng)作變化序列進(jìn)行對(duì)比。結(jié)果顯示,系統(tǒng)的整體預(yù)測(cè)準(zhǔn)確率為99.3%,表明該系統(tǒng)具有較好的穩(wěn)定性。同時(shí),手勢(shì)平均識(shí)別時(shí)間約為0.012 5 s,機(jī)械手的響應(yīng)時(shí)間約為0.13 s,滿足了實(shí)時(shí)性要求。
圖11 機(jī)器必贏模式下的交互場(chǎng)景
本文提出了一種基于三維骨骼信息的融合特征提取方法,該方法能夠有效地提取手勢(shì)的空間和位置信息,與MediaPipe Hand人手骨骼關(guān)節(jié)點(diǎn)檢測(cè)框架快速檢測(cè)手部骨骼特征和深度網(wǎng)絡(luò)的特征提取優(yōu)勢(shì)相結(jié)合,大幅提高了手勢(shì)識(shí)別的準(zhǔn)確率。在此基礎(chǔ)上,設(shè)計(jì)了一個(gè)能夠?qū)崟r(shí)進(jìn)行人機(jī)博弈的交互系統(tǒng),并將該方法應(yīng)用到人機(jī)猜拳博弈機(jī)器人系統(tǒng),系統(tǒng)的整體預(yù)測(cè)準(zhǔn)確率達(dá)到99.3%,同時(shí)系統(tǒng)能夠?qū)崟r(shí)響應(yīng)用戶手勢(shì)的變化,為用戶帶來更好的沉浸感。
未來的研究將重點(diǎn)關(guān)注兩個(gè)方面:一是增加其他手勢(shì)以實(shí)現(xiàn)更多的功能;二是進(jìn)一步結(jié)合視覺和觸覺傳感器,以使機(jī)器人系統(tǒng)具備觸覺感知功能,從而完成更加復(fù)雜的任務(wù)。