秦浩楠,于 鯤,盧朝茜
(昆明理工大學(xué),云南 昆明 650500)
面部是身體的一部分。每個(gè)人的面部具有獨(dú)特的特征。相像的兩個(gè)人的面部特征也存在一定的差異,因此面部特征識(shí)別成為使用最廣泛的生物特征識(shí)別方式之一[1-2]。面部識(shí)別一直是近年來研究的重點(diǎn)方向,為非接觸式交互提供了研究平臺(tái)。如今,基于人工智能的面部識(shí)別技術(shù)為面部表情的相關(guān)研究提供了技術(shù)基礎(chǔ)。Pilarczyk等人[3]提出一種基于CNN/MMOD人臉檢測(cè)器的計(jì)算機(jī)算法,通過網(wǎng)絡(luò)攝像機(jī)獲取人的面部特征信息并進(jìn)行識(shí)別,其中CNN為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)。Jinhyuk等人[4]提出了免提自然用戶界面,是一種基于頭戴式顯示器(Head Mounted Display,HMD)傳感器的面部表情研究,實(shí)驗(yàn)時(shí)用戶需要佩戴HMD設(shè)備。Zhang等人[5]提出了一種注視峰值應(yīng)用程序,可以實(shí)時(shí)識(shí)別眼睛手勢(shì)。程序把這些手勢(shì)解碼為預(yù)測(cè)性動(dòng)作,并為用戶提供一個(gè)非否認(rèn)界面,可方便用戶交流。Sun等人[6]提出了一種時(shí)空融合模型和多模式分層融合策略。Li等人[7]提出了一種基于手勢(shì)和身體運(yùn)動(dòng)識(shí)別算法的機(jī)器人手臂的HRI模型。Anja和Marion[8]進(jìn)行了一項(xiàng)可用性研究,采用頭部運(yùn)動(dòng)和頭部姿勢(shì)來幫助無法使用上肢的殘疾人。
面部識(shí)別相關(guān)的研究極大地豐富了多通道人機(jī)交互的研究方向,然而暫時(shí)沒有對(duì)于面部表情和手部移動(dòng)相結(jié)合的研究示例[9-11]。之前的大多數(shù)研究都需要用戶佩戴識(shí)別設(shè)備,不僅增加了用戶操作的難度,而且降低了用戶操作的舒適度。本研究提出的基于“面部表情+手”的混合手勢(shì)交互技術(shù)不需要用戶佩戴任何設(shè)備,極大地簡(jiǎn)化了操作流程,實(shí)現(xiàn)了非接觸式交互。
基于“面部表情+手”的混合手勢(shì)交互技術(shù)基于外接攝像頭和Leap Motion傳感器[12-14],構(gòu)建了一個(gè)交互式操作界面。通過接收面部和手部的輸入數(shù)據(jù),實(shí)現(xiàn)了以面部表情和手部移動(dòng)方式進(jìn)行目標(biāo)選擇和點(diǎn)擊的操作[15]。該技術(shù)具有手部移動(dòng)和面部表情兩種輸入方式,是一種全新的非接觸式交互技術(shù)。
實(shí)驗(yàn)使用了第二代Leap Motion傳感器用于識(shí)別手部移動(dòng)。Leap Motion傳感器放置在距離顯示器底座中心邊緣15 cm處。外部攝像頭是Core ANC HD 1080p網(wǎng)絡(luò)攝像頭,位于顯示器頂部,離顯示器的左邊緣8 cm,用于實(shí)時(shí)獲取用戶面部特征連續(xù)圖像流。設(shè)定實(shí)驗(yàn)設(shè)備的距離僅是為了保持實(shí)驗(yàn)條件的一致性,減少距離不同導(dǎo)致的偏差。計(jì)算機(jī)顯示器為三星SyncMaster SA350(分辨率為1 920×1 080像素),操作系統(tǒng)為Windows 10。實(shí)驗(yàn)設(shè)備的安裝示例和混合手勢(shì)交互技術(shù)的操作方式如圖1所示。
圖1 設(shè)備安裝圖
所有面部表情動(dòng)作都是基于眼睛和嘴巴的張開與閉合兩種狀態(tài)的不同定義的。根據(jù)張開和閉合兩種狀態(tài),共設(shè)定8種不同的面部表情。雙眼張開、嘴巴閉合是人們正常放松時(shí)的面部表情。為了確保數(shù)據(jù)的可靠性和準(zhǔn)確性,實(shí)驗(yàn)中這種面部表情被刪除。剩余的7種表情是實(shí)驗(yàn)定義的面部表情,如表1所示。
表1 面部表情
面部表情識(shí)別通過調(diào)用攝像頭拍攝用戶的靜態(tài)面部特征圖片,并調(diào)用Face++平臺(tái)URL接口將靜態(tài)面部特征圖片上傳到Face++面部識(shí)別系統(tǒng),對(duì)圖片的面部特征點(diǎn)進(jìn)行特征信息提取,最終根據(jù)提取的面部特征數(shù)據(jù)進(jìn)行面部識(shí)別。
基于“面部表情+手”的混合手勢(shì)交互技術(shù)對(duì)手部的識(shí)別主要是基于Leap Motion傳感器。Leap Motion傳感器是一種專門用于手部識(shí)別的設(shè)備。用戶在操作時(shí)只需啟動(dòng)程序,將手部放到Leap Motion傳感器的正上方,即可通過手部移動(dòng)來操控鼠標(biāo)光標(biāo)的移動(dòng)。如果用戶的手或手指處于Leap Motion的交互區(qū)域,Leap Motion可以對(duì)其進(jìn)行跟蹤識(shí)別。在對(duì)界面進(jìn)行編程時(shí),Interaction-Box類有助于映射Leap Motion坐標(biāo)。為了模擬虛擬手,實(shí)驗(yàn)使用了java.awt.Robot庫(kù),可以使鼠標(biāo)光標(biāo)隨著手部的移動(dòng)而移動(dòng)。Leap Motion傳感器的交互區(qū)域如圖2所示。
圖2 Leap Motion傳感器識(shí)別交互區(qū)域
為了更加精準(zhǔn)地識(shí)別用戶的面部表情動(dòng)作,識(shí)別時(shí)用戶的面部表情動(dòng)作要保持靜止?fàn)顟B(tài),并利用程序通過檢測(cè)左眼和右眼的基線值區(qū)分左眼和右眼。識(shí)別過程中,通過Face++提取到的面部特征數(shù)據(jù)并不能直接反映眼睛和嘴巴的開閉狀態(tài),因此在程序中對(duì)眼睛和嘴巴的張開閉合狀態(tài)定義了相應(yīng)閾值。其中,設(shè)置左、右眼在張開狀態(tài)時(shí)的閾值為30,設(shè)置左、右眼在閉合狀態(tài)時(shí)的閾值為10,設(shè)置嘴巴閉合狀態(tài)時(shí)的閾值為0,設(shè)置嘴巴張開狀態(tài)時(shí)的閾值為70。
實(shí)驗(yàn)設(shè)置了6組不同半徑的圓形按鈕作為被選擇的目標(biāo)。6組按鈕的半徑分別為10像素、15像素、20像素、25像素、30像素及35像素。設(shè)定3種高度(指目標(biāo)按鈕界面頂部距離計(jì)算機(jī)屏幕底部的高度),分別為6.5 cm、16 cm及26.5 cm。結(jié)合6組半徑和3種高度,設(shè)計(jì)出18組目標(biāo)選擇測(cè)試實(shí)驗(yàn)。
參與測(cè)試的所有實(shí)驗(yàn)者均身體健康,且具有一定的面部手勢(shì)識(shí)別交互的經(jīng)驗(yàn)。由于眼鏡片會(huì)引起光反射,因此參與測(cè)試的所有實(shí)驗(yàn)者在實(shí)驗(yàn)中都沒有佩戴眼鏡。每名實(shí)驗(yàn)者均對(duì)18組目標(biāo)選擇實(shí)驗(yàn)進(jìn)行測(cè)試。實(shí)驗(yàn)開始前,工作人員向每名實(shí)驗(yàn)者詳細(xì)說明實(shí)驗(yàn)的具體流程,允許實(shí)驗(yàn)者進(jìn)行10次練習(xí)。實(shí)驗(yàn)過程中,實(shí)驗(yàn)者對(duì)每個(gè)目標(biāo)按鈕的識(shí)別順序依次從左到右、從上到下執(zhí)行。共設(shè)定7個(gè)目標(biāo)按鈕,每個(gè)目標(biāo)按鈕對(duì)應(yīng)一組面部表情動(dòng)作,順序?yàn)長(zhǎng)ORC-MC、LC-RO-MC、LO-RC-MO、LO-RO-MO、LC-RC-MC、LC-RC-MO及LC-RO-MO。
實(shí)驗(yàn)開始后,用戶需要通過手部的移動(dòng)控制鼠標(biāo)光標(biāo)移動(dòng)到目標(biāo)按鈕上,選中按鈕后做出與該按鈕對(duì)應(yīng)的面部表情并保持靜止?fàn)顟B(tài)。面部表情識(shí)別成功后,該按鈕會(huì)消失,下一個(gè)待識(shí)別的目標(biāo)按鈕外圈將會(huì)變成綠色,以此來提示實(shí)驗(yàn)者。當(dāng)用戶選中目標(biāo)按鈕時(shí),按鈕的外圈會(huì)變?yōu)榧t色,內(nèi)圈為藍(lán)色,此時(shí)實(shí)驗(yàn)者需要盡快通過手部移動(dòng)控制光標(biāo)選中內(nèi)圈的藍(lán)色區(qū)域。程序?qū)⑼馊t色區(qū)域定義為錯(cuò)誤識(shí)別區(qū)域,將內(nèi)圈藍(lán)色區(qū)域定義為正確識(shí)別區(qū)域。光標(biāo)選中兩個(gè)區(qū)域后都能進(jìn)行面部識(shí)別,但只有在內(nèi)圈藍(lán)色區(qū)域內(nèi)識(shí)別成功的操作才會(huì)被記錄為正確識(shí)別,而在外圈紅色區(qū)域識(shí)別成功的操作會(huì)被記錄為錯(cuò)誤識(shí)別。目標(biāo)按鈕選擇的具體變化情況如圖3所示。
實(shí)驗(yàn)測(cè)試過程中,手部識(shí)別系統(tǒng)和面部表情識(shí)別系統(tǒng)是并行關(guān)系。手部識(shí)別系統(tǒng)程序啟動(dòng)后,激活Leap Motion傳感器,只需將手放到傳感器上方便可通過手部移動(dòng)控制鼠標(biāo)光標(biāo)的移動(dòng)。面部表情識(shí)別系統(tǒng)程序啟動(dòng)后,電腦攝像頭首先被激活,程序后臺(tái)自動(dòng)調(diào)用Face++的URL識(shí)別接口。當(dāng)實(shí)驗(yàn)者通過手部移動(dòng)控制鼠標(biāo)光標(biāo)選中目標(biāo)按鈕時(shí),攝像頭開始實(shí)時(shí)獲取實(shí)驗(yàn)者的面部表情特征數(shù)據(jù)。面部表情識(shí)別成功后,該目標(biāo)按鈕消失,下一個(gè)目標(biāo)按鈕繼續(xù)開始識(shí)別。如果識(shí)別沒有成功,攝像頭將不斷更新所獲取的面部表情特征數(shù)據(jù),直到識(shí)別成功。整個(gè)識(shí)別流程如圖4所示。
圖3 目標(biāo)按鈕選擇的具體變化
圖4 混合手勢(shì)控制識(shí)別流程圖
測(cè)試完成后獲得的數(shù)據(jù)主要包括識(shí)別時(shí)間和識(shí)別正確或錯(cuò)誤的次數(shù)。經(jīng)過SPSS軟件雙向重復(fù)測(cè)量方差分析,得出了不同目標(biāo)半徑(10像素、15像素、20像素、25像素、30像素及35像素)和不同目標(biāo)高度(低6.5 cm、中16 cm、高26.5 cm)的變化對(duì)混合手勢(shì)交互技術(shù)的平均識(shí)別時(shí)間和識(shí)別錯(cuò)誤次數(shù)的影響。其中,目標(biāo)半徑和目標(biāo)高度為自變量,而識(shí)別時(shí)間和識(shí)別錯(cuò)誤次數(shù)為因變量。
3.3.1 平均識(shí)別時(shí)間
目標(biāo)半徑和目標(biāo)高度的變化對(duì)混合手勢(shì)交互技術(shù)的識(shí)別時(shí)間的影響如圖5所示。其中,橫坐標(biāo)代表3種目標(biāo)高度,6種顏色代表6組目標(biāo)半徑;縱坐標(biāo)代表平均識(shí)別時(shí)間。
圖5 不同目標(biāo)高度和目標(biāo)半徑的平均識(shí)別時(shí)間
不同任務(wù)下的平均識(shí)別時(shí)間如圖6所示。其中,圖6(a)是不同的目標(biāo)高度對(duì)平均識(shí)別時(shí)間的影響;圖6(b)是不同的目標(biāo)半徑對(duì)平均識(shí)別時(shí)間的影響。
3.3.2 識(shí)別錯(cuò)誤率
實(shí)驗(yàn)將實(shí)驗(yàn)者進(jìn)行目標(biāo)按鈕選擇識(shí)別時(shí)的識(shí)別錯(cuò)誤次數(shù)百分比定義為混合手勢(shì)交互技術(shù)的識(shí)別錯(cuò)誤率。經(jīng)過SPSS分析,得出了不同的目標(biāo)半徑和目標(biāo)高度對(duì)混合手勢(shì)交互技術(shù)的識(shí)別錯(cuò)誤率的影響,如圖7所示。
圖6 不同任務(wù)下的平均識(shí)別時(shí)間
圖7 不同目標(biāo)高度和目標(biāo)半徑的識(shí)別錯(cuò)誤率
根據(jù)SPSS數(shù)據(jù)分析結(jié)果,整理出不同任務(wù)下的平均識(shí)別錯(cuò)誤率。圖8(a)是不同目標(biāo)高度對(duì)識(shí)別錯(cuò)誤率的影響,圖8(b)是不同目標(biāo)半徑對(duì)識(shí)別錯(cuò)誤率的影響。
本實(shí)驗(yàn)共進(jìn)行18組測(cè)試,通過SPSS數(shù)據(jù)分析后得出了不同任務(wù)條件下混合手勢(shì)交互技術(shù)識(shí)別的差異。通過實(shí)驗(yàn)數(shù)據(jù)得出結(jié)論:
(1)目標(biāo)半徑為35像素、目標(biāo)高度為中16 cm時(shí),混合手勢(shì)的平均識(shí)別時(shí)間最短;
(2)目標(biāo)半徑為10像素、目標(biāo)高度為低6.5 cm時(shí),平均識(shí)別時(shí)間最長(zhǎng);
(3)目標(biāo)半徑為10像素、目標(biāo)高度為中16 cm時(shí),識(shí)別錯(cuò)誤率最高;
(4)目標(biāo)半徑為30像素、目標(biāo)高度為高26.5 cm時(shí),識(shí)別錯(cuò)誤率最低。
可見,目標(biāo)高度和目標(biāo)半徑的變化對(duì)混合手勢(shì)的平均識(shí)別時(shí)間有顯著的影響。測(cè)試數(shù)據(jù)標(biāo)明,在最佳任務(wù)條件下,混合手勢(shì)交互技術(shù)的整體平均識(shí)別時(shí)間為2 921 ms,整體識(shí)別錯(cuò)誤率為6.19%(即識(shí)別準(zhǔn)確率為93.81%)。
圖8 不同任務(wù)下的識(shí)別錯(cuò)誤率
提出基于“面部表情+手”的混合手勢(shì)交互技術(shù),通過手部移動(dòng)控制鼠標(biāo)光標(biāo)移動(dòng),通過面部表情識(shí)別目標(biāo)按鈕替代鼠標(biāo)的點(diǎn)擊操作。研究結(jié)果表明,基于“面部表情+手”的混合手勢(shì)交互技術(shù)的識(shí)別性能優(yōu)良,可以滿足日常的人機(jī)交互需求,實(shí)現(xiàn)了非接觸式交互操作。由于面部表情的識(shí)別容易受到光線強(qiáng)弱和相機(jī)分辨率的影響,下一步將針對(duì)這兩個(gè)因素對(duì)該技術(shù)進(jìn)行進(jìn)一步的優(yōu)化。