曲思霖,王從慶,展文豪
(南京航空航天大學(xué) 自動化學(xué)院,南京 210016;2.中國航天員科研訓(xùn)練中心人因工程重點實驗室,北京 100094)
航天任務(wù)中,航天員利用固定在核心艙或空間機(jī)械臂上的攝像機(jī)獲取艙外信息,通過注視點估計注視操作界面控制艙外設(shè)備,對艙外目標(biāo)進(jìn)行拾取、操作等。自1901年起,用照相機(jī)拍攝圖像用于注視點估計成為了主流方法。二維注視點估計方法目前比較成熟且應(yīng)用最廣,通過計算注視點的二維信息,建立注視點與屏幕的對應(yīng)關(guān)系,得出視線在屏幕上的對應(yīng)位置。二維注視點估計可以分為基于模型的注視估計方法和基于外觀的注視估計方法。其中基于模型的注視估計方法包括瞳孔跟蹤法、鞏膜—虹膜邊緣法、瞳孔角膜反射法、普金野象法等;基于外觀的注視估計方法直接將人眼圖像作為輸入,經(jīng)過圖像處理提取表征眼動的特征,推斷眼睛在計算機(jī)屏幕上的注視位置。瞳孔跟蹤法需要引入紅外光源,提高瞳孔的辨識度,可克服垂直方向的遮擋,但要求受試者頭部相對固定;鞏膜-虹膜邊緣法通過圖像處理提取異色邊緣,利用邊緣相對位置計算注視點坐標(biāo),要求受試者頭部相對固定,且只適合測量水平方向眼動;瞳孔角膜反射法也需要引入紅外光源獲得瞳孔和角膜亮斑,視線方向由瞳孔中心相對于角膜反射的位置確定,允許頭部輕微運動,市面上多數(shù)頭戴式和桌面式眼動儀如Eyelink眼動儀、Tobbi眼動儀、Iview X HED眼動儀都是根據(jù)這個原理設(shè)計,為用戶提供視線跟蹤體驗;普金野象法需要特征光源與實驗設(shè)備,且在水平方向測量誤差較大。基于外觀的注視估計方法將整個眼部圖像信息作為輸入通過圖像處理技術(shù)獲得瞳孔位置、眼角位置等信息進(jìn)行注視點定位,實現(xiàn)簡單,價格低廉,可以處理低像素圖像,允許受試者頭部輕微運動,但精準(zhǔn)度較低,魯棒性不足,且需要大量樣本進(jìn)行訓(xùn)練。
目前,國內(nèi)外已提出了多種基于外觀的注視估計方法。Williams等提出一種稀疏半監(jiān)督高斯過程回歸模型將人眼圖像映射到屏幕坐標(biāo)。Marrinez等提出提取多級HOG作為特征,利用支持向量回歸和相關(guān)向量回歸得到眼睛特征與注視坐標(biāo)之間的映射函數(shù)。Tan等提出一種利用線性插值近似外觀流形模型的注視點估計方法,平均角度誤差為0.38°。Lu等采用優(yōu)化的方法得到自適應(yīng)線性回歸的最優(yōu)解,達(dá)到通過稀疏的訓(xùn)練樣本進(jìn)行精確的映射的目的,還將問題分解為固定頭部姿態(tài)下的初始估計和后續(xù)對頭部轉(zhuǎn)動和眼睛外觀變形引起的估計偏差進(jìn)行補(bǔ)償,以增加自由頭部運動的6個自由度。Liu等等提出了一種兩步訓(xùn)練網(wǎng)絡(luò)Gaze Estimator,以提高移動設(shè)備上注視位置的估計精度。毛云豐等采用深度卷積神經(jīng)網(wǎng)絡(luò)定位虹膜中心與眼角位置映射計算屏幕上的注視點,并在公開數(shù)據(jù)庫MPIIGaze和Swith上驗證該算法,提高了在低分辨率圖像上進(jìn)行注視點估計的準(zhǔn)確率。孟春寧提出了一種基于矩形積分方差算子的虹膜定位算法,利用支持向量回歸機(jī)估計注視方向。
對于空間站機(jī)械臂,其中一個重要的任務(wù)是完成空間艙外目標(biāo)的拾取、搬運、定位和釋放。利用安裝在空間站核心艙或空間機(jī)械臂上的相機(jī)拍攝空間目標(biāo),航天員或地面指揮中心通過顯示屏觀察空間環(huán)境,注視空間目標(biāo)所在位置,計算空間目標(biāo)在空間機(jī)械臂坐標(biāo)下的三維坐標(biāo)。本文設(shè)計了虛擬環(huán)境下的空間機(jī)械臂多模態(tài)人機(jī)交互仿真平臺,利用固定操作顯示屏上單目照相機(jī)拍攝操作者注視空間目標(biāo)主視圖與左視圖時的圖像,經(jīng)過圖像預(yù)處理、特征提取和多流卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,得到航天員(操作者)注視點所在矩形框的標(biāo)簽與空間機(jī)械臂待捕獲目標(biāo)的空間坐標(biāo),然后通過空間機(jī)械臂運動學(xué)反解計算得到關(guān)節(jié)角,并控制空間機(jī)械臂末端向空間目標(biāo)運動。
通過注視點位置估計人臉圖像與屏幕坐標(biāo)的對應(yīng)關(guān)系,許多國內(nèi)外的研究團(tuán)隊已經(jīng)做了大量的工作。2007年德國烏爾姆大學(xué)Weidenbacher等公開了一組包括20名受試者,共2220張圖片的不同的頭姿與視線的組合數(shù)據(jù)集。2016年麻省理工學(xué)院的Antonio Torralba研究小組利用iPhone和平板自帶的前置攝像頭拍攝人臉圖像,并建立數(shù)據(jù)集GazeCapture,包括1400多人,240多萬樣本,截取左眼圖像、右眼圖像、人臉圖像與人臉位置,將這些數(shù)據(jù)輸入多流卷積網(wǎng)絡(luò),在iPhone上計算歐氏距離誤差為1.71 cm,在平板上計算歐氏距離誤差為2.53 cm。2017年美國萊斯大學(xué)公開了針對平板電腦注視點采集的包括51名受試者,4個不同頭部姿勢、35個注視點的數(shù)據(jù)集TabletGaze,提取多級HOG特征,用隨機(jī)森林回歸,得到的歐氏距離誤差為3.17 cm。雖然有很多公開的數(shù)據(jù)集,但多數(shù)應(yīng)用于手機(jī)、平板電腦。
本文中仿真平臺空間環(huán)境顯示界面為24寸(53.30 cm×29.90 cm),屏幕顯示分辨率為1920×1080,即屏幕的長寬比為16∶9。為保證每個矩形塊大小相同,長寬相等,將電腦屏幕平均分為16×9,共144個矩形塊,每個矩形塊的分辨率為120×120。使用單目攝像機(jī)采集9名受試者單一頭姿的144個注視點數(shù)據(jù)集。將單目攝像機(jī)放置在屏幕上邊正中心的位置,調(diào)整攝像頭角度,使拍攝畫面能完整顯示受試者桌面以上身體部分,采集數(shù)據(jù)集圖片時,要求受試者頭部正對攝像頭,瞳孔轉(zhuǎn)動依次注視144個矩形塊正中心部分,利用攝像機(jī)拍攝,每人每個矩形塊拍攝約10張照片,過程中保持環(huán)境光線不變,允許受試者頭部輕微晃動。實驗采集9名22~25歲受試者的注視圖像,其中7名男性,2名女性,數(shù)據(jù)集共16 395張圖片。
使用攝像機(jī)拍攝的圖片中包含實驗室環(huán)境、無關(guān)人員的背影、側(cè)臉等干擾條件,因此,需要對攝像機(jī)拍攝圖像進(jìn)行預(yù)處理,截取人臉部分。目前,人臉檢測的方法包括Haar級聯(lián)檢測、ACF人臉檢測、DPM算法、SURF級聯(lián)檢測等基于圖像特征的方法。隨著深度學(xué)習(xí)網(wǎng)絡(luò)的發(fā)展,多種卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉檢測方向,如2015年提出的級聯(lián)CNN、2018年提出的Faceness-Net等。雖然深度學(xué)習(xí)算法更精準(zhǔn),但本文數(shù)據(jù)集中單張圖片只包含一個正臉任務(wù)較簡單,因此選擇目前人臉檢測速度最快的Haar級聯(lián)檢測器截取人臉部分。
利用OpenCV中的Haar級聯(lián)檢測器檢測圖片中人臉部分,利用dlib檢測器截取左、右眼部分。在Haar級聯(lián)檢測器中包含左眼檢測器與右眼檢測器,但存在一些問題,如易誤采集到眉毛部分且截取人眼圖片大小不一。dlib人眼檢測較Haar級聯(lián)檢測器更穩(wěn)定、更精準(zhǔn),且可設(shè)置截取圖片大小。dlib檢測器提取HOG作為特征,采用支持向量機(jī)進(jìn)行臉部特征點識別,標(biāo)記人臉68個特征點。截取左眼、右眼部分,截取圖片像素大小為28 px×69 px,截取的左眼、右眼部分如圖1所示。
圖1 dlib檢測器截取左右眼部分Fig.1 Left and right eyes intercepted with a dlib detector
為了增加數(shù)據(jù)集樣本數(shù),提高定位準(zhǔn)確率,通過改變圖片大小擴(kuò)展數(shù)據(jù)集。綜合考慮算法速度與實現(xiàn)效果,本文選擇線性插值的方法改變圖片大小。將左、右眼截取圖像像素值變?yōu)?6 px×60 px。
最后,在提取圖像特征前,需要將RGB圖像灰度化。將圖片灰度化有利于識別物品邊緣,計算梯度值,將圖像矩陣變?yōu)槎S矩陣,加快提取特征。
利用圖像特征提取方法描述特定區(qū)域,使該區(qū)域區(qū)別于周圍其他點,具有高可分度。HOG算法通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征,計算圖像每個像素的梯度,捕獲輪廓信息,進(jìn)一步弱化光照的干擾,保持圖像幾何不變性。獲取人眼圖像與注視點坐標(biāo)的關(guān)系,需要得到瞳孔與眼角的相對位置。因此,本文選擇HOG特征提取方法。左、右眼的梯度直方圖如圖2所示。
圖2 左、右眼梯度直方圖Fig.2 HOG of left and right eyes
由圖2可知,圖像的灰度級集中在低亮度范圍,個別的像素點出現(xiàn)在255處,使用直方圖均衡化將直方圖變成均勻分布,增加像素之間灰度值的動態(tài)范圍,對在圖像中像素個數(shù)多的灰度值進(jìn)行展寬,而對像素個數(shù)少的灰度值進(jìn)行歸并,增大圖像對比度。左、右眼均衡化直方圖如圖3所示。
圖3 左、右眼均衡化直方圖Fig.3 Equalized HOG of left and right eyes
經(jīng)過直方圖均衡化后的左右眼圖像如圖4所示。由圖可知,直方圖均衡化后的圖像增大了瞳孔與虹膜之間的對比度,有利于分辨瞳孔與眼角的相對位置,提高注視點定位的準(zhǔn)確率。
圖4 直方圖均衡化后的左右眼圖像Fig.4 Left and right eyes after HOG equalized
為了進(jìn)一步消除膚色對實驗結(jié)果的影響,采用閾值方法處理人眼圖像。由雙眼直方圖可知,大部分像素集中在0~150區(qū)間,保持瞳孔像素大小不變的情況下,降低無關(guān)因素影響,本文采用截斷閾值方法,截斷閾值設(shè)置為80,圖像中大于80的像素值設(shè)置為80,小于80的像素值保持不變。經(jīng)過閾值截斷后的左、右眼圖像如圖5所示。
圖5 閾值截斷后的左右眼圖像Fig.5 Left and right eyes after threshold truncation
本文設(shè)計了一種多流卷積網(wǎng)絡(luò)學(xué)習(xí)左右眼圖像與144個注視點位置之間的映射關(guān)系。將預(yù)處理及特征提取后的大小為28 px×69 px的左、右眼圖像輸入如圖6的卷積網(wǎng)絡(luò)中,訓(xùn)練模型參數(shù)。將預(yù)處理及特征提取后的大小為36 px×60 px的左、右眼圖像輸入如圖7的卷積網(wǎng)絡(luò)中,訓(xùn)練模型參數(shù)。將4組人眼圖像(36 px×60 px的左、右眼圖像、28 px×69 px的左、右眼圖像)分別輸入對應(yīng)網(wǎng)絡(luò)中,利用全連接層融合,搭建如圖7的多流卷積神經(jīng)網(wǎng)絡(luò)模型,在數(shù)據(jù)集上驗證注視點位置估計準(zhǔn)確率。所有的模型都在一臺包含Intel i7核心CPU、16GB RAM的Linux操作系統(tǒng)下的計算機(jī)上進(jìn)行訓(xùn)練,程序開發(fā)環(huán)境為Tensorflow,使用NVIDIA GEFORCE RTX 3080 GPU加速訓(xùn)練過程。本文設(shè)計的所有卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時迭代次數(shù)均為400次,批尺寸為32個,選擇交叉熵計算損失值,以及對稀疏數(shù)據(jù)表現(xiàn)更好的AdaDelta優(yōu)化算法。
圖6 輸入為28 px×69 px的卷積神經(jīng)網(wǎng)絡(luò)模型Fig.6 CNN model with input of 28 px×69 px
圖7 輸入為36 px×60 px的卷積神經(jīng)網(wǎng)絡(luò)模型Fig.7 CNN model with input of 36 px×60 px
圖中C1、C2、C3、C4為卷積層,M1、M2為池化層,F(xiàn)為Flatten層。卷積核大小/通道數(shù)為C1:3×3/64,C2:3×3/128,C3:3×3/256,C4:1×3/256,激活函數(shù)為ReLU。選擇最大池化作為池化層的池化方式,池化核大小/通道數(shù)為M1:2×2/64,M2:2×2/128,激活函數(shù)為ReLU。輸出層有144個神經(jīng)元,對應(yīng)144個注視點編號,激活函數(shù)為Softmax函數(shù)。
B型網(wǎng)絡(luò)與A型網(wǎng)絡(luò)比較,將C4卷積層換為C3卷積層,即卷積核大小為3×3,并加入池化層M3,輸入M3的矩陣大小為2×8,輸出通道數(shù)為256,輸出矩陣大小為1×4。
調(diào)整圖6中卷積神經(jīng)網(wǎng)絡(luò)(A型網(wǎng)絡(luò))和圖7中卷積神經(jīng)網(wǎng)絡(luò)(B型網(wǎng)絡(luò)的結(jié)構(gòu)),形成如圖8所示的多流卷積神經(jīng)網(wǎng)絡(luò)模型(以下簡稱AB型網(wǎng)絡(luò))。將28 px×69 px的左右眼圖像輸入A型網(wǎng)絡(luò),進(jìn)行訓(xùn)練,在A型網(wǎng)絡(luò)中Flatten層之前增加一個C4層,輸出通道數(shù)為256,大小為2×8。將36 px×60 px的左右眼圖像輸入B型網(wǎng)絡(luò),進(jìn)行訓(xùn)練,B型網(wǎng)絡(luò)去掉M3層。將4個輸出矩陣通道合并,F(xiàn)latten層將三維矩陣壓縮為一維向量,向量長度為2×8×1024=16 284,增加一個全連接層FC,神經(jīng)元數(shù)為256,激活函數(shù)為ReLU,輸出層輸出144個預(yù)測注視點編號。
圖8 多流卷積神經(jīng)網(wǎng)絡(luò)模型Fig.8 Multi-stream CNN model
為了測試多流卷積神經(jīng)網(wǎng)絡(luò)對注視點位置估計的準(zhǔn)確性,隨機(jī)選擇80%作為訓(xùn)練集訓(xùn)練模型,并將訓(xùn)練好的模型在測試集上驗證。A型網(wǎng)絡(luò)訓(xùn)練大小為28 px×69 px的左右眼圖像、B型網(wǎng)絡(luò)訓(xùn)練大小為36 px×60 px的左右眼圖像、AB型網(wǎng)絡(luò)訓(xùn)練左眼圖像、AB型網(wǎng)絡(luò)訓(xùn)練右眼圖像以及AB型網(wǎng)絡(luò)訓(xùn)練4個眼部圖像的識別準(zhǔn)確率如表1所示。
表1 不同輸入圖像在卷積模型下的識別準(zhǔn)確率Table 1 The accuracy of classification with different input images and CNNs
由表1可知,像素大小為28 px×69 px的左、右眼圖像在A型網(wǎng)絡(luò)下的注視點位置估計準(zhǔn)確率分為65.117%和64.184%,像素大小為36 px×60 px的左、右眼圖像在B型網(wǎng)絡(luò)下的注視點位置估計準(zhǔn)確率分為65.916%和65.709%。將像素大小為28 px×69 px和36 px×60 px的左眼或右眼圖像輸入AB型網(wǎng)絡(luò),注視點位置估計準(zhǔn)確率分別達(dá)到76.267%和68.222%,較單一輸入時有些許提高,而將像素大小為28 px×69 px和36 px×60 px的左眼和右眼圖像一同輸入AB型網(wǎng)絡(luò)時,注視點位置估計準(zhǔn)確率能達(dá)到87.447%,有顯著提高。
在數(shù)據(jù)集上采用其他的特征提取方法與分類方法,比較不同方法在本文數(shù)據(jù)集上的識別準(zhǔn)確率,如表2所示。
表2 不同特征提取及分類方法在數(shù)據(jù)集上準(zhǔn)確率Table 2 The accuracy comparison of different feature extraction and classification methods on the dataset
表2中,mHOG(multi-level Histogram of Gradient)是多尺度梯度直方圖,按照Martinez等提出的方法劃分圖像,計算mHOG。將36 px×60 px的人眼圖像分別劃分為1×2、3×1、3×2、6×4區(qū)塊,每個區(qū)塊建立2×2個細(xì)胞單元,每個細(xì)胞單元對應(yīng)9個梯度直方圖,利用范數(shù)對每個區(qū)塊歸一化獲得長度為2520的特征向量。采用主成分分析(Principle Component Analysis,PCA)將特征向量長度降至143,最后用隨機(jī)森林分類(Random Forest Classifier,RFC)或決策樹分類(Decision Tree Classifier,DTC)進(jìn)行分類。Basilio等改變圖像大小至6 px×10 px,計算歸一化直方圖作為特征,左右眼圖像共獲得120個特征,并采用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行識別。提取mHOG時按細(xì)胞單元計算梯度直方圖以及縮小圖像大小的作用與卷積核相似,都是合并區(qū)域內(nèi)像素值,降低特征維度,有利于分類器進(jìn)行分類。由表2所知,提取多尺度直方圖作為特征時,RFC較DTC具有更好的分類效果。提取整張圖的直方圖作為特征時,SVM分類效果最好。提取多尺度梯度直方圖較提取整張圖片梯度直方圖,識別準(zhǔn)確率更高。但提取數(shù)據(jù)集雙眼的多尺度直方圖即同一點像素值多次計算,使計算的數(shù)據(jù)量成倍增加,對于本數(shù)據(jù)集的圖像,計算多尺度梯度直方圖的數(shù)據(jù)量達(dá)到44.8 GB,計算機(jī)處理速度慢。因此,綜合考慮計算速度和識別準(zhǔn)確率的條件下,本文提取的多流卷積神經(jīng)網(wǎng)絡(luò)具有較大優(yōu)勢。
采用文本方法識別注視點位置,144個注視點從電腦屏幕的左上角至屏幕的右下角依次編號1~144,每列9個注視點,共16列。每個注視點所在的矩形塊大小為3.322 cm×3.322 cm,對應(yīng)的像素范圍為120 px×120 px。
輸入為36 px×60 px,28 px×69 px左右眼圖像,采用多流卷積網(wǎng)絡(luò)進(jìn)行分類,144個注視點中有88.89%的注視點識別率在80%以上,驗證了該算法在解決注視點估計問題上的有效性。
空間目標(biāo)定位實現(xiàn)步驟如圖9所示。
圖9 空間目標(biāo)定位流程圖Fig.9 Process of spatial target positioning
操作者首先注視空間環(huán)境主視圖正投影中空間目標(biāo)位置,利用固定在屏幕上方的照相機(jī)拍攝受試者照片,采用本文注視點估計算法獲得此時空間目標(biāo)所在矩形塊標(biāo)簽1,計算空間機(jī)械臂坐標(biāo)系下空間目標(biāo)的二維坐標(biāo)(x,z),如式(1)、(2)所示。其中每個矩形塊對應(yīng)空間機(jī)械臂坐標(biāo)系,軸坐標(biāo)范圍為50,軸坐標(biāo)范圍為60。
式中%表示余數(shù),//表示整除。然后,操作者注視空間環(huán)境左視圖正投影中空間目標(biāo)位置,采用上述方法獲得此時空間目標(biāo)矩形塊標(biāo)簽2,計算空間機(jī)械臂坐標(biāo)系下空間目標(biāo)的二維坐標(biāo)(y,z),如式(3)、(4)所示。每個矩形塊邊長對應(yīng)空間機(jī)械臂坐標(biāo)系下的軸坐標(biāo)范圍為50。
通過計算可知,=獲得空間目標(biāo)的三維坐標(biāo)(x,y,z)。
空間機(jī)械臂模型各關(guān)節(jié)尺寸如圖10所示。
圖10 空間機(jī)械臂尺寸Fig.10 Size of the space manipulator
空間機(jī)械臂模型腰部長85 cm,在OpenGL空間坐標(biāo)系下長34;大臂長470.0 cm,在OpenGL空間坐標(biāo)系下長187;小臂長532.8 cm,在OpenGL空間坐標(biāo)系下長212,腰部與大臂的連接處長28 cm,在OpenGL空間坐標(biāo)系下長11。
空間機(jī)械臂3個關(guān)節(jié)角設(shè)置如圖11所示。表示腰部平面法向量與垂直方向的夾角,表示大臂軸線與水平方向夾角,表示小臂軸線與大臂軸線的夾角。
圖11 空間機(jī)械臂關(guān)節(jié)角Fig.11 Joint angles of the space manipulator
在空間機(jī)械臂坐標(biāo)系下,水平方向向右為軸正方向,垂直方向向上為軸正方向,垂直于電腦屏幕向內(nèi)為軸正方向,空間機(jī)械臂與航天器連接處為坐標(biāo)原點,計算空間機(jī)械臂模型小臂末端位置三維坐標(biāo)。該空間機(jī)械臂的運動學(xué)變換矩陣見式(5)。
通過上述運動學(xué)變換矩陣和空間目標(biāo)的三維坐標(biāo)(,,)反解求出3個關(guān)節(jié)角大小見式(6)。
虛擬環(huán)境下的空間機(jī)械臂人機(jī)交互仿真軟件系統(tǒng)由客戶端、服務(wù)器端、網(wǎng)絡(luò)通訊3部分構(gòu)成。設(shè)計的虛擬環(huán)境下空間機(jī)械臂人機(jī)交互仿真平臺客戶端如圖12所示。
圖12 虛擬環(huán)境下的空間機(jī)械臂人機(jī)交互仿真平臺客戶端Fig.12 The client of human-computer interaction simulation platform for the space manipulator in virtual environment
客戶端的交互界面主要包括了本地控制臺與網(wǎng)絡(luò)控制臺兩個部分,其中左上角部分為本地控制臺OpenGL繪制操作者要求的空間機(jī)械臂運動姿態(tài),即顯示出遠(yuǎn)端空間機(jī)械臂應(yīng)該達(dá)到的運動姿態(tài)。網(wǎng)絡(luò)控制臺顯示OpenGL繪制的虛擬遠(yuǎn)端空間環(huán)境即服務(wù)器端的空間環(huán)境與空間機(jī)械臂的運動姿態(tài),使操作者了解遠(yuǎn)地端的空間機(jī)械臂的狀態(tài)。
虛擬環(huán)境下空間機(jī)械臂人機(jī)交互仿真平臺服務(wù)器如圖13所示。
圖13 虛擬環(huán)境下的空間機(jī)械臂人機(jī)交互仿真平臺服務(wù)器Fig.13 The server of human-computer interaction simulation platform for the space manipulator in virtual environment
在網(wǎng)絡(luò)控制臺與服務(wù)器連接后,服務(wù)器端、網(wǎng)絡(luò)控制臺交互界面中機(jī)械臂位置、姿態(tài)與本地控制臺交互界面中空間機(jī)械臂保持一致,在機(jī)械臂運行狀態(tài)消息框中顯示系統(tǒng)時間與角度變化,在服務(wù)器端計算空間機(jī)械臂末端手爪與空間目標(biāo)之間的距離,傳輸?shù)娇蛻舳瞬@示。
以圖中實驗為例,空間機(jī)械臂處于初始位置時,空間機(jī)械臂末端手爪距空間目標(biāo)的距離為359.203,經(jīng)過注視點定位得到空間目標(biāo)三維坐標(biāo)并反解調(diào)節(jié)3個關(guān)節(jié)角位置后,空間機(jī)械臂末端手爪距空間目標(biāo)的距離為21.9101,大幅度縮小了空間機(jī)械臂末端手爪距空間目標(biāo)的距離。最后鼠標(biāo)點擊按鍵微調(diào)關(guān)節(jié)角大小。由于空間目標(biāo)的半徑為10,當(dāng)機(jī)械臂末端手爪坐標(biāo)與目標(biāo)中心距離小于設(shè)置值10時,抓取目標(biāo),并在客戶端機(jī)械臂運行狀態(tài)消息框中顯示“物體已經(jīng)抓取”。
在人機(jī)交互仿真平臺服務(wù)器界面中,空間機(jī)械臂抓取目標(biāo)如圖14所示。
圖14 空間機(jī)械臂抓取注視的空間目標(biāo)Fig.14 The space manipulator grabs the gazed space target
造成空間目標(biāo)定位誤差的主要因素有2點:①利用注視點估計方法得到的注視點標(biāo)簽轉(zhuǎn)換為坐標(biāo)時,計算的是矩形塊中心點坐標(biāo)。若空間目標(biāo)靠近矩形塊頂點處,則計算誤差較大,最大誤差達(dá)46.368。②反解關(guān)節(jié)角時,省略了3個關(guān)節(jié)角的小數(shù)部分。
本文提出了一種基于空間機(jī)械臂目標(biāo)估計的注視點估計方法。
1)建立基于電腦屏幕注視點的人眼圖像數(shù)據(jù)集,補(bǔ)充了電腦屏幕注視點估計數(shù)據(jù)集的空缺。對數(shù)據(jù)集中的圖像進(jìn)行預(yù)處理、提取圖像的均衡化HOG作為特征。
2)設(shè)計一種多流卷積神經(jīng)網(wǎng)絡(luò)識別144個注視點位置,注視點識別準(zhǔn)確率達(dá)到87.447%,其中,有88.89%的注視點識別率在80%以上。對本文方法與參考文獻(xiàn)中算法在數(shù)據(jù)集上驗證的識別準(zhǔn)確率進(jìn)行比較,實驗結(jié)果表明了該算法在解決注視點估計問題上識別準(zhǔn)確率高、運算速度快的優(yōu)點。
3)搭建了一個虛擬環(huán)境下的空間機(jī)械臂人機(jī)交互仿真平臺,利用本文提出的注視點估計方法,計算虛擬環(huán)境下的空間機(jī)械臂人機(jī)交互仿真平臺中空間目標(biāo)位置,進(jìn)行了仿真驗證。仿真實驗表明,本文注視點估計方法能正確定位空間目標(biāo)位置,反解計算空間機(jī)械臂關(guān)節(jié)角大小,大幅度縮小了空間機(jī)械臂末端手爪距空間目標(biāo)的距離。為完成空間機(jī)械臂抓取空間目標(biāo)提供可行性。
4)針對空間環(huán)境中空間目標(biāo)位置未知的問題,本文采用單目照相機(jī)拍攝操作者照片,基于外觀注視點估計及視覺轉(zhuǎn)換的方法定位空間目標(biāo),避免了眼動儀對航天員增加的負(fù)擔(dān),具有創(chuàng)新性與實用性。