張?jiān)品?,?超,呂 釗, 2*
(1.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601; 2.安徽大學(xué) 物質(zhì)科學(xué)與信息技術(shù)研究院,安徽 合肥 230601)
如今,人工智能步伐越來越快,萬物互聯(lián),人機(jī)交互技術(shù)越來越貼近人們的生活.人機(jī)交互是計(jì)算機(jī)領(lǐng)域中的一項(xiàng)重要技術(shù),種類多樣,常見的人機(jī)交互技術(shù)有基于鍵盤和鼠標(biāo)的輸入、基于聲音和面部表情以及手勢(shì)識(shí)別技術(shù)等.手勢(shì)因其具有自然、直觀以及靈活等優(yōu)點(diǎn),手勢(shì)識(shí)別在模式識(shí)別和人機(jī)交互領(lǐng)域逐漸成為熱點(diǎn)研究,其應(yīng)用場景廣泛,如智能家居領(lǐng)域、醫(yī)療領(lǐng)域、手語領(lǐng)域.
隨著車聯(lián)網(wǎng)技術(shù)的發(fā)展,人車交互需求必然進(jìn)一步增加[1].手勢(shì)是一種自然直觀易學(xué)習(xí)的交互方式,若將手勢(shì)識(shí)別應(yīng)用到車載系統(tǒng)中,將大幅減少駕駛員在行車過程中的分神行為,同時(shí)保證視線停留在行駛軌道上不發(fā)生大幅度移動(dòng),增加了行車的安全性和舒適性.
手勢(shì)識(shí)別主要分為接觸式和非接觸式兩類,接觸式手勢(shì)識(shí)別主要為通過可穿戴感應(yīng)手套傳感器獲取手指的彎曲程度和手部的活動(dòng)狀態(tài)來判斷用戶的手勢(shì)操作,這種技術(shù)需要佩戴專門的設(shè)備,成本較高,交互方式不自然,尤其在車載環(huán)境下更不適合,因此越來越多的手勢(shì)識(shí)別研究側(cè)重于非接觸式,即基于視覺方法[2],其獲取數(shù)據(jù)更加方便,普通攝像頭即可,成本較低.動(dòng)態(tài)手勢(shì)一般是由若干個(gè)連續(xù)手部動(dòng)作組成,需用視頻等方式的時(shí)序數(shù)據(jù)表示[3-4].文獻(xiàn)[5]提出了一種基于單個(gè)3維加速度計(jì)的手勢(shì)識(shí)別系統(tǒng),文獻(xiàn)[6]提出了用貝葉斯分類和動(dòng)態(tài)時(shí)間規(guī)整兩種方法識(shí)別不同受試者的4種手勢(shì),這些傳統(tǒng)方法具有一定的局限性[7],嚴(yán)重依賴手工特征提取并且需背景不變、光照不敏感等條件才能實(shí)現(xiàn)較好的性能,因此在車載環(huán)境多因素影響下并不適合.
Alex開啟了深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用[8],越來越多的研究人員通過深度學(xué)習(xí)方法研究問題[9-10].深度學(xué)習(xí)在很多領(lǐng)域取得了成功,解決了一些傳統(tǒng)方法的難點(diǎn),其中RNN(recurrent neural net)和LSTM(long short-term memory)是比較流行的建模方法,在很多方面取得了突破,如視頻分析[11]、3D動(dòng)作識(shí)別[12-13]等.車載環(huán)境有較多不可控因素影響著手勢(shì)識(shí)別,如背景不固定性、車輛行駛過程中路面的不平坦性、車速不穩(wěn)定性、光線強(qiáng)弱等.深度學(xué)習(xí)的上述方法存在改進(jìn)空間,論文提出了一種基于關(guān)鍵點(diǎn)的殘差全連接算法,對(duì)硬件需求較低,可以更好地應(yīng)對(duì)復(fù)雜背景下的視頻手勢(shì)識(shí)別.
處理動(dòng)態(tài)手勢(shì)識(shí)別的傳統(tǒng)流程是利用攝像頭獲取視頻手勢(shì),然后對(duì)視頻進(jìn)行分幀處理,獲取一個(gè)手勢(shì)圖像序列.由于圖像本身受到外界環(huán)境的各種影響,需要預(yù)處理所有的目標(biāo)圖像,然后選擇合適的分割方法進(jìn)行手勢(shì)分割,得到目標(biāo)的初始區(qū)域.選擇合適的跟蹤方法對(duì)目標(biāo)進(jìn)行跟蹤,選取適當(dāng)?shù)慕7椒▽?duì)動(dòng)態(tài)手勢(shì)進(jìn)行模型訓(xùn)練和建立,再對(duì)新的動(dòng)態(tài)手勢(shì)進(jìn)行分析并與經(jīng)過訓(xùn)練得到的手勢(shì)模型進(jìn)行比對(duì),從而得到最合適、最準(zhǔn)確的識(shí)別結(jié)果.這類方法適用于背景信息干凈且攝像頭穩(wěn)定的場景.然而車載場景下背景復(fù)雜及車輛行駛過程中有顛簸現(xiàn)象,導(dǎo)致采集的數(shù)據(jù)分幀后出現(xiàn)一些模糊質(zhì)量的幀,幀中有效手勢(shì)信息所占比重小,影響模型的訓(xùn)練和識(shí)別.鑒于此,論文在動(dòng)態(tài)手勢(shì)識(shí)別過程中采取的策略是先預(yù)處理原始視頻、分幀分段,提取視頻的關(guān)鍵幀,得到了數(shù)量相對(duì)少很多的圖像序列,然后利用這些關(guān)鍵幀中的手勢(shì)信息(關(guān)鍵點(diǎn)坐標(biāo)),進(jìn)行模型訓(xùn)練與識(shí)別,去除大量干擾信息的同時(shí)降低了算法復(fù)雜度.其流程如圖1所示.
圖1 基于關(guān)鍵點(diǎn)的殘差全連接網(wǎng)絡(luò)動(dòng)態(tài)手勢(shì)識(shí)別的整體框架
圖像處理中,關(guān)鍵點(diǎn)的坐標(biāo)信息本質(zhì)上也是一種特征,它是對(duì)一個(gè)固定區(qū)域或者空間物理關(guān)系的抽象描述,描述的是一定鄰域范圍內(nèi)的組合或者前后幀之間的關(guān)系.關(guān)鍵點(diǎn)代表的不僅僅是一個(gè)點(diǎn)的信息或者一個(gè)位置,同時(shí)具有相鄰幀的關(guān)聯(lián).OpenPose是基于深度學(xué)習(xí)的姿勢(shì)確定開源框架,手部模型輸出對(duì)應(yīng)的關(guān)鍵點(diǎn)信息,關(guān)鍵點(diǎn)檢測(cè)器d(.)將預(yù)處理后的輸入圖像塊I∈w*h*3映射到p個(gè)關(guān)鍵點(diǎn)的位置,xp∈2,每一個(gè)都有相應(yīng)的置信度cp[14]
(1)
(2)
train(T0)→d0.
(3)
論文關(guān)鍵點(diǎn)的提取基于手部模型,手部模型共輸出22個(gè)關(guān)鍵點(diǎn),其中21個(gè)點(diǎn)是手部信息,第22個(gè)點(diǎn)表示背景信息.將手部模型的網(wǎng)絡(luò)輸入圖片分辨率設(shè)定為640×480,閾值設(shè)為0.2.其主要步驟為用函數(shù)readNetFromCaffe加載模型權(quán)重、讀取數(shù)據(jù)(視頻/圖像)、blobFromIamge將圖像轉(zhuǎn)為blob、forward函數(shù)實(shí)現(xiàn)網(wǎng)絡(luò)推斷、通過網(wǎng)絡(luò)計(jì)算得到22個(gè)矩陣,每一個(gè)矩陣代表某個(gè)特定關(guān)鍵點(diǎn)最可能出現(xiàn)在圖像哪個(gè)位置的熱圖,調(diào)用minMaxLoc函數(shù)找到精確位置,將得到的坐標(biāo)信息和閾值進(jìn)行比較確定是否作為關(guān)鍵點(diǎn).
(4)
(5)
(6)
由于網(wǎng)絡(luò)結(jié)構(gòu)的層次相對(duì)深時(shí)往往出現(xiàn)梯度彌散或者梯度爆炸問題,且隨著網(wǎng)絡(luò)結(jié)構(gòu)層次的增加,模型有可能出現(xiàn)退化現(xiàn)象,因此論文選擇在全連接網(wǎng)絡(luò)中加入殘差網(wǎng)絡(luò)的思想即殘差全連接網(wǎng)絡(luò),網(wǎng)絡(luò)架構(gòu)如圖2所示.
核心網(wǎng)絡(luò)結(jié)構(gòu)由3個(gè)基本塊構(gòu)成,基本塊的參數(shù)為(輸入層、隱藏層、輸出層),每一個(gè)基本塊由3層殘差全連接網(wǎng)絡(luò)構(gòu)成,輸入的數(shù)據(jù)為處理后的關(guān)鍵點(diǎn)坐標(biāo)信息,6幀的坐標(biāo)信息維度為44×6.第一個(gè)基本塊的參數(shù)為(264, 8 000, 3 500),第一個(gè)基本塊的輸出作為第二個(gè)基本塊的輸入;第二個(gè)基本塊的參數(shù)維度為(3 500, 5 000, 1 024),第二個(gè)基本塊的輸出作為第三個(gè)基本塊的輸入;第三個(gè)基本塊的參數(shù)維度為(1 024, 3 000, 6).然后通過softmax進(jìn)行分類得出識(shí)別結(jié)果.
圖2 殘差全連接網(wǎng)絡(luò)架構(gòu)
該章所有實(shí)驗(yàn)均在Windows 7、Intel Core ML(TM)i5-7500 CPU@3.40 GHz、16 GB運(yùn)行內(nèi)存、64位操作系統(tǒng)的計(jì)算機(jī)環(huán)境下進(jìn)行,分析數(shù)據(jù)所用的軟件為PyCharm 2018.1.1.
公開可用的手勢(shì)數(shù)據(jù)集對(duì)研究人員非常重要,尤其是車載環(huán)境的手勢(shì)數(shù)據(jù)更是很少公開,因此論文使用到的數(shù)據(jù)集均為實(shí)際車載環(huán)境采集所得.受試者為實(shí)驗(yàn)室人員,采集設(shè)備為USB攝像頭,幀率30 fps,受試人數(shù)為22,使用4輛車(東風(fēng)雪鐵龍世嘉、別克昂科拉、別克昂科威、斯柯達(dá))共采集3 120個(gè)動(dòng)態(tài)手勢(shì)視頻數(shù)據(jù),訓(xùn)練時(shí)將所用圖片尺寸統(tǒng)一調(diào)整為640×480(文中若無特殊說明,則每次訓(xùn)練均調(diào)整為這個(gè)尺寸),手勢(shì)分別為“上移”“下移”“左移”“右移”“張開”“閉合”,數(shù)據(jù)集的80%作為訓(xùn)練集,即訓(xùn)練集數(shù)量為2 496,數(shù)據(jù)集的20%作為測(cè)試集,即測(cè)試集數(shù)量為624.6種基本手勢(shì)定義如圖3所示.
圖3 6種基本視頻手勢(shì)
激活函數(shù)和學(xué)習(xí)率是深度學(xué)習(xí)網(wǎng)絡(luò)中的重要參數(shù),激活函數(shù)為神經(jīng)元引入了非線性因素,使得神經(jīng)網(wǎng)絡(luò)可以逼近任何非線性函數(shù),可應(yīng)用于非線性模型.學(xué)習(xí)率決定著目標(biāo)函數(shù)能夠收斂到局部最小值以及何時(shí)可以收斂到最小值,學(xué)習(xí)率太小,則權(quán)值更新較慢且易過擬合;學(xué)習(xí)率太大,則可能錯(cuò)過最優(yōu)解,損失函數(shù)值易振蕩.論文使用相同的數(shù)據(jù)并保證其他條件相同,對(duì)比了常用的prelu,relu,tanh,sigmoid激活函數(shù)與學(xué)習(xí)率組合的性能,其實(shí)驗(yàn)結(jié)果如圖4所示.
圖4 不同激活函數(shù)與學(xué)習(xí)率的識(shí)別結(jié)果
圖4橫坐標(biāo)表示不同的激活函數(shù),縱坐標(biāo)表示平均識(shí)別率(%),右方圖例表示學(xué)習(xí)率,從上到下學(xué)習(xí)率依次為1e-3,1e-4,1e-5,1e-6.由實(shí)驗(yàn)結(jié)果可以看出,激活函數(shù)prelu和學(xué)習(xí)率1e-5的組合性能最好,識(shí)別率為96.72%. prelu[17]是relu的進(jìn)一步優(yōu)化,彌補(bǔ)了輸入數(shù)據(jù)為負(fù)值神經(jīng)元死亡的弊端,表達(dá)式為
(7)
其中:xi代表第i個(gè)通道的輸入;αi是控制負(fù)數(shù)部分的斜率系數(shù).在負(fù)數(shù)區(qū)域內(nèi)加入一個(gè)斜率,可以有效避免神經(jīng)元死亡同時(shí)加快損失函數(shù)的收斂速度,其收斂速度比relu更快且輸出均值更接近于0.學(xué)習(xí)率為1e-5時(shí)的平均識(shí)別率最高為96.72%,比relu提高了2.21%,且prelu幾乎沒有額外的計(jì)算成本和過擬合風(fēng)險(xiǎn).α是自適應(yīng)可學(xué)習(xí)的參數(shù)[17],初始化為0.5,α更新為
(8)
其中:xi為第i個(gè)通道的輸入,?i為控制負(fù)數(shù)部分的斜率系數(shù),ε為目標(biāo)函數(shù).綜合損失函數(shù)收斂速度、準(zhǔn)確率等方面來確定反向傳播算法的學(xué)習(xí)率.論文算法選擇prelu作為激活函數(shù)、1e-5作為學(xué)習(xí)率.
動(dòng)態(tài)手勢(shì)的一系列圖像幀在時(shí)間上連續(xù)且內(nèi)容上具有非常高的相關(guān)度,因此存在較多具有重復(fù)信息的幀,識(shí)別過程中的這些幀可以選擇性地舍棄,選擇其中具有代表性的幀即關(guān)鍵幀.選取關(guān)鍵幀的意義在于不失視頻關(guān)鍵信息的同時(shí)使得視頻中手勢(shì)幀數(shù)大大減少,便于進(jìn)行數(shù)據(jù)信息處理,復(fù)雜度大大降低,因此,視頻中關(guān)鍵幀的提取過程變得很有必要,也可以當(dāng)作動(dòng)態(tài)手勢(shì)識(shí)別的一個(gè)優(yōu)化過程.為了確定最優(yōu)關(guān)鍵幀個(gè)數(shù),論文分別在車輛行駛與靜止兩種狀態(tài)下進(jìn)行了實(shí)驗(yàn),分別在兩種數(shù)據(jù)集上提取了不同的關(guān)鍵幀數(shù),即3~8幀,其實(shí)驗(yàn)結(jié)果如圖5所示.
圖5 不同關(guān)鍵幀數(shù)量識(shí)別率
車輛行駛過程中數(shù)據(jù)提取關(guān)鍵幀個(gè)數(shù)為3~5幀的識(shí)別率分別為95.51%,95.60%,96.64%.當(dāng)關(guān)鍵幀數(shù)上升為6幀時(shí),識(shí)別率為96.73%.相似地,在車輛靜止?fàn)顟B(tài)下關(guān)鍵幀個(gè)數(shù)為3~5幀時(shí)識(shí)別率分別為95.70%,96.65%,96.68%,低于其6幀時(shí)的識(shí)別率96.82%.其可能的原因是:對(duì)于整個(gè)視頻而言,提取3~5幀時(shí)不能包含代表視頻手勢(shì)的所有信息,有些關(guān)鍵信息會(huì)遺漏丟失少量信息,從而導(dǎo)致部分手勢(shì)分類錯(cuò)誤.然而當(dāng)繼續(xù)增加關(guān)鍵幀個(gè)數(shù)至7,8幀時(shí),其識(shí)別率在行駛與靜止?fàn)顟B(tài)下均出現(xiàn)了下降趨勢(shì).車輛行駛過程數(shù)據(jù)關(guān)鍵幀個(gè)數(shù)為7,8幀的識(shí)別率分別為96.71%,96.66%,比關(guān)鍵幀個(gè)數(shù)為6幀時(shí)的識(shí)別率低了0.03%,0.08%;車輛??窟^程數(shù)據(jù)對(duì)應(yīng)的識(shí)別率分別為96.74%,96.70%,比關(guān)鍵幀個(gè)數(shù)為6幀時(shí)的識(shí)別率低了0.08%,0.12%.原因可能是更多的關(guān)鍵幀包含了部分冗余信息,這些冗余信息將會(huì)導(dǎo)致識(shí)別性能的下降,因此選擇6幀作為關(guān)鍵幀的數(shù)量.
為了驗(yàn)證該算法的魯棒性,采集數(shù)據(jù)過程用到了4輛車,分別為車輛1(東風(fēng)雪鐵龍世嘉)、車輛2(別克昂科拉)、車輛3(別克昂科威)、車輛4(斯柯達(dá)),在不同光照與車輛是否行使條件下作了對(duì)比實(shí)驗(yàn),3種光照強(qiáng)度場景如圖6所示,實(shí)驗(yàn)結(jié)果如表1所示.
圖6 3種不同光照強(qiáng)度場景
表1 不同光照下車輛行駛與車輛靜止時(shí)的識(shí)別率 %
行駛過程中的車輛1~4在正常光照條件下的平均識(shí)別率分別為96.75%,96.73%,96.72%,96.73%,略低于車輛靜止時(shí)正常光照條件下的識(shí)別率96.83%,96.84%,96.81%,96.82%;強(qiáng)光條件下,在行駛的4種車輛下的識(shí)別率均略低于靜止的4種車輛,分別相差0.20%,0.20%,0.28%,0.13%;弱光條件下,靜止時(shí)4種車輛手勢(shì)識(shí)別率略高于車輛行駛條件下的手勢(shì)識(shí)別率,高出的識(shí)別率分別為0.17%,0.16%,0.16%,0.16%,原因可能是車輛行駛過程的車速變換或道路顛簸造成采集過程中數(shù)據(jù)波動(dòng).由表1可知,車輛行駛與靜止環(huán)境下的3種光照條件所得視頻手勢(shì)識(shí)別率中,車輛3均略低于其他3輛車,原因可能是車輛3空間較大且車內(nèi)裝飾風(fēng)格與膚色相似,從而造成手勢(shì)關(guān)鍵點(diǎn)定位不夠精準(zhǔn),導(dǎo)致識(shí)別率略微低.由表1中可知,不同光照條件下車輛靜止的手勢(shì)平均識(shí)別率為96.65%,略高于車輛行駛過程中的平均識(shí)別率96.50%,驗(yàn)證了論文算法的魯棒性.
為了驗(yàn)證所提模型的有效性,論文與以下模型進(jìn)行了對(duì)比實(shí)驗(yàn):C3D模型是采用3D卷積和3D pooling構(gòu)建的網(wǎng)絡(luò)[18],將時(shí)間維度和空間維度一起卷積,使用更高維度的卷積核與更高維度的池化算子構(gòu)建卷積網(wǎng)絡(luò);CNN是一種前饋型神經(jīng)網(wǎng)絡(luò),具有自學(xué)習(xí)能力;長短時(shí)記憶網(wǎng)絡(luò)(LSTM)是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò)[19], LSTM引入的記憶單元可以有效表達(dá)幀的先后順序,能夠?qū)W習(xí)到長期依賴關(guān)系[20],在處理長序列時(shí)具有一定的優(yōu)勢(shì);雙流網(wǎng)絡(luò)主要包含空間和時(shí)間兩部分[21],利用兩個(gè)獨(dú)立的CNN網(wǎng)絡(luò)進(jìn)行時(shí)間和空間融合.實(shí)驗(yàn)結(jié)果如圖7所示,橫軸表示模型,縱軸為手勢(shì)平均識(shí)別率(%).
圖7 不同光照下模型對(duì)比結(jié)果
由實(shí)驗(yàn)結(jié)果可知,正常光照條件下的C3D模型識(shí)別率為86.03%,高于強(qiáng)光條件下的識(shí)別率80.27%及弱光條件下的識(shí)別率83.50%.對(duì)比實(shí)驗(yàn)中的CNN架構(gòu)為4層卷積、4層池化以及3層全連接,每一幀提取特征后進(jìn)行池化,對(duì)于手勢(shì)識(shí)別而言忽略了時(shí)間信息,利用視頻的全部幀,算法復(fù)雜度較高,所耗時(shí)間太久.質(zhì)量差的幀或者幀中與分類主題無關(guān)的信息時(shí)將對(duì)識(shí)別造成影響,CNN模型在正常光照強(qiáng)度下的手勢(shì)識(shí)別率為90.35%,比強(qiáng)光條件下的識(shí)別率高8.05%,比弱光條件下的識(shí)別率高4.85%.
LSTM正常光照強(qiáng)度下的平均識(shí)別率較C3D和CNN分別提升了5.55%,1.23%,但對(duì)于較多量級(jí)或更長序列則表現(xiàn)不好,此外該網(wǎng)絡(luò)存在對(duì)硬件需求較高、計(jì)算費(fèi)時(shí)、需要大量資源等弊端.LSTM模型在強(qiáng)光下的手勢(shì)識(shí)別率比正常光照強(qiáng)度下的識(shí)別率低8.27%,其正常光照強(qiáng)度下識(shí)別率為91.58%及弱光條件下的86.32%.雙流網(wǎng)絡(luò)模型空間網(wǎng)絡(luò)通道的輸入通常為單幀圖像或者多幀堆疊,主要捕捉視頻幀中的重要物體特征,通過光流法形成時(shí)間的差分,從而達(dá)到時(shí)間和空間互補(bǔ)的目的.時(shí)間網(wǎng)絡(luò)中光流的提取需要消耗大量的精力和時(shí)間,并且光流所包含的未必就是最優(yōu)的運(yùn)動(dòng)特征,同時(shí)雙流架構(gòu)不能在視頻中利用目標(biāo)移動(dòng)位置的信息.正常光照下手勢(shì)識(shí)別率為92.25%,比LSTM提升了0.67%,高于強(qiáng)光下的85.50%及弱光下的87.31%.
論文的模型在3種光照強(qiáng)度下平均識(shí)別率均最高,分別為強(qiáng)光數(shù)據(jù)集下的95.96%、正常光照數(shù)據(jù)集下的96.72%及弱光條件下的96.63%,并且該模型在不同光照強(qiáng)度下識(shí)別率波動(dòng)最低,此外,以上4種對(duì)比模型在強(qiáng)光和弱光條件下采集的數(shù)據(jù)集相對(duì)于正常光照條件下的數(shù)據(jù)集識(shí)別率波動(dòng)較大,原因可能是這些模型采用了視頻手勢(shì)的所有幀,而在強(qiáng)光和弱光條件下采集數(shù)據(jù)時(shí)存在整個(gè)手勢(shì)采集過程中均有強(qiáng)光源照射攝像頭或者無光源情況,這樣得到的數(shù)據(jù)由于干擾信息大加之背景復(fù)雜,從而導(dǎo)致手勢(shì)有效信息所占比重較小.而論文網(wǎng)絡(luò)模型在訓(xùn)練數(shù)據(jù)之前進(jìn)行了優(yōu)化,摒棄了冗余和質(zhì)量較差的幀,同時(shí)利用代表數(shù)據(jù)的最大有效信息幀,降低算法復(fù)雜度的同時(shí)又提高了識(shí)別速度,實(shí)驗(yàn)結(jié)果再次驗(yàn)證了論文算法的有效性.
為了進(jìn)一步評(píng)估論文算法的性能,給出了6分類視頻手勢(shì)的混淆矩陣圖,混淆矩陣圖更直觀地顯示了相互類別的誤判率[22],實(shí)驗(yàn)結(jié)果如圖8所示.
圖8 6分類手勢(shì)混淆矩陣
圖8橫坐標(biāo)為預(yù)測(cè)類別,縱坐標(biāo)為真實(shí)類別,矩陣中的數(shù)值單位為%,其對(duì)角線上的概率為分類正確的概率.由混淆矩陣圖知,上移和下移手勢(shì)分類正確率分別為94.664%,95.745%,被誤判的概率分別為3.442%,2.525%,原因可能是對(duì)上移和下移手勢(shì)定義存在相似之處,同為橫向手掌移動(dòng),左移和右移手勢(shì)相互誤判概率分別為2.809%,1.980%,原因可能是手勢(shì)定義具有一定的相似性,均為縱向手掌,在采集手勢(shì)過程中不同手勢(shì)速度可能導(dǎo)致結(jié)果誤判.由于張開和閉合手勢(shì)部分幀為完全伸展的縱向手勢(shì),因此會(huì)被誤判為張開和閉合.造成張開和閉合手勢(shì)分類平均正確率為94.877%,95.057%,二者被誤判的概率為3.795%,3.902%,造成誤判的主要原因可能是采集手勢(shì)過程中完成有效手勢(shì)時(shí)間有差別.6分類視頻手勢(shì)的平均分類正確率約為96%,再次驗(yàn)證了該算法的有效性.
基于視頻的動(dòng)態(tài)手勢(shì)識(shí)別近年來受到了廣泛關(guān)注,現(xiàn)有研究方法仍然存在局限性,很難達(dá)到令人滿意的性能,尤其在車載動(dòng)態(tài)場景下識(shí)別手勢(shì)更為困難.論文提出了一種基于關(guān)鍵點(diǎn)坐標(biāo)信息的殘差全連接網(wǎng)絡(luò)識(shí)別車載手勢(shì)算法,網(wǎng)絡(luò)核心架構(gòu)為3個(gè)殘差全連接基本塊,該方法可以高效地識(shí)別出車載場境下的6種動(dòng)態(tài)手勢(shì).通過對(duì)比實(shí)驗(yàn),結(jié)果表明該模型在實(shí)際車載環(huán)境所采集的數(shù)據(jù)集上綜合性能較優(yōu),較好地應(yīng)對(duì)了光照條件和車載動(dòng)態(tài)場景.但論文的車載手勢(shì)種類還不夠豐富,不同速度下的數(shù)據(jù)對(duì)比實(shí)驗(yàn)相對(duì)較少.作者下一步工作將增加不同速度下的數(shù)據(jù)對(duì)比實(shí)驗(yàn),增加多種手勢(shì)以及手勢(shì)的復(fù)雜度,同時(shí)加入更加復(fù)雜的車載場景進(jìn)行研究.