国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的視覺手勢估計(jì)綜述

2023-02-28 16:10:46秦浩東
關(guān)鍵詞:關(guān)節(jié)點(diǎn)手勢手部

武 勝,秦浩東

(中國電子科技南湖研究院,浙江 嘉興 314001)

0 引 言

三維手勢姿態(tài)估計(jì)是從采集的圖像或者視頻等對象中預(yù)測出手部關(guān)鍵點(diǎn)的位置[1],再根據(jù)手關(guān)節(jié)點(diǎn)的位置預(yù)測出手掌的姿態(tài),主要包含了目標(biāo)識(shí)別、分割、回歸檢測等。 傳統(tǒng)手勢估計(jì)受光線環(huán)境、拍攝角度、遮擋等影響,其準(zhǔn)確性與實(shí)時(shí)性受到限制。 隨著卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等深度學(xué)習(xí)網(wǎng)絡(luò)模型[2]的發(fā)展,以及GPU 算力的提升,深度學(xué)習(xí)在圖像分割、圖像識(shí)別、圖像分類方面已經(jīng)取得了巨大進(jìn)步,手勢估計(jì)使用深度卷積神經(jīng)網(wǎng)絡(luò),預(yù)測得將更加準(zhǔn)確。 目前,基于深度學(xué)習(xí)的研究方法基本可以劃分為3 類,分別是:基于點(diǎn)云的深度神經(jīng)網(wǎng)絡(luò)、基于體素的深度神經(jīng)網(wǎng)絡(luò)以及基于多視點(diǎn)的深度神經(jīng)網(wǎng)絡(luò)。

另外,隨著計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺、人工智能等多學(xué)科的快速發(fā)展,蘋果、谷歌、華為、微軟等也都推出了相關(guān)的AR/VR 引擎,AR/VR 相關(guān)成果已廣泛應(yīng)用于教育、醫(yī)療、軍事等領(lǐng)域。 虛擬與現(xiàn)實(shí)的交互是增強(qiáng)現(xiàn)實(shí)中不可或缺的一部分,手勢交互[3]仍然是AR/VR 最重要的交互方式,可以增強(qiáng)用戶的沉浸感,利用手勢可以實(shí)現(xiàn)遠(yuǎn)程操作、手語識(shí)別等應(yīng)用,這也推動(dòng)著視覺手勢估計(jì)的進(jìn)一步的發(fā)展。

本文主要對三維手勢姿態(tài)估計(jì)進(jìn)行梳理與分析,闡述基于深度學(xué)習(xí)的手勢估計(jì)方法,整理相關(guān)數(shù)據(jù)集與評價(jià)指標(biāo),并對當(dāng)前所面臨的問題和未來發(fā)展趨勢進(jìn)行了闡述。

1 手勢估計(jì)相關(guān)工作

1.1 手勢估計(jì)方案分類

手勢估計(jì)可分為3 類:基于可穿戴設(shè)備的手勢估計(jì)、基于深度傳感器的手勢追蹤估計(jì)、基于視覺的手勢估計(jì)。

(1)可穿戴設(shè)備的數(shù)據(jù)手套[4]通過內(nèi)置傳感器采集手部的運(yùn)動(dòng)數(shù)據(jù),主要包括慣性、光纖以及光學(xué)三種傳感器技術(shù)數(shù)據(jù)手套。 基于慣性的數(shù)據(jù)手套雖然價(jià)格便宜,但是其漂移問題較為嚴(yán)重。 基于光學(xué)的數(shù)據(jù)手套通過多個(gè)紅外等攝像頭采集手部數(shù)據(jù),一般具有價(jià)格昂貴、遮擋等一系列問題。 基于光纖的數(shù)據(jù)手套的數(shù)據(jù)精度以及穩(wěn)定性雖然較好,但是其價(jià)格也十分昂貴,容易損壞。 通常長時(shí)間穿戴數(shù)據(jù)手套存在手部會(huì)發(fā)汗,影響操作的沉浸感等問題,因此,數(shù)據(jù)手套沒有得到大規(guī)模的應(yīng)用。

(2)基于深度傳感器的手勢追蹤估計(jì)[5],如:Leap Motion 和Kinect,在內(nèi)部已經(jīng)封裝好手部重要信息識(shí)別算法,使用比較簡單方便,但是其采集識(shí)別準(zhǔn)確性取決于攝像機(jī)方向,這會(huì)限制用戶的運(yùn)動(dòng),而且在背景復(fù)雜、遮擋以及光線變化較大時(shí),識(shí)別率較低。

(3)基于圖像視覺的手勢估計(jì)[6-7]可以解決價(jià)格昂貴、穿戴不方便等問題,但是仍然深受遮擋、光線等問題困擾,而就目前圖像學(xué)、人工智能等學(xué)科的快速發(fā)展,基于視覺的手勢識(shí)別仍然是研究的主流方向。 基于視覺的研究方法可以分為基于雙目的方法和基于RGB 的方法以及基于RGB-D 的方法。帶有雙攝像頭以及深度傳感器手機(jī)的普及,給視覺手勢提供了條件。 基于RGB-D 的深度圖與彩色圖融合的方法有著其它方法所不具備的優(yōu)勢:

①使用單一的深度圖在超過一定距離后會(huì)出現(xiàn)精度下降情況,而彩色圖相機(jī)具有變焦功能,可以容易獲取較遠(yuǎn)距離的物體。

②三維信息轉(zhuǎn)換到二維信息過程中必將丟失一些數(shù)據(jù),丟失的數(shù)據(jù)可以經(jīng)過彩色圖予以找回。

③單一的彩色圖在計(jì)算深度數(shù)據(jù)上精度會(huì)出現(xiàn)誤差,通過深度圖可進(jìn)行補(bǔ)償計(jì)算。 手勢姿態(tài)估計(jì)方案如圖1 所示。

圖1 手勢姿態(tài)估計(jì)Fig. 1 Gesture pose estimation

1.2 手勢運(yùn)動(dòng)學(xué)分析

手部由手指、手掌以及手腕共有27 個(gè)互相連接的骨骼組成,手勢估計(jì)最核心的問題是對手腕以及手指指骨的關(guān)節(jié)、連同指尖處進(jìn)行識(shí)別、分割、跟蹤以及估計(jì),人手骨骼分布如圖2 所示。

圖2 人手骨骼分布Fig. 2 Distribution of human hand bones

人手是一個(gè)具有26 自由度的執(zhí)行機(jī)構(gòu),具體包括指骨關(guān)節(jié)1 個(gè)彎曲自由度;掌骨關(guān)節(jié)1 個(gè)自由度彎曲,1 個(gè)自由度繞轉(zhuǎn),故2 個(gè)自由度;腕骨為6 自由度,因此共有1?2?5+2?5+6 =26 個(gè)自由度,手掌26 自由度模型如圖3 所示。

圖3 手掌26 自由度模型Fig. 3 26 degree of freedom model of the palm

根據(jù)人手指骨骼關(guān)節(jié)、手掌模型以及運(yùn)動(dòng)分析可以得出手部參與交互的主要為手指關(guān)節(jié)、掌指關(guān)節(jié)以及手腕[8]。 因此,目前主流的手掌模型關(guān)節(jié)編碼有14、16、21 三種,大多數(shù)論文以及數(shù)據(jù)集都是采用21 關(guān)節(jié)點(diǎn)模型,通過估計(jì)關(guān)節(jié)點(diǎn)在三維空間的坐標(biāo),可預(yù)測出手姿態(tài)。 手掌不同自由度模型如圖4所示。

圖4 手掌不同自由度模型Fig. 4 Models of the palm with different degrees of freedom

1.3 識(shí)別流程

手勢估計(jì)包括人手識(shí)別、分割、跟蹤、估計(jì)四步。其中,人手識(shí)別是為了減少背景噪聲對手勢估計(jì)的影響以及降低后續(xù)處理的計(jì)算量,識(shí)別出手部的區(qū)域。 人手分割是將手部數(shù)據(jù)進(jìn)行像素級別的提取,獲取手部精準(zhǔn)的信息。 手部跟蹤是通過連續(xù)幀預(yù)測下一步的手部位置,減少手部定位的耗時(shí)。 手勢估計(jì)是從圖像中回歸出手部完整的姿態(tài),最終獲取關(guān)節(jié)點(diǎn)三維坐標(biāo)信息。

2 深度學(xué)習(xí)的手勢估計(jì)方法

基于視覺的三維手勢估計(jì)自首次引入深度學(xué)習(xí)以后,深度學(xué)習(xí)已經(jīng)成為視覺手勢的一個(gè)主流研究領(lǐng)域,越來越多的科研學(xué)者通過訓(xùn)練大量的樣本數(shù)據(jù),強(qiáng)化了模型的性能,獲得了更加精準(zhǔn)的特征,提高了魯棒性以及泛化能力。 基于深度學(xué)習(xí)的視覺估計(jì)可分為基于人工的神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)等[9-10]。 根據(jù)Erol 等學(xué)者[11]的綜述結(jié)論,三維手勢跟蹤算法可以分為判別法、生成法[12],而為了利用二者的優(yōu)點(diǎn),有學(xué)者提出了混合法。

2.1 判別法

判別法又稱為數(shù)據(jù)驅(qū)動(dòng),對數(shù)據(jù)特別依賴,需要多個(gè)高質(zhì)量的數(shù)據(jù)集,可學(xué)習(xí)從圖像特征空間到手勢特征空間的映射關(guān)系,進(jìn)而預(yù)測出手勢。 判別法根據(jù)手勢跟蹤的檢測與估計(jì)進(jìn)行區(qū)分,又可以分為基于回歸的方法與基于檢測的方法。 判別法由于可以采用離線的訓(xùn)練,無需大量手掌模型,因此,更適合實(shí)時(shí)應(yīng)用。

2014年,Tompson 等學(xué)者[13]首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到手勢估計(jì)中,利用卷積神經(jīng)網(wǎng)絡(luò)來提取手部圖像特征信息,并為手部關(guān)鍵點(diǎn)生成2D 熱圖,然后利用逆運(yùn)動(dòng)學(xué)原理由熱圖提取特征,再根據(jù)目標(biāo)函數(shù)最小化來估計(jì)3D 手部姿態(tài)。 這也啟發(fā)了很多人使用卷積神經(jīng)網(wǎng)絡(luò)以及熱圖進(jìn)行手部姿態(tài)估計(jì)。Sinha 等學(xué)者[14]利用卷積神經(jīng)網(wǎng)絡(luò)獲取圖像特征的方法,再結(jié)合深度數(shù)據(jù)進(jìn)行最近鄰特征匹配補(bǔ)全手勢估計(jì)的參數(shù)。 由于手勢估計(jì)的復(fù)雜性,從圖像中估計(jì)的關(guān)節(jié)與真實(shí)關(guān)節(jié)可能出現(xiàn)偏差。

針對上述情況,Ge 等學(xué)者[15]先提出了一種新的基于深度圖的多視角獲取手部關(guān)節(jié)點(diǎn)后進(jìn)行回歸融合,估算出手勢坐標(biāo)。 此后Ge 等學(xué)者[16]根據(jù)Qi等學(xué)者[17]的啟發(fā)將PointNet++應(yīng)用解決三維手勢估計(jì)問題,將手勢深度圖3D 點(diǎn)云進(jìn)行采樣和歸一化輸入到PointNet 網(wǎng)絡(luò)中,進(jìn)行點(diǎn)云特征提取,同時(shí)該方法還設(shè)計(jì)了一個(gè)指尖矯正網(wǎng)絡(luò)進(jìn)行指尖位置的優(yōu)化。 隨后,Ge 等學(xué)者[18]又進(jìn)一步改變了網(wǎng)絡(luò)結(jié)構(gòu),采用編解碼器兩層架構(gòu)代替分層架構(gòu)的采樣,對3D 關(guān)節(jié)位置進(jìn)行預(yù)測,提高手勢估計(jì)的精度。 在此之前,大多數(shù)手部估計(jì)方法止步于三維手部關(guān)鍵點(diǎn)的回歸,并不能精準(zhǔn)地反映手部形態(tài),而AR/VR 領(lǐng)域需要更加逼真的手部模型。 同時(shí),圖神經(jīng)網(wǎng)絡(luò)能夠解決復(fù)雜的結(jié)構(gòu)關(guān)系,學(xué)者將圖神經(jīng)網(wǎng)絡(luò)引入手勢中。 因此,Ge 等學(xué)者[19]提出一個(gè)全新的端到端訓(xùn)練的圖卷積神經(jīng)網(wǎng)絡(luò),將2D 熱圖等潛在特征變量通過該網(wǎng)絡(luò)生成了密級手部網(wǎng)格,根據(jù)網(wǎng)格坐標(biāo)最終得到三維關(guān)節(jié)坐標(biāo),原理如圖5 所示。 Fang 等學(xué)者[20]也提出了基于圖卷積網(wǎng)絡(luò)的聯(lián)合圖推理來估算關(guān)節(jié)的復(fù)雜關(guān)系,同時(shí)通過增強(qiáng)像素的能力,估算出每個(gè)像素的偏移量,再對所有的像素進(jìn)行加權(quán)計(jì)算,進(jìn)而估計(jì)出手部信息。

圖5 Ge 等學(xué)者[19]提出的網(wǎng)絡(luò)原理圖Fig. 5 Schematic diagram of the network proposed by Ge et al[19]

2.2 混合法

生成法又稱為基于模型的方法,主要是基于固定的手勢模型進(jìn)行姿態(tài)估計(jì)識(shí)別,需要根據(jù)運(yùn)動(dòng)學(xué)原理事先創(chuàng)建滿足手部形態(tài)學(xué)約束的模型,再進(jìn)行匹配。 主要流程如下:首先需要根據(jù)輸入圖像匹配適合的手部模型,然后進(jìn)行模型參數(shù)初始化,并找到一個(gè)實(shí)際模型與輸入模型之間的損失函數(shù),通過不斷迭代最小化損失函數(shù)得到最優(yōu)手勢模型。 生成法的主要優(yōu)化方法體現(xiàn)在目標(biāo)函數(shù)最小化方法以及使用先驗(yàn)手勢來匹配數(shù)據(jù)的方法,在本文不進(jìn)行詳細(xì)介紹。 為了最優(yōu)化地使用生成法與判別法,有學(xué)者提出了混合法,可以使用判別法對姿態(tài)進(jìn)行先驗(yàn),引導(dǎo)對生成模型的優(yōu)化,然后使用生成法細(xì)化手型與位置,降低跟蹤的誤差,提高復(fù)雜場景環(huán)境下跟蹤估計(jì)的魯棒性。

Ye 等學(xué)者[21]提出基于層次的混合手勢估計(jì)方法,通過變換輸入空間與輸出空間的方式,將多階段與多層回歸集成到CNN 中,在多層級之間,通過粒子群算法把運(yùn)動(dòng)學(xué)約束施加到CNN 中,該方法可以減少關(guān)節(jié)與視角的變化,糾正手勢估計(jì)的結(jié)果。

Mueller 等學(xué)者[22]先利用卷積神經(jīng)網(wǎng)絡(luò)定位手關(guān)節(jié),再使用深度值計(jì)算得出手的三維信息。 Zhang等學(xué)者[23]先對深度圖中的手掌進(jìn)行分割,并通過預(yù)訓(xùn)練的LSTM 預(yù)測當(dāng)前的手勢,最后重建對象模型。

3 數(shù)據(jù)集與評價(jià)指標(biāo)

3.1 數(shù)據(jù)集

大規(guī)模精準(zhǔn)標(biāo)注的數(shù)據(jù)集是手勢估計(jì)的基礎(chǔ),而早期由于缺少專業(yè)相機(jī)方陣,數(shù)據(jù)集較小。 隨機(jī)光學(xué)組件相關(guān)硬件以及計(jì)算機(jī)軟件的發(fā)展,使得手勢估計(jì)數(shù)據(jù)集已經(jīng)非常豐富,不僅有手動(dòng)標(biāo)注數(shù)據(jù)、自動(dòng)標(biāo)注數(shù)據(jù)、半自動(dòng)標(biāo)注數(shù)據(jù),還有全自動(dòng)合成數(shù)據(jù)[24],無論在數(shù)據(jù)質(zhì)量、還是數(shù)據(jù)規(guī)模上已經(jīng)有質(zhì)的飛越。

手動(dòng)標(biāo)記數(shù)據(jù)有Dexter-1、MSRA14 等,由于手工標(biāo)注數(shù)據(jù)是一件繁瑣的事,因此該類數(shù)據(jù)集規(guī)模相對較小,不適合用于大規(guī)模數(shù)據(jù)驅(qū)動(dòng)的手勢估計(jì)。半自動(dòng)標(biāo)注的手勢數(shù)據(jù)有ICVL、MSRA15、NYU 等,半自動(dòng)標(biāo)注方法一般先估算出三維手部關(guān)節(jié)點(diǎn),再使用人工標(biāo)注方法進(jìn)行修正或者于初始先手動(dòng)標(biāo)注出二維手部關(guān)節(jié)點(diǎn),再使用算法預(yù)測出三維手部關(guān)節(jié)點(diǎn),即使使用半自動(dòng)標(biāo)注,收集以及標(biāo)注大數(shù)據(jù)集的手勢數(shù)據(jù)也是一個(gè)繁瑣復(fù)雜的大工程。 為了獲得更高質(zhì)量、更大規(guī)模的數(shù)據(jù)集,出現(xiàn)了全自動(dòng)以及合成數(shù)據(jù)集方法。 全自動(dòng)標(biāo)注數(shù)據(jù)有HandNet、BigHand2.2M 等,全自動(dòng)標(biāo)注數(shù)據(jù)先讓受試者帶上數(shù)據(jù)手套,在采集圖像時(shí)進(jìn)行手部關(guān)節(jié)數(shù)據(jù)標(biāo)注,相較于半自動(dòng)標(biāo)注來說自動(dòng)標(biāo)注效率大大提高,適合創(chuàng)建大型手勢標(biāo)注數(shù)據(jù)集。 合成數(shù)據(jù)有MSRC、RHD 等,合成數(shù)據(jù)使用軟件先基于手勢模型生成不同姿態(tài)的仿真圖像數(shù)據(jù),再自動(dòng)標(biāo)記三維關(guān)節(jié)信息。合成數(shù)據(jù)標(biāo)記效率高,可以創(chuàng)建大規(guī)模的數(shù)據(jù)集,但合成數(shù)據(jù)很難對真實(shí)圖像的豐富紋理特征進(jìn)行建模,而且因?yàn)榉搓P(guān)節(jié)等各種原因?qū)е聰?shù)據(jù)特征丟失,同時(shí)受限于手部的多自由度以及手部膚色,因此就目前來說,合成數(shù)據(jù)質(zhì)量相對不高,但隨著計(jì)算機(jī)相關(guān)學(xué)科的發(fā)展,合成數(shù)據(jù)必將是手勢標(biāo)注數(shù)據(jù)的發(fā)展方向。

表1 列出了手勢估計(jì)公共數(shù)據(jù)集,隨著時(shí)間的進(jìn)行,數(shù)據(jù)量整體呈現(xiàn)上升趨勢,從中挑選一個(gè)合成數(shù)據(jù)集、一個(gè)超大型數(shù)據(jù)集以及一個(gè)中文手語數(shù)據(jù)集進(jìn)行介紹。

表1 三維手勢估計(jì)常用數(shù)據(jù)集Tab. 1 Common data set of 3D gesture estimation

(1) RHD (Rendered Hand Pose)。 是一個(gè)41 258個(gè)訓(xùn)練集以及2 728 個(gè)測試集的手勢估計(jì)的圖像數(shù)據(jù)集,是由弗萊堡大學(xué)在2017年發(fā)布的合成渲染數(shù)據(jù)集,每個(gè)樣本共有深度圖、RGB 圖、分割圖,圖像像素為320 × 320。 每只手都有21 個(gè)關(guān)鍵點(diǎn)的精確二維以及三維注釋。

(2)FreiHand。 是一個(gè)包含32 個(gè)人進(jìn)行的手部動(dòng)作采集,共有32 560 個(gè)訓(xùn)練樣本以及3 960 個(gè)測試樣本圖像數(shù)據(jù)集。 是由弗萊堡大學(xué)與Adobe 研究院于2019年發(fā)布的,可用于圖像檢測、分類任務(wù)。

(3)InterHand2.6M。 是第一個(gè)具有準(zhǔn)確GT 3D雙手交互的大規(guī)模手部實(shí)拍數(shù)據(jù)集。 由Facebook Reality Lab 于2020年發(fā)布,包括260 萬張手勢圖像。 可為學(xué)者提供了一個(gè)雙手交互的手勢估計(jì)數(shù)據(jù)集。

3.2 評價(jià)指標(biāo)

手勢評價(jià)的標(biāo)準(zhǔn)是指相對于標(biāo)注的手勢點(diǎn)相差多少。 常見的評價(jià)指標(biāo)可分述如下。

(1)平均關(guān)節(jié)位置誤差(Mean PerJoint Position Error,MPJPE)[36],定義為預(yù)測關(guān)節(jié)點(diǎn)位置與真實(shí)三維關(guān)節(jié)點(diǎn)位置的平均歐幾里得距離,單位為mm。指標(biāo)值越小、姿態(tài)估計(jì)算法越好,計(jì)算公式如下:

其中,N表示手指節(jié)點(diǎn)數(shù);pij表示預(yù)測點(diǎn);表示真實(shí)標(biāo)注點(diǎn)。

(2)端點(diǎn)誤差(End Point Error,EPE)[37]。 定義為手部跟關(guān)節(jié)對齊后預(yù)測的三維手部坐標(biāo)與真實(shí)坐標(biāo)之間的平均歐式距離,單位為mm。 計(jì)算公式如下:

其中,S為樣本數(shù);i為關(guān)節(jié)點(diǎn)數(shù);y表示真實(shí)值;表示預(yù)測值。

(3)正確關(guān)鍵點(diǎn)百分比(Percentage of Correct KeyPoints,PCK)[38]表示手勢估計(jì)結(jié)果預(yù)測值與真實(shí)值相差的歐氏距離在一定可接受范圍內(nèi),則認(rèn)定為預(yù)測準(zhǔn)確。Jk計(jì)算公式如下:

其中,Tk表示閾值。

(4)工作特征曲線下面積(Area Under Curve,AUC)[39]。 在手勢估計(jì)中,AUC被定義為PCK曲線與坐標(biāo)軸圍成的面積,相同標(biāo)準(zhǔn)下AUC值越大表示估計(jì)誤差越小,精度越高。

不同算法在RHD 以及STB 公開數(shù)據(jù)集上執(zhí)行精度對比見表2。

表2 不同算法的精度比較Tab. 2 Precision comparison of different algorithms

4 問題與挑戰(zhàn)

當(dāng)前已經(jīng)有較多的學(xué)者參與研究三維手勢估計(jì),基于單目RGB、雙目、RGB-D 的估計(jì)在特定場景設(shè)備下已經(jīng)取得了較大進(jìn)步,但是在特殊環(huán)境進(jìn)行復(fù)雜操作時(shí)仍然有較多的問題亟待解決,例如:環(huán)境背景與手掌膚色貼合、光照變化較大、進(jìn)行復(fù)雜的自遮擋動(dòng)作等[46]。

4.1 復(fù)雜場景環(huán)境

為了精準(zhǔn)分割出手勢圖像,大部分手勢估計(jì)方法均在背景單一、且單手條件下進(jìn)行,而正常環(huán)境下可能無法控制在環(huán)境光照變化較強(qiáng)的場景或者與手膚色相近的背景或者反光面、玻璃等背景下的多手協(xié)作。 因?yàn)?,高光照在這種復(fù)雜的背景環(huán)境中無疑加大了手勢檢測、分割的難度。 例如:強(qiáng)光照射手部或陰影投射手部均使手與背景不明顯。 如何提高手勢估計(jì)在復(fù)雜場景背景下的手勢檢測與分割的精準(zhǔn)性,進(jìn)而提高復(fù)雜場景的手勢交互能力,將會(huì)是未來的一個(gè)研究方向。

4.2 高自由度

人手有26 個(gè)自由度,可以實(shí)現(xiàn)300°/s 旋轉(zhuǎn)以及5 m/s的快速運(yùn)動(dòng),因此十分靈活,手勢估計(jì)姿態(tài)的復(fù)雜度隨著自由度以及運(yùn)動(dòng)速度的增加而呈指數(shù)的增長。 目前仍存在較多精度較低、無法貼合手部結(jié)構(gòu)的運(yùn)動(dòng)模型。 如何在高自由度的快速運(yùn)動(dòng)的手部圖像序列中進(jìn)行精準(zhǔn)識(shí)別高維時(shí)序特征,快速預(yù)測手部關(guān)節(jié)值仍然是一個(gè)熱點(diǎn)問題。

4.3 自遮擋

因?yàn)槭植康母咦杂啥葘?dǎo)致手部具有多樣性以及多異性。 人類很容易實(shí)現(xiàn)的自握拳、自握手等無疑會(huì)出現(xiàn)手部自遮擋、自碰撞。 而且因?yàn)槟w色、年齡等差異較大,加上自遮擋問題,可能使得手部在圖像中所占面積較小,進(jìn)而丟失較多手部細(xì)節(jié)信息,導(dǎo)致手勢估計(jì)不準(zhǔn)確或者完全失效。

4.4 實(shí)時(shí)性與準(zhǔn)確性

當(dāng)前較多研究是在實(shí)驗(yàn)室環(huán)境中使用高性能計(jì)算機(jī)進(jìn)行檢測、分割,其運(yùn)行速率可達(dá)90 FPS 以上,而在手機(jī)或者AR 眼鏡上,加上復(fù)雜的環(huán)境等因素,其處理速度可能達(dá)不到10 FPS,AR/VR 應(yīng)用的理想運(yùn)行速率不低于60 FPS。 因此,在復(fù)雜的環(huán)境下,需要實(shí)現(xiàn)準(zhǔn)確性與實(shí)時(shí)性,仍然有較多問題需要解決。

5 展 望

基于深度學(xué)習(xí)的三維手勢估計(jì)方法不斷進(jìn)行優(yōu)化,極大地提升了手勢估計(jì)的效果,基于上文提出的問題,研究者可以從以下幾個(gè)方面進(jìn)行優(yōu)化。

5.1 利用時(shí)序信息

基于時(shí)間序列的手勢估計(jì)可以利用雙向長短時(shí)記憶網(wǎng)絡(luò)模型獲取前后幀之間的時(shí)序特征,挖掘出更加豐富的特征信息,進(jìn)而輔助預(yù)測出后續(xù)手掌位置、甚至手勢關(guān)鍵節(jié)點(diǎn)信息,解決自遮擋等復(fù)雜環(huán)境背景下手勢識(shí)別的準(zhǔn)確性以及手勢估計(jì)的速度問題。

5.2 優(yōu)化網(wǎng)絡(luò)模型

深度學(xué)習(xí)的手勢估計(jì)中,網(wǎng)絡(luò)模型是一個(gè)重要的主題。 如何優(yōu)化出輕量級的網(wǎng)絡(luò)模型解決復(fù)雜的場景下手勢檢測與分割以及特征提取等手勢估計(jì)的準(zhǔn)確性問題,進(jìn)而提高網(wǎng)絡(luò)的運(yùn)行速度,是助力手勢估計(jì)研究的一個(gè)重要學(xué)術(shù)方向。

5.3 利用混合法

判別法對遮擋等有較強(qiáng)的魯棒性問題可以快速從錯(cuò)誤中恢復(fù),而且其運(yùn)行速度較快,但是卻無法利用時(shí)序幀,導(dǎo)致手勢估計(jì)容易出現(xiàn)跟蹤丟失現(xiàn)象,而生成法可以利用時(shí)序幀,使用擬合模型處理高維數(shù)據(jù)和復(fù)雜環(huán)境下的手勢估計(jì)。 如何平衡使用判別法與混合法,充分利用二者的優(yōu)勢,可加快手勢估計(jì)跟蹤的性能。

6 結(jié)束語

本文對基于深度學(xué)習(xí)的手勢估計(jì)算法以及數(shù)據(jù)集和評價(jià)指標(biāo)進(jìn)行了回顧,探討了手勢估計(jì)目前所面臨的挑戰(zhàn)以及未來的研究方向。 手勢交互是最重要的人機(jī)交互之一,應(yīng)用在AR/VR、手語識(shí)別、遠(yuǎn)程操控等方面,雖然不少學(xué)者在手勢估計(jì)方面的研究已經(jīng)取得了一定成果,但是距離實(shí)際應(yīng)用還有較長的路要走。因此,也希望相關(guān)研究學(xué)者繼續(xù)進(jìn)行復(fù)雜場景的手勢研究,讓手勢估計(jì)早日在中低端設(shè)備上落地應(yīng)用。

猜你喜歡
關(guān)節(jié)點(diǎn)手勢手部
手部皮膚軟組織缺損修復(fù)的皮瓣選擇
基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
挑戰(zhàn)!神秘手勢
V字手勢的由來
搞好新形勢下軍營美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
勝利的手勢
兩種皮瓣修復(fù)手部軟組織缺損的比較
發(fā)生于手部的硬下疳一例
復(fù)明膠囊疑致手部腫痛1例
汉源县| 阿拉尔市| 昔阳县| 登封市| 德惠市| 蓬安县| 顺义区| 湘潭县| 四川省| 澎湖县| 山西省| 建瓯市| 凤凰县| 西畴县| 古丈县| 东乡县| 绥棱县| 康马县| 安塞县| 岚皋县| 枣庄市| 东丰县| 金川县| 清流县| 贡觉县| 平阳县| 偏关县| 包头市| 南城县| 揭东县| 共和县| 东港市| 赣州市| 临夏市| 日照市| 寻甸| 秦皇岛市| 四平市| 平顶山市| 长乐市| 视频|