国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度特征融合的三維動態(tài)手勢識別

2021-04-29 09:11席志紅徐細夢
應用科技 2021年1期
關鍵詞:手勢像素深度

席志紅,徐細夢

哈爾濱工程大學 信息與通信工程學院,黑龍江 哈爾濱 150001

隨著現(xiàn)代科學技術的快速發(fā)展,計算機和人之間的交互已經(jīng)成為人類生活中不可或缺的一部分。早期的手工檢測是基于可穿戴傳感器[1],例如數(shù)據(jù)手套,雖然基于數(shù)據(jù)手套的手勢識別方法獲得了不錯的效果,但是存在需要精確校準、價格昂貴以及對手有束縛等缺點。后來研究者們提出基于RGB視頻的不同模型手勢識別方法,比如條件隨機場模型(conditional random fields model,CRFM)[2]、動態(tài)時間規(guī)整(dynamic time warping,DTW)[3]、動態(tài)貝葉斯網(wǎng)絡(dynamic bayesian networks,DBN)[4]以及隱馬爾可夫模型(hidden markov model,HMM)[5]等識別模型,但是考慮到顏色、光照、遮擋和復雜背景等不同的干擾因素,手勢識別效果不是很好。近年來,微軟Kinect深度相機的出現(xiàn)得到了這一領域?qū)W者們的高度關注,這種深度相機功能強大且價格相對實惠,在人機智能領域中有著更廣闊的前景。

在本文中,將基于深度視頻序列手勢數(shù)據(jù)集生成深度運動圖(depth motion map,DMM)[6],運用梯度方向直方圖(histogram of oriented gradient,HOG)[7]和局部二值模式(local binary patterns,LBP)[8]進行特征提取,將提取到的特征送入極限學習機(extreme learning machine,ELM)[9]中 進 行 分 類 識別,提出了一種效率高的手勢動態(tài)識別算法。首先,提出一種新的基于關鍵幀提取的多級時間采樣(multilevel templing sampling,MTS)方法,用于生成長、中和短深度視頻序列。然后,對于每個深度視頻序列,將每一幀被投影到3個正交笛卡爾平面上,從而生成對應的3個投影視圖(正面、側(cè)面和頂部)的投影地圖,計算連續(xù)投影映射之間的絕對差的和形成3個不同視角的深度運動圖(DMMs,即DMMs、DMMf及DMMt)[10]。HOG特征描述符能夠描述圖像中局部形狀和外觀信息,而LBP能夠描述圖像的局部紋理特征,通過計算DMMs圖像中的HOG特征和LBP特征,生成了6個不同的特征向量,通過特征加權融合的方式依次連接起來,形成最終的特征向量。最后,利用局部特征聚合描述符(vector of locally aggregated descriptors,VLAD)[11]進行編碼主成分分析(principal component analysis,PCA)[12]對輸入的 向量進行降維,用ELM算法對動態(tài)手勢[13]進行手勢識別。

本文研究的主要工作可概述為:

1)利用DMMs、HOG和LBP算法計算了2個特征描述子。DMM用來獲取深度視頻序列中的的特定外觀和形狀,然后在生成的3個不同視角的深度運動圖中分別使用HOG和LBP來獲取圖像的輪廓和紋理特征,所獲取的特征增強了對手勢識別算法的能力。

2)將特征加權融合方法應用于特征串行融合中。通過提取到的HOG特征和LBP特征,進行2∶1權重分配,有利于實現(xiàn)對手勢圖像信息的融合與深度利用,有效提升最后特征表示的效果。

3)在公開具有挑戰(zhàn)性的手勢動作數(shù)據(jù)集MSR-Action3D[14]上采用交叉主題測試。將20個動作劃分為3個動作子集(AS1、AS2和AS3),每種動作由10個不同的測試者錄制。對于每個動作子集,采用5個測試者(1、3、5、7和9)用于訓練,其余用來測試。這種類型的交叉主題測試有利于提高實驗的準確性。

1 主要內(nèi)容

1.1 系統(tǒng)介紹

本文手勢識別系統(tǒng)框圖如圖1所示。

圖1 手勢識別系統(tǒng)

在手勢識別系統(tǒng)中,通過輸入深度手勢視頻序列,將對手勢圖像進行預處理以及手勢分割,對分割出來的手勢進行跟蹤以追蹤手勢的去向,運用特征提取算法提取出相應的手勢特征,最后利用分類算法對提取的特征進行分類識別。

1.2 多級時間采樣

手勢識別的一個難點在于識別同一手勢由于不同的執(zhí)行速度而產(chǎn)生識別結(jié)果的偏差。解決此問題的一個簡單的方法是通過選擇隨機幀進行下采樣;然而,可能造成未選擇幀中的重要信息的丟失。為了解決這個問題并盡量保留未選擇幀的重要信息,因此運用多級時間采樣的方法。

首先,計算出每一幀的運動能量,通過累加來定義每一幀與下一幀在所有像素上的差異值:

式中:dt代表的是輸入視頻的第t深 度幀;N代表的是每一幀中所有像素的個數(shù);Et代表每一深度幀的運動能量。

然而為了選擇相關視覺信息的幀(即識別不同手勢,最大限度地利用原始視頻中包含的信息),根據(jù)運動能量的變化率對輸入幀進行采樣,如式(2):

為了采集M幀視頻,首先選擇第一幀和最后一幀,然后從剩下部分取樣最高ΔE值 的M-2幀。因此,從原始視頻中提取3個級別的長、中、短時間樣本。其中,長視頻是原始視頻,中視頻包含原始視頻長度的50%,短視頻是包含原始視頻長度的30%。如圖2所示,其中圖2(a)為長視頻中一幀,圖2(b)為長視頻中一幀,圖2(c)為短視頻中一幀。

圖2 長、中和短運動幀

1.3 時間深度運動圖(DMM)

在DMMs構建過程中,深度視頻序列投影到正交笛卡爾坐標系中,根據(jù)Kinect坐標系的3個不同視角的原理,可以生成3個不同的視角:正視、側(cè)視和頂視。手勢深度圖的正視投影圖、側(cè)視投影圖和頂視投影圖分別記作 mapf、 maps、 mapt,對于正視圖,可以通過計算連續(xù)投影地圖序列之間絕對差來得到其運動能量,并接著積累整個動態(tài)手勢深度視頻序列的運動能量來構建深度運動圖 DMMf。同 理,側(cè) 視圖 DMMs和 頂視 DMMt也 可 以構建出來。每個深度序列DMM使用以下的公式來構建:

式中:K是剪輯的長度。長視頻、中視頻和短視頻分別選擇16、8和4。l2{long,middle,short},v2 ffront,side,topg,圖3分別展示的是一個手勢動作的的正視投影圖、側(cè)視投影圖和頂視投影圖。

圖3 深度運動圖構建過程

1.4 局部二值模式

深度運動圖由于覆蓋重寫變得很模糊,應該用傳統(tǒng)經(jīng)典有效的算法來增強手的形狀信息以便分類器能更好地進行分類識別。局部二值模式是一種非常有效的旋轉(zhuǎn)不變紋理描述工具,因其計算簡單、鑒別能力強等等優(yōu)點而被廣泛應用。為了獲取圖像的紋理特征,利用LBP進行編碼圖像,在LBP編碼圖像過程中原始像素用編碼局部紋理信息的十進制數(shù)標注。原始的LBP算子工作在3×3的像素塊,以中間像素f(x,y)為圓心,中心像素周圍都被中心像素閾值化,并按2的冪進行加權,然后求和到標記中心像素。LBP運算符也可以擴展到大小不同的鄰域,考慮由 (N,R)表示的圓形鄰域,其中N是采樣的數(shù)目,R是圓形的半徑。像素 (x,y)的LBP標簽的計算過程如圖4所示,其中N=8,R=1。每個中心像素 (x,y)周圍有8個鄰域像素點,每個鄰域像素點與中心像素點進行比較,當大于等于中心像素點時,則這個鄰域像素點的值就被置為1。

圖4 中心像素的LBP標簽的生成過程

同理,當小于中心像素點時,則這個鄰域像素點的值就被置為0,中心像素 LBPp計算為

式中:當x≥0,則th(x)=1;當x<0時,則th(x)=0。中心像素點的標注值則由N個鄰域像素點二進制的十進制形式,其中對原算子的另一個擴展則稱為一致模式,當二進制模式有最多2個從0到1的轉(zhuǎn)變時,則認為這個局部二進制模式是一致的,當位模式是圓形時則相反。比如,模式00000000(0過渡)和00010000(2過渡)是一致模式,而其他模式例如01010001(5過渡)則為非一致模式。通過計算圖像中所有像素的LBP值后,得到圖像或圖像區(qū)域的直方圖來表示所獲得的圖像紋理特征。

1.5 方向梯度直方圖

在一幅圖像中,局部目標的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述。方向梯度直方圖常用來描述圖像特征的特征描述子,因其在局部單元格上進行操作,對局部光照、幾何形變具有良好的不變性,跟其他特征提取算法相比具有一定的優(yōu)勢。

HOG特征提取的主要思想是將整個圖像分成多個連通區(qū)域(即細胞元),然后通過計算每個連通區(qū)域中各像素點所對應的梯度方向直方圖,最后依次順序連接所獲得的直方圖構成特征描述器。

方向梯度直方圖算法的具體實現(xiàn)過程如下:

1)將要分析的圖像進行灰度歸一化。

2)計算圖像中每個像素的梯度。

對于每一幅圖像而言,都可以用水平方向和垂直方向的梯度進行表示,這2個方向的導數(shù)可以表示為dx和dy,則可以通過梯度算子[ 1,0,1]T和[ 1,0,1]得出,每個細胞單元中像素的梯度信息z可以由dx和dy表示為

繼而每個細胞單元中像素的梯度信息轉(zhuǎn)化為極坐標信息,其中幅度A和 偏移角度 θ分別為

3)將圖像劃分為細胞元(cells)。

首先將圖像劃分為較小的單元格,假如本文圖片大小為256×256的統(tǒng)一尺寸,再將圖像分割成大小16×16的單元格,然后2×2個單元格構成一個塊(block),最后所有的block組成圖像。

4)將塊(block)內(nèi)所有的cell特征串聯(lián)起來便得到該塊(block)的HOG特征描述符。

5)同理,將圖像中所有塊的HOG特征描述符串聯(lián)起來就得到該整幅圖像的HOG特征描述符,這個就是最終用來進行分類識別所用的特征向量了,圖像分割示意如圖5所示。

圖5 圖像分割示意

1.6 主成分分析

在提取特征后,需要降維來保留一些重要的特征,去除一些冗余信息,從而實現(xiàn)提高數(shù)據(jù)處理速度的目的。具有使得數(shù)據(jù)集更易使用、降低算法的計算開銷和去除冗余信息等優(yōu)點。本文PCA值設置為130,最終訓練集降維到130×283,測試集降維到130×273。

主成分分析算法的具體實現(xiàn)如下:

1)將 原 始 數(shù) 據(jù) 按 行 組 成m行n列 樣 本 矩陣X(其中每行為一個樣本,每列為一維特征)。

2)求出樣本X的協(xié)方差矩陣C和樣本均值m。

3)求出協(xié)方差矩陣D的特征值及對應的特征向量V。

4)將特征向量根據(jù)對應特征值大小從按行排列成矩陣,取前k行組成矩陣P。

5)Y=(Xm)·P即為降維到k維后的數(shù)據(jù)。

1.7 極限學習機(ELM)

極限學習機最大的優(yōu)勢在于:1)輸入層和隱含層的連接權值、隱含層的閾值可以隨機設定,一旦設定完后則不用再調(diào)整。2)隱含層和輸出層之間的連接權值β不需要迭代調(diào)整,而是通過解方程組方式一次性確定。這樣的好處是提高了速度,且模型的泛化能力也得到提高。

ELM可以通過隨機初始化輸入權重和偏置得到相應的輸出權重。對于一個單隱層神經(jīng)網(wǎng)絡,假如有N個任意的樣本 (Xi,ki),其中:

則對于一個有L個隱層節(jié)點的單隱層神經(jīng)網(wǎng)絡可以表示為

式中:g(·)為 激活函數(shù);Wi=[wi,1,wi,2,···,wi,n]T為輸入權重;βi為輸出權重;bi是第i個隱層單元的偏置。Wi·Xj表示W(wǎng)和Xj的內(nèi)積。單隱層神經(jīng)網(wǎng)絡學習的目標是使得輸出的誤差最小,可以表示為

2 實驗與結(jié)果分析

在本節(jié)中,將給出手勢識別系統(tǒng)實驗結(jié)果來證明系統(tǒng)在公共數(shù)據(jù)集MSR-Action3D的動態(tài)深度序列數(shù)據(jù)集中的性能。所有實驗均在CPU intel i7和16 GB內(nèi)存的計算機上運行。

2.1 數(shù)據(jù)集和設置

MSR-Action3D數(shù)據(jù)集包含20個動作,每個動作由10個不同的被試者面對RGB-D攝像機執(zhí)行2次或3次。20項動作包括高臂波、橫臂波、錘子、手接、前拳、高拋、抽簽X、抽簽、畫圈、手拍、兩手波、側(cè)拳、彎、前踢、側(cè)踢、慢跑、網(wǎng)球揮桿、網(wǎng)球發(fā)球、高爾夫球揮桿和撿拋。每次由10名受試者表演2次或者3次,幀速率為15 f/s,分辨率為320×240。刪除此數(shù)據(jù)集的背景,這個數(shù)據(jù)集最重要的挑戰(zhàn)是相互作用的相似之處,它只包含深度視頻序列。檢拋動作如圖6。

圖6 撿拋序列過程

交叉主題測試的具體實現(xiàn)為:將20個動作劃分為3個動作子集(AS1、AS2和AS3),如表1~3所示。對于每個動作子集,5個被試者(1、3、5、7和9)用于訓練,其余用于測試。

表1 MSR-Action3D子數(shù)據(jù)集1(AS1)

表2 MSR-Action3D子數(shù)據(jù)集2(AS2)

表3 MSR-Action3D子數(shù)據(jù)集3(AS3)

在所有的實驗中,對每一個深度視頻序列,刪除第一幀和最后一幀。因為在動態(tài)手勢視頻序列中的開頭或結(jié)尾,實驗者大部分是處于靜止站立的位置,運動的幅度特別小,這對于實驗者的運動特性來說是完全沒有必要的。其次,因為在DMM的計算過程中,開頭和結(jié)尾運動特性小導致會存在大量的識別誤差。

為了找到LBP計算中的參數(shù)N(采樣點數(shù))和R(半徑)找到一個合理的值,本實驗對 (N,R)的不同值分別進行了實驗。分別對半徑R選擇了6個值{1,2,…,6},對采樣點數(shù)N選擇了4個值{4,6,8,10},通過觀察可知參數(shù)對(4,8)的結(jié)果最佳。由于基于均勻模式的LBP直方圖特征的維數(shù)是N(N?1)+3N,因此LBP特征的計算復雜度取決于采樣點數(shù),即是N。由于參數(shù)對(4,8)具有較高的識別效果和較低的計算復雜度,因此為整個實驗設置了N=8和R=4。同時,為了提高實驗分類步驟的計算效率,本實驗采用主成分分析(PCA)方法來降低特征向量的維數(shù)。

2.2 計算復雜性分析

表4給出了手勢識別中每個算法步驟所花費的時間百分比。多級時間采樣(multilevel temporal sampling,MTS)的提取包括2個過程:計算序列中每個幀的運動能量,然后進行排序,選擇運動能量最高的幀。第1部分是O(N), 其中N是幀內(nèi)的像素數(shù);第2部分是O(Tlog(T)) ,其中T是視頻的長度,已知T=N。LBP和HOG特征提取的計算復雜度也是O(N)。VLAD編碼包括2個部分:首先創(chuàng)建可視單詞字典,然后將每個示例分配給可視單詞。計算的復雜度為O(nk), 其中:n是數(shù)據(jù)集的全部樣本數(shù),k是可視單詞的數(shù)量。

表4 算法步驟運行時間比例

2.3 不同方法的比較

本文實驗首先針對20種手勢動作組成的MSRAction 3D深度序列數(shù)據(jù)集進行研究手勢識別系統(tǒng)的性能。該數(shù)據(jù)集的每類手勢動作由10人進行2次或3次,幀速率為15 f/s,分辨率為320×240,刪除了此數(shù)據(jù)集的背景,這個數(shù)據(jù)集最重要的挑戰(zhàn)是相互作用的相似之處。實驗1對手勢深度序列進行多級時間采樣,然后分別對長、中和短深度序列映射到笛卡爾坐標系進行正視、側(cè)視和頂視深度運動圖轉(zhuǎn)換,此時有6種不同的深度運動圖,將提取每種深度運動圖的HOG特征和LBP特征,對提取出的每種特征向量進行VLAD編碼和PCA降維,最后將2種特征向量進行串行融合,采用極限學習機進行分類識別。實驗一動作識別結(jié)果如圖7所示。實驗2在實驗1的基礎上為了提取到的特征更好地識別,將提取到的2種特征2HOG:1LBP權重進行串行融合,最終生成了6個不同的特征向量:Front_RHOG為72×540、Side_RHOG為72×972、Top_RHOG為72×405、Front_RLBP為59×480、Front_RLBP為59×864、Front_RLBP為59×360,其中從深度運動圖中提取的Front_RLBP紋理信息結(jié)果例子如圖8所示。

圖7 實驗1混淆矩陣

圖8 LBP特征結(jié)果

實驗3是在實驗1的基礎上將對556個深度序列劃分為3個子集,分別對每個子集中的5個實驗者(1、3、5、7和9)進行訓練,其余用來測試,最后得出3個子集的平均識別準確率。

文獻[13]中提出了一種實時骨架估計算法,新的骨骼表示法中利用三維空間中的旋轉(zhuǎn)和平移,顯式地模擬了不同身體部位之間的三維幾何關系;文獻[14]提出了一種基于稀疏編碼的時間金字塔匹配方法(time pyramid mathing based on sparse codeing, ScTPM);文獻[15]提出了基于深度運動映射(DMMs)、等高線變換(contour transformation, CT)和直方圖(HOGs)的基于深度視頻序列的人體動作識別框架;文獻[16]提出了一種基于深度梯度局部自相關(gradient local autocorrelation characteristic, GLAC)特征和局部約束仿射子空間編碼(locally constrained affine subspace coding,LCASC)的三維動作識別算法;文獻[17]以基于線性支持向量機的人體檢測為例,研究了基于特征集的魯棒視覺目標識別問題;文獻[18]提出從深度序列中組合局部相鄰的超曲面法線來將表面法線擴展為多法線,以共同表征局部運動和形狀信息方法;文獻[19]提出一種基于深度序列關鍵幀運動能量的多級時間采樣(MTS)方法。從實驗結(jié)果來看,實驗2和實驗3的識別率均比實驗1更高,且實驗3識別率相較文獻[13]方法和文獻[17]方法從骨骼數(shù)據(jù)提取特征、文獻[14]方法和文獻[18]方法從手的時空體積提取位置、方向和速度等特征、文獻[15]方法從DMMs提取輪廓特征和文獻[19]方法利用二維卷積神經(jīng)網(wǎng)絡提取空間特征更好,詳見表5。

表5 MSR Action 3D性能比較

3 結(jié)論

本文針對深度視頻序列采用多級時間采樣提取3種不同長度的時間序列,并進一步提取深度運動圖,采用HOG算法和LBP算法進行特征提取,將2種算法提取的特征進行加權融合輸入到ELM分類器中進行分類識別,并在公開數(shù)據(jù)集MSR Action3D上進行交叉主題測試實驗。實驗結(jié)果表明,實驗2和實驗3在實驗1進行HOG和LBP提取算法進行融合的方法基礎上顯示出了比較好的識別率,且實驗3基本上比表5中所用的其他方法好,是能實現(xiàn)實時動作識別的一種高效的人體動作識別方法。下一步工作將繼續(xù)提高動態(tài)手勢識別的識別精度,增加更多的不同的手勢類,并同時降低運行的時間。

猜你喜歡
手勢像素深度
像素前線之“幻影”2000
深度理解一元一次方程
挑戰(zhàn)!神秘手勢
“像素”仙人掌
深度觀察
深度觀察
V字手勢的由來
深度觀察
éVOLUTIONDIGAE Style de vie tactile
勝利的手勢
来宾市| 濉溪县| 汝阳县| 安阳市| 罗源县| 安吉县| 白城市| 金昌市| 铜山县| 咸阳市| 大余县| 甘孜县| 颍上县| 东源县| 浦北县| 鹤庆县| 盘山县| 永州市| 清涧县| 临夏市| 营口市| 马鞍山市| 平度市| 新蔡县| 逊克县| 苗栗市| 雅安市| 静安区| 小金县| 镇赉县| 蒙山县| 浦城县| 江华| 文山县| 中方县| 昌江| 泗阳县| 颍上县| 荥阳市| 昌宁县| 南郑县|