国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制的3D卷積神經(jīng)網(wǎng)絡(luò)孤立詞手語(yǔ)識(shí)別

2022-03-26 09:16:42張瀚文楊萌浩
關(guān)鍵詞:關(guān)鍵幀手語(yǔ)手部

胡 瑛,羅 銀,張瀚文,楊萌浩

(湖南工程學(xué)院 計(jì)算機(jī)與通信學(xué)院,湘潭 411104)

0 引言

手語(yǔ)是聾啞人之間、聾啞人與正常人之間表達(dá)交流的橋梁,手語(yǔ)識(shí)別是通過計(jì)算機(jī)技術(shù)將手語(yǔ)轉(zhuǎn)換為文字或語(yǔ)音,方便聾啞人與正常人的交流.傳統(tǒng)的手語(yǔ)識(shí)別方法通過人工提取的特征來建立時(shí)序模型,采用隱馬爾科夫[1]、條件隨機(jī)場(chǎng)[2]、動(dòng)態(tài)時(shí)間規(guī)整[3]等時(shí)序模型.人工提取特征依賴設(shè)計(jì)者的經(jīng)驗(yàn),且時(shí)序建模過程煩瑣,多年來一直未取得突破.近幾年,深度學(xué)習(xí)在圖像分類、目標(biāo)檢測(cè)等領(lǐng)域取得了非常好的效果,研究人員借助卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)來提取手形特征取得了不錯(cuò)的性能[4-5].手語(yǔ)詞由視頻序列組成,使用2D-CNN網(wǎng)絡(luò)提取特征會(huì)丟失時(shí)間信息,3DCNN網(wǎng)絡(luò)可以提取視頻的時(shí)空特征,在行為識(shí)別中取得了重大突破,這為手語(yǔ)識(shí)別提供了新的啟示[6].

孤立詞只包含一個(gè)詞語(yǔ),是手語(yǔ)識(shí)別的一個(gè)研究方向,本文提出了一種基于注意力機(jī)制的3DCNN孤立詞手語(yǔ)識(shí)別方法,解決了目前手語(yǔ)識(shí)別中的3個(gè)問題:提取手部區(qū)域和關(guān)鍵幀作為3DCNN的輸入,專注于手部的動(dòng)作并忽略背景區(qū)域;采用3D-CNN提取手語(yǔ)視頻中的時(shí)空特征,可以捕獲手語(yǔ)的運(yùn)動(dòng)信息;引入注意力機(jī)制,重點(diǎn)關(guān)注表達(dá)手語(yǔ)含義的視頻幀.

1 基于注意力機(jī)制的3D-CNN手語(yǔ)識(shí)別模型

基于注意力機(jī)制的3D-CNN手語(yǔ)識(shí)別框架如圖1所示,包括預(yù)處理、3D-CNN卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制三個(gè)部分.

圖1 基于注意力機(jī)制的3D-CNN手語(yǔ)識(shí)別框架

1.1 預(yù)處理

預(yù)處理由提取手部區(qū)域和關(guān)鍵幀兩個(gè)步驟組成,減少無(wú)用的特征,使神經(jīng)網(wǎng)絡(luò)訓(xùn)練更快速準(zhǔn)確.預(yù)處理過程如圖2所示.

圖2 預(yù)處理流程圖

手語(yǔ)主要由手部動(dòng)作組成,而手部在視頻幀的尺寸太小,本文在預(yù)處理中檢測(cè)出手部區(qū)域,去除與手部無(wú)關(guān)的信息.手部動(dòng)作是手語(yǔ)視頻中幅度最大的動(dòng)作,可以通過檢測(cè)視頻中的動(dòng)態(tài)區(qū)域來確定手部區(qū)域.本文通過幀間差分法提取手部區(qū)域[7],首先獲取視頻圖像的灰度圖,設(shè)Gk(x,y),Gk+1(x,y)分別是相鄰兩幀灰度圖像的像素值,計(jì)算幀間差值,閾值設(shè)為T,大于閾值的視為動(dòng)態(tài)區(qū)域,則將此像素點(diǎn)置為1,反之視為靜態(tài)區(qū)域,則將像素點(diǎn)置為0:

經(jīng)過閾值化的差分圖會(huì)產(chǎn)生脈沖噪聲,使用3×3中值濾波濾除孤立的點(diǎn),可得到清晰的手部輪廓圖,最后將這些圖片保存,合成手語(yǔ)視頻.

圖3 手部區(qū)域提取圖

按照30幀/s的錄制速度,一個(gè)手語(yǔ)孤立詞幀數(shù)在50~200范圍內(nèi),這些視頻幀中大部分是過度幀,能表達(dá)語(yǔ)義特征的關(guān)鍵幀并不多.相鄰兩幀的信息變化較大時(shí),則認(rèn)為是關(guān)鍵幀.本文使用幀間差分法提取手語(yǔ)視頻中運(yùn)動(dòng)明顯的幀作為手語(yǔ)視頻中的關(guān)鍵幀.將上文計(jì)算所得的幀間差分值按大小排序,選取前30幀作為關(guān)鍵幀,將關(guān)鍵幀按原視頻中的位置恢復(fù)順序,使關(guān)鍵幀恢復(fù)時(shí)間邏輯.

1.2 特征提取

本文參照文獻(xiàn)[8]設(shè)計(jì)了一種3D-CNN網(wǎng)絡(luò)架構(gòu),將預(yù)處理后得到的30幀關(guān)鍵幀輸入到3DCNN中提取時(shí)空兩個(gè)維度的信息.針對(duì)手語(yǔ)識(shí)別任務(wù),3D-CNN網(wǎng)絡(luò)架構(gòu)在C3D網(wǎng)絡(luò)結(jié)構(gòu)上做了一些修改,網(wǎng)絡(luò)參數(shù)如表1所示,該結(jié)構(gòu)由5個(gè)卷積層、4個(gè)最大池化層和2個(gè)全連接層組成[9].3DCNN模型的輸入數(shù)據(jù)的維度為160×120×30×1,每一幀圖像的長(zhǎng)和寬分別為160和120,30代表視頻序列的幀數(shù),1代表圖片是單通道的二值化圖像.卷積運(yùn)算可以從輸入數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,每一個(gè)卷積核都可以提取特定的特征.3D-CNN網(wǎng)絡(luò)可以提取手語(yǔ)的手形、手的位置空間特征,以及幀與幀之間特征關(guān)系的時(shí)間維度特征.本文所設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)中包含5個(gè)卷積層,每一層卷積核的數(shù)量分別為:32、64、128、256、512,卷積核大小均為3×3×3,卷積核參數(shù)通過反向傳播算法確定.3D卷積操作就是將多個(gè)連續(xù)幀同時(shí)疊加在一起,在空間上形成一個(gè)三維的立方體,再與一個(gè)三維的卷積核進(jìn)行卷積操作,3D卷積定義如公式2所示:

表1 3D-CNN網(wǎng)絡(luò)參數(shù)

其中,為第i層第j個(gè)特征圖上的輸出值,bij為偏置項(xiàng),m為i-1層特征圖連接到當(dāng)前特征圖的集合的坐標(biāo),為權(quán)重系數(shù),Pi、Qi和Ri分別是卷積核的長(zhǎng)度,寬度和時(shí)間維度的尺寸.

3D-CNN網(wǎng)絡(luò)架構(gòu)的參數(shù)量大,需要足夠的樣本數(shù)據(jù)訓(xùn)練,本文采用遷移學(xué)習(xí)的方法解決訓(xùn)練樣本數(shù)據(jù)少的問題.UCF-50行為識(shí)別數(shù)據(jù)庫(kù)收集了50個(gè)動(dòng)作類別,首先用UCF-50數(shù)據(jù)集對(duì)3D-CNN網(wǎng)絡(luò)模型進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)到圖像的底層特征,將預(yù)訓(xùn)練得到的權(quán)重作為手語(yǔ)識(shí)別網(wǎng)絡(luò)模型的初始化參數(shù),遷移到手語(yǔ)數(shù)據(jù)集上,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練微調(diào).

圖4 遷移學(xué)習(xí)模型

1.3 注意力機(jī)制

人類觀察外部事物時(shí),一般不會(huì)觀察事物每個(gè)角落,注意力會(huì)集中在對(duì)觀察目標(biāo)感興趣的地方.注意力機(jī)制[10]學(xué)習(xí)人類的視覺系統(tǒng),能學(xué)習(xí)每個(gè)時(shí)刻的權(quán)重分布,篩選出更為重要的信息.每個(gè)孤立詞通過預(yù)處理獲得了30幀關(guān)鍵幀,但每一幀對(duì)手語(yǔ)語(yǔ)義的貢獻(xiàn)是不同的,不同的幀應(yīng)給予不同的權(quán)重.本文在3D-CNN網(wǎng)絡(luò)的Conv5網(wǎng)絡(luò)層后添加了注意力機(jī)制,采用自注意力機(jī)制[11]來實(shí)現(xiàn)對(duì)不同視頻幀給予不同的權(quán)重,注意力模型如圖5所示.

圖5 注意力模型

F=(f1,f2,…,f6)是Conv5網(wǎng)絡(luò)層輸出的特征,大小為6×3×6×512(長(zhǎng)×寬×?xí)r間深度×通道數(shù)).為了方便計(jì)算,將長(zhǎng)度和寬度采用平均池化變?yōu)橐痪S特征[12],V=(v1,v2,…,v6)為時(shí)間深度特征,大小為1×1×6×512(長(zhǎng)×寬×?xí)r間深度×通道數(shù)).采用兩層神經(jīng)網(wǎng)絡(luò)(激活函數(shù)選擇tanh函數(shù))計(jì)算vi之間的相似度,得到注意力權(quán)重αi,如公式3所示.

W1、W2、b1、b2為神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)參數(shù).為計(jì)算各時(shí)間維度上的加權(quán)特征,首先采用Softmax函數(shù)歸一化注意力權(quán)重αi,然后與fi做點(diǎn)乘運(yùn)算,得到加權(quán)后的特征序列si:

2 實(shí)驗(yàn)結(jié)果與分析

2.1 運(yùn)行環(huán)境和數(shù)據(jù)集

服務(wù)器的硬件配置:CPU為Intel Xeon E5-2680,128 GB內(nèi)存,4個(gè)NVIDIA TITAN XP GPU.運(yùn)行的軟件環(huán)境為Ubuntu16.04操作系統(tǒng),搭建了tensorflow2.0深度學(xué)習(xí)框架.

本文采用公開手語(yǔ)數(shù)據(jù)集DEVISIGN-D[13],數(shù)據(jù)集由500個(gè)詞匯組成,每一個(gè)手語(yǔ)詞匯錄制12個(gè)手語(yǔ)視頻,由8人錄制,共6000個(gè)視頻,幀率為30 fps.本文選用DEVISIGN-D中的50個(gè)常用詞匯作為實(shí)驗(yàn)樣本,按4∶1隨機(jī)劃分為訓(xùn)練集和測(cè)試集.

2.2 訓(xùn)練參數(shù)

每次迭代隨機(jī)選取32個(gè)視頻樣本,損失函數(shù)選用交叉熵,使用Adam優(yōu)化器,動(dòng)量取0.9.初始學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)率衰減引入余弦退火算法[14],可以跳出局部最優(yōu)解.卷積層采用ReLU激活函數(shù),網(wǎng)絡(luò)參數(shù)使用批量歸一化處理.loss值變化曲線如圖6所示,經(jīng)測(cè)試集的loss值隨著迭代次數(shù)的增加而減少,表明模型沒有發(fā)生過擬合現(xiàn)象.

圖6 loss值曲線圖

2.3 實(shí)驗(yàn)分析

引入注意力機(jī)制可以給不同的幀分配不同的權(quán)重,讓更重要的幀對(duì)結(jié)果的影響力更強(qiáng).圖7為手語(yǔ)詞“領(lǐng)袖”的部分幀,該手語(yǔ)詞由兩套獨(dú)立的動(dòng)作組成,前一部分動(dòng)作為“領(lǐng)導(dǎo)”的動(dòng)作,后一部分為最高級(jí)別的意思,最高級(jí)別的“領(lǐng)導(dǎo)”即為“領(lǐng)袖”.將此視頻幀輸入到網(wǎng)絡(luò),通過自注意力模型,輸出結(jié)果為:

圖7 手語(yǔ)詞“領(lǐng)袖”部分幀

此例可以看出,通過注意力機(jī)制能學(xué)習(xí)每個(gè)時(shí)刻的權(quán)重分布,篩選出更為重要的信息.

在上文所提的基于注意力機(jī)制的3D-CNN手語(yǔ)識(shí)別模型中,去除預(yù)處理和注意力機(jī)制部分后的模型稱為基礎(chǔ)模型,為驗(yàn)證預(yù)處理和注意力機(jī)制是否能提高模型的性能,在相同的參數(shù)設(shè)置和數(shù)據(jù)集下進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示,添加了預(yù)處理和注意力機(jī)制后,手語(yǔ)識(shí)別的準(zhǔn)確率都有一定程度的提升.

表2 基礎(chǔ)模型與增強(qiáng)模型準(zhǔn)確率比較

為了驗(yàn)證本文所提模型的可行性,與GMMHMM[15]、3D-CNN[16]、CNN-LSTM[17]3種手語(yǔ)識(shí)別方法進(jìn)行了對(duì)比實(shí)驗(yàn).在相同數(shù)據(jù)集下,根據(jù)文獻(xiàn)[15]-[17]所提算法思路,通過編程實(shí)現(xiàn)了上述3種算法和本文所提算法,實(shí)驗(yàn)結(jié)果如表3所示,說明采用深度學(xué)習(xí)方法比傳統(tǒng)方法更有優(yōu)勢(shì),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提模型的有效性.

表3 本文方法與其他方法的準(zhǔn)確率比較

3 結(jié)束語(yǔ)

本文提出了一種新穎的3D卷積神經(jīng)網(wǎng)絡(luò)孤立詞手語(yǔ)識(shí)別模型,通過預(yù)處理提取了手部區(qū)域和關(guān)鍵幀,去除了與手語(yǔ)信息無(wú)關(guān)的冗余信息,在網(wǎng)絡(luò)中引入了注意力機(jī)制,重點(diǎn)關(guān)注語(yǔ)音信息豐富的視頻幀,提高了網(wǎng)絡(luò)模型的特征表達(dá)能力.使用UCF-50數(shù)據(jù)集對(duì)3D-CNN網(wǎng)絡(luò)參數(shù)進(jìn)行初始化,解決了手語(yǔ)視頻數(shù)量少的問題.實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提出的方法對(duì)孤立詞手語(yǔ)識(shí)別有較高的準(zhǔn)確率,但是該方法還存在一些不足,也是今后還需努力的方向:(1)引入多模態(tài)機(jī)制,結(jié)合RGB視頻流、深度信息和骨骼信息,考慮多模態(tài)特征的融合;(2)利用Faster-RCNN等深度學(xué)習(xí)目標(biāo)檢測(cè)方法提取手勢(shì)區(qū)域,進(jìn)一步提高3D-CNN的識(shí)別準(zhǔn)確率.

猜你喜歡
關(guān)鍵幀手語(yǔ)手部
手語(yǔ)學(xué)習(xí),只為更懂你
手部皮膚軟組織缺損修復(fù)的皮瓣選擇
自然手語(yǔ)在聾人大學(xué)生手語(yǔ)中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
活力(2019年15期)2019-09-25 07:23:06
基于改進(jìn)關(guān)鍵幀選擇的RGB-D SLAM算法
基于相關(guān)系數(shù)的道路監(jiān)控視頻關(guān)鍵幀提取算法
基于聚散熵及運(yùn)動(dòng)目標(biāo)檢測(cè)的監(jiān)控視頻關(guān)鍵幀提取
奇怪的手語(yǔ)圖
兩種皮瓣修復(fù)手部軟組織缺損的比較
論“關(guān)鍵幀”在動(dòng)畫制作中的作用
發(fā)生于手部的硬下疳一例
广昌县| 平罗县| 仙居县| 德兴市| 张家口市| 乐至县| 禹城市| 延庆县| 合肥市| 万源市| 泗洪县| 洞口县| 昭苏县| 马龙县| 灵寿县| 乌拉特前旗| 阿尔山市| 罗山县| 怀化市| 紫金县| 黄平县| 泾源县| 库车县| 白银市| 青冈县| 大埔区| 太康县| 扬中市| 明星| 会同县| 游戏| 乐都县| 无棣县| 裕民县| 建湖县| 永顺县| 米林县| 海晏县| 巴楚县| 日土县| 区。|