朱連淼,楊波,郭佳君,陳曉燚
(中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074)
據(jù)統(tǒng)計(jì),截止到2020 年我國(guó)聽(tīng)力殘疾人數(shù)約2780 萬(wàn)人,占全國(guó)殘疾人總數(shù)的30%以上.而聾啞人之間的相互交流以及其同非聾啞人的相互交流主要依靠手語(yǔ)進(jìn)行.因此高精度的手語(yǔ)翻譯算法對(duì)于解決聾啞人的交流問(wèn)題有著重大意義.手語(yǔ)又可以細(xì)分為手指語(yǔ)和手勢(shì)語(yǔ),其中前者用手指的指示變化代表字母數(shù)字,通過(guò)字母拼寫出詞,常常作為聾啞人教育的交流工具;而后者則以手部動(dòng)作結(jié)合上肢動(dòng)作進(jìn)行表達(dá),平時(shí)所說(shuō)的手語(yǔ)大多指手勢(shì)語(yǔ),手勢(shì)語(yǔ)也是聾啞人溝通的主要方式.本文的研究重點(diǎn)主要放在手勢(shì)語(yǔ)的孤立詞翻譯.
在手勢(shì)語(yǔ)翻譯的早期研究中,研究人員大多采用人工設(shè)置特征輔以分類器的傳統(tǒng)方法,如ZHOU等[1]提出了一種基于全局模板的動(dòng)態(tài)時(shí)間規(guī)整算法,該算法通過(guò)統(tǒng)計(jì)方法,將定義的手勢(shì)樣本離散化形成全局模板,并在180個(gè)手勢(shì)識(shí)別上取得了95.6%的準(zhǔn)確率.ZHANG 等[2]提出了一種自適應(yīng)的隱馬爾可夫模型,該模型從形狀上下文的軌跡特征中獲取時(shí)空特征,通過(guò)融合軌跡和手形概率的組合方法進(jìn)行漢語(yǔ)手語(yǔ)識(shí)別,并在自建數(shù)據(jù)集上獲得了86%的準(zhǔn)確率.YE 等[3]將隱馬爾科夫模型與支持向量機(jī)結(jié)合構(gòu)建了一個(gè)多層體系結(jié)構(gòu)的分類器,并根據(jù)結(jié)果動(dòng)態(tài)更新易混淆集來(lái)優(yōu)化,取得了89.4%的準(zhǔn)確率.
雖然傳統(tǒng)的手語(yǔ)翻譯方法取得了一定成果,但其翻譯的準(zhǔn)確率依賴于人工設(shè)置特征的有效性.漢語(yǔ)手語(yǔ)詞種類較多,且部分手語(yǔ)詞手勢(shì)動(dòng)作較為復(fù)雜,給人工設(shè)置特征造成了一定困難,同時(shí)人工設(shè)置特征是一個(gè)非常耗時(shí)的工作,這也導(dǎo)致了傳統(tǒng)的手語(yǔ)翻譯方法很難拓展到更大的手語(yǔ)數(shù)據(jù)集上.
近年來(lái)隨著計(jì)算機(jī)算力的提升和基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)的發(fā)展,在手語(yǔ)翻譯領(lǐng)域越來(lái)越多的學(xué)者開(kāi)始進(jìn)行基于深度學(xué)習(xí)的手語(yǔ)翻譯方法研究.KOLLER 等[4]提出的混合卷積神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型,結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別能力和隱馬爾可夫模型的序列建模能力,在PHOENIX-2014數(shù)據(jù)集上取得了較好的結(jié)果.HUANG 等[5]提出了一種新的三維卷積神經(jīng)網(wǎng)絡(luò),它可以自動(dòng)從原始視頻流中提取出具有鑒別性的時(shí)空特征,從而避免特征設(shè)計(jì).作者通過(guò)使用多通道視頻流作為輸入,整合顏色、深度、軌跡信息,并在微軟Kinect 收集的數(shù)據(jù)集上驗(yàn)證了該方法的有效性.YANG等[6]將卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)合,構(gòu)建了一個(gè)可用于連續(xù)手語(yǔ)翻譯的模型,其借助卷積神經(jīng)網(wǎng)絡(luò)將手語(yǔ)視頻中抓取的圖像信息轉(zhuǎn)換為矢量,然后使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)完成序列學(xué)習(xí)任務(wù),并在自建數(shù)據(jù)集上取得了較高的準(zhǔn)確率.2014 年注意力機(jī)制[7]在自然語(yǔ)言處理領(lǐng)域被提出之后便成為國(guó)內(nèi)外學(xué)者的研究熱點(diǎn),也有部分學(xué)者將注意力機(jī)制應(yīng)用到手語(yǔ)翻譯的研究中.如ZHOU 等[8]使用自注意力網(wǎng)絡(luò)作為全局特征提取器結(jié)合CTC(連接時(shí)序分類)進(jìn)行手語(yǔ)翻譯,并在RWTH-PHOENIX-Weather 2014 取得了31.3% 的詞錯(cuò)率 .SLIMANE 等[9]提出了一種用于連續(xù)手語(yǔ)的注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)注意力機(jī)制將手部特征與時(shí)空上下文進(jìn)行聚合以更好地識(shí)別,并在RWTH-PHOENIX-Weather 2014 數(shù)據(jù)集上驗(yàn)證了該方法的有效性.
為進(jìn)一步提升手語(yǔ)詞翻譯的準(zhǔn)確率,并克服上述方法由于手語(yǔ)動(dòng)作視頻較長(zhǎng)導(dǎo)致模型不能有效地關(guān)注到復(fù)雜手語(yǔ)詞動(dòng)作的上下文信息的問(wèn)題,本文在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)結(jié)合長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的翻譯模型中添加了一個(gè)全局注意力機(jī)制以解決上述問(wèn)題,并與其他算法的翻譯準(zhǔn)確率進(jìn)行了比較.
以RGB 手語(yǔ)視頻作為輸入的手語(yǔ)翻譯任務(wù)可以轉(zhuǎn)換為一個(gè)視頻多分類任務(wù).在漢語(yǔ)手語(yǔ)詞的翻譯中需要關(guān)注時(shí)間特征與空間特征,將視頻中手語(yǔ)動(dòng)作的時(shí)空特征結(jié)合才能提取出手語(yǔ)動(dòng)作的語(yǔ)義.故對(duì)于手語(yǔ)視頻需先將其逐幀分割成圖像,通過(guò)對(duì)圖像的卷積操作來(lái)提取單幀圖像的空間特征,按照視頻中的時(shí)間順序?qū)⑺崛〉膯螏瑘D像的空間特征組成特征序列之后,再提取特征序列的時(shí)間特征,由此通過(guò)時(shí)空特征信息對(duì)手語(yǔ)視頻進(jìn)行翻譯,整體網(wǎng)絡(luò)模型如圖1所示.
圖1 基于全局注意力的網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network architecture based on global attention
手語(yǔ)翻譯的模型由用于提取空間特征的卷積神經(jīng)網(wǎng)絡(luò)、用于提取時(shí)間特征的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)、用于幫助模型關(guān)注序列中關(guān)鍵部分的全局注意力機(jī)制組成,其中對(duì)于卷積神經(jīng)網(wǎng)絡(luò)本文選用ResNet34.數(shù)據(jù)經(jīng)預(yù)處理之后輸入到模型中,由ResNet34 對(duì)單幀手語(yǔ)圖像特征進(jìn)行提取,并以固定的幀數(shù)將所提取出的空間特征組成特征序列,經(jīng)由一個(gè)線性層送入LSTM 中對(duì)空間特征序列的時(shí)間特征進(jìn)行提取,然后將時(shí)空特征送入注意力層.注意力層中所使用的全局注意力機(jī)制可以通過(guò)一個(gè)可訓(xùn)練的參數(shù)來(lái)計(jì)算對(duì)齊向量,最終得出上下文向量(1.4節(jié)),由此可以使模型關(guān)注到手語(yǔ)視頻中的關(guān)鍵幀.最后通過(guò)softmax層進(jìn)行分類輸出.
若要完成手語(yǔ)詞的高精度翻譯,則需對(duì)于單幀圖像中手語(yǔ)動(dòng)作的空間特征提取盡可能得充分,從而保證能夠完整地獲取到手勢(shì)特征.為滿足這點(diǎn)需求,用于提取空間特征的網(wǎng)絡(luò)層數(shù)勢(shì)必會(huì)增加,而傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)如 VGG[10]和 GoogleNet[11]隨著層數(shù)的增加有可能出現(xiàn)過(guò)擬合、梯度消失和梯度爆炸等問(wèn)題;另一方面隨著網(wǎng)絡(luò)層數(shù)的加深,計(jì)算資源消耗也會(huì)大量增加.而HE 等[12]提出的深度殘差網(wǎng)絡(luò)可以有效地避免以上問(wèn)題,ResNet 由殘差塊堆疊而成,核心思想就是通過(guò)跳轉(zhuǎn)連接的方式來(lái)解決隨著層數(shù)加深網(wǎng)絡(luò)退化的問(wèn)題,其中殘差塊結(jié)構(gòu)如圖2 所示.其中x 為輸入,F(xiàn)(x)為映射函數(shù),期望的最終映射輸出H(x) = F(x) + x,其結(jié)果就是映射函數(shù)與輸入之和.若F(x) = 0,則構(gòu)成了一個(gè)恒等映射.該方法可以有效地解決深度網(wǎng)絡(luò)的梯度消失或爆炸等問(wèn)題.
圖2 殘差塊Fig.2 Residual block
由于本文所使用的手語(yǔ)數(shù)據(jù)集均在室內(nèi)環(huán)境下統(tǒng)一拍攝,背景單一且分割后的圖像幀分辨率不高,因此不需要更多層的ResNet 來(lái)進(jìn)行訓(xùn)練,另外更多層的ResNet 也會(huì)增加計(jì)算開(kāi)銷,故本文選用ResNet34,其結(jié)構(gòu)如圖3所示.
圖3 ResNet34網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 ResNet34 network structure
圖3 中Block_1 中使用兩個(gè)卷積核大小為3 × 3,通道數(shù)為 64 的卷積層,構(gòu)成一個(gè)如圖 2 所示的殘差塊,3個(gè)殘差塊堆疊成Block_1,同理Block_2、Block_3、Block_4也按照?qǐng)D3中所標(biāo)注的方式進(jìn)行堆疊.在同一個(gè)Block 中由于通道數(shù)一致,故采用H(x) = F(x) + x 的計(jì)算方式,不同Block 之間由于通道數(shù)不同,采用H(x) = F(x) + Wx 的計(jì)算方式,其中W為用于調(diào)整通道數(shù)的卷積操作.
對(duì)于ResNet34 所提取的空間特征序列,需要提取時(shí)序特征從而獲取手語(yǔ)視頻動(dòng)作的時(shí)空特征,再進(jìn)行翻譯,而循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以很好地處理時(shí)序信息,其中長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[13]在RNN 結(jié)構(gòu)的網(wǎng)絡(luò)中表現(xiàn)較為優(yōu)秀[14],尤其是其能夠?qū)W習(xí)長(zhǎng)期的依賴關(guān)系,用于處理手語(yǔ)翻譯這類在前后時(shí)序關(guān)系上存在依賴的問(wèn)題尤為合適,LSTM 記憶單元結(jié)構(gòu)圖如圖4所示.
圖4 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)記憶單元結(jié)構(gòu)Fig.4 LSTM memory cell structure
LSTM 核心思想為采用遺忘門、輸入門、輸出門對(duì)信息單元進(jìn)行控制,這3 個(gè)門決定了什么信息將會(huì)被舍棄,什么信息將會(huì)被輸出以及添加什么新信息.其中遺忘門決定上一個(gè)記憶單元中需要舍棄的信息,其通過(guò)輸入上一個(gè)記憶單元的狀態(tài)輸出ht-1和當(dāng)前狀態(tài)輸入信息xt到sigmoid 函數(shù)中產(chǎn)生一個(gè)0~1 之間的數(shù)并與Ct-1相乘之后決定保留多少信息,具體公式可表示為:
其中Wf表示輸入層到遺忘門的向量,σ 表示sigmoid激活函數(shù),bf表示遺忘門與記憶單元的偏移量.
輸入門決定了哪些新信息將會(huì)被輸入,其通過(guò)上一狀態(tài)輸出ht-1和當(dāng)前狀態(tài)輸入信息xt通過(guò)sigmoid 函數(shù)決定要保留多少新信息,同時(shí)tanh 層也會(huì)通過(guò)ht-1和xt來(lái)得到一個(gè)將要加入到記憶單元中的新信息,公式可表示為:
其中Wi和WC分別表示輸入層到輸入門和記憶單元的權(quán)重向量,bi與bC則表示隱藏層到輸入門和記憶單元的偏移量.
輸出門則決定輸出什么信息,其流程與前面類似,同樣經(jīng)過(guò)sigmoid 函數(shù)得到ot來(lái)確定需要有多少信息從記憶單元中被輸出,公式如下:
而Wo與bo分別表示隱藏層到輸出門上的權(quán)重向量和輸出門與記憶單元的偏移量.將全部記憶單元的輸出ht進(jìn)行加權(quán)平均再通過(guò)softmax 層即可得到手語(yǔ)詞類別.
本文為解決ResNet-LSTM 模型在處理長(zhǎng)手語(yǔ)視頻時(shí)由于特征序列較長(zhǎng)從而導(dǎo)致手語(yǔ)翻譯的準(zhǔn)確率下降的問(wèn)題,在模型中嵌入了一種全局注意力機(jī)制[15],如圖5中虛線所框,注意力模塊幫助模型關(guān)注到特征序列中對(duì)于翻譯結(jié)果更為有用的部分,提升模型的翻譯準(zhǔn)確率.
圖5 全局注意力機(jī)制Fig.5 Global attention mechanism
全局注-意力機(jī)制在LSTM 頂層上增加一個(gè)注意力層,其中hS為源隱藏狀態(tài),ht為當(dāng)前-目標(biāo)的隱藏狀態(tài),at為對(duì)齊權(quán)重,ct為上下文向量,ht為注意力隱藏狀態(tài).注意力模型通過(guò)一個(gè)評(píng)分-函數(shù)在t 時(shí)刻根據(jù)當(dāng)前目標(biāo)狀態(tài)ht和所有源狀態(tài)hS計(jì)算出二者的相似度,評(píng)分函數(shù)如下:
使用一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)連接隱藏狀態(tài),通過(guò)這個(gè)網(wǎng)絡(luò)獲得可學(xué)習(xí)的二維參數(shù)矩陣Wa和一維參數(shù)向量vTa,從而計(jì)算出評(píng)分.本文使用兩個(gè)全連接層實(shí)現(xiàn)評(píng)分函數(shù)中的這個(gè)網(wǎng)絡(luò),其中第一層輸入和第二層的輸出都對(duì)應(yīng)著LSTM 隱藏層的維數(shù).在得到評(píng)分之后可以通過(guò)softmax 函數(shù)計(jì)算出對(duì)齊權(quán)重at,計(jì)算公式如下:
上-下文向量ct可通過(guò)計(jì)算對(duì)齊權(quán)重at和源隱藏狀態(tài)hS的加權(quán)平均值獲得,通過(guò)一個(gè)簡(jiǎn)單的全連接層來(lái)組合給定的目標(biāo)隱藏狀態(tài)ht和上-下文向量ct兩者的信息以求得注意力隱藏狀態(tài)ht,其公式可表示為:
對(duì)于計(jì)算出的注意力隱藏狀態(tài)-ht通過(guò)softmax層產(chǎn)生預(yù)測(cè)概率,見(jiàn)公式(7).從而完成手語(yǔ)詞的翻譯任務(wù).
本實(shí)驗(yàn)采用的數(shù)據(jù)集為中國(guó)科學(xué)技術(shù)大學(xué)所采集的 DEVISIGN_D 數(shù)據(jù)集[16].該數(shù)據(jù)集是 DEVISIGN數(shù)據(jù)集的子集,包含了500個(gè)漢語(yǔ)手語(yǔ)的常用詞,其中每個(gè)詞語(yǔ)由RGB 視頻和深度骨架信息構(gòu)成.數(shù)據(jù)集由8名不同的手語(yǔ)表演者演示.對(duì)于其中4名表演者每個(gè)手語(yǔ)詞匯錄制兩遍,另外4 名表演者每個(gè)手語(yǔ)詞匯錄制一遍,總共6000組數(shù)據(jù).
首先將手語(yǔ)視頻數(shù)據(jù)逐幀分割成圖像,通過(guò)觀察分割成幀后的圖像可知其中包含部分無(wú)關(guān)的背景信息,而數(shù)據(jù)集中手語(yǔ)表演者均處在中間位置,故對(duì)圖片進(jìn)行粗略裁剪,僅保留圖像中間包含手語(yǔ)表演者的矩形部分,流程如圖6所示.
圖6 視頻數(shù)據(jù)處理Fig.6 Video data processing
通過(guò)觀察裁剪后的圖像發(fā)現(xiàn)存在大量的無(wú)用幀,即手語(yǔ)表演者開(kāi)始錄制視頻時(shí)的靜止畫面和抬手動(dòng)作,如圖7所示.此類無(wú)用幀對(duì)于整個(gè)手語(yǔ)序列無(wú)任何實(shí)際意義,而且大量的無(wú)用幀也會(huì)影響模型的訓(xùn)練速度.
圖7 無(wú)用幀示例Fig.7 Examples of useless frames
對(duì)于此類無(wú)用幀的剔除,本實(shí)驗(yàn)選取每個(gè)手語(yǔ)視頻分割后的第一幀圖像作為基準(zhǔn)圖像,用其余圖像與基準(zhǔn)圖像計(jì)算兩張圖像的余弦相似度,若大于某閾值則剔除.在確定閾值時(shí)根據(jù)經(jīng)驗(yàn)選定閾值范圍,并通過(guò)多組實(shí)驗(yàn)確定閾值設(shè)定為0.997 時(shí)效果最好.對(duì)于剔除無(wú)用幀之后的6000 組圖像采用翻轉(zhuǎn)、旋轉(zhuǎn)的方法增強(qiáng)數(shù)據(jù)集,使數(shù)據(jù)集擴(kuò)大到原來(lái)的4倍.
實(shí)驗(yàn)中使用Pytorch 1.8框架實(shí)現(xiàn)本文所提出的模型,并進(jìn)行訓(xùn)練和測(cè)試.操作系統(tǒng)為Ubuntu18.04,GPU為NVIDIARTX 3090,處理器為Intel(R)Xeon(R)Glod 5218 R,內(nèi)存為64 G.
由于本文研究的是漢語(yǔ)連續(xù)手語(yǔ)詞的翻譯,故使用連續(xù)視頻幀作為輸入,設(shè)置連續(xù)的16幀圖像為一個(gè)輸入序列.為減少訓(xùn)練時(shí)間,實(shí)驗(yàn)中加載了Pytorch提供的ResNet34預(yù)訓(xùn)練模型,參數(shù)見(jiàn)表1.
表1 訓(xùn)練參數(shù)Tab.1 Training parameters
圖8為訓(xùn)練集和測(cè)試集損失值與準(zhǔn)確率變化趨勢(shì),藍(lán)色曲線代表訓(xùn)練集,橙色曲線代表測(cè)試集,左圖為訓(xùn)練過(guò)程中損失值變化,右圖為準(zhǔn)確率變化.在訓(xùn)練過(guò)程中,使用了Pytorch內(nèi)置的ResNet34預(yù)訓(xùn)練模型,訓(xùn)練時(shí)間大大縮短.隨著迭代次數(shù)增加,損失值逐漸減小、準(zhǔn)確率不斷上升,并在迭代40 次之后趨于平穩(wěn),當(dāng)?shù)?3次時(shí)得到模型翻譯準(zhǔn)確率的最高值86.24%.
圖8 損失值與準(zhǔn)確率變化Fig.8 Loss and accuracy change
表2 為本文提出的在LSTM 中嵌入全局注意力機(jī)制的模型與其他手語(yǔ)翻譯模型在DEVISIGN_D 數(shù)據(jù)集上準(zhǔn)確率的對(duì)比.由表2可知,本文模型的準(zhǔn)確率高于其他模型.對(duì)于HMM-DTW 這樣使用傳統(tǒng)方法的模型,由于缺乏深度學(xué)習(xí)方法的特征提取能力,受限于人工特征設(shè)置,導(dǎo)致該模型在使用了RGB 視頻和深度骨架信息兩種數(shù)據(jù)作為輸入的情況下準(zhǔn)確率雖優(yōu)于DNN,但仍低于大多數(shù)深度學(xué)習(xí)模型.3DCNN 模型在傳統(tǒng)2DCNN 基礎(chǔ)上增加了一個(gè)維度,可以用于處理時(shí)間維度.但其對(duì)時(shí)間維度的處理依賴于連續(xù)圖像的卷積計(jì)算,所以也沒(méi)有取得較好的結(jié)果.CNN 與LSTM 相結(jié)合的模型使用CNN 提取圖像特征、LSTM 提取時(shí)序特征達(dá)到手語(yǔ)視頻翻譯的目的.由于傳統(tǒng)CNN 隨著網(wǎng)絡(luò)層數(shù)的加深會(huì)出現(xiàn)退化,導(dǎo)致CNN 對(duì)圖像特征的提取有限.通過(guò)將CNN 換成ResNet34 可以解決網(wǎng)絡(luò)退化的問(wèn)題,并加深網(wǎng)絡(luò)深度進(jìn)一步提取圖像特征.
表2 不同數(shù)據(jù)集上的準(zhǔn)確率Tab.2 Accuracy on different dataset
本文所提出的基于全局注意力機(jī)制模型準(zhǔn)確率較ResNet34+LSTM 提升1.91%達(dá)到86.24%.通過(guò)分析,本文模型在空間特征提取方面采用ResNet34加深網(wǎng)絡(luò)層數(shù),能更好地提取空間特征信息.在時(shí)序特征提取時(shí)加入了全局注意力機(jī)制,使模型可以關(guān)注到整個(gè)手語(yǔ)動(dòng)作序列中對(duì)翻譯出手語(yǔ)語(yǔ)義更為重要的部分,從而獲得了更高的準(zhǔn)確率.
為進(jìn)一步研究在模型中嵌入的全局注意力機(jī)制對(duì)模型的影響,證明其對(duì)長(zhǎng)手語(yǔ)視頻翻譯的有效性,本文從DEVISIGN_D 中劃分出了兩個(gè)子集:一個(gè)子集為視頻長(zhǎng)度較短的100 類手語(yǔ)視頻,稱其為DEVISIGN_DS;另一個(gè)為視頻長(zhǎng)度較長(zhǎng)的100 類手語(yǔ)視頻,稱其為DEVISIGN_DL,見(jiàn)表3.
表3 劃分后的數(shù)據(jù)集Tab.3 Partitioned data set
使用這兩個(gè)100分類的數(shù)據(jù)集和DEVISIGN_D,分別在添加注意力機(jī)制和未添加注意力機(jī)制的情況下對(duì)模型進(jìn)行訓(xùn)練,并且兩者參數(shù)設(shè)置相同,實(shí)驗(yàn)結(jié)果如表4所示.
表4 注意力模塊作用驗(yàn)證 %Tab.4 Effect validation of attention module %
結(jié)果表明:添加了注意力機(jī)制的模型在3 個(gè)數(shù)據(jù)集中的準(zhǔn)確率均高于未添加注意力機(jī)制的模型.通過(guò)對(duì)比模型添加注意力機(jī)制前后在DEVISIGN_DS 和DEVISIGN_DL 上的準(zhǔn)確率,可知模型對(duì)長(zhǎng)序列手語(yǔ)視頻翻譯準(zhǔn)確率的提升更大,證明了該注意力機(jī)制可以有效地關(guān)注到長(zhǎng)手語(yǔ)視頻序列中的關(guān)鍵幀,同時(shí)也證明了該注意力機(jī)制添加到模型中的有效性.
為使手語(yǔ)翻譯模型更好地關(guān)注到手語(yǔ)序列中的關(guān)鍵部分,本文在ResNet 和LSTM 組合的模型中嵌入全局注意力機(jī)制,對(duì)手語(yǔ)詞進(jìn)行翻譯.該模型首先通過(guò)殘差網(wǎng)絡(luò)來(lái)提取單幀手語(yǔ)圖像的空間特征;然后將多個(gè)連續(xù)幀的空間特征組成特征序列輸入到長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)提取時(shí)序特征;最后通過(guò)模型中所嵌入的全局注意力機(jī)制計(jì)算出序列中哪些部分對(duì)手語(yǔ)視頻翻譯的影響更大,進(jìn)而達(dá)到使模型能自己關(guān)注手語(yǔ)視頻中關(guān)鍵幀的目的.結(jié)果表明:加入注意力機(jī)制的模型對(duì)比未加入注意力機(jī)制的模型翻譯準(zhǔn)確率有所提升,加入注意力機(jī)制之后的模型優(yōu)于其他模型.在下一步工作中將嘗試將此方法由手語(yǔ)詞的翻譯擴(kuò)展到手語(yǔ)句的翻譯,并優(yōu)化注意力機(jī)制帶來(lái)的計(jì)算開(kāi)銷.
中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年4期