国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)視頻描述的中國(guó)手語(yǔ)識(shí)別

2021-04-01 13:08袁甜甜楊學(xué)
關(guān)鍵詞:手語(yǔ)模態(tài)文獻(xiàn)

袁甜甜,楊學(xué)

基于多模態(tài)視頻描述的中國(guó)手語(yǔ)識(shí)別

袁甜甜,楊學(xué)

天津理工大學(xué)聾人工學(xué)院, 天津 300384

計(jì)算機(jī)視覺(jué)是目前我國(guó)新一代人工智能科技發(fā)展的重要方向,手語(yǔ)識(shí)別因其在連續(xù)性、復(fù)雜場(chǎng)景干擾等問(wèn)題上的困難,導(dǎo)致其研究不僅可以解決聽(tīng)障人對(duì)無(wú)障礙信息溝通的真實(shí)需要,還可極大的促進(jìn)視頻理解及分析領(lǐng)域的快速發(fā)展,從而在安防、智能監(jiān)控等方面也有很好的落地應(yīng)用。通過(guò)比較國(guó)內(nèi)外多種基于視頻描述和分析的手勢(shì)識(shí)別方法,給出了視頻手語(yǔ)識(shí)別和基于深度學(xué)習(xí)的視頻描述的策略分析。對(duì)使用原始視頻幀、視頻光流和目前先進(jìn)的姿態(tài)估計(jì)技術(shù)等方法進(jìn)行了比較,進(jìn)而提出適用于中國(guó)手語(yǔ)視頻數(shù)據(jù)的多模態(tài)描述策略、訓(xùn)練模型架構(gòu)及時(shí)空注意力模型。使用具有深度信息輔助的視頻描述及訓(xùn)練方法,通過(guò)實(shí)驗(yàn)驗(yàn)證BLEU-4值可達(dá)52.3,較前期使用的基礎(chǔ)方法提高約20%。但由于該方法所使用的深度信息在現(xiàn)實(shí)情況下并不容易獲得,因此研究由手機(jī)或電腦攝像頭獲取的普通RGB視頻的描述及識(shí)別方法是未來(lái)的發(fā)展方向。

手語(yǔ)識(shí)別; 視頻描述; 多模態(tài)

在基于視頻描述的手語(yǔ)識(shí)別領(lǐng)域,目前大多數(shù)的方法都是使用多模態(tài)方法,將原始視頻幀、光流和姿態(tài)估計(jì)結(jié)合在一起。與普通的Seq2Seq體系結(jié)構(gòu)相比,使用注意力建模和遷移學(xué)習(xí)等技術(shù)能提供更好的性能,進(jìn)而提高現(xiàn)有模型在本研究中的性能和準(zhǔn)確性。

1 相關(guān)研究分析

1.1 視頻描述策略

文獻(xiàn)[1]研究了基于時(shí)間殘差網(wǎng)絡(luò)的手勢(shì)和手語(yǔ)識(shí)別,研究人員試圖在一個(gè)連續(xù)的大詞匯視頻流中設(shè)計(jì)手勢(shì)和手語(yǔ)識(shí)別模型。研究人員將此問(wèn)題作為一個(gè)框架分類(lèi)問(wèn)題來(lái)處理,使用了深度學(xué)習(xí)的最新成果,如殘差網(wǎng)絡(luò)、批量標(biāo)準(zhǔn)化和指數(shù)線性單元(ELUS)等。文獻(xiàn)[2]基于深度學(xué)習(xí)的手語(yǔ)識(shí)別姿態(tài)估計(jì)方法進(jìn)行研究,人體姿態(tài)估計(jì)和手部檢測(cè)是實(shí)現(xiàn)基于計(jì)算機(jī)視覺(jué)的手語(yǔ)識(shí)別(SLR)系統(tǒng)的兩項(xiàng)重要任務(wù)。然而,這兩項(xiàng)任務(wù)都具有挑戰(zhàn)性,尤其是當(dāng)輸入是沒(méi)有深度信息的彩色視頻時(shí)。該方法也使用了RGB格式,而不是RGB-D,同時(shí)介紹了一種用于SLR的人體姿態(tài)估計(jì)的數(shù)據(jù)集。通過(guò)對(duì)數(shù)據(jù)集進(jìn)行用戶獨(dú)立的實(shí)驗(yàn),評(píng)估了兩種基于深度學(xué)習(xí)的姿態(tài)估計(jì)方法的性能。另外還進(jìn)行了遷移學(xué)習(xí),得到的結(jié)果表明遷移學(xué)習(xí)可以提高姿態(tài)估計(jì)精度,但這只有當(dāng)原始任務(wù)和目標(biāo)任務(wù)之間的差異較小時(shí)才有效。

文獻(xiàn)[3]提出了一種用于視頻描述的多模態(tài)結(jié)構(gòu),該結(jié)構(gòu)依靠記憶網(wǎng)絡(luò)和注意力機(jī)制。記憶網(wǎng)絡(luò)從二維CNN中捕捉長(zhǎng)期的時(shí)間動(dòng)態(tài)特征以幫助記憶長(zhǎng)期的有效信息,注意力機(jī)制則有助于更為有效的提取和學(xué)習(xí)視覺(jué)概念及特征。此外,還引入了特征選擇算法來(lái)選擇相關(guān)特征。文獻(xiàn)[4]提出了一種針對(duì)視頻描述的多模態(tài)記憶建模,該模型建立了一個(gè)可視化的文本共享記憶模型,以模擬長(zhǎng)期的視頻文本依賴關(guān)系,進(jìn)一步指導(dǎo)全局注意力來(lái)描述目標(biāo)?;痉椒ㄊ峭ㄟ^(guò)與視頻和句子進(jìn)行交互,通過(guò)多次讀寫(xiě)操作,在存儲(chǔ)和檢索視覺(jué)和文本內(nèi)容上附加額外的記憶。首先,將基于文本解碼的長(zhǎng)短期記憶(LSTM)的文本表示寫(xiě)入記憶,記憶內(nèi)容將引導(dǎo)注意力模型選擇相關(guān)的視覺(jué)目標(biāo),然后將選定的視覺(jué)信息再寫(xiě)入記憶,并將進(jìn)一步讀出進(jìn)行文本解碼。文獻(xiàn)[5]提出了用于多模態(tài)推理和匹配的雙重注意力網(wǎng)絡(luò)(DANs),它利用視覺(jué)和文本信息的聯(lián)合機(jī)制來(lái)捕獲視覺(jué)和語(yǔ)言之間的細(xì)粒度交互。它有兩個(gè)模型,r-DAN用于多模態(tài)推理,m-DAN用于多模態(tài)匹配,研究試圖在視覺(jué)問(wèn)答工具中找到應(yīng)用。文獻(xiàn)[6]將使用注意力模型的學(xué)習(xí)型多模態(tài)結(jié)構(gòu)用于視頻描述。這種體系結(jié)構(gòu)利用多模流和時(shí)間注意,在句子生成期間選擇性地關(guān)注特定元素。文獻(xiàn)[7]的主要工作是用于多模態(tài)推理和匹配的,研究人員使用3D CNN取代2D ConvNets以便在視頻圖案識(shí)別中取得更好的結(jié)果。

文獻(xiàn)[8]研究通過(guò)深度神經(jīng)網(wǎng)絡(luò)的基于摘要的視頻描述,研究人員提供的架構(gòu)類(lèi)似于我們目前對(duì)手語(yǔ)視頻描述的研究,從CNN中提取視覺(jué)特征并將其輸入RNN。文獻(xiàn)提出了一種新穎的、設(shè)計(jì)良好的自動(dòng)總結(jié)過(guò)程,該過(guò)程通過(guò)在句子序列圖上排序來(lái)減少噪音。該方法經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證在視頻描述的語(yǔ)言生成度量和SVO準(zhǔn)確率方面性能更好。文獻(xiàn)[9]中,研究人員嘗試設(shè)計(jì)一種可以調(diào)整時(shí)間注意的分層LSTM模型。具體地說(shuō),所提出的框架利用時(shí)間注意來(lái)選擇特定的框架來(lái)預(yù)測(cè)相關(guān)單詞,而調(diào)整后的時(shí)間注意則用來(lái)決定是依賴視覺(jué)信息還是語(yǔ)言上下文信息。此外,分層LSTM設(shè)計(jì)也同時(shí)考慮了底層視覺(jué)信息和高層語(yǔ)言上下文信息,以支持視頻描述生成。文獻(xiàn)[10]嘗試提出一種新的用于視頻表示及描述的層次遞歸神經(jīng)編碼HRNE,研究人員使用分層LSTM,提出RGB數(shù)據(jù)集上的視頻描述模型。通過(guò)縮短輸入信息流的長(zhǎng)度,并在更高的層次上合成多個(gè)連續(xù)的輸入,能夠在更大的范圍內(nèi)有效地利用視頻時(shí)間結(jié)構(gòu)。當(dāng)輸入是非線性時(shí),計(jì)算操作大大減少。實(shí)驗(yàn)證明,研究人員的方法在視頻描述基準(zhǔn)方面優(yōu)于最新技術(shù)。值得注意的是,即使使用一個(gè)只有RGB流作為輸入的單一網(wǎng)絡(luò),HRNE也擊敗了所有最近結(jié)合多個(gè)輸入的系統(tǒng)。文獻(xiàn)[11]同樣提出了一種使用多模態(tài)結(jié)構(gòu)的視頻描述方法,研究人員使用原始視頻幀和光流圖像作為輸入以轉(zhuǎn)換為文本序列。該模型使用CNN提取特征,并將這些特征進(jìn)一步輸入到LSTM層。

1.2 RGB-D場(chǎng)景下視頻理解所用的深度CNNs

1.2.1 從RGB-CNNs遷移學(xué)習(xí)文獻(xiàn)[12]用深度CNN對(duì)RGB-D場(chǎng)景進(jìn)行識(shí)別。由于遷移學(xué)習(xí)沒(méi)能在訓(xùn)練中提高多少準(zhǔn)確率,因此研究人員嘗試尋找新的方法在小數(shù)據(jù)集上可以獲取更好的準(zhǔn)確率。研究人員聲稱遷移學(xué)習(xí)幾乎不能到達(dá)底層,因此找到了另一種策略通過(guò)結(jié)合全局的圖像微調(diào)和弱監(jiān)督訓(xùn)練來(lái)訓(xùn)練底層學(xué)習(xí)深度特征。文獻(xiàn)還提出了一種改進(jìn)的CNN體系結(jié)構(gòu),以進(jìn)一步匹配模型的復(fù)雜性和可用數(shù)據(jù)量。該模型在只有深度數(shù)據(jù)和RGB-D數(shù)據(jù)的情況下都達(dá)到了很高的精確度。

1.2.2 使用3D卷積神經(jīng)網(wǎng)絡(luò)的手語(yǔ)識(shí)別文獻(xiàn)[13]嘗試使用3D CNN將手語(yǔ)轉(zhuǎn)化成文字。研究人員使用RGB-D數(shù)據(jù)集,為提高性能,研究人員將多通道的視頻流包括顏色信息、深度線索、身體關(guān)節(jié)位置等作為輸入到3D CNN,以整合顏色、深度和軌跡信息。該模型在用Microsoft Kinect收集的真實(shí)數(shù)據(jù)集上進(jìn)行了驗(yàn)證,并證明了其相對(duì)于傳統(tǒng)方法基于手語(yǔ)識(shí)別特征的有效性。

2 方法描述

目前與手語(yǔ)識(shí)別最貼近的領(lǐng)域是視頻描述生成 (Video Captioning),基本思想是將視頻和文本映射到同一語(yǔ)義空間或者兩者空間可以通過(guò)某種算法進(jìn)行轉(zhuǎn)換。我們注意到目前手語(yǔ)視頻描述的模型不僅可以提高準(zhǔn)確性,還可以使用更好的架構(gòu)方法提高性能。通過(guò)對(duì)比研究上述文獻(xiàn),我們的分析結(jié)果是:

(1)視頻描述問(wèn)題有許多新的解決方法,其中包括新的特征提取方法,如輸入原始視頻、使用光流和姿態(tài)估計(jì)等。

(2)使用多模態(tài)結(jié)構(gòu)結(jié)合所有這些特征將比單獨(dú)獲得這些特征會(huì)得到更好的效果。

(3)可以利用注意力模型和記憶模型從視頻中提取時(shí)間和視覺(jué)信息,以獲得比使用典型的ConvLSTM 架構(gòu)更高的精度。

(4)使用3D CNN架構(gòu)而不是使用帶有LSTM 的2D CNN可以獲得更好的結(jié)果。

(5)卷積Seq2Seq模型相對(duì)于傳統(tǒng)的Seq2Seq模型,速度更快并且性能更好。使用卷積Seq2Seq模型代替?zhèn)鹘y(tǒng)版本,可以提高模型的性能,并且能更好的并行化網(wǎng)絡(luò),這將提高我們研究的性能。

綜上所述,我們獲取原始視頻的多模態(tài)結(jié)構(gòu)特征的具體步驟如下:

(1)用OpenPose、OpenFace及ArtTrack提取視頻中手語(yǔ)者的臉部、手型和身體姿態(tài)的關(guān)鍵圖片,結(jié)合手語(yǔ)語(yǔ)言學(xué)先驗(yàn)知識(shí)形成圖像序列。我們提取了25個(gè)身體關(guān)節(jié)特征,如圖1(左)所示。這些標(biāo)準(zhǔn)化的骨骼關(guān)節(jié)坐標(biāo)除了可以為后續(xù)圖像和骨骼處理做準(zhǔn)備之外,還可使手語(yǔ)者與攝像機(jī)的距離不會(huì)成為特征提取的影響因素。除了身體關(guān)節(jié),我們也可為每只手定位21個(gè)手指關(guān)節(jié),并與身體關(guān)節(jié)一起正則化。之后通過(guò)預(yù)先訓(xùn)練的ArtTrack模型生成了28×20×14維的特征圖,將身體及手部的正則表示形式轉(zhuǎn)化為圖像,并通過(guò)一個(gè)2×2的最大池層,將該特征映射扁平化到一個(gè)1×1680的特征向量中。這種矢量表示法使用卷積特征映射來(lái)預(yù)測(cè)不同的身體及手部關(guān)節(jié)位置,具有豐富的空間信息。由于手語(yǔ)動(dòng)作過(guò)程中,面部表情也擁有不可忽視的表達(dá)作用,因此我們也提取了面部關(guān)鍵點(diǎn)和動(dòng)作單元,其中面部關(guān)鍵點(diǎn)是由68個(gè)(x,y)坐標(biāo)構(gòu)成,而動(dòng)作單元?jiǎng)t是用于捕捉面部表情的關(guān)鍵信息,如抬起眉毛、撅起嘴巴、皺眉等,如圖1(右中)所示。在對(duì)身體、臉部、手指關(guān)節(jié)進(jìn)行局部特征提取之后,我們還采用CNN卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻幀提取全局特征,對(duì)視頻進(jìn)行空間標(biāo)注及對(duì)應(yīng)文本的標(biāo)注等,最后進(jìn)行全連接多模融合。

圖 1 手部、身體及臉部特征的提取

(2)將前兩步獲得的多模特征合并作為循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入,最終獲得相關(guān)的語(yǔ)素信息。在訓(xùn)練階段采用了編碼-解碼的翻譯模式進(jìn)行識(shí)別。在編碼階段,將特征提取獲取的特征向量通過(guò)分詞層預(yù)測(cè)單詞特征,即經(jīng)過(guò)CNN和兩個(gè)LSTM連接最后通過(guò)HMM得到預(yù)測(cè)單詞的條件概率,通過(guò)兩個(gè)循環(huán)的RNN,最后輸出編碼后的單詞預(yù)測(cè)向量集合。在解碼階段,通過(guò)標(biāo)志來(lái)表示手語(yǔ)語(yǔ)序的開(kāi)始,并同編碼階段的最后一個(gè)隱藏特征向量一起進(jìn)行RNN運(yùn)算,然后再經(jīng)過(guò)第二層RNN所得數(shù)據(jù)和編碼階段獲得的單詞特征預(yù)測(cè)向量集的加權(quán)一起,經(jīng)過(guò)關(guān)注層的注意力模型運(yùn)算,獲取的單詞預(yù)測(cè)概率向量經(jīng)過(guò)全連接獲得最終的預(yù)測(cè)概率。根據(jù)上下文單詞關(guān)系依次翻譯出其他單詞的概率,最終解碼出所有單詞的概率(|),其中y=(1,2,…,y)是具有個(gè)詞的文本句子,=(1,2,…,x)是具有幀的手語(yǔ)視頻,h是解碼階段的初始隱藏矢量。

在這個(gè)過(guò)程中要進(jìn)行模型選擇和超參數(shù)調(diào)節(jié),由(|)的反饋不斷的調(diào)整編碼-解碼模型和多模特征提取,從而得到一個(gè)最優(yōu)的神經(jīng)網(wǎng)絡(luò)架構(gòu)。同時(shí)通過(guò)最小化具有姿態(tài)特征P和學(xué)習(xí)參數(shù)的視頻的損失,優(yōu)化了對(duì)數(shù)似然度,其中w是步驟中的單詞。

在手語(yǔ)圖像到語(yǔ)素信息、語(yǔ)素信息到文字信息的轉(zhuǎn)換過(guò)程中,我們將手語(yǔ)序列轉(zhuǎn)換為健聽(tīng)人可以理解的自然語(yǔ)言。在特征提取的基礎(chǔ)上,通過(guò)HMM(隱式馬爾科夫鏈)迭代的將語(yǔ)素信息翻譯為正常文本。此過(guò)程將基于手語(yǔ)語(yǔ)言學(xué),結(jié)合面部表情識(shí)別,融入音位、形態(tài)學(xué)、句法、手語(yǔ)習(xí)得、神經(jīng)語(yǔ)言學(xué)等先驗(yàn)知識(shí),來(lái)有效提升手語(yǔ)識(shí)別效果。訓(xùn)練模型架構(gòu)[14]如圖2所示。

圖 2 模型架構(gòu)

其中,關(guān)注層引入手部及面部表情的時(shí)空注意力模型以提升生成視頻注解的質(zhì)量。訓(xùn)練模型在Encode階段會(huì)在每個(gè)時(shí)間點(diǎn)生成一個(gè)詞語(yǔ),而時(shí)刻生成的詞語(yǔ)取決于時(shí)刻?1生成的詞語(yǔ)和網(wǎng)絡(luò)中的隱藏狀態(tài)h?1。對(duì)于時(shí)刻,網(wǎng)絡(luò)的輸入為那一時(shí)刻的手勢(shì)動(dòng)態(tài)特征向量z。令a,=1,...,為時(shí)刻從圖像的區(qū)域提取的注解信息。對(duì)于每個(gè)a,需計(jì)算權(quán)重α,即在生成z的過(guò)程中a應(yīng)該被賦予的權(quán)重,該值為正數(shù)。使用全連接神經(jīng)網(wǎng)絡(luò)f來(lái)計(jì)算α。如公式(1)和(2)。

當(dāng)所有權(quán)重全部計(jì)算完之后,z由公式(3)得出:

這里需使用神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)函數(shù)。由于手語(yǔ)句子長(zhǎng)度的變化,設(shè)計(jì)這種注意力模型的參數(shù)版本,可使模型處理不同長(zhǎng)度的輸入,即模型重點(diǎn)關(guān)注的位置不再固定,而取決于已生成的詞語(yǔ)序列。

3 討論

訓(xùn)練時(shí)的輸入為視頻序列和相應(yīng)的標(biāo)注文本對(duì)。測(cè)試期間,將來(lái)自測(cè)試視頻的幀編碼輸入到經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中,一旦所有幀被處理,當(dāng)句子開(kāi)始關(guān)鍵字輸入到網(wǎng)絡(luò),即會(huì)觸發(fā)單詞的生成直到出現(xiàn)句子結(jié)束關(guān)鍵字。我們使用文獻(xiàn)[15]所建立的句子級(jí)連續(xù)手語(yǔ)數(shù)據(jù)集進(jìn)行特征提取和模型訓(xùn)練。

一般在進(jìn)行測(cè)試集的選取時(shí),主要采取留出法、交叉驗(yàn)證法及自助法三種[16]。留出法通常將約2/3的數(shù)據(jù)用于訓(xùn)練,其他作為測(cè)試,兩集合不相交,即=∪,∩=,其中為全部數(shù)據(jù),為訓(xùn)練集,為測(cè)試集;交叉驗(yàn)證法相當(dāng)于是多組留出法測(cè)試結(jié)果的均值,即先將劃分為個(gè)大小相似且互斥的子集,=1∪2∪…∪D,DD=(≠),然后每次取-1個(gè)子集作為訓(xùn)練集,剩下的一個(gè)作為測(cè)試集,從而獲得組測(cè)試結(jié)果,最后返回其均值;在上述兩種方法中,由于保留了一部分?jǐn)?shù)據(jù)用于測(cè)試,導(dǎo)致訓(xùn)練用數(shù)據(jù)少于全部數(shù)據(jù),這有可能會(huì)讓訓(xùn)練集的規(guī)模影響成為引起模型估計(jì)偏差的主要因素之一。自助法是一種比較好的解決方案,即從數(shù)據(jù)集中選取訓(xùn)練數(shù)據(jù)時(shí),當(dāng)前被選取的數(shù)據(jù)并不從中移走,而下次選取時(shí)仍有可能被選到,使得中有一部分?jǐn)?shù)據(jù)會(huì)在訓(xùn)練集中出現(xiàn)多次,而同時(shí)也有一部分?jǐn)?shù)據(jù)不會(huì)出現(xiàn)在訓(xùn)練集中,這種方法在數(shù)據(jù)集較小且難以有效劃分訓(xùn)練和測(cè)試集時(shí)是很有用的。

我們?cè)趯?shí)驗(yàn)中對(duì)于訓(xùn)練集和測(cè)試集的選取類(lèi)似于自助法,且鑒于文獻(xiàn)[15]給出的討論,我們篩選了重復(fù)率在10次以上的包含2240個(gè)句子的集合A和隨機(jī)選取了重復(fù)率未達(dá)到10次的3000個(gè)句子的集合B進(jìn)行對(duì)比訓(xùn)練和分析。兩組訓(xùn)練模型均使用相同的測(cè)試集,該集合共包含450個(gè)句子,為上述兩個(gè)訓(xùn)練集混合后的隨機(jī)選取,即450個(gè)句子中每句來(lái)自集合A或集合B的概率相同。所有視頻均進(jìn)行每240幀的等距采樣,然后利用本文第二部分的方法從每幀中提取手部骨骼、面部和姿態(tài)特征。我們使用jieba分詞工具來(lái)標(biāo)記視頻對(duì)應(yīng)的文本句子,并使用BLEU分?jǐn)?shù)來(lái)評(píng)估預(yù)測(cè)文本和真實(shí)文本之間的性能,結(jié)果如表1和表2所示。其中BLEU-表示個(gè)字詞連續(xù)的預(yù)測(cè)效果,值越高表示預(yù)測(cè)結(jié)果與真實(shí)文本的相似程度越高,即識(shí)別的越準(zhǔn)確。

可見(jiàn)我們將手部骨骼、身體矢量和面部等多模特征結(jié)合起來(lái)的預(yù)測(cè)效果較單模特征識(shí)別在手語(yǔ)的語(yǔ)法、語(yǔ)義理解等方面可以滿足更好識(shí)別效果的需求。因?yàn)榫褪终Z(yǔ)而言,只有手勢(shì)或身體姿態(tài)的識(shí)別是不能全面體現(xiàn)手語(yǔ)表達(dá)的,而手語(yǔ)者的面部表情信息占了語(yǔ)義理解的很大一部分空間。同時(shí),從實(shí)驗(yàn)結(jié)果中我們還分析得出,集合A可作為測(cè)試模型的快速檢測(cè)集合,因?yàn)槠渲械木渥又貜?fù)率使得手語(yǔ)詞匯的重復(fù)率基本達(dá)到了50次[15],致使這部分詞匯的預(yù)測(cè)效果要遠(yuǎn)好于其他詞匯,從而可作為測(cè)試模型是否能夠過(guò)擬合的快速檢驗(yàn)方法。而集合B可用于估計(jì)整個(gè)數(shù)據(jù)集上的訓(xùn)練模型性能,因?yàn)閿?shù)據(jù)集中仍有較大比例的句子是不滿足重復(fù)率要求的,使用集合B則更能體現(xiàn)數(shù)據(jù)集整體所提供的預(yù)測(cè)訓(xùn)練效果。結(jié)果表明,雖然使用我們的多模特征視頻描述方法可在一定程度上提高手語(yǔ)視頻的識(shí)別效果,但仍然需要有重復(fù)率更高、質(zhì)量更好的數(shù)據(jù)集作為支撐,只有重復(fù)率達(dá)到一定要求的句子,其訓(xùn)練效果才可基本滿足識(shí)別要求。在后面的工作中我們需進(jìn)一步擴(kuò)充樣本數(shù)量,提高數(shù)據(jù)樣本的重復(fù)率和錄制質(zhì)量,如保證視頻畫(huà)面的穩(wěn)定性、提供已標(biāo)注的對(duì)齊的RGB視頻和深度視頻、增加錄制環(huán)境的多樣性以提供復(fù)雜場(chǎng)景下手語(yǔ)識(shí)別的普適度等等。

表 1 BLEU分值

表 2 識(shí)別效果

4 結(jié)論

基于視頻描述的手語(yǔ)識(shí)別是一個(gè)多學(xué)科交叉的研究課題,既要懂計(jì)算機(jī)科學(xué),還要懂手語(yǔ)語(yǔ)言學(xué)。而且手語(yǔ)識(shí)別與傳統(tǒng)語(yǔ)言識(shí)別有著本質(zhì)差異。傳統(tǒng)語(yǔ)言的識(shí)別和翻譯建立在單模態(tài)基礎(chǔ)上的,而手語(yǔ)識(shí)別是基于多模態(tài)的,以空間計(jì)算為主。由于手語(yǔ)的手部形狀、位置和方向、頭部動(dòng)作、面部表情及軀干姿勢(shì)等這些信息都包含語(yǔ)言學(xué)意義上必不可少的內(nèi)容,因此手語(yǔ)識(shí)別需要將手語(yǔ)詞法、句法和語(yǔ)用等概念貫穿在空間建模、隱喻、語(yǔ)義等視頻描述、模型訓(xùn)練的各個(gè)階段。目前由于聾人和聽(tīng)人在交流過(guò)程中對(duì)攜帶設(shè)備的抵觸心理及設(shè)備本身的不易攜帶性,均導(dǎo)致由深度手語(yǔ)數(shù)據(jù)輔助的視頻描述和識(shí)別變得不利于廣泛應(yīng)用。因此,團(tuán)隊(duì)正在努力實(shí)現(xiàn)利用手機(jī)攝像頭收集和識(shí)別不帶有深度信息的普通RGB視頻,現(xiàn)已開(kāi)始數(shù)據(jù)收集階段。

手語(yǔ)識(shí)別技術(shù)的研究將極大地促進(jìn)具有自主知識(shí)產(chǎn)權(quán)的服務(wù)于聽(tīng)障人的軟件系統(tǒng)的研發(fā),符合國(guó)家在殘疾人保障及精準(zhǔn)扶貧等各方面的政策。同時(shí),計(jì)算機(jī)視覺(jué)是政府各部門(mén)大力支持的研究方向,將該技術(shù)運(yùn)用到幫扶聽(tīng)障人方面將極具先進(jìn)性,也是殘聯(lián)和地方政府著力發(fā)展的領(lǐng)域,有廣闊的應(yīng)用前景,對(duì)促進(jìn)聽(tīng)障人無(wú)障礙融入社會(huì)、提升聽(tīng)障人就業(yè)水平等方面具有非常重要的意義。

[1]Pigou L, Van Herreweghe M, Dambre J. Gesture and sign language recognition with temporal residual networks [C]//International Conference on Computer Vision Workshop (ICCVW). Venice Italy: IEEE, 2017:3085-3093

[2]Gattupalli S, Ghaderi A, Athitsos V. Evaluation of deep learning based pose estimation for sign language recognition [C]//Proceedings of the 9th ACM International Conference on PErvasive Technologies Related to Assistive Environments (PETRA). Corfu, Island, Greece: ACM Press the 9thInternational Conference, 2016

[3]Fang XZ, Li W, GuoDS. Multimodal architecture for video captioning with memory networks and an attention mechanism [J]. Pattern Recognition Letters, 2018,105(1):23-29

[4]WangJB, WangW, HuangY,. Multimodal memory modelling for video captioning [C]//CVF Conference on Computer Vision AND pattern Recongnition. Salt Lake City, US: IEEE, 2016

[5]Nam H, Ha JW, Kim J. Dual attention networks for multimodal reasoning and matching [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017,:299-307

[6]Xu J, Yao T, Zhang YD,. Learning multimodal attention LSTM networks for video captioning [C]//Proceedings of ACM on Multimedia Conference. California: ACM, 2018

[7]Patnaik K, Siyari P, Krishnan V,. Learning hand features for sign language recognition [N/OL]. https://github.com/payamsiyari/GT-Deep-Learning-for-Sign-Language-Recognition/blob/master/Report.pdf.

[8]Li G, Ma SB, Han YH. Summarization-based Video Caption via Deep Neural Networks [C]. Proceedings of the 23rd ACM international conference on multimedia.Brisbane:ACM, 2015

[9]Song JK, Guo Z, Gao LL,. Hierarchical LSTM with adjusted temporal attention for video captioning [C]. 26th International Joint Conference on Artificial Intelligence. Melbourne:IEEE,2017

[10]Pan PB, Xu ZW, Yang Y,. Hierarchical recurrent neural encoder for video representation with application to captioning [C]. IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016

[11]Venugopal S, Rohrbach M, Donahue J,. Sequence to sequence video to text [C]. International Conference on Computer Vision. Santiago: IEEE, 2015

[12]SongXH, HerranzL, JiangS. Depth CNNs for RGB-D scene recognition: learning from scratch better than transferring from RGB-CNNs [C]. The 32ndAAAI Conference on Artificial Intelligence. New Orleans: IEEE, 2018

[13]HuangJ, ZhouWG, LiHQ,. Sign language recognition using 3d convolutional neural networks [C]. International Conference on Multimedia and Expo. Torino: IEEE, 2015

[14]Camgoz NC, Had?eld S, Koller O,. Neural Sign Language Translation [C]. IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018

[15]袁甜甜,趙偉,楊學(xué),等.大規(guī)模中國(guó)連續(xù)手語(yǔ)數(shù)據(jù)集的創(chuàng)建與分析[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(11):110-116

[16]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016

Chinese Sign Language Recognition Based on Multimodal Video Captioning

YUAN Tian-tian, YANG Xue

300384,

Computer vision is an important direction in the development of new generation Artificial Intelligence technology in our country at present. Because of its difficulties in continuity and complex scene interference, the research of sign language recognition can not only solve the real needs of deaf people for barrier-free information communication, but also greatly promote the rapid development of video understanding and analysis, so it has a good landing application in security, intelligent monitoring and so on. By comparing many gesture recognition methods based on video description and analysis, the strategies of sign language recognition and video description based on depth learning are given. The methods of using original video frame, video optical stream and advanced attitude estimation technology are compared, and then a multi-modal description strategy suitable for Chinese sign language video is proposed, and the training model architecture and attention model are proposed. Using the video description and training method assisted by depth information, the experimental results show that the BLEU- 4 value can reach 52.3, which is about 20% higher than that of the baseline method. However, because the depth information used in this method is not easy to obtain in reality, it is the future direction to study the description and recognition method of ordinary RGB video obtained by mobile phone or computer camera.

Sign language recognition; video captioning; multimode

TP387

A

1000-2324(2021)01-0143-06

10.3969/j.issn.1000-2324.2021.01.025

2019-08-11

2019-10-24

天津市工業(yè)企業(yè)發(fā)展專(zhuān)項(xiàng)資金項(xiàng)目(201807111)

袁甜甜(1980-),女,博士,副教授,主要從事機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、聾人高等教育等工作. E-mail:yuantt2013@126.com

猜你喜歡
手語(yǔ)模態(tài)文獻(xiàn)
聯(lián)合仿真在某車(chē)型LGF/PP尾門(mén)模態(tài)仿真上的應(yīng)用
多模態(tài)超聲監(jiān)測(cè)DBD移植腎的臨床應(yīng)用
Hostile takeovers in China and Japan
跨模態(tài)通信理論及關(guān)鍵技術(shù)初探
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
無(wú)聲的世界里,怎樣唱一首歌?
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
奇怪的手語(yǔ)圖
日版《午夜兇鈴》多模態(tài)隱喻的認(rèn)知研究