国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

唇語識別的視覺特征提取方法綜述

2021-12-13 12:53馬金林鞏元文馬自萍陳德光朱艷彬劉宇灝
計算機與生活 2021年12期
關(guān)鍵詞:唇語唇部特征提取

馬金林,鞏元文,馬自萍,陳德光,朱艷彬,劉宇灝

1.北方民族大學 計算機科學與工程學院,銀川 750021

2.圖像圖形智能處理國家民委重點實驗室,銀川 750021

3.北方民族大學 數(shù)學與信息科學學院,銀川 750021

唇語識別是通過分析一系列唇部運動信息來推斷說話者所說內(nèi)容,涉及模式識別、語音處理、圖像分類和自然語言處理等多個領(lǐng)域[1],具有廣闊的應(yīng)用前景。早期的唇語識別系統(tǒng)采用人工標注特征作為唇部視覺特征,一系列圖像序列作為模型輸入,此類方法僅保證了下游任務(wù)能進行分類識別,而不考慮獲取特征的有效性,因此下游任務(wù)識別精度通常較低。近年來,隨著人類需求的增加,僅采用圖像序列作為模型輸入的唇語系統(tǒng)獲取的視覺效果遠不能達到人類的期望值,人們開始尋求有效的視覺特征。

唇語識別系統(tǒng)一般由視覺特征提取和分類識別兩個階段組成,唇部視覺特征提取的有效性是下游任務(wù)獲取良好表現(xiàn)的關(guān)鍵。理想情況下,視覺特征應(yīng)包含足夠多對識別有效的信息量,并對視頻中的噪聲表現(xiàn)出一定程度的魯棒性[2]。但頭部姿勢、光照條件、視頻拍攝角度等因素對提取的視覺特征質(zhì)量具有很大的影響。因此,多年來學者們一直致力于對高效唇部視覺特征的研究。本文將唇部視覺特征提取方法分為傳統(tǒng)提取方法和深度學習提取方法兩類,這兩類視覺特征提取方法的架構(gòu)如圖1 所示。

如圖1(a),傳統(tǒng)的視覺特征提取方法主要依靠人工標注,存在易受外界環(huán)境影響,耗時長、效率與精度低的問題。采用幾何特征[3]、紋理特征[4]和外觀特征[5]作為視覺特征的方法可以有效解決上述問題。幾何特征采用唇部的高度、寬度和面積等作為視覺特征;外觀特征則采用口腔和牙齒的張合度作為特征;紋理特征采用尺度不變特征轉(zhuǎn)換或者方向梯度直方圖等算法提取圖像視覺特征,是常用的一種特征。上述方法雖然在一定程度上保證提取特征的有效性,但是存在很大的局限性,不能應(yīng)用于真實自然環(huán)境中,且分類識別準確度也比較低。

Fig.1 Visual feature extraction structure圖1 視覺特征提取結(jié)構(gòu)圖

如圖1(b),基于深度學習的唇部視覺特征提取方法是目前的主流方法,這類方法使用深度模型自動提取唇部的視覺特征,最常使用的模型結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)。根據(jù)網(wǎng)絡(luò)維數(shù)的不同,基于深度學習的唇部視覺特征提取方法可分為:基于二維卷積網(wǎng)絡(luò)(2D convolutional neural network,2D CNN)、基于三維卷積與二維卷積網(wǎng)絡(luò)相結(jié)合(3D convolutional neural network and 2D convolutional neural network,3D CNN+2D CNN)的提取方法和基于三維卷積網(wǎng)絡(luò)(3D convolutional neural network,3D CNN)。除卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)以外,還包含其他結(jié)構(gòu)用于提取視覺特征,如自動編碼機制、前饋神經(jīng)網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)。深度學習的特征提取方法是目前效果最好的方法,它解決了傳統(tǒng)方法不能自動提取特征的問題,在提取高效性特征、算法性能、效率和泛化能力等方面得到一致認可。

1 唇語數(shù)據(jù)集

唇語數(shù)據(jù)集是推動視覺語音識別和唇語識別發(fā)展的關(guān)鍵[6]。早期的數(shù)據(jù)集專注于特定和簡單的識別任務(wù),例如:基于字母或者數(shù)字識別、基于句子識別等。優(yōu)點是這些數(shù)據(jù)集可以很快地被用于唇語識別領(lǐng)域,但是由于存在受試者數(shù)量和記錄數(shù)量有限、與真實環(huán)境存在差異的問題,而很難廣泛應(yīng)用于真實環(huán)境。后期的數(shù)據(jù)集更側(cè)重處理復雜任務(wù),并同時考慮了各種影響因素(例如:光照、頭部姿勢、分辨率、視角等)。本文根據(jù)拍攝視角將這些數(shù)據(jù)集劃分為正視圖數(shù)據(jù)集和多視圖數(shù)據(jù)集兩類。

1.1 正視圖數(shù)據(jù)集

目前常用的正視圖數(shù)據(jù)集包括:AVLetters[7]、GRID[8]、OuluVS[9]和LRW[10]。除此之外,還包含數(shù)據(jù)集IBMIH[11]和MOBIO[12]等。

GRID 數(shù)據(jù)集是視聽雙模態(tài)數(shù)據(jù)集,常用于端到端句子級水平的研究,該數(shù)據(jù)集句子結(jié)構(gòu)遵循一定的規(guī)律,由六類單詞構(gòu)成,分別為“命令”“顏色”“介詞”“字母”“數(shù)字”和“副詞”,每一類單詞都有固定的數(shù)量。

AVLetters 數(shù)據(jù)集同樣為視聽雙模態(tài)數(shù)據(jù)集,主要用于研究說話者變化對唇語識別任務(wù)的影響,由5名受試者分別朗讀26 個字母7 遍錄制完成,缺點是該數(shù)據(jù)集僅能用于特定任務(wù)的研究。

不同于GRID 數(shù)據(jù)集和AVLetters數(shù)據(jù)集,OuluVS數(shù)據(jù)集結(jié)構(gòu)不遵循規(guī)律,廣泛用于日常生活用語自動唇語系統(tǒng)的評估,數(shù)據(jù)來源于10 個日常生活用語,收集過程分為兩部分:第一部分收集10 個人的數(shù)據(jù),10 人均來自不同國家,語速和發(fā)音存在一定差異;另一部分收集剩余10 個人的數(shù)據(jù),但該數(shù)據(jù)集在構(gòu)建過程中未考慮到受試者男女比例問題。

為滿足大規(guī)模數(shù)據(jù)集的需求,LRW 數(shù)據(jù)集于2016 年被提出,共分為500 類,數(shù)據(jù)來源于BBC 廣播電視節(jié)目,該數(shù)據(jù)集主要用于英文單詞的識別任務(wù),滿足了研究者對數(shù)據(jù)量的需求。

1.2 多視圖數(shù)據(jù)集

在自然環(huán)境中,唇語識別的研究并不能保證輸入的圖像總是正視圖。實際環(huán)境中唇語識別系統(tǒng)需要解決多視圖問題。此外,研究表明,使用非正視圖在一定程度上能提高唇語識別性能[13],這是因為非正視圖能更好地顯示唇部的突起、唇部變化過程和唇部成圓效果等。Kumar 等人[14]在實驗中也表明非正視圖唇語識別的性能優(yōu)于正視圖。隨著多視圖研究的發(fā)展,涌現(xiàn)出許多基于多視圖的數(shù)據(jù)集,常用多視圖數(shù)據(jù)集有:CUAVE[15]、LILiR[16]、LTS5[17]、OuluVS2[18]、LRS2-BBC[19]、LRS3-TED[20]和LRW-1000[21]。

CUAVE 數(shù)據(jù)集是包含36 名受試者的數(shù)字數(shù)據(jù)集,數(shù)據(jù)集劃分為兩部分:第一部分由受試者說出50個孤立的數(shù)字,在說話過程中伴隨著頭部和身體的移動和傾斜,拍攝角度包含-90°、0°和90°;第二部分由受試者說出連續(xù)數(shù)字序列,但是未考慮頭部角度對識別性能的影響。

基于此,LILiR 數(shù)據(jù)集和LTS5 數(shù)據(jù)集分別于2010 年和2011 年被提出,LILiR 數(shù)據(jù)集錄制角度在CUAVE 數(shù)據(jù)集的基礎(chǔ)上增加了0°、30°、45°和60°,共包含200 個句子。但LTS5 數(shù)據(jù)集在視頻錄制過程中未考慮到光照因素,導致視頻唇部區(qū)域出現(xiàn)部分陰影,因此數(shù)據(jù)集的質(zhì)量不高。

OuluVS2數(shù)據(jù)集、LRS2-BBC數(shù)據(jù)集和LRS3-TED 數(shù)據(jù)集均屬于大規(guī)模句子級數(shù)據(jù)集,拍攝角度變化較大,適用于不同視圖下的研究。

LRW-1000 數(shù)據(jù)集為解決中文數(shù)據(jù)集短缺而被提出,該數(shù)據(jù)集在拍攝過程中考慮了光照、姿態(tài)、年齡和性別等因素,貼近于真實環(huán)境,是目前研究者廣泛使用的中文數(shù)據(jù)集,因其具有很大的挑戰(zhàn)性,所以近年在該數(shù)據(jù)集上的識別率較低。

綜上,這些開源數(shù)據(jù)集對唇語識別的發(fā)展起到了很好的推動作用,然而目前現(xiàn)存數(shù)據(jù)集仍存在一些不足。首先,不同的數(shù)據(jù)集收集來源、數(shù)據(jù)集結(jié)構(gòu)、拍攝時所使用的設(shè)備和數(shù)據(jù)的維度等方面有所差異,因此,很難獲取泛化性能較好的唇語識別模型;其次,不同的數(shù)據(jù)集考慮到不同的影響因素,與真實環(huán)境差異較大,這也是唇語識別領(lǐng)域目前所有數(shù)據(jù)集存在的普遍性問題。因此構(gòu)建標準、統(tǒng)一和貼近于真實環(huán)境的數(shù)據(jù)集是推動唇語識別領(lǐng)域進一步發(fā)展的一項重要工作。表1 展示了兩類相關(guān)數(shù)據(jù)集的詳細信息。

Table 1 Datasets of lip reading表1 唇語相關(guān)數(shù)據(jù)集

2 傳統(tǒng)的唇部視覺特征提取方法

為了貼近真實環(huán)境,目前大部分唇語識別研究均要求所提取的唇部視覺特征能夠用來描述說話這個動態(tài)過程,而不僅僅是獲取描述單幀靜態(tài)圖像的信息。傳統(tǒng)唇部視覺特征提取方法有多種劃分策略。榮傳振等人[22]根據(jù)是否采用模型將特征提取方法劃分為三類:像素點提取方法、模型提取方法、混合提取方法。Dupont 等人[23]根據(jù)不同的特征提取方法將特征提取方法劃分為四類:基于圖像的方法、基于動作的方法、基于幾何特征和基于模型的方法。本文從不同的視覺特征角度將傳統(tǒng)的唇部視覺特征提取方法進行歸類總結(jié),主要分為三類:基于像素點的方法、基于形狀的方法和基于混合特征的方法。

2.1 基于像素點的方法

提取唇部視覺特征首先考慮的是充分利用視頻幀中的所有信息,而基于像素點的方法將圖像中包含唇部區(qū)域的所有像素點作為原始特征,采用系列預處理方法對原始特征降維,得到具有一定表現(xiàn)力的特征。目前,基于像素點的方法主要有多級線性變換法、光流法和局部像素特征法。

線性變換是常用的降維方法,這類特征提取方法通過對特征向量進行變換,降低特征向量的維數(shù)。由于單個線性變換方法不能提取到最佳特征,大多數(shù)基于像素點的方法都是由多級線性變換組成,包含幀內(nèi)線性變換和幀間的線性變換。層次線性判別分析(hierarchical linear discriminant analysis,HILDA)[24]是典型的算法之一,其將二維可分離DCT 對唇部區(qū)域做變換后的24 個能量最高的系數(shù)作為唇部靜態(tài)特征,由LDA 捕獲幀間動態(tài)信息,MLLT 進一步改進數(shù)據(jù)建模,但是該方法采用單流的融合方法,限制了有效特征的獲取,導致最終的識別精度不高。為進一步提高識別精度,Marcheret 等人[25]引入多流決策融合算法,提出對音頻和視頻流兩個模態(tài)的可靠性特征進行選擇,并加入對不同模態(tài)特征選擇的動態(tài)權(quán)值估計,效果明顯優(yōu)于靜態(tài)加權(quán)方法。上述提取的唇部視覺特征大部分依賴于說話者,為降低說話者依賴性,Almajai 等人[26]在訓練過程中加入說話者自適應(yīng)訓練(speaker adaptive training,SAT),利用特定說話者數(shù)據(jù)對說話者無關(guān)的編碼進行改造,針對說話者獨立的識別取得了較高的識別精度,但是,由于數(shù)據(jù)集的限制,該方法在訓練階段并沒有進行特征學習,導致結(jié)果存在一定的不合理性。

光流法是利用圖像序列中像素在時域變化的前后幀之間的相關(guān)性,找出前后幀之間的對應(yīng)關(guān)系,計算相鄰幀之間的運動信息。Shaikh等人[27]將光流作為唇語識別任務(wù)的視覺特征,試圖獲取幀間唇部運動信息。但光流法對唇部輪廓亮度變化和說話者姿勢變化非常敏感且對光流的提取較為昂貴。

早期為降低光照變化對唇部像素值的影響往往是采用像素的局部特征。典型的方法是局部二值模式(local binary patterns,LBP)[28],但是局部二值模式只能處理單個視頻幀,無法處理連續(xù)視頻幀。因此,采用三個原始平面的局部二值模式(local binary patterns from three original planes,LBP-TOP)[29]方法被引入,Zhao等人[9]從原始唇部圖像和界面累積時間模式中計算LBP 特征,使用時空局部紋理特征來描述動態(tài)視覺信息,解決了說話者較大變化的特征選擇問題,但在模式上具有相似性,丟失了更多精細的多分辨率特征,而且對輸入視頻長度要求較高。Zhou等人[30]在同樣條件下,在計算LBP 特征前,分為手動和自動兩種方式確定唇部位置,將數(shù)據(jù)劃分為干凈數(shù)據(jù)和噪聲數(shù)據(jù),分別采用LBP-TOP 方法提取唇部的時空信息,盡管獲取了具有表現(xiàn)力的特征,但忽略了唇部檢測和詞語邊界檢測的精確性問題。方向梯度直方圖(histogram of oriented gradients,HOG)特征結(jié)合運動邊界直方圖(motion boundary histograms,MBH)特征提取唇部時空特征也被廣泛應(yīng)用于唇部視覺特征提取任務(wù)中[31]。

上述方法可以有效地表示唇部的特征信息,保留大部分唇部信息,但基于像素點的方法由于使用所有的像素點信息作為特征空間,易出現(xiàn)特征維數(shù)冗余問題,而且對外界環(huán)境和唇部自身變化非常敏感,特征提取能力受限,使最終識別精度不高。

2.2 基于形狀的方法

基于形狀的方法是建立唇部輪廓模型,將構(gòu)成模型的參數(shù)作為視覺特征。主要分為幾何特征和輪廓特征,幾何特征將唇部張開的高度、寬度和面積等作為視覺特征。一般采用自主選擇關(guān)鍵點構(gòu)成參數(shù)模型,Li 等人[32]和Alizadeh 等人[33]分別采用上外唇、下外唇、上內(nèi)唇、下內(nèi)唇四條輪廓線和唇部的高度距離線、寬度距離線、上外唇曲線和下外唇曲線上具有明顯唇部運動的標志點作為關(guān)鍵點,但關(guān)鍵點所構(gòu)成的參數(shù)模板復雜度較高,數(shù)據(jù)計算過程耗費大量時間。與之相似的是對Snake 模型改進,在唇部輪廓上選取6 個關(guān)鍵點,加入分割檢測策略和錯誤檢測恢復策略計算出5 個不同的幾何特征,用于表示唇部視覺特征[34],相比Snake 模型,該方法所獲取的視覺特征更為有效和穩(wěn)定。

輪廓特征是采用唇部邊緣的一些關(guān)鍵點坐標構(gòu)成的特征向量作為視覺特征。采用輪廓特征描述唇部視覺特征常用的兩類方法是Snake 模型[35]和主動形狀模型(active shape model,ASM)[36],但ASM 方法在嘈雜環(huán)境下會陷入局部最小值。這兩類方法適用于灰度圖像處理,往往不能滿足彩色圖像的處理需求,在彩色圖像的特征提取方法上,Chen 等人[37]利用Haar 特征定位口腔區(qū)域,將唇部區(qū)域變換到Y(jié)CrCb顏色空間,再對唇部進行分割,并根據(jù)直方圖熵選擇閾值分割口腔,最后利用主動輪廓模型提取和跟蹤唇部輪廓。雖然該方法有很好的可控性,但由于所選取的關(guān)鍵點大部分位于唇部邊緣輪廓上,特征信息量的多少和識別精度的強弱易受其影響。

2.3 基于混合特征的方法

基于混合特征的方法是通過組合唇部的多種視覺特征來表示整個唇部的視覺特征。通過采用組合特征獲取唇部運動的低級信息和高級信息,從而提取更精確的特征?;旌咸卣鞣椒ǔS玫氖侵鲃颖憩F(xiàn)模型(active appearance model,AAM)[38],AAM 在ASM的基礎(chǔ)上將信息區(qū)域擴大,覆蓋圖像所有區(qū)域,結(jié)合形狀和灰度信息來描述圖像中目標的統(tǒng)計模型。Lan等人[13]將AAM 特征應(yīng)用于唇語識別,結(jié)合像素和形狀特點描述視覺特征,他們認為幀間動態(tài)信息也應(yīng)包含在內(nèi),在后端加入LDA,用于捕獲幀間動態(tài)信息[39]。非理想條件下,該方法所設(shè)計的唇語系統(tǒng)具有完備的理論性和簡單的操作性,適用于簡單詞匯的識別,但是該系統(tǒng)需要復雜的訓練模型,且對過長復雜的詞匯識別易出錯。真實環(huán)境中,說話者往往不是完全基于正面,因此需要從不同角度研究。在通常情況下采用最多的是三維主動表現(xiàn)模型(3D active appearance model,3D AAM)[40],其由傳統(tǒng)的二維主動表現(xiàn)模型(2D active appearance model,2D AAM)從3個不同視角(正面、左側(cè)輪廓、右側(cè)輪廓)構(gòu)建而成,從面部圖像的3 個角度提取唇部視覺特征并進行識別,實驗表明在交叉唇語識別任務(wù)中,同等條件下3D AAM 性能優(yōu)于2D AAM,但3D AAM 對于人工特征點標定的精確度要求較高,且標定過程比較繁瑣,需要多次迭代才能獲取到準確的特征參數(shù),很容易導致局部優(yōu)化問題。為避免這種繁瑣的標定過程和局部優(yōu)化問題,Aleksic 等人[41]和Stillittano 等人[42]在唇部視覺特征提取過程中主要采用Snake 模型,采用PCA(principal component analysis)或唇部輪廓特征與Snake 相結(jié)合的方式,Snake 模型用來檢測唇部內(nèi)外輪廓的關(guān)鍵點,這些關(guān)鍵點用來初始化一個唇部參數(shù)模型,然后根據(jù)亮度和色度梯度的組合,對初始化模型進行優(yōu)化并鎖定最終的唇部輪廓,之后對圖像采用基于唇部邊界關(guān)鍵點跟蹤方法對唇部分割或者是獲取唇部的輪廓特征和灰度特征作為融合特征?;诨旌系奶卣魈崛》椒ǎm然在一定程度上比以往特征提取方法效果好,但是始終不能從根本上解決特征提取有效性的問題。

綜上,三種傳統(tǒng)唇部視覺特征提取方法對比情況如表2 所示。通過對三種方法的描述和對比發(fā)現(xiàn),基于像素點方法應(yīng)用最多,其所有像素點作為原始特征,包含了較多的唇部視覺信息,但屬于高維特征,且對圖像光照變化、唇部變形和旋轉(zhuǎn)非常敏感;基于形狀的方法,自主選取關(guān)鍵點,屬于低維特征,不易受圖像旋轉(zhuǎn)和變換的影響,但需要使用復雜的模型;基于混合特征的方法,組合多種特征,更加關(guān)注圖像不同層次的不同信息,泛化能力更好,但對于自動提取特征仍是一個難題。

表2 (續(xù))

3 深度學習唇部視覺特征提取方法

深度學習因其具有海量數(shù)據(jù)處理能力、強大的自主學習能力和靈活性等特點[6],被廣泛應(yīng)用于各個領(lǐng)域,并取得了顯著性的效果。在唇部視覺特征提取任務(wù)中,深度學習逐漸成為主流研究方法,基于深度學習的多模態(tài)唇語識別更是成為廣大研究者近年來主要的研究方向?;谏疃葘W習的視覺特征提取也有很多劃分策略,Zhou 等人[2]將視覺特征提取分為三類:基于說話者依賴、基于姿勢變換和基于時空信息。本文按照卷積核的維數(shù)將基于深度卷積神經(jīng)網(wǎng)絡(luò)的唇部視覺特征提取進一步劃分為四類:基于二維卷積神經(jīng)網(wǎng)絡(luò)的提取方法、基于三維卷積神經(jīng)網(wǎng)絡(luò)的提取方法、基于三維卷積與二維卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的提取方法和基于其他神經(jīng)網(wǎng)絡(luò)的提取方法。圖2 顯示了基于深度卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法。

Table 2 Comparison of three traditional extraction methods for lip visual features表2 三類傳統(tǒng)唇部視覺特征提取方法對比

Fig.2 Visual feature extraction structure based on CNN圖2 基于CNN 的視覺特征提取結(jié)構(gòu)圖

3.1 基于2D CNN 的視覺特征提取方法

基于2D CNN 的特征提取,是對每一幀圖像分別利用2D CNN 來進行特征提取。其唇部視覺特征提取結(jié)構(gòu)如圖2(a)所示。針對傳統(tǒng)視覺特征提取方法不能自動提取的局限性,Noda 等人[54]首次采用CNN作為唇部視覺特征提取機制,在AlexNet 網(wǎng)絡(luò)模型的基礎(chǔ)上采用包含6 個卷積層(卷積+非線性激活+最大池化層)和1 個全連接層的7 層CNN。利用唇部區(qū)域圖像與音素標簽相結(jié)合的方式訓練CNN,并將CNN的輸出作為唇語識別的視覺特征,后端采用隱馬爾可夫模型和高斯混合觀測模型對下游任務(wù)建模,該方法打破了傳統(tǒng)視覺特征提取的局限性,但不能處理可變長序列。Garg 等人[55]對唇語模型進一步改進,采用VGGNet對可變長彩色圖像序列處理,彩色圖像序列拼接成一幅圖像作為視覺特征提取模型的輸入,后端采用長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)用于提取時間信息。但由于LSTM 性能低于門控單元(gated recurrent unit,GRU),作者使用最近鄰插值的級聯(lián)圖像模型表現(xiàn)良好,對單詞和短語的驗證精度達到76%。該模型表現(xiàn)良好,但同時也面臨著兩個問題:如何獲取更多視覺特征和降低模型計算量。

Lee 等人[47]認為多視圖圖像能在一定程度上增加視覺特征信息,他們在Noda 的基礎(chǔ)上,采用多個視角圖像作為輸入,利用堆疊的卷積層提取多尺度視覺特征,后接LSTM 作為后續(xù)序列時間建模手段。與之不同,Noda 等人[56]考慮到單一模態(tài)有限信息的限制,他們在原有基礎(chǔ)上又添加音頻信號作為模型輸入,用于研究視覺語音識別中無標簽情況下音頻特征和視覺特征之間的相關(guān)性,分別采用深度自動編碼機制和CNN 提取音頻和視頻特征,后引入多流隱馬爾可夫模型將雙流特征信息融合。整個系統(tǒng)自適應(yīng)地切換兩個通道的特征輸入,獲取可靠的特征信息,但是沒有實現(xiàn)雙流的權(quán)重自動選擇,難以用于實際應(yīng)用。針對權(quán)重自動選擇問題,Zhou 等人[57]采用額外的模態(tài)注意力機制整合音視頻信息,對各模態(tài)上下文向量更為關(guān)注,通過調(diào)整注意力權(quán)重來自動選擇更為可靠的模態(tài)信息,從而減輕了噪聲的影響,實驗表明:相比單一模態(tài)識別,該方法相對改善率從2%提高到36%,充分證明了多模態(tài)識別任務(wù)性能優(yōu)于單一模態(tài)識別任務(wù)。Saitoh 等人[58]則采用一種新的級聯(lián)幀圖像(cascaded frame image,CFI),將所有幀拼接成一幅圖像作為模型輸入,使用3 個不同的模型提取視覺特征:第一個是Network in Network 模型[59],Network in Network 是在AlexNet 網(wǎng)絡(luò)的基礎(chǔ)上加入多層感知機層(multi-layer perceptron,MLP)和全局平均池化層(global average pooling,GAP),通過使用4層MLP 和GAP 提取視覺特征,但使用全局平均池化層易造成信息丟失;第二個是使用包含5 個卷積層和3 個全連接層的AlexNet 網(wǎng)絡(luò);第三個則是使用一個22 層的GoogLeNet 網(wǎng)絡(luò)。該方法在原有特征的基礎(chǔ)上又增加了整個圖像序列的時空信息。

為進一步降低2D CNN 和深度學習帶來的高計算量,Mesbah 等人[60]提出了一種基于Hahn 矩的CNN結(jié)構(gòu),通過小型體系結(jié)構(gòu)提取和保留圖像中的有效信息,減少冗余,降低模型的計算量。

采用基于2D CNN 的唇部視覺特征提取方法,很好地解決了自動提取特征問題,所提取的視覺特征比傳統(tǒng)的維度壓縮方法更具表現(xiàn)力。但此類方法僅可以對單幀圖像處理,對連續(xù)幀圖像處理能力較弱,忽視了連續(xù)幀之間的時空相關(guān)性。

3.2 基于3D CNN 的視覺特征提取方法

基于3D CNN 的特征提取方法則很好地處理了連續(xù)幀的時間維度問題,能同時提取連續(xù)幀的時間和空間信息。圖2(b)所示為基于3D CNN 的唇部視覺特征提取結(jié)構(gòu)圖。LipNet[61]是第一個同時學習時空視覺特征和序列模型的端到端句子級唇語識別模型。該模型將T幀RGB 圖像序列作為輸入,送入由3層三維卷積層構(gòu)成的時空卷積網(wǎng)絡(luò)中,每個時空卷積神經(jīng)網(wǎng)絡(luò)后面都接有一個空間最大池化層,由該結(jié)構(gòu)提取輸入幀的時空特征。后端網(wǎng)絡(luò)由兩層雙向門控單元(bi-gated recurrent unit,Bi-GRU)將提取的特征進一步聚合,最后連接主義時間分類(connectionist temporal classification,CTC)進行損失分析,但CTC 存在明顯的缺點:要求輸入序列必須大于輸出序列,其次由于條件獨立性假設(shè)的約束,導致類別間的遠近程度無法更好地體現(xiàn)。Fung 等人[62]在視覺前端采用了相同的結(jié)構(gòu),不同的是他們使用8 層3D 卷積作為視覺特征提取器,雖然獲得較好的效果,但是隨著網(wǎng)絡(luò)深度加深,梯度信息回流時易受到阻礙。對于CTC 和梯度信息回流的問題,Xu 等人[63]提出了LCANet視頻編碼器網(wǎng)絡(luò),將輸入視頻送至疊加的3D CNN,該網(wǎng)絡(luò)通過3D CNN 對視覺短時信息進行編碼,利用在3D CNN 中增加的兩層Highway Network(后期殘差網(wǎng)絡(luò)的雛形),解決深層網(wǎng)絡(luò)中梯度信息回流問題。為了能從較長的上下文中清晰地捕獲信息,LCANet 將前端輸出的編碼信息輸入級聯(lián)注意網(wǎng)絡(luò)中,注意力機制在一定程度上弱化了條件獨立性假設(shè)對CTC 丟失的約束,提高了唇語模型的建模能力,同時也提高了下游識別任務(wù)的準確率。

唇語識別作為一項特殊的視頻理解任務(wù),高效的視頻理解模型同樣可應(yīng)用于唇語識別中。針對大規(guī)模圖像和視頻數(shù)據(jù)集的訓練,深度的三維卷積能提高分類精度,2019 年,Weng 等人[64]將視頻理解領(lǐng)域的I3D 雙流模型作為視覺前端,將灰度視頻幀和光流作為視覺前端模型的輸入,對兩個分支提取的視覺特征信息進行通道上的拼接,后接LSTM 對融合后的特征進行建模。實驗證明:在處理大規(guī)模數(shù)據(jù)集的條件下,將輸入光流作為輔助手段能獲取更多有效視覺信息,同時I3D 也有效地提高了后端識別任務(wù)的精度。為進一步提高識別精度,Wiriyathammabhum[65]采用動作識別的SpotFast 網(wǎng)絡(luò)作為視覺特征提取網(wǎng)絡(luò),作者采用時間窗口作為慢路徑,所有的幀作為快速路徑。后端進一步使用結(jié)合記憶增強網(wǎng)絡(luò)的Transformers 學習序列特征分類,記憶增強網(wǎng)絡(luò)在不增加計算量的同時能有效提高神經(jīng)網(wǎng)絡(luò)的容量,處理變長序列輸入。該網(wǎng)絡(luò)相比于I3D 網(wǎng)絡(luò)性能更優(yōu)越。

3D CNN 雖然能夠解決連續(xù)幀時空相關(guān)性問題,但在一定程度上也丟失了二維卷積對細粒度特征信息的提取。而且隨著網(wǎng)絡(luò)層數(shù)的加深,存在參數(shù)計算量大和存儲開銷大的問題,對硬件設(shè)備性能要求較高。針對上述問題,基于2D CNN 與3D CNN 相結(jié)合的模型則同時解決了時空特征和局部細粒度特征提取的問題。

3.3 基于2D CNN 與3D CNN 結(jié)合的視覺特征提取方法

為了提取到連續(xù)幀的時空特征同時能解決3D CNN 所產(chǎn)生的問題,人們提出基于3D CNN 與2D CNN 相結(jié)合的方式,其示意圖如圖2(c)所示?;?D CNN 與3D CNN 相結(jié)合的方式有兩種:第一種將深層2D CNN 的第一層卷積修改為3D CNN,由3D CNN 捕捉連續(xù)幀之間的時空信息,后連接深層2D CNN 提取唇部圖像局部特征;第二種在使用深層2D CNN 之前首先采用淺層的3D CNN 對視頻幀進行預處理。對于第一種方式,Stafylakis 等人[66]和Feng 等人[67]將標準的ResNet 架構(gòu)第一層卷積由2D CNN 修改為3D CNN,用于處理連續(xù)幀圖像序列,將提取到的特征映射接入時空池化層,降低三維特征映射空間大小。后接殘差網(wǎng)絡(luò)的剩余層提取局部細粒度特征。對于第二種方式,Afouras 等人[68]在2D CNN 前面添加一層時空3D CNN,然后使用ResNet網(wǎng)絡(luò)作為局部特征提取機制,并通過調(diào)節(jié)說話者的唇部運動或聲音將目標說話者從其他說話者和背景噪聲中分離,實現(xiàn)一種視聽語音增強網(wǎng)絡(luò)。但是這種方法還是帶來了大量的參數(shù)計算。為進一步降低參數(shù)計算量,Xu 等人[69]引入一個基于偽三維殘差卷積(pseudo-3D residual convolution,P3D)的視覺前端來提取視覺特征,將ResNet 網(wǎng)絡(luò)中的時間卷積全部由更適合時間任務(wù)的時間卷積(temporal convolutional network,TCN)代替,音頻由短時傅里葉變換(short time Fourier transform,STFT)采樣提取聲譜圖,后接語音增強模塊,將增強后的特征信息輸入多模態(tài)融合網(wǎng)絡(luò)。在保證能提取到有效唇部視覺特征和降低模型參數(shù)的同時,又進一步提高了下游分類識別任務(wù)的精度。同樣受卷積原理的啟發(fā),Luo 等人[70]提出了一種基于偽卷積策略梯度(pseudo convolutional policy gradient,PCPG)的序列模型用于唇語任務(wù)。為在每個時間步考慮到更多上下文信息,作者在激勵和損失維度上進行偽卷積運算,該模型較以往其他唇語模型在準確率上有很大的提高。但是該方法采用單模態(tài)方法,因此獲取的信息有限,且對受到破壞的信息無法補充。Xiao 等人[71]認為使用變形流網(wǎng)絡(luò)(deformation flow network,DFN)從原始輸入的灰度圖像中獲取變形流同原始視頻幀作為模型輸入,能在一定程度上彌補缺失信息。整個網(wǎng)絡(luò)或分為原始視頻分支和變形流兩個分支,由3D CNN+2D CNN 和2D CNN 分別獲取兩個分支的有效唇部視覺信息,變形流網(wǎng)絡(luò)直接捕獲邊緣區(qū)域內(nèi)的運動信息,相比于光流法,變形流網(wǎng)絡(luò)降低了計算復雜度,之后采用雙向知識提取損失來聯(lián)合訓練兩個分支,使得兩個流在訓練過程中相互學習。該方法不僅可以應(yīng)用于唇語領(lǐng)域,同時還可以廣泛用于其他人臉分析任務(wù)。但該方法對相鄰幀之間的相關(guān)性未進行更多的關(guān)注,并且未對關(guān)鍵幀和無效幀之間進行有效區(qū)分。

為增強相鄰幀之間相關(guān)性同時加強對關(guān)鍵幀的識別,Zhao 等人[72]采用相同的視覺前端網(wǎng)絡(luò),在局部特征層和全局序列層分別引入局部互信息最大化約束和全局互信息最大化約束,局部互信息約束每個時間步生成的特征,保持與語音內(nèi)容之間的強關(guān)系,全局互信息約束注重區(qū)分和語音內(nèi)容相關(guān)關(guān)鍵幀的識別,降低噪聲產(chǎn)生的影響。所提出的方法對于提高了唇語任務(wù)的識別準確率具有較好的魯棒性。但性能良好、泛化能力較強的唇語模型仍是研究者努力的方向。

基于2D CNN 與3D CNN 相結(jié)合的唇部視覺特征提取方法是近年來唇語研究的主流方法之一,該方法有效地解決了視覺特征提取效率低和下游任務(wù)識別準確率低等問題,但由3D CNN 對時空信息提取,后直接接入2D CNN 對局部細粒度信息提取,在一定程度上會影響特征編碼的時間信息。

3.4 基于其他神經(jīng)網(wǎng)絡(luò)的視覺特征提取方法

近年來,端到端的訓練模式成為唇語識別領(lǐng)域研究最常用的訓練方式,而這些端到端結(jié)構(gòu)并不是完全基于卷積神經(jīng)網(wǎng)絡(luò)。自動編碼機制、前饋網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)也常被用于唇部視覺特征提取。自動編碼機制類似于傳統(tǒng)的PCA 方法,其通過神經(jīng)網(wǎng)絡(luò)自動地將高維數(shù)據(jù)轉(zhuǎn)為低維編碼,后通過解碼機制恢復成原始信息。Petridis 等人[73]在自動編碼機制基礎(chǔ)上建立了基于句子級別的雙流端到端系統(tǒng)。采用原始圖像序列和光譜圖像作為模型輸入,兩個分支模型均使用3 個隱藏層和1 個線性層構(gòu)成的編碼結(jié)構(gòu)模型,分別提取不同的唇部視覺特征,為獲取更加有效的視覺特征,提高分類識別精度。他們采用相同的網(wǎng)絡(luò)結(jié)構(gòu),將光譜圖替換為圖像差分圖[74],輸入圖像由模型的瓶頸層將高維輸入圖像壓縮為低維表示,瓶頸架構(gòu)的一階導數(shù)特征和二階導數(shù)特征附加到瓶頸層,以保證編碼層能夠?qū)W到更多有效特征。實驗表明,該方法能有效提高下游任務(wù)的分類識別精度。之后,在采用雙分支思想的基礎(chǔ)上,為研究多視圖唇語識別任務(wù),其采用相同的網(wǎng)絡(luò)模型,同時將30°、45°、60°和90°的原始圖像分成兩個分支同正視圖圖像一同作為模型輸入[75],每個分支后接一個雙向長短時記憶網(wǎng)絡(luò)(bi-long short-term memory,Bi-LSTM)用于對每個流的特征時間動態(tài)進行建模。但由于對非正視圖進行唇部檢測時,檢測精度并不是完全準確,導致模型在分類識別精度上并沒有很大的提高。隨后,他們采用相同的網(wǎng)絡(luò)結(jié)構(gòu),將雙流改為單流模型[76],并在有音頻、噪聲音頻和無音頻三種模式下進行實驗,因唇部運動存在差異,在使用普通唇語模型對無音頻下的唇部運動進行訓練時表現(xiàn)較差。隨著海量數(shù)據(jù)的增加和模型層數(shù)的加深,唇語領(lǐng)域?qū)δP托阅芤笤絹碓礁?,但上述使用自動編碼機制作為特征提取器,明顯的缺點是難以獲取深層次、多尺度信息。

前饋神經(jīng)網(wǎng)絡(luò)采用簡單的全連接前饋層堆疊。Wand 等人[51]提出了一種由一個前饋網(wǎng)絡(luò)層和兩個LSTM 層構(gòu)成的自動唇語識別模型。前饋網(wǎng)絡(luò)層將輸入的圖像序列傳遞給輸出單元,每層前饋網(wǎng)絡(luò)層后面接一個Dropout 層,由梯度下降法進行訓練,通過層間誤差反向傳播和權(quán)值調(diào)整,對字級水平的數(shù)據(jù)集分類。但該方法對已知說話人和未知說話人之間的差異未進行有效區(qū)分。為解決說話人之間的差異,作者又添加一層前饋網(wǎng)絡(luò)層,同時在第二個前饋網(wǎng)絡(luò)層前附加一個用于對原說話人和目標說話人進行逐幀分類的網(wǎng)絡(luò),并采用域?qū)箒碛柧?,最終相當于兩類任務(wù),一類是對說話人的分類,另一類是對單詞的分類[77]。但僅從單一模態(tài)(視頻幀)中挖掘出來的視覺信息是有限的而且還具有不確定性(受其他因素干擾),因此從多模態(tài)方向入手,作者又添加音頻作為輔助輸入[78],音頻和視頻分支采用相同結(jié)構(gòu),每一個分支中堆疊多層全連接前饋網(wǎng)絡(luò)層和Dropout層,以確保網(wǎng)絡(luò)能提取到更深層次的視覺特征。上述模型在句子級訓練上表現(xiàn)良好,但都沒有涉及到句子級序列預測,同時也未考慮到說話人獨立性問題,因此導致最終結(jié)果存在一定的不合理性。

深度置信網(wǎng)絡(luò)和前饋神經(jīng)網(wǎng)絡(luò)一樣采用堆疊的方式,主要由多層受限玻爾茲曼機堆疊構(gòu)成,對每一層逐層訓練,最后反向傳播對模型進行微調(diào)。Moon等人[79]提出了一個采用兩個獨立的音頻和視頻分支來分別獲取原始視頻中特征信息的模型。每個分支都由具有相同數(shù)量的中間層構(gòu)成的深度置信網(wǎng)絡(luò)組成,通過學習每個神經(jīng)網(wǎng)絡(luò)中間層之間的語義映射,根據(jù)傳輸?shù)臄?shù)據(jù)達到對網(wǎng)絡(luò)微調(diào)的目的。該網(wǎng)絡(luò)結(jié)構(gòu)不需要建立額外共享模型,僅需要調(diào)整目標網(wǎng)絡(luò)的超參數(shù)實現(xiàn)目標網(wǎng)絡(luò)的修改。

表3 從方法大類、特征提取方法、主要技術(shù)描述、數(shù)據(jù)集、識別任務(wù)、識別率和適用模式7 個方面總結(jié)近年來基于深度學習的唇部視覺特征提取方法。

表3 (續(xù))

表3 (續(xù))

4 總結(jié)與展望

唇語識別經(jīng)過數(shù)十年的發(fā)展,傳統(tǒng)方法和深度學習方法推動其迅猛發(fā)展,本文對唇語識別研究領(lǐng)域的視覺特征提取方法進行分析,并分別從數(shù)據(jù)集、視覺歧義、模型性能、多模態(tài)唇語識別和模態(tài)之間的相關(guān)性五方面介紹所面臨的挑戰(zhàn)與發(fā)展趨勢。

(1)唇語識別數(shù)據(jù)集。唇語數(shù)據(jù)集是推動唇語領(lǐng)域發(fā)展的基礎(chǔ),如何建立更貼近真實自然環(huán)境、更規(guī)范且不限于特定任務(wù)的數(shù)據(jù)集是目前存在的主要問題之一。大多數(shù)數(shù)據(jù)集規(guī)模較小,且僅限于特定任務(wù)的識別,例如:數(shù)字、字母、單詞和句子等,并且數(shù)據(jù)集在構(gòu)建過程中很少考慮到真實環(huán)境下的各種因素影響,缺少泛化能力較強的數(shù)據(jù)集,尤其針對中文研究的數(shù)據(jù)集比較短缺。因此,需要選擇來源可靠、正規(guī)數(shù)據(jù)資源,構(gòu)建高質(zhì)量且規(guī)模較大的唇語數(shù)據(jù)集來提高唇語模型的準確率。

(2)視覺歧義。在唇部運動過程中如何更好地反映說話人視覺信息的特征至今仍然是一個難題。由于說話過程中存在不同音素具有相似的口型,連續(xù)閱讀和弱音現(xiàn)象等導致最終的視位缺少,最終嚴重影響著唇語識別任務(wù)的準確率。考慮到這個問題,可以嘗試主要致力于研究不同音位到視位的映射、規(guī)范化音素,設(shè)計解決視覺歧義的算法,解決視覺歧義問題。

(3)模型性能。在唇語識別領(lǐng)域,模型設(shè)計方法由傳統(tǒng)的方法過渡到深度學習方法,其準確率有大幅度的提升,但其計算復雜度也隨之增加?,F(xiàn)階段的深度學習唇語模型大部分屬于大規(guī)模模型,不便于研究人員的優(yōu)化,且需要處理海量唇語數(shù)據(jù),過程十分耗時耗力。針對模型上存在的問題,研究人員應(yīng)致力于設(shè)計輕量級唇語模型,以降低設(shè)備負擔。輕量級唇語模型也是接下來唇語研究領(lǐng)域的重點方向之一。

Table 3 Comparison of visual features extraction methods based on deep learning表3 基于深度學習的視覺特征提取方法對比

(4)多模態(tài)唇語識別。多模態(tài)是指采用兩個或以上模式信號作為模型輸入,其打破了單模態(tài)獲取信息有限、識別率低和穩(wěn)定性差等局限。其優(yōu)勢也是雙重的。首先,由于各模態(tài)之間信息通常是互補的,多模態(tài)處理的信息結(jié)果比單模態(tài)處理結(jié)果具有信息性;其次,由于單模態(tài)信息并不總是可靠的,當一種模式損壞時,有可能從其他模態(tài)中提取丟失的信息,從而形成一個更可靠的系統(tǒng)。例如:當音頻信號被噪聲破壞時,這種多模態(tài)方式尤為有效,但當音頻干凈時,這種方法也能對最終識別率帶來極大的提高。正是由于上述多模態(tài)的優(yōu)點,該方法近年被廣泛應(yīng)用于各個領(lǐng)域,但是在唇語領(lǐng)域應(yīng)用較少。因此多模態(tài)唇語識別也是該領(lǐng)域的一個重要研究方向。

(5)模態(tài)之間的相關(guān)性。利用從一個模態(tài)中提取的信息彌補另一模態(tài)的缺失信息,以此來提高另一模態(tài)的識別能力,其關(guān)鍵是在噪聲水平變化的情況下,找到模態(tài)間的相關(guān)性,并且模型能自動選擇可靠模態(tài)?,F(xiàn)存方法中,對模態(tài)間相關(guān)性關(guān)注較少,因此如何找到模態(tài)間的相關(guān)性,自動選擇可靠模態(tài)以提高識別準確率也是該領(lǐng)域未來的一個研究方向。

5 結(jié)束語

本文對近年來唇語識別領(lǐng)域唇部視覺特征提取的研究成果進行了總結(jié)。首先介紹了唇部識別相關(guān)數(shù)據(jù)集,并對相關(guān)數(shù)據(jù)集進行簡單描述;然后將近年來唇語識別領(lǐng)域唇部視覺特征提取相關(guān)技術(shù)按照傳統(tǒng)方式和深度學習方式劃分為兩類,并對每一類主要應(yīng)用技術(shù)進行敘述;最后對該領(lǐng)域存在的挑戰(zhàn)和發(fā)展趨勢進行了討論。

猜你喜歡
唇語唇部特征提取
同步定位與建圖特征提取和匹配算法研究
唇部美人計
冬季護唇小竅門
藍,另一種藍
碰撞:“唇語”應(yīng)對媒體vs志愿者自責哭泣
唇語
基于MED—MOMEDA的風電齒輪箱復合故障特征提取研究
慧心讀“唇語”
搜狗推出“唇語識別”技術(shù)
基于曲率局部二值模式的深度圖像手勢特征提取
抚顺县| 习水县| 金塔县| 青海省| 阜康市| 凤山县| 肥东县| 伊宁市| 安陆市| 巴彦淖尔市| 望奎县| 璧山县| 收藏| 绥中县| 民县| 尉氏县| 铜梁县| 沾益县| 化隆| 克拉玛依市| 通榆县| 西乌| 盐边县| 泾川县| 宜州市| 莱阳市| 太仓市| 迁安市| 屯昌县| 博野县| 自贡市| 原平市| 临邑县| 黄大仙区| 沂水县| 永善县| 满城县| 天气| 永登县| 武宣县| 化州市|