国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Vision Transformer的中文唇語識(shí)別

2023-01-31 01:20洪自坤李書杰謝胤岑
模式識(shí)別與人工智能 2022年12期
關(guān)鍵詞:唇語集上拼音

薛 峰 洪自坤 李書杰 李 雨 謝胤岑

唇語識(shí)別主要任務(wù)是基于說話人的視覺圖像序列預(yù)測(cè)說話文本,可應(yīng)用在公共場(chǎng)所的無聲聽寫、嘈雜環(huán)境下的語音識(shí)別、輔助聽力和公共安全視頻中的關(guān)鍵詞識(shí)別等場(chǎng)景,具有較高的應(yīng)用價(jià)值[1].

人類通過聽覺可輕易識(shí)別并理解說話人的話語,然而僅通過觀察說話人的唇部動(dòng)作很難理解說話人的意圖.人在說話時(shí)嘴唇運(yùn)動(dòng)幅度不大,一個(gè)嘴唇動(dòng)作不僅可對(duì)應(yīng)多個(gè)不同的詞,而且每個(gè)人說同一個(gè)詞的嘴唇動(dòng)作也存在差異,因此不管對(duì)于人類還是計(jì)算機(jī),唇語識(shí)別任務(wù)都面臨較大挑戰(zhàn)[2].

按照識(shí)別語言元素不同,唇語識(shí)別可分為單詞級(jí)識(shí)別和句子級(jí)識(shí)別.單詞級(jí)識(shí)別任務(wù)中每個(gè)唇讀視頻對(duì)應(yīng)一個(gè)單詞,具有固定的詞庫.Weng等[3]引入視頻光流信息作為視頻視覺特征,提高單詞識(shí)別的正確率.句子級(jí)別的唇語理解滿足交流需要,更具有應(yīng)用價(jià)值,其識(shí)別的一般流程為:首先預(yù)處理唇語視頻,裁剪視頻幀的嘴唇區(qū)域;然后由模型前端提取視頻特征;最后由模型后端解碼得到預(yù)測(cè)文本.

在句子級(jí)唇語識(shí)別任務(wù)上,Assael等[1]提出LipNet,以3D 卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neu-ral Network,3D CNN)[4]作為視頻的時(shí)空特征提取模塊,使用雙向門控循環(huán)單元(Gated Recurrent Unit,GRU)[5]和CTC(Connectionist Temporal Classification)[6]解碼得到唇讀語句.CTC是一種編碼方式,可在無需對(duì)齊視頻和文本序列的情況下實(shí)現(xiàn)變長(zhǎng)序列的預(yù)測(cè),但缺少對(duì)語義信息的處理.Chung等[7]提出WLAS(Watch,Listen,Attend and Spell),通過兩個(gè)共用解碼器的序列到序列模型(Sequence-to-Sequence)[8]分別處理唇讀視頻特征序列和音頻特征序列,得到上下文向量,并聯(lián)合注意力模塊進(jìn)行文本預(yù)測(cè).Zhang等[9]使用TCN(Temporal Con-volutional Network)進(jìn)行序列建模,克服句子級(jí)唇讀訓(xùn)練過程中的梯度消失問題,提高收斂速度.Ma等[10]提出DS-TCN(Depthwise Separable TCN),使用深度可分離TCN,減少唇讀模型的參數(shù),并以自身作為教師模型進(jìn)行知識(shí)蒸餾,實(shí)現(xiàn)模型優(yōu)化.Ma等[11]還引入基于唇讀視頻音頻模態(tài)的輔助任務(wù)和更多的額外數(shù)據(jù),提高唇讀模型的識(shí)別能力.

按照識(shí)別語種不同,唇語識(shí)別還可分為英文唇語識(shí)別[1,7]和中文唇語識(shí)別[12-13].目前英文唇語識(shí)別研究已取得較大發(fā)展,而對(duì)中文唇語識(shí)別的關(guān)注較少.中文唇語識(shí)別和英文唇語識(shí)別在處理流程上具有明顯差異.具體而言,傳統(tǒng)英文唇語識(shí)別通常把唇讀視頻作為輸入,生成以詞或字符為單位的句子.而漢字是一種象形文字,拼音表示發(fā)音,因此中文句子唇讀任務(wù)通常分為拼音預(yù)測(cè)和漢字預(yù)測(cè)兩個(gè)階段.Zhang等[12]提出LipCH-Net,在從新聞聯(lián)播節(jié)目收集的數(shù)據(jù)集上進(jìn)行訓(xùn)練.LipCH-Net是一個(gè)分兩步進(jìn)行訓(xùn)練的架構(gòu),首先分別訓(xùn)練從視頻序列到拼音和拼音到漢字這兩種不同模型,然后再將兩個(gè)模型進(jìn)行聯(lián)合優(yōu)化,得到最終的識(shí)別模型.Zhao等[13]公開大規(guī)模的句子級(jí)別中文普通話唇語識(shí)別數(shù)據(jù)集CMLR,視頻來自CCTV新聞聯(lián)播.同時(shí),作者提出CSSMCM(Cascade Sequence-to-Sequence Model for Chinese Mandarin),利用中文特有的拼音和音調(diào)信息,級(jí)聯(lián)3個(gè)序列到序列模型,分別漸進(jìn)地推理語句的拼音、音調(diào)和漢字,實(shí)現(xiàn)端到端的訓(xùn)練.使用表示發(fā)音的信息作為中間結(jié)果的策略也被應(yīng)用在英文唇語識(shí)別中,Deng等[14]將代表發(fā)音且邊界更短的音素作為中間結(jié)果的預(yù)測(cè)單元,提高英文結(jié)果的識(shí)別準(zhǔn)確性.

現(xiàn)有視覺特征提取模型的空間建模大多數(shù)是基于2D CNN或3D CNN架構(gòu).Chung等[15]使用堆疊的2D CNN VGG(Visual Geometry Group),從嘴唇圖像中提取特征,并對(duì)比不同的視頻幀特征融合策略對(duì)唇語識(shí)別正確率的影響.Stafylakis等[16]使用3D CNN提取視頻的時(shí)空特征,再通過2D的ResNet(Residual Network)傳遞每個(gè)時(shí)間步的特征并預(yù)測(cè),在唇讀模型中結(jié)合2D卷積和3D卷積.Xu等[17]提出LCANet,使用堆疊的3D CNN和高速公路網(wǎng)絡(luò)自適應(yīng)組合嘴唇局部特征,提高視覺特征的建模能力.Jeon等[18]為了解決唇語識(shí)別視覺信息不足的挑戰(zhàn),提出融合不同3D CNN模塊的架構(gòu),獲得更好的視覺和運(yùn)動(dòng)信息表示,進(jìn)一步提升唇語識(shí)別效果.由此可見,CNN的卷積計(jì)算能捕獲像素之間的結(jié)構(gòu)信息,較好地提取唇部視覺特征.

然而,受到卷積核大小的限制,CNN通常只能關(guān)注短距離像素之間的結(jié)構(gòu),難以捕獲遠(yuǎn)距離像素之間的關(guān)系,造成唇語識(shí)別任務(wù)中相似發(fā)音字符的識(shí)別效果不佳.這是因?yàn)橄嘟l(fā)音的字符在表達(dá)時(shí)嘴唇的局部圖像具有相似性,它們的差異主要體現(xiàn)在嘴唇發(fā)音時(shí)的整體運(yùn)動(dòng),因此區(qū)分這些字符需要同時(shí)關(guān)注不同距離區(qū)域的唇形.通常,CNN架構(gòu)對(duì)圖像特征的提取是基于局部性的歸納偏置,這種對(duì)局部像素的卷積計(jì)算難以挖掘唇形的整體差異,導(dǎo)致識(shí)別精度的下降.

針對(duì)上述問題,本文基于Vision Transformer(ViT)[19]架構(gòu)在提取圖像全局視覺特征的優(yōu)異表現(xiàn),提出基于Vision Transformer的中文唇語識(shí)別模型(Chinese Lipreading Network Based on Vision Trans-former,ViTCLN),融合ViT和GRU,分別提取視頻序列的高質(zhì)量空間特征和時(shí)間特征.其中ViT可處理原始圖像塊的線性映射,它的自注意力機(jī)制允許關(guān)注圖像中長(zhǎng)距離的像素間關(guān)系,動(dòng)態(tài)計(jì)算區(qū)域之間的權(quán)重,提取嘴唇區(qū)域整體視覺特征,提高區(qū)分唇形的能力.此外,ViTCLN以級(jí)聯(lián)序列到序列模型作為中文文本解碼模塊,通過注意力模塊實(shí)現(xiàn)視頻、拼音和漢字序列的對(duì)齊.在中文句子級(jí)唇語識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)表明,ViTCLN具有較好的中文唇語識(shí)別性能.

1 基于Vision Transformer的中文唇語識(shí)別

本節(jié)提出基于Vision Transformer的中文唇語識(shí)別模型(ViTCLN),完整模型架構(gòu)如圖1所示.首先使用ViT捕捉視頻每幀圖像全局細(xì)節(jié)的空間特征表示.然后,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[20]構(gòu)建圖像幀空間特征的時(shí)間序列關(guān)系,得到視頻中唇部動(dòng)作的視覺空間特征和時(shí)序特征的聯(lián)合表示.最后,使用級(jí)聯(lián)的序列到序列模型預(yù)測(cè)說話人的文本,預(yù)測(cè)分為拼音和漢字兩個(gè)階段.

1.1 空間和時(shí)間維度的視頻特征聯(lián)合表示

1.1.1視頻預(yù)處理

本文將裁剪唇讀視頻得到的嘴唇區(qū)域幀序列作為預(yù)處理的輸入數(shù)據(jù),使模型集中關(guān)注嘴唇區(qū)域信息.具體地,使用Face Alignment人臉檢測(cè)庫提取視頻幀的人臉唇部特征點(diǎn),并基于這些唇部特征點(diǎn)確定嘴唇區(qū)域,最終裁剪得到嘴唇居中的圖像序列,大小為128×64像素.

1.1.2視頻幀嵌入

基于Transformer[21]架構(gòu),ViT將圖像按塊(Patch)劃分構(gòu)建與自然語言處理中相似的線性映射序列,實(shí)現(xiàn)標(biāo)準(zhǔn) Transformer在圖像處理上的原生應(yīng)用.相比傳統(tǒng)卷積操作,ViT的自注意力模塊根據(jù)整幅圖像計(jì)算動(dòng)態(tài)權(quán)重,有助于獲得說話人唇部區(qū)域像素之間的更大范圍、更遠(yuǎn)距離的結(jié)構(gòu)關(guān)聯(lián)信息,因此能獲得更具表達(dá)能力的視覺空間特征.

由于Transformer架構(gòu)需要輸入嵌入向量序列,ViT將每個(gè)輸入視頻序列x∈RW×H×C劃分為固定大小的塊序列xp∈RN×(P×P×C),其中W、H表示視頻幀的寬、高,C表示視頻幀的通道數(shù),N表示塊數(shù),P表示塊邊長(zhǎng).本文采用16×16像素的塊大小.然后,ViT利用一個(gè)可學(xué)習(xí)的線性投影E將圖像塊映射到嵌入向量,作為Transformer的標(biāo)準(zhǔn)輸入.同時(shí)在嵌入向量序列中引入分類標(biāo)記zcls,用于生成圖像表示.ViT對(duì)圖像塊的理解依賴位置嵌入Epos,因此模型使用實(shí)現(xiàn)簡(jiǎn)單且性能出色的一維位置嵌入,將圖像塊視為有序的一維序列,并將位置嵌入疊加到嵌入向量上.完整的嵌入向量序列為:

其中np表示圖像塊長(zhǎng)度.

1.1.3ViT編碼器

視頻嵌入序列z0輸入ViT的Transformer層疊編碼器模塊中,其中每個(gè)編碼器層都由多頭自注意力模塊和前饋網(wǎng)絡(luò)兩部分構(gòu)成,同時(shí)還引入殘差連接和層歸一化.

多頭注意力模塊基于多頭注意力機(jī)制[21],允許模型關(guān)注來自不同位置的不同表示子空間的信息.

自注意力模塊將輸入序列z生成queryQ,keyK和valueV三個(gè)矩陣,通過點(diǎn)積計(jì)算query與當(dāng)前key的相關(guān)程度,縮放得到權(quán)重系數(shù),并對(duì)value進(jìn)行加權(quán),得到自注意力輸出向量.自注意力權(quán)重的計(jì)算過程如下:

其中d表示輸入序列z中向量的長(zhǎng)度.

多頭注意力機(jī)制擴(kuò)展自注意力機(jī)制,對(duì)輸入序列進(jìn)行h次自注意力計(jì)算,將多個(gè)輸出結(jié)果拼接后通過WMHA投影得到最終輸出向量.每個(gè)頭都使用3個(gè)可學(xué)習(xí)的投影WQ、WK和WV,將Q、K、V投影到不同的向量空間.多頭注意力模塊為:

MHA(Q,K,V)=[head1,head2,…,headh]WMHA,

其中

每個(gè)編碼器層包含一個(gè)前饋網(wǎng)絡(luò),由兩層全連接層(Fully Connected Layers,F(xiàn)C)構(gòu)成,使用 GeLU(Gaussian Error Linear Unit)[22]激活函數(shù)轉(zhuǎn)換輸出.前饋網(wǎng)絡(luò)為:

FFN(x)=FC(GeLU(FC(x))).

綜上所述,塊嵌入序列在ViT模塊經(jīng)過L個(gè)編碼器層計(jì)算,并使用層歸一化提高網(wǎng)絡(luò)的泛化能力.計(jì)算過程如下:

z′l=MHA(LN(zl))+zl,

zl+1=FFN(LN(z′l))+z′l,

其中,LN(·)為層歸一化,zl為第l層Transformer編碼器輸入,l=0,1,…,L-1.

對(duì)視頻序列x1,x2,…,xnf的每幀都使用ViT模塊并行計(jì)算,得到特征表示構(gòu)成視覺特征序列y1,y2,…,ynf,其中nf表示圖像幀長(zhǎng)度.

1.1.4時(shí)序特征提取

在視覺的空間特征表達(dá)的基礎(chǔ)上補(bǔ)充和增強(qiáng)在時(shí)序維度的特征表示,有助于提高唇語識(shí)別的精度.使用ViT模塊提取的視覺特征,只能表示唇部區(qū)域的空間特征,無法表示不同幀之間嘴唇運(yùn)動(dòng)變化特征,因此需要獲取視頻幀的視覺特征之間的時(shí)序關(guān)系.

GRU是RNN[22]的一種變體,在時(shí)序建模上解決傳統(tǒng)RNN 長(zhǎng)期記憶能力不足的問題,同時(shí)避免梯度消失和梯度爆炸,廣泛應(yīng)用于自然語言處理、語音識(shí)別等序列處理任務(wù).雙向GRU 包含兩層隱藏層,可在時(shí)間維度的正反方向上處理輸入序列.ViTCLN使用兩層雙向GRU向視覺特征中融合視頻的上下文,彌補(bǔ)時(shí)序特征的不足,得到視頻的融合空間和時(shí)間維度的特征序列

1.2 文本解碼

文本解碼部分負(fù)責(zé)將視覺模態(tài)的時(shí)空特征轉(zhuǎn)換為文本模態(tài)的表示.

1.2.1序列到序列模型

其中,in表示輸入模態(tài),out表示輸出模態(tài),i表示GRU的時(shí)間步,Embedding(·)表示嵌入函數(shù),將文本字符映射到向量空間.

為了進(jìn)一步利用輸入向量包含的信息,本文引入注意力機(jī)制,處理編碼器輸出的隱藏層向量.具體地,在解碼器的每個(gè)時(shí)間步上,注意力模塊會(huì)計(jì)算編碼器上所有隱藏層輸出的權(quán)重,生成上下文向量輔助解碼器預(yù)測(cè).注意力模塊Attn的權(quán)重為:

加權(quán)得到的注意力上下文向量:

(1)

1.2.2級(jí)聯(lián)文本預(yù)測(cè)

由于拼音類別更少,與發(fā)音的唇形關(guān)聯(lián)性更強(qiáng),更容易預(yù)測(cè)拼音,因此將拼音預(yù)測(cè)作為中間階段能保證中文唇語識(shí)別的精度.本文使用視頻到拼音和拼音到漢字兩個(gè)序列到序列模塊級(jí)聯(lián),漢字解碼器除了需要關(guān)注拼音隱藏層序列,同樣也需要關(guān)注視頻隱藏層序列,融合視頻和拼音信息進(jìn)行預(yù)測(cè).

以視頻特征序列ev和拼音特征序列ep分別作為兩個(gè)序列到序列模塊的輸入,應(yīng)用式(1)得到的注意力上下文向量和兩者的解碼器GRU輸出拼接,計(jì)算每個(gè)時(shí)間步輸出模態(tài)字符的概率分布:

1.3 目標(biāo)函數(shù)

在文本解碼階段,模型通過兩個(gè)子網(wǎng)絡(luò)預(yù)測(cè)視頻中的拼音和漢字,因此目標(biāo)是通過模型訓(xùn)練最大化拼音和漢字的條件概率,即最小化兩者的目標(biāo)函數(shù),分別定義如下:

其中,p={p1,p2,…,pn-1}表示拼音序列,c={c1,c2,…,cn-1}表示漢字序列.

為了同時(shí)提高拼音和漢字預(yù)測(cè)的準(zhǔn)確性,本文聯(lián)合優(yōu)化兩個(gè)目標(biāo)函數(shù),最終的損失函數(shù)如下:

L=Lpinyin+Lcharacter.

目標(biāo)函數(shù)計(jì)算中會(huì)忽略標(biāo)簽填充的影響,使用Adam(Adaptive Moment Estimation)優(yōu)化器優(yōu)化,并裁剪梯度.

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)設(shè)置

本文使用CMLR數(shù)據(jù)集[13]驗(yàn)證ViTCLN的有效性.CMLR數(shù)據(jù)集是目前可獲取的最大中文句子級(jí)唇語識(shí)別數(shù)據(jù)集,由超過十萬個(gè)新聞聯(lián)播說話視頻構(gòu)成,包含11位說話人,共有394類拼音和3 517類漢字字符,字典覆蓋范圍廣(同時(shí)也意味著存在更多的同音字).CMLR數(shù)據(jù)集的視頻幀率為25 fps,幀長(zhǎng)從15幀到223幀不等,最長(zhǎng)的句子可達(dá)29個(gè)漢字.

目前公開的中文句子級(jí)唇語識(shí)別數(shù)據(jù)集較少,本文另外選取英文句子級(jí)唇語識(shí)別數(shù)據(jù)集GRID[23]、英文和中文單詞級(jí)唇語識(shí)別數(shù)據(jù)集LRW[15]和LRW-1000[24],驗(yàn)證本文視覺提取模塊的魯棒性和泛化性.在英文句子級(jí)數(shù)據(jù)集上的實(shí)驗(yàn)簡(jiǎn)化文本解碼器,只使用單個(gè)基于注意力機(jī)制的序列到序列模塊.在單詞級(jí)數(shù)據(jù)集上的實(shí)驗(yàn)將序列到序列模塊替換為分類網(wǎng)絡(luò).在實(shí)驗(yàn)中僅使用數(shù)據(jù)集上的視頻數(shù)據(jù).

在句子級(jí)數(shù)據(jù)集使用的詞匯表中,除了原有的字符之外,還包含3個(gè)額外標(biāo)記:〈sos〉,〈eos〉和〈pad〉,分別表示句子的開始,結(jié)束和填充.為了避免消融實(shí)驗(yàn)中簡(jiǎn)單增加模型參數(shù)量帶來的性能影響,ViT模塊中Transformer的輸入向量長(zhǎng)度設(shè)置為192,并使用在ImageNet2012數(shù)據(jù)集上預(yù)訓(xùn)練的ViT模型作為初始模型.

模型訓(xùn)練時(shí),為了提高收斂速度和穩(wěn)定性,本文采用學(xué)習(xí)率預(yù)熱策略,學(xué)習(xí)率在前5個(gè)輪次線性增長(zhǎng)到基本學(xué)習(xí)率.使用Scheduled Sampling策略[25]訓(xùn)練模型,利用真實(shí)標(biāo)簽引導(dǎo)預(yù)測(cè),消除訓(xùn)練和測(cè)試中的差異,采樣率為0.5.此外,采用學(xué)習(xí)率衰減優(yōu)化,基礎(chǔ)學(xué)習(xí)率為0.000 3,當(dāng)錯(cuò)誤率不再下降時(shí),學(xué)習(xí)率降低為原來的一半.

本文通過編輯距離計(jì)算預(yù)測(cè)語句的錯(cuò)誤率以衡量語句的正確性,定義為使預(yù)測(cè)語句變換為標(biāo)簽語句所需的最少操作次數(shù).編輯距離會(huì)找出將預(yù)測(cè)語句變換到標(biāo)簽語句所需的3種基本編輯操作:替換(S)、刪除(D)和插入(I).可得錯(cuò)誤率(Error Rate,ER)為:

其中N表示標(biāo)簽語句的長(zhǎng)度.錯(cuò)誤率越低表明模型預(yù)測(cè)性能越優(yōu).拼音錯(cuò)誤率(Pinyin ER,PER)、字符錯(cuò)誤率(Character ER,CER)和詞錯(cuò)誤率(Word ER,WER)分別為拼音、漢字字符和單詞在預(yù)測(cè)結(jié)果和標(biāo)簽之間的編輯距離.本文使用PER、CER和WER作為句子級(jí)數(shù)據(jù)集上模型性能的評(píng)價(jià)指標(biāo).此外,在單詞級(jí)數(shù)據(jù)集上使用正確率(Accuracy,ACC)作為評(píng)價(jià)指標(biāo).

2.2 對(duì)比實(shí)驗(yàn)結(jié)果

本節(jié)對(duì)比ViTCLN和經(jīng)典唇語識(shí)別模型,評(píng)估本文模型性能.具體基線模型如下所示.

1)LipNet[1].端到端英文句子級(jí)唇語識(shí)別模型,利用CTC解決文本序列的對(duì)齊問題.

2)CALLip[2].使用屬性學(xué)習(xí)模塊提取說話人的身份特征,消除跨說話人的差異.在訓(xùn)練過程中,在視覺信號(hào)和音頻信號(hào)之間設(shè)計(jì)對(duì)比學(xué)習(xí),加強(qiáng)對(duì)視覺特征的辨別.

3)WAS(Watch,Attend and Spell)[7].利用視頻信息,基于注意力的序列到序列模型預(yù)測(cè)句子,在對(duì)比中只使用Watch的視頻信息.

4)TCN[9].基于3D CNN、ResNet50、TCN和CTC模塊,使用TCN部分消除RNN梯度消失和性能不足的缺陷.

5)DS-TCN[10].基于深度可分離時(shí)空卷積(Depth-wise Separable TCN),并通過自我蒸餾的方式在迭代中學(xué)習(xí)原有唇讀模型.

6)LipCH-Net[12].端到端中文句子級(jí)唇語識(shí)別模型,以VGG和ResNet提取視覺特征.在訓(xùn)練時(shí),采用兩種模型分別進(jìn)行視頻到拼音和拼音到漢字兩個(gè)階段的預(yù)測(cè),然后進(jìn)行聯(lián)合優(yōu)化.

7)CSSMCM[13].采用VGG提取視覺特征,使用多個(gè)序列到序列模型依次預(yù)測(cè)拼音、音調(diào)和漢字序列,同時(shí)使用注意力機(jī)制對(duì)齊之前生成的序列.

8)LIBS(Lip by Speech)[26].知識(shí)蒸餾方法,將預(yù)訓(xùn)練模型作為教師模型,從序列、上下文和幀級(jí)多種尺度的層面上進(jìn)行知識(shí)蒸餾.

9)InvNet[27].改進(jìn)傳統(tǒng)卷積操作,在減少模型參數(shù)的同時(shí),保證唇讀模型的性能.

10)SE-ResNet[28].訓(xùn)練中引入圖像混合、標(biāo)簽平滑、詞邊界等策略,降低唇讀模型的訓(xùn)練難度.

11)3DCvT(A Lip Reading Method Based on 3D Convolutional Vision Transformer)[29].使用Trans-former處理3D CNN提取的特征圖,作為視覺特征.

ViTCLN和基線模型在各數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1和表2所示,其中,PER列中-表示對(duì)應(yīng)模型不包含預(yù)測(cè)拼音的步驟而直接預(yù)測(cè)漢字,WER列中-表示原文獻(xiàn)中無此結(jié)果.

由表1可見,ViTCLN性能最優(yōu),在CMLR測(cè)試集上達(dá)到24.94%的PER 和26.87%的CER,相比CSSMCM,PER和CER分別下降31%和17%.ViTCLN在GRID測(cè)試集上的WER達(dá)到1.09%,為最優(yōu)值.

由表2可見,ViTCLN在單詞級(jí)數(shù)據(jù)集LRW和LRW-1000上也取得和基線模型相當(dāng)?shù)男阅?,可?yīng)用于不同的唇語識(shí)別任務(wù),從而驗(yàn)證本文視頻特征提取模塊的魯棒性和泛化性.

表1 各模型在CMLR、GRID數(shù)據(jù)集上的性能對(duì)比Table 1 Performance comparison of different models on CMLR and GRID datasets %

表2 各模型在LRW、LRW-1000數(shù)據(jù)集上的ACC對(duì)比Table 2 ACC comparison of different models on LRW and LRW-1000 datasets %

2.3 超參數(shù)分析

不合適的學(xué)習(xí)率會(huì)使模型無法收斂,同時(shí),訓(xùn)練初期使用較大的學(xué)習(xí)率,可能導(dǎo)致模型參數(shù)優(yōu)化方向的不穩(wěn)定.為了對(duì)比基礎(chǔ)學(xué)習(xí)率和預(yù)熱輪次兩個(gè)超參數(shù)對(duì)ViTCLN的影響,分別調(diào)整學(xué)習(xí)率和學(xué)習(xí)率預(yù)熱輪次,在CMLR數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如下所示.當(dāng)基礎(chǔ)學(xué)習(xí)率分別為1e-4,3e-4,5e-4,7e-4時(shí),CER為27.73%,26.87%,32.31%,44.55%.當(dāng)預(yù)熱輪次分別為0,3,5,7時(shí),CER為30.02%,28.48%,26.87%,27.03%.因此,當(dāng)基礎(chǔ)學(xué)習(xí)率為3e-4,預(yù)熱輪次為5時(shí),模型性能最優(yōu).

2.4 消融實(shí)驗(yàn)結(jié)果

為了驗(yàn)證視覺空間特征提取模塊ViT和時(shí)序特征提取模塊GRU的有效性,構(gòu)建如下變體模型:1)模型1.ViT模塊替換為2D CNN,移除GRU模塊.2)模型2.ViT模塊替換為3D CNN,移除GRU模塊.3)模型3.保留ViT模塊,移除GRU模塊.4)模型4.ViT模塊替換為2D CNN,保留GRU模塊.5)模型5.ViT模塊替換為3D CNN,保留GRU模塊.6)模型6.ViTCLN.

各模型在CMLR、GRID數(shù)據(jù)集上的性能對(duì)比如表3所示.各模型訓(xùn)練過程中,在CMLR驗(yàn)證集上的錯(cuò)誤率下降曲線如圖2所示.

由表3和圖2可知,模型4和模型5分別將ViTCLN中用于提取視頻特征的ViT模塊替換為2D CNN和3D CNN,CER均高于ViTCLN.ViTCLN在CMLR、GRID數(shù)據(jù)集上均取得最優(yōu)值,表明ViT捕獲嘴唇的整體視覺空間特征,相比CNN架構(gòu),具有更高的區(qū)分度.

相比模型4~模型6,模型1~模型3的錯(cuò)誤率顯著上升,這是因?yàn)樗鼈円瞥龝r(shí)序特征提取GRU模塊,說明GRU模塊可有效捕獲視頻幀序列的時(shí)間關(guān)系,并且為文本解碼提供運(yùn)動(dòng)信息.

表3 各模型在CMLR、GRID數(shù)據(jù)集上的性能對(duì)比Table 3 Performance comparison of different models on CMLR and GRID datasets %

在去除GRU的模型中,3D CNN前端(模型2)優(yōu)于ViT前端(模型3),這是因?yàn)?D CNN具有一定的時(shí)序圖像處理能力,而ViT雖然具有優(yōu)秀的視覺特征提取能力,但其獨(dú)立處理視頻幀,導(dǎo)致缺少序列信息的捕獲.因此GRU在模型中與ViT形成互補(bǔ)模塊,在序列任務(wù)中額外挖掘時(shí)序關(guān)系供編解碼器處理具有必要性.

為了分析各模塊對(duì)模型復(fù)雜度的影響,相同條件下模型4~模型6在CMLR數(shù)據(jù)集上的參數(shù)量和訓(xùn)練時(shí)間如表4所示.

表4 各模型在CMLR數(shù)據(jù)集上的參數(shù)量和訓(xùn)練時(shí)間Table 4 Parameters and training time of different models on CMLR dataset

ViTCLN的文本解碼模塊級(jí)聯(lián)兩個(gè)編解碼器,少于CSSMCM的三個(gè).在后端模塊相同的情況下,CNN模型使用和ViT模型參數(shù)量相近的模塊,對(duì)模型帶來的性能差異并非由增加參數(shù)量帶來的.變體模型的訓(xùn)練時(shí)間相近,由于2D CNN和ViT需要對(duì)每幀圖像前向計(jì)算,因此相比3DCNN,需要更多的訓(xùn)練時(shí)間.

上述消融實(shí)驗(yàn)表明,ViTCLN中的ViT和GRU組合結(jié)構(gòu)既可充分捕獲說話時(shí)唇部區(qū)域圖像像素的長(zhǎng)距離視覺特征,也可有效建模不同圖像幀之間的運(yùn)動(dòng)關(guān)聯(lián)關(guān)系,得到最佳的唇語識(shí)別效果.

2.5 案例分析

為了定性分析模型效果,本文從CMLR數(shù)據(jù)集的測(cè)試結(jié)果中選取部分案例進(jìn)行對(duì)比分析.各模型預(yù)測(cè)得到的句子如表5所示,表中黑體字符表示預(yù)測(cè)錯(cuò)誤的字符.由表可見,在第1個(gè)案例上,基于CNN的模型在拼音和漢字上均產(chǎn)生錯(cuò)誤預(yù)測(cè).模型2對(duì)時(shí)間特征提取不足導(dǎo)致未實(shí)現(xiàn)拼音和漢字的對(duì)齊,模型4和模型5沒有區(qū)分字符拼音“su”和“zu”的差異,兩者的聲母均為平舌音,發(fā)聲時(shí)嘴唇相似性較高,導(dǎo)致中文的詞預(yù)測(cè)錯(cuò)誤,需要關(guān)注唇形的整體形狀和變化才能正確識(shí)別.在案例2的句子識(shí)別中,基于CNN的模型錯(cuò)誤地將“tong guo”識(shí)別成韻母相同的“gong zuo”,以及將“tong”識(shí)別成聲母發(fā)音相似的“tou”,聲母或韻母的相似發(fā)音方式使唇形從視覺上更難區(qū)分.模型3雖然正確識(shí)別漢字“通過”,但仍出現(xiàn)預(yù)測(cè)錯(cuò)誤,這可能是由于缺少上下文關(guān)聯(lián)信息.ViTCLN正確識(shí)別這些相近發(fā)音的字符,降低中文唇語識(shí)別的錯(cuò)誤率.

表5 各模型在CMLR數(shù)據(jù)集上的預(yù)測(cè)結(jié)果對(duì)比Table 5 Prediction result comparison of different models on CMLR dataset

2.6 可視化分析

為了分析不同變體模型下輸入圖像對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)程度,本文使用顯著性圖[30]進(jìn)行可視化分析,結(jié)果如圖3所示.像素的顯著性反映其對(duì)字符分類評(píng)分的貢獻(xiàn),其中模型4和模型5得到的顯著性區(qū)域包含大量遠(yuǎn)離唇部的面部區(qū)域,然而這些區(qū)域?qū)ψR(shí)別唇語的影響較小.ViTCLN使用自注意力機(jī)制對(duì)圖像整體計(jì)算權(quán)重,所得圖像的顯著性區(qū)域集中在唇部附近的塊中,而背景和臉頰等區(qū)域顯著性較低,對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)更準(zhǔn)確.

(a)原始圖像(a)Original images

本文將變體模型在CMLR測(cè)試集上得到的易混淆音字特征可視化以觀察其分布情況.選擇表5中案例2產(chǎn)生混淆的拼音“tong”、“gong”和“tou”,特征來自于拼音解碼器的輸出特征,降維后繪制散點(diǎn)圖,如圖4所示.這些易混淆音字的區(qū)分是唇語識(shí)別的難點(diǎn)所在,在圖4(a)、(b)中,案例2標(biāo)簽中拼音“tong”的特征整體上較分散,部分特征分布在其它拼音聚類中,容易發(fā)生混淆.在圖4(c)中,拼音“tong”的特征相對(duì)聚集,不同拼音特征聚類的可區(qū)分程度更高.

(a)模型4 (b)模型5 (c)ViTCLN(a)Model 4 (b)Model 5圖4 各模型的易混淆音字特征分布圖Fig.4 Distribution of confused phonetic features of different models

在CMLR數(shù)據(jù)集上,ViTCLN的文本預(yù)測(cè)模塊使用3個(gè)注意力機(jī)制,提高視頻特征序列和拼音序列對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn),有效性體現(xiàn)在注意力權(quán)重矩陣和序列的對(duì)齊上.

為了可視化理解這些注意力機(jī)制的作用,本文根據(jù)3個(gè)注意力機(jī)制計(jì)算得到的注意力權(quán)重矩陣?yán)L制圖5所示的熱力圖.圖中每行表示解碼器預(yù)測(cè)該字符時(shí),在編碼器輸出結(jié)果上的注意力權(quán)重,圖5(a)、(b)中高亮區(qū)域意味著在視頻的這幾幀中,說話人正在講這些字.同時(shí),每個(gè)字符覆蓋的連續(xù)幾幀符合每個(gè)字符的發(fā)聲時(shí)間窗口,這也會(huì)幫助解碼器更準(zhǔn)確預(yù)測(cè)序列中的每個(gè)字.得益于ViTCLN提取的空間特征和時(shí)間特征,級(jí)聯(lián)序列到序列模塊的注意力模塊具有更好的對(duì)齊效果.

在圖5 (c)中預(yù)測(cè)第i個(gè)漢字時(shí),拼音編碼器的第i+1個(gè)隱藏層輸出最大注意力權(quán)重,其中包含GRU編碼器計(jì)算得到的語義信息,并據(jù)此將拼音映射為合理的漢字語句.

圖5 注意力權(quán)重可視化熱力圖Fig.5 Heatmaps of attention weight visualization

3 結(jié) 束 語

本文研究ViT在句子級(jí)別中文唇語識(shí)別中的應(yīng)用,提出基于ViT的中文唇語識(shí)別模型(ViTCLN).通過ViT的圖像映射和自注意力機(jī)制,提取全局的嘴唇圖像特征,避免CNN的歸納偏置和卷積的局限性.ViTCLN融合ViT和GRU,實(shí)現(xiàn)對(duì)唇讀視頻視覺和運(yùn)動(dòng)信息的準(zhǔn)確理解,通過互補(bǔ)的時(shí)空特征提高唇讀發(fā)音的區(qū)分度.最后通過級(jí)聯(lián)序列到序列模型對(duì)齊拼音和漢字預(yù)測(cè)結(jié)果,實(shí)現(xiàn)更準(zhǔn)確的中文唇語識(shí)別.在最大的公開句子級(jí)別中文唇語識(shí)別數(shù)據(jù)集CMLR上的實(shí)驗(yàn)表明,ViTCLN性能較優(yōu).進(jìn)一步的消融實(shí)驗(yàn)表明,ViT在視覺特征提取方面比CNN架構(gòu)更出色.此外,本文為了降低訓(xùn)練和預(yù)測(cè)的計(jì)算需求,使用復(fù)雜度最低的ViT變體,選擇更長(zhǎng)的向量表征可能會(huì)獲得更優(yōu)效果.今后將考慮從減少不同說話人差異帶來的視覺影響展開研究,進(jìn)一步提高唇讀模型的泛化能力.

猜你喜歡
唇語集上拼音
GCD封閉集上的冪矩陣行列式間的整除性
碰撞:“唇語”應(yīng)對(duì)媒體vs志愿者自責(zé)哭泣
唇語
親情助力,90后“唇語女博士”名震清華
R語言在統(tǒng)計(jì)學(xué)教學(xué)中的運(yùn)用
搜狗推出“唇語識(shí)別”技術(shù)
師如明燈,清涼溫潤(rùn)
快樂拼音
快樂拼音
幾道導(dǎo)數(shù)題引發(fā)的解題思考
吉安市| 勐海县| 巴彦县| 社旗县| 原平市| 保亭| 西平县| 巴彦淖尔市| 宜阳县| 元江| 长垣县| 保定市| 虞城县| 宜良县| 休宁县| 宜君县| 囊谦县| 宝清县| 德化县| 苏尼特右旗| 龙南县| 高邮市| 门源| 洱源县| 衡阳县| 胶南市| 逊克县| 鲜城| 县级市| 美姑县| 明光市| 板桥市| 遵义市| 长岭县| 甘洛县| 鞍山市| 英德市| 长白| 巴彦淖尔市| 古丈县| 澄城县|