基于Vision Transformer的中文唇語識(shí)別

2023-01-31 01:20洪自坤李書杰謝胤岑

模式識(shí)別與人工智能 2022年12期

薛峰洪自坤李書杰李雨謝胤岑

唇語識(shí)別主要任務(wù)是基于說話人的視覺圖像序列預(yù)測(cè)說話文本，可應(yīng)用在公共場(chǎng)所的無聲聽寫、嘈雜環(huán)境下的語音識(shí)別、輔助聽力和公共安全視頻中的關(guān)鍵詞識(shí)別等場(chǎng)景，具有較高的應(yīng)用價(jià)值[1].

人類通過聽覺可輕易識(shí)別并理解說話人的話語，然而僅通過觀察說話人的唇部動(dòng)作很難理解說話人的意圖.人在說話時(shí)嘴唇運(yùn)動(dòng)幅度不大，一個(gè)嘴唇動(dòng)作不僅可對(duì)應(yīng)多個(gè)不同的詞，而且每個(gè)人說同一個(gè)詞的嘴唇動(dòng)作也存在差異，因此不管對(duì)于人類還是計(jì)算機(jī)，唇語識(shí)別任務(wù)都面臨較大挑戰(zhàn)[2].

按照識(shí)別語言元素不同，唇語識(shí)別可分為單詞級(jí)識(shí)別和句子級(jí)識(shí)別.單詞級(jí)識(shí)別任務(wù)中每個(gè)唇讀視頻對(duì)應(yīng)一個(gè)單詞，具有固定的詞庫.Weng等[3]引入視頻光流信息作為視頻視覺特征，提高單詞識(shí)別的正確率.句子級(jí)別的唇語理解滿足交流需要，更具有應(yīng)用價(jià)值，其識(shí)別的一般流程為：首先預(yù)處理唇語視頻，裁剪視頻幀的嘴唇區(qū)域；然后由模型前端提取視頻特征；最后由模型后端解碼得到預(yù)測(cè)文本.

在句子級(jí)唇語識(shí)別任務(wù)上，Assael等[1]提出LipNet，以3D 卷積神經(jīng)網(wǎng)絡(luò)(3D Convolutional Neu-ral Network,3D CNN)[4]作為視頻的時(shí)空特征提取模塊，使用雙向門控循環(huán)單元(Gated Recurrent Unit,GRU)[5]和CTC(Connectionist Temporal Classification)[6]解碼得到唇讀語句.CTC是一種編碼方式，可在無需對(duì)齊視頻和文本序列的情況下實(shí)現(xiàn)變長(zhǎng)序列的預(yù)測(cè)，但缺少對(duì)語義信息的處理.Chung等[7]提出WLAS(Watch,Listen,Attend and Spell)，通過兩個(gè)共用解碼器的序列到序列模型(Sequence-to-Sequence)[8]分別處理唇讀視頻特征序列和音頻特征序列，得到上下文向量，并聯(lián)合注意力模塊進(jìn)行文本預(yù)測(cè).Zhang等[9]使用TCN(Temporal Con-volutional Network)進(jìn)行序列建模，克服句子級(jí)唇讀訓(xùn)練過程中的梯度消失問題，提高收斂速度.Ma等[10]提出DS-TCN(Depthwise Separable TCN),使用深度可分離TCN,減少唇讀模型的參數(shù)，并以自身作為教師模型進(jìn)行知識(shí)蒸餾,實(shí)現(xiàn)模型優(yōu)化.Ma等[11]還引入基于唇讀視頻音頻模態(tài)的輔助任務(wù)和更多的額外數(shù)據(jù),提高唇讀模型的識(shí)別能力.

按照識(shí)別語種不同，唇語識(shí)別還可分為英文唇語識(shí)別[1,7]和中文唇語識(shí)別[12-13].目前英文唇語識(shí)別研究已取得較大發(fā)展，而對(duì)中文唇語識(shí)別的關(guān)注較少.中文唇語識(shí)別和英文唇語識(shí)別在處理流程上具有明顯差異.具體而言，傳統(tǒng)英文唇語識(shí)別通常把唇讀視頻作為輸入，生成以詞或字符為單位的句子.而漢字是一種象形文字，拼音表示發(fā)音，因此中文句子唇讀任務(wù)通常分為拼音預(yù)測(cè)和漢字預(yù)測(cè)兩個(gè)階段.Zhang等[12]提出LipCH-Net，在從新聞聯(lián)播節(jié)目收集的數(shù)據(jù)集上進(jìn)行訓(xùn)練.LipCH-Net是一個(gè)分兩步進(jìn)行訓(xùn)練的架構(gòu)，首先分別訓(xùn)練從視頻序列到拼音和拼音到漢字這兩種不同模型，然后再將兩個(gè)模型進(jìn)行聯(lián)合優(yōu)化，得到最終的識(shí)別模型.Zhao等[13]公開大規(guī)模的句子級(jí)別中文普通話唇語識(shí)別數(shù)據(jù)集CMLR，視頻來自CCTV新聞聯(lián)播.同時(shí)，作者提出CSSMCM(Cascade Sequence-to-Sequence Model for Chinese Mandarin)，利用中文特有的拼音和音調(diào)信息，級(jí)聯(lián)3個(gè)序列到序列模型，分別漸進(jìn)地推理語句的拼音、音調(diào)和漢字，實(shí)現(xiàn)端到端的訓(xùn)練.使用表示發(fā)音的信息作為中間結(jié)果的策略也被應(yīng)用在英文唇語識(shí)別中，Deng等[14]將代表發(fā)音且邊界更短的音素作為中間結(jié)果的預(yù)測(cè)單元，提高英文結(jié)果的識(shí)別準(zhǔn)確性.

現(xiàn)有視覺特征提取模型的空間建模大多數(shù)是基于2D CNN或3D CNN架構(gòu).Chung等[15]使用堆疊的2D CNN VGG(Visual Geometry Group),從嘴唇圖像中提取特征，并對(duì)比不同的視頻幀特征融合策略對(duì)唇語識(shí)別正確率的影響.Stafylakis等[16]使用3D CNN提取視頻的時(shí)空特征，再通過2D的ResNet(Residual Network)傳遞每個(gè)時(shí)間步的特征并預(yù)測(cè)，在唇讀模型中結(jié)合2D卷積和3D卷積.Xu等[17]提出LCANet，使用堆疊的3D CNN和高速公路網(wǎng)絡(luò)自適應(yīng)組合嘴唇局部特征，提高視覺特征的建模能力.Jeon等[18]為了解決唇語識(shí)別視覺信息不足的挑戰(zhàn)，提出融合不同3D CNN模塊的架構(gòu)，獲得更好的視覺和運(yùn)動(dòng)信息表示，進(jìn)一步提升唇語識(shí)別效果.由此可見，CNN的卷積計(jì)算能捕獲像素之間的結(jié)構(gòu)信息，較好地提取唇部視覺特征.

然而，受到卷積核大小的限制，CNN通常只能關(guān)注短距離像素之間的結(jié)構(gòu)，難以捕獲遠(yuǎn)距離像素之間的關(guān)系，造成唇語識(shí)別任務(wù)中相似發(fā)音字符的識(shí)別效果不佳.這是因?yàn)橄嘟l(fā)音的字符在表達(dá)時(shí)嘴唇的局部圖像具有相似性，它們的差異主要體現(xiàn)在嘴唇發(fā)音時(shí)的整體運(yùn)動(dòng)，因此區(qū)分這些字符需要同時(shí)關(guān)注不同距離區(qū)域的唇形.通常，CNN架構(gòu)對(duì)圖像特征的提取是基于局部性的歸納偏置，這種對(duì)局部像素的卷積計(jì)算難以挖掘唇形的整體差異，導(dǎo)致識(shí)別精度的下降.

針對(duì)上述問題，本文基于Vision Transformer(ViT)[19]架構(gòu)在提取圖像全局視覺特征的優(yōu)異表現(xiàn)，提出基于Vision Transformer的中文唇語識(shí)別模型(Chinese Lipreading Network Based on Vision Trans-former,ViTCLN)，融合ViT和GRU，分別提取視頻序列的高質(zhì)量空間特征和時(shí)間特征.其中ViT可處理原始圖像塊的線性映射，它的自注意力機(jī)制允許關(guān)注圖像中長(zhǎng)距離的像素間關(guān)系，動(dòng)態(tài)計(jì)算區(qū)域之間的權(quán)重，提取嘴唇區(qū)域整體視覺特征，提高區(qū)分唇形的能力.此外，ViTCLN以級(jí)聯(lián)序列到序列模型作為中文文本解碼模塊，通過注意力模塊實(shí)現(xiàn)視頻、拼音和漢字序列的對(duì)齊.在中文句子級(jí)唇語識(shí)別數(shù)據(jù)集上的實(shí)驗(yàn)表明，ViTCLN具有較好的中文唇語識(shí)別性能.

1 基于Vision Transformer的中文唇語識(shí)別

本節(jié)提出基于Vision Transformer的中文唇語識(shí)別模型(ViTCLN)，完整模型架構(gòu)如圖1所示.首先使用ViT捕捉視頻每幀圖像全局細(xì)節(jié)的空間特征表示.然后,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[20]構(gòu)建圖像幀空間特征的時(shí)間序列關(guān)系，得到視頻中唇部動(dòng)作的視覺空間特征和時(shí)序特征的聯(lián)合表示.最后，使用級(jí)聯(lián)的序列到序列模型預(yù)測(cè)說話人的文本，預(yù)測(cè)分為拼音和漢字兩個(gè)階段.

1.1 空間和時(shí)間維度的視頻特征聯(lián)合表示

1.1.1視頻預(yù)處理

本文將裁剪唇讀視頻得到的嘴唇區(qū)域幀序列作為預(yù)處理的輸入數(shù)據(jù)，使模型集中關(guān)注嘴唇區(qū)域信息.具體地，使用Face Alignment人臉檢測(cè)庫提取視頻幀的人臉唇部特征點(diǎn)，并基于這些唇部特征點(diǎn)確定嘴唇區(qū)域，最終裁剪得到嘴唇居中的圖像序列，大小為128×64像素.

1.1.2視頻幀嵌入

基于Transformer[21]架構(gòu)，ViT將圖像按塊(Patch)劃分構(gòu)建與自然語言處理中相似的線性映射序列，實(shí)現(xiàn)標(biāo)準(zhǔn) Transformer在圖像處理上的原生應(yīng)用.相比傳統(tǒng)卷積操作，ViT的自注意力模塊根據(jù)整幅圖像計(jì)算動(dòng)態(tài)權(quán)重，有助于獲得說話人唇部區(qū)域像素之間的更大范圍、更遠(yuǎn)距離的結(jié)構(gòu)關(guān)聯(lián)信息，因此能獲得更具表達(dá)能力的視覺空間特征.

由于Transformer架構(gòu)需要輸入嵌入向量序列，ViT將每個(gè)輸入視頻序列x∈RW×H×C劃分為固定大小的塊序列xp∈RN×(P×P×C)，其中W、H表示視頻幀的寬、高，C表示視頻幀的通道數(shù)，N表示塊數(shù)，P表示塊邊長(zhǎng).本文采用16×16像素的塊大小.然后，ViT利用一個(gè)可學(xué)習(xí)的線性投影E將圖像塊映射到嵌入向量，作為Transformer的標(biāo)準(zhǔn)輸入.同時(shí)在嵌入向量序列中引入分類標(biāo)記zcls，用于生成圖像表示.ViT對(duì)圖像塊的理解依賴位置嵌入Epos，因此模型使用實(shí)現(xiàn)簡(jiǎn)單且性能出色的一維位置嵌入，將圖像塊視為有序的一維序列,并將位置嵌入疊加到嵌入向量上.完整的嵌入向量序列為：

其中np表示圖像塊長(zhǎng)度.

1.1.3ViT編碼器

視頻嵌入序列z0輸入ViT的Transformer層疊編碼器模塊中，其中每個(gè)編碼器層都由多頭自注意力模塊和前饋網(wǎng)絡(luò)兩部分構(gòu)成，同時(shí)還引入殘差連接和層歸一化.

多頭注意力模塊基于多頭注意力機(jī)制[21]，允許模型關(guān)注來自不同位置的不同表示子空間的信息.

自注意力模塊將輸入序列z生成queryQ，keyK和valueV三個(gè)矩陣，通過點(diǎn)積計(jì)算query與當(dāng)前key的相關(guān)程度，縮放得到權(quán)重系數(shù)，并對(duì)value進(jìn)行加權(quán),得到自注意力輸出向量.自注意力權(quán)重的計(jì)算過程如下：

其中d表示輸入序列z中向量的長(zhǎng)度.

多頭注意力機(jī)制擴(kuò)展自注意力機(jī)制，對(duì)輸入序列進(jìn)行h次自注意力計(jì)算，將多個(gè)輸出結(jié)果拼接后通過WMHA投影得到最終輸出向量.每個(gè)頭都使用3個(gè)可學(xué)習(xí)的投影WQ、WK和WV,將Q、K、V投影到不同的向量空間.多頭注意力模塊為：

MHA(Q,K,V)=[head1,head2,…,headh]WMHA,

其中

每個(gè)編碼器層包含一個(gè)前饋網(wǎng)絡(luò)，由兩層全連接層(Fully Connected Layers，F(xiàn)C)構(gòu)成，使用 GeLU(Gaussian Error Linear Unit)[22]激活函數(shù)轉(zhuǎn)換輸出.前饋網(wǎng)絡(luò)為：

FFN(x)=FC(GeLU(FC(x))).

綜上所述，塊嵌入序列在ViT模塊經(jīng)過L個(gè)編碼器層計(jì)算，并使用層歸一化提高網(wǎng)絡(luò)的泛化能力.計(jì)算過程如下：

z′l=MHA(LN(zl))+zl，

zl+1=FFN(LN(z′l))+z′l，

其中，LN(·)為層歸一化，zl為第l層Transformer編碼器輸入，l=0,1,…,L-1.

對(duì)視頻序列x1,x2,…,xnf的每幀都使用ViT模塊并行計(jì)算，得到特征表示構(gòu)成視覺特征序列y1,y2,…,ynf,其中nf表示圖像幀長(zhǎng)度.

1.1.4時(shí)序特征提取

在視覺的空間特征表達(dá)的基礎(chǔ)上補(bǔ)充和增強(qiáng)在時(shí)序維度的特征表示，有助于提高唇語識(shí)別的精度.使用ViT模塊提取的視覺特征，只能表示唇部區(qū)域的空間特征，無法表示不同幀之間嘴唇運(yùn)動(dòng)變化特征，因此需要獲取視頻幀的視覺特征之間的時(shí)序關(guān)系.

GRU是RNN[22]的一種變體，在時(shí)序建模上解決傳統(tǒng)RNN 長(zhǎng)期記憶能力不足的問題，同時(shí)避免梯度消失和梯度爆炸，廣泛應(yīng)用于自然語言處理、語音識(shí)別等序列處理任務(wù).雙向GRU 包含兩層隱藏層，可在時(shí)間維度的正反方向上處理輸入序列.ViTCLN使用兩層雙向GRU向視覺特征中融合視頻的上下文,彌補(bǔ)時(shí)序特征的不足，得到視頻的融合空間和時(shí)間維度的特征序列

1.2 文本解碼

文本解碼部分負(fù)責(zé)將視覺模態(tài)的時(shí)空特征轉(zhuǎn)換為文本模態(tài)的表示.

1.2.1序列到序列模型

其中，in表示輸入模態(tài)，out表示輸出模態(tài)，i表示GRU的時(shí)間步，Embedding(·)表示嵌入函數(shù)，將文本字符映射到向量空間.

為了進(jìn)一步利用輸入向量包含的信息，本文引入注意力機(jī)制，處理編碼器輸出的隱藏層向量.具體地，在解碼器的每個(gè)時(shí)間步上，注意力模塊會(huì)計(jì)算編碼器上所有隱藏層輸出的權(quán)重，生成上下文向量輔助解碼器預(yù)測(cè).注意力模塊Attn的權(quán)重為：

加權(quán)得到的注意力上下文向量：

(1)

1.2.2級(jí)聯(lián)文本預(yù)測(cè)

由于拼音類別更少，與發(fā)音的唇形關(guān)聯(lián)性更強(qiáng)，更容易預(yù)測(cè)拼音，因此將拼音預(yù)測(cè)作為中間階段能保證中文唇語識(shí)別的精度.本文使用視頻到拼音和拼音到漢字兩個(gè)序列到序列模塊級(jí)聯(lián)，漢字解碼器除了需要關(guān)注拼音隱藏層序列，同樣也需要關(guān)注視頻隱藏層序列，融合視頻和拼音信息進(jìn)行預(yù)測(cè).

以視頻特征序列ev和拼音特征序列ep分別作為兩個(gè)序列到序列模塊的輸入，應(yīng)用式(1)得到的注意力上下文向量和兩者的解碼器GRU輸出拼接，計(jì)算每個(gè)時(shí)間步輸出模態(tài)字符的概率分布：

1.3 目標(biāo)函數(shù)

在文本解碼階段，模型通過兩個(gè)子網(wǎng)絡(luò)預(yù)測(cè)視頻中的拼音和漢字，因此目標(biāo)是通過模型訓(xùn)練最大化拼音和漢字的條件概率，即最小化兩者的目標(biāo)函數(shù)，分別定義如下：

其中，p={p1,p2,…,pn-1}表示拼音序列，c={c1,c2,…,cn-1}表示漢字序列.

為了同時(shí)提高拼音和漢字預(yù)測(cè)的準(zhǔn)確性，本文聯(lián)合優(yōu)化兩個(gè)目標(biāo)函數(shù)，最終的損失函數(shù)如下：

L=Lpinyin+Lcharacter.

目標(biāo)函數(shù)計(jì)算中會(huì)忽略標(biāo)簽填充的影響，使用Adam(Adaptive Moment Estimation)優(yōu)化器優(yōu)化，并裁剪梯度.

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)設(shè)置

本文使用CMLR數(shù)據(jù)集[13]驗(yàn)證ViTCLN的有效性.CMLR數(shù)據(jù)集是目前可獲取的最大中文句子級(jí)唇語識(shí)別數(shù)據(jù)集，由超過十萬個(gè)新聞聯(lián)播說話視頻構(gòu)成，包含11位說話人，共有394類拼音和3 517類漢字字符，字典覆蓋范圍廣(同時(shí)也意味著存在更多的同音字).CMLR數(shù)據(jù)集的視頻幀率為25 fps，幀長(zhǎng)從15幀到223幀不等，最長(zhǎng)的句子可達(dá)29個(gè)漢字.

目前公開的中文句子級(jí)唇語識(shí)別數(shù)據(jù)集較少，本文另外選取英文句子級(jí)唇語識(shí)別數(shù)據(jù)集GRID[23]、英文和中文單詞級(jí)唇語識(shí)別數(shù)據(jù)集LRW[15]和LRW-1000[24]，驗(yàn)證本文視覺提取模塊的魯棒性和泛化性.在英文句子級(jí)數(shù)據(jù)集上的實(shí)驗(yàn)簡(jiǎn)化文本解碼器，只使用單個(gè)基于注意力機(jī)制的序列到序列模塊.在單詞級(jí)數(shù)據(jù)集上的實(shí)驗(yàn)將序列到序列模塊替換為分類網(wǎng)絡(luò).在實(shí)驗(yàn)中僅使用數(shù)據(jù)集上的視頻數(shù)據(jù).

在句子級(jí)數(shù)據(jù)集使用的詞匯表中，除了原有的字符之外，還包含3個(gè)額外標(biāo)記：〈sos〉，〈eos〉和〈pad〉，分別表示句子的開始，結(jié)束和填充.為了避免消融實(shí)驗(yàn)中簡(jiǎn)單增加模型參數(shù)量帶來的性能影響，ViT模塊中Transformer的輸入向量長(zhǎng)度設(shè)置為192，并使用在ImageNet2012數(shù)據(jù)集上預(yù)訓(xùn)練的ViT模型作為初始模型.

模型訓(xùn)練時(shí)，為了提高收斂速度和穩(wěn)定性，本文采用學(xué)習(xí)率預(yù)熱策略，學(xué)習(xí)率在前5個(gè)輪次線性增長(zhǎng)到基本學(xué)習(xí)率.使用Scheduled Sampling策略[25]訓(xùn)練模型，利用真實(shí)標(biāo)簽引導(dǎo)預(yù)測(cè),消除訓(xùn)練和測(cè)試中的差異，采樣率為0.5.此外，采用學(xué)習(xí)率衰減優(yōu)化，基礎(chǔ)學(xué)習(xí)率為0.000 3，當(dāng)錯(cuò)誤率不再下降時(shí)，學(xué)習(xí)率降低為原來的一半.

本文通過編輯距離計(jì)算預(yù)測(cè)語句的錯(cuò)誤率以衡量語句的正確性，定義為使預(yù)測(cè)語句變換為標(biāo)簽語句所需的最少操作次數(shù).編輯距離會(huì)找出將預(yù)測(cè)語句變換到標(biāo)簽語句所需的3種基本編輯操作：替換(S)、刪除(D)和插入(I).可得錯(cuò)誤率(Error Rate,ER)為：

其中N表示標(biāo)簽語句的長(zhǎng)度.錯(cuò)誤率越低表明模型預(yù)測(cè)性能越優(yōu).拼音錯(cuò)誤率(Pinyin ER,PER)、字符錯(cuò)誤率(Character ER,CER)和詞錯(cuò)誤率(Word ER,WER)分別為拼音、漢字字符和單詞在預(yù)測(cè)結(jié)果和標(biāo)簽之間的編輯距離.本文使用PER、CER和WER作為句子級(jí)數(shù)據(jù)集上模型性能的評(píng)價(jià)指標(biāo).此外，在單詞級(jí)數(shù)據(jù)集上使用正確率(Accuracy,ACC)作為評(píng)價(jià)指標(biāo).

2.2 對(duì)比實(shí)驗(yàn)結(jié)果

本節(jié)對(duì)比ViTCLN和經(jīng)典唇語識(shí)別模型，評(píng)估本文模型性能.具體基線模型如下所示.

1)LipNet[1].端到端英文句子級(jí)唇語識(shí)別模型，利用CTC解決文本序列的對(duì)齊問題.

2)CALLip[2].使用屬性學(xué)習(xí)模塊提取說話人的身份特征，消除跨說話人的差異.在訓(xùn)練過程中，在視覺信號(hào)和音頻信號(hào)之間設(shè)計(jì)對(duì)比學(xué)習(xí)，加強(qiáng)對(duì)視覺特征的辨別.

3)WAS(Watch,Attend and Spell)[7].利用視頻信息,基于注意力的序列到序列模型預(yù)測(cè)句子，在對(duì)比中只使用Watch的視頻信息.

4)TCN[9].基于3D CNN、ResNet50、TCN和CTC模塊，使用TCN部分消除RNN梯度消失和性能不足的缺陷.

5)DS-TCN[10].基于深度可分離時(shí)空卷積(Depth-wise Separable TCN)，并通過自我蒸餾的方式在迭代中學(xué)習(xí)原有唇讀模型.

6)LipCH-Net[12].端到端中文句子級(jí)唇語識(shí)別模型，以VGG和ResNet提取視覺特征.在訓(xùn)練時(shí)，采用兩種模型分別進(jìn)行視頻到拼音和拼音到漢字兩個(gè)階段的預(yù)測(cè)，然后進(jìn)行聯(lián)合優(yōu)化.

7)CSSMCM[13].采用VGG提取視覺特征，使用多個(gè)序列到序列模型依次預(yù)測(cè)拼音、音調(diào)和漢字序列，同時(shí)使用注意力機(jī)制對(duì)齊之前生成的序列.

8)LIBS(Lip by Speech)[26].知識(shí)蒸餾方法，將預(yù)訓(xùn)練模型作為教師模型，從序列、上下文和幀級(jí)多種尺度的層面上進(jìn)行知識(shí)蒸餾.

9)InvNet[27].改進(jìn)傳統(tǒng)卷積操作，在減少模型參數(shù)的同時(shí)，保證唇讀模型的性能.

10)SE-ResNet[28].訓(xùn)練中引入圖像混合、標(biāo)簽平滑、詞邊界等策略，降低唇讀模型的訓(xùn)練難度.

11)3DCvT(A Lip Reading Method Based on 3D Convolutional Vision Transformer)[29].使用Trans-former處理3D CNN提取的特征圖,作為視覺特征.

ViTCLN和基線模型在各數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1和表2所示，其中,PER列中-表示對(duì)應(yīng)模型不包含預(yù)測(cè)拼音的步驟而直接預(yù)測(cè)漢字,WER列中-表示原文獻(xiàn)中無此結(jié)果.

由表1可見，ViTCLN性能最優(yōu)，在CMLR測(cè)試集上達(dá)到24.94%的PER 和26.87%的CER，相比CSSMCM，PER和CER分別下降31%和17%.ViTCLN在GRID測(cè)試集上的WER達(dá)到1.09%，為最優(yōu)值.

由表2可見，ViTCLN在單詞級(jí)數(shù)據(jù)集LRW和LRW-1000上也取得和基線模型相當(dāng)?shù)男阅?，可?yīng)用于不同的唇語識(shí)別任務(wù)，從而驗(yàn)證本文視頻特征提取模塊的魯棒性和泛化性.

表1 各模型在CMLR、GRID數(shù)據(jù)集上的性能對(duì)比Table 1 Performance comparison of different models on CMLR and GRID datasets %

表2 各模型在LRW、LRW-1000數(shù)據(jù)集上的ACC對(duì)比Table 2 ACC comparison of different models on LRW and LRW-1000 datasets %

2.3 超參數(shù)分析

不合適的學(xué)習(xí)率會(huì)使模型無法收斂，同時(shí)，訓(xùn)練初期使用較大的學(xué)習(xí)率，可能導(dǎo)致模型參數(shù)優(yōu)化方向的不穩(wěn)定.為了對(duì)比基礎(chǔ)學(xué)習(xí)率和預(yù)熱輪次兩個(gè)超參數(shù)對(duì)ViTCLN的影響，分別調(diào)整學(xué)習(xí)率和學(xué)習(xí)率預(yù)熱輪次，在CMLR數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，結(jié)果如下所示.當(dāng)基礎(chǔ)學(xué)習(xí)率分別為1e-4，3e-4，5e-4，7e-4時(shí)，CER為27.73%，26.87%，32.31%，44.55%.當(dāng)預(yù)熱輪次分別為0,3，5，7時(shí)，CER為30.02%，28.48%，26.87%，27.03%.因此，當(dāng)基礎(chǔ)學(xué)習(xí)率為3e-4，預(yù)熱輪次為5時(shí)，模型性能最優(yōu).

2.4 消融實(shí)驗(yàn)結(jié)果

為了驗(yàn)證視覺空間特征提取模塊ViT和時(shí)序特征提取模塊GRU的有效性，構(gòu)建如下變體模型：1)模型1.ViT模塊替換為2D CNN，移除GRU模塊.2)模型2.ViT模塊替換為3D CNN，移除GRU模塊.3)模型3.保留ViT模塊，移除GRU模塊.4)模型4.ViT模塊替換為2D CNN，保留GRU模塊.5)模型5.ViT模塊替換為3D CNN，保留GRU模塊.6)模型6.ViTCLN.

各模型在CMLR、GRID數(shù)據(jù)集上的性能對(duì)比如表3所示.各模型訓(xùn)練過程中，在CMLR驗(yàn)證集上的錯(cuò)誤率下降曲線如圖2所示.

由表3和圖2可知，模型4和模型5分別將ViTCLN中用于提取視頻特征的ViT模塊替換為2D CNN和3D CNN，CER均高于ViTCLN.ViTCLN在CMLR、GRID數(shù)據(jù)集上均取得最優(yōu)值，表明ViT捕獲嘴唇的整體視覺空間特征，相比CNN架構(gòu)，具有更高的區(qū)分度.

相比模型4～模型6，模型1～模型3的錯(cuò)誤率顯著上升，這是因?yàn)樗鼈円瞥龝r(shí)序特征提取GRU模塊，說明GRU模塊可有效捕獲視頻幀序列的時(shí)間關(guān)系,并且為文本解碼提供運(yùn)動(dòng)信息.

表3 各模型在CMLR、GRID數(shù)據(jù)集上的性能對(duì)比Table 3 Performance comparison of different models on CMLR and GRID datasets %

在去除GRU的模型中，3D CNN前端(模型2)優(yōu)于ViT前端(模型3)，這是因?yàn)?D CNN具有一定的時(shí)序圖像處理能力，而ViT雖然具有優(yōu)秀的視覺特征提取能力，但其獨(dú)立處理視頻幀,導(dǎo)致缺少序列信息的捕獲.因此GRU在模型中與ViT形成互補(bǔ)模塊，在序列任務(wù)中額外挖掘時(shí)序關(guān)系供編解碼器處理具有必要性.

為了分析各模塊對(duì)模型復(fù)雜度的影響，相同條件下模型4～模型6在CMLR數(shù)據(jù)集上的參數(shù)量和訓(xùn)練時(shí)間如表4所示.

表4 各模型在CMLR數(shù)據(jù)集上的參數(shù)量和訓(xùn)練時(shí)間Table 4 Parameters and training time of different models on CMLR dataset

ViTCLN的文本解碼模塊級(jí)聯(lián)兩個(gè)編解碼器，少于CSSMCM的三個(gè).在后端模塊相同的情況下，CNN模型使用和ViT模型參數(shù)量相近的模塊，對(duì)模型帶來的性能差異并非由增加參數(shù)量帶來的.變體模型的訓(xùn)練時(shí)間相近，由于2D CNN和ViT需要對(duì)每幀圖像前向計(jì)算，因此相比3DCNN，需要更多的訓(xùn)練時(shí)間.

上述消融實(shí)驗(yàn)表明,ViTCLN中的ViT和GRU組合結(jié)構(gòu)既可充分捕獲說話時(shí)唇部區(qū)域圖像像素的長(zhǎng)距離視覺特征，也可有效建模不同圖像幀之間的運(yùn)動(dòng)關(guān)聯(lián)關(guān)系，得到最佳的唇語識(shí)別效果.

2.5 案例分析

為了定性分析模型效果，本文從CMLR數(shù)據(jù)集的測(cè)試結(jié)果中選取部分案例進(jìn)行對(duì)比分析.各模型預(yù)測(cè)得到的句子如表5所示，表中黑體字符表示預(yù)測(cè)錯(cuò)誤的字符.由表可見，在第1個(gè)案例上，基于CNN的模型在拼音和漢字上均產(chǎn)生錯(cuò)誤預(yù)測(cè).模型2對(duì)時(shí)間特征提取不足導(dǎo)致未實(shí)現(xiàn)拼音和漢字的對(duì)齊，模型4和模型5沒有區(qū)分字符拼音“su”和“zu”的差異，兩者的聲母均為平舌音，發(fā)聲時(shí)嘴唇相似性較高，導(dǎo)致中文的詞預(yù)測(cè)錯(cuò)誤，需要關(guān)注唇形的整體形狀和變化才能正確識(shí)別.在案例2的句子識(shí)別中，基于CNN的模型錯(cuò)誤地將“tong guo”識(shí)別成韻母相同的“gong zuo”，以及將“tong”識(shí)別成聲母發(fā)音相似的“tou”，聲母或韻母的相似發(fā)音方式使唇形從視覺上更難區(qū)分.模型3雖然正確識(shí)別漢字“通過”，但仍出現(xiàn)預(yù)測(cè)錯(cuò)誤，這可能是由于缺少上下文關(guān)聯(lián)信息.ViTCLN正確識(shí)別這些相近發(fā)音的字符，降低中文唇語識(shí)別的錯(cuò)誤率.

表5 各模型在CMLR數(shù)據(jù)集上的預(yù)測(cè)結(jié)果對(duì)比Table 5 Prediction result comparison of different models on CMLR dataset

2.6 可視化分析

為了分析不同變體模型下輸入圖像對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)程度，本文使用顯著性圖[30]進(jìn)行可視化分析，結(jié)果如圖3所示.像素的顯著性反映其對(duì)字符分類評(píng)分的貢獻(xiàn)，其中模型4和模型5得到的顯著性區(qū)域包含大量遠(yuǎn)離唇部的面部區(qū)域，然而這些區(qū)域?qū)ψR(shí)別唇語的影響較小.ViTCLN使用自注意力機(jī)制對(duì)圖像整體計(jì)算權(quán)重，所得圖像的顯著性區(qū)域集中在唇部附近的塊中，而背景和臉頰等區(qū)域顯著性較低，對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)更準(zhǔn)確.

(a)原始圖像(a)Original images

本文將變體模型在CMLR測(cè)試集上得到的易混淆音字特征可視化以觀察其分布情況.選擇表5中案例2產(chǎn)生混淆的拼音“tong”、“gong”和“tou”，特征來自于拼音解碼器的輸出特征，降維后繪制散點(diǎn)圖，如圖4所示.這些易混淆音字的區(qū)分是唇語識(shí)別的難點(diǎn)所在，在圖4(a)、(b)中，案例2標(biāo)簽中拼音“tong”的特征整體上較分散，部分特征分布在其它拼音聚類中，容易發(fā)生混淆.在圖4(c)中，拼音“tong”的特征相對(duì)聚集，不同拼音特征聚類的可區(qū)分程度更高.

(a)模型4 (b)模型5 (c)ViTCLN(a)Model 4 (b)Model 5圖4 各模型的易混淆音字特征分布圖Fig.4 Distribution of confused phonetic features of different models

在CMLR數(shù)據(jù)集上，ViTCLN的文本預(yù)測(cè)模塊使用3個(gè)注意力機(jī)制,提高視頻特征序列和拼音序列對(duì)預(yù)測(cè)結(jié)果的貢獻(xiàn)，有效性體現(xiàn)在注意力權(quán)重矩陣和序列的對(duì)齊上.

為了可視化理解這些注意力機(jī)制的作用，本文根據(jù)3個(gè)注意力機(jī)制計(jì)算得到的注意力權(quán)重矩陣?yán)L制圖5所示的熱力圖.圖中每行表示解碼器預(yù)測(cè)該字符時(shí)，在編碼器輸出結(jié)果上的注意力權(quán)重，圖5(a)、(b)中高亮區(qū)域意味著在視頻的這幾幀中，說話人正在講這些字.同時(shí)，每個(gè)字符覆蓋的連續(xù)幾幀符合每個(gè)字符的發(fā)聲時(shí)間窗口，這也會(huì)幫助解碼器更準(zhǔn)確預(yù)測(cè)序列中的每個(gè)字.得益于ViTCLN提取的空間特征和時(shí)間特征，級(jí)聯(lián)序列到序列模塊的注意力模塊具有更好的對(duì)齊效果.

在圖5 (c)中預(yù)測(cè)第i個(gè)漢字時(shí)，拼音編碼器的第i+1個(gè)隱藏層輸出最大注意力權(quán)重，其中包含GRU編碼器計(jì)算得到的語義信息，并據(jù)此將拼音映射為合理的漢字語句.

圖5 注意力權(quán)重可視化熱力圖Fig.5 Heatmaps of attention weight visualization

3 結(jié) 束語

本文研究ViT在句子級(jí)別中文唇語識(shí)別中的應(yīng)用，提出基于ViT的中文唇語識(shí)別模型(ViTCLN).通過ViT的圖像映射和自注意力機(jī)制，提取全局的嘴唇圖像特征，避免CNN的歸納偏置和卷積的局限性.ViTCLN融合ViT和GRU,實(shí)現(xiàn)對(duì)唇讀視頻視覺和運(yùn)動(dòng)信息的準(zhǔn)確理解，通過互補(bǔ)的時(shí)空特征提高唇讀發(fā)音的區(qū)分度.最后通過級(jí)聯(lián)序列到序列模型對(duì)齊拼音和漢字預(yù)測(cè)結(jié)果，實(shí)現(xiàn)更準(zhǔn)確的中文唇語識(shí)別.在最大的公開句子級(jí)別中文唇語識(shí)別數(shù)據(jù)集CMLR上的實(shí)驗(yàn)表明，ViTCLN性能較優(yōu).進(jìn)一步的消融實(shí)驗(yàn)表明，ViT在視覺特征提取方面比CNN架構(gòu)更出色.此外，本文為了降低訓(xùn)練和預(yù)測(cè)的計(jì)算需求，使用復(fù)雜度最低的ViT變體，選擇更長(zhǎng)的向量表征可能會(huì)獲得更優(yōu)效果.今后將考慮從減少不同說話人差異帶來的視覺影響展開研究，進(jìn)一步提高唇讀模型的泛化能力.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡