国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Conformer的端到端語(yǔ)音識(shí)別方法

2024-08-17 00:00胡從剛申藝翔孫永奇趙思聰

摘 要:針對(duì)Conformer編碼器的聲學(xué)輸入網(wǎng)絡(luò)對(duì)FBank語(yǔ)音信息提取不足和通道特征信息缺失問題,提出一種RepVGG-SE-Conformer的端到端語(yǔ)音識(shí)別方法。首先,利用RepVGG的多分支結(jié)構(gòu),增強(qiáng)模型的語(yǔ)音信息提取能力,而在模型推理時(shí)通過結(jié)構(gòu)重參數(shù)化將多分支融合為單分支,以降低計(jì)算復(fù)雜度、加快模型推理速度。然后,利用基于壓縮和激勵(lì)網(wǎng)絡(luò)的通道注意力機(jī)制彌補(bǔ)缺失的通道特征信息,以提高語(yǔ)音識(shí)別準(zhǔn)確率。最后,在公開數(shù)據(jù)集Aishell-1上的實(shí)驗(yàn)結(jié)果表明:相較于Conformer,所提出方法的字錯(cuò)誤率降低了10.67%,驗(yàn)證了方法的先進(jìn)性。此外,RepVGG-SE聲學(xué)輸入網(wǎng)絡(luò)能夠有效提高多種Transformer變體的端到端語(yǔ)音識(shí)別模型的整體性能,具有很好的泛化能力。

關(guān)鍵詞:語(yǔ)音識(shí)別; Conformer; RepVGG; 壓縮和激勵(lì)網(wǎng)絡(luò)

中圖分類號(hào):TP912.34 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-014-2018-07

doi:10.19734/j.issn.1001-3695.2023.11.0563

End-to-end method based on Conformer for speech recognition

Abstract:The acoustic input network based on the Conformer encoder has the problem of insufficient extraction of FBank speech information and missing channel feature information. This paper proposed an end-to-end method based on RepVGG-SE-Conformer for speech recognition to solve these problems. Firstly, the proposed model used the multi-branch structure of RepVGG to enhance the speech information extraction capability, and using the structural re-parameterization fused the multi-branch into a single branch to reduce the computational complexity and speed up the model inference. Then, based on the squeeze-and-excitation network, the channel attention mechanism made up for the missing channel feature information to improve speech recognition accuracy. Finally, the experimental results on the public dataset Aishell-1 show that the proposed method’s character error rate is reduced by 10.67% compared with Conformer, and the advancement of the method is verified. In addition, the proposed RepVGG-SE acoustic input network has good generalization ability in the end-to-end scene, which can effectively improve the overall performance of speech recognition models based on Transformer variants.

Key words:speech recognition; Conformer; RepVGG; squeeze-and-excitation network

0 引言

自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition,ASR),簡(jiǎn)稱語(yǔ)音識(shí)別,是人與人、人與機(jī)器順暢交流的關(guān)鍵技術(shù)[1]。隨著智能通信設(shè)備的蓬勃發(fā)展,語(yǔ)音識(shí)別技術(shù)早已轉(zhuǎn)換成產(chǎn)品,并被廣泛應(yīng)用于會(huì)議、客服電話、出行駕駛、教育醫(yī)療等各種場(chǎng)景。主流的語(yǔ)音識(shí)別技術(shù)主要包括基于機(jī)器學(xué)習(xí)的方法(如GMM-HMM[2])和基于深度學(xué)習(xí)的方法(如DNN-HMM[3,4])。但由于GMM-HMM不僅要求幀內(nèi)元素之間相互獨(dú)立,而且沒有利用幀間上下文信息,致使模型無(wú)法充分刻畫聲學(xué)特征的空間狀態(tài)分布[5],識(shí)別率較低。而DNN-HMM是有監(jiān)督訓(xùn)練,由于訓(xùn)練數(shù)據(jù)人工無(wú)法標(biāo)注,需要借助GMM-HMM來(lái)實(shí)現(xiàn)幀與狀態(tài)的對(duì)齊,所以DNN-HMM模型依然存在一定局限性。在訓(xùn)練架構(gòu)上,以上兩種主流語(yǔ)音識(shí)別模型在聲學(xué)模型、語(yǔ)言模型和發(fā)音詞典三大組件上都需要單獨(dú)設(shè)計(jì)和訓(xùn)練,步驟比較煩瑣。而且這種分階段系統(tǒng)還需要聲學(xué)、語(yǔ)言學(xué)等專業(yè)知識(shí)和技術(shù)的積累,存在入門門檻高、開發(fā)成本高和難維護(hù)等問題。

近年來(lái),隨著計(jì)算能力的快速發(fā)展,出現(xiàn)了將傳統(tǒng)語(yǔ)音識(shí)別技術(shù)的三大組件融合成一個(gè)模型的端到端語(yǔ)音識(shí)別技術(shù),實(shí)現(xiàn)了語(yǔ)音到文本的直接映射。為解決語(yǔ)音輸入序列和輸出序列長(zhǎng)度不一致的問題,端到端語(yǔ)音識(shí)別技術(shù)可分為連接時(shí)序分類(connectionist temporal classification,CTC)[6,7]、循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器(RNN-Transducer,RNN-T) [8]以及基于注意力機(jī)制(attention)的方法 [9~11]。Wang等人[12]不僅對(duì)這三種模型的發(fā)展趨勢(shì)進(jìn)行了詳細(xì)總結(jié),而且深入分析了相關(guān)技術(shù)的優(yōu)缺點(diǎn)。隨著Transformer[13]在機(jī)器翻譯領(lǐng)域的廣泛應(yīng)用,Dong等人[14]首次將Transformer模型架構(gòu)引入到語(yǔ)音識(shí)別領(lǐng)域,進(jìn)一步提升了語(yǔ)音識(shí)別的準(zhǔn)確率。謝旭康等人[15]提出了一種TCN-Transformer-CTC模型,通過時(shí)序卷積(TCN)加強(qiáng)Transformer對(duì)位置信息的捕捉能力。盡管Transformer在捕獲長(zhǎng)距離上下文信息上具有較大的優(yōu)勢(shì),但提取局部特征的能力較弱。為解決這個(gè)問題,Gulati等人[16]提出了Conformer模型,該模型在Transformer編碼器的基礎(chǔ)上加入卷積模塊,通過卷積捕獲局部細(xì)粒度特征,同時(shí)保留了Transformer的全局表征能力。Burchi等人[17]提出了一種更為高效的 Conformer模型, 進(jìn)一步降低了計(jì)算復(fù)雜度。Gao等人[18]提出了一種快速并行的Transformer模型——Paraformer,將模型的解碼速度提升了10倍以上。Peng等人[19]提出了一種Branchformer模型,進(jìn)一步研究了局部特征和全局特征的關(guān)系及其對(duì)語(yǔ)音識(shí)別準(zhǔn)確率的影響。Radford等人[20]提出了一種Whisper模型,該模型支持多任務(wù)學(xué)習(xí),在解碼器里通過引入prefix prompt[21~23]來(lái)支持任務(wù)切換,從而實(shí)現(xiàn)多種語(yǔ)言到文本的轉(zhuǎn)換。

針對(duì)圖像分類任務(wù),Ding等人[24]提出了一種簡(jiǎn)單高效的輕量化VGG卷積網(wǎng)絡(luò)——RepVGG,以降低模型推理時(shí)的資源開銷。Hu等人[25]提出了一種包含通道注意力機(jī)制的網(wǎng)絡(luò)模型——SENet,增強(qiáng)了網(wǎng)絡(luò)模型的表征能力。受他們工作及文獻(xiàn)[16]的啟發(fā),本文提出了一種端到端語(yǔ)音識(shí)別模型RepVGG-SE-Conformer,以進(jìn)一步提高語(yǔ)音識(shí)別準(zhǔn)確率。主要貢獻(xiàn)如下:

a)在語(yǔ)音識(shí)別模型中首次引入RepVGG網(wǎng)絡(luò),在訓(xùn)練階段通過多分支結(jié)構(gòu)來(lái)增強(qiáng)模型對(duì)FBank信息的提取能力,在推理階段通過結(jié)構(gòu)重參數(shù)化降低了計(jì)算復(fù)雜度。

b)為彌補(bǔ)缺失的通道特征信息,在RepVGG網(wǎng)絡(luò)中融合壓縮和激勵(lì)模塊(SENet)以及通道注意力機(jī)制,通過優(yōu)化融合方式充分利用空間特征,提高了語(yǔ)音識(shí)別準(zhǔn)確率。

c)在公開數(shù)據(jù)集Aishell-1[26]上的實(shí)驗(yàn)結(jié)果表明:與Conformer相比,本文模型的語(yǔ)音識(shí)別準(zhǔn)確率提高了10.67%,而且RepVGG-SE聲學(xué)輸入網(wǎng)絡(luò)能夠有效提高多種Transformer變體的端到端語(yǔ)音識(shí)別模型的整體性能,具有很好的泛化能力。

1 相關(guān)知識(shí)

利用Transformer在捕獲長(zhǎng)距離上下文信息上的優(yōu)勢(shì)可以提升語(yǔ)音識(shí)別的準(zhǔn)確率,但其提取局部特征的能力較弱。為了解決這個(gè)問題,谷歌團(tuán)隊(duì)提出了一種融合卷積操作的Transformer網(wǎng)絡(luò)模型——Conformer。該模型保留了原有的Transformer解碼器部分,主要對(duì)Transformer的編碼器部分進(jìn)行了改進(jìn),模型總體架構(gòu)如圖1所示。

1.1 編碼器聲學(xué)輸入網(wǎng)絡(luò)

語(yǔ)音信號(hào)在進(jìn)入編碼器聲學(xué)輸入網(wǎng)絡(luò)之前,首先需要經(jīng)過預(yù)加重、分幀、加窗、傅里葉變換等信號(hào)預(yù)處理來(lái)獲取振幅譜,再對(duì)其幅度求平方;最后通過一組梅爾(Mel)濾波器來(lái)仿真人耳感知特性進(jìn)行信息壓縮,進(jìn)一步生成編碼器聲學(xué)輸入網(wǎng)絡(luò)所需要的對(duì)數(shù)功率譜——FBank特征圖。語(yǔ)音信號(hào)預(yù)處理過程如圖2所示。

編碼器聲學(xué)輸入網(wǎng)絡(luò)結(jié)構(gòu)如圖1(a)所示,主要由四部分組成:specaugment模塊[27]、卷積模塊(convolution subsampling)、線性層(linear)以及一個(gè)dropout。其中:specaugment模塊負(fù)責(zé)對(duì)FBank進(jìn)行數(shù)據(jù)增強(qiáng);convolution subsampling負(fù)責(zé)降采樣;linear負(fù)責(zé)特征維度的降維操作;dropout層負(fù)責(zé)緩解過擬合現(xiàn)象的發(fā)生,達(dá)到正則化的效果。

1.2 Conformer編碼器和解碼器

Conformer編碼器結(jié)構(gòu)如圖1(b)所示,主要由五部分組成:兩個(gè)前饋網(wǎng)絡(luò)層(feedforward module)、一個(gè)多頭注意力層(multi-head self-attention)、一個(gè)卷積模塊層(convolution module)以及一個(gè)層歸一化(layernorm)。其中,編碼器采用了Macaron Net架構(gòu)[28],且兩個(gè)前饋網(wǎng)絡(luò)層在輸出時(shí)均乘以1/2,編碼器的每個(gè)子層均以殘差方式進(jìn)行連接。

Conformer解碼器直接采用了Transformer解碼器結(jié)構(gòu),如圖1(c)所示,主要由三部分組成:一個(gè)屏蔽未來(lái)標(biāo)簽信息的掩碼多頭注意力層(multi-head self-attention)、一個(gè)混合編碼器和解碼器的注意力層(encoder-decoder attention)、一個(gè)前饋網(wǎng)絡(luò)層(feedforward module)。其中,解碼器的每個(gè)子層同樣均以殘差方式進(jìn)行連接。

1.3 RepVGG

為了降低模型推理時(shí)的資源開銷,文獻(xiàn)[24]基于VGG[29]單路模型和ResNet[30]多分支網(wǎng)絡(luò),提出了一種結(jié)構(gòu)重參數(shù)化思想,設(shè)計(jì)了一種訓(xùn)練網(wǎng)絡(luò)和推理網(wǎng)絡(luò)相解耦的模型——RepVGG。其中,訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,包含兩種多分支結(jié)構(gòu),分別用RS1和RS2表示。RS1的結(jié)構(gòu)為:一個(gè)3×3卷積平行添加一個(gè)1×1卷積分支,每個(gè)卷積步幅取值為2,padding為1,且輸出后均經(jīng)過批量歸一化(batch normalization,BN)處理。RS2的結(jié)構(gòu)為:一個(gè)3×3卷積平行添加一個(gè)1×1卷積分支和一個(gè)恒等映射(identity)分支,每個(gè)卷積步幅取值為1,padding為1,輸出后同樣經(jīng)過批量歸一化(BN)處理。RepVGG訓(xùn)練網(wǎng)絡(luò)主要由一個(gè)RS1和N個(gè)RS2串行組成,通過這種多分支結(jié)構(gòu)增強(qiáng)了模型的表征能力。

推理網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,包含兩種單路結(jié)構(gòu),通過結(jié)構(gòu)重參數(shù)化將多分支結(jié)構(gòu)的RepVGG訓(xùn)練網(wǎng)絡(luò)轉(zhuǎn)換成單路的推理網(wǎng)絡(luò)。其中,Con1單路卷積層由RS1訓(xùn)練多分支結(jié)構(gòu)轉(zhuǎn)換得到,Con2單路卷積層由RS2訓(xùn)練多分支結(jié)構(gòu)轉(zhuǎn)換得到。在推理階段利用這種單路模型,可以減少顯存占用、降低計(jì)算復(fù)雜度,從而加快推理速度。

1.4 SE通道注意力機(jī)制

在多通道特征圖中通常包含兩種特征:第一種是每個(gè)通道特征圖內(nèi)部的空間特征;第二種是反映通道間相互依賴關(guān)系的通道特征。為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)模型的表征能力,文獻(xiàn)[25]提出了一種包含通道注意力機(jī)制的網(wǎng)絡(luò)模型——SENet。該模型通過一種壓縮和激勵(lì)(squeeze-and-excitation,SE) 網(wǎng)絡(luò)模塊引入了通道注意力機(jī)制,學(xué)習(xí)了每個(gè)通道的重要程度,從而進(jìn)一步刻畫了通道間的相互依賴關(guān)系。SE模塊結(jié)構(gòu)如圖5所示,其主要由四部分組成:普通卷積網(wǎng)絡(luò)Ftr、壓縮操作Fsq、激勵(lì)操作Fex以及特征重標(biāo)定Fscale。其中,F(xiàn)sq利用全局平均池化(global avgpooling)對(duì)經(jīng)過Ftr卷積后的特征圖進(jìn)行壓縮,捕獲全局特征;激勵(lì)操作則是由全連接層、非線性激活ReLU、全連接層、sigmoid函數(shù)串行組成,用于表征不同通道的權(quán)重信息;Fscale負(fù)責(zé)將Ftr的輸出和Fex的輸出通過乘法進(jìn)行逐通道加權(quán),實(shí)現(xiàn)在通道維度上對(duì)原始特征的重標(biāo)定操作。本質(zhì)上,SE網(wǎng)絡(luò)利用了通道注意力機(jī)制,使得網(wǎng)絡(luò)模型增加對(duì)包含信息量最大的通道特征的關(guān)注度,同時(shí)抑制不重要的通道特征信息。

2 RepVGG-SE-Conformer模型

在Conformer編碼器聲學(xué)輸入網(wǎng)絡(luò)中,如圖6所示,F(xiàn)Bank經(jīng)過卷積降采樣(convolution subsampling)模塊進(jìn)行連續(xù)兩次降采樣,會(huì)造成特征信息提取不充分的問題。此外,卷積模塊輸出是一個(gè)多通道特征圖,在進(jìn)入linear層之前,需先將所有通道的特征圖沿特征維度方向依次拼接,形成一個(gè)高維度的單通道特征圖,這種拼接操作會(huì)導(dǎo)致通道特征信息的缺失。

為解決上述問題,本節(jié)對(duì)Conformer編碼器聲學(xué)輸入網(wǎng)絡(luò)進(jìn)行改進(jìn),提出一種融合RepVGG和注意力機(jī)制的模型——RepVGG-SE-Conformer,以進(jìn)一步提高語(yǔ)音識(shí)別準(zhǔn)確率。下面首先對(duì)該模型的整體架構(gòu)進(jìn)行介紹;然后,詳細(xì)說(shuō)明聲學(xué)輸入網(wǎng)絡(luò)中掩碼降采樣策略的優(yōu)化方法,再對(duì)聲學(xué)輸入網(wǎng)絡(luò)的訓(xùn)練與推理兩個(gè)階段以及模型的損失函數(shù)進(jìn)行說(shuō)明;最后,對(duì)模型的主要算法實(shí)現(xiàn)部分進(jìn)行簡(jiǎn)要概述。

2.1 模型架構(gòu)

RepVGG-SE-Conformer模型總體架構(gòu)如圖7所示,主要由三部分組成:編碼器聲學(xué)輸入網(wǎng)絡(luò)、共享的N層Conformer編碼器模塊和Two-Pass[31]方式解碼器。其中,編碼器聲學(xué)輸入網(wǎng)絡(luò)和Conformer編解碼器的詳細(xì)結(jié)構(gòu)已在第1章進(jìn)行了詳細(xì)描述。Two-pass解碼器由CTC解碼器和M個(gè)Transformer解碼器組成。本文的主要?jiǎng)?chuàng)新是在編碼器聲學(xué)輸入網(wǎng)絡(luò)中,用兩個(gè)RepVGG 模塊替換原來(lái)的convolution subsampling模塊;并且對(duì)第二個(gè)RepVGG 模塊進(jìn)行改造,通過添加壓縮和激勵(lì)(SE)模塊引入通道注意力機(jī)制,該模塊簡(jiǎn)稱為RepVGG-SE。

2.2 聲學(xué)輸入網(wǎng)絡(luò)中掩碼降采樣策略優(yōu)化

FBank語(yǔ)音特征序列可以看成一個(gè)單通道的二維圖像,但與計(jì)算機(jī)視覺領(lǐng)域中以固定尺寸圖像作為輸入不同,F(xiàn)Bank作為語(yǔ)音識(shí)別領(lǐng)域的輸入,其長(zhǎng)度具有時(shí)序性。為了保持每個(gè)batch內(nèi)部FBank時(shí)間長(zhǎng)度一致性,在數(shù)據(jù)預(yù)處理過程使用padding將每個(gè)batch內(nèi)的語(yǔ)音均填充到當(dāng)前batch內(nèi)部最大的FBank時(shí)間長(zhǎng)度。如圖8所示,假設(shè)batch_size設(shè)置為4,填充前每個(gè)FBank時(shí)間長(zhǎng)度分別為T1、T、T2、T3;填充后batch內(nèi)每個(gè)FBank時(shí)間長(zhǎng)度均變?yōu)閮?nèi)部的最大長(zhǎng)度T。

為了避免padding引發(fā)的均值計(jì)算偏移誤差問題,Conformer引入掩碼(mask)操作,且mask掩碼時(shí)間長(zhǎng)度初始值也為T。在Conformer編碼器聲學(xué)輸入網(wǎng)絡(luò)的convolution subsampling模塊中包含兩種降采樣。第一種降采樣:FBank降采樣。FBank以步幅為2、padding為0的3×3卷積進(jìn)行連續(xù)兩次降采樣,如圖6(a)所示。其中,F(xiàn)Bank特征圖時(shí)間維度發(fā)生了改變,第一次卷積后特征圖時(shí)間維度上的長(zhǎng)度T1為

第二次卷積后特征圖時(shí)間維度上的長(zhǎng)度T2為

第二種降采樣:mask掩碼降采樣。在FBank連續(xù)兩次降采樣后,mask掩碼連續(xù)兩次從第3列開始,以步幅為2的策略進(jìn)行降采樣。這種mask掩碼降采樣策略簡(jiǎn)稱Mask1,該策略等效于構(gòu)建一個(gè)特殊的1×3卷積核:前兩個(gè)元素值為0,第三個(gè)元素值為1,步幅為2,降采樣策略如圖9所示。顯然,mask掩碼和FBank在時(shí)間維度的長(zhǎng)度變化數(shù)學(xué)公式相同,即經(jīng)過降采樣輸出的特征圖和掩碼在時(shí)間維度上長(zhǎng)度仍然保持一致。

在聲學(xué)輸入網(wǎng)絡(luò)中引入計(jì)算機(jī)視覺領(lǐng)域的RepVGG網(wǎng)絡(luò)模型后,由于RepVGG網(wǎng)絡(luò)中二維卷積的padding參數(shù)值均為1,使得FBank在經(jīng)過RepVGG網(wǎng)絡(luò)的RS1結(jié)構(gòu)進(jìn)行降采樣后,輸出的特征圖在時(shí)間維度上長(zhǎng)度發(fā)生改變。第一個(gè)RS1后,的特征圖時(shí)間維度上的長(zhǎng)度T′1為

第二個(gè)RS1后,特征圖時(shí)間維度上的長(zhǎng)度T′2為

這時(shí),mask掩碼在時(shí)間維度上的長(zhǎng)度為T2,與FBank的長(zhǎng)度T′2不一致,導(dǎo)致在模型的掩碼計(jì)算過程中出現(xiàn)維度不一致,使模型在訓(xùn)練過程中出現(xiàn)錯(cuò)誤。此外,對(duì)比式(2)(4)可以看出,當(dāng)T1為奇數(shù)時(shí),兩種FBank降采樣后的輸出在時(shí)間維度上的長(zhǎng)度相差1幀;但當(dāng)T1為偶數(shù)時(shí),兩種FBank降采樣后的輸出在時(shí)間維度上的長(zhǎng)度相差2幀。由于mask使用的是單一的掩碼降采樣策略,所以很難解決這種奇偶性引發(fā)的輸出長(zhǎng)度波動(dòng)問題。

為了解決上述時(shí)間長(zhǎng)度不一致的問題,本部分在RepVGG網(wǎng)絡(luò)降采樣的基礎(chǔ)上對(duì)原來(lái)的mask降采樣策略進(jìn)行了優(yōu)化,提出一種新的mask降采樣策略,如圖10所示。在每次執(zhí)行mask掩碼降采樣前,首先獲取mask掩碼的時(shí)間長(zhǎng)度T,然后判斷T的奇偶性。若為偶數(shù),則mask從第2列開始,以步幅為2的方式進(jìn)行降采樣;若為奇數(shù),則mask從第1列開始,以步幅為2的方式進(jìn)行降采樣。與原始的降采樣策略不同,改進(jìn)后的降采樣策略不能等效為任何1×3卷積。

2.3 聲學(xué)輸入網(wǎng)絡(luò)的訓(xùn)練

聲學(xué)輸入網(wǎng)絡(luò)在訓(xùn)練階段,如果采用淺層單分支卷積模塊進(jìn)行降采樣會(huì)造成FBank特征提取不充分。為解決這個(gè)問題,本部分在卷積降采樣模塊中引入RepVGG的訓(xùn)練網(wǎng)絡(luò)。通過增加卷積網(wǎng)絡(luò)層數(shù)使模型能夠?qū)W習(xí)到更為復(fù)雜的語(yǔ)音特征;同時(shí)利用RepVGG訓(xùn)練網(wǎng)絡(luò)的多分支結(jié)構(gòu)來(lái)進(jìn)一步提升模型的表征能力,改進(jìn)后的卷積降采樣模塊結(jié)構(gòu)如圖11(a)所示。該卷積降采樣模塊使用兩個(gè)RepVGG訓(xùn)練模塊來(lái)構(gòu)成一個(gè)串行結(jié)構(gòu),簡(jiǎn)稱RepVGG-CS。其中,每個(gè)RepVGG訓(xùn)練模塊由一個(gè)RS1結(jié)構(gòu)和三個(gè)RS2結(jié)構(gòu)組成。為了驗(yàn)證RepVGG多分支結(jié)構(gòu)在訓(xùn)練階段的優(yōu)勢(shì),本部分還設(shè)計(jì)了一種基于兩個(gè)VGG串行的單路卷積降采樣模塊——VGG-CS進(jìn)行對(duì)比,如圖11(b)所示。其中,每個(gè)VGG由一個(gè)Con1結(jié)構(gòu)和三個(gè)Con2結(jié)構(gòu)組成。在第三部分實(shí)驗(yàn)中將對(duì)RepVGG-CS、VGG-CS和基線模型Conformer進(jìn)行分析對(duì)比。

為了解決拼接操作造成的通道特征信息損失問題,本部分在RepVGG訓(xùn)練網(wǎng)絡(luò)中,通過融合壓縮和激勵(lì)(SE)模塊引入通道注意力機(jī)制。在不破壞RepVGG網(wǎng)絡(luò)結(jié)構(gòu)的情況下,設(shè)計(jì)了第一種融合方式:在圖11(a)中第二個(gè)RepVGG模塊后直接加入SE模塊,如圖12(a)所示。其中,SE模塊通過一個(gè)全局池化層進(jìn)行壓縮,再依次通過全連接層、ReLU、全連接層、sigmoid進(jìn)行激勵(lì)。這種融合方式簡(jiǎn)稱為RepVGG-SE-1。

在Conformer原有的卷積降采樣模塊中僅包含兩層卷積,而在本部分設(shè)計(jì)的RepVGG-CS降采樣模塊中包含八層卷積以增強(qiáng)對(duì)FBank特征圖的信息提取能力。但是,網(wǎng)絡(luò)模型層數(shù)的增加會(huì)帶來(lái)模型退化問題[30]。此外,第一種融合方式RepVGG-SE-1可能存在過度側(cè)重通道特征、削弱空間特征等問題。為了解決上述問題,本部分設(shè)計(jì)了第二種融合方式:在RepVGG-SE-1的基礎(chǔ)上,將經(jīng)過RS1層和SE模塊的輸出以跳躍連接的方式進(jìn)行殘差融合,如圖12(b)所示。這種融合方式簡(jiǎn)稱為RepVGG-SE-2,在第三部分實(shí)驗(yàn)中將對(duì)以上兩種融合方式進(jìn)行對(duì)比分析。

2.4 聲學(xué)輸入網(wǎng)絡(luò)的推理

推理階段,為了降低語(yǔ)音識(shí)別模型在部署階段的計(jì)算資源開銷、加快推理速度,本部分對(duì)RepVGG-SE-Conformer模型進(jìn)行等效壓縮:通過結(jié)構(gòu)重參數(shù)化將訓(xùn)練階段RepVGG-CS包含的多分支結(jié)構(gòu)——RS1和RS2分別轉(zhuǎn)換成Con1與Con2單路結(jié)構(gòu)。

為了實(shí)現(xiàn)模型的等效壓縮,結(jié)構(gòu)重參數(shù)化過程需要進(jìn)行以下操作:卷積和批歸一化(BN)的融合、不同尺度的卷積核的轉(zhuǎn)換以及所有3×3卷積分支的融合。第一步是卷積和BN的融合,其中卷積公式如下:

Conv(x)=Wx+b(5)

其中:x為語(yǔ)音特征序列;W為卷積權(quán)重;b為偏置。在不考慮b的情況下,式(5)變?yōu)?/p>

Conv(x)=Wx(6)

BN的計(jì)算公式為

其中:y為x通過卷積處理后的語(yǔ)音特征序列;γ為可學(xué)習(xí)的縮放系數(shù);β為可學(xué)習(xí)平移系數(shù);ε是為防止除零所設(shè)置的一個(gè)極小值;μ和σ 2表示的是在整個(gè)語(yǔ)音訓(xùn)練集上總體期望和方差,且這兩個(gè)值是在訓(xùn)練過程中利用每個(gè)batch上的均值和方差,使用滑動(dòng)窗口求平均的方式進(jìn)行更新得到的 [32]。當(dāng)模型進(jìn)入推理階段后,μ和σ 2直接作為已知常數(shù)參與計(jì)算。將式(6)代入式(7),化簡(jiǎn)得

至此,卷積和批量歸一化(BN)融合操作完成。

第二步,不同尺度的卷積轉(zhuǎn)換。對(duì)于1×1卷積分支,在融合BN之后,通過周邊補(bǔ)零的方式構(gòu)建3×3卷積,如圖13所示。

但是在RS2多分支結(jié)構(gòu)中,由于恒等映射(identity)分支不存在實(shí)際的卷積核,無(wú)法進(jìn)行BN融合。為解決這個(gè)問題,首先構(gòu)建了一種特殊的3×3卷積核,如圖14所示。該卷積核構(gòu)建方法如下:對(duì)于當(dāng)前通道,中心權(quán)重值設(shè)置為1,周邊用0填充;對(duì)于其他通道,所有權(quán)重均設(shè)置為0。通過這種特殊的卷積核可以實(shí)現(xiàn)語(yǔ)音特征序列的自身映射。然后,再結(jié)合式(10)將新構(gòu)建的卷積核與BN進(jìn)行融合。

最后基于卷積操作的可加性,三個(gè)3×3卷積分支融合為一個(gè)3×3卷積。RepVGG-CS的多分支結(jié)構(gòu)等效壓縮后的單路結(jié)構(gòu)效果與圖11(b)所示的VGG-CS結(jié)構(gòu)一致。

2.5 混合CTC/Attention loss

由于基于Attention機(jī)制的Conformer模型在輸入語(yǔ)音序列和輸出字符序列的對(duì)齊關(guān)系上沒有限制,所以需要更多的語(yǔ)音數(shù)據(jù)來(lái)訓(xùn)練這種對(duì)齊關(guān)系。因此,本部分采用CTC的前向-后向方法來(lái)強(qiáng)制文本序列與語(yǔ)音序列在時(shí)間維度上進(jìn)行對(duì)齊,以達(dá)到輔助Attention進(jìn)行模型訓(xùn)練的效果。同時(shí),采用多任務(wù)學(xué)習(xí)方式,加速模型訓(xùn)練過程。針對(duì)RepVGG-SE-Conformer模型設(shè)計(jì)的損失函數(shù)如下:

L=λ×LossCTC+(1-λ)LossAttention(11)

其中:λ∈[0,1]用于平衡CTC和Attention損失的權(quán)重。

2.6 RepVGG-SE-Conformer算法

在圖7所示的RepVGG-SE-Conformer模型架構(gòu)中,主要包含聲學(xué)輸入網(wǎng)絡(luò)、共享Conformer編碼器、CTC解碼器、Transformer解碼器以及CTC/Attention loss。其中,本文的創(chuàng)新點(diǎn)主要體現(xiàn)在聲學(xué)輸入網(wǎng)絡(luò)中的卷積降采樣模塊。受篇幅限制,本部分僅給出訓(xùn)練階段和推理階段的卷積降采樣算法描述。

訓(xùn)練階段的卷積降采樣過程實(shí)現(xiàn)如算法1所示。輸入為語(yǔ)音特征圖x和掩碼序列x_mask,輸出為降采樣后的語(yǔ)音特征圖x″和掩碼n_mask。

算法1 訓(xùn)練階段的卷積降采樣算法

推理階段的卷積降采樣過程如算法2所示。輸入為語(yǔ)音特征圖x和掩碼序列x_mask,輸出為降采樣后的語(yǔ)音特征圖x″和掩碼n_mask。

算法2 推理階段的卷積降采樣算法

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)數(shù)據(jù)選用由希爾貝殼開源的中文普通話數(shù)據(jù)集Aishell-1,該數(shù)據(jù)集是由400位來(lái)自國(guó)內(nèi)不同地域的發(fā)音人,在安靜的室內(nèi)環(huán)境中通過麥克風(fēng)(44.1 kHz,16 bit)、Android或iOS手機(jī)(16 kHz,6 bit)錄制而成。其中,為平衡麥克風(fēng)數(shù)據(jù),其數(shù)據(jù)格式降采樣為16 kHz;錄音內(nèi)容涉及財(cái)經(jīng)、體育、科技、娛樂、時(shí)事新聞五大領(lǐng)域。數(shù)據(jù)集由三部分組成:150 h的訓(xùn)練集、18 h的驗(yàn)證集和10 h的測(cè)試集,數(shù)據(jù)集總時(shí)長(zhǎng)共計(jì)178 h。

本文實(shí)驗(yàn)環(huán)境為IntelXeonPlatinum 8255C CPU,主頻2.5 GHz的處理器,單顆NVIDIATeslaT4 GPU,顯存為16 GB,運(yùn)行內(nèi)存為32 GB,磁盤空間100 GB。在Ubuntu Server 18.04 LTS 64位操作系統(tǒng)上搭建基于Pytorch的深度學(xué)習(xí)框架,并基于Wenet[33]語(yǔ)音識(shí)別工具包進(jìn)行各項(xiàng)實(shí)驗(yàn)。

3.2 評(píng)價(jià)標(biāo)準(zhǔn)

語(yǔ)音識(shí)別準(zhǔn)確率的評(píng)價(jià)標(biāo)準(zhǔn)采用字錯(cuò)誤率(character error rate,CER),其計(jì)算公式如下:

其中:D表示刪除錯(cuò)誤的字?jǐn)?shù)量;S表示替換錯(cuò)誤的字?jǐn)?shù)量;I表示插入錯(cuò)誤的字?jǐn)?shù)量;N表示所有字?jǐn)?shù)量。

對(duì)于模型推理速度的評(píng)價(jià)采用實(shí)時(shí)率(real time factor,RTF),其計(jì)算公式如下:

其中:TASR表示解碼時(shí)長(zhǎng);T為音頻時(shí)長(zhǎng),實(shí)時(shí)率越小解碼速度越快、推理速度也越快。

3.3 訓(xùn)練過程

首先,進(jìn)行數(shù)據(jù)預(yù)處理。對(duì)于音頻特征,本文選用幀長(zhǎng)為25 ms,幀移為10 ms的FBank作為模型輸入特征,其中FBank特征維度取80,不使用全局倒譜均值方差歸一化(Global-CMVN)[34]處理。另外,本文分別采用0.9和1.1的音頻速度擾動(dòng)技術(shù)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行擴(kuò)充,使用語(yǔ)音增強(qiáng)技術(shù)來(lái)提升模型魯棒性。對(duì)于文本輸出,使用的Aishell-1字典共有4 233個(gè)字符。其中,除了訓(xùn)練集4 230個(gè)字符外,還包含開始結(jié)束字符〈sos/eos〉、空白符〈bank〉以及未知字符〈unk〉。

然后是模型的聲學(xué)輸入網(wǎng)絡(luò)、編碼器、解碼器的配置。a)在聲學(xué)輸入網(wǎng)絡(luò)的卷積降采樣模塊中,第一個(gè)RepVGG模塊輸出通道維度為128;第二個(gè)RepVGG模塊輸出通道維度為256;SE的降維系數(shù)為16;Linear輸出特征維度為256。b)編碼器包含12個(gè)Conformer 模塊,其中每個(gè)模塊輸出維度為256,注意力頭數(shù)設(shè)置為4;前饋網(wǎng)絡(luò)內(nèi)部維度設(shè)置為2 048;卷積模塊中的深度卷積(depthwise-convolution)卷積核大小為15;每個(gè)子層的dropout取值為0.1。c)解碼器包含6個(gè)Transformer decoder解碼塊,除編碼器中的卷積模塊外,參數(shù)配置與編碼器相同。

最后,在訓(xùn)練階段batch_size為16,采用梯度累計(jì)accum_grad為4,梯度閾值grad_clip為5,訓(xùn)練輪數(shù)epoch為100,CTC損失輔助權(quán)重 λ為0.3。采用動(dòng)態(tài)調(diào)整學(xué)習(xí)率策略,其中熱身步數(shù)warmup_steps取35 000,最高學(xué)習(xí)率lr為0.000 5。采用Adam作為優(yōu)化器,其中超參數(shù)β1為0.9,β2為0.98,ε為10-9。在訓(xùn)練結(jié)束后,選取驗(yàn)證集表現(xiàn)最好的10個(gè)epoch模型,對(duì)其參數(shù)求平均得到一個(gè)訓(xùn)練模型。在推理階段,將訓(xùn)練模型中RepVGG模塊的分支進(jìn)行合并,得到最終的推理模型。然后再將beam設(shè)置為10,通過Two-pass進(jìn)行解碼得到最后的預(yù)測(cè)文本序列。

3.4 實(shí)驗(yàn)結(jié)果與分析

3.4.1 識(shí)別率實(shí)驗(yàn)結(jié)果分析

本文以字符為建模單元,在Aishell-1數(shù)據(jù)集上對(duì)RepVGG-SE-Conformer的語(yǔ)音識(shí)別效果進(jìn)行了驗(yàn)證。

1)模型精度

以原始的Conformer為基線(baseline)模型,將圖11提出的RepVGG-CS、VGG-CS和圖12提出的RepVGG-SE-1、RepVGG-SE-2分別作為聲學(xué)輸入網(wǎng)絡(luò),再與Conformer組合進(jìn)行對(duì)比實(shí)驗(yàn)。不同聲學(xué)輸入網(wǎng)絡(luò)組合Conformer的實(shí)驗(yàn)結(jié)果如表1所示。從表中結(jié)果可以看出, RepVGG-SE聲學(xué)輸入網(wǎng)絡(luò)提升模型識(shí)別能力的效果最好,與基線模型相比測(cè)試集字錯(cuò)誤率降低了10.67%;與RepVGG-SE-1融合方式相比,RepVGG-SE-2方式能夠?qū)⒆皱e(cuò)誤率降低到4.52%,模型的魯棒性最好。

為進(jìn)一步評(píng)估不同聲學(xué)輸入網(wǎng)絡(luò)對(duì)模型精度的影響,在驗(yàn)證集中取后60 epoch的損失值進(jìn)行分析,各組合模型的驗(yàn)證集損失曲線如圖15所示。

從圖15可以看出,使用RepVGG-SE-2輸入網(wǎng)絡(luò)的模型整個(gè)驗(yàn)證集損失最低;同時(shí)RepVGG-SE-2融合方式的損失曲線普遍低于RepVGG-SE-1。

2)模型的泛化性

為驗(yàn)證以RepVGG-SE-2融合方式的聲學(xué)輸入網(wǎng)絡(luò)(簡(jiǎn)稱RepVGG-SE)的泛化性,本文將該輸入網(wǎng)絡(luò)分別與Transformer、Paraformer、Branchformer模型組合,并在Aishell-1數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

從表2可以看出,RepVGG-SE輸入網(wǎng)絡(luò)使Transformer的字錯(cuò)誤率相對(duì)降低了16.02%,Paraformer的字錯(cuò)誤率相對(duì)降低了5%,Branchformer相對(duì)降低了8.1%。實(shí)驗(yàn)結(jié)果表明,本文提出的RepVGG-SE聲學(xué)輸入網(wǎng)絡(luò)能夠有效提高多種Transformer變體的端到端語(yǔ)音識(shí)別模型的整體性能,具有很好的泛化能力。

3.4.2 實(shí)時(shí)率實(shí)驗(yàn)結(jié)果分析

實(shí)時(shí)率(RTF)是反映語(yǔ)音識(shí)別模型性能的另一個(gè)重要評(píng)價(jià)指標(biāo)。本文將RepVGG-SE聲學(xué)輸入網(wǎng)絡(luò)分別與Transformer、Conformer、Paraformer以及Branchformer進(jìn)行組合,并在Aishell-1的測(cè)試集上進(jìn)行推理實(shí)驗(yàn)。為了體現(xiàn)多分支訓(xùn)練網(wǎng)絡(luò)融合成單分支推理網(wǎng)絡(luò)的加速效果,本部分對(duì)訓(xùn)練網(wǎng)絡(luò)(多分支結(jié)構(gòu))的實(shí)時(shí)率和推理網(wǎng)絡(luò)(單分支結(jié)構(gòu))的實(shí)時(shí)率進(jìn)行對(duì)比,模型推理速度的對(duì)比結(jié)果如表3所示。

從表3可以看出,融合RepVGG-SE單分支結(jié)構(gòu)的識(shí)別速度明顯優(yōu)于多分支結(jié)構(gòu),在Transformer、Conformer、Paraformer、Branchformer上的單分支實(shí)時(shí)率相比于多分支分別下降了2.24%、4.65%、3.42%、1.98%。融合RepVGG-SE單分支結(jié)構(gòu)后的Transformer變體的端到端語(yǔ)音識(shí)別模型與原始模型相比,實(shí)時(shí)性有所降低,實(shí)時(shí)率稍微增加了0.000 3~0.000 6。但是融合模型在語(yǔ)音識(shí)別率方面提升較高,比如RepVGG-SE-Conformer模型相比于Confomer在識(shí)別率方面提升了10.67%,而實(shí)時(shí)率的降低則相對(duì)較小。綜合來(lái)看,融合RepVGG-SE網(wǎng)絡(luò)的模型能夠均衡識(shí)別精度和實(shí)時(shí)性兩方面的性能,具有一定的先進(jìn)性。

4 結(jié)束語(yǔ)

RepVGG是一種輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò),本文基于該網(wǎng)絡(luò)提出了一種RepVGG-SE-Conformer端到端語(yǔ)音識(shí)別模型。首先,通過對(duì)mask降采樣策略進(jìn)行優(yōu)化,使掩碼和語(yǔ)音特征圖在降采樣后時(shí)間長(zhǎng)度保持一致。然后,在聲學(xué)輸入網(wǎng)絡(luò)中利用RepVGG的多分支結(jié)構(gòu)提升了模型的表征能力,并通過融合基于SE的通道注意力機(jī)制,使模型彌補(bǔ)了缺失的通道特征信息,提高了語(yǔ)音識(shí)別準(zhǔn)確率。最后,在使用聲學(xué)輸入網(wǎng)絡(luò)進(jìn)行推理時(shí),通過結(jié)構(gòu)重參數(shù)化將多分支結(jié)構(gòu)轉(zhuǎn)換為單分支結(jié)構(gòu),降低了計(jì)算復(fù)雜度、加快了模型推理速度。在公開數(shù)據(jù)集Aishell-1上的實(shí)驗(yàn)結(jié)果表明:以殘差方式融合的RepVGG-SE聲學(xué)輸入網(wǎng)絡(luò)能夠使模型的語(yǔ)音識(shí)別性能最好。而且,本文提出的RepVGG-SE聲學(xué)輸入網(wǎng)絡(luò)能夠有效提高多種Transformer變體的端到端語(yǔ)音識(shí)別模型整體性能,具有很好的泛化能力。未來(lái)的研究將結(jié)合Conformer探索端到端語(yǔ)音識(shí)別的輕量化技術(shù),進(jìn)一步提高模型推理速度,使其能夠更好地應(yīng)用于邊緣設(shè)備。

參考文獻(xiàn):

[1]俞棟,鄧力. 解析深度學(xué)習(xí):語(yǔ)音識(shí)別實(shí)踐[M].俞凱,錢彥旻,譯. 北京:電子工業(yè)出版社, 2016:1-7. (Yu Dong, Deng Li. Deconstruct deep learning: speech recognition practices[M]. Yu Kai, Qian Yanmin, trans. Beijing: Publishing House of Electronics Industry, 2016:1-7.)

[2]9f3eed88627b9c25fe7114350ad2b6f2鄧江云,李晟. 基于GMM-HMM的語(yǔ)音識(shí)別垃圾分類系統(tǒng)[J]. 現(xiàn)代計(jì)算機(jī), 2020(26):27-32. (Deng Jiangyun, Li Sheng. Speech recognition garbage classification system based on GMM-HMM[J].Modern Computer, 2020(26):27-32.)

[3]Dahl G E, Yu Dong, Deng Li, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Trans on Audio, Speech, and Language Processing, 2011, 20(1): 30-42.

[4]Graves A, Mohamed A, Hinton G. Speech recognition with deep recurrent neural networks[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2013: 6645-6649.

[5]洪青陽(yáng),李琳. 語(yǔ)音識(shí)別:原理與應(yīng)用[M]. 2版. 北京:電子工業(yè)出版社, 2020:138-142. (Hong Qingyang, Li Lin. Principle and application of speech recognition[M]. 2nd ed. Beijing: Publishing House of Electronics Industry, 2020:138-142.)

[6]Graves A, Fernández S, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks[C]//Proc of the 23rd International Conference on Machine Learning. 2006: 369-376.

[7]楊威,胡燕. 混合CTC/attention架構(gòu)端到端帶口音普通話識(shí)別[J].計(jì)算機(jī)應(yīng)用研究, 2021,38(3):755-759. (Yang Wei,Hu Yan.Hybrid CTC/attention architecture for end-to-end multi-accent mandarin speech recognition[J]. Application Research of Computers, 2021,38(3):755-759.)

[8]Graves A. Sequence transduction with recurrent neural networks[EB/OL]. (2012).https://arxiv.org/abs/1211.3711.

[9]Chorowski J K, Bahdanau D, Serdyuk D, et al. Attention-based mo-dels for speech recognition[C]//Advances in Neural Information Processing Systems. 2015.

[10]Bahdanau D, Chorowski J, Serdyuk D, et al. End-to-end attention-based large vocabulary speech recognition[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2016: 4945-4949.

[11]Chan W, Jaitly N, Le Q, et al. Listen, attend and spell: a neural network for large vocabulary conversational speech recognition[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2016: 4960-4964.

[12]Wang Dong, Wang Xiaodong, Lyu Shaohe. An overview of end-to-end automatic speech recognition[J]. Symmetry, 2019, 11(8): 1018.

[13]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Cambridge,MA: MIT Press, 2017:5998-6008.

[14]Dong Linhao, Xu Shuang, Xu Bo. Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2018: 5884-5888.

[15]謝旭康,陳戈,孫俊,等. TCN-Transformer-CTC的端到端語(yǔ)音識(shí)別[J].計(jì)算機(jī)應(yīng)用研究, 2022,39(3):699-703. (Xie Xukang,Chen Ge,Sun Jun,et al. TCN-Transformer-CTC for end-to-end speech recognition[J].Application Research of Computers,2022,39(3):699-703.)

[16]Gulati A, Qin J, Chiu C C, et al. Conformer: convolution-augmented transformer for speech recognition[EB/OL]. (2020-05-16). https://arxiv.org/abs/2005.08100.

[17]Burchi M, Vielzeuf V. Efficient conformer: progressive downsampling and grouped attention for automatic speech recognition[C]//Proc of IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). Piscataway,NJ:IEEE Press, 2021: 8-15.

[18]Gao Zhifu, Zhang Shiliang, McLoughlin I, et al. Paraformer: fast and accurate parallel transformer for non-autoregressive end-to-end speech recognition[EB/OL]. (2023-03-30).https://arxiv.org/abs/2206.08317.

[19]Peng Yifan, Dalmia S, Lane I, et al. Branchformer: parallel MLP-attention architectures to capture local and global context for speech recognition and understanding[C]//Proc of International Conference on Machine Learning. New York:ACM Press, 2022: 17627-17643.

[20]Radford A, Kim J W, Xu Tao, et al. Robust speech recognition via large-scale weak supervision[C]//Proc of International Conference on Machine Learning. New York:ACM Press, 2023: 28492-28518.

[21]Schick T, Schütze H. Exploiting cloze questions for few shot text classification and natural language inference[EB/OL]. (2021-01-25). https://arxiv.org/abs/2001.07676.

[22]Shin T, Razeghi Y, Logan IV R L, et al. Autoprompt: eliciting knowledge from language models with automatically generated prompts[EB/OL]. (2020-11-07).https://arxiv.org/abs/2010.15980.

[23]Li X L, Liang P. Prefix-tuning: optimizing continuous prompts for generation[EB/OL]. (2021-01-01). https://arxiv.org/abs/2101.00190.

[24]Ding Xiaohan, Zhang Xiangyu, Ma Ningning, et al. RepVGG: ma-king VGG-style convnets great again[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2021: 13733-13742.

[25]Hu Jie, Shen Li, Sun Gang. Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2018: 7132-7141.

[26]Bu Hui, Du Jiayu, Na Xingyu, et al. Aishell-1: an open-source mandarin speech corpus and a speech recognition baseline[C]//Proc of Conference of Oriental Chapter of International Coordinating Committee on Speech Databases and Speech I/O Systems and Assessment. Piscataway,NJ:IEEE Press, 2017: 1-5.

[27]Park D S, Chan W, Zhang Yu, et al. Specaugment: a simple data augmentation method for automatic speech recognition[EB/OL]. (2019-12-03). https://arxiv.org/abs/1904.08779.

[28]Lu Yiping, Li Zhuohan, He Di, et al. Understanding and improving transformer from a multi-particle dynamic system point of view[EB/OL]. (2019-06-06). https://arxiv.org/abs/1906.02762.

[29]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.

[30]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2016: 770-778.

[31]Sainath T N, Pang Ruoming, Rybach D, et al. Two-pass end-to-end speech recognition[EB/OL]. (2019-08-29).https://arxiv.org/abs/1908.10992.

[32]Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]// Proc of International Conference on Machine Learning. New York:ACM Press, 2015: 448-456.

[33]Yao Zhuoyuan, Wu Di, Wang Xiong, et al. WeNet: production oriented streaming and non-streaming end-to-end speech recognition toolkit[EB/OL]. (2021-12-29).https://arxiv.org/abs/2102.01547.

[34]Rehr R, Gerkmann T. Cepstral noise subtraction for robust automatic speech recognition[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2015: 375-378.