国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種RNN-T與BERT相結(jié)合的端到端語音識別模型

2021-05-11 19:47郭家興韓紀(jì)慶
智能計算機(jī)與應(yīng)用 2021年2期
關(guān)鍵詞:語音識別

郭家興 韓紀(jì)慶

摘要:端到端語音識別模型由于結(jié)構(gòu)簡單且容易訓(xùn)練,已成為目前最流行的語音識別模型。然而端到端語音識別模型通常需要大量的語音-文本對進(jìn)行訓(xùn)練,才能取得較好的識別性能。而在實(shí)際應(yīng)用中收集大量配對數(shù)據(jù)既費(fèi)力又昂貴,因此其無法在實(shí)際應(yīng)用中被廣泛使用。本文提出一種將RNN-T(RecurrentNeuralNetworkTransducer,RNN-T)模型與BERT(BidirectionalEncoderRepresentationsfromTransformers,BERT)模型進(jìn)行結(jié)合的方法來解決上述問題,其通過用BERT模型替換RNN-T中的預(yù)測網(wǎng)絡(luò)部分,并對整個網(wǎng)絡(luò)進(jìn)行微調(diào),從而使RNN-T模型能有效利用BERT模型中的語言學(xué)知識,進(jìn)而提高模型的識別性能。在中文普通話數(shù)據(jù)集AISHELL-1上的實(shí)驗(yàn)結(jié)果表明,采用所提出的方法訓(xùn)練后的模型與基線模型相比能獲得更好的識別結(jié)果。

關(guān)鍵詞:語音識別;端到端模型;BERT模型

【Abstract】Theend-to-endspeechrecognitionmodelhasbecomeoneofthemostpopularspeechrecognitionmodelsduetoitssimplestructureandeasytraining.However,itusuallyneedsalargenumberofspeech-textpairsforthetrainingofanend-to-endspeechrecognitionmodeltoachieveabetterperformance.Inpracticalapplications,itisverylaboriousandexpensivetocollectalargenumberofthepaireddata,resultinginthemodelcannotbewidelyused.ThispaperproposesamethodofcombiningtheRecurrentNeuralNetworkTransducer(RNN-T)modelwiththeBidirectionalEncoderRepresentationsfromTransformers(BERT)modeltosolvetheaboveproblems.ItreplacesthepredictionnetworkpartintheRNN-TwiththeBERTmodelandfine-tunestheentirenetwork,thustheRNN-Tmodeleffectivelyuseslinguisticinformationtoimprovemodelrecognitionperformance.TheexperimentalresultsontheChinesemandarindatasetAISHELL-1showthat,comparedwiththebaselinesystem,thesystemusingtheproposedexpansionmethodachievesbetterrecognitionresults.

【Keywords】speechrecognition;end-to-endmodel;BERTmodel

作者簡介:郭家興(1995-),男,碩士研究生,主要研究方向:語音識別;韓紀(jì)慶(1964-),男,博士,教授,博士生導(dǎo)師,主要研究方向:語音信號處理、音頻信息處理。

0引言

近年來,各種基于深度神經(jīng)網(wǎng)絡(luò)的端到端模型在語音識別(AutomaticSpeechRecognition,ASR)領(lǐng)域正逐漸成為研究熱點(diǎn)。不同于傳統(tǒng)的語音識別模型,端到端模型不再需要將輸入語音幀和給定文本標(biāo)簽進(jìn)行一一對齊,其僅包含一個單獨(dú)的序列模型,可以直接將輸入的語音特征序列映射為識別的文本序列,簡化了識別的過程。同時模型不依賴語言模型和發(fā)音詞典,降低了對專家知識的要求[1-3]。目前,端到端語音識別模型主要包括基于注意力機(jī)制的編解碼模型[4-5]、連接時序分類(ConnectionistTemporalClassification,CTC)模型[6-7]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器(RecurrentNeuralNetworkTransducer,RNN-T)的模型[8-9]三種。其中,RNN-T模型是由Graves等人針對CTC的不足所提出的改進(jìn)方法。相比于CTC,RNN-T可以同時對輸入和輸出序列的條件相關(guān)性進(jìn)行建模,而且對輸入和輸出序列的長度沒有限制。這使得RNN-T模型更加適合語音任務(wù),因此本文擬圍繞RNN-T模型來展開研究工作。

時下的大量研究表明[10-14],端到端語音識別模型仍然存在著語料資源有限所導(dǎo)致訓(xùn)練不充分等一系列問題。而收集大量語音-文本對非常困難,這導(dǎo)致端到端語音識別模型在實(shí)際應(yīng)用中的表現(xiàn)欠佳。最近的工作表明,可以使用純文本數(shù)據(jù)來改善其性能。文獻(xiàn)[5]用詞級語言模型組成RNN輸出網(wǎng)格,文獻(xiàn)[8]用外部語言模型對搜索算法進(jìn)行重新打分。文獻(xiàn)[15-16]在波束搜索期間合并了字符級語言模型,而文獻(xiàn)[17]采用知識遷移的方法,先對大規(guī)模外部文本訓(xùn)練語言模型,再將該語言模型中的知識遷移到端到端語音識別系統(tǒng)中。這些方法在解碼階段將端到端模型與其它語言模型結(jié)合在一起,可以有效改善語音識別模型的性能,但是都需要額外的步驟來集成和微調(diào)單獨(dú)的語言模塊,因此都不是真正意義上的端到端模型。

為了解決上述問題,同時考慮到BERT(BidirectionalEncoderRepresentationsfromTransformers)模型[18]是目前對語言學(xué)信息建模最好的模型,本文提出一種將RNN-T模型與BERT模型進(jìn)行聯(lián)合優(yōu)化的方法,就可以高效利用BERT模型所提供的語言學(xué)信息,也是一種真正的端到端模型。

1提出方法

1.1RNN-T模型及其局限性分析

1.1.1基于RNN-T的端到端語音識別模型

基于RNN-T的端到端語音識別模型能夠很好地將聲學(xué)信息和語言學(xué)信息進(jìn)行聯(lián)合優(yōu)化,在端到端語音識別任務(wù)中取得了目前最好的性能,通常由3部分構(gòu)成:編碼器(Encoder)、預(yù)測網(wǎng)絡(luò)(PredictNetwork)和聯(lián)合網(wǎng)絡(luò)(JointNetwork)。其中,編碼器的功能就類似于傳統(tǒng)語音識別系統(tǒng)的聲學(xué)模型,通過將輸入的聲學(xué)特征序列轉(zhuǎn)化為發(fā)音基元序列,預(yù)測網(wǎng)絡(luò)給出對應(yīng)的語言學(xué)信息,聯(lián)合網(wǎng)絡(luò)的作用是結(jié)合語言學(xué)信息和發(fā)音基元序列產(chǎn)生對應(yīng)的轉(zhuǎn)錄文本,整個模型結(jié)構(gòu)如圖1所示。

RNN-T模型不僅解決了CTC中輸出之間的條件獨(dú)立性假設(shè),以及缺少語言建模能力的不足,還使用了共同建模的思路來對語言模型和聲學(xué)模型進(jìn)行聯(lián)合優(yōu)化;同時,模型具有在線解碼等諸多優(yōu)點(diǎn),是一種比較有前景的模型。因此,本文首先搭建基于RNN-T結(jié)構(gòu)的端到端語音識別基線模型。

1.1.2RNN-T模型的局限性分析

RNN-T模型也存在不足。一方面,由于在RNN-T模型中,聲學(xué)建模與語言學(xué)建模已被整合在一個網(wǎng)絡(luò)中,其僅用一個目標(biāo)函數(shù)進(jìn)行優(yōu)化,這就要求訓(xùn)練數(shù)據(jù)必須同時包含輸入和輸出序列。然而在實(shí)際應(yīng)用中配對數(shù)據(jù)的獲取十分困難。另一方面,RNN-T模型并不能像CTC一樣與傳統(tǒng)的WFST結(jié)合,在第一遍解碼中,未能利用大型語言模型的好處,而RNN-T的預(yù)測網(wǎng)絡(luò)所提供的上下文信息,只能在一定程度上緩解這種劣勢。

實(shí)際上傳統(tǒng)的語音識別模型也會出現(xiàn)上述問題。傳統(tǒng)語音識別模型結(jié)構(gòu)如圖2所示。由圖2可知,在傳統(tǒng)語音識別模型中,通常采用獨(dú)立的聲學(xué)模型和語言模型分別建模聲學(xué)信息和語言學(xué)信息。首先,使用聲學(xué)模型去識別每一個發(fā)音基元,將輸入的聲學(xué)特征序列轉(zhuǎn)化為發(fā)音基元序列;然后,在發(fā)音詞典和語言模型的幫助下,通過搜索算法在發(fā)音基元序列中得到一條最佳路徑,這條最佳路徑就對應(yīng)了識別的轉(zhuǎn)錄文本序列。對于容易出錯的詞,語言模型沒有見過或者很少見過這種搭配,導(dǎo)致搜索算法計算出的概率得分很低。所以要提高語音識別模型的識別準(zhǔn)確率,就必須重新擴(kuò)充語言模型部分,旨在使模型對容易出錯的詞也能計算出一個比較高的概率得分。因此傳統(tǒng)的語音識別模型可以利用比訓(xùn)練集的轉(zhuǎn)錄文本多幾個數(shù)量級的純文本數(shù)據(jù),來單獨(dú)訓(xùn)練語言模型部分,以更新語言學(xué)的知識,從而保持聲學(xué)模型部分不動。然而,通過擴(kuò)充語言模型的方式并不適用于RNN-T模型,因?yàn)樵赗NN-T模型中訓(xùn)練數(shù)據(jù)和擴(kuò)充數(shù)據(jù)都必須是平行的文本和語音對。

1.2用BERT模型替換預(yù)測網(wǎng)絡(luò)

根據(jù)1.1節(jié)中的分析,RNN-T模型在實(shí)際應(yīng)用中表現(xiàn)不好是因?yàn)槿狈τ?xùn)練數(shù)據(jù),進(jìn)而導(dǎo)致模型的語言學(xué)信息建模不充分。而RNN-T的預(yù)測網(wǎng)絡(luò)所提供的上下文信息,只能在一定程度上緩解這種劣勢。鑒于傳統(tǒng)語音識別方法可以直接用大量文本數(shù)據(jù)單獨(dú)訓(xùn)練語言模型部分,從而擴(kuò)充模型的語言學(xué)信息,在RNN-T模型中,編碼器部分相當(dāng)于聲學(xué)模型,預(yù)測網(wǎng)絡(luò)相當(dāng)于語言模型。參考傳統(tǒng)語音識別方法的經(jīng)驗(yàn),直觀有效的方法就是對預(yù)測網(wǎng)絡(luò)進(jìn)行擴(kuò)充。因此,本文提出使用更強(qiáng)大的語言模型來替換RNN-T模型的預(yù)測網(wǎng)絡(luò)部分,以在推理時提供更具表示性的語言學(xué)信息。

BERT模型是目前對語言學(xué)信息建模最好的語言模型[20],與其它語言模型不同,BERT采用雙向語言模型的方式,能夠更好地融合上下文的信息。同時,預(yù)訓(xùn)練的BERT模型在實(shí)際使用時,只需要根據(jù)具體任務(wù)額外加入一個輸出層進(jìn)行微調(diào)即可,而不用為特定任務(wù)來修改模型結(jié)構(gòu)。本文使用BERT模型來替換RNN-T模型的預(yù)測網(wǎng)絡(luò)部分,使聯(lián)合網(wǎng)絡(luò)在進(jìn)行解碼的過程中,通過BERT模型引入外部的語言學(xué)信息來進(jìn)行輔助解碼。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。替換后的模型在進(jìn)行解碼時,由預(yù)測網(wǎng)絡(luò)提供當(dāng)前時刻的上下文向量變?yōu)橛葿ERT模型提供對應(yīng)信息。

1.3微調(diào)RNN-T模型

1.2節(jié)中介紹的將BERT模型與RNN-T模型進(jìn)行結(jié)合的方法,通過使用BERT模型替換RNN-T模型的預(yù)測網(wǎng)絡(luò)部分,實(shí)現(xiàn)了在推理時利用BERT模型提供的語言學(xué)信息。

然而實(shí)驗(yàn)結(jié)果表明,直接替換的方法會導(dǎo)致模型的識別性能下降,這是因?yàn)锽ERT沒有參與訓(xùn)練,只是在RNN-T模型進(jìn)行解碼時提供相應(yīng)信息,從而導(dǎo)致了BERT模型和RNN-T的編碼器部分不匹配。例如,t-1時刻聯(lián)合網(wǎng)絡(luò)預(yù)測的字符為“新”,而BERT模型預(yù)測下一個字符是“冠”,但語料庫中并沒有這個詞,這就導(dǎo)致聯(lián)合網(wǎng)絡(luò)沒有見過BERT模型提供的信息,從而出現(xiàn)錯誤。

解決方法是微調(diào)RNN-T模型。具體來說,就是在用BERT模型替換掉RNN-T的預(yù)測網(wǎng)絡(luò)部分后,再用訓(xùn)練語料庫重新訓(xùn)練一遍整個模型。在這個過程中BERT模型參與了訓(xùn)練,使聯(lián)合網(wǎng)絡(luò)逐漸適應(yīng)BERT模型提供的信息,進(jìn)而使編碼器和BERT模型相互匹配。

2實(shí)驗(yàn)與結(jié)果分析

2.1實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)基于2種普通話語料庫:AISHELL-1[21]和AISHELL-2[22]。其中,AISHELL-1包含180h語音數(shù)據(jù),AISHELL-2包含1000h語音數(shù)據(jù)。使用Kaldi提取40維的FBank特征,每個特征都被重新調(diào)整為在訓(xùn)練集上具有零均值和單位方差。

在實(shí)驗(yàn)中,本文使用AISHELL-1訓(xùn)練RNNT模型,將AISHELL-2的轉(zhuǎn)錄文本作為文本數(shù)據(jù)集,訓(xùn)練BERT模型。

2.2模型結(jié)構(gòu)和實(shí)驗(yàn)設(shè)置

在基線RNN-T模型中,編碼器由5層雙向長短時記憶(BidirectionalLongShort-TermMemory,BLSTM)網(wǎng)絡(luò)組成,每層有700個單元,正向和反向各有350個單元。預(yù)測網(wǎng)絡(luò)由700個門控循環(huán)單元(GatedRecurrentUnit,GRU)的單層組成,聯(lián)合網(wǎng)絡(luò)結(jié)合了聲學(xué)和語言學(xué)信息,由700個單元的單向前饋網(wǎng)絡(luò)組成,使用tanh作為激活函數(shù)。

在實(shí)驗(yàn)設(shè)置方面,模型采用聲學(xué)特征作為輸入,標(biāo)注文本作為輸出序列,實(shí)現(xiàn)端到端的語音識別模型;模型直接進(jìn)行解碼,以提取輸出字符序列,而無需使用單獨(dú)的發(fā)音模型或外部語言模型;采用字錯誤率(CharacterErrorRate,CER)作為語音識別效果的評價指標(biāo)。

2.3實(shí)驗(yàn)結(jié)果與分析

本文的實(shí)驗(yàn)結(jié)果見表1。RNNTransducer是使用AISHELL-1數(shù)據(jù)集訓(xùn)練的基線模型。RNNTransducer*模型是用BERT模型替換RNN-T模型中的預(yù)測網(wǎng)絡(luò)部分,并在推理時提供語言學(xué)信息的結(jié)果,可以發(fā)現(xiàn)字錯誤率大幅度上升。這是因?yàn)锽ERT模型并沒有參與訓(xùn)練,只是在RNN-T模型解碼時提供相應(yīng)信息,導(dǎo)致BERT模型和RNN-T的編碼器部分不匹配。RNNTransducer+Bert是用AISHELL-1數(shù)據(jù)集對整個模型進(jìn)行重訓(xùn)練的結(jié)果,相當(dāng)于對聯(lián)合網(wǎng)絡(luò)進(jìn)行微調(diào),使編碼器部分與BERT模型之間相互匹配。與基線模型比較后可知,本文提出的方法相對降低了5.2%的字錯誤率,提高了模型的識別性能。

3結(jié)束語

本文針對基于RNN-T的端到端語音識別模型,提出了一種與BERT模型進(jìn)行結(jié)合的方法。該方法通過用BERT模型替換RNN-T中的預(yù)測網(wǎng)絡(luò)部分,對整個網(wǎng)絡(luò)進(jìn)行微調(diào),從而使RNN-T模型在訓(xùn)練和解碼過程中能夠有效利用BERT提供的語言學(xué)信息,進(jìn)而提高模型的識別性能。最后,在AISHELL中文普通話數(shù)據(jù)集上對所提出的方法進(jìn)行了評估,實(shí)驗(yàn)結(jié)果表明,該方法能夠獲得更好的ASR性能。

參考文獻(xiàn)

[1]韓紀(jì)慶,張磊,鄭鐵然.語音信號處理[M].2版.北京:清華大學(xué)出版社,2013.

[2]ALTER.語音識別進(jìn)化簡史:從造技術(shù)到建系統(tǒng)[J].大數(shù)據(jù)時代,2019(9):50-59.

[3]PRABHAVALKARR,RAOK,SAINATHTN,etal.Acomparisonofsequence-to-sequencemodelsforspeechrecognition[C]//Interspeech.Stockholm,Sweden:dblp,2017:939-943.

[4]GRAVESA,GOMEZF.Connectionisttemporalclassification:Labellingunsegmentedsequencedatawithrecurrentneuralnetworks[C]//Proceedingsofthe23rdInternationalConferenceonMachineLearning.NewYork,USA:ACM,2006:369-376.

[5]MIAOY,GOWAYYEDM,METZEF.EESEN:End-to-endspeechrecognitionusingdeepRNNmodelsandWFST-baseddecoding[C]//2015IEEEWorkshoponAutomaticSpeechRecognitionandUnderstanding(ASRU).Dammam:IEEE,2015:167-174.

[6]GRAVESA.Sequencetransductionwithrecurrentneuralnetworks[J].arXivpreprintarXiv:1211.3711,2012.

[7]RAOK,SAKH,PRABHAVALKARR.Exploringarchitectures,dataandunitsforstreamingend-to-endspeechrecognitionwithRNN-transducer[C]//2017IEEEAutomaticSpeechRecognitionandUnderstandingWorkshop(ASRU).Okinawa,Japan:dblp,2017:193-199.

[8]CHANW,JAITLYN,LEQ,etal.Listen,attendandspell:Aneuralnetworkforlargevocabularyconversationalspeechrecognition[C]//2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).Shanghai:IEEE,2016:4960-4964.

[9]BAHDANAUD,CHOROWSKIJ,SERDYUKD,etal.End-to-endattention-basedlargevocabularyspeechrecognition[C]//2016IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).Shanghai:IEEE,2016:4945-4949.

[10]KARITAS,WATANABES,IWATAT,etal.Semi-supervisedend-to-endspeechrecognition[C]//Interspeech.Hyderabad,India:dblp,2018:2-6.

[11]BASKARMK,WATANABES,ASTUDILLORF,etal.Self-supervisedSequence-to-sequenceASRusingunpairedspeechandtext[C]//Interspeech.Graz,Austria:dblp,2019:3790-3794.

[12]RENDUCHINTALAA,DINGS,WIESNERM,etal.Multi-modaldataaugmentationforend-to-endASR[C]//Interspeech.Hyderabad,India:dblp,2018:2394-2398.

[13]HORIT,ASTUDILLOR,HAYASHIT,etal.Cycle-consistencytrainingforend-to-endspeechrecognition[C]//ICASSP2019-2019IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).Brighton,UK:IEEE,2019:6271-6275.

[14]HAYASHIT,WATANABES,ZHANGYu,etal.Back-translation-styledataaugmentationforend-to-endASR[C]//2018IEEESpokenLanguageTechnologyWorkshop(SLT).Athens:IEEE,2018:426-433.

[15]MAASA,XIEZ,JURAFSKYD,etal.Lexicon-FreeconversationalspeechrecognitionwithNeuralNetworks[C]//ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.Colorado,USA:ACL,2015:345-354.

[16]HORIT,WATANABES,ZHANGYu,etal.AdvancesinjointCTC-attentionbasedend-to-endspeechrecognitionwithadeepCNNencoderandRNN-LM[C]//Interspeech.Stockholm,Sweden:dblp,2017:949-953.

[17]BAIYe,YIJiangyan,TAOJianhua,etal.Learnspellingfromteachers:Transferringknowledgefromlanguagemodelstosequence-to-sequencespeechrecognition[C]//Interspeech.Graz,Austria:dblp,2019:3795-3799.

[18]DEVLINJ,CHANGMingwei,LEEK,etal.Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding[J].arXivpreprintarXiv:1810.04805,2018.

[19]HOCHREITERS,SCHMIDHUBERJ.Longshort-termmemory[J].Neuralcomputation,1997,9(8):1735-1780.

[20]JIANGD,LEIX,LIW,etal.Improvingtransformer-basedspeechrecognitionusingunsupervisedpre-training[J].arXivpreprintarXiv:1910.09932,2019.

[21]BUHui,DUJiayu,NAXingyu,etal.Aishell-1:Anopen-sourcemandarinspeechcorpusandaspeechrecognitionbaseline[C]//201720thConferenceoftheOrientalChapteroftheInternationalCoordinatingCommitteeonSpeechDatabasesandSpeechI/OSystemsandAssessment(O-COCOSDA).Seoul,SouthKorea:IEEE,2017:1-5.

[22]DUJiayu,NAXingyu,LIUXuechen,etal.AISHELL-2:TransformingmandarinASRresearchintoindustrialscale[J].arXivpreprintarXiv:1808.10583,2018.

猜你喜歡
語音識別
空管陸空通話英語發(fā)音模板設(shè)計與應(yīng)用
通話中的語音識別技術(shù)
面向移動終端的語音簽到系統(tǒng)
農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機(jī)秘書功能分析與實(shí)現(xiàn)
基于LD3320的非特定人識別聲控?zé)粝到y(tǒng)設(shè)計
航天三維可視化系統(tǒng)中語音控制技術(shù)的研究與應(yīng)用
基于語音識別的萬能遙控器的設(shè)計
基于語音技術(shù)的商務(wù)英語移動學(xué)習(xí)平臺設(shè)計與實(shí)現(xiàn)
基于Android手機(jī)語音和Arduino控制板的機(jī)器人控制系統(tǒng)
支持向量機(jī)在語音識別中的應(yīng)用
石楼县| 梅河口市| 灵石县| 大港区| 定州市| 淮阳县| 安塞县| 彭泽县| 叶城县| 聂荣县| 汉寿县| 通榆县| 阳东县| 沙雅县| 霍州市| 阜阳市| 泰宁县| 上杭县| 永吉县| 丹东市| 西丰县| 镇宁| 边坝县| 韶关市| 东海县| 平山县| 大足县| 乾安县| 德昌县| 临猗县| 垫江县| 镇江市| 绵阳市| 通化市| 金阳县| 左云县| 保靖县| 六盘水市| 固原市| 元阳县| 梧州市|