夏 珺,周湘貞,隋 棟
(1.黔南民族師范學(xué)院外國語學(xué)院,貴州 都勻 558000) (2.馬來西亞國立大學(xué)信息科學(xué)與技術(shù)學(xué)院,馬來西亞 雪蘭莪 43600) (3.北京建筑大學(xué)電氣與信息工程學(xué)院,北京 102406)
語言作為一種高級(jí)符號(hào)系統(tǒng),本身就非常復(fù)雜,并且語言是一個(gè)復(fù)雜網(wǎng)絡(luò)的觀點(diǎn)已經(jīng)被人們廣泛地接受. 然而,智能語言處理[1-4]作為一種語言學(xué)習(xí)任務(wù),通常是需要從一段未被預(yù)處理的語音中獲得一系列可能的語音標(biāo)簽,并將語音信號(hào)轉(zhuǎn)換為單詞和子詞單元,并將處理后的語音單元轉(zhuǎn)換為我們需要的輸出以實(shí)現(xiàn)語音識(shí)別和語言翻譯的效果.
2001年,人們發(fā)現(xiàn)語言中連接單詞的圖與其他復(fù)雜網(wǎng)絡(luò)具有相同的統(tǒng)計(jì)特征. 在這之后,不同語言單元組成的語言網(wǎng)絡(luò)及其在不同語言中的關(guān)系受到了學(xué)者們的關(guān)注. 2012年,微軟研究人員將前饋深度神經(jīng)網(wǎng)絡(luò)(FFDNN)應(yīng)用于大詞匯連續(xù)語音任務(wù)的聲學(xué)建模,使用DNN而不是GMM-HMM. 該混合高斯模型可以提供更好的觀測概率,引發(fā)了一波混合神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫混合建模[5-6]. 復(fù)雜網(wǎng)絡(luò)的構(gòu)成要素主要是網(wǎng)絡(luò)節(jié)點(diǎn)和節(jié)點(diǎn)間邊,而如何確定語言網(wǎng)絡(luò)的節(jié)點(diǎn)和邊呢?學(xué)者們提出了不同的構(gòu)建語言網(wǎng)絡(luò)的方法,主要包括可以根據(jù)同義詞表確定原始詞與其同義詞之間的網(wǎng)絡(luò)連接;可以根據(jù)詞匯表進(jìn)行語義連接;根據(jù)詞在句子中的共現(xiàn)情況,可以構(gòu)建語言的共現(xiàn)網(wǎng)絡(luò);通過標(biāo)注依存句法的語料庫,可以得到語言網(wǎng)絡(luò)連接.
在聲學(xué)建模過程中,DNN-HMM[7]通常使用左右相鄰特征拼接在一起作為卷積神經(jīng)網(wǎng)絡(luò)的輸入. 上下文窗口可以反映兩幀之間的關(guān)系,這更符合實(shí)際情況. 為了獲得更好的建模結(jié)果,輸出在GMM-HMM中聚類或狀態(tài)綁定后使用三音素(senone)來減少參數(shù)爆炸[8]的問題. 相鄰音素中語音的每一個(gè)單詞都相互影響. 當(dāng)每個(gè)特征幀的長度之間有相關(guān)性時(shí),必須考慮聲學(xué)模型. 在以往的工作中發(fā)現(xiàn),深層變壓器是很難訓(xùn)練的,例如超過12層的變壓器[9]. 這是由于優(yōu)化網(wǎng)絡(luò)模型的挑戰(zhàn):每一層的輸出隨著深度的增加而變化,導(dǎo)致不穩(wěn)定的梯度,最終導(dǎo)致訓(xùn)練的收斂度不理想. 訓(xùn)練數(shù)據(jù)必須在卷積神經(jīng)網(wǎng)絡(luò)之間進(jìn)行處理,即每一幀的標(biāo)記數(shù)據(jù)、輸入的特征序列和標(biāo)記的特征序列必須具有相同的長度. 當(dāng)使用大數(shù)據(jù)訓(xùn)練模型時(shí),標(biāo)記訓(xùn)練數(shù)據(jù)需要專業(yè)知識(shí)和大量的工作,而現(xiàn)有的模型需要在獲取注釋[10]時(shí)強(qiáng)制輸入數(shù)據(jù)對齊和標(biāo)記序列對齊. 強(qiáng)制對齊所使用的模型會(huì)有一定程度的精度偏差,導(dǎo)致標(biāo)記錯(cuò)誤. 對訓(xùn)練數(shù)據(jù)注釋的依賴性和強(qiáng)制對齊問題限制了語音識(shí)別的進(jìn)一步發(fā)展.
本文提出了一種將長期短期記憶網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)相結(jié)合的基于循環(huán)生成對抗網(wǎng)絡(luò)的機(jī)器翻譯方法. 首先,將LSTM頂層的Softmax向量輸出連接到神經(jīng)機(jī)器翻譯模型上,并使用神經(jīng)機(jī)器翻譯解碼方法減少了整個(gè)序列的損失,因此,我們可以在預(yù)測LSTM輸出的預(yù)測概率中,正確地預(yù)測該序列的標(biāo)簽. 然后,將經(jīng)過預(yù)處理的語音輸入到特征提取模塊并結(jié)合長時(shí)短時(shí)記憶網(wǎng)絡(luò)循環(huán)提取語音特征;最后,將網(wǎng)絡(luò)模型輸出的語音與人工翻譯的語音進(jìn)行對比,并判別網(wǎng)絡(luò)模型輸出的語音特征與人工翻譯的語音是否匹配,如果不匹配則繼續(xù)優(yōu)化生成網(wǎng)絡(luò). 實(shí)驗(yàn)結(jié)果表明,本文方法既關(guān)注了每個(gè)特征針的長度之間的相關(guān)性,減少了標(biāo)記數(shù)據(jù)間的偏差,又解決了優(yōu)化網(wǎng)絡(luò)模型困難的問題. 本文設(shè)計(jì)的基于循環(huán)生成對抗網(wǎng)絡(luò)的機(jī)器翻譯網(wǎng)絡(luò)模型,該模型主要有生成網(wǎng)絡(luò)模型和對抗網(wǎng)絡(luò)組成,并通過對抗網(wǎng)絡(luò)優(yōu)化生成網(wǎng)絡(luò)的輸出從而達(dá)到預(yù)期的結(jié)果.
圖1 基于循環(huán)生成對抗網(wǎng)絡(luò)的機(jī)器翻譯網(wǎng)絡(luò)Fig.1 Machine translation network based on cyclic generation countermeasure network
為了解決處理語言中存在的網(wǎng)絡(luò)模型優(yōu)化困難、強(qiáng)制對其標(biāo)記數(shù)據(jù)會(huì)出現(xiàn)精度偏差等問題,本文設(shè)計(jì)了基于循環(huán)生成對抗網(wǎng)絡(luò)的機(jī)器翻譯網(wǎng)絡(luò)模型,網(wǎng)絡(luò)模型如圖1所示.
模型主要包括兩大部分,分別為生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò). 生成網(wǎng)絡(luò)是對未經(jīng)過預(yù)處理的語音進(jìn)行特征提取并翻譯成需要的單詞. 首先,模型主要利用了對抗網(wǎng)絡(luò)的特點(diǎn)來優(yōu)化生成網(wǎng)絡(luò),解決網(wǎng)絡(luò)模型優(yōu)化困難的問題;其次,在生成網(wǎng)絡(luò)中使用了長期和短期記憶模塊,緩解了由于強(qiáng)制標(biāo)記數(shù)據(jù)而出現(xiàn)精度偏差問題;最后,模型經(jīng)過優(yōu)化訓(xùn)練保存生成網(wǎng)絡(luò)的網(wǎng)絡(luò)模型來處理自然語言. 判別網(wǎng)絡(luò)則是通過判別生成網(wǎng)絡(luò)的輸出語音和人工翻譯的語音是否相符,達(dá)到相符則輸出“是”,否則輸出“否”. 如果不符合則反饋給生成網(wǎng)絡(luò)以優(yōu)化生成網(wǎng)絡(luò),直到生成網(wǎng)絡(luò)輸出的語音與人工翻譯的語音達(dá)到一定的相符度就會(huì)自動(dòng)保存生成網(wǎng)絡(luò).
到目前為止,Dewangan等[11]和Shterionov等[12]提出了各種NMT框架. 其中,基于自我注意的框架(稱為變壓器)實(shí)現(xiàn)了最先進(jìn)的翻譯性能.
變壓器遵循編碼器-解碼器架構(gòu),其中編碼器將源句子X轉(zhuǎn)換為一組上下文向量C.解碼器從上下文向量C中生成目標(biāo)句子Y.給定一個(gè)并行的句子對數(shù)據(jù)集D={(X,Y)},其中X為源句子,Y為目標(biāo)句子,損失函數(shù)可以定義為:
(1)
長期短期記憶模塊,又稱LSTM,是一種改進(jìn)的時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),可以有效地處理時(shí)間序列中的長期依賴問題,該模塊在語音識(shí)別上有著強(qiáng)大的優(yōu)越性[13-16].
圖2 長期短期記憶網(wǎng)絡(luò)Fig.2 Long term short term memory network
最后將隱藏層與傳統(tǒng)的前饋網(wǎng)絡(luò)作為輸出層進(jìn)行連接.輸出層中的每個(gè)節(jié)點(diǎn)yi對應(yīng)于下一時(shí)刻的未歸一化對數(shù)概率,然后通過softmax函數(shù)對輸出值y進(jìn)行歸一化.其公式如下:
(2)
本文使用了來自不同服務(wù)類型和規(guī)模網(wǎng)站的4個(gè)大規(guī)模的真實(shí)口令集. 并且這4種口令集的語言和文化背景也有一定的差別,它們的服務(wù)類型分別為程序員論壇、游戲、社交網(wǎng)站和互聯(lián)網(wǎng)門戶,它們分別來自中國和美國包括中文和英語兩種類型的語言,并且每種口令集的口令總數(shù)也不同. 這4種口令集的詳情如表1所示.
表1 口令集Table 1 Password set
如表1所示,我們的口令集分別是本文中的語音庫是CSDN口令集、Rockyou口令集、Tianya口令集和Yahoo口令集. 其中,口音集均分為訓(xùn)練集和測試集,訓(xùn)練集和測試集有語音緊湊的句子和語音上不同的句子,并且訓(xùn)練集和測試集的數(shù)據(jù)結(jié)構(gòu)不一致.
我們分別在上文中提到的口令集中做了對比實(shí)驗(yàn),分別將CSDN口令集、Rockyou口令集、Tianya口令集和Yahoo口令集中的測試集口令輸入DNN-HMM、LSTM-CTC和本文模型中得到的單詞錯(cuò)誤率如表2 和圖3所示:
圖3 不同口令集上的錯(cuò)誤率對比Fig.3 Comparison of error rates on different password sets
表2 在4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results on four data sets
如表2所示,本文模型在口令集中均取到了最優(yōu)的結(jié)果. 其中,與DNN-HMM模型和LSTM-CTC模型相比本文模型在Yahoo的口令集中的單詞錯(cuò)誤率將至19.5%,分別比DNN-HMM模型、LSTM-CTC模型的錯(cuò)誤率降低了5%和4.5%,結(jié)果達(dá)到了最優(yōu).
如圖3所示,根據(jù)直方圖可以更清楚直接地看出我們的方法與其他兩種方法(DNN-HMMLSTM-CTC)相比,在CSDN口令集、Rockyou口令集、Tianya口令集和Yahoo口令集中均取到了最優(yōu)的結(jié)果,其中在Rockyou口令集中我們的方法與DNN-HMM的方法相比,我們的方法的單詞錯(cuò)誤率明顯低于DNN-HMM方法的單詞錯(cuò)誤率. 因此我們的方法更適合用于機(jī)器翻譯.
表3 部分識(shí)別錯(cuò)誤示例Table 3 Examples of partial identification errors
雖然本文設(shè)計(jì)的網(wǎng)絡(luò)模型已經(jīng)取得了比較優(yōu)秀的結(jié)果,但是本文模型還存在一些不足,表3展示了本文模型在測試結(jié)果中經(jīng)常出錯(cuò)的例子.
如表3所示,可以看出一些讀音相同的字經(jīng)常會(huì)被錯(cuò)誤識(shí)別. 針對以上問題我們還需繼續(xù)實(shí)驗(yàn),繼續(xù)研究讀音相同的字的識(shí)別方法,這也是一個(gè)值得挑戰(zhàn)的困難,我們未來將從分析語境方面入手.
隱藏層中存在大量的神經(jīng)元,適當(dāng)?shù)碾[藏層層數(shù)有利于對語音特征的提取,但是過多的設(shè)計(jì)隱藏層會(huì)對網(wǎng)絡(luò)模型帶來巨大的計(jì)算開銷,所以合理設(shè)計(jì)隱藏層的層數(shù)非常重要. 因此,本文對隱藏層的層數(shù)做了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示.
表4顯示,隱藏層數(shù)對語音識(shí)別系統(tǒng)的準(zhǔn)確性有很大的影響. 當(dāng)隱藏層數(shù)增加時(shí),網(wǎng)絡(luò)的識(shí)別能力就會(huì)增加,但當(dāng)隱藏層繼續(xù)增加時(shí),識(shí)別效果就會(huì)回歸. 隨著層數(shù)的增加,訓(xùn)練時(shí)間也會(huì)變長,從而導(dǎo)致系統(tǒng)效率的降低. 因此,通過將隱藏層設(shè)置為4層,可以得到最佳的結(jié)果.
隱藏層中存在大量的神經(jīng)元,適當(dāng)?shù)纳窠?jīng)元個(gè)數(shù)有利于對語音特征的提取,但是過多的神經(jīng)元個(gè)數(shù)會(huì)對網(wǎng)絡(luò)模型帶來巨大的計(jì)算開銷,所以合理設(shè)計(jì)隱藏層中的神經(jīng)元個(gè)數(shù)非常重要. 因此,本文對隱藏層的神經(jīng)元的個(gè)數(shù)做了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示.
表5 隱藏層神經(jīng)元個(gè)數(shù)對網(wǎng)絡(luò)模型的影響Table 5 Influence of number of hidden layer neurons on network model
表4 隱藏層層數(shù)對網(wǎng)絡(luò)模型的影響Table 4 Influence of hidden layers on network model
為了研究每層神經(jīng)元數(shù)量對識(shí)別結(jié)果的影響,本文選擇了不同數(shù)量的神經(jīng)元:120、240、480、600、1 024. 對比表3的結(jié)果表明,神經(jīng)單元的數(shù)量太少,網(wǎng)絡(luò)的擬合能力不足. 從而導(dǎo)致系統(tǒng)的音素的錯(cuò)誤率過高. 然而,當(dāng)隱藏層數(shù)的數(shù)量繼續(xù)增加時(shí),音素錯(cuò)誤率逐漸降低,但是神經(jīng)元數(shù)量增加,會(huì)導(dǎo)致系統(tǒng)效率下降,訓(xùn)練所需時(shí)間的增加. 所以,在長期短期記憶模塊中,每層的單位數(shù)被設(shè)置為480個(gè).
本文設(shè)計(jì)了一種基于循環(huán)生成對抗網(wǎng)絡(luò)的機(jī)器翻譯網(wǎng)絡(luò)模型,使用生成網(wǎng)絡(luò)處理自然語言,并通過判別網(wǎng)絡(luò)優(yōu)化生成網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)相互作用最終得到一個(gè)比較理想的機(jī)器翻譯網(wǎng)絡(luò)模型,我們也分別在CSDN口令集、Rockyou口令集、Tianya口令集和Yahoo口令集等口令集中做了大量的對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,在每個(gè)口令集中我們的結(jié)果均達(dá)到了最優(yōu).
南京師大學(xué)報(bào)(自然科學(xué)版)2022年1期