朱方圓,馬志強,2+,陳 艷,張曉旭,王洪彬,寶財吉拉呼
1.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,呼和浩特 010080
2.內(nèi)蒙古工業(yè)大學(xué) 內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研究中心,呼和浩特 010080
自動語音識別(automatic speech recognition,ASR)是一種將語音序列轉(zhuǎn)化成文本序列的技術(shù),是人機交互的主要方式之一[1]。當(dāng)ASR 系統(tǒng)的測試條件和訓(xùn)練數(shù)據(jù)不匹配時,其識別性能下降明顯,主要包括以下幾個原因:說話人的差異、聲學(xué)環(huán)境的可變性和使用領(lǐng)域的不同。研究人員提出利用說話人自適應(yīng)(speaker adaptation,SA)方法對說話人聲學(xué)特性進行適應(yīng),主要是對特征提取和聲學(xué)模型(acoustic model,AM)的修正和調(diào)節(jié)。利用說話人的若干數(shù)據(jù),對說話人無關(guān)(speaker independent,SI)的語音識別系統(tǒng)進行調(diào)節(jié),調(diào)節(jié)后系統(tǒng)對目標(biāo)說話人的識別性能提升。
ASR 的說話人自適應(yīng)任務(wù)是將一系列聲學(xué)特征向量X={x1,x2,…,xt,…,xT},利用目標(biāo)說話人的若干數(shù)據(jù)得到參數(shù)θE,使xt∈Rd映射到單詞序列W。假設(shè)模型以框架方式運行,則可以將模型定義為:
其中,f(xt;θ;θE)是具有參數(shù)θ和參數(shù)θE的神經(jīng)網(wǎng)絡(luò)模型,yt是幀t的輸出標(biāo)簽。傳統(tǒng)的高斯混合模型-隱馬爾可夫模型(Gaussian mixed model-hidden Markov model,GMM-HMM)語音識別系統(tǒng)的說話人自適應(yīng)技術(shù)主要包括:最大似然線性回歸(maximum likelihood linear regression,MLLR)[2-4]、特征層最大似然線性回歸(feature-space maximum likelihood linear regression,fMLLR)[5-6]、最大后驗概率線性回歸(maximum a posteriori,MAP)[7-8]和聲道長度規(guī)整(vocal tract length normalization,VTLN)[9-11]等。雖然GMM-HMM 語音識別系統(tǒng)的說話人自適應(yīng)方法已經(jīng)非常成熟,但GMM是一個生成式模型,通過對空間進行劃分,利用權(quán)重和方差等描述聲學(xué)單元特性;而神經(jīng)網(wǎng)絡(luò)(neural network,NN)是一個判別式模型,直接對后驗概率進行建模來實現(xiàn)。兩者的模型結(jié)構(gòu)存在較大差異,導(dǎo)致傳統(tǒng)GMM-HMM 語音識別系統(tǒng)的說話人自適應(yīng)技術(shù)無法直接應(yīng)用到基于神經(jīng)網(wǎng)絡(luò)的語音識別系統(tǒng)中。
在基于神經(jīng)網(wǎng)絡(luò)模型的說話人自適應(yīng)技術(shù)研究中,自適應(yīng)訓(xùn)練數(shù)據(jù)不足或者訓(xùn)練數(shù)據(jù)包含大量不同的說話人會導(dǎo)致自適應(yīng)訓(xùn)練過程容易出現(xiàn)過擬合問題。在神經(jīng)網(wǎng)絡(luò)語音識別框架下如何更好地進行說話人自適應(yīng),使得自適應(yīng)能夠取得顯著的效果提升且能夠適應(yīng)于各種語音識別應(yīng)用模式,己經(jīng)成為語音識別研究領(lǐng)域新的熱點和難點。將說話人自適應(yīng)方法根據(jù)自適應(yīng)參數(shù)調(diào)整的方式不同,分為基于特征域和基于模型域的說話人自適應(yīng)方法。基于特征域的說話人自適應(yīng)方法是通過對訓(xùn)練集和測試集中的每個說話人的聲學(xué)特征進行自適應(yīng)或歸一化;基于模型域的說話人自適應(yīng)方法是通過對調(diào)整聲學(xué)模型參數(shù)進行自適應(yīng)。
基于特征域的說話人自適應(yīng)方法通過保持聲學(xué)模型參數(shù)不變,從而對特征進行說話人相關(guān)(speaker dependent,SD)的變換,進而增加特征與模型的匹配度。在適應(yīng)目標(biāo)說話人時,需要對模型參數(shù)進行自適應(yīng),在自適應(yīng)訓(xùn)練過程中通用聲學(xué)模型的參數(shù)會發(fā)生變化。面臨的問題有在自適應(yīng)訓(xùn)練數(shù)據(jù)量不足時,自適應(yīng)訓(xùn)練過程中容易出現(xiàn)過擬合現(xiàn)象,從而無法獲得較好的自適應(yīng)效果。針對從出現(xiàn)的問題中延伸出來基于特征域的說話人自適應(yīng)方法,根據(jù)使用方法的不同將基于特征域的說話人自適應(yīng)方法分為基于特征變換和基于輔助特征的說話人自適應(yīng)方法。
1.1.1 基于特征變換原理
基于特征變換的說話人自適應(yīng)方法通過對神經(jīng)網(wǎng)絡(luò)的輸入特征或者隱藏層特征進行變換來實現(xiàn)自適應(yīng)。利用說話人自適應(yīng)數(shù)據(jù)進行特征變換,使得變換后的特征能夠更好地反映目標(biāo)說話人的特點,從而使目標(biāo)說話人更加適應(yīng)語音識別模型。
針對上述問題,文獻[12]提出對輸入特征進行線性變換的方法,如圖1[13]所示。此技術(shù)采用可訓(xùn)練的線性輸入網(wǎng)絡(luò)(linear input network,LIN)將與SD 的輸入矢量映射到SI 語音識別系統(tǒng)。通過在保持所有其他參數(shù)固定不變的同時最小化連接器系統(tǒng)輸出上的損失來訓(xùn)練此映射。具體的是創(chuàng)建一個線性映射來變換完整的輸入向量。在識別過程中,該變換后的向量用作SI 人工神經(jīng)網(wǎng)絡(luò)的輸入。為訓(xùn)練LIN 用于新的說話人,映射的權(quán)重被初始化為一個單位矩陣。輸入被前向傳播到SI 人工神經(jīng)網(wǎng)絡(luò)的輸出層。此時將計算誤差并通過SI 人工神經(jīng)網(wǎng)絡(luò)反向傳播(back propagation,BP)。由于該系統(tǒng)的模型參數(shù)保持不變,沒有SI 人工神經(jīng)網(wǎng)絡(luò)的權(quán)重調(diào)整,僅在新的線性輸入層的權(quán)重中執(zhí)行調(diào)整。
Fig.1 Adaptation method based on input features圖1 基于輸入特征的自適應(yīng)方法
1.1.2 基于特征變換的改進方法
最初文獻[12]指出隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,聲學(xué)模型參數(shù)量的增加,特征變換無法得到充分的訓(xùn)練從而無法得到更好的自適應(yīng)效果,因此Gemello 等[14]提出對神經(jīng)網(wǎng)絡(luò)的隱藏層輸出進行線性變換的方法,如圖2 所示。文章描述線性變換不僅應(yīng)用于輸入層,而且還應(yīng)用于隱藏層的輸出。其動機是隱藏層輸出代表輸入模式的區(qū)分性特征。Li 等人[15]提出的線性輸出層網(wǎng)絡(luò)是在輸出層之后增加一個線性變換層作為自適應(yīng)參數(shù)。通過將輸入和輸出變換相結(jié)合的方式可以獲得更好的性能。Trmal等人[16]提出了一種自適應(yīng)多層感知器(multilayer perceptron,MLP)神經(jīng)網(wǎng)絡(luò)的方法,采用的參數(shù)是使用梅爾濾波器組的對數(shù)輸出構(gòu)建的,并且通過將第一層權(quán)重矩陣重構(gòu)為梅爾濾波器組輸出,能夠顯著限制自由變量的數(shù)量從而緩解過度訓(xùn)練問題。Xiao 等人[17]對基于上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型(context dependent deep neural network HMM,CD-DNN-HMM)的語音識別系統(tǒng)的任務(wù)自適應(yīng)問題進行了初步探討,采用了基于LIN 和基于神經(jīng)網(wǎng)絡(luò)再訓(xùn)練的方法。Yao 等人[18]研究一種直接改變頂層對數(shù)線性模型偏差參數(shù)的自適應(yīng)方法,但是這類方法在層數(shù)較深的卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)上帶來的效果提升比較微弱。
Fig.2 Adaptation method based on hidden layer transformation圖2 基于隱藏層變換的自適應(yīng)方法
Karthick 等人[19]在卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)中使用子空間高斯混合模型(subspace Gaussian mixture model,SGMM)方法,通過全協(xié)方差高斯估計相關(guān)特征的fMLLR 變換,其次用聲學(xué)特征補充說話人特定子空間向量,以在CNN模型中提供說話人信息。Yi 等人[20]對每個說話人的測試數(shù)據(jù)重新計算所有批次標(biāo)準(zhǔn)化層的平均值和方差(means and variances,MV),使得測試數(shù)據(jù)的分布可以接近訓(xùn)練數(shù)據(jù)分布。特征變換方法也被引入到端到端模型中,Tomashenko 等人[21]使用雙向長短期記憶-連接主義時序分類(bidirectional long short term memory-connectionist temporal classification,BLSTMCTC)模型,通過與fMLLR 自適應(yīng)技術(shù)相結(jié)合可以提高準(zhǔn)確率。將基于特征變換的說話人自適應(yīng)方法研究現(xiàn)狀總結(jié)到表1 中。
1.2.1 基于輔助特征原理
基于輔助特征的說話人自適應(yīng)是通過在聲學(xué)特征中添加特定說話人信息并利用新特征訓(xùn)練聲學(xué)模型實現(xiàn)自適應(yīng)。目前身份向量(identity vectors,i-vectors)是主流的說話人特征表達方法之一。文獻[22]中ivectors 的提取主要基于高斯混合模型-通用背景模型(Gaussian mixture model-universal background model,GMM-UBM),聲學(xué)特征向量xt∈RD被視為從通用背景模型生成的樣本,通用背景模型表示為具有K個對角協(xié)方差的GMM:
其中,ck、μk(s) 和Σk分別表示GMM 的各種參數(shù),xt(s)表示第s個說話人的聲學(xué)特征。
雖然i-vectors 技術(shù)屬于說話人識別領(lǐng)域,但是文獻[22-24]已經(jīng)將其成功應(yīng)用于說話人自適應(yīng)。具體的,首先利用說話人識別技術(shù)提取出訓(xùn)練集中每個說話人的i-vectors,然后將該說話人的每幀語音頻譜特征與其對應(yīng)i-vectors 進行拼接作為輸入特征,訓(xùn)練SD 的神經(jīng)網(wǎng)絡(luò)模型。
1.2.2 基于輔助特征的改進方法
本小節(jié)根據(jù)輔助特征獲取方式的不同將基于輔助特征的改進方法分為兩類:第一類是通過某種方法提取得到帶有說話人信息的輔助特征改進方法;第二類是利用說話人編碼的改進方法。本小節(jié)將研究現(xiàn)狀總結(jié)到表2 中。
Table 1 Speaker adaptation method based on feature transformation表1 基于特征變換的說話人自適應(yīng)方法
1.2.2.1 添加輔助信息的改進方法
受i-vectors 方法啟發(fā),Cardinal 等人[25]將瓶頸特征(bottleneck vectors,BN-vectors)的方法用于說話人自適應(yīng)。該方法首先訓(xùn)練一個瓶頸神經(jīng)網(wǎng)絡(luò)用于說話人分類,并將訓(xùn)練集的每幀數(shù)據(jù)輸入到訓(xùn)練好的具有區(qū)分說話人的瓶頸神經(jīng)網(wǎng)絡(luò),計算出最后一個隱藏層的輸出向量,然后將該向量與i-vectors 進行拼接后共同作為表達說話人的特征向量,用于SD 模型的訓(xùn)練。因為BN-vectors 與i-vectors 的提取過程不同,導(dǎo)致兩者存在差異,前者包含較多的局部環(huán)境信息,而后者包含較多的說話人層面信息。兩者結(jié)合能夠提高對說話人信息的表達。Cui等人[26]引入一個控制器網(wǎng)絡(luò),將i-vectors 作為輸入,輸出每個隱藏層的仿射變換矩陣,解決了將i-vectors 與神經(jīng)網(wǎng)絡(luò)輸入特征直接進行拼接造成i-vectors 信息利用不充分的問題。金超等人[27]通過添加說話人共享的自適應(yīng)層,去除說話人差異信息保留說話人語義信息,將SD 特征變換成SI特征。
Table 2 Speaker adaptation method based on auxiliary features表2 基于輔助特征的說話人自適應(yīng)方法
有些方法需要經(jīng)過訓(xùn)練來區(qū)分說話人,或者通過多層的神經(jīng)網(wǎng)絡(luò)模型的瓶頸層來提取特征,然后在單獨的聲學(xué)模型中進行降維處理。如使用瓶頸說話人V 扇區(qū)嵌入[28],訓(xùn)練前饋網(wǎng)絡(luò)以預(yù)測來自拼接梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)的說話人標(biāo)簽(參見圖3[28])。Tan 等人[29]提出增加第二個目標(biāo)來預(yù)測多任務(wù)設(shè)置中的單音。瓶頸層尺寸通常設(shè)置為i-vectors 常用的值。實際上如果說話人標(biāo)簽?zāi)繕?biāo)被說話人與UBM 的偏差所取代,則瓶頸特征可能被認(rèn)為是幀級i-vectors。提取的特征通過給定說話人的所有語音幀Ts的平均值進行簡單的平均:
Fig.3 Bottleneck feature extraction architecture using preprocessed speaker classifier圖3 使用預(yù)處理說話人分類器的瓶頸特征提取架構(gòu)
Rownicka 等人[30]研究了嵌入在DNN 的說話人自適應(yīng)訓(xùn)練中的使用,重點是每個說話人的少量自適應(yīng)數(shù)據(jù)。
目前將許多添加輔助信息的方法統(tǒng)稱為?-vectors,像瓶頸特征一樣,這些方法通常經(jīng)過訓(xùn)練來區(qū)分說話人的神經(jīng)網(wǎng)絡(luò)中提取嵌入,但不一定使用低維層。在2014 年,Variani 等人[31]提出說話人信息的深度特征向量(deep vectors,d-vectors),DNN 經(jīng)過訓(xùn)練可以在幀級別上對說話人進行分類,通過提取說話人的d-vectors,并將說話人所有d-vectors 的均值作為說話人的特征表示。在2018 年,Snyder 等人[32]提出說話人特征向量x-vectors,利用DNN 提取說話人特征信息替代傳統(tǒng)的i-vectors。相關(guān)的方法還有rvectors[33]使用了x-vectors 的結(jié)構(gòu),h-vectors[34]使用分層注意力機制產(chǎn)生話語級嵌入但是只應(yīng)用于說話人識別任務(wù)。
后來Vesely等人[35]采用摘要網(wǎng)絡(luò)產(chǎn)生輸入特征的序列級概要,并且與?-vectors 方法密切相關(guān)(參見圖4[35])。輔助特征由序列摘要神經(jīng)網(wǎng)絡(luò)(sequence summarizing neural network,SSNN)產(chǎn)生一個“摘要向量”,它表示話語的聲學(xué)摘要,該神經(jīng)網(wǎng)絡(luò)將與聲學(xué)模型相同的特征作為輸入,并通過對輸出的時間平均進行嵌入。Sari 等人[36]使用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)作為輔助網(wǎng)絡(luò)進行說話人自適應(yīng)。還有一種相關(guān)的方法是Xie等人[37]從具有嵌入式平均的獨立網(wǎng)絡(luò)中產(chǎn)生學(xué)習(xí)性隱藏單元分布(learning hidden unit contributions,LHUC)特征向量。
Fig.4 Speaker embedding framework of sequence summarizing network圖4 序列摘要網(wǎng)絡(luò)的說話人嵌入框架
Pan 等人[38]提出了一個完整的框架,稱為記憶感知網(wǎng)絡(luò),它由主網(wǎng)絡(luò)、記憶模塊、注意力模塊和連接模塊組成,基本框架如圖5 所示。記憶模塊中的記憶單元表示為M={m1,m2,…,mK}。通過注意力機制從記憶模塊中選擇最接近的說話人特征,用固定大小的常規(guī)遺忘編碼(fixed-size ordinally forgetting encoding,F(xiàn)OFE)等方法對說話人特征進行組合,組合后的特征稱為聚合說話人向量ct。最后使用連接模塊將ct與主網(wǎng)絡(luò)進行連接從而實現(xiàn)說話人自適應(yīng)。隨后Sari等人[39]提出無監(jiān)督說話人自適應(yīng)方法,所提出的模型同樣包含著一個記憶模塊,但目前只應(yīng)用于端到端(end-to-end,E2E)ASR。
Fig.5 Framework of memory-aware networks圖5 記憶感知網(wǎng)絡(luò)的框架
1.2.2.2 說話人編碼的改進方法
說話人編碼方法是給定一個說話人編碼后,將每一個說話人的特征映射到一個SI 的特征空間。對于一個新的說話人學(xué)習(xí)其相應(yīng)的說話人編碼是非常容易的,且用BP 算法時不會改變神經(jīng)網(wǎng)絡(luò)的模型參數(shù)。說話人編碼與輔助特征方法的不同是在DNN 訓(xùn)練過程中進行矢量估計。在訓(xùn)練階段,說話人編碼由訓(xùn)練數(shù)據(jù)訓(xùn)練自適應(yīng)網(wǎng)絡(luò)時得到。該方法主要優(yōu)勢是說話人編碼非常小,能夠在只有少量自適應(yīng)數(shù)據(jù)時實現(xiàn)快速自適應(yīng)。
Abdel-Hamid 等人[40]提出一種針對DNN 模型的快速說話人自適應(yīng)方法,自適應(yīng)通過對所有的說話人及其對應(yīng)的說話人編碼聯(lián)合學(xué)習(xí)一個大的自適應(yīng)網(wǎng)絡(luò)來實現(xiàn)。聯(lián)合訓(xùn)練方法使用所有的訓(xùn)練數(shù)據(jù)及其對應(yīng)的說話人標(biāo)簽來更新自適應(yīng)網(wǎng)絡(luò)的權(quán)值和說話人編碼,更新使用的算法為標(biāo)準(zhǔn)的BP 算法。古典等人[41]在原有LHUC 方法的基礎(chǔ)上,加入i-vectors 特征,彌補自適應(yīng)數(shù)據(jù)量的不足,提高獲取自適應(yīng)數(shù)據(jù)的能力。Xue 等人[42]擴展基于說話人編碼的自適應(yīng)的思想,并提出了一種替代的直接自適應(yīng)方法,該方法無需使用自適應(yīng)神經(jīng)網(wǎng)絡(luò)就可以在模型空間中執(zhí)行說話人自適應(yīng)。
基于特征域的說話人自適應(yīng)方法同樣可以用于基于CTC 的多語言端到端ASR 系統(tǒng)中,使用表示目標(biāo)語言的輔助特征[43]??紤]到i-vectors 在傳統(tǒng)ASR系統(tǒng)中的成功應(yīng)用,i-vectors 可能是代表說話人的輔助特征的自然選擇[16]。然而很難在E2E 系統(tǒng)中集成i-vectors 提取過程,因為很難將其表示為可集成到E2E 模型計算圖中的神經(jīng)網(wǎng)絡(luò)操作。
基于模型域的說話人自適應(yīng)方法通過更新聲學(xué)模型參數(shù)來匹配測試條件。在利用目標(biāo)說話人的自適應(yīng)數(shù)據(jù)直接進行聲學(xué)模型參數(shù)的更新時面臨的問題有:在現(xiàn)實環(huán)境中滿足數(shù)據(jù)量要求的說話人幾乎是不存在的,因此如何最大程度地利用目標(biāo)說話人自適應(yīng)數(shù)據(jù)成為難點;在自適應(yīng)模型和SI 模型輸出層分布之間存在一定距離,使網(wǎng)絡(luò)模型每次更新時會偏離原模型太遠。根據(jù)上述問題和對應(yīng)方法將基于模型域的說話人自適應(yīng)方法分為基于模型參數(shù)的和基于正則化的說話人自適應(yīng)方法。
2.1.1 基于模型參數(shù)的原理
基于模型參數(shù)的說話人自適應(yīng)方法是只更新聲學(xué)模型的部分參數(shù),這些參數(shù)通常兼具魯棒性和有效性。文獻[44]提出一種方法:代替添加新層,重新訓(xùn)練隱藏單元的子集。首先通過原始網(wǎng)絡(luò)傳輸自適應(yīng)數(shù)據(jù),并選擇活動量最大的隱藏節(jié)點。最大活動被定義為最大方差(在自適應(yīng)數(shù)據(jù)上計算),因為具有高方差的隱藏節(jié)點會將大量信息傳輸?shù)捷敵鰧?。通過將每個節(jié)點的方差與所有自適應(yīng)數(shù)據(jù)中隱藏節(jié)點的最大值進行比較,從而選擇進行自適應(yīng)的隱藏節(jié)點的數(shù)量。如果節(jié)點方差低于給定最大值的百分比,則會進行修剪。在第二步中,對這些節(jié)點進行重新訓(xùn)練以使其最小化神經(jīng)網(wǎng)絡(luò)輸出與目標(biāo)值之間的交叉熵。此方法的核心公式給出一個要選擇的最小隱藏節(jié)點l的權(quán)重wlj,公式為:
其中,yj(t)和分別表示網(wǎng)絡(luò)輸出和神經(jīng)元j和時間幀t的目標(biāo)值,wlj表示從隱藏節(jié)點l到輸出節(jié)點j的權(quán)重,而zl(t)表示隱藏節(jié)點的激活節(jié)點l。
2.1.2 基于模型參數(shù)的改進方法
本小節(jié)根據(jù)方法不同將基于模型參數(shù)的改進方法分為三類:第一類是對某部分參數(shù)進行自適應(yīng)的改進方法;第二類是利用奇異值分解(singular value decomposition,SVD)的改進方法;第三類是使用學(xué)習(xí)性隱藏單元分布的改進方法。將研究現(xiàn)狀總結(jié)到表3 中。
(1)部分參數(shù)自適應(yīng)的改進方法
部分參數(shù)自適應(yīng)是在自適應(yīng)過程中,首先通過搜檢網(wǎng)絡(luò)的隱藏層輸出結(jié)果并且選擇其中一部分活躍節(jié)點,然后將這部分活躍節(jié)點相連接的權(quán)重參數(shù)使用自適應(yīng)數(shù)據(jù)進行重新訓(xùn)練。Siniscalchi 等人[45]只對隱藏層節(jié)點的激活函數(shù)中的參數(shù)進行重訓(xùn)。Wang等人[46]針對深度神經(jīng)網(wǎng)絡(luò)中通常會采用的批量歸一層中的參數(shù)進行自適應(yīng),關(guān)鍵思想是調(diào)整批量標(biāo)準(zhǔn)化聲學(xué)模型中的縮放因子和移位因子,以便測試數(shù)據(jù)在每個隱藏層的分布與訓(xùn)練數(shù)據(jù)的分布更好地匹配。Mana等人[47]表明,批量歸一化層也可以通過在線方式重新計算統(tǒng)計數(shù)據(jù)均值和標(biāo)準(zhǔn)偏差來更新。Liu等人[48]針對LSTM 聲學(xué)模型進行自適應(yīng),對LSTM 的各部分參數(shù)在自適應(yīng)時的有效性和魯棒性進行分析。
Table 3 Speaker adaptation method based on model parameters表3 基于模型參數(shù)的說話人自適應(yīng)方法
(2)SVD 的改進方法
奇異值分解[49]方法是對隱藏層進行分解,分解后的SVD 層插入線性層。利用SVD 方法對模型權(quán)重矩陣進行更新,這種比直接插入線性層的方法更能減少參數(shù)量,減輕過擬合問題。Jian 等人[50]在DNN 的權(quán)重矩陣上應(yīng)用SVD,然后基于原始矩陣的固有稀疏性對模型進行重構(gòu)。重組后可以顯著減小DNN 模型的大小,而精度損失可忽略不計。在2014 年,Jian等人[51]提出兩種基于奇異值分解的DNN 自適應(yīng)方法:其一是SVD 瓶頸自適應(yīng)方法,使用SI 模型格式,其中每層的權(quán)重矩陣近似為兩個低秩矩陣的乘積;其二是SVD 增量壓縮,在每個層中調(diào)整權(quán)重矩陣,但只存儲調(diào)整后的權(quán)重和SI 權(quán)重之間的差異??梢酝ㄟ^使用奇異值分解并只存儲分解后的矩陣來減少增量矩陣的占用空間,分解后的矩陣的參數(shù)數(shù)量要少得多。
(3)LHUC 的改進方法
LHUC 方法是在給定自適應(yīng)數(shù)據(jù)的情況下學(xué)習(xí)說話人特定的隱藏單元分布。為解決在只對神經(jīng)網(wǎng)絡(luò)的某一層輸出特征進行變換時,對所有層的輸出特征均進行變換導(dǎo)致自適應(yīng)參數(shù)數(shù)量成倍增加的問題,Swietojanski 等人[52]采用對角陣的特征變換,即為每個隱藏層輸出單元配置一個放縮因子作為自適應(yīng)參數(shù)。通過為說話人m定義一組SD 參數(shù)來修改SI模型,,l=1,2,…,L,其中是第l個隱藏層的SD 參數(shù)向量。如果是約束范圍的元素函數(shù),定義SD 隱藏層l的輸出:
其中,?是逐元素乘法,Wl是權(quán)重矩陣,φl是第l個隱藏層的非線性傳遞函數(shù),φ是輸出層變換。該方法可以理解為對于每個不同的說話人,對各個隱藏層節(jié)點進行篩選,放大對目標(biāo)說話人識別有用的節(jié)點,而過濾對目標(biāo)說話人識別有害或者無用的節(jié)點。該方法具有少量的自適應(yīng)參數(shù),并且作用于聲學(xué)模型的所有層,因此取得更好的自適應(yīng)效果,同時保持自適應(yīng)時的計算效率,更能體現(xiàn)特定說話人的信息且不需要說話人自適應(yīng)訓(xùn)練。Xie 等人[53]對該方法進行進一步的改進,提出使用貝葉斯的LHUC 的方法(Bayes LHUC,BLHUC),如圖6 所示。作者引入變分學(xué)習(xí)的理論,認(rèn)為放縮因子不是一個固定的參數(shù),而是符合一個高斯分布,這樣當(dāng)自適應(yīng)數(shù)據(jù)量較少時,自適應(yīng)參數(shù)的不確定性會被該分布的方差所吸收,從而降低自適應(yīng)訓(xùn)練過擬合的風(fēng)險,提高自適應(yīng)模型的泛化能力。
Fig.6 BLHUC adaptation used in DNN acoustic model圖6 在DNN 聲學(xué)模型中使用BLHUC 自適應(yīng)
2.2.1 基于正則化原理
基于正則化的說話人自適應(yīng)方法是在聲學(xué)模型自適應(yīng)過程中增加正則化項。文獻[54]引入自適應(yīng)模型和SI模型輸出層分布之間的KL(Kullback-Leibler)散度作為正則化,使網(wǎng)絡(luò)模型每次更新時不會偏離原始模型太遠,是目前基于模型域的說話人自適應(yīng)方法中重要方法之一。文獻動機是研究如何重新訓(xùn)練網(wǎng)絡(luò)的一部分和網(wǎng)絡(luò)的大小如何影響說話人適應(yīng)性能。通過將平方懲罰項的一半添加到誤差函數(shù)來完成,以最小化更新的權(quán)重和未適應(yīng)的網(wǎng)絡(luò)權(quán)重之間的差異,因此被稱為L2 先驗正則化。等式中的權(quán)重更新變?yōu)椋?/p>
其中,β是L2 懲罰項的權(quán)重衰減因子,它將權(quán)重衰減至原始模型權(quán)重。懲罰項越大,更新后的權(quán)重越難偏離原始模型權(quán)重w。
2.2.2 基于正則化的改進方法
基于正則化的改進方法是通過限制原始模型和調(diào)整后的模型之間的距離,從而防止調(diào)整后的模型參數(shù)偏離原始模型參數(shù)的方法。Liao[55]提出使用原始SD 參數(shù)θs與適應(yīng)的說話者相關(guān)參數(shù)θs之間的距離的L2 正則化損失:
Dong 等人[54]提出使用KL 散度來測量適應(yīng)模型和原始模型的senone分布之間的距離:
如果使用交叉熵考慮整體適應(yīng)損失:
可以證明這種損失等于與目標(biāo)分布的交叉熵:
Meng 等人[59]指出KL 散度不是分布之間的距離度量,因為它是不對稱的。因此建議使用對抗式學(xué)習(xí)來保證正則化項的局部最小值只有在SI 模型和SD 模型的senone 分布相同的情況下才能達到。他們通過反向訓(xùn)練鑒別器d(x;φ)來實現(xiàn)這一點,該鑒別器的任務(wù)是區(qū)分SD 和SI 的特征提取器獲得的SD 深層特征h′和SI 的深層特征h。該過程在圖7[59]中示出,鑒別器的正則化損失為:
其中,h是說話人獨立模型的隱藏層激活,h′是適配模型的隱藏層激活,a為常數(shù)。鑒別器在自適應(yīng)期間通過以相對于φ最小化Ldisc和相對于θs最大化Ldisc的方式以最小最大化的方式訓(xùn)練。因此,SI 模型的第i個隱藏層的激活分布與SD 模型的第i個隱藏層的激活分布是相似的,這會使說話人自適應(yīng)的性能更好。Huang 等人[60]通過添加一個或多個模擬寬聲單元的輔助輸出層來解決基于DNN 的用于自動語音識別的聲學(xué)模型的參數(shù)自適應(yīng)中的自適應(yīng)效率問題。將原始的senone 分類任務(wù)作為主要任務(wù),并添加輔助senone-cluster 分類作為次要任務(wù),采用多任務(wù)學(xué)習(xí)(multi-task learning,MTL)來適應(yīng)DNN 參數(shù)。Tóth 等人[61]使用KL 散度正則化與多任務(wù)訓(xùn)練技術(shù)結(jié)合的方法,解決了上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的適應(yīng)性問題。
Fig.7 Adversarial speaker adaptation speech recognition framework圖7 對抗說話人自適應(yīng)語音識別框架
雖然最初提出的KL 散度正則化方法是為了適應(yīng)混合模型,但也可以用于E2E模型的說話人自適應(yīng)[62]。Li等人[63]提出了KL散度正則化和對端到端CTC 模型的說話人自適應(yīng)方法,KL散度自適應(yīng)約束了自適應(yīng)模型與SI 模型的接近,以減少適應(yīng)集的過擬合。Meng等人[64]對SI的基于注意力的編碼器-解碼器(attentionbased encoder-decoder,AED)模型中的所有參數(shù)在訓(xùn)練期間沒有更新,因此只在AED 損失中添加SD AED模型參數(shù)相關(guān)項作為KL 散度正則化。最小化了SD和SI AED 模型輸出分布之間的KL 散度以及AED 損失,以避免過擬合。將基于正則化的說話人自適應(yīng)方法研究現(xiàn)狀總結(jié)到表4 中。
本文對基于神經(jīng)網(wǎng)絡(luò)的說話人自適應(yīng)方法在語音識別任務(wù)中存在的問題、解決方法以及改進方法進行介紹和總結(jié)。在過去的十年里,語音識別的快速發(fā)展是由聲學(xué)的深層神經(jīng)網(wǎng)絡(luò)模型驅(qū)動的。與以前基于GMM-HMM 的說話人自適應(yīng)方法相比,目前基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng)具有更少的約束和更靈活的模型,但是說話人自適應(yīng)方法在語音識別任務(wù)中的以下領(lǐng)域中會有更大的發(fā)展空間。
Table 4 Speaker adaptation method based on regularization表4 基于正則化的說話人自適應(yīng)方法
(1)在線說話人自適應(yīng)
目前大部分的說話人自適應(yīng)方法是離線的,然而在線場景應(yīng)用中大部分的離線說話人自適應(yīng)語音識別模型不會利用使用者的歷史語音數(shù)據(jù)對模型進行更新,因此在一定程度上模型的性能效果不佳。在線說話人自適應(yīng)通常面臨兩個難點:其一是在線自適應(yīng)過程中,能夠用于在線說話人自適應(yīng)的數(shù)據(jù)極短,說話人表征的穩(wěn)定性難以保證;其二是在實時語音識別服務(wù)中,不能花費大量的時間進行模型的重新訓(xùn)練,而且對于實時語音識別的響應(yīng)時間有著非常嚴(yán)格的要求。由于這兩個難點的存在,在線說話人自適應(yīng)是一個研究的難點問題。
當(dāng)前解決在線自適應(yīng)方法是利用對抗訓(xùn)練的機制,通過引入額外的訓(xùn)練目標(biāo),能夠更好地去除說話人相關(guān)的因子,提取說話人無關(guān)特征。但是采用了對抗訓(xùn)練的方法,聲學(xué)模型的訓(xùn)練過程變得不穩(wěn)定,模型的訓(xùn)練收斂成為一個問題。目前端到端模型同樣在解決在線問題,因此與說話人自適應(yīng)技術(shù)結(jié)合起來是未來的研究方向。
(2)無監(jiān)督說話人自適應(yīng)
大多數(shù)說話人自適應(yīng)方法都需要較多的有人工標(biāo)注的歷史數(shù)據(jù),因此有監(jiān)督說話人自適應(yīng)方法在語音識別任務(wù)中成功應(yīng)用且具有良好的識別性能。但是在無人工標(biāo)注的情況下和自適應(yīng)數(shù)據(jù)極少的情況下進行聲學(xué)模型自適應(yīng)成為該領(lǐng)域的一個挑戰(zhàn)。
為了解決標(biāo)記數(shù)據(jù)非常有限或根本沒有標(biāo)記數(shù)據(jù)的問題,有學(xué)者提出一種無監(jiān)督說話人自適應(yīng)方法。文獻[39]通過引入神經(jīng)圖靈機的讀取機制,該模型包含一個記憶模塊(記憶模塊記憶了從訓(xùn)練數(shù)據(jù)中提取的說話人特征),并通過注意力機制從記憶模塊中讀取相關(guān)說話人特征。這種方法不需要自適應(yīng)數(shù)據(jù),也不需要測試時說話人信息等附加標(biāo)簽信息。
(3)面向端到端模型
E2E 建模不如混合模型方法成熟,E2E 建模的大部分研究重點是改進通用建模技術(shù)。因此本文主要介紹了在混合系統(tǒng)的背景下的說話人自適應(yīng)方法,然而E2E 模型通常包含與混合模型中的聲學(xué)模型和語言模型對應(yīng)的子網(wǎng)絡(luò),因此大多數(shù)成功應(yīng)用于混合模型的說話人自適應(yīng)方法同樣應(yīng)該適用于E2E 模型。
由于端到端模型的規(guī)模遠小于混合模型,端到端模型在部署到設(shè)備時具有明顯的優(yōu)勢。因此E2E模型的個性化或適應(yīng)性是一個發(fā)展迅速的領(lǐng)域。雖然可以在云端自適應(yīng)每個用戶的模型,這需要克服有限內(nèi)存問題和計算能力問題。E2E 模型說話人自適應(yīng)的另一個研究方向是如何利用沒有標(biāo)簽的數(shù)據(jù)。