国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

連續(xù)音素的改進(jìn)深信度網(wǎng)絡(luò)的識(shí)別算法?

2019-04-02 08:47陰法明
應(yīng)用聲學(xué) 2019年1期
關(guān)鍵詞:散度隱層音素

陰法明 趙 焱 趙 力

(1南京信息職業(yè)技術(shù)學(xué)院通信學(xué)院 南京 210023)

(2東南大學(xué)信息科學(xué)工程學(xué)院 南京 210096)

0 引言

音素識(shí)別指的是對(duì)給定的語音特征向量,估計(jì)語音標(biāo)簽序列的過程,在諸多語音識(shí)別系統(tǒng)中具有廣泛的應(yīng)用[1?2],如關(guān)鍵字識(shí)別、語言分類、說話人識(shí)別等。有效的音素識(shí)別是提高語音識(shí)別的關(guān)鍵。

目前語音識(shí)別系統(tǒng)常用隱馬爾科夫模型(Hidden Markov models,HMM)來處理語音中的時(shí)域變量,用高斯混合模型(Gaussian mixture models,GMM)來確定每一個(gè)HMM狀態(tài)是如何對(duì)應(yīng)于一幀輸入語音參數(shù)[3]。但是這種方法還存在一些缺點(diǎn):在模擬數(shù)據(jù)空間中非線性樣本時(shí),其統(tǒng)計(jì)無效。例如對(duì)球面上的點(diǎn)集進(jìn)行建模時(shí),GMM就需要使用大量的對(duì)角高斯或協(xié)方差高斯[4]。此外這種方法的語音是通過調(diào)制動(dòng)態(tài)系統(tǒng)中相對(duì)較少的參數(shù)產(chǎn)生的,這意味著它真實(shí)的底層結(jié)構(gòu)是用了一組低維數(shù)據(jù)來表示一幀包含了上百參數(shù)的語音。所以如果能充分挖掘幀中的信息,就有可能找到一種比GMM更好的方法來進(jìn)行語音建模。

為克服上述缺點(diǎn),有學(xué)者提出將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于聲學(xué)建模中,用深信度網(wǎng)絡(luò)(Deep belief network,DBN)/隱馬爾科夫模型(DBN/HMM)結(jié)構(gòu)來提高最終的識(shí)別率[5?6]。Google與YouTube的相關(guān)實(shí)驗(yàn)也表明DBN/HMM在語音識(shí)別效果上要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)的GMM/HMM[4]。而DBN是通過將多個(gè)受限玻爾茲曼機(jī)(Restricted Boltzmann machine,RBM)堆疊而成,所以RBM的訓(xùn)練成為整個(gè)結(jié)構(gòu)的關(guān)鍵。Hinton[7]在2010年提出了對(duì)比散度(Contrastive divergence,CD)用來訓(xùn)練RBM,之后又出現(xiàn)了持續(xù)對(duì)比散度(Persistent contrastive divergence,PCD)[8]。但是這兩種方法都是對(duì)單條馬爾可夫鏈進(jìn)行采樣,且在初始化數(shù)據(jù)上也較為粗糙,導(dǎo)致其在計(jì)算模型期望時(shí)存在較大誤差。

為此本文在并行回火(Parallel tempering,PT)算法的基礎(chǔ)上,根據(jù)來自多條吉布斯鏈樣本的狀態(tài)能量,進(jìn)行等能量劃分,構(gòu)建多個(gè)能量環(huán),提高相鄰溫度鏈之間的交換率,進(jìn)而優(yōu)化RBM的訓(xùn)練,并將訓(xùn)練好的RBM堆疊成DBN進(jìn)行音素識(shí)別。在TIMIT語料庫上,由改進(jìn)的并行回火算法所獲得的識(shí)別率明顯高于對(duì)比散度類算法。

1 受限玻爾茲曼機(jī)

受限玻爾茲曼機(jī)(RBM)是一種特殊的馬爾科夫隨機(jī)域,一個(gè)RBM包含一個(gè)由隨機(jī)的隱層單元構(gòu)成的隱層和一個(gè)由隨機(jī)的可見單元構(gòu)成的顯層,其中隱層一般為伯努利分布,顯層一般是高斯分布或伯努利分布[9]。RBM可以表示成雙向圖,只有不同層之間的單元才會(huì)存在邊,同層單元之間都不會(huì)有邊連接,即層間全連接,層內(nèi)無連接。

RBM是一種基于能量的模型,其可見矢量v和隱層矢量h的聯(lián)合配置能量由公式(1)給出。

其中,vi是可見單元的二值狀態(tài),hj是隱層單元的二值狀態(tài),ai和bj分別是可見單元i和隱層單元j的偏置值,wij是鏈接權(quán)值。通過E可以定義可見單元和隱層單元狀態(tài)的聯(lián)合分布概率:

因?yàn)镽BM層內(nèi)無連接,所以隱層單元之間是獨(dú)立的,所以可見矢量v的概率是對(duì)隱層單元的求和。RBM中的權(quán)值更新算法依據(jù)梯度下降法[7]:

式(4)表示由輸入數(shù)據(jù)所確定的期望?vihj?data與模型獲取的期望?vihj?model之間的差異。最終,可以得到RBM的權(quán)值每次更新的大小為

2 改進(jìn)的RBM的訓(xùn)練算法

對(duì)于RBM而言,由于隱層單元之間沒有連接,無偏樣本?vihj?data是很容易得到的,而且條件分布,給定一個(gè)可見矢量v,隱層單元hj的狀態(tài)為1的概率為

同理可得給定一個(gè)隱層矢量h,可見單元vi的狀態(tài)為1的概率為

無偏樣本?vihj?model的獲得是很困難的。傳統(tǒng)算法采用對(duì)比散度來近似計(jì)算該模型的期望,步驟總結(jié)如下:(1)初始化可見矢量v0;(2)采樣h0:p(h|v0);(3)采樣v1:p(v|h0);(4)采樣h1:p(h|v1);如此交替進(jìn)行采樣來訓(xùn)練RBM。由此可知,該算法的復(fù)雜度是指數(shù)級(jí)增加的。

為解決RBM的訓(xùn)練效率問題,目前提出了對(duì)比散度(CD)、持續(xù)對(duì)比散度(PCD)和并行回火(PT)等方法[10]。對(duì)比散度是訓(xùn)練RBM的標(biāo)準(zhǔn)方法,它通過訓(xùn)練數(shù)據(jù)來初始化吉布斯鏈,然后交替執(zhí)行CD-1算法,所以實(shí)際上它并沒有依據(jù)模型分布來計(jì)算對(duì)數(shù)概率的梯度[7]。持續(xù)對(duì)比散度是通過對(duì)一條持續(xù)馬爾科夫鏈進(jìn)行吉布斯采樣來計(jì)算模型梯度,其初始吉布斯的狀態(tài)來源于前一次的更新參數(shù),而不是訓(xùn)練數(shù)據(jù)[8]。這兩種方法都僅使用單一的馬爾科夫鏈來計(jì)算?vihj?model,這會(huì)引起訓(xùn)練退化。尤其是對(duì)含有多個(gè)峰值的目標(biāo)分布,這種使用對(duì)比散度或持續(xù)對(duì)比散度的吉布斯采樣會(huì)容易陷入局部最優(yōu)。

“回火”作為一種通用策略,它通過從1/t<1的模型中采樣來實(shí)現(xiàn)不同峰值之間的快速混合。本文使用并行回火采樣對(duì)RBM訓(xùn)練(RBM-PT),并行回火引入了增補(bǔ)吉布斯鏈,它能夠從漸進(jìn)平滑的原始分布中采樣[11?12]。RBM-PT在訓(xùn)練過程中,每個(gè)溫度對(duì)應(yīng)一條吉布斯鏈并使用并行回火的方法采樣。每條吉布斯鏈對(duì)應(yīng)一個(gè)不同的溫度ti,ti滿足1=t1< ···

根據(jù)式(2),在不同的溫度下,并行回火RBM聯(lián)合概率為

通過將式(1)的RBM參數(shù)θRBM={W,a,b}中的顯層單元與隱層單元之間的連接權(quán)重W乘以溫度β,整個(gè)模型的參數(shù)變?yōu)棣萊BM?PT={βW,a,b},對(duì)于偏置值a和b并沒有改變。此時(shí),并行回火算法可與受限波爾茲曼機(jī)結(jié)合,改善訓(xùn)練效率。公式(8)中的參數(shù)t指“溫度”,該參數(shù)反映了基于能量模型的統(tǒng)計(jì)物理起源。當(dāng)溫度趨于0時(shí),1/t則趨于無窮,此時(shí)的基于能量的模型是確定性的。反之,基于能量的模型成了均勻分布。

并行回火蒙特卡羅算法包括兩個(gè)階段:

(1)Metropolis-Hastings采樣[13]階段:根據(jù)已有的采樣值計(jì)算當(dāng)前溫度的下一個(gè)采樣點(diǎn),基本采樣計(jì)算公式為

(2)交換:并行回火RBM模型的交換條件如下:

其中,tγ與tγ?1是兩個(gè)相鄰的溫度,E(vγ,hγ)與E(vγ?1,hγ?1)是其對(duì)應(yīng)的隱層期望。如果滿足該條件,就把相鄰的溫度鏈下的采樣點(diǎn)交換,否則不交換。為了提高這種交換率,本文提出了如下改進(jìn)方法:由公式(10)可得,當(dāng)溫度固定時(shí),交換率取決于兩個(gè)狀態(tài)能量之差,且差值越小交換的可能就越大。本文根據(jù)所有鏈的狀態(tài)能量,將狀態(tài)空間分為幾個(gè)等能量集合,促使當(dāng)前狀態(tài)向等能量集中的其他狀態(tài)轉(zhuǎn)移。具體算法如下:

首先引入d+1個(gè)能量水平:

理論上H1應(yīng)小于最小能量,但在本文中H1被設(shè)為最小能量,而Hd等于最大能量值。因?yàn)檫@樣也能包含模型中的所有狀態(tài)能量。H2,···,Hd?1通過均分(Hd?H1)獲得。

其次根據(jù)這d+1個(gè)能量水平,要將N個(gè)馬爾可夫鏈劃分為多個(gè)能量環(huán),每個(gè)能量環(huán)Dj定義如下:

接著在能量環(huán)內(nèi)執(zhí)行交換,而是否交換的依據(jù)類似于公式(10),不同的是此處的能量差應(yīng)為同一能量環(huán)內(nèi)的兩條鏈的能量差。實(shí)際中交換的次序是從高溫向低溫執(zhí)行的。此外由于在訓(xùn)練時(shí)RBM的參數(shù)是動(dòng)態(tài)改變的,所以這些狀態(tài)能量也是動(dòng)態(tài)的,實(shí)際操作中我們只要在訓(xùn)練RBM前設(shè)定好能量環(huán)的數(shù)量d即可。

最后經(jīng)過多次循環(huán)采樣、交換,最終將t1=1溫度下的采樣值用于RBM預(yù)訓(xùn)練模型參數(shù)θ,并采用并行回火獲取的目標(biāo)采樣值可使RBM訓(xùn)練獲得較好的應(yīng)用效果。

3 基于RBM的深信度網(wǎng)絡(luò)

在訓(xùn)練好一個(gè)RBM后,其隱層單元狀態(tài)可以作為訓(xùn)練下一個(gè)RBM的數(shù)據(jù),所以該RBM能夠?qū)W習(xí)到第一個(gè)RBM隱層單元之間的依賴性。這一過程可以一直重復(fù)下去,直到產(chǎn)生所需要的非線性特征檢測(cè)器的層數(shù),層數(shù)越多統(tǒng)計(jì)數(shù)據(jù)結(jié)構(gòu)也就越復(fù)雜。將多個(gè)RBM堆疊起來就能產(chǎn)生一個(gè)多層生成模型——深信度網(wǎng)絡(luò)(DBN)。雖然單個(gè)RBM是間接模型,但由它產(chǎn)生的DBN是一個(gè)混合生成模型。DBN的最上面2層是無向鏈接,其他層是自頂向下的有向鏈接。獲得DBN之后,在其頂層之上,再增加一個(gè)softmax輸出層,輸出每種音素對(duì)應(yīng)的概率值。此時(shí)的網(wǎng)絡(luò)稱為DBN-DNN,如圖1所示。

圖1 利用RBM堆疊產(chǎn)生用于音素識(shí)別的DBNFig.1 Stacking up RBMs to form DBN for phoneme recognition

RBM的預(yù)訓(xùn)練僅僅為了使得DBN獲得一個(gè)較好的初始權(quán)重,避免訓(xùn)練時(shí)陷入局部最優(yōu)[14]。為了使得DBN能更好地應(yīng)用于音素識(shí)別,還需要針對(duì)目標(biāo)輸出進(jìn)行監(jiān)督訓(xùn)練。其輸出目標(biāo)為語音內(nèi)的中間幀所對(duì)應(yīng)的HMM狀態(tài)。訓(xùn)練的損失函數(shù)為交叉熵,通過方向傳播算法獲得網(wǎng)絡(luò)的最終權(quán)值。

4 實(shí)驗(yàn)結(jié)果分析

4.1 實(shí)驗(yàn)配置

本文實(shí)驗(yàn)在TIMIT語料庫上進(jìn)行,選擇462個(gè)說話人的3296個(gè)語句為訓(xùn)練集,選擇TIMIT的核心測(cè)試集(24個(gè)說話人的192個(gè)語句)作為測(cè)試集。語音信號(hào)使用Hamming窗處理,幀長(zhǎng)25 ms,幀移10 ms,預(yù)加重系數(shù)為0.97。聲學(xué)特征參數(shù)使用13階梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficients,MFCC),以及其一階、二階差分系數(shù),最終使得每幀語音含有39維特征參數(shù)。RBM的訓(xùn)練使用8條吉布斯鏈。預(yù)訓(xùn)練時(shí)的學(xué)習(xí)率為0.001。監(jiān)督學(xué)習(xí)中的學(xué)習(xí)率為0.0001,以Adam為優(yōu)化器。

4.2 參數(shù)性能分析實(shí)驗(yàn)

圖2 輸入幀數(shù)變化時(shí)的音素識(shí)別性能Fig.2 The phoneme recognition performance when the input frames numbers change

圖2 給出了隱層單元數(shù)為1024時(shí),隱層數(shù)與幀數(shù)對(duì)識(shí)別結(jié)果的影響。從圖2中可以看出,隨著隱層數(shù)量和輸入幀數(shù)的增加,識(shí)別性能有明顯改善。其中隱層數(shù)量的增加提高了網(wǎng)絡(luò)對(duì)非線性函數(shù)的擬合能力,而幀數(shù)的增加則代表了輸入上下文信息量的增加。當(dāng)DNN的隱層數(shù)為4、輸入幀數(shù)為15時(shí),取得了最佳識(shí)別性能。說明隱層數(shù)量的增加并不會(huì)無限度地提高識(shí)別率,因?yàn)殡S著層數(shù)的增加,會(huì)導(dǎo)致梯度消失等問題[15]。同樣輸入信息的增加也不會(huì)無限度地改善系統(tǒng)性能,一方面是因?yàn)闀r(shí)間跨度較大的兩幀語音數(shù)據(jù)之間的相關(guān)性較小,甚至有可能從一個(gè)音素所在時(shí)間蔓延到另一個(gè)音素時(shí)間,導(dǎo)致識(shí)別率下降;另一方面是當(dāng)網(wǎng)絡(luò)參數(shù)確定后,DNN對(duì)于這些特征的區(qū)分能力是有限的。如圖2中15幀語音與21幀語音所對(duì)應(yīng)的識(shí)別率曲線圖所示。

圖3給出了輸入幀數(shù)固定為11幀,隱層單元數(shù)對(duì)識(shí)別結(jié)果的影響。從圖3中可以看出,當(dāng)隱層數(shù)固定時(shí),增加隱層單元數(shù)可以提高音素識(shí)別性能。當(dāng)隱層單元數(shù)較少時(shí),通過增加隱層數(shù)量能有效提高識(shí)別性能,但當(dāng)隱層數(shù)過多時(shí),這種改善效果就顯得非常有限。這表明隱層單元數(shù)在一定程度上決定了網(wǎng)絡(luò)最終的識(shí)別率。實(shí)際中,過多的隱層單元數(shù)和隱層數(shù)會(huì)帶來龐大的時(shí)間開銷,而帶來的性能改善卻是有限的,所以往往需要折中考慮參數(shù)配置。

圖3 隱層單元數(shù)不同時(shí)的音素識(shí)別性能Fig.3 Phoneme recognition performance with different number of hidden layer nodes

4.3 不同訓(xùn)練算法的對(duì)比實(shí)驗(yàn)

上文中簡(jiǎn)述了各種不同RBM的訓(xùn)練方法及各自的特點(diǎn),本實(shí)驗(yàn)給出在隱層單元數(shù)為1024、輸入幀數(shù)為11幀時(shí),不同訓(xùn)練算法的識(shí)別率對(duì)比結(jié)果。從圖4中可以看出,并行回火類算法的識(shí)別性能明顯優(yōu)于對(duì)比散度類算法。主要原因在于對(duì)比散度與持續(xù)對(duì)比散度僅使用一條馬爾可夫鏈進(jìn)行梯度估算,而并行回火類算法則依據(jù)從原始分布中采樣出的多條吉布斯鏈對(duì)公式(4)進(jìn)行計(jì)算,其精確度更高。而本文所提的方法的識(shí)別率比對(duì)比散度算法提高約4.5%,比原始的并行回火算法識(shí)別率高1%左右,因?yàn)橥ㄟ^等能量劃分后,相鄰溫度下的狀態(tài)交換率提高了,進(jìn)而提高了最終的識(shí)別率。由此說明在沒有增加計(jì)算量的情況下,本文對(duì)并行回火算法的改進(jìn)在音素識(shí)別應(yīng)用上是有效的。

圖4 不同訓(xùn)練算法的音素識(shí)別性能Fig.4Phoneme recognition performance of different training algorithms

5 結(jié)論

本文首先研究分析了RBM的學(xué)習(xí)原理,在并行回火算法的基礎(chǔ)之上,根據(jù)模型分布所得的樣本能量,進(jìn)行等能量劃分,以提高相鄰溫度鏈之間的交換率,進(jìn)而提高模型期望的計(jì)算精度,訓(xùn)練出較好的RBM。然后將RBM組成DBN應(yīng)用于音素識(shí)別中,實(shí)驗(yàn)表明,由該方法訓(xùn)練所得的RBM可以有效提高最終識(shí)別率。

猜你喜歡
散度隱層音素
帶勢(shì)加權(quán)散度形式的Grushin型退化橢圓算子的Dirichlet特征值的上下界
基于RTD可編程邏輯門的n變量函數(shù)實(shí)現(xiàn)算法
定常Navier-Stokes方程的三個(gè)梯度-散度穩(wěn)定化Taylor-Hood有限元
依托繪本課程,培養(yǎng)學(xué)生英語音素意識(shí)
基于BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法的圖像壓縮技術(shù)研究
具有部分BMO系數(shù)的非散度型拋物方程的Lorentz估計(jì)
小學(xué)英語課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
在拼讀閱讀課中培養(yǎng)學(xué)生英語閱讀素養(yǎng)
基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測(cè)模型及應(yīng)用
零基礎(chǔ)速記48個(gè)音標(biāo)音素