趙從健 雷菊陽(yáng) 李明明
摘 要:針對(duì)傳統(tǒng)語(yǔ)音識(shí)別在多目標(biāo)情況下識(shí)別率較低的問(wèn)題,從特征參數(shù)提取角度,提出一種基于受限玻爾茨曼機(jī)(RBM)的特征提取方法。依據(jù)不同個(gè)體語(yǔ)音信號(hào)之間的特征差異提取特征參數(shù),通過(guò)梯度上升算法調(diào)整網(wǎng)絡(luò)參數(shù)以擬合給定訓(xùn)練樣本,通過(guò)對(duì)比散度算法降低采樣達(dá)標(biāo)所需狀態(tài)轉(zhuǎn)移次數(shù)以提高算法效率,再利用重構(gòu)誤差曲線評(píng)價(jià)受限玻爾茨曼機(jī)對(duì)訓(xùn)練樣本的似然度。實(shí)驗(yàn)表明,當(dāng)隱含層節(jié)點(diǎn)個(gè)數(shù)為30時(shí),參數(shù)提取的重構(gòu)誤差低于20%。此時(shí)使用改進(jìn)的BP網(wǎng)絡(luò)訓(xùn)練,與傳統(tǒng)算法相比,綜合識(shí)別率提高到86.9%,對(duì)提升多目標(biāo)語(yǔ)音識(shí)別率具有重要意義。
關(guān)鍵詞:語(yǔ)音識(shí)別;受限玻爾茨曼機(jī);特征提取;梯度上升;對(duì)比散度
DOI:10. 11907/rjdk. 191462 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)002-0114-04
英標(biāo):Research on Speech Feature Extraction Method Based on Restricted Boltzmann Machine
英作:ZHAO Cong-jian,LEI Ju-yang,LI Ming-ming
英單:(College of Mechanical and Automotive Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)
Abstract: In order to solve the problem that the rate of traditional speech recognition was low in the case of multiple targets, from the point view of feature parameter extraction, a feature extraction method based on restricted Boltzmann machine was proposed. It extracted the characteristic parameters mainly based on the characteristic differences between different individual speech signals, adjusted the parameters of the network by the gradient rise algorithm to fit the given training sample, reduced the number of state transitions required for sampling to reach the standard by the contrast divergence algorithm to improve the efficiency of the algorithm, used the reconstruction error curve to evaluate the likelihood of the restricted Boltzmann machine to the training samples. Experiments showed that when the number of hidden layer nodes is 30, the reconstruction error is less than 20%. Compared with traditional algorithm, the comprehensive recognition rate obtained form the improved BP network training was raised to 86.9%, which was of great significance for improving the speech recognition rate of multiple targets.
Key Words: speech recognition; restricted Boltzmann machine; feature extraction; gradient rising; contrast divergence
0 引言
隨著大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等領(lǐng)域的快速發(fā)展,個(gè)人信息安全問(wèn)題隨之而來(lái),個(gè)人身份認(rèn)證成為熱門研究領(lǐng)域。和傳統(tǒng)的身份識(shí)別方法相比,聲紋識(shí)別擁有不易丟失、遺忘和被盜的特性[1-2]。目前,聲紋識(shí)別技術(shù)已經(jīng)應(yīng)用于國(guó)家安全、金融認(rèn)證、個(gè)性化語(yǔ)音交互等眾多領(lǐng)域,隨著技術(shù)的商業(yè)化運(yùn)用,解決標(biāo)準(zhǔn)和技術(shù)等方面的問(wèn)題迫在眉睫[3]。
語(yǔ)音特征參數(shù)的選取直接影響識(shí)別效果,當(dāng)前最常用的特征參數(shù)提取方法是梅爾倒譜系數(shù)(MFCC)和線性預(yù)測(cè)倒譜系數(shù)(LPCC)[4-5]。為解決復(fù)雜環(huán)境下的識(shí)別差異問(wèn)題,研究者從提高特征魯棒性[6-9]、加入語(yǔ)音情感識(shí)別[10-11]等方面作了嘗試和改進(jìn),但依然未達(dá)到商業(yè)應(yīng)用的程度。
近年來(lái),隨著深度置信網(wǎng)絡(luò)(DBN)的發(fā)展,人們開始重視深度學(xué)習(xí)在語(yǔ)音識(shí)別領(lǐng)域的應(yīng)用[12-13],國(guó)內(nèi)外對(duì)受限玻爾茲曼機(jī)(RBM)作了大量研究[14-17]。文獻(xiàn)[18]結(jié)合高斯受限玻爾茨曼機(jī)和概率線性判別分析(PLDA),解決了說(shuō)話人因子和通道因子難以分解的問(wèn)題;文獻(xiàn)[19]將總體差異模型(TVM)中的差異矢量替換為受限玻爾茨曼機(jī),結(jié)合i-vector模型構(gòu)建可視層和隱含層服從高斯分布的超向量提取器。
上述提取方法關(guān)注的是個(gè)體語(yǔ)音信號(hào)的共性,忽略了不同個(gè)體語(yǔ)音信號(hào)的差異性。鑒于RBM具有很強(qiáng)的自適應(yīng)性和無(wú)監(jiān)督學(xué)習(xí)能力[20-21],可以學(xué)習(xí)和發(fā)現(xiàn)多識(shí)別目標(biāo)之間的個(gè)體差異分布,本文提出一種基于RBM的語(yǔ)音特征提取方法。該方法通過(guò)梯度上升算法擬合訓(xùn)練樣本、對(duì)比散度算法提高效率,一方面提高了特征參數(shù)的魯棒性,另一方面也可有效利用標(biāo)簽缺失的數(shù)據(jù),在保持識(shí)別精度的基礎(chǔ)上加快網(wǎng)絡(luò)訓(xùn)練效率。
1 模型簡(jiǎn)介
利用受限波爾茨曼機(jī)提取語(yǔ)音信號(hào)的特征參數(shù),重構(gòu)誤差評(píng)價(jià)受限玻爾茨曼機(jī)對(duì)訓(xùn)練樣本的似然度。根據(jù)所提取的特征參數(shù)構(gòu)建語(yǔ)音識(shí)別神經(jīng)網(wǎng)絡(luò),訓(xùn)練集調(diào)整網(wǎng)絡(luò)參數(shù),識(shí)別多目標(biāo)語(yǔ)音信號(hào)集。
1.1 受限玻爾茨曼機(jī)
受限玻爾茨曼機(jī)是深度概率模型中常用的一種研究方法,其本質(zhì)上是一種基于能量模型的二分無(wú)向圖模型,如圖1所示。
該模型主要由n個(gè)隱藏節(jié)點(diǎn)組成的隱藏層(Hidden Layer,簡(jiǎn)記為h)和m個(gè)可視節(jié)點(diǎn)的可視層(Visible Layer,簡(jiǎn)記為v)組成。不同層的節(jié)點(diǎn)互相關(guān)聯(lián),但沒有方向,同層的節(jié)點(diǎn)之間互相獨(dú)立??梢晫右话惚硎緮?shù)據(jù)的一個(gè)特征或類型,隱藏層的表征含義不明確,但隱含了可視層和輸入變量之間的關(guān)系,因此也稱為特征提取層。
RBM是基于能量的模型,其聯(lián)合概率密度函數(shù)為:
其中,v表示可視層的狀態(tài)向量,h表示隱藏層的狀態(tài)向量,b表示可視層的偏置向量,c表示隱藏層的偏置向量,W表示可視層和隱藏層之間的權(quán)值矩陣。
1.2 語(yǔ)音識(shí)別
語(yǔ)音識(shí)別屬于模式識(shí)別的一種,主要提取語(yǔ)音信號(hào)里的重要特征信息,并與語(yǔ)音庫(kù)里的樣本信號(hào)模型庫(kù)進(jìn)行對(duì)比分析,從而判斷說(shuō)話人的身份。
圖2為語(yǔ)音識(shí)別系統(tǒng)流程。語(yǔ)音信號(hào)預(yù)處理有以下幾種方法:預(yù)加重、分幀、加窗、端點(diǎn)檢測(cè)等。經(jīng)過(guò)預(yù)處理的語(yǔ)音信號(hào)再提取特征用于后期訓(xùn)練和識(shí)別。
不同個(gè)體語(yǔ)音信號(hào)的特征向量包含不同的特征參數(shù),不同特征參數(shù)的選擇直接影響模型的識(shí)別率。選擇合適的、可以表征說(shuō)話人身份的特征參數(shù),可以降低與語(yǔ)音識(shí)別無(wú)關(guān)的輸入(通常是噪音)影響,減少后續(xù)識(shí)別、匹配和判決階段的數(shù)據(jù)計(jì)算量,最終提高語(yǔ)音識(shí)別準(zhǔn)確率。
2 模型建立與實(shí)現(xiàn)
在預(yù)處理好語(yǔ)音數(shù)據(jù)前提下, RBM網(wǎng)絡(luò)的訓(xùn)練目標(biāo)就是通過(guò)調(diào)整參數(shù)值去擬合該樣本數(shù)據(jù),使得調(diào)整后的RBM模型反映的概率分布與樣本數(shù)據(jù)盡可能一致。
假定訓(xùn)練數(shù)據(jù)集:S={s1,s2,s3,…,sns};
其中ns表示訓(xùn)練的樣本數(shù),每個(gè)樣本包括多維數(shù)據(jù)(記為j維數(shù)據(jù)),可表示為:si={x1i,x2i,x3i,…,xji},i=1,2,…,ns;
上述的訓(xùn)練數(shù)據(jù)是獨(dú)立分布的, RBM的目標(biāo)就是最大化其似然函數(shù)。為計(jì)算方便,對(duì)函數(shù)兩邊取對(duì)數(shù)后得:
2.1 梯度上升算法
利用梯度上升方法,通過(guò)迭代逼近最大值,迭代公式為:
其中,η>0為學(xué)習(xí)率,θ指各參數(shù)變量。
對(duì)于梯度?lnLS/?θ的計(jì)算,實(shí)際上是lnLS對(duì)各個(gè)參數(shù)的偏導(dǎo)數(shù)計(jì)算。
由式(4)可得多訓(xùn)練樣本如下:
利用梯度上升算法計(jì)算和化簡(jiǎn)后,對(duì)于多個(gè)訓(xùn)練樣本(即S={s1,s2,s3,…,sns})情形有如下公式:
其中,ζ表示特定的單個(gè)訓(xùn)練樣本,P(h|ζ)表示可見單元為特定訓(xùn)練樣本y時(shí)對(duì)應(yīng)的隱藏層概率分布。
2.2 對(duì)比散度算法
上述計(jì)算復(fù)雜度較高,為O(2nv+nh),與可視層和隱藏層神經(jīng)元個(gè)數(shù)呈正相關(guān)。
對(duì)于大數(shù)據(jù)集來(lái)說(shuō),難以保證采樣后小樣本可以保留原數(shù)據(jù)的目標(biāo)分布。每次進(jìn)行MCMC采樣時(shí),為了使原目標(biāo)分布以精確狀態(tài)轉(zhuǎn)移到小樣本數(shù)據(jù)中,需要大量采集樣本,加大了RBM的訓(xùn)練復(fù)雜度。
采用k步對(duì)比散度算法,步驟為:①對(duì)?si∈S(i=1,2,…,ns),取初始值s(0)=s,然后進(jìn)行k次Gibbs采樣。依次循環(huán)執(zhí)行步驟②、步驟③、步驟④k次;②第t次循環(huán),利用P(h|s(t-1))采樣h(t-1);③第t次循環(huán),利用P(s|h(t-1))采樣s(t);④每次采樣得到的值實(shí)際上是一次梯度上升迭代過(guò)程中偏導(dǎo)數(shù)的近似值,簡(jiǎn)記為Δwi,j、Δaj、Δbi。利用式(4)、式(7)、式(8)、式(9),結(jié)合采樣得到的數(shù)據(jù)分別更新參數(shù)Δwi,j、Δaj、Δbi。
其中,3個(gè)參數(shù)更新公式為:
2.3 初始參數(shù)值選取
為保證RBM訓(xùn)練的高效與準(zhǔn)確,要有嚴(yán)格的參數(shù)選取要求。
(1)樣本預(yù)處理。將原樣本分割成多個(gè)小樣本數(shù)據(jù),每個(gè)樣本所含數(shù)據(jù)集數(shù)目大致相等,且互相沒有交集。這樣做可以利用并行處理數(shù)據(jù)的一些方法(如GPU),提高算法的運(yùn)行處理效率。
(2)確定學(xué)習(xí)率η。神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中需要適當(dāng)增大學(xué)習(xí)率,加快算法的收斂速度,但靜態(tài)設(shè)置過(guò)大的學(xué)習(xí)率會(huì)使結(jié)果變得不穩(wěn)定?,F(xiàn)引入學(xué)習(xí)率動(dòng)量項(xiàng)ρ,利用類似式(5)的參數(shù)更新式:
動(dòng)態(tài)學(xué)習(xí)率更新方式和訓(xùn)練中的特征參數(shù)保持一致,可以降低代碼復(fù)雜度,也可避免算法過(guò)早陷入局部最優(yōu)。
(3)初始化參數(shù)矩陣W、a、b。權(quán)值矩陣W的參數(shù)來(lái)自正態(tài)分布N(0,0.01)的隨機(jī)數(shù),隱藏層偏置矩陣b初始化為零,而可見層偏執(zhí)矩陣a采用如下公式計(jì)算:
其中,Pi表示訓(xùn)練集的第i個(gè)特征處于激活狀態(tài)的樣本占所有樣本的比例。
2.4 特征參數(shù)提取
結(jié)合上述對(duì)比散度和梯度上升算法,可保證RBM訓(xùn)練的正常進(jìn)行,詳細(xì)步驟如下:
(1)RBM網(wǎng)絡(luò)的初始化。①指定訓(xùn)練樣本S;②確定訓(xùn)練網(wǎng)絡(luò)的周期J,學(xué)習(xí)率η,對(duì)比散度的采樣參數(shù)k;③選取可見和隱藏層對(duì)應(yīng)單元數(shù)目nv和nh;④初始化偏置向量a、b和權(quán)值矩陣W。
(2)RBM網(wǎng)絡(luò)訓(xùn)練。①重復(fù)學(xué)習(xí)訓(xùn)練J次;②利用CD-K,生成Δwi,j、Δaj、Δbi;③利用式(10)、式(11)、式(12)更新特征參數(shù)表。
3 實(shí)驗(yàn)結(jié)果
3.1 實(shí)驗(yàn)設(shè)計(jì)
利用倒譜系數(shù)法所提取4個(gè)不同類型的語(yǔ)音特征信號(hào),分析采用RBM提取特征參數(shù)后對(duì)語(yǔ)音識(shí)別模型性能的影響,如圖3所示。從2 000組24維的數(shù)據(jù)集中隨機(jī)選擇1 500組作為訓(xùn)練數(shù)據(jù),其余500組作為檢測(cè)數(shù)據(jù)驗(yàn)證模型的識(shí)別率。
為驗(yàn)證多目標(biāo)情況下各算法性能,分別利用PCA、MFCC、RBM特征提取后的參數(shù),利用同樣的語(yǔ)音識(shí)別方法(這里采用改進(jìn)后的BP神經(jīng)網(wǎng)絡(luò))對(duì)最終結(jié)果進(jìn)行對(duì)比并分析。
3.2 實(shí)驗(yàn)分析
重構(gòu)誤差曲線反映了RBM對(duì)訓(xùn)練樣本的似然度,分別在網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)nh=10、20、30、40、50時(shí)繪制訓(xùn)練集的重構(gòu)誤差曲線如圖4所示。
由圖4可以看出,適當(dāng)增加節(jié)點(diǎn)數(shù)可以降低重構(gòu)誤差。當(dāng)隱藏層節(jié)點(diǎn)數(shù)設(shè)置為30時(shí)效果較好,此時(shí)再增加隱藏層節(jié)點(diǎn)數(shù)反而會(huì)增大重構(gòu)誤差。
RBM預(yù)訓(xùn)練完成后,利用共軛梯度算法對(duì)網(wǎng)絡(luò)調(diào)優(yōu)訓(xùn)練,對(duì)比調(diào)優(yōu)后重構(gòu)信號(hào)與原信號(hào),訓(xùn)練集的重構(gòu)誤差變化如圖5所示。
由圖5可知,重構(gòu)誤差隨著迭代次數(shù)增加而減少,200次迭代后重構(gòu)誤差變化不大。
利用RBM提取特征參數(shù)后,采用改進(jìn)型BP神經(jīng)網(wǎng)絡(luò)搭建語(yǔ)音識(shí)別網(wǎng)絡(luò),對(duì)隨機(jī)待測(cè)語(yǔ)音信號(hào)進(jìn)行識(shí)別,記錄300次訓(xùn)練結(jié)果數(shù)據(jù)如表1所示。
由表1可知,類別2和4,用3種方法識(shí)別率差異不大,但RBM結(jié)果更穩(wěn)定。類別1和3,RBM的識(shí)別準(zhǔn)確率高且更為穩(wěn)定。選取其中的前8次訓(xùn)練結(jié)果繪制成圖6。
由圖6可以看出,對(duì)于單個(gè)類型的語(yǔ)音信號(hào),采用RBM方法的準(zhǔn)確率更高也更穩(wěn)定。
作為測(cè)試集的500組數(shù)據(jù)屬于未知的隨機(jī)數(shù)據(jù),4類信號(hào)的數(shù)量占比不一致。多目標(biāo)語(yǔ)音識(shí)別對(duì)于整體識(shí)別率有很高要求,記錄測(cè)試集在3種方法下的總識(shí)別率如表2所示。
從表2可以看出,對(duì)于多目標(biāo)語(yǔ)音識(shí)別,RBM依然有著良好表現(xiàn),結(jié)果優(yōu)于其它兩種方法。
4 結(jié)語(yǔ)
相較于傳統(tǒng)的語(yǔ)音特征提取算法,RBM擁有很強(qiáng)的數(shù)據(jù)特征適應(yīng)性,可以準(zhǔn)確表征出不同數(shù)據(jù)的本征特征,這在多目標(biāo)數(shù)據(jù)訓(xùn)練中的優(yōu)勢(shì)尤其明顯,具體表現(xiàn)為算法更穩(wěn)定及多目標(biāo)的綜合誤差更低。此外,RBM的訓(xùn)練采用無(wú)監(jiān)督學(xué)習(xí),可使用大量存在缺失標(biāo)簽的數(shù)據(jù),增強(qiáng)了算法對(duì)數(shù)據(jù)類型的適應(yīng)性。
本文也存在一些不足之處:由于語(yǔ)音信號(hào)的種類和數(shù)量有限,需要收集和處理現(xiàn)實(shí)環(huán)境下的語(yǔ)音信號(hào),并將其數(shù)據(jù)化標(biāo)簽化。在今后的研究中,還要考慮噪聲、方言、不同語(yǔ)義等環(huán)境因素,因此還需進(jìn)一步改進(jìn)特征提取方法。
參考文獻(xiàn):
[1] 鄭方,李藍(lán)天, 張慧, 等. 聲紋識(shí)別技術(shù)及其應(yīng)用現(xiàn)狀[J]. 信息安全研究,2016,2(1): 44-57.
[2] 裴鑫. 聲紋識(shí)別系統(tǒng)關(guān)鍵技術(shù)研究[D]. 哈爾濱: 哈爾濱理工大學(xué),2014.
[3] 鄭方,程星亮. 聲紋識(shí)別:走出實(shí)驗(yàn)室,邁向產(chǎn)業(yè)化[J]. 中國(guó)信息安全,2019(2): 86-89.
[4] HU Z,ZENG Y,ZONG Y, et al. Improvement of MFCC parameters extraction in speaker recognition[J]. Computer Engineering & Applications, 2014, 50(7): 217-220.
[5] BARUA P, AHMAD K, KHAN A, et al. Neural network based recognition of speech using MFCC features[C]. 2014 International Conference on Informatics, Electronics & Vision (ICIEV). IEEE, 2014.
[6] 黃羿博, 張秋余, 袁占亭,等. 融合MFCC和LPCC的語(yǔ)音感知哈希算法[J]. 華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2015, 43(2): 124-128.
[7] 徐照松, 元建. 基于BP神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別研究[J]. 軟件導(dǎo)刊, 2014, 13(4): 11-13.
[8] 高家寶. 支持向量機(jī)在語(yǔ)音識(shí)別中的應(yīng)用[J]. 軟件導(dǎo)刊, 2015, 14(1): 39-40.
[9] 于嫻, 賀松, 彭亞雄,等. 基于GMM模型的聲紋識(shí)別模式匹配研究[J]. 通信技術(shù), 2015, 48(1): 97-101.
[10] MILTON A, ROY S, SELVI S. SVM scheme for speech emotion recognition using MFCC feature[J]. International Journal of Computer Applications, 2014, 69(9): 34-39.
[11] 徐照松, 元建. 基于BP神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別研究[J]. 軟件導(dǎo)刊, 2014, 13(4): 11-13.
[12] 侯一民, 周慧瓊, 王政一. 深度學(xué)習(xí)在語(yǔ)音識(shí)別中的研究進(jìn)展綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2017, 34(8): 2241-2246.
[13] 李曉坤, 鄭永亮, 袁娘, 等. 基于深度學(xué)習(xí)的聲紋識(shí)別方法研究[J]. 黑龍江大學(xué)工程學(xué)報(bào), 2018, 9(1):64-70.
[14] 張春霞,姬楠楠,王冠偉. 受限波爾茲曼機(jī)[J]. 工程數(shù)學(xué)學(xué)報(bào), 2015(2): 159-173.
[15] TRAN T,PHUNG D,VENKATESH S. Mixed-variate restricted boltzmann machines[J]. Computer Science,2014, 5(6): 213-229.
[16] BERGLUND M,RAIKO T,CHO K. Measuring the usefulness of hidden units in Boltzmann machines with mutual information[M]. Berlin: Springer,2013.
[17] MA X,WANG X. Average contrastive divergence for training restricted boltzmann machines[J]. Entropy, 2016,18(2):35-39.
[18] TAFYLAKIS T, KENNY P, SENOUSSAOUI M, et al. PLDA using gaussian restricted boltzmann machines with application to speaker verification[C]. Proceedings of the 13th Annual Conference of the International Speech Communication Association,2012.
[19] 酆勇,熊慶宇,石為人,等. 一種基于受限玻爾茲曼機(jī)的說(shuō)話人特征提取算法[J]. 儀器儀表學(xué)報(bào), 2016, 37(2): 256-262.
[20] 楊杰,孫亞?wèn)|,張良俊,等. 基于弱監(jiān)督學(xué)習(xí)的去噪受限玻爾茲曼機(jī)特征提取算法[J]. 電子學(xué)報(bào), 2014, 42(12): 2365-2370.
[21] 張立民,劉凱. 基于深度玻爾茲曼機(jī)的文本特征提取研究[J]. 微電子學(xué)與計(jì)算機(jī), 2015, 32(2): 142-147.
(責(zé)任編輯:杜能鋼)