吳明輝 胡群威 李 輝
(中國(guó)科學(xué)技術(shù)大學(xué)電子科學(xué)與技術(shù)系 安徽 合肥 230027)
?
一種基于深度神經(jīng)網(wǎng)絡(luò)的話者確認(rèn)方法
吳明輝胡群威李輝
(中國(guó)科學(xué)技術(shù)大學(xué)電子科學(xué)與技術(shù)系安徽 合肥 230027)
摘要主要研究基于深度神經(jīng)網(wǎng)絡(luò)的話者確認(rèn)方法。在訓(xùn)練階段,以語(yǔ)音倒譜特征參數(shù)作為輸入,說話人標(biāo)簽作為輸出有監(jiān)督的訓(xùn)練DNN;在話者注冊(cè)階段,從已訓(xùn)練的DNN最后一個(gè)隱藏層抽取與說話人相關(guān)的特征矢量,稱為d-vector,作為話者模型;在測(cè)試階段,從測(cè)試語(yǔ)音中抽取其d-vector與注冊(cè)的話者模型相比較然后做出判決。實(shí)驗(yàn)結(jié)果表明,基于DNN的話者確認(rèn)方法是可行的,并且在噪聲環(huán)境及低的錯(cuò)誤拒絕率的條件下,基于DNN的話者確認(rèn)系統(tǒng)性能比i-vector基線系統(tǒng)性能更優(yōu)。最后,將兩個(gè)系統(tǒng)進(jìn)行融合,融合后的系統(tǒng)相對(duì)于i-vector基線系統(tǒng)在干凈語(yǔ)音和噪聲語(yǔ)音條件下等誤識(shí)率(EER)分別下降了13%和27%。
關(guān)鍵詞話者確認(rèn)深度神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)
0引言
隨著語(yǔ)音相關(guān)技術(shù)的發(fā)展和成熟,在日常生活中語(yǔ)音的應(yīng)用越來(lái)越廣泛,而語(yǔ)音作為證據(jù)在安全方面的應(yīng)用也日益重要,使得對(duì)話者確認(rèn)技術(shù)SV(SpeakerVerification)的需求越來(lái)越迫切。話者確認(rèn)的任務(wù)是通過測(cè)試給定語(yǔ)音波形信號(hào)中包含的說話人個(gè)性信息,從而對(duì)其聲明的身份進(jìn)行判決。根據(jù)是否限定說話的內(nèi)容,話者確認(rèn)分為與文本有關(guān)和與文本無(wú)關(guān)兩種類型。與文本有關(guān)的話者確認(rèn)要求測(cè)試語(yǔ)音的內(nèi)容要與注冊(cè)語(yǔ)音的內(nèi)容相同,所以只能用于某些特殊的領(lǐng)域;而與文本無(wú)關(guān)的話者確認(rèn)不要求測(cè)試語(yǔ)音和注冊(cè)語(yǔ)音的內(nèi)容相同,所以應(yīng)用范圍更廣,在本文中主要研究與文本無(wú)關(guān)的話者確認(rèn)方法。
一般的話者確認(rèn)系統(tǒng)可以分為以下三個(gè)階段:
(1) 訓(xùn)練階段:通過大量的語(yǔ)音數(shù)據(jù)訓(xùn)練得到通用的背景模型。背景模型的類型有很多種,目前應(yīng)用較廣的主要是基于高斯混合模型GMM(GaussianMixtureModel)的通用背景模型UBM[1],還有基于聯(lián)合因子分析JFA(JointFactorAnalysis)的通用模型[2-4]。
(2) 注冊(cè)階段:根據(jù)目標(biāo)說話人的語(yǔ)音數(shù)據(jù),結(jié)合通用背景模型,獲得與目標(biāo)說話人相關(guān)的話者模型,一般要求目標(biāo)說話人的語(yǔ)音數(shù)據(jù)和通用背景模型的訓(xùn)練語(yǔ)音數(shù)據(jù)不重疊。
(3) 測(cè)試階段:將測(cè)試語(yǔ)音經(jīng)過話者模型和通用背景模型輸出評(píng)分,然后與設(shè)定的閾值比較,做出判決。
在上述三個(gè)階段采用不同的方法,已經(jīng)產(chǎn)生了很多不同的話者確認(rèn)系統(tǒng)。目前,主流的話者確認(rèn)系統(tǒng)是采用i-vector和PLDA結(jié)合的方法[5],在這個(gè)系統(tǒng)中,主要是利用JFA作為特征提取器,從語(yǔ)音倒譜特征中提取一個(gè)與說話人相關(guān)的低維向量i-vector,然后通過PLDA進(jìn)行后續(xù)的處理,輸出評(píng)分。
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)DNN以其強(qiáng)大的特征表示能力,成功應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域[6]。本文提出在話者確認(rèn)系統(tǒng)中利用DNN作為特征提取器,通過構(gòu)建語(yǔ)音倒譜特征到說話人的一個(gè)映射,從而建立通用背景模型。在注冊(cè)階段,通過注冊(cè)語(yǔ)音訓(xùn)練DNN,然后抽取DNN最后一個(gè)隱藏層的輸出,將其定義為d-vector;在測(cè)試階段,與基于i-vector的話者確認(rèn)系統(tǒng)相同,根據(jù)目標(biāo)說話人的d-vector和測(cè)試語(yǔ)音的d-vector之間的距離做出判決,接受或拒絕。
為了驗(yàn)證本文方法的有效性,參考了美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)署B(yǎng)IST(NationalInstituteofStandardandTechnology)評(píng)測(cè)[7]的部分要求,采用等誤識(shí)率EER(EqualErrorRate)和DET(DetectionErrorTrade-off)曲線作為評(píng)價(jià)標(biāo)準(zhǔn),對(duì)NIST語(yǔ)料庫(kù)進(jìn)行測(cè)試,實(shí)驗(yàn)表明本文構(gòu)建的系統(tǒng)取得了較好的性能。
1相關(guān)背景介紹
基于i-vector和PLDA的話者確認(rèn)系統(tǒng)是目前與文本無(wú)關(guān)話者確認(rèn)系統(tǒng)中的主流系統(tǒng)。i-vector可以看作是語(yǔ)音倒譜特征在全局差異空間(TotalVariabilitySpace)的一個(gè)低維表示,其中包含了大部分的說話人個(gè)性信息和少量其他信息。對(duì)于一個(gè)給定的語(yǔ)音信號(hào),定義均值超矢量如下:
M=m+Tω
(1)
其中m是一個(gè)與說話人無(wú)關(guān)的均值超矢量,通常采用UBM的均值超矢量代替,T是一個(gè)低秩矩陣,稱為全局差異矩陣TVM(TotalVariabilityMatrix),ω是一個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的向量,稱為i-vector。在獲得i-vector以后,再進(jìn)行PLDA操作,這個(gè)和JFA的原理相同,都是進(jìn)一步將語(yǔ)音中包含的說話人個(gè)性信息和通道信息區(qū)分開,從而獲得更好的識(shí)別效果[8,9]。
在過去的研究中,已經(jīng)嘗試過將神經(jīng)網(wǎng)絡(luò)用于話者確認(rèn)系統(tǒng)中,因?yàn)樯窠?jīng)網(wǎng)絡(luò)具有很好的非線性分類能力,所以能夠?qū)φZ(yǔ)音信號(hào)中包含的說話人個(gè)性信息進(jìn)行鑒別。其中自聯(lián)想神經(jīng)網(wǎng)絡(luò)AANN(AutoAssociativeNeuralNetwork)[10]采用目標(biāo)說話人AANN網(wǎng)絡(luò)輸出和背景模型UBM-AANN輸出之間的誤差進(jìn)行網(wǎng)絡(luò)重構(gòu),被用于話者確認(rèn)系統(tǒng)中;帶有bottleneck層的多層感知機(jī)MLP(Multi-layerperceptions)也曾被用于話者確認(rèn)系統(tǒng)中[11]。最近,已經(jīng)有研究將深度神經(jīng)網(wǎng)絡(luò)用于話者確認(rèn)系統(tǒng)中,如基于卷積神經(jīng)網(wǎng)絡(luò)和玻爾茲曼機(jī)的話者確認(rèn)系統(tǒng)[12,13]。
2基于DNN的話者確認(rèn)系統(tǒng)
本文提出基于DNN的話者確認(rèn)系統(tǒng)模型如圖1所示。DNN用于提取語(yǔ)音倒譜特征MFCC中與說話人相關(guān)的特征參數(shù),這個(gè)方法與文獻(xiàn)[12]類似,但主要的不同是本文采用有監(jiān)督的訓(xùn)練方法,并且用DNN代替卷積神經(jīng)網(wǎng)絡(luò)。
圖1 基于DNN的話者確認(rèn)系統(tǒng)背景模型
2.1DNN作為特征提取器
本文所提出方法的核心思想就是將DNN用作特征提取器,在i-vector基線系統(tǒng)中采用DNN代替JFA作為背景模型,從語(yǔ)音倒譜特征中提取一個(gè)與說話人相關(guān)的特征向量[14]。
基于這樣的思想,首先在語(yǔ)音倒譜特征上構(gòu)建有監(jiān)督的DNN系統(tǒng),用于區(qū)分訓(xùn)練集中不同說話人的語(yǔ)音信號(hào)。這個(gè)背景神經(jīng)網(wǎng)絡(luò)的輸入采用擴(kuò)展的40幀語(yǔ)音MFCC參數(shù),就是將原始的語(yǔ)音MFCC特征參數(shù)進(jìn)行左右擴(kuò)展;另外對(duì)訓(xùn)練集中的N個(gè)說話人采用一個(gè)N維向量進(jìn)行編號(hào)。其中對(duì)應(yīng)說話人維度的值為1,其他維度的值都為0,這些編號(hào)稱為說話人的身份標(biāo)簽,DNN系統(tǒng)的輸出對(duì)應(yīng)為這些標(biāo)簽,圖1為DNN的拓?fù)浣Y(jié)構(gòu)圖。
當(dāng)訓(xùn)練完DNN以后,使用其最后一個(gè)隱藏層輸出作為對(duì)說話人信息的一種表示,也就是說,先獲得語(yǔ)音的MFCC參數(shù)。然后將這些特征參數(shù)輸入到DNN中,用前向傳播算法求出最后一個(gè)隱藏層的輸出,即為對(duì)說話人的一個(gè)新的表示,稱這個(gè)輸出為d-vector。選用DNN的最后一個(gè)隱藏層作為輸出而不是選用softmax分類器作為輸出的原因有兩個(gè):首先,這樣做可以減小神經(jīng)網(wǎng)絡(luò)的規(guī)模,通過舍棄DNN的輸出層,可以在增加訓(xùn)練數(shù)據(jù)集時(shí),而不用增加網(wǎng)絡(luò)的規(guī)模;其次,通過后面的實(shí)驗(yàn)發(fā)現(xiàn)這樣提取的特征用于話者確認(rèn)的性能更好。
2.2注冊(cè)和測(cè)試
當(dāng)給定說話人s的一個(gè)語(yǔ)料集Xs={Os1,Os2,…,Osn},其中每一條語(yǔ)音可以表示為多幀的特征向量Osi={o1,o2,…,om}。注冊(cè)過程描述如下:首先,使用說話人s的每一條語(yǔ)音Osi中的特征向量oj和他的身份標(biāo)簽去有監(jiān)督的訓(xùn)練DNN,將DNN最后一個(gè)隱藏層輸出稱為與Osi有關(guān)的d-vector;然后,將所有的這些d-vector進(jìn)行平均處理得到最后的d-vector,稱為與說話人s相關(guān)的d-vector。
在測(cè)試過程中,首先抽取測(cè)試語(yǔ)音的d-vector,然后計(jì)算測(cè)試語(yǔ)音d-vector和注冊(cè)語(yǔ)音的d-vector之間的余弦距離,將這個(gè)值與事前設(shè)定的閾值作比較進(jìn)行判決。
2.3DNN的訓(xùn)練過程
本文采用帶有dropout策略的最大輸出(Maxout)DNN[15,16]作為背景模型。在訓(xùn)練樣本集較小時(shí),dropout策略可以很好的預(yù)防DNN過擬合[16],dropout策略就是在訓(xùn)練的過程中隨機(jī)丟棄一些隱藏層節(jié)點(diǎn)的輸出。MaxoutDNN是對(duì)dropout策略一種很好的實(shí)現(xiàn),MaxoutDNN不同于標(biāo)準(zhǔn)的MLP,其將每一層輸出分為不重疊的兩組,每一組通過最大化輸出的策略選擇單個(gè)激活函數(shù)的值作為輸出。在本文中,訓(xùn)練一個(gè)帶有4個(gè)隱藏層的DNN,每個(gè)隱藏層包含512個(gè)節(jié)點(diǎn)。前兩層不使用dropout策略,后兩層以50%的概率丟棄激活函數(shù)輸出進(jìn)行DNN的訓(xùn)練,如圖1所示。使用sigmoid函數(shù)作為每一個(gè)非線性神經(jīng)元的激活函數(shù),學(xué)習(xí)率為0.001。DNN的輸入采用堆疊的40幀的語(yǔ)音MFCC參數(shù),即向左擴(kuò)展20幀,向右擴(kuò)展20幀組成的超幀參數(shù),目標(biāo)向量的維度為800,與訓(xùn)練集中話者的人數(shù)相同。最終的DNN大約有2MB左右的參數(shù),這和最小的i-vector基線系統(tǒng)類似。
3實(shí)驗(yàn)與分析
3.1實(shí)驗(yàn)數(shù)據(jù)庫(kù)
實(shí)驗(yàn)數(shù)據(jù)來(lái)自美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)署NIST(NationalInstituteofStandardandTechnology)舉辦的全球說話人評(píng)測(cè)比賽中的語(yǔ)音數(shù)據(jù)[7]。NIST語(yǔ)料庫(kù)覆蓋了多種傳輸信道情況和話筒類型。以NIST10語(yǔ)料庫(kù)為例,其根據(jù)語(yǔ)料數(shù)據(jù)的不同,分成5種訓(xùn)練條件和4種測(cè)試條件,將不同的訓(xùn)練條件和測(cè)試條件組合即可作為不同的測(cè)試任務(wù)。其中一個(gè)組合作為核心任務(wù),所有評(píng)測(cè)的參賽者都必須要完成核心任務(wù),由于NIST語(yǔ)料庫(kù)數(shù)據(jù)量龐大,本實(shí)驗(yàn)從NIST10語(yǔ)料庫(kù)中選擇1000個(gè)說話人語(yǔ)料作為測(cè)試子集。其中800個(gè)說話人語(yǔ)音用作背景模型的訓(xùn)練,200個(gè)說話人語(yǔ)音用作注冊(cè)和測(cè)試,每個(gè)說話人包含30條語(yǔ)音,每條語(yǔ)音的長(zhǎng)度大約為3min(VAD后大約2min)。從800個(gè)說話人中每人選出10條用作背景模型的訓(xùn)練,注冊(cè)和測(cè)試時(shí),每個(gè)說話人的前20條語(yǔ)音用作注冊(cè),剩下的用作確認(rèn)測(cè)試。從其他199個(gè)人中每人選出10條作為冒認(rèn)測(cè)試,一共進(jìn)行400 000次測(cè)試。
3.2基線系統(tǒng)
在本文中,主要目的是保持模型在較小的規(guī)模下仍能夠完成比較好的效果?;€系統(tǒng)采用基于i-vector的話者確認(rèn)系統(tǒng),GMM-UBM采用13維的MFCC參數(shù)及其一階差分和二階差分進(jìn)行訓(xùn)練。使用EER作為評(píng)判標(biāo)準(zhǔn),測(cè)試采用不同混合度的UBM和不同的i-vector維度以及不同LDA之后的維度對(duì)系統(tǒng)性能的影響,從而評(píng)估i-vector系統(tǒng)在什么樣的模型大小下性能最好。其中TVM采用PCA進(jìn)行初始化,迭代10次,UBM采用6次迭代。
如表1所示,基于i-vector的話者確認(rèn)系統(tǒng)隨著系統(tǒng)規(guī)模的下降,性能也會(huì)有所下降,同樣可以看出,在進(jìn)行了t-norm[17]規(guī)整后的性能會(huì)明顯優(yōu)于不進(jìn)行規(guī)整的原始輸出評(píng)分。其中最小的i-vector系統(tǒng)包含2M左右的參數(shù),和本文的系統(tǒng)規(guī)模類似。
表1 不同參數(shù)配置下i-vector系統(tǒng)的性能對(duì)比
3.3基于DNN的話者確認(rèn)系統(tǒng)
如圖2所示,是基于i-vector的基線系統(tǒng)和基于d-vector的話者確認(rèn)系統(tǒng)的性能比較。通過觀察DET曲線發(fā)現(xiàn)在d-vector系統(tǒng)中,未經(jīng)規(guī)整的原始輸出評(píng)分要比經(jīng)過t-norm規(guī)整后的評(píng)分效果好。而i-vector系統(tǒng)中依然是t-norm之后的評(píng)分優(yōu)于未經(jīng)規(guī)整的評(píng)分,這可能是因?yàn)榻?jīng)過d-vector系統(tǒng)輸出的評(píng)分并不是服從正太分布而是服從重尾分布。因此在以后的工作中需要對(duì)d-vector系統(tǒng)輸出評(píng)分采用新的評(píng)分規(guī)整策略。在接下來(lái)的實(shí)驗(yàn)中,基于d-vector的實(shí)驗(yàn)都采用原始的評(píng)分作為輸出。
圖2 比較t-norm評(píng)分規(guī)整對(duì)兩個(gè)系統(tǒng)的影響
從DET曲線中可以看出經(jīng)過t-norm規(guī)整后的i-vector系統(tǒng)的EER為2.84%,而未經(jīng)規(guī)整的d-vector系統(tǒng)EER為4.55%。所以基于i-vector的系統(tǒng)性能要優(yōu)于d-vector系統(tǒng),然而在低的錯(cuò)誤拒絕率時(shí),如圖2右下角所示,基于d-vector系統(tǒng)的性能優(yōu)于i-vector系統(tǒng)。
同樣也實(shí)驗(yàn)了采用不同的參數(shù)配置去訓(xùn)練DNN,發(fā)現(xiàn)不使用dropout策略,EER會(huì)上升3%左右。通過增加隱藏層的數(shù)量到1024,對(duì)于整個(gè)系統(tǒng)的性能沒有提高,但當(dāng)減少隱藏層的節(jié)點(diǎn)數(shù)目到256時(shí),系統(tǒng)的EER上升到了8%。
3.4注冊(cè)數(shù)據(jù)的影響
在d-vector系統(tǒng)中,在注冊(cè)階段沒有統(tǒng)計(jì)說話人語(yǔ)料數(shù)目對(duì)整個(gè)系統(tǒng)性能的影響,在這個(gè)實(shí)驗(yàn)主要研究每個(gè)說話人選用不同數(shù)目的語(yǔ)料對(duì)基于i-vector的基線系統(tǒng)和基于d-vector的話者確認(rèn)系統(tǒng)的影響。在注冊(cè)階段每個(gè)說話人分別選用4、8、12、20條語(yǔ)音進(jìn)行比較。
通過分析表2中各個(gè)情況下的EER,在兩個(gè)系統(tǒng)的性能都是隨著注冊(cè)語(yǔ)音數(shù)目的增加而提高,并且趨勢(shì)相同。
表2 不同的注冊(cè)語(yǔ)音數(shù)目對(duì)系統(tǒng)的影響
3.5噪聲魯棒性
在實(shí)際的應(yīng)用中往往訓(xùn)練階段和實(shí)際測(cè)試階段環(huán)境不匹配,在這個(gè)實(shí)驗(yàn)中,主要測(cè)試在噪聲環(huán)境下,兩個(gè)系統(tǒng)性能的比較。背景模型都是在干凈語(yǔ)音下訓(xùn)練得到,但是在注冊(cè)語(yǔ)音和測(cè)試語(yǔ)音中都加入了10dB的白噪聲,兩個(gè)系統(tǒng)的DET曲線如圖3所示。從圖可以看出,在噪聲情況下,兩個(gè)系統(tǒng)的性能都有所下降。但是基于d-vector的系統(tǒng)的性能在噪聲情況下性能下降的幅度較小,并且在低的錯(cuò)誤拒絕率的條件下基于d-vector的話者確認(rèn)系統(tǒng)的性能要優(yōu)于基于i-vector的基線系統(tǒng)的性能。
圖3 比較采用干凈語(yǔ)音和帶噪聲的語(yǔ)音對(duì)兩個(gè)系統(tǒng)的影響
3.6系統(tǒng)融合
通過上面與i-vector基線系統(tǒng)的比較發(fā)現(xiàn),本文提出的基于d-vector的話者確認(rèn)系統(tǒng)是可行的,尤其適合于噪聲環(huán)境和在要求低的錯(cuò)誤拒絕率的條件下。然后我們將這兩種系統(tǒng)進(jìn)行融合,稱為i/d-vector系統(tǒng)。一般融合的策略有很多種,本文只是簡(jiǎn)單地將兩個(gè)系統(tǒng)的輸出評(píng)分進(jìn)行平均,如圖4和圖5中fusion所示,并且在兩個(gè)系統(tǒng)中都采用t-norm進(jìn)行規(guī)整。通過分析圖4和圖5可知,融合后的系統(tǒng)i/d-vector在干凈語(yǔ)音及帶噪聲條件下都優(yōu)于單個(gè)系統(tǒng)的性能,就EER來(lái)說,i/d-vector系統(tǒng)相對(duì)于i-vector系統(tǒng)在干凈環(huán)境下和噪聲環(huán)境下分別下降了13%和27%。
圖4 在干凈語(yǔ)音下比較融合后的系統(tǒng)(fusion)與單個(gè)系統(tǒng)的性能
圖5 在噪聲語(yǔ)音下比較融合后的系統(tǒng)(fusion)與單個(gè)系統(tǒng)的性能
4結(jié)語(yǔ)
本文提出了一種新的基于DNN的話者確認(rèn)方法,通過采用語(yǔ)音信號(hào)的倒譜特征參數(shù)訓(xùn)練DNN來(lái)區(qū)分說話人,被訓(xùn)練的DNN用于抽取語(yǔ)音信號(hào)中與說話人相關(guān)的特征參數(shù)。最后將這些特征參數(shù)取平均,得到d-vector,然后用于話者確認(rèn)系統(tǒng)。通過實(shí)驗(yàn)表明基于d-vector的話者確認(rèn)系統(tǒng)的性能與i-vector基線系統(tǒng)相當(dāng),在融合了兩種系統(tǒng)之后發(fā)現(xiàn),融合后的系統(tǒng)優(yōu)于其任何一個(gè)單獨(dú)的系統(tǒng)。并且在噪聲環(huán)境下,基于d-vector話者確認(rèn)系統(tǒng)比i-vector基線系統(tǒng)的魯棒性更好;在低的錯(cuò)誤拒絕率的條件下基于d-vector的話者確認(rèn)系統(tǒng)優(yōu)于i-vector基線系統(tǒng)。
接下來(lái)的工作主要包括修改現(xiàn)在的余弦評(píng)分策略,以及采用新的規(guī)整方法對(duì)評(píng)分進(jìn)行規(guī)整。進(jìn)一步去探索新的融合策略,如在i-vector和d-vector空間使用PLDA模型等。最終,希望能夠提出一種有效的魯棒性更好的話者確認(rèn)系統(tǒng)。
參考文獻(xiàn)
[1]ReynoldsDA,QuatieriTF,DunnRB.SpeakerverificationusingadaptedGaussianmixturemodels[J].Digitalsignalprocessing,2000,10(1):19-41.
[2]KennyP,BoulianneG,OuelletP,etal.Jointfactoranalysisversuseigenchannelsinspeakerrecognition[J].Audio,Speech,andLanguageProcessing,IEEETransactionson,2007,15(4):1435-1447.
[3]KennyP,BoulianneG,OuelletP,etal.SpeakerandsessionvariabilityinGMM-basedspeakerverification[J].Audio,Speech,andLanguageProcessing,IEEETransactionson,2007,15(4):1448-1460.
[4]KennyP,OuelletP,DehakN,etal.Astudyofinterspeakervariabilityinspeakerverification[J].Audio,Speech,andLanguageProcessing,IEEETransactionson,2008,16(5):980-988.
[5]DehakN,KennyP,DehakR,etal.Front-endfactoranalysisforspeakerverification[J].Audio,Speech,andLanguageProcessing,IEEETransactionson,2011,19(4):788-798.
[6]HintonG,DengL,YuD,etal.Deepneuralnetworksforacousticmodelinginspeechrecognition:Thesharedviewsoffourresearchgroups[J].SignalProcessingMagazine,IEEE,2012,29(6):82-97.
[7]MartinAF,GreenbergCS.TheNIST2010speakerrecognitionevaluation[C]//Interspeech2010,11thAnnualConferenceoftheInternationalSpeechCommunicationAssociation,Makuhari,Chiba,Japan,2010:2726-2729.
[8]KennyP.BayesianSpeakerVerificationwithHeavy-TailedPriors[C]//Proc.OdysseySpeakerandLanguageRecognitionWorkshop,Brno,CzechRepublic,2010:14.
[9]LarcherA,LeeKA,MaB,etal.Phonetically-constrainedPLDAmodelingfortext-dependentspeakerverificationwithmultipleshortutterances[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2013IEEEInternationalConferenceon.IEEE,2013:7673-7677.
[10]YegnanarayanaB,KishoreSP.AANN:analternativetoGMMforpatternrecognition[J].NeuralNetworks,2002,15(3):459-469.
[11]HeckLP,KonigY,S?nmezMK,etal.Robustnesstotelephonehandsetdistortioninspeakerrecognitionbydiscriminativefeaturedesign[J].SpeechCommunication,2000,31(2):181-192.
[12]LeeH,PhamP,LargmanY,etal.Unsupervisedfeaturelearningforaudioclassificationusingconvolutionaldeepbeliefnetworks[C]//Advancesinneuralinformationprocessingsystems,2009:1096-1104.
[13]StafylakisT,KennyP,SenoussaouiM,etal.PreliminaryinvestigationofBoltzmannmachineclassifiersforspeakerrecognition[C]//ProceedingsOdysseySpeakerandLanguageRecognitionWorkshop,2012.
[14]VarianiE,LeiX,McDermottE,etal.Deepneuralnetworksforsmallfootprinttext-dependentspeakerverification[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2014IEEEInternationalConferenceon.IEEE,2014:4052-4056.
[15]CaiM,ShiY,LiuJ.Deepmaxoutneuralnetworksforspeechrecognition[C]//AutomaticSpeechRecognitionandUnderstanding(ASRU),2013IEEEWorkshopon.IEEE,2013:291-296.
[16]DahlGE,SainathTN,HintonGE.ImprovingdeepneuralnetworksforLVCSRusingrectifiedlinearunitsanddropout[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2013IEEEInternationalConferenceon.IEEE,2013:8609-8613.
[17]AuckenthalerR,CareyM,LloydThomasH.Scorenormalizationfortext-independentspeakerverificationsystems[J].DigitalSignalProcessing,2000,10(1):42-54.
A SPEAKER VERIFICATION METHOD BASED ON DEEP NEURAL NETWORK
Wu MinghuiHu QunweiLi Hui
(Department of Electronic Science and Technology,University of Science and Technology of China,Hefei 230027,Anhui,China)
AbstractIn this paper we mainly investigate the method of using deep neural network (DNN) for speaker verification. At the stage of training, the DNN is trained under supervision using the feature parameter of speech cepstrum as input and the label of speaker as output. At the stage of speaker registration, an eigenvector correlated to the speaker, namely d-vector, is extracted from the last hidden layer of the trained DNN and is used as the model of speaker. At test stage, from testing speech a d-vector is extracted to compare it with the model of the registered speaker and then to make the verification decision. Experimental results show that the DNN-based speaker verification method is feasible. Moreover, under the condition of noisy environment and low error-rejection rate, the DNN-based speaker verification system outperforms the i-vector base line system in performance. Finally, we integrate these two systems, relative to the i-vector base line system, the integrated system reduces the equal error rate (EER) by 13% and 27% for clean speech and noisy speck conditions respectively.
KeywordsSpeaker verificationDeep neural network (DNN)Deep learning
收稿日期:2014-12-14。吳明輝,碩士,主研領(lǐng)域:人工智能與模式識(shí)別,語(yǔ)音信號(hào)處理。胡群威,碩士。李輝,副教授。
中圖分類號(hào)TP3
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.06.039