李 琳,萬麗虹,洪青陽,張 君,李 明
(1. 廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,廈門 361005;2. 中山大學(xué)卡內(nèi)基梅隆大學(xué)聯(lián)合工程學(xué)院,廣州 510006)
基于概率修正PLDA的說話人識別系統(tǒng)
李 琳1,萬麗虹1,洪青陽1,張 君1,李 明2
(1. 廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院,廈門 361005;2. 中山大學(xué)卡內(nèi)基梅隆大學(xué)聯(lián)合工程學(xué)院,廣州 510006)
為減弱注冊語音與測試語音時長不一致對說話人識別性能的負面影響,提出一個概率修正PLDA 建模方法.根據(jù)語音時長自適應(yīng)改變傳統(tǒng)PLDA模型中i-vector的概率分布函數(shù),提高PLDA對每個說話人每段語音的時長表征能力,以增強說話人類別的區(qū)分度.為驗證基于概率修正PLDA模型的有效性,進行了NIST SRE10 corecore 測試集在3種不同時長的評測實驗,以及NIST 2014 i-vector machine learning challenge測試任務(wù).結(jié)果表明,相較于傳統(tǒng)的PLDA訓(xùn)練模型,通過語音時長的約束提高了說話人識別性能.
高斯PLDA;i-vector;語音時長;概率修正;說話人識別
傳統(tǒng)說話人識別技術(shù)從語音樣本提取特征參數(shù),并利用說話人特征的差異性建立分類模型,如高斯混合模型(Gaussian mixture model,GMM)[1],以區(qū)分目標說話人和冒充說話人.然而,說話人特征差異性的表征能力受到說話人情緒、背景噪聲、語音時長、采集設(shè)備等因素的制約,直接影響了現(xiàn)有說話人識別技術(shù)的識別效果.
在實際應(yīng)用中,較頻繁出現(xiàn)參考語料與測試語料的錄制信道不同和時長不一致的情況.采用Eigenvoice、Eigenchannel、Joint Factor Analysis等說話人-信道聯(lián)合模型[2-3]對GMM均值超向量進行信道無關(guān)的說話人因子分析,一定程度上削弱了信道差異對說話人識別性能的影響.基于i-vector的說話人識別系統(tǒng)[4]使用有害因子投影(nuisance attribute projection,NAP)、線性區(qū)分性分析(linear discriminant analysis,LDA)、類內(nèi)協(xié)方差歸一化(within-class covariance normalization,WCCN),或概率線性區(qū)分性分析(probabilistic linear discriminant analysis,PLDA)[5-6]等區(qū)分技術(shù)更好地解決了信道不匹配問題.由于時長信息和信道信息、音素信息一樣,是隨著語音段的錄制而存在著,但是傳統(tǒng)GMM建模方法一定程度上模糊了每個語音樣本的時長信息.雖然完全變化因子i-vector的提取過程考慮了時長的影響,采用了與語音樣本幀數(shù)的倒數(shù)相關(guān)的概率分布函數(shù),但單純使用i-vector作為新型聲學(xué)特征和PLDA作為區(qū)分模型的說話人識別系統(tǒng)在時長不一致及短語音情況下仍會出現(xiàn)明顯的性能下降[7].近年來,學(xué)者們開始針對時長不一致問題展開一系列的研究. Kenny等[8]將時長信息作為信道信息的附加補償,在說話人-信道空間建模時多設(shè)置了一組表征時長的信道偏移參量,在NIST SRE10 core-core測試中,將EER由6.8%,降為5.9%,,以增加PLDA訓(xùn)練過程中似然函數(shù)的計算復(fù)雜度為代價,換取識別性能對樣本時長的魯棒性. Hasan等[9]假設(shè)樣本時長為i-vector變量空間中的加性噪聲,提出3種優(yōu)化方法:①采用同一語料多種時長樣本進行PLDA建模;②在分數(shù)域構(gòu)建QMF函數(shù),加入時長信息的調(diào)節(jié)作用;③使用時長方差規(guī)整得到新的i-vector變量.經(jīng)過NIST SRE12的評測結(jié)果分析得到,第2種方法對短語音的識別效果最顯著.Kanagasundaram等[10]提出時長方差規(guī)整算法(short utterance variance normalization,SUVN),在i-vector特征域中,結(jié)合SUVN、LDA以及PLDA等補償信道差異性和時長變化性.
本文首先將i-vector向量進行白化和歸一化處理[11],建立i-vector的標準高斯分布.然后,引入語音樣本的時長信息,將其作為每個說話人每個i-vector在PLDA模型中的方差調(diào)節(jié)因子,描述每個i-vector向量由時長不同而產(chǎn)生的信息熵:樣本時長越短,攜帶的說話人信息越少,偏離高斯分布均值的程度越大.最后,采用最大期望(expectation maximization,EM)算法實現(xiàn)對開發(fā)集i-vector向量分布概率函數(shù)的最大似然估計,建立起一個受語音時長約束的概率修正PLDA(modified-prior PLDA)模型.本文分別在NIST SRE10 core-core測試集(女性部分)和NIST 2014 i-vector machine learning challenge的評測任務(wù)中驗證了概率修正PLDA模型的有效性.
將聯(lián)合因子分析(JFA)算法中說話人因子分量和信道因子分量同時映射到一個低維空間,使用基于Baum-Welch 統(tǒng)計量對GMM均值超向量進行降維處理得到一個固定長度的完全因子向量i-vector,即每一段語音樣本均可表示為一個i-vector.
式中:M為GMM均值超向量;m為一個與說話人和信道無關(guān)的均值超矢量;T為低秩的全局差異空間矩陣;x表示一個滿足標準正態(tài)分布N(0,I)的隨機向量,即i-vector.
假設(shè)tarx和tstx分別代表目標說話人和測試語音所對應(yīng)的i-vecor.本文的基線系統(tǒng)將采取余弦距離值(CDS)作為基線系統(tǒng)的決策分數(shù)
給定一組來自N個說話人的i-vector向量{xij,i=1,…,N, j=1,2,…,Mi}(其中,每個說話人有Mi條語音樣本),每個i-vector經(jīng)過白化和歸一化處理,滿足標準高斯分布.進一步,將i-vector分解為確定信號和隨機噪聲,則得到其PLDA模型
式中:μ代表來自開發(fā)集所有i-vector向量的均值;iβ是第i個說話人的說話人因子,滿足標準正態(tài)分布N(0,I);矩陣?是固定維度的說話人子空間;殘差ijε包含信道因子,服從均值為0,協(xié)方差矩陣為Σ的正態(tài)分布.
利用一定規(guī)模的語音樣本開發(fā)集,使用EM算法估計出PLDA參數(shù)集{μ,?,Σ}.一般采用對數(shù)似然比作為標準高斯PLDA的決策分數(shù)
式中:sH表示測試語音來自同一說話人的假設(shè)條件;dH表示測試語音來自冒充者的假設(shè)條件.
文獻[9]中通過分析語音樣本所包含的音素(phonemes)統(tǒng)計量與語音時長(5,s,10,s,20,s,40,s和全時長)的關(guān)系,發(fā)現(xiàn)音素的數(shù)量隨著語音時長的減小而呈指數(shù)遞減,而當語音時長增加到一定長度時,如時長在1,min以上,音素的統(tǒng)計量將保持不變.由此可見,語音的時長對說話人識別性能具有不容忽視的影響.對于同一說話人,語音時長越短,對應(yīng)ivector的PLDA模型將趨向于產(chǎn)生越大的協(xié)方差.
3.1 高斯分布函數(shù)的修正
考慮語音樣本時長的影響力,本文假定公式(3)中的ijε將服從一個新的正態(tài)分布式中:Lij代表第i個說話人第j段語音樣本的時長,可用幀數(shù)表示;α 和λ 為調(diào)節(jié)參數(shù),刻畫語音時長對分布函數(shù)的影響程度.
已知開發(fā)集中有N個說話人,每個說話人有Mi個語音樣本,即i=1,…,N, j=1,2,…,Mi,設(shè)定ηij代表i-vector向量的一階統(tǒng)計量xij-μ,則后驗概率P(ηij|βi)為
設(shè)定Fi是第i個說話人一階統(tǒng)計量的均值,如下所示:
引入中間變量K,即
根據(jù)貝葉斯法則,可計算得到后驗概率
3.2 EM迭代
采用EM算法以估計得到PLDA模型參數(shù),本質(zhì)上是進行極大似然估計求解含有隱變量的概率模型參數(shù).在每一次迭代中,在E-step先求出給定訓(xùn)練數(shù)據(jù)下隱變量的期望,然后在M-step將這個期望最大化.通過迭代逐漸收斂,達到局部最優(yōu)值.
(1) E-step:在給定觀測數(shù)據(jù)和當前參數(shù)下對未觀測數(shù)據(jù)βi的條件概率分布P(βi|Fi)的期望值進行估算,即
又由期望相關(guān)公式可以得到
將P( xij|βi)和P(βi)的高斯分布概率密度函數(shù)代
入公式(13),再分別對? 和Σ求導(dǎo),整理得到
為得到對? 和Σ的最佳估算,需要經(jīng)過E-step和M-step的不斷迭代,當公式(13)計算得到的數(shù)值增長速度小于1×10-3,則停止迭代.
4.1 評測數(shù)據(jù)
本文分別參考ALIZE開發(fā)包[12]和文獻[11]提供PLDA開源代碼,實現(xiàn)了3個說話人識別系統(tǒng):基于i-vector+CDS的基線系統(tǒng)(簡稱“基線系統(tǒng)”),ivector+PLDA識別系統(tǒng)(簡稱“PLDA系統(tǒng)”)和ivector+概率修正 PLDA識別系統(tǒng)(簡稱“概率修正系統(tǒng)”).采用32維MFCC,訓(xùn)練1,024階的UBMGMM,i-vector維數(shù)為400,PLDA說話人因子維數(shù)為120.
為驗證本文提出的概率修正PLDA模型的有效性,我們采用NIST SRE10 core-core測試集(女性)和NIST 2014 i-vector machine learning challenge測試集進行識別性能評估.
1) NIST SRE10 core-core測試數(shù)據(jù)準備
UBM訓(xùn)練數(shù)據(jù):NIST2004、2005年女性數(shù)據(jù)共11,370條語音.
T矩陣訓(xùn)練數(shù)據(jù):NIST2004、2005、2006、2008年女性數(shù)據(jù)共20,348條語音.
PLDA訓(xùn)練數(shù)據(jù):與T矩陣訓(xùn)練數(shù)據(jù)相同語音提取的i-vector.
core-core測試條件:
(1) 模型——NIST SRE10,core女性數(shù)據(jù),共訓(xùn)練模型290個;
(2) 測試——NIST SRE10,core女性數(shù)據(jù),共提供測試樣本357個;
進行確認測試355次,冒認測試15,958次.
2) 時長不匹配評測實驗數(shù)據(jù)準備
將NIST SRE10 core-core測試集中的測試語音分別隨機截短至20,s和10,s,對應(yīng)的UBM、T、PLDA模型、訓(xùn)練模型和測試次數(shù)不變.
3) NIST 2014 i-vector machine learning challenge測試數(shù)據(jù)準備
NIST 2014 i-vector machine learning challenge組委會從歷年的NIST SRE數(shù)據(jù)庫中提取600維的ivector數(shù)據(jù),分別組成開發(fā)集、模型集和測試集.開發(fā)集包含4,959個說話人共36,573個i-vector,可用于PLDA模型訓(xùn)練;模型集包含1,306個說話人,每個說話人有5條i-vector;測試集則有9,634個ivector.測試任務(wù)分成兩個部分:progress測試和evaluation測試.
4.2 調(diào)節(jié)參數(shù)α 和λ 的選擇
公式(5)定義了時長約束下的說話人因子分布概率函數(shù),可見,調(diào)整α 和λ 的取值,將改變說話人因子的概率分布.
為簡化計算復(fù)雜度,在本文實驗中,α 取開發(fā)集所有i-vector的時長均值.確定α 后,再微調(diào)λ 的取值,觀察系統(tǒng)識別性能,發(fā)現(xiàn)當λ 取值在0.4~0.8之間時,說話人識別系統(tǒng)將獲得最顯著的識別效果.
4.3 性能對比
為驗證概率修正 PLDA模型對時長變化的魯棒性,本文將NIST SRE10 core-core測試集的測試數(shù)據(jù)進行截短至20,s和10,s,分別進行不同時長的評測任務(wù).本文采用等錯率(equal error rate,EER)和最小決策代價函數(shù)(minimum decision cost function,minDCF)作為說話人識別系統(tǒng)的評測準則,并對minDCF進行norm規(guī)整得到Cnorm[13].
表1和表2分別列出了不同時長情況下,基線系統(tǒng)、PLDA系統(tǒng)和概率修正系統(tǒng)這3個識別系統(tǒng)在NIST SRE10 core-core測試集(女性)上的評測結(jié)果.可看到,隨著測試語音時長變短后,3種系統(tǒng)的識別性能都有一定幅度的下降,其中,基線系統(tǒng)的識別性能下降最嚴重,而概率修正系統(tǒng)則表現(xiàn)得相對魯棒.在同一時長情況下,概率修正系統(tǒng)取得更低的EER值,大部分情況下可以獲得更小的minDCF值.只有在時長為10,s的評測任務(wù)中,概率修正系統(tǒng)的minDCF值略高于PLDA系統(tǒng),出現(xiàn)了類似于文獻[8]的實驗情況,值得進一步研究探討.
表1 NIST SRE10 core-core評測EER值Tab.1 EER value of NIST SRE10 core-core
表2 NIST SRE10 core-core評測Cnorm值Tab.2 Cnorm value of NIST SRE10 core-core
NIST 2014 i-vector machine learning challenge提供的每個i-vector都包含原始語音的段長信息,有利于應(yīng)用概率修正系統(tǒng)驗證性能.采用EER和minDCF[14]作為說話人識別系統(tǒng)的評測準則.
由表3和表4觀察發(fā)現(xiàn),在progress測試任務(wù)中,與PLDA系統(tǒng)相比概率修正系統(tǒng)的EER減少了3.67%,minDCF獲得3.39%,的改進.在evaluation測試任務(wù)中,概率修正系統(tǒng)性能同樣取得一定程度的改進.
表3 NIST 2014 i-vector challenge評測EER值Tab.3 EER value of NIST 2014 i-vector challenge
表4 NIST 2014 i-vector challenge評測minDCF值Tab.4minDCF value of NIST minDCF 2014 i-vector challenge
鑒于傳統(tǒng)PLDA模型缺乏對時長信息的利用,本文提出一種新的PLDA模型,在標準高斯PLDA建模過程中,利用時長信息控制說話人因子的概率分布參數(shù),從而加強說話人識別系統(tǒng)對時長因素影響的魯棒性.
[1] Reynolds D,Quatieri T,Dunn R. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Process,2000,10(1/2/3):19-41.
[2] Kenny P,Boulianne G,Dumouchel P. Eigenvoice modeling with sparse training data[J]. IEEE Trans Speech and Audio Process,2005,13(3):345-354.
[3] Kenny P,Boulianne G,Ouellet P,et al. Joint factor analysis versus eigenchannels in speaker recognition [J]. IEEE Trans on Audio Speech Lang Process,2007,15(4):1435-1447.
[4] Dehak N,Kenny P,Dehak R,et al. Front-end factor analysis for speaker verification[J]. IEEE Trans on Audio Speech Lang Process,2011,19(4):788-798.
[5] Prince S,Elder J. Probabilistic linear discriminant analysis for inferences about identity[C]//Proc Computer Vision. Rio de Janeiro,Brazil,2007:1-8.
[6] Cumani S,Plchot O,Laface P. On the use of i-vector posterior distributions in probabilistic linear discriminant analysis[J]. IEEE Tran on Audio Speech Lang Process,2014,22(4):846-857.
[7] Sarkar A,Matrouf D,Bousquet P,et al. Study of the effect of i-vector modeling on short and mismatch utterance duration for speaker verification[C]// Proc Inter-Speech.Portland,USA,2012:2661-2664.
[8] Kenny P,Stafylakis T,Quellet P,et al. PLDA for speaker verification with utterances of arbitrary duration [C]// Proc Acoustics,Speech and Signal Processing. Vancouver,Canada,2013:7649-7653.
[9] Hasan T,Saeidi R,Hansen J,et al. Duration mismatch compensation for i-vector based speaker recogni tion systems[C]// Proc Acoustics,Speech and Signal Processing. Vancouver,Canada,2013:7663-7667.
[10] Kanagasundaram A,Dean D,Sridharan S,et al. Improving short utterance i-vector speaker verification using utterance variance modeling and compensation techniques[J]. IEEE Trans Speech Communication,2014,59:69-82.
[11] Garcia-Romero D,Espy-Wilson C. Analysis of i-vector length normalization in speaker recognition systems [C]// Proceedings of Interspeech. Florence,Italy,2011:249-252.
[12] ALIZE. ALIZE Project-Open Source Platform for Biometrics Authentification[EB/OL]. http://www.signalprocessingsociety.org/technicalcommittees/list/sl-tc/splnl/2013-05/ALIZE/,2010-04-21.
[13] NIST. The NIST 2010 Speaker Recognition Evaluation Plan[EB/OL]. http://www.itl.nist.gov/iad/mig/tests/spk/ 2010/index.html,2015-02-19.
[14] NIST. The 2013—2014 Speaker Recognition I-Vector Machine Learning Challenge[EB/OL]. https:// ivectorchallenge. nist. gov,2015-02-19.
(責任編輯:金順愛,王曉燕)
Modified-Prior PLDA Based Speaker Recognition System
Li Lin1,Wan Lihong1,Hong Qingyang1,Zhang Jun1,Li Ming2
(1.School of Information Science and Technology,Xiamen University,Xiamen 361005,China;2.SYSU-CMU Joint Institute of Engineering,Sun Yat-Sen University,Guangzhou 510006,China)
To reduce the negative impact on the performance of speaker recognition systems due to the duration mismatch between enrollment utterance and test utterance,a modified-prior PLDA method is proposed.The probability distribution function of i-vector was modified by incorporating the covariance matrix with duration of each utterance of each speaker during the PLDA training,which further improved the discriminant capability of speaker classification.To evaluate the robustness of the proposed modified-prior PLDA method,extensive experiments were performed on NIST SRE10 core-core task(female part)in duration mismatch conditions and NIST 2014 i-vector machine learning challenge.Experimental results demonstrated that the duration-based modified-prior PLDA method achieved better performance compared with the traditional PLDA.
Gaussian PLDA;i-vector;duration;modified-prior;speaker recognition
TN912.34
A
0493-2137(2015)08-0692-05
10.11784/tdxbz201507031
2015-03-15;
2015-07-09.
國家自然科學(xué)基金資助項目(61105026).
李 琳(1982— ),女,博士,副教授,lilin@xmu.edu.cn.
洪青陽,qyhong@xmu.edu.cn.