陳晨 韓紀(jì)慶
摘 要:作為語音處理領(lǐng)域的主要技術(shù)之一,說話人識別以確認(rèn)說話人身份為目標(biāo),在移動(dòng)交互、身份驗(yàn)證、音頻監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用前景。經(jīng)過數(shù)十年的發(fā)展,說話人識別技術(shù)已經(jīng)能夠取得優(yōu)秀的識別性能。本文將對說話人識別方法的研究現(xiàn)狀進(jìn)行總結(jié)與分析,介紹目前主流的說話人識別技術(shù)。
關(guān)鍵詞:說話人識別;特征提??;說話人模型
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2015)05-
An Overview of Speaker Recognition
CHEN Chen, HAN Jiqing
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: As one of the main technology of speech processing, speaker recognition aiming at speaker distinguishing, has a broad application prospect in the field of mobile interaction, authentication, audio monitor, and so on. After decades of development, speaker recognition has achieved a high accuracy. This paper will carry on the summary and analysis of speaker recognition, and introduces the current mainstream technology of speaker recognition.
Keywords: Speaker Recognition; Feature Extraction; Speaker Modeling
0 引 言
語音是人類之間交流情感與認(rèn)知的重要信息載體,是在生活與工作中最基本、最自然的交流方式。隨著信息技術(shù)的發(fā)展,使得通過分析語音信號中的個(gè)人特征來識別說話人成為可能。說話人識別技術(shù)因其良好的準(zhǔn)確性、經(jīng)濟(jì)性和可擴(kuò)展性,擁有著廣闊的發(fā)展空間[1],且已經(jīng)作為一項(xiàng)重要的多媒體數(shù)據(jù)分析技術(shù),應(yīng)用在事務(wù)訪問控制、身份驗(yàn)證、語音數(shù)據(jù)管理和音頻監(jiān)控等眾多研究領(lǐng)域[2]。
對于說話人識別技術(shù)的研究,一直是計(jì)算機(jī)領(lǐng)域的熱門話題。其研究歷史可以追溯到第二次世界大戰(zhàn)后期。在隨后的幾十年中,說話人技術(shù)快速發(fā)展,典型的研究成果有基于模式匹配和統(tǒng)計(jì)方差分析的說話人識別方法[3]、基于線性預(yù)測分析與倒譜分析的說話人識別方法[4],人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)[5]、動(dòng)態(tài)時(shí)間規(guī)整(Dynamic time warping,DTW)技術(shù)[6]以及矢量量化(Vector quantization,VQ)技術(shù)[7]。但隨著精確度更高的概率模型的提出,上述方法逐漸推出了使用。具有代表性的概率模型是隱含馬爾科夫模型(Hidden Markov model,HMM)[8],由于HMM對說話人語音信號有較強(qiáng)的魯棒性,能夠同時(shí)把統(tǒng)計(jì)參數(shù)全部集成在一個(gè)統(tǒng)一的框架中,用狀態(tài)轉(zhuǎn)移規(guī)律刻畫穩(wěn)定段之間的變化過程,統(tǒng)計(jì)聲學(xué)特征和時(shí)間上的變動(dòng),因此在說話人識別中得到廣泛的應(yīng)用。20世紀(jì)90年代,單狀態(tài)的HMM即獲提出,也就是高斯混合模型(Gaussian mixture model,GMM)[9],隨后則將通用背景模型(Universal background model,UBM)[10]引入到GMM中形成的GMM-UBM系統(tǒng),由于其優(yōu)異的識別性能、簡單靈活的模型結(jié)構(gòu)和初中的魯棒性,成為文本無關(guān)的說話人識別系統(tǒng)領(lǐng)域里發(fā)揮開創(chuàng)性引領(lǐng)作用的重要研究稱。
目前,說話人識別技術(shù)已經(jīng)取得了巨大的進(jìn)步,在科技發(fā)展的帶動(dòng)下,以說話人識別技術(shù)為載體的電子科技產(chǎn)品日益增加,但是在拓展說話人識別技術(shù)應(yīng)用范圍的同時(shí),也使其面對了更多變更復(fù)雜的噪聲干擾問題,這就對說話人識別技術(shù)提出了更加嚴(yán)苛的要求和更為嚴(yán)峻的挑戰(zhàn)。其中信道畸變所引起的干擾即是噪聲干擾的主要來源。在GMM-UBM的基礎(chǔ)上,以解決信道畸變問題的聯(lián)合因子(Joint factor analysis,F(xiàn)A)[11]與i-vector[12]方法則相繼獲得提出,也已成為目前說話人識別領(lǐng)域中最為先進(jìn)的技術(shù)之一。
本文將介紹說話人識別的基本原理,從特征提取和說話人模型兩個(gè)方面,綜合近年說話人識別領(lǐng)域的主要研究情況進(jìn)行總結(jié)與評價(jià)。
1說話人識別基本框架
說話人識別的基本任務(wù)是通過分析語音信號中包含的說話人個(gè)性信息來識別待識別說話人的身份,其基本原理如圖1所示。主要包括兩個(gè)階段,即訓(xùn)練階段與識別階段。具體地,訓(xùn)練階段根據(jù)說話人集合中每個(gè)說話人的訓(xùn)練語料,經(jīng)特征提取后,建立各個(gè)說話人的模型;識別階段就是在待識別說話人的語音經(jīng)特征提取后,將其與系統(tǒng)訓(xùn)練的模型進(jìn)行匹配。
圖1 說話人識別系統(tǒng)原理圖
Fig. 1 Schematic diagram of speaker recognition system
2 特征提取
由于在時(shí)域上語音信號的波形變化相當(dāng)快速、不易觀察,因此一般都會在頻域上來實(shí)施觀察。在頻域上,語音信號的頻譜隨著時(shí)間緩慢變化,因此通??梢约僭O(shè)在一較短時(shí)間中,其語音信號的特性是穩(wěn)定的。特征提取是一個(gè)去除原來語音數(shù)據(jù)中的冗余信息,減小數(shù)據(jù)量的過程。常用的說話人特征有線性預(yù)測倒譜系數(shù)(Linear predictive cepstral coefficient,LPCC)[13]和梅爾倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)[14]。其數(shù)學(xué)實(shí)現(xiàn)原理則如下所示。
2.1 線性預(yù)測系數(shù)
LPCC模擬聲道效應(yīng),將聲門激勵(lì)信號與聲道沖擊相應(yīng)分離開,采用線性預(yù)測原理,將一個(gè)語音信號用過去的若干個(gè)采樣的線性組合來表示。在時(shí)域上,語音信號s(n)的預(yù)測值為:
(1)
其中, 為線性預(yù)測系數(shù)。預(yù)測誤差為:
(2)
預(yù)測系數(shù) 可以通過最小化預(yù)測誤差來求得。最后根據(jù)遞推求解方法求得LPCC參數(shù):
(3)
2.2 梅爾倒譜系數(shù)
MFCC融入了人耳的聽覺特性,把能量、基音頻率、共振峰值等參數(shù)作為描述語音特征的參數(shù),將人耳的聽覺感知特性和語音的產(chǎn)生機(jī)制相結(jié)合。實(shí)驗(yàn)證明在語音識別中MFCC參數(shù)的性能是目前比較優(yōu)秀的,所以也相應(yīng)具有最為廣泛的應(yīng)用。Mel頻率與Hz頻率的對應(yīng)關(guān)系可以用下式近似表示:
(4)
其中, 為Hz頻率,B為Mel頻率。
在提取過程中,MFCC首先對語音進(jìn)行預(yù)處理,預(yù)處理包括預(yù)加重、分幀和加窗三個(gè)部分;然后對預(yù)處理后的語音做快速傅里葉變化(Fast Fourier transform,F(xiàn)FT),再用Mel濾波器組濾波并對其取對數(shù),最后做離散余弦變換求倒譜(Discrete consine transform,DCT),去除各維信號之間的相關(guān)性,從而將信號映射到低維空間。在提取MFCC的基礎(chǔ)上,還可求取其一階、二階差分,共同組成Mel倒譜特征。
3 說話人模型
3.1 GMM-UBM模型
通用背景模型(Universal Background Model,UBM)的本質(zhì)也是一個(gè)高斯混合模型(Gaussian Mixture Model,GMM),其目的是為了避免由于實(shí)驗(yàn)室環(huán)境下訓(xùn)練數(shù)據(jù)不足導(dǎo)致的過擬合。UBM是經(jīng)過大量語音訓(xùn)練得到的,因而能夠反映說話人的平均特征分布。UBM模型的訓(xùn)練是一個(gè)參數(shù)估計(jì)的過程,即用大量的背景說話人在最大似然準(zhǔn)則(Maximum Likelihood,ML)下采用期望最大化算法(Expectation Maximization,EM)訓(xùn)練得到一個(gè)與說話人無關(guān)、通道無關(guān)的高斯混合模型。高斯混合模型是由多個(gè)高斯概率分布函數(shù)的加權(quán)和構(gòu)成的,其分布函數(shù)的維度與聲學(xué)特征的維度一致,每個(gè)高斯概率分布函數(shù)的權(quán)重、均值和方差均由先驗(yàn)數(shù)據(jù)學(xué)習(xí)得到。GMM函數(shù)的描述形式如下:
(5)
其中, , 和 分別表示第c個(gè)高斯分量的權(quán)重、均值和方差。
設(shè)經(jīng)前端處理后得到的MFCC特征向量為:X(x1,..., xt,...,xT),則GMM的參數(shù)更新過程如下:
(6)
其中, 為每個(gè)xt在高斯分量c上的隱含類別的概率。
GMM是每個(gè)說話人在UBM上采用最大后驗(yàn)(Maximum a posteriori,MAP)自適應(yīng)得到的。由于在自適應(yīng)目標(biāo)說話人的GMM時(shí),權(quán)重和方差對于識別性能并未獲得顯著提高,所以一般只更新均值,更新公式如下:
(7)
在GMM-UBM說話人識別的測試階段,將說話人產(chǎn)生特征矢量序列的似然值作為最終的得分,若得分大于閾值則接受說話人,反之則拒絕。
3.2 聯(lián)合因子分析模型
目前GMM-UBM已經(jīng)成為說話人識別技術(shù)的標(biāo)準(zhǔn)模型,如果把這個(gè)模型擴(kuò)展成為具有不同說話人之間差異的說話人模型和相同說話人之間信道差異的信道模型這兩個(gè)聯(lián)合模型,即為聯(lián)合因子分析(Joint factor analysis,JFA)模型。JFA假設(shè)每個(gè)說話人可以用一個(gè)與說話人和信道相關(guān)的GMM均值超矢量M來表示,并且可以分解為說話人超矢量s和信道超矢量c和的形式:
(8)
其中,s與c各自獨(dú)立且服從高斯分布,s描述了說話人之間的差異,c描述了信道之間的差異。說話人超矢量s與信道超矢量c分別可以由隱含變量表示而成:
(9)
其中,m為UBM均值超矢量;V為說話人本征音矩陣(CF×Rv),Rv(100≤R≤400)為本征音空間因子;y為Rv×1維說話人因子;D為CF×CF對角殘差矩陣;z為CF×1維高斯分布隨機(jī)向量。U為本征信道矩陣(CF×Ru),Ru(10≤R≤200)為本征信道因子數(shù);x為Ru×1維信道因子。
分別估計(jì)本征音空間矩陣V、本征信道矩陣U和殘差空間矩陣D,通過計(jì)算相關(guān)因子的后驗(yàn)均值與后驗(yàn)相關(guān)矩陣,求出相關(guān)因子y,x和z,根據(jù)式(8)與(9)得到說話人的GMM均值超矢量作為說話人模型。最后通過對數(shù)似然比的方法對說話人進(jìn)行判決。
在估計(jì)本征信道矩陣U時(shí),需要將各種信道條件下的數(shù)據(jù)混合起來進(jìn)行訓(xùn)練,對于語音數(shù)據(jù)的需求很苛刻,同時(shí)計(jì)算量也非常龐大。
3.3 i-vector模型
以JFA為基礎(chǔ),Dehak和Kenny提出了一種更為簡化的基于因子分析(Factor analysis,F(xiàn)A)的說話人識別方法,稱為i-vector模型。其中,i是身份(Identity)的縮寫,故i-vector相當(dāng)于說話人的身份標(biāo)識。i-vector和JFA一樣,也是一種基于統(tǒng)計(jì)特性的語音特征,衍生于GMM均值超矢量[15],但卻彌補(bǔ)了JFA對于語音數(shù)據(jù)依賴性大的缺點(diǎn)。
i-vector模型不像JFA一樣將均值超矢量空間劃分兩部分,而是用一個(gè)總變化空間(Total variability space)進(jìn)行了代替。在這個(gè)總變化空間中,包含了說話人的語音信息以及信道信息。假設(shè)每個(gè)說話人可以用一個(gè)與說話人和信道相關(guān)的GMM均值超矢量M來表示,其中M是由所有的C個(gè)GMM均值矢量按照先后順序串聯(lián)在一起得到的。對于一段給定的語音,GMM均值超矢量M定義如下:
(10)
其中,m為UBM均值超矢量,T為總變化空間矩陣(CF×R),F(xiàn)為MFCC特征向量的維數(shù),w為i-vector。w是一個(gè)R維的特征向量(400≤R≤600),并且服從標(biāo)準(zhǔn)高斯分布 ;GMM均值超矢量M服從高斯分布 。
設(shè)說話人的一組特征序列為X(x1,...,xt,...,xT),對每一個(gè)時(shí)刻t,特征矢量xt相對每個(gè)高斯分量c的狀態(tài)占有率為:
(11)
式中, 為語音xt在UBM的第c個(gè)高斯分量上的后驗(yàn)概率。
利用 可以求出每個(gè)說話人的權(quán)值和均值矢量對應(yīng)的Baum–Welch統(tǒng)計(jì)量:
(12)
定義為 一階中心統(tǒng)計(jì)量:
(13)
對每個(gè)說話人,令 ,w的后驗(yàn)分布服從高斯分布 [16],其中 為從 拼接而來的CF×1維的超矢量,N(X)為以Nc為對角塊的CF×CF維對角矩陣。w的后驗(yàn)均值用期望的形式可以表示為:
(14)
由于總變化空間中,同時(shí)含說話人信息與信道信息,所以需要對上述過程中提取的初始i-vector做信道補(bǔ)償。信道補(bǔ)償技術(shù)有線性判別分析(Linear discriminant analysis,LDA)和類內(nèi)協(xié)方差規(guī)整(Within-Class covariance cormalization,WCCN)[12]等。
在i-vector說話人識別的測試階段,把測試說話人與目標(biāo)說話人的i-vector的余弦距離作為得分,若得分大于閾值則接受說話人,反之則拒絕。
4 結(jié)束語
經(jīng)過數(shù)十年的發(fā)展,說話人識別技術(shù)已經(jīng)取得了巨大的成就,然而信道畸變對于說話人技術(shù)性能的提升仍然有著很大的影響,所以在說話人識別技術(shù)中,加強(qiáng)對信道畸變產(chǎn)生的噪聲的處理,則有著重要的意義與價(jià)值。本文綜合上述問題,從說話人識別技術(shù)的基本框架出發(fā),介紹了特征提取與說話人模型的基本方法與理論,并對說話人識別方法的研究現(xiàn)狀進(jìn)行總結(jié)與分析,介紹了目前主流的說話人識別技術(shù),為從事說話人識別的研究者提供有益借鑒與參考。
參考文獻(xiàn):
[1] BOVES L W J. Commercial applications of speaker verification: overview and critical success factors[J]. International Journal of Speech Technology, 1998,3(2): 150-159.
[2] REYNOLDS D A. An overview of automatic speaker recognition technology[J]. ICASSP, 2002, 4(4):4072-4075.
[3] KERSTA L G. Voiceprint identification[J]. The Journal of the Acoustical Society of America, 1962, 34(5): 725-725.
[4] MAKHOUL J. Linear prediction: a tutorial review[J]. Proceeding of the IEEE, 1975, 63(4):561-580.
[5] SAKOE H, CHIBA S. Dynamic programming algorithm optimization for spoken word recognition[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1978, 26(2):43-49.
[6] WAIBEL A. Modular construction of time-delay neural networks for speech recognition[J]. Neural Computation, 1989, 1(1):39-46.
[7] SOONG F, ROSENBERG A, RABINER L. A vector quantization approach to speaker recognition[C]// International Conference on Acoustics, Speech, and Signal Processing, Tampa: IEEE, 1985:387-390.
[8] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition[J]. Proceedings of the IEEE, 1989, 77(2):257-286.
[9] ROSE R, REYNOLDS R A. Text independent speaker identification using automatic acoustic segmentation[C]// International Conference on Acoustics, Speech, and Signal Processing 1990, Albuquerque: IEEE, 1990: 293-296.
[10] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital signal processing, 2000, 10(1-3):19-41.
[11] KENNY P, BOULIANNE G, OUELLET P. Joint factor analysis versus eigenchannels in speaker recognition[J]. IEEE Transactions on Audio Speech & Language Processing, 2007, 15(4):1435-1447.
[12] DEHAK N, KENNY P J, DEHAK R. Front-end factor analysis for speaker verification[J]. Audio Speech & Language Processing IEEE Transactions on, 2011, 19(4):788-798.
[13] MAKHOUL J. Linear Prediction: A Tutorial Review[J]. Proceeding of the IEEE, 1975, 63(4):561-580.
[14] KUMAR N, ANDREOU A G. Heteroscedastic Discriminant Analysis and Reduced Rank HMMs for Improved Speech Recognition[J]. Speech Communication, 1980, 26(4):357-366.
[15] CAMPBELL W M, STURIM D E, REYNOLDS D A. SVM based speaker verification using a GMM supervector kernel and NAP variability compensation[C]// International Conference on Acoustics, Speech, and Signal Processing 2006, Albuquerque: IEEE, 2006:97-100.
[16] KENNY P, BOULIANNE G, DUMOUCHEL P. Eigenvoice modeling with sparse training data[J]. Speech & Audio Processing IEEE Transactions on, 2005, 13(3):345-354.