崔立梅,李燕萍,呂中良
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
基于ISODATA聚類算法的語音轉(zhuǎn)換研究
崔立梅,李燕萍,呂中良
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
提出了一種基于迭代自組織聚類算法(ISODATA)的雙線性頻率彎折語音轉(zhuǎn)換模型。根據(jù)語音特征參數(shù)分類不充分產(chǎn)生殘差成分的問題,在基于高斯混合模型的聚類過程中引入了迭代自組織聚類算法。該算法將聚類得到的類內(nèi)均值作為訓(xùn)練模型初始均值,改善了EM算法初始值選取不當(dāng)導(dǎo)致算法不能收斂的問題,從而對特征參數(shù)的擬合更加準(zhǔn)確,結(jié)合后續(xù)的雙線性頻率彎折(BLFW)模型實現(xiàn)語音轉(zhuǎn)換。實驗測試結(jié)果表明:提出的算法具有較好的自適應(yīng)聚類特性,能夠使特征參數(shù)分類更合理,進(jìn)而得到更準(zhǔn)確的轉(zhuǎn)換函數(shù),使得轉(zhuǎn)換的語音更接近目標(biāo)語音。選擇合適的初始值參數(shù),對提出的算法與高斯混合模型及雙線性頻率彎折模型進(jìn)行比較,平均MCD值相差很小,平均MOS值有所提高。這說明合理精確的聚類有利于提高語音轉(zhuǎn)換系統(tǒng)的性能。
迭代自組織聚類算法;雙線性頻率彎折語音轉(zhuǎn)換模型;殘差成分;聚類特性
語音包含很多信息,其中最主要的就是語義信息,其次是個性化信息。語音轉(zhuǎn)換(Voice Conversion)就是要改變一個說話人(源說話人,source speaker)的語音個性特征信息,使之具有另外一個人(目標(biāo)說話人,target speaker)的個性特征信息[1]。語音轉(zhuǎn)換是一種改變源說話人的聲音,使其聽起來具有目標(biāo)說話人特性的技術(shù)。它在改變說話人個性特征的同時,保持語音的語義信息不變。
語音轉(zhuǎn)換的本質(zhì)是對語音特征參數(shù)的轉(zhuǎn)換,因此首先是選取分析和合成語音的系統(tǒng)模型,提取好的語音特征參數(shù)。然后訓(xùn)練并得到合適的轉(zhuǎn)換函數(shù),最后進(jìn)行轉(zhuǎn)換以及語音合成處理。
現(xiàn)在常用的語音特征參數(shù)包括LPC系數(shù)和MFCC參數(shù),以及由LPC系數(shù)推演得到的包括LSP參數(shù)在內(nèi)的一系列推演參數(shù)等。文中采用MFCC參數(shù)。語音轉(zhuǎn)換研究的核心問題是尋找能夠精確反映源說話人特征參數(shù)和目標(biāo)說話人特征參數(shù)之間的映射關(guān)系,即轉(zhuǎn)換函數(shù)。目前較流行的語音轉(zhuǎn)換函數(shù)是基于高斯混合模型(Gaussian Mixture Model,GMM)。基于GMM模型的轉(zhuǎn)換方法具有較好的轉(zhuǎn)換效果,但存在轉(zhuǎn)換頻譜過平滑的問題,導(dǎo)致轉(zhuǎn)換后的語音自然度下降,嚴(yán)重影響了該方法的實用性。為了提高語音質(zhì)量,A.Pribilova等提出了一種基于頻率彎折的轉(zhuǎn)換算法(DFW)[2],但轉(zhuǎn)換效果不佳。D.Erro綜合了基于GMM模型的轉(zhuǎn)換算法和頻率彎折算法的優(yōu)勢,提出了一種在GMM模型的基礎(chǔ)上進(jìn)行加權(quán)的頻率彎折算法(Weighted Frequency Warping,WFW),較好地平衡了語音質(zhì)量和轉(zhuǎn)換性能之間的矛盾[3]。但是由于在轉(zhuǎn)換過程中未對幅度進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換的相似性一般。于是D.Erro提出了高斯混合模型+頻率彎折+幅度壓擴模型(GMM+FW+AS)。
為了進(jìn)一步提高語音轉(zhuǎn)換的質(zhì)量,D.Erro提出了殘差(residual)成分的概念,此處的殘差是指沒有被特征參數(shù)捕獲的語音信號譜成分[4]。其中一些語音信號譜成分未被捕獲是由于分類不合理造成的,于是文中提出了迭代自組織聚類算法+高斯混合模型+雙線性頻率彎折加幅度壓擴語音轉(zhuǎn)換模型(ISODATA+GMM+BLFWA),采用ISODATA聚類方法[5]替代GMM混合模型傳統(tǒng)的K均值法進(jìn)行自適應(yīng)無監(jiān)督分類,獲得更為合理的聚類,能更好地捕獲特征參數(shù)的信息;在頻率彎折部分采用BLFW(雙線性頻率卷繞)+AS,比FW+AS更容易實現(xiàn)[6]。
文中研究在于,一方面利用ISODATA聚類方法實現(xiàn)語音特征參數(shù)的分類,結(jié)合后續(xù)的EM計算和BLFWA訓(xùn)練及轉(zhuǎn)換得到ISODATA+GMM+BLFWA語音轉(zhuǎn)換模型,在此基礎(chǔ)上,調(diào)整ISODATA的初始參數(shù)得到最優(yōu)分類數(shù);另一方面在最優(yōu)分類數(shù)的基礎(chǔ)上,比較ISODATA+GMM+BLFWA模型與GMM模型、FW模型、GMM+BLFW模型、GMM+BLFWA模型的轉(zhuǎn)換效果。
在平行語料下,對目標(biāo)語音和源語音分別提取特征參數(shù)MFCC,然后利用動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)[7]算法進(jìn)行時間對齊。將對齊的MFCC特征參數(shù)進(jìn)行GMM模型訓(xùn)練。
(1)
N(X;μi;Σi)=
(2)
其中,μi為均值矢量;Σi為協(xié)方差矩陣。
完整的混合高斯模型由協(xié)方差、參數(shù)均值向量和混合權(quán)重組合而成,表示為λ={wi,μi,Σi}[8]。對GMM模型參數(shù)λ的估計常常采用EM(Expectation Maximumzation)算法[9-10]。在采用EM算法估計GMM模型參數(shù)時,必須要先確定GMM模型的高斯分量個數(shù)M和模型的初始參數(shù)λ。傳統(tǒng)的GMM模型的高斯分量個數(shù)M一般為8,16,32,64等;初始參數(shù)λ采用K均值算法將特征參數(shù)歸為與高斯分量個數(shù)相等的各個類中,然后分別計算各個類的均值、方差,作為初始均值和方差;權(quán)值是各個類中所包含的特征矢量個數(shù)占總特征矢量個數(shù)的比率。確定初始參數(shù)λ后,采用EM算法估算出一個新的模型參數(shù),使得新的模型參數(shù)下的似然度大于初始參數(shù)下的似然度。經(jīng)過多次迭代得到最終λ。
經(jīng)過GMM模型訓(xùn)練后進(jìn)行雙線性頻率彎折訓(xùn)練,其中雙線性函數(shù)的特征為只需要一個參數(shù)α確定。
(3)
若給定一個因果且時間離散序列x[n]及其Z變換X[z],可根據(jù)Y[z]=X[zα]計算得到一個新序列y[n],即y[n]為X[zα]的逆Z變換[11-13]。
(4)
實際上,上述理論也適用于倒譜序列,其中Z〗變換對應(yīng)于log幅度譜。給定一個p維倒譜矢量X,倒譜矢量y對應(yīng)于頻率彎折函數(shù)[11-13]:
(5)
GMM+BLFWA模型中用到的雙線性頻率彎折函數(shù)為:
y=Wα(X,θ)X+s(X,θ)
(6)
其中,W由式(5)確定;α(X,θ)和s(X,θ)分別為頻率彎折因子和幅度壓擴因子,由式(7)確定:
(7)
(8)
由式(7)可知,頻率彎折因子和幅度壓擴因子是根據(jù)GMM模型訓(xùn)練得到的,此時GMM模型訓(xùn)練及BLFWA模型訓(xùn)練結(jié)束。頻率彎折因子和幅度壓擴因子確定后,即可得到轉(zhuǎn)換函數(shù),通過轉(zhuǎn)換函數(shù)對新語音進(jìn)行轉(zhuǎn)換。
2.1 ISODATA+GMM+BLFWA算法
從上節(jié)可以看出,傳統(tǒng)的GMM+BLFWA轉(zhuǎn)換算法中每個說話人賦予的模型結(jié)構(gòu)完全相同,人為確定聚類數(shù)然后采用K均值法對特征參數(shù)進(jìn)行分類。但是每個說話人語音信號短時頻譜的概率分布并不完全相同,這樣就會導(dǎo)致語音特征參數(shù)分布聚類擬合不精確,帶來較大誤差并影響頻率彎折中參數(shù)的估計。因此,文中提出了ISODATA+GMM+BLFWA模型,根據(jù)每個說話人具體語音特征分布選擇高斯混合數(shù),建立與之相應(yīng)的模型結(jié)構(gòu),使每個模型結(jié)構(gòu)更好地擬合每個說話人的具體特征分布,從而提高語音轉(zhuǎn)換準(zhǔn)確率。該模型利用ISODATA對特征參數(shù)矢量序列進(jìn)行無監(jiān)督分類,在樣本均值迭代中根據(jù)預(yù)先設(shè)定的閾值進(jìn)行反復(fù)修改,以達(dá)到合理分類數(shù)。
2.2 整個轉(zhuǎn)換系統(tǒng)框圖
系統(tǒng)轉(zhuǎn)換框圖見圖1。
從圖中可以看出,語音轉(zhuǎn)換可以分為兩個階段,即訓(xùn)練階段和轉(zhuǎn)換階段。在訓(xùn)練階段,語音信號首先利用AhoTransf[14]語音信號建立模型。該模型可作為語音信號分析/合成模型。提取出參數(shù)MFCC和logf0,其中MFCC用于訓(xùn)練頻率彎折轉(zhuǎn)換函數(shù)。得到MFCC參數(shù)后進(jìn)行時間對齊DTW,形成兩個一一對應(yīng)的時間序列,再利用ISODATA算法進(jìn)行聚類,得到合理分類的梅爾特征參數(shù)。進(jìn)而將梅爾特征參數(shù)進(jìn)行GMM訓(xùn)練,獲得概率函數(shù)P及均值、方差等一系列參數(shù)。利用GMM訓(xùn)練得到的概率函數(shù)P及對齊的MFCC特征源序列和目標(biāo)序列進(jìn)行BLFWA訓(xùn)練,得到頻率彎折因子和幅度壓擴因子,根據(jù)式(6)得到頻率彎折曲線函數(shù),即轉(zhuǎn)換函數(shù)。
圖1 系統(tǒng)轉(zhuǎn)換框圖
在轉(zhuǎn)換階段,源語音信號經(jīng)過AhoTransf得到MFCC和log基音頻率,其中對MFCC進(jìn)行GMM訓(xùn)練,利用訓(xùn)練階段獲得的GMM模型均值、方差等參數(shù)訓(xùn)練得到概率P。獲得概率P后加上訓(xùn)練階段得到的頻率彎折因子和幅度壓擴因子(即轉(zhuǎn)換函數(shù))對輸入的待轉(zhuǎn)換源語音進(jìn)行BLFWA轉(zhuǎn)換,轉(zhuǎn)換后的頻譜加上log基音頻率通過AhoTransf模型合成出轉(zhuǎn)換后的語音信號。
3.1 語音庫
實驗采用的語音庫CMU ARCTIC是由卡內(nèi)基梅隆大學(xué)的語言技術(shù)研究所創(chuàng)建的美式英語單說話人平行語音庫,包括5男2女。該實驗采用的特征參數(shù)為MFCC矢量,信號的采樣率為16 kHz。抽取其中4個人的語音,即2個男聲和2個女聲,分別命名為M1、M2和F1、F2。每個人都取60個語句,每個語句大概為3~4 s時長的短語,其中50個用于訓(xùn)練,10用于測試。而且每個人的發(fā)音內(nèi)容相同,為對稱的語音庫。
經(jīng)過大量實驗發(fā)現(xiàn),在ISODATA聚類過程中,θc=0.2(合并依據(jù)的聚類中心距離閾值),θs=0.01(類內(nèi)標(biāo)準(zhǔn)差閾值),C>35(預(yù)期的類數(shù))時,獲得最大分類數(shù)31,且實驗所獲得轉(zhuǎn)換語音最佳。于是不同模型分類數(shù)均設(shè)置為31并進(jìn)行比較。
3.2 客觀評價
整個實驗根據(jù)轉(zhuǎn)換方向的不同分為4部分,分別是女聲轉(zhuǎn)換為男聲(F1-M1)、女聲轉(zhuǎn)換為女聲(F1-F2)、女聲轉(zhuǎn)換為男聲(F2-M2)和男聲轉(zhuǎn)換為男聲(M2-M1)。采用梅爾倒譜失真(Mel-Cepstral Distortion,MCD)[15]作為反映語音轉(zhuǎn)換性能的客觀準(zhǔn)則。
MCD(Vtarg,Vref)=
(9)
其中,MFCC參數(shù)為20-D梅爾倒譜參數(shù),使用νd(t)表示,0≤d≤19,在計算MCD時,去掉第一維參數(shù);T為MFCC經(jīng)過DTW對齊后的總幀數(shù)。
不同轉(zhuǎn)換模型下的MCD值見圖2。
圖2 不同轉(zhuǎn)換模型下的MCD值
從圖2可以看出,BLFW、GMM+BLFW、GMM+BLFWA和ISODATA+GMM+BLFWA的MCD值是依次遞減的,這說明ISODATA+GMM+BLFWA的轉(zhuǎn)換效果比上述幾種模型要好。經(jīng)過計算,ISODATA+GMM+BLFWA的平均MCD值為5.496,GMM模型的平均MCD值為5.0431,說明ISODATA+GMM+BLFWA模型和GMM模型的轉(zhuǎn)換相似性基本相當(dāng)。
3.3 主觀評價
實驗的主觀評價采用平均主觀意見分(MOS)。讓聽音人聽完轉(zhuǎn)換語音后,給出意見分(5:優(yōu)秀,4:良好,3:一般,2:較差,1:很差)[16]。測試結(jié)束后,統(tǒng)計出平均意見得分。MOS越高,說明轉(zhuǎn)換語音的清晰度和可懂度越好。結(jié)果如圖3所示。
圖3 不同轉(zhuǎn)換模型下的MOS值
從圖3可以看出,采用文中方法訓(xùn)練的主觀意見得分明顯高于BLFW、GMM+BLFW和GMM+BLFWA的MOS分,表明改進(jìn)的ISODATA+GMM+BLFWA模型轉(zhuǎn)換的語音目標(biāo)傾向性和質(zhì)量有明顯改善,降低了殘差分量造成的影響;經(jīng)過計算,ISODATA+GMM+BLFWA的平均MOS值為3.568,GMM模型的平均MOS值為3.342,說明ISODATA+GMM+BLFWA模型轉(zhuǎn)換音質(zhì)比GMM模型好。
ISODATA+GMM+BLFWA模型通過ISODATA聚類算法對語音特征參數(shù)進(jìn)行處理和分析,得到更為精確的分類。從MOS及MCD測試結(jié)果表明,改進(jìn)的ISODATA+GMM+BLFWA模型有效地降低了殘差分量造成的影響,在保證變換語音目標(biāo)傾向性的同時,提高了轉(zhuǎn)換語音的音質(zhì)。
[1] 趙 力.語音信號處理[M].北京:機械工業(yè)出版社,2003.
[2] 李 波,王成友,蔡宣平,等.語音轉(zhuǎn)換及相關(guān)技術(shù)綜述[J].通信學(xué)報,2004,25(5):109-118.
[3] Erro D, Moreno A, Bonafonte A.Voice conversion based on weighted frequency warping[J].IEEE Transactions on Audio,Speech and Language Processing,2010,18(5):922-931.
[4] Erro D,Polyakova T,Moreno A.On combining statistical me-thods and frequency warping for high-quality voice conversion[C]//International conference on acoustics,speech and signal processing.[s.l.]:IEEE,2008:4665-4668.
[5] 孫即詳.現(xiàn)代模式識別[M].長沙:國防科技大學(xué)出版社,2002.
[6] Erro D,Navas E,Hernaez I.Parametric voice conversion ba-sed on bilinear frequency warping plus amplitude scaling[J].IEEE Transactions on Audio,Speech,and Language Processing,2013,21(3):556-566.
[7] 徐小峰.基于GMM的獨立建模語音轉(zhuǎn)換系統(tǒng)研究[D].蘇州:蘇州大學(xué),2010.
[8] 王韻琪,俞一彪.自適應(yīng)高斯混合模型及說話人識別應(yīng)用[J].通信技術(shù),2014,47(7):738-743.
[9] Demrsrsa A P, Lamb N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society:Series B,1977,39(1):1-38.
[10] Xu L,Jordan M I.On convergence properties of the EM algorithm for Gaussian mixtures[J].Neural Computation,1996,8(1):129-151.
[11] McDonough J, Byrne W. Speaker adaptation with all-pass transforms[C]//International conference on acoustics,speech,and signal processing.[s.l.]:IEEE,1999:757-760.
[12] Pitz M,Ney H.Vocal tract normalization equals linear transformation in cepstral space[J].IEEE Transactions on Speech and Audio Processing,2005,13(5):930-944.
[13] Emori T,Shinoda K.Rapid vocal tract length normalization using maximum likelihood estimation[C]//Proceedings of Eurospeech.[s.l.]:[s.n.],2001:1649-1652.
[14] Saratxaga I,Hernáez I,Navas E,et al.AhoTransf:a tool for multiband excitation based speech analysis and modification[C]//Proceedings of LREC.[s.l.]:[s.n.],2010:3733-3737.[15] Shuang Z,Meng F,Qin Y.Voice conversion by combining frequency warping with unit selection[C]//International conference on acoustics,speech and signal processing.[s.l.]:IEEE,2008:4661-4664.
[16] 張雄偉,陳 亮,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機械工業(yè)出版社,2003.
Research on Voice Conversion Based on Self Organizing Clustering and Frequency Warping
CUI Li-mei,LI Yan-ping,LYU Zhong-liang
(College of Communication & Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)
A voice conversion model of bilinear frequency warping based on Iterative Self-Organizing clustering Data Analysis Techniques Algorithm (ISODATA) is put forward.According to the residual components generated by insufficient classification of speech feature parameters,in the clustering process based on Gaussian mixture model,the iterative self-organizing clustering algorithm is introduced.It takes average value within class obtained by clustering as the initial mean for training model,which improves the problem that the algorithm cannot converge due to inappropriated initial value selection of EM algorithm,thus making the characteristic parameters fitting more accurate,realization of voice conversion with subsequent bilinear frequency warping (BLFW) model.The experimental results show that the proposed algorithm has better adaptive clustering characteristics,which can make the characteristic parameters classification more reasonable,and get more accurate conversion function,making the speech more close to the target speech.Choosing appropriate initial value parameters,the algorithm proposed is compared with the Gauss mixture model and the bilinear frequency warping model.The average MCD value is very small,and the average MOS value is high.This shows that reasonable and accurate clustering is beneficial to improve the performance of speech conversion system.
iterative self-organizing clustering algorithm;bilinear frequency warping voice conversion model;residual components;clustering characteristics
2016-06-08
2016-10-11 網(wǎng)絡(luò)出版時間:2017-04-28
國家自然科學(xué)基金資助項目(61401227);江蘇省博士后基金(1402067B)
崔立梅(1988-),女,碩士研究生,研究方向為語音轉(zhuǎn)換;李燕萍,博士,副教授,研究生導(dǎo)師,通訊作者,研究方向為語音轉(zhuǎn)換和說話人識別。
http://kns.cnki.net/kcms/detail/61.1450.TP.20170428.1702.024.html
TP301.6
A
1673-629X(2017)06-0106-04
10.3969/j.issn.1673-629X.2017.06.022