劉張宇,鮑長春,邱建偉,徐昊
(北京工業(yè)大學(xué) 電子信息與控制工程學(xué)院 語音與音頻信號處理實(shí)驗(yàn)室,北京 100124)
AMR-NB[1](adaptive multiple rate-narrow band)是3GPP(3rd generation partnership project)制訂的語音壓縮標(biāo)準(zhǔn),現(xiàn)廣泛應(yīng)用于 WCDMA(wideband code division multiple access)和TDS-CDMA(time division-synchronous code division multiple access)等第 3代移動通信系統(tǒng)中。G.729[2]是 ITU(international telecommunication union)于1995年制定的語音編碼標(biāo)準(zhǔn),G.729A[3]是G.729的低復(fù)雜度版本,現(xiàn)主要應(yīng)用于語音壓縮與VoIP(voice over internet protocol)等通信系統(tǒng)。這 2種基于CELP[4](code-excited liner prediction)的語音編碼技術(shù)在當(dāng)今移動通信系統(tǒng)和網(wǎng)絡(luò)通信系統(tǒng)中的作用越來越重要。為了實(shí)現(xiàn)不同供應(yīng)商之間通信設(shè)備的兼容與互通,需要在這2種不同語音編碼標(biāo)準(zhǔn)之間進(jìn)行轉(zhuǎn)碼工作。
在基于CELP的AMR-NB和G.729A語音轉(zhuǎn)碼中,LSP參數(shù)轉(zhuǎn)碼是轉(zhuǎn)碼算法流程的第一步,也是整個語音轉(zhuǎn)碼算法的核心部分之一,基音參數(shù),代數(shù)碼數(shù)以及增益的轉(zhuǎn)碼均建立在 LSP參數(shù)轉(zhuǎn)碼的基礎(chǔ)之上,因此,LSP參數(shù)轉(zhuǎn)碼效果將直接影響最終合成的語音質(zhì)量。目前在LSP參數(shù)轉(zhuǎn)碼中應(yīng)用最為廣泛的方法是直接轉(zhuǎn)碼(DTE,decode then encode)模式,這種傳統(tǒng)的碼流轉(zhuǎn)換方案具有2個缺點(diǎn):1)運(yùn)算量大;2)由于二次壓縮造成語音失真度加大,降低了合成語音質(zhì)量[5]。為了解決DTE方法帶來的弊端,國外學(xué)者提出了利用直接參數(shù)轉(zhuǎn)換的方法[6,7]來實(shí)現(xiàn)這2種編碼標(biāo)準(zhǔn)之間的LSP參數(shù)轉(zhuǎn)碼,然而,LSP參數(shù)轉(zhuǎn)碼雖然能夠有效降低計(jì)算復(fù)雜度,但仍然存在二次量化失真,因此,需要找到一種更加有效的 LSP參數(shù)轉(zhuǎn)碼算法以提高轉(zhuǎn)碼語音質(zhì)量。
本文對高斯混合模型(GMM,Goussian mixture model)進(jìn)行了分析研究,并將其應(yīng)用到了AMR-NB與G.729A之間的LSP參數(shù)轉(zhuǎn)碼算法中。該方法利用大量訓(xùn)練語音數(shù)據(jù),通過EM迭代算法進(jìn)行高斯混合模型參數(shù)的估計(jì),最后得到LSP參數(shù)轉(zhuǎn)碼函數(shù)。通過大量實(shí)驗(yàn),本文分析了訓(xùn)練數(shù)據(jù)量、GMM數(shù)量、不同初始化方法的選取、收斂門限的限定和協(xié)方差矩陣限定與轉(zhuǎn)碼算法性能的關(guān)系,并得出了相應(yīng)的結(jié)論。本算法在保證語音質(zhì)量的情況下,極大地降低了計(jì)算復(fù)雜度和存儲空間。
GMM 是一種多維概率密度函數(shù),常用來表示未知概率分布數(shù)據(jù)的分布函數(shù),它在本質(zhì)上是單狀態(tài)的HMM模型,其核心思想是用多個高斯分布的概率密度函數(shù)的組合來描述特征矢量在概率空間的分布狀況[8]。根據(jù)統(tǒng)計(jì)理論,若干個高斯概率密度的線性組合可以逼近任意分布,因此GMM能夠很好地描述各種形式的語音特征統(tǒng)計(jì)分布及其特性。下面介紹GMM的基本原理。
GMM是由M個服從高斯分布的概率密度函數(shù)的加權(quán)組合而成的,其中每個高斯概率密度函數(shù)可以看作一個類,如圖1所示。
圖1 GMM組成示意圖
其表達(dá)式為
式(1)中x是D維的特征向量,iα是各高斯函數(shù)的混合權(quán)重,必須滿足的限制,μ是高斯分布的均值向量,Σ是高斯分布的協(xié)方差矩陣,M是混合高斯模型中高斯函數(shù)的數(shù)量。 N(x; μi; Σi)為M個D維的高斯概率密度函數(shù),計(jì)算公式如下所示:
一個GMM可以由均值矢量、協(xié)方差矩陣和混合權(quán)值等參數(shù)進(jìn)行描述,通常用λ來表示這些參數(shù)的集合,如式(3)所示:
應(yīng)用式(3),可將式(1)改寫為
其中
在語音的LSP參數(shù)轉(zhuǎn)碼中應(yīng)用GMM需要解決一個問題,即通過輸入碼流x來求得模型參數(shù)λ,使得p(x|)λ達(dá)到最大值,從而求得LSP轉(zhuǎn)碼函數(shù)。這種優(yōu)化準(zhǔn)則即為最大似然估計(jì)準(zhǔn)則(MLE),而如何調(diào)整模型參數(shù)λ,使p(x|)λ達(dá)到最大值,也就是GMM的訓(xùn)練問題。
本文采用EM迭代算法進(jìn)行GMM參數(shù)訓(xùn)練。該算法主要分為下面2個步驟。
1) E步,即預(yù)估參數(shù)。根據(jù)所有訓(xùn)練數(shù)據(jù)來估計(jì)高斯混合模型的混合權(quán)值、均值向量和協(xié)方差矩陣等參數(shù)。
2) M步,即最大化。從上一步得到的估計(jì)結(jié)果中,根據(jù)最大似然準(zhǔn)則重新估算模型參數(shù)值,直到參數(shù)值達(dá)到最佳為止。
其中EM迭代算法中使用的公式如下所示[9]:
下面給出GMM的訓(xùn)練流程,如圖2所示。
圖2 GMM訓(xùn)練流程圖
在進(jìn)行 EM 算法之前,首先需要對參數(shù)集λ={αi,μi,Σi}進(jìn)行初始化,本文采用的是K均值方法進(jìn)行參數(shù)值初始化,即對訓(xùn)練數(shù)據(jù)中的所有特征矢量求均值和方差,作為初始均值和方差,初始權(quán)重設(shè)為相等權(quán)重,即α=1/M。利用EM迭代算法求出新的,并與前一次得到的進(jìn)行比較,如果比較得到的差值小于一個設(shè)定的門限δ,則迭代結(jié)束,即可求得相對應(yīng)的 GMM 參數(shù)集λ={αi, μi,Σi}。
如何建立和求取基于GMM的LSP參數(shù)轉(zhuǎn)碼函數(shù)是LSP轉(zhuǎn)碼中的核心問題。圖3給出了轉(zhuǎn)碼函數(shù)F(x)的建??蚣?。
圖3 基于GMM的LSP轉(zhuǎn)碼函數(shù)訓(xùn)練過程
首先將語音訓(xùn)練數(shù)據(jù)分別通過 AMR-NB與G.729A的編碼端,得到2組LSP參數(shù)向量,定義為X和Y,以最小均方誤差準(zhǔn)則,對X和Y根據(jù)最大似然準(zhǔn)則進(jìn)行聯(lián)合高斯混合模型訓(xùn)練,即得到轉(zhuǎn)碼函數(shù)F(x)。將F(x)引入到轉(zhuǎn)碼算法中,當(dāng)源端的LSP參數(shù)碼流通過F(x)后,即得到目標(biāo)端的LSP參數(shù),從而完成LSP轉(zhuǎn)碼。接下來利用聯(lián)合高斯分布的條件期望預(yù)測方法[10]對轉(zhuǎn)碼函數(shù)F(x)進(jìn)行數(shù)學(xué)建模,如圖4所示。
圖4 基于加權(quán)后驗(yàn)概率的轉(zhuǎn)碼函數(shù)建模
源端的一組LSP參數(shù)X經(jīng)過轉(zhuǎn)碼函數(shù)得到目標(biāo)端的一組LSP參數(shù)Y,由于LSP參數(shù)具有獨(dú)立性,因此X與Y是按序一一對應(yīng)的,根據(jù)后驗(yàn)概率的思想,轉(zhuǎn)碼函數(shù)是M個加權(quán)后驗(yàn)概率的組合,其數(shù)學(xué)表達(dá)式如下:
根據(jù)貝葉斯公式,得到
為了求解式(10)中的未知參數(shù),需要對2端LSP參數(shù)進(jìn)行聯(lián)合高斯混合模型訓(xùn)練[11]。首先把按時間對齊的AMR-NB端LSP參數(shù)和G.729A端LSP參數(shù)合在一起,如式(12)所示:
式(12)中,N是訓(xùn)練數(shù)據(jù)的數(shù)量,D是LSP參數(shù)的維數(shù)。然后利用 EM 迭代算法對矢量集Z2N×D進(jìn)行GMM訓(xùn)練,得到GMM參數(shù)集λ{(lán)αi,μi,Σi},其中協(xié)方差矩陣和均值分別表示為
將式(2)、式(11)、式(13)、式(14)代入式(1)即可求得F(x),即求得目標(biāo)端LSP參數(shù),完成LSP參數(shù)轉(zhuǎn)碼。
GMM參數(shù)在LSP參數(shù)轉(zhuǎn)碼中的應(yīng)用中最關(guān)鍵的部分是參數(shù)的迭代估計(jì),而在EM迭代算法中需要注意訓(xùn)練數(shù)據(jù)的選擇和模型參數(shù)的選擇等問題。下面通過一系列實(shí)驗(yàn)對這些問題進(jìn)行詳細(xì)的分析。本文實(shí)驗(yàn)均以AMR-NB 10.2kbit/s模式與G.729A轉(zhuǎn)碼為例。
3.2.1 訓(xùn)練數(shù)據(jù)量對轉(zhuǎn)碼結(jié)果的影響
1) 不同訓(xùn)練數(shù)據(jù)量對合成語音質(zhì)量的影響。
由于GMM是一種概率統(tǒng)計(jì)模型,因此訓(xùn)練數(shù)據(jù)量的大小對建模效果有較大的影響,從而間接影響轉(zhuǎn)碼效果。首先取 GMM 數(shù)為 32,分別采用從8s到約26min不同時長的NTT數(shù)據(jù)庫標(biāo)準(zhǔn)語音作為測試數(shù)據(jù)進(jìn)行GMM訓(xùn)練,并對6句中文語音(男女聲各 3句)進(jìn)行轉(zhuǎn)碼實(shí)驗(yàn),得到了平均的客觀MOS 分值[12,13]。
如圖5所示,當(dāng)高斯混合函數(shù)個數(shù)一定時,轉(zhuǎn)碼語音質(zhì)量隨著訓(xùn)練數(shù)據(jù)集的增大而提高,但在訓(xùn)練數(shù)據(jù)量超過2萬幀之后,繼續(xù)加大訓(xùn)練數(shù)據(jù)對語音質(zhì)量的提高不再有明顯作用。另外,在基于GMM的 LSP參數(shù)轉(zhuǎn)碼算法中,在測試語料相同的條件下,AMR-NB向G.729A轉(zhuǎn)碼的MOS分要略高于G.729A向AMR-NB,這種情況與DTE以及傳統(tǒng)參數(shù)轉(zhuǎn)碼算法相似。
2) 不同訓(xùn)練數(shù)據(jù)量對計(jì)算復(fù)雜度的影響。
LSP參數(shù)是通過轉(zhuǎn)碼函數(shù)F(x)進(jìn)行轉(zhuǎn)碼的,轉(zhuǎn)碼函數(shù)F(x)的構(gòu)建是通過對 GMM 參數(shù)進(jìn)行訓(xùn)練完成的,而GMM的EM參數(shù)估計(jì)并不依賴于源LSP碼流,是預(yù)先完成、獨(dú)立于轉(zhuǎn)碼算法之外的。因此,整個GMM訓(xùn)練過程對轉(zhuǎn)碼算法的計(jì)算復(fù)雜度沒有影響,訓(xùn)練數(shù)據(jù)集的增加也與轉(zhuǎn)碼計(jì)算復(fù)雜度無關(guān)。
圖5 訓(xùn)練數(shù)據(jù)量的大小對轉(zhuǎn)碼客觀MOS分的影響
3.2.2 GMM數(shù)選取對轉(zhuǎn)碼結(jié)果的影響
1) 不同GMM個數(shù)對平均譜失真(SD,spectual distortion)的影響。
譜失真的定義如下:
圖6 LSP參數(shù)轉(zhuǎn)碼隨GMM數(shù)增加的譜失真變化曲線
從圖6中可以看到隨著GMM個數(shù)的增加,LSP參數(shù)轉(zhuǎn)碼譜失真逐漸下降,最后趨向于一個極值。另外,基于DTE方法的AMR-NB10.2kbit/s模式向G.729A轉(zhuǎn)碼的譜失真是2.683dB,因此,當(dāng)GMM個數(shù)大于等于16時,本LSP參數(shù)轉(zhuǎn)碼方法產(chǎn)生的譜失真小于DTE轉(zhuǎn)碼方法。
2) 不同GMM個數(shù)對合成語音質(zhì)量的影響。
GMM是由具有M個混合成分的高斯密度函數(shù)來進(jìn)行線性疊加的,因此高斯模型的階數(shù),即高斯密度函數(shù)的個數(shù)的大小與基于GMM的LSP參數(shù)轉(zhuǎn)碼效果直接相關(guān)?;贕MM的LSP參數(shù)轉(zhuǎn)碼算法是利用 GMM 對線譜頻率參數(shù)進(jìn)行擬合,因此,在理論上M越大,聲道譜參數(shù)包絡(luò)就擬合得越精確,轉(zhuǎn)碼性能也就越好。本實(shí)驗(yàn)以AMR10.2kbit/s轉(zhuǎn)碼速率為例,首先利用 76 800幀的NTT數(shù)據(jù)庫標(biāo)準(zhǔn)語音作為訓(xùn)練數(shù)據(jù),分別采用5種從小到大的不同的混合數(shù)進(jìn)行GMM訓(xùn)練,并對6句中文語音(男女聲各3句)進(jìn)行轉(zhuǎn)碼實(shí)驗(yàn),得到了平均的客觀MOS分值,GMM個數(shù)對LSP參數(shù)轉(zhuǎn)碼后合成語音質(zhì)量的影響實(shí)驗(yàn)結(jié)果圖7所示。
圖7 GMM數(shù)大小對轉(zhuǎn)碼語音質(zhì)量的影響
從圖7可以看出,在訓(xùn)練數(shù)據(jù)量一定的條件下,一般地,轉(zhuǎn)碼語音質(zhì)量隨著GMM數(shù)的增加而提高,但在混合模型達(dá)到256時,轉(zhuǎn)碼性能低于 128個混合模型數(shù),也就是說,在 LSP參數(shù)轉(zhuǎn)碼的實(shí)際應(yīng)用中,GMM訓(xùn)練出現(xiàn)了過訓(xùn)練現(xiàn)象。因此單從GMM數(shù)對LSP參數(shù)轉(zhuǎn)碼質(zhì)量的影響來看,存在一個 GMM 的個數(shù)能夠?qū)?yīng)最優(yōu)的轉(zhuǎn)碼語音質(zhì)量。經(jīng)過實(shí)驗(yàn)比較,取 GMM 個數(shù)為128。
3.2.3 EM算法中迭代次數(shù)的分析與收斂門限的確定
前文中已經(jīng)討論了EM迭代算法的流程,應(yīng)用最大似然法來獲得所要最大化的目標(biāo)GMM參數(shù)集λ需要預(yù)先設(shè)定一個門限值δ,而這個門限值與EM 迭代算法的迭代速度和收斂精度密切相關(guān),因此,選擇一個合適的δ是比較重要的。由于GMM 個數(shù)同樣影響迭代速度,因此本實(shí)驗(yàn)對門限值和 GMM 數(shù)進(jìn)行聯(lián)合分析。在本實(shí)驗(yàn)中,GMM 數(shù)分別取 8,16,32,64,訓(xùn)練數(shù)據(jù)為 24句NTT標(biāo)準(zhǔn)語音庫語音,每句時長為8s。實(shí)驗(yàn)結(jié)果如圖8所示。
從圖8中可以看到,迭代次數(shù)是由收斂門限值和GMM數(shù)2個因素共同決定的。當(dāng)GMM數(shù)較少時,迭代次數(shù)主要取決于收斂門限的取值,這是因?yàn)樯倭康腉MM不足以準(zhǔn)確描述譜參數(shù)特征,需要更高的精度來保證GMM的準(zhǔn)確性。當(dāng)GMM數(shù)足夠多時,在本實(shí)驗(yàn)中即 GMM數(shù)達(dá)到64時,大量的GMM只需較少次數(shù)的迭代便可以滿足收斂門限的要求。在實(shí)際應(yīng)用中,出于對計(jì)算復(fù)雜度的考量,GMM數(shù)不能取值過大,因此,需要通過確定較高的收斂門限來保證精度,在本文中取門限值δ為10-6。
圖8 門限值和GMM數(shù)與迭代次數(shù)的關(guān)系
為了驗(yàn)證本文所提算法的有效性,在主觀A/B聽力測試與客觀MOS分測試中,LSP參數(shù)采用基于GMM的LSP參數(shù)轉(zhuǎn)碼技術(shù)進(jìn)行轉(zhuǎn)碼,而基音參數(shù)、代數(shù)碼數(shù)以及增益采用 DTE轉(zhuǎn)碼方式進(jìn)行轉(zhuǎn)碼。
本實(shí)驗(yàn)采用A/B聽力測試方法對轉(zhuǎn)碼語音進(jìn)行了主觀測試。測試語音由24句組成,每句長8s,分別由2男2女4個說話人發(fā)音。6名測聽人員分別對LSP經(jīng)DTE轉(zhuǎn)碼的語音和經(jīng)GMM轉(zhuǎn)碼的語音進(jìn)行主觀測聽,并得到以下主觀偏好結(jié)果,如表1所示。
表1 LSP轉(zhuǎn)碼語音的主觀A/B聽力對比
從表1中可以看到,在AMR-NB 10.2kbit/s與G.729A之間的轉(zhuǎn)碼中,基于GMM的LSP轉(zhuǎn)碼主觀聽力質(zhì)量不次于DTE的LSP轉(zhuǎn)碼方法。
本實(shí)驗(yàn)使用 ITU-T P.862.1所規(guī)定的MOS_LQO[14]為客觀語音質(zhì)量的衡量標(biāo)準(zhǔn)。實(shí)驗(yàn)選取NTT標(biāo)準(zhǔn)語音數(shù)據(jù)庫的96句中文語音作為測試數(shù)據(jù)源,一共4男4女8位說話人,每人講12句話,每句8s時長,對于AMR-NB來說是每句話400幀,對于G.729A來說是每句話800幀。以AMR-NB 10.2kbit/s模式向G.729A轉(zhuǎn)碼為例,與DTE轉(zhuǎn)碼模式進(jìn)行比較,實(shí)驗(yàn)測得的MOS分結(jié)果如表2所示。
表2 LSP轉(zhuǎn)碼語音的MOS分比較
從表2中的MOS分值中可以看到,在男聲測試語音中,LSP 2種轉(zhuǎn)碼算法的質(zhì)量非常接近;在女聲測試語音中,基于GMM的LSP轉(zhuǎn)碼語音質(zhì)量略低于DTE方法;在所有語句中,GMM方法的平均MOS分與DTE方法比較接近,表明轉(zhuǎn)碼語音質(zhì)量在可接受的范圍之內(nèi)。
在本實(shí)驗(yàn)中預(yù)設(shè)高斯混合模型值為128,基于GMM的LSP轉(zhuǎn)碼算法與基于DTE的LSP轉(zhuǎn)碼算法的計(jì)算復(fù)雜度與空間復(fù)雜度對比如表3所示。
表3 LSP轉(zhuǎn)碼方法的復(fù)雜度比較
從表3中可以看到,基于GMM的LSP轉(zhuǎn)碼方法與 DTE方法相比,極大地降低了計(jì)算復(fù)雜度和空間復(fù)雜度,取得了比較好的結(jié)果。
本文主要概述了高斯混合模型的定義和基本原理,詳細(xì)介紹了高斯混合模型的參數(shù)估計(jì)算法——EM 迭代算法,提出并實(shí)現(xiàn)了基于 GMM 的AMR-NB與G.729A之間的LSP參數(shù)轉(zhuǎn)碼算法,以10.2kbit/s轉(zhuǎn)碼速率為例,分析了GMM在LSP參數(shù)轉(zhuǎn)碼中的幾個實(shí)際應(yīng)用問題,最后給出了實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,基于GMM的LSP轉(zhuǎn)碼方法能夠在保證合成語音質(zhì)量的前提下,極大地降低計(jì)算復(fù)雜度和空間復(fù)雜度。GMM在LSP參數(shù)轉(zhuǎn)碼應(yīng)用中的有效性,為GMM在其他參數(shù)轉(zhuǎn)碼中的應(yīng)用提供了重要的借鑒意義。
[1] ETSI EN 301 704 V7.2.1 Adaptive Multi-Rate(AMR)Speech Transcoding[S].2000.
[2] ITU-T G.729:Coding of Speech at 8kbit/s Using Conjugate Structure Algebraic Code Excited Linear Prediction(CS-ACELP)[S].1996.
[3] ITU-T G.729A: Educed Complexity 8kbit/s CS-ACELP Speech Codec[S].1996.
[4] 鮑長春.數(shù)字語音編碼原理[M].西安:西安電子科技大學(xué)出版社,2007.BAO C C.Principles of Digital Speech Coding[M].Xi’an: Xidian University Press,2007.
[5] 邱建偉,鮑長春,徐昊等.基于CELP編碼模型的參數(shù)轉(zhuǎn)碼技術(shù)[J].電聲技術(shù),2009,(4):84-87.QIU J W,BAO C C,XU H,et al.Parameter transcoding techniques based on CELP speech coding[J].Audio Engineering.2009(4): 84-87.
[6] OTA Y,SUZUKI M,TSUCHINAGA Y,et al.Speech coding translation for IP and 3G mobile integrated network[A].IEEE International Conference on Communications[C].New York: IEEE Press,2002.114-118.
[7] GHENANIA M,LAMBLIN C.Low-cost smart transcoding algorithm between ITU-T G.729(8kbit/s) and 3GPPNB-AMR(12.2kbit/s)[A].European Signal Processing Conference[C].Vienna: EUSIPCO Press,2004,(3): 1681-1684.
[8] 趙永剛,唐昆,崔慧娟.基于Gaussian混合模型的LSF參數(shù)量化方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,46(10): 1727-1730.ZHAO Y G,TANG K,CUI H J.Quantization of LSF parameters using a Gaussian mixture model[J].J Tsinghua University(Sci & Tech),2006,46(10): 1727-1730.
[9] 吳金池.語音辯識系統(tǒng)之研究[D].臺灣國立中央大學(xué),2003.9-17.WU J C.Research on Speech Recognition System[D].Taiwan,China:National Central University,2003.
[10] KAIN A B.High Resolution Voice Transformation[D].Oregon Health and Science University,2001.36-54.
[11] 康永國,雙志偉,陶建華等.高斯混合模型和碼本映射相結(jié)合的語音轉(zhuǎn)換算法[A].第八屆全國人機(jī)語音通訊學(xué)術(shù)會議[C].2005.293-297.KANG Y G,SHUANG Z W,TAO J H,et al.Speech transform algorithm based on Gaussian mixture model and codebook mapping[A].NCMMSC2005[C].2005.293-297.
[12] 付強(qiáng).語音的參數(shù)表示和質(zhì)量客觀評價(jià)研究[D].西安電子科技大學(xué),2000.46-66.FU Q.Research on Parameter Representation and Objective Quality Assessment of Speech[D].Xi’an: Xidian University.2000.46-66.
[13] ITU-T P.800.1:Mean Opinion Score(MOS) Terminology[S].2003.
[14] ITU-T P.862.1: Mapping Function for Transforming P.862 Raw Result Scores to MOS-LQO[S].2003.