蔡明琦 凌震華 戴禮榮
(中國(guó)科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系,合肥,230027)
語(yǔ)音是從肺部呼出的氣流通過(guò)聲門、聲道等各種器官作用而發(fā)出的。聲道的形狀主要由唇、顎、舌等的位置決定。不同的聲道形狀決定了不同的發(fā)音[1]。人們用發(fā)音動(dòng)作參數(shù)描述發(fā)音器官在發(fā)音過(guò)程中的位置及運(yùn)動(dòng),這些發(fā)音器官包括舌、下顎、嘴唇等。發(fā)音動(dòng)作參數(shù)可以通過(guò)多種技術(shù)來(lái)采集,例如 X 射線微束影像[2]、磁共振成像[3]、超聲波[4]、圖像采集外部發(fā)音器官運(yùn)動(dòng)[5]及電磁發(fā)音儀(Electro magnetic articulography,EMA)[6]等。發(fā)音動(dòng)作參數(shù)不僅可以有效地描述語(yǔ)音特征,而且相對(duì)于聲學(xué)參數(shù)還具有以下優(yōu)勢(shì):
(1)因?yàn)榘l(fā)音器官的物理運(yùn)動(dòng)能力有限,所以發(fā)音動(dòng)作參數(shù)相對(duì)于聲學(xué)參數(shù)變化緩慢且平滑,更適合使用隱馬爾科夫模型(Hidden Markov model,HMM)進(jìn)行建模。
(2)對(duì)語(yǔ)音中存在的某些現(xiàn)象,發(fā)音動(dòng)作參數(shù)可以進(jìn)行更直接的解釋。例如,語(yǔ)音中的第二共振峰從高到低的變化,可以通過(guò)發(fā)音動(dòng)作參數(shù)解釋為舌位從前往后的運(yùn)動(dòng)。
(3)發(fā)音動(dòng)作參數(shù)直接記錄發(fā)音器官的位置,它們不受聲學(xué)噪音的影響且較少受錄音環(huán)境的影響。因此發(fā)音動(dòng)作參數(shù)相對(duì)于聲學(xué)參數(shù)更加魯棒[7]。
基于發(fā)音動(dòng)作參數(shù)的以上優(yōu)點(diǎn),已有研究人員將發(fā)音動(dòng)作參數(shù)應(yīng)用到語(yǔ)音識(shí)別與語(yǔ)音合成的方法研究中,例如將發(fā)音動(dòng)作參數(shù)作為語(yǔ)音識(shí)別的額外特征參數(shù)以降低識(shí)別錯(cuò)誤率[8],在語(yǔ)音合成中融合發(fā)音動(dòng)作參數(shù)以提高合成語(yǔ)音的自然讀與靈活可控性[9]等。
此外,在給定文本或者語(yǔ)音輸入時(shí)的發(fā)音動(dòng)作參數(shù)預(yù)測(cè)也是發(fā)音動(dòng)作參數(shù)研究的熱點(diǎn)之一,其潛在的應(yīng)用場(chǎng)景包括語(yǔ)音驅(qū)動(dòng)的人臉動(dòng)畫系統(tǒng)、語(yǔ)言學(xué)習(xí)中的發(fā)音位置問(wèn)題檢測(cè)、基于調(diào)音的語(yǔ)音合成方法中的發(fā)音器官運(yùn)動(dòng)預(yù)測(cè)等。目前發(fā)音動(dòng)作參數(shù)預(yù)測(cè)方法按照輸入主要分為兩類:(1)輸入文本:利用時(shí)間對(duì)齊的音素序列及高斯分布描述音素中點(diǎn)發(fā)音動(dòng)作參數(shù)的分布,通過(guò)一個(gè)協(xié)同發(fā)音模型預(yù)測(cè)發(fā)音動(dòng)作參數(shù)[10];利用目標(biāo)逼近模型進(jìn)行發(fā)音動(dòng)作參數(shù)預(yù)測(cè)[11];基于HMM的發(fā)音動(dòng)作參數(shù)預(yù)測(cè)[12]。(2)輸入語(yǔ)音:基于高斯混合模型的聲學(xué)-發(fā)音動(dòng)作參數(shù)映射,并使用最大似然估計(jì)準(zhǔn)則考慮動(dòng)態(tài)參數(shù)[13];利用人工神經(jīng)網(wǎng)絡(luò)和最大似然參數(shù)生成(Maximum likelihood parameter generation,MLPG)算法訓(xùn)練一個(gè)軌跡模型[14]。由于缺少中文發(fā)音動(dòng)作參數(shù)數(shù)據(jù)庫(kù),目前少有對(duì)中文發(fā)音動(dòng)作參數(shù)的研究。
本文對(duì)基于HMM的中文發(fā)音動(dòng)作參數(shù)預(yù)測(cè)方法進(jìn)行研究。在模型訓(xùn)練階段,利用電磁發(fā)音儀完成了中文連續(xù)語(yǔ)流的發(fā)音動(dòng)作參數(shù)采集、處理與數(shù)據(jù)庫(kù)制作,構(gòu)建了包含聲學(xué)與發(fā)音動(dòng)作參數(shù)的雙流HMM模型來(lái)表征兩種參數(shù)之間的關(guān)系[12];在預(yù)測(cè)階段,利用輸入的文本及聲學(xué)參數(shù),基于最大似然準(zhǔn)則實(shí)現(xiàn)發(fā)音動(dòng)作參數(shù)的預(yù)測(cè)。此外,本文還研究了建模過(guò)程中不同的上下文屬性、模型聚類方式、流間相關(guān)性假設(shè)以及轉(zhuǎn)換矩陣綁定方式對(duì)于中文發(fā)音動(dòng)作參數(shù)預(yù)測(cè)性能的影響。
利用EMA可以便捷、準(zhǔn)確、實(shí)時(shí)地采集發(fā)音動(dòng)作參數(shù)。本文采用NDI公司的Wave System設(shè)備錄制中文發(fā)音人連續(xù)語(yǔ)流的發(fā)音動(dòng)作參數(shù)及語(yǔ)音波形,并經(jīng)過(guò)預(yù)處理制作成中文連續(xù)語(yǔ)流EMA數(shù)據(jù)庫(kù)。由于使用EMA采集發(fā)音動(dòng)作參數(shù),因此后續(xù)介紹中“發(fā)音動(dòng)作參數(shù)”也用“EMA參數(shù)”來(lái)表示。
本文設(shè)計(jì)的中文數(shù)據(jù)庫(kù)包括音素平衡的390句中文語(yǔ)句,由一名普通話女發(fā)音人在隔音密閉專業(yè)錄音室里采用AKG領(lǐng)夾式麥克風(fēng)朗讀錄制。使用NDI公司的Wave System設(shè)備平行錄制語(yǔ)音波形與EMA參數(shù)。波形錄制使用16kHz采樣,16bit量化的PCM格式。通過(guò)在發(fā)音人的各發(fā)音器官放置小的傳感器,并利用電磁信號(hào)對(duì)發(fā)音過(guò)程中各傳感器進(jìn)行定位來(lái)實(shí)現(xiàn)EMA數(shù)據(jù)的采集。實(shí)驗(yàn)中分別在感興趣的6個(gè)發(fā)音器官位置放置了傳感器,其位置如圖1所示。利用 Wave System設(shè)備,可以采集每個(gè)傳感器在發(fā)音過(guò)程中的空間三維位置。
圖1 EMA傳感器位置示意圖Fig.1 Placement of EMA receivers in database
由于EMA參數(shù)是由EMA傳感器直接記錄的位置信息,在對(duì)EMA參數(shù)進(jìn)行HMM建模前必須對(duì)其進(jìn)行預(yù)處理。預(yù)處理主要分為兩個(gè)步驟:頭部運(yùn)動(dòng)規(guī)整和咬合面規(guī)整。
原始的EMA數(shù)據(jù)記錄的是發(fā)音器官相對(duì)于固定參考系的位置信息,而實(shí)際感興趣的信息是發(fā)音器官相對(duì)于發(fā)音人頭部的運(yùn)動(dòng)信息。因此,需要對(duì)EMA數(shù)據(jù)進(jìn)行規(guī)整以消除頭部運(yùn)動(dòng)的影響。本文利用NDI公司W(wǎng)ave System提供的一個(gè)6D參考傳感器,并將這個(gè)參考傳感器放置在說(shuō)話人鼻梁處(認(rèn)為鼻梁在發(fā)音時(shí)始終與頭部保持相對(duì)靜止),可以較為便捷地得到其他傳感器發(fā)音器官相對(duì)此傳感器的頭部規(guī)整后的EMA數(shù)據(jù)。
將發(fā)音人牙齒自然咬合時(shí)所形成的平面定義為咬合面,如圖2所示,在一塊硬紙板上安置A,B,C三個(gè)傳感器(直線AB垂直于BC),讓發(fā)音人自然咬住硬紙板來(lái)測(cè)量發(fā)音人的咬合面。咬合面規(guī)整就是將原始以鼻梁參考點(diǎn)為中心的xyz坐標(biāo)系變換成x′y′z′坐標(biāo)系,其中x′y′平面為咬合面、y′z′平面為垂直于咬合面的頭部中軸面。利用咬合面對(duì)發(fā)音動(dòng)作參數(shù)進(jìn)行規(guī)整可以使發(fā)音動(dòng)作參數(shù)物理意義更明顯,并且可以較好保證不同發(fā)音人EMA參數(shù)的可比性。
做完頭部運(yùn)動(dòng)規(guī)整的EMA數(shù)據(jù),每個(gè)傳感器分別有x,y,z三維數(shù)據(jù),如圖1所示,其中x表示左右方向位移、y表示前后方向位移、z表示上下方向位移。在圖2中,假設(shè)M點(diǎn)為需要規(guī)整的點(diǎn),T為點(diǎn)M在咬合面的投影,S為TS在直線BC上的垂足。將MT,TS的長(zhǎng)度作為z′,y′的模。由于所有傳感器均安置在發(fā)音人的頭部中軸面上,所以x′的模很小可以忽略。z′,y′的正負(fù)符號(hào)信息由BM與咬合面的法向量及AB直線夾角決定。經(jīng)過(guò)咬合面規(guī)整,每個(gè)傳感器所對(duì)應(yīng)EMA數(shù)據(jù)由三維降為兩維。
圖2 咬合面規(guī)整過(guò)程示意圖Fig.2 Schematic diagram for occlusal surface normalization
將HMM用于中文發(fā)音動(dòng)作參數(shù)預(yù)測(cè),其框架類似于基于HMM的參數(shù)語(yǔ)音合成系統(tǒng)[15]。首先需要訓(xùn)練統(tǒng)一的聲學(xué)-發(fā)音動(dòng)作參數(shù)HMM模型以表示聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)之間的關(guān)系;在生成過(guò)程中,利用最大似然準(zhǔn)則和動(dòng)態(tài)參數(shù)約束生成最優(yōu)發(fā)音動(dòng)作參數(shù)[12]。
整個(gè)發(fā)音動(dòng)作參數(shù)預(yù)測(cè)系統(tǒng)主要分為訓(xùn)練和預(yù)測(cè)兩部分[7]。系統(tǒng)框架如圖3所示。
圖3 基于HMM的發(fā)音動(dòng)作參數(shù)預(yù)測(cè)系統(tǒng)Fig.3 HMM-based articulatory movement prediction system
初始化上下文相關(guān)的HMM訓(xùn)練后,用最小描述長(zhǎng)度(Minimum description length,MDL)準(zhǔn)則和上下文屬性問(wèn)題集訓(xùn)練一棵決策樹,利用該決策樹對(duì)HMM進(jìn)行聚類[16],這樣可以解決由數(shù)據(jù)稀疏引起的過(guò)擬合問(wèn)題。在對(duì)發(fā)音動(dòng)作參數(shù)與聲學(xué)參數(shù)進(jìn)行基于決策樹的模型聚類時(shí),可以對(duì)兩種參數(shù)分別構(gòu)建決策樹(獨(dú)立聚類);也可以為這兩種參數(shù)構(gòu)建一棵共享的決策樹(共享聚類)。然后使用訓(xùn)練得到的上下文相關(guān)HMM進(jìn)行狀態(tài)切分并且訓(xùn)練狀態(tài)的時(shí)長(zhǎng)概率模型[17]。通過(guò)上述訓(xùn)練流程,最后訓(xùn)練得到的模型包括譜、基頻、時(shí)長(zhǎng)及發(fā)音動(dòng)作參數(shù)的聚類HMM以及各自的決策樹。
預(yù)測(cè)過(guò)程中,首先利用前端文本分析得到的結(jié)果和決策樹確定HMM序列,然后利用MLPG算法生成最優(yōu)發(fā)音動(dòng)作參數(shù)[18]如下
因?yàn)槁晫W(xué)信號(hào)是由發(fā)音器官的運(yùn)動(dòng)引起的,所以聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)是彼此相關(guān)的。因此在對(duì)聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)建模時(shí),應(yīng)考慮這種相關(guān)性。根據(jù)發(fā)音的物理機(jī)制,本文選擇采用狀態(tài)同步系統(tǒng)[7],狀態(tài)同步系統(tǒng)假設(shè)聲學(xué)參數(shù)和發(fā)音動(dòng)作參數(shù)是由相同的狀態(tài)序列生成的。在狀態(tài)同步系統(tǒng)的基礎(chǔ)上,對(duì)聲學(xué)參數(shù)和發(fā)音動(dòng)作參數(shù)之間的依賴關(guān)系進(jìn)行直接建模。此時(shí)聲學(xué)參數(shù)的生成不僅依賴于當(dāng)前的上下文相關(guān)音素的聲學(xué)模型,還依賴于當(dāng)前幀對(duì)應(yīng)的發(fā)音動(dòng)作參數(shù)。特征生成模型結(jié)構(gòu)如圖4所示。
圖4 特征生成模型結(jié)構(gòu)Fig.4 Feature production model for combined acoustic and articulatory modeling
在之前的工作中,作者采用一無(wú)偏置的線性變換來(lái)對(duì)聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)的依賴關(guān)系進(jìn)行直接建模[9,12]。本文在此基礎(chǔ)上改進(jìn)為一有偏置的線性變換對(duì)聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)的依賴關(guān)系進(jìn)行建模,并且考慮該線性變換的分回歸類綁定以減少需要估計(jì)的模型參數(shù)數(shù)目。因此,聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)的聯(lián)合分布可以寫成
發(fā)音動(dòng)作參數(shù)生成公式見式(7),下面簡(jiǎn)化這一優(yōu)化過(guò)程,只考慮發(fā)音動(dòng)作參數(shù)在最優(yōu)狀態(tài)序列下的情況,因此式(7)可簡(jiǎn)化為式(18)
采用迭代更新方法來(lái)交替更新發(fā)音動(dòng)作參數(shù)與狀態(tài)序列,每一次迭代包括兩步[12]:
(1)在給定聲學(xué)特征Y與狀態(tài)序列q的情況下,優(yōu)化發(fā)音動(dòng)作參數(shù)XS。
式中:i∈(1,2,…}表示第i次迭代,q0表示利用一個(gè)純聲學(xué)特征模型用Viterbi對(duì)齊算法對(duì)聲學(xué)特征序列Y切分出的初始狀態(tài)序列。如果假設(shè)X與Y在給定狀態(tài)序列下沒(méi)有依賴關(guān)系,采用傳統(tǒng)的MLPG算法可以直接求解式(19)。一旦在建模時(shí)考慮聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)之間的依賴關(guān)系,如式(11)和式(19)中的聯(lián)合分布可以寫成式(20)。
其中
式中:K為 常 數(shù) 項(xiàng)。由 式 (26),ξt= [xTt,1]T,
(2)給定和Y優(yōu)化狀態(tài)序列q
更新的狀態(tài)序列將用在下一次的迭代中。
實(shí)驗(yàn)使用一個(gè)中文女發(fā)音人連續(xù)語(yǔ)流EMA數(shù)據(jù)庫(kù),它同時(shí)包含語(yǔ)音波形和EMA參數(shù),具體信息可參考第2節(jié)。本文采用40階線譜對(duì)(Line spectral pair,LSP)和1階增益作為頻譜聲學(xué)參數(shù),使用經(jīng)過(guò)咬合面規(guī)整的12維特征(6個(gè)傳感器,每個(gè)傳感器兩維)作為發(fā)音動(dòng)作參數(shù)。選擇380句作訓(xùn)練,剩余的10句用作測(cè)試。
為了研究上下文相關(guān)HMM訓(xùn)練過(guò)程中使用的上下文屬性集對(duì)于發(fā)音動(dòng)作參數(shù)預(yù)測(cè)系統(tǒng)的影響,本文訓(xùn)練了3個(gè)模型系統(tǒng):?jiǎn)我羲啬P?、三音素模型及完全上下文相關(guān)模型系統(tǒng)。這里,采用獨(dú)立聚類的頻譜模型與發(fā)音動(dòng)作參數(shù)模型聚類方式,并且暫不考慮2.2節(jié)中提出的流間相關(guān)性建模。其中,三音素模型的上下文屬性包含當(dāng)前音素及前后各一個(gè)音素;完全上下文相關(guān)模型的上下文屬性除了包含三音素模型中的音素特征,還包含一組廣泛的語(yǔ)言韻律特征。表1列出了其中一部分上下文屬性,表中L0表示音節(jié),L1表示韻律詞,L3表示韻律短語(yǔ)。
表1 完全上下文相關(guān)模型訓(xùn)練中使用的部分上下文屬性列表Table 1 Some context descriptions used in full context dependent model
分別采用單音素模型、三音素模型和完全上下文相關(guān)模型,計(jì)算10句測(cè)試句生成LSP參數(shù)的均方根誤差(Root mean square error,RMSE)作為客觀評(píng)價(jià)標(biāo)準(zhǔn)。3個(gè)系統(tǒng)的實(shí)驗(yàn)結(jié)果如圖5所示,單音素模型系統(tǒng)的系能明顯低于三音素模型、完全上下文相關(guān)模型系統(tǒng),因?yàn)楹髢煞N上下文模型都考慮了當(dāng)前音素與前后音素的協(xié)同發(fā)音現(xiàn)象。完全上下文相關(guān)模型相對(duì)三音素模型增加的上下文屬性主要體現(xiàn)的是對(duì)基頻、時(shí)長(zhǎng)等韻律參數(shù)的影響,因此對(duì)于提升發(fā)音動(dòng)作參數(shù)的預(yù)測(cè)精度作用不大。后續(xù)的實(shí)驗(yàn)都將基于三音素模型進(jìn)行。
圖5 采用單音素模型、三音素模型與完全上下文相關(guān)模型時(shí)的發(fā)音動(dòng)作參數(shù)預(yù)測(cè)客觀測(cè)試結(jié)果Fig.5 Objective evaluation of articulatory RMSE on monophone model,triphone model and full context model
在本文的實(shí)驗(yàn)數(shù)據(jù)庫(kù)上,分別采用共享聚類和獨(dú)立聚類的決策樹葉子節(jié)點(diǎn)數(shù)目如圖6所示。采用獨(dú)立聚類時(shí),EMA參數(shù)的決策樹比采用共享聚類的決策樹要大,這表明發(fā)音動(dòng)作參數(shù)對(duì)比聲學(xué)參數(shù)在發(fā)音變化上具有更好的區(qū)分性。
圖6 采用共享聚類與獨(dú)立聚類方式的各狀態(tài)決策樹葉子節(jié)點(diǎn)數(shù)目對(duì)比Fig.6 Node numbers of decision trees on each state for shared clustering and separate clustering
共享聚類與獨(dú)立聚類的客觀測(cè)試對(duì)比試驗(yàn)結(jié)果如圖7所示。采用獨(dú)立聚類可以提高EMA參數(shù)的預(yù)測(cè)精確性。因此,之后的實(shí)驗(yàn)都將采用獨(dú)立聚類的方式。
圖7 采用共享聚類與獨(dú)立聚類時(shí)的發(fā)音動(dòng)作參數(shù)預(yù)測(cè)客觀測(cè)試結(jié)果Fig.7 Objective evaluation of articulatory RMSE on shared clustering system and separate clustering system
進(jìn)一步驗(yàn)證2.2節(jié)提出的流間相關(guān)性建模方法對(duì)于發(fā)音動(dòng)作參數(shù)預(yù)測(cè)性能的影響。為了考慮流間相關(guān)性建模中轉(zhuǎn)換矩陣的數(shù)目對(duì)于系統(tǒng)的影響,采用回歸類的方法對(duì)轉(zhuǎn)換矩陣和決策樹葉子節(jié)點(diǎn)進(jìn)行綁定。因此,本文訓(xùn)練了5個(gè)系統(tǒng)進(jìn)行回歸類影響的分析,如表2所示。
表2 回歸類方法實(shí)驗(yàn)的系統(tǒng)配置Table 2 Configuration for different regression systems
實(shí)驗(yàn)結(jié)果如圖8所示,可以看出加入聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)之間的依賴性可以明顯提高預(yù)測(cè)的準(zhǔn)確性。并且當(dāng)增加轉(zhuǎn)換矩陣的數(shù)目時(shí),可以提高發(fā)音動(dòng)作參數(shù)的預(yù)測(cè)準(zhǔn)確性,在綁定到每個(gè)葉子節(jié)點(diǎn)時(shí)得到最優(yōu)結(jié)果。
圖8 考慮流間相關(guān)性并采用不同綁定方式訓(xùn)練轉(zhuǎn)換矩陣時(shí)的系統(tǒng)客觀測(cè)試結(jié)果Fig.8 Objective evaluation of articulatory RMSE on different regression systems
本文首先闡述了制作中文連續(xù)語(yǔ)流發(fā)音動(dòng)作參數(shù)數(shù)據(jù)庫(kù)及發(fā)音動(dòng)作參數(shù)預(yù)處理方法。并且在中文數(shù)據(jù)庫(kù)上進(jìn)行了基于HMM的發(fā)音動(dòng)作參數(shù)預(yù)測(cè)實(shí)驗(yàn),對(duì)比了不同上下文模型、聚類方式對(duì)發(fā)音動(dòng)作參數(shù)預(yù)測(cè)性能的影響,結(jié)果表明采用三音素模型與單獨(dú)聚類的模型結(jié)構(gòu)可以得到較好的結(jié)果。本文還采用有偏置的線性變換對(duì)流間相關(guān)性進(jìn)行建模,并且對(duì)轉(zhuǎn)換矩陣的回歸類訓(xùn)練方法進(jìn)行研究。實(shí)驗(yàn)表明,隨著使用的轉(zhuǎn)換矩陣回歸類數(shù)目的增多,預(yù)測(cè)的發(fā)音動(dòng)作參數(shù)誤差明顯下降。未來(lái)計(jì)劃在聲學(xué)參數(shù)與發(fā)音動(dòng)作參數(shù)聯(lián)合模型訓(xùn)練準(zhǔn)則、引入非線性變換表征兩種參數(shù)間依賴關(guān)系等方面開展進(jìn)一步的研究工作。
[1] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2009:14-16.
Zhao Li.Speech signal processing[M].Beijing:China Machine Press,2009:14-16.
[2] Kiritani S.X-ray microbeam method for the measurement of articulatory dynamics:Technique and results[J].Speech Communication,1986,45:119-140.
[3] Bare T,Gore J C,Boyce S,et al.Application of MRI to the analysis of speech production[J].Magnetic Resonance Imaging,1987,5:1-7.
[4] Akgul Y,Kambhamettu C,Stone M.Extraction and tracking of the tongue surface from ultrasound image sequences[J].IEEE Comp Vision and Pattern Recog,1998,123:298-303.
[5] Summerfield Q.Some preliminaries to a comprehensive account of audio visual speech perception[M].Hillsdale,NJ England:Lawrence Evlbaum Associates,1987:3-51.
[6] Sch?nle P W,Gr?be K,Wening P,et al.Electromagnetic articulography:Use of alternating magnetic fields for tracking movements of multiple points inside and outside the vocal tract[J].Brain Lang,1987,31:26-35.
[7] 凌震華.基于聲學(xué)統(tǒng)計(jì)建模的語(yǔ)音合成技術(shù)研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2008.
Ling Zhenhua.Research on statistical acoustic model based speech synthesis[D].Hefei:University of Science and Technology of China,2008.
[8] Kirchhoff K,F(xiàn)ink G,Sagerer G.Conversation speech recognition using acoustic and articulatory in-put[C]//ICASSP.Istanbul,Turkey:IEEE,2000:1435-1438.
[9] Ling Zhenhua,Richmond K,Yamagishi J,et al.Integrating articulatory features into HMM-based parametric speech synthesis[J].IEEE Transacions on Audio,Speech,and Language Processing,2009,17(6):1171-1185.
[10]Blackburn C S,Young S.A self-learning predictive model of articulator movements during speech production[J].Acoustical Society of America,2000,107(3):1659-1670.
[11]Birkholz P,Kr?ger B J,Neuschaefer-Rube C.Model-based reproduction of articulatory trajectories for consonant-vowel sequences[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,10(5):1422-1433.
[12]Ling Zhenhua,Richmond K,Yamagishi J.An analysis of HMM-based prediction of articulatory movements[J].Speech Communication,2010,52:834-846.
[13]Toda T,Black A W,Tokuda K.Statistical mapping between articulatory movements and acoustic spectrum using a Gaussian mixture model[J].Speech Communication,2008,50:215-227.
[14]Richmond K.Trajectory mixture density networks with multiple mixtures for acoustic-articulatory inversion[C]//NOLISP.Berlin,Heidelberg:Springer-Verlag,2007:263-272.
[15]Tokuda K,Zen H,Black A W.HMM-based approach to multilingual speech synthesis[M].United States:Prentice Hall,2004.
[16]Shinoda K,Watanabe T.MDL-based context-dependent sub-word modeling for speech recognition[J].Journal of Acoustical Society of Japan (E),2000,21(2):79-86.
[17]Yoshimura T,Tokuda K,Masuko T,et al.Duration modeling in HMM-based speech synthesis system[C]//ICSLP.Sydney,Australia:[s.n.],1998,2:29-32.
[18]Tokuda K,Yoshimura T,Masuko T,et al.Speech parameter generation algorithms for HMM-based speech synthesis[C]//ICASSP.Istanbul,Turkey:[s.n.],2000,3:1315-1318.