李 葵,徐海青,吳立剛,梁 翀
(1.國(guó)網(wǎng)安徽省電力有限公司 信息通信分公司,安徽 合肥 230000;2.廈門大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,福建 廈門 361005;3.安徽繼遠(yuǎn)軟件有限公司,安徽 合肥 230000)
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的語(yǔ)音合成方法[1-2]也在不斷推陳出新,這使得語(yǔ)音合成的質(zhì)量得到了空前的提高.語(yǔ)音合成的情感部分相比于傳統(tǒng)語(yǔ)音合成的提升雖然巨大,但尚未達(dá)到擬人化,所以提高合成語(yǔ)音表現(xiàn)力,將成為未來語(yǔ)音合成研究的重點(diǎn)和難點(diǎn).20世紀(jì)末,隨著基音同步疊加的時(shí)域波形修改算法(pitch synchronous over lap add,PSOLA)的提出,語(yǔ)音段之間的拼接問題得到了較好的解決,使得波形拼接語(yǔ)音合成技術(shù)的發(fā)展邁出一大步.本文提出了一種基于SAT的情感語(yǔ)音合成方法,該方法以多人多情感的標(biāo)注語(yǔ)音數(shù)據(jù)作為訓(xùn)練集,在SAT框架下構(gòu)建并訓(xùn)練語(yǔ)音平均音模型,最后通過說話人自適應(yīng)轉(zhuǎn)換生成目標(biāo)說話人情感的定制模型,實(shí)現(xiàn)目標(biāo)情感語(yǔ)音合成.
語(yǔ)音合成的算法有很多種,大致可以從以下三個(gè)維度聚類:(1) 情感參數(shù)樣本[3],如增加情感訓(xùn)練樣本或進(jìn)行情感標(biāo)記的方式[4];(2) 提取的參數(shù)特征或韻律轉(zhuǎn)換[5]等,如將中性語(yǔ)音通過韻律參數(shù)修改進(jìn)行情感語(yǔ)音轉(zhuǎn)化;(3) 通過自適應(yīng)模型修正[6]、合成參數(shù)修改[5,7]或?qū)?shù)合成器進(jìn)行優(yōu)化等.傳統(tǒng)的語(yǔ)音合成系統(tǒng)可分為基于HMM的訓(xùn)練和基于STRAIGHT的合成[8],流程框架如圖1所示.
在基于統(tǒng)計(jì)參數(shù)(HMM)語(yǔ)音合成算法的基礎(chǔ)上,本文提出基于多情感說話人自適應(yīng)的情感語(yǔ)音合成系統(tǒng),如圖2所示,包括訓(xùn)練、自適應(yīng)和合成三個(gè)階段.在訓(xùn)練階段對(duì)情感數(shù)據(jù)庫(kù)的語(yǔ)音數(shù)據(jù)進(jìn)行特征提取,獲取基頻、譜參數(shù)等聲學(xué)參數(shù)文件,以及標(biāo)注的文本文件.通過決策樹聚類得到訓(xùn)練好的HMM模型庫(kù).在自適應(yīng)階段,基于CMLLR實(shí)現(xiàn)多說話人情感語(yǔ)音數(shù)據(jù)模型的SAT操作,獲得訓(xùn)練集數(shù)據(jù)的平均音模型、自適應(yīng)模型,對(duì)自適應(yīng)模型通過最大后驗(yàn)概率進(jìn)行修正和更新;在合成階段,利用前階段的標(biāo)注數(shù)據(jù)和模型,結(jié)合STRAIGHT語(yǔ)音合成器,得到目標(biāo)說話人的情感語(yǔ)音.
平均音模型對(duì)多個(gè)情感說話人的情感語(yǔ)音數(shù)據(jù)的基元進(jìn)行訓(xùn)練,得到多個(gè)HMM模型.然后對(duì)這些HMM模型進(jìn)行概率分布統(tǒng)計(jì),得到所有說話人情感語(yǔ)音數(shù)據(jù)的平均分布模型.
SAT算法對(duì)說話人差異進(jìn)行歸一化操作,提高模型的準(zhǔn)確度,利用Multi-space-HMM實(shí)現(xiàn)漢語(yǔ)清音和元音的基頻建模,并基于上下文相關(guān)的MSD-HSMM語(yǔ)音合成單元,結(jié)合CMLLR實(shí)現(xiàn)多說話人的SAT,獲得多說話人情感語(yǔ)音的平均音模型.
本文采用具有精確時(shí)長(zhǎng)分布的半隱HMM模型,對(duì)狀態(tài)輸出和時(shí)長(zhǎng)分布進(jìn)行控制建模和歸一化處理:
在進(jìn)行完說話人SAT后,在少量數(shù)據(jù)下,采用CMLLR自適應(yīng)算法對(duì)平均音模型的基頻、頻譜和時(shí)長(zhǎng)參數(shù)進(jìn)行變換,特征向量o與狀態(tài)時(shí)長(zhǎng)d的變換方程:
bi(o)=N(o;Aμi-b,AΣiAT)=|A-1|N(Wξ;μi,Σi),
基于HSMM的自適應(yīng)變換算法,實(shí)現(xiàn)語(yǔ)音聲學(xué)特征參數(shù)的歸一化和預(yù)處理.時(shí)長(zhǎng)為T的自適應(yīng)數(shù)據(jù)O,利用最大似然估計(jì)處理變換Λ=(W,X):
式中,λ為HSMM的參數(shù)集.分布共享一個(gè)回歸矩陣的綁定[11],實(shí)現(xiàn)少數(shù)據(jù)的自適應(yīng)效果的優(yōu)化,如圖3所示.
最大后驗(yàn)概率估計(jì)描述如下:
本文主要從主觀測(cè)評(píng)和客觀測(cè)評(píng)兩個(gè)層面對(duì)合成語(yǔ)音的效果進(jìn)行分析與評(píng)估.
2.1.1客觀評(píng)測(cè)下式能夠?qū)铣烧Z(yǔ)音和原始語(yǔ)音在語(yǔ)句時(shí)長(zhǎng)、基頻、譜質(zhì)心等聲學(xué)參數(shù)上進(jìn)行誤差分析:
式中:語(yǔ)音文件的對(duì)比數(shù)為N,參數(shù)誤差Wi反映了合成語(yǔ)音與原始語(yǔ)音之間的差異.W表示基元時(shí)長(zhǎng)誤差,定義為W=|(T2-T1)-(t2-t1)|,t1為得到的合成語(yǔ)音基元的起始時(shí)間,對(duì)應(yīng)的截止時(shí)間為t2,T1代表原始語(yǔ)音基元開始時(shí)間,其對(duì)應(yīng)的截止時(shí)間為T2.語(yǔ)句時(shí)長(zhǎng)誤差W定義如下:W=|(Te-T0)-(te-t0)|.合成語(yǔ)句的開始時(shí)間為t0,截止時(shí)間為te;T0為原始語(yǔ)句的開始時(shí)間,Te為對(duì)應(yīng)的截止時(shí)間.基頻誤差W定義如下:W=|f2-f1|.f1為合成語(yǔ)句的基頻均值,f2為原始語(yǔ)句的基頻均值.
2.1.2主觀評(píng)測(cè)采用MOS和EMOS分別對(duì)合成語(yǔ)音的自然度與情感相似度進(jìn)行評(píng)估,其中MOS為平均意見得分(mean opinion score),EMOS情感相似度平均意見得分(emotional mean opinion score).
表1 MOS評(píng)測(cè)分值標(biāo)準(zhǔn)表Tab.1 MOS evaluation score standard
表2 EMOS評(píng)測(cè)分值標(biāo)準(zhǔn)表Tab.2 EMOS evaluation score standard
實(shí)驗(yàn)數(shù)據(jù)為22名評(píng)測(cè)者的普通話和情感語(yǔ)音合成的語(yǔ)音(220句),評(píng)測(cè)者根據(jù)合成語(yǔ)音的自然度或情感度,對(duì)其進(jìn)行打分(按5分制),評(píng)測(cè)標(biāo)準(zhǔn)如表1、表2所示.
2.2.1情感語(yǔ)料庫(kù)對(duì)16名人員(8男8女)建立情感語(yǔ)音數(shù)據(jù)庫(kù).建立過程為:每人需錄制10種情感語(yǔ)音,每種情感錄制20 min,情感有悲傷、放松、憤怒、輕蔑、溫順、喜悅、厭惡、焦慮、驚奇、恐懼、中性等101種.建立的語(yǔ)音庫(kù)共計(jì)4 600句語(yǔ)料.
2.2.2實(shí)驗(yàn)方案需要對(duì)情感語(yǔ)音合成的好壞進(jìn)行一個(gè)正確評(píng)估,本文在SAT1[13]和SAT2兩種模型上進(jìn)行試驗(yàn)方案設(shè)計(jì),其中,對(duì)比實(shí)驗(yàn)方案為SAT1模型,情感語(yǔ)音合成實(shí)驗(yàn)方案為SAT2模型.
SAT1模型:首先,建立訓(xùn)練集,訓(xùn)練數(shù)據(jù)為2.2.1介紹的情感語(yǔ)料庫(kù)數(shù)據(jù).然后,在訓(xùn)練集上用STRAIGHT算法提取語(yǔ)音文件的聲學(xué)參數(shù)(如基頻等)信息.同時(shí),語(yǔ)料文本文件需要輸入,并且需要對(duì)其進(jìn)行分析,可以得到相關(guān)的標(biāo)注文件.最后,進(jìn)行HMM訓(xùn)練,對(duì)訓(xùn)練結(jié)果進(jìn)行決策樹聚類,得到HMM模型庫(kù).
SAT2模型:訓(xùn)練前,在16人中隨機(jī)選取一人作為目標(biāo)說話人,并在其錄音中隨機(jī)選取每種情感語(yǔ)音2句組成其情感小語(yǔ)料庫(kù).訓(xùn)練HMM模型庫(kù)方法與SAT1模型中的方法一致,但SAT2模型增加了SAT部分,采用被選取人的情感小語(yǔ)料庫(kù),對(duì)其平均音模型進(jìn)行SAT過程,獲得說話人的自適應(yīng)模型.然后,輸入待合成情感語(yǔ)音文本,進(jìn)行決策分析,挑選出合適的基元模型,最后合成得到目標(biāo)情感語(yǔ)音,在SAT1和SAT2兩種模型上合成共計(jì)220句情感語(yǔ)句,每種模型各包含每種情感的10句測(cè)試語(yǔ)句.
最后,采用 MOS和 EMOS兩種主觀評(píng)測(cè)方法,對(duì)合成的情感語(yǔ)音的自然度和情感相似度進(jìn)行對(duì)比并做出實(shí)驗(yàn)分析.
合成語(yǔ)音參數(shù)的RMSE對(duì)比結(jié)果如表3所示.從客觀評(píng)測(cè)結(jié)果可以看出,本文提出的自適應(yīng)情感語(yǔ)音合成模型合成的語(yǔ)音在各個(gè)參數(shù)方面都明顯優(yōu)于傳統(tǒng)統(tǒng)計(jì)參數(shù)語(yǔ)音合成模型,結(jié)果如表3所示.圖4顯示的是兩種模型合成語(yǔ)音在時(shí)長(zhǎng)、基頻、譜質(zhì)心等聲學(xué)特征上的RMSE對(duì)比曲線圖.圖4能直觀地顯示本文的方法優(yōu)于傳統(tǒng)統(tǒng)計(jì)參數(shù)語(yǔ)音合成模型.
表3 不同模型上合成語(yǔ)音參數(shù)RMSE對(duì)比結(jié)果Tab.3 Comparison of synthesized speech parameters RMSE on different models
圖5 所示是SAT1和SAT2不同模型上合成情感語(yǔ)音的MOS得分.很明顯,在SAT2模型上得到合成情感語(yǔ)音的自然度比SAT1模型上得到的要高.如圖6所示為在SAT1和SAT2兩種模型上獲得的合成語(yǔ)音的情感相似度之間的評(píng)測(cè)對(duì)比分析,顯然,在SAT2模型上得到合成語(yǔ)音的情感相似度比SAT1模型上得到的要高.
本文提出了一種基于多情感說話人自適應(yīng)的情感語(yǔ)音合成方法,搭建了此情感語(yǔ)音合成系統(tǒng)和傳統(tǒng)的基于HMM的語(yǔ)音合成系統(tǒng).實(shí)驗(yàn)證明,與傳統(tǒng)的基于HMM的語(yǔ)音合成系統(tǒng)相比,在訓(xùn)練階段加入了說話人SAT過程,獲得多個(gè)說話人的情感語(yǔ)音平均音模型,減小了語(yǔ)音庫(kù)中因不同的說話人而產(chǎn)生的差異帶來的影響,從而使得合成語(yǔ)音的情感相似度得到提升.根據(jù)平均音模型,用少量的待合成情感語(yǔ)料就能通過自適應(yīng)算法合成出流利度、自然度、情感相似度都很好的情感語(yǔ)音.