王志超 吳 浩,2 李 棟 劉益岑
(1.四川輕化工大學(xué)自動(dòng)化與信息工程學(xué)院 自貢 643000)(2.人工智能四川省重點(diǎn)實(shí)驗(yàn)室 自貢 643000)(3.國(guó)網(wǎng)四川省電力公司電力科學(xué)研究院 成都 610000)
語(yǔ)音合成(Speech Synthesis)是通過(guò)機(jī)械、電子方法產(chǎn)生和人類說(shuō)話聲音相似的語(yǔ)音技術(shù)。又名文本轉(zhuǎn)換語(yǔ)音技術(shù)TTS(Text to Speech)[1]。它可以應(yīng)用于各種生活場(chǎng)景之中,例如汽車導(dǎo)航、音樂(lè)合成以及為視力受損人士提供更便利的服務(wù)[2]。
在語(yǔ)音合成技術(shù)的發(fā)展歷史中,語(yǔ)音合成技術(shù)隨著時(shí)代與科技發(fā)展逐漸變得更加智能與可靠。傳統(tǒng)語(yǔ)音合成方法步驟繁瑣,要求專業(yè)知識(shí)背景強(qiáng),對(duì)于沒(méi)有聲學(xué)和統(tǒng)計(jì)學(xué)基礎(chǔ)的從業(yè)者具有很高的準(zhǔn)入門檻。在傳統(tǒng)語(yǔ)音合成系統(tǒng)中,主要分為前端和后端兩大部分[3~4]。
前端針對(duì)輸入的文本進(jìn)行預(yù)處理,例如文本正則化(text normallization):將輸入的文本中包含的數(shù)字、英文字母轉(zhuǎn)化為中文文字等;文本轉(zhuǎn)音素(text to phoneme):在語(yǔ)音合成系統(tǒng)中,我們輸入的是中文文字,但是計(jì)算機(jī)并不會(huì)直接識(shí)別文字,所以需要提前將文字轉(zhuǎn)換為音素的形式。
后端合成語(yǔ)音傳統(tǒng)方法為參數(shù)合成或拼接式合成。參數(shù)合成方法指通過(guò)數(shù)學(xué)方法對(duì)語(yǔ)料庫(kù)錄音進(jìn)行建模,提取已有錄音頻譜、時(shí)長(zhǎng)信息等特征,構(gòu)建文本序列映射到語(yǔ)音特征的映射關(guān)系[5]。在合成階段通過(guò)時(shí)長(zhǎng)(duration)模型和聲學(xué)模型預(yù)測(cè)聲學(xué)特征參數(shù),最后利用聲碼器(vocoder)合成波形[6]。這類方法所需錄音數(shù)據(jù)量小,合成語(yǔ)音平滑,但缺點(diǎn)是太過(guò)機(jī)械不夠自然[7]。拼接式合成方法是通過(guò)在錄音室或其他專業(yè)器械幫助下預(yù)先錄制大量音頻,針對(duì)對(duì)應(yīng)的音節(jié)音素,從語(yǔ)料庫(kù)中挑選出適當(dāng)語(yǔ)音單元進(jìn)行參數(shù)合成。拼接法需要大量錄音來(lái)構(gòu)建語(yǔ)料庫(kù)才能合成效果較好的音頻,拼接法的優(yōu)點(diǎn)是音質(zhì)較好并且擁有一定情感,但缺點(diǎn)是字與字之間缺乏平滑過(guò)渡,不自然。
隨著近幾年機(jī)器學(xué)習(xí)技術(shù)的進(jìn)步,語(yǔ)音合成技術(shù)也從傳統(tǒng)合成方法轉(zhuǎn)變,出現(xiàn)了一大批基于深度學(xué)習(xí)的合成方法。深度學(xué)習(xí)因?yàn)樗?dú)有的可學(xué)習(xí)的特性,使合成出來(lái)的語(yǔ)音更加自然、平順,更加符合人類的聽(tīng)覺(jué)習(xí)慣。文獻(xiàn)[8]是由谷歌公司提出的Tacotron 端到端語(yǔ)音合成系統(tǒng),其基于seq-to-seq自回歸模型[9],采用Griffin-lim 作為聲碼器進(jìn)行音頻合成[10],這是第一個(gè)真正意義上的輸入文本直接輸出語(yǔ)音的端到端語(yǔ)音合成系統(tǒng)[11],簡(jiǎn)化了傳統(tǒng)語(yǔ)音合成步驟,但其訓(xùn)練速度較慢,且因聲碼器在合成音頻中會(huì)丟失大量相位信息,所以音頻質(zhì)量得不到較好保證。文獻(xiàn)[12]是谷歌公司提出的第二代Tacotron,它的模型架構(gòu)中舍去了CBHG(Convolution Bank Highway Network Bidirectional Gated Recurrent Unit)模塊,使用了位置敏感注意力機(jī)制[13],并將聲碼器更改為WaveNet[14]。得益于WaveNet聲碼器,音頻合成質(zhì)量明顯提升。但受制于自回歸模型架構(gòu),訓(xùn)練速度依然緩慢。文獻(xiàn)[15]將自然語(yǔ)言處理領(lǐng)域大放異彩的Transformer 結(jié)構(gòu)運(yùn)用在語(yǔ)音合成領(lǐng)域,使用多頭注意力機(jī)制來(lái)代替速度較慢的RNN(Recurrent Neural Network)[16]網(wǎng)絡(luò)和原始的注意力機(jī)制。編碼器和解碼器在隱藏層是平行結(jié)構(gòu),這樣可以有效提升訓(xùn)練效率。但模型在獲取音頻特征時(shí)存在損失,合成音頻效果較差。其他語(yǔ)音合成模型還包括Deep Voice1[17]、Deep voice2[18]等。
針對(duì)以上語(yǔ)音合成方法訓(xùn)練速度慢、音頻質(zhì)量不高等問(wèn)題,本文提出了一種基于非自回歸模型的中文語(yǔ)音合成方法。模型采用多頭注意力機(jī)制和并行化編解碼器提高合成效率,利用可變信息適配器添加音頻特征使梅爾頻譜擁有更豐富特征信息,提升了所合成語(yǔ)音質(zhì)量。并將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用在聲碼器中,成功合成了高質(zhì)量音頻。
本文所提出的基于非自回歸模型的語(yǔ)音合成系統(tǒng),由三大部分:前端處理、聲學(xué)模型和聲碼器組成。模型結(jié)構(gòu)如圖1所示。
圖1 模型結(jié)構(gòu)圖
前端處理負(fù)責(zé)將輸入的中文漢字轉(zhuǎn)換為最小聲音單元:音素。再將音素輸入到聲學(xué)模型中,經(jīng)過(guò)編解碼器轉(zhuǎn)換,音素序列由解碼器輸出為梅爾頻譜。聲碼器由生成器和判別器組成,利用生成器生成音頻波形,判別器將真實(shí)音頻與合成音頻進(jìn)行判斷,得以輸出高質(zhì)量的合成音頻。
在神經(jīng)網(wǎng)絡(luò)中,機(jī)器并不能直接識(shí)別輸入的中文漢字,要利用模型合成中文音頻,第一步是將漢字轉(zhuǎn)換為音素。前端處理主要包括文本規(guī)范化、漢字轉(zhuǎn)拼音、拼音轉(zhuǎn)音素。在進(jìn)行文本規(guī)范化時(shí),主要針對(duì)多音字、符號(hào)、日期、時(shí)間等進(jìn)行規(guī)范化處理。例如句號(hào)標(biāo)記為長(zhǎng)時(shí)間停頓,逗號(hào)標(biāo)記為短時(shí)間停頓;2020 年10 月1 日轉(zhuǎn)換為二零二零年十月一日;16:34 轉(zhuǎn)換為十六點(diǎn)三十四分等。漢字轉(zhuǎn)拼音則使用內(nèi)嵌《漢語(yǔ)拼音方案》工具pypinyin 進(jìn)行轉(zhuǎn)換,同時(shí)可在轉(zhuǎn)換時(shí)提供該漢字聲調(diào)。音素采用國(guó)際音標(biāo)(IPA)標(biāo)記,將拼音轉(zhuǎn)為音素更有利于合成語(yǔ)音質(zhì)量的提升。由于漢語(yǔ)具有多音字的特殊性,多音字在轉(zhuǎn)換時(shí)不容易得到正確讀音,需構(gòu)建多音字詞庫(kù),在文字轉(zhuǎn)拼音時(shí)與多音字詞庫(kù)進(jìn)行匹配,輸出正確讀音。
聲學(xué)模型部分由編碼器、可變信息適配器、梅爾頻譜解碼器組成用以生成梅爾頻譜。結(jié)構(gòu)如圖2 所示。
圖2 聲學(xué)模型結(jié)構(gòu)圖
將前端處理后的音素作為輸入,通過(guò)獨(dú)熱編碼(one-hot encoding)將音素符號(hào)編碼為向量轉(zhuǎn)換到音素嵌入層。獨(dú)熱編碼器將總的音素個(gè)數(shù)表示為N,單個(gè)音素使用N-1 個(gè)0 和單個(gè)1 的向量來(lái)表示。本文中的非自回歸模型的注意力機(jī)制并沒(méi)有位置信息,為了注意詞與詞之間的位置關(guān)系,針對(duì)位置不敏感的模型需采用相對(duì)位置編碼,使用正余弦函數(shù)表示絕對(duì)位置,相乘得到相對(duì)位置。
這里PE表示二維矩陣,pos為詞語(yǔ)在句子中的位置,2i和2i+1 表示詞向量位置,dmodel是每個(gè)一幀的詞向量維數(shù)。
編碼器與解碼器均由包含自注意力機(jī)制和一維卷積網(wǎng)絡(luò)4 個(gè)前饋網(wǎng)絡(luò)組成,前饋網(wǎng)絡(luò)中分別在多頭注意力機(jī)制和一維卷積網(wǎng)絡(luò)后添加了殘差網(wǎng)絡(luò)和層歸一化。通過(guò)前饋網(wǎng)絡(luò)將音素序列轉(zhuǎn)換為隱藏序列,音素序列作為前饋網(wǎng)絡(luò)的輸入,利用自注意力機(jī)制中的多頭注意力可以注意整個(gè)序列的上下文信息。多頭注意力機(jī)制是注意力模型中的一種,注意力模型由Q(query) 、K(key) 、V(value)組成,本質(zhì)上是對(duì)V進(jìn)行加權(quán)求和,而Q和K是對(duì)V進(jìn)行權(quán)重的計(jì)算。多頭注意力中創(chuàng)建query、key、value三個(gè)向量,各自進(jìn)行相應(yīng)的線性變換輸入到放縮點(diǎn)積注意力中,如下所示:
其中W為待訓(xùn)練的權(quán)值參數(shù)矩陣,有h個(gè)頭即有h個(gè)維度,每個(gè)維度都為一個(gè)向量,即每次Q、K、V進(jìn)行線性變換時(shí)參數(shù)矩陣W均隨之變換,最后做h次放縮點(diǎn)積參數(shù)后進(jìn)行線性變換作為多頭注意力的結(jié)果。
可變信息適配器[19]由時(shí)長(zhǎng)預(yù)測(cè)器、長(zhǎng)度規(guī)范器、音高預(yù)測(cè)器和能量預(yù)測(cè)器組成,它從真實(shí)錄音中提取音頻的時(shí)長(zhǎng)、音高和能量信息添加到由編碼器輸出的隱藏序列中用以預(yù)測(cè)目標(biāo)語(yǔ)音。一個(gè)音素序列往往要短于梅爾頻譜序列長(zhǎng)度,為解決音素序列長(zhǎng)度和梅爾頻譜序列長(zhǎng)度不匹配的關(guān)系,假設(shè)音素時(shí)長(zhǎng)為d,長(zhǎng)度規(guī)范器會(huì)擴(kuò)大音素序列的隱藏層d倍,總的隱藏層長(zhǎng)度將會(huì)與梅爾頻譜長(zhǎng)度相等,長(zhǎng)度規(guī)范器可表示為
Hpho表示音素隱藏層序列,D表示音素時(shí)長(zhǎng)序列,α是確定Hmel梅爾頻譜序列拓展長(zhǎng)度的超參數(shù)。隱藏序列經(jīng)過(guò)時(shí)長(zhǎng)預(yù)測(cè)器將會(huì)輸出對(duì)數(shù)域中音素的長(zhǎng)度,經(jīng)過(guò)音高預(yù)測(cè)器輸出幀級(jí)的基頻序列,而能量預(yù)測(cè)期則會(huì)輸出梅爾頻譜幀的能量序列。
最后解碼器將添加了可變信息適配器語(yǔ)音信息的隱藏序列作為輸入,經(jīng)過(guò)與編碼器相同的前饋網(wǎng)絡(luò),通過(guò)輸出線性層將256維隱藏序列轉(zhuǎn)換為80維梅爾頻譜序列。
將梅爾頻譜轉(zhuǎn)換為音頻形式所需聲碼器主要類型為純信號(hào)處理、自回歸神經(jīng)網(wǎng)絡(luò)模型和非自回歸神經(jīng)網(wǎng)絡(luò)模型。純信號(hào)處理的聲碼器代表有Griffin-lim、world 等,在梅爾頻譜到音頻的映射時(shí)會(huì)引入明顯的偽像,造成音頻聽(tīng)感含有金屬感。自回歸神經(jīng)網(wǎng)絡(luò)模型的聲碼器代表有WaveNet、WaveRNN[20]等,合成音頻效果較好,但由于自回歸下一步的輸入必須依賴上一步的輸出,所以合成音頻效率較低。非自回歸網(wǎng)絡(luò)模型聲碼器代表為WaveGlow[21]和Parallel WaveNet[22],這一類型聲碼器訓(xùn)練過(guò)程太過(guò)復(fù)雜,訓(xùn)練速度雖快于自回歸模型但效果略差。
本文采用基于生成對(duì)抗網(wǎng)絡(luò)(GAN)[23~25]的非自回歸模型聲碼器,由生成器和判別器兩大部分組成。聲碼器結(jié)構(gòu)如圖3所示。
圖3 聲碼器結(jié)構(gòu)圖
生成器是非自回歸前饋卷積網(wǎng)絡(luò),將解碼器輸出的梅爾頻譜序列作為輸入,通過(guò)反卷積網(wǎng)絡(luò)對(duì)頻譜序列進(jìn)行上采樣,卷積核的大小是步長(zhǎng)的兩倍。在每個(gè)上采樣層后連接殘差模塊和空洞卷積以擴(kuò)大感受域。為了能更好還原音頻特征,通過(guò)分析濾波器得到子頻帶的目標(biāo)波形,采用多分辨率的短時(shí)傅里葉對(duì)子頻段進(jìn)行計(jì)算:
對(duì)于單個(gè)短時(shí)傅里葉變換目標(biāo)函數(shù),本文將最頻譜收斂Lsc最小化:
這里‖ ·‖F(xiàn)屬于F-范數(shù),x表示原始音頻,為生成器生成的預(yù)測(cè)音頻波形。
所有子頻帶信號(hào)相加合成為全頻帶信號(hào)作為判別器輸入,全頻帶信號(hào)經(jīng)過(guò)平均池化為三個(gè)不同尺度的音頻信號(hào),分別經(jīng)過(guò)三個(gè)不同尺度的判別器:D1、D2 、D3。D1 以原始尺度音頻波形執(zhí)行,D2 和D3 分別以2、4 倍數(shù)的下采樣執(zhí)行。判別模塊結(jié)構(gòu)如圖4所示。
圖4 判別模塊結(jié)構(gòu)圖
判別模塊通過(guò)計(jì)算不同尺度上生成音頻和真實(shí)音頻之間的特征圖損失與均方損失函數(shù),通過(guò)對(duì)抗學(xué)習(xí)使判別器無(wú)法判斷生成器生成音頻的真假。
另外,政府及行業(yè)協(xié)會(huì)還應(yīng)該積極舉辦低碳環(huán)保宣傳活動(dòng),增強(qiáng)國(guó)民低碳意識(shí),使企業(yè)、游客、社區(qū)居民能夠在旅游的各個(gè)環(huán)節(jié)自覺(jué)踐行節(jié)能減排的行動(dòng),真正實(shí)現(xiàn)旅游的綠色低碳可持續(xù)發(fā)展目標(biāo)。
本文采用由年齡20 歲~30 歲專業(yè)播音女性在專業(yè)錄音棚環(huán)境錄制(錄制環(huán)境及設(shè)備保持不變,錄音環(huán)境信噪比不低于35dB),音頻容量為10000句,每句長(zhǎng)度約為16 個(gè)字的WAV 格式語(yǔ)音合成數(shù)據(jù)集,總時(shí)長(zhǎng)約為12h,采樣率為48kHz,16bit。其中數(shù)據(jù)標(biāo)注已完成韻律標(biāo)注、音字校對(duì)以及中文聲韻母邊界切分。其中8000 句作為訓(xùn)練集,1000 句作為驗(yàn)證集,1000句作為測(cè)試集。
實(shí)驗(yàn)基于Linux 16.04 操作系統(tǒng),GPU 采用NVIDIA GeForce GTX 1070Ti,CPU Intel i7-7700,訓(xùn)練框架為TensorFlow 2.0。
聲學(xué)模型由4 個(gè)前饋模塊組成編碼器和解碼器,解碼器和編碼器中隱藏層數(shù)和大小分別為4 和384。多頭注意力機(jī)制中,頭數(shù)設(shè)置為2,卷積核大小為3。可變信息適配器兩層卷積核大小分別為9和3,丟棄率為0.5。批大小設(shè)置為16,Adam優(yōu)化器β1=0.9 ,β2=0.98 ,ξ=1e-6 ,初始學(xué)習(xí)率為0.001。訓(xùn)練迭代次數(shù)在160K時(shí)模型收斂。
聲碼器中生成器模型初始卷積層和結(jié)束卷積層卷積核大小為7,殘差層中的空洞卷積核大小為3,殘差層數(shù)設(shè)置為4,輸出通道為4 個(gè)子頻段音頻。判別器在3 種尺度來(lái)判斷真實(shí)音頻與生成音頻特征,池化層大小為4,非線性激活函數(shù)使用Leaky ReLU,α=0.2。批大小大64,Adam優(yōu)化器[26]學(xué)習(xí)率使用分段恒定衰減。訓(xùn)練迭代次數(shù)在1740K時(shí)模型收斂。
本文通過(guò)TensorFlow 可視化工具,將訓(xùn)練后的訓(xùn)練集和驗(yàn)證集loss 進(jìn)行可視化分析。通過(guò)訓(xùn)練集和驗(yàn)證集收斂情況,可以判斷模型訓(xùn)練效果是否良好。結(jié)果如圖5所示。
圖5 可視化loss曲線
其中圖5(a)為訓(xùn)練集收斂情況,圖5(b)為驗(yàn)證集收斂情況。由圖5 可知,訓(xùn)練集loss 迭代次數(shù)在160K時(shí)基本收斂,loss系數(shù)為0.135。驗(yàn)證集loss迭代次數(shù)在80K 時(shí)收斂,loss系數(shù)為0.182。訓(xùn)練集與驗(yàn)證集均能收斂,說(shuō)明模型訓(xùn)練效果良好。
本文利用原始錄制語(yǔ)音文本,分別合成20 段音頻,并隨機(jī)選取其中三段與原始音頻進(jìn)行對(duì)比。利用Sonic Visualiser 音頻分析軟件生成各段語(yǔ)音頻譜圖進(jìn)行對(duì)比。對(duì)比結(jié)果如圖6所示。
圖6 頻譜對(duì)比分析圖
圖6 (a)、(b)、(c)為三段頻譜對(duì)比圖,左方為合成語(yǔ)音,右方為原始音頻。每段語(yǔ)音文字分別為“寶馬配掛跛騾鞍,貂蟬怨枕董翁榻”、“老虎幼崽與寵物犬玩?!薄ⅰ澳显嚼錾脚c西藏接壤”。由圖6可知,合成語(yǔ)音較原始音頻字與字發(fā)音更為清晰,各音素間間隔較為分明。但是在字與字間過(guò)渡較為生硬,連續(xù)性較差。分析共振峰可知,合成語(yǔ)音頻率較高,相較于原始音頻擁有更高的音高。
MOS 評(píng)分邀請(qǐng)30 名無(wú)明顯聽(tīng)力缺陷大學(xué)生對(duì)合成語(yǔ)音進(jìn)行打分:5分優(yōu)秀;4分良好;3分中等;2分較差;1分差,最小分值間隔為0.5,最后綜合所有得分選取平均分作為最終得分。
本文將真實(shí)音頻、Tacatron2和傳統(tǒng)參數(shù)式模型與本模型所合成語(yǔ)音進(jìn)行對(duì)比,由表1 可知,得分最高為真實(shí)音頻,說(shuō)明評(píng)分符合實(shí)際情況真實(shí)有效。Tacotron2 聲碼器選用WaveNet。本文所提出的基于非自回歸模型所合成語(yǔ)音得分明顯高于傳統(tǒng)參數(shù)式模型,略低于Tacotron2 模型和真實(shí)語(yǔ)音,說(shuō)明合成質(zhì)量較為優(yōu)異。
表1 平均主觀意見(jiàn)得分
客觀評(píng)價(jià)法是將合成音頻的梅爾頻率倒譜系數(shù)(MFCC)與原始音頻梅爾頻率倒譜系數(shù)差距進(jìn)行計(jì)算,原始音頻MFCC 特征設(shè)為x,合成音頻特征為,計(jì)算公式為
由表2可知,基于非自回歸模型的MCD值在三種方法中MCD值最低,表明合成音頻MFCC特征與原始音頻MFCC特征差距最小,語(yǔ)音合成質(zhì)量最高。
表2 客觀評(píng)價(jià)法MCD值
語(yǔ)音合成中模型訓(xùn)練速度同樣是一項(xiàng)重要指標(biāo),本文分別統(tǒng)計(jì)了自回歸模型Tacotron2 與非自回歸訓(xùn)練所需時(shí)長(zhǎng)。
由表3 可知,Tacotron2 是基于自回歸模型,需要編碼器和解碼器序列對(duì)齊,解碼器依賴于上一步的輸出,所以訓(xùn)練速度較慢,本文所提出的非自回歸模型編解碼器是并行化結(jié)構(gòu),解碼器不依賴上一步輸出,訓(xùn)練速度較快。
表3 神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時(shí)間
本文提出一種基于非自回歸模型的語(yǔ)音合成方法,輸入音素序列經(jīng)過(guò)編碼器和多頭注意力機(jī)制轉(zhuǎn)換為隱藏序列,再加上可變信息適配器預(yù)測(cè)的相關(guān)音頻特征,解碼器接受到添加音頻特征的隱藏序列后將其轉(zhuǎn)換為梅爾頻譜。梅爾頻譜作為聲碼器的輸入,經(jīng)過(guò)生成器和判別器語(yǔ)音波形合成生成相應(yīng)原始音頻。經(jīng)過(guò)研究得到以下結(jié)論:
1)本文基于非自回歸模型的語(yǔ)音合成方法,訓(xùn)練速度快于基于自回歸模型語(yǔ)音合成方法。
2)使用基于非自回歸網(wǎng)絡(luò)的聲學(xué)模型,合成語(yǔ)音質(zhì)量與自回歸模型相近,顯著高于傳統(tǒng)參數(shù)式方法。
3)采用基于生成對(duì)抗網(wǎng)絡(luò)的聲碼器用于音頻波形生成,證明GAN 網(wǎng)絡(luò)也能在語(yǔ)音合成中得到良好效果。