国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Tacotron 模型和韻律修正的情感語音合成方法

2022-08-13 12:35:34胡航燁曹欣怡
數(shù)據采集與處理 2022年4期
關鍵詞:基頻韻律語料庫

張 昕,胡航燁,曹欣怡,王 蔚

(南京師范大學教育科學學院,南京 210097)

引 言

情感語音的合成逐步成為語音處理技術的熱點方向,合成自然度高而且包含豐富情感信息的語音對實現(xiàn)更自然的人機交互有著重要意義。傳統(tǒng)的合成方法主要有以下3 種:波形拼接法、韻律特征修改法以及基于隱馬爾可夫模型(Hidden Markov model,HMM)的合成法。波形拼接的合成方法需要從大量的情感數(shù)據庫中搜尋滿足目標情感的音頻片段,并根據一定的序列進行銜接,然而其語料庫成本過高且語音片段拼接點處過于生硬,難以合成語料庫之外的聲音。韻律特征修改能有效改善合成語音情感缺乏的問題,卻是以降低音頻質量為代價。基于隱馬爾可夫模型(Hidden Markov model,HMM)的方法,受人為干擾的影響較小,但由于其生成的是均值矢量參數(shù)序列,合成的聲音過于平滑,無法有效表達需要的情感。深度學習算法的快速發(fā)展使語音合成領域的研究者們看到了希望,各類神經網絡在語音合成中應用無需決策樹聚類,便可從語言特征到聲學特征轉換的過程中學習到直接、分層和非線性的模型[1],快速提升合成語音的質量。如WaveNet[2]是基于PixelCNN 架構、在不增加計算成本的條件下使用帶洞卷積直接生成語音波形的一種深度學習合成模型,其合成質量都優(yōu)于傳統(tǒng)方法,但計算量大仍然是其主要缺點,而且該模型未進行前端文本的改進處理。Char2Wav 整合了前端和后端,由神經聲碼器和讀取器組成,直接從文本生成語音,但它使用的仍然是SampleRNN 神經聲碼器之前的預測聲碼器參數(shù)[3]。Tacotron 是一種基于注意力機制的典型端到端合成模型,它屬于幀級模型,不需要在音素級別進行對齊操作,根據〈文本,音頻〉對,采取隨機初始化方式從零訓練,方便在多種聲學數(shù)據中泛化和擴展[4]。Fastspeech 通過概率密度蒸餾等方法并行生成中間表征,相比較于自回歸的聲學模型其合成速度有了明顯提升,但實現(xiàn)模型結構中的Pipeline 比較復雜[5]。

Tacotron 等經典模型由于并未清晰地實現(xiàn)韻律建模,合成的語音相比真實人聲顯得生硬呆板[6],因此研究者們一直致力于如何實現(xiàn)表現(xiàn)力更豐富的情感語音合成。合成情感語音一般有以下兩種方式:

(1)先合成出中立的語音,再根據不同情感狀態(tài)下的聲學特征規(guī)律對中立語音進行修改,最后得到情感語音。如何凌等建立了高興、生氣、悲傷和無聊4 種情感的韻律特征模板,借助時域基因同步疊加算法(Time domain pitch synchronous overlap add,TD-PSOLA)算法對中性狀態(tài)的語音參數(shù)進行調整,其合成出的情感語音得到了較高的正確判別率[7]。陳潔等基于HMM 可訓練合成方法合成中立語音,并通過分析平靜、高興、悲傷和生氣4 種情感的韻律特征變化規(guī)律,用Praat 軟件對中立語音的特征參數(shù)進行修改,最終合成情感語音[8]。Wang 等提出了一種多級韻律轉換的方法,從句子、音節(jié)和韻律詞3 個層次對基頻F0、短時能量和語速進行修改,將中性語音轉換為情感語音[9]。這種方法雖然情感表達準確,但多為人工干涉,在語音的自然度上容易有所欠缺。

(2)通過對情感數(shù)據庫中的音頻進行訓練,直接生成目標情感語音。如Lee 等在韓語情感語料庫上訓練Tacotron 模型,能成功地為給定情感標簽生成語音[10]。這種方法在語音的自然度方面具有良好的表現(xiàn),但是在部分語音的情感度上,其表達的情感并不夠精確,與目標情感存在一定的差異。因此一些研究者提出了對合成出的情感語音進行韻律特征修改的方法,如陳明義等建立了高興、悲傷、中立以及憤怒4 種不同情感的韻母基音模板庫,從中挑選符合目標情緒的語音片段,運用基音同步疊加算法合成波形,并修改合成語音的韻律參數(shù),得到了更理想的情感聲音[11]。Zhang 等采用深度神經網絡(Deep neural networks,DNN)預測目標情感語音聲學參數(shù),對愉悅度、激活度、優(yōu)勢度(Pleasure-arousal-dominance)三維情感空間模型坐標值進行聚類并根據方差值計算訓練結果與參考值之間的距離,按照不同情感權重的高低對相應韻律參數(shù)進行調整,主觀印象分(Mean opinion score,MOS)結果表明,該方法的語音合成效果優(yōu)于傳統(tǒng)的DNN 模型和HMM 模型[12]。

考慮到Tacotron 模型能夠簡單高效地合成出較為自然的語音但情感表達度又不夠,本文在該模型的基礎上,進行端到端的情感語音合成并對合成的情感語音進行韻律特征的調整,從而合成出情感表達自然且豐富的語音。

1 基于韻律修改的端到端情感語音合成

1.1 數(shù)據集

由于缺乏用于合成的情感語料,模型在進行訓練時容易造成過擬合現(xiàn)象。該研究對LJ平靜狀態(tài)語音數(shù)據集進行訓練,保留中性語音模型,并在訓練出的權重基礎上對情感語料庫中的訓練模型進行調整。

(1)LJ 中性語料庫[13]

LJ 中性語料庫由一位說話者朗讀生成13 100 個中立語音,該中性語料庫含有與音頻配對的文本以及同名的ID 序列,存儲在Metadata 數(shù)據文件當中。

(2)Emotional Voices 數(shù)據集

Emotional Voices 數(shù)據集是由Adaeze 等[13]結合2 個中立數(shù)據集(CMU-Arctic 英語數(shù)據集和SIWIS法語數(shù)據集)轉錄得到的情感語料庫。該語料庫包含2 位男性英國說話人、2 位女性英國說話人和1 位法國男性說話人。本文研究選取了其中一位英國女性的語音,包括中性、氣憤、疲倦、憎惡和逗樂5 種情感,其中逗樂情感的語音包含笑聲。

1.2 基于Tacotron 模型和韻律特征修改的情感語音合成框架

端到端語音合成模型將傳統(tǒng)語音合成系統(tǒng)中的3 大模塊集成封裝于一體,既可避免不同語言學背景人員造成的文本標注差異,也降低了語音合成研究者在發(fā)聲機理方面的門檻,它能夠根據輸入的文本信息直接合成出需要的目標音頻。本文研究選取了當前廣泛使用的端到端語音合成模型Tacotron,并在其基礎上增加韻律調整技術,構建了端到端和韻律修正相結合的情感語音合成框架。基于Tacotron 和韻律轉換的情感語音合成方法框架如圖1 所示。本框架可分為3 個模塊:Tacotron 訓練模塊;特征分析模塊和情感語音合成模塊。圖1 中CBHG 為由一維卷積濾波器、高速公路網絡、雙向門控遞歸單元組合成的模塊(1-D convolution bank+highway network+bidirectional GRU model,CBHG)。

圖1 基于Tacotron 模型和韻律特征修改的情感語音合成框架Fig.1 Framework for affective speech synthesis based on Tacotron model and prosodic feature modification

1.2.1 模型訓練

在初期階段,對待訓練的文本和語音進行相應配對,實施流程化的預處理操作,分氣憤、逗樂、憎惡和疲倦多種不同情感輸入Tacotron 模型,它可以利用深度神經網絡推理模型,根據嵌入的不同情感進行遷移學習和自適應學習,訓練出目標情感模型,最后將訓練好的相應情感語音合成模型各自保存以便后續(xù)合成目標情感語音。

Tacotron 主要由3 部分組成,分別為編碼器、帶有注意力機制的解碼器以及后處理網絡[4]。編碼器能夠從文本中提取出穩(wěn)健序列,通過Pre-net 預處理結構對字符向量進行非線性操作,其中的Dropout 層協(xié)助模型更快地收斂和泛化;隨后連接一個CBHG 模塊,對所有卷積層進行批量歸一化并輸入到Highway net 部分進行高級特征提取,再借助雙向門控循環(huán)單元(Gated recurrent unit,GRU)提取出上下文序列信息。解碼器采用基于內容的注意力機制將自身注意力機制循環(huán)神經網絡(Attention-recurrent neural network,Attention-RNN)的輸出和編碼器傳送到上下文矢量連接,并作為Decoder-RNN 的輸入,其輸出又與解碼器的初始幀輸入結合,繼而生成Mel 譜幀;它包含有與編碼器相同結構的Pre-net 預處理網絡,并采用垂直殘差連接的GRU 加快收斂速度。解碼器沒有直接將輸出轉化為音頻,而是用不同于編碼器參數(shù)的CBHG 模塊作為后處理結構,它可以透析完整的解碼序列,提取序列特征,同時通過雙向傳播來更正各個幀所出現(xiàn)的不匹配問題,然后用Griffin-Lim 算法將后處理的輸出合成為語音。

1.2.2 特征分析

聲學特征主要包含3 大類:廣泛研究的韻律特征、基于線性譜或倒譜的譜特征和聲音質量特征?;l、時長和能量是研究者們關注分析的主要特征?;l指基音振動的頻率,能夠反映說話人的音色與腔調,決定情感語音語調的高低。激活度高的情感音調偏高,變化幅度較大;激活度低的情感則基頻值相對較低,變化幅度較小。時長反映的是語速的快慢,時長與語速成反比,人們處于激活度高的情緒狀態(tài)時,想要表達出來的感受更為迫切,因而一般語速較快,時長較短。聲音的強度可以通過短時能量來表示,能量變化幅度越大,情感激活度越高。

本文研究利用Praat 聲學軟件對語料庫中情感語音的韻律特征進行提取及分析,通過默認的自相關方法獲取不同類別情感的基頻并分析其曲線變化、借助持續(xù)時長和平均發(fā)音速率分析不同情感差異、比較短時能量的均值、最大值和最小值等振幅參數(shù)值并分析不同情感的能量曲線,進而歸納出各種情感色彩韻律參數(shù)的變換規(guī)律,具體分析將在第2 節(jié)中詳細闡述。

1.2.3 情感語音合成及優(yōu)化

根據待合成文本的上下文信息,調用訓練階段所合成的端到端不同情感模型生成目標情感語音,根據分析階段所獲得的不同情感語音的韻律參數(shù)規(guī)律,在保證整體基頻曲線不變、原始合成音頻速率和參照音頻速率之間比例關系確定以及振動幅度比例關系確定的情況下,成倍數(shù)關系對目標情感語音進行參數(shù)調整和韻律修改,合成表現(xiàn)力更豐富的情感語音,提高所合成情感語音的準確性,具體調整方法將在第2 節(jié)中詳細闡述。

2 韻律特征參數(shù)的分析與修正

情感語音合成所研究的聲學參數(shù)以基頻、持續(xù)時間和振幅能量這幾種韻律學參數(shù)為主。聲音頻率的高低變化即基頻能夠對不同情緒狀態(tài)下的聲調變換進行恰當表示,是語音韻律研究的重要指數(shù)。表達者說話速度的快慢通過時長反映,積極情境與消極狀態(tài)下的時長消耗有著不同的表現(xiàn)。聲音強度的高低通過能量進行反映,如在興奮、激動和氣憤的情況下,由于難以控制情緒,人們通常會大聲說話,音量不自覺升高;而在難過、憂愁和沮喪等情緒下,聲音強度相對較低。因此,該研究對這3個特征的參數(shù)進行分析與修改。

2.1 基頻

在自然發(fā)音中,基頻(Pitch)決定著說話者的腔調以及音色變化,因此基頻對于語音研究具有重要意義。該研究使用Praat聲學分析軟件作為提取各種情感語音基頻的工具。通過分析比較多條語句的基頻參數(shù),發(fā)現(xiàn)在不同情感狀態(tài)下其基頻參數(shù)具有相似的規(guī)律:氣憤情感基頻均值最高,波動幅值較次于開心情感;逗樂情感基均頻值次之,但其波動幅值較高;氣憤和高興兩種情感的基頻變化起伏較多,另外3 種情感則較少,中性情感的整體基因頻率低于憎惡和疲倦兩種情感,三者的基頻均值從高到低依次為憎惡、疲倦和中性。表1 為其中一句語音“Her own betrayal of herself was like tonic to Philip.”在不同情感下基頻的均值和2 個極值。

表1 5 種情感語音的基頻值Table 1 Fundamental frequency values of five kinds of emotional speeches Hz

本文研究在修改基頻時,主要對基頻均值、基頻變化區(qū)間等進行相應調整。修改基頻均值時,根據合成語音的基頻值與基準值之間的比值(假設為f)進行相應調整,如合成的“氣憤”情感基頻不夠高,就將各處基頻點上的值均提升到原來的f倍;反之,則減小到原來的1/f。在進行基頻修整的時候,其整體的區(qū)間應以同樣的比例進行變換,因此2 個基頻極值應按照對應比例縮放,同時保持原波形走向不變。

2.2 時長

時長(Duration)指說話人表述完一個完整語句所用的時間,同時表明說話速度的快慢。分析比較多條語句在不同情感狀態(tài)下的時長和語速差異,可以明顯地發(fā)現(xiàn):憎惡情感所需時間最長,語速最慢;疲倦情感和中性情感激活程度較低,在時長和平均速率上基本沒有突出變化;氣憤與逗樂語音速率很快,時長偏短,尤其是氣憤語音,其活躍度很高。表2 為其中一句語音“Her own betrayal of herself was like tonic to Philip.”在不同情感狀態(tài)下所需時長和速率值,二者呈明顯的反比例關系。

表2 5 種情感語音的時長與平均速率Table 2 Duration and average rate of five kinds of emotional speeches

根據以上分析,時長參數(shù)的修正可借助語速的調整來優(yōu)化。在修改的過程中應該保持其他語音參數(shù)不變,按照合成語音的時長與基準時長之間的比例(假設為t)改變音頻的速度。例如要減少時長時,可以將語速加快t倍;要增加時長時,將發(fā)音速率減慢到原來的1/t。

2.3 能量

能量(Energy)表示音強,即音頻的強烈程度,通常采用短時能量和短時平均幅度來表示,人在不同情感情境中會有不同的發(fā)音強度?;钴S狀態(tài)的發(fā)音要強于平靜狀態(tài),沮喪低沉時能量較弱。表3 為不同情感語音“Her own betrayal of herself was like tonic to Philip.”的能量值。

表3 5 種情感語音的能量值Table 3 Energy of five kinds of emotional speeches dB

在語音調整時,優(yōu)化音頻信號的擺動幅度即可達到能量修正效果。如情緒較為激動時,其音強較高,可根據合成幅值與基準幅值比,將能量系數(shù)(假設為k)擴大2倍、3倍或者更大;情緒較為低落時,能量值較低,k值縮小。另外,應該使語音信號曲線保持中間幅值高,兩端幅值低的走勢,遵循人體本身的發(fā)音規(guī)律。

3 實驗結果與分析

為了驗證合成語音的效果,該研究進行了情感識別實驗以及主觀聽辨實驗。將未加入韻律修正的端到端情感語音合成方法合成的200 句情感語音和加入韻律調整的合成情感語音進行比較。

3.1 情感識別實驗

借鑒已有的語音情感識別相關方法[14],借助性能良好的卷積神經網絡(Convolutional neural networks,CNN)分類器,根據eGeMAPS 特征集提取特征,對5 種情感進行判別。GeMAPs 特征集對包括頻譜特征、振幅特征、平衡參數(shù)在內的18 個低水平特征進行算術均值和標準離差率計算,在音高和響度的濁音區(qū)進行其他統(tǒng)計操作,再加入時間參數(shù)和4 個清音區(qū)特征,形成62 維特征。eGeMAPS 在此基礎上添加7 個低水平倒譜參數(shù)并對其所有區(qū)域實施算數(shù)平均和變異系數(shù)處理,在共振峰帶寬、頻譜流量、梅爾頻率倒譜系數(shù)1~4 的濁音區(qū)和頻譜流量的清音區(qū)應用統(tǒng)計函數(shù),再加入等效聲級共26 個特征參數(shù),總共得到88 維特征[15]。它涵蓋多種基礎聲學特征,并增添了倒譜參數(shù)和更多的動態(tài)信息,在語音情感識別任務中具有較高的魯棒性。分類結果依據不加權平均召回率(Unweighted average recall,UAR)[16]進行評比,其計算方法如式(1)所示。情感識別模型對未加入韻律修正的合成情感語音的識別率為0.7,而對加入韻律調整的情感語音的識別率為0.76,這表明對情感語音進行韻律優(yōu)化確實能提升合成效果。

式中:N為所有情感類別;ci為第i種情感識別準確的樣本數(shù);ni為第i種情感總樣本數(shù)。

兩種方法的情感識別混淆矩陣如圖2 所示。從圖2 中可以看出,對韻律特征進行修改后,中立、氣憤、逗樂和憎惡情感的分類準確度都得到了提升,尤其是降低了中性和憎惡情感、氣憤和逗樂情感的混淆程度;但是疲倦和憎惡情感的易混率反而更高了,這與兩種情感的特征相似性有關。在下一步的研究中需要采用更為精準的特征分析方法來區(qū)分這兩種情感。

圖2 兩種方法情感識別混淆矩陣Fig.2 Confusion matrices of emotion recognition in two cases

3.2 主觀聽辨實驗

主觀聽辨實驗在中性、逗樂、氣憤、疲倦和憎惡這5 種情感中隨機各選取10 句語音,每句語音片段從3~5 s不等,共50 個樣本,用MOS 和AB 偏好測驗分別來評價所合成情感語音的自然度和情感表現(xiàn)力。

分別選取5 名男性和5 名女性實驗者進行5 級MOS 自然性評測,1 表示很不自然,2 表示較不自然,3 表示一般,4 表示較自然,5 表示很自然,平均意見結果分為3.78。如表4 所示,Wang 等的Tacotron 模型MOS 得分為3.82[4],Zen 等基于長短期記憶網絡的情感語音MOS 得分為3.723[17]。這表明端到端合成出的情感語音進行韻律調整后會一定程度降低語音質量,但其效果仍然高于非端到端的語音合成方法,自然度仍然處于人耳可接受范圍。

表4 不同方式合成的情感語音MOS 評分Table 4 MOS score of emotional speech synthesized in different ways

將未進行韻律特征修改的情感語音(對照組)與修改后的情感語音(實驗組)拼接在一起,同樣選取5名男性和5名女性實驗者進行AB 偏好測試,讓其在“前者更有情感、二者情感相同、后者更有情感”3個選項中進行判斷,偏好結果如圖3所示。在氣憤和逗樂這兩類情感的實驗結果中,實驗組的偏好占比明顯超過對照組,分別為0.44 和0.47,而對于疲倦和憎惡這兩類情感,對照組的偏好反而更強一些,分別比實驗組高出0.05 和0.03,這表明韻律修改的方法能夠在一定程度上增強端到端合成出的逗樂和氣憤兩種情感的表現(xiàn)力度,但在對疲倦和憎惡這兩種情感的表現(xiàn)力上卻引發(fā)了反作用,在情感識別實驗中,這兩種情感的易混度也有所增高,說明這兩種情感的有效表達需要更深層次的分析與研究。

圖3 韻律修正前后4 種情感語音的AB 偏好測試結果Fig.3 AB preference test results of four emotion categories before and after prosodic modification

4 結束語

本文研究采用Tacotron 模型進行端到端情感語音合成,并依據生成語音與基準語音之間的韻律參數(shù)比,對目標語音的基頻、時長和能量等韻律特征進行更正,客觀情感甄別實驗和主觀檢驗均證明該方法對逗樂情感和氣憤情感合成較為有效,對疲倦與憎惡情感的調整有待進一步研究。MOS 評分顯示合成語音的自然度有所下降,這可能是受到人為韻律修改的影響,但依舊在可接受的范圍之內。整體而言,情感分類效果提升了0.6,情感表達的準確度在一定程度上有所提高。

鑒于疲倦與憎惡情感混淆程度較高,未來的工作將會改善韻律特征的分析方法,還應進一步研究除韻律特征外的其他聲學特征對于情感表達的影響。另外,本文采用5 種離散情感進行實驗,范圍有限,下一步研究將考慮更多其他種類的情感或者從維度和連續(xù)情感的角度進行挖掘,期望能夠在保證語音足夠自然的前提下使其情感表現(xiàn)力有更明顯的提升,表達的情感更加豐富準確。

猜你喜歡
基頻韻律語料庫
語音同一認定中音段長度對基頻分析的影響
基于時域的基頻感知語音分離方法?
橋面鋪裝層對中小跨徑橋梁基頻影響分析
《語料庫翻譯文體學》評介
春天的韻律
中華詩詞(2019年1期)2019-08-23 08:24:12
韻律之美——小黃村
45000kHz基頻晶體濾波器
電子制作(2017年20期)2017-04-26 06:57:35
把課文的優(yōu)美表達存進語料庫
維吾爾語話題的韻律表現(xiàn)
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
桑植县| 涟源市| 同德县| 离岛区| 景洪市| 宜黄县| 崇礼县| 乐昌市| 乌拉特前旗| 定兴县| 弋阳县| 若羌县| 古交市| 北宁市| 砀山县| 宁乡县| 大城县| 墨玉县| 皋兰县| 罗甸县| 泌阳县| 上饶市| 沭阳县| 肥乡县| 错那县| 云梦县| 交口县| 定日县| 武城县| 涞水县| 自治县| 绥棱县| 宣汉县| 肇源县| 宣恩县| 洛南县| 手机| 迭部县| 宁晋县| 同德县| 内江市|