国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

神經(jīng)網(wǎng)絡(luò)聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練方法研究

2019-02-15 09:21伍宏傳凌震華
關(guān)鍵詞:數(shù)據(jù)量聲學(xué)波形

伍宏傳,凌震華

(中國科學(xué)技術(shù)大學(xué) 語音及語言信息處理國家工程實(shí)驗(yàn)室,合肥 230027)

1 引 言

語音合成是人機(jī)語音交互中不可或缺的重要技術(shù).近年來,語音合成技術(shù)廣泛應(yīng)用于智能手機(jī)助手、智能音箱、機(jī)器翻譯機(jī)等大眾產(chǎn)品中,同時(shí)人們對(duì)于合成語音質(zhì)量提出越來越高的要求.統(tǒng)計(jì)參數(shù)語音合成方法[1]在最近二十年來發(fā)展迅速,該方法相對(duì)于基于大語料庫的單元挑選與波形拼接合成方法具有系統(tǒng)尺寸小、魯棒性高、體現(xiàn)不同發(fā)音人和發(fā)音風(fēng)格的靈活性強(qiáng)等優(yōu)點(diǎn)[2].但是現(xiàn)階段統(tǒng)計(jì)參數(shù)方法合成語音的質(zhì)量與自然語音相比還存在一定差距.統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)通常由文本分析、聲學(xué)建模、聲碼器三個(gè)模塊組成;聲碼器重構(gòu)語音音質(zhì)損失、聲學(xué)模型建模精度不足與參數(shù)生成中的過平滑效應(yīng)是造成該方法合成語音質(zhì)量受損的三個(gè)主要因素[3].其中聲學(xué)模型將由文本分析得到的文本特征映射到聲學(xué)特征,傳統(tǒng)方法用隱馬爾可夫模型(Hidden Markov Model,HMM)對(duì)聲學(xué)模型建模.近年來,研究者用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)等深度學(xué)習(xí)模型替代傳統(tǒng)的HMM模型構(gòu)建聲學(xué)模型,聲學(xué)模型精度與合成語音自然度均得到了有效改善[4].但是在聲碼器特征提取與波形重構(gòu)過程中的音質(zhì)損失仍然制約著統(tǒng)計(jì)參數(shù)合成語音質(zhì)量的進(jìn)一步提升.

聲碼器實(shí)現(xiàn)從基頻、頻譜等聲學(xué)特征中重構(gòu)語音波形,傳統(tǒng)聲碼器[5-12]基于源-濾波器思想[13,14]設(shè)計(jì),STRAIGHT[10]是現(xiàn)階段統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)中最常用的聲碼器之一.在特征提取階段,STRAIGHT提取每一幀語音信號(hào)的基頻以及去除基音影響的平滑譜包絡(luò).由于譜包絡(luò)維數(shù)較高,譜包絡(luò)通常被轉(zhuǎn)換成維數(shù)較低的倒譜、線譜對(duì)等參數(shù)作為聲學(xué)建模中使用的濾波器表征.在波形重構(gòu)階段,首先將倒譜、線譜對(duì)等頻譜特征轉(zhuǎn)換為譜包絡(luò),然后依據(jù)基頻特征產(chǎn)生激勵(lì)信號(hào),最終通過線性濾波重構(gòu)語音波形.現(xiàn)階段以STRAIGHT為代表的基于源-濾波器模型的聲碼器在以下方面存在不足.首先,由于譜包絡(luò)維數(shù)較高,譜包絡(luò)通常被轉(zhuǎn)換成維數(shù)較低的倒譜、線譜對(duì)等參數(shù)作為聲學(xué)建模中使用的濾波器表征,這樣造成頻譜細(xì)節(jié)的丟失;其次,傳統(tǒng)聲碼器提取的頻譜特征往往丟失了相位信息,波形重構(gòu)中使用的語音相位往往依賴最小相位假設(shè)和人工設(shè)計(jì);最后,傳統(tǒng)聲碼器使用時(shí)變的線性濾波器來模擬聲道濾波過程,而自然語音的采樣點(diǎn)之間存在非線性相關(guān)性,這種線性濾波框架不足以精確描述語音波形點(diǎn)的生成過程.

2016年Deep Mind研究者提出了用于直接對(duì)語音波形建模與生成的深度卷積神經(jīng)網(wǎng)絡(luò)WaveNet[15],并將其用于從文本特征預(yù)測(cè)語音波形,取得了優(yōu)于傳統(tǒng)統(tǒng)計(jì)參數(shù)方法的合成語音自然度.已有研究工作[16-18]將WaveNet引入?yún)?shù)語音合成的聲碼器構(gòu)建,使用STRAIGHT提取的語音基頻、頻譜等聲學(xué)特征作為WaveNet的條件輸入,利用特定目標(biāo)發(fā)音人的語音數(shù)據(jù)進(jìn)行模型的訓(xùn)練.對(duì)比傳統(tǒng)源-濾波器聲碼器,基于WaveNet的神經(jīng)網(wǎng)絡(luò)聲碼器具有以下優(yōu)勢(shì).首先,傳統(tǒng)聲碼器采用線性濾波器重構(gòu)語音,而神經(jīng)網(wǎng)絡(luò)聲碼器采用多層帶有非線性激活函數(shù)的卷積層來生成波形,具有靈活的非線性處理能力;其次,神經(jīng)網(wǎng)絡(luò)聲碼器模型利用自然語音數(shù)據(jù)通過機(jī)器學(xué)習(xí)方法構(gòu)建,能夠較好的彌補(bǔ)輸入聲學(xué)特征相位和頻譜細(xì)節(jié)缺失的問題.現(xiàn)階段實(shí)驗(yàn)結(jié)果表明在輸入自然聲學(xué)參數(shù)以及由統(tǒng)計(jì)參數(shù)語音合成系統(tǒng)預(yù)測(cè)的聲學(xué)參數(shù)情況下均取得了優(yōu)于STRAIGHT聲碼器的重構(gòu)語音質(zhì)量[18].

現(xiàn)有的WaveNet聲碼器[18]采用話者相關(guān)方法訓(xùn)練,為了取得較好的模型精度和重構(gòu)語音質(zhì)量,對(duì)于目標(biāo)發(fā)音人的語音數(shù)據(jù)量有較高要求,這限制了WaveNet聲碼器在目標(biāo)發(fā)音人數(shù)據(jù)量受限的語音轉(zhuǎn)換、個(gè)性化語音合成等任務(wù)中的應(yīng)用.因此,本文面向目標(biāo)發(fā)音人語音數(shù)據(jù)量受限情況,設(shè)計(jì)實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練方法.首先利用多發(fā)音人數(shù)據(jù)訓(xùn)練話者無關(guān)的WaveNet聲碼器模型,進(jìn)一步利用少量目標(biāo)發(fā)音人數(shù)據(jù)對(duì)話者無關(guān)模型進(jìn)行自適應(yīng)更新,以得到目標(biāo)發(fā)音人的神經(jīng)網(wǎng)絡(luò)聲碼器模型.本文實(shí)驗(yàn)分析對(duì)比了自適應(yīng)訓(xùn)練中局部更新與全局更新兩種策略,以及相同訓(xùn)練數(shù)據(jù)下自適應(yīng)與話者相關(guān)兩種訓(xùn)練方法.實(shí)驗(yàn)結(jié)果表明,利用本文提出方法構(gòu)建的神經(jīng)網(wǎng)絡(luò)聲碼器不僅可以取得優(yōu)于傳統(tǒng)STRAIGH聲碼器的重構(gòu)語音質(zhì)量,在目標(biāo)發(fā)音人語音數(shù)據(jù)量較少的情況下,該方法相對(duì)話者相關(guān)訓(xùn)練也可以取得更好的客觀和主觀性能表現(xiàn).

2 WaveNet簡介

WaveNet[15]是一種自回歸的深度生成模型.它直接在語音波形層面建模,將波形序列的聯(lián)合概率分解為條件概率連乘:

(1)

其中xn是n時(shí)刻采樣點(diǎn),每一個(gè)因子項(xiàng)表示用n時(shí)刻以前的歷史信息作為輸入預(yù)測(cè)當(dāng)前采樣點(diǎn)的概率分布.WaveNet采用因果卷積神經(jīng)網(wǎng)絡(luò)來對(duì)條件概率建模,由于語音波形序列的長時(shí)相關(guān)性,WaveNet使用了擴(kuò)張因果卷積網(wǎng)絡(luò)結(jié)構(gòu)(帶孔的因果卷積)來獲得足夠大的接受野,即使用較長的波形歷史作為輸入來預(yù)測(cè)當(dāng)前波形點(diǎn),(1)式中條件概率項(xiàng)近似為:

p(xn|xn-R,xn-R+1,…,xn-1)

(2)

其中R是接受野長度.

WaveNet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示, 它采用了類似PixelCNN[19,20]的加門控激活函數(shù):

z=tanh(Wf,k*x)⊙σ(Wg,k*x)

(3)

圖1 WaveNet結(jié)構(gòu).“因果”、“1×1”、“2×1擴(kuò)張”分別代表因果、1×1和擴(kuò)張因果卷積,“ReLu”、“加門控”和“Softmax”分別代表修正線性單元、加Sigmoid門控和Softmax激活函數(shù).Fig.1 WaveNetarchitecture.“Causal”,“1×1” and “dilated” represent causal,1×1,and dilated causal convolution respectively.“ReLu” ,“Gated” and “Softmax” represent rectifier linear unit,gated and softmax activation function,respectively.

其中*是卷積運(yùn)算,⊙是點(diǎn)乘運(yùn)算,σ(·)是Sigmoid函數(shù),Wf,k,Wg,k分別代表第k層的濾波卷積權(quán)重與門控卷積權(quán)重.WaveNet還采用殘差網(wǎng)絡(luò)[21]結(jié)構(gòu)以及參數(shù)化的跳躍鏈接(skip connection)來構(gòu)建深層次的網(wǎng)絡(luò),同時(shí)這種網(wǎng)絡(luò)結(jié)構(gòu)也有助于加快模型收斂.網(wǎng)絡(luò)輸出層采用了softmax激活函數(shù)輸出當(dāng)前采樣點(diǎn)波形幅度量化值的概率分布,WaveNet使用μ-law壓擴(kuò)對(duì)音頻信號(hào)進(jìn)行8比特量化,這樣softmax層只需要預(yù)測(cè)256個(gè)概率值,保證了建模預(yù)測(cè)的可行性.

3 WaveNet聲碼器及其話者無關(guān)與自適應(yīng)訓(xùn)練

本節(jié)將先介紹話者相關(guān)的WaveNet聲碼器的實(shí)現(xiàn),由于話者相關(guān)訓(xùn)練方法對(duì)目標(biāo)發(fā)音人的語音數(shù)據(jù)量有較高要求.因此,本文面向目標(biāo)發(fā)音人語音數(shù)據(jù)量較少情況,設(shè)計(jì)實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練方法,具體內(nèi)容將在本節(jié)進(jìn)行介紹.

3.1 WaveNet聲碼器

在第2節(jié)介紹的WaveNet結(jié)構(gòu)基礎(chǔ)上,增加聲學(xué)特征作為模型的條件輸入,即可構(gòu)造基于WaveNet的神經(jīng)網(wǎng)絡(luò)聲碼器.在輸入外部條件情況下的WaveNet模型可以表示為:

(4)

其中h為條件序列,其時(shí)域分辨率通常低于語音時(shí)域采樣率.為了使兩者的時(shí)域分辨率匹配,需要構(gòu)造一個(gè)上采樣變換y=f(h),然后把變換后的條件信息序列y加入到WaveNet各節(jié)點(diǎn)的激活函數(shù)中以控制生成預(yù)期的語音序列.加入條件信息后的激活函數(shù)可以表示為:

z=tanh(Wf,k*x+Vf,k*y)⊙σ(Wg,k*x+Vg,k*y)

(5)

其中Vf,k,Vg,k是第k層卷積條件輸入的權(quán)重,Vf,k*y,Vg,k*y都是1×1的卷積運(yùn)算.

在之前WaveNet聲碼器研究[16-18]中,條件信息h通常表示用STRAIGHT從自然語音中提取的聲學(xué)特征.為了使加入的條件信息的時(shí)域分辨率匹配語音序列,構(gòu)造了一個(gè)如圖2左邊所示的條件網(wǎng)絡(luò).輸入的聲學(xué)特征先經(jīng)過1×1卷積,然后經(jīng)過ReLU激活,最后通過最近鄰上采樣加入到激活函數(shù)中.最終圖2所示的整個(gè)WaveNet聲碼器模型利用特定目標(biāo)發(fā)音人的數(shù)據(jù)進(jìn)行話者相關(guān)的模型訓(xùn)練.在生成階段,給定輸入的聲學(xué)特征與生成的歷史波形信息,構(gòu)建每個(gè)采樣點(diǎn)的條件概率分布,并通過采樣方法實(shí)現(xiàn)波形的逐點(diǎn)生成.

圖2 基于WaveNet的聲碼器模型結(jié)構(gòu)Fig.2 WaveNet-based neural vocoder

3.2 話者無關(guān)及自適應(yīng)訓(xùn)練

WaveNet聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練流程如圖3所示,首先用混合的語音數(shù)據(jù)訓(xùn)練得到話者無關(guān)模型;然后將話者無關(guān)模型作為初始化模型,用目標(biāo)說話人語音數(shù)據(jù)作進(jìn)一步自適應(yīng)訓(xùn)練.

圖3 WaveNet聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練Fig.3 Speaker-independent and adaptive training of WaveNet vocoder

與話者相關(guān)模型訓(xùn)練只使用目標(biāo)發(fā)音人語音不同,話者無關(guān)模型采用混合多說話人的語音數(shù)據(jù)來進(jìn)行訓(xùn)練,希望所得到的模型能夠具有對(duì)不同說話人聲學(xué)特征與語音波形之間映射關(guān)系的泛化表示能力.在話者無關(guān)模型訓(xùn)練階段,先利用STRAIGHT從混合多說話人語音數(shù)據(jù)庫中提取每一幀語音對(duì)應(yīng)的聲學(xué)特征;然后將聲學(xué)特征序列作為條件輸入,將對(duì)應(yīng)的語音波形作為輸出,訓(xùn)練圖2所示的WaveNet聲碼器中的模型參數(shù).

自適應(yīng)訓(xùn)練指的是在已經(jīng)獲得的話者無關(guān)WaveNet聲碼器模型基礎(chǔ)上,利用目標(biāo)發(fā)音人的語音數(shù)據(jù)對(duì)話者無關(guān)模型進(jìn)行進(jìn)一步的優(yōu)化更新.對(duì)比隨機(jī)初始化的話者相關(guān)訓(xùn)練,自適應(yīng)訓(xùn)練使用話者無關(guān)模型作為初始值,更適合目標(biāo)發(fā)音人數(shù)據(jù)量受限的應(yīng)用場(chǎng)景.考慮到WaveNet聲碼器模型參數(shù)較多而目標(biāo)發(fā)音人的語音數(shù)據(jù)較少,在自適應(yīng)訓(xùn)練過程中我們也設(shè)計(jì)了兩種自適應(yīng)策略:

1)全局更新:利用目標(biāo)發(fā)音人數(shù)據(jù),基于WaveNet聲碼器訓(xùn)練準(zhǔn)則,對(duì)所有模型參數(shù)進(jìn)行更新;

2)局部更新:在利用目標(biāo)發(fā)音人數(shù)據(jù)更新話者無關(guān)模型參數(shù)時(shí),只更新與條件輸入相關(guān)的部分模型參數(shù),即公式(5)中的權(quán)重矩陣Vf,k,Vg,k.

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)條件

本實(shí)驗(yàn)采用公開的多說話人語音庫VCTK[22]以及CMU Arctic[23]語音庫進(jìn)行實(shí)驗(yàn).VCTK庫包含109位不同口音的英語母語發(fā)音人的語音數(shù)據(jù),每個(gè)發(fā)音人大約400句話,總計(jì)時(shí)長約44小時(shí).本文選取了其中100個(gè)說話人的90%數(shù)據(jù)作為訓(xùn)練集(時(shí)長約37小時(shí))來做話者無關(guān)訓(xùn)練.實(shí)驗(yàn)中為了對(duì)比目標(biāo)發(fā)音人不同數(shù)據(jù)量情況下的自適應(yīng)與話者相關(guān)模型訓(xùn)練效果,選取Arctic數(shù)據(jù)庫中女發(fā)音人slt數(shù)據(jù)(共1132句,約1小時(shí))作為自適應(yīng)訓(xùn)練數(shù)據(jù)以及測(cè)試集,后面實(shí)驗(yàn)中測(cè)試集統(tǒng)一使用女發(fā)音人slt的100句話.實(shí)驗(yàn)中使用的聲學(xué)特征包括STRAIGHT分析提取的能量、40維梅爾倒譜、基頻與清濁判決標(biāo)志;WaveNet聲碼器模型參數(shù)配置如表1所示,本文利用Xeon(R)E5-2650和Nvidia 1080Ti GPU來訓(xùn)練WaveNet聲碼器.

表1 WaveNet聲碼器參數(shù)配置Table 1 Configurations of WaveNet vocoder

4.2 自適應(yīng)訓(xùn)練更新策略的對(duì)比

在3.2小節(jié)中提到了自適應(yīng)訓(xùn)練的兩種參數(shù)更新策略,為了探究不同訓(xùn)練數(shù)據(jù)下更新策略優(yōu)劣,本文計(jì)算了不同模型在測(cè)試集上的預(yù)測(cè)正確率,如圖4所示.下面簡要說明預(yù)測(cè)正確率的計(jì)算過程,WaveNet聲碼器將自然歷史采樣點(diǎn)作為輸入,輸出當(dāng)前波形采樣點(diǎn)幅度量化值對(duì)應(yīng)的概率分布,將概率最大對(duì)應(yīng)的量化值作為預(yù)測(cè)結(jié)果與真實(shí)波形幅度量化值對(duì)比,從而計(jì)算采樣點(diǎn)的預(yù)測(cè)正確率.從圖中可以看到在訓(xùn)練數(shù)據(jù)較少時(shí),局部更新策略優(yōu)于全局更新.特別的在100句時(shí)全局更新自適應(yīng)模型正確率低于話者無關(guān)模型,這說明數(shù)據(jù)量較少時(shí)全局更新存在過擬合問題,采用局部更新策略性能更好.在訓(xùn)練數(shù)據(jù)較多時(shí),全局更新模型性能更優(yōu),而且可以發(fā)現(xiàn)全局更新策略高度依賴數(shù)據(jù)量,其模型預(yù)測(cè)正確率隨數(shù)據(jù)量的提升率高于局部更新.因此在后續(xù)實(shí)驗(yàn)中,我們對(duì)于少于等于200句目標(biāo)發(fā)音人數(shù)據(jù)量情況使用局部更新進(jìn)行模型自適應(yīng)訓(xùn)練,對(duì)于多于200句的數(shù)據(jù)量情況使用全局更新訓(xùn)練.

圖4 不同訓(xùn)練數(shù)據(jù)量兩種更新策略預(yù)測(cè)正確率Fig.4 Prediction accuracy of two updating strategies on different training data

4.3 自適應(yīng)訓(xùn)練與話者相關(guān)訓(xùn)練的對(duì)比

我們首先對(duì)比了不同數(shù)據(jù)量情況下,自適應(yīng)訓(xùn)練與話者相關(guān)訓(xùn)練模型在測(cè)試集上的預(yù)測(cè)正確率,結(jié)果如圖5所示.從圖中可以看到在100、200、500句訓(xùn)練數(shù)據(jù)下,自適應(yīng)方法預(yù)測(cè)正確率高于話者相關(guān)訓(xùn)練方法,而話者相關(guān)模型高度依賴數(shù)據(jù)量,只有在足夠大的數(shù)據(jù)量(如1032句)下才能得到優(yōu)于自適應(yīng)方法的預(yù)測(cè)正確率.

圖5 不同訓(xùn)練數(shù)據(jù)量自適應(yīng)方法與話者相關(guān)訓(xùn)練方法預(yù)測(cè)正確率對(duì)比Fig.5 Prediction accuracy of adaption and speaker-dependent methods on different training data

由于在計(jì)算預(yù)測(cè)正確率時(shí)采用真實(shí)歷史采樣點(diǎn)信息預(yù)測(cè)當(dāng)前采樣點(diǎn),因此測(cè)試集預(yù)測(cè)正確率不能直接衡量重構(gòu)語音的質(zhì)量,本文還計(jì)算了重構(gòu)語音和自然語音的時(shí)域與頻域誤差,嘗試從多角度客觀衡量不同模型的語音重構(gòu)能力.本文參照已有的WaveNet聲碼器研究[16]中的客觀指標(biāo),計(jì)算了波形信噪比(SNR)、短時(shí)幅度譜的均方誤差(RMSE)、基頻誤差以及清濁誤判率,計(jì)算公式如下:

(6)

(7)

RMSE(f0)=|Fr-Fs|

(8)

(9)

其中xs(n)是合成語音序列,yr(n)是自然語音序列,特別的在計(jì)算SNR時(shí)會(huì)給合成語音序列線性相位補(bǔ)償和自然語音序列對(duì)齊;X(f),Y(f)分別是合成語音的短時(shí)幅度譜和自然語音的短時(shí)幅度譜;Fs,F(xiàn)r分別是合成語音和自然語音的基頻值;FFU,F(xiàn)FV分別是分別是合成語音中濁音誤判為清音,清音誤判為濁音的幀數(shù),F(xiàn)是總幀數(shù).

圖6 自適應(yīng)與話者相關(guān)模型的SNRFig.6 SNR of adaption and speaker-dependent models

從圖6可知在100句時(shí),自適應(yīng)方法SNR高于話者相關(guān)方法,隨著訓(xùn)練集增大話者相關(guān)方法SNR快速提高并且超過了自適應(yīng)方法,而且基于WaveNet聲碼器重構(gòu)語音SNR均高于STRAIGHT.從圖7可知在100句時(shí),自適應(yīng)方法RMSE低于話者相關(guān)方法,隨著訓(xùn)練集增大話者相關(guān)方法RMSE下降而自適應(yīng)方法變化較小,STRAIGHT重構(gòu)語音的RMSE明顯低于WaveNet聲碼器.從圖8可知在100句時(shí),自適應(yīng)方法基頻誤差低于話者相關(guān)方法,但隨著訓(xùn)練集增大話者相關(guān)方法基頻誤差快速下降,并且最終低于STRAIGHT.從圖9可知在100句時(shí),自適應(yīng)方法清濁誤判率低于話者相關(guān)方法,隨著訓(xùn)練集增大話者相關(guān)方法清濁誤判率下降較快而自適應(yīng)方法較慢,STRAIGHT重構(gòu)語音的清濁誤判率一直低于WaveNet聲碼器.總的看來,在100句時(shí)自適應(yīng)方法所有客觀指標(biāo)都好于話者相關(guān)方法,話者相關(guān)訓(xùn)練方法的性能隨著訓(xùn)練集規(guī)模增加而提升,但是高度依賴于數(shù)據(jù)量.

圖7 自適應(yīng)與話者相關(guān)模型的短時(shí)幅度譜均方誤差RMSEFig.7 Short-time spectral amplitude RMSE of adaption and speaker-dependent models

綜合以上客觀實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)WaveNet聲碼器的波形SNR明顯高于STRAIGHT聲碼器,但是STRAIGHT聲碼器短時(shí)傅里葉譜RMSE、基頻誤差以及清濁誤判率卻都低于WaveNet聲碼器.由于波形SNR同時(shí)受到重構(gòu)語音的幅度譜和相位譜影響,這說明WaveNet聲碼器相對(duì)傳統(tǒng)STRAIGHT聲碼器更好的重構(gòu)了原始語音中的相位信息,這也驗(yàn)證了WaveNet聲碼器通過波形建模在保留相位信息方面的優(yōu)勢(shì).

圖8 自適應(yīng)與話者相關(guān)模型的基頻誤差Fig.8 Fundamental frequency distortion of adaption and speaker-dependent

圖9 自適應(yīng)與話者相關(guān)模型的清濁誤判率Fig.9 Voiced and unvoiced error of adaption and speaker-dependent models

4.4 自適應(yīng)模型與話者無關(guān)模型性能對(duì)比

為了驗(yàn)證自適應(yīng)訓(xùn)練的有效性,我們用100句話自適應(yīng)訓(xùn)練的模型(AD100)、話者無關(guān)模型(SI)以及STRAIGH(ST)聲碼器分別重構(gòu)了Arctic slt測(cè)試集上的20句語音[注]http://home.ustc.edu.cn/~whc/xwjxt/demo.htm.利用Amazon Mechanical Turk眾包平臺(tái)[25]進(jìn)行以上三個(gè)系統(tǒng)兩兩之間合成語音質(zhì)量的傾向性測(cè)聽.測(cè)聽由20位英語母語測(cè)聽者進(jìn)行,傾向性測(cè)聽實(shí)驗(yàn)結(jié)果如表2所示.

表2 100句自適應(yīng)WaveNet聲碼器(AD100)、話者無關(guān)WaveNet聲碼器(SI)與STRAIGHT聲碼器(ST)重構(gòu)語音質(zhì)量傾向性測(cè)聽結(jié)果(%),其中N/P表示無傾向,p值為系統(tǒng)間差異的t-test結(jié)果Table 2 Preference test scores among different vocoder AD100,SI and ST

主觀測(cè)聽結(jié)果表明在不進(jìn)行自適應(yīng)訓(xùn)練情況下的話者無關(guān)模型性能不夠理想,其重構(gòu)語音質(zhì)量低于STRAIGHT聲碼器.而在采用100句目標(biāo)發(fā)音人數(shù)據(jù)進(jìn)行自適應(yīng)訓(xùn)練后,WaveNet聲碼器質(zhì)量顯著提升,且優(yōu)于STRAIGHT聲碼器,這也表明了利用少量目標(biāo)發(fā)音人數(shù)據(jù)進(jìn)行自適應(yīng)訓(xùn)練的有效性.

最后我們對(duì)四組訓(xùn)練數(shù)據(jù)量情況下自適應(yīng)和話者相關(guān)兩種方法所得WaveNet聲碼器分別進(jìn)行了重構(gòu)語音質(zhì)量的傾向性測(cè)聽實(shí)驗(yàn),測(cè)試方法同上,測(cè)聽結(jié)果如表3所示.由表中可知,在100句訓(xùn)練數(shù)據(jù)下自適應(yīng)訓(xùn)練方法所得WaveNet聲碼器重構(gòu)語音質(zhì)量顯著高于話者相關(guān)訓(xùn)練方法;200句時(shí)兩種方法差異不明顯;500、1032句訓(xùn)練集時(shí),話者相關(guān)方法重構(gòu)語音質(zhì)量更高.該主觀測(cè)試結(jié)果與客觀結(jié)果一致,均表明本文所提出的話者無關(guān)與自適應(yīng)訓(xùn)練方法在較少數(shù)據(jù)時(shí)可以取得優(yōu)于話者相關(guān)訓(xùn)練的性能表現(xiàn).

表3 自適應(yīng)模型(AD)和話者相關(guān)(SD)模型傾向性測(cè)聽結(jié)果(%),其中N/P表示無傾向,p值為系統(tǒng)間差異的t-test結(jié)果Table 3 Preference test scores among AD model and SD model

5 總 結(jié)

本文提出了WaveNet聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練方法,以改善話者相關(guān)訓(xùn)練方法對(duì)于目標(biāo)發(fā)音人數(shù)據(jù)量的依賴.實(shí)驗(yàn)結(jié)果表明在目標(biāo)發(fā)音人訓(xùn)練數(shù)據(jù)量較少情況下,自適應(yīng)訓(xùn)練方法構(gòu)建的WaveNet聲碼器可以取得優(yōu)于話者相關(guān)方法的客觀與主觀性能,其重構(gòu)語音質(zhì)量也優(yōu)于傳統(tǒng)STRAIGHT聲碼器.該方法在話者轉(zhuǎn)換、個(gè)性化語音合成等目標(biāo)發(fā)音人數(shù)據(jù)量受限的場(chǎng)景中具有應(yīng)用潛力.如何通過擴(kuò)充訓(xùn)練數(shù)據(jù)規(guī)模改善話者無關(guān)模型的性能以及在小數(shù)據(jù)量自適應(yīng)訓(xùn)練中避免過訓(xùn)練現(xiàn)象,是今后需要進(jìn)一步探討研究的問題.

猜你喜歡
數(shù)據(jù)量聲學(xué)波形
基于時(shí)域波形掩護(hù)的間歇采樣干擾對(duì)抗研究
燃?xì)夤艿佬孤┲鲃?dòng)聲學(xué)探測(cè)方法
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
進(jìn)一步放大細(xì)膩通透的優(yōu)勢(shì) Davis Acoustics(戴維斯聲學(xué)) MODEL M/MODEL S/BASSON 88
基于Halbach陣列磁鋼的PMSM氣隙磁密波形優(yōu)化
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
還原音樂的本來面貌 Davis Acoustics(戴維斯聲學(xué))Courbet N°5
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
用于SAR與通信一體化系統(tǒng)的濾波器組多載波波形
全新邁騰B7L車噴油器波形測(cè)試
金华市| 宁陕县| 兴安县| 海兴县| 本溪市| 乡城县| 廉江市| 交口县| 洛川县| 长泰县| 水城县| 五寨县| 炎陵县| 临潭县| 博爱县| 华容县| 岐山县| 三穗县| 兴海县| 尉犁县| 清水河县| 永修县| 余江县| 铅山县| 九江市| 榆社县| 河曲县| 太白县| 望奎县| 彭水| 台前县| 蓝田县| 周宁县| 塔城市| 孟州市| 北川| 五常市| 汝城县| 洛扎县| 乌苏市| 邛崃市|