唐君 張連海 李嘉欣 李宜亭
(中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué)信息系統(tǒng)工程學(xué)院,河南鄭州 450001)
近年來(lái),基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成技術(shù)得到了迅速發(fā)展,合成語(yǔ)音的質(zhì)量甚至已接近了人類錄音的水平。這類語(yǔ)音合成系統(tǒng)通??煞譃閮蓚€(gè)模塊實(shí)現(xiàn),第一個(gè)模塊,根據(jù)輸入文本預(yù)測(cè)聲學(xué)特征,通常稱為合成器模塊;第二個(gè)模塊,根據(jù)預(yù)測(cè)的聲學(xué)特征生成語(yǔ)音波形,該模塊通常稱為聲碼器模塊,本文聚焦于聲碼器模塊的研究。傳統(tǒng)的聲碼器,如STRAIGHT[1]、WORLD[2]等,它們生成語(yǔ)音的質(zhì)量通常很低并且聽起來(lái)很不自然,而基于神經(jīng)網(wǎng)絡(luò)的聲碼器(簡(jiǎn)稱神經(jīng)聲碼器)在利用梅爾(Mel)譜生成語(yǔ)音波形方面取得了顯著的成績(jī),其生成語(yǔ)音的質(zhì)量遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)聲碼器生成語(yǔ)音的質(zhì)量。因此,神經(jīng)聲碼器技術(shù)已經(jīng)成為了目前的主流聲碼器技術(shù)。
根據(jù)神經(jīng)聲碼器結(jié)構(gòu)的不同,該類聲碼器可分為兩大類:自回歸模型和非自回歸模型。起初,神經(jīng)聲碼器研究主要集中在自回歸模型,如WaveNet[3]、WaveRNN[4]和SampleRNN[5]等。自回歸模型的基本思想是將語(yǔ)音波形的分布分解為多個(gè)條件分布的乘積進(jìn)行建模,即當(dāng)前的采樣點(diǎn)依賴于先前生成的采樣點(diǎn)來(lái)生成,以建模語(yǔ)音波形間的長(zhǎng)期相關(guān)性。雖然這類模型能夠生成高質(zhì)量的語(yǔ)音,但這種順序推理過(guò)程導(dǎo)致其生成語(yǔ)音的速度非常慢、效率低下,無(wú)法滿足實(shí)時(shí)應(yīng)用的要求。
為解決自回歸模型因其結(jié)構(gòu)而帶來(lái)的局限性,非自回歸模型應(yīng)運(yùn)而生。非自回歸模型直接建模語(yǔ)音波形的聯(lián)合分布,因此這類模型具有高度的并行性,其推理速度比自回歸模型快得多。近幾年來(lái),非自回歸聲碼器得到了迅速發(fā)展,根據(jù)其方法,可分為四類:一、基于知識(shí)蒸餾的模型,如Parallel WaveNet[6]和ClariNet[7]等。在這個(gè)模型框架下,自回歸教師模型的知識(shí)被轉(zhuǎn)移到基于逆自回歸流[8](Inverse Autoregressive Flow,IAF)的學(xué)生模型,雖然基于IAF的學(xué)生模型能夠快速生成合理感知質(zhì)量的語(yǔ)音,但是這種方法不僅需要訓(xùn)練有素的教師模型,而且還需要一些策略來(lái)優(yōu)化復(fù)雜的概率密度蒸餾過(guò)程,如使用基于Kulback-Leiber(KL)散度的概率蒸餾目標(biāo)以及附加的感知損失項(xiàng)來(lái)訓(xùn)練學(xué)生模型。此外,由于學(xué)生模型參數(shù)龐大,還需要GPU 進(jìn)行推理才能達(dá)到實(shí)時(shí)性;二、基于流的模型,如WaveGlow[9]、WaveFlow[10]等,它們由一個(gè)可逆網(wǎng)絡(luò)實(shí)現(xiàn),僅通過(guò)最小化訓(xùn)練數(shù)據(jù)的負(fù)對(duì)數(shù)似然損失來(lái)直接學(xué)習(xí),該類方法通常需要龐大的參數(shù)量和繁重的計(jì)算量,其生成語(yǔ)音質(zhì)量才能與自回歸模型相當(dāng),雖然它們?cè)贕PU 上推理速度很快,但該類方法通常不適用于內(nèi)存受限、硬件條件不足的場(chǎng)景下;三、基于擴(kuò)散概率模型,如DiffWave[11]和WaveGrad[12]等。這類模型以迭代的方式利用具有固定步數(shù)的馬爾可夫鏈將白噪聲信號(hào)轉(zhuǎn)換成結(jié)構(gòu)化語(yǔ)音信號(hào),因此它們需要一定的模型參數(shù)和迭代次數(shù)才能生成較高質(zhì)量的語(yǔ)音。雖然這類模型的推理速度相比自回歸模型快得多,但是相比基于流的模型卻要慢得多,也只是能在GPU 上實(shí)現(xiàn)較低的實(shí)時(shí)性;四、基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的模型,它們是目前最有前景的方法之一。Parallel WaveGAN[13]和MelGAN[14]是GAN 在聲碼器上的早期嘗試,相比于其他模型,它們顯著提高了模型推理速度(Parallel WaveGAN 在GPU 上實(shí)現(xiàn)較高的實(shí)時(shí)性,而MelGAN不僅在GPU上實(shí)現(xiàn)了很高的實(shí)時(shí)性,在CPU 上也能實(shí)時(shí)生成語(yǔ)音),然而它們生成的語(yǔ)音質(zhì)量上并不令人滿意。為此,研究者作了進(jìn)一步的努力,如Multi-Band MelGAN[15]改進(jìn)了MelGAN,進(jìn)一步提高了MelGAN 生成語(yǔ)音的質(zhì)量和速度,VocGAN[16]改善了MelGAN 中存在的生成語(yǔ)音質(zhì)量不足以及生成語(yǔ)音的Mel 譜與輸入Mel 譜的聲學(xué)特征不一致的問(wèn)題。LVCNet[17]則改進(jìn)了Parallel WaveGAN,提出了一種位置變量卷積用于建模語(yǔ)音波形序列的長(zhǎng)期相關(guān)性,在不降低音質(zhì)和增加參數(shù)的情況下,合成速度相比Parallel WaveGAN 提升了4倍左右。以上基于GAN 的聲碼器研究,雖然實(shí)現(xiàn)以較高的實(shí)時(shí)速度生成語(yǔ)音波形,甚至在CPU 上也能實(shí)現(xiàn)實(shí)時(shí)推理,但是這些模型生成語(yǔ)音的質(zhì)量始終與自回歸模型有所差距,但HiFi-GAN[18]的出現(xiàn)打破了這種桎梏,它實(shí)現(xiàn)了高效和高保真的語(yǔ)音波形生成。從本質(zhì)上來(lái)說(shuō),HiFi-GAN的成功主要得益于其不僅有效建模了語(yǔ)音波形的長(zhǎng)期相關(guān)性,更重要的是其有效建模了語(yǔ)音波形的周期模式,這也是之前基于GAN 的聲碼器所欠缺的。此外,HiFi-GAN 相比于其他模型在端到端語(yǔ)音合成系統(tǒng)中兼容性更好,很多端到端語(yǔ)音合成系統(tǒng)采用HiFi-GAN模型作為聲碼器來(lái)將前端預(yù)測(cè)的Mel 譜轉(zhuǎn)換為語(yǔ)音波形。HiFi-GAN作為目前最先進(jìn)的聲碼器網(wǎng)絡(luò)之一,但其仍存在一些不足:無(wú)法在語(yǔ)音質(zhì)量和模型參數(shù)、推理速度上進(jìn)行很好的權(quán)衡,通常采用縮減網(wǎng)絡(luò)層的通道數(shù)或?qū)訑?shù)的方式來(lái)減少模型參數(shù)、提高推理速度,但這種方式需要犧牲較大的語(yǔ)音質(zhì)量去換取模型參數(shù)的減少和推理速度的提升。
為了更好權(quán)衡HiFi-GAN 模型在語(yǔ)音質(zhì)量和模型參數(shù)、推理速度上的關(guān)系,本文在HiFi-GAN 的基礎(chǔ)上,引入了多尺度卷積策略和深度可分離卷積,以期望在不明顯降低其生成語(yǔ)音質(zhì)量的情況下,顯著減少了HiFi-GAN 的參數(shù)量,并進(jìn)一步提高了其推理速度。
在本節(jié)中,首先介紹一維深度可分離卷積的原理,然后介紹生成器的結(jié)構(gòu)原理并將多尺度卷積策略和一維深度可分離卷積引入其中,接著再介紹判別器的結(jié)構(gòu)原理,最后介紹用于訓(xùn)練生成器和判別器的損失函數(shù)。
在這一小節(jié)中,先介紹標(biāo)準(zhǔn)一維卷積的原理,再借此引入深度可分離卷積,并對(duì)兩者的參數(shù)量和計(jì)算量進(jìn)行了比較。
標(biāo)準(zhǔn)一維卷積的原理如圖1 所示,對(duì)于大小為T1×C1的輸入(如Mel 譜,T1代表幀數(shù),C1代表Mel譜的維度,即通道數(shù)),卷積核的尺寸為K(標(biāo)準(zhǔn)一維卷積默認(rèn)對(duì)輸入的所有通道進(jìn)行處理,因此卷積核的實(shí)際參數(shù)大小為K×C1),若共有C2個(gè)卷積核(濾波器),則輸出大小為T2×C2,T2的值由卷積核的尺寸、卷積步長(zhǎng)、填充等參數(shù)所決定。因此,這里標(biāo)準(zhǔn)一維卷積的參數(shù)量Pstd、乘法計(jì)算量Ostd×以及加法計(jì)算量Ostd+分別如式(1)、(2)、(3)所示。
圖1 標(biāo)準(zhǔn)一維卷積原理圖Fig.1 Schematic diagram of standard one-dimensional convolution
其中,式(1)、(3)中的+1表示偏置。
深度可分離卷積(Depthwise Separable Convolution,DSC)由兩個(gè)過(guò)程組成,分別為深度卷積和逐點(diǎn)卷積。
①深度卷積(Depthwise Convolution)
一維深度卷積的原理如圖2 所示,對(duì)于大小同樣為T1×C1的輸入,卷積核的尺寸為K(這里每個(gè)卷積核只對(duì)一個(gè)特定的通道進(jìn)行處理,因此每個(gè)卷積核的實(shí)際參數(shù)大小為K×1),共有C1個(gè)卷積核,即輸出通道與輸入通道相等。由于深度卷積逐通道處理的特性,因此其也被稱為逐通道卷積,這里深度卷積的參數(shù)量Pdw、乘法計(jì)算量Odw×以及加法計(jì)算量Odw+分別如式(4)、(5)、(6)所示。
圖2 一維深度卷積原理圖Fig.2 Schematic diagram of one-dimensional depthwise convolution
其中,式(4)、(6)中的+1表示偏置。
②逐點(diǎn)卷積(Pointwise Convolution)
一維逐點(diǎn)卷積的原理如圖3 所示,它是標(biāo)準(zhǔn)一維卷積的特例(卷積核的尺寸為1),共有C2個(gè)卷積核,由于卷積核的尺寸為1,因此輸出的時(shí)間維度與輸入的時(shí)間維度保持不變。逐點(diǎn)卷積主要對(duì)輸出通道起到升維和降維的作用(通道維度由參數(shù)C2控制),并將各通道之間信息進(jìn)行了整合。因此由于逐點(diǎn)卷積的存在,深度可分離卷積并沒(méi)有丟失通道間的信息,這里逐點(diǎn)卷積的參數(shù)量Ppw、乘法計(jì)算量Opw×以及加法計(jì)算量Opw+如式(7)、(8)、(9)所示。
圖3 一維逐點(diǎn)卷積的原理圖Fig.3 Schematic diagram of one-dimensional pointwise convolution
其中,式(7)、(9)中的+1表示偏置。
綜上所述,一維深度可分離卷積的總參數(shù)量為Pdw+Ppw,總乘法計(jì)算量為Odw×+Opw×,總加法計(jì)算量為Odw++Opw+。相比標(biāo)準(zhǔn)一維卷積,兩者參數(shù)量、乘法計(jì)算量以及加法計(jì)算量的比值分別如式(10)、(11)、(12)所示。
通常情況下C1、C2?1且K≥3,因此一維深度可分離卷積相比標(biāo)準(zhǔn)一維卷積而言,參數(shù)量、乘法計(jì)算量以及加法計(jì)算量將會(huì)得到明顯減少,這將有助于模型的壓縮與加速。
從本質(zhì)上來(lái)講,標(biāo)準(zhǔn)一維卷積將時(shí)間相關(guān)性和通道相關(guān)性進(jìn)行聯(lián)合映射,而一維深度可分離卷積將時(shí)間相關(guān)性和通道相關(guān)性進(jìn)行分開映射。從語(yǔ)音波形中提取Mel譜的過(guò)程來(lái)看,先對(duì)語(yǔ)音分段,再對(duì)每段語(yǔ)音分別進(jìn)行計(jì)算提取一幀的Mel 譜,因此本文采用一維深度可分離卷積將Mel譜中的時(shí)間相關(guān)性和通道相關(guān)性進(jìn)行分開學(xué)習(xí),這種分而治之的思想更有助于網(wǎng)絡(luò)利用Mel 譜還原出語(yǔ)音波形,也相對(duì)減輕網(wǎng)絡(luò)的學(xué)習(xí)負(fù)擔(dān),有助于網(wǎng)絡(luò)的快速學(xué)習(xí)。
生成器結(jié)構(gòu)如圖4 所示,它使用Mel 譜作為輸入,并通過(guò)轉(zhuǎn)置卷積不斷對(duì)其進(jìn)行上采樣,直到輸出序列的長(zhǎng)度與原始波形的時(shí)間分辨率相匹配。每個(gè)轉(zhuǎn)置卷積后面都連接一個(gè)多接受場(chǎng)融合(Multi-Receptive Field Fusion,MRF)模塊,MRF 的具體結(jié)構(gòu)如圖5所示。
圖4 生成器的結(jié)構(gòu)原理圖(K表示卷積核的尺寸)Fig.4 Schematic diagram of the structure of the generator(K represents the size of the convolution kernel)
圖5 MRF的結(jié)構(gòu)原理圖(右邊為殘差塊的具體結(jié)構(gòu),當(dāng)表示第i個(gè)殘差塊時(shí),則n= i)Fig.5 The schematic diagram of the structure of the MRF(The right side is the specific structure of the residual block,when the i-th residual block is represented,then n=i)
MRF模塊累積多個(gè)殘差塊(ResBlock)的輸出之和,每個(gè)殘差塊由一系列的一維卷積構(gòu)成,這些卷積有著不同大小的卷積核和擴(kuò)張率,以形成不同大小的接受場(chǎng),有效建模語(yǔ)音波形的短期和長(zhǎng)期相關(guān)性。
Mel 譜作為語(yǔ)音的一種低分辨率表示,其幀與幀之間存在著強(qiáng)烈的短期和長(zhǎng)期相關(guān)性,這些相關(guān)性對(duì)于建模語(yǔ)音分布是至關(guān)重要的。因此,本文為了捕獲Mel 譜的局部特性和遠(yuǎn)程相關(guān)性,采用一個(gè)多尺度卷積(Multi-Scale Convolution,MSC)策略對(duì)輸入Mel譜進(jìn)行處理。
如圖6 所示,MSC 策略是指采用多個(gè)不同尺寸的卷積核對(duì)輸入Mel譜進(jìn)行處理并返回這些處理結(jié)果之和,卷積核的具體尺寸如圖中所示。這里每個(gè)卷積層的輸出通道(channels)是一致,即每個(gè)卷積層的輸出的通道維度是相同的,同時(shí)為保證每個(gè)卷積層的輸出在時(shí)間維度上保持不變,將輸入(Mel譜)送入卷積層處理之前,根據(jù)各卷積層的卷積核大小對(duì)輸入進(jìn)行補(bǔ)零填充操作,即在其時(shí)間維度上填充一定數(shù)量值為0 的Mel 譜幀。因此,經(jīng)過(guò)不同尺寸的卷積核處理后的輸出的縱向和橫向維度大小均相同,這將保證各個(gè)輸出結(jié)果可以直接相加。
圖6 多尺度卷積策略原理圖Fig.6 Schematic diagram of multi-scale convolution strategy
不同尺寸的卷積核能夠捕獲不同尺度的全局和局部特征,與原生成器網(wǎng)絡(luò)采用固定尺寸的卷積核來(lái)處理Mel 譜相比,本文提出的多尺度卷積策略能充分表征從Mel 譜中提取的信息,有助于后續(xù)網(wǎng)絡(luò)利用這些信息進(jìn)行學(xué)習(xí)以建模原始語(yǔ)音的分布。此外,為了不顯著降低生成器生成語(yǔ)音的質(zhì)量情況下,有效減少模型參數(shù)量并提高模型推理速度,受圖像中的深度可分離卷積[19]啟發(fā),本文采用一維深度可分離卷積去替代生成器中原有的標(biāo)準(zhǔn)一維卷積。在訓(xùn)練過(guò)程中,生成器除了轉(zhuǎn)置卷積層外,其他所有卷積層均采用權(quán)重歸一化[20],值得注意的是深度可分離卷積采用權(quán)重歸一化等同于深度卷積和逐點(diǎn)卷積均采用權(quán)重歸一化。
對(duì)于生成對(duì)抗網(wǎng)絡(luò)來(lái)說(shuō),判別器主要對(duì)生成器起一個(gè)對(duì)抗訓(xùn)練的作用,引導(dǎo)生成器能產(chǎn)生更接近真實(shí)的數(shù)據(jù)。這里模型的判別器仍采用HiFi-GAN原有的配置,其包含兩個(gè)判別器:多尺度判別器和多周期判別器。
2.3.1 多周期判別器
多周期鑒別器(Multi-Period Discriminator,MPD)的結(jié)構(gòu)如圖7 所示,它由多個(gè)網(wǎng)絡(luò)結(jié)構(gòu)相同的子鑒別器組成,每個(gè)子鑒別器用于捕獲輸入語(yǔ)音的一部分周期信號(hào),以識(shí)別語(yǔ)音數(shù)據(jù)中潛在的各種周期模式。
圖7 多周期鑒別器原理圖(左為整體結(jié)構(gòu),右為子鑒別器的網(wǎng)絡(luò)結(jié)構(gòu),F(xiàn)eature map為每層網(wǎng)絡(luò)的特征輸出,用于下節(jié)提到的特征匹配損失)Fig.7 Schematic diagram of the multi-period discriminator(the left is the overall structure,the right is the network structure of the sub-discriminator,and“Feature map”is the feature output of each layer of the network,which is used for the feature matching loss mentioned in the next section)
為實(shí)現(xiàn)子鑒別器捕獲語(yǔ)音信號(hào)中的周期模式,每個(gè)子鑒別器并不直接處理語(yǔ)音波形,而是將語(yǔ)音波形進(jìn)行填充與整形,如圖8所示,以保證每個(gè)子鑒別器只接受輸入語(yǔ)音波形的等間距采樣點(diǎn),間隔由周期參數(shù)p控制。通過(guò)這樣的方式,長(zhǎng)度為T的一維原始語(yǔ)音被處理成高度為T/p、寬度為p的二維數(shù)據(jù),因此,MPD 需要采用二維的卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理這些數(shù)據(jù),除最后一層網(wǎng)絡(luò)外,其他層均采用二維跨步卷積(只在高度上進(jìn)行跨步),并且每層卷積均采用權(quán)重歸一化。在MPD的每層卷積層中,卷積核的寬度軸的大小被限制為1,從而獨(dú)立處理寬度軸方向的周期語(yǔ)音采樣點(diǎn)。因此,每個(gè)子鑒別器可以通過(guò)處理語(yǔ)音波形不同的部分來(lái)捕獲語(yǔ)音中彼此不同的潛在周期模式。
圖8 語(yǔ)音波形的填充與整形示意圖(周期參數(shù)p=3)Fig.8 Schematic diagram of pad and reshape of speech waveform(period parameter p=3)
2.3.2 多尺度判別器
多尺度鑒別器(Multi-Scale Discriminator,MSD)的結(jié)構(gòu)如圖9 所示,MSD 是三個(gè)網(wǎng)絡(luò)結(jié)構(gòu)相同但工作在不同尺度上的鑒別器組合,即分別處理原始語(yǔ)音、經(jīng)過(guò)×2平均池化的原始語(yǔ)音、經(jīng)過(guò)×4平均池化的原始語(yǔ)音。子鑒別器通過(guò)采用分組卷積來(lái)保證使用較大尺寸的卷積核,同時(shí)保持較小的參數(shù)量。除了對(duì)原始語(yǔ)音處理的第一個(gè)子鑒別器應(yīng)用譜歸一化[21],其他兩個(gè)子鑒別器應(yīng)用權(quán)重歸一化,這里采用譜歸一化有助于穩(wěn)定訓(xùn)練。
圖9 多尺度鑒別器結(jié)構(gòu)原理圖(左為整體結(jié)構(gòu),右為子鑒別器的網(wǎng)絡(luò)結(jié)構(gòu),F(xiàn)eature map為每層網(wǎng)絡(luò)的特征輸出,用于下節(jié)提到的特征匹配損失)Fig.9 Schematic diagram of the multi-scale discriminator structure(the left is the overall structure,the right is the network structure of the sub-discriminator,and“Feature map”is the feature output of each layer of the network,which is used for the feature matching loss mentioned in the next section)
損失函數(shù)由三部分組成,分別為對(duì)抗損失、特征匹配損失以及Mel譜損失。
2.4.1 對(duì)抗損失
對(duì)于生成器和鑒別器的對(duì)抗訓(xùn)練目標(biāo),遵循LSGAN[22]的設(shè)置。判別器負(fù)責(zé)對(duì)語(yǔ)音樣本進(jìn)行分類,即將真實(shí)語(yǔ)音分類為1、生成器生成的語(yǔ)音分類為0,而生成器則根據(jù)輸入條件生成語(yǔ)音以欺騙判別器,即判別器錯(cuò)將生成語(yǔ)音分類為1。最后通過(guò)生成器和判別器的相互博弈過(guò)程,直至生成器能夠做到以假亂真的效果。因此,生成器和判別器的對(duì)抗損失函數(shù)分別如式(13)、(14)所示。
為了簡(jiǎn)潔,這里將MSD 和MPD 描述為一個(gè)鑒別器,其中x代表真實(shí)語(yǔ)音,s表示輸入條件(對(duì)應(yīng)真實(shí)語(yǔ)音提取的Mel譜)。
2.4.2 特征匹配損失
為提高生成器的能力,采用了MelGAN 中的特征匹配損失(Feature Matching Loss,F(xiàn)ML),F(xiàn)ML 通過(guò)比較真實(shí)語(yǔ)音和生成語(yǔ)音在判別器每層網(wǎng)絡(luò)的輸出特征之間的差異來(lái)提高生成器的偽造能力,采用L1 距離來(lái)衡量這種差異,特征匹配損失函數(shù)如式(15)所示。
其中,T表示鑒別器中的卷積層數(shù),Di和Ni分別表示鑒別器的第i層中的特征和特征數(shù)量。
2.4.3 Mel譜損失
Parallel WaveGAN 通過(guò)聯(lián)合優(yōu)化多分辨率頻譜損失和對(duì)抗損失,有效捕獲了真實(shí)語(yǔ)音波形的時(shí)頻分布。類似于多分辨率頻譜損失,HiFi-GAN根據(jù)人耳聽覺特性,采用Mel譜損失,以期望提高生成語(yǔ)音的感知質(zhì)量。具體來(lái)說(shuō),Mel 譜損失是生成器生成語(yǔ)音的Mel 譜與真實(shí)波形的Mel 譜之間的L1 損失,如式(16)所示。
其中,φ(·)表示從語(yǔ)音中提取Mel譜的函數(shù),注意這里提取的Mel譜是全頻帶的(最低頻率為0 Hz,最高頻率為語(yǔ)音采樣率的一半),不同于作為輸入條件的帶限Mel 譜,采用全頻帶的Mel 損失有助于模型學(xué)習(xí)語(yǔ)音的全頻帶信息。
2.4.4 總損失
特征匹配損失和Mel譜損失作為輔助損失用于穩(wěn)定模型訓(xùn)練并加速收斂,因此訓(xùn)練生成器和判別器最終的損失函數(shù)如式(17)、(18)所示。
其中,Dk表示MPD 和MSD 中第k個(gè)子鑒別器,λ和μ為超參數(shù)用于控制各項(xiàng)損失的比重,在實(shí)驗(yàn)中其值分別設(shè)置為2和45。
實(shí)驗(yàn)數(shù)據(jù)采用公開的LJSpeech 數(shù)據(jù)集,該數(shù)據(jù)集由13100 個(gè)英語(yǔ)語(yǔ)音片段和相應(yīng)的文本組成,語(yǔ)音總時(shí)長(zhǎng)約為24 個(gè)小時(shí),語(yǔ)音格式為16 比特PCM編碼,采樣率為22050 Hz,由一名專業(yè)的美國(guó)女性說(shuō)話者錄制。實(shí)驗(yàn)中將數(shù)據(jù)集隨機(jī)分成兩部分:12800個(gè)音頻樣本用于訓(xùn)練集,300個(gè)音頻樣本用于測(cè)試集。實(shí)驗(yàn)在單個(gè)GPU 和CPU(NVIDIA Tesla V100 GPU 用于訓(xùn)練,Xeon(R)E5-2620 v4 2.10 GHz CPU和NVIDIA GTX 1080Ti GPU用于測(cè)試)上進(jìn)行,模型網(wǎng)絡(luò)架構(gòu)基于PyTorch 搭建,模型采用80 維(0~80 kHz 頻率范圍)的Mel 譜作為輸入,其中FFT長(zhǎng)度、幀長(zhǎng)和幀移分別設(shè)置為1024、1024 和256 個(gè)采樣點(diǎn),并采用漢寧窗減少頻譜能量泄露。
模型采用AdamW[23]優(yōu)化器進(jìn)行訓(xùn)練,其中β1=0.8、β2=0.99、ε=1e-6,初始學(xué)習(xí)率設(shè)置為2e-4,每經(jīng)過(guò)一個(gè)訓(xùn)練周期(Epoch),學(xué)習(xí)率衰減為0.999倍。批處理每條語(yǔ)音的長(zhǎng)度和批處理大小分別設(shè)置為16384 個(gè)采樣點(diǎn)和12 個(gè)音頻樣本。此外,生成器網(wǎng)絡(luò)的具體參數(shù)如表1 所示,部分參數(shù)的表示方式類似數(shù)組形式,如kr[2]=7,dr[3,2,1]=3。為了進(jìn)行對(duì)比實(shí)驗(yàn),本文也訓(xùn)練了WaveNet、WaveGlow聲碼器,模型及訓(xùn)練設(shè)置保持與原有設(shè)置相同。
表1 生成器的網(wǎng)絡(luò)參數(shù)配置Tab.1 Network parameters configuration of the generator
Mel 譜是根據(jù)人耳的聽覺特性設(shè)計(jì)的,生成語(yǔ)音的Mel 譜與真實(shí)語(yǔ)音的Mel 譜之間的差距能夠一定程度上反映生成語(yǔ)音與真實(shí)語(yǔ)音在語(yǔ)音質(zhì)量上的差異。為比較多尺度卷積(MSC)策略和一維深度可分離卷積(DSC)在HiFi-GAN 模型中的有效性,本文首先展示了它們結(jié)合HiFi-GAN 模型在不同訓(xùn)練周期時(shí),測(cè)試集上的Mel譜損失情況,如圖10所示。
圖10 不同訓(xùn)練階段的測(cè)試集上的Mel譜損失Fig.10 Mel spectral loss on the test set at different training stages
根據(jù)圖中結(jié)果可以看出,MSC 策略的確有助于生成器學(xué)習(xí),產(chǎn)生更接近真實(shí)語(yǔ)音的生成語(yǔ)音。采用DSC 能使模型的Mel 譜損失快速下降,但是在800 Epochs 左右,其Mel 損失就開始趨于穩(wěn)定,而其他三個(gè)模型(包括基線HiFi-GAN)的損失仍有下降的趨勢(shì)。不過(guò)MSC 解決了這個(gè)問(wèn)題,提高了模型進(jìn)一步的學(xué)習(xí)能力,如在1000 Epochs 的時(shí)候,HiFi-GAN+MSC+DSC 模型不僅在損失上與HiFi-GAN+DSC 模型基本持平,而且其損失仍有下降的趨勢(shì),模型還有繼續(xù)學(xué)習(xí)的能力。
綜上所述,DSC 具有加速模型學(xué)習(xí)的能力,但這種能力是不穩(wěn)定的,即其損失在圖中震蕩比較大(如在950 Epochs 左右,Mel 譜損失甚至跳回基線水平);而MSC 策略能夠有效提高模型學(xué)習(xí)能力并且穩(wěn)定訓(xùn)練過(guò)程,如采用MSC 的兩個(gè)模型在損失上更穩(wěn)定(毛刺較少,浮動(dòng)幅度較?。?,尤其是與DSC 結(jié)合的情況下更明顯。
為比較不同模型間的語(yǔ)音質(zhì)量(模型均訓(xùn)練到其損失不再明顯下降),本文采用了一個(gè)客觀指標(biāo):客觀語(yǔ)音質(zhì)量評(píng)估[24](Perceptual Evaluation of Speech Quality,PESQ)和一個(gè)主觀評(píng)價(jià):平均主觀意見分(Mean Opinion Score,MOS)。生成器生成的語(yǔ)音是以真實(shí)語(yǔ)音的Mel 譜作為輸入條件,因此生成語(yǔ)音有著對(duì)應(yīng)真實(shí)語(yǔ)音作為參考,即可以計(jì)算兩者的PESQ 值。這里需要注意的是進(jìn)行PESQ 計(jì)算前,需要保證生成語(yǔ)音和原始語(yǔ)音的長(zhǎng)度一致,由于生成語(yǔ)音的時(shí)間分辨率是輸入Mel 譜的時(shí)間分辨率的256(幀移)倍,因此測(cè)試集每條語(yǔ)音的長(zhǎng)度需要處理成幀移的整數(shù)倍才能計(jì)算兩者的PESQ 值,本文是通過(guò)丟棄每條語(yǔ)音尾部多余的采樣點(diǎn)(即最多丟棄255個(gè)采樣點(diǎn))來(lái)實(shí)現(xiàn)的,因?yàn)橐粭l語(yǔ)音有幾萬(wàn)甚至十幾萬(wàn)個(gè)采樣點(diǎn),其尾部二百多個(gè)采樣點(diǎn)基本是語(yǔ)音中的靜音段,截去并不會(huì)影響語(yǔ)音質(zhì)量和內(nèi)容。隨后則利用處理后的測(cè)試集來(lái)提取真實(shí)Mel譜輸入模型中得到生成語(yǔ)音,生成語(yǔ)音與處理后的測(cè)試集中的對(duì)應(yīng)真實(shí)語(yǔ)音均被下采樣至16 kHz,并采用python 里面的pypesq 庫(kù)進(jìn)行PESQ 值的計(jì)算;而MOS測(cè)試是從測(cè)試集中隨機(jī)選取30條語(yǔ)音作為評(píng)估集,由15 位精通英語(yǔ)的聽眾通過(guò)耳機(jī)試聽并根據(jù)語(yǔ)音的質(zhì)量,由差(1)到好(5)采用5分制進(jìn)行打分,MOS得分的置信區(qū)間(Confidence Intervals,CI)為95%。
此外,本文也比較了各模型間的參數(shù)量與分別在GPU、CPU 上的推理速度,這里的推理速度采用實(shí)時(shí)因子(Real Time Factor,RTF)的倒數(shù)來(lái)衡量,RTF 表示模型生成一秒時(shí)長(zhǎng)的語(yǔ)音波形所需的時(shí)間(單位秒),即生成一秒波形需一秒的時(shí)長(zhǎng)則認(rèn)為模型剛好達(dá)到了實(shí)時(shí)性。因此,RTF 的倒數(shù)值表示該模型的推理速度是實(shí)時(shí)的倍數(shù)值。
不同模型間的參數(shù)量、推理速度、MOS 和PESQ得分如表2 所示。根據(jù)表中結(jié)果可以看出,DSC 的引入顯著減少了HiFi-GAN 模型的參數(shù)量,提升了模型在GPU、CPU 上的推理速度,并且未對(duì)HiFi-GAN 生成語(yǔ)音的質(zhì)量造成明顯影響。MSC 則僅僅在HiFi-GAN 的基礎(chǔ)上增加了2.65%的參數(shù)量,卻有效提升了HiFi-GAN 生成語(yǔ)音的質(zhì)量。本文通過(guò)將DSC 和MSC 結(jié)合,使得改進(jìn)后的HiFi-GAN 模型不僅參數(shù)量約減少了67.72%,語(yǔ)音質(zhì)量也略有提升(MOS 提升了0.07,PESQ 提升了0.05),此外在GPU、CPU 上推理速度約分別提升了11.72%和28.98%。與基于流(WaveGlow)和基于自回歸(WaveNet)的模型相比,改進(jìn)后的HiFi-GAN 在各項(xiàng)指標(biāo)上均優(yōu)于它們。
表2 不同模型的參數(shù)、推理速度、MOS和PESQ得分Tab.2 Parameters、inference speed、MOS and PESQ scores of different models
為驗(yàn)證改進(jìn)后的HiFi-GAN 模型在不可見說(shuō)話人條件下的通用性,本文另外采用了公開的VCTK數(shù)據(jù)集,該數(shù)據(jù)集包括由109 名說(shuō)話人錄制約44200 個(gè)語(yǔ)音片段,總時(shí)長(zhǎng)約為44 個(gè)小時(shí),語(yǔ)音格式為16 比特PCM 編碼,采樣率為44 kHz,這里為了訓(xùn)練方便(保持LJSpeech-1.1 數(shù)據(jù)集下的訓(xùn)練設(shè)置),將語(yǔ)音采樣率下降為22 kHz。選取100名說(shuō)話者的語(yǔ)音片段作為訓(xùn)練集,剩下9 名說(shuō)話者的語(yǔ)音片段作為測(cè)試集。為了對(duì)比實(shí)驗(yàn),本文也利用該數(shù)據(jù)集訓(xùn)練了WaveNet、WaveGlow 模型,模型均訓(xùn)練到損失不再明顯下降。PESQ 評(píng)價(jià)方式如上節(jié)相同,即計(jì)算測(cè)試集中真實(shí)語(yǔ)音與利用其真實(shí)Mel 譜生成語(yǔ)音之間的PESQ 得分。此外,為了進(jìn)行MOS測(cè)試,隨機(jī)從測(cè)試集中9 個(gè)說(shuō)話人的語(yǔ)音片段中共選取45 個(gè)片段作為評(píng)估集,即每個(gè)說(shuō)話人選取5 個(gè)片段,評(píng)價(jià)方式和打分規(guī)則與4.2 節(jié)相同。注意這里測(cè)試集里面的9個(gè)說(shuō)話人是在模型訓(xùn)練過(guò)程未出現(xiàn)過(guò)的,對(duì)于模型來(lái)說(shuō)是不可見的。
在不可見說(shuō)話人條件下,各模型生成語(yǔ)音的PESQ 和MOS 得分如表3 所示,可以看出改進(jìn)后的HiFi-GAN 聲碼器的MOS 和PESQ 得分均相比于原模型有所提高,與在單說(shuō)話人數(shù)據(jù)集上的得分結(jié)果相似,這表明改進(jìn)后的模型對(duì)于不可見說(shuō)話人上仍具有不錯(cuò)的通用性。
表3 不可見說(shuō)話人條件下的MOS和PESQ得分Tab.3 MOS and PESQ scores in unseen speaker condition
為了驗(yàn)證改進(jìn)的HiFi-GAN 模型作為端到端語(yǔ)音合成任務(wù)上的聲碼器的有效性,采用相同數(shù)據(jù)集(LJSpeech-1.1)訓(xùn)練了基于Tacotron 2[25]的聲學(xué)特征預(yù)測(cè)模型作為前端,注意用于訓(xùn)練聲學(xué)特征預(yù)測(cè)模型的數(shù)據(jù)集切分也與訓(xùn)練聲碼器網(wǎng)絡(luò)的數(shù)據(jù)集切分保持一致,以避免在評(píng)估期間泄露測(cè)試數(shù)據(jù)而夸大實(shí)驗(yàn)結(jié)果?;赥acotron 2 的聲學(xué)特征預(yù)測(cè)模型采用文本序列作為輸出,輸出預(yù)測(cè)的Mel譜,然后再將其輸入聲碼器中以生成語(yǔ)音波形。采用MOS評(píng)估生成語(yǔ)音的質(zhì)量,方式與4.2節(jié)中保持相同。
不同聲碼器在端到端語(yǔ)音合成條件下的MOS得分如表4所示,改進(jìn)后的HiFi-GAN 模型在端到端語(yǔ)音合成任務(wù)中取得了最好的結(jié)果,表明改進(jìn)后的HiFi-GAN 模型在端到端語(yǔ)音合成任務(wù)上有很好的兼容性。
表4 端到端語(yǔ)音合成條件下的MOS得分Tab.4 MOS scores under end-to-end speech synthesis conditions
本文在HiFi-GAN 聲碼器的基礎(chǔ)上,提出一種參數(shù)更少、推理速度更快、語(yǔ)音質(zhì)量更高的改進(jìn)型HiFi-GAN聲碼器。具體來(lái)說(shuō),首先通過(guò)多尺度卷積策略來(lái)有效表征輸入Mel 譜特征,為后續(xù)網(wǎng)絡(luò)提供更充足的信息以生成更高質(zhì)量的語(yǔ)音,其次利用深度可分離卷積有效地減少了模型參數(shù),提升了推理速度。根據(jù)實(shí)驗(yàn)結(jié)果表明,本文的方法在不降低生成語(yǔ)音質(zhì)量的前提下(示例語(yǔ)音可以在網(wǎng)址:https://pan.baidu.com/s/1rZ4fAuLs65Qz-NlLbp4AWA?pwd=naiv上進(jìn)行試聽),有效減少了HiFi-GAN模型約67.72%的參數(shù),并提升了模型推理速度(在GPU 上提升了11.72%,在CPU 上提升了28.98%),這對(duì)于將模型部署到硬件條件不足、內(nèi)存受限的應(yīng)用場(chǎng)景中是十分有意義的,并且改進(jìn)后的HiFi-GAN 模型在端到端語(yǔ)音合成任務(wù)上表現(xiàn)優(yōu)異,有很好的兼容性。