基于HiFi-GAN的改進(jìn)型高效聲碼器

2022-10-11 08:52唐君張連海李嘉欣李宜亭

信號(hào)處理 2022年9期

唐君張連海李嘉欣李宜亭

（中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué)信息系統(tǒng)工程學(xué)院，河南鄭州 450001）

1 引言

近年來(lái)，基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成技術(shù)得到了迅速發(fā)展，合成語(yǔ)音的質(zhì)量甚至已接近了人類錄音的水平。這類語(yǔ)音合成系統(tǒng)通?？煞譃閮蓚€(gè)模塊實(shí)現(xiàn)，第一個(gè)模塊，根據(jù)輸入文本預(yù)測(cè)聲學(xué)特征，通常稱為合成器模塊；第二個(gè)模塊，根據(jù)預(yù)測(cè)的聲學(xué)特征生成語(yǔ)音波形，該模塊通常稱為聲碼器模塊，本文聚焦于聲碼器模塊的研究。傳統(tǒng)的聲碼器，如STRAIGHT［1］、WORLD［2］等，它們生成語(yǔ)音的質(zhì)量通常很低并且聽起來(lái)很不自然，而基于神經(jīng)網(wǎng)絡(luò)的聲碼器（簡(jiǎn)稱神經(jīng)聲碼器）在利用梅爾（Mel）譜生成語(yǔ)音波形方面取得了顯著的成績(jī)，其生成語(yǔ)音的質(zhì)量遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)聲碼器生成語(yǔ)音的質(zhì)量。因此，神經(jīng)聲碼器技術(shù)已經(jīng)成為了目前的主流聲碼器技術(shù)。

根據(jù)神經(jīng)聲碼器結(jié)構(gòu)的不同，該類聲碼器可分為兩大類：自回歸模型和非自回歸模型。起初，神經(jīng)聲碼器研究主要集中在自回歸模型，如WaveNet［3］、WaveRNN［4］和SampleRNN［5］等。自回歸模型的基本思想是將語(yǔ)音波形的分布分解為多個(gè)條件分布的乘積進(jìn)行建模，即當(dāng)前的采樣點(diǎn)依賴于先前生成的采樣點(diǎn)來(lái)生成，以建模語(yǔ)音波形間的長(zhǎng)期相關(guān)性。雖然這類模型能夠生成高質(zhì)量的語(yǔ)音，但這種順序推理過(guò)程導(dǎo)致其生成語(yǔ)音的速度非常慢、效率低下，無(wú)法滿足實(shí)時(shí)應(yīng)用的要求。

為解決自回歸模型因其結(jié)構(gòu)而帶來(lái)的局限性，非自回歸模型應(yīng)運(yùn)而生。非自回歸模型直接建模語(yǔ)音波形的聯(lián)合分布，因此這類模型具有高度的并行性，其推理速度比自回歸模型快得多。近幾年來(lái)，非自回歸聲碼器得到了迅速發(fā)展，根據(jù)其方法，可分為四類：一、基于知識(shí)蒸餾的模型，如Parallel WaveNet［6］和ClariNet［7］等。在這個(gè)模型框架下，自回歸教師模型的知識(shí)被轉(zhuǎn)移到基于逆自回歸流［8］（Inverse Autoregressive Flow，IAF）的學(xué)生模型，雖然基于IAF的學(xué)生模型能夠快速生成合理感知質(zhì)量的語(yǔ)音，但是這種方法不僅需要訓(xùn)練有素的教師模型，而且還需要一些策略來(lái)優(yōu)化復(fù)雜的概率密度蒸餾過(guò)程，如使用基于Kulback-Leiber（KL）散度的概率蒸餾目標(biāo)以及附加的感知損失項(xiàng)來(lái)訓(xùn)練學(xué)生模型。此外，由于學(xué)生模型參數(shù)龐大，還需要GPU 進(jìn)行推理才能達(dá)到實(shí)時(shí)性；二、基于流的模型，如WaveGlow［9］、WaveFlow［10］等，它們由一個(gè)可逆網(wǎng)絡(luò)實(shí)現(xiàn)，僅通過(guò)最小化訓(xùn)練數(shù)據(jù)的負(fù)對(duì)數(shù)似然損失來(lái)直接學(xué)習(xí)，該類方法通常需要龐大的參數(shù)量和繁重的計(jì)算量，其生成語(yǔ)音質(zhì)量才能與自回歸模型相當(dāng)，雖然它們?cè)贕PU 上推理速度很快，但該類方法通常不適用于內(nèi)存受限、硬件條件不足的場(chǎng)景下；三、基于擴(kuò)散概率模型，如DiffWave［11］和WaveGrad［12］等。這類模型以迭代的方式利用具有固定步數(shù)的馬爾可夫鏈將白噪聲信號(hào)轉(zhuǎn)換成結(jié)構(gòu)化語(yǔ)音信號(hào)，因此它們需要一定的模型參數(shù)和迭代次數(shù)才能生成較高質(zhì)量的語(yǔ)音。雖然這類模型的推理速度相比自回歸模型快得多，但是相比基于流的模型卻要慢得多，也只是能在GPU 上實(shí)現(xiàn)較低的實(shí)時(shí)性；四、基于生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）的模型，它們是目前最有前景的方法之一。Parallel WaveGAN［13］和MelGAN［14］是GAN 在聲碼器上的早期嘗試，相比于其他模型，它們顯著提高了模型推理速度（Parallel WaveGAN 在GPU 上實(shí)現(xiàn)較高的實(shí)時(shí)性，而MelGAN不僅在GPU上實(shí)現(xiàn)了很高的實(shí)時(shí)性，在CPU 上也能實(shí)時(shí)生成語(yǔ)音），然而它們生成的語(yǔ)音質(zhì)量上并不令人滿意。為此，研究者作了進(jìn)一步的努力，如Multi-Band MelGAN［15］改進(jìn)了MelGAN，進(jìn)一步提高了MelGAN 生成語(yǔ)音的質(zhì)量和速度，VocGAN［16］改善了MelGAN 中存在的生成語(yǔ)音質(zhì)量不足以及生成語(yǔ)音的Mel 譜與輸入Mel 譜的聲學(xué)特征不一致的問(wèn)題。LVCNet［17］則改進(jìn)了Parallel WaveGAN，提出了一種位置變量卷積用于建模語(yǔ)音波形序列的長(zhǎng)期相關(guān)性，在不降低音質(zhì)和增加參數(shù)的情況下，合成速度相比Parallel WaveGAN 提升了4倍左右。以上基于GAN 的聲碼器研究，雖然實(shí)現(xiàn)以較高的實(shí)時(shí)速度生成語(yǔ)音波形，甚至在CPU 上也能實(shí)現(xiàn)實(shí)時(shí)推理，但是這些模型生成語(yǔ)音的質(zhì)量始終與自回歸模型有所差距，但HiFi-GAN［18］的出現(xiàn)打破了這種桎梏，它實(shí)現(xiàn)了高效和高保真的語(yǔ)音波形生成。從本質(zhì)上來(lái)說(shuō)，HiFi-GAN的成功主要得益于其不僅有效建模了語(yǔ)音波形的長(zhǎng)期相關(guān)性，更重要的是其有效建模了語(yǔ)音波形的周期模式，這也是之前基于GAN 的聲碼器所欠缺的。此外，HiFi-GAN 相比于其他模型在端到端語(yǔ)音合成系統(tǒng)中兼容性更好，很多端到端語(yǔ)音合成系統(tǒng)采用HiFi-GAN模型作為聲碼器來(lái)將前端預(yù)測(cè)的Mel 譜轉(zhuǎn)換為語(yǔ)音波形。HiFi-GAN作為目前最先進(jìn)的聲碼器網(wǎng)絡(luò)之一，但其仍存在一些不足：無(wú)法在語(yǔ)音質(zhì)量和模型參數(shù)、推理速度上進(jìn)行很好的權(quán)衡，通常采用縮減網(wǎng)絡(luò)層的通道數(shù)或?qū)訑?shù)的方式來(lái)減少模型參數(shù)、提高推理速度，但這種方式需要犧牲較大的語(yǔ)音質(zhì)量去換取模型參數(shù)的減少和推理速度的提升。

為了更好權(quán)衡HiFi-GAN 模型在語(yǔ)音質(zhì)量和模型參數(shù)、推理速度上的關(guān)系，本文在HiFi-GAN 的基礎(chǔ)上，引入了多尺度卷積策略和深度可分離卷積，以期望在不明顯降低其生成語(yǔ)音質(zhì)量的情況下，顯著減少了HiFi-GAN 的參數(shù)量，并進(jìn)一步提高了其推理速度。

2 模型框架

在本節(jié)中，首先介紹一維深度可分離卷積的原理，然后介紹生成器的結(jié)構(gòu)原理并將多尺度卷積策略和一維深度可分離卷積引入其中，接著再介紹判別器的結(jié)構(gòu)原理，最后介紹用于訓(xùn)練生成器和判別器的損失函數(shù)。

2.1 一維深度可分離卷積

在這一小節(jié)中，先介紹標(biāo)準(zhǔn)一維卷積的原理，再借此引入深度可分離卷積，并對(duì)兩者的參數(shù)量和計(jì)算量進(jìn)行了比較。

標(biāo)準(zhǔn)一維卷積的原理如圖1 所示，對(duì)于大小為T1×C1的輸入（如Mel 譜，T1代表幀數(shù)，C1代表Mel譜的維度，即通道數(shù)），卷積核的尺寸為K（標(biāo)準(zhǔn)一維卷積默認(rèn)對(duì)輸入的所有通道進(jìn)行處理，因此卷積核的實(shí)際參數(shù)大小為K×C1），若共有C2個(gè)卷積核（濾波器），則輸出大小為T2×C2，T2的值由卷積核的尺寸、卷積步長(zhǎng)、填充等參數(shù)所決定。因此，這里標(biāo)準(zhǔn)一維卷積的參數(shù)量Pstd、乘法計(jì)算量Ostd×以及加法計(jì)算量Ostd+分別如式（1）、（2）、（3）所示。

圖1 標(biāo)準(zhǔn)一維卷積原理圖Fig.1 Schematic diagram of standard one-dimensional convolution

其中，式（1）、（3）中的+1表示偏置。

深度可分離卷積（Depthwise Separable Convolution，DSC）由兩個(gè)過(guò)程組成，分別為深度卷積和逐點(diǎn)卷積。

①深度卷積（Depthwise Convolution）

一維深度卷積的原理如圖2 所示，對(duì)于大小同樣為T1×C1的輸入，卷積核的尺寸為K（這里每個(gè)卷積核只對(duì)一個(gè)特定的通道進(jìn)行處理，因此每個(gè)卷積核的實(shí)際參數(shù)大小為K×1），共有C1個(gè)卷積核，即輸出通道與輸入通道相等。由于深度卷積逐通道處理的特性，因此其也被稱為逐通道卷積，這里深度卷積的參數(shù)量Pdw、乘法計(jì)算量Odw×以及加法計(jì)算量Odw+分別如式（4）、（5）、（6）所示。

圖2 一維深度卷積原理圖Fig.2 Schematic diagram of one-dimensional depthwise convolution

其中，式（4）、（6）中的+1表示偏置。

②逐點(diǎn)卷積（Pointwise Convolution）

一維逐點(diǎn)卷積的原理如圖3 所示，它是標(biāo)準(zhǔn)一維卷積的特例（卷積核的尺寸為1），共有C2個(gè)卷積核，由于卷積核的尺寸為1，因此輸出的時(shí)間維度與輸入的時(shí)間維度保持不變。逐點(diǎn)卷積主要對(duì)輸出通道起到升維和降維的作用（通道維度由參數(shù)C2控制），并將各通道之間信息進(jìn)行了整合。因此由于逐點(diǎn)卷積的存在，深度可分離卷積并沒(méi)有丟失通道間的信息，這里逐點(diǎn)卷積的參數(shù)量Ppw、乘法計(jì)算量Opw×以及加法計(jì)算量Opw+如式（7）、（8）、（9）所示。

圖3 一維逐點(diǎn)卷積的原理圖Fig.3 Schematic diagram of one-dimensional pointwise convolution

其中，式（7）、（9）中的+1表示偏置。

綜上所述，一維深度可分離卷積的總參數(shù)量為Pdw+Ppw，總乘法計(jì)算量為Odw×+Opw×，總加法計(jì)算量為Odw++Opw+。相比標(biāo)準(zhǔn)一維卷積，兩者參數(shù)量、乘法計(jì)算量以及加法計(jì)算量的比值分別如式（10）、（11）、（12）所示。

通常情況下C1、C2?1且K≥3，因此一維深度可分離卷積相比標(biāo)準(zhǔn)一維卷積而言，參數(shù)量、乘法計(jì)算量以及加法計(jì)算量將會(huì)得到明顯減少，這將有助于模型的壓縮與加速。

從本質(zhì)上來(lái)講，標(biāo)準(zhǔn)一維卷積將時(shí)間相關(guān)性和通道相關(guān)性進(jìn)行聯(lián)合映射，而一維深度可分離卷積將時(shí)間相關(guān)性和通道相關(guān)性進(jìn)行分開映射。從語(yǔ)音波形中提取Mel譜的過(guò)程來(lái)看，先對(duì)語(yǔ)音分段，再對(duì)每段語(yǔ)音分別進(jìn)行計(jì)算提取一幀的Mel 譜，因此本文采用一維深度可分離卷積將Mel譜中的時(shí)間相關(guān)性和通道相關(guān)性進(jìn)行分開學(xué)習(xí)，這種分而治之的思想更有助于網(wǎng)絡(luò)利用Mel 譜還原出語(yǔ)音波形，也相對(duì)減輕網(wǎng)絡(luò)的學(xué)習(xí)負(fù)擔(dān)，有助于網(wǎng)絡(luò)的快速學(xué)習(xí)。

2.2 生成器

生成器結(jié)構(gòu)如圖4 所示，它使用Mel 譜作為輸入，并通過(guò)轉(zhuǎn)置卷積不斷對(duì)其進(jìn)行上采樣，直到輸出序列的長(zhǎng)度與原始波形的時(shí)間分辨率相匹配。每個(gè)轉(zhuǎn)置卷積后面都連接一個(gè)多接受場(chǎng)融合（Multi-Receptive Field Fusion，MRF）模塊，MRF 的具體結(jié)構(gòu)如圖5所示。

圖4 生成器的結(jié)構(gòu)原理圖（K表示卷積核的尺寸）Fig.4 Schematic diagram of the structure of the generator（K represents the size of the convolution kernel）

圖5 MRF的結(jié)構(gòu)原理圖（右邊為殘差塊的具體結(jié)構(gòu)，當(dāng)表示第i個(gè)殘差塊時(shí)，則n= i）Fig.5 The schematic diagram of the structure of the MRF（The right side is the specific structure of the residual block，when the i-th residual block is represented，then n=i）

MRF模塊累積多個(gè)殘差塊（ResBlock）的輸出之和，每個(gè)殘差塊由一系列的一維卷積構(gòu)成，這些卷積有著不同大小的卷積核和擴(kuò)張率，以形成不同大小的接受場(chǎng)，有效建模語(yǔ)音波形的短期和長(zhǎng)期相關(guān)性。

Mel 譜作為語(yǔ)音的一種低分辨率表示，其幀與幀之間存在著強(qiáng)烈的短期和長(zhǎng)期相關(guān)性，這些相關(guān)性對(duì)于建模語(yǔ)音分布是至關(guān)重要的。因此，本文為了捕獲Mel 譜的局部特性和遠(yuǎn)程相關(guān)性，采用一個(gè)多尺度卷積（Multi-Scale Convolution，MSC）策略對(duì)輸入Mel譜進(jìn)行處理。

如圖6 所示，MSC 策略是指采用多個(gè)不同尺寸的卷積核對(duì)輸入Mel譜進(jìn)行處理并返回這些處理結(jié)果之和，卷積核的具體尺寸如圖中所示。這里每個(gè)卷積層的輸出通道（channels）是一致，即每個(gè)卷積層的輸出的通道維度是相同的，同時(shí)為保證每個(gè)卷積層的輸出在時(shí)間維度上保持不變，將輸入（Mel譜）送入卷積層處理之前，根據(jù)各卷積層的卷積核大小對(duì)輸入進(jìn)行補(bǔ)零填充操作，即在其時(shí)間維度上填充一定數(shù)量值為0 的Mel 譜幀。因此，經(jīng)過(guò)不同尺寸的卷積核處理后的輸出的縱向和橫向維度大小均相同，這將保證各個(gè)輸出結(jié)果可以直接相加。

圖6 多尺度卷積策略原理圖Fig.6 Schematic diagram of multi-scale convolution strategy

不同尺寸的卷積核能夠捕獲不同尺度的全局和局部特征，與原生成器網(wǎng)絡(luò)采用固定尺寸的卷積核來(lái)處理Mel 譜相比，本文提出的多尺度卷積策略能充分表征從Mel 譜中提取的信息，有助于后續(xù)網(wǎng)絡(luò)利用這些信息進(jìn)行學(xué)習(xí)以建模原始語(yǔ)音的分布。此外，為了不顯著降低生成器生成語(yǔ)音的質(zhì)量情況下，有效減少模型參數(shù)量并提高模型推理速度，受圖像中的深度可分離卷積［19］啟發(fā)，本文采用一維深度可分離卷積去替代生成器中原有的標(biāo)準(zhǔn)一維卷積。在訓(xùn)練過(guò)程中，生成器除了轉(zhuǎn)置卷積層外，其他所有卷積層均采用權(quán)重歸一化［20］，值得注意的是深度可分離卷積采用權(quán)重歸一化等同于深度卷積和逐點(diǎn)卷積均采用權(quán)重歸一化。

2.3 判別器

對(duì)于生成對(duì)抗網(wǎng)絡(luò)來(lái)說(shuō)，判別器主要對(duì)生成器起一個(gè)對(duì)抗訓(xùn)練的作用，引導(dǎo)生成器能產(chǎn)生更接近真實(shí)的數(shù)據(jù)。這里模型的判別器仍采用HiFi-GAN原有的配置，其包含兩個(gè)判別器：多尺度判別器和多周期判別器。

2.3.1 多周期判別器

多周期鑒別器（Multi-Period Discriminator，MPD）的結(jié)構(gòu)如圖7 所示，它由多個(gè)網(wǎng)絡(luò)結(jié)構(gòu)相同的子鑒別器組成，每個(gè)子鑒別器用于捕獲輸入語(yǔ)音的一部分周期信號(hào)，以識(shí)別語(yǔ)音數(shù)據(jù)中潛在的各種周期模式。

圖7 多周期鑒別器原理圖（左為整體結(jié)構(gòu)，右為子鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)，F(xiàn)eature map為每層網(wǎng)絡(luò)的特征輸出，用于下節(jié)提到的特征匹配損失）Fig.7 Schematic diagram of the multi-period discriminator（the left is the overall structure，the right is the network structure of the sub-discriminator，and“Feature map”is the feature output of each layer of the network，which is used for the feature matching loss mentioned in the next section）

為實(shí)現(xiàn)子鑒別器捕獲語(yǔ)音信號(hào)中的周期模式，每個(gè)子鑒別器并不直接處理語(yǔ)音波形，而是將語(yǔ)音波形進(jìn)行填充與整形，如圖8所示，以保證每個(gè)子鑒別器只接受輸入語(yǔ)音波形的等間距采樣點(diǎn)，間隔由周期參數(shù)p控制。通過(guò)這樣的方式，長(zhǎng)度為T的一維原始語(yǔ)音被處理成高度為T/p、寬度為p的二維數(shù)據(jù)，因此，MPD 需要采用二維的卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理這些數(shù)據(jù)，除最后一層網(wǎng)絡(luò)外，其他層均采用二維跨步卷積（只在高度上進(jìn)行跨步），并且每層卷積均采用權(quán)重歸一化。在MPD的每層卷積層中，卷積核的寬度軸的大小被限制為1，從而獨(dú)立處理寬度軸方向的周期語(yǔ)音采樣點(diǎn)。因此，每個(gè)子鑒別器可以通過(guò)處理語(yǔ)音波形不同的部分來(lái)捕獲語(yǔ)音中彼此不同的潛在周期模式。

圖8 語(yǔ)音波形的填充與整形示意圖（周期參數(shù)p=3）Fig.8 Schematic diagram of pad and reshape of speech waveform（period parameter p=3）

2.3.2 多尺度判別器

多尺度鑒別器（Multi-Scale Discriminator，MSD）的結(jié)構(gòu)如圖9 所示，MSD 是三個(gè)網(wǎng)絡(luò)結(jié)構(gòu)相同但工作在不同尺度上的鑒別器組合，即分別處理原始語(yǔ)音、經(jīng)過(guò)×2平均池化的原始語(yǔ)音、經(jīng)過(guò)×4平均池化的原始語(yǔ)音。子鑒別器通過(guò)采用分組卷積來(lái)保證使用較大尺寸的卷積核，同時(shí)保持較小的參數(shù)量。除了對(duì)原始語(yǔ)音處理的第一個(gè)子鑒別器應(yīng)用譜歸一化［21］，其他兩個(gè)子鑒別器應(yīng)用權(quán)重歸一化，這里采用譜歸一化有助于穩(wěn)定訓(xùn)練。

圖9 多尺度鑒別器結(jié)構(gòu)原理圖（左為整體結(jié)構(gòu)，右為子鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)，F(xiàn)eature map為每層網(wǎng)絡(luò)的特征輸出，用于下節(jié)提到的特征匹配損失）Fig.9 Schematic diagram of the multi-scale discriminator structure（the left is the overall structure，the right is the network structure of the sub-discriminator，and“Feature map”is the feature output of each layer of the network，which is used for the feature matching loss mentioned in the next section）

2.4 損失函數(shù)

損失函數(shù)由三部分組成，分別為對(duì)抗損失、特征匹配損失以及Mel譜損失。

2.4.1 對(duì)抗損失

對(duì)于生成器和鑒別器的對(duì)抗訓(xùn)練目標(biāo)，遵循LSGAN［22］的設(shè)置。判別器負(fù)責(zé)對(duì)語(yǔ)音樣本進(jìn)行分類，即將真實(shí)語(yǔ)音分類為1、生成器生成的語(yǔ)音分類為0，而生成器則根據(jù)輸入條件生成語(yǔ)音以欺騙判別器，即判別器錯(cuò)將生成語(yǔ)音分類為1。最后通過(guò)生成器和判別器的相互博弈過(guò)程，直至生成器能夠做到以假亂真的效果。因此，生成器和判別器的對(duì)抗損失函數(shù)分別如式（13）、（14）所示。

為了簡(jiǎn)潔，這里將MSD 和MPD 描述為一個(gè)鑒別器，其中x代表真實(shí)語(yǔ)音，s表示輸入條件（對(duì)應(yīng)真實(shí)語(yǔ)音提取的Mel譜）。

2.4.2 特征匹配損失

為提高生成器的能力，采用了MelGAN 中的特征匹配損失（Feature Matching Loss，F(xiàn)ML），F(xiàn)ML 通過(guò)比較真實(shí)語(yǔ)音和生成語(yǔ)音在判別器每層網(wǎng)絡(luò)的輸出特征之間的差異來(lái)提高生成器的偽造能力，采用L1 距離來(lái)衡量這種差異，特征匹配損失函數(shù)如式（15）所示。

其中，T表示鑒別器中的卷積層數(shù)，Di和Ni分別表示鑒別器的第i層中的特征和特征數(shù)量。

2.4.3 Mel譜損失

Parallel WaveGAN 通過(guò)聯(lián)合優(yōu)化多分辨率頻譜損失和對(duì)抗損失，有效捕獲了真實(shí)語(yǔ)音波形的時(shí)頻分布。類似于多分辨率頻譜損失，HiFi-GAN根據(jù)人耳聽覺特性，采用Mel譜損失，以期望提高生成語(yǔ)音的感知質(zhì)量。具體來(lái)說(shuō)，Mel 譜損失是生成器生成語(yǔ)音的Mel 譜與真實(shí)波形的Mel 譜之間的L1 損失，如式（16）所示。

其中，φ(·)表示從語(yǔ)音中提取Mel譜的函數(shù)，注意這里提取的Mel譜是全頻帶的（最低頻率為0 Hz，最高頻率為語(yǔ)音采樣率的一半），不同于作為輸入條件的帶限Mel 譜，采用全頻帶的Mel 損失有助于模型學(xué)習(xí)語(yǔ)音的全頻帶信息。

2.4.4 總損失

特征匹配損失和Mel譜損失作為輔助損失用于穩(wěn)定模型訓(xùn)練并加速收斂，因此訓(xùn)練生成器和判別器最終的損失函數(shù)如式（17）、（18）所示。

其中，Dk表示MPD 和MSD 中第k個(gè)子鑒別器，λ和μ為超參數(shù)用于控制各項(xiàng)損失的比重，在實(shí)驗(yàn)中其值分別設(shè)置為2和45。

3 實(shí)驗(yàn)及結(jié)果

3.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)數(shù)據(jù)采用公開的LJSpeech 數(shù)據(jù)集，該數(shù)據(jù)集由13100 個(gè)英語(yǔ)語(yǔ)音片段和相應(yīng)的文本組成，語(yǔ)音總時(shí)長(zhǎng)約為24 個(gè)小時(shí)，語(yǔ)音格式為16 比特PCM編碼，采樣率為22050 Hz，由一名專業(yè)的美國(guó)女性說(shuō)話者錄制。實(shí)驗(yàn)中將數(shù)據(jù)集隨機(jī)分成兩部分：12800個(gè)音頻樣本用于訓(xùn)練集，300個(gè)音頻樣本用于測(cè)試集。實(shí)驗(yàn)在單個(gè)GPU 和CPU（NVIDIA Tesla V100 GPU 用于訓(xùn)練，Xeon（R）E5-2620 v4 2.10 GHz CPU和NVIDIA GTX 1080Ti GPU用于測(cè)試）上進(jìn)行，模型網(wǎng)絡(luò)架構(gòu)基于PyTorch 搭建，模型采用80 維（0～80 kHz 頻率范圍）的Mel 譜作為輸入，其中FFT長(zhǎng)度、幀長(zhǎng)和幀移分別設(shè)置為1024、1024 和256 個(gè)采樣點(diǎn)，并采用漢寧窗減少頻譜能量泄露。

模型采用AdamW［23］優(yōu)化器進(jìn)行訓(xùn)練，其中β1=0.8、β2=0.99、ε=1e-6，初始學(xué)習(xí)率設(shè)置為2e-4，每經(jīng)過(guò)一個(gè)訓(xùn)練周期（Epoch），學(xué)習(xí)率衰減為0.999倍。批處理每條語(yǔ)音的長(zhǎng)度和批處理大小分別設(shè)置為16384 個(gè)采樣點(diǎn)和12 個(gè)音頻樣本。此外，生成器網(wǎng)絡(luò)的具體參數(shù)如表1 所示，部分參數(shù)的表示方式類似數(shù)組形式，如kr[2]=7，dr[3，2，1]=3。為了進(jìn)行對(duì)比實(shí)驗(yàn)，本文也訓(xùn)練了WaveNet、WaveGlow聲碼器，模型及訓(xùn)練設(shè)置保持與原有設(shè)置相同。

表1 生成器的網(wǎng)絡(luò)參數(shù)配置Tab.1 Network parameters configuration of the generator

3.2 Mel譜損失對(duì)比

Mel 譜是根據(jù)人耳的聽覺特性設(shè)計(jì)的，生成語(yǔ)音的Mel 譜與真實(shí)語(yǔ)音的Mel 譜之間的差距能夠一定程度上反映生成語(yǔ)音與真實(shí)語(yǔ)音在語(yǔ)音質(zhì)量上的差異。為比較多尺度卷積（MSC）策略和一維深度可分離卷積（DSC）在HiFi-GAN 模型中的有效性，本文首先展示了它們結(jié)合HiFi-GAN 模型在不同訓(xùn)練周期時(shí)，測(cè)試集上的Mel譜損失情況，如圖10所示。

圖10 不同訓(xùn)練階段的測(cè)試集上的Mel譜損失Fig.10 Mel spectral loss on the test set at different training stages

根據(jù)圖中結(jié)果可以看出，MSC 策略的確有助于生成器學(xué)習(xí)，產(chǎn)生更接近真實(shí)語(yǔ)音的生成語(yǔ)音。采用DSC 能使模型的Mel 譜損失快速下降，但是在800 Epochs 左右，其Mel 損失就開始趨于穩(wěn)定，而其他三個(gè)模型（包括基線HiFi-GAN）的損失仍有下降的趨勢(shì)。不過(guò)MSC 解決了這個(gè)問(wèn)題，提高了模型進(jìn)一步的學(xué)習(xí)能力，如在1000 Epochs 的時(shí)候，HiFi-GAN+MSC+DSC 模型不僅在損失上與HiFi-GAN+DSC 模型基本持平，而且其損失仍有下降的趨勢(shì)，模型還有繼續(xù)學(xué)習(xí)的能力。

綜上所述，DSC 具有加速模型學(xué)習(xí)的能力，但這種能力是不穩(wěn)定的，即其損失在圖中震蕩比較大（如在950 Epochs 左右，Mel 譜損失甚至跳回基線水平）；而MSC 策略能夠有效提高模型學(xué)習(xí)能力并且穩(wěn)定訓(xùn)練過(guò)程，如采用MSC 的兩個(gè)模型在損失上更穩(wěn)定（毛刺較少，浮動(dòng)幅度較?。?，尤其是與DSC 結(jié)合的情況下更明顯。

3.3 語(yǔ)音質(zhì)量、模型參數(shù)及推理速度

為比較不同模型間的語(yǔ)音質(zhì)量（模型均訓(xùn)練到其損失不再明顯下降），本文采用了一個(gè)客觀指標(biāo)：客觀語(yǔ)音質(zhì)量評(píng)估［24］（Perceptual Evaluation of Speech Quality，PESQ）和一個(gè)主觀評(píng)價(jià)：平均主觀意見分（Mean Opinion Score，MOS）。生成器生成的語(yǔ)音是以真實(shí)語(yǔ)音的Mel 譜作為輸入條件，因此生成語(yǔ)音有著對(duì)應(yīng)真實(shí)語(yǔ)音作為參考，即可以計(jì)算兩者的PESQ 值。這里需要注意的是進(jìn)行PESQ 計(jì)算前，需要保證生成語(yǔ)音和原始語(yǔ)音的長(zhǎng)度一致，由于生成語(yǔ)音的時(shí)間分辨率是輸入Mel 譜的時(shí)間分辨率的256（幀移）倍，因此測(cè)試集每條語(yǔ)音的長(zhǎng)度需要處理成幀移的整數(shù)倍才能計(jì)算兩者的PESQ 值，本文是通過(guò)丟棄每條語(yǔ)音尾部多余的采樣點(diǎn)（即最多丟棄255個(gè)采樣點(diǎn)）來(lái)實(shí)現(xiàn)的，因?yàn)橐粭l語(yǔ)音有幾萬(wàn)甚至十幾萬(wàn)個(gè)采樣點(diǎn)，其尾部二百多個(gè)采樣點(diǎn)基本是語(yǔ)音中的靜音段，截去并不會(huì)影響語(yǔ)音質(zhì)量和內(nèi)容。隨后則利用處理后的測(cè)試集來(lái)提取真實(shí)Mel譜輸入模型中得到生成語(yǔ)音，生成語(yǔ)音與處理后的測(cè)試集中的對(duì)應(yīng)真實(shí)語(yǔ)音均被下采樣至16 kHz，并采用python 里面的pypesq 庫(kù)進(jìn)行PESQ 值的計(jì)算；而MOS測(cè)試是從測(cè)試集中隨機(jī)選取30條語(yǔ)音作為評(píng)估集，由15 位精通英語(yǔ)的聽眾通過(guò)耳機(jī)試聽并根據(jù)語(yǔ)音的質(zhì)量，由差（1）到好（5）采用5分制進(jìn)行打分，MOS得分的置信區(qū)間（Confidence Intervals，CI）為95%。

此外，本文也比較了各模型間的參數(shù)量與分別在GPU、CPU 上的推理速度，這里的推理速度采用實(shí)時(shí)因子（Real Time Factor，RTF）的倒數(shù)來(lái)衡量，RTF 表示模型生成一秒時(shí)長(zhǎng)的語(yǔ)音波形所需的時(shí)間（單位秒），即生成一秒波形需一秒的時(shí)長(zhǎng)則認(rèn)為模型剛好達(dá)到了實(shí)時(shí)性。因此，RTF 的倒數(shù)值表示該模型的推理速度是實(shí)時(shí)的倍數(shù)值。

不同模型間的參數(shù)量、推理速度、MOS 和PESQ得分如表2 所示。根據(jù)表中結(jié)果可以看出，DSC 的引入顯著減少了HiFi-GAN 模型的參數(shù)量，提升了模型在GPU、CPU 上的推理速度，并且未對(duì)HiFi-GAN 生成語(yǔ)音的質(zhì)量造成明顯影響。MSC 則僅僅在HiFi-GAN 的基礎(chǔ)上增加了2.65%的參數(shù)量，卻有效提升了HiFi-GAN 生成語(yǔ)音的質(zhì)量。本文通過(guò)將DSC 和MSC 結(jié)合，使得改進(jìn)后的HiFi-GAN 模型不僅參數(shù)量約減少了67.72%，語(yǔ)音質(zhì)量也略有提升（MOS 提升了0.07，PESQ 提升了0.05），此外在GPU、CPU 上推理速度約分別提升了11.72%和28.98%。與基于流（WaveGlow）和基于自回歸（WaveNet）的模型相比，改進(jìn)后的HiFi-GAN 在各項(xiàng)指標(biāo)上均優(yōu)于它們。

表2 不同模型的參數(shù)、推理速度、MOS和PESQ得分Tab.2 Parameters、inference speed、MOS and PESQ scores of different models

3.4 多說(shuō)話人條件下的性能測(cè)試

為驗(yàn)證改進(jìn)后的HiFi-GAN 模型在不可見說(shuō)話人條件下的通用性，本文另外采用了公開的VCTK數(shù)據(jù)集，該數(shù)據(jù)集包括由109 名說(shuō)話人錄制約44200 個(gè)語(yǔ)音片段，總時(shí)長(zhǎng)約為44 個(gè)小時(shí)，語(yǔ)音格式為16 比特PCM 編碼，采樣率為44 kHz，這里為了訓(xùn)練方便（保持LJSpeech-1.1 數(shù)據(jù)集下的訓(xùn)練設(shè)置），將語(yǔ)音采樣率下降為22 kHz。選取100名說(shuō)話者的語(yǔ)音片段作為訓(xùn)練集，剩下9 名說(shuō)話者的語(yǔ)音片段作為測(cè)試集。為了對(duì)比實(shí)驗(yàn)，本文也利用該數(shù)據(jù)集訓(xùn)練了WaveNet、WaveGlow 模型，模型均訓(xùn)練到損失不再明顯下降。PESQ 評(píng)價(jià)方式如上節(jié)相同，即計(jì)算測(cè)試集中真實(shí)語(yǔ)音與利用其真實(shí)Mel 譜生成語(yǔ)音之間的PESQ 得分。此外，為了進(jìn)行MOS測(cè)試，隨機(jī)從測(cè)試集中9 個(gè)說(shuō)話人的語(yǔ)音片段中共選取45 個(gè)片段作為評(píng)估集，即每個(gè)說(shuō)話人選取5 個(gè)片段，評(píng)價(jià)方式和打分規(guī)則與4.2 節(jié)相同。注意這里測(cè)試集里面的9個(gè)說(shuō)話人是在模型訓(xùn)練過(guò)程未出現(xiàn)過(guò)的，對(duì)于模型來(lái)說(shuō)是不可見的。

在不可見說(shuō)話人條件下，各模型生成語(yǔ)音的PESQ 和MOS 得分如表3 所示，可以看出改進(jìn)后的HiFi-GAN 聲碼器的MOS 和PESQ 得分均相比于原模型有所提高，與在單說(shuō)話人數(shù)據(jù)集上的得分結(jié)果相似，這表明改進(jìn)后的模型對(duì)于不可見說(shuō)話人上仍具有不錯(cuò)的通用性。

表3 不可見說(shuō)話人條件下的MOS和PESQ得分Tab.3 MOS and PESQ scores in unseen speaker condition

3.5 端到端語(yǔ)音合成

為了驗(yàn)證改進(jìn)的HiFi-GAN 模型作為端到端語(yǔ)音合成任務(wù)上的聲碼器的有效性，采用相同數(shù)據(jù)集（LJSpeech-1.1）訓(xùn)練了基于Tacotron 2［25］的聲學(xué)特征預(yù)測(cè)模型作為前端，注意用于訓(xùn)練聲學(xué)特征預(yù)測(cè)模型的數(shù)據(jù)集切分也與訓(xùn)練聲碼器網(wǎng)絡(luò)的數(shù)據(jù)集切分保持一致，以避免在評(píng)估期間泄露測(cè)試數(shù)據(jù)而夸大實(shí)驗(yàn)結(jié)果?；赥acotron 2 的聲學(xué)特征預(yù)測(cè)模型采用文本序列作為輸出，輸出預(yù)測(cè)的Mel譜，然后再將其輸入聲碼器中以生成語(yǔ)音波形。采用MOS評(píng)估生成語(yǔ)音的質(zhì)量，方式與4.2節(jié)中保持相同。

不同聲碼器在端到端語(yǔ)音合成條件下的MOS得分如表4所示，改進(jìn)后的HiFi-GAN 模型在端到端語(yǔ)音合成任務(wù)中取得了最好的結(jié)果，表明改進(jìn)后的HiFi-GAN 模型在端到端語(yǔ)音合成任務(wù)上有很好的兼容性。

表4 端到端語(yǔ)音合成條件下的MOS得分Tab.4 MOS scores under end-to-end speech synthesis conditions

4 結(jié)論

本文在HiFi-GAN 聲碼器的基礎(chǔ)上，提出一種參數(shù)更少、推理速度更快、語(yǔ)音質(zhì)量更高的改進(jìn)型HiFi-GAN聲碼器。具體來(lái)說(shuō)，首先通過(guò)多尺度卷積策略來(lái)有效表征輸入Mel 譜特征，為后續(xù)網(wǎng)絡(luò)提供更充足的信息以生成更高質(zhì)量的語(yǔ)音，其次利用深度可分離卷積有效地減少了模型參數(shù)，提升了推理速度。根據(jù)實(shí)驗(yàn)結(jié)果表明，本文的方法在不降低生成語(yǔ)音質(zhì)量的前提下（示例語(yǔ)音可以在網(wǎng)址：https：//pan.baidu.com/s/1rZ4fAuLs65Qz-NlLbp4AWA?pwd=naiv上進(jìn)行試聽），有效減少了HiFi-GAN模型約67.72%的參數(shù)，并提升了模型推理速度（在GPU 上提升了11.72%，在CPU 上提升了28.98%），這對(duì)于將模型部署到硬件條件不足、內(nèi)存受限的應(yīng)用場(chǎng)景中是十分有意義的，并且改進(jìn)后的HiFi-GAN 模型在端到端語(yǔ)音合成任務(wù)上表現(xiàn)優(yōu)異，有很好的兼容性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡