基于生成對(duì)抗網(wǎng)絡(luò)的音頻補(bǔ)償方法

2022-12-02 06:06觀元升胡文林

陜西師范大學(xué)學(xué)報(bào)（自然科學(xué)版） 2022年6期

王杰，觀元升，胡文林

(1 廣州大學(xué) 電子與通信工程學(xué)院, 廣東廣州 510006；2 中國(guó)鐵路設(shè)計(jì)集團(tuán)有限公司城市軌道交通數(shù)字化建設(shè)與測(cè)評(píng)技術(shù)國(guó)家工程實(shí)驗(yàn)室，天津 300308)

音頻補(bǔ)償(audio inpainting)，即對(duì)受到非期望的局部損失影響的音頻進(jìn)行修復(fù)工作[1]。音頻的局部損失可能來(lái)自記錄過(guò)程中的誤操作、傳輸過(guò)程中的數(shù)據(jù)丟失或儲(chǔ)存器件的損壞等不可逆損壞，進(jìn)而導(dǎo)致音頻的時(shí)間片段缺失或頻域局部缺失。音頻補(bǔ)償算法的目標(biāo)是對(duì)帶有這些缺失的音頻片段進(jìn)行連貫、無(wú)失真的修復(fù)。

音頻補(bǔ)償也被稱為音頻插值、音頻推測(cè)、音頻修復(fù)或波形替換。在音頻補(bǔ)償尚未得到正式定義前，就已經(jīng)有研究者嘗試對(duì)丟失音頻進(jìn)行填補(bǔ)。最初較為成功的方法之一是對(duì)丟失的音頻樣本進(jìn)行時(shí)域插值，例如Janssen等[2]提出了一種自適應(yīng)插值方法，將音頻信號(hào)建模為自回歸(auto regressive，AR)過(guò)程，即設(shè)計(jì)丟失樣本的估計(jì)與恢復(fù)信號(hào)的AR系數(shù)進(jìn)行函數(shù)最小化，該方法可成功填補(bǔ)45 ms左右的音頻間隙。Adler等[1]提出基于稀疏性的音頻補(bǔ)償方法,基于時(shí)頻變換中音頻信號(hào)的能量通常集中在相對(duì)較低的變換系數(shù)區(qū)域，該方法利用短時(shí)傅里葉變換(short-time Fourier transform，STFT)獲得具有稀疏表示的信號(hào)，并用該信號(hào)來(lái)修復(fù)間隔，文中使用正交匹配追蹤(orthogonal matching pursuit，OMP)來(lái)尋找信號(hào)。近年來(lái)也出現(xiàn)了非局部結(jié)構(gòu)(non-locals structures)相似性搜索稀疏表示[3]，或使用稀疏表示統(tǒng)計(jì)先驗(yàn)信息[4]的一些匹配方法。這類音頻補(bǔ)償算法具有結(jié)構(gòu)簡(jiǎn)單、運(yùn)算速度快的優(yōu)點(diǎn)，但修復(fù)時(shí)長(zhǎng)一般僅有幾十到一百毫秒。

在利用音頻相似性進(jìn)行補(bǔ)償?shù)姆椒ㄖ?，最成功的是相似圖算法(similarity graphs algorithm，SGA)[5]，該方法重復(fù)性地從輸入信號(hào)的未損壞部分尋找相關(guān)信息，然后將確定片段插入間隙來(lái)修復(fù)。SGA無(wú)須訓(xùn)練，可修復(fù)多種類別的音樂(lè)或自然聲間隙，且修復(fù)間隙長(zhǎng)達(dá)幾百毫秒；但SGA性能依賴于待修復(fù)音頻中是否有重復(fù)片段，這導(dǎo)致SGA算法的重建效果不穩(wěn)定。

語(yǔ)譜圖是語(yǔ)音圖像化的表示方法，許多研究提出將圖像修復(fù)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)方法用于音頻補(bǔ)償，例如：文獻(xiàn)[6]使用深度神經(jīng)網(wǎng)絡(luò)(deep neural network，DNN)進(jìn)行中等時(shí)間間隔的音頻STFT譜圖修復(fù)，證明了DNN在音頻補(bǔ)償上的潛力。而文獻(xiàn)[7]則考慮基于時(shí)頻掩蔽的語(yǔ)音修復(fù)，使用U-Net網(wǎng)絡(luò)[8]體系結(jié)構(gòu)來(lái)修復(fù)STFT譜圖，并加入Speech VGG[9](Speech VGG是基于文字分類訓(xùn)練的經(jīng)典VGG-16體系結(jié)構(gòu))進(jìn)而提取STFT譜圖中多維語(yǔ)音特征。引入Speech VGG的U-Net網(wǎng)絡(luò)能有效復(fù)原長(zhǎng)達(dá)400 ms的缺失或扭曲的語(yǔ)音片段。

隨著深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的發(fā)展[10]，生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network，GAN)[11]作為一種高性能的生成式模型受到極大的關(guān)注。而其他音頻領(lǐng)域的工作如語(yǔ)音增強(qiáng)、語(yǔ)音合成等已經(jīng)表明，GAN可以生成幾秒鐘質(zhì)量穩(wěn)定的聲音信號(hào)，因此研究者也考慮將其應(yīng)用于音頻補(bǔ)償中。Marafioti等[12]提出TiFGAN(time-frequency generative adversarial network)模型，使用基于語(yǔ)譜圖的生成對(duì)抗網(wǎng)絡(luò)進(jìn)行音樂(lè)音頻補(bǔ)償，并展示了時(shí)頻系數(shù)在生成式建模中的潛力。文獻(xiàn)[13]的音樂(lè)音頻補(bǔ)償不使用STFT等音頻特征系數(shù)，使用直接基于音頻時(shí)域信號(hào)的雙鑒別器Wasserstein-GAN結(jié)構(gòu)[14]，兩個(gè)鑒別器分別提取缺失片段周圍可用內(nèi)容和遠(yuǎn)離間隙的音頻內(nèi)容，因此丟失數(shù)據(jù)的修復(fù)將利用更多的相關(guān)信息。Marafioti等[15]提出的基于音樂(lè)補(bǔ)償?shù)纳蓪?duì)抗上下文網(wǎng)絡(luò)GACELA(generative adversarial context encoder for long audio inpainting)使用5個(gè)并行鑒別器在5個(gè)不同時(shí)間尺度下處理STFT譜圖，已能做到數(shù)百毫秒到秒之間長(zhǎng)間隔音樂(lè)信號(hào)的修復(fù)。

綜上所述，當(dāng)前研究主要包括3類音頻補(bǔ)償方法：(1)尋找相似音頻來(lái)填補(bǔ)空白部分的傳統(tǒng)建模方法，這類方法可修復(fù)時(shí)間過(guò)短、補(bǔ)償結(jié)果不穩(wěn)定，且僅適用于重復(fù)性高的音樂(lè)和自然聲；(2)基于語(yǔ)譜圖的圖像修復(fù)方法，這類方法都存在譜圖逆變換導(dǎo)致補(bǔ)償后的音頻失真問(wèn)題；(3)基于GAN的音頻補(bǔ)償方法，該類方法可修復(fù)的間隙長(zhǎng)度更長(zhǎng)且生成質(zhì)量更穩(wěn)定，但也僅限于純音樂(lè)音頻，尚未涉及語(yǔ)音信號(hào)。直接使用GAN針對(duì)語(yǔ)音進(jìn)行音頻補(bǔ)償，學(xué)習(xí)難度將更大，因?yàn)榕c音樂(lè)和自然聲相比，語(yǔ)音不僅有音高的差別，還有音素、語(yǔ)義等復(fù)雜的語(yǔ)音特征，網(wǎng)絡(luò)需進(jìn)行更深層的特征學(xué)習(xí)。

因此，本文基于GAN的高質(zhì)量音頻生成能力，及其在語(yǔ)音領(lǐng)域?qū)W習(xí)語(yǔ)義的潛力，進(jìn)行端到端的語(yǔ)音補(bǔ)償工作，提出基于GAN的語(yǔ)音補(bǔ)償網(wǎng)絡(luò)(speech inpainting generative adversarial network，SIGAN)。SIGAN網(wǎng)絡(luò)直接以時(shí)域語(yǔ)音信號(hào)作為輸入和輸出，以避免語(yǔ)譜圖逆變換時(shí)因相位不確定所帶來(lái)的音頻失真，旨在補(bǔ)償長(zhǎng)間隙語(yǔ)音，生成與語(yǔ)音特征相匹配、間隙與前后文語(yǔ)義連貫及質(zhì)量穩(wěn)定的語(yǔ)音內(nèi)容。

1 SIGAN網(wǎng)絡(luò)模型

SIGAN模型結(jié)構(gòu)如圖1所示，主要由生成器和鑒別器組成。生成器為前后文編解碼器結(jié)構(gòu)，用于接收缺失的語(yǔ)音信號(hào)。該結(jié)構(gòu)比以往算法更適用于一維時(shí)域語(yǔ)音信號(hào)的音頻補(bǔ)償，因?yàn)橥ㄟ^(guò)編碼器記憶間隙前后的可用內(nèi)容，解碼器利用潛在變量及跳躍連接傳輸過(guò)來(lái)的編碼器信息生成補(bǔ)償后的語(yǔ)音。此外，在鑒別器中加入語(yǔ)音特征提取模塊，加入該模塊后的鑒別器將通過(guò)音素、音高語(yǔ)音特征信息區(qū)分補(bǔ)償語(yǔ)音和真實(shí)語(yǔ)音，從而生成可懂度更高的補(bǔ)償語(yǔ)音。

圖1 SIGAN模型結(jié)構(gòu)

補(bǔ)償語(yǔ)音能保持較好的音質(zhì)并具有較高的可懂度是針對(duì)人類語(yǔ)音的補(bǔ)償算法需要關(guān)注的重點(diǎn)。因此，本文最終語(yǔ)音補(bǔ)償?shù)脑u(píng)價(jià)指標(biāo)為多位受試者給出的音質(zhì)和語(yǔ)音可懂度的主觀評(píng)分。

1.1 生成對(duì)抗網(wǎng)絡(luò)GAN

目前普遍認(rèn)為性能最好的音頻補(bǔ)償算法是生成對(duì)抗網(wǎng)絡(luò)。Goodfellow等[11]提出的原始GAN是一種基于博弈理論的網(wǎng)絡(luò)架構(gòu)，包含兩個(gè)同時(shí)訓(xùn)練、相互競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò)：生成器與鑒別器。生成器從隨機(jī)變量的樣本中生成新數(shù)據(jù)；鑒別器試圖區(qū)分生成數(shù)據(jù)和真實(shí)數(shù)據(jù)。在訓(xùn)練過(guò)程中，生成器的目標(biāo)是生成可欺騙鑒別器的假數(shù)據(jù)，而鑒別器試圖學(xué)習(xí)更好地分類真實(shí)和生成(假)數(shù)據(jù)。

具體來(lái)說(shuō)，生成器須學(xué)習(xí)使用已知先驗(yàn)分布pz，從目標(biāo)數(shù)據(jù)分布px輸出生成數(shù)據(jù)分布為pg的樣本。而鑒別器需分辨生成數(shù)據(jù)分布(pg)的樣本是否來(lái)自實(shí)際分布。在原始GAN中，pz分布通常來(lái)自均勻隨機(jī)噪聲向量，取值范圍是[-1,1]。通過(guò)輸入生成樣本和真實(shí)樣本，鑒別器將輸出在[0,1]取值范圍內(nèi)的鑒別結(jié)果值，指代該樣本屬于目標(biāo)數(shù)據(jù)分布px與生成數(shù)據(jù)分布pg的概率。GAN的訓(xùn)練過(guò)程定義如下：

V(G,D)=Ex～px[logD(x)]+

Ez～pz[log(1-D(G(z)))]。

(1)

式中：G(·)、D(·)分別代表生成器、鑒別器的映射函數(shù);G(z)和x分別是生成樣本和真實(shí)樣本;E為相應(yīng)分布的數(shù)學(xué)期望。函數(shù)V(G,D)為在博弈中對(duì)立優(yōu)化的目標(biāo)函數(shù)，由生成器最小化、鑒別器最大化得到。該函數(shù)確保2個(gè)網(wǎng)絡(luò)在訓(xùn)練期間會(huì)相互競(jìng)爭(zhēng)：生成器生成更多的真實(shí)樣本，同時(shí)鑒別器區(qū)分生成樣本與真實(shí)樣本時(shí)變得更精確。

GAN的網(wǎng)絡(luò)結(jié)構(gòu)可以不斷改進(jìn)，例如：鑒別器、生成器數(shù)目增加或結(jié)構(gòu)改變，或損失函數(shù)修改，但改進(jìn)的目的都是提高補(bǔ)償語(yǔ)音質(zhì)量與減少GAN訓(xùn)練難度。在實(shí)驗(yàn)中，基于時(shí)域的GAN會(huì)出現(xiàn)以下問(wèn)題：生成語(yǔ)音過(guò)度失真，修復(fù)部分與前后文信息銜接不連貫；由于語(yǔ)音的高采樣率，時(shí)域模型需模擬波形的大量數(shù)據(jù)點(diǎn)，該訓(xùn)練過(guò)程難以收斂，生成隨機(jī)結(jié)果，即梯度消失現(xiàn)象。為避免以上問(wèn)題，并結(jié)合音頻特性，本文提出的SIGAN對(duì)生成器、鑒別器兩部分均進(jìn)行改進(jìn)。

1.2 SIGAN生成器

音頻補(bǔ)償生成器的作用是根據(jù)音頻間隙以外的前后文內(nèi)容，生成無(wú)空白間隙的完整語(yǔ)音。本文提出基于前后文編解碼器結(jié)構(gòu)的生成器，以編碼器結(jié)構(gòu)接收帶間隙語(yǔ)音，結(jié)合以一維轉(zhuǎn)置卷積為核心的解碼器生成補(bǔ)償語(yǔ)音，如圖2所示。

圖2 SIGAN生成器結(jié)構(gòu)

在編碼階段，輸入帶空白間隙的語(yǔ)音送至多個(gè)一維擴(kuò)張卷積層中進(jìn)行降維和前后文的特征提取。擴(kuò)張卷積用于提高上下文信息提取的效率，而語(yǔ)音的上下文內(nèi)容已被證明對(duì)語(yǔ)音修復(fù)極重要[13]。擴(kuò)張卷積的機(jī)制是將一維輸入信號(hào)z(i)經(jīng)過(guò)擴(kuò)張卷積濾波器w(s)運(yùn)算，產(chǎn)生輸出信號(hào)

(2)

式中：r為擴(kuò)張率;s為卷積核大小。擴(kuò)張卷積s的核大小與普通卷積相同，注意當(dāng)擴(kuò)張率成倍增加時(shí)，感受野也會(huì)增加，以保證能捕捉到信號(hào)的更大背景。因此，擴(kuò)張卷積允許增加感受野大小以捕獲更大的上下文并減少計(jì)算量；而且擴(kuò)張卷積在GAN訓(xùn)練中比其他池化操作更為穩(wěn)定，可生成更平穩(wěn)的時(shí)域語(yǔ)音。

卷積層連接的激活函數(shù)是具有泄露修正的線性單元(leaky rectified linear unit，LReLU)，該激活函數(shù)能有效防止訓(xùn)練過(guò)程中出現(xiàn)梯度消失問(wèn)題。卷積核大小設(shè)置為25，階躍步長(zhǎng)選擇4，編碼階段每個(gè)正卷積層對(duì)應(yīng)的采樣點(diǎn)和特征層數(shù)在圖2中有具體描述。編碼結(jié)果是待修復(fù)語(yǔ)音的特征向量，將其與潛在向量z合并。生成器的潛在向量z為服從均勻分布、由隨機(jī)均勻噪聲值組成的100×1向量，然后輸入至全連接層。

解碼器使用與擴(kuò)張卷積相反的轉(zhuǎn)置卷積，結(jié)構(gòu)與編碼器相對(duì)稱。轉(zhuǎn)置卷積來(lái)自深度卷積對(duì)抗網(wǎng)絡(luò)(deep convolutional GAN，DCGAN)[16]，DCGAN原本應(yīng)用于圖像合成中，對(duì)低分辨率特征圖進(jìn)行多次上采樣，生成高分辨率圖像。而Donahue等[17]改進(jìn)的一維轉(zhuǎn)置卷積更適合音頻合成。因此SIGAN使用改進(jìn)后的一維轉(zhuǎn)置卷積來(lái)對(duì)合并特征向量進(jìn)行逆卷積，卷積層后接修正線性單元激活函數(shù)(rectified linear unit，ReLU)。卷積濾波器大小為25×1，濾波器步長(zhǎng)選擇4。轉(zhuǎn)置卷積最終層的激活函數(shù)用雙曲正切函數(shù)，生成補(bǔ)償后的完整語(yǔ)音樣本。

為進(jìn)一步提高SIGAN生成器的穩(wěn)定性，并保證低層次細(xì)節(jié)不會(huì)丟失，SIGAN生成器引入跳躍連接[18]。跳躍連接可將每一個(gè)編碼層的特征信息直接傳遞到對(duì)應(yīng)的解碼層，使得生成器的輸入和輸出共享相同的底層結(jié)構(gòu)，即語(yǔ)音非間隙部分的前后文信息，最終可生成長(zhǎng)時(shí)間的正確語(yǔ)音。

值得一提的是，SIGAN生成器直接生成完整語(yǔ)音，例如單詞seven，在缺失了中間的eve后，SIGAN直接生成完整語(yǔ)音seven而不是僅生成缺失的間隙部分eve然后與存留的s-n拼接。這是因?yàn)閮H生成間隙部分語(yǔ)音會(huì)導(dǎo)致補(bǔ)償語(yǔ)音與前后文的邊界信息沖突，導(dǎo)致語(yǔ)音不連續(xù)，容易出現(xiàn)語(yǔ)音的語(yǔ)義斷層現(xiàn)象；而直接生成完整語(yǔ)音可保證音質(zhì)和聽(tīng)感的統(tǒng)一，具有更高的語(yǔ)音質(zhì)量和可懂度。

1.3 SIGAN鑒別器

由生成器生成假語(yǔ)音后，補(bǔ)償語(yǔ)音與真實(shí)語(yǔ)音共同加入鑒別器。鑒別器的工作是區(qū)分真實(shí)語(yǔ)音和虛假語(yǔ)音，將判斷結(jié)果傳遞給生成器，這樣生成器就可以修正輸出音頻，使其逐漸接近真實(shí)分布。

SIGAN鑒別器在原始GAN鑒別器層基礎(chǔ)上增加語(yǔ)音特征提取模塊(如圖3所示)。語(yǔ)音特征提取模塊由多個(gè)神經(jīng)網(wǎng)絡(luò)塊(block)組成，神經(jīng)網(wǎng)絡(luò)塊對(duì)生成的帶空白間隙語(yǔ)音與真實(shí)語(yǔ)音進(jìn)行下采樣，即從低到高分別提取語(yǔ)音的低層、高層語(yǔ)音特征與全特征，以更全面的特征信息作為判別標(biāo)準(zhǔn)，進(jìn)而提高生成器補(bǔ)償質(zhì)量。

圖3 SIGAN鑒別器結(jié)構(gòu)

圖3a中塊1、塊2和塊3為注意力機(jī)制神經(jīng)網(wǎng)絡(luò)塊，其具體結(jié)構(gòu)如圖3b所示。神經(jīng)網(wǎng)絡(luò)塊由擴(kuò)張卷積、通道注意力模塊和空間注意力模塊[19]組成，依次沿通道和空間維度計(jì)算注意力權(quán)重，并與輸入特征相乘以實(shí)現(xiàn)自適應(yīng)特征提取，以加強(qiáng)記憶語(yǔ)音中音素的排列組合。通道注意力模塊是將特征圖在空間維度上進(jìn)行壓縮，在空間維度上進(jìn)行壓縮時(shí)，同時(shí)使用平均值池化(average pooling)和最大值池化(max pooling)來(lái)聚合特征映射的空間信息，用來(lái)發(fā)現(xiàn)輸入波形與其特征圖的相同內(nèi)容?？臻g注意力模塊是在通道維度進(jìn)行壓縮，在通道維度分別進(jìn)行平均值池化和最大值池化，獲得最大特征通道。塊4和塊5由2個(gè)擴(kuò)張卷積層和單個(gè)MaxPooling1D池化層組成，進(jìn)一步匯總并壓縮提取到的語(yǔ)音特征，其擴(kuò)張卷積步長(zhǎng)為2。

普通鑒別器與語(yǔ)音特征提取鑒別器的性能對(duì)比如表1所示，表中使用來(lái)源于圖像處理的平均初始分?jǐn)?shù)(inception score, IS)作為評(píng)價(jià)指標(biāo)，IS由補(bǔ)償語(yǔ)音譜圖與真實(shí)語(yǔ)音譜圖對(duì)比計(jì)算差異得到，分?jǐn)?shù)越高表示差異越小。IS計(jì)算簡(jiǎn)單，可直接加入模型訓(xùn)練中，以體現(xiàn)訓(xùn)練進(jìn)程。由表1可知，加入語(yǔ)音特征提取模塊使得訓(xùn)練時(shí)間縮短，并提高了IS，說(shuō)明語(yǔ)音特征提取模塊確實(shí)大幅提升了鑒別器性能。但補(bǔ)償語(yǔ)音的音高、音素位置與真實(shí)語(yǔ)音往往存在差異，這會(huì)體現(xiàn)為語(yǔ)譜圖間的差異，將導(dǎo)致IS較低，但補(bǔ)償語(yǔ)音的可懂度仍可能較高，因此IS僅作為訓(xùn)練進(jìn)程參考。

表1 普通鑒別器與語(yǔ)音特征提取鑒別器的性能對(duì)比

語(yǔ)音特征提取模塊后連接的判別層由整形層與全連接層組成，對(duì)語(yǔ)音特征提取模塊傳遞過(guò)來(lái)的特征進(jìn)行整形和判別后，最終生成維度為Sb×1的判別結(jié)果向量,Sb為批處理大小。

針對(duì)GAN出現(xiàn)的模式崩潰與梯度消失問(wèn)題，本文采用WGAN-GP[20]作為鑒別器損失函數(shù)來(lái)解決。包含梯度懲罰的WGAN-GP損失函數(shù)可以確保模型避免WGAN權(quán)重裁剪所帶來(lái)的參數(shù)集中化等負(fù)面影響。

在WGAN-GP中，鑒別器的損失函數(shù)通過(guò)在計(jì)算目標(biāo)數(shù)據(jù)分布px和生成數(shù)據(jù)分布pg之間的Wasserstein距離后新增梯度懲罰項(xiàng)來(lái)實(shí)現(xiàn)，損失函數(shù)為

λEm～pm[(|mD(m)|2-K)2]。

(3)

(4)

式中,中間系數(shù)t從0到1均勻采樣。梯度懲罰項(xiàng)通過(guò)利用真假語(yǔ)音樣本之間的隨機(jī)中間值m來(lái)限制鑒別器的訓(xùn)練梯度，以保證真假語(yǔ)音樣本之間的過(guò)渡區(qū)域滿足1-Lipschitz約束。鑒別器通過(guò)WGAN-GP的損失函數(shù)充分訓(xùn)練后，其梯度值將在K值附近，能保證穩(wěn)定訓(xùn)練的前提下拉大真假語(yǔ)音樣本在鑒別器中的分?jǐn)?shù)差距，進(jìn)而對(duì)生成器的生成樣本質(zhì)量判別更為分明。

2 實(shí)驗(yàn)設(shè)置

2.1 數(shù)據(jù)預(yù)處理

本文模型在單個(gè)NVIDIA 1080 TI GPU上訓(xùn)練，基于Tensorflow[22]框架實(shí)現(xiàn)，網(wǎng)絡(luò)訓(xùn)練參數(shù)為：每次訓(xùn)練以10-4的學(xué)習(xí)率開始，批處理大小Sb=32，多次實(shí)驗(yàn)的訓(xùn)練步控制在8 000，每訓(xùn)練5輪鑒別器更新1次生成器，每300步保存一次模型。對(duì)比算法的復(fù)現(xiàn)都使用相同的網(wǎng)絡(luò)訓(xùn)練參數(shù)，以保證對(duì)比實(shí)驗(yàn)合理。

以時(shí)域語(yǔ)音作輸入輸出的端到端GAN網(wǎng)絡(luò)普遍會(huì)輸出帶噪聲的語(yǔ)音，因此本文在SIGAN生成器結(jié)構(gòu)中加入降噪的后處理。語(yǔ)音增強(qiáng)算法使用MMSE譜減法[23]，因?yàn)樵撍惴ㄟ\(yùn)算速度快、無(wú)運(yùn)算負(fù)擔(dān)且能有效提高SIGAN補(bǔ)償語(yǔ)音的音質(zhì)。

2.2 主觀評(píng)價(jià)方法

語(yǔ)音補(bǔ)償算法需要關(guān)注的是人類可接受的音質(zhì)和可懂度，因此更適合采用主觀評(píng)價(jià)來(lái)判斷算法性能。組織了4名受試者進(jìn)行聽(tīng)力測(cè)試，以評(píng)價(jià)SIGAN模型的補(bǔ)償效果。實(shí)驗(yàn)前，受試者了解實(shí)驗(yàn)的目的和步驟，并收到從0到9的各1個(gè)示例性英語(yǔ)單詞語(yǔ)音，即發(fā)音正確且清晰無(wú)雜音的語(yǔ)音。之后對(duì)比示例性語(yǔ)音，對(duì)訓(xùn)練后的SIGAN模型和其他兩個(gè)對(duì)比模型使用測(cè)試集生成的語(yǔ)音進(jìn)行評(píng)分，測(cè)試集語(yǔ)音為從0到9的英語(yǔ)單詞各10條，因此每位受試者共進(jìn)行300次評(píng)分。

每次評(píng)分中，需要分別對(duì)補(bǔ)償語(yǔ)音的音質(zhì)、可懂度(發(fā)音是否準(zhǔn)確無(wú)誤)兩項(xiàng)標(biāo)準(zhǔn)進(jìn)行評(píng)估。評(píng)估標(biāo)準(zhǔn)參考文獻(xiàn)[24]，通過(guò)失真平均意見(jiàn)分(distortion mean opinion score, DMOS)對(duì)補(bǔ)償語(yǔ)音與示例語(yǔ)音的差異進(jìn)行分值范圍為[1,5]的音質(zhì)評(píng)價(jià)。由于本文主觀評(píng)價(jià)基于單詞的語(yǔ)音材料，受試者在評(píng)價(jià)語(yǔ)音可懂度時(shí)根據(jù)單詞中音節(jié)組成進(jìn)行分析。兩者具體分值含義見(jiàn)表2。

表2 主觀評(píng)價(jià)等級(jí)

3 實(shí)驗(yàn)結(jié)果及分析

為進(jìn)一步證明本文提出的SIGAN模型用于語(yǔ)音補(bǔ)償?shù)膬?yōu)越性，選取TiFGAN[12]和WaveGAN[17]進(jìn)行相同配置下的語(yǔ)音補(bǔ)償實(shí)驗(yàn)，并與本文提出的SIGAN模型進(jìn)行主觀評(píng)價(jià)結(jié)果對(duì)比。

TiFGAN算法是經(jīng)典的基于譜圖的生成對(duì)抗網(wǎng)絡(luò)，網(wǎng)絡(luò)經(jīng)訓(xùn)練后生成STFT對(duì)數(shù)幅度，經(jīng)STFT逆變換得到生成音頻。與該算法的對(duì)比可以探討SIGAN以原始語(yǔ)音作輸入輸出與基于譜圖的算法之間的差異。WaveGAN算法是將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于無(wú)監(jiān)督合成原始音頻的方法，與本文提出的SIGAN都屬于直接在GAN網(wǎng)絡(luò)中利用時(shí)域音頻的語(yǔ)音生成方法。

3.1 對(duì)比實(shí)驗(yàn)的結(jié)果與分析

針對(duì)原始樣本長(zhǎng)度為1 s、間隙長(zhǎng)度為256 ms的單詞，SIGAN與其他模型的補(bǔ)償語(yǔ)音音質(zhì)、可懂度的主觀評(píng)價(jià)結(jié)果對(duì)比如表3和表4，表中數(shù)值為所有受試者對(duì)該模型輸出的對(duì)應(yīng)單詞語(yǔ)音的評(píng)分均值。評(píng)估結(jié)果顯示，SIGAN網(wǎng)絡(luò)生成樣本的音質(zhì)平均評(píng)分都在3.40±0.30范圍內(nèi)，即濾波后的SIGAN補(bǔ)償語(yǔ)音已滿足多數(shù)語(yǔ)音通信系統(tǒng)的使用要求。受試者反映補(bǔ)償語(yǔ)音部分帶可感知的噪聲，但語(yǔ)音清晰度仍很好。補(bǔ)償語(yǔ)音的可懂度平均評(píng)分在3.25±0.25范圍內(nèi)，受試者基本都能確定SIGAN的補(bǔ)償語(yǔ)音是對(duì)應(yīng)的單詞，盡管某些補(bǔ)償語(yǔ)音帶有輕微讀音錯(cuò)誤，SIGAN生成的補(bǔ)償語(yǔ)音質(zhì)量穩(wěn)定同時(shí)可理解。

表3 SIGAN與其他模型的音質(zhì)主觀評(píng)價(jià)結(jié)果

表4 SIGAN與其他模型的語(yǔ)音可懂度主觀評(píng)價(jià)結(jié)果

對(duì)于TiFGAN算法，受試者反映TiFGAN補(bǔ)償語(yǔ)音中噪聲較低，音質(zhì)僅受限于單詞讀音失真。這是因?yàn)镾TFT逆變換丟失相位信息會(huì)帶來(lái)元音、輔音共振峰改變等音頻失真，但該失真對(duì)音頻的音質(zhì)影響不大，所以TiFGAN的音質(zhì)評(píng)分較高，都在3.30±0.15范圍內(nèi)。然而TiFGAN補(bǔ)償語(yǔ)音的語(yǔ)音可懂度評(píng)分明顯低于SIGAN，可以看出這類音頻失真容易導(dǎo)致音頻補(bǔ)償模型對(duì)單詞中音素的錯(cuò)誤修復(fù)，從而影響語(yǔ)音可懂度。因此SIGAN以時(shí)域語(yǔ)音作輸入輸出雖然容易產(chǎn)生噪聲，影響補(bǔ)償語(yǔ)音的音質(zhì)，但也保證了補(bǔ)償語(yǔ)音較高的語(yǔ)音可懂度。

而在WaveGAN的主觀評(píng)價(jià)中，受試者反映該模型生成語(yǔ)音不僅帶有明顯噪聲，很多單詞讀音還帶有很多無(wú)法理解的讀音錯(cuò)誤，如six讀為sex，seven讀為sev，four讀為flour，這些音節(jié)不是訓(xùn)練集內(nèi)音節(jié)的拼接組合，疑是模型無(wú)規(guī)律隨機(jī)生成的產(chǎn)物。因此，WaveGAN的音質(zhì)和可懂度的總體評(píng)分均低于SIGAN。

據(jù)澳大利亞廣播公司近日?qǐng)?bào)道，目前在南澳的標(biāo)志性葡萄酒產(chǎn)區(qū)─巴羅薩谷，有多達(dá)10%的葡萄園和酒莊屬于中國(guó)人所有。當(dāng)?shù)匾幻麖氖缕咸褕@收購(gòu)業(yè)務(wù)的從業(yè)人員表示，他經(jīng)手的過(guò)去7宗收購(gòu)里有6家酒莊被中國(guó)人買去，而目前他們公司接到的咨詢電話里面，有大約50%來(lái)自中國(guó)人以及代替中國(guó)人表達(dá)收購(gòu)意愿的團(tuán)體。

從實(shí)驗(yàn)得知，直接針對(duì)時(shí)域語(yǔ)音進(jìn)行補(bǔ)償?shù)乃惴ㄒ话愦嬖趦蓚€(gè)問(wèn)題：內(nèi)容豐富多變的多音節(jié)單詞較難被補(bǔ)償；前后文內(nèi)容很少、讀音短暫且無(wú)尾音單詞的補(bǔ)償難度大。在這兩種情況下，網(wǎng)絡(luò)生成的補(bǔ)償語(yǔ)音都會(huì)有音質(zhì)差或可懂度低的問(wèn)題。本文通過(guò)主觀評(píng)價(jià)結(jié)果的對(duì)比來(lái)分析SIGAN網(wǎng)絡(luò)對(duì)這兩個(gè)問(wèn)題的改善。

SIGAN針對(duì)多音節(jié)單詞補(bǔ)償難的改善可由實(shí)驗(yàn)中zero和seven的補(bǔ)償情況驗(yàn)證。如表3所示，SIGAN和WaveGAN中多音節(jié)單詞zero和seven的音質(zhì)得分都低于同列的其他單音節(jié)單詞的得分。受試者反映這兩個(gè)算法對(duì)zero、seven的補(bǔ)償語(yǔ)音中存在類似電流聲的雜音，這可能是“z”“v”等濁輔音的端到端補(bǔ)償造成的。然而，SIGAN對(duì)于zero、seven補(bǔ)償語(yǔ)音的可懂度評(píng)分比WaveGAN提升較大。seven在SIGAN補(bǔ)償前后的波形圖與語(yǔ)譜圖如圖4所示，對(duì)比可知補(bǔ)償語(yǔ)音能保持較好的還原度。這證明在引入本文提出的前后文編碼和解碼器及語(yǔ)音特征提取模塊后，SIGAN網(wǎng)絡(luò)比WaveGAN網(wǎng)絡(luò)利用更多的前后文內(nèi)容，生成的多音節(jié)單詞更容易被聽(tīng)眾辨認(rèn)，多音節(jié)單詞的語(yǔ)音可懂度有較大提升。

圖4 Seven補(bǔ)償語(yǔ)音與真實(shí)語(yǔ)音對(duì)比

實(shí)驗(yàn)中進(jìn)一步發(fā)現(xiàn)，帶間隙語(yǔ)音的前后文內(nèi)容很少或無(wú)前后文內(nèi)容時(shí)，補(bǔ)償帶間隙語(yǔ)音中的空白段并生成相對(duì)應(yīng)的單詞較為困難。例如：two和three，這兩個(gè)單詞播放時(shí)間很短且沒(méi)有尾音，語(yǔ)音與間隙的時(shí)長(zhǎng)可能會(huì)一樣，前者完全會(huì)被后者遮蔽，導(dǎo)致網(wǎng)絡(luò)無(wú)法抓取到前后文內(nèi)容，最終無(wú)法正常補(bǔ)償。因此，本文對(duì)它們的測(cè)試集做了一定的篩選：選擇上文帶較明顯首輔音的帶間隙語(yǔ)音，例如選擇two測(cè)試集中首輔音“t”讀音明顯的語(yǔ)音和three測(cè)試集中“th”讀音明顯的語(yǔ)音。最終的主觀評(píng)價(jià)結(jié)果中，two和three的音質(zhì)評(píng)分與可懂度評(píng)分與總體評(píng)分均值的差距很小。這證明SIGAN網(wǎng)絡(luò)對(duì)于前后文內(nèi)容很少的語(yǔ)音仍然有效地學(xué)習(xí)到它們的語(yǔ)音特征并正確補(bǔ)償。

SIGAN模型從中間過(guò)程到訓(xùn)練結(jié)束，都未出現(xiàn)過(guò)補(bǔ)償前后說(shuō)話者性別不一致的補(bǔ)償語(yǔ)音，即補(bǔ)償語(yǔ)音與真實(shí)語(yǔ)音的語(yǔ)音音高基本相同。這些結(jié)果都證明在引入語(yǔ)音特征提取模塊后的SIGAN能更有效地捕捉語(yǔ)音中的音素、音高特征。

本文還使用語(yǔ)音質(zhì)量感知評(píng)價(jià)[25](perceptual evaluation of speech quality, PESQ)對(duì)SIGAN、WaveGAN和TiFGAN模型的補(bǔ)償語(yǔ)音進(jìn)行客觀音質(zhì)評(píng)價(jià)。PESQ通過(guò)比較補(bǔ)償語(yǔ)音與真實(shí)語(yǔ)音計(jì)算語(yǔ)音質(zhì)量分?jǐn)?shù)，差異性越大分?jǐn)?shù)越低。如表5所示，SIGAN十條補(bǔ)償語(yǔ)音的平均PESQ得分高于WaveGAN與TiFGAN得分。

表5 SIGAN的PESQ客觀質(zhì)量評(píng)價(jià)結(jié)果

綜上所述，SIGAN在可懂度方面比以往的算法有了實(shí)質(zhì)性的改進(jìn)，這歸功于本文網(wǎng)絡(luò)使用針對(duì)語(yǔ)音的端到端結(jié)構(gòu)，并作出更適合語(yǔ)音補(bǔ)償?shù)木W(wǎng)絡(luò)改進(jìn)。

3.2 擴(kuò)展實(shí)驗(yàn)

為驗(yàn)證SIGAN模型在面對(duì)間隙長(zhǎng)度更大的語(yǔ)音時(shí)也能保持較好的補(bǔ)償能力，擴(kuò)展實(shí)驗(yàn)使用間隙長(zhǎng)度翻倍的語(yǔ)音對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。為方便與未擴(kuò)展語(yǔ)音的實(shí)驗(yàn)進(jìn)行對(duì)比，該實(shí)驗(yàn)的數(shù)據(jù)集是對(duì)整理后SC09數(shù)據(jù)集進(jìn)行變速操作，即語(yǔ)音變?yōu)樵瓉?lái)的0.5倍速。變速后的語(yǔ)音依然為16 kHz采樣率，樣本長(zhǎng)度增加1倍至32 768，間隙長(zhǎng)度也由4 096擴(kuò)大至8 192。

訓(xùn)練集中每個(gè)單詞的樣本數(shù)保持與原實(shí)驗(yàn)一致，真實(shí)語(yǔ)音與帶空白間隙語(yǔ)音各10 000個(gè)。網(wǎng)絡(luò)結(jié)構(gòu)基本保持不變，生成器由于其對(duì)稱性無(wú)須變動(dòng)，鑒別器只需在判別層前新增階躍步長(zhǎng)為2的擴(kuò)張卷積層。網(wǎng)絡(luò)參數(shù)不變，使用相同的評(píng)價(jià)方法對(duì)其進(jìn)行主觀評(píng)價(jià)。

擴(kuò)展后SIGAN補(bǔ)償語(yǔ)音的語(yǔ)音可懂度主觀評(píng)價(jià)結(jié)果如表6所示，擴(kuò)展后的SIGAN補(bǔ)償語(yǔ)音的語(yǔ)音可懂度平均評(píng)分都在3.70±0.30范圍內(nèi)，明顯高于擴(kuò)展前的總體評(píng)分。而擴(kuò)展后的補(bǔ)償語(yǔ)音的音質(zhì)平均評(píng)分在3.40±0.20范圍內(nèi)。語(yǔ)音長(zhǎng)度和間隙長(zhǎng)度翻倍后，音質(zhì)與1 s樣本長(zhǎng)度實(shí)驗(yàn)相比變化不大，語(yǔ)音可懂度卻提升顯著。這表明變速后的2 s語(yǔ)音中，單詞的讀音放慢，語(yǔ)音的特征更加清楚，網(wǎng)絡(luò)更加容易學(xué)習(xí),故間隙長(zhǎng)度也隨著翻倍，SIGAN依然能有效改善補(bǔ)償樣本的質(zhì)量。

表6 語(yǔ)音擴(kuò)展后的主觀評(píng)價(jià)結(jié)果

原來(lái)發(fā)音很短暫的單詞two和three，前后文內(nèi)容的增加使其補(bǔ)償樣本的語(yǔ)音可懂度有了較大幅度提升，受試者對(duì)擴(kuò)展前的two可懂度評(píng)分均值為3.03，擴(kuò)展后提升至3.67;three可懂度評(píng)分均值也從3.11提升至3.60?？偟膩?lái)說(shuō)，SIGAN模型在補(bǔ)償大時(shí)長(zhǎng)的語(yǔ)音時(shí)更有優(yōu)勢(shì)，在達(dá)到模型可修復(fù)的間隙長(zhǎng)度最大值之前，間隙長(zhǎng)度的增加對(duì)補(bǔ)償語(yǔ)音的質(zhì)量影響較小[15]。

4 結(jié)論

本文提出了基于生成對(duì)抗網(wǎng)絡(luò)的無(wú)監(jiān)督語(yǔ)音補(bǔ)償模型SIGAN，用于恢復(fù)數(shù)百毫秒的空白間隙語(yǔ)音信息。SIGAN模型直接以時(shí)域語(yǔ)音作為輸入輸出，著重學(xué)習(xí)語(yǔ)音間隙前后文中的語(yǔ)音特征，生成與前后文內(nèi)容相對(duì)應(yīng)的語(yǔ)音。首先，設(shè)計(jì)了一個(gè)對(duì)稱性的前后文編解碼器作為生成器，使用一維的擴(kuò)張卷積、轉(zhuǎn)置卷積與跳躍連接，使生成器更適合接收并輸出音頻的時(shí)域波形。其次，提出在鑒別器中加入語(yǔ)音特征提取模塊，以多個(gè)神經(jīng)網(wǎng)絡(luò)塊組合的結(jié)構(gòu)幫助生成器的輸出考慮更多的語(yǔ)音特征。

在與其他算法的客觀和主觀對(duì)比實(shí)驗(yàn)中，SIGAN算法的PESQ得分、音質(zhì)和語(yǔ)音可懂度總體評(píng)分均優(yōu)于現(xiàn)有方法。本文也使用SIGAN對(duì)降速后獲得的長(zhǎng)語(yǔ)音進(jìn)行了補(bǔ)償實(shí)驗(yàn),結(jié)果發(fā)現(xiàn)，更多的前后文內(nèi)容對(duì)補(bǔ)償語(yǔ)音的質(zhì)量提升較大，盡管間隙長(zhǎng)度增加但可懂度依然能得到進(jìn)一步的改善，這表明SIGAN模型對(duì)高時(shí)長(zhǎng)的音頻補(bǔ)償仍具有較好的潛力。

SIGAN也還有很多改進(jìn)的空間，如潛在變量的改進(jìn)、加入并行鑒別器等方法。未來(lái)研究的目標(biāo)是SIGAN能夠更好地學(xué)習(xí)人類語(yǔ)言中的語(yǔ)義，對(duì)多個(gè)單詞連續(xù)組合的長(zhǎng)語(yǔ)句音頻進(jìn)行補(bǔ)償工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡