王 杰,觀元升,胡文林
(1 廣州大學(xué) 電子與通信工程學(xué)院, 廣東 廣州 510006;2 中國(guó)鐵路設(shè)計(jì)集團(tuán)有限公司 城市軌道交通數(shù)字化建設(shè)與測(cè)評(píng)技術(shù)國(guó)家工程實(shí)驗(yàn)室,天津 300308)
音頻補(bǔ)償(audio inpainting),即對(duì)受到非期望的局部損失影響的音頻進(jìn)行修復(fù)工作[1]。音頻的局部損失可能來(lái)自記錄過(guò)程中的誤操作、傳輸過(guò)程中的數(shù)據(jù)丟失或儲(chǔ)存器件的損壞等不可逆損壞,進(jìn)而導(dǎo)致音頻的時(shí)間片段缺失或頻域局部缺失。音頻補(bǔ)償算法的目標(biāo)是對(duì)帶有這些缺失的音頻片段進(jìn)行連貫、無(wú)失真的修復(fù)。
音頻補(bǔ)償也被稱為音頻插值、音頻推測(cè)、音頻修復(fù)或波形替換。在音頻補(bǔ)償尚未得到正式定義前,就已經(jīng)有研究者嘗試對(duì)丟失音頻進(jìn)行填補(bǔ)。最初較為成功的方法之一是對(duì)丟失的音頻樣本進(jìn)行時(shí)域插值,例如Janssen等[2]提出了一種自適應(yīng)插值方法,將音頻信號(hào)建模為自回歸(auto regressive,AR)過(guò)程,即設(shè)計(jì)丟失樣本的估計(jì)與恢復(fù)信號(hào)的AR系數(shù)進(jìn)行函數(shù)最小化,該方法可成功填補(bǔ)45 ms左右的音頻間隙。Adler等[1]提出基于稀疏性的音頻補(bǔ)償方法,基于時(shí)頻變換中音頻信號(hào)的能量通常集中在相對(duì)較低的變換系數(shù)區(qū)域,該方法利用短時(shí)傅里葉變換(short-time Fourier transform,STFT)獲得具有稀疏表示的信號(hào),并用該信號(hào)來(lái)修復(fù)間隔,文中使用正交匹配追蹤(orthogonal matching pursuit,OMP)來(lái)尋找信號(hào)。近年來(lái)也出現(xiàn)了非局部結(jié)構(gòu)(non-locals structures)相似性搜索稀疏表示[3],或使用稀疏表示統(tǒng)計(jì)先驗(yàn)信息[4]的一些匹配方法。這類音頻補(bǔ)償算法具有結(jié)構(gòu)簡(jiǎn)單、運(yùn)算速度快的優(yōu)點(diǎn),但修復(fù)時(shí)長(zhǎng)一般僅有幾十到一百毫秒。
在利用音頻相似性進(jìn)行補(bǔ)償?shù)姆椒ㄖ?,最成功的是相似圖算法(similarity graphs algorithm,SGA)[5],該方法重復(fù)性地從輸入信號(hào)的未損壞部分尋找相關(guān)信息,然后將確定片段插入間隙來(lái)修復(fù)。SGA無(wú)須訓(xùn)練,可修復(fù)多種類別的音樂(lè)或自然聲間隙,且修復(fù)間隙長(zhǎng)達(dá)幾百毫秒;但SGA性能依賴于待修復(fù)音頻中是否有重復(fù)片段,這導(dǎo)致SGA算法的重建效果不穩(wěn)定。
語(yǔ)譜圖是語(yǔ)音圖像化的表示方法,許多研究提出將圖像修復(fù)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)方法用于音頻補(bǔ)償,例如:文獻(xiàn)[6]使用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)進(jìn)行中等時(shí)間間隔的音頻STFT譜圖修復(fù),證明了DNN在音頻補(bǔ)償上的潛力。而文獻(xiàn)[7]則考慮基于時(shí)頻掩蔽的語(yǔ)音修復(fù),使用U-Net網(wǎng)絡(luò)[8]體系結(jié)構(gòu)來(lái)修復(fù)STFT譜圖,并加入Speech VGG[9](Speech VGG是基于文字分類訓(xùn)練的經(jīng)典VGG-16體系結(jié)構(gòu))進(jìn)而提取STFT譜圖中多維語(yǔ)音特征。引入Speech VGG的U-Net網(wǎng)絡(luò)能有效復(fù)原長(zhǎng)達(dá)400 ms的缺失或扭曲的語(yǔ)音片段。
隨著深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)的發(fā)展[10],生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[11]作為一種高性能的生成式模型受到極大的關(guān)注。而其他音頻領(lǐng)域的工作如語(yǔ)音增強(qiáng)、語(yǔ)音合成等已經(jīng)表明,GAN可以生成幾秒鐘質(zhì)量穩(wěn)定的聲音信號(hào),因此研究者也考慮將其應(yīng)用于音頻補(bǔ)償中。Marafioti等[12]提出TiFGAN(time-frequency generative adversarial network)模型,使用基于語(yǔ)譜圖的生成對(duì)抗網(wǎng)絡(luò)進(jìn)行音樂(lè)音頻補(bǔ)償,并展示了時(shí)頻系數(shù)在生成式建模中的潛力。文獻(xiàn)[13]的音樂(lè)音頻補(bǔ)償不使用STFT等音頻特征系數(shù),使用直接基于音頻時(shí)域信號(hào)的雙鑒別器Wasserstein-GAN結(jié)構(gòu)[14],兩個(gè)鑒別器分別提取缺失片段周圍可用內(nèi)容和遠(yuǎn)離間隙的音頻內(nèi)容,因此丟失數(shù)據(jù)的修復(fù)將利用更多的相關(guān)信息。Marafioti等[15]提出的基于音樂(lè)補(bǔ)償?shù)纳蓪?duì)抗上下文網(wǎng)絡(luò)GACELA(generative adversarial context encoder for long audio inpainting)使用5個(gè)并行鑒別器在5個(gè)不同時(shí)間尺度下處理STFT譜圖,已能做到數(shù)百毫秒到秒之間長(zhǎng)間隔音樂(lè)信號(hào)的修復(fù)。
綜上所述,當(dāng)前研究主要包括3類音頻補(bǔ)償方法:(1)尋找相似音頻來(lái)填補(bǔ)空白部分的傳統(tǒng)建模方法,這類方法可修復(fù)時(shí)間過(guò)短、補(bǔ)償結(jié)果不穩(wěn)定,且僅適用于重復(fù)性高的音樂(lè)和自然聲;(2)基于語(yǔ)譜圖的圖像修復(fù)方法,這類方法都存在譜圖逆變換導(dǎo)致補(bǔ)償后的音頻失真問(wèn)題;(3)基于GAN的音頻補(bǔ)償方法,該類方法可修復(fù)的間隙長(zhǎng)度更長(zhǎng)且生成質(zhì)量更穩(wěn)定,但也僅限于純音樂(lè)音頻,尚未涉及語(yǔ)音信號(hào)。直接使用GAN針對(duì)語(yǔ)音進(jìn)行音頻補(bǔ)償,學(xué)習(xí)難度將更大,因?yàn)榕c音樂(lè)和自然聲相比,語(yǔ)音不僅有音高的差別,還有音素、語(yǔ)義等復(fù)雜的語(yǔ)音特征,網(wǎng)絡(luò)需進(jìn)行更深層的特征學(xué)習(xí)。
因此,本文基于GAN的高質(zhì)量音頻生成能力,及其在語(yǔ)音領(lǐng)域?qū)W習(xí)語(yǔ)義的潛力,進(jìn)行端到端的語(yǔ)音補(bǔ)償工作,提出基于GAN的語(yǔ)音補(bǔ)償網(wǎng)絡(luò)(speech inpainting generative adversarial network,SIGAN)。SIGAN網(wǎng)絡(luò)直接以時(shí)域語(yǔ)音信號(hào)作為輸入和輸出,以避免語(yǔ)譜圖逆變換時(shí)因相位不確定所帶來(lái)的音頻失真,旨在補(bǔ)償長(zhǎng)間隙語(yǔ)音,生成與語(yǔ)音特征相匹配、間隙與前后文語(yǔ)義連貫及質(zhì)量穩(wěn)定的語(yǔ)音內(nèi)容。
SIGAN模型結(jié)構(gòu)如圖1所示,主要由生成器和鑒別器組成。生成器為前后文編解碼器結(jié)構(gòu),用于接收缺失的語(yǔ)音信號(hào)。該結(jié)構(gòu)比以往算法更適用于一維時(shí)域語(yǔ)音信號(hào)的音頻補(bǔ)償,因?yàn)橥ㄟ^(guò)編碼器記憶間隙前后的可用內(nèi)容,解碼器利用潛在變量及跳躍連接傳輸過(guò)來(lái)的編碼器信息生成補(bǔ)償后的語(yǔ)音。此外,在鑒別器中加入語(yǔ)音特征提取模塊,加入該模塊后的鑒別器將通過(guò)音素、音高語(yǔ)音特征信息區(qū)分補(bǔ)償語(yǔ)音和真實(shí)語(yǔ)音,從而生成可懂度更高的補(bǔ)償語(yǔ)音。
圖1 SIGAN模型結(jié)構(gòu)
補(bǔ)償語(yǔ)音能保持較好的音質(zhì)并具有較高的可懂度是針對(duì)人類語(yǔ)音的補(bǔ)償算法需要關(guān)注的重點(diǎn)。因此,本文最終語(yǔ)音補(bǔ)償?shù)脑u(píng)價(jià)指標(biāo)為多位受試者給出的音質(zhì)和語(yǔ)音可懂度的主觀評(píng)分。
目前普遍認(rèn)為性能最好的音頻補(bǔ)償算法是生成對(duì)抗網(wǎng)絡(luò)。Goodfellow等[11]提出的原始GAN是一種基于博弈理論的網(wǎng)絡(luò)架構(gòu),包含兩個(gè)同時(shí)訓(xùn)練、相互競(jìng)爭(zhēng)的神經(jīng)網(wǎng)絡(luò):生成器與鑒別器。生成器從隨機(jī)變量的樣本中生成新數(shù)據(jù);鑒別器試圖區(qū)分生成數(shù)據(jù)和真實(shí)數(shù)據(jù)。在訓(xùn)練過(guò)程中,生成器的目標(biāo)是生成可欺騙鑒別器的假數(shù)據(jù),而鑒別器試圖學(xué)習(xí)更好地分類真實(shí)和生成(假)數(shù)據(jù)。
具體來(lái)說(shuō),生成器須學(xué)習(xí)使用已知先驗(yàn)分布pz,從目標(biāo)數(shù)據(jù)分布px輸出生成數(shù)據(jù)分布為pg的樣本。而鑒別器需分辨生成數(shù)據(jù)分布(pg)的樣本是否來(lái)自實(shí)際分布。在原始GAN中,pz分布通常來(lái)自均勻隨機(jī)噪聲向量,取值范圍是[-1,1]。通過(guò)輸入生成樣本和真實(shí)樣本,鑒別器將輸出在[0,1]取值范圍內(nèi)的鑒別結(jié)果值,指代該樣本屬于目標(biāo)數(shù)據(jù)分布px與生成數(shù)據(jù)分布pg的概率。GAN的訓(xùn)練過(guò)程定義如下:
V(G,D)=Ex~px[logD(x)]+
Ez~pz[log(1-D(G(z)))]。
(1)
式中:G(·)、D(·)分別代表生成器、鑒別器的映射函數(shù);G(z)和x分別是生成樣本和真實(shí)樣本;E為相應(yīng)分布的數(shù)學(xué)期望。函數(shù)V(G,D)為在博弈中對(duì)立優(yōu)化的目標(biāo)函數(shù),由生成器最小化、鑒別器最大化得到。該函數(shù)確保2個(gè)網(wǎng)絡(luò)在訓(xùn)練期間會(huì)相互競(jìng)爭(zhēng):生成器生成更多的真實(shí)樣本,同時(shí)鑒別器區(qū)分生成樣本與真實(shí)樣本時(shí)變得更精確。
GAN的網(wǎng)絡(luò)結(jié)構(gòu)可以不斷改進(jìn),例如:鑒別器、生成器數(shù)目增加或結(jié)構(gòu)改變,或損失函數(shù)修改,但改進(jìn)的目的都是提高補(bǔ)償語(yǔ)音質(zhì)量與減少GAN訓(xùn)練難度。在實(shí)驗(yàn)中,基于時(shí)域的GAN會(huì)出現(xiàn)以下問(wèn)題:生成語(yǔ)音過(guò)度失真,修復(fù)部分與前后文信息銜接不連貫;由于語(yǔ)音的高采樣率,時(shí)域模型需模擬波形的大量數(shù)據(jù)點(diǎn),該訓(xùn)練過(guò)程難以收斂,生成隨機(jī)結(jié)果,即梯度消失現(xiàn)象。為避免以上問(wèn)題,并結(jié)合音頻特性,本文提出的SIGAN對(duì)生成器、鑒別器兩部分均進(jìn)行改進(jìn)。
音頻補(bǔ)償生成器的作用是根據(jù)音頻間隙以外的前后文內(nèi)容,生成無(wú)空白間隙的完整語(yǔ)音。本文提出基于前后文編解碼器結(jié)構(gòu)的生成器,以編碼器結(jié)構(gòu)接收帶間隙語(yǔ)音,結(jié)合以一維轉(zhuǎn)置卷積為核心的解碼器生成補(bǔ)償語(yǔ)音,如圖2所示。
圖2 SIGAN生成器結(jié)構(gòu)
在編碼階段,輸入帶空白間隙的語(yǔ)音送至多個(gè)一維擴(kuò)張卷積層中進(jìn)行降維和前后文的特征提取。擴(kuò)張卷積用于提高上下文信息提取的效率,而語(yǔ)音的上下文內(nèi)容已被證明對(duì)語(yǔ)音修復(fù)極重要[13]。擴(kuò)張卷積的機(jī)制是將一維輸入信號(hào)z(i)經(jīng)過(guò)擴(kuò)張卷積濾波器w(s)運(yùn)算,產(chǎn)生輸出信號(hào)
(2)
式中:r為擴(kuò)張率;s為卷積核大小。擴(kuò)張卷積s的核大小與普通卷積相同,注意當(dāng)擴(kuò)張率成倍增加時(shí),感受野也會(huì)增加,以保證能捕捉到信號(hào)的更大背景。因此,擴(kuò)張卷積允許增加感受野大小以捕獲更大的上下文并減少計(jì)算量;而且擴(kuò)張卷積在GAN訓(xùn)練中比其他池化操作更為穩(wěn)定,可生成更平穩(wěn)的時(shí)域語(yǔ)音。
卷積層連接的激活函數(shù)是具有泄露修正的線性單元(leaky rectified linear unit,LReLU),該激活函數(shù)能有效防止訓(xùn)練過(guò)程中出現(xiàn)梯度消失問(wèn)題。卷積核大小設(shè)置為25,階躍步長(zhǎng)選擇4,編碼階段每個(gè)正卷積層對(duì)應(yīng)的采樣點(diǎn)和特征層數(shù)在圖2中有具體描述。編碼結(jié)果是待修復(fù)語(yǔ)音的特征向量,將其與潛在向量z合并。生成器的潛在向量z為服從均勻分布、由隨機(jī)均勻噪聲值組成的100×1向量,然后輸入至全連接層。
解碼器使用與擴(kuò)張卷積相反的轉(zhuǎn)置卷積,結(jié)構(gòu)與編碼器相對(duì)稱。轉(zhuǎn)置卷積來(lái)自深度卷積對(duì)抗網(wǎng)絡(luò)(deep convolutional GAN,DCGAN)[16],DCGAN原本應(yīng)用于圖像合成中,對(duì)低分辨率特征圖進(jìn)行多次上采樣,生成高分辨率圖像。而Donahue等[17]改進(jìn)的一維轉(zhuǎn)置卷積更適合音頻合成。因此SIGAN使用改進(jìn)后的一維轉(zhuǎn)置卷積來(lái)對(duì)合并特征向量進(jìn)行逆卷積,卷積層后接修正線性單元激活函數(shù)(rectified linear unit,ReLU)。卷積濾波器大小為25×1,濾波器步長(zhǎng)選擇4。轉(zhuǎn)置卷積最終層的激活函數(shù)用雙曲正切函數(shù),生成補(bǔ)償后的完整語(yǔ)音樣本。
為進(jìn)一步提高SIGAN生成器的穩(wěn)定性,并保證低層次細(xì)節(jié)不會(huì)丟失,SIGAN生成器引入跳躍連接[18]。跳躍連接可將每一個(gè)編碼層的特征信息直接傳遞到對(duì)應(yīng)的解碼層,使得生成器的輸入和輸出共享相同的底層結(jié)構(gòu),即語(yǔ)音非間隙部分的前后文信息,最終可生成長(zhǎng)時(shí)間的正確語(yǔ)音。
值得一提的是,SIGAN生成器直接生成完整語(yǔ)音,例如單詞seven,在缺失了中間的eve后,SIGAN直接生成完整語(yǔ)音seven而不是僅生成缺失的間隙部分eve然后與存留的s-n拼接。這是因?yàn)閮H生成間隙部分語(yǔ)音會(huì)導(dǎo)致補(bǔ)償語(yǔ)音與前后文的邊界信息沖突,導(dǎo)致語(yǔ)音不連續(xù),容易出現(xiàn)語(yǔ)音的語(yǔ)義斷層現(xiàn)象;而直接生成完整語(yǔ)音可保證音質(zhì)和聽(tīng)感的統(tǒng)一,具有更高的語(yǔ)音質(zhì)量和可懂度。
由生成器生成假語(yǔ)音后,補(bǔ)償語(yǔ)音與真實(shí)語(yǔ)音共同加入鑒別器。鑒別器的工作是區(qū)分真實(shí)語(yǔ)音和虛假語(yǔ)音,將判斷結(jié)果傳遞給生成器,這樣生成器就可以修正輸出音頻,使其逐漸接近真實(shí)分布。
SIGAN鑒別器在原始GAN鑒別器層基礎(chǔ)上增加語(yǔ)音特征提取模塊(如圖3所示)。語(yǔ)音特征提取模塊由多個(gè)神經(jīng)網(wǎng)絡(luò)塊(block)組成,神經(jīng)網(wǎng)絡(luò)塊對(duì)生成的帶空白間隙語(yǔ)音與真實(shí)語(yǔ)音進(jìn)行下采樣,即從低到高分別提取語(yǔ)音的低層、高層語(yǔ)音特征與全特征,以更全面的特征信息作為判別標(biāo)準(zhǔn),進(jìn)而提高生成器補(bǔ)償質(zhì)量。
圖3 SIGAN鑒別器結(jié)構(gòu)
圖3a中塊1、塊2和塊3為注意力機(jī)制神經(jīng)網(wǎng)絡(luò)塊,其具體結(jié)構(gòu)如圖3b所示。神經(jīng)網(wǎng)絡(luò)塊由擴(kuò)張卷積、通道注意力模塊和空間注意力模塊[19]組成,依次沿通道和空間維度計(jì)算注意力權(quán)重,并與輸入特征相乘以實(shí)現(xiàn)自適應(yīng)特征提取,以加強(qiáng)記憶語(yǔ)音中音素的排列組合。通道注意力模塊是將特征圖在空間維度上進(jìn)行壓縮,在空間維度上進(jìn)行壓縮時(shí),同時(shí)使用平均值池化(average pooling)和最大值池化(max pooling)來(lái)聚合特征映射的空間信息,用來(lái)發(fā)現(xiàn)輸入波形與其特征圖的相同內(nèi)容??臻g注意力模塊是在通道維度進(jìn)行壓縮,在通道維度分別進(jìn)行平均值池化和最大值池化,獲得最大特征通道。塊4和塊5由2個(gè)擴(kuò)張卷積層和單個(gè)MaxPooling1D池化層組成,進(jìn)一步匯總并壓縮提取到的語(yǔ)音特征,其擴(kuò)張卷積步長(zhǎng)為2。
普通鑒別器與語(yǔ)音特征提取鑒別器的性能對(duì)比如表1所示,表中使用來(lái)源于圖像處理的平均初始分?jǐn)?shù)(inception score, IS)作為評(píng)價(jià)指標(biāo),IS由補(bǔ)償語(yǔ)音譜圖與真實(shí)語(yǔ)音譜圖對(duì)比計(jì)算差異得到,分?jǐn)?shù)越高表示差異越小。IS計(jì)算簡(jiǎn)單,可直接加入模型訓(xùn)練中,以體現(xiàn)訓(xùn)練進(jìn)程。由表1可知,加入語(yǔ)音特征提取模塊使得訓(xùn)練時(shí)間縮短,并提高了IS,說(shuō)明語(yǔ)音特征提取模塊確實(shí)大幅提升了鑒別器性能。但補(bǔ)償語(yǔ)音的音高、音素位置與真實(shí)語(yǔ)音往往存在差異,這會(huì)體現(xiàn)為語(yǔ)譜圖間的差異,將導(dǎo)致IS較低,但補(bǔ)償語(yǔ)音的可懂度仍可能較高,因此IS僅作為訓(xùn)練進(jìn)程參考。
表1 普通鑒別器與語(yǔ)音特征提取鑒別器的性能對(duì)比
語(yǔ)音特征提取模塊后連接的判別層由整形層與全連接層組成,對(duì)語(yǔ)音特征提取模塊傳遞過(guò)來(lái)的特征進(jìn)行整形和判別后,最終生成維度為Sb×1的判別結(jié)果向量,Sb為批處理大小。
針對(duì)GAN出現(xiàn)的模式崩潰與梯度消失問(wèn)題,本文采用WGAN-GP[20]作為鑒別器損失函數(shù)來(lái)解決。包含梯度懲罰的WGAN-GP損失函數(shù)可以確保模型避免WGAN權(quán)重裁剪所帶來(lái)的參數(shù)集中化等負(fù)面影響。
在WGAN-GP中,鑒別器的損失函數(shù)通過(guò)在計(jì)算目標(biāo)數(shù)據(jù)分布px和生成數(shù)據(jù)分布pg之間的Wasserstein距離后新增梯度懲罰項(xiàng)來(lái)實(shí)現(xiàn),損失函數(shù)為
λEm~pm[(|mD(m)|2-K)2]。
(3)
(4)
式中,中間系數(shù)t從0到1均勻采樣。梯度懲罰項(xiàng)通過(guò)利用真假語(yǔ)音樣本之間的隨機(jī)中間值m來(lái)限制鑒別器的訓(xùn)練梯度,以保證真假語(yǔ)音樣本之間的過(guò)渡區(qū)域滿足1-Lipschitz約束。鑒別器通過(guò)WGAN-GP的損失函數(shù)充分訓(xùn)練后,其梯度值將在K值附近,能保證穩(wěn)定訓(xùn)練的前提下拉大真假語(yǔ)音樣本在鑒別器中的分?jǐn)?shù)差距,進(jìn)而對(duì)生成器的生成樣本質(zhì)量判別更為分明。
本文模型在單個(gè)NVIDIA 1080 TI GPU上訓(xùn)練,基于Tensorflow[22]框架實(shí)現(xiàn),網(wǎng)絡(luò)訓(xùn)練參數(shù)為:每次訓(xùn)練以10-4的學(xué)習(xí)率開始,批處理大小Sb=32,多次實(shí)驗(yàn)的訓(xùn)練步控制在8 000,每訓(xùn)練5輪鑒別器更新1次生成器,每300步保存一次模型。對(duì)比算法的復(fù)現(xiàn)都使用相同的網(wǎng)絡(luò)訓(xùn)練參數(shù),以保證對(duì)比實(shí)驗(yàn)合理。
以時(shí)域語(yǔ)音作輸入輸出的端到端GAN網(wǎng)絡(luò)普遍會(huì)輸出帶噪聲的語(yǔ)音,因此本文在SIGAN生成器結(jié)構(gòu)中加入降噪的后處理。語(yǔ)音增強(qiáng)算法使用MMSE譜減法[23],因?yàn)樵撍惴ㄟ\(yùn)算速度快、無(wú)運(yùn)算負(fù)擔(dān)且能有效提高SIGAN補(bǔ)償語(yǔ)音的音質(zhì)。
語(yǔ)音補(bǔ)償算法需要關(guān)注的是人類可接受的音質(zhì)和可懂度,因此更適合采用主觀評(píng)價(jià)來(lái)判斷算法性能。組織了4名受試者進(jìn)行聽(tīng)力測(cè)試,以評(píng)價(jià)SIGAN模型的補(bǔ)償效果。實(shí)驗(yàn)前,受試者了解實(shí)驗(yàn)的目的和步驟,并收到從0到9的各1個(gè)示例性英語(yǔ)單詞語(yǔ)音,即發(fā)音正確且清晰無(wú)雜音的語(yǔ)音。之后對(duì)比示例性語(yǔ)音,對(duì)訓(xùn)練后的SIGAN模型和其他兩個(gè)對(duì)比模型使用測(cè)試集生成的語(yǔ)音進(jìn)行評(píng)分,測(cè)試集語(yǔ)音為從0到9的英語(yǔ)單詞各10條,因此每位受試者共進(jìn)行300次評(píng)分。
每次評(píng)分中,需要分別對(duì)補(bǔ)償語(yǔ)音的音質(zhì)、可懂度(發(fā)音是否準(zhǔn)確無(wú)誤)兩項(xiàng)標(biāo)準(zhǔn)進(jìn)行評(píng)估。評(píng)估標(biāo)準(zhǔn)參考文獻(xiàn)[24],通過(guò)失真平均意見(jiàn)分(distortion mean opinion score, DMOS)對(duì)補(bǔ)償語(yǔ)音與示例語(yǔ)音的差異進(jìn)行分值范圍為[1,5]的音質(zhì)評(píng)價(jià)。由于本文主觀評(píng)價(jià)基于單詞的語(yǔ)音材料,受試者在評(píng)價(jià)語(yǔ)音可懂度時(shí)根據(jù)單詞中音節(jié)組成進(jìn)行分析。兩者具體分值含義見(jiàn)表2。
表2 主觀評(píng)價(jià)等級(jí)
為進(jìn)一步證明本文提出的SIGAN模型用于語(yǔ)音補(bǔ)償?shù)膬?yōu)越性,選取TiFGAN[12]和WaveGAN[17]進(jìn)行相同配置下的語(yǔ)音補(bǔ)償實(shí)驗(yàn),并與本文提出的SIGAN模型進(jìn)行主觀評(píng)價(jià)結(jié)果對(duì)比。
TiFGAN算法是經(jīng)典的基于譜圖的生成對(duì)抗網(wǎng)絡(luò),網(wǎng)絡(luò)經(jīng)訓(xùn)練后生成STFT對(duì)數(shù)幅度,經(jīng)STFT逆變換得到生成音頻。與該算法的對(duì)比可以探討SIGAN以原始語(yǔ)音作輸入輸出與基于譜圖的算法之間的差異。WaveGAN算法是將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于無(wú)監(jiān)督合成原始音頻的方法,與本文提出的SIGAN都屬于直接在GAN網(wǎng)絡(luò)中利用時(shí)域音頻的語(yǔ)音生成方法。
針對(duì)原始樣本長(zhǎng)度為1 s、間隙長(zhǎng)度為256 ms的單詞,SIGAN與其他模型的補(bǔ)償語(yǔ)音音質(zhì)、可懂度的主觀評(píng)價(jià)結(jié)果對(duì)比如表3和表4,表中數(shù)值為所有受試者對(duì)該模型輸出的對(duì)應(yīng)單詞語(yǔ)音的評(píng)分均值。評(píng)估結(jié)果顯示,SIGAN網(wǎng)絡(luò)生成樣本的音質(zhì)平均評(píng)分都在3.40±0.30范圍內(nèi),即濾波后的SIGAN補(bǔ)償語(yǔ)音已滿足多數(shù)語(yǔ)音通信系統(tǒng)的使用要求。受試者反映補(bǔ)償語(yǔ)音部分帶可感知的噪聲,但語(yǔ)音清晰度仍很好。補(bǔ)償語(yǔ)音的可懂度平均評(píng)分在3.25±0.25范圍內(nèi),受試者基本都能確定SIGAN的補(bǔ)償語(yǔ)音是對(duì)應(yīng)的單詞,盡管某些補(bǔ)償語(yǔ)音帶有輕微讀音錯(cuò)誤,SIGAN生成的補(bǔ)償語(yǔ)音質(zhì)量穩(wěn)定同時(shí)可理解。
表3 SIGAN與其他模型的音質(zhì)主觀評(píng)價(jià)結(jié)果
表4 SIGAN與其他模型的語(yǔ)音可懂度主觀評(píng)價(jià)結(jié)果
對(duì)于TiFGAN算法,受試者反映TiFGAN補(bǔ)償語(yǔ)音中噪聲較低,音質(zhì)僅受限于單詞讀音失真。這是因?yàn)镾TFT逆變換丟失相位信息會(huì)帶來(lái)元音、輔音共振峰改變等音頻失真,但該失真對(duì)音頻的音質(zhì)影響不大,所以TiFGAN的音質(zhì)評(píng)分較高,都在3.30±0.15范圍內(nèi)。然而TiFGAN補(bǔ)償語(yǔ)音的語(yǔ)音可懂度評(píng)分明顯低于SIGAN,可以看出這類音頻失真容易導(dǎo)致音頻補(bǔ)償模型對(duì)單詞中音素的錯(cuò)誤修復(fù),從而影響語(yǔ)音可懂度。因此SIGAN以時(shí)域語(yǔ)音作輸入輸出雖然容易產(chǎn)生噪聲,影響補(bǔ)償語(yǔ)音的音質(zhì),但也保證了補(bǔ)償語(yǔ)音較高的語(yǔ)音可懂度。
而在WaveGAN的主觀評(píng)價(jià)中,受試者反映該模型生成語(yǔ)音不僅帶有明顯噪聲,很多單詞讀音還帶有很多無(wú)法理解的讀音錯(cuò)誤,如six讀為sex,seven讀為sev,four讀為flour,這些音節(jié)不是訓(xùn)練集內(nèi)音節(jié)的拼接組合,疑是模型無(wú)規(guī)律隨機(jī)生成的產(chǎn)物。因此,WaveGAN的音質(zhì)和可懂度的總體評(píng)分均低于SIGAN。
據(jù)澳大利亞廣播公司近日?qǐng)?bào)道,目前在南澳的標(biāo)志性葡萄酒產(chǎn)區(qū)─巴羅薩谷,有多達(dá)10%的葡萄園和酒莊屬于中國(guó)人所有。當(dāng)?shù)匾幻麖氖缕咸褕@收購(gòu)業(yè)務(wù)的從業(yè)人員表示,他經(jīng)手的過(guò)去7宗收購(gòu)里有6家酒莊被中國(guó)人買去,而目前他們公司接到的咨詢電話里面,有大約50%來(lái)自中國(guó)人以及代替中國(guó)人表達(dá)收購(gòu)意愿的團(tuán)體。
從實(shí)驗(yàn)得知,直接針對(duì)時(shí)域語(yǔ)音進(jìn)行補(bǔ)償?shù)乃惴ㄒ话愦嬖趦蓚€(gè)問(wèn)題:內(nèi)容豐富多變的多音節(jié)單詞較難被補(bǔ)償;前后文內(nèi)容很少、讀音短暫且無(wú)尾音單詞的補(bǔ)償難度大。在這兩種情況下,網(wǎng)絡(luò)生成的補(bǔ)償語(yǔ)音都會(huì)有音質(zhì)差或可懂度低的問(wèn)題。本文通過(guò)主觀評(píng)價(jià)結(jié)果的對(duì)比來(lái)分析SIGAN網(wǎng)絡(luò)對(duì)這兩個(gè)問(wèn)題的改善。
SIGAN針對(duì)多音節(jié)單詞補(bǔ)償難的改善可由實(shí)驗(yàn)中zero和seven的補(bǔ)償情況驗(yàn)證。如表3所示,SIGAN和WaveGAN中多音節(jié)單詞zero和seven的音質(zhì)得分都低于同列的其他單音節(jié)單詞的得分。受試者反映這兩個(gè)算法對(duì)zero、seven的補(bǔ)償語(yǔ)音中存在類似電流聲的雜音,這可能是“z”“v”等濁輔音的端到端補(bǔ)償造成的。然而,SIGAN對(duì)于zero、seven補(bǔ)償語(yǔ)音的可懂度評(píng)分比WaveGAN提升較大。seven在SIGAN補(bǔ)償前后的波形圖與語(yǔ)譜圖如圖4所示,對(duì)比可知補(bǔ)償語(yǔ)音能保持較好的還原度。這證明在引入本文提出的前后文編碼和解碼器及語(yǔ)音特征提取模塊后,SIGAN網(wǎng)絡(luò)比WaveGAN網(wǎng)絡(luò)利用更多的前后文內(nèi)容,生成的多音節(jié)單詞更容易被聽(tīng)眾辨認(rèn),多音節(jié)單詞的語(yǔ)音可懂度有較大提升。
圖4 Seven補(bǔ)償語(yǔ)音與真實(shí)語(yǔ)音對(duì)比
實(shí)驗(yàn)中進(jìn)一步發(fā)現(xiàn),帶間隙語(yǔ)音的前后文內(nèi)容很少或無(wú)前后文內(nèi)容時(shí),補(bǔ)償帶間隙語(yǔ)音中的空白段并生成相對(duì)應(yīng)的單詞較為困難。例如:two和three,這兩個(gè)單詞播放時(shí)間很短且沒(méi)有尾音,語(yǔ)音與間隙的時(shí)長(zhǎng)可能會(huì)一樣,前者完全會(huì)被后者遮蔽,導(dǎo)致網(wǎng)絡(luò)無(wú)法抓取到前后文內(nèi)容,最終無(wú)法正常補(bǔ)償。因此,本文對(duì)它們的測(cè)試集做了一定的篩選:選擇上文帶較明顯首輔音的帶間隙語(yǔ)音,例如選擇two測(cè)試集中首輔音“t”讀音明顯的語(yǔ)音和three測(cè)試集中“th”讀音明顯的語(yǔ)音。最終的主觀評(píng)價(jià)結(jié)果中,two和three的音質(zhì)評(píng)分與可懂度評(píng)分與總體評(píng)分均值的差距很小。這證明SIGAN網(wǎng)絡(luò)對(duì)于前后文內(nèi)容很少的語(yǔ)音仍然有效地學(xué)習(xí)到它們的語(yǔ)音特征并正確補(bǔ)償。
SIGAN模型從中間過(guò)程到訓(xùn)練結(jié)束,都未出現(xiàn)過(guò)補(bǔ)償前后說(shuō)話者性別不一致的補(bǔ)償語(yǔ)音,即補(bǔ)償語(yǔ)音與真實(shí)語(yǔ)音的語(yǔ)音音高基本相同。這些結(jié)果都證明在引入語(yǔ)音特征提取模塊后的SIGAN能更有效地捕捉語(yǔ)音中的音素、音高特征。
本文還使用語(yǔ)音質(zhì)量感知評(píng)價(jià)[25](perceptual evaluation of speech quality, PESQ)對(duì)SIGAN、WaveGAN和TiFGAN模型的補(bǔ)償語(yǔ)音進(jìn)行客觀音質(zhì)評(píng)價(jià)。PESQ通過(guò)比較補(bǔ)償語(yǔ)音與真實(shí)語(yǔ)音計(jì)算語(yǔ)音質(zhì)量分?jǐn)?shù),差異性越大分?jǐn)?shù)越低。如表5所示,SIGAN十條補(bǔ)償語(yǔ)音的平均PESQ得分高于WaveGAN與TiFGAN得分。
表5 SIGAN的PESQ客觀質(zhì)量評(píng)價(jià)結(jié)果
綜上所述,SIGAN在可懂度方面比以往的算法有了實(shí)質(zhì)性的改進(jìn),這歸功于本文網(wǎng)絡(luò)使用針對(duì)語(yǔ)音的端到端結(jié)構(gòu),并作出更適合語(yǔ)音補(bǔ)償?shù)木W(wǎng)絡(luò)改進(jìn)。
為驗(yàn)證SIGAN模型在面對(duì)間隙長(zhǎng)度更大的語(yǔ)音時(shí)也能保持較好的補(bǔ)償能力,擴(kuò)展實(shí)驗(yàn)使用間隙長(zhǎng)度翻倍的語(yǔ)音對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。為方便與未擴(kuò)展語(yǔ)音的實(shí)驗(yàn)進(jìn)行對(duì)比,該實(shí)驗(yàn)的數(shù)據(jù)集是對(duì)整理后SC09數(shù)據(jù)集進(jìn)行變速操作,即語(yǔ)音變?yōu)樵瓉?lái)的0.5倍速。變速后的語(yǔ)音依然為16 kHz采樣率,樣本長(zhǎng)度增加1倍至32 768,間隙長(zhǎng)度也由4 096擴(kuò)大至8 192。
訓(xùn)練集中每個(gè)單詞的樣本數(shù)保持與原實(shí)驗(yàn)一致,真實(shí)語(yǔ)音與帶空白間隙語(yǔ)音各10 000個(gè)。網(wǎng)絡(luò)結(jié)構(gòu)基本保持不變,生成器由于其對(duì)稱性無(wú)須變動(dòng),鑒別器只需在判別層前新增階躍步長(zhǎng)為2的擴(kuò)張卷積層。網(wǎng)絡(luò)參數(shù)不變,使用相同的評(píng)價(jià)方法對(duì)其進(jìn)行主觀評(píng)價(jià)。
擴(kuò)展后SIGAN補(bǔ)償語(yǔ)音的語(yǔ)音可懂度主觀評(píng)價(jià)結(jié)果如表6所示,擴(kuò)展后的SIGAN補(bǔ)償語(yǔ)音的語(yǔ)音可懂度平均評(píng)分都在3.70±0.30范圍內(nèi),明顯高于擴(kuò)展前的總體評(píng)分。而擴(kuò)展后的補(bǔ)償語(yǔ)音的音質(zhì)平均評(píng)分在3.40±0.20范圍內(nèi)。語(yǔ)音長(zhǎng)度和間隙長(zhǎng)度翻倍后,音質(zhì)與1 s樣本長(zhǎng)度實(shí)驗(yàn)相比變化不大,語(yǔ)音可懂度卻提升顯著。這表明變速后的2 s語(yǔ)音中,單詞的讀音放慢,語(yǔ)音的特征更加清楚,網(wǎng)絡(luò)更加容易學(xué)習(xí),故間隙長(zhǎng)度也隨著翻倍,SIGAN依然能有效改善補(bǔ)償樣本的質(zhì)量。
表6 語(yǔ)音擴(kuò)展后的主觀評(píng)價(jià)結(jié)果
原來(lái)發(fā)音很短暫的單詞two和three,前后文內(nèi)容的增加使其補(bǔ)償樣本的語(yǔ)音可懂度有了較大幅度提升,受試者對(duì)擴(kuò)展前的two可懂度評(píng)分均值為3.03,擴(kuò)展后提升至3.67;three可懂度評(píng)分均值也從3.11提升至3.60??偟膩?lái)說(shuō),SIGAN模型在補(bǔ)償大時(shí)長(zhǎng)的語(yǔ)音時(shí)更有優(yōu)勢(shì),在達(dá)到模型可修復(fù)的間隙長(zhǎng)度最大值之前,間隙長(zhǎng)度的增加對(duì)補(bǔ)償語(yǔ)音的質(zhì)量影響較小[15]。
本文提出了基于生成對(duì)抗網(wǎng)絡(luò)的無(wú)監(jiān)督語(yǔ)音補(bǔ)償模型SIGAN,用于恢復(fù)數(shù)百毫秒的空白間隙語(yǔ)音信息。SIGAN模型直接以時(shí)域語(yǔ)音作為輸入輸出,著重學(xué)習(xí)語(yǔ)音間隙前后文中的語(yǔ)音特征,生成與前后文內(nèi)容相對(duì)應(yīng)的語(yǔ)音。首先,設(shè)計(jì)了一個(gè)對(duì)稱性的前后文編解碼器作為生成器,使用一維的擴(kuò)張卷積、轉(zhuǎn)置卷積與跳躍連接,使生成器更適合接收并輸出音頻的時(shí)域波形。其次,提出在鑒別器中加入語(yǔ)音特征提取模塊,以多個(gè)神經(jīng)網(wǎng)絡(luò)塊組合的結(jié)構(gòu)幫助生成器的輸出考慮更多的語(yǔ)音特征。
在與其他算法的客觀和主觀對(duì)比實(shí)驗(yàn)中,SIGAN算法的PESQ得分、音質(zhì)和語(yǔ)音可懂度總體評(píng)分均優(yōu)于現(xiàn)有方法。本文也使用SIGAN對(duì)降速后獲得的長(zhǎng)語(yǔ)音進(jìn)行了補(bǔ)償實(shí)驗(yàn),結(jié)果發(fā)現(xiàn),更多的前后文內(nèi)容對(duì)補(bǔ)償語(yǔ)音的質(zhì)量提升較大,盡管間隙長(zhǎng)度增加但可懂度依然能得到進(jìn)一步的改善,這表明SIGAN模型對(duì)高時(shí)長(zhǎng)的音頻補(bǔ)償仍具有較好的潛力。
SIGAN也還有很多改進(jìn)的空間,如潛在變量的改進(jìn)、加入并行鑒別器等方法。未來(lái)研究的目標(biāo)是SIGAN能夠更好地學(xué)習(xí)人類語(yǔ)言中的語(yǔ)義,對(duì)多個(gè)單詞連續(xù)組合的長(zhǎng)語(yǔ)句音頻進(jìn)行補(bǔ)償工作。