朱世宇 李根 孫令翠 謝箭 柏森 孟宓
(1.重慶工程學(xué)院,重慶 400056;2.重慶電訊職業(yè)學(xué)院,重慶 402274)
多個(gè)研究中指出,增強(qiáng)后語(yǔ)音均方差損失值得分較小的語(yǔ)音(與相對(duì)應(yīng)干凈語(yǔ)音相比)不能保證其具有高語(yǔ)音質(zhì)量和高可懂度[1-2],均方差損失函數(shù),其缺乏與人類聽(tīng)覺(jué)感知系統(tǒng)或人類聽(tīng)覺(jué)間的關(guān)聯(lián)。對(duì)語(yǔ)音增強(qiáng)神經(jīng)網(wǎng)絡(luò)損失函數(shù)的改進(jìn),能提高語(yǔ)音增強(qiáng)神經(jīng)網(wǎng)絡(luò)性能,從而解決其受損失函數(shù)制約性能的問(wèn)題。
本研究中提出的多損失值損失函數(shù),由經(jīng)過(guò)訓(xùn)練的語(yǔ)音生成對(duì)抗神經(jīng)網(wǎng)絡(luò)中的判別網(wǎng)絡(luò),融合均方差損失函數(shù)構(gòu)成。在判別網(wǎng)絡(luò)損失函數(shù)基礎(chǔ)上,使用均方差損失函數(shù),保證了增強(qiáng)語(yǔ)音與干凈語(yǔ)音間的相關(guān)性。
此外本研究中提出的基于多損失值融合神經(jīng)網(wǎng)絡(luò),使用音頻波紋數(shù)據(jù)作為輸入,在較多語(yǔ)音增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型中,使用語(yǔ)音頻域信息作為輸入[3-4],語(yǔ)音音頻數(shù)據(jù)與語(yǔ)音頻域數(shù)據(jù)轉(zhuǎn)換過(guò)程,并非完全可逆,轉(zhuǎn)換過(guò)程中語(yǔ)音音頻部分細(xì)節(jié)信息(例如相位信息)丟失[5]。直接使用音頻波紋數(shù)據(jù)作為輸入,保留了音頻數(shù)據(jù)的細(xì)節(jié)信息。為保證語(yǔ)音音頻細(xì)節(jié)信息在卷積網(wǎng)絡(luò)層間的流動(dòng),在卷積網(wǎng)絡(luò)特定層間添加跳連結(jié)構(gòu),使相位、校正等語(yǔ)音音頻細(xì)節(jié)信息,不經(jīng)過(guò)卷積網(wǎng)絡(luò)進(jìn)行特征抽取壓縮,直接在各卷積網(wǎng)絡(luò)層間流動(dòng)。也進(jìn)一步避免了語(yǔ)音音頻細(xì)節(jié)信息丟失的問(wèn)題。
圖1 多損失函數(shù)結(jié)構(gòu)Fig.1 Multi-loss function structure
使用對(duì)抗網(wǎng)絡(luò)判別器作為損失函數(shù),判別器網(wǎng)絡(luò)被鏈接在基于自編碼器的語(yǔ)音增強(qiáng)網(wǎng)絡(luò)后。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
如圖中所示,語(yǔ)音增強(qiáng)結(jié)果將繼續(xù)被輸入判別器網(wǎng)絡(luò)結(jié)構(gòu)。判別器網(wǎng)絡(luò)結(jié)構(gòu)并不參加網(wǎng)絡(luò)模型訓(xùn)練,判別器網(wǎng)絡(luò)權(quán)重由對(duì)抗神經(jīng)網(wǎng)絡(luò)訓(xùn)練獲得,判別器將對(duì)語(yǔ)音增強(qiáng)結(jié)果進(jìn)行計(jì)算給出二分類結(jié)果值。
假設(shè)帶噪語(yǔ)音輸入為?,帶噪語(yǔ)音經(jīng)過(guò)自編碼器的語(yǔ)音增強(qiáng)網(wǎng)絡(luò)獲得增強(qiáng)后的語(yǔ)音,增強(qiáng)結(jié)果繼續(xù)經(jīng)過(guò)對(duì)抗網(wǎng)絡(luò)判別器計(jì)算獲得結(jié)果為0與1的真假二分類結(jié)果。最終的損失值計(jì)算為:
其中的SquaredDiff為差平方函數(shù),式中將求得Dx與1的差平方結(jié)果。為平衡兩部分計(jì)算結(jié)果差值的數(shù)量級(jí),將引入超參 ,所以最終的損失式為:
其中均方差損失值與判別網(wǎng)絡(luò)損失值,數(shù)值相差為兩個(gè)數(shù)量級(jí)。將各損失值統(tǒng)一到同以數(shù)量級(jí),可避免其梯度變化傾向于單個(gè)損失函數(shù)[5]。因此引入經(jīng)驗(yàn)參數(shù)λ,根據(jù)數(shù)量級(jí)差異在實(shí)驗(yàn)中設(shè)置λ=100。
為完成多信噪比下,語(yǔ)音增強(qiáng)神經(jīng)網(wǎng)絡(luò),語(yǔ)音增強(qiáng)性能的評(píng)估。以及多種噪聲環(huán)境下其語(yǔ)音增強(qiáng)性能評(píng)估,本研究實(shí)驗(yàn)分兩部分完成。
第一部分實(shí)驗(yàn),此部分采用不同信噪比下的語(yǔ)音進(jìn)行實(shí)驗(yàn),具體的,選擇了四個(gè)信噪比(SNR),即0dB、5dB、10dB、15dB的測(cè)試語(yǔ)音音頻,進(jìn)行語(yǔ)音增強(qiáng)實(shí)驗(yàn)。為獲得良好性能的判別網(wǎng)絡(luò),首先對(duì)語(yǔ)音生成對(duì)抗神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。其中共投入473段人聲語(yǔ)音數(shù)據(jù),其原始語(yǔ)音長(zhǎng)度為38秒,經(jīng)過(guò)分割為時(shí)長(zhǎng)為1秒的訓(xùn)練數(shù)據(jù),總共約為20000段訓(xùn)練音頻。語(yǔ)音生成網(wǎng)絡(luò)使用20000段左右語(yǔ)音進(jìn)行了訓(xùn)練,即一個(gè)訓(xùn)練周期(Epoch)。而后為訓(xùn)練基于多損失值融合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型,進(jìn)行150個(gè)訓(xùn)練周期的網(wǎng)絡(luò)訓(xùn)練。
表1 PESQ與STOI對(duì)比結(jié)果Tab.1 Comparison results of PESQ and STOI
第二部分實(shí)驗(yàn),為了證明具有多損失函數(shù)的自編碼語(yǔ)音增強(qiáng)網(wǎng)絡(luò)的在多種噪聲下的普適性。設(shè)計(jì)了一組對(duì)照實(shí)驗(yàn)。與實(shí)驗(yàn)第一部分相同使用了一個(gè)訓(xùn)練周期的語(yǔ)音生成對(duì)抗網(wǎng)絡(luò)模型中的判別網(wǎng)絡(luò)。將未自定義損失函數(shù)的語(yǔ)音增強(qiáng)網(wǎng)絡(luò),與加入自定義損失函數(shù)后的語(yǔ)音增強(qiáng)網(wǎng)絡(luò),經(jīng)過(guò)同樣的40個(gè)訓(xùn)練周期,以及150個(gè)訓(xùn)練周期的訓(xùn)練,兩模型使用同樣的參數(shù)配置,且均為首次訓(xùn)練。隨后隨機(jī)選擇16組不同噪聲語(yǔ)音音頻進(jìn)行測(cè)試。兩模型也均采用相同數(shù)據(jù),進(jìn)行訓(xùn)練與測(cè)試。通過(guò)PESQ與STOI評(píng)分進(jìn)行評(píng)價(jià),每組對(duì)照實(shí)驗(yàn)進(jìn)行4次。未自定義損失網(wǎng)絡(luò)模型采用均方誤差作為損失函數(shù)。
圖2 (b)噪聲語(yǔ)音Fig.2(b) Noise speech
圖2 (c)增強(qiáng)語(yǔ)音Fig.2(c) Enhanced speech
通過(guò)在不同信噪比下對(duì)不具有自定義損失函數(shù)的基于自編碼器的語(yǔ)音增強(qiáng)模型,與具有自定義損失函數(shù)的基于自編碼器的語(yǔ)音增強(qiáng)模型,進(jìn)行對(duì)比其結(jié)果如表1所示。從結(jié)果中可以看出具有自定義損失函數(shù)的模型下,PESQ評(píng)分均值相較于未自定義損失函數(shù)的模型,高出約0.4個(gè)點(diǎn),STOI評(píng)分高出0.1個(gè)點(diǎn)。且在不同信噪比下具有自定義損失函數(shù)的模型分?jǐn)?shù)均高于不具有自定義損失函數(shù)模型。因而具有自定義損失函數(shù)的基于自編碼器的網(wǎng)絡(luò)模型,相較于MSE損失函數(shù)即傳統(tǒng)損失函數(shù)的自編碼器網(wǎng)絡(luò)模型,在性能效果上具有提升。
語(yǔ)譜圖時(shí)聲音頻率隨時(shí)間變化的直觀表示,如圖2所示,圖2為信噪比為10dB的增強(qiáng)語(yǔ)音信號(hào)語(yǔ)譜圖,圖2(a)為純凈語(yǔ)音的語(yǔ)譜圖,圖2(b)為帶噪聲語(yǔ)譜圖,圖2(c)為增強(qiáng)后語(yǔ)音的語(yǔ)譜圖。通過(guò)語(yǔ)譜圖可觀察到,被噪聲掩蓋的語(yǔ)音信息,在增強(qiáng)后有明顯恢復(fù)。如圖中的A-a區(qū)域至C-a區(qū)域,原本被噪聲遮蓋的B-a區(qū),在經(jīng)過(guò)語(yǔ)音增強(qiáng)后C-a區(qū)對(duì)其進(jìn)行了恢復(fù)。