余本年,詹永照*,毛啟容,2,董文龍,劉洪麟
面向語(yǔ)音增強(qiáng)的雙復(fù)數(shù)卷積注意聚合遞歸網(wǎng)絡(luò)
余本年1,詹永照1*,毛啟容1,2,董文龍1,劉洪麟1
(1.江蘇大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013; 2.江蘇省大數(shù)據(jù)泛在感知與智能農(nóng)業(yè)應(yīng)用工程研究中心,江蘇 鎮(zhèn)江 212013)( ? 通信作者電子郵箱yzzhan@ujs.edu.cn)
針對(duì)現(xiàn)有的語(yǔ)音增強(qiáng)方法對(duì)語(yǔ)譜圖特征關(guān)聯(lián)信息表達(dá)有限和去噪效果不理想的問(wèn)題,提出一種雙復(fù)數(shù)卷積注意聚合遞歸網(wǎng)絡(luò)(DCCARN)的語(yǔ)音增強(qiáng)方法。首先,建立雙復(fù)數(shù)卷積網(wǎng)絡(luò),對(duì)短時(shí)傅里葉變換后的語(yǔ)譜圖特征進(jìn)行兩分支信息編碼;其次,將兩分支中編碼分別使用特征塊間和特征塊內(nèi)注意力機(jī)制對(duì)不同的語(yǔ)音特征信息進(jìn)行重標(biāo)注;再次,使用長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)處理長(zhǎng)時(shí)間序列信息,并用兩解碼器還原語(yǔ)譜圖特征并聚合這些特征;最后,經(jīng)短時(shí)逆傅里葉變換生成目標(biāo)語(yǔ)音波形,以達(dá)到抑制噪聲的目的。在公開(kāi)數(shù)據(jù)集VBD(Voice Bank+DMAND)和加噪的TIMIT數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)的結(jié)果表明,與相位感知的深度復(fù)數(shù)卷積遞歸網(wǎng)絡(luò)(DCCRN)相比,DCCARN在客觀語(yǔ)音感知質(zhì)量指標(biāo)(PESQ)上分別提升了0.150和0.077~0.087。這驗(yàn)證了所提方法能更準(zhǔn)確地捕獲語(yǔ)譜圖特征的關(guān)聯(lián)信息,更有效地抑制噪聲,并提高語(yǔ)音的清晰度。
語(yǔ)音增強(qiáng);注意力機(jī)制;復(fù)數(shù)卷積網(wǎng)絡(luò);編碼;長(zhǎng)短期記憶網(wǎng)絡(luò)
語(yǔ)音增強(qiáng)是一種從有噪聲的語(yǔ)音信號(hào)中提取盡可能純凈的語(yǔ)音信號(hào)的技術(shù),該技術(shù)可以提高語(yǔ)音的客觀感知質(zhì)量和可懂度。語(yǔ)音增強(qiáng)在移動(dòng)通信、語(yǔ)音助聽(tīng)和語(yǔ)音識(shí)別預(yù)處理等方面都有廣泛的應(yīng)用前景。根據(jù)收錄語(yǔ)音時(shí)使用的麥克風(fēng)數(shù)量的不同,語(yǔ)音增強(qiáng)可以分為單通道語(yǔ)音增強(qiáng)和多通道語(yǔ)音增強(qiáng)。多通道語(yǔ)音增強(qiáng)可以更有效利用聲音的空間信息,增強(qiáng)目標(biāo)方向的聲音信息,抑制非目標(biāo)方向的干擾源,但多通道語(yǔ)音對(duì)硬件設(shè)備要求高,應(yīng)用范圍受限。與多通道語(yǔ)音相比,單通道語(yǔ)音具有硬件成本低、能耗小的優(yōu)勢(shì),應(yīng)用范圍廣,但由于聲源信息和噪聲的空間信息少,因此研究單通道語(yǔ)音增強(qiáng)更具有現(xiàn)實(shí)意義和富有挑戰(zhàn)性。
目前常見(jiàn)的語(yǔ)音增強(qiáng)算法主要有兩種:一種是傳統(tǒng)的語(yǔ)音增強(qiáng)算法,另一種是基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法。
傳統(tǒng)的單通道語(yǔ)音增強(qiáng)算法主要包括譜減法、維納濾波法、基于統(tǒng)計(jì)模型和信號(hào)子空間語(yǔ)音增強(qiáng)算法。傳統(tǒng)的方法在處理平穩(wěn)噪聲時(shí)具有較好的語(yǔ)音增強(qiáng)效果,但是這些方法都是基于噪聲是平穩(wěn)的這一假設(shè),而現(xiàn)實(shí)中的語(yǔ)音信號(hào)還存在非平穩(wěn)噪聲,限制了語(yǔ)音增強(qiáng)性能的進(jìn)一步提升。
隨著深度學(xué)習(xí)方法的興起,研究者提出了眾多基于深度學(xué)習(xí)的單通道語(yǔ)音增強(qiáng)方法[1],這些方法不需要對(duì)數(shù)據(jù)進(jìn)行額外的條件假設(shè),而是通過(guò)挖掘語(yǔ)音數(shù)據(jù)的內(nèi)在聯(lián)系,更準(zhǔn)確地實(shí)現(xiàn)目標(biāo)語(yǔ)音和噪聲的估計(jì)。多種單通道語(yǔ)音增強(qiáng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型被提出,如深度神經(jīng)網(wǎng)絡(luò)[2]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[3]、生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)[4]、長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)[5]和基于注意力機(jī)制的網(wǎng)絡(luò)[6]等,這些模型能夠較好地挖掘語(yǔ)音特征之間的關(guān)聯(lián),提升了語(yǔ)音增強(qiáng)效果,但是這些模型對(duì)語(yǔ)音相位信息學(xué)習(xí)表達(dá)還不充分。
目前基于深度學(xué)習(xí)的單通道語(yǔ)音增強(qiáng)方法在提取高維特征時(shí)通常忽略或破壞了語(yǔ)譜圖的相位信息,導(dǎo)致出現(xiàn)目標(biāo)語(yǔ)音細(xì)節(jié)部分丟失的問(wèn)題。針對(duì)語(yǔ)譜圖中相位信息的表達(dá)不充分影響目標(biāo)語(yǔ)音估計(jì)的問(wèn)題,Hu等[7]提出了模擬復(fù)數(shù)運(yùn)算的深度復(fù)數(shù)卷積遞歸網(wǎng)絡(luò)(Deep Complex Convolution Recurrent Network, DCCRN),并用于單通道語(yǔ)音增強(qiáng),通過(guò)復(fù)數(shù)運(yùn)算結(jié)構(gòu)保留更多的目標(biāo)語(yǔ)音相位信息,實(shí)現(xiàn)了相位信息的有效捕獲,提升了語(yǔ)音增強(qiáng)任務(wù)的性能。然而該方法未考慮注意力機(jī)制的運(yùn)用,以及更合理地表達(dá)學(xué)習(xí)幅度與相位信息并加以利用,從而限制了語(yǔ)音增強(qiáng)效果的進(jìn)一步提升。
本文針對(duì)單通道語(yǔ)音增強(qiáng)問(wèn)題,在DCCRN模型的基礎(chǔ)上提出了一種雙復(fù)數(shù)卷積注意聚合遞歸網(wǎng)絡(luò)(Double Complex Convolution and Attention aggregating Recurrent Network,DCCARN)的語(yǔ)音增強(qiáng)方法。受視覺(jué)特征學(xué)習(xí)的通道注意力和空間注意力機(jī)制[8]的啟發(fā),可以將語(yǔ)譜圖的卷積編碼信息分為多種特征層面的時(shí)頻范圍的特征塊信息,并進(jìn)行雙注意力驅(qū)動(dòng)的特征學(xué)習(xí):1)塊間注意力機(jī)制,不同特征塊之間整體時(shí)頻信息的注意力學(xué)習(xí);2)塊內(nèi)注意力機(jī)制,相關(guān)特征塊內(nèi)局部時(shí)頻信息的注意力學(xué)習(xí)。所提方法不同于現(xiàn)有的注意力機(jī)制方法,引入了兩個(gè)注意力機(jī)制結(jié)構(gòu),通過(guò)雙分支網(wǎng)絡(luò)注意力機(jī)制從特征塊間和特征塊內(nèi)兩個(gè)維度注意力提高語(yǔ)音特征的表達(dá)質(zhì)量。首先,利用短時(shí)傅里葉變換對(duì)輸入波形進(jìn)行頻譜分析,考慮在頻譜圖上分別進(jìn)行兩個(gè)維度信息的特征學(xué)習(xí),利用兩個(gè)復(fù)數(shù)編碼器提取信息的高維特征,并利用跳連方式連接編碼器中各層卷積塊的輸出與解碼器中相應(yīng)的反卷積塊,以避免梯度消失;其次,將兩個(gè)分支編碼器最后一層卷積塊的輸出分別作為特征塊間和特征塊內(nèi)注意力模塊的輸入,實(shí)現(xiàn)對(duì)特征塊間和塊內(nèi)相關(guān)性信息的重標(biāo)記,使目標(biāo)特征學(xué)習(xí)更加豐富;最后,經(jīng)復(fù)數(shù)LSTM、解碼器、特征融合、短時(shí)逆傅里葉變換和掩碼得到增強(qiáng)后的語(yǔ)音。
本文的主要工作如下:
1)提出了雙復(fù)數(shù)卷積遞歸網(wǎng)絡(luò)語(yǔ)音信息編碼,分別進(jìn)行不同信息編碼,以增加目標(biāo)語(yǔ)音的底層信息,通過(guò)時(shí)序關(guān)聯(lián)信息分析后進(jìn)行語(yǔ)音特征解碼和特征信息融合,有利于更真實(shí)還原目標(biāo)語(yǔ)譜圖特征。
2)提出了特征塊間和特征塊內(nèi)注意力機(jī)制網(wǎng)絡(luò),對(duì)不同的語(yǔ)音特征信息重標(biāo)注,聚合兩個(gè)注意力重標(biāo)注、時(shí)序關(guān)聯(lián)和解碼預(yù)測(cè)的特征,有效增強(qiáng)目標(biāo)語(yǔ)音信號(hào)并抑制噪聲信號(hào),提高目標(biāo)語(yǔ)音的清晰度。
3)將雙復(fù)數(shù)卷積遞歸網(wǎng)絡(luò)注意聚合方法用于語(yǔ)音增強(qiáng),在兩個(gè)公共數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示在典型的評(píng)價(jià)指標(biāo)上所提方法均優(yōu)于目前先進(jìn)的方法。
注意力機(jī)制也稱為神經(jīng)網(wǎng)絡(luò)注意力,能夠?qū)⒆⒁饬性谳斎牖蛱卣鞯淖蛹?。通過(guò)引入注意力可以減少處理的信息量,減少所需的計(jì)算資源,研究結(jié)果顯示,在語(yǔ)音增強(qiáng)領(lǐng)域,注意力機(jī)制可以有效地提高語(yǔ)音增強(qiáng)性能。Yu等[6]提出了一種新的自適應(yīng)注意循環(huán)生成對(duì)抗網(wǎng)絡(luò)(Attention-In-Attention CycleGAN, AIA-CycleGAN)用于語(yǔ)音增強(qiáng)。Koizumi等[9]采用語(yǔ)音增強(qiáng)和說(shuō)話人識(shí)別的多任務(wù)學(xué)習(xí),利用多頭自注意力捕獲語(yǔ)音和噪聲中的長(zhǎng)期依賴性。Zhang等[10]提出了一個(gè)簡(jiǎn)單且有效的時(shí)頻注意(Time-Frequency Attention, TFA)模塊,該模塊生成一個(gè)二維注意圖,為時(shí)頻表示的譜分量提供不同的權(quán)重,該算法在不可見(jiàn)的噪聲條件下具有更好的泛化能力。目前已有的基于注意力機(jī)制的語(yǔ)音增強(qiáng)算法均提升了語(yǔ)音增強(qiáng)的效果,但是都是從單個(gè)維度分析注意力機(jī)制,沒(méi)有充分考慮各個(gè)維度之間的關(guān)聯(lián)性信息。
基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)模型可以有效提升語(yǔ)音可懂度和質(zhì)量,已成為研究熱點(diǎn),本文在此基礎(chǔ)上進(jìn)行了深入的研究和探討。最早提出的基于全連接網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)主要是利用卷積、全卷積或者遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)時(shí)頻掩碼或語(yǔ)音頻譜,很多研究者在此基礎(chǔ)上優(yōu)化網(wǎng)絡(luò)的結(jié)構(gòu)和損失函數(shù)[11]。Pascual等[12]將波形直接輸入訓(xùn)練模型,并將GAN應(yīng)用于語(yǔ)音增強(qiáng),提出SEGAN(Speech Enhancement GAN);卷積遞歸神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent neural Network, CRN)[3]是一種典型的算法,它采用了類(lèi)似時(shí)域方法的編碼結(jié)構(gòu),利用二維卷積從語(yǔ)譜圖中提取高維特征,以達(dá)到更好的分離語(yǔ)音效果;DCCRN[7]對(duì)CRN進(jìn)行了實(shí)質(zhì)性的修改,在編碼器中加入復(fù)數(shù)運(yùn)算結(jié)構(gòu)的二維卷積,解碼器中加入復(fù)數(shù)的二維轉(zhuǎn)置卷積,并且還考慮了復(fù)數(shù)的LSTM替代傳統(tǒng)的LSTM。實(shí)際上語(yǔ)音和噪聲對(duì)語(yǔ)音增強(qiáng)任務(wù)的重要程度是不同的,但這些模型都沒(méi)有充分考慮底層信息的丟失問(wèn)題,對(duì)噪聲和純凈語(yǔ)音做無(wú)差別處理。因此,本文采用雙復(fù)數(shù)卷積注意聚合遞歸網(wǎng)絡(luò)進(jìn)一步充分挖掘目標(biāo)信息,以進(jìn)一步提升語(yǔ)音增強(qiáng)的性能。
由于語(yǔ)音頻譜圖上的信息比較豐富,充分捕獲利用語(yǔ)譜圖特征是語(yǔ)音增強(qiáng)的有效方法。針對(duì)語(yǔ)譜圖中不同維度特征存在關(guān)聯(lián)性,本文在DCCRN的基礎(chǔ)上,構(gòu)建了一種雙復(fù)數(shù)卷積注意聚合遞歸網(wǎng)絡(luò)(DCCARN)的語(yǔ)音增強(qiáng)方法,整體網(wǎng)絡(luò)框架如圖1所示。首先,利用短時(shí)傅里葉變換將輸入的帶噪時(shí)域波形轉(zhuǎn)為頻域的語(yǔ)譜圖,復(fù)制語(yǔ)譜圖,分別建立具有特征塊間注意力和特征塊內(nèi)注意力的兩個(gè)編解碼器;其次,隨機(jī)初始化參數(shù),經(jīng)兩個(gè)編碼器學(xué)習(xí)不同的高維特征,將兩個(gè)編碼器的最后一層輸出分別送入特征塊間注意力和特征塊內(nèi)注意力模塊,對(duì)不同的語(yǔ)音特征信息重標(biāo)注;再次,分別經(jīng)LSTM時(shí)序建模和解碼,形成特征塊間注意力和特征塊內(nèi)注意力的預(yù)測(cè)語(yǔ)音特征;最后,融合這兩種語(yǔ)音特征,由短時(shí)逆傅里葉變換生成增強(qiáng)的目標(biāo)語(yǔ)音波形。
圖1 DCCARN方法架構(gòu)
編碼層主要由5層卷積塊組成,每個(gè)卷積塊中包括二維卷積層、批標(biāo)準(zhǔn)化(Batch Normalization, BN)層和激活函數(shù),其中BN的作用是保證卷積層的輸出數(shù)據(jù)在網(wǎng)絡(luò)訓(xùn)練過(guò)程中滿足獨(dú)立分布假設(shè)。編碼器和解碼器中第0層到第3層卷積塊的輸出都進(jìn)行跳躍連接處理,可以有效解決梯度流動(dòng)問(wèn)題。
中間層是編碼層和解碼層之間的過(guò)渡層,每條分支的中間層由一個(gè)注意力模塊和兩層LSTM組成。通過(guò)在網(wǎng)絡(luò)中加入雙分支注意力機(jī)制模塊,能夠充分利用特征塊間和特征塊內(nèi)的相關(guān)信息,給不同重要程度的語(yǔ)音特征賦予不同的權(quán)重,實(shí)現(xiàn)對(duì)有用特征信息的學(xué)習(xí)。具體地,LSTM進(jìn)行復(fù)數(shù)運(yùn)算,復(fù)數(shù)模塊通過(guò)復(fù)數(shù)乘法模擬幅度和相位之間的關(guān)系。
解碼層主要由5層反卷積塊組成,反卷積塊包括轉(zhuǎn)置卷積層、BN和激活函數(shù)。解碼層的反卷積模塊跟編碼層每一層的卷積模塊相對(duì)應(yīng),有相同的卷積核數(shù)和卷積核大小,使對(duì)應(yīng)編解碼層的維度大小保持一致。
人類(lèi)的聽(tīng)覺(jué)系統(tǒng)在頻譜分析中的作用是緊密聯(lián)系在一起的。因此,對(duì)語(yǔ)音信號(hào)頻譜分析是識(shí)別和處理語(yǔ)音信號(hào)的一種重要方法。語(yǔ)音的時(shí)頻分解如圖1所示,它的具體流程如圖2所示。從總體看,語(yǔ)音信號(hào)整體上是一個(gè)非平穩(wěn)過(guò)程,因此需要對(duì)輸入的帶噪語(yǔ)音數(shù)據(jù)先進(jìn)行采樣和量化處理,將連續(xù)的語(yǔ)音信號(hào)幅值離散化。由于不穩(wěn)定信號(hào)的波形特征無(wú)規(guī)律性,不存在瞬時(shí)頻率,也就無(wú)法直接采用傅里葉變換處理。短時(shí)傅里葉變換是一種常見(jiàn)的時(shí)頻分解方法,它主要分析不穩(wěn)定信號(hào)?;谡Z(yǔ)音的短時(shí)平穩(wěn)特性,可以將語(yǔ)音切分成若干小片處理。在分幀時(shí),將信號(hào)設(shè)置為每30 ms一幀的信號(hào),每一幀近似是平穩(wěn)信號(hào),從而確保了幀內(nèi)語(yǔ)音的基本特性相對(duì)穩(wěn)定,但分幀時(shí)很難保證截?cái)嗪蟮男盘?hào)為周期信號(hào)。為了減小這種誤差,對(duì)分幀后的信號(hào)使用特殊的加權(quán)函數(shù),即窗函數(shù)。窗函數(shù)可以使時(shí)域信號(hào)更好地滿足周期性要求,減少頻譜泄漏的情況。本文所使用的窗函數(shù)是漢明窗(Hamming Window)(語(yǔ)音幀長(zhǎng)為),公式表示為:
其中為語(yǔ)音信號(hào)的時(shí)頻表示。
在語(yǔ)音增強(qiáng)任務(wù)中,語(yǔ)譜圖重構(gòu)依賴的上下文信息越豐富,增強(qiáng)的效果越好?,F(xiàn)有的語(yǔ)音增強(qiáng)網(wǎng)絡(luò)主要通過(guò)局部卷積實(shí)現(xiàn),只能獲得有限的局部信息,不能有效利用頻譜圖的整體信息。本文引入特征塊間注意力機(jī)制和特征塊內(nèi)注意力機(jī)制,使網(wǎng)絡(luò)更好地捕獲頻譜圖的上下文信息,建模各個(gè)特征塊間和塊內(nèi)的重要程度,自適應(yīng)調(diào)整不同塊間和塊內(nèi)的權(quán)重,從而更好地優(yōu)化特征,最終得到更優(yōu)良的增強(qiáng)效果。注意力機(jī)制模塊如圖1中“注意力模塊”所示。
2.2.1特征塊間注意力機(jī)制
2.2.2特征塊內(nèi)注意力機(jī)制
2.3.1復(fù)數(shù)編解碼器
雙分支復(fù)數(shù)卷積解碼是雙分支復(fù)數(shù)卷積編碼的逆過(guò)程,融合最后一層的編碼與經(jīng)LSTM網(wǎng)絡(luò)建模后的語(yǔ)音復(fù)數(shù)編碼信息作為解碼層的第一層輸入,其他各層均是將上一層的解碼輸出與對(duì)應(yīng)層的編碼融合進(jìn)行解碼。
2.3.2復(fù)數(shù)長(zhǎng)短期記憶
經(jīng)LSTM網(wǎng)絡(luò)建模后的特征塊間和特征塊內(nèi)雙分支的語(yǔ)音復(fù)數(shù)編碼信息作為各分支解碼器第一層的輸入之一。
2.3.3雙分支解碼輸出融合
沿用文獻(xiàn)[7]方法,選用復(fù)數(shù)理想比率掩碼(complex Ideal Ratio Mask, cIRM)作為訓(xùn)練目標(biāo),掩碼層從復(fù)數(shù)譜的實(shí)部和虛部分量得出,最后返回復(fù)數(shù)譜,公式如下:
對(duì)于第1條塊間分支采用SI-SNR損失函數(shù)約束第1分支預(yù)測(cè),公式如下:
對(duì)于第1條塊內(nèi)分支采用SI-SNR損失函數(shù)表示如下:
對(duì)于兩個(gè)解碼器融合后的整體輸出損失函數(shù)約束為:
結(jié)合塊間、塊內(nèi)分支的重構(gòu)損失和兩個(gè)解碼器融合后的輸出損失,可得到整個(gè)語(yǔ)音增強(qiáng)模型損失函數(shù),表示如下:
為了驗(yàn)證所提方法的有效性,選取語(yǔ)音增強(qiáng)中應(yīng)用最為廣泛的Voice Bank[13]+DMAND(VBD)[14]和TIMIT[15]作為實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)。
VBD數(shù)據(jù)集主要由訓(xùn)練集和測(cè)試集兩部分組成。該訓(xùn)練集中有11 572組音頻文件,測(cè)試集中有824組文件,每組音頻文件包括一段帶噪語(yǔ)音和一段純凈語(yǔ)音。
TIMIT數(shù)據(jù)集包含寬帶錄音有630人說(shuō)美國(guó)的8種主要方言,每個(gè)人讀10條語(yǔ)音豐富的句子。噪聲數(shù)據(jù)集選擇noise-92[16]。將TIMIT數(shù)據(jù)集隨機(jī)分成兩部分,400名發(fā)言者作為訓(xùn)練集的發(fā)言者,其余62名作為驗(yàn)證集。測(cè)試集是462名發(fā)言者以外的168名說(shuō)話者。由于在低信噪比條件下語(yǔ)音難以估計(jì),在高信噪比條件下噪聲難以估計(jì),故對(duì)TIMIT數(shù)據(jù)集的語(yǔ)音噪聲混合過(guò)程是從演講中隨機(jī)地選擇話語(yǔ)生成。
實(shí)驗(yàn)服務(wù)器配置為Inter Core TM i9-9720K CPU@2.90 GHz,GPU采用 GeForce RTX2080Ti顯存11 GB,內(nèi)存64 GB。在此基礎(chǔ)上,服務(wù)器采用Ubuntu 18.04系統(tǒng),Python 3.7.11,CUDA10.2,PyTorch1.7.1的開(kāi)發(fā)環(huán)境。
實(shí)驗(yàn)參照文獻(xiàn)[7],對(duì)所有的輸入音頻信號(hào)降采樣到16 kHz,短時(shí)傅里葉變換的窗口長(zhǎng)度為256 ms,幀移動(dòng)為64 ms,短時(shí)傅里葉變換的特征長(zhǎng)度為512。編碼器中每層的輸出特征類(lèi)型塊數(shù)設(shè)置為{32,64,128,256,256},解碼器中每層的輸出特征類(lèi)型塊數(shù)設(shè)置為{256,256,128,64,32},卷積核大小為(5,2),步長(zhǎng)為(2,1)。通過(guò)采用變化步長(zhǎng)測(cè)試,選定合適的其他相關(guān)參數(shù),具體為:初始學(xué)習(xí)率設(shè)為0.000 2,網(wǎng)絡(luò)的批處理大小設(shè)置為8,網(wǎng)絡(luò)訓(xùn)練周期設(shè)置為100。
語(yǔ)音增強(qiáng)的性能評(píng)價(jià)指標(biāo)主要有兩大類(lèi):一類(lèi)是客觀質(zhì)量指標(biāo),一類(lèi)是主觀測(cè)試指標(biāo)。這些常用的評(píng)價(jià)指標(biāo)在語(yǔ)音恢復(fù)質(zhì)量、噪聲去除程度和語(yǔ)音可懂度等方面各有側(cè)重。在本文結(jié)果評(píng)估中,使用了多種測(cè)試指標(biāo)評(píng)估模型的估計(jì)語(yǔ)音,包括:語(yǔ)音感知質(zhì)量指標(biāo)(Perceptual Evaluation of Speech Quality, PESQ);預(yù)測(cè)語(yǔ)音信號(hào)失真的復(fù)合度量(Composite measure for predicting SIGnal rating, CSIG),即語(yǔ)音信號(hào)失真的平均意見(jiàn)分;預(yù)測(cè)背景噪聲影響的復(fù)合度量(Composite measure for predicting BAcKground noise, CBAK),即背景噪聲影響的平均意見(jiàn)分;預(yù)測(cè)整體語(yǔ)音質(zhì)量的復(fù)合度量(Composite measure for predicting Overall processed speech quality, COVL),即整體語(yǔ)音質(zhì)量的平均意見(jiàn)分。
3.4.1雙分支融合權(quán)重分析
3.4.2損失權(quán)重分析
圖4 在VBD數(shù)據(jù)集上的a、b取值分析
3.5.1在VBD上比較分析
針對(duì)提升語(yǔ)音增強(qiáng)性能任務(wù),選用以下具有代表性的方法作為對(duì)比方法:Wavenet[17]、SEGAN[12]、基于CNN的GAN(Convolutional Neural Network-based Generative Adversarial Network, CNN-GAN)[18]、Wave-U-Net[19]、基于最小均方誤差GAN(Minimum Mean Square Error based GAN,MMSE-GAN)[20]、CRN[3]、多域混合去噪(Multi-Domain Processing via Hybrid Denoising, MDPHD)網(wǎng)絡(luò)[21]、DCCRN[7]、時(shí)頻和時(shí)域網(wǎng)絡(luò)(Time-Frequency and Time Domain Network, TFT-Net)[22]、感知引導(dǎo)GAN(Perception-Guided GAN, PGGAN)[4]和融合Conformer和GAN的全時(shí)間尺度語(yǔ)音增強(qiáng)模型(Full-Time Scale speech enhancement model that incorporates Conformer and GAN, FTSC-GAN)[23]。表1給出了相關(guān)對(duì)比方法在VBD數(shù)據(jù)集上的4種評(píng)價(jià)指標(biāo)的測(cè)評(píng)結(jié)果。
表1 不同方法在VBD數(shù)據(jù)集上的語(yǔ)音評(píng)價(jià)得分
注:NOISY表示未經(jīng)增強(qiáng)處理的帶噪語(yǔ)音評(píng)估。
從表1可以看出,SEGAN和Wave-U-Net的結(jié)果不理想,主要原因是,采用時(shí)域上的波形處理,相較于時(shí)頻域方法在一定程度上捕獲的目標(biāo)信息不夠豐富。在采用時(shí)頻域處理的方法上,Wavenet的PESQ相較于CRN、CNN-GAN和MMSE-GAN更優(yōu)。DCCARN是在DCCRN基礎(chǔ)上引入雙分支語(yǔ)譜圖塊間和塊內(nèi)注意力編碼機(jī)制,在PESQ、CSIG、CBAK和COVL上均超越了DCCRN,分別提升了0.150、0.180、1.140和0.240。同時(shí),DCCARN的PESQ、CBAK和COVL比TFT-Net分別提升了0.080、0.160和0.090,比PGGAN分別提升了0.020、0.010和0.070,比FTSC-GAN分別提升了0.080、0.250和0.040。實(shí)驗(yàn)結(jié)果表明,通過(guò)雙分支編碼器注意聚合遞歸網(wǎng)絡(luò)考慮特征塊內(nèi)和塊間注意力信息,能提高目標(biāo)信息的關(guān)注度,更符合語(yǔ)音增強(qiáng)任務(wù),可有效提高語(yǔ)音增強(qiáng)性能。
3.5.2TIMIT數(shù)據(jù)集上模型性能評(píng)估
表2給出了在信噪比為5 dB、0 dB和-5 dB條件下DCCARN和基線方法DCCRN在TIMIT數(shù)據(jù)集上的4種評(píng)價(jià)指標(biāo)結(jié)果??梢钥闯?,在信噪比為5 dB、0 dB和-5 dB時(shí),DCCARN相較于DCCRN在PESQ、CSIG、CBAK和COVL上都得到了提升:當(dāng)信噪比為5 dB時(shí),分別提升了0.077、0.106、0.235和0.092;當(dāng)信噪比為0 dB時(shí),分別提升了0.087、0.139、0.216和0.115;當(dāng)信噪比為-5 dB時(shí),分別提升了0.079、0.165、0.186和0.125。說(shuō)明DCCARN在低信噪比條件下也可以表現(xiàn)出很好的性能,對(duì)語(yǔ)音增強(qiáng)任務(wù)有所提升。同時(shí),信噪比為5 dB時(shí)的評(píng)估結(jié)果要明顯優(yōu)于信噪比為-5 dB、0 dB的結(jié)果,也進(jìn)一步說(shuō)明了在高信噪比下的去噪性能都明顯優(yōu)于低信噪比情況下的去噪性能。實(shí)驗(yàn)結(jié)果表明,通過(guò)不同的加噪處理,DCCARN在語(yǔ)音的低頻和高頻部分去噪均有優(yōu)化作用;針對(duì)不同的信噪比混合比率,DCCARN均能有對(duì)應(yīng)的優(yōu)化提升,體現(xiàn)了DCCARN方法相較于DCCRN在抗噪性上的優(yōu)越性能。
表2 不同方法在TIMIT數(shù)據(jù)集上的語(yǔ)音評(píng)價(jià)得分
為了驗(yàn)證DCCARN對(duì)語(yǔ)音增強(qiáng)性能的改善效果。用深度復(fù)數(shù)卷積遞歸網(wǎng)絡(luò)(DCCRN)作為主干網(wǎng)絡(luò),在VBD數(shù)據(jù)集上進(jìn)行了相關(guān)消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。可以看出,所提模塊均是有效的。除DCCARN的損失函數(shù)為(式(23))外,其他實(shí)驗(yàn)均采用SI-SNR直接作為模型的損失函數(shù)。
1)特征塊間注意力模塊的有效性。在基準(zhǔn)模型DCCRN中僅加入特征塊間注意力模塊,PESQ和CBAK有所提升,表明特征塊間注意力模塊可以提高語(yǔ)音感知質(zhì)量和噪聲影響的指標(biāo)值。
2)特征塊內(nèi)注意力模塊的有效性。在DCCRN中僅加入特征塊內(nèi)注意力模塊,PESQ、CBAK和COVL上都有所提升,表明特征塊內(nèi)注意力模塊可以提高語(yǔ)音感知質(zhì)量和噪聲影響的指標(biāo)和整體評(píng)價(jià)指標(biāo),同時(shí)特征塊內(nèi)注意力機(jī)制比特征塊間注意力機(jī)制的作用更加顯著。
3)雙分支結(jié)構(gòu)的有效性。在DCCRN中僅加入雙分支結(jié)構(gòu),PESQ、CBAK和COVL上都有明顯提升,表明雙分支結(jié)構(gòu)可以提高語(yǔ)音感知質(zhì)量和噪聲影響的指標(biāo)和整體評(píng)價(jià)指標(biāo),驗(yàn)證了雙分支注意力機(jī)制的有效性。通過(guò)在DCCRN中加入特征塊間、塊內(nèi)和雙分支結(jié)構(gòu),在4個(gè)評(píng)價(jià)指標(biāo)上都比單獨(dú)添加模塊得到了顯著的提升,表明雙分支注意力機(jī)制對(duì)提升4個(gè)評(píng)價(jià)指標(biāo)都有著顯著的作用。
表3 在VBD數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)構(gòu)
為了更加直觀地驗(yàn)證所提方法對(duì)語(yǔ)音增強(qiáng)的效果,使用本文方法在VBD數(shù)據(jù)集中處理2個(gè)帶噪語(yǔ)音波形信息。對(duì)p232_021.wav進(jìn)行波形可視化,對(duì)比圖5(a)~(c)可以看出,經(jīng)DCCARN方法增強(qiáng)的語(yǔ)音能有效去除噪聲信息,較為接近純凈語(yǔ)音的波形圖。對(duì)p232_160.wav進(jìn)行語(yǔ)譜圖可視化,對(duì)比圖5(d)~(f)可以看出,經(jīng)DCCARN增強(qiáng)的語(yǔ)音的語(yǔ)譜圖很接近純凈語(yǔ)音的語(yǔ)譜圖,也表明了DCCARN能有效去除噪聲信息,達(dá)到了語(yǔ)音增強(qiáng)目的。這也進(jìn)一步驗(yàn)證了所提出的雙復(fù)數(shù)卷積遞歸網(wǎng)絡(luò)語(yǔ)音信息編碼,通過(guò)信息聚合和時(shí)序關(guān)聯(lián)信息分析進(jìn)行語(yǔ)音特征解碼,有利于目標(biāo)語(yǔ)譜圖的特征更真實(shí)還原;所提出的特征塊間和特征塊內(nèi)注意力機(jī)制,能對(duì)不同的語(yǔ)音特征信息進(jìn)行有效的重標(biāo)注,可有效增強(qiáng)目標(biāo)語(yǔ)音信息而抑制語(yǔ)音噪聲,提高目標(biāo)語(yǔ)音的清晰度。
圖5 語(yǔ)音質(zhì)量對(duì)比
本文針對(duì)帶噪語(yǔ)音中特征塊間和特征塊內(nèi)的內(nèi)在關(guān)聯(lián)性問(wèn)題,對(duì)特征的塊間和塊內(nèi)分別構(gòu)建了兩條分支關(guān)注塊間和塊內(nèi)信息,并將雙分支解碼輸出的高維特征進(jìn)行加權(quán)融合,形成一種用于學(xué)習(xí)目標(biāo)語(yǔ)音特征的注意聚合網(wǎng)絡(luò),提出了一種基于雙分支復(fù)數(shù)卷積注意聚合遞歸網(wǎng)絡(luò)單通道語(yǔ)音增強(qiáng)方法,在VBD和TIMIT這兩個(gè)典型的數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,所提出的方法能有效提高語(yǔ)音增強(qiáng)的客觀語(yǔ)音質(zhì)量和相關(guān)語(yǔ)音評(píng)價(jià)指標(biāo),可有效去除語(yǔ)音噪聲信息,提高了語(yǔ)音增強(qiáng)效果。考慮到Transformer模型對(duì)信號(hào)特征表達(dá)更有優(yōu)勢(shì),在后續(xù)工作中,本文可進(jìn)一步研究結(jié)合復(fù)數(shù)卷積和輕量級(jí)Transformer的語(yǔ)音增強(qiáng)技術(shù),獲得較快速和更好的語(yǔ)音增強(qiáng)效果。
[1] CHOI H S, KIM J H, HUH J, et al. Phase-aware speech enhancement with deep complex U-Net[EB/OL]. (2023-08-06) [2023-08-08].https://openreview.net/pdf?id=SkeRTsAcYm.
[2] HASANNEZHAD M, YU H, ZHU W P, et al. PACDNN: a phase-aware composite deep neural network for speech enhancement[J]. Speech Communication, 2022, 136: 1-13.
[3] TAN K, WANG D. A convolutional recurrent neural network for real-time speech enhancement[C]// Proceedings of the INTERSPEECH 2018. [S.l.]: International Speech Communication Association, 2018: 3229-3233.
[4] LI Y, SUN M, ZHANG X. Perception-guided generative adversarial network for end-to-end speech enhancement[J]. Applied Soft Computing, 2022, 128: No.109446.
[5] WANG Z, ZHANG T, SHAO Y, et al. LSTM-convolutional-BLSTM encoder-decoder network for minimum mean-square error approach to speech enhancement[J]. Applied Acoustics, 2021, 172: No.107647.
[6] YU G, WANG Y, ZHENG C, et al. CycleGAN-based non-parallel speech enhancement with an adaptive attention-in-attention mechanism[C]// Proceedings of the 2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway: IEEE, 2021: 523-529.
[7] HU Y, LIU Y, LV S, et al. DCCRN: deep complex convolution recurrent network for phase-aware speech enhancement[C]// Proceedings of the INTERSPEECH 2020. [S.l.]: International Speech Communication Association, 2020: 2472-2476.
[8] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[9] KOIZUMI Y, YATABE K, DELCROIX M, et al. Speech enhancement using self-adaptation and multi-head self-attention[C]// Proceedings of the 2020 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2020: 181-185.
[10] ZHANG Q, SONG Q, NI Z, et al. Time-frequency attention for monaural speech enhancement[C]// Proceedings of the 2022 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2022: 7852-7856.
[11] 高戈,王霄,曾邦,等. 基于時(shí)頻聯(lián)合損失函數(shù)的語(yǔ)音增強(qiáng)算法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(S1):316-320.(GAO G, WANG X, ZENG B, et al. Speech enhancement algorithm based on time-frequency joint loss function[J]. Journal of Computer Applications, 2022, 42(S1):316-320.)
[12] PASCUAL S, BONAFONTE A, SERRà J. SEGAN: speech enhancement generative adversarial network[C]// Proceedings of the INTERSPEECH 2017. [S.l.]: International Speech Communication Association, 2017: 3642-3646.
[13] VEAUX C, YAMAGISHI J, KING S. The voice bank corpus: design, collection and data analysis of a large regional accent speech database[C]// Proceedings of the 2013 International Conference Oriental COCOSDA Held Jointly with Conference on Asian Spoken Language Research and Evaluation. Piscataway: IEEE, 2013: 1-4.
[14] THIEMANN J, ITO N, VINCENT E. The Diverse Environments Multi-channel Acoustic Noise Database (DEMAND): a database of multichannel environmental noise recordings[J]. Proceedings of Meetings on Acoustics, 2013, 19(1): No.035081.
[15] GAROFOLO J S, LAMEL L F, FISHER W M. TIMIT acoustic phonetic continuous speech corpus[DS/OL]. [2022-12-15].https://catalog.ldc.upenn.edu/LDC93S1.
[16] VARGA A, STEENEKEN H J M. Assessment for automatic speech recognition: Ⅱ. NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication, 1993, 12(3): 247-251.
[17] RETHAGE D, PONS J, SERRA X. A Wavenet for speech denoising[C]// Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2018: 5069-5073.
[18] SHAH N, PATIL H A, SONI M H. Time-frequency mask-based speech enhancement using convolutional generative adversarial network[C]// Proceedings of the 2018 AP sia-Pacific Signal and Information Processing Association Annual Summit and Conference. Piscataway: IEEE, 2018:1246-1251.
[19] MACARTNEY C, WEYDE T. Improved speech enhancement with the Wave-U-Net[EB/OL]. (2018-11-27) [2022-12-15].https://arxiv.org/pdf/1811.11307.pdf.
[20] SONI M H, SHAH N, PATIL H A. Time-frequency masking-based speech enhancement using generative adversarial network[C]// Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2018: 5039-5043.
[21] KIM J H, YOO J, CHUN S, et al. Multi-domain processing via hybrid denoising networks for speech enhancement[EB/OL]. (2018-12-21) [2022-12-15].https://arxiv.org/pdf/1812.08914.pdf.
[22] TANG C, LUO C, ZHAO Z, et al. Joint time-frequency and time domain learning for speech enhancement[C]// Proceedings of the 29th International Joint Conferences on Artificial Intelligence. California: ijcai.org, 2020: 3816-3822.
[23] 沈夢(mèng)強(qiáng),于文年,易黎,等. 基于GAN的全時(shí)間尺度語(yǔ)音增強(qiáng)方法[J].計(jì)算機(jī)工程, 2023, 49(6):115-122, 130.(SHEN M Q, YU W N, YI L, et al. Full-time scale speech enhancement method based on GAN[J]. Computer Engineering, 2023, 49(6):115-122, 130.)
Double complex convolution and attention aggregating recurrent network for speech enhancement
YU Bennian1, ZHAN Yongzhao1*, MAO Qirong1,2, DONG Wenlong1, LIU Honglin1
(1,,212013,;2,212013,)
Aiming at the problems of limited representation of spectrogram feature correlation information and unsatisfactory denoising effect in the existing speech enhancement methods, a speech enhancement method of Double Complex Convolution and Attention Aggregating Recurrent Network (DCCARN) was proposed. Firstly, a double complex convolutional network was established to encode the two-branch information of the spectrogram features after the short-time Fourier transform. Secondly, the codes in the two branches were used in the inter- and and intra-feature-block attention mechanisms respectively, and different speech feature information was re-labeled. Secondly, the long-term sequence information was processed by Long Short-Term Memory (LSTM) network, and the spectrogram features were restored and aggregated by two decoders. Finally, the target speech waveform was generated by short-time inverse Fourier transform to achieve the purpose of suppressing noise. Experiments were carried out on the public dataset VBD (Voice Bank+DMAND) and the noise added dataset TIMIT. The results show that compared with the phase-aware Deep Complex Convolution Recurrent Network (DCCRN), DCCARN has the Perceptual Evaluation of Speech Quality (PESQ) increased by 0.150 and 0.077 to 0.087 respectively. It is verified that the proposed method can capture the correlation information of spectrogram features more accurately, suppress noise more effectively, and improve speech intelligibility.
speech enhancement; attention mechanism; complex convolutional network; coding; Long Short-Term Memory (LSTM) network
This work is partially supported by Key Research and Development Program of Jiangsu Province (BE2020036).
YU Bennian, born in 1996, M. S. candidate. Her research interests include speech enhancement.
ZHAN Yongzhao, born in 1962, Ph. D., professor. His research interests include pattern recognition, multimedia analysis.
MAO Qirong, born in 1975, Ph. D., professor. Her research interests include pattern recognition, multimedia analysis.
DONG Wenlong, born in 1997, Ph. D. candidate. His research interests include multimedia computing.
LIU Honglin, born in 1992, Ph. D. candidate. His research interests include image classification of pests and diseases.
1001-9081(2023)10-3217-08
10.11772/j.issn.1001-9081.2022101533
2022?10?12;
2022?12?24;
江蘇省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(BE2020036)。
余本年(1996—),女,安徽池州人,碩士研究生,主要研究方向:語(yǔ)音增強(qiáng); 詹永照(1962—),男,福建尤溪人,教授,博士,CCF會(huì)員,主要研究方向:模式識(shí)別、多媒體分析; 毛啟容(1975—),女,四川瀘州人,教授,博士,CCF會(huì)員,主要研究方向:模式識(shí)別、多媒體分析; 董文龍(1997—),男,江蘇徐州人,博士研究生,主要研究方向:多媒體計(jì)算; 劉洪麟(1992—),男,江蘇宿遷人,博士研究生,主要研究方向:病蟲(chóng)害圖像分類(lèi)。
TN912.34
A
2022?12?28。