DNN與譜減法相結(jié)合的語音分離技術(shù)

2018-02-12 12:24馮利琪江華閆格閔長(zhǎng)偉李玲香

軟件導(dǎo)刊 2018年12期

馮利琪江華閆格閔長(zhǎng)偉李玲香

摘要：針對(duì)傳統(tǒng)DNN語音分離中噪聲干擾的問題，提出了一種在DNN語音分離后期處理中結(jié)合DNN和譜減法的語音分離方法。首先提取語音聲級(jí)特征，通過DNN學(xué)習(xí)帶噪特征到分離目標(biāo)語音的映射，得到分離目標(biāo)語音;然后對(duì)分離目標(biāo)語音中每一時(shí)頻單元進(jìn)行噪聲能量估計(jì);最后，通過快速傅里葉逆變換得到譜減后的分離語音波形信號(hào)。通過對(duì)不同類型的噪聲和不同輸入信噪比混合后的語音信號(hào)進(jìn)行試驗(yàn)，結(jié)果表明，加入譜減法后分離的語音信號(hào)與只經(jīng)DNN網(wǎng)絡(luò)輸出的語音信號(hào)相比，前者分離的語音可懂度和信噪比得到了顯著提高，并且分離語音的信號(hào)更接近于純凈語音的信號(hào)。

關(guān)鍵詞：語音分離;神經(jīng)網(wǎng)絡(luò);譜減法;目標(biāo)語音;噪聲能量估計(jì)

Speech Separation Combined with DNN and Spectral Subtraction

FENG Li?qi?JIANG Hua?YAN Ge?MIN Chang?wei?LI Ling?xiang

（1.Key Laboratory of Granular Computing and Application，Minnan Normal University;

2.School of Computer Science， Minnan Normal University， Zhangzhou 363000，China;

3.School of Electronics and Information Engineering，Hunan University of Science and Engineering，Yongzhou 425199，China）

Abstract：In view of the problem of noise interference in traditional DNN speech separation， a speech separation method based on DNN and spectral subtraction was proposed in the post processing of DNN speech separation. Firstly， the features of speech were extracted and the DNN was used to learn the mapping of the noisy features to the separated target speech. Then the noise energy is estimated for each time frequency unit in the separated target speech. Finally， the speech waveform was obtained by the inverse fast fourier transform. By testing the speech signal mixed by different types of noise and different input SNR， the experimental results show that compared with the speech signal output only by the DNN network， the speech signal separated after adding spectral subtraction is significantly improved in the speech intelligibility and signal to noise ratio of the proposed algorithm. The similarities between the separated speech signal and the original clean speech signal has also been greatly improved.

Key Words：speech separation; neural networks; spectral subtraction; target speech; noise energy estimation

0?引言

近年來，深度學(xué)習(xí)被廣泛應(yīng)用于語音信號(hào)處理領(lǐng)域。語音分離問題起源于“雞尾酒會(huì)效應(yīng)”[1]，即從復(fù)雜的混合聲音中分離所需語音。語音分離的目的主要是從被干擾的語音信號(hào)中分離出有用信號(hào)，該過程實(shí)質(zhì)上相當(dāng)于一個(gè)監(jiān)督性學(xué)習(xí)問題。隨著互聯(lián)網(wǎng)技術(shù)飛速發(fā)展，電子設(shè)備處理語音的能力不斷提高，使語音分離在眾多領(lǐng)域發(fā)揮重要作用，如自動(dòng)語音識(shí)別、助聽器、移動(dòng)語音通信等[2]。

單聲道語音分離在語音信號(hào)處理領(lǐng)域已被廣泛研究。隨著深度學(xué)習(xí)的出現(xiàn)，許多深層模型被廣泛應(yīng)用于語音和圖像處理[3?5]。其中深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNN）在語音分離領(lǐng)域發(fā)揮著強(qiáng)大作用[6?9]。Wang等[2]用DNN對(duì)多種語音分離目標(biāo)進(jìn)行了對(duì)比分析，并且提出了更具魯棒性的理想比例掩蔽目標(biāo)。在文獻(xiàn)[10]中，劉文舉等主要對(duì)語音分離中用到的特征、模型和分離目標(biāo)作出詳細(xì)介紹、歸納與總結(jié)。Wang等[11]提出了深度神經(jīng)網(wǎng)絡(luò)-支持向量機(jī)（Deep Neural Networks-Suppore Vector Machines，DNN-SVM）系統(tǒng)，實(shí)現(xiàn)了較好的泛化性能。文獻(xiàn)[12]提出了一種新穎的基于時(shí)頻掩蔽的語音分離深層疊加方法，提高了掩模估計(jì)的準(zhǔn)確性。

Boll[13]在1979年提出了譜減法（Spectral Subtraction，SS），作為一種發(fā)展較早且應(yīng)用成熟的語音去噪方法，譜減法常用于語音增強(qiáng)。此外，維納濾波法[14?15]、自適應(yīng)濾波器法[16?17]、均方誤差估計(jì)方法[18]、非負(fù)矩陣分解（Non-negative Matrix Factorization，NMF）[19]也被廣泛應(yīng)用于語音處理領(lǐng)域。語音被維納濾波法分離后得到的目標(biāo)語音殘留噪聲類似于白噪聲，能在一定程度上降低音樂噪聲對(duì)目標(biāo)語音的干擾，但是當(dāng)線性濾波器平滑因子較大時(shí)，算法時(shí)間復(fù)雜度較高。自適應(yīng)濾波算法在維納濾波的基礎(chǔ)上對(duì)濾波器進(jìn)行自適應(yīng)處理，能根據(jù)外界環(huán)境自動(dòng)調(diào)整濾波器參數(shù)值，但是語音分離能力有限。非負(fù)矩陣分解能夠挖掘出語音或噪聲的線性表示，但很難挖掘語音數(shù)據(jù)中復(fù)雜的非線性結(jié)構(gòu)。因此，出現(xiàn)了許多與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的語音分離方法[20?22]。其中，文獻(xiàn)[20]提出了一種將DNN和約束維納濾波聯(lián)合訓(xùn)練優(yōu)化的新型網(wǎng)絡(luò)結(jié)構(gòu)，該方法能有效去除噪聲。文獻(xiàn)[21]提出了基于DNN的最小均方誤差回歸擬合語音增強(qiáng)方法，提升了語音質(zhì)量。文獻(xiàn)[22]中提出用NMF利用語音和噪聲的時(shí)空結(jié)構(gòu)特點(diǎn)，在DNN輸出層額外增加了NMF層，該模型能顯著提高語音分離性能。

DNN雖有很好的魯棒性，但是其分離后的語音仍存在噪聲干擾以及噪聲估計(jì)不準(zhǔn)確的問題，影響語音信號(hào)質(zhì)量，而在譜減法中，可以通過檢測(cè)每一幀信號(hào)是否為有話幀進(jìn)行去噪處理，且譜減法具有算法簡(jiǎn)單、時(shí)間復(fù)雜度低等優(yōu)點(diǎn)。因此，本文用譜減法對(duì)DNN分離的語音作后期處理，提出一種改進(jìn)的基于DNN和譜減法（Spectral Subtraction，SS）相結(jié)合的語音分離算法，簡(jiǎn)稱為DNN-SS。首先，提取語音信號(hào)聲學(xué)特征;然后將其作為神經(jīng)網(wǎng)絡(luò)輸入，由訓(xùn)練的神經(jīng)網(wǎng)絡(luò)輸出估計(jì)語音目標(biāo)，再對(duì)相應(yīng)語音目標(biāo)中每個(gè)時(shí)頻單元進(jìn)行噪聲能量估計(jì)，取每一幀判斷該幀是否是有話幀，若該幀為無話幀，則平滑更新噪聲譜值、求取噪聲最大殘留值，若為有話幀，則消噪，減少噪聲殘留值;最后再通過頻譜幅值和相位角合成最終語音。

1?基于DNN的語音分離方法

通常一個(gè)監(jiān)督性語音分離系統(tǒng)包括5個(gè)主要模塊：時(shí)頻分解、特征提取、分離目標(biāo)、模型訓(xùn)練、波形合成。在訓(xùn)練之前，首先把純凈的語音和非平穩(wěn)的噪聲按照一定輸入信噪比（Signal-to-Noise， SNR）進(jìn)行預(yù)混合，然后從混合語音信號(hào)中提取聲學(xué)特征和理想目標(biāo)，將所得數(shù)據(jù)進(jìn)行均值方差歸一化后，分別作為輸入和輸出饋送到DNN中，輸出估計(jì)的語音目標(biāo)，最后利用估計(jì)的分離目標(biāo)及混合語音信號(hào)，通過逆變換得到估計(jì)語音的波形信號(hào)。

時(shí)頻掩蔽是語音分離最常用的分離目標(biāo)，理想二值掩蔽（Ideal Binary Mask， IBM）和理想比例掩蔽[23]（Ideal Ratio Mask， IRM）是常見的時(shí)頻掩蔽。IRM定義如下：

其中，?S?2（t，f）和N?2（t，f）表示混合語音中T-F單元的語音和噪聲能量，η是一個(gè)可以調(diào)整的尺度因子。大量實(shí)驗(yàn)證明，當(dāng)η=0.5?時(shí)取得的效果最好。IBM與IRM的區(qū)別在于IRM是連續(xù)的，范圍在[0，1]內(nèi)，因此本文選擇用IRM作為實(shí)驗(yàn)訓(xùn)練目標(biāo)。

2?改進(jìn)的DNN語音分離方法

改進(jìn)的基于DNN和譜減法的語音分離方法系統(tǒng)結(jié)構(gòu)如圖1所示。系統(tǒng)主要由時(shí)頻分解、特征提取、分離目標(biāo)、模型訓(xùn)練、譜減去噪、波形合成6部分組成。系統(tǒng)輸入為帶噪的混合語音，輸出為分離的目標(biāo)語音。

譜減法是語音去噪常用方法，基于人的感覺特性，即人的聽覺系統(tǒng)更容易受到語音信號(hào)幅度影響，譜減法一般是對(duì)語音短時(shí)幅度譜進(jìn)行估計(jì)，因?yàn)榧有栽肼暫驼Z音不相關(guān)的特點(diǎn)，通常適用于受加性噪聲干擾的語音，所以譜減法本質(zhì)上是輸入的混合語音信號(hào)頻譜幅度值減去估計(jì)的聲平均譜幅度值。

2.1?訓(xùn)練

本實(shí)驗(yàn)主要使用3個(gè)聲學(xué)特征[24?25]，分別是幅度調(diào)制頻譜（Amplitude Modulation Spectrogram，AMS）、相對(duì)頻譜變換-感知線性預(yù)測(cè)系數(shù)（Relative Spectral Transform and Perceptual Linear Prediction，RASTA-PLP）、梅爾頻譜倒頻譜系數(shù)（Melfrequency Cepstral Coefficients，MFCC）。以上特征分別從每一幀信號(hào)中提取，將這些幀級(jí)別的特征組合形成特征集合。

本文設(shè)置的網(wǎng)絡(luò)結(jié)構(gòu)包含1個(gè)輸入層，4個(gè)隱含層，1個(gè)輸出層，隱含層每層有1 024個(gè)單元，Sigmoid函數(shù)作為激活函數(shù)，從圖（2）可見，Sigmoid函數(shù)具有連續(xù)、光滑的性質(zhì)，其公式定義如式（2）。

另外，DNN系統(tǒng)經(jīng)隨機(jī)梯度下降和交叉熵準(zhǔn)則訓(xùn)練，初始學(xué)習(xí)率設(shè)為0.01，系統(tǒng)最大訓(xùn)練次數(shù)設(shè)為20。

2.2?譜減法去噪

在混合語音經(jīng)過DNN分離之后，再用譜減法對(duì)其進(jìn)一步分離。設(shè)DNN分離后的語音信號(hào)序列為?x（n），加窗分幀處理后得到第i幀語音信號(hào)為x?i（m），幀長(zhǎng)為L(zhǎng)。將每幀信號(hào)x?i（m）進(jìn)行離散傅里葉變換，其公式如下：

其幅值是?|X?i（k）|?，相角公式如下：

在一段聲音中，設(shè)前導(dǎo)無話段（噪聲段）時(shí)長(zhǎng)為?IS，其對(duì)應(yīng)幀數(shù)為NIS，NIS?計(jì)算公式為：

其中，f表示頻率，L表示幀長(zhǎng)，inc表示幀移，該噪聲段平均譜值為：

式中，?γ=1、γ=2分別對(duì)應(yīng)于譜幅值與功率譜做譜減法，本實(shí)驗(yàn)γ?值為1。

則譜減算法為：

其中，?α和β是兩個(gè)常數(shù)，分別表示過減因子和增益補(bǔ)償因子。因?yàn)槎寂c噪聲性質(zhì)有關(guān)，所以經(jīng)過多次試驗(yàn)，本實(shí)驗(yàn)中α和β參數(shù)分別為α=1，β=0.09。

求出每一幀譜值后，在相鄰幀之間計(jì)算平均譜值。

其中，i表示第i幀，M是一個(gè)常數(shù)，計(jì)算相鄰幀之間的平均值，以求得較小的譜估算方差。在實(shí)驗(yàn)中M=1，即在3幀之間計(jì)算平均值。

在經(jīng)譜減法減噪后合成的語音中，由于噪聲殘留，會(huì)使語音中帶有“音樂噪聲”。由式（7）可見譜減法核心為：

其中，?|X?i（k）|?γ表示某條譜線幅值，D（k）表示噪聲譜某條譜線平均值。

由于噪聲特性不穩(wěn)定，有可能在某個(gè)時(shí)間段某條譜線譜值大于α×D（k），按式（9）相減后并沒有完全消除噪聲，而把其峰值保留下來。因此，為可能減少噪聲殘留，在減噪過程中保留噪聲最大值，再對(duì)每一條譜線作進(jìn)一步判斷，檢驗(yàn)C（k）是否小于最大殘留噪聲。如果小于最大殘留噪聲，在第i幀第j條譜線相鄰3幀之間找最小值的一條譜線。

所得的幅值與相角作IFFT變換，得到譜減后的語音信號(hào)。因?yàn)槿说穆犛X系統(tǒng)對(duì)于語音信號(hào)相位不敏感，所以在對(duì)含噪語音信號(hào)進(jìn)行譜減前，保留了原來語音信號(hào)的相角，將其直接用于譜減后的語音信號(hào)中。譜減法算法流程如圖3所示。

3?實(shí)驗(yàn)

所有預(yù)混合信號(hào)需作以下處理：①預(yù)混合語音信號(hào)，以16KHz頻率進(jìn)行重采樣;②按照20ms窗口和10ms幀移進(jìn)行分幀加窗，即每個(gè)幀有320個(gè)采樣點(diǎn)。

3.1?數(shù)據(jù)集介紹

從IEEE Corpus[26]語音庫中選用720條語音，前600條語音作為訓(xùn)練集，后120條語音作為測(cè)試集，訓(xùn)練集與測(cè)試集沒有重疊部分。另外，從NOISEX-92[27]中選用4種噪聲作為實(shí)驗(yàn)訓(xùn)練和測(cè)試噪聲，這些噪聲都不平穩(wěn)，分別是工廠車間噪聲（factory noise）、粉紅噪聲（pink noise）、驅(qū)逐艦機(jī)艙噪聲（destroyer engine room noise）。為了使訓(xùn)練集與測(cè)試集沒有重合部分，本文將每個(gè)噪聲隨機(jī)分成兩部分，然后將第一部分與訓(xùn)練語音進(jìn)行混合產(chǎn)生訓(xùn)練集，輸入信噪比分別為-5dB、-2dB、0dB、2dB、5dB，將第二部分噪聲與測(cè)試語音進(jìn)行混合產(chǎn)生測(cè)試集。最后將所得訓(xùn)練集與測(cè)試集數(shù)據(jù)作均值方差歸一化處理。

3.2?評(píng)價(jià)方法

為了評(píng)價(jià)分離語音的清晰度，選用客觀短時(shí)目標(biāo)可懂度[28]（Short-Time Objective?Intelligibility，STOI）。STOI指原始純凈語音與分離后語音的相關(guān)性，代表語音的可懂度，得分范圍在0～1，得分越高，表示分離語音效果越好，可懂度越高。信噪比（SNR）是常用的性能衡量標(biāo)準(zhǔn)之一。信噪比越大，表示分離后語音中噪聲越小，語音效果越好。

除了STOI和SNR外，分離后的語音質(zhì)量可以由相似系數(shù)r評(píng)價(jià)。系數(shù)r度量分離的語音信號(hào)與原始純凈的語音信號(hào)之間的相似度，其定義公式為：

其中，N表示時(shí)間幀數(shù)，s（n）表示純凈的語音信號(hào)，（n）表示分離后的語音信號(hào)。當(dāng)s（n）=（n）時(shí)，r=1，即r越接近于1，分離后語音信號(hào)與原始純凈語音信號(hào)越相近，算法性能越優(yōu)。

3.3?實(shí)驗(yàn)結(jié)果

用MATLAB對(duì)本文算法進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)聲音文件均為wav格式。純凈語音和混合語音信號(hào)的語譜以及分離語音的語譜如圖4所示。

圖4選用混入噪聲為Factory、SNR為5dB的一個(gè)語音。從圖中可以看出，經(jīng)DNN算法分離后的語譜圖上還有明顯的雜音，與圖4（a）純凈語音的語譜圖有較大差別，而DNN-SS算法分離后的語譜圖雜音明顯變少，而且與圖4（a）純凈語音的語譜圖較為相似。實(shí)驗(yàn)表明，本文算法在分離性能上有較好的表現(xiàn)，目標(biāo)語音分離地更準(zhǔn)確，分離語音失真更小。

表1給出了3種噪聲干擾下的混合信號(hào)經(jīng)DNN分離和DNN-SS分離后的語音信號(hào)的STOI值，從表中可以看出，混入SNR為-5dB、-2dB、0dB時(shí)，DNN-SS算法的每個(gè)STOI值都明顯提高，而在混入SNR為2dB、5dB時(shí)，噪聲類型為驅(qū)逐艦機(jī)艙噪聲，DNN-SS算法STOI值略低于DNN算法的STOI結(jié)果，說明混入的噪聲類型對(duì)實(shí)驗(yàn)結(jié)果有一定影響。而且在混入信噪比大于等于0dB時(shí)，分離語音的STOI值明顯比混入信噪比為負(fù)數(shù)時(shí)高很多，表明混入不同比例的信噪比對(duì)于STOI有一定影響，混入信噪比數(shù)越大，語音分離的可懂度越高，整體而言，本文DNN-SS算法能有效提高語音質(zhì)量可懂度，且混合語音質(zhì)量越差，DNN-SS算法越有優(yōu)勢(shì)。

在不同測(cè)試環(huán)境下，信噪比性能趨勢(shì)相似。與DNN系統(tǒng)相比，DNN-SS算法表現(xiàn)更好。表2給出了輸入信噪比為-5dB、-2dB、0dB、2dB、5dB時(shí)對(duì)應(yīng)的工廠車間噪聲、粉紅噪聲和驅(qū)逐艦機(jī)艙噪聲混合信號(hào)后SNR結(jié)果。由表2可見，混合不同噪聲后分離語音的SNR基本都得到了提高，表明對(duì)每一個(gè)時(shí)頻單元進(jìn)行噪聲能量估計(jì)，可以有效去除噪聲干擾，提高分離語音信噪比。

表3是加入工廠?車間噪聲、粉紅噪聲和驅(qū)逐艦機(jī)艙噪聲后的混合語音在原算法和改進(jìn)算法下得到的相似系數(shù)r的對(duì)比。從表3可以看出在混入信噪較高時(shí)，分離語音與原始純凈語音相似系數(shù)值在逐漸變高。而在低信噪比的情況下，本文算法相似系數(shù)r的增益比較高，算法在低?信噪時(shí)取得的效果更好。由表3數(shù)據(jù)可知，不管混入何種SNR和噪聲類型，本文算法得到的相?似系數(shù)r?都高于原算法得到的相似系數(shù)，證明了DNN-SS算法有效性。通過綜合分析表明，改進(jìn)的DNN-SS算法優(yōu)于DNN算法。

4?結(jié)語

本文針對(duì)DNN語音分離方法的后期處理，提出了一種DNN與譜減法結(jié)合的語音分離方法。在不同測(cè)試條件下的試驗(yàn)結(jié)果表明，與未加入譜減法的DNN語音分離方法相比，本文DNN-SS算法噪聲估計(jì)更加準(zhǔn)確，能夠明顯提高分離語音的目標(biāo)可懂度、信噪比和相似系數(shù)，從而達(dá)到提高語音分離準(zhǔn)確性的目的。實(shí)驗(yàn)結(jié)果表明，譜減法在DNN中有效，尤其在信噪比低時(shí)，語音分離效果的提升更明顯。針對(duì)現(xiàn)有系統(tǒng)框架，在今后的研究中，將考慮如何在保證語音信號(hào)質(zhì)量的同時(shí)，提高分離速度及模型自適應(yīng)能力。

參考文獻(xiàn)：

[1]?CHEN X， WANG W， WANG Y， et al. Reverberant speech separation with probabilistic time–frequency masking for B?format recordings[J]. Speech Communication， 2015，68（C）：41?54.

[2]?WANG Y， NARAYANAN A， WANG D L. On training targets for supervised speech separation[J]. IEEE/ACM Transactions on Audio Speech & Language Processing， 2014，22（12）：1849?1858.

[3]?ABDEL?HAMID O， MOHAMED A R， JIANG H， et al. Convolutional neural networks for speech recognition[J]. IEEE/ACM Transactions on Audio Speech & Language Processing， 2014，22（10）：1533?1545.

[4]?ZHANG X L， WANG D L. A deep ensemble learning method for monaural speechseparation[J]. IEEE/ACM Transactions on Audio Speech & Language Processing， 2016，24（5）：967?977.

[5]?ZHANG X， WANG D L. Deep learning based binaural speech separation in reverberant environments[J]. IEEE/ACM Transactions on Audio Speech & Language Processing， 2017，25（5）：1075?1084.

[6]?SIMPSON A J， ROMA G， PLUMBLEY M D. Deep Karaoke：extracting vocals from musical mixtures using a convolutional deep neural network[C]. International Conference on Latent Variable Analysis and Signal Separation. Springer?Verlag New York， Inc. 2015：429?436.

[7]?WANG Y. Supervised speech separation using deep neural networks[M]. Ohio：Dissertations & Theses?Gradworks， 2015.

[8]?WILLIAMSON D S， WANG Y， WANG D. Complex ratio masking for monaural speech separation[J]. IEEE/ACM Transactions on Audio Speech & Language Processing， 2016，24（3）：483?492.

[9]?ZHANG X， WANG D L. Deep learning based binaural speech separation in reverberant environments[J]. IEEE/ACM Transactions on Audio Speech & Language Processing， 2017，25（5）：1075?1084.

[10]?劉文舉，聶帥，梁山，等.基于深度學(xué)習(xí)語音分離技術(shù)的研究現(xiàn)狀與進(jìn)展[J].自動(dòng)化學(xué)報(bào)，2016，42（6）：819?833.

[11]?WANG Y， WANG D L. Towards scaling up classification?based speech separation[J]. IEEE Transactions on Audio Speech & Language Processing， 2013，21（7）：1381?1390.

[12]?WANG Z Q， WANG D L. Recurrent deep stacking networks for supervised speech separation[C]. IEEE International Conference on Acoustics， Speech and Signal Processing. IEEE， 2017：71?75.

[13]?BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Trans.acoust.speech & Signal Process， 1979，27（2）：113?120.

[14]?CHEN J， BENESTY J， HUANG Y， et al. New insights into the noise reduction Wiener filter[J]. IEEE Transactions on Audio Speech & Language Processing， 2006，14（4）：1218?1234.

[15]?UPADHYAY N， JAISWAL R K. Single channel speech enhancement： using Wiener filtering with recursive noise estimation[J]. Procedia Computer Science，2016，84：22?30.

[16]?POULARIKAS A D， RAMADAN Z M. Adaptive filtering primer with MATLAB[M]. Florida：CRC Press， 2006.

[17]?WIDROW B， GLOVER J R， MCCOOL J M， et al. Adaptive noise cancelling：principles and applications[J]. Proceedings of the IEEE， 2005，63（12）：1692?1716.

[18]?HENDRIKS R C， HEUSDENS R， JENSEN J. MMSE based noise PSD tracking with low complexity[C]. IEEE International Conference on Acoustics Speech and Signal Processing， 2010.

[19]?MOHAMMADIHA N， SMARAGDIS P， LEIJON A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization[J]. IEEE Transactions on Audio Speech & Language Processing， 2013，21（10）：2140?2151.

[20]?韓偉，張雄偉，周星宇，等.聯(lián)合優(yōu)化深度神經(jīng)網(wǎng)絡(luò)和約束維納濾波的單通道語音增強(qiáng)方法[J].計(jì)算機(jī)應(yīng)用研究，2017，34（3）：706?709.

[21]?XU Y， DU J， DAI L R， et al. An experimental study on speech enhancement based on deep neural networks[J]. IEEE Signal Processing Letters， 2013，21（1）：65?68.

[22]?NIE S， LIANG S， LI H， et al. Exploiting spectro?temporal structures using NMF for DNN?based supervised speech separation[C]. IEEE International Conference on Acoustics， Speech and Signal Processing， 2016：469?473.

[23]?DARWIN C. Computational auditory scene analysis： principles， algorithms and applications[J]. IEEE Transactions on Neural Networks，?2008，19（1）：199.

[24]?WANG Y， HAN K， WANG D L. Exploring monaural features for classification?based speech segregation[J]. IEEE Transactions on Audio Speech & Language Processing， 2012，21（2）：270?279.

[25]?DELFARAH M， WANG D L. Features for masking?based monaural speech separation in reverberant conditions[J]. IEEE/ACM Transactions on Audio Speech & Language Processing， 2017，25（5）：1085?1094.

[26]?ROTHAUSER E H， CHAPMAN W D， GUTTMAN N， et al. IEEE recommended practice for speech quality measurements[EB/OL]. https：//ieeexplore.ieee.org/servlet/opac？punumber=7405208.

[27]?VARGA A， STEENEKEN H J M. Assessment for automatic speech recognition： II. NOISEX?92：a database and an experiment to study the effect of additive noise on speech recognition systems[J]. Speech Communication， 1993，12（3）：247?251.

[28]?TAAL C H， HENDRIKS R C， HEUSDENS R， et al. An algorithm for intelligibility prediction of time?frequency weighted noisy speech[J]. IEEE Transactions on Audio Speech & Language Processing， 2011，19（7）：2125?2136.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

DNN與譜減法相結(jié)合的語音分離技術(shù)