李艷生 劉園 張毅
摘 要:針對(duì)非負(fù)矩陣分解(NMF)語音增強(qiáng)算法在低信噪比(SNR)非穩(wěn)定環(huán)境下存在噪聲殘留的問題,提出一種基于感知掩蔽的重構(gòu)NMF(PM-RNMF)單通道語音增強(qiáng)算法。首先,該算法將心理聲學(xué)掩蔽特性應(yīng)用于NMF語音增強(qiáng)算法中;其次,對(duì)不同頻率位采用不同的掩蔽閾值,建立自適應(yīng)感知掩蔽增益函數(shù),通過閾值約束殘余噪聲能量和語音失真能量;最后,結(jié)合語音存在概率(SPP)進(jìn)行感知增益修正,重構(gòu)NMF算法,以此建立新的目標(biāo)函數(shù)。仿真結(jié)果表明,在不同SNR的3種非穩(wěn)定噪聲環(huán)境下,與NMF、重構(gòu)NMF(RNMF)、感知掩蔽深度神經(jīng)網(wǎng)絡(luò)(PM-DNN)算法相比,PM-RNMF算法的感知語音質(zhì)量評(píng)估(PESQ)平均值分別提高了0.767、0.474、0.162,信源失真比(SDR)平均值分別提高了2.785、1.197、0.948。實(shí)驗(yàn)結(jié)果表明,無論是在低頻還是高頻PM-RNMF有更好的降噪效果。
關(guān)鍵詞:非負(fù)矩陣分解;感知掩蔽;語音增強(qiáng);語音存在概率;單通道
中圖分類號(hào): TP912.35
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2019)03-0894-05
Abstract: Aiming at the problem of noise residual in Non-negative Matrix Factorization (NMF) speech enhancement algorithm in low Signal-to-Noise Ratio (SNR) unsteady environment, a Perceptual Masking-based reconstructed NMF (PM-RNMF) single-channel speech enhancement algorithm was proposed. Firstly, psychoacoustic masking features were applied to NMF speech enhancement algorithms. Secondly, different masking thresholds were used for different frequencies to establish an adaptive perceptual masking gain function, and the residual noise energy and speech distortion energy were constrained by the thresholds. Finally, Speech Presence Probability (SPP) was combined to realize perceptual gain correction, the NMF algorithm was reconstructed and a new objective function was established. The simulation results show that under three kinds of unsteady noise environments with different SNR, the average Perceptual Evaluation of Speech Quality (PESQ) of PM-RNMF algorithm is improved by 0.767, 0.474 and 0.162 respectively and the average Signal-to-Distortion Ratio (SDR) is increased by 2.785, 1.197 and 0.948 respectively compared with NMF, RNMF (Reconstructive NMF) and PM-DNN (Perceptual Masking-Deep Neural Network) algorithms. Experimental results show that PM-RNMF has better noise reduction effect in both low frequency and high frequency.
Key words: Non-negative Matrix Factorization(NMF); perceived masking; speech enhancement; Speech Presence Probability (SPP); single-channel
0 引言
語音增強(qiáng)是從帶噪語音中提取純凈的語音信號(hào),一方面可提高語音信號(hào)的可懂度和話音質(zhì)量,另一方面可增強(qiáng)語音識(shí)別和聲紋識(shí)別的魯棒性。傳統(tǒng)語音增強(qiáng)方法如維納濾波法[1]、最小均方誤差(Minimum Mean Squared Error, MMSE)[2]等均屬于無監(jiān)督的語音增強(qiáng)方法,這類方法不需要預(yù)先的任何訓(xùn)練階段。然而這類方法通常假定噪聲是平穩(wěn)的,在真實(shí)環(huán)境下難以有效抑制非平穩(wěn)噪聲的影響。隨著互聯(lián)網(wǎng)數(shù)字處理能力的增強(qiáng),有監(jiān)督的語音增強(qiáng)算法發(fā)展迅速,如基于深度神經(jīng)網(wǎng)絡(luò)的算法[3-4]、基于字典學(xué)習(xí)和稀疏表示的算法[5-6]。相比無監(jiān)督方法,有監(jiān)督學(xué)習(xí)的方法需要大量先驗(yàn)信息,但是有很好的語音增強(qiáng)效果,尤其是在非平穩(wěn)噪聲環(huán)境下。
近年來,非負(fù)矩陣分解(Non-negative Matrix Factorization, NMF)[6]的算法由于成功地找到了能夠最好地描述未處理數(shù)據(jù)的潛在特征的高質(zhì)量字典原子而備受關(guān)注,其基本思想是通過一組基函數(shù)和它們的激活系數(shù)來表示源的特征,每個(gè)源一組,然后使用基本函數(shù)的級(jí)聯(lián)集合分析信號(hào)的混合狀態(tài),并且使用相應(yīng)的激活系數(shù)和基本集合重建每個(gè)源。Wilson等[7]
將NMF與基于統(tǒng)計(jì)模型結(jié)合,提出一種NMF語音增強(qiáng)算法。該算法彌補(bǔ)克服了基于統(tǒng)計(jì)模型不能有效處理非平穩(wěn)噪聲的不足,取得了不錯(cuò)的增強(qiáng)效果。Hoyer[8]根據(jù)NMF能產(chǎn)生對(duì)數(shù)據(jù)稀疏表示的特性,在NMF上增加L1正則項(xiàng)作為稀疏性限制來平衡重構(gòu)誤差和稀疏程度。在此基礎(chǔ)上,路成等[9]提出L1/2稀疏約束NMF單通道語音增強(qiáng)算法。由于語音信號(hào)隨時(shí)間變化的雙狀態(tài)特性即存在與不存在特性,Kwon等[10]提出將語音存在概率(Speech Presence Probability, SPP)與NMF算法結(jié)合的無監(jiān)督在線語音增強(qiáng)算法。該算法能夠很好地抑制噪聲同時(shí)可以保留弱語音成分,但由于語音信號(hào)的基矢量是從多個(gè)源(如Babble噪聲)的混合中進(jìn)行調(diào)整的,因此仍然可以表現(xiàn)出不同源的特征,導(dǎo)致增強(qiáng)語音中可能包含殘余噪聲。Chung等 [11]針對(duì)該問題提出NMF模型的基礎(chǔ)補(bǔ)償算法,用于監(jiān)督單通道語音增強(qiáng)。
但是,語音增強(qiáng)效果是由人耳主觀感受評(píng)價(jià)的,以上增強(qiáng)算法很少考慮人類的心理聲學(xué)掩蔽特性對(duì)語音增強(qiáng)效果的影響,會(huì)影響增強(qiáng)語音的試聽效果。韓偉等[4]將心理聲學(xué)的掩蔽特性應(yīng)用于基于深度神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法中,利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)對(duì)帶噪語音特征進(jìn)行訓(xùn)練得到具有心理聲學(xué)掩蔽特性的增益函數(shù),然后將該感知增益函數(shù)與帶噪語音幅度譜進(jìn)行計(jì)算得到純凈語音的幅度譜估計(jì),實(shí)驗(yàn)證明該算法能提高語音增強(qiáng)的效果。
基于上述分析,本文利用NMF在語音增強(qiáng)方面的優(yōu)勢(shì),提出一種基于感知掩蔽的重構(gòu)NMF(Perceptual Masking-Reconstructive NMF, PM-RNMF)單通道語音增強(qiáng)算法。首先通過NMF獲得語音信號(hào)的先驗(yàn)信息,然后將心理聲學(xué)掩蔽特性融合于NMF增益函數(shù)估計(jì)中,通過閾值來約束增強(qiáng)語音的失真和殘余噪聲的能量,建立感知掩蔽的增益函數(shù),最后結(jié)合SPP進(jìn)行增益修正。
1 NMF語音增強(qiáng)算法
NMF語音增強(qiáng)算法是通過對(duì)語音和(或)噪聲信號(hào)進(jìn)行建模,然后用語音或噪聲樣本對(duì)所建模型進(jìn)行訓(xùn)練估計(jì)出模型具體參數(shù),最后利用所得參數(shù)從帶噪語音中估計(jì)出純凈語音。NMF語音增強(qiáng)算法分為兩個(gè)階段:訓(xùn)練階段和增強(qiáng)階段,如圖1所示。
假設(shè)帶噪語音信號(hào)幀為y=s+n,s、n分別為純凈語音信號(hào)幀和噪聲信號(hào)幀,且兩者互不相關(guān)。在訓(xùn)練階段通過短時(shí)傅里葉變換(Short-Time Fourier Transform, STFT)得到純凈語音和噪聲的幅度譜S(ω)、N(ω)(ω為采樣頻率),然后用NMF算法X≈WH分別將S(ω)和N(ω))分解為特征字典矩陣Ws、Wn和對(duì)應(yīng)的激活矩陣Hs、Hn。最后將特征字典矩陣Ws、Wn作為增強(qiáng)階段的先驗(yàn)信息保存下來。
在增強(qiáng)階段通過STFT得到帶噪語音的幅度譜Y(ω),同樣用NMF算法對(duì)帶噪語音幅度譜進(jìn)行分解,得到帶噪語音激活矩陣Hs′、Hn′后,與訓(xùn)練階段保存的特征字典矩陣Ws、Wn重構(gòu)出純凈語音的幅度譜S^(ω),如式(1)所示。最后通過逆短時(shí)傅里葉變換(Inverse Short-Time Fourier Transform, ISTFT)得到增強(qiáng)后的語音信號(hào)。
其中,G(ω)為增益函數(shù); μ為語音信號(hào)的譜衰減約束因子,通常選擇μ=1;表示對(duì)應(yīng)元素相乘。
2 NMF算法改進(jìn)
使用NMF進(jìn)行語音增強(qiáng)通常由于譜衰減因子的取值不同,獲得不同的增強(qiáng)效果[12],如當(dāng)式(1)中μ=1時(shí)為對(duì)所有頻率位譜衰減因子均相同的維納濾波增益函數(shù),獲得的增強(qiáng)語音對(duì)不同的頻率位的響應(yīng)是不變的。該增益函數(shù)的缺點(diǎn)是對(duì)不同頻率位的不同語音分布特性,只有一個(gè)閾值約束,即對(duì)所有的頻率響應(yīng)是固定不變的,沒有考慮人耳對(duì)語音的頻率感知特性。人類聽覺感知特性描述了人類聽覺系統(tǒng)對(duì)語音及噪聲的感知和掩蔽能力,感知掩蔽是指當(dāng)一些噪聲處于人類聽覺掩蔽閾值之下時(shí),聽覺系統(tǒng)就無法感知這些噪聲存在的現(xiàn)象,通過掩蔽閾值的約束能夠提高語音的清晰度,減小畸變度,因此,本文提出通過將人耳對(duì)不同頻率位的掩蔽閾值作為增強(qiáng)語音和純凈語音誤差的約束,以此得到不同頻率位不同的增益函數(shù),解決NMF算法對(duì)頻率響應(yīng)單一的問題。
2.1 感知增益函數(shù)計(jì)算
本文通過人耳聽覺系統(tǒng)的感知掩蔽特性對(duì)不同頻率位建立不同增益函數(shù)G(ω),具體步驟如下:
2.2 結(jié)合SPP的感知增益函數(shù)計(jì)算
實(shí)際情況下語音會(huì)包含大量的停頓,即使在語音活動(dòng)期間也是如此。例如塞音閉合段,即閉塞輔音脈沖發(fā)出之前的短暫靜音時(shí)段,通常會(huì)在語句的中間階段。另外,即使在濁音段,在某些特定的頻率上可能也沒有語音。SPP為頻率位上語音存在的狀態(tài)模型,能夠?qū)г胝Z音譜的語音和噪聲進(jìn)行估計(jì),避免低SNR時(shí)端點(diǎn)檢測(cè)不準(zhǔn)確問題。對(duì)于語音幀存在的先驗(yàn)概率,本文選用低SNR仍具有很好強(qiáng)魯棒性的基于子帶能熵比的語音端點(diǎn)檢測(cè)算法[13]獲得。該算法將子帶能量和子帶譜熵的比值作為端點(diǎn)檢測(cè)的重要參數(shù),以此設(shè)定閾值進(jìn)行語音端點(diǎn)的檢測(cè)。
在得到語音幀存在的先驗(yàn)概率后采用文獻(xiàn)[14]中的復(fù)高斯分布模型來估計(jì)語音的條件存在狀態(tài)。假設(shè)語音和噪聲
2.3 PM-RNMF算法框架
本文提出的PM-RNMF語音增強(qiáng)框架,如圖2所示。
PM-RNMF語音增強(qiáng)算法將感知增益函數(shù)與SPP結(jié)合建立增益函數(shù)模型,然后與有監(jiān)督的NMF語音增強(qiáng)算法進(jìn)行集成,具體步驟如下:
步驟1 通過NMF對(duì)純凈語音和噪聲進(jìn)行訓(xùn)練,得到字典矩陣Ws、Wn作為增強(qiáng)階段先驗(yàn)信息;
步驟2 選擇μ=1時(shí)NMF增強(qiáng)算法,得到增強(qiáng)的語音和噪聲的初始幅度譜、,以及先驗(yàn)SNR ξ(ω)和后驗(yàn)SNR γ(ω);
步驟3 利用增強(qiáng)后的語音幅度譜計(jì)算掩蔽閾值T(ω),用得到的T(ω)和噪聲幅度譜計(jì)算感知增益函數(shù)G(ω,ξ);
步驟4 利用ξ(ω)計(jì)算條件先驗(yàn)SNR ξ′(ω),由此計(jì)算G(ω,ξ′),再結(jié)合γ(ω)計(jì)算語音存在概率p(H1|Y(ω));
步驟5 結(jié)合SPP集成新的感知增益函數(shù),通過式(15)得到純凈語音幅度譜S^(ω));
步驟6 結(jié)合帶噪語音的相位信息進(jìn)行語音重構(gòu)得到增強(qiáng)語音的頻譜,最后通過ISTFT得到時(shí)域的增強(qiáng)語音信號(hào)。
3 仿真與結(jié)果
本章對(duì)提出的PM-RNMF語音增強(qiáng)算法進(jìn)行Matlab實(shí)驗(yàn)仿真,并對(duì)其性能進(jìn)行評(píng)估。
3.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)中純凈語音是從TIMIT(The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus)數(shù)據(jù)庫中隨機(jī)選擇的男聲50句和女聲50句,每句約長3s;噪聲選自Noisex-92標(biāo)準(zhǔn)噪聲庫中的Babble、Factory1、F-16這3種非穩(wěn)定噪聲作為訓(xùn)練噪聲;帶噪語音集為SNR為-5dB、0dB、5dB、10dB的純凈語音和噪聲的隨機(jī)混合。在實(shí)驗(yàn)中使用的所有音頻數(shù)據(jù)以WAV格式文件被采樣,采樣率為16kHz,用STFT計(jì)算語音和噪聲幅度譜時(shí)對(duì)信號(hào)進(jìn)行分幀處理,幀長為512,幀移為128。訓(xùn)練算法經(jīng)500次迭代得到字典矩陣和激活矩陣,語音字典基和噪聲字典基分別設(shè)為60和30。式(6)中的語音平滑系數(shù)τs=0.4,噪聲平滑系數(shù)τn=0.9[15]。
為了驗(yàn)證PM-RNMF算法的性能,本文選擇NMF[5]、重構(gòu)NMF(Reconstructive NMF, RNMF)[10]、感知掩蔽深度神經(jīng)網(wǎng)絡(luò)(Perceptual Masking-Deep Neural Network, PM-DNN)[4]作對(duì)比實(shí)驗(yàn)。其中,NMF是代價(jià)函數(shù)為IS(Itakura-Saito)距離的增強(qiáng)算法;RNMF是將基于統(tǒng)計(jì)模型和NMF與在線語音和噪聲基更新相結(jié)合的增強(qiáng)算法;PM-DNN是將感知掩蔽特性與深度神經(jīng)網(wǎng)絡(luò)結(jié)合的增強(qiáng)算法,隱藏層設(shè)為3層,每層2048個(gè)節(jié)點(diǎn),激活函數(shù)為修正線形單元(Rectified Linear Unit, ReLU)函數(shù)。為了更合理地比較各個(gè)算法性能,實(shí)驗(yàn)中3種對(duì)比算法均采用與PM-RNMF相同類型和相同數(shù)量的輸入信號(hào)。
評(píng)價(jià)指標(biāo)采用感知語音質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality, PESQ)方法[16]和信源失真比(Signal-to-Distortion Ratio, SDR)[17]來分別評(píng)估增強(qiáng)語音的質(zhì)量和增強(qiáng)方法的性能。其中PESQ是評(píng)價(jià)語音主觀試聽效果的客觀評(píng)價(jià)方法,取值范圍為-0.5~4.5;SDR是在考慮語音失真和噪聲失真時(shí)以分貝(dB)為單位的評(píng)估語音和噪聲平均分離效果的值。兩個(gè)評(píng)價(jià)指標(biāo)的得分越高表示增強(qiáng)效果越好。
3.2 實(shí)驗(yàn)結(jié)果及分析
表1為在不同SNR下,4種增強(qiáng)方法分別在Babble、Factory1、F-16這3種不同噪聲環(huán)境下的PESQ測(cè)量值。從表1的PESQ測(cè)量值中看出,本文所提出的PM-RNMF增強(qiáng)算法在不同SNR下均有優(yōu)于NMF、RNMF、PM-DNN的增強(qiáng)效果,尤其是在低SNR時(shí)。PM-RNMF與NMF、RNMF對(duì)比,由實(shí)驗(yàn)結(jié)果可知增強(qiáng)語音質(zhì)量提高,這是由于感知掩蔽自適應(yīng)的閾值約束雖然使得相鄰共振峰之間波谷處的能量失真誤差增大,但共振峰處的能量得到了很好的保留,而波谷處的失真并不影響主觀的試聽效果;PM-RNMF與PM-DNN對(duì)比,由于SPP的增益修正,使得在低SNR時(shí),PM-RNMF的增強(qiáng)效果優(yōu)于PM-DNN,隨著SNR的提高存在PM-DNN的PESQ值高于PM-RNMF,這是由于PM-DNN算法的訓(xùn)練對(duì)增強(qiáng)語音的幅度譜描述更加準(zhǔn)確,使得以此計(jì)算出掩蔽閾值也更加準(zhǔn)確,增強(qiáng)效果也更好。
表2為不同SNR下,4種增強(qiáng)方法分別在3種不同噪聲環(huán)境下的SDR值。從表1的SDR值中顯示,PM-RNMF的SDR值在不同SNR下均優(yōu)于NMF、RNMF、PM-DNN,這與PESQ測(cè)量值所得出的結(jié)論一致。PM-RNMF與NMF、RNMF對(duì)比,由于感知掩蔽的閾值約束,語音失真減少,使得增強(qiáng)后的語音聽起來更加自然,SDR的值得到提高;PM-RNMF與PM-DNN對(duì)比,SDR的值提高明顯,這是由于相比DNN方法NMF利用掩蔽更能提高SDR的值。
表1通過PESQ和SDR值證明了PM-RNMF算法的優(yōu)良性能,但是為了更直觀地看出PM-RNMF算法的增強(qiáng)性能,本文給出了NMF、RNMF、PM-DNN、PM-RNMF這4種增強(qiáng)算法在噪聲為Babble噪聲、輸入SNR為5dB時(shí)帶噪語音的增強(qiáng)前后的語譜圖,如圖3所示。
由圖3中(a)和(c)對(duì)比可知,使用NMF進(jìn)行增強(qiáng)的結(jié)果在高頻段降噪效果明顯,但存在語音失真,并且在低頻段存在較多的噪聲殘留,試聽效果不佳;(d)和(c)相比,RNMF在低頻段降噪效果優(yōu)于NMF,這是由于SPP對(duì)噪聲和語音的估計(jì),提高了語音質(zhì)量且減少了噪聲殘留,但由于語音與噪聲特性的相似性,使得增強(qiáng)語音中存在殘余噪聲;(e)和(c)、(d)相比,PM-DNN的增強(qiáng)效果要好很多,在有效去除噪聲的前提下,很好地保存了語音固有的諧波結(jié)構(gòu),但低頻段存在少量的噪聲殘留;(f)與(d)相比,PM-RNMF由于感知掩蔽的約束,語音失真減少,提高了語音的可懂度;(f)與(e)相比,PM-RNMF提高了低頻的去噪效果。綜上所述,本文所提的PM-RNMF算法增強(qiáng)效果明顯優(yōu)于NMF、RNMF、PM-DNN算法。
4 結(jié)語
針對(duì)低SNR非穩(wěn)定噪聲環(huán)境下NMF語音增強(qiáng)算法存在噪聲殘留的問題,本文提出PM-RNMF語音增強(qiáng)算法。該算法將感知增益函數(shù)與SPP結(jié)合建立增益函數(shù)模型,然后與有監(jiān)督的NMF語音增強(qiáng)算法進(jìn)行集成。通過Matlab仿真,與NMF、RNMF、PM-DNN算法相比,PM-RNMF算法提高了在低SNR非穩(wěn)定噪聲環(huán)境下的語音增強(qiáng)效果。然而在實(shí)際環(huán)境中,隨著人工智能領(lǐng)域應(yīng)用范圍的逐漸擴(kuò)大,如服務(wù)機(jī)器人通常會(huì)工作在室內(nèi)環(huán)境中,由于室內(nèi)環(huán)境通常會(huì)存在混響噪聲,這將影響該算法的性能,因此如何在混響環(huán)境下提高語音增強(qiáng)性能將成為下一步的研究重點(diǎn)。
參考文獻(xiàn) (References)
[1] VENKATESWARLU S C, PRASAD K S, REDDY A S. Improve speech enhancement using Wiener filtering [J]. Global Journal of Computer Science and Technology, 2011, 11(7): 30-38.
[2] MARTIN R. Speech enhancement using MMSE short time spectral estimation with gamma distributed speech priors [C]// ICASSP 2002: Proceedings of the 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2002,1: 253-256.
[3] XU Y, DU J, DAI L, et al. A regression approach to speech enhancement based on deep neural networks [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(1): 7-19.
[4] 韓偉,張雄偉,閔剛,等.基于感知掩蔽深度神經(jīng)網(wǎng)絡(luò)的單通道語音增強(qiáng)方法[J].自動(dòng)化學(xué)報(bào),2017,43(2):248-258.(HAN W, ZHANG X W, MIN G, et al. A single-channel speech enhancement approach based on perceptual masking deep neural network [J]. Acta Automatica Sinica, 2017, 43(2): 248-258.)
[5] MOHAMMADIHA N, SMARAGDIS P, LEIJON A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(10): 2140-2151.
[6] 蔣茂松,王冬霞,牛芳琳,等. 稀疏正則非負(fù)矩陣分解的語音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用,2018,38(4):1176-1180.(JIANG M S, WANG D X, NIU F L, et al. Speech enhancement method based on sparsity-regularized non-negative matrix factorization [J]. Journal of Computer Applications, 2018, 38(4): 1176-1180.)
[7] WILSON K W, RAJ B, SMARAGDIS P, et al. Speech denoising using non-negative matrix factorization with priors [C]// ICASSP 2008: Proceedings of the 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2008: 4029-4032.
[8] HOYER P O. Non-negative matrix factorization with sparseness constraints [J]. Journal of Machine Learning Research, 2004, 5(9): 1457-1469.
[9] 路成,田猛,周健,等.L1/2稀疏約束卷積非負(fù)矩陣分解的單通道語音增強(qiáng)方法[J]. 聲學(xué)學(xué)報(bào),2017,42(3):377-384.(LU C, TIAN M, ZHOU J, et al. A single-channel speech enhancement approach using convolution non-negative matrix factorization with L1/2 sparse constraint[J]. Acta Acustica, 2017, 42(3): 377-384.)
[10] KWON K, SHIN J W, KIM N S. NMF-based speech enhancement using bases update [J]. IEEE Signal Processing Letters, 2015, 22(4): 450-454.
[11] CHUNG H, PLOURDE E, CHAMPAGNE B. Basis compensation in non-negative matrix factorization model for speech enhancement [C]// ICASSP 2016: Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 2249-2253.
[12] HU Y, LOIZOU P C. Incorporating a psychoacoustical model in frequency domain speech enhancement [J]. IEEE Signal Processing Letters, 2004, 11(2): 270-273.
[13] 張毅,王可佳,席兵,等.基于子帶能熵比的語音端點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)科學(xué),2017,44(5):304-307.(ZHANG Y, WANG K J, XI B, et al. Speech endpoint detection algorithm based on sub-band energy-entropy-ratio [J]. Computer Science, 2017, 44(5): 304-307.)
[14] LEE S, HAN D K, KO H. Single-channel speech enhancement method using reconstructive NMF with spectrotemporal speech presence probabilities [J]. Applied Acoustics, 2017, 117: 257-262.
[15] SUNNYDAYAL V, KUMAR T K. Speech enhancement using posterior regularized NMF with bases update [J]. Computers and Electrical Engineering, 2017, 62: 663-675.
[16] RIX A W, BEERENDS J G, HOLLIER M P, et al. Perceptual Evaluation of Speech Quality (PESQ)—a new method for speech quality assessment of telephone networks and codecs [C]// ICASSP 2001: Proceedings of the 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2001,2:749-752.
[17] HUANG P S, KIM M, HASEGAWA-JOHNSON M, et al. Deep learning for monaural speech separation [C]// ICASSP 2014: Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2014: 1562-1566.