国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)域的基頻感知語音分離方法?

2022-03-27 02:08王凱李鳴鶴黃志華黃浩
關(guān)鍵詞:混音時(shí)域語音

王凱,李鳴鶴,黃志華,黃浩

(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830017)

0 引言

語音分離是語音識別、說話人分類、說話人識別等語音處理任務(wù)中必不可少的前端組成部分.與多通道語音分離任務(wù)相比,單通道語音分離由于其所提供的信息有限而更具挑戰(zhàn)性,也是當(dāng)前語音處理研究的熱點(diǎn).近年來,語音分離的研究主要集中在基于深度學(xué)習(xí)的方法上,并取得了突破性的進(jìn)展.根據(jù)對輸入混音的處理方式,可將語音分離技術(shù)分為兩類:基于時(shí)頻域的分離方法和基于時(shí)域的分離方法.前者的提出時(shí)間較早[1-6],其中深度聚類[1-2]和PIT[5-6]分別解決了語音分離中的排列問題[1],為后續(xù)的研究工作打下基礎(chǔ).

時(shí)頻域語音分離方法中通常首先用短時(shí)傅立葉變換(STFT)得到混音的幅度譜,然后將混音以幅度譜或?qū)?shù)幅度譜的形式作為輸入,用神經(jīng)網(wǎng)絡(luò)估計(jì)分離后的各說話人語音,在重構(gòu)估計(jì)語音的時(shí)域信號時(shí)采用混音相位.由于混音相位對于各個(gè)語音相位來說加入了干擾,會導(dǎo)致次優(yōu)的分離結(jié)果.為此,有研究提出了相位重建算法[7]和復(fù)數(shù)域的STFT表示[8],但這仍需要額外的模型或處理步驟.為了避免相位的問題,近期有文獻(xiàn)研究使用時(shí)域表示的語音分離方法[9-12].這種方法將時(shí)域中的混合波形轉(zhuǎn)換為非負(fù)的特定空間,在該空間中進(jìn)行分離處理以計(jì)算估計(jì)的各語音.由于相位信息隱含在原始波形中,時(shí)域方法避免了相位重建的困難,其結(jié)果通常優(yōu)于基于時(shí)頻域的方法.

除了將混音作為輸入之外,一些研究試圖添加其他先驗(yàn)信息來幫助改善分離結(jié)果[13-18].有些先驗(yàn)知識與原始混音正交,即它們的信息之間互相獨(dú)立,例如預(yù)先收集說話人的音頻、視頻、圖片等信息(稱為預(yù)注冊信息)來幫助語音分離[13],以及記錄說話人基于位置的方位角特征,以備后續(xù)分離步驟[14].而另一些先驗(yàn)信息是隱含在原始混音信號中的,例如時(shí)域混音信號的時(shí)頻域表示[16],以及各目標(biāo)語音的基頻信息[17].顯式地添加隱藏在原始信號中的信息可以提高性能,究其原因是由于訓(xùn)練數(shù)據(jù)集的有限性和神經(jīng)網(wǎng)絡(luò)能力的局限性,使得輸出結(jié)果無法完全與理想情況相同,而先驗(yàn)知識可以幫助神經(jīng)網(wǎng)絡(luò)進(jìn)一步提升語音分離性能.

基頻感知語音分離[17]是一種在時(shí)頻域利用基頻頻率輔助信息的語音分離方法,分為預(yù)分離和后分離兩個(gè)階段.預(yù)分離階段訓(xùn)練一個(gè)基于深度聚類(DC)的模型來預(yù)分離估計(jì)語音,過程中用前饋網(wǎng)絡(luò)代替DC中的Kmeans聚類過程來提升聚類效果.然后利用一個(gè)基頻提取神經(jīng)網(wǎng)絡(luò),從預(yù)先分離的語音中提取基頻.后分離階段將估計(jì)的基頻與原始混音進(jìn)行拼接作為新的輸入,送入基于uPIT[6]的分離網(wǎng)絡(luò)來計(jì)算最終的目標(biāo)語音.

上述方法的不足在于DC和uPIT都是較早期的時(shí)頻域分離方法,因此模型不可避免地存在相位重構(gòu)問題,從而限制了其性能.基于這一原因,我們設(shè)計(jì)了一種新的時(shí)域語音分離框架,繼承了其附加基頻信息的特性.具體而言,我們采用的模型也分為預(yù)分離階段和后分離階段.預(yù)分離階段采用Conv-TasNet[10]進(jìn)行分離,然后對分離后的語音分別用傳統(tǒng)算法RAPT[19]和基于深度學(xué)習(xí)的方法估計(jì)基頻.我們發(fā)現(xiàn)對于預(yù)分離后的語音,RAPT比基于深度學(xué)習(xí)的方法效果更好.后分離階段采用Conv-TasNet的變體訓(xùn)練一個(gè)新的分離模型,其輸入采用原始混音和相應(yīng)基頻的組合.我們首先將理想的基頻信息注入原始混音中,以確定基頻信息是否也有助于時(shí)域語音分離.結(jié)果表明,本文的研究方向是正確的:如果能夠提取到理想的基頻信息,時(shí)域語音分離的性能也可以得到改善.然后,我們研究了不同基頻跟蹤方法與后分離模塊的組合,以及聯(lián)合訓(xùn)練、預(yù)訓(xùn)練加微調(diào)[20]等不同訓(xùn)練方法的效果.實(shí)驗(yàn)結(jié)果表明,如果后分離模塊先使用理想基頻輸入進(jìn)行預(yù)訓(xùn)練,再使用RAPT算法得到的預(yù)分離語音基頻進(jìn)行微調(diào),將取得最好的效果,比僅基于Conv-TasNet而沒有基頻信息的分離模型提高了0.5 dB.

1 基于時(shí)域的基頻感知語音分離

1.1 整體架構(gòu)

所提出方法的框架如圖1所示,由三個(gè)模塊組成:預(yù)分離模塊、基頻跟蹤模塊和后分離模塊.預(yù)分離模塊用于將混合波形分離成預(yù)先分離的信號源,基頻跟蹤模塊從中提取估計(jì)的基頻.提取的基頻和原始混音進(jìn)行拼接,然后輸入到后分離模塊進(jìn)行最終分離.由于基頻頻率和混音采樣值之間的數(shù)量級差異較大,在拼接之前需要進(jìn)行數(shù)量級的重新縮放操作.預(yù)分離模塊采用Conv-TasNet網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)配置與文獻(xiàn)[10]中描述的相同.對于基頻跟蹤模塊,參考文獻(xiàn)[17],我們提出新的基于深度學(xué)習(xí)的基頻跟蹤模型,另外也驗(yàn)證了傳統(tǒng)的基于RAPT的基頻跟蹤方法.后續(xù)的實(shí)驗(yàn)部分將對它們的結(jié)果進(jìn)行比較.最后參考Conv-TasNet設(shè)計(jì)了后分離模塊.

圖1 本文所提出方法的架構(gòu)

1.2 Conv-TasNet簡介

本文在預(yù)分離和后分離階段采用Conv-TasNet[10]作為分離模塊,該網(wǎng)絡(luò)是一個(gè)基于時(shí)間卷積網(wǎng)絡(luò)TCN[21]的端到端訓(xùn)練的全卷積網(wǎng)絡(luò),其輸入是由時(shí)域采樣得到的混音波形信號,輸出為分離之后的各語音波形信號.其結(jié)構(gòu)包括三個(gè)部分:編碼器、分離模塊和解碼器.編碼器采用一維卷積層,將混音分段并轉(zhuǎn)換為非負(fù)的潛在空間的表示.分離模塊采用多個(gè)一維卷積塊堆疊的結(jié)構(gòu),為混音中每個(gè)語音的每個(gè)時(shí)間步估計(jì)掩蔽,然后將各掩蔽乘以混音得到潛在空間的估計(jì)語音.分離模塊中使用多層空洞卷積[21-22]和逐層增加的膨脹因子,可以得到較大的感受野,從而對長序列建模.解碼器采用轉(zhuǎn)置卷積操作,將潛在空間的語音特征轉(zhuǎn)換到時(shí)域,重建估計(jì)的語音信號.Conv-TasNet的目標(biāo)函數(shù)直接采用尺度不變信噪比SI-SNR,定義如下:

1.3 基頻跟蹤模塊

基頻是周期信號的固有特性,基頻跟蹤(又稱基頻估計(jì))是估計(jì)基頻輪廓的任務(wù)[23].經(jīng)典的基頻估計(jì)方法包括RAPT[19]、PRAAT[24]、YIN[25]等,通過計(jì)算語音或音樂的局部極大值或極小值來估計(jì)基頻.其中RAPT方法針對語音的基頻跟蹤任務(wù)設(shè)計(jì),對語音有特別的適用性.近年來,數(shù)據(jù)驅(qū)動(dòng)的基于深度神經(jīng)網(wǎng)絡(luò)的基頻提取模型被提出,并顯示出良好的性能[26-29],受到了更多的關(guān)注,但會遇到缺乏基頻標(biāo)簽的問題.

對于預(yù)分離的語音,我們分別采用傳統(tǒng)方法RAPT和基于深度神經(jīng)網(wǎng)絡(luò)的方法提取基頻.對于后者,我們也分別嘗試了基于分類和基于回歸這兩種方法,如圖2所示.基于分類的模型有400個(gè)輸出,對應(yīng)的基頻頻率從1到400,基頻估計(jì)是一個(gè)分類任務(wù).基于回歸的模型的輸出是一維的,每一時(shí)間幀的基頻頻率通過回歸任務(wù)計(jì)算得到.本文的回歸模型可以看作文獻(xiàn)[17]的增強(qiáng)版本.所提出的兩個(gè)基頻跟蹤模型都采用前饋神經(jīng)網(wǎng)絡(luò)FNN和長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM,然后分類模型后面是log-softmax和argmax操作,而回歸模型后面是一個(gè)ReLU激活函數(shù)層.對于濁音(V)和輕音(UV)標(biāo)志預(yù)測,考慮到VUV標(biāo)志在語音分離過程中沒有顯式的應(yīng)用,我們采用一個(gè)簡單的設(shè)定閾值方法,即:小于閾值的基頻為輕音(UV),大于閾值的基頻為濁音(V).

圖2 基于深度學(xué)習(xí)的基頻跟蹤模型的結(jié)構(gòu)

另外,對基頻跟蹤模型的輸入進(jìn)行簡單的預(yù)處理.具體來說,在計(jì)算某時(shí)間幀的基頻時(shí),相鄰時(shí)間幀可能含有有益的信息,我們將輸入幀向前后對稱地?cái)U(kuò)充,從而生成一個(gè)較長的輸入時(shí)間幀.

1.4 拼接時(shí)的基頻排列

在后分離階段,我們將估計(jì)的基頻和原始混音進(jìn)行拼接操作,以生成后分離模塊新的輸入.圖3展示了三種不同的拼接方法[17]:

圖3 估計(jì)基頻與原始混音的拼接方法

(1)Oracle:干凈語音的信息是已知的,具有最大SNR的干凈語音對應(yīng)的估計(jì)基頻首先與混音拼接.

(2)任意順序:估計(jì)基頻按任意順序與混音拼接.

(3)能量:具有最大能量的預(yù)分離語音對應(yīng)的估計(jì)基頻首先與混音拼接.

因?yàn)楣烙?jì)的語音和干凈語音較接近“,Oracle”和“能量”方法可以近似看作相同.事實(shí)上,文獻(xiàn)[17]中的結(jié)果顯示“,能量”方法稍微優(yōu)于“Oracle”方法,且兩者皆比“任意”方法好得多.因此,我們采用“能量”方法作為本文的拼接方法.又因估計(jì)基頻的長度與語音波形長度不匹配,需要對基頻序列長度進(jìn)行成比例的縮放,使其與語音長度相同,便于拼接操作.

2 實(shí)驗(yàn)結(jié)果

2.1 實(shí)驗(yàn)設(shè)置

本文采用WSJ0-2mix數(shù)據(jù)集[1]驗(yàn)證所提出方法的有效性.WSJ0-2mix數(shù)據(jù)集廣泛應(yīng)用于單通道語音分離模型的驗(yàn)證.本文采用8 kHz采樣的版本,具體做法是在Wall Street Journal(WSJ0)數(shù)據(jù)集中的訓(xùn)練集中任選2個(gè)說話人的語音,按-5~5 dB中的任意SNR混合,以生成30小時(shí)的訓(xùn)練集混音和10小時(shí)的驗(yàn)證集混音.從WSJ0開發(fā)集和驗(yàn)證集的16個(gè)說話人中,任選2個(gè)說話人的語音,同樣按上述方式生成5小時(shí)的驗(yàn)證集.這樣測試集的說話人與訓(xùn)練集和驗(yàn)證集不同,即是一個(gè)開放數(shù)據(jù)集.

如前所述,Conv-TasNet在預(yù)分離模塊和后分離模塊中都有應(yīng)用,而且后者的輸入維度是基頻與混音拼接的新維度.在Conv-TasNet中,編碼器的濾波器長度設(shè)為16.文獻(xiàn)[10]和文獻(xiàn)[30]表明,編碼器濾波器的長度越短,語音分離的結(jié)果越好.因本文的目的是驗(yàn)證基頻信息對時(shí)域語音分離系統(tǒng)的提高作用,而不是追求更高的分離結(jié)果,因此我們固定此濾波器長度為16.

實(shí)驗(yàn)采用平均尺度不變信噪比提升(SI-SNRi)[10,31]作為語音分離的評價(jià)指標(biāo),使用Adam算法作為模型的優(yōu)化器.傳統(tǒng)訓(xùn)練時(shí)的學(xué)習(xí)率設(shè)置為1×10-3,調(diào)優(yōu)時(shí)訓(xùn)練的學(xué)習(xí)率設(shè)置為1×10-4.

2.2 基頻跟蹤結(jié)果

本文使用傳統(tǒng)方法RAPT和基于深度神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行基頻估計(jì)任務(wù).其中后者包括2種方法,即分類方法和回歸方法,基頻跟蹤模型的輸入是預(yù)分離階段得到的估計(jì)語音.我們采用4個(gè)隱層的FNN,每層512個(gè)單元,后面連接一個(gè)雙向LSTM層,512個(gè)隱層單元.基于分類模型的訓(xùn)練目標(biāo)為傳統(tǒng)交叉熵,基于回歸模型的訓(xùn)練目標(biāo)為MSE.深度模型的輸入維度為3 600,即每一幀的窗長為400個(gè)采樣點(diǎn),向兩邊各擴(kuò)展4個(gè)幀.相鄰幀的移動(dòng)距離為64個(gè)采樣點(diǎn),即8 ms.另外,對于基于深度神經(jīng)網(wǎng)絡(luò)模型還有一個(gè)問題需要考慮,即監(jiān)督訓(xùn)練時(shí)的參考標(biāo)簽.因?yàn)閷τ赪SJ0數(shù)據(jù)集來說沒有基頻的參考標(biāo)簽,參照文獻(xiàn)[17]的方法,我們采用RAPT結(jié)果作為參考標(biāo)簽.對于RAPT方法,輸入音頻為8 kHz采樣,每一幀的移動(dòng)距離為8 ms;其最小和最大基頻頻率分別設(shè)置為30 Hz和400 Hz.對于預(yù)分離得到的估計(jì)語音,相比原干凈語音是有失真的,以上設(shè)置可以比較傳統(tǒng)RAPT和深度學(xué)習(xí)方法哪一個(gè)抗失真的能力更優(yōu).

結(jié)果如表1所示,其中CLS表示基于分類的基頻跟蹤模型,REG指基于回歸的基頻跟蹤模型.我們也展示了基頻感知系統(tǒng)[17]中的基頻跟蹤結(jié)果,標(biāo)記為PA.V UV Error表示濁音和清音標(biāo)志預(yù)測的錯(cuò)誤率.MAEglobal和RMSEglobal分別指預(yù)分離語音基頻與干凈語音基頻的平均絕對誤差和均方根誤差,MAEF0和RMSEF0指對于VUV標(biāo)志預(yù)測正確的幀,預(yù)分離語音基頻與干凈語音基頻的平均絕對誤差和均方根誤差.

表1 不同基頻跟蹤方法的結(jié)果比較(對預(yù)分離語音)

由表1可知,RAPT的基頻預(yù)測結(jié)果普遍優(yōu)于基于深度學(xué)習(xí)的方法,也優(yōu)于文獻(xiàn)[17]的方法.原因在于,基于時(shí)域的預(yù)分離模塊可以達(dá)到足夠的分離精度,使通過RAPT方法估計(jì)的基頻相對失真誤差較少.還可以發(fā)現(xiàn)本文采用的三種方法,RAPT、CLS和REG都優(yōu)于PA[17],而且CLS和REG在不同的指標(biāo)上各有優(yōu)勢.在后續(xù)實(shí)驗(yàn)中,我們將只使用RAPT、CLS和REG的基頻估計(jì)結(jié)果用于后分離模型.

2.3 語音分離結(jié)果

2.3.1 使用理想基頻的語音分離

首先通過假設(shè)目標(biāo)語音已知,來評估添加理想基頻的結(jié)果.用RAPT方法計(jì)算出理想的基頻,并與原始混音拼接成后分離模塊的輸入.我們復(fù)現(xiàn)Conv-TasNet并將其作為基線,其分離結(jié)果為15.2 dB,比文獻(xiàn)[10]低0.1 dB.原因可能是參數(shù)初始化和生成的數(shù)據(jù)集的隨機(jī)性.

表2首先給出了利用理想基頻輔助信息進(jìn)行時(shí)頻域分離的結(jié)果[17],說明了基頻感知方法在時(shí)頻域語音分離中的有效性.然后給出了本文的時(shí)域結(jié)果,結(jié)果表明,利用理想的基頻信息,可以獲得顯著的改善(2.4 dB).2.4 dB的改進(jìn)可以看作理想情況下的值,或者說是要追求的上限.需要說明的是,文獻(xiàn)[17]中使用平均SDRi作為指標(biāo),而本文使用平均SI-SNRi.平均SDRi和平均SI-SNRi通常只相差一個(gè)常量[4,7,9,10,30],因此考查性能提升程度時(shí),是可以互相比較的.

表2 使用理想基頻的語音分離結(jié)果

我們注意到時(shí)頻域的基頻感知系統(tǒng)[17]采用DC或uPIT作為分離模塊.由表2可知,加入基頻后,基于uPIT的分離模型可以得到更大的性能提升,即3.9 dB.這與表2中時(shí)域的分離方法相比(2.4 dB),可知時(shí)頻域的提升程度更大.原因可能是時(shí)頻域方法缺乏相位信息,加入基頻可帶來更多的信息補(bǔ)償;而時(shí)域的輸入已經(jīng)隱式地包含基頻信息,因此顯式加入基頻會帶來相對有限的增強(qiáng).

2.3.2 使用非理想基頻的語音分離

與訓(xùn)練階段不同的是,在推理階段,我們沒有理想基頻提取的干凈語音,我們所掌握的只是預(yù)分離的估計(jì)語音.良好的預(yù)分離結(jié)果會得到精確的基頻跟蹤結(jié)果,反過來足夠接近理想情況的基頻跟蹤結(jié)果也會使后分離的語音質(zhì)量得到提升.這就導(dǎo)致了“雞和蛋”的問題.我們使用從預(yù)分離語音中提取的基頻來近似理想基頻,表示為非理想基頻.將非理想基頻與原始混合語音相結(jié)合作為后分離網(wǎng)絡(luò)的輸入.為了解決“雞和蛋”的問題,我們利用理想基頻的訓(xùn)練成果輔助非理想基頻網(wǎng)絡(luò)的訓(xùn)練.具體來說,對于后分離網(wǎng)絡(luò),我們不進(jìn)行隨機(jī)的參數(shù)初始化,而是使用理想基頻訓(xùn)練的網(wǎng)絡(luò)參數(shù),在此基礎(chǔ)上,使用非理想基頻進(jìn)行調(diào)優(yōu).

表3顯示了使用非理想基頻的分離結(jié)果.我們將文獻(xiàn)[17]中時(shí)頻域的基頻感知分離結(jié)果作為對比.其采用基于DC的模型作為預(yù)分離模塊,將聚類過程從原來的K-means替換為前饋網(wǎng)絡(luò).對于后分離,分別驗(yàn)證了基于DC和uPIT的模型.可以發(fā)現(xiàn)預(yù)分離和后分離均采用DC方法,結(jié)果與只使用DC進(jìn)行預(yù)分離結(jié)果相同;而將后分離改為uPIT方法后,結(jié)果有較大改善.

表3 使用非理想基頻的語音分離結(jié)果

對于時(shí)域的語音分離,我們復(fù)現(xiàn)Conv-TasNet作為預(yù)分離網(wǎng)絡(luò),其分離結(jié)果為15.2 dB.對于后分離,我們評估了多種基頻提取方法(RAPT,分類CLS和回歸REG),對應(yīng)的結(jié)果分別為15.3 dB、15.2 dB和15.2 dB,說明相比無基頻輔助信息的Conv-TasNet沒有明顯提升.我們也將CLS和REG的基頻提取模型與后分離網(wǎng)絡(luò)進(jìn)行聯(lián)合訓(xùn)練,表示為CLS+POST+Joint和REG+POST+Joint,對應(yīng)的結(jié)果分別為14.8 dB和15.3 dB.由此可知聯(lián)合訓(xùn)練中基于分類的基頻提取方法失敗了.最后我們展示了使用理想基頻預(yù)訓(xùn)練的后分離網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu)的結(jié)果,表示為RAPT+POST+Tune、CLS+POST+Tune和REG+POST+Tune,對應(yīng)結(jié)果分別為15.7 dB、15.6 dB和15.6 dB,均優(yōu)于基線Conv-TasNet.而且,使用RAPT的調(diào)優(yōu)方法比其他兩個(gè)深度模型高0.1 dB,這與基頻跟蹤結(jié)果中,RAPT優(yōu)于其他兩個(gè)方法的情況相對應(yīng).

通過對時(shí)頻域和時(shí)域分離結(jié)果的比較,我們發(fā)現(xiàn)時(shí)域方法相對基線的提升小于時(shí)頻域的提升(0.5 dB對1.2 dB).原因在于:首先,基頻在時(shí)域上提供的信息增量有限;其次,基頻感知系統(tǒng)[17]使用基于DC的模型作為預(yù)分離模塊,uPIT作為后分離模塊(即DC+uPIT),這利用了它們之間的互補(bǔ)性.然而,本文中預(yù)分離模塊和后分離模塊本質(zhì)上是相同的,均為Conv-TasNet.

3 結(jié)論和展望

本文研究了在時(shí)域語音分離方法中,利用輔助基頻信息來改善語音分離的性能.實(shí)驗(yàn)結(jié)果表明,輔助基頻信息對時(shí)域語音分離也有一定的幫助.在訓(xùn)練過程中,我們發(fā)現(xiàn)傳統(tǒng)的訓(xùn)練方法并不能明顯提高訓(xùn)練效果,而使用理想基頻進(jìn)行預(yù)訓(xùn)練,再對預(yù)訓(xùn)練的模型進(jìn)行微調(diào),可以獲得最佳性能.未來的工作包括擴(kuò)展到其他先驗(yàn)信息,如說話人表示等.我們還發(fā)現(xiàn),深度模型由于缺乏參考基頻而落后于傳統(tǒng)的RAPT算法,因此可以采用一種更精確的基頻跟蹤算法,或者創(chuàng)建帶有參考基頻的數(shù)據(jù)集,來進(jìn)一步提高所提出方法的效果.

猜你喜歡
混音時(shí)域語音
微信語音恐懼癥
晚霞淺淡少年糖
魔力語音
Magic Phonetics魔力語音
對方正在輸入……
第十五屆錄音藝術(shù)大師班在京舉辦
Allen&Heath dLive數(shù)字調(diào)音臺新成員C Class
基于MATLAB 的信號時(shí)域采樣及頻率混疊現(xiàn)象分析
兩種常用漂浮式風(fēng)力機(jī)平臺動(dòng)態(tài)特性分析
不同入射角風(fēng)波流海上漂浮式風(fēng)力機(jī)頻域與時(shí)域動(dòng)態(tài)特性