国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CNN 和Transformer 的雙路徑語音分離*

2023-08-17 12:38:16王鈞諭
通信技術(shù) 2023年5期
關(guān)鍵詞:掩碼集上編碼器

王鈞諭,高 勇

(四川大學(xué),四川 成都 610065)

0 引言

Transformer[1]在現(xiàn)代深度學(xué)習(xí)中已被廣泛使用。合理地應(yīng)用Transformer 可以在許多自然語言處理(Natural Language Processing,NLP)和語音處理任務(wù)中取得優(yōu)秀的成果,例如機器翻譯、語音識別、語音增強、文本分類和許多其他應(yīng)用程序[2-7]。Transformer 可以對長期依賴關(guān)系進行更精確地建模,這一特性使其適用于音頻處理,文獻[8]已經(jīng)證明長期建模對語音分離性能有顯著影響。另外,卷積在語音處理中也取得了很大的成功[9-11],它通過局部感受域逐層漸進地捕獲局部上下文。

然而,基于Transformer 或卷積的模型都有其局限性。一方面,雖然Transformer 擅長建模長序列,但它不太能夠提取細粒度的局部特征;另一方面,卷積神經(jīng)網(wǎng)絡(luò)以分層方式利用局部信息。通過一個本地窗口學(xué)習(xí)共享的基于位置的內(nèi)核,能夠捕獲邊緣和形狀等特征。但使用本地連接的一個限制是需要更多的層或參數(shù)來捕獲全局信息。為了解決這個問題,本文提出了DPCFNet,這是一個將自注意力、卷積和雙路徑網(wǎng)絡(luò)相結(jié)合的模型。在公開的中文和英文數(shù)據(jù)集上進行的大量實驗表明,相比于單一使用卷積和Transformer 的模型,本文方法實現(xiàn)了更好的分離效果。

1 改進Transformer 和Dense block

Transformer 由編碼器和解碼器組成[1]。本文選擇Transformer 編碼器作為基本模塊。為避免混淆,本文中對Transformer 的引用是指Transformer 的編碼器部分。原始的Transformer 編碼器通常包含位置編碼、多頭自注意和位置前饋網(wǎng)絡(luò)3 個模塊。本文的Transformer 與文獻[12]一樣,通過在多頭自注意力模塊后插入深度卷積來對局部上下文信息進行更充分的建模,簡稱為Conformer。

Conformer 結(jié)構(gòu)示意圖如圖1 所示。它由幾個模塊組成,包括前饋模塊、多頭自注意力模塊、卷積模塊(ConvModule)和層歸一化模塊。前饋模塊由線性層、swish 激活函數(shù)[13]、dropout 和第2 層線性層組成。ConvModule 開始是逐點卷積和GLU 激活函數(shù)[14],接著通過具有批量歸一化、swish 激活和逐點卷積的一維深度卷積層。多頭自注意力模塊由自注意力和相對位置編碼結(jié)合而成,相對位置編碼可以使自注意力模塊對不同的輸入長度進行更好的泛化,所得到的Conformer 塊對語音長度的變化具有更強的魯棒性。本文使用帶dropout 的前范數(shù)殘差單元[15],這有助于訓(xùn)練和正則化更深層次的模型。

圖1 Conformer 結(jié)構(gòu)

基于卷積的密集連接塊最近在文獻[16]中被提出。密集連接塊基于特征重用的思想,使給定層的輸出在后續(xù)層中被重用多次。因為給定層與后續(xù)層直接連接,使其可以避免DNNs 中的梯度消失問題。在密集連接塊的基礎(chǔ)上,本文提出了一個新的用于語音分離的Dense block,它由5 個二維卷積層組成,卷積核大小為(2,3),每個卷積層后添加層歸一化和PReLU 非線性激活[17]。給定層的輸入由前一層的輸出和最開始的輸入連接形成。連續(xù)層中的輸入通道數(shù)量分別為C,2C,2C,2C和2C。每次卷積后的輸出都有C個通道。本文提出的Dense block 如圖2所示,其中,卷積核(X,Y)中的X和Y分別表示輸入和輸出通道數(shù)。與原始密集連接塊相比,Dense block 的計算復(fù)雜度較低,更適用于實時語音處理。

圖2 提出的Dense block 結(jié)構(gòu)

2 本文提出的DPCFNet

本文提出的DPCFNet 結(jié)構(gòu)如圖3 所示,它由編碼器、分離層和解碼器組成。首先,使用編碼器將混合波形轉(zhuǎn)換為中間特征空間中的相應(yīng)特征。然后將特征輸入到分離層,為每個源構(gòu)造掩碼。最后,通過對掩碼特征的轉(zhuǎn)換,實現(xiàn)源波形的重構(gòu)。

圖3 DPCFNet 的結(jié)構(gòu)框架

2.1 分割和重疊相加

分割階段拆分原始混合語音x∈R1×L,L為輸入混合語音的長度,幀長為F,跳躍步長為H。然后將所有幀進行堆疊,形成一個三維張量X∈R1×K×F,K表示所給的幀數(shù),其計算式為:

采用重疊疊加法作為分割的逆運算,用于恢復(fù)分離波形。

2.2 編碼器

編碼器使用兩個卷積層,其中第1 層使用大小為(1,1)的卷積濾波器將通道數(shù)量增加到64 個,第2 層使用大小為(1,3)的濾波器將幀大小的尺寸減半,步幅為(1,2),兩個卷積層之間添加包含5 個膨脹卷積層的Dense block。所有卷積層之后進行層歸一化和PReLU 非線性激活。編碼器的輸入為混合語音分割后得到的X∈R1×K×F,輸出為高維混合特征I∈R64×K×F/2。

2.3 分離層

分離層由雙路徑Conformer(Dual-path Conformer,DPCF)和掩碼模塊共同構(gòu)成。編碼器的輸出I被傳遞給N個DPCF,如圖3 所示,每個DPCF 由1個Intra-Conformer 塊 和1 個Inter-Conformer 塊 組成,其中Intra-Conformer 塊學(xué)習(xí)局部信息,Inter-Conformer 塊學(xué)習(xí)全局信息。Intra-Conformer 塊首先對輸入特征的局部進行獨立建模,作用于I的第2維,Intra-Conformer 的公式如下:

然后使用Inter-Conformer 塊匯總所有Intra-Conformer 塊的輸出信息,以學(xué)習(xí)語音信號的全局信息,作用于I的最后一個維度,Inter-Conformer的公式如下:

掩碼網(wǎng)絡(luò)利用DPCF 的輸出特征獲取掩碼進行分離。通過第2 個二維卷積,DPCF 的輸出沿通道維數(shù)按分離源的個數(shù)加倍,以匹配輸出分離語音。然后經(jīng)過兩路二維卷積和非線性運算,將輸出相乘后經(jīng)過ReLU 激活函數(shù),得到掩碼。最終的掩碼編碼器特征是通過掩碼和編碼器輸出之間的逐元素乘法獲得的。

2.4 解碼器

解碼器由一個(1,1)卷積層和一個Dense block組成,其中Dense block 與編碼器中的相同。分離層輸出的特征通過Dense block 重構(gòu)為分離語音特征。然后采用卷積核大小為(1,1)的二維卷積濾波器將分離語音特征的通道維數(shù)恢復(fù)為1,最后通過重疊相加法得到最終語音波形。

3 實驗與結(jié)果分析

3.1 實驗配置

為了證明本文所提出的語音分離網(wǎng)絡(luò)對不同語種具有普適性,使用了英文數(shù)據(jù)集和中文數(shù)據(jù)集進行了評估,其中英文數(shù)據(jù)集來源于WSJ0 數(shù)據(jù)語料庫[18],中文數(shù)據(jù)集基于DiDiSpeech 中文語音數(shù)據(jù)庫[19]創(chuàng)建。

實驗所使用的英文數(shù)據(jù)集是從WSJ0 數(shù)據(jù)語料庫中隨機選擇不同說話者的語音進行混合,混合信號的信噪比(Signal-Noise Ratio,SNR)在-5 dB至5d B 之間隨機生成,其中訓(xùn)練集為10 000 條語音,測試集和驗證集各為1 000 條語音。為了保證實驗的一致性,將數(shù)據(jù)集的采樣率統(tǒng)一降采樣至8 kHz。

中文數(shù)據(jù)集基于DiDiSpeech 中文語音數(shù)據(jù)庫[18]創(chuàng)建,數(shù)據(jù)集包括500 個說話者,每個說話者約有100 個WAV 格式的語音,每個語音時長為3~6 s,原始采樣率為48 kHz,在數(shù)據(jù)預(yù)處理時將其降采樣至8 kHz。從DiDiSpeech 數(shù)據(jù)集中隨機選擇兩條不同語音樣本生成混合語音,在-2.5 dB 至2.5 dB 之間均勻采樣各種信噪比。生成的混合數(shù)據(jù)集包含訓(xùn)練、驗證和測試集中的5 000 個、800 個和800 個話語。

語音分離的目標是提高語音信號的清晰度。為了更好地評估本文提出的模型,實驗采用排列不變 訓(xùn) 練(utterance-level Permutation Invariant Training,uPIT)[20]來訓(xùn)練所提出的模型,以最大化尺度不變信噪比(Scale-Invariant Singal-Noise Ratio,SI-SNR)[9]。

在分割和重疊相加階段,每個幀的大小為512個樣本(64 ms)、重疊256 個樣本(32 ms)。分離層設(shè)置雙路徑ConformerN為5 個,每個Conformer塊包含4 個注意力頭。

在訓(xùn)練階段,將周期epoch 設(shè)置為100,使用Adam[21]作為優(yōu)化器。訓(xùn)練停止的標準是在連續(xù)10個epoch 的驗證集上損失函數(shù)(SI-SNR)沒有下降。初始學(xué)習(xí)率為0.001,每兩個epoch 衰減0.98。

3.2 實驗結(jié)果分析

為了更好地衡量本文提出的DPCFNet 的分離性能,使用SI-SNR 和信號失真比(Signal-distortion ratio,SDR)作為評價指標,這兩個指標經(jīng)常用于各種語音分離系統(tǒng)。

首先將本文模型與幾種基線模型在英文數(shù)據(jù)集上進行得分比較。實驗結(jié)果如表1 所示,本文模型在SI-SNR 和SDR 指標上分別達到了18.2 dB 和18.6 dB,兩者得分均優(yōu)于所有基線模型。結(jié)果表明,本文所提出的模型在保持尺寸最小的情況下,仍然能夠獲得更好的語音質(zhì)量。

表1 在英文數(shù)據(jù)集上與其他模型的SI-SNR、SDR 和模型大小的比較

為了證明DPCFNet 模型具有通用性,本文在中文數(shù)據(jù)集上進行了相關(guān)實驗,并以兩個經(jīng)典的語音分離模型Conv-Tasnet[10]和DPTNet[6]作為基線模型。表2 列出了DPCFNet 和兩個基線模型的平均SI-SNR 和SDR 得分。結(jié)果表明,本文提出的將Transformer 和卷積相結(jié)合的模型DPCFNet 仍然明顯優(yōu)于基線模型。這說明本文方法具有通用性,并進一步證明了該方法的有效性。

表2 在中文數(shù)據(jù)集上與其他模型的比較

為了驗證Dense block 相對于原始密集連接塊具有更低的計算復(fù)雜度,本文設(shè)計了兩個模型,分別由10 個Dense block(模型1)和10 個密集連接塊(模型2)組成。通過在Intel(R) Core(TM) i9-12900KF CPU 上處理一條4 s 的中文語音,并進行100 次實驗取平均值,得到計算時間。從表3 的結(jié)果中可以發(fā)現(xiàn),相較于原始密集連接塊,Dense block 的參數(shù)數(shù)量減少了18%,計算時間縮短了24%。

表3 模型大小和計算時間的比較

4 結(jié)語

本文提出了一種基于雙路徑Conformer 和Dense block 的神經(jīng)網(wǎng)絡(luò),用于端到端多說話人單耳語音分離,該網(wǎng)絡(luò)能充分地提取長序列語音的局部和全局上下文信息。在英文和中文數(shù)據(jù)集上的兩個實驗證明了所提出模型的有效性和通用性。此外,與其他現(xiàn)有模型相比,本文提出的模型在性能更好的情況下具有更少的可訓(xùn)練參數(shù)。在未來的工作中,可以考慮擴展這種機制以進行實時處理。

猜你喜歡
掩碼集上編碼器
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
低面積復(fù)雜度AES低熵掩碼方案的研究
基于FPGA的同步機軸角編碼器
基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計*
復(fù)扇形指標集上的分布混沌
基于PRBS檢測的8B/IOB編碼器設(shè)計
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
電子器件(2015年5期)2015-12-29 08:42:24
基于掩碼的區(qū)域增長相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究
定兴县| 成都市| 侯马市| 建阳市| 吴桥县| 加查县| 荆州市| 长治市| 西华县| 横山县| 南皮县| 丹阳市| 黎川县| 湘阴县| 香格里拉县| 连城县| 龙门县| 曲靖市| 滨州市| 平南县| 筠连县| 吉安县| 保定市| 敦煌市| 修武县| 安图县| 错那县| 浦北县| 长海县| 阿坝县| 泗阳县| 名山县| 密山市| 眉山市| 屯留县| 夏津县| 甘孜县| 察隅县| 雷山县| 巫溪县| 施甸县|