国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種利用SE-Res2Net的合成語(yǔ)音檢測(cè)系統(tǒng)

2022-09-09 01:45:28超,高
無(wú)線電工程 2022年9期
關(guān)鍵詞:雙通道集上分類(lèi)器

梁 超,高 勇

(四川大學(xué) 電子信息學(xué)院,四川 成都 610065)

0 引言

說(shuō)話人識(shí)別(Automatic Speaker Verfication,ASV)技術(shù)目前在公共服務(wù)、司法鑒定和貨幣交易等領(lǐng)域的應(yīng)用十分廣泛,但與此同時(shí)也受到合成語(yǔ)音的頻繁攻擊,特別是面對(duì)諸如重放攻擊[1]、語(yǔ)音轉(zhuǎn)換[2]和語(yǔ)音合成[3]等攻擊語(yǔ)音時(shí),傳統(tǒng)的ASV系統(tǒng)難以招架。目前常用的方法是在ASV系統(tǒng)前串聯(lián)一個(gè)獨(dú)立的、互不干擾的合成語(yǔ)音檢測(cè)系統(tǒng),首先將待檢測(cè)語(yǔ)音輸入到合成語(yǔ)音檢測(cè)系統(tǒng)進(jìn)行安全性驗(yàn)證,若該語(yǔ)音通過(guò)合成語(yǔ)音檢測(cè)系統(tǒng),則被判為真實(shí)語(yǔ)音,然后再輸入到ASV系統(tǒng)中進(jìn)行說(shuō)話人匹配。

為了促進(jìn)抗欺騙檢測(cè)的研究,國(guó)際上每?jī)赡昃蜁?huì)舉辦欺騙語(yǔ)音檢測(cè)的ASVspoof挑戰(zhàn)賽。ASVspoof2015[4]重點(diǎn)研究了語(yǔ)音合成和語(yǔ)音轉(zhuǎn)換攻擊的對(duì)策。ASVspoof2017主要研究了重放語(yǔ)音攻擊的對(duì)策。ASVspoof2019[5]是第一個(gè)同時(shí)考慮研究3種欺騙攻擊的挑戰(zhàn)賽,評(píng)價(jià)指標(biāo)除之前的等錯(cuò)誤概率(Equal Error Rate,EER)外,還引入了最小串聯(lián)成本檢測(cè)函數(shù)(tandem Detection Cost Function,t-DCF)來(lái)表征整個(gè)系統(tǒng)的性能。本文使用的數(shù)據(jù)庫(kù)是ASVspoof2019的邏輯訪問(wèn)數(shù)據(jù)庫(kù)(Logical Access,LA)。

常見(jiàn)的合成語(yǔ)音檢測(cè)系統(tǒng)可分為前端特征提取和后端分類(lèi)器。文獻(xiàn)[6]提出了一種新的信號(hào)分析方法——經(jīng)驗(yàn)?zāi)J椒纸?(Empirical Mode Decomposition,EMD) 法,該方法依據(jù)信號(hào)的時(shí)間尺度特征進(jìn)行信號(hào)分解,無(wú)需預(yù)先設(shè)置基函數(shù),與傳統(tǒng)的分析工具有著本質(zhì)的區(qū)別。本文所用的語(yǔ)音特征先對(duì)信號(hào)進(jìn)行EMD,然后分別計(jì)算基函數(shù)與信號(hào)的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient),再將皮爾遜相關(guān)系數(shù)處理后作為權(quán)值與基函數(shù)相乘疊加成新信號(hào),達(dá)到優(yōu)化的目的,接著對(duì)優(yōu)化后的語(yǔ)音信號(hào)提取梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)以及逆梅爾倒譜系數(shù)(Inverse Mel Frequency Cepstral Coefficients,IMFCC),并拼接為雙通道特征以此增加特征多樣性,便于神經(jīng)網(wǎng)絡(luò)提取到更加高級(jí)的特征和進(jìn)行泛化學(xué)習(xí)。

后端分類(lèi)器主要使用了SE-Res2Net[7]網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)通過(guò)堆疊卷積塊的分層方式獲取多尺度特征,具有著巨大優(yōu)勢(shì)。與CNN不同,Res2Net通過(guò)將殘差網(wǎng)絡(luò)[8]中的主卷積替換成多層的殘差結(jié)構(gòu)連接的卷積核組以此來(lái)提取多尺度特征,具有更少的參數(shù)量,Squeeze-and-Excitation Networks (SENet)[9]注意力機(jī)制通過(guò)給每個(gè)特征通道分配權(quán)值建立起通道之間的相關(guān)性,使得模型更加關(guān)注權(quán)值較大的特征通道,同時(shí)抑制權(quán)值較小的特征通道。將Res2Net與SENet組合成SE-Res2Net模塊,該模塊可以任意地添加到現(xiàn)有模型之中。實(shí)驗(yàn)表明,SE-Res2Net網(wǎng)絡(luò)適合作為合成語(yǔ)音檢測(cè)后端分類(lèi)器。

1 相關(guān)工作

文獻(xiàn)[10]提出了常數(shù)Q倒譜系數(shù)(Constant Q Cepstral Coefficient,CQCC),CQCC是基于常數(shù)Q變換(Constannt Q Transform,CQT)得到的倒譜系數(shù)。與傳統(tǒng)的MFCC相比,CQCC是一種時(shí)頻分析方法,可以提供時(shí)間分辨率和頻率分辨率,其在低頻段的頻率分辨率高,在高頻段的時(shí)間分辨高,可以有效檢測(cè)合成語(yǔ)言。線性頻率倒譜系數(shù)(Linear Frequency Cepstral Coefficient,LFCC)[11]首先通過(guò)計(jì)算信號(hào)短時(shí)傅里葉變換(Short Time Fourier Transform,STFT)的幅度譜,然后取對(duì)數(shù)并使用線性間隔的三角濾波器,最后進(jìn)行倒譜變換得到,該系數(shù)由于出色的性能,常作為合成語(yǔ)音檢測(cè)的前端特征。

高斯混合模型 (Gaussian Mixture Models,GMM)[12]由于訓(xùn)練速度快、使用廣泛,被用作ASVspoof2019的基線系統(tǒng),在合成語(yǔ)音檢測(cè)任務(wù)中,利用GMM分別擬合真實(shí)語(yǔ)音和合成語(yǔ)音2個(gè)模型。ConvLSTM[13]提出的目的是為了解決降水臨近預(yù)報(bào)問(wèn)題,將長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)公式中的Hadamard乘法改為卷積,不僅可以像LSTM一樣建立時(shí)序關(guān)系,而且也可以像卷積網(wǎng)絡(luò)一樣刻畫(huà)局部特征,其在獲取時(shí)空關(guān)系上比LSTM有更好的效果。LSTM[14]網(wǎng)絡(luò)通過(guò)在記憶單元中引入細(xì)胞狀態(tài)保存長(zhǎng)期的記憶信息,并利用門(mén)結(jié)構(gòu)自適應(yīng)地保留與遺忘細(xì)胞中有用和無(wú)用的狀態(tài)信息,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)期依賴的問(wèn)題。CNN[15]作為目前主流的神經(jīng)網(wǎng)絡(luò),在圖像識(shí)別和語(yǔ)音識(shí)別領(lǐng)域有著廣泛應(yīng)用。一般,隨著網(wǎng)絡(luò)層級(jí)的加深,模型的精度會(huì)不斷提升,但與此同時(shí)梯度消失或梯度爆炸的問(wèn)題愈加明顯,網(wǎng)絡(luò)甚至出現(xiàn)了退化。殘差網(wǎng)絡(luò)[8]的出現(xiàn)使得這種問(wèn)題得到了有效解決,在訓(xùn)練較深的網(wǎng)絡(luò)同時(shí),可以保持良好的性能。注意力機(jī)制[9]參考了人腦的信號(hào)處理機(jī)制,可以快速?gòu)娜中畔⒅泻Y選出當(dāng)前任務(wù)中重要的、關(guān)鍵的局部信息,深度學(xué)習(xí)中的注意力機(jī)制是通過(guò)分配權(quán)值來(lái)實(shí)現(xiàn)放大關(guān)鍵信息和抑制低價(jià)值信息,可以任意地插入到模型中以提升實(shí)驗(yàn)表現(xiàn)。

2 實(shí)驗(yàn)原理

2.1 特征設(shè)計(jì)

特征提取流程如圖1所示。

首先,對(duì)語(yǔ)音信號(hào)S進(jìn)行EMD分解,得到若干個(gè)基本模式分量:

[s0,s1,…,sn]=EMD(S)。

(1)

然后,計(jì)算每個(gè)基本模式分量與原語(yǔ)音信號(hào)的皮爾遜相關(guān)系數(shù):

[r0,r1,…,rn]=corrcoef[(s0,S),(s1,S),…,(sn,S)],

(2)

式中,r0,r1,…,rn分別是各模式分量與原信號(hào)的相關(guān)系數(shù)。計(jì)算加權(quán)系數(shù):

R=|r0|+|r1|+…+|rn|,

(3)

(4)

式中,α0,α1,…,αn分別是各模式分量的權(quán)值,基本模式分量加權(quán)組合成新信號(hào)X′:

X′=α0×s0+α1×s1+…+αn×sn。

(5)

預(yù)處理包括預(yù)加重、分幀和加窗。預(yù)加重的目的是補(bǔ)償高頻分量的損失,提高高頻分量。新信號(hào)X′經(jīng)預(yù)處理后為xi(m),下標(biāo)i表示分幀后的第i幀,通過(guò)快速傅里葉變換將時(shí)域數(shù)據(jù)轉(zhuǎn)變?yōu)轭l域數(shù)據(jù):

X(i,k)=FFT[xi(m)],

(6)

式中,k為頻域中第k條譜線。對(duì)每一幀F(xiàn)FT后的數(shù)據(jù)計(jì)算譜線能量:

E(i,k)=|X(i,k)|2。

(7)

把每幀譜線能量譜通過(guò)梅爾濾波器,并計(jì)算在Mel濾波器中的能量:

(8)

式中,Hm(k)表示梅爾濾波器的頻率響應(yīng)。最后把Mel濾波器的能量取對(duì)數(shù)后計(jì)算倒譜系數(shù):

(9)

式中,m為第m個(gè)梅爾濾波器(共M個(gè));i為第i幀;n為DCT后的譜線。其中,傅里葉變換的點(diǎn)數(shù)為2 048,梅爾濾波器與逆梅爾濾波器的濾波器個(gè)數(shù)都為100,提取倒譜系數(shù)一階、二階差分系數(shù)共60維;最后將2種特征拼接起來(lái)構(gòu)成三維特征,該特征為雙通道特征作為后端分類(lèi)器的輸入,這樣的特征相比于單個(gè)MFCC或IMFCC特征具有多樣性,有利于神經(jīng)網(wǎng)絡(luò)提取到更高級(jí)的特征。

2.2 SE-Res2Net

殘差塊與Res2Net塊的對(duì)比如圖2所示。

圖2(b)中,Res2Net網(wǎng)絡(luò)通過(guò)增加多個(gè)感受野的方式來(lái)提取多尺度特征。具體來(lái)說(shuō),通過(guò)使用更小的濾波器組來(lái)代替圖2(a)中的3×3濾波器,并且這些濾波器以殘差分層的結(jié)構(gòu)連接,以捕獲全局以及局部特征。主卷積塊部分在通過(guò)1×1卷積后,將特征沿通道方向均勻的分割成特征子集xi(i=1,2,…,m),其中m是總的分割子集數(shù),特征子集和原特征具有相同的空間大小,除了特征子集x1,其余子集都會(huì)經(jīng)過(guò)一個(gè)3×3卷積;除了特征子集x1和x2,其余特征子集xi都會(huì)先加上上一個(gè)經(jīng)過(guò)3×3卷積后的yi-1后再進(jìn)行3×3卷積,Ki表示第i個(gè)卷積核,上述過(guò)程可以表述為:

(10)

將yi拼接后通過(guò)1×1卷積來(lái)融合不同尺度的特征信息,最終得到具有不同感受野組合的特征信息。

在網(wǎng)絡(luò)的參數(shù)量方面,假設(shè)輸入輸出特征的通道數(shù)分別是I_C和O_C,對(duì)于圖2(a),其參數(shù)量為3×3×I_C×O_C,即9×I_C×O_C;對(duì)于圖2(b),其參數(shù)量為(I_C/s)×(O_C/s)×9×(s-1),顯然Res2Net具有更少的參數(shù)量。

2.3 后端分類(lèi)器

將Res2Net和SENet組合后如圖3所示,本文將該SE-Res2Net模塊堆疊組成后端分類(lèi)器,后端分類(lèi)器網(wǎng)絡(luò)圖如圖4所示。

SENet采用了特征重標(biāo)定的策略,通過(guò)學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征通道的重要程度。相比于單獨(dú)使用Res2Net,嵌入SENet使網(wǎng)絡(luò)具有更多的非線性,可以更好地?cái)M合特征通道間的相關(guān)性。目前主流的網(wǎng)絡(luò)結(jié)構(gòu)都是基于圖3的方式疊加構(gòu)造產(chǎn)生的,例如SE-BN-Inception,SE-ResNet以及本文中的SE-Res2Net等。

文獻(xiàn)[16]證實(shí)了SENet模塊的確可以給網(wǎng)絡(luò)帶來(lái)性能上的增益。

圖4 后端分類(lèi)器Fig.4 Back-end classifier

3 實(shí)驗(yàn)與結(jié)果分析

3.1 模型評(píng)價(jià)指標(biāo)

在合成語(yǔ)音檢測(cè)系統(tǒng)中,錯(cuò)誤接受率(False Acceptance Rate,FAR)和錯(cuò)誤拒絕率(False Rejection Rate,FRR)是2個(gè)重要的指標(biāo),其中FAR表示模型錯(cuò)誤接受合成語(yǔ)音的概率,F(xiàn)RR表示模型錯(cuò)誤拒絕真實(shí)語(yǔ)音的概率。EER是FAR與FRR相等時(shí)對(duì)應(yīng)的錯(cuò)誤概率,即:

EER=FAR(θ)=FRR(θ),

(11)

式中,θ為FAR與FRR相等時(shí)模型的閾值。ASVspoof2019大賽還使用了最小t-DCF衡量整個(gè)模型的性能,t-DCF的計(jì)算如下:

(12)

3.2 基于EMD分解的雙通道特征驗(yàn)證

實(shí)驗(yàn)采用的數(shù)據(jù)集是ASVspoof2019大賽的邏輯訪問(wèn)數(shù)據(jù)集,具體如表1所示。

表1 ASVspoof2019 LA數(shù)據(jù)集

Train,Dev.,Eval.分別表示訓(xùn)練集、開(kāi)發(fā)集和評(píng)估集。

前期搭建了Conv+ConvLSTM+FC(CCLSTM)和Conv+LSTM+FC(CRNN)兩個(gè)小型網(wǎng)絡(luò)結(jié)構(gòu)來(lái)驗(yàn)證基于EMD分解的MFCC+IMFCC雙通道特征的有效性,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

(a) CCLSTM

(b) CRNN

學(xué)習(xí)率為0.001,批次為32,共訓(xùn)練100個(gè)周期,訓(xùn)練完畢后分別在開(kāi)發(fā)集和測(cè)試集上獲得2項(xiàng)指標(biāo)。實(shí)驗(yàn)結(jié)果如表2和表3所示。

表2 不同特征在CCLSTM模型上開(kāi)發(fā)集與評(píng)估集的EER與t-DCF

表3 不同特征在CRNN模型上開(kāi)發(fā)集與評(píng)估集的EER與t-DCF

使用相同的網(wǎng)絡(luò)模型,基于EMD分解的MFCC+IMFCC雙通道特征效果相比于其他6種有一定的提升。與MFCC特征的結(jié)果相比,CCLSTM模型和CRNN模型在評(píng)估集上的EER指標(biāo)分別降低了27%和32%,t-DCF指標(biāo)分別降低了24%和6%。與IMFCC特征的結(jié)果相比,CCLSTM模型和CRNN模型在評(píng)估集上的EER指標(biāo)分別降低了37%和37%,t-DCF指標(biāo)分別降低了49%和23%。(EMD)MFCC+IMFCC特征是將信號(hào)進(jìn)行EMD分解后將模態(tài)分量直接疊加后產(chǎn)生的特征,(EMD)MFCC+IMFCC(P)和(EMD)MFCC+IMFCC相比,在2個(gè)模型的評(píng)估集上的2個(gè)指標(biāo)都有一定的提升,證明了對(duì)模態(tài)分量計(jì)算皮爾遜相關(guān)系數(shù)再進(jìn)行權(quán)值相加產(chǎn)生的特征更適合合成語(yǔ)音檢測(cè)任務(wù)。可見(jiàn)該雙通道特征是具有實(shí)用價(jià)值的。

3.3 融合實(shí)驗(yàn)與結(jié)果分析

倒譜處理在壓縮數(shù)據(jù)量的同時(shí),也造成了數(shù)據(jù)丟失,導(dǎo)致雙通道特征難以繼續(xù)提升。從實(shí)驗(yàn)結(jié)果來(lái)看,基于EMD的雙通道特征對(duì)實(shí)驗(yàn)的2個(gè)指標(biāo)的提升趨近于極限,要想進(jìn)一步提升實(shí)驗(yàn)效果,進(jìn)行多特征融合[17]是一個(gè)方向。

除了雙通道特征外,本文還引入了LFCC,CQCC和梅爾頻譜(Mel Frequency Analysis,FBank)進(jìn)行融合,4種特征的維度如表4所示。

表4 不同特征與維度

使用如圖4所示的后端分類(lèi)器,單個(gè)模型結(jié)果如表5所示??梢钥闯觯琇FCC提升最大,直接驗(yàn)證了LFCC適合合成語(yǔ)音檢測(cè)任務(wù)。與基線系統(tǒng)相比,LFCC在評(píng)估集上的EER和t-DCF分別降低了41%和59%?;贓MD分解的雙通道特征與基線系統(tǒng)相比,在評(píng)估集上的EER和t-DCF分別降低了29%和41%。接下來(lái)選擇表5中的結(jié)果融合,首先歸一化各個(gè)模型的打分結(jié)果再進(jìn)行等均值融合,最終的融合結(jié)果與其他文獻(xiàn)提出的Model1[8],Model2[18],Model3[19]以及ASVspoof 2019基線系統(tǒng)的CQCC++GMM和LFCC+6MM進(jìn)行對(duì)比,結(jié)果如表6所示。

表5 不同特征在SE-Res2Net上的EER與t-DCF

表6 融合模型的EER與t-DCF

Model1使用MFCC,CQCC和對(duì)數(shù)短時(shí)頻譜特征,后端分類(lèi)器使用了殘差網(wǎng)絡(luò);Model2使用了CQCC,MFCC和短時(shí)傅里葉變換對(duì)數(shù)譜特征,后端分類(lèi)器使用了SENet和擴(kuò)張殘差網(wǎng)絡(luò);Model3則使用了MFCC,IMFCC和LFCC特征,后端分類(lèi)器使用了殘差網(wǎng)絡(luò)和GMM模型。相比于這3種模型,本文使用的模型效果更好。由表6可以看出,與表5中單個(gè)特征在評(píng)估集上的結(jié)果相比,融合后模型的EER與t-DCF兩項(xiàng)指標(biāo)都有著較明顯提升,與基線系統(tǒng)CQCC+GMM相比,融合結(jié)果的評(píng)估集上的EER與t-DCF分別降低了約49%和64%。與基線系統(tǒng)LFCC+GMM相比,融合結(jié)果的評(píng)估集上的EER與t-DCF分別降低了約39%和61%。

4 結(jié)論

在前端特征提取上,本文設(shè)計(jì)了基于EMD分解的MFCC+IMFCC的雙通道特征,實(shí)驗(yàn)表明,該雙通道特征模型效果比MFCC和IMFCC好;在后端分類(lèi)器上,采用了SE-Res2Net網(wǎng)絡(luò);最后將不同模型的打分結(jié)果進(jìn)行了等均值融合來(lái)權(quán)衡不同模型的優(yōu)缺點(diǎn),進(jìn)一步提升模型性能。本文選取的前端特征和后端分類(lèi)器單一,并且沒(méi)有驗(yàn)證模型對(duì)重放語(yǔ)音的有效性,后續(xù)工作會(huì)選取更多的特征和分類(lèi)器進(jìn)行實(shí)驗(yàn),進(jìn)一步提升合成語(yǔ)音檢測(cè)系統(tǒng)的泛化性能。

猜你喜歡
雙通道集上分類(lèi)器
近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
BP-GA光照分類(lèi)器在車(chē)道線識(shí)別中的應(yīng)用
復(fù)扇形指標(biāo)集上的分布混沌
加權(quán)空-譜與最近鄰分類(lèi)器相結(jié)合的高光譜圖像分類(lèi)
結(jié)合模糊(C+P)均值聚類(lèi)和SP-V-支持向量機(jī)的TSK分類(lèi)器
采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
基于LLE降維和BP_Adaboost分類(lèi)器的GIS局部放電模式識(shí)別
分類(lèi)高考能否打通“雙通道”
玛沁县| 万州区| 清水河县| 贡山| 晋宁县| 赤壁市| 分宜县| 彭阳县| 博爱县| 遵化市| 寿宁县| 连平县| 桃园县| 玉田县| 栾城县| 甘孜| 都安| 满城县| 故城县| 沙田区| 普兰县| 大英县| 孟州市| 六安市| 宣武区| 云南省| 醴陵市| 鄂伦春自治旗| 平远县| 进贤县| 双柏县| 新余市| 八宿县| 武清区| 远安县| 游戏| 黔江区| 屯门区| 裕民县| 阿坝县| 巴塘县|