国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

應(yīng)用ResNet和CatBoost檢測重放語聲?

2023-09-15 12:36:32孫曉川付景昌宋曉婷宗利芳李志剛
應(yīng)用聲學(xué) 2023年4期
關(guān)鍵詞:聲頻分類器準(zhǔn)確率

孫曉川 付景昌 宋曉婷 宗利芳 李志剛

(1 華北理工大學(xué)人工智能學(xué)院 唐山 063210)

(2 河北省工業(yè)智能感知重點(diǎn)實(shí)驗(yàn)室 唐山 063210)

0 引言

近年來,隨著語聲技術(shù)的發(fā)展,越來越多的用戶選擇使用語聲交互的手段進(jìn)行人機(jī)交互。作為一種確認(rèn)身份的語聲交互方法,自動說話人確認(rèn)(Automatic speaker verification,ASV)在現(xiàn)實(shí)生活中有著越來越廣泛的應(yīng)用[1]。ASV系統(tǒng)通過提取語聲特征后計(jì)算相似度來確認(rèn)說話人身份。針對ASV系統(tǒng)的特點(diǎn),存在一些欺騙方法,例如人為模仿語聲、重放語聲、語聲合成和語聲轉(zhuǎn)化[2]。其中,重放語聲攻擊易于實(shí)現(xiàn),已被證明對ASV系統(tǒng)具有較大的危害性[3]。

重放語聲檢測的研究吸引了很多研究人員。Ji等[4]提出了一個使用多種聲學(xué)特征和分類器的集成學(xué)習(xí)模型用以檢測重放語聲。Ahmed 等[5]提出了一種根據(jù)真實(shí)語聲和重放語聲之間的頻譜功率差異來檢測重放語聲的方法。Wang 等[6]提出一種基于雙對抗域適應(yīng)框架重放語聲檢測方法。上述方法適應(yīng)于檢測句子級的語聲,不適應(yīng)于對聲頻時(shí)長短、內(nèi)容信息少的詞級語聲檢測。Zhang等[7]使用智能手機(jī)的傳聲器來監(jiān)控用戶聲音的反射從而檢測重放語聲。Sahidullah 等[8]還提出了一種使用喉部傳聲器的重放語聲檢測方法。Chen等[9]提出了一種根據(jù)揚(yáng)聲器發(fā)出的磁場來進(jìn)行重放語聲的檢測方法。上述方法需要額外的特定設(shè)備或者要求用戶在使用時(shí)進(jìn)行額外的動作,實(shí)用性較差。

氣爆雜聲(Pop noise,PN)是一種由于各種呼吸噪聲被傳聲器捕捉,導(dǎo)致?lián)P聲器播放不必要的噪聲的現(xiàn)象。包含PN的語聲在低頻具有較高的能量。通過竊聽錄制語聲時(shí),攻擊者會將錄聲設(shè)備放置在距離用戶較遠(yuǎn)的位置,這將導(dǎo)致重放語聲中沒有PN。因此,PN能區(qū)分真實(shí)語聲和重放語聲。此外,檢測PN 要求的設(shè)備簡單,利用智能設(shè)備內(nèi)置傳聲器就足夠。Sayaka 等[10]提出利用PN 進(jìn)行重放語聲檢測。隨后他們提出了多通道PN 檢測方法和基于音素的PN 檢測方法[11-12]。Wang 等[13]進(jìn)一步應(yīng)用包含PN 的語聲幀的伽馬通頻率倒譜系數(shù)(Gammatone frequency cepstral coefficient,GFCC)進(jìn)行重放語聲檢測。Jiang 等[14]提出了一種基于PN 的反欺詐ASV系統(tǒng)。上述研究都是使用各自構(gòu)建的非公開數(shù)據(jù)集。在Interspeech2020上,為了促進(jìn)PN在重放語聲檢測中的應(yīng)用和研究,Akimoto等[15]提出了公開數(shù)據(jù)集POCO。在POCO 數(shù)據(jù)集上,研究人員做了一些工作。Gupta 等[16]提出基于低頻短時(shí)傅里葉變換(Short time Fourier transform,STFT)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)的重放語聲檢測模型。Khoria 等[17]研究了常數(shù)Q倒譜系數(shù)(ConstantQcepstral coefficients,CQCC)在不同的分類器下的檢測效果。雖然上述研究取得了一些成果,但檢測性能仍不理想,值得進(jìn)一步探索。

近年來,深度學(xué)習(xí)已成為主流技術(shù),在重放語聲檢測方面取得了一些成果。殘差網(wǎng)絡(luò)(Residual network,ResNet)由于能夠解決神經(jīng)網(wǎng)絡(luò)的梯度消失問題得到廣泛的使用。Chen等[18]研究了ResNet在高斯混合模型和深度神經(jīng)網(wǎng)絡(luò)上進(jìn)行重放語聲檢測的有效性。Alzantot 等[19]提出了3 種ResNet變體,利用3 種聲學(xué)特征來檢測重放語聲。Parasu等[20]提出了一種語譜圖(Spectrogram,Spec)作為輸入的輕型ResNet 架構(gòu),用于重放語聲檢測。然而,這些網(wǎng)絡(luò)中的全連接層包含大量參數(shù),因此在訓(xùn)練過程中容易出現(xiàn)過擬合。分類梯度提升算法(Categorical boosting,CatBoost)是一種基于集成學(xué)習(xí)的方法,通過在樹的新拆分處使用貪心方法來解決特征組合的指數(shù)增長[21-22]?;贑atBoost的分類器可以有效降低全連接層造成的過擬合風(fēng)險(xiǎn)。受此啟發(fā),本文探索了ResNet-CatBoost 模型在重放語聲檢測中的可行性。

本文提出了一種基于ResNet和CatBoost的重放語聲檢測框架。該框架由特征提取、重放語聲檢測模型兩個模塊構(gòu)成。本文主要貢獻(xiàn)如下:(1) 受到PN 的啟發(fā),提出了一種新的語聲幀選擇方法。(2) 將ResNet 進(jìn)行改進(jìn),激活函數(shù)改為LeakyReLU,減少殘差塊的數(shù)量,并加入了自我注意機(jī)制(Self-attention mechanism,SAM)。(3)提出了一個基于ResNet和CatBoost 的混合檢測模型來進(jìn)行重放語聲檢測。(4) 研究了不同的聲學(xué)特征、詞匯和性別、語聲幀選擇方式以及頻率范圍對重放語聲檢測效果的影響。(5) 研究了錄制設(shè)備與說話人距離、重放設(shè)備質(zhì)量對重放語聲檢測效果的影響。

1 特征提取

1.1 語聲信號預(yù)處理

語聲信號預(yù)處理,包括預(yù)加重、分幀與加窗3個步驟。預(yù)加重是為了提升語聲信號中的高頻部分,使信號的頻譜變得平坦,便于進(jìn)行頻譜分析。預(yù)加重一般通過一個一階預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),公式如下:

其中,y(m)是預(yù)加重后的信號,x(m)是預(yù)加重前的信號,0.94 ≤α≤0.97。

分幀是將語聲信號分割為幀的過程。在分幀過程采用幀疊加方法避免在每一幀的交點(diǎn)處丟失聲頻的特性。根據(jù)文獻(xiàn)[3],幀長越大頻域分辨能力越強(qiáng),重放語聲檢測效果越好。本文采用100 ms 的幀長、50 ms的幀移進(jìn)行分幀處理。為了抑制在分幀過程中發(fā)生的頻譜泄露問題,采用漢明加窗方法。

1.2 語聲數(shù)據(jù)幀選擇

為了保證模型輸入的數(shù)據(jù)長度一致,同時(shí)為提升檢測的效果,受到文獻(xiàn)[15]啟發(fā),本文提出了一種選擇語聲數(shù)據(jù)幀的方法。語聲信號在預(yù)處理后,通過快速傅里葉變換得到頻譜,公式如下:

其中,xi為語聲幀,i指語聲幀的序號;N為第i幀語聲中采樣點(diǎn)總數(shù);k為第i幀語聲中采樣點(diǎn)序號。

經(jīng)過快速傅里葉變換之后,得到了在一定頻率范圍內(nèi)每幀的能量向量。用Ei定義在頻率范圍[0,fmax]內(nèi)的低頻平均能量(Low frequency average energy,LFAE),其中i是每個幀序號。根據(jù)文獻(xiàn)[10],fmax應(yīng)設(shè)置為低于預(yù)期頻率,排除來自諧波內(nèi)容的能量。實(shí)驗(yàn)中fmax取40 Hz。對i=1,2,··,L(L是語聲幀數(shù)量),計(jì)算Ei。找出Ei中前10 個最大的元素,其幀序號i即代表選取的語聲數(shù)據(jù)幀。最后,將選擇的10 個語聲幀按照語聲幀序號由小到大進(jìn)行排序。語聲幀選擇的流程如圖1所示。

圖1 語聲幀選擇流程Fig.1 Audio frame selection process

1.3 聲學(xué)特征提取

本文研究了3種不同的聲學(xué)特征梅爾頻率倒譜數(shù)(Mel frequency cepstral coefficients,MFCC)、線性倒譜系數(shù)(Linear frequency cepstral coefficients,LFCC)、GFCC 在重放語聲檢測方面的效果。輸入語聲幀為1.2節(jié)中選擇的語聲幀。根據(jù)文獻(xiàn)[10],3種特征均只使用中心頻率范圍為0~40 Hz的濾波器。

2 重放語聲檢測模型

本文提出了一種結(jié)合了ResNet和CatBoost的重放語聲檢測模型。在結(jié)構(gòu)上,ResNet 是特征提取器,它由一些殘差塊(Residual block,ResBlock)組成。圖2 顯示了整個ResNet 及其ResBlock 的結(jié)構(gòu)。ResBlock 可以分為兩個部分:直接映射部分h和殘差部分F,每個ResBlock可以表示如下:

圖2 ResNet 模型結(jié)構(gòu)Fig.2 ResNet model structure

其中,xl和xl+1分別是第l個單元的輸入和輸出,f是激活函數(shù)。

與傳統(tǒng)的ResNet 不同,本文使用的ResNet 使用了LeakyReLU激活函數(shù)。通過這種方式,可以盡可能多地保留特征信息。此外,采用PreActBlock來代替原來的ResBlock,其中BN 層和LeakyReLU層被放置在卷積層的前面。本文的初步實(shí)驗(yàn)工作表明,新的ResBlock可以有效地緩解潛在的數(shù)據(jù)過擬合問題。最后,并非所有的語聲幀都提供相同的區(qū)分信息。例如,非語聲幀和短暫停頓區(qū)分性小,而一些語聲內(nèi)容在重放語聲檢測中更具區(qū)分性。ResNet中使用自我注意力池化(Self-attentive pooling,SA Pooling)層可以使較高的權(quán)重被分配給特定幀以獲得更好的特征表示。

ResNet 的結(jié)構(gòu)參數(shù)如表1 所示。輸入是大小為10×60 的聲學(xué)特征矩陣。輸入首先通過卷積層Conv1。Conv1 的輸出通過6 個改進(jìn)的PreAct-Block。最后一個PreActBlock的輸出被送入輸出卷積層Conv2,隨后通過SA 池化層。來自SA 池化層的輸出被提供給256 維的全連接(Fully connected,FC)層FC1,最后將FC2層的2維輸出使用Softmax轉(zhuǎn)換成概率。

表1 ResNet 模型參數(shù)Table 1 Parameters of ResNet model

CatBoost 算法是一種基于梯度提升決策樹(Gradient boosting decision tree,GBDT)的算法,在結(jié)構(gòu)上是分類器。通過采用排序提升(Ordered boosting)方法,CatBoost 解決了傳統(tǒng)GBDT 算法的過擬合問題。

算法1 顯示了ResNet+CatBoost 訓(xùn)練的偽代碼。ResNet 模型首先被訓(xùn)練成一個特征提取器,將輸入嵌入到合適的表征中,包括數(shù)據(jù)集劃分和ResNet 訓(xùn)練(第1~6 行)。訓(xùn)練完成后,從訓(xùn)練的ResNet 模型中去除最后一個全連接層FC2,將所有數(shù)據(jù)轉(zhuǎn)換成256 維的特征向量,即分別用于訓(xùn)練、驗(yàn)證和測試的特征向量F1、F2和F3(第7~16行)。基于這些特征,使用自動機(jī)器學(xué)習(xí)庫FLAML可以得到最優(yōu)的CatBoost 模型(第17~18 行)[23]。最后,通過CatBoost 輸出語聲X是真實(shí)語聲的概率p(bonafide|X)與重放語聲的概率p(replay |X)(第19行)。求二者的對數(shù)似然比公式如下:

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)

實(shí)驗(yàn)平臺硬件配置:Intel(R) Core(TM) i7-8750H CPU@ 2.2 GHz;32 GB 2667 MHz 內(nèi)存;RTX2070 Max-Q 獨(dú)立顯卡;64位Windows 操作系統(tǒng)。軟件方面:Anaconda3為開發(fā)平臺,深度學(xué)習(xí)開源框架Pytorch 和語聲特征提取框架Spafe 為程序框架,Pycharm為軟件環(huán)境。

為了驗(yàn)證本文方法的有效性,數(shù)據(jù)集選用公開數(shù)據(jù)集POCO(Pop Noise Corpus)[15]。因?yàn)閿?shù)據(jù)集中0226_5 和0207_1 兩個說話人部分錄聲數(shù)據(jù)丟失,本文選擇完整錄制的聲頻作為實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)由32 名女性和31 名男性錄制,錄制者的英語流利程度各不相同,口音也不同,年齡從18 歲到61歲不等。每個人重復(fù)3次錄制了包含44個音素的聲頻。圖3 表示數(shù)據(jù)集POCO 錄制過程。本文用到的實(shí)驗(yàn)數(shù)據(jù)包含兩種類型,分別是RC-A和RP-A。前者是用AT4040 傳聲器錄制的高音質(zhì)聲頻。該數(shù)據(jù)子集代表了具有PN 的真正的說話人。說話人距離傳聲器10 cm。RP-A 是用位于說話人和傳聲器之間的TASCAM TM-AG1型號過濾器過濾說話人聲音后用AT4040 傳聲器錄制的聲頻。該子數(shù)據(jù)集模擬了攻擊者的竊聽(eavesdropping)場景。在此場景中目標(biāo)說話人的聲音被較為完美錄制并重放,錄制的重放語聲中中間設(shè)備和環(huán)境的卷積和加性失真信號較少。說話人距離傳聲器距離同樣是10 cm。聲頻文件數(shù)量是16632 個,每個聲頻文件包含一個WAV格式的單詞,采樣率為22.05 kHz。訓(xùn)練集、驗(yàn)證集和測試集分別占總數(shù)據(jù)的80%、10%、10%,具體的劃分如表2所示。

表2 POCO 數(shù)據(jù)集劃分Table 2 Dataset partition for POCO

圖3 POCO 數(shù)據(jù)集的記錄過程Fig.3 Recording process of the POCO dataset

此外,為了研究本文提出的方法對多種條件下重放語聲的檢測效果,本文也使用ASVspoof2019 PA數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)[24]。該數(shù)據(jù)集是由英國愛丁堡大學(xué)語聲技術(shù)研究中心發(fā)布的專門用于評估重放語聲檢測算法的數(shù)據(jù)集,具體的數(shù)據(jù)集劃分方式如表3所示。

表3 ASVspoof2019 PA 數(shù)據(jù)集劃分Table 3 Dataset partition for ASVspoof 2019 PA

3.2 評價(jià)指標(biāo)

選擇準(zhǔn)確率(Accuracy rate,AR)與等錯誤率(Equal error rate,EER)作為重放語聲檢測方法的主要評價(jià)指標(biāo)。另外,在ASVspoof2019 PA 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)時(shí),也使用了串聯(lián)檢測代價(jià)函數(shù)(tandem detection cost function,t-DCF)作為指標(biāo)[25]。

AR 是預(yù)測正確的語聲數(shù)占總語聲數(shù)的比重,計(jì)算如下:

EER 通過調(diào)整閾值θ使得錯誤拒絕率Pmiss與錯誤接受率Pfa相同時(shí)得到,如下:

其中,θEER表示錯誤拒絕率Pmiss與錯誤接受率Pfa相等時(shí)的檢測系統(tǒng)閾值。

3.3 特征嵌入可視化

采用t 分布隨機(jī)近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)可視化方法對不同的聲學(xué)特征進(jìn)行可視化。實(shí)驗(yàn)中使用了來自POCO測試集的1663條語聲,包括842條重放語聲和821 條真實(shí)語聲。圖4 顯示了不同語聲特征的T-SNE 特征可視化結(jié)果。在圖4(a)中代表真實(shí)語聲和重放語聲的點(diǎn)是高度分散,相互交錯,這意味著基線方法中的LFAE 特征難以區(qū)分兩種語聲。圖4(b)~(d)所示是通過ResNet分別將MFCC、LFCC、GFCC 進(jìn)一步提取后的特征。在圖4(d)中,通過ResNet 和GFCC 出現(xiàn)了一個關(guān)于真實(shí)語聲的緊湊聚類,四周只存在少量重放語聲的點(diǎn),這表明真實(shí)語聲有很好的表征。圖4(b)~(c)中,真實(shí)語聲的點(diǎn)與重放語聲的點(diǎn)相混合,未出現(xiàn)緊湊的聚類。因此,經(jīng)過ResNet 提取的GFCC 特征是后續(xù)CatBoost分類的合適特征。

圖4 對重放語聲和真實(shí)語聲不同特征的T-SNE 可視化Fig.4 T-SNE visualization of different features for replay voice and genuine voice

3.4 不同算法檢測結(jié)果分析

為了驗(yàn)證該模型在重放語聲檢測上的有效性,與其他檢測算法進(jìn)行了比較,如表4 所示。從表中可知,GFCC+ResNet+CatBoost 方法檢測效果最好。與基線相比,本文提出的方法的AR提高了13.95%,EER 降低了14.49%。與同樣使用GFCC 特征的GFCC+SVM 方法相比,本文提出的方法也有明顯提高。此外,本文的方法比使用低頻STFT 特征以及CNN 分類器的方法AR 提升了5.39%。本文方法的檢測效果也超過了目前效果最好的CQCC+LCNN 方法。最后,與其他3 種基于ResNet 的方法[18-20]相比,本文的方法也有明顯優(yōu)勢。上述實(shí)驗(yàn)結(jié)果說明目標(biāo)說話人的聲音被較為完美錄制并重放情況下,本文提出的方法在檢測重放語聲性能上優(yōu)于經(jīng)典重放語聲檢測方法。

表4 不同算法在POCO 數(shù)據(jù)集上檢測結(jié)果Table 4 Detection results of different methods on the POCO dataset

本節(jié)也使用不同特征和分類器進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5 所示。從該表中,可以看出使用相同特征時(shí),ResNet+CatBoost 融合分類器效果最好,優(yōu)于單獨(dú)的ResNet分類器和單獨(dú)的CatBoost分類器。此外,從整體上看,選擇合適的聲學(xué)特征中有助于提高分類器的檢測能力。與使用其他兩種聲學(xué)特征相比,GFCC聲學(xué)特征在檢測效果上表現(xiàn)更好。

表5 不同特征和分類器檢測結(jié)果Table 5 Detection results under different features and classifiers

3.5 不同詞匯和性別檢測結(jié)果分析

本節(jié)評估了詞匯和性別對模型檢測性能的影響。圖5 顯示了兩個性別說話人的每個單詞和所有單詞的檢測準(zhǔn)確率。對于男性說話人,所有詞匯平均準(zhǔn)確率為89.04%,單個詞匯平均準(zhǔn)確率均超過了80%。而女性說話人的檢測準(zhǔn)確率較差,所有詞匯平均準(zhǔn)確率為86.10%,有6 個詞匯的平均準(zhǔn)確率低于80%,特別是‘end’的準(zhǔn)確率只有61.54%。

圖5 在不同詞匯和性別下檢測準(zhǔn)確率Fig.5 Detection accuracy under various words and genders

通過研究錯誤判斷的數(shù)據(jù),找出了兩個可能導(dǎo)致錯誤判斷的原因。首先,一些說話人說話輕柔,這使得他們的聲音更容易被背景噪聲所掩蓋。其次,與男性相比,女性的聲音頻率更高。本文的方法使用了低頻GFCC特征,一些女性說話人語聲中的信息可能丟失。未來,將嘗試提出一種更有效的基于不同性別的檢測方法。

3.6 不同語聲幀選擇及排序方法檢測結(jié)果分析

在POCO 數(shù)據(jù)集上,采用4 種語聲幀選擇及排序方法的實(shí)驗(yàn)結(jié)果如表6所示。從表中可以看出,使用本文提出的語聲幀選擇方法并按照3 種方式排序時(shí)檢測效果與使用隨機(jī)語聲幀選擇方法相比均有所提升。在使用本文提出的語聲幀選擇方法時(shí),3種幀排序方法中按幀序號排序檢測效果最好,按能量從低到高排序效果次之,按能量從高到低排序效果最差。結(jié)果說明合理選擇語聲數(shù)據(jù)幀并且按照原有的幀序號排序可以提高重放語聲檢測的效果。

表6 不同語聲幀選擇及排序方法的檢測結(jié)果Table 6 Detection results under different voice frame selection and sorting methods

3.7 不同頻率范圍下的檢測結(jié)果

在POCO 數(shù)據(jù)集上,分別使用文獻(xiàn)[10]中設(shè)置的0~40 Hz,文獻(xiàn)[13]中設(shè)置的0~103 Hz 以及最高頻率為采樣率一半的11025 Hz 三種范圍的GFCC特征,檢測的性能如表7 所示。從表中可以看出使用0~40 Hz 范圍的GFCC特征時(shí),AR 和EER 效果最好,說明低頻區(qū)域的聲學(xué)特征區(qū)分真實(shí)語聲和重放語聲的效果更好。

表7 不同頻率范圍下的檢測結(jié)果Table 7 Detection results under different frequency ranges

3.8 ASVspoof2019 PA 數(shù)據(jù)集上的檢測結(jié)果分析

為研究本文提出的方法在多種重放條件下的檢測效果,在ASVspoof2019 PA 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。因?yàn)锳SVspoof2019 PA 數(shù)據(jù)集中聲頻長度相差較大,在該數(shù)據(jù)集上選擇部分語聲幀作為輸入可能會丟失重要的信息。因此,選擇最長聲頻提取的GFCC 特征矩陣的行數(shù)220 作為所有GFCC 特征的行數(shù),其他提取的GFCC 特征填充0 直到成為220×60 的特征矩陣。為了輸出維度的匹配,Conv2層卷積核大小改為9×3,其他設(shè)置相同。與其他檢測算法進(jìn)行了整體上的檢測性能比較,如表8所示。與基線方法CQCC+GMM、LFCC+GMM 相比,本文方法的EER 與t-DCF 均有明顯的改進(jìn)。本文方法與同樣使用ResNet的STFT+ResNet相比,檢測性能也有比較明顯的改進(jìn)。最后,與其他兩種基于深度學(xué)習(xí)分類器方法的Spec+CNN、STFT-CapsNet相比,本文提出的方法也有一定的提高。上述實(shí)驗(yàn)結(jié)果說明雖然本文提出的方法不是專門針對ASVspoof2019 PA數(shù)據(jù)集提出,也對ASVspoof2019 PA 數(shù)據(jù)集中多種條件的重放語聲攻擊具有一定的防御能力。

表8 不同算法在ASVspoof2019 PA 數(shù)據(jù)集上檢測結(jié)果Table 8 Detection results of different methods on the ASVspoof2019 PA dataset

為評估錄聲距離和重放設(shè)備的質(zhì)量對重放語聲檢測效果的影響,也進(jìn)行了相應(yīng)的實(shí)驗(yàn)。ASVspoof2019 PA數(shù)據(jù)集中重放語聲攻擊類型有9種,由兩個字母表示。其中第一個字母表示錄音設(shè)備與說話人的距離(A:10~50 cm;B:50~100 cm;C:>100 cm),第二個字母代表重放設(shè)備的質(zhì)量(A:完美;B:高;C:低)。表9 顯示了本文提出的方法和基線方法在不同重放攻擊類型下的比較結(jié)果。因?yàn)楸碇猩婕暗恼Z聲全部為重放語聲,采用準(zhǔn)確率作為評價(jià)指標(biāo)。由表中可以看出,攻擊類型為AA、BA和CA 時(shí),兩種方法的準(zhǔn)確率均比較低,而攻擊類型為AB、BB 和CB 時(shí),兩種方法的準(zhǔn)確率明顯提高。這表明重放設(shè)備的質(zhì)量越高,重放語聲檢測的難度越大。另外,表中也可以看出,錄聲設(shè)備與說話人的距離越近,重放語聲檢測的準(zhǔn)確率越低。上述實(shí)驗(yàn)結(jié)果說明目標(biāo)說話人的聲音被近距離錄制且用高質(zhì)量重放設(shè)備重放后,引入的卷積和加性噪聲相應(yīng)的減少,加大了重放語聲檢測的難度。最后,表中也能看出本文方法對重放設(shè)備質(zhì)量和距離的敏感性弱于基線系統(tǒng),這表明了本文方法具有一定實(shí)用性。

表9 在不同重放攻擊類型下準(zhǔn)確率Table 9 Accuracy rate under different replay attack types

4 結(jié)論

本文通過ResNet 和CatBoost 的融合,提出了一種新的重放語聲檢測方法。首先,在本文提出的聲頻幀選擇方法中,通過STFT、LFAE 計(jì)算和幀排序?qū)Φ恼Z聲進(jìn)行預(yù)處理。其次,計(jì)算這些幀的低頻GFCC 聲學(xué)特征。在此基礎(chǔ)上,通過基于自注意機(jī)制ResNet進(jìn)一步提取GFCC特征中的特定信息。最后,將提取出的特征用于CatBoost 訓(xùn)練和分類,從而達(dá)到更好的檢測效果。通過對比實(shí)驗(yàn)結(jié)果說明了該方案的有效性。此外,本文還研究了性別、詞匯、語聲幀選擇方法、頻率范圍、錄制距離和重放設(shè)備的質(zhì)量對實(shí)驗(yàn)結(jié)果的影響。未來的工作中將提出一種更有效的基于不同性別的重放語聲檢測方法。

猜你喜歡
聲頻分類器準(zhǔn)確率
一種新型蒸汽聲頻清灰裝置在鍋爐吹灰上的應(yīng)用
翼柱型與環(huán)向開槽型燃燒室聲學(xué)特性對比
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
初冬游河套
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
宁夏| 广东省| 上虞市| 资中县| 武陟县| 东光县| 彭山县| 崇明县| 贵德县| 元谋县| 阿尔山市| 潞城市| 凯里市| 桃园县| 牡丹江市| 会宁县| 永泰县| 巴东县| 治县。| 南雄市| 嘉黎县| 叙永县| 胶南市| 苍梧县| 济源市| 化德县| 抚松县| 巍山| 噶尔县| 荆州市| 南京市| 汽车| 高密市| 新和县| 营山县| 阜康市| 清徐县| 常山县| 平湖市| 花垣县| 垫江县|