国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高斯濾波器組混合特征的錄音回放攻擊檢測(cè)研究

2021-03-18 08:04:12旭,蔣
計(jì)算機(jī)工程 2021年3期
關(guān)鍵詞:特征參數(shù)錄音高斯

陳 旭,蔣 曄

(南京財(cái)經(jīng)大學(xué)信息工程學(xué)院,南京 210023)

0 概述

聲紋識(shí)別即說(shuō)話(huà)人識(shí)別,是根據(jù)人說(shuō)話(huà)的聲音判定人身份的技術(shù),因其獲取成本低、安全系數(shù)高及使用便捷而應(yīng)用于安全、司法、通信等多個(gè)領(lǐng)域[1]。但在實(shí)際應(yīng)用中,聲紋識(shí)別系統(tǒng)容易受到聲音模擬[2]、語(yǔ)音合成[3]、聲音轉(zhuǎn)換[4]、錄音回放(含錄音拼接回放)等仿冒語(yǔ)音的攻擊,此類(lèi)攻擊極大地影響了聲紋識(shí)別系統(tǒng)本身的安全性,進(jìn)而也給采用聲紋識(shí)別技術(shù)進(jìn)行訪問(wèn)控制的系統(tǒng)帶來(lái)了安全隱患。錄音回放攻擊是指攻擊者使用高保真錄音設(shè)備錄制合法用戶(hù)進(jìn)入認(rèn)證系統(tǒng)時(shí)的語(yǔ)音,或通過(guò)其他手段獲得用戶(hù)的語(yǔ)音樣本,然后在聲紋身份認(rèn)證系統(tǒng)的拾音器端通過(guò)高保真功放回放,從而達(dá)到對(duì)聲紋身份認(rèn)證系統(tǒng)實(shí)施攻擊的目的。由于高保真錄音設(shè)備的普及,合法用戶(hù)語(yǔ)音極易被偷錄,錄音回放攻擊已成為聲紋識(shí)別技術(shù)中抗仿冒攻擊的首要解決問(wèn)題。

由英國(guó)愛(ài)丁堡大學(xué)、法國(guó)國(guó)家信息與自動(dòng)化研究所等組織發(fā)起的ASVspoof 是迄今為止對(duì)仿冒語(yǔ)音鑒別規(guī)模最大、最全面的挑戰(zhàn)賽[5]。ASVspoof 2015 是用語(yǔ)音合成、聲音轉(zhuǎn)換技術(shù)產(chǎn)生數(shù)字語(yǔ)音,直接輸入系統(tǒng)(不用麥克風(fēng))進(jìn)行邏輯層面的攻擊(Logical Access),ASVspoof2017 是使用錄音回放的方法,經(jīng)過(guò)麥克風(fēng)進(jìn)入系統(tǒng)進(jìn)行物理層面的攻擊(Physical Access)。在實(shí)際應(yīng)用中,語(yǔ)音合成及聲音轉(zhuǎn)換技術(shù)生成的語(yǔ)音也需要經(jīng)過(guò)重放環(huán)節(jié)轉(zhuǎn)化為Physical Access。國(guó)內(nèi)外研究學(xué)者如NAGAR SHETH 等人[6]用高通濾波器對(duì)高頻信息進(jìn)行提取,提取出來(lái)的HFCC 參數(shù)盡管能提高識(shí)別率,但是該參數(shù)特征會(huì)丟失語(yǔ)音部分特征信息。文獻(xiàn)[7-8]提出的常量Q 倒譜特征(Constant Q Cepstral Coefficients,CQCC)替代傅里葉變換增加了低頻域的分辨率,而實(shí)際上錄音回放攻擊語(yǔ)音與原始語(yǔ)音相比,由于存在錄音和回放這兩個(gè)額外過(guò)程,錄音設(shè)備和回放設(shè)備的頻響特性是非均勻的,使得其頻譜在低頻段和高頻段都會(huì)不同程度地出現(xiàn)衰減或畸變現(xiàn)象,因此僅僅強(qiáng)調(diào)低頻段頻譜信息是不充分的。文獻(xiàn)[9]重點(diǎn)研究了瞬時(shí)頻率余弦系數(shù)特征,以及倒譜特征常數(shù)Q 倒譜系數(shù)和MEL 頻率倒譜系數(shù),執(zhí)行所有這些功能的組合以獲得高精度的欺騙檢測(cè)。該方法單純地組合了各個(gè)特征系數(shù),特征過(guò)于冗余。文獻(xiàn)[10]使用Gammatone 濾波器仿真了人耳基底膜的特性,GFCC[11]模擬了人耳的聽(tīng)覺(jué)響應(yīng),具有較強(qiáng)的噪聲魯棒性。但是該特征在低頻段的分辨率要高于高頻段,模糊了高頻的特征,因而該方法在錄音回放攻擊中的效果達(dá)不到預(yù)期結(jié)果。

本文在真實(shí)語(yǔ)音和錄音回放語(yǔ)音差異化研究的基礎(chǔ)上,針對(duì)如何提高語(yǔ)音頻譜高頻信息,減少頻譜在低頻段和高頻段不同程度的衰減或畸變現(xiàn)象,提出兩種有效的特征參數(shù)G-IEFCC 和G-IFCC。為達(dá)到更好的檢測(cè)效果,本文研究基于Fisher 比的特征融合方法。

1 Fisher比混合倒譜特征

1.1 真實(shí)語(yǔ)音與錄音回放語(yǔ)音的差異化分析

原始語(yǔ)音和錄音回放語(yǔ)音在時(shí)域波形圖中的差異并不明顯,本文采用語(yǔ)譜圖探究?jī)烧咴陬l域中的差別。選取ASVspoof2017 中的一段語(yǔ)音:“Birthday parties have cupcakes and ice cream”。真實(shí)語(yǔ)音和錄音回放語(yǔ)音語(yǔ)譜圖分析如圖1 所示,其中,錄音設(shè)備為Rode smartlav,回放設(shè)備為VIFA M10MD-39-08 Speaker。

由圖1 對(duì)比分析可知,兩者的差異主要集中在高頻段上(4 000 Hz~8 000 Hz),中低頻略有差異且包含一些對(duì)于攻擊和真實(shí)語(yǔ)音之間的干擾信息,且在回放過(guò)程中會(huì)夾雜著噪聲。目前無(wú)論LPCC、MFCC,還是CQCC 都采用了強(qiáng)化低頻段頻譜信息的方法。而高頻段集中了真實(shí)語(yǔ)音和錄音回放語(yǔ)音的主要差異信息,這些特征無(wú)法有力刻畫(huà)兩者的個(gè)性信息。因此,傳統(tǒng)特征參數(shù)在錄音回放攻擊檢測(cè)實(shí)驗(yàn)中表現(xiàn)一般[12]。針對(duì)傳統(tǒng)方法的不足,本文在特征提取階段對(duì)頻率尺度和濾波器組進(jìn)行改進(jìn),使得設(shè)計(jì)的特征更能有效地區(qū)分真實(shí)語(yǔ)音和錄音回放語(yǔ)音。

圖1 真實(shí)語(yǔ)音和錄音回放語(yǔ)音語(yǔ)譜圖分析Fig.1 Analysis of real speech and recording playback speech spectrum

1.2 頻率尺度及高斯濾波器分析

傳統(tǒng)聲紋識(shí)別領(lǐng)域中使用MEL 頻率尺度提取語(yǔ)音特征。該特征參數(shù)較好地表達(dá)了語(yǔ)音的頻譜包絡(luò)結(jié)構(gòu),也一定程度上反映了人類(lèi)聽(tīng)覺(jué)系統(tǒng)的特點(diǎn)。但由于真實(shí)語(yǔ)音與錄音回放語(yǔ)音在頻譜包絡(luò)結(jié)構(gòu)上的高度相似性,以及錄音回放攻擊檢測(cè)需要具有超越人類(lèi)鑒別能力的水平,因此基于MEL 頻率尺度的參數(shù)在實(shí)驗(yàn)中所表現(xiàn)出的性能一般。而等效矩形帶寬(Equivalent Rectangular Bandwidth,ERB)頻率尺度對(duì)公共場(chǎng)合異常聲音鑒別有較強(qiáng)魯棒性[13]。鑒于以上分析,本文嘗試用高斯濾波器組代替?zhèn)鹘y(tǒng)三角濾波器組,為強(qiáng)化高頻段頻譜信息,采用ERB 頻率尺度代替?zhèn)鹘y(tǒng)MEL 頻率尺度,同時(shí)將ERB 尺度轉(zhuǎn)換成逆ERB 尺度,通過(guò)該過(guò)程提取的特征稱(chēng)之為高斯逆ERB 頻率倒譜系數(shù)(Gaussian-Inverse ERB Frequency Cepstral Coefficients,G-IEFCC)。為均衡細(xì)化高頻與低頻頻譜信息,用線(xiàn)性頻率代替?zhèn)鹘y(tǒng)MEL 頻率,通過(guò)該過(guò)程提取的特征稱(chēng)為高斯線(xiàn)性頻率倒譜系數(shù)(Gaussian-Linear Frequency Cepstral Coefficients,G-LFCC)。本文采用的3 種頻率轉(zhuǎn)換關(guān)系如下:

其中,F(xiàn)是實(shí)際頻率,F(xiàn)ERB是ERB 頻率,F(xiàn)IERB是逆ERB 頻率,F(xiàn)L是線(xiàn)性頻率,F(xiàn)max是語(yǔ)音信號(hào)的最大頻率。

傳統(tǒng)的特征參數(shù)提取主要是基于三角濾波器組,以MFCC 為例,如圖2 所示,其中,圖2(a)代表傳統(tǒng)MFCC 提取采用的濾波器,該濾波器低頻段分布密切,強(qiáng)調(diào)低頻部分,而高頻段分布稀疏,提升了低頻的差異卻忽略了差異明顯的高頻段。圖2(b)代表IMFCC 提取采用的濾波器,相對(duì)于圖2(a)的逆操作,在弱化低頻部分的同時(shí)強(qiáng)化了高頻部分。圖2(c)代表線(xiàn)性倒譜系統(tǒng)采用的濾波器,該率波器呈等帶寬分布和高低頻段信息平均分布。

圖2 三角濾波器組分析Fig.2 Triangle filter bank analysis

研究發(fā)現(xiàn),三角形狀的濾波器下降趨勢(shì)過(guò)于陡快,不夠平滑,因此傳統(tǒng)的三角濾波器會(huì)使相鄰子帶丟失部分聯(lián)系,高斯濾波器[14-15]的時(shí)頻寬積最小,既能減小信號(hào)的失真,又可以有效地選頻衰減。本文采用高斯濾波器組加強(qiáng)子帶聯(lián)系,以彌補(bǔ)三角濾波器的不足。高斯濾波器組頻率響應(yīng)如下:

其中,at為標(biāo)準(zhǔn)偏差,mt為第t個(gè)濾波器的邊界點(diǎn),其標(biāo)準(zhǔn)偏差at公式如下:

其中,n為方差,可由具體實(shí)驗(yàn)選取最優(yōu)值。如圖3所示,圖3(a)為G-IEFCC 選用的逆高斯濾波器組,圖3(b)為G-IFCC 選用的等寬高斯濾波器組。

圖3 高斯濾波器組分析Fig.3 Gaussian filter bank analysis

1.3 G-LFCC 和G-IEFCC 的提取

本文參數(shù)提取過(guò)程如圖4 所示。

圖4 混合參數(shù)提取過(guò)程示意圖Fig.4 Schematic diagram of extraction process of mixed parameters

本文參數(shù)提取具體過(guò)程如下:

1)預(yù)處理

在預(yù)處理階段采用預(yù)加重、分幀和加窗3 個(gè)步驟。在預(yù)處理階段,將數(shù)字語(yǔ)音信號(hào)x(n)通過(guò)一個(gè)高通濾波器,減少尖銳噪聲影響。

取幀長(zhǎng)n為256 個(gè)采樣點(diǎn),幀移為128 個(gè)采樣點(diǎn)。并加漢明窗減少Jibbs 效應(yīng)。

其中,w(n)是窗信號(hào),S(n)是加窗后的信號(hào)。

2)傅里葉變換

對(duì)經(jīng)過(guò)預(yù)處理后的信號(hào)S(n)進(jìn)行快速傅里葉變換得到頻譜:

其中,N是傅里葉變換點(diǎn)數(shù),k是頻率序號(hào)

傅里葉變換后將時(shí)域信號(hào)轉(zhuǎn)化為頻域分量得到頻譜,求頻譜的平方(|X(k)|2),即為能量譜。

4)頻率尺度變換及濾波器設(shè)計(jì)

G-LFCC 和G-IEFCC 的區(qū)別主要體現(xiàn)在頻率尺度的變換上,頻率尺度的變換使得后續(xù)進(jìn)行高斯濾波時(shí)呈現(xiàn)等寬高斯和逆高斯兩種形態(tài),其具體算法如下:

(1)設(shè)置相關(guān)參數(shù),采樣頻率Fs=16 000,頻域范圍Fl~Fh(Fl=0,F(xiàn)h=Fs/2),傅里葉點(diǎn)數(shù)N=256,濾波器個(gè)數(shù)M=27。

(2)由式(3)得出G-LFCC 的線(xiàn)性頻域Fl'~Fh',由式(2)得出G-IEFCC 的逆ERB 頻域

(3)將以上兩個(gè)頻域分別等分成M+2 個(gè)頻率值,由式(2)和式(3)的逆變換得出G-LFCC 對(duì)應(yīng)實(shí)際頻率Fa(i) 和G-IEFCC 對(duì)應(yīng)實(shí)際頻率Fb(i)(i=1,2,…,M+2)。

(4)計(jì)算頻率分辨率:

本文的研究對(duì)象確定為T(mén)F boys這一偶像團(tuán)體的粉絲群體。TF boys是目前首屈一指國(guó)內(nèi)偶像團(tuán)體,他們?cè)趫F(tuán)體的高熱度和廣泛的關(guān)注度以及粉絲的強(qiáng)大力量方面有著其他組合不可比擬的優(yōu)勢(shì),且其粉絲群體內(nèi)部的屬性構(gòu)成完善,因此,TF boys的粉絲社群無(wú)疑本研究最合適的研究對(duì)象。

(5)根據(jù)高斯濾波器式(4)、式(5)循環(huán)計(jì)算每個(gè)濾波器數(shù)組并組合成最終G-LFCC 的等寬高斯濾波器組Ha(t):

同理,得到G-IEFCC 的逆高斯濾波器組Hb(t):

其中,m=1,2,…,129,t=1,2,…,M。

5)對(duì)數(shù)功率譜

分別用以上兩種濾波器組進(jìn)行濾波,并對(duì)濾波后的能量取對(duì)數(shù)得到對(duì)數(shù)功率譜Pa(t)、Pb(t):

6)離散余弦變換

將所得的對(duì)數(shù)功率譜進(jìn)行離散余弦變換得到L階倒譜系數(shù),分別求出G-LFCC 和G-IEFCC 倒譜系數(shù):

其中,n=1,2,…,L,本文L取13。

1.4 Fisher 比混合特征

在聲紋識(shí)別中常會(huì)提取多維特征,可是在增加特征維數(shù)的過(guò)程中,各維特征的貢獻(xiàn)率不同,所以一般會(huì)對(duì)特征參數(shù)進(jìn)行特征選擇。其中,F(xiàn)isher 準(zhǔn)則就是常用的方法。Puzansky 利用方差分析進(jìn)行聲紋識(shí)別研究,提出了有效的Fisher 比[16],而在重放語(yǔ)音攻擊檢測(cè)中尚未發(fā)現(xiàn)有人研究,本文探究該方法是否可行。Fisher 比的計(jì)算公式如下:

其中,σbetween是類(lèi)間離散度,在聲紋識(shí)別中表示說(shuō)話(huà)人第k維參數(shù)類(lèi)間方差之和,σwithin是類(lèi)內(nèi)離散度,表示某個(gè)說(shuō)話(huà)人第k維參數(shù)類(lèi)內(nèi)方差和,在重放語(yǔ)音攻擊檢測(cè)中存在真實(shí)語(yǔ)音和重放語(yǔ)音兩類(lèi)。說(shuō)話(huà)人樣本總數(shù)為M,說(shuō)話(huà)人i擁有的語(yǔ)音段數(shù)量為ni,說(shuō)話(huà)人i的第k維特征參數(shù)均值為所有說(shuō)話(huà)人第k維特征參數(shù)均值為μk,說(shuō)話(huà)人i的第j段語(yǔ)音的第k維特征參數(shù)為。σbetween和σwithin計(jì)算公式如下:

Fisher 比越大,表明該維特征更能表征個(gè)性信息。而在重放語(yǔ)音攻擊檢測(cè)中,通過(guò)Fisher 比準(zhǔn)則,對(duì)比值進(jìn)行降序排列,用貢獻(xiàn)率來(lái)確定特征維數(shù),基于Fisher 比的特征可去除冗余信息,突出真實(shí)語(yǔ)音和回放語(yǔ)音的個(gè)性信息。本文計(jì)算G-LFCC 和GIEFCC 各維的Fisher 比,然后分別選擇Fisher 比較高的6 維特征,組合成最終12 維的融合特征。該融合特征通過(guò)G-IEFCC 的提取強(qiáng)化高頻段頻譜信息,通過(guò)G-LFCC 的提取均勻細(xì)化低頻段和高頻段信息,兩者結(jié)合更大限度地突出了真實(shí)語(yǔ)音和回放語(yǔ)音的差別,同時(shí)減少回放語(yǔ)音中因不同錄音設(shè)備、回放設(shè)備所產(chǎn)生的差異。

1.5 重放語(yǔ)音檢測(cè)算法

在訓(xùn)練階段運(yùn)用本文方法提取訓(xùn)練集語(yǔ)音的特征參數(shù),分別訓(xùn)練出兩個(gè)GMM 模型、一個(gè)是錄音回放語(yǔ)音的GMM 模型A;另一個(gè)是真實(shí)語(yǔ)音GMM 模型B。在測(cè)試過(guò)程中將測(cè)試語(yǔ)音的特征參數(shù)集φ與A和B計(jì)算似然比,計(jì)算公式如下:

用所得的似然比作為得分判決待測(cè)語(yǔ)音跟哪個(gè)模型更為接近。而后設(shè)定閾值作為最后的分類(lèi)判斷,判決成果采用等錯(cuò)誤概率(Equal Error Rate,EER)給出,定義如下:

其中,Pfa(θ)表示在閾值θ處的虛警率,反映被判定為真實(shí)語(yǔ)音的樣本中,有多少個(gè)是回放語(yǔ)音,Pmiss(θ)表示在閾值θ處的漏警率,反映有多少個(gè)真實(shí)語(yǔ)音被判定為回放語(yǔ)音,當(dāng)兩者相等時(shí)錯(cuò)誤率為等錯(cuò)誤率,Pfa(θ)表示單調(diào)遞減函數(shù),而Pmiss(θ)則表示單調(diào)遞增函數(shù),通過(guò)調(diào)節(jié)閾值使得虛警率和漏警率得以調(diào)節(jié)。根據(jù)具體情況選擇合適的閾值達(dá)到理想狀況,比如對(duì)于機(jī)密安全領(lǐng)域,通過(guò)調(diào)節(jié)閾值使得漏警率較低;而對(duì)于日常應(yīng)用,則可以適當(dāng)調(diào)節(jié)閾值在漏警率和虛警率兩者間取得一個(gè)平衡。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 數(shù)據(jù)集

實(shí)驗(yàn)語(yǔ)音數(shù)據(jù)采用ASVspoof2017 數(shù)據(jù)集[17]。在2017 年,國(guó)際語(yǔ)音通信協(xié)會(huì)(ISCA)組織了ASVspoof 國(guó)際挑戰(zhàn)賽,主要針對(duì)聲紋識(shí)別中錄音回放攻擊檢測(cè)技術(shù)進(jìn)行研究和交流,該數(shù)據(jù)庫(kù)包含了訓(xùn)練集和開(kāi)發(fā)集。語(yǔ)料使用RedDots 庫(kù)[18]里最常用的10 個(gè)短語(yǔ),運(yùn)用不同錄音設(shè)備在多種環(huán)境下錄制,樣本采樣頻率為16 kHz。具體數(shù)據(jù)集參數(shù)如表1所示。

表1 ASVspoof2017 數(shù)據(jù)集Table 1 ASVspoof2017 dataset

錄音回放環(huán)境主要涉及到錄音設(shè)備、回放設(shè)備、偷錄環(huán)境等。在每種回放環(huán)境下,同一個(gè)說(shuō)話(huà)人錄制同一短語(yǔ)多次。本文實(shí)驗(yàn)訓(xùn)練集所用大賽數(shù)據(jù)集中的Train 集,而測(cè)試集選擇Dev 集。

2.2 高斯濾波器參數(shù)分析

高斯濾波器的方差是調(diào)節(jié)濾波器性能的參數(shù),它關(guān)系著高斯濾波器的形成,方差越大濾波器越陡,反之亦然,在說(shuō)話(huà)人識(shí)別中方差[19]通常取1.1、1.5、2.0。而在錄音回放語(yǔ)音檢測(cè)領(lǐng)域,尚未有方差取值的分析,因此本文針對(duì)G-IFCC 采用的等寬高斯濾波器組和G-IEFCC 采用的逆高斯濾波器組中方差取值進(jìn)行研究。

實(shí)驗(yàn)條件:特征參數(shù)維數(shù)為13 維,GMM 混合度為512。拓展方差參數(shù)選取從1.0 到4.0,以0.5 為間隔的7 個(gè)方差,評(píng)測(cè)標(biāo)準(zhǔn)采用EER,所得結(jié)果如表2 所示。

表2 方差取值對(duì)檢測(cè)結(jié)果的影響分析Table 2 Analysis of the effect of variance on the test results

從表2 可以看出,當(dāng)方差選取2.0 時(shí),G-IEFCC和G-LFCC 檢測(cè)結(jié)果EER 較小,當(dāng)方差大于2.0 時(shí),濾波器越陡則過(guò)度加強(qiáng)了子帶的聯(lián)系,致使特征參數(shù)里混雜了噪聲,而小于2.0 時(shí)濾波器較為平坦,子帶聯(lián)系不明顯,致使個(gè)性信息不突出。因而當(dāng)方差選取2.0 時(shí),可以得到較好的結(jié)果。

2.3 特征參數(shù)Fisher 比分析

為選擇G-LFCC 和G-IEFCC 中各維Fisher 比貢獻(xiàn)度較大所對(duì)應(yīng)的維度,分別計(jì)算每一維所對(duì)應(yīng)的Fisher 比,為特征融合奠定基礎(chǔ),圖5 為13 維特征每一維所對(duì)應(yīng)的Fisher 比結(jié)果。

圖5 特征參數(shù)各維數(shù)Fisher 比Fig.5 Fisher ratio of each dimension of characteristic parameters

Fisher 比越大表明蘊(yùn)含的個(gè)性信息越豐富,因此,將G-LFCC 和G-IEFCC 的Fisher 比較高的6 維特征進(jìn)行融合得到最終Fisher 比混合特征。

2.4 GMM 混合度分析

在檢測(cè)重放語(yǔ)音過(guò)程中訓(xùn)練兩個(gè)GMM 模型,模型的參數(shù)對(duì)結(jié)果有一定的影響,因此在實(shí)驗(yàn)中將GMM 混合度作為變量分別對(duì)G-IEFCC 和G-LFCC以及混合特征進(jìn)行檢測(cè),探究GMM 混合度對(duì)實(shí)驗(yàn)結(jié)果的影響。具體實(shí)驗(yàn)結(jié)果如表3 所示。

從表3 可以看出,基于Fisher 比的混合特征普遍比單一特征G-LFCC 和G-IEFCC 實(shí)驗(yàn)效果要好。而在128 混合度下GMM 模型糅合了高頻與低頻信息的混合特征的EER 最低。實(shí)驗(yàn)結(jié)果表明,本文提出的混合特征相比單一特征能更有效地檢測(cè)真實(shí)語(yǔ)音和錄音回放語(yǔ)音。

2.5 不同特征參數(shù)實(shí)驗(yàn)效果分析

針對(duì)不同特征參數(shù)進(jìn)行錄音回放檢測(cè)實(shí)驗(yàn)比較。CQCC 是ASVspoof2017 官方給出的基線(xiàn)特征,該特征由信號(hào)經(jīng)過(guò)常量Q 變換(CQT),對(duì)其頻譜求對(duì)數(shù)功率譜,再對(duì)經(jīng)過(guò)離散變換的倒譜進(jìn)行歸一化處理。該變換的頻域采樣點(diǎn)隨頻率呈現(xiàn)指數(shù)分布,低頻段頻率分辨率遠(yuǎn)遠(yuǎn)高于高頻段頻率分辨率,所以CQCC 特征主要包含語(yǔ)音頻譜低頻段信息,弱化了語(yǔ)音頻譜高頻段的信息。對(duì)于基于高斯均值超矢量(Gaussian Super Vector,GSV)的特征提取則是將含有語(yǔ)音信息的GMM 均值排列成超矢量作為分類(lèi)器的輸入,分類(lèi)器采用的是最常見(jiàn)的SVM,而GSVSVM[20-21]通常使用在說(shuō)話(huà)人確認(rèn)領(lǐng)域,把GSV-SVM應(yīng)用在回放語(yǔ)音攻擊檢測(cè)中也是可行的。此外,本文將未采用高斯濾波器組(采用三角濾波器組)的LFCC 和IMFCC[22]特征和采用Gammatone 濾波器的GFCC 也納入實(shí)驗(yàn)分析,將實(shí)驗(yàn)系統(tǒng)耗時(shí)作為花費(fèi)時(shí)間代價(jià)作為參考。

實(shí)驗(yàn)條件為CQCC(90 維)、GFCC(31 維)、GSV(23 040 維)、LFCC 和IMFCC(13 維)和混合特征(12 維),為得到每一種參數(shù)的較好結(jié)果,前3 項(xiàng)特征采用512GMM 混合度,后3 項(xiàng)采用128GMM 混合度。測(cè)試平臺(tái)配置:CPU(Intel i5-8400@2.80 GHz,雙核四線(xiàn)程),16 GB 內(nèi)存;64 位Win10 教育版系統(tǒng);matlaR2016b 實(shí)驗(yàn)平臺(tái),結(jié)果如表4 所示。

表4 不同特征參數(shù)實(shí)驗(yàn)對(duì)比分析Table 4 Comparative analysis of experiments with different characteristic parameters

從表4 可以看出,GFCC 雖然適合于聲紋識(shí)別但是在重放語(yǔ)音攻擊中效果最差,而GSV 效果比基線(xiàn)特征CQCC 等錯(cuò)誤概率低,但因其特征維數(shù)較高導(dǎo)致實(shí)驗(yàn)中所花費(fèi)的時(shí)間代價(jià)要高。采用三角濾波器組的LFCC 和IMFCC 因弱化了語(yǔ)音頻譜高頻段的信息,也未能達(dá)到最好效果。本文所提出的高斯濾波器組下基于Fisher 比的混合特征因強(qiáng)化了語(yǔ)音頻譜高頻段的信息,同時(shí)均勻細(xì)化了低頻部分,比其他特征效果都好。與基線(xiàn)特征CQCC 相比,EER 降低了58.3%。通過(guò)圖6 的EER 曲線(xiàn)能夠更直觀地展現(xiàn)該方法的良好性能。

圖6 不同特征等錯(cuò)誤概率曲線(xiàn)Fig.6 Equal error rate curves of different features

3 結(jié)束語(yǔ)

本文在頻率尺度和濾波器組上對(duì)傳統(tǒng)特征參數(shù)進(jìn)行改進(jìn)。采用逆ERB 頻率尺度代替?zhèn)鹘y(tǒng)MEL 尺度,利用高斯濾波代替?zhèn)鹘y(tǒng)三角濾波,形成逆高斯濾波器組,即高斯逆ERB 頻率倒譜特征(G-IEFCC)。為均勻細(xì)化低頻和高頻信息,降低因錄音設(shè)備和回放設(shè)備不同而造成的頻譜信息衰減或畸變現(xiàn)象,運(yùn)用線(xiàn)性頻率尺度和等寬高斯濾波器形成高斯線(xiàn)性頻率倒譜系數(shù)(G-LFCC)。同時(shí)通過(guò)Fisher 比準(zhǔn)則將改進(jìn)的兩個(gè)特征參數(shù)融合,最終形成基于Fisher 比的混合特征。實(shí)驗(yàn)結(jié)果表明,本文提出的混合特征相比其他常用特征參數(shù),在錄音回放攻擊檢測(cè)中的檢測(cè)效果顯著。在實(shí)際應(yīng)用中聲紋識(shí)別系統(tǒng)的攻與防不只是針對(duì)虛假語(yǔ)音,其在攻與防中防處于不利地位。為此,提高仿冒語(yǔ)音攻擊檢測(cè)的泛化能力將是下一步的研究方向。

猜你喜歡
特征參數(shù)錄音高斯
小高斯的大發(fā)現(xiàn)
故障診斷中信號(hào)特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
Funny Phonics
funny phonics
天才數(shù)學(xué)家——高斯
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
A New Term
Colorful Seasons多彩四季
統(tǒng)計(jì)特征參數(shù)及多分類(lèi)SVM的局部放電類(lèi)型識(shí)別
杭州市| 普洱| 当雄县| 清涧县| 伽师县| 旺苍县| 双流县| 罗源县| 延安市| 穆棱市| 桂林市| 双城市| 电白县| 双桥区| 静乐县| 武宁县| 焦作市| 昌邑市| 阜宁县| 双辽市| 东港市| 潞城市| 吴忠市| 汉阴县| 琼海市| 丹江口市| 永州市| 赣州市| 晋州市| 武乡县| 花莲县| 临颍县| 敦煌市| 垦利县| 林周县| 五常市| 荣成市| 温泉县| 乌苏市| 大理市| 庄浪县|