国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信道信息的回放攻擊檢測研究

2021-07-06 02:10柯宏宇高奕寧郝雪營
關(guān)鍵詞:信道錄音噪聲

柯宏宇,高奕寧,郝雪營,黃 濤,2

(1.武漢郵電科學(xué)研究院,湖北 武漢 430074;2.武漢烽火眾智數(shù)字技術(shù)有限責(zé)任公司,湖北 武漢 430074)

0 引 言

近年來,人工智能快速發(fā)展,促進(jìn)了人機(jī)交互應(yīng)用的加深。生物識別作為人機(jī)交互的重要一環(huán),具有廣闊的研究前景[1]。該技術(shù)利用人體與生俱來的較穩(wěn)定特征進(jìn)行身份驗(yàn)證,包括指紋、聲紋、虹膜等,其中聲紋識別具有非接觸、高可靠、低成本等優(yōu)勢,成為了目前主流身份判定特征之一。然而,隨著具備高保真錄音功能電子設(shè)備的普及,清晰度較高的錄音獲取變得簡單,這在一定程度上降低了不法分子偷錄語音假冒認(rèn)證的難度。如何在聲紋識別任務(wù)中,有效區(qū)分輸入語音是否為回放語音,對守護(hù)公民財(cái)產(chǎn)安全具有重大意義。目前,關(guān)于回放攻擊檢測的研究,大多與說話人識別聯(lián)系在一起,缺乏對這一問題的單獨(dú)探究。該文針對偷錄語音與真實(shí)語音在信道中存在的信道噪聲長時統(tǒng)計(jì)特征差異,提出一種有效的檢測手段,從模型魯棒性、有效性兩個方面對回放攻擊展開研究。

1 研究背景

回放語音攻擊可分為4類:錄音重放、波形拼接、語音合成和語音模仿[2]。后三類攻擊模式需對說話人聲道模型建模,由于個體間的聲道差異性較大,語音模仿的普適性較差,且合成拼接技術(shù)精度難以保證,因此實(shí)際案例應(yīng)用較少。錄音重放與真實(shí)語音具有相同的聲紋信息與語音特征,因此最具威脅。盡管語音識別研究始于二十世紀(jì)五十年代,但是直到1999年才首次使用一男一女的語音樣本評估錄音重放攻擊對系統(tǒng)的破壞性[3]。文獻(xiàn)[4]使用遠(yuǎn)場偷錄的語音進(jìn)行錄音回放攻擊,實(shí)驗(yàn)結(jié)果表明,該錄音回放檢測系統(tǒng)在信噪比較低環(huán)境中的錯誤接受率(false acceptance rate,F(xiàn)AR)較高。為提高識別精度,文獻(xiàn)[5]提出基于語譜圖的檢測算法,并在后續(xù)工作中引入了均值和方差參數(shù)進(jìn)行相似度比對[6],有效降低等錯誤率(equal error rate,EER)。文獻(xiàn)[7]在語譜圖上引入中點(diǎn)相對位置這一概念,并著重研究麥克風(fēng)采集距離對識別的影響,同時比對了不同信噪比下的檢測結(jié)果。針對遠(yuǎn)場偷錄所產(chǎn)生的低頻無關(guān)因素,文獻(xiàn)[8]提出了一種基于光譜比率(spectral ratio,SR)、低頻比率(low frequency ratio,LFR)和調(diào)制系數(shù)構(gòu)成特征集的語音檢測算法,并使用支持向量機(jī)(support vector machine,SVM)進(jìn)行分類,提高了不同場景下的識別正確率。除了采用語音特征參數(shù)對錄音回放進(jìn)行研究,有部分研究者從信道信息著手。文獻(xiàn)[9]基于高通濾波器和統(tǒng)計(jì)幀,文獻(xiàn)[10]采用經(jīng)驗(yàn)?zāi)B(tài)分解濾波器,均實(shí)現(xiàn)了信道特征的提取,并在錄音回放檢測時獲得了較好效果;文獻(xiàn)[11]通過借鑒高斯混合模型和通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)在說話人識別中的應(yīng)用模式,成功提取了語音靜音段特征,有效降低了EER,但是實(shí)驗(yàn)規(guī)模較小,有待進(jìn)一步擴(kuò)充。除此之外,文獻(xiàn)[12]采用了自適應(yīng)子帶譜熵法進(jìn)行靜音區(qū)提取,并改進(jìn)了梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)提取過程,包括在預(yù)處理時不進(jìn)行預(yù)加重,加窗時使用多級窗代替單級窗,以及采用歸一化Mel濾波器組進(jìn)行特征提取等措施,實(shí)驗(yàn)結(jié)果表明,系統(tǒng)EER有效降低,但該研究假設(shè)環(huán)境安靜無干擾,而這與實(shí)際使用存在差異。2018年,文獻(xiàn)[13]在總結(jié)現(xiàn)有對抗措施后,提出采用線性預(yù)測(linear prediction,LP)參數(shù)替代傳統(tǒng)的光譜相關(guān)信息,實(shí)驗(yàn)結(jié)果證明,相較于已有參數(shù),LP參數(shù)具有更強(qiáng)的魯棒性。但是選取單個參數(shù)作為性能指標(biāo)進(jìn)行訓(xùn)練時,所需訓(xùn)練數(shù)據(jù)量較大才可得到泛化性能較好的系統(tǒng)模型,且容易出現(xiàn)過擬合現(xiàn)象。

基于此,該文提出了一種基于決策融合的信道信息回放檢測算法,提取Legendre系數(shù)及其統(tǒng)計(jì)特征,語音基頻特征以及MFCC特征,并使用三個SVM進(jìn)行決策,而后以一定權(quán)重融合以上三個參數(shù)進(jìn)行總體決策,實(shí)現(xiàn)回放攻擊檢測。

2 相關(guān)工作

本節(jié)將針對文中所提問題,簡要回顧語音信號的一般處理流程,包括語音信號的預(yù)處理與一些常用語音特征的提取方法。

2.1 預(yù)處理

語音信號包含人類發(fā)聲器官本身以及采集設(shè)備帶來的混疊,通常存在高次諧波失真、高頻分量不足等缺陷。實(shí)際中,需要進(jìn)行預(yù)處理以平滑信號,為后續(xù)處理提供良好基礎(chǔ)。常用預(yù)處理手段包括:預(yù)加重、端點(diǎn)檢測、分幀、加窗處理四部分。預(yù)加重能消除發(fā)聲過程中聲帶和嘴唇對高頻語音信號的抑制效應(yīng)[14],從而使高頻段信號的能量衰減得到補(bǔ)償。具體的預(yù)加重公式如下:

H(z)=1-αz-1

其中,α表示預(yù)加重系數(shù),依據(jù)經(jīng)驗(yàn),文中設(shè)置α=0.98。端點(diǎn)檢測是指在輸入信號中檢測語音的起止位置,將語音的沉默片段去除[15]。端點(diǎn)檢測可以在減少計(jì)算量的同時消除無關(guān)變量對系統(tǒng)識別的影響,常用檢測指標(biāo)包括信號能量和短時過零率等統(tǒng)計(jì)特性。分幀可以將長時、非穩(wěn)態(tài)信號分成短時、近似平穩(wěn)信號,進(jìn)而可采用語音短時分析技術(shù),通常采用的幀長為10 ms~30 ms,為保證信號過渡的連續(xù)性,幀移往往小于幀長,文中將幀長設(shè)置為10 ms。加窗是指將語音幀與一個窗函數(shù)相乘,減小語音信號的截?cái)嘈?yīng),使語音幀兩端平滑過渡到零。

2.2 特征提取

生理學(xué)研究表明,人的聽覺系統(tǒng)是一個出色的說話人識別系統(tǒng),對不同頻率的聲波有不同程度的靈敏度,其敏感程度可以由對數(shù)函數(shù)較好的表征。為了更好地?cái)M合人耳聽覺特性,通常采用倒譜系數(shù)刻畫語音特征,倒譜系數(shù)由對語音信號的功率譜取對數(shù)得到,目前已廣泛應(yīng)用于語音識別領(lǐng)域。常用的語音倒譜系數(shù)特征包括線性預(yù)測倒譜系數(shù)(linear predictive cepstrum coefficient,LPCC)、梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)、逆梅爾倒譜系數(shù)(inverted-mel frequency cepstrum coefficient,IMFCC)、耳蝸倒譜系數(shù)(cochlear frequency cepstrum coefficient,CFCC)等[16]。其中,MFCC源于對人耳聽覺特性的分析,計(jì)算較為方便,因而使用廣泛。實(shí)際頻率f與Mel頻率間對應(yīng)關(guān)系可由下式表示:

Fmel=2 595lg(1+f/700)

其中,f單位為赫茲,梅爾頻率單位為Mel。具體說來,在對MFCC特征進(jìn)行提取時,可以依據(jù)兩者間的對應(yīng)關(guān)系,劃分出三角濾波器組,即Mel濾波器組,該濾波器組在以赫茲為頻率的軸上呈非等距分布,而在Mel頻率軸上呈等間距分布。濾波器組一般由若干個三角濾波器排列構(gòu)成,濾波器組帶寬大致范圍為4 000赫茲,包含人耳聽覺敏感頻率范圍3 000赫茲至4 000赫茲。MFCC濾波器組分布如圖1所示。

圖1 MFCC濾波器組分布圖

3 錄音回放檢測系統(tǒng)

該文提出一種基于信道信息的多參數(shù)回放攻擊檢測系統(tǒng),系統(tǒng)整體框圖如圖2所示。對預(yù)處理后的語音信號提取Legendre多項(xiàng)式系數(shù)與其統(tǒng)計(jì)特征用以擬合信道模式噪聲,同時提取基頻特征與MFCC特征作為輔助特征,用于描述信道信息,在最后進(jìn)行融合決策。

圖2 系統(tǒng)整體框圖

3.1 噪聲參數(shù)

該文采用Legendre多項(xiàng)式擬合信道模式噪聲。Legendre多項(xiàng)式是一種正交基底,較好地反映了幀間的關(guān)聯(lián),在作為錄音回放檢測指標(biāo)時有較強(qiáng)的魯棒性[17]。目前常采用六階多項(xiàng)式系數(shù)對信道模式噪聲進(jìn)行模擬,其擬合表達(dá)式如下:

其中,Ln表示多項(xiàng)式系數(shù),n表示階數(shù),Pn(x)則為Legendre多項(xiàng)式通項(xiàng)公式:

目前常采用六階多項(xiàng)式(L0,L1,L2,L3,L4,L5)系數(shù)對噪聲進(jìn)行模擬。零階矢量表示信道模式噪聲直流分量;一階矢量表示信道噪聲分布曲線斜率;二階矢量表示信道噪聲分布曲線曲率;高階矢量則表示信道噪聲分布曲線細(xì)節(jié)信息。考慮到信道短時特征隨時間變化較為緩慢,該文采用12階向量表征信道模式噪聲特征,其中前六階參數(shù)表征零階到五階Legendre多項(xiàng)式系數(shù),后六階參數(shù)加入Legendre多項(xiàng)式系數(shù)的長時統(tǒng)計(jì)特征,分別表征信道模式噪聲的最大值,最小值,均值,中值,極差與標(biāo)準(zhǔn)差。

3.2 基頻特征

基音是指話音中頻率最低的分音,其頻率被稱為基頻,可以用于反映說話人生物學(xué)特征,如年齡、性別等,是一種較為穩(wěn)定的特征,目前常應(yīng)用于刑偵破案中。常用的提取方法主要分為時域法、頻域法以及統(tǒng)計(jì)法[18]。時域法包含兩類,分別為自相關(guān)算法以及平均幅度差算法。自相關(guān)算法通過自相關(guān)函數(shù)求取基頻特征,自相關(guān)函數(shù)是用于計(jì)算語音信號序列的功率譜密度,可以反映語音信號在時間上的關(guān)聯(lián)性,其公式表示如下:

其中,Sn(m)為采樣后的語音信號表達(dá)式,N為窗長,k為采樣點(diǎn)數(shù)。由于相關(guān)函數(shù)在基音周期整數(shù)倍處取得極值,因此,通過計(jì)算相鄰兩個最大峰值間距,并將距離參數(shù)由時域變換到頻域,即可得出基頻值。同時噪聲信號經(jīng)自相關(guān)運(yùn)算后主要集中于零點(diǎn)低頻段,故該算法可以一定程度上區(qū)分噪聲與輸入語音[19];平均幅度差算法與自相關(guān)算法原理類似,不同之處在于自相關(guān)函數(shù)計(jì)算功率譜時為求乘積,算法時間復(fù)雜度往往較高,為了規(guī)避較大的運(yùn)算量,可以采用平均幅度差計(jì)算方式求取基頻。語音信號的短時平均幅度差函數(shù)公式表示如下:

其中,Sn(m)為某采樣點(diǎn)的幅度,Sn(m+k)為相鄰采樣點(diǎn)的幅度,N為窗長,k為采樣點(diǎn)數(shù)。該算法原理是周期信號中,相距為周期整數(shù)倍的采樣點(diǎn)的幅值相等。除了計(jì)算方式的區(qū)別,平均幅度差算法所關(guān)注的性能指標(biāo)是波谷而非自相關(guān)算法中的波峰。這是因?yàn)椴ü认噍^于波峰更加陡峭,錯判率更低,且采用中心削波后準(zhǔn)確率更高[20]。

頻域法以倒譜法為主,該方法利用語音信號倒譜特征提取基頻,由于語音信號倒譜特征中含有聲門激勵周期,即基頻信息,通過計(jì)算該周期即可得出基頻[21]。在倒譜域中,由于激勵信息與聲道響應(yīng)為加性關(guān)系,但由于所處頻段不同,所以波形上分離度明顯,計(jì)算基頻精度較高,但是計(jì)算量過大,不適用于實(shí)時性要求較高的場合。

統(tǒng)計(jì)法是通過機(jī)器學(xué)習(xí)方法,提取時域特征或者頻域特征后,分析自相關(guān)函數(shù)的周期性或者相鄰采樣點(diǎn)間幅度差,算出基頻值后,得出基頻值與輸入語音時頻域特征間的對應(yīng)關(guān)系,生成訓(xùn)練模型,進(jìn)而在新輸入語音時可直接求出其基頻值[22]。為對抗噪聲帶來的干擾,同時更好地確保說話對象的唯一性,該文融合基頻特征作為一個輔助指標(biāo),減少語音回放信道攻擊對檢測系統(tǒng)的影響。

3.3 決策融合

一般的機(jī)器學(xué)習(xí)方法將訓(xùn)練重心放在單個性能指標(biāo)上,忽略了其他可能優(yōu)化性能指標(biāo)的信息。而實(shí)際應(yīng)用場景中測試集與訓(xùn)練集往往存在一定差異。因此測試時,訓(xùn)練模型如果僅采用單個指標(biāo)進(jìn)行決策,出現(xiàn)擬合失真的概率往往較高[23]。決策融合是一種通過共享多個性能指標(biāo)的表征,同時使各指標(biāo)之間相互影響的策略,具有較好的泛化性能。該文采用如下公式進(jìn)行決策融合:

f(x)=αx1+βx2+γx3

其中,α、β、γ分別為各個決策的融合權(quán)重,x1、x2、x3分別為Legendre多項(xiàng)式?jīng)Q策結(jié)果,基頻決策結(jié)果以及基于MFCC特征的決策結(jié)果。由于信道模式噪聲特征在安靜無噪聲場景下已具有較好的錄音回放檢測表現(xiàn),而該文在此基礎(chǔ)上進(jìn)一步考慮了多種信噪比條件下的錄音回放檢測,因此本實(shí)驗(yàn)中,α=0.7、β=0.2、γ=0.1,采用信道模式噪聲作為主要判別依據(jù),基頻特征權(quán)重次之,最后是MFCC特征參數(shù)權(quán)重。經(jīng)過調(diào)試,最終的接受閾值設(shè)置為0.75。

4 實(shí)驗(yàn)測試

本節(jié)將對文中實(shí)驗(yàn)中涉及的數(shù)據(jù)集構(gòu)造以及實(shí)驗(yàn)方法進(jìn)行說明。實(shí)驗(yàn)計(jì)算機(jī)的CPU為AMD Ryzen 7 3800X 8-Core,32G內(nèi)存,Windows 10操作系統(tǒng)。實(shí)驗(yàn)平臺為MATLAB 2017b。

4.1 數(shù)據(jù)集

由于目前針對錄音重放的開源數(shù)據(jù)集較少且不易直接獲得,文中基于語音數(shù)據(jù)集AISHELL-2019B-EVAL[24]對所需數(shù)據(jù)進(jìn)行了制作,用以研究不同偷錄設(shè)備翻錄語音對檢測的影響。制作時通過運(yùn)行轉(zhuǎn)錄程序播放原數(shù)據(jù)集語音,同時采用監(jiān)測麥克風(fēng)進(jìn)行收聲,具體轉(zhuǎn)錄設(shè)備信息如表1所示。

表1 基于AISHELL數(shù)據(jù)集語音樣本制作詳情

在信號處理中,信號功率與噪聲功率的比值稱為信噪比,其定義式如下:

SNR=10lg(S/N)

其中,S為信號功率,N為噪聲功率,SNR單位為dB。為確保系統(tǒng)性能的魯棒性,將表1所獲得數(shù)據(jù)按0 dB、3 dB、5 dB、10 dB、20 dB的信噪比與白噪聲進(jìn)行混合后,作為現(xiàn)有方法的對照組進(jìn)行后續(xù)實(shí)驗(yàn)。

4.2 實(shí)驗(yàn)結(jié)果及分析

在對輸入語音進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理流程后,計(jì)算信道模式噪聲特征。同時對比文獻(xiàn)[9,11-12]的方法,實(shí)驗(yàn)結(jié)果如表2所示??梢钥吹剑肼暤囊雽胤耪Z音檢測有一定的影響,隨著信噪比的降低,識別精度總體呈下降趨勢,其中,噪聲對文獻(xiàn)[11]的方法影響較為嚴(yán)重,原因之一在于低信噪比環(huán)境下無法有效進(jìn)行端點(diǎn)檢測。文獻(xiàn)[9]采用信道模式噪聲統(tǒng)計(jì)特征作為判別依據(jù),隨著輸入語音信噪比的增加,識別率穩(wěn)定上升。但是由于決策指標(biāo)單一,相比而言,文中提出的決策融合算法,能在有效對抗干擾的同時,提高模型在噪音環(huán)境中的表現(xiàn)。

表2 不同信噪比下對比識別精度結(jié)果

實(shí)驗(yàn)結(jié)果表明,該文所提出的基于決策融合的信道信息檢測方法簡潔有效,系統(tǒng)的識別精度在不同信噪比環(huán)境下較為穩(wěn)定,實(shí)現(xiàn)了攻擊檢測目標(biāo)。

5 結(jié)束語

提出了一種回放攻擊檢測算法,并在噪聲環(huán)境下研究了模型的魯棒性,取得較為穩(wěn)定的效果。除此之外,該模型是輕量級的,因此可以部署在移動端,具有一定實(shí)際應(yīng)用價值。一部分研究認(rèn)為,信道信息主要集中在高頻部分,為了在高頻上獲得較高的分辨率,挖掘高頻部分的有效信息,一些新的濾波器組或特征被設(shè)計(jì)并用于實(shí)踐,該文也對部分特征進(jìn)行了實(shí)驗(yàn),識別效果有待進(jìn)一步提升。如何提取更有效更穩(wěn)定的特征,也是未來工作的一個方向。

猜你喜歡
信道錄音噪聲
基于信道分類分析的無線通信改進(jìn)均衡方法
“白噪聲”助眠,是科學(xué)還是忽悠?
基于聲類比的仿生圓柱殼流噪聲特性研究
Funny Phonics
funny phonics
Listen and Choose
Listen and Color
一種基于向量回歸的無人機(jī)通信信道選擇方法
要減少暴露在噪聲中嗎?
WLAN和LTE交通規(guī)則