王志鋒 賀前華 張雪源 羅海宇 蘇卓生
(華南理工大學電子與信息學院,廣東廣州510640)
隨著說話人識別技術(shù)的不斷發(fā)展,說話人識別系統(tǒng)在司法取證、電子商務(wù)、金融系統(tǒng)等領(lǐng)域得到了非常廣泛的應(yīng)用[1].與此同時,說話人識別系統(tǒng)所面臨的前端攻擊及傳輸存儲等的安全問題制約了說話人識別系統(tǒng)的發(fā)展和應(yīng)用.
說話人識別系統(tǒng)面臨的兩種常見攻擊是說話人仿冒攻擊[2]和錄音回放攻擊[3].說話人仿冒攻擊是指攻擊者通過模仿說話人識別系統(tǒng)中用戶的聲音對系統(tǒng)進行的攻擊.在雙胞胎語音庫上的說話人識別實驗表明,現(xiàn)有的說話人識別技術(shù)能夠區(qū)分具有類似聲學特性的雙胞胎語音[4],因此實施說話人仿冒攻擊需要有非常好的模仿技巧,使攻擊者的語音能夠和系統(tǒng)用戶的語音達到高度的相似,這使得仿冒攻擊的可實施性不高.錄音回放攻擊是指攻擊者事先用高保真錄音設(shè)備偷錄說話人識別系統(tǒng)中用戶的語音,然后通過高保真功放在系統(tǒng)輸入端回放,以此對說話人識別系統(tǒng)實施攻擊.與仿冒語音相比,錄音回放語音是真實來自于用戶本人,對說話人識別系統(tǒng)造成的威脅更大.另外,現(xiàn)在性能好的高保真錄音及回放設(shè)備不斷涌現(xiàn),其價格越來越便宜,體積越來越小,便于攜帶不易被發(fā)現(xiàn),這使得錄音回放攻擊越來越容易實施.
防止錄音回放攻擊的一種方法是通過系統(tǒng)隨機挑選語句讓用戶跟讀,在進行說話人識別的同時還要判斷用戶是否按要求來跟讀.這種方法的實施需要事先準備豐富的語音庫,并要求用戶按照語音內(nèi)容跟讀,當用戶按照自己的習慣發(fā)音時,將有可能通不過說話人識別系統(tǒng)[5],而且這種方法會犧牲說話人識別系統(tǒng)對于特定用戶特定文本的安全保護性,產(chǎn)生一些其它安全問題[3].
文獻[5]中以通用背景模型為基礎(chǔ),利用系統(tǒng)直接采集的用戶原始數(shù)據(jù)中的靜音段對信道進行建模,檢測待識別語音與訓練語音的信道是否相同.由于靜音段幅度很小,比語音段更容易受到噪聲污染,故靜音中信道信息很容易被噪聲掩蓋.此外,以大量說話人的通用背景模型為基礎(chǔ),并不一定能夠訓練出精確的信道模型.
回放語音在進入說話人識別系統(tǒng)錄音信道前,還經(jīng)歷了一次錄音和一次回放的過程.不同的錄音和回放設(shè)備引入不同的信道噪聲(麥克風、揚聲器、抖動電路、前置放大器、功率放大器、輸入和輸出濾波器、A/D、D/A、取樣保持電路等都會引入相應(yīng)的噪聲[6]),這些信道噪聲疊加在回放語音上,使得回放語音和原始語音存在細微的差異.文中將這些來自不同錄音與回放設(shè)備中換能器和不同電路引入的噪聲稱為信道模式噪聲.原始語音中含有系統(tǒng)錄音設(shè)備的信道模式噪聲,而回放語音中不僅含有系統(tǒng)的信道模式噪聲,還含有偷錄設(shè)備和回放設(shè)備的信道模式噪聲.為此,文中提出了一種通過提取原始語音和回放語音中的信道模式噪聲來檢測錄音回放攻擊的方法.
基于信道模式噪聲的錄音回放攻擊檢測系統(tǒng)主要由5個部分組成:預(yù)處理、信道模式噪聲提取、長時統(tǒng)計特征提取、基于支持向量機(SVM)的信道噪聲建模、原始語音和回放語音的分類識別,如圖1所示.
圖1 基于信道模式噪聲的錄音回放攻擊檢測系統(tǒng)結(jié)構(gòu)Fig.1 Structure of playback attack detection system based on channel pattern noise
根據(jù)錄音回放攻擊檢測模塊在說話人識別系統(tǒng)中所處位置的不同,錄音回放攻擊檢測器可分為前端錄音回放攻擊檢測和后端錄音回放攻擊檢測,如圖2所示.進行前端回放攻擊檢測時,輸入的用戶語音首先進行回放攻擊檢測,如果被判定為錄音回放語音,則系統(tǒng)可直接拒絕為攻擊語音提供服務(wù).對于前端回放檢測,輸入語音可以來自系統(tǒng)中任意用戶,需要為所有用戶建立一個具有泛化能力且不被特定用戶所影響的回放攻擊檢測器.對于后端回放檢測,用戶語音首先進行說話人識別,如果判定為合法用戶,則將其輸入到后端檢測器進行回放攻擊檢測.此時,說話人識別系統(tǒng)可為回放檢測器提供用戶信息,只需為單個用戶建立相應(yīng)的后端回放攻擊檢測器.
圖2 具有防錄音回放攻擊功能的說話人識別系統(tǒng)結(jié)構(gòu)Fig.2 Structure of speaker recognition system with playback attack detector
一般認為,信道噪聲是均勻地作用在整個發(fā)音之上[7],不同錄音及回放設(shè)備的信道模式噪聲是和語音信號同時產(chǎn)生的.因此,考慮采用具有統(tǒng)計意義的長時特征來描述信道模式噪聲,進而獲得穩(wěn)定的信道噪聲分布.統(tǒng)計幀是語音信號中所有短時幀的相同頻率成分的平均值,設(shè)X={x1[n],x2[n],…,xT[n]}表示有T幀的語音信號,則第i(1≤i≤T)幀信號xi[n](0≤n≤N-1)的離散傅里葉變換為
那么統(tǒng)計幀的表達式為
統(tǒng)計幀的具體提取過程如圖3所示.
圖3 統(tǒng)計幀的提取過程Fig.3 Procedure of extracting statistical frames
統(tǒng)計幀具有以下優(yōu)點:1)統(tǒng)計幀是將大量短時語音幀在頻域進行疊加,從而可獲得穩(wěn)定的信道模式噪聲分布;2)統(tǒng)計幀具有歸一化的作用,它可以將時域中不同長度的語音信號映射為在頻域具有相同幀長的信號,以降低特征提取和建模的計算復(fù)雜度.
因為換能器和各種電路引入的信道噪聲為時域的卷積信號[7],所以考慮在對數(shù)譜域來提取信道模式噪聲,將非線性噪聲轉(zhuǎn)換為線性噪聲.如圖4所示,在基于統(tǒng)計幀的對數(shù)功率譜上,原始語音與回放語音(原始語音與回放語音都來自同一個說話人,且文本為同一數(shù)字串“5940247874”)在低頻部分存在差異,這是由原始語音和回放語音所包含的信道模式噪聲不同引起的,表明信道模式噪聲主要集中在信號的低頻部分.與信道引入的卷積噪聲主要集中在信號的低頻部分[8]一致.
圖4 基于統(tǒng)計幀的對數(shù)功率譜Fig.4 Logarithm power spectrum based on statistical frames
由于信道模式噪聲主要集中在信號的低頻部分,故文中采用去噪濾波器來提取信道模式噪聲,即
式中:yo[n]、yp[n]、No和Np分別為原始語音、回放語音、原始語音的信道模式噪聲及回放語音的信道模式噪聲;DFT為離散傅里葉變換;f為去噪濾波器,文中采用高通濾波器來過濾掉信號中的信道模式噪聲.通過對多個去噪濾波器的實驗,最終采用文獻[9]中的濾波器.
基于信道模式噪聲的長時統(tǒng)計特征提取的流程如圖5所示,在信道模式噪聲的基礎(chǔ)上提取了兩組長時特征:6階Legendre多項式系數(shù)和6個統(tǒng)計特征.
圖5 基于信道模式噪聲的長時統(tǒng)計特征提取流程圖Fig.5 Extraction flowchart of long-term features based on channel pattern noise
1.2.1 Legendre多項式系數(shù)
Legendre多項式是一組完備正交基,可以很好地進行參數(shù)擬合,已在語種識別和一些實際問題的解決中成功應(yīng)用[10].Legendre多項式的形式如下:
信道模式噪聲變化緩慢,在實際應(yīng)用中Legendre多項式系數(shù)的階數(shù)不高,實際上使用6階的系數(shù)就能夠進行信道模式噪聲的參數(shù)擬合.其中,L0為信道模式噪聲的直流部分,L1為信道模式噪聲分布曲線的斜率,L2為信道模式噪聲分布曲線的曲率,L3、L4、L5分別為信道模式噪聲分布曲線的細節(jié)信息.
1.2.2 統(tǒng)計特征
因信道模式噪聲一直伴隨著語音信號并且變化緩慢,故文中采用6種統(tǒng)計特征來描述信道模式噪聲:信道模式噪聲的最小值 PN_min、最大值 PN_max、均值 PN_mean、中值 PN_median,最大值和最小值的差PN_diff、標準差PN_stdev.
SVM是一種基于結(jié)構(gòu)風險的統(tǒng)計學習方法,具有很好的泛化和分類能力,已在說話人識別中取得了很好的效果[11].SVM可以看成由多個內(nèi)積K(xi,xj)求和構(gòu)成的二類分類器.錄音回放攻擊檢測實質(zhì)上是一個二分問題.對于輸入矢量x,支持向量機的輸出為
式中:α*為分類的最優(yōu)化解,α*=(,,…,);b*為分類閾值;yi為分類標簽,yi∈{-1,1}.
文中將兩組長時特征組合成一個12維的特征矢量,并作為訓練和識別的特征,選擇徑向基函數(shù)作為核函數(shù).然后采用自組織映射(SOM)算法[12]和格形搜索算法[13]找到最優(yōu)的懲罰因子C和γ參數(shù),并將最優(yōu)參數(shù)用來訓練信道噪聲模型.
由于沒有現(xiàn)成的數(shù)據(jù)庫,文中建立了原始語音和回放語音數(shù)據(jù)庫(APSD)進行錄音回放攻擊檢測的研究.考慮到語速、文本類型、朗讀語音和自然語音等的影響,該數(shù)據(jù)庫的語料設(shè)計如下:1)20個孤立詞短語;2)10個連續(xù)數(shù)字串,每個數(shù)字串包含10個數(shù)字;3)60個音素和音節(jié)分布均勻的句子(每句5~16個字),其中15句選自863連續(xù)語音庫,15句選自863四大方言庫,15句選自《人民日報》,15句選自“新華網(wǎng)”;4)兩篇音素和音節(jié)分布均勻的短文,共223個字,以正常的語速朗讀;5)第三部分和第四部分的語料以慢速和快速朗讀各一遍;6)從5個話題中選取一個進行即興演講,長度約為2min.
數(shù)據(jù)庫錄制歷時6個月,有9男4女參與錄制,用統(tǒng)一標準的普通話進行錄音.經(jīng)統(tǒng)計,本語料庫的字頻和《現(xiàn)代漢語頻率詞典》提供的漢字字頻基本保持一致,包含1473個中文漢字、345個音節(jié)、漢語中所有的60個音素.
原始語音與回放語音的錄制模擬了實際錄音回放攻擊產(chǎn)生的整個物理過程.原始語音是通過固定的麥克風和數(shù)據(jù)采集卡(創(chuàng)新5.1聲卡,設(shè)置為16kHz,16位)進行采集.在采集原始語音的同時,用高保真的數(shù)字錄音筆錄制說話人語音,模仿偷錄過程(偷錄者會盡量采用高保真的錄音設(shè)備獲得高品質(zhì)的偷錄語音,文中采用高保真數(shù)字錄音筆三星yep120,采樣率為22.05kHz,并用16位采樣),然后通過便攜高保真直流功放(奧特藍星iMT237)在數(shù)據(jù)采集卡的輸入端回放錄音,從而采集回放語音.
從APSD數(shù)據(jù)庫中選取了12220個語音樣本,包含了13個說話人的數(shù)據(jù),每個人的數(shù)據(jù)為940個(470個原始樣本Au_R和470個回放樣本Pb_R),實驗數(shù)據(jù)的分布如表1所示.文中采用FRR(錯誤拒絕率)和FAR(錯誤接受率)作為評價錄音回放攻擊檢測系統(tǒng)性能的指標,同時采用十折交叉驗證進行實驗,結(jié)果為10次實驗結(jié)果的平均值.統(tǒng)計幀的幀長取512點,Legendre多項式取0~5階系數(shù).
表1 選取的實驗樣本數(shù)Table 1 Numbers of selected data samples
實驗1 組織了10名志愿者(7男3女)參與聽覺實驗,要求每個志愿者聽100個語音樣本(50個原始語音樣本和50個回放語音樣本),然后做出選擇(志愿者事先不知道語音樣本的類別).總共進行了1000次聽覺實驗,正確識別率為58.6%,說明人耳對原始語音和回放語音的分辨能力很低.
采用Au_R和Pb_R數(shù)據(jù)集分別在基于混合高斯模型(GMM)和隱馬爾科夫模型(HMM)的說話人辨識系統(tǒng)上進行說話人識別實驗.實驗時,GMM說話人辨認系統(tǒng)的高斯個數(shù)設(shè)為256,HMM說話人辨認系統(tǒng)的狀態(tài)個數(shù)設(shè)為4,每個狀態(tài)下的高斯個數(shù)設(shè)為64.原始語音和回放語音在GMM系統(tǒng)上的正確率分別為97.7318%和93.6966%,在HMM系統(tǒng)上的正確率分別為87.2781%和81.0897%,即回放語音的說話人正確識別率和原始語音保持在同一個水平上,這說明錄音回放語音對于說話人識別系統(tǒng)的攻擊是真實存在的.
實驗2 利用13個人的數(shù)據(jù)建立前端錄音回放攻擊檢測器,采用文中方法和文獻[5]中方法在APSD數(shù)據(jù)庫上進行實驗.實現(xiàn)文獻[5]中方法時,采用雙門限法提取靜音,并用譜減法濾波,采用39維的Mel倒譜系數(shù)(MFCC),建立信道模型時GMM的高斯個數(shù)設(shè)為512.文中方法的FRR和FAR分別為2.861 9%和2.450 7%,與文獻[5]中方法的15.6732%、15.6732%相比,下降了近13%.
將回放攻擊檢測模塊加載到GMM-UBM說話人確認系統(tǒng)(該系統(tǒng)的高斯個數(shù)為1024)的前端進行對比實驗,同一用戶的回放語音歸為不是該用戶的語音,實驗結(jié)果如圖6所示.對于含有回放攻擊語音的數(shù)據(jù),未加載回放攻擊檢測模塊時,說話人確認系統(tǒng)的錯誤率很高,系統(tǒng)的等錯誤率(EER,即FAR=FRR時)為40.1709%,此時,系統(tǒng)的安全性能很低;加載文中回放攻擊檢測模塊后,系統(tǒng)的 EER為10.2564%,下降了約30%;加載文獻[5]中的回放攻擊檢測模塊后,系統(tǒng)的EER為29.0598%,下降了約11%,表明文中方法的檢測效果優(yōu)于文獻[5]中方法.
圖6 加載錄音回放攻擊檢測模塊前后說話人確認系統(tǒng)的錯誤率對比Fig.6 Comparison of error rates between speaker verification systems with and without playback detector
為每個說話人建立后端錄音回放攻擊檢測器,其中F01-F04為4位女性說話人,M01-M09為9位男性說話人,F(xiàn)03、M03及M04的FRR和FAR都為0,結(jié)果如表2所示.由圖6、表2可知,后端回放檢測的效果比前端檢測好.
表2 后端錄音回放攻擊檢測器的檢測結(jié)果Table 2 Detection results of back-end playba ck attack detector
實驗3 以錄音回放攻擊檢測系統(tǒng)為基礎(chǔ),將傳統(tǒng)的倒譜特征和文中的長時統(tǒng)計特征進行對比實驗,結(jié)果如表3所示.從表3中可知,由6階Legendre系數(shù)和6個統(tǒng)計特征組成的基于統(tǒng)計幀的12維長時特征比其它特征有更好的識別性能.信道模式噪聲主要集中在語音信號的低頻部分,MFCC和線性預(yù)測倒譜系數(shù)(LPCC)等倒譜特征中低頻部分所占比重很小,不能很好地體現(xiàn)信道信息,而文中采用的長時特征是基于信道模式噪聲提取的,可凸顯出信道信息,因此具有更好的識別性能.
表3 基于不同特征的回放攻擊檢測結(jié)果Table 3 Playback attack detection results based on different features
與基于短時幀的12維長時特征相比,基于統(tǒng)計幀的12維長時特征有更好的檢測效果和識別性能.這說明基于統(tǒng)計幀的分析方法對于回放攻擊檢測是有效的.
實驗4 考察不同語速、不同文本類型、不同說話人等因素對錄音回放攻擊檢測系統(tǒng)的影響,結(jié)果如表4、5所示.表4表明,語速對錄音回放攻擊檢測系統(tǒng)有一定的影響,但影響不明顯.
表5表明,不同類型文本對錄音回放攻擊檢測性能有較大的影響,段落文本的FRR和FAR最低,主要是因為段落的時長最長,為3min左右(數(shù)字串和句子的長度為5~8s,而短語的長度為2~3s),可以提供更多的信道噪聲信息,獲得更穩(wěn)定的信道噪聲分布.在實際應(yīng)用中,可以考慮采用數(shù)字串作為用戶進入系統(tǒng)的口令(數(shù)字串的FAR低,可保證系統(tǒng)的安全性).
表4 語速對回放攻擊檢測性能的影響Table 4 Influence of speech rate on playback attack detection performance
表5 文本類型對回放攻擊檢測性能的影響Table 5 Influence of text type on playback attack detection performance
從表2可知,錄音回放攻擊檢測系統(tǒng)對不同說話人的回放攻擊檢測性能也是不一樣的,不同說話人對文中錄音回放攻擊檢測系統(tǒng)的性能也會產(chǎn)生影響.
文中通過提取信道模式噪聲來檢測說話人識別系統(tǒng)中的錄音回放攻擊,實驗表明,回放攻擊檢測的FFR和 FAR分別為 2.861 9%、2.450 7%,與文獻[5]中方法相比,均下降了近13%.加載了文中的錄音回放攻擊檢測系統(tǒng)后,說話人確認系統(tǒng)的EER下降了約30%.
目前,文中只使用了一種錄音和回放設(shè)備,獲得了一些初步結(jié)果,還需要擴展其它類型的錄音和回放設(shè)備,以及包含更多說話人的數(shù)據(jù)來驗證文中方法的魯棒性;另外,還將對信道模式噪聲的性質(zhì)做進一步的研究,并利用信道模式噪聲來解決語音識別和說話人識別中的信道不匹配問題.
[1]Vale E E,Alcaim A.Adaptive weighting of subband classifier responses for robust text independent speaker recognition [J].Electronics Letters,2008,44(21):1280-1282.
[2]Wah Lau Yee,Wagner M,Tran D.Vulnerability of speaker verification to voice mimicking[C]∥Proceedings of Intelligent Multimedia,Video & Speech Processing.Hong Kong:IEEE,2004:145-148.
[3]Shang Wei,Stevenson M.Score normalization in playback attack detection[C]∥Proceedings of Acoustics,Speech and Signal Processing.Dallas:IEEE,2010:1678-1681.
[4]Campbell J P,Shen W,Campbell W M,et al.Forensic speaker recognition [J].IEEE Signal Processing Magazine,2009,26(2):95-103.
[5]張利鵬,曹犟,徐明星,等.防止假冒者闖入說話人識別系統(tǒng)[J].清華大學學報:自然科學版,2008,48(增刊):699-703.Zhang Li-peng,Cao Jiang,Xu Ming-xing,et al.Prevention of impostors entering speaker recognition systems[J].Journal of Tsinghua University:Science and Technology,2008,48(S1):699-703.
[6]Pohlmann K C.Principles of digital audio[M].6th ed.New York:McGraw-Hill,2010.
[7]趙力.語音信號處理[M].2版.北京:機械工業(yè)出版社,2009.
[8]Hermansky H,Morgan N.RASTA processing of speech[J].IEEE Transactions on Speech and Audio Processing,1994,2(4):578-589.
[9]Hanson B A,Applebaum T H.Subband or cepstral domain filtering for recognition of Lombard and channel-distorted speech[C]∥Proceedings of Acoustics,Speech and Signal Processing.Minneapolis:IEEE,1993:79-82.
[10]Lin Chi-Yueh,Wang Hsiao-Chuan.Language identification using pitch contour information[C]∥Proceedings of Acoustics,Speech and Signal Processing.Philadelphia:IEEE,2005:601-604.
[11]You Chang Huai,Lee Kong Aik,Li Haizhou.GMM-SVM kernel with a Bhattacharyya based distance for speaker recognition [J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18(6):1300-1312.
[12]Tas?demir K,Milenov P,Tapsall B.Topology based hierarchical clustering of self-organizing maps[J].IEEE Transactions on Neural Networks,2011,22(3):474-485.
[13]Hesterman J Y,Caucci L,Kupinski M A,et al.Maximum-likelihood estimation with a contracting grid search algorithm[J].IEEE Transactions on Nuclear Science,2010,57(3):1077-1084.