張雄偉,李嘉康,孫 蒙,鄭琳琳
(陸軍工程大學(xué)指揮控制工程學(xué)院,南京,210007)
近年來,基于生物識別的身份認證技術(shù)在數(shù)據(jù)安全和通過性認證中的作用越來越重要。一些常用的生物識別技術(shù),如指紋識別、人臉識別和聲紋識別等,已經(jīng)在多種認證場景中得到了較為廣泛的應(yīng)用,給人們的生活帶來了極大的便利。人們每天都要使用的手機,其解鎖方式就有人臉識別、指紋識別等,微信的聲紋鎖也允許使用語音進行登錄認證。在眾多的生物識別技術(shù)中,人類的語音由于采集方便、區(qū)分度高,采集聲音使用的麥克風(fēng)等設(shè)備發(fā)展成熟、成本較低,因而受到了廣泛的關(guān)注,自動說話人驗證(Automatic speaker verification, ASV)系統(tǒng)也應(yīng)運而生。ASV 系統(tǒng)是一個典型的生物識別系統(tǒng),該系統(tǒng)可以使用特定的算法對輸入語音進行模式識別和匹配,判斷出該待驗證的說話人語音是否為合法用戶的聲音。隨著近年來機器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,ASV 系統(tǒng)的識別準確率越來越高,對ASV 系統(tǒng)的研究是當(dāng)前生物識別研究的一個熱點問題。
但是,任何生物識別技術(shù)都存在一定的缺陷。通過模仿、篡改特征等方法對生物特征進行修改,有可能達到非法通過生物識別系統(tǒng)驗證的目的,這給生物識別系統(tǒng)的安全性帶來了嚴峻挑戰(zhàn)。例如,在人臉識別驗證中,一個較為典型的欺騙方法就是使用已經(jīng)通過驗證的合法用戶的照片來欺騙識別系統(tǒng)。因此,為了實現(xiàn)生物識別系統(tǒng)的安全性,系統(tǒng)必須能夠準確判斷輸入的生物特征的真?zhèn)?,對合法的用戶生物特征正常接受,而對假冒的、非法的生物特征必須予以拒絕。
目前有4 種典型的ASV 系統(tǒng)語音欺騙方法:語音模仿、語音回放、語音合成(Text-to-speech,TTS)與語音轉(zhuǎn)換(Voice conversion, VC)[1]。語音欺騙方法早在20 世紀六七十年代就已經(jīng)產(chǎn)生,但國際上對于語音欺騙檢測的廣泛關(guān)注則開始于最近十年。2013 年,法國里昂舉辦Interspeech 會議期間,召開了“ASV 系統(tǒng)的欺騙和對策”特別會議[2],將語音欺騙檢測引入了人們的關(guān)注熱點。隨后,2015 年在德國德累斯頓的Interspeech 會議期間,舉行了第1 次ASVspoof 挑戰(zhàn)賽,該挑戰(zhàn)賽旨在提供一個通用的語音欺騙檢測數(shù)據(jù)集和評價標準,促使人們開發(fā)出能夠檢測出真實語音和欺騙語音的方法。ASVspoof 2015 挑戰(zhàn)賽重點關(guān)注對TTS 和VC 的欺騙檢測[3],該項賽事吸引了來自全世界16 個國家共27 支團隊,掀起了語音欺騙檢測的研究熱潮[4]。2017 年在瑞典斯德哥爾摩舉行的ASVspoof 2017 挑戰(zhàn)賽則專注于語音回放的檢測,這次比賽開放了語音回放檢測的通用數(shù)據(jù)集,共收到來自全世界49 支隊伍提交的研究結(jié)果,為語音回放檢測的廣泛開展奠定了基礎(chǔ)[5]。 剛結(jié)束的ASVspoof 2019 挑戰(zhàn)賽則同時關(guān)注了語音回放、TTS 和轉(zhuǎn)換的欺騙方式,提供了2 個數(shù)據(jù)庫,分別針對TTS 和轉(zhuǎn)換欺騙,以及語音回放欺騙,這次比賽共吸引了69 支隊伍參加,是迄今為止針對語音欺騙檢測規(guī)模最大、最全面的挑戰(zhàn)賽[6]。
近年來,針對語音欺騙檢測問題,清華大學(xué)、西北工業(yè)大學(xué)、哈爾濱工業(yè)大學(xué)、昆山杜克大學(xué)等多所國內(nèi)高校以及百度、小米等多家企業(yè)都開展了相關(guān)研究,并且取得了一些優(yōu)秀的研究成果。在ASVspoof 2019 挑戰(zhàn)賽上,來自“清華大學(xué)-得意音通”聲紋處理聯(lián)合實驗室的團隊取得了語音回放檢測任務(wù)全球第1 名的成績。此外,中國人民銀行在2018 年發(fā)布的《移動金融基于聲紋識別的安全應(yīng)用技術(shù)規(guī)范(JR/T 0164―2018)》中也明確規(guī)范了移動金融領(lǐng)域中聲紋識別技術(shù)需要具備的防欺騙功能,其中就包括了語音模仿、VC 及合成、錄音回放等。因此,語音欺騙檢測是目前也是未來研究的熱點。
本文介紹了常見的語音欺騙方法,重點闡述了國內(nèi)外針對語音欺騙檢測的最新研究進展,歸納分析了語音欺騙檢測的典型方法,并展望語音欺騙檢測未來的發(fā)展方向。
說話人驗證是一種通過說話人語音特征來驗證說話人身份的技術(shù),圖1 給出了一個典型的ASV 系統(tǒng)的結(jié)構(gòu)和驗證流程。說話人驗證系統(tǒng)是典型的模式識別系統(tǒng),該系統(tǒng)可分為2 個模塊,分別為圖中展示的注冊模塊和驗證模塊。ASV 的通用過程都是在注冊模塊預(yù)先存儲說話人的語音特征,在測試驗證模塊提取待識別說話人的語音特征,與預(yù)先儲存的注冊特征進行對比,從而驗證說話人的身份。
語音欺騙主要是針對ASV 系統(tǒng)進行。在語音欺騙的處理階段,非法的入侵者通過人為模仿已經(jīng)通過注冊的說話人的語音;或者使用錄音設(shè)備偷偷錄制注冊說話人說出的語句;或者通過其他途徑收集到的注冊說話人的語音,使用TTS 和轉(zhuǎn)換的方法對入侵者自己的語音進行處理,使經(jīng)過處理后的語音接近于注冊說話人的語音。然后將處理后的語音饋送給ASV 系統(tǒng)的麥克風(fēng),欺騙ASV 系統(tǒng)獲得準入權(quán)限,進而達到非法入侵的目的。
下文分別介紹語音欺騙的4 種方法:語音模仿、語音回放、TTS 和VC。
圖1 典型的說話人驗證系統(tǒng)Fig.1 Typical automatic speaker verification system
語音模仿是指非法入侵者故意將其自己的聲音模仿為已通過認證的目標說話人,通過模仿目標說話人說出的詞匯、音色或者某些特殊的特征,使自己的聲音盡可能聽起來接近于目標說話人來實現(xiàn)對ASV 系統(tǒng)的入侵。
語音模仿是較為簡單的一種語音欺騙方法,但是該方法要求欺騙者和被模仿的注冊說話人的聲音較為接近,而且該方法的成功率普遍不高。
Farrus 等[7]發(fā)現(xiàn),專業(yè)的模仿者模仿出的語音通常在基頻(F0)和共振峰頻率兩方面更加接近于目標說話人,他們使用若干個模仿者和一個被模仿目標說話人的韻律特征來量化模仿者的欺騙語音與目標說話人真實語音的接近程度,結(jié)果表明,與目標說話人的韻律特征更相似的模仿者的語音會增加ASV 的誤判率。Lau 等[8]發(fā)現(xiàn),如果目標說話人已知,而且模仿者與目標說話人的聲音音色更加相似,那么欺騙ASV 系統(tǒng)的成功率會大大提高。Mariéthoz 等[9]的實驗表明,專業(yè)的模仿者比普通的業(yè)余模仿者欺騙ASV 的成功率更高。在最近的一項研究中評估了語音模仿欺騙方法對3 種常見的ASV 系統(tǒng)的影響[10],結(jié)果表明,語音模仿欺騙會導(dǎo)致這3 種ASV 系統(tǒng)的錯誤判斷率提高。
因此,從總體上來看,語音模仿欺騙對ASV 的安全性具有一定的威脅,會造成系統(tǒng)的錯誤識別率增加,但是具體影響效果與模仿者的專業(yè)程度和ASV 系統(tǒng)的識別性能有關(guān)。
語音回放是指使用預(yù)先錄制的已通過認證的目標說話人的語音,通過某些播放設(shè)備將錄制好的語音播放出來饋送給ASV 系統(tǒng)的麥克風(fēng)。語音回放欺騙不需要任何專業(yè)知識或者復(fù)雜的設(shè)備,僅需要一個簡單的錄音和播放設(shè)備即可,因此非常易于實施。雖然語音回放欺騙的操作簡單、成本低廉,但是卻會給ASV 系統(tǒng)帶來嚴重的安全性問題。這種欺騙方法給ASV 系統(tǒng)造成的影響要遠高于語音模仿欺騙,語音回放欺騙會造成ASV 系統(tǒng)的錯誤接受率(False accept rate, FAR)明顯提高。
在針對語音回放欺騙的ASVspoof 2017 語料庫[11]發(fā)布之前,關(guān)于語音回放欺騙的研究非常有限。早期的研究主要集中在語音回放對ASV 系統(tǒng)造成的影響。Lindberg 等[12]研究了語音回放對文本相關(guān)的ASV 系統(tǒng)的影響,結(jié)果表明,語音回放欺騙使得基于隱馬爾可夫模型(Hidden Markov model,HMM)的ASV 系統(tǒng)的男性說話人的FAR 從1% 增加到了89%,女性說話人的FAR 從5% 增加到了100%,由此可見,語音回放可以對ASV 系統(tǒng)造成非常嚴重的誤判。Villalba 等[13]調(diào)研了遠場錄制的語音對文本無關(guān)的ASV 系統(tǒng)的影響,試驗結(jié)果表明,當(dāng)使用回放語音對基于聯(lián)合因子分析(Joint factor analysis, JFA)ASV 系統(tǒng)進行欺騙時,ASV 的等錯誤率(Equal error rate, EER)從1% 增加到了將近70%。Wang 等[14]使用語音回訪欺騙對基于高斯混合模型(Gaussian mixture model, GMM)-通用背景模型(Universal background model, UBM)的ASV 進行了驗證,發(fā)現(xiàn)在語音回放欺騙下ASV 的FAR 為93%。Ergunay 等[15]比較了不同質(zhì)量的錄音設(shè)備和播放設(shè)備對ASV 系統(tǒng)的影響,其結(jié)果表明,使用高質(zhì)量設(shè)備進行錄音和回放時,ASV 系統(tǒng)的FAR 更高,說明了設(shè)備的質(zhì)量高低也會影響ASV 的準確性。此外,播放設(shè)備距離ASV 的麥克風(fēng)距離的遠近也會影響ASV 的準確性,距離越遠,ASV 的FAR 越高。
TTS 通常也稱為文本到語音的轉(zhuǎn)換,是一種可以將任意文本信息生成可以理解的語音的技術(shù)。TTS 的應(yīng)用非常廣泛,包括日常生活中常用的導(dǎo)航系統(tǒng)、人機交互系統(tǒng)以及語言翻譯系統(tǒng)等。TTS 系統(tǒng)主要由2 部分組成[16]:文本分析和波形生成。在文本分析中,輸入的文本被轉(zhuǎn)換成由單個音素組成的單元;在波形生成階段,將各個單元合成語音的波形。在最新的端到端TTS 框架中,可以直接將輸入的文本信息轉(zhuǎn)化為語音的波形,不需要使用其他附加模塊。
隨著機器學(xué)習(xí)的發(fā)展,基于參數(shù)統(tǒng)計的TTS 成為20 世紀末流行的TTS 方法之一[17-18]。在這種方法中,通常使用基于時間序列的生成模型(一般為HMM)對聲學(xué)參數(shù)進行建模。HMM 不僅可以表示音素序列,還表示根據(jù)語音規(guī)范生成的上下文。然后使用從HMM 生成的聲碼器生成語音波形。此外,基于HMM 的TTS 方法還可以使用UBM 模型中的自適應(yīng)技術(shù)[19],從相對較少的說話人數(shù)據(jù)中學(xué)習(xí)到特定說話人的語音模型。
近年來,深度學(xué)習(xí)的應(yīng)用進一步提高了TTS 的質(zhì)量。首先,使用各種類型的深度神經(jīng)網(wǎng)絡(luò)提高了聲學(xué)參數(shù)的預(yù)測精度[20]。常用的深度神經(jīng)網(wǎng)絡(luò)包括循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)[21]、殘差神經(jīng)網(wǎng)絡(luò)(Residual network, Resnet)[22]和生成對抗網(wǎng)絡(luò)(Generative adversarial network, GAN)[23]等。此外,傳統(tǒng)的基于信號處理方法的傳統(tǒng)波形生成模塊和使用自然語言處理的文本分析模塊被神經(jīng)網(wǎng)絡(luò)替代,神經(jīng)網(wǎng)絡(luò)能夠直接從輸入的特定文本生成相對應(yīng)的波形輸出,可以直接對語音的波形進行建模,這種方法稱為“Wavenet”。這些新型的深度學(xué)習(xí)方法可以使人工合成的語音聽起來幾乎和人類真實的語言一樣自然[24]。
TTS 的方法對ASV 系統(tǒng)具有很強的威脅性,除了簡單的語音波形拼接之外,基于HMM 的語音合成方法可導(dǎo)致基于HMM 的文本相關(guān)ASV 系統(tǒng)的FAR 從正常狀態(tài)下的7% 增加到70% 以上[25]。De Leon 等[26]使用了基于HMM 的TTS 方法,在基于GMM-UBM 的ASV 系統(tǒng)和基于支持向量機(Support vector machine, SVM)的ASV 系統(tǒng)上分別進行了測試,使其FAR 分別上升到了86% 和81%,結(jié)果表明TTS 欺騙方法對于各種ASV 系統(tǒng)都具有很強的威脅性。
VC[27]旨在將一個說話人的聲音轉(zhuǎn)換為另一個說話人的聲音,與TTS 不同的是,VC 直接在輸入的語音上進行,不需要將文本轉(zhuǎn)化為波形這一步操作。大多數(shù)的VC 需要平行語料,即要求源說話人和目標說話人要說出相同的語音內(nèi)容,并且需要源語音和目標語音的每一幀對齊。
當(dāng)語VC 應(yīng)用于語音欺騙時,目標就是將輸入的非法語音轉(zhuǎn)換成新的語音信號,使得新的語音信號在某種意義上與已經(jīng)通過認證的目標說話人更加相似。Perrot 等[28]發(fā)現(xiàn)VC 可以對文本無關(guān)的ASV 系統(tǒng)造成嚴重的影響,當(dāng)所有已注冊的合法說話人語音被轉(zhuǎn)換后的語音替換后,ASV 系統(tǒng)的EER 從10%增加到了60%。Kinnunen 等[29]使用基于聯(lián)合密度高斯混合模型(Joint density Gaussian mixture model,JDGMM)的VC 方法對5 種不同的ASV 系統(tǒng)進行了測試,結(jié)果表明,即使是性能最強大的JFA 系統(tǒng),其在VC 的欺騙方法下的FAR 也從3% 增加到了17%。
語音欺騙檢測是為了能夠檢測出輸入到ASV 系統(tǒng)的各種欺騙語音,保護ASV 系統(tǒng)免受不法用戶的侵害,提高ASV 系統(tǒng)的安全性。 本節(jié)首先給出語音欺騙檢測的總體框架,并以ASVspoof 2015、2017、2019 這3 屆挑戰(zhàn)賽為重點,梳理總結(jié)目前語音欺騙檢測的主要方法。
受到語音欺騙檢測數(shù)據(jù)集的限制,當(dāng)前國際上對語音欺騙的幾種方法還沒有統(tǒng)一的普適性的檢測手段。對于語音模仿欺騙,目前沒有通用的數(shù)據(jù)集支持此項研究,同時由于語音模仿需要較為專業(yè)的模仿者,即使找到了專業(yè)的模仿人員,對于目前較為先進的ASV 系統(tǒng),語音模仿欺騙成功的成功率也并不高,因此,語音模仿欺騙不是當(dāng)前研究的重點。對于語音回放、TTS 和VC 這3 種語音欺騙方法,由于回放和另外兩種方法所使用的技術(shù)差別較大,而TTS 和VC 所使用的技術(shù)具有一定的相似性,因此國際上主要將語音欺騙檢測分為2 大類,一類是語音回放欺騙檢測,另一類則是TTS 和VC 欺騙檢測。
2.1.1 語音欺騙檢測框架
當(dāng)前國際上先進的語音欺騙檢測方法都是設(shè)計一個與ASV 系統(tǒng)獨立的、互不關(guān)聯(lián)的欺騙檢測系統(tǒng)。當(dāng)進行欺騙檢測和說話人驗證時,首先對語音樣本輸入到欺騙檢測系統(tǒng)中進行安全性驗證,只有通過欺騙檢測系統(tǒng),被判定為是真實語音的樣本,才能夠輸入到ASV 系統(tǒng)中進行認證。一個典型的語音欺騙檢測系統(tǒng)如圖2 所示。
圖2 典型的語音欺騙檢測系統(tǒng)Fig.2 A typical speech anti-spoofing system
由于當(dāng)前的語音欺騙檢測系統(tǒng)只能單獨檢測一種語音欺騙,例如單獨檢測語音回放欺騙,或者單獨檢測TTS 與轉(zhuǎn)換的欺騙。因此,如果語音的欺騙方法未知,那么就需要將各種欺騙檢測系統(tǒng)串聯(lián)起來,分別進行檢測,只有通過了所有語音欺騙檢測系統(tǒng)的驗證,才能夠輸入到ASV 系統(tǒng)中進行說話人驗證。整體的語音欺騙檢測流程如圖3 所示,其中2 個欺騙檢測模型可以分別是語音回放欺騙檢測模型和TTS 與轉(zhuǎn)換欺騙檢測模型。
圖3 語音欺騙檢測流程Fig.3 Process of speech anti-spoofing
2.1.2 評價指標
EER 是評價ASV 系統(tǒng)性能和語音欺騙檢測性能的常用指標。對于說話人驗證任務(wù)來說,EER 是錯誤拒絕率(False rejection rate, FRR)和FAR 相等時的數(shù)值,EER 能夠同時反映出系統(tǒng)的安全性和準確性,是衡量生物識別系統(tǒng)性能的重要指標。
在說話人驗證系統(tǒng)中,ASV 會判定2 個語音樣本是否屬于相同的說話人,對比后會得到2 個語音樣本相似度的得分,如果得分大于某一事先設(shè)定好的閾值θ,則判定這2 個語音樣本來自同一個說話人,如果得分小于該閾值θ,則判定這2 個語音樣本來自不同的說話人。如果2 個語音樣本實際上屬于相同的說話人,但是被ASV 系統(tǒng)判定為不同的說話人,則稱之為錯誤拒絕案例,F(xiàn)RR 為錯誤拒絕案例在ASV系統(tǒng)認定為相同說話人案例中所占的比值,即
式中,同類匹配案例即為應(yīng)當(dāng)被系統(tǒng)認定為相同說話人的案例。如果2 個語音樣本實際上屬于不同的說話人,但是ASV 系統(tǒng)判定為相同的說話人,即為錯誤接受案例,F(xiàn)AR 為錯誤接受案例在ASV 系統(tǒng)判定為不同說話人的案例中所占的比值,即
式中,異類匹配案例即為應(yīng)當(dāng)被系統(tǒng)判定為不同說話人的案例。EER 則定義為通過調(diào)整閾值為θEER時,F(xiàn)RR 和FAR 相等的數(shù)值,即
這里提供計算EER 使用的Bosaris 工具箱。
在語音欺騙檢測中,EER 也和ASV 系統(tǒng)中的EER 計算方式類似,式(4)給出語音欺騙檢測中的FRR、FAR 和EER 的計算公式
在評價語音欺騙檢測系統(tǒng)的性能時,如果事先指定的閾值θ過高,則會造成FRR 增大,可能會造成大量真實的語音被判定為欺騙語音,給合法用戶的準入造成不便;而指定的閾值θ過低,則會導(dǎo)致FAR提高,可能會造成大量欺騙語音被判定為真實語音,給系統(tǒng)的安全性造成危害。因此,EER 既可以顯示出欺騙檢測系統(tǒng)的安全性,又可以顯示出合法用戶通過認證的可靠性,是評價語音欺騙檢測系統(tǒng)的重要指標。
2.1.3 數(shù)據(jù)集
自2015 年以來,每隔兩年Interspeech 就會舉辦一次專門針對語音欺騙檢測的ASVspoof 挑戰(zhàn)賽,至今共舉辦了3 屆,每一屆挑戰(zhàn)賽都會發(fā)布專門的數(shù)據(jù)集供研究者使用。
ASVspoof 2015 數(shù)據(jù)集[4]專門針對TTS 和VC 欺騙檢測,該數(shù)據(jù)集由真實語音和欺騙語音組成。真實語音共由106 名不同的說話人錄制,包括45 名男性和61 名女性,沒有對錄制語音進行任何修改,并且是在干凈的背景環(huán)境中進行錄制,沒有明顯的信道或背景噪聲的干擾。錄制好語音后,使用了3 種TTS 和7 種VC 的算法,對原始的真實語音進行變換,生成欺騙語音。整個數(shù)據(jù)集共分為3 個子集:訓(xùn)練集、開發(fā)集和驗證集,可以使用訓(xùn)練集和開發(fā)集進行語音欺騙檢測模型的訓(xùn)練和調(diào)試,用訓(xùn)練好的模型在驗證集上進行測試,得到最終的判別結(jié)果。表1 給出了ASVspoof 2015 數(shù)據(jù)集的具體情況。
ASVspoof 2017 挑戰(zhàn)賽專門針對語音回放欺騙檢測,該語料庫來源于RedDots(https://sites.google.com/site/thereddotsproject/)。該語料庫由來自全球各地的ASV 研究人員使用Android 智能手機進行收集和錄制。ASVspoof 2017 數(shù)據(jù)集中的真實語音是原始RedDots 語料庫中的一個子集,而回放的語音則是這些原始語音通過不同種類的設(shè)備播放后再錄制的。該數(shù)據(jù)集也分為訓(xùn)練集、開發(fā)集和驗證集3 部分,表2 給出了數(shù)據(jù)的具體信息。
表1 ASVspoof 2015 數(shù)據(jù)集詳細信息Table 1 Detailed information of ASVspoof 2015 corpus
表2 ASVspoof 2017 數(shù)據(jù)集詳細信息Table 2 Detailed information of ASVspoof 2017 corpus
ASVspoof 2019 挑戰(zhàn)賽同時針對語音回放欺騙檢測和TTS 轉(zhuǎn)換欺騙檢測,并為此分別設(shè)立了2 個賽道和相對應(yīng)的數(shù)據(jù)集。 這2 部分數(shù)據(jù)集都是基于VCTK 數(shù)據(jù)庫進行開發(fā)的(http://dx.doi.org/10.7488/ds/1994),同樣劃分為3 個子集:訓(xùn)練集、開發(fā)集和驗證集,分別由20 名(8 男12 女)、10 名(4 男6女)和48 名(21 男27 女)不同的說話人組成。在TTS 與回放欺騙檢測中,使用了17 種不同的TTS 和VC 系統(tǒng)生成的真實語音和欺騙語音。這17 種方法中,有6 種方法被指定為已知的欺騙類型,另外11 種指定為未知的欺騙類型。訓(xùn)練集和開發(fā)集中的欺騙語音的生成方法僅包含6 種已知的欺騙方法,驗證集包含2 種已知的欺騙方法和11 種未知的欺騙方法。在已知的6 種欺騙方法中,有2 個VC 算法和4 個TTS 算法,11 種未知欺騙方法中,包括2 個VC 算法、6 個TTS 算法和3 個TTS-VC 混合算法。這些算法中包含了一些經(jīng)典的和當(dāng)前最先進的TTS 和轉(zhuǎn)換方法,包括傳統(tǒng)的語音編碼、Griffin-Lim[30]、GAN[31]、神經(jīng)波形模型[32]等。
與ASVspoof 2017 數(shù)據(jù)集不同,ASVspoof 2019 的語音回放欺騙檢測數(shù)據(jù)集設(shè)定了更加詳細的聲學(xué)環(huán)境,包括錄音的房間大小、混響的種類和播放設(shè)備到錄音設(shè)備的距離等。表3,4 給出了ASVspoof 2019 數(shù)據(jù)集的詳細信息。
以上3 個數(shù)據(jù)集可以在ASVspoof 官方網(wǎng)站(https://www.asvspoof.org/database)下載。
表3 ASVspoof 2019 的TTS 數(shù)據(jù)集詳細信息Table 3 Detailed information of ASVspoof 2019 replay corpus
表4 ASVspoof 2019 的TTS 與轉(zhuǎn)換數(shù)據(jù)集詳細信息Table 4 Detailed information of ASVspoof 2019 TTS and VC corpus
與一般的說話人驗證和語音處理所使用的聲學(xué)特征不同,語音欺騙檢測需要開發(fā)專門的用于語音欺騙檢測的聲學(xué)特征。這是由于一般的說話人驗證或者其他的語音處理任務(wù)所常用的聲學(xué)特征,例如,梅爾倒譜系數(shù)(Mel frequency cepstral coefficient, MFCC)在語音欺騙檢測中并不能夠較好地區(qū)分真實語音和欺騙語音,使得欺騙檢測的性能較差。因此,專門針對語音欺騙檢測開發(fā)新的聲學(xué)特征就顯得尤為重要。針對語音欺騙檢測的聲學(xué)特征需要能夠較好地表征出真實語音與欺騙語音的區(qū)別,例如在語音回放檢測中,來自同一個語音樣本的真實語音和其回放語音,其語音內(nèi)容和說話人的特征非常相似,傳統(tǒng)的聲學(xué)特征則不能顯示出其區(qū)別,圖4 給出的是一段語音和其回放語音的功率譜圖像,可以看到兩者非常相似,難以區(qū)分。
圖4 真實語音與回放語音聲學(xué)特征對比Fig.4 Comparison of acoustic characteristics between genuine speech and replay speech
從2015 年開始,許多國內(nèi)外的研究者開始研究針對語音欺騙檢測的聲學(xué)特征,本節(jié)將重點介紹這些用于欺騙檢測的特征。
常 數(shù)Q 倒 譜 系 數(shù)(Constant Q cepstral coefficient, CQCC)[33]。該 系 數(shù) 是 基 于 常 數(shù)Q變 換(ConstantQtransform, CQT)生成的一類倒譜系數(shù)。 常數(shù)Q變換是一種時頻分析方法,可以提供可變的時間和頻率分辨率。 圖5 闡述了CQCC 的提取過程,首先對時域信號x(n) 進行CQT 變換獲得CQT 頻譜
式中,k= 1,2,…,K為頻率索引,a*k為ak(n)的負共軛,Nk為可變窗長,表示向下取整。
然后取對數(shù)并進行CQT 幾何尺度的線性化,最后通過離散余弦變換(Discrete cosine transform,DCT)獲得倒譜系數(shù),得到CQCC 特征。ASVspoof 2017 挑戰(zhàn)賽中,官方給出的基線系統(tǒng)(https://www.asvspoof.org/data2017/baseline_CM.zip)即是使用CQCC 特征和GMM 進行語音回放欺騙檢測的,并且取得了較好的檢測結(jié)果。
圖5 CQCC 提取流程Fig.5 Block diagram of CQCC feature extraction
線性頻率倒譜系數(shù)(Linear frequency cepstral coefficient, LFCC)。該系數(shù)已經(jīng)被證明在語音欺騙檢測中具有良好的性能表現(xiàn)[34]。LFCC 首先對信號進行短時傅里葉變換(Short time Fourier transform, STFT)計算幅度譜,隨后取對數(shù)并使用線性間隔的三角濾波器,最后使用DCT 得到LFCC 特征。LFCC 特征在ASVspoof 2019 挑戰(zhàn)賽中在官方給出的基線系統(tǒng)中也有出色的性能表現(xiàn)。
基于瞬時頻率的耳蝸倒譜系數(shù)(Cochlear filter cepstral coefficients instantaneous frequency, CF?CC?IF)[35]。該系數(shù)在2015 年提出,并在檢測TTS 和轉(zhuǎn)換方面取得了較好的效果。CFCC-IF 將耳蝸倒譜系數(shù)(Cochlear filter cepstral coefficients, CFCC)與瞬時頻率(Instantaneous frequency, IF)相結(jié)合,CFCC基于小波變換以及人耳耳蝸的某些機制,如神經(jīng)尖峰密度。為了計算具有瞬時頻率的CFCC,將神經(jīng)尖峰密度包絡(luò)乘以瞬時頻率,再進行微分和對數(shù)運算,最后進行離散余弦變換得到CFCC-IF 特征。
群延遲圖特征(Group delay gram, GD?gram)[36]。該特征已經(jīng)被應(yīng)用于欺騙檢測中并且取得了不錯的效果。在語音回放中,語音信號的時頻表示必須要有較高的分辨率才能從特定的頻譜區(qū)域中更好地提取出真實語音和欺騙語音的區(qū)別信息。與幅度譜相比,群延遲具有更高的譜分辨率,更為重要的是,GD-gram 同時包含功率譜和相位譜信息,能夠使真實語音與欺騙語音的區(qū)別體現(xiàn)得更加明顯。
單頻濾波倒譜系數(shù)(Single frequency filtering cepstral coefficient, SFFCC)[37]。該系數(shù)是從最近提出的單頻濾波(Single frequency filtering, SFF)方法中提取出的新型語音特征,SFF 的主要目的是計算信號的幅度包絡(luò)隨時間的變化,并且可以通過改變參數(shù)來調(diào)整頻譜分辨率。該新型特征在語音欺騙檢測中表現(xiàn)出了優(yōu)秀的檢測效果,其提取流程如圖6 所示。
圖6 SFFCC 提取流程Fig.6 Block diagram of SFFCC feature extraction
有了專門針對語音欺騙檢測的聲學(xué)特征后,還需要具有分類性能出色的后端分類模型對提取到的聲學(xué)特征進行分類和判決,本節(jié)主要介紹基于傳統(tǒng)機器學(xué)習(xí)的語音欺騙檢測模型。
2.3.1 基于GMM 的欺騙檢測方法
GMM 是一種概率統(tǒng)計模型,其利用期望最大估計算法(Expectation maximization algorithm, EM)更新參數(shù)來訓(xùn)練GMM 模型。GMM 中含有多個單體高斯模型,通過將多個單體高斯進行線性加權(quán)組合,可以擬合許多十分復(fù)雜的非線性問題。在說話人驗證任務(wù)中,通常利用GMM 強大的數(shù)據(jù)擬合能力,來擬合說話人身份模型。而在語音欺騙檢測中,則利用GMM 分別來擬合真實語音和欺騙語音2 個模型。
GMM 的概率密度函數(shù)為
式中,x 為維度為F 的向量,GMM 模型為 λ=( wi,μi,Σi),高斯個數(shù)為C,每個高斯的權(quán)重、均值和協(xié)方差矩陣分別為wi,μi和Σi,1≤i ≤C。假設(shè)一個語音樣本的特征矢量矩陣為X ={ x1,x2,…,xT},則該矩陣相對于GMM 的對數(shù)似然得分為每個特征矢量xi相對于該模型(真實語音或欺騙語音)的對數(shù)似然得分之和。因此,通過對所有特征向量得分取平均,就可以得到最終的似然得分
式中P ( xt|λ ) 為特征矢量xt相對于GMM 模型的似然得分。圖7 展示了基于GMM 的語音欺騙檢測流程。
圖7 基于GMM 的語音欺騙檢測流程圖Fig.7 Framework of anti-spoofing system based on GMM
GMM 訓(xùn)練速度快、準確度高、使用廣泛,在ASVspoof 2015 中,基于GMM 的欺騙檢測系統(tǒng)取得了所有參賽隊伍中排名第一的成績[35]。其良好的表現(xiàn)也導(dǎo)致了在后來的ASVspoof 2017 和ASVspoof 2019 中均被官方用來作為基線系統(tǒng)供廣大參賽者參考,在語音回放和VC 欺騙檢測任務(wù)中均體現(xiàn)了優(yōu)秀的性能,也成為了眾多參賽隊伍普遍使用的方法。
2.3.2 基于i-vector 的欺騙檢測方法
i-vector 是一種將不定長的語音轉(zhuǎn)化為定長的可以代表說話人信息的技術(shù)(說話人超矢量),是由JFA 技術(shù)擴展而來,最早由Dehak 等[38]于2011 年提出,該技術(shù)極大地促進了說話人驗證領(lǐng)域的發(fā)展??傮w上來說,i-vector 是一種利用全變量子空間建模的技術(shù)。該技術(shù)基于以下假設(shè):(1)說話人和信道分量具有統(tǒng)計獨立特性;(2)這些分量符合高斯分布。i-vector 通過訓(xùn)練一個包含說話人和信道信息的全變量子空間矩陣T,從而將說話人超矢量經(jīng)過全變量子空間T 的投影,降維成只包含說話人信息的低維矢量w,即
式中,m 為均值超矢量,和說話人以及信道都獨立;T 為全變量空間矩陣,用來表示跨越大量訓(xùn)練數(shù)據(jù)的主要方向變換,w 為全變量因子,也就是i-vector。下面簡要介紹i-vector 的提取流程。
假設(shè)語音的聲學(xué)特征(如MFCC)的維度為F,GMM 的高斯混合數(shù)為C,那么i-vector 提取過程可以按照式(9)計算
式 中 ,I 為 一 個F × F 的 身 份 矩 陣 ,N 為 一 個CF × CF 的 對 角 矩 陣 ,它 的 對 角 元 素 為NCI ( c = 1,2,…,C ),超矢量A 是由歸一化的一階Baum-Welch 統(tǒng)計量串聯(lián)起來形成的。Σ 為沒有包含在T 矩陣中的殘余變量的協(xié)方差矩陣。i-vector 中計算全變量空間的過程和JFA 特征因子空間的訓(xùn)練過程類似,但是有一個地方不同:在JFA 特征因子空間的訓(xùn)練中,通常認為給定說話人的所有語音的歸屬者為相同的說話人;而在全變量子空間的訓(xùn)練過程中,為了捕捉信道變化,通常認為這些語音屬于不同的說話人。i-vector 的維度要遠遠低于說話人超矢量,因此,許多在處理維度較高的超矢量時失效的技術(shù),都可以用來處理i-vector。i-vector 在ASVspoof 2015 挑戰(zhàn)賽中對TTS 和轉(zhuǎn)換的欺騙檢測取得了第2 名的成績[39],充分證明了i-vector 不僅可以用于說話人驗證,同樣可以用于語音欺騙檢測,且能夠取得良好的表現(xiàn)效果。
2.3.3 基于SVM 的欺騙檢測方法
SVM 是基于統(tǒng)計學(xué)習(xí)理論的一種機器學(xué)習(xí)算法,具有完備的理論、強大的實用性和優(yōu)秀的泛化能力,是一種優(yōu)秀的二分類算法,非常適用于語音欺騙檢測任務(wù)。在欺騙檢測任務(wù)中,SVM 需要區(qū)分的兩類分別為真實語音的特征和欺騙語音的特征。
對于樣本( x1,y1),…,( xl,yl),x ∈R,y ∈{+ 1,- 1}, l 為樣本數(shù),訓(xùn)練SVM 就是盡最大能力尋找一個可以將測試數(shù)據(jù)進行正確分類的函數(shù),可以稱其為決策函數(shù),也就是尋找一個可以將2 類樣本完全隔開的超平面。如果此超平面可以將訓(xùn)練樣本準確的隔開,并且可以使每類數(shù)據(jù)距離超平面的距離最大,則稱其為最優(yōu)超平面,其中,2 類樣本中距離超平面最近的2 個(每類1 個,若多于1 個則選擇1 個)到超平面的距離的和稱為分類間隔(Margin)。
SVM 的訓(xùn)練速度快,分類效果好,在ASVspoof 挑戰(zhàn)賽中,SVM 作為各支參賽隊伍廣泛使用的后端分類器已經(jīng)在欺騙檢測中表現(xiàn)出了良好的檢測效果,在ASVspoof 2015 中,使用基于SVM 的語音欺騙檢測系統(tǒng)取得了第2 名的好成績[39],體現(xiàn)出了優(yōu)秀的判別效果,將是未來一段時間內(nèi)仍然受到廣泛關(guān)注和使用的分類方法。
2.3.4 基于PLDA 的欺騙檢測方法
概率線性判別分析(Probabilistic linear discriminant analysis, PLDA)打分通常用于i-vector 等嵌入式(Embedding)特征后端常用的打分策略。在i-vector 中存在一個假設(shè),即說話人信息和信道分量是相互獨立且均符合高斯分布。在PLDA 中有同樣的假設(shè),假設(shè)Xs和Xt為2 個語音樣本的i-vector,則它們之間的PLDA 打分定義為
該方法通常和i-vector 方法共同使用,作為常用的后端打分系統(tǒng),具有良好的分類性能,能夠較為明顯地區(qū)別出不同類型的樣本,目前已廣泛應(yīng)用于說話人驗證,語音欺騙檢測等任務(wù)中。
近年來,隨著深度學(xué)習(xí)(Deep learning, DL)的快速發(fā)展,能夠區(qū)分復(fù)雜非線性特征的深度神經(jīng)網(wǎng)絡(luò)層出不窮,極大地提高了對復(fù)雜樣本的分類準確性,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)[40]、RNN[41]、生成式對抗網(wǎng)絡(luò)(Generative adversarial network, GAN)[42]和它們的改進方法?,F(xiàn)主要介紹用于語音欺騙檢測的深度學(xué)習(xí)方法。
2.4.1 基于DNN 的欺騙檢測方法
深度神經(jīng)網(wǎng)絡(luò)(Deep neural network, DNN)是應(yīng)用最為廣泛的深度學(xué)習(xí)算法之一,其按照內(nèi)部結(jié)構(gòu)可以分為輸入層、隱含層和輸出層,每層之間都是全連接的,具有非常強的非線性問題的擬合性能。在語音處理領(lǐng)域,DNN 一般的層數(shù)在4 層左右。在語音欺騙檢測中,首先提取前面所提到的聲學(xué)特征,再將這些聲學(xué)特征送入DNN 中進行學(xué)習(xí)和訓(xùn)練,在測試階段,使用訓(xùn)練好的DNN 對待測樣本進行分類和判別,具有良好的區(qū)分性。在ASVspoof 2015 挑戰(zhàn)賽中,Yu 等[43]提出了一種具有5 個隱含層的DNN 來進行欺騙檢測,并且采用了一種新型的評分方法——人類對數(shù)似然值(Human log-likelihoods,HLLs)對檢測結(jié)果進行評價。網(wǎng)絡(luò)使用CQCC 作為輸入,網(wǎng)絡(luò)中的每個隱含層具有2 048 個節(jié)點,激活函數(shù)采用sigmoid 函數(shù),使用softmax 層作為網(wǎng)絡(luò)的輸出層,在比賽中取得優(yōu)異的成績,證明了DNN 在語音欺騙檢測中的優(yōu)秀效果。
2.4.2 基于CNN 的欺騙檢測方法
CNN 是目前深度學(xué)習(xí)技術(shù)領(lǐng)域中非常具有代表性的神經(jīng)網(wǎng)絡(luò)之一,在圖像分析和處理領(lǐng)域取得了眾多突破性的進展,在學(xué)術(shù)界常用的標準圖像標注集ImageNet 上,基于CNN 取得了很多成就,包括圖像特征提取分類、場景識別等。CNN 通常被用來從統(tǒng)一大小的樣本數(shù)據(jù)(如圖像)中提取魯棒性的特征,因此需要對數(shù)據(jù)進行預(yù)處理,對時頻數(shù)據(jù)使用固定窗長的窗口化處理從而使數(shù)據(jù)具有相同的格式。
在ASVspoof 2017 挑戰(zhàn)賽中,取得語音回放檢測第1 名的團隊使用的就是 CNN 的變種方法 Light CNN(LCNN)[44],該方法基于最大特征激活(Max-feature-map activation, MFM),基于MFM 的神經(jīng)網(wǎng)絡(luò)能夠選擇對任務(wù)求解至關(guān)重要的特征,因此可以成功實現(xiàn)音頻分類任務(wù),尤其是語音欺騙檢測。MFM 定義為
式中,x 表示H × W × N 的輸入矢 量,y 表示H × W × 2 的輸出矢量,i 和j 表示頻域和時域,k 表示信道索引。圖8 展示了卷積層的MFM,MFM 的使用能夠減少CNN 架構(gòu),因此這也是稱為Light CNN 的原因。
Lavrentyeva 等[44]對語音提取CQCC 特征,后端分類器使用了5 個卷積層、4 個網(wǎng)絡(luò)內(nèi)網(wǎng)絡(luò)(Networkin-network, NIN)、10 個MFM、4 個最大池化層和2 個全連接層的網(wǎng)絡(luò)結(jié)構(gòu)進行語音回放檢測,此方法證明了CNN 在語音欺騙檢測中的超強能力,得到了廣泛的認可。
2.4.3 基于RNN 的欺騙檢測方法
RNN 的研究始于20 世紀八九十年代,并在21 世紀初發(fā)展為深度學(xué)習(xí)算法之一,其中雙向RNN(Bidirectional RNN, Bi-RNN)和長短期記憶網(wǎng)絡(luò)(Long short-term memory networks, LSTM)是常見的RNN。RNN 通過循環(huán)單元和門限結(jié)構(gòu)而具有記憶性,因此在對時間序列問題的處理中具有一定的優(yōu)勢。目前,RNN 已經(jīng)廣泛應(yīng)用于自然語言處理、語音識別、機器翻譯等領(lǐng)域。LSTM 是最早被提出的RNN 門控算法,其對應(yīng)的循環(huán)單元包括輸入門、遺忘門和輸出門,相對于RNN 對系統(tǒng)狀態(tài)建立的遞歸計算。3 個門控對LSTM 單元的內(nèi)部狀態(tài)建立了自循環(huán),即輸入門決定當(dāng)前時間步的輸入和前一個時間步的系統(tǒng)狀態(tài)對內(nèi)部狀態(tài)的更新,遺忘門決定前一個時間步內(nèi)部狀態(tài)對當(dāng)前時間步內(nèi)部狀態(tài)的更新,輸出門決定內(nèi)部狀態(tài)對系統(tǒng)狀態(tài)的更新。LSTM 的更新方式如下
式中,s(t)表示輸出狀態(tài)單元,h(t)表示隱藏狀態(tài)單元,gi表示輸入門,gf表示遺忘門,go表示輸出門,f 代表激活函數(shù),t 表示當(dāng)前時間節(jié)點,b 表示偏置,u 代表輸入層到隱含層的權(quán)重,w 表示隱藏層節(jié)點到下一隱藏層節(jié)點的權(quán)重。
基于RNN 的語音欺騙檢測方法在ASVspoof 2017 挑戰(zhàn)賽中取得了第1 名的成績[5]。此外,Li 等[45]使用了基于注意力機制的LSTM 結(jié)構(gòu),對提取出的CQCC 進行判別,在ASVspoof 2017 語音回放檢測數(shù)據(jù)及上也取得了良好的結(jié)果,證明了基于RNN 方法在欺騙檢測中的適用性。
2.4.4 基于深度特征的欺騙檢測方法
i-vector 在說話人驗證領(lǐng)域取得了非常好的效果。然而,和任何基于統(tǒng)計理論的機器學(xué)習(xí)模型一樣,i-vector 系統(tǒng)由若干個獨立的無監(jiān)督子系統(tǒng)組成,這些子系統(tǒng)的訓(xùn)練目標均不相同。在有大量數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)的前提下,i-vector 系統(tǒng)的性能提升相對有限,為了能夠使系統(tǒng)的各個部分聯(lián)合優(yōu)化,且能夠在大數(shù)據(jù)訓(xùn)練量的情況下獲得更優(yōu)異的效果,研究者們基于深度神經(jīng)網(wǎng)絡(luò)提出了x-vector 框架。xvector 是一個基于深度學(xué)習(xí)的有監(jiān)督的識別系統(tǒng),該系統(tǒng)將聚類和提取統(tǒng)計量的步驟合而為一,通過訓(xùn)練時延神經(jīng)網(wǎng)絡(luò)(Time delay neural network,TDNN)[46]來區(qū)分不同的類別,如圖9 所示。在統(tǒng)計池化層后的輸出層就可以用來當(dāng)做該語音樣本的嵌入式矢量,即x-vector。同時可以設(shè)計和使用不同種類的損失函數(shù)來滿足不同的目標任務(wù),例如使用了AMSoftmax[47]的TDNN 通過最大化類間距離和最小化類內(nèi)距離,進一步提高了x-vector 的性能。從TDNN 網(wǎng)絡(luò)中提取到嵌入式矢量后(即圖8 中的l6),使用線性判別分析(Linear discriminative analysis, LDA)對嵌入矢量進行降維,得到x-vector。通過將提取到的xvector 表示為函數(shù)g (·),真實語音和偽裝語音的x-vector 可 表 示 為g ( x ) 和g ( y )。 因 此 ,優(yōu) 化 語音偽裝檢測任務(wù)就可以轉(zhuǎn)化為計算距離d ( g ( x ),g ( y )),其中d 是距離度量,例如余弦距離。Li 等[48]使用了x-vector 用于語音欺騙檢測,在ASVspoof 2019 語音回放檢測中取得了良好的結(jié)果。此外,基于其他深度特征的語音欺騙檢測方法也在語音欺騙檢測中取得了良好的性能[49]。這種基于深度特征的欺騙檢測方法雖然準確率高,但是其網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,所需要的計算時間較長,需要有良好的硬件條件作為支撐。
圖9 x-vector 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 Framework of x-vector
以上總結(jié)了語音欺騙檢測的總體流程、欺騙檢測所使用的聲學(xué)特征以及后端分類算法,表5 將ASVspoof 2015、2017 兩次語音欺騙檢測挑戰(zhàn)賽中前5 名所使用的方法進行總結(jié),以提供更直觀的認識和對比,也為將來的研究提供相應(yīng)的參考。
表5 ASVspoof 挑戰(zhàn)賽方法比較Table 5 Summary of ASVspoof challenge
本文介紹了不同的語音欺騙方法以及相應(yīng)的檢測策略,梳理總結(jié)了近年來國內(nèi)外的專家學(xué)者在欺騙檢測方面所取得進展。過去的幾年里,隨著各種針對語音欺騙檢測數(shù)據(jù)庫的發(fā)布,語音欺騙檢測方法研究取得了很大的進步。當(dāng)前最先進的語音欺騙檢測技術(shù)已經(jīng)可以取得很高的準確性,具有較高的實用價值,但仍需要以下幾個方面進行進一步的研究。
(1)欺騙檢測方法的魯棒性
最近的研究表明,盡管目前欺騙檢測方法在干凈環(huán)境下的檢測效果比較理想,但是在噪聲、混響和信道效應(yīng)的作用下,各種欺騙檢測方法基本上就失去了作用。這是由于環(huán)境的變化,導(dǎo)致欺騙語音與真實語音的差異變得更加不明顯。因此需要進一步研究在復(fù)雜的聲學(xué)環(huán)境條件下語音欺騙檢測方法的有效性,找到在噪聲環(huán)境下的檢測方法,更加貼近真實使用場景。
(2)欺騙檢測方法的普適性
目前的欺騙檢測方法都是針對某種特定類型的欺騙方法,如針對VC 的欺騙檢測方法在TTS 上就表現(xiàn)出較差的性能。此外,針對未知類型的欺騙方法,現(xiàn)有的欺騙檢測方法也不能較好區(qū)分真實語音和欺騙語音。因此,應(yīng)該進一步研究更加具有通用性和普適性的欺騙檢測方法,使其能夠同時應(yīng)對和檢測出多種的欺騙類型,這將是未來語音欺騙檢測的重點發(fā)展方向。
(3)欺騙檢測和說話人驗證聯(lián)合檢測
開發(fā)欺騙檢測方法的最終目的是保護ASV 系統(tǒng)免于受到欺騙,免遭具有欺騙語音的非法者的影響。到目前為止,絕大多數(shù)的欺騙檢測方法都是獨立于ASV 的系統(tǒng)。但是將欺騙檢測和ASV 結(jié)合起來并不是一個簡單的問題。首先,欺騙檢測的判別得分和說話人驗證的得分是兩種完全不同的計算方法;其次,沒有達到很高判別準確率的欺騙檢測系統(tǒng)可能會拒絕真實的說話人而使ASV 的FAR 大大提高;最后,從本質(zhì)上來看,欺騙檢測的改進是否能夠改善整個ASV 系統(tǒng)目前還并沒有一個準確的結(jié)論,如果欺騙檢測和ASV 沒有經(jīng)過適當(dāng)?shù)钠ヅ?,可能無法在實際情況下保護ASV 系統(tǒng)。最新的研究工作初步探索了用于聯(lián)合評估欺騙檢測和ASV 系統(tǒng)的損失函數(shù)以及新型的融和方法,具有一定的借鑒參考價值,為今后的聯(lián)合檢測系統(tǒng)提供了思路。
語音的欺騙檢測研究是當(dāng)前的研究熱點,在語音處理和生物識別領(lǐng)域得到了廣泛的關(guān)注。隨著錄音設(shè)備質(zhì)量的提高和TTS、VC 等語音處理技術(shù)的發(fā)展,真實的人類語音與人工加工后的語音將越來越難以區(qū)分,給語音欺騙檢測和ASV 系統(tǒng)的安全性帶來越來越嚴峻的挑戰(zhàn)。隨著越來越多國內(nèi)外研究者的高度重視和積極參與,有理由相信語音欺騙檢測技術(shù)將會得到越來越快的發(fā)展和進步。