李 爍,顧益軍,譚 昊
1.中國(guó)人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038
2.廣州大學(xué) 網(wǎng)絡(luò)空間先進(jìn)技術(shù)研究院,廣州 510006
近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)大力推動(dòng)了說(shuō)話人識(shí)別技術(shù)的發(fā)展,說(shuō)話人識(shí)別系統(tǒng)逐漸普及于人們的生產(chǎn)生活中,如聲紋門(mén)禁、聲紋登錄、聲紋指令等,其安全性能也受到人們的廣泛關(guān)注。一方面,由于神經(jīng)網(wǎng)絡(luò)具有易受對(duì)抗攻擊的特點(diǎn),基于深度學(xué)習(xí)的說(shuō)話人識(shí)別系統(tǒng)也會(huì)受到對(duì)抗攻擊的威脅;另一方面,研究對(duì)抗攻擊對(duì)于防御也有指導(dǎo)意義,掌握最新的對(duì)抗攻擊方法,才能針對(duì)性地采取對(duì)抗防御措施。綜上,研究說(shuō)話人識(shí)別領(lǐng)域的對(duì)抗攻擊,對(duì)維護(hù)說(shuō)話人識(shí)別系統(tǒng)安全具有重要意義。
現(xiàn)有針對(duì)說(shuō)話人識(shí)別系統(tǒng)的對(duì)抗攻擊算法,根據(jù)攻擊時(shí)是否掌握目標(biāo)模型具體結(jié)構(gòu)和參數(shù)可分為白盒攻擊和黑盒攻擊,根據(jù)攻擊方式的不同可分為基于梯度迭代的算法[1-4]、基于生成對(duì)抗網(wǎng)絡(luò)的算法[5-6]和基于優(yōu)化的算法[7-8]等,存在攻擊成本較高、梯度信息利用不充分、遷移性較差等問(wèn)題。對(duì)抗樣本的遷移性是指對(duì)抗樣本的跨模型遷移能力,即針對(duì)特定模型生成的對(duì)抗樣本能否欺騙其他模型的攻擊泛化能力,可用對(duì)抗樣本遷移的黑盒攻擊成功率進(jìn)行評(píng)價(jià)。Dong 等人[3]提出的動(dòng)量迭代快速梯度符號(hào)法算法(momentum iterative fast gradient sign method,MI-FGSM)算法引入動(dòng)量,生成的對(duì)抗樣本具有較好的遷移性,可以用于黑盒攻擊,常作為遷移攻擊的基線方法,但沒(méi)有充分利用樣本梯度信息。為了進(jìn)一步提高對(duì)抗樣本的遷移性,本文在MI-FGSM 算法的基礎(chǔ)上進(jìn)行改進(jìn),提出一種融合時(shí)空梯度信息的對(duì)抗攻擊算法(space-time iterative fast gradient sign method,STI-FGSM),該算法在動(dòng)量的基礎(chǔ)上,融合語(yǔ)音樣本的時(shí)序梯度和空間梯度信息,結(jié)合擾動(dòng)集成方法,提高對(duì)抗樣本遷移攻擊的成功率。本文的主要工作和貢獻(xiàn)如下:
(1)為了提高對(duì)抗攻擊遷移性,在MI-FGSM 算法基礎(chǔ)上,融合動(dòng)量和時(shí)序梯度信息,穩(wěn)定梯度更新方向,提出時(shí)序迭代快速梯度符號(hào)法(time iterative fast gradient sign method,TI-FGSM)。
(2)在TI-FGSM 算法的基礎(chǔ)上,引入空間梯度,充分學(xué)習(xí)語(yǔ)音樣本區(qū)域信息,提出STI-FGSM 算法,從時(shí)序、空間兩個(gè)層面提高對(duì)抗樣本遷移性。
(3)將STI-FGSM 算法與擾動(dòng)集成方法相結(jié)合,充分利用現(xiàn)有白盒模型的信息,實(shí)現(xiàn)集成模型攻擊,大幅提高算法的黑盒攻擊成功率。實(shí)驗(yàn)證明,該算法對(duì)ResNetSE34V2、TDy_ResNet34_half、x-vector、ECAPATDNN 四種說(shuō)話人識(shí)別模型均能實(shí)現(xiàn)白盒攻擊和黑盒攻擊,取得了較好的效果,優(yōu)于其他算法。
本章中,簡(jiǎn)要介紹現(xiàn)今主流的深度學(xué)習(xí)說(shuō)話人識(shí)別模型,并對(duì)當(dāng)前聲紋對(duì)抗攻擊算法及集成攻擊方法進(jìn)行分析。
說(shuō)話人識(shí)別(speaker recognition,SR)模型,是指能夠提取輸入語(yǔ)音的特征,并對(duì)其進(jìn)行處理分析和比對(duì),從而判斷說(shuō)話人身份的模型。隨著深度學(xué)習(xí)技術(shù)逐漸應(yīng)用于說(shuō)話人識(shí)別模型中,極大地提高了說(shuō)話人識(shí)別系統(tǒng)的性能。目前基于深度學(xué)習(xí)的說(shuō)話人識(shí)別模型主要可分為兩類(lèi):一種是基于殘差網(wǎng)絡(luò)(residual networks,Resnet)[9]訓(xùn)練的模型,另一種是基于時(shí)延神經(jīng)網(wǎng)絡(luò)(time-delay neural network,TDNN)[10]訓(xùn)練的模型。
本文選用四種基于深度學(xué)習(xí)訓(xùn)練的說(shuō)話人識(shí)別模型作為目標(biāo)模型開(kāi)展研究:ResNetSE34V2[11]、TDy_ResNet34_half[12]、x-vector[13]、ECAPA-TDNN[14]。其中,ResNetSE34V2 模型通過(guò)ResNet-34 網(wǎng)絡(luò)訓(xùn)練,為VoxSRC2020聲紋識(shí)別挑戰(zhàn)賽中的基線模型[11]。TDy_ResNet34_half 模型通過(guò)融合時(shí)域動(dòng)態(tài)卷積(temporal dynamic CNN,TDy-CNN)[12]的ResNet-34網(wǎng)絡(luò)訓(xùn)練,為基于殘差網(wǎng)絡(luò)訓(xùn)練的說(shuō)話人識(shí)別模型。x-vector模型通過(guò)TDNN網(wǎng)絡(luò)訓(xùn)練,并使用概率線性判別分析(probabilistic linear discriminant analysis,PLDA)[15]后端進(jìn)行打分,為深度學(xué)習(xí)說(shuō)話人識(shí)別的經(jīng)典模型。ECAPA-TDNN模型通過(guò)融合一維壓縮激勵(lì)殘差模塊(squeeze-excitation Res2Block,SE-Res2Block)[16-17]的TDNN 網(wǎng)絡(luò)訓(xùn)練,同時(shí)引入多層特征融合和注意力統(tǒng)計(jì)池化[18],為當(dāng)前性能最佳的說(shuō)話人識(shí)別模型。
對(duì)抗樣本最早由Szegedy 等人[19]在圖像領(lǐng)域提出,并逐漸應(yīng)用于說(shuō)話人識(shí)別領(lǐng)域[20-21],說(shuō)話人識(shí)別領(lǐng)域的對(duì)抗攻擊實(shí)現(xiàn)方式如圖1所示。
圖1 說(shuō)話人識(shí)別的對(duì)抗攻擊Fig.1 Adversarial attacks for speaker recognition
聲紋對(duì)抗攻擊通過(guò)在原始語(yǔ)音中注入人耳無(wú)法察覺(jué)的輕微擾動(dòng),生成相應(yīng)的對(duì)抗樣本,使說(shuō)話人識(shí)別模型身份識(shí)別錯(cuò)誤,從而實(shí)現(xiàn)攻擊目的。一般情況下,給定分類(lèi)網(wǎng)絡(luò)f和真實(shí)樣本x,對(duì)抗樣本通過(guò)優(yōu)化以下函數(shù)生成:
式(1)中,J為損失函數(shù),x為真實(shí)樣本,x′為對(duì)抗樣本,y為真實(shí)標(biāo)簽,ε為最大擾動(dòng),對(duì)抗樣本的目標(biāo)是添加更小擾動(dòng)的同時(shí),使分類(lèi)網(wǎng)絡(luò)錯(cuò)誤分類(lèi)。
對(duì)抗攻擊算法根據(jù)攻擊方式的不同可以分為基于梯度迭代的算法,如快速梯度符號(hào)法(fast gradient sign method,F(xiàn)GSM)[1]、迭代的快速梯度符號(hào)法(iterative fast gradient sign method,I-FGSM)[2]、動(dòng)量迭代快速梯度符號(hào)法(momentum iterative fast gradient sign method,MI-FGSM)[3]、Nesterov accelerateand RMSProp optimization based iterative-fast gradient sign method算法(NRI-FGSM)[4]等;基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[22]的算法,如AdvGAN[5]、AdvGAN++[6]等;基于優(yōu)化的算法,如Carlini and Wagner攻擊(C&W)[7]、FAKEBOB攻擊[8]等。
其中,基于生成對(duì)抗網(wǎng)絡(luò)的算法,如Xiao 等人[5]提出的AdvGAN,通過(guò)生成器映射生成對(duì)抗擾動(dòng),再由判別器判別是否為對(duì)抗樣本,二者不斷學(xué)習(xí)構(gòu)成的生成對(duì)抗網(wǎng)絡(luò)來(lái)生成對(duì)抗樣本,存在訓(xùn)練穩(wěn)定較為困難、解釋性不強(qiáng)的問(wèn)題;基于優(yōu)化的算法,如Carlini等人[7]提出的C&W 算法,該算法將對(duì)抗樣本生成優(yōu)化為在保證不可感知性的同時(shí)找到欺騙分類(lèi)器最小擾動(dòng)的問(wèn)題,這樣攻擊生成的對(duì)抗樣本雖然擾動(dòng)較小,且能實(shí)現(xiàn)黑盒攻擊,但存在攻擊時(shí)間成本較高的問(wèn)題。而基于梯度迭代的算法因其具有攻擊成本低、攻擊方法多樣、攻擊效果好等優(yōu)勢(shì),仍占據(jù)對(duì)抗攻擊算法的重要位置,本文在基于梯度迭代的聲紋對(duì)抗攻擊算法的基礎(chǔ)上開(kāi)展研究。
Goodfellow 等人[1]提出的FGSM 算法,快速梯度符號(hào)法,通過(guò)一步梯度迭代,在最大化損失函數(shù)的方向上更新對(duì)抗樣本,公式如下:
Kurakin 等人[2]提出的I-FGSM 算法,迭代快速梯度符號(hào)法,是在FGSM算法的基礎(chǔ)上以小步梯度進(jìn)行多次迭代,公式如下:
式(3)中,Clipεx為裁剪函數(shù),以控制擾動(dòng)在邊界范圍內(nèi),t為迭代次數(shù),α為步長(zhǎng)。
Dong 等人[3]提出的MI-FGSM 算法,動(dòng)量迭代快速梯度符號(hào)法,是在I-FGSM算法的基礎(chǔ)上引入動(dòng)量,以穩(wěn)定梯度更新方向,公式如下:
式(4)、(5)中,μ為動(dòng)量衰減因子,gt為前t次迭代的累加梯度。MI-FGSM 算法引入動(dòng)量,生成的對(duì)抗樣本具有較好的遷移性,可以用于黑盒攻擊,常作為遷移攻擊的基線方法。
Tan 等人[4]提出的NRI-FGSM 算法,為基于梯度迭代的聲紋對(duì)抗攻擊算法,該算法將Nesterov Accelerated Gradient 算法(NAG)[23]和Root Mean Squared Propagation 算法(RMSProp)[24]與自適應(yīng)步長(zhǎng)相結(jié)合,能夠在實(shí)現(xiàn)黑盒攻擊的同時(shí)保持較低的擾動(dòng)。
上述算法中,F(xiàn)GSM算法能實(shí)現(xiàn)白盒攻擊,但攻擊成功率較低;I-FGSM算法能實(shí)現(xiàn)較高的白盒攻擊,但遷移性較差;MI-FGSM 算法和NRI-FGSM 算法具有較好的遷移性,可以實(shí)現(xiàn)黑盒攻擊,缺點(diǎn)是樣本的時(shí)序梯度信息和空間梯度信息沒(méi)有得到充分利用。本文考慮在上述算法的基礎(chǔ)上進(jìn)行優(yōu)化,進(jìn)一步提高算法的遷移性。
為了提高對(duì)抗樣本的遷移性,可以結(jié)合集成思想進(jìn)行對(duì)抗攻擊。集成的主要思想是充分利用現(xiàn)有的已知模型信息,通過(guò)多目標(biāo)模型融合學(xué)習(xí)而實(shí)現(xiàn)效果最大化。通過(guò)集成攻擊,生成能夠同時(shí)欺騙多個(gè)白盒模型的對(duì)抗樣本,提高對(duì)抗樣本遷移攻擊到未知模型即黑盒模型的攻擊成功率。
模型集成的方法有很多,如logits 集成、損失集成、預(yù)測(cè)集成等,Dong等人[3]使用logits集成方法,攻擊集成logits 的多個(gè)白盒模型,生成了高遷移性的對(duì)抗樣本,logits集成公式如下:
Zhang 等人[25]提出一種新的集成方式——擾動(dòng)集成,該方法以梯度迭代的對(duì)抗攻擊算法為基礎(chǔ),集成多個(gè)白盒模型的擾動(dòng),公式如下:
式(7)中,δ為集成的擾動(dòng),fθ為參數(shù)為θ的對(duì)抗攻擊算法,y為真實(shí)標(biāo)簽,L={ }L1,L2,…,Ln為白盒模型集合。擾動(dòng)集成方法通過(guò)最大化白盒攻擊成功率,進(jìn)一步提高對(duì)抗樣本的黑盒攻擊水平。相比logits 集成,擾動(dòng)集成對(duì)攻擊的擾動(dòng)進(jìn)行集成疊加,不受模型輸出維度的影響,且更容易到達(dá)黑盒模型的決策邊界,進(jìn)一步提高對(duì)抗樣本黑盒攻擊的成功率。Zhang 等人在說(shuō)話人驗(yàn)證的偽造檢測(cè)模型中開(kāi)展實(shí)驗(yàn),通過(guò)在相同條件下比較兩種集成方法的黑盒攻擊成功率,證明了擾動(dòng)集成方法優(yōu)于logits集成方法。
為了解決現(xiàn)有對(duì)抗攻擊算法梯度信息利用不充分、遷移性較差等問(wèn)題,本文提出一種時(shí)空迭代快速梯度符號(hào)法(space-time iterative fast gradient sign method,STI-FGSM)的聲紋對(duì)抗攻擊算法,該算法在MI-FGSM算法的基礎(chǔ)上,融合時(shí)序梯度信息和空間梯度信息,保證對(duì)抗樣本的攻擊性的同時(shí)提高遷移性,最后通過(guò)擾動(dòng)集成進(jìn)一步提高算法黑盒攻擊的成功率。
為了充分利用數(shù)據(jù)的梯度信息、提高對(duì)抗樣本的遷移性,本文在MI-FGSM 算法[3]的基礎(chǔ)上進(jìn)行改進(jìn),保留動(dòng)量衰減因子,穩(wěn)定梯度更新方向,融合時(shí)序梯度信息進(jìn)行迭代。具體做法是,在每次迭代時(shí)將損失函數(shù)的梯度進(jìn)行累加,并根據(jù)下一步梯度信息來(lái)影響未來(lái)梯度,即:
(1)若下一步梯度方向與當(dāng)前梯度方向相同,則將下一步觀測(cè)梯度與當(dāng)前梯度進(jìn)行累加,以加快梯度更新。
(2)若下一步梯度方向與當(dāng)前梯度方向相反,則使用下一步觀測(cè)梯度減緩梯度更新,避免陷入局部最佳值。
因?yàn)橐霑r(shí)序梯度信息,本文將該算法命名為時(shí)序梯度快速迭代符號(hào)法(time iterative fast gradient sign method,TI-FGSM),公式可表示為:
式(8)~式(10)中,g′為下一個(gè)梯度,gt為前t次迭代的累加梯度,μ為動(dòng)量衰減因子。TI-FGSM 算法的偽代碼如下:
算法1 TI-FGSM算法
相較于MI-FGSM 算法,TI-FGSM 算法融合了樣本的時(shí)序梯度信息,使對(duì)抗樣本在迭代過(guò)程中能夠結(jié)合下一步梯度信息加速收斂,進(jìn)一步穩(wěn)定了梯度迭代的更新方向,避免對(duì)抗樣本陷入局部極值導(dǎo)致過(guò)度擬合單一目標(biāo)模型,從而提高了對(duì)抗樣本的遷移性。
當(dāng)前算法并未使用語(yǔ)音區(qū)域信息之間的關(guān)系,考慮到語(yǔ)音數(shù)據(jù)的連續(xù)性,本文嘗試?yán)谜Z(yǔ)音樣本不同區(qū)域間的信息來(lái)穩(wěn)定梯度更新方向。本節(jié)在TI-FGSM算法的基礎(chǔ)上,引入語(yǔ)音的空間梯度信息,將該算法命名為STI-FGSM,空間梯度的攻擊形式如下:
算法2 STI-FGSM算法
算法的時(shí)間復(fù)雜度方面,MI-FGSM 算法在每次迭代中只進(jìn)行一次梯度反向傳播的基本運(yùn)算,時(shí)間復(fù)雜度可看作O(T),T為迭代次數(shù)。與MI-FGSM 算法相比,STI-FGSM 算法主要增加了一項(xiàng)查詢(xún)梯度的時(shí)間,而求均值與加和計(jì)算的時(shí)間基本可忽略不計(jì),因此STI-FGSM 算法的時(shí)間復(fù)雜度介于(T,2T)之間,也為O(T)。因此,STI-FGSM 算法的時(shí)間效率與MI-FGSM算法基本相同。
為了充分利用目標(biāo)模型信息,本文使用擾動(dòng)集成的方法實(shí)現(xiàn)模型集成攻擊,以提高對(duì)抗樣本黑盒攻擊的成功率。受通用對(duì)抗擾動(dòng)[26]的啟發(fā),擾動(dòng)集成采用迭代攻擊的策略,通過(guò)在所有已知模型即白盒模型上擾動(dòng)疊加實(shí)現(xiàn)對(duì)抗樣本攻擊成功率最大化,來(lái)提高對(duì)抗樣本面對(duì)未知模型即黑盒模型時(shí)的攻擊遷移性,效果如圖2所示。
圖2 擾動(dòng)集成攻擊示意圖Fig.2 Diagram of perturbation ensemble attack
結(jié)合圖2 可以看出,針對(duì)不同的白盒模型,單一攻擊生成的對(duì)抗樣本往往具有局限性,限制在各白盒模型對(duì)應(yīng)的決策空間內(nèi),使對(duì)抗樣本在不同模型間的遷移性較差,如圖2 中單一攻擊僅到達(dá)模型A 的決策空間,無(wú)法對(duì)模型B、C、D、E 造成攻擊;普通的集成攻擊由于沒(méi)有進(jìn)行擾動(dòng)疊加,會(huì)限制攻擊效果,雖然能夠?qū)崿F(xiàn)白盒模型A、B、C、D 的攻擊,但往往無(wú)法到達(dá)黑盒模型E 的決策空間。擾動(dòng)集成的攻擊,可以充分利用現(xiàn)有白盒模型A、B、C、D的信息,將攻擊的擾動(dòng)進(jìn)行集成疊加,實(shí)現(xiàn)攻擊最大化,從而能夠遷移攻擊黑盒模型E,擾動(dòng)集成算法的偽代碼如下:
算法3 擾動(dòng)集成算法
本文實(shí)驗(yàn)平臺(tái)操作系統(tǒng)為Ubuntu18.04.5,處理器為Intel?Xeon?Gold 5218 CPU @ 2.30 GHz,顯卡為GeForce RTX 2080 Ti-11 GB。Python 版本為3.7.9,Pytorch版本為1.6.0,CUDA版本為10.2。
實(shí)驗(yàn)使用Voxceleb 數(shù)據(jù)集[27-28],該數(shù)據(jù)集是最大規(guī)模的開(kāi)源說(shuō)話人識(shí)別語(yǔ)料集,分為Voxceleb1 數(shù)據(jù)集[27]和Voxceleb2 數(shù)據(jù)集[28],Voxceleb1 包含 來(lái) 自Youtube 視頻的1 251位名人的約10萬(wàn)段語(yǔ)音,Voxceleb2包含來(lái)自Youtube視頻的6 112位名人的約100萬(wàn)段語(yǔ)音。
從Voxceleb1 的測(cè)試集中隨機(jī)選擇10 名說(shuō)話人,包含5 男5 女。選取這10 名說(shuō)話人的各10 段語(yǔ)音構(gòu)成注冊(cè)集;選取注冊(cè)集10名說(shuō)話人的各100段語(yǔ)音,共1 000段語(yǔ)音構(gòu)成測(cè)試集。從Voxceleb1的開(kāi)發(fā)集中隨機(jī)選擇10名說(shuō)話人,包含5男5女,與注冊(cè)集和測(cè)試集的說(shuō)話人身份不重疊,選取每名說(shuō)話人各100 段語(yǔ)音,合計(jì)1 000段語(yǔ)音構(gòu)成真實(shí)樣本集,數(shù)據(jù)集劃分如表1所示。
表1 數(shù)據(jù)集分布Table 1 Distribution of dataset
其中,注冊(cè)集和測(cè)試集用于目標(biāo)說(shuō)話人識(shí)別模型的注冊(cè)和測(cè)試,真實(shí)樣本集用于對(duì)抗樣本的生成。對(duì)抗攻擊算法超參數(shù)設(shè)定如下:迭代次數(shù)T=40 ,擾動(dòng)大小ε=0.002,動(dòng)量衰減因子μ=1。
選用ResNetSE34V2[11]、TDy_ResNet34_half[12]、x-vector[13]、ECAPA-TDNN[14]四種說(shuō)話人識(shí)別模型作為目標(biāo)模型開(kāi)展實(shí)驗(yàn),分別記為rv2、rvh、xv、ecapa。這四種模型基本包含了目前主流的深度學(xué)習(xí)說(shuō)話人識(shí)別模型,其中,rv2和rvh 基于殘差網(wǎng)絡(luò)ResNet 及其改進(jìn)網(wǎng)絡(luò)訓(xùn)練,xv 和ecapa基于時(shí)延神經(jīng)網(wǎng)絡(luò)TDNN及其改進(jìn)網(wǎng)絡(luò)訓(xùn)練。
本文使用rv2、rvh、xv和ecapa的預(yù)訓(xùn)練模型開(kāi)展開(kāi)集說(shuō)話人識(shí)別任務(wù),四種預(yù)訓(xùn)練模型使用Voxceleb2 的開(kāi)發(fā)集進(jìn)行訓(xùn)練。實(shí)驗(yàn)使用表1中的注冊(cè)數(shù)據(jù)集注冊(cè),使用測(cè)試數(shù)據(jù)集對(duì)四種說(shuō)話人識(shí)別模型進(jìn)行測(cè)試,四種說(shuō)話人識(shí)別模型的性能如表2所示。
表2 說(shuō)話人識(shí)別模型性能Table 2 Speaker recognition model performance
在開(kāi)集說(shuō)話人識(shí)別任務(wù)中,模型的等錯(cuò)誤率(equal error rate,EER)越低,表明模型的識(shí)別性能越好;當(dāng)打分超過(guò)閾值(Threshold)時(shí),說(shuō)話人識(shí)別模型才會(huì)對(duì)目標(biāo)語(yǔ)音進(jìn)行識(shí)別。
本文使用攻擊成功率(attack success rate,ASR)作為對(duì)抗攻擊算法的評(píng)價(jià)指標(biāo),公式如下:
式(13)中,sumNum()· 為樣本數(shù)量,x為原始樣本,y為真實(shí)說(shuō)話人標(biāo)簽,x′為對(duì)抗樣本,label()· 為目標(biāo)模型輸出的標(biāo)簽。目標(biāo)模型針對(duì)原始樣本x的輸出標(biāo)簽均為對(duì)應(yīng)的真實(shí)說(shuō)話人標(biāo)簽y,當(dāng)目標(biāo)模型將對(duì)抗樣本x′識(shí)別錯(cuò)誤,即輸出標(biāo)簽不為真實(shí)說(shuō)話人的標(biāo)簽y時(shí),可視為攻擊成功,ASR值越高,說(shuō)明對(duì)抗算法攻擊性越強(qiáng)。
3.4.1 白盒攻擊實(shí)驗(yàn)
為了驗(yàn)證本文所提攻擊算法的有效性,使用FGSM、I-FGSM、MI-FGSM、TI-FGSM、STI-FGSM 五種對(duì)抗攻擊算法分別對(duì)rv2、rvh、xv、ecapa 四種說(shuō)話人識(shí)別模型進(jìn)行白盒攻擊,即攻擊時(shí)能夠直接獲取目標(biāo)模型的所有信息,白盒攻擊實(shí)驗(yàn)?zāi)軌蛑庇^地顯示算法的攻擊能力。統(tǒng)計(jì)各算法的白盒攻擊成功率,實(shí)驗(yàn)結(jié)果如表3所示。
表3 白盒攻擊成功率Table 3 White box attack success rate單位:%
從表3 中可以看出,本文所提出的對(duì)抗攻擊算法TI-FGSM和STI-FGSM對(duì)rv2、rvh、xv、ecapa四種說(shuō)話人識(shí)別模型均能實(shí)現(xiàn)有效的白盒攻擊,攻擊成功率最高可以達(dá)到100%,其中,STI-FGSM 算法白盒攻擊成功率較FGSM、I-FGSM、MI-FGSM 算法平均提升了58.9、2.1、0.6 個(gè)百分點(diǎn),且TI-FGSM 算法白盒攻擊成功率與STI-FGSM算法幾乎相當(dāng),證明了兩種算法白盒攻擊的可行性。
為了研究迭代次數(shù)對(duì)算法白盒攻擊的影響,分別設(shè)置迭代次數(shù)T=5,10,20,30,40,以I-FGSM、MI-FGSM、TI-FGSM、STI-FGSM 算法開(kāi)展實(shí)驗(yàn),目標(biāo)模型使用rv2模型,統(tǒng)計(jì)不同迭代次數(shù)下的白盒攻擊成功率,結(jié)果如圖3所示。
圖3 不同迭代次數(shù)的白盒攻擊成功率Fig.3 White-box attack success rate for different iterations
從圖3 可以看出,隨著迭代次數(shù)的增加,算法的白盒攻擊成功率隨之提高。在相同迭代次數(shù)下,TI-FGSM和STI-FGSM 算法的攻擊成功率高于I-FGSM 和MIFGSM,說(shuō)明本文所提出的兩種算法攻擊能力更強(qiáng)。與TI-FGSM算法相比,達(dá)到相同的攻擊成功率,STI-FGSM所需迭代次數(shù)更少,說(shuō)明STI-FGSM算法的攻擊性更強(qiáng)。
3.4.2 黑盒攻擊實(shí)驗(yàn)
為了驗(yàn)證本文所提攻擊算法的遷移性,本節(jié)使用FGSM、I-FGSM、MI-FGSM、TI-FGSM、STI-FGSM 五種對(duì)抗攻擊算法對(duì)四種說(shuō)話人識(shí)別模型進(jìn)行黑盒攻擊,即每組實(shí)驗(yàn)中,使用五種對(duì)抗攻擊算法分別攻擊特定的白盒模型,并用生成的對(duì)抗樣本攻擊其余模型,統(tǒng)計(jì)每種算法所生成對(duì)抗樣本的黑盒攻擊成功率,以此評(píng)價(jià)對(duì)抗樣本的遷移性。實(shí)驗(yàn)結(jié)果如表4所示。
表4 黑盒攻擊成功率Table 4 Black box attack success rate單位:%
從 表4 可 以 看 出,TI-FGSM 和STI-FGSM 算 法 的黑盒攻擊成功率整體較高,證明了兩種算法黑盒攻擊的可行性。與FGSM、I-FGSM、MI-FGSM 算法相比,TI-FGSM算法的黑盒攻擊成功率平均提升了20.7、5.8、1.6 個(gè)百分點(diǎn),證明了時(shí)序梯度的有效性。另外,STIFGSM 算法黑盒攻擊成功率比TI-FGSM 算法平均提升了3.8個(gè)百分點(diǎn),說(shuō)明STI-FGSM算法的遷移性?xún)?yōu)于TIFGSM,證明了空間梯度的有效性。
為了研究迭代次數(shù)對(duì)算法黑盒攻擊的影響,本文分別設(shè)置迭代次數(shù)T=5,10,20,30,40,以MI-FGSM、STIFGSM算法開(kāi)展實(shí)驗(yàn),首先對(duì)rv2模型進(jìn)行白盒攻擊,然后將生成的對(duì)抗樣本對(duì)rvh、xv、ecapa 模型進(jìn)行黑盒攻擊,統(tǒng)計(jì)不同迭代次數(shù)下的攻擊成功率,實(shí)驗(yàn)結(jié)果如圖4所示,該圖中rv2模型為白盒攻擊,其余模型為黑盒攻擊。
圖4 不同迭代次數(shù)的攻擊成功率Fig.4 Attack success rate for different iterations
從圖4 可以看出,隨著迭代次數(shù)的增加,對(duì)抗樣本的遷移性會(huì)隨之提高,但這會(huì)消耗更多的時(shí)間成本和計(jì)算成本。在相同迭代次數(shù)下,與MI-FGSM 算法相比,STI-FGSM 算法的黑盒攻擊成功率更高,說(shuō)明STIFGSM 算法的遷移性?xún)?yōu)于MI-FGSM 算法,驗(yàn)證了時(shí)空梯度信息對(duì)算法遷移性的提升。
3.4.3 擾動(dòng)集成實(shí)驗(yàn)
為充分利用模型信息,本小節(jié)開(kāi)展擾動(dòng)集成實(shí)驗(yàn),將rv2、rvh、xv、ecapa四個(gè)說(shuō)話人識(shí)別模型每三個(gè)依次集成,進(jìn)行白盒攻擊,并將生成的對(duì)抗樣本對(duì)另一個(gè)模型實(shí)行黑盒攻擊,分別使用I-FGSM、MI-FGSM、TI-FGSM、STI-FGSM 四種對(duì)抗算法擾動(dòng)集成進(jìn)行攻擊,實(shí)驗(yàn)結(jié)果如表5所示。
表5 擾動(dòng)集成攻擊成功率Table 5 Perturbation ensemble attack success rate單位:%
從表5可以看出,當(dāng)進(jìn)行擾動(dòng)集成操作后,I-FGSM、MI-FGSM、TI-FGSM、STI-FGSM 四種算法,白盒攻擊取得較好效果,攻擊成功率均可達(dá)到98.6%以上,驗(yàn)證了擾動(dòng)集成方法實(shí)現(xiàn)最大化白盒攻擊的特點(diǎn)。在黑盒攻擊中,TI-FGSM和STI-FGSM算法的攻擊成功率高于I-FGSM和MI-FGSM算法,說(shuō)明融合時(shí)序梯度和空間梯度信息后算法的遷移性更強(qiáng)。
結(jié)合表4 中相關(guān)數(shù)據(jù),對(duì)比集成前的單一模型,TI-FGSM 算法擾動(dòng)集成后黑盒攻擊成功率平均提高了11.3 個(gè)百分點(diǎn),STI-FGSM 算法擾動(dòng)集成后黑盒攻擊成功率平均提高了11.7個(gè)百分點(diǎn),證明擾動(dòng)集成方法能夠提高對(duì)抗算法的遷移性,實(shí)現(xiàn)更強(qiáng)的黑盒攻擊。
3.4.4 與其他算法比較
為了進(jìn)一步驗(yàn)證本文所提算法的有效性,本小節(jié)使用STI-FGSM算法與C&W算法、NRI-FGSM算法開(kāi)展實(shí)驗(yàn),以白盒攻擊rv2模型生成的對(duì)抗樣本來(lái)遷移攻擊其他黑盒模型,超參數(shù)設(shè)定與3.1節(jié)一致,實(shí)驗(yàn)結(jié)果如表6所示。
表6 與其他算法的攻擊成功率對(duì)比Table 6 Compared with ASR of other methods單位:%
從表6可以看出,與基于優(yōu)化的對(duì)抗攻擊算法C&W算法和基于梯度迭代的聲紋對(duì)抗攻擊算法NRI-FGSM算法相比,本文所提的STI-FGSM算法均能取得更好的攻擊效果,黑盒攻擊成功率分別提升了6.7和3.1個(gè)百分點(diǎn),進(jìn)一步證明了本文所提方法的有效性。
為解決當(dāng)前對(duì)抗樣本算法信息利用不充分、遷移性較差等問(wèn)題,本文針對(duì)說(shuō)話人識(shí)別模型,提出一種時(shí)空梯度迭代的聲紋對(duì)抗攻擊算法STI-FGSM。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文提出的方法對(duì)ResNetSE34V2、TDy_ResNet34_half、x-vector、ECAPA-TDNN 四種說(shuō)話人識(shí)別模型均能實(shí)現(xiàn)有效的白盒攻擊和黑盒攻擊,優(yōu)于其他對(duì)抗攻擊算法。同時(shí),本文使用擾動(dòng)集成方法,集成現(xiàn)有白盒模型,進(jìn)一步提高對(duì)抗算法黑盒攻擊成功率。下一步的研究中,將在本文的基礎(chǔ)上,結(jié)合元學(xué)習(xí)的思想,聯(lián)合多個(gè)目標(biāo)模型、多種攻擊算法,進(jìn)一步提高算法的黑盒攻擊水平。