魏春雨, 孫 蒙, 張雄偉, 鄒 霞, 印 杰
基于噪聲破壞和波形重建的聲紋對(duì)抗樣本防御方法
魏春雨1, 孫 蒙1, 張雄偉1, 鄒 霞1, 印 杰2
1陸軍工程大學(xué) 指揮控制工程學(xué)院 南京 中國(guó) 2100072江蘇警官學(xué)院 南京 中國(guó) 210031
語(yǔ)音是人類(lèi)最重要的交流方式之一。語(yǔ)音信號(hào)中除了文本內(nèi)容外, 還包含了說(shuō)話人的身份、種族、年齡、性別和情感等豐富的信息, 其中說(shuō)話人身份的識(shí)別也被稱為聲紋識(shí)別, 是一種生物特征識(shí)別技術(shù)。聲紋具有獲取方便、容易保存、使用簡(jiǎn)單等特點(diǎn), 而深度學(xué)習(xí)技術(shù)的進(jìn)步也極大地促進(jìn)了識(shí)別準(zhǔn)確率的提升, 因此, 聲紋識(shí)別已被應(yīng)用于智慧金融、智能家居、語(yǔ)音助手和司法調(diào)查等領(lǐng)域。另一方面, 針對(duì)深度學(xué)習(xí)模型的對(duì)抗樣本攻擊受到了廣泛關(guān)注, 在輸入信號(hào)中添加不可感知的微小擾動(dòng)即可導(dǎo)致模型預(yù)測(cè)結(jié)果錯(cuò)誤。對(duì)抗樣本的出現(xiàn)對(duì)基于深度學(xué)習(xí)的聲紋識(shí)別也將造成巨大的安全威脅?,F(xiàn)有聲紋對(duì)抗樣本防御方法會(huì)不同程度地影響正常樣本的識(shí)別, 并且局限于特定的攻擊方法或識(shí)別模型, 魯棒性較差。為了使對(duì)抗防御能夠兼顧糾正錯(cuò)誤輸出和準(zhǔn)確識(shí)別正常樣本兩個(gè)方面, 本文提出一種“破壞+重建”的兩階段對(duì)抗樣本防御方法。第一階段, 在對(duì)抗樣本中添加具有一定信噪比幅度限制的高斯白噪聲, 破壞對(duì)抗擾動(dòng)的結(jié)構(gòu)進(jìn)而消除樣本的對(duì)抗性。第二階段, 利用提出的名為SCAT-Wave-U-Net的語(yǔ)音增強(qiáng)模型重建原始語(yǔ)音樣本, 通過(guò)在Wave-U-Net模型結(jié)構(gòu)中引入Transformer全局多頭自注意力和層間交叉注意力機(jī)制, 使改進(jìn)后的模型更有助于防御聲紋對(duì)抗樣本攻擊。實(shí)驗(yàn)表明, 提出的防御方法不依賴于特定聲紋識(shí)別系統(tǒng)和對(duì)抗樣本攻擊方式, 在兩種典型的聲紋識(shí)別系統(tǒng)下對(duì)多種類(lèi)型對(duì)抗樣本攻擊的防御效果均優(yōu)于其他預(yù)處理防御方法。
聲紋識(shí)別; 噪聲破壞; 語(yǔ)音增強(qiáng); 對(duì)抗樣本防御
近年來(lái), 深度學(xué)習(xí)在語(yǔ)音、圖像等識(shí)別任務(wù)中展現(xiàn)了優(yōu)異的性能。然而, 研究表明, 深度學(xué)習(xí)模型容易受到在樣本中添加小幅度擾動(dòng)的影響, 這些受到擾動(dòng)的非正常樣本被稱為“對(duì)抗樣本”[1]。通過(guò)在音頻中加入微小的擾動(dòng)使聲紋識(shí)別(Speaker Recognition)系統(tǒng)出錯(cuò)[2]的樣本被稱為聲紋對(duì)抗樣本。由于對(duì)抗樣本具有很小的擾動(dòng)失真, 人們從聽(tīng)覺(jué)上很難察覺(jué)到異常變化。對(duì)抗樣本的出現(xiàn)對(duì)深度學(xué)習(xí)模型的安全性提出了嚴(yán)峻挑戰(zhàn)。隨著基于深度學(xué)習(xí)的聲紋識(shí)別技術(shù)在金融、安防、智能家居等領(lǐng)域的廣泛應(yīng)用, 聲紋識(shí)別系統(tǒng)中對(duì)抗樣本的防御就成為亟待解決的重要課題。
現(xiàn)有的聲紋對(duì)抗樣本防御方法可分為對(duì)抗樣本檢測(cè)、對(duì)抗訓(xùn)練以及樣本變換處理三種[3]。這些方法在不同程度上存在丟棄樣本、泛化性能差、真實(shí)樣本識(shí)別率降低等缺點(diǎn)。另一方面, 為了去除語(yǔ)音中的各種噪聲, 近年來(lái)涌現(xiàn)出了大量的基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法[4-6]。從對(duì)抗樣本的生成過(guò)程來(lái)分析, 對(duì)抗擾動(dòng)也可以看成是一種幅度較小的加性噪聲[7]。如何將對(duì)抗樣本防御和語(yǔ)音增強(qiáng)有效結(jié)合, 使語(yǔ)音增強(qiáng)有助于去除對(duì)抗噪聲, 進(jìn)而減弱對(duì)抗樣本帶來(lái)的不利影響, 是一個(gè)非常有價(jià)值的研究方向。
為了解決這些問(wèn)題, 本文借助語(yǔ)音增強(qiáng)從對(duì)抗樣本中恢復(fù)出原始波形, 提出一種結(jié)合噪聲破壞與波形重建的聲紋對(duì)抗樣本防御方法。該方法首先在對(duì)抗樣本中加入高斯白噪聲以破壞對(duì)抗擾動(dòng)的結(jié)構(gòu), 然后利用改進(jìn)的語(yǔ)音增強(qiáng)模型重建原始波形, 從而實(shí)現(xiàn)對(duì)對(duì)抗樣本攻擊的防御。
本文以噪聲破壞和波形重建相結(jié)合的方式來(lái)防御聲紋對(duì)抗樣本攻擊, 通過(guò)語(yǔ)音增強(qiáng)重建原始音頻樣本。首先總結(jié)聲紋對(duì)抗樣本攻防和語(yǔ)音增強(qiáng)方面的相關(guān)工作如下:
2.1.1 聲紋對(duì)抗樣本攻擊方法
根據(jù)攻擊者是否了解被攻擊模型的信息, 聲紋對(duì)抗樣本攻擊可分為白盒攻擊和黑盒攻擊, 根據(jù)是否迫使聲紋識(shí)別系統(tǒng)輸出指定的目標(biāo)標(biāo)簽又分為有目標(biāo)攻擊和非目標(biāo)攻擊。在聲紋對(duì)抗樣本攻擊的發(fā)展歷程中出現(xiàn)了一些具有代表性的研究。
1) FGSM
Gong等[8]將快速梯度符號(hào)法(Fast Gradient Sign Method, FGSM)用于生成聲紋對(duì)抗樣本。FGSM通過(guò)一步梯度上升在輸入中添加擾動(dòng)以最大化損失函數(shù), 計(jì)算公式如下:
其中,是梯度上升的步長(zhǎng),(,)是將輸入分類(lèi)為說(shuō)話人標(biāo)簽的損失函數(shù)。
2) PGD
Liu等[9]將迭代梯度下降法(Projected Gradient Descent, PGD)應(yīng)用于聲紋識(shí)別系統(tǒng)。PGD是FGSM的改進(jìn)版本。在每次迭代中, PGD以步長(zhǎng)應(yīng)用FGSM并裁剪結(jié)果以確保其在原始輸入的鄰域內(nèi), 第次迭代后的樣本為,
在求解對(duì)抗樣本之前, PGD攻擊為原始樣本增加一個(gè)隨機(jī)的擾動(dòng)[10], 這有助于攻擊方找到更好的損失函數(shù)局部最大值。
3) Carlini & Wagner(CW)
4) FakeBob
Chen等[12]針對(duì)聲紋識(shí)別系統(tǒng)提出了一種名為FakeBob的黑盒攻擊方法。FakeBob與PGD均以迭代方式生成對(duì)抗樣本, 與PGD不同的是它作為一種黑盒攻擊方法, 通過(guò)自然進(jìn)化策略估計(jì)梯度, 并且攻擊針對(duì)的是原始輸入語(yǔ)音而不是添加了隨機(jī)擾動(dòng)的語(yǔ)音。FakeBob采用早停策略來(lái)減少查詢次數(shù), 即一旦找到對(duì)抗樣本就停止計(jì)算。與CW攻擊類(lèi)似, FakeBob也可以通過(guò)參數(shù)控制對(duì)抗擾動(dòng)的強(qiáng)度。
5) SirenAttack
Du等[13]提出了一種名為SirenAttack的黑盒音頻對(duì)抗樣本攻擊方法。他們利用粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法求解對(duì)抗擾動(dòng)。PSO算法不需要梯度信息, 通過(guò)迭代地使候選解(粒子)群體根據(jù)適應(yīng)度在搜索空間中移動(dòng)來(lái)求得全局最優(yōu)解。當(dāng)算法在設(shè)定的最大迭代次數(shù)內(nèi)攻擊成功, 即可獲得滿足要求的音頻對(duì)抗樣本。
上述攻擊方法將作為本文的對(duì)抗樣本生成手段來(lái)驗(yàn)證所提出的防御方法的有效性。
2.1.2 聲紋對(duì)抗樣本防御方法
對(duì)于聲紋對(duì)抗樣本的防御, Li等[14]提出了對(duì)抗樣本檢測(cè)的方法, 有效避免了對(duì)抗樣本被聲紋識(shí)別系統(tǒng)驗(yàn)證通過(guò), 但這種方法不能糾正由對(duì)抗樣本造成的錯(cuò)誤識(shí)別結(jié)果, 從而不得不丟棄這些被對(duì)抗擾動(dòng)污染的語(yǔ)音樣本。基于對(duì)抗訓(xùn)練[15]的防御方法雖然可以在一定程度上減輕對(duì)抗樣本帶來(lái)的負(fù)面影響, 但卻嚴(yán)重依賴特定的模型以及特定的對(duì)抗樣本生成方法, 遷移性較差。
最近, 一些基于樣本變換的預(yù)處理方法被用于防御對(duì)抗樣本的攻擊, 在一定程度上糾正了對(duì)抗樣本造成的錯(cuò)誤識(shí)別結(jié)果, 但也會(huì)降低真實(shí)樣本的識(shí)別準(zhǔn)確率。這些基于樣本變換處理的防御方法包括:
1) 時(shí)頻變換
在時(shí)域和頻域?qū)φZ(yǔ)音進(jìn)行變換, 變換方法包括量化(Quantization)[16]、音頻湍流(Audio Turbulence, AT)[17]、均值平滑(Average Smoothing, AS)[13]、中值平滑(Median Smoothing, MS)[16]和低通濾波(Low Pass Filter, LPF)[18]。
量化是將每個(gè)語(yǔ)音采樣點(diǎn)的幅值四舍五入到最接近量化因子的整數(shù)倍。音頻湍流假設(shè)對(duì)抗性擾動(dòng)對(duì)噪聲敏感, 通過(guò)向輸入語(yǔ)音添加特定信噪比的噪聲以改變對(duì)抗樣本的識(shí)別結(jié)果。均值平滑通過(guò)對(duì)輸入語(yǔ)音波形進(jìn)行平滑來(lái)減弱對(duì)抗樣本帶來(lái)的影響, 將每個(gè)樣本點(diǎn)x替換為其個(gè)相鄰樣本的平均值。中值平滑與均值平滑相似, 只是它用x的個(gè)相鄰樣本點(diǎn)的中值進(jìn)行替換。低通濾波[19-20]的方法認(rèn)為人類(lèi)語(yǔ)音處于較低的頻率范圍內(nèi), 應(yīng)用低通濾波器可以在保留語(yǔ)音內(nèi)容的同時(shí), 去除許多高頻的對(duì)抗擾動(dòng)。
2) MP3壓縮
基于心理聲學(xué)原理, 語(yǔ)音MP3壓縮[21]旨在抑制語(yǔ)音中的冗余信息, 以提高存儲(chǔ)或傳輸效率。當(dāng)難以察覺(jué)的對(duì)抗性擾動(dòng)是冗余信息時(shí), 可以通過(guò)語(yǔ)音壓縮來(lái)消除。
3) 特征壓縮
上述基于樣本變換的防御方法將作為基線系統(tǒng)與本文提出的方法進(jìn)行對(duì)比。
語(yǔ)音增強(qiáng)的任務(wù)之一是提高受噪聲影響語(yǔ)音的質(zhì)量[23]?;谏疃壬窠?jīng)網(wǎng)絡(luò)的模型在非平穩(wěn)噪聲影響下的單通道語(yǔ)音增強(qiáng)任務(wù)中已經(jīng)取得了比傳統(tǒng)濾波方法更好的效果。例如, Wave-U-Net模型是Stoller等由用于圖像分割的U-Net模型[24]改進(jìn)而來(lái)的, 在語(yǔ)音增強(qiáng)和語(yǔ)音分離任務(wù)中取得了良好的效果[25]。在對(duì)抗樣本防御方面, Yang等[26]提出了改進(jìn)的U-Net模型, 用于防御針對(duì)語(yǔ)音內(nèi)容識(shí)別(Speech Recognition)的對(duì)抗樣本攻擊, 在降低語(yǔ)音文本識(shí)別詞錯(cuò)誤率和語(yǔ)音感知質(zhì)量的改善上都取得了不錯(cuò)的效果, 提高了語(yǔ)音識(shí)別系統(tǒng)對(duì)對(duì)抗擾動(dòng)的魯棒性。本文針對(duì)聲紋對(duì)抗樣本, 研究改進(jìn)基于Wave-U-Net的深度學(xué)習(xí)語(yǔ)音增強(qiáng)模型, 提高聲紋識(shí)別系統(tǒng)防御對(duì)抗樣本攻擊的能力。
相對(duì)于2.1和2.2的相關(guān)工作, 本文的貢獻(xiàn)如下所述:
1) 提出了基于噪聲破壞和波形重建的聲紋對(duì)抗樣本防御方法。
首先, 通過(guò)在語(yǔ)音樣本中添加高斯白噪聲破壞對(duì)抗擾動(dòng)的結(jié)構(gòu); 然后, 用含噪語(yǔ)音數(shù)據(jù)集對(duì)語(yǔ)音增強(qiáng)模型進(jìn)行訓(xùn)練; 最后, 將對(duì)抗樣本輸入訓(xùn)練所得的語(yǔ)音增強(qiáng)模型, 重建出的波形即為去除了對(duì)抗擾動(dòng)的語(yǔ)音樣本。實(shí)驗(yàn)發(fā)現(xiàn), 相比2.1.2的幾種基于樣本變換處理的方法, 本文提出的方法可以顯著提高聲紋識(shí)別系統(tǒng)在對(duì)抗樣本上的識(shí)別準(zhǔn)確率, 且對(duì)正常樣本識(shí)別的負(fù)面影響較小。
2) 設(shè)計(jì)了SCAT-Wave-U-Net語(yǔ)音增強(qiáng)模型。
通過(guò)引入Transformer全局多頭自注意力(Self-Attention)[27]和層間交叉注意力(Cross-Attention)機(jī)制, 增強(qiáng)下采樣層特征之間全局交互的能力, 同時(shí)減輕跳躍連接中來(lái)自下采樣層不相關(guān)特征信息的影響。將Self-Attention和Cross-Attention注意力機(jī)制與Wave-U-Net相結(jié)合, 構(gòu)建出本文的增強(qiáng)方法SCAT-Wave-U-Net。實(shí)驗(yàn)發(fā)現(xiàn), 相比包括原始Wave-U-Net模型在內(nèi)的其他語(yǔ)音增強(qiáng)算法, 本文提出的SCAT-Wave-U-Net模型可以進(jìn)一步改善增強(qiáng)語(yǔ)音的質(zhì)量, 提高了模型從含噪語(yǔ)音樣本中重建原始波形的能力。
對(duì)抗樣本攻擊的目的是在盡可能不影響人耳聽(tīng)覺(jué)感知質(zhì)量的同時(shí), 使聲紋識(shí)別系統(tǒng)出錯(cuò)。因此, 制作對(duì)抗樣本時(shí)通常只在原始語(yǔ)音樣本上添加微小幅度的擾動(dòng), 以保證人耳無(wú)法感知。語(yǔ)音增強(qiáng)的目的是最大程度地消除附加在干凈語(yǔ)音上的背景噪聲, 使語(yǔ)音聽(tīng)起來(lái)更清晰。然而, 對(duì)抗樣本自身擾動(dòng)幅度較小, 直接用訓(xùn)練好的語(yǔ)音增強(qiáng)模型對(duì)其進(jìn)行處理并不能有效地緩解樣本的對(duì)抗性, 防御效果并不理想。Yang等[26]在白盒條件下的研究證實(shí)了這一點(diǎn)。
實(shí)際上, 語(yǔ)音增強(qiáng)通常處理的含噪語(yǔ)音聽(tīng)起來(lái)更嘈雜并嚴(yán)重影響到人耳的聽(tīng)覺(jué)感知, 涉及的噪聲通常比聲紋對(duì)抗樣本中的噪聲具有更大的幅度和更強(qiáng)的隨機(jī)性。相對(duì)于一些環(huán)境背景噪聲, 對(duì)抗樣本中的擾動(dòng)則是經(jīng)過(guò)精心構(gòu)造的。為了產(chǎn)生具有對(duì)抗性的效果, 往往會(huì)經(jīng)過(guò)大量的迭代訓(xùn)練, 以得到結(jié)構(gòu)相對(duì)固定的對(duì)抗擾動(dòng)[28], 從而使得對(duì)抗樣本的識(shí)別結(jié)果比真實(shí)樣本的識(shí)別結(jié)果對(duì)環(huán)境噪聲更加敏感。當(dāng)在樣本中添加相同幅度的隨機(jī)噪聲時(shí), 對(duì)抗樣本的識(shí)別結(jié)果更容易被改變[18, 29]。
在上述研究的基礎(chǔ)上, 本文首先在對(duì)抗樣本中添加比對(duì)抗擾動(dòng)幅度更大的高斯白噪聲, 從而改變對(duì)抗擾動(dòng)的原有結(jié)構(gòu), 破壞其對(duì)抗性; 然后, 利用語(yǔ)音增強(qiáng)模型處理添加了噪聲的對(duì)抗樣本, 重構(gòu)出與真實(shí)樣本近似的語(yǔ)音波形, 提高聲紋識(shí)別的準(zhǔn)確率, 實(shí)現(xiàn)對(duì)對(duì)抗樣本攻擊的防御。如圖1所示, 提出的防御方法分為兩個(gè)階段: 第一階段, 在輸入的語(yǔ)音樣本中添加不同信噪比的高斯白噪聲。添加噪聲的過(guò)程如算法1所示。
算法1在音頻樣本中植入高斯噪聲輸入: 音頻樣本X, 信噪比最小值SNRmin, 信噪比最大值SNRmax輸出: 帶有高斯噪聲的音頻樣本Xnoise 1) 從均勻分布U(SNRmin, SNRmax)中隨機(jī)選擇一個(gè)數(shù)值SNR作為當(dāng)前樣本X添加噪聲的信噪比。2) 計(jì)算音頻樣本X的均方根RMSX。3) 根據(jù)信噪比SNR計(jì)算需要添加的噪聲的均方根RMSnoise。4) 生成與輸入音頻X具有相同維度且滿足N(0, RMSnoise)高斯分布的噪聲Noise。5) 得到添加噪聲的樣本Xnoise = X + Noise。
Figure 1 A two-stage defense method against speaker adversarial examples based on noise destruction and waveform reconstruction
相比其他噪聲, 高斯白噪聲是一種比較常見(jiàn)且比較容易仿真實(shí)現(xiàn)的隨機(jī)噪聲, 本文將這種噪聲添加在輸入樣本中用于覆蓋樣本中的對(duì)抗擾動(dòng), 進(jìn)而破壞對(duì)抗擾動(dòng)的固有結(jié)構(gòu)。對(duì)于以不同方法生成的對(duì)抗樣本, 由于其擾動(dòng)幅度并不相同, 因此為實(shí)現(xiàn)最佳破壞效果而添加的適宜噪聲幅度也可能并不一致。概括來(lái)說(shuō), 強(qiáng)度太小的噪聲不能有效地破壞對(duì)抗擾動(dòng), 而強(qiáng)度太大的噪聲會(huì)使原始音頻難以修復(fù)。因此, 本文將添加噪聲的信噪比范圍限制在0~25 dB (以5 dB為步長(zhǎng)), 添加方法是以加性噪聲的形式將噪聲信號(hào)直接加在樣本上, 這與對(duì)抗樣本制作過(guò)程中在原始樣本中添加對(duì)抗擾動(dòng)的過(guò)程是一樣的。
第二階段, 在干凈語(yǔ)音數(shù)據(jù)集上, 以同樣的方式, 添加與第一階段具有相同信噪比范圍的噪聲, 制作含噪語(yǔ)音數(shù)據(jù)集, 并在這個(gè)數(shù)據(jù)集上訓(xùn)練語(yǔ)音增強(qiáng)模型。然后, 用訓(xùn)練好的模型對(duì)第一階段添加了噪聲的聲紋樣本進(jìn)行處理, 重構(gòu)原始語(yǔ)音信號(hào)。這是在第一階段破壞對(duì)抗擾動(dòng)結(jié)構(gòu)之后, 進(jìn)行語(yǔ)音波形的重建, 以清除添加在樣本中的噪聲, 最大程度地恢復(fù)原始語(yǔ)音。
由于第一階段加入的噪聲會(huì)破壞對(duì)抗擾動(dòng), 第二階段的重建有望在提高語(yǔ)音質(zhì)量的同時(shí), 提高聲紋識(shí)別的準(zhǔn)確率。
在波形重建階段, 為了進(jìn)一步提高模型對(duì)聲紋對(duì)抗樣本的語(yǔ)音重建能力, 本文在性能優(yōu)異的Wave- U-Net模型基礎(chǔ)上進(jìn)行了改進(jìn), 設(shè)計(jì)了一種名為SCAT-Wave-U-Net的模型結(jié)構(gòu), 如圖2所示。
圖2 SCAT-Wave-U-Net語(yǔ)音增強(qiáng)模型
Figure 2 Speech enhancement using SCAT-Wave-U-Net
Wave-U-Net是由U-Net模型改進(jìn)而來(lái)的, 其中U-Net因其網(wǎng)絡(luò)結(jié)構(gòu)類(lèi)似于字母“U”而得名。U-Net包括下采樣層的卷積加池化, 上采樣層的反卷積和相同上、下采樣層的特征拼接等模塊。為了適應(yīng)對(duì)語(yǔ)音信號(hào)的處理, Wave-U-Net將U-Net上采樣層的反卷積操作變成了線性插值, 同時(shí)在下采樣層使用了居中裁減。該網(wǎng)絡(luò)結(jié)構(gòu)在音源分離和語(yǔ)音增強(qiáng)方面具有明顯的優(yōu)勢(shì)。
語(yǔ)音信號(hào)具有明顯的時(shí)間相關(guān)性。Yang等[16]的研究表明, 在語(yǔ)音樣本中添加的對(duì)抗擾動(dòng)會(huì)破壞掉這種時(shí)序信息, 他們利用這一性質(zhì)有效地區(qū)分了對(duì)抗樣本和正常語(yǔ)音。在針對(duì)含噪對(duì)抗樣本開(kāi)展的語(yǔ)音重建任務(wù)中, 借助原始語(yǔ)音中的時(shí)序依賴信息, 可以更好地修復(fù)原始波形, 從而恢復(fù)被對(duì)抗擾動(dòng)破壞的時(shí)間相關(guān)性。然而, 這種時(shí)序依賴性在Wave-U- Net模型中并沒(méi)有得到充分體現(xiàn)。為使模型能更好地表示語(yǔ)音序列之間的相關(guān)關(guān)系, 本文提出的SCAT- Wave-U-Net模型利用Transformer多頭自注意力機(jī)制對(duì)最后一個(gè)下采樣層的語(yǔ)音序列特征進(jìn)行全局編碼, 使模型充分學(xué)習(xí)語(yǔ)音完整上下文信息之間的依賴關(guān)系。同時(shí), 在Wave-U-Net上、下采樣層之間的跳躍連接中引入交叉注意力機(jī)制, 使模型能更有效地利用來(lái)自下采樣層的有價(jià)值的特征。
在SCAT-Wave-U-Net模型的網(wǎng)絡(luò)結(jié)構(gòu)中, 最后一個(gè)下采樣層末端的Transformer多頭自注意力模塊可訪問(wèn)包含整個(gè)音頻序列的接收域, 與原始Wave- U-Net的有限接收域形成對(duì)比。跳躍連接中的交叉注意力模塊可以從對(duì)應(yīng)上、下采樣層的時(shí)序依賴關(guān)系中獲取更有價(jià)值的特征信息用于構(gòu)建拼接特征。對(duì)Wave-U-Net的這些改進(jìn)可以更加有效地從含噪對(duì)抗樣本中重建原始語(yǔ)音波形。
3.2.1 Transformer多頭自注意力
在最后一個(gè)下采樣塊之后, 利用Transformer多頭自注意力機(jī)制獲取編碼特征序列的全局依賴關(guān)系。本文的Transformer多頭自注意力模塊由6個(gè)順序相連的相同子層組成, 每個(gè)子層包括位置編碼、具有殘差連接的多頭自注意力和前饋神經(jīng)網(wǎng)絡(luò)。每個(gè)子層的結(jié)構(gòu)如圖3所示。
圖3 Transformer多頭自注意力
Figure 3 Multi-head self-attention in Transformer
在Transformer的自注意力機(jī)制中并沒(méi)有輸入特征序列的位置信息[30], 即序列中的矢量處于不同位置時(shí)對(duì)于自注意力的計(jì)算并沒(méi)有區(qū)別, 這在針對(duì)含噪語(yǔ)音的波形重建任務(wù)中顯然是不合理的。因此, 在輸入特征中以文獻(xiàn)[27]的方式添加位置編碼[31], 以獲取含噪聲紋樣本編碼特征序列中每個(gè)矢量在整個(gè)矢量序列中所處的相對(duì)位置關(guān)系。
自注意力作為模塊最重要的部分, 旨在對(duì)具有不同維度、不同表示的序列特征進(jìn)行加權(quán)融合, 從而實(shí)現(xiàn)對(duì)輸入編碼特征的全局訪問(wèn)。為了更好地利用具有不同維度、不同表示的子空間的信息, 本文使用了多頭自注意力機(jī)制。本文將自注意力頭個(gè)數(shù)設(shè)為8, 每一個(gè)頭的自注意力包括三個(gè)輸入, 即查詢矩陣、鍵矩陣和值矩陣[27]。在針對(duì)含有“破壞”噪聲的語(yǔ)音進(jìn)行的波形重建任務(wù)中,、和具有相同的大小, 對(duì)應(yīng)于圖2中最后一個(gè)下采樣塊的輸出。注意力計(jì)算公式如下:
為了實(shí)現(xiàn)多頭自注意力的并行計(jì)算, 在每個(gè)多頭自注意力層中執(zhí)行以下計(jì)算:
前饋神經(jīng)網(wǎng)絡(luò)具有2048維的單個(gè)隱藏層, 輸入、輸出層的神經(jīng)元個(gè)數(shù)等于模塊輸入的編碼特征的維度。網(wǎng)絡(luò)的激活函數(shù)為relu, 為了防止出現(xiàn)過(guò)擬合, 在訓(xùn)練過(guò)程中以0.1的概率應(yīng)用dropout。
在每個(gè)子層的多頭自注意力和前饋網(wǎng)絡(luò)之后均進(jìn)行了層歸一化處理。同時(shí), 為了適應(yīng)Transformer多頭自注意力的計(jì)算, 將模塊輸入特征的形狀從(批次, 特征, 通道)轉(zhuǎn)換為(通道, 批次, 特征), 并在輸出時(shí)重置特征的形狀。
3.2.2 層間交叉注意力
與Wave-U-Net中直接將相同上、下采樣層特征進(jìn)行拼接不同, SCAT-Wave-U-Net模型在跳躍連接中引入注意力門(mén), 將下采樣層的特征與注意力掩碼相乘來(lái)識(shí)別其中的相關(guān)特征, 如圖4所示。
圖4 層間交叉注意力模塊
Figure 4 Interlayer cross-attention module
為了實(shí)現(xiàn)注意力機(jī)制, 利用兩個(gè)具有個(gè)卷積核且核大小為1的一維卷積W和W, 分別對(duì)上采樣層特征U-i+1和下采樣層特征D進(jìn)行卷積操作并將結(jié)果相加。與Giri等人[6]的方法不同, 為了減少計(jì)算量并防止梯度消失, 本文在相加之后實(shí)施relu激活, 而不是sigmoid激活。激活后得到一個(gè)輸出維度為的中間特征M,
其中,U–i+1和D分別代表上下采樣層的特征, 下標(biāo)中的為層序號(hào),代表模型的總層數(shù), 在本文中為12,b代表可學(xué)習(xí)的偏置。將中間特征輸入到核大小為1的單個(gè)卷積W, 輸出進(jìn)行批歸一化處理, 再經(jīng)過(guò)sigmoid激活得到注意力掩碼A,
最后, 將注意力掩碼與下采樣層特征D相乘后與上采樣層特征U–i+1拼接。
本文首先通過(guò)實(shí)驗(yàn)與其他語(yǔ)音增強(qiáng)算法進(jìn)行對(duì)比, 驗(yàn)證提出的SCAT-Wave-U-Net模型對(duì)一般背景噪聲的過(guò)濾效果。然后利用SCAT-Wave-U-Net模型, 針對(duì)典型的四種白盒、兩種黑盒對(duì)抗樣本攻擊, 在兩種不同聲紋識(shí)別系統(tǒng)下進(jìn)行實(shí)驗(yàn), 驗(yàn)證提出的對(duì)抗樣本防御方法的效果①https://github.com/meisanhai/audios。實(shí)驗(yàn)平臺(tái)為Ubuntu 20.04, 處理器為Intel Xeon E5-2670 v3, 具有62.8 GiB內(nèi)存、48核2.30 GHz的CPU和一個(gè)GeForce RTX 2080Ti GPU。
4.1.1 VCTK
本文使用VCTK數(shù)據(jù)集[32]驗(yàn)證SCAT-Wave- U-Net模型對(duì)一般背景噪聲的語(yǔ)音增強(qiáng)效果, 同時(shí)在該數(shù)據(jù)集的干凈語(yǔ)音中添加高斯噪聲對(duì)模型重新訓(xùn)練。數(shù)據(jù)集中的干凈語(yǔ)音來(lái)自30位母語(yǔ)為英語(yǔ)的人, 其中28個(gè)說(shuō)話人的語(yǔ)音用于訓(xùn)練, 剩余2個(gè)說(shuō)話人的語(yǔ)音用于測(cè)試。將干凈語(yǔ)音與各種噪聲數(shù)據(jù)集混合生成含噪語(yǔ)音。訓(xùn)練集包含40種不同的噪聲條件, 由10種類(lèi)型噪聲的各4種信噪比(0 dB、5 dB、10 dB和15 dB)組成, 每個(gè)說(shuō)話人在每種條件下大約有10個(gè)不同的語(yǔ)句, 共有11572個(gè)訓(xùn)練樣本。測(cè)試集與訓(xùn)練集在說(shuō)話人、噪聲類(lèi)型和信噪比分布上都不同, 包含20種不同的噪聲條件, 由5種類(lèi)型噪聲的各4種信噪比(2.5 dB、7.5 dB、12.5 dB和17.5 dB)組成, 每個(gè)測(cè)試說(shuō)話人在每種噪聲條件下大約有20個(gè)不同的語(yǔ)句, 共有824個(gè)測(cè)試樣本。
4.1.2 Spk10
在聲紋識(shí)別任務(wù)中選擇Chen等人[22]公開(kāi)的數(shù)據(jù)集, 包括Spk10-enroll注冊(cè)集和Spk10-test測(cè)試集。說(shuō)話人是從語(yǔ)音處理領(lǐng)域廣泛采用的數(shù)據(jù)集Librispeech的“test-other”和“dev-other”子集中隨機(jī)選擇的。Spk10-enroll包括10名說(shuō)話人(5名男性和5名女性), 每名說(shuō)話人10個(gè)語(yǔ)句。Spk10-test具有與Spk10-enroll相同的說(shuō)話人, 但講話內(nèi)容不同, 每個(gè)說(shuō)話人有100個(gè)語(yǔ)句。
本文使用了兩種典型的聲紋識(shí)別系統(tǒng), 分別是基于高斯混合模型(Gaussian Mixed Model, GMM)的i-vector系統(tǒng)[33]和基于時(shí)延神經(jīng)網(wǎng)絡(luò)(Time Delay Neural Network, TDNN)的x-vector系統(tǒng)[34], 這兩種聲紋識(shí)別系統(tǒng)均使用說(shuō)話人嵌入(Embedding)將說(shuō)話人的聲學(xué)特性表示為固定維度的向量, 實(shí)驗(yàn)中使用基于語(yǔ)音識(shí)別平臺(tái)Kaldi[35]預(yù)訓(xùn)練的開(kāi)源模型。本文進(jìn)行的是閉集說(shuō)話人鑒別, 即從一組注冊(cè)的說(shuō)話人中識(shí)別出測(cè)試語(yǔ)音來(lái)自哪個(gè)說(shuō)話人, 在機(jī)器學(xué)習(xí)領(lǐng)域是一個(gè)多分類(lèi)問(wèn)題。兩種系統(tǒng)均在Spk10-enroll上進(jìn)行了注冊(cè), 將注冊(cè)說(shuō)話人發(fā)出的語(yǔ)音映射到注冊(cè)嵌入特征, 作為注冊(cè)說(shuō)話人的唯一身份標(biāo)識(shí)。測(cè)試過(guò)程中使用Spk10-test的數(shù)據(jù)進(jìn)行測(cè)試。
在對(duì)抗攻擊設(shè)置中, 對(duì)抗樣本均是在Spk10-test上生成, 選擇Spk10-test中10個(gè)說(shuō)話人的各20條語(yǔ)音用來(lái)生成對(duì)抗樣本。本文選擇非目標(biāo)攻擊任務(wù), 攻擊的目標(biāo)標(biāo)簽是從真實(shí)目標(biāo)說(shuō)話人之外的標(biāo)簽中隨機(jī)選擇的。FGSM攻擊步長(zhǎng)設(shè)為0.002。PGD攻擊的最大迭代次數(shù)設(shè)為10, 步長(zhǎng)設(shè)為0.0004, 擾動(dòng)幅度限制設(shè)為0.002。CW∞攻擊的最大迭代次數(shù)設(shè)為10, 步長(zhǎng)設(shè)為0.001, 擾動(dòng)幅度限制設(shè)為0.002。CW2攻擊使用9步二進(jìn)制搜索尋找對(duì)抗性擾動(dòng), 最大迭代次數(shù)設(shè)為1 000, 參數(shù)設(shè)為0。FakeBob攻擊的迭代次數(shù)設(shè)為500,設(shè)為0, 擾動(dòng)幅度限制設(shè)為0.002。Siren攻擊粒子數(shù)為50, PSO最大迭代次數(shù)為300。
對(duì)于基線對(duì)抗防御方法的設(shè)置, 在防御效果最佳的條件下, 將量化方法因子的值設(shè)為512, 音頻湍流中的信噪比設(shè)為15 dB, 中值平滑和均值平滑近似計(jì)算的樣本點(diǎn)數(shù)設(shè)為5, 低通濾波的截止頻率設(shè)為8 000 Hz, MP3壓縮的壓縮級(jí)別設(shè)為64 kbps, 特征壓縮中與的比值設(shè)為0.5, 特征聚類(lèi)的方法使用k均值(k-means)聚類(lèi)。
訓(xùn)練SCAT-Wave-U-Net模型時(shí)使用Adam優(yōu)化器, 學(xué)習(xí)率為0.0001, 批大小為32。隨機(jī)選取1%的訓(xùn)練數(shù)據(jù)作為驗(yàn)證集, 如驗(yàn)證集上的效果在連續(xù)訓(xùn)練20個(gè)epoch時(shí)沒(méi)有改進(jìn), 則停止訓(xùn)練。然后, 對(duì)訓(xùn)練參數(shù)進(jìn)行微調(diào), 批大小增加一倍, 學(xué)習(xí)率降至0.00001, 同樣在連續(xù)訓(xùn)練20個(gè)epoch驗(yàn)證集上的效果沒(méi)有改進(jìn)時(shí), 停止訓(xùn)練。
本文用聲紋識(shí)別準(zhǔn)確率衡量提出的方法對(duì)聲紋對(duì)抗樣本攻擊的防御性能, 即計(jì)算能夠準(zhǔn)確識(shí)別目標(biāo)說(shuō)話人的語(yǔ)音數(shù)目與輸入語(yǔ)音總數(shù)的比值。
使用語(yǔ)音質(zhì)量的感知評(píng)價(jià)(Perceptual Evaluation of Speech Quality, PESQ)[36]、短時(shí)客觀可懂度(Short- Term Objective Intelligibility, STOI)[37]和語(yǔ)音信噪比(Signal-to-Noise Ratio, SNR)三個(gè)主要的語(yǔ)音質(zhì)量度量指標(biāo)來(lái)評(píng)估從輸入樣本中重建原始音頻的效果:
PESQ: 語(yǔ)音質(zhì)量感知評(píng)價(jià)分?jǐn)?shù)是平均干擾d和平均不對(duì)稱干擾d的總和, 在0.5~4.5之間, 輸出信號(hào)和參照信號(hào)的差異性越大值越低。計(jì)算公式為:= 4.5 – 0.1d– 0.030 9d。
STOI: 短時(shí)客觀可懂度作為含噪語(yǔ)音非線性處理的穩(wěn)健度量指標(biāo), 反映語(yǔ)音降噪后的清晰度, 范圍在0到1之間, 值越大, 可懂度越高。
4.4.1 SCAT-Wave-U-Net模型的語(yǔ)音增強(qiáng)效果
為了評(píng)估SCAT-Wave-U-Net模型的有效性, 與經(jīng)典濾波方法和包括原始Wave-U-Net模型在內(nèi)的幾種基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)方法進(jìn)行了比較, 這些方法為: 維納濾波(Wiener Filter)[38]、SEGAN[4]、Wave-U-Net[5]和Attention Wave-U-Net[6]。本文使用與其他方法相同的VCTK數(shù)據(jù)集, 并引用他們公開(kāi)的實(shí)驗(yàn)結(jié)果, 對(duì)比情況見(jiàn)表1。
為了在不同方法之間進(jìn)行公平比較, 本文使用與其他語(yǔ)音增強(qiáng)算法相同的語(yǔ)音質(zhì)量度量指標(biāo), 這些指標(biāo)除PESQ外, 還包括與人類(lèi)聽(tīng)覺(jué)感知相關(guān)的評(píng)分。CSIG: 關(guān)注語(yǔ)音信號(hào)失真的平均意見(jiàn)評(píng)分(Mean Opinion Score, MOS)預(yù)測(cè)。CBAK: 背景噪聲侵入性的MOS預(yù)測(cè)。COVL: 整體處理后的語(yǔ)音質(zhì)量MOS預(yù)測(cè)。此外, 還包括分段信噪比(Segment Signal-to-Noise Ratio, SSNR)。從表1中可以看出, 通過(guò)在Wave-U-Net模型下采樣層后添加多頭自注意力模塊, 同時(shí)在上、下采樣層間引入交叉注意力, 可進(jìn)一步提高模型的去噪能力。SCAT-Wave-U-Net模型在PESQ、CSIG和COVL三個(gè)指標(biāo)上的結(jié)果均高于其他語(yǔ)音增強(qiáng)方法, 指標(biāo)CBAK上的結(jié)果與文獻(xiàn)[6]相同且高于其他三種方法, 在指標(biāo)SSNR上的結(jié)果僅次于文獻(xiàn)[5]和[6]。
表1 不同語(yǔ)音增強(qiáng)方法增強(qiáng)后的語(yǔ)音質(zhì)量對(duì)比
4.4.2 對(duì)不同對(duì)抗樣本攻擊的防御效果
本文首先在VCTK數(shù)據(jù)集的干凈語(yǔ)音中添加具有不同信噪比范圍限制的高斯白噪聲, 用來(lái)訓(xùn)練語(yǔ)音增強(qiáng)模型。然后, 利用訓(xùn)練好的語(yǔ)音增強(qiáng)模型對(duì)添加了噪聲的聲紋樣本進(jìn)行重建。選取時(shí)域語(yǔ)音增強(qiáng)方法Wave-U-Net[5]、Attention Wave-U-Net[6]和頻域語(yǔ)音增強(qiáng)方法最小均方誤差(Minimum Mean Square Error, MMSE)[39], 用來(lái)與本文提出的SCAT-Wave- U-Net模型在聲紋對(duì)抗樣本防御效果上進(jìn)行對(duì)比。同時(shí), 將本文方法防御對(duì)抗樣本攻擊的效果與基于樣本變換的基線防御方法進(jìn)行了對(duì)比, 實(shí)驗(yàn)結(jié)果見(jiàn)圖5。
從圖5可以看出, 對(duì)于i-vector聲紋識(shí)別系統(tǒng), 時(shí)域量化方法使面對(duì)FGSM和Siren之外的其他攻擊時(shí)的識(shí)別準(zhǔn)確率得到提升, 但對(duì)真實(shí)樣本的識(shí)別準(zhǔn)確率卻降低到了35.5%。均值平滑、低通濾波和MP3壓縮雖然能保證對(duì)真實(shí)樣本的識(shí)別準(zhǔn)確率在99.5%以上, 但卻不能防御PGD和CW∞對(duì)抗樣本攻擊。中值平滑的防御效果比均值平滑稍好, 但真實(shí)樣本的識(shí)別準(zhǔn)確率降低到了88.5%。特征壓縮可以在有效防御FGSM、CW2和FakeBob攻擊的同時(shí), 保證真實(shí)樣本的識(shí)別準(zhǔn)確率在98.5%, 但對(duì)PGD、CW∞和Siren攻擊的防御效果不佳。音頻湍流的防御效果相對(duì)更均衡, 在顯著提高聲紋識(shí)別準(zhǔn)確率的同時(shí)保證真實(shí)樣本的識(shí)別準(zhǔn)確率在89%。
本文方法在添加噪聲信噪比為10~15 dB時(shí)的防御效果優(yōu)于以上基線防御方法, 對(duì)FGSM、PGD和CW∞攻擊的防御效果在添加噪聲信噪比為10~15 dB時(shí)達(dá)到最佳, 對(duì)真實(shí)樣本的識(shí)別準(zhǔn)確率保持在約94%。對(duì)于CW2、FakeBob和Siren攻擊, 在添加噪聲信噪比為20~25 dB時(shí), 效果最佳, 對(duì)真實(shí)樣本的識(shí)別準(zhǔn)確率依然保持在約98.5%。與其他語(yǔ)音增強(qiáng)方法相比, SCAT-Wave-U-Net模型對(duì)不同攻擊的防御也在前述兩個(gè)信噪比條件下取得了更好的效果。
對(duì)于x-vector聲紋識(shí)別系統(tǒng), 在幾種基于樣本變換的基線防御方法中, 相比在i-vector系統(tǒng)中的表現(xiàn), 特征壓縮的防御能力顯著降低, 音頻湍流獲得了更好的防御效果, 其他幾種防御方法與在i-vector系統(tǒng)中的表現(xiàn)類(lèi)似。通過(guò)對(duì)比不同信噪比條件下的防御效果可以發(fā)現(xiàn): 本文提出的方法在添加噪聲信噪比為10~15 dB時(shí), 對(duì)FGSM、PGD、CW2、CW∞和Siren的攻擊都具有比其他基線防御方法更好的效果, 在FakeBob攻擊下的識(shí)別準(zhǔn)確率僅比音頻湍流防御低1.5%, 同時(shí)對(duì)真實(shí)樣本的識(shí)別準(zhǔn)確率仍然保持在約98.5%。在防御CW2、FakeBob和Siren 3種對(duì)抗攻擊時(shí), 隨著信噪比的增加, 防御的效果也逐漸提升。當(dāng)信噪比為20~25 dB時(shí), 在這3種攻擊下的聲紋識(shí)別準(zhǔn)確率分別達(dá)到了100%、99.5%和99.5%。
以上實(shí)驗(yàn)結(jié)果表明, 本文提出的防御方法具有一定的通用性, 即對(duì)不同聲紋識(shí)別系統(tǒng)和對(duì)抗樣本攻擊方式均有較好的防御效果, 且對(duì)正常樣本的識(shí)別影響較小。值得一提的是, 即使是使用常見(jiàn)的MMSE方法進(jìn)行波形重建, 在添加噪聲信噪比為10~15 dB時(shí)的絕大多數(shù)防御中也獲得了比基線防御方法更好的效果, 從而驗(yàn)證了“破壞+重建”防御框架的有效性。
圖5 i-vector/x-vector聲紋識(shí)別系統(tǒng)的防御效果(噪聲強(qiáng)度Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ分別表示含噪語(yǔ)音樣本中信噪比范圍為0~5 dB、5~10 dB、10~15 dB、15~20 dB、20~25 dB)
Figure 5 Results on defending speaker recognition systems based on i-vector/x-vector (Noise intensities Ⅰ, Ⅱ, Ⅲ, Ⅳ and Ⅴ indicate that the SNR ranges of the speech examples with noises are 0~5 dB, 5~10 dB, 10~15 dB, 15~20 dB and 20~25 dB, respectively)
表2和表3是在兩種聲紋識(shí)別系統(tǒng)下, 當(dāng)添加噪聲信噪比為10~15 dB時(shí)以本文方法實(shí)施波形重建前后的語(yǔ)音質(zhì)量, 表格中的數(shù)值是所有語(yǔ)音指標(biāo)值的平均。
表2 i-vector聲紋識(shí)別系統(tǒng)實(shí)施防御時(shí)的語(yǔ)音質(zhì)量增強(qiáng)效果
表3 x-vector聲紋識(shí)別系統(tǒng)實(shí)施防御時(shí)的語(yǔ)音質(zhì)量增強(qiáng)效果
從表中可以看出, 在添加噪聲后, 不同對(duì)抗樣本在SNR、PESQ和STOI三個(gè)指標(biāo)上的數(shù)值相差不大, 這說(shuō)明此時(shí)高斯白噪聲已經(jīng)淹沒(méi)了音頻樣本中的對(duì)抗性擾動(dòng)。經(jīng)過(guò)SCAT-Wave-U-Net模型的波形重建處理后, 語(yǔ)音質(zhì)量得到了顯著恢復(fù)。從實(shí)際的聽(tīng)覺(jué)感受來(lái)看, 經(jīng)過(guò)重建的語(yǔ)音樣本由于去除了額外的雜音, 相比原始語(yǔ)音更加清晰。
圖6展示了語(yǔ)音樣本在不同階段的語(yǔ)譜圖變化情況??梢杂^察到: 相比圖6(a)中的原始波形, 由于添加了對(duì)抗擾動(dòng), 圖6(b)中對(duì)抗樣本的語(yǔ)譜圖各語(yǔ)音幀高頻部分具有更高的能量(如紅色橢圓形圈出來(lái)的部分所示)。在圖6(c)中, 添加的隨機(jī)噪聲淹沒(méi)并破壞掉了對(duì)抗樣本中的對(duì)抗擾動(dòng)部分。在圖6(d)中, 最后增強(qiáng)重建出來(lái)的語(yǔ)音消除了對(duì)抗噪聲, 從而使得語(yǔ)譜圖能量分布與原始語(yǔ)音譜更加接近。
圖6 語(yǔ)音樣本在不同防御階段的語(yǔ)譜圖(a)原始語(yǔ)音 (b)對(duì)抗樣本 (c)添加噪聲 (d)增強(qiáng)語(yǔ)音
Figure 6 The spectrograms at different stages of defense (a) Original speech (b) Speech with adversarial perturbations (c) Speech with added noises (d) Enhanced speech
4.4.3 不同對(duì)抗擾動(dòng)時(shí)長(zhǎng)的防御效果分析
通常情況下, 在對(duì)抗樣本生成過(guò)程中, 對(duì)抗擾動(dòng)是以與原始音頻樣本相同的長(zhǎng)度進(jìn)行構(gòu)造的。在本文提出的基于噪聲破壞和波形重建的對(duì)抗樣本防御方法中, 由于在輸入語(yǔ)音樣本中加入了隨機(jī)噪聲, 當(dāng)對(duì)抗擾動(dòng)的長(zhǎng)度小于原始語(yǔ)音的長(zhǎng)度時(shí), 在音頻完整時(shí)長(zhǎng)范圍內(nèi)添加的隨機(jī)噪聲可能會(huì)對(duì)最終的防御效果帶來(lái)負(fù)面影響。在這一小節(jié)中, 通過(guò)實(shí)驗(yàn)驗(yàn)證不同對(duì)抗擾動(dòng)時(shí)長(zhǎng)對(duì)防御性能的影響。針對(duì)前文所述的每一種對(duì)抗樣本攻擊方法, 將對(duì)抗擾動(dòng)的時(shí)長(zhǎng)分別設(shè)置為原始語(yǔ)音樣本長(zhǎng)度的1/4、1/2和3/4, 并添加在原始語(yǔ)音完整時(shí)長(zhǎng)范圍內(nèi)的某一處隨機(jī)位置。防御時(shí)在樣本中添加的噪聲幅度限制為10~ 15 dB。不同擾動(dòng)時(shí)長(zhǎng)下的攻防效果見(jiàn)圖7。
觀察圖7(a)和(b)可以發(fā)現(xiàn), 對(duì)抗擾動(dòng)時(shí)長(zhǎng)越短, 在相同攻擊設(shè)置下的攻擊效果越差, 當(dāng)對(duì)抗擾動(dòng)的時(shí)長(zhǎng)與原始語(yǔ)音樣本相同時(shí)攻擊效果最佳。同時(shí), 從圖7(c)和(d)中可以觀察到, 在i-vector系統(tǒng)中, 隨著對(duì)抗擾動(dòng)時(shí)長(zhǎng)增加, 對(duì)CW2和FakeBob攻擊的防御效果逐漸提高, 對(duì)PGD和CW∞攻擊的防御效果逐漸降低, 對(duì)FGSM和Siren攻擊的防御效果變化幅度較小。在x-vector系統(tǒng)中, 隨著對(duì)抗擾動(dòng)時(shí)長(zhǎng)增加, 對(duì)CW2和FakeBob攻擊的防御效果逐漸提高, 對(duì)其他幾種攻擊的防御效果變化幅度較小。當(dāng)在i-vector系統(tǒng)中防御具有原始音頻1/4時(shí)長(zhǎng)的FGSM和Siren攻擊時(shí), 聲紋識(shí)別準(zhǔn)確率相比沒(méi)有防御時(shí)有小幅度的下降。相比在i-vector系統(tǒng)中的結(jié)果, 本文方法對(duì)x-vector系統(tǒng)的防御效果更好, 由不同對(duì)抗擾動(dòng)時(shí)長(zhǎng)引起的防御性能變化情況也比i-vector系統(tǒng)更加穩(wěn)定??傮w來(lái)看, 本文方法在面對(duì)具有不同擾動(dòng)時(shí)長(zhǎng)的對(duì)抗樣本攻擊時(shí)同樣具有較穩(wěn)定的防御效果。
Figure 7 Adversarial perturbations with different durations; (a) and (b) are the attack results on i-vector and x-vector systems, respectively, (c) and (d) are the defense results on i-vector and x-vector systems, respectively
4.4.4 防御方法的實(shí)時(shí)性分析
語(yǔ)音識(shí)別、聲紋識(shí)別均對(duì)實(shí)時(shí)性有較高的要求。因此, 在防御對(duì)抗樣本攻擊時(shí), 實(shí)施防御所付出的時(shí)間成本非常重要。實(shí)時(shí)因子(Real Time Factor, RTF)定義為語(yǔ)音識(shí)別系統(tǒng)處理所有音頻的耗時(shí)與輸入音頻總時(shí)長(zhǎng)的比值。本文通過(guò)計(jì)算聲紋樣本處理過(guò)程中的實(shí)時(shí)因子, 對(duì)比實(shí)施防御前后的實(shí)時(shí)因子變化情況, 對(duì)本文方法的實(shí)時(shí)效果進(jìn)行分析。實(shí)驗(yàn)結(jié)果見(jiàn)表4和表5。
防御前后的音頻總時(shí)長(zhǎng)保持不變, 本文對(duì)抗樣本的總時(shí)長(zhǎng)為1067.67 s。與無(wú)防御時(shí)的聲紋識(shí)別相比, 在實(shí)施防御過(guò)程中新增了添加噪聲和語(yǔ)音重建的時(shí)間成本。在添加噪聲信噪比為10~15 dB條件下, 計(jì)算了用本文方法防御每一種攻擊時(shí), 添加噪聲、語(yǔ)音重建和聲紋識(shí)別的時(shí)間。實(shí)施防御前后的實(shí)時(shí)因子計(jì)算公式為:
表5 x-vector聲紋識(shí)別系統(tǒng)的實(shí)時(shí)因子
由于i-vector系統(tǒng)中包含了比較耗時(shí)的高斯混合模型, 而x-vector的前饋推理便于顯卡加速處理, 因此x-vector系統(tǒng)聲紋識(shí)別的時(shí)間少于i-vector。從表4、5中可以看出, 不同對(duì)抗攻擊方法之間實(shí)時(shí)因子值的變化不大。在實(shí)施防御后, i-vector和x-vector系統(tǒng)中的實(shí)時(shí)因子大致分別變?yōu)樵瓉?lái)的2倍和5倍。實(shí)時(shí)因子數(shù)值小于1, 說(shuō)明本文提出的防御方法在增加一部分時(shí)間成本后仍可以滿足聲紋識(shí)別的實(shí)時(shí)性要求。
針對(duì)傳統(tǒng)聲紋對(duì)抗樣本防御方法魯棒性差、糾正錯(cuò)誤輸出的同時(shí)影響真實(shí)樣本的識(shí)別等缺點(diǎn), 提出了一種基于噪聲破壞和波形重建的聲紋對(duì)抗樣本防御方法。通過(guò)在對(duì)抗樣本中添加噪聲破壞對(duì)抗擾動(dòng)的結(jié)構(gòu), 使其失去對(duì)抗性; 然后利用語(yǔ)音增強(qiáng)模型重建語(yǔ)音波形。提出的SCAT-Wave-U-Net模型通過(guò)引入Transformer多頭自注意力和層間交叉注意力機(jī)制增強(qiáng)了對(duì)含噪聲紋對(duì)抗樣本的波形重建能力, 同時(shí)相比原始Wave-U-Net模型也提高了在一般環(huán)境噪聲條件下的語(yǔ)音增強(qiáng)能力。實(shí)驗(yàn)結(jié)果表明, 本文提出的方法在保證對(duì)真實(shí)聲紋樣本識(shí)別準(zhǔn)確率影響較小的情況下, 對(duì)四種白盒、兩種黑盒對(duì)抗樣本攻擊的防御效果優(yōu)于其他基于樣本變換的防御方法, 同時(shí)顯著恢復(fù)了輸入語(yǔ)音的音頻質(zhì)量。進(jìn)一步地, 在本文的防御方法中, 添加“破壞”噪聲的過(guò)程不可微, 很難將這一過(guò)程引入自適應(yīng)攻擊的梯度求解中。因此, 本文提出的方法對(duì)于防御自適應(yīng)攻擊也具有一定優(yōu)勢(shì)。
[1] Szegedy C, Zaremba W, Sutskever I, et al. Intriguing Properties of Neural Networks[J].,, 2014: 1-10.
[2] Das R K, Tian X H, Kinnunen T, et al. The Attacker’s Perspective on Automatic Speaker Verification: An Overview[C]., 2020: 4213-4217.
[3] Hu S S, Shang X C, Qin Z, et al. Adversarial Examples for Automatic Speech Recognition: Attacks and Countermeasures[J]., 2019, 57(10): 120-126.
[4] Pascual S, Bonafonte A, Serrà J. SEGAN: Speech Enhancement Generative Adversarial Network[C]., 2017: 3642-3646.
[5] Macartney C, Weyde T. Improved speech enhancement with the wave-U-Net[EB/OL]. 2018: ArXiv Preprint ArXiv: 1811.11307.
[6] Giri R, Isik U, Krishnaswamy A. Attention Wave-U-Net for Speech Enhancement[C]., 2019: 249-253.
[7] Goodfellow I J, Shlens J, Szegedy C. Explaining and harnessing adversarial examples[C]., 2015: 1-11.
[8] Gong Y, Poellabauer C. Crafting Adversarial Examples for Speech Paralinguistics Applications[EB/OL]. 2017: arXiv: 1711.03280. https://arxiv.org/abs/1711.03280.pdf.
[9] Liu S X, Wu H B, Lee H Y, et al. Adversarial Attacks on Spoofing Countermeasures of Automatic Speaker Verification[C]., 2020: 312-319.
[10] Irfan M M, Ali S, Yaqoob I, et al. Towards Deep Learning: A Review on Adversarial Attacks[C]., 2021: 91-96.
[11] Carlini N, Wagner D. Audio Adversarial Examples: Targeted Attacks on Speech-to-Text[C]., 2018: 1-7.
[12] Chen G K, Chenb S, Fan L L, et al. Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems[C]., 2021: 694-711.
[13] Du T Y, Ji S L, Li J F, et al. SirenAttack: Generating Adversarial Audio for End-to-End Acoustic Systems[C]., 2020: 357-369.
[14] Li X, Li N, Zhong J H, et al. Investigating Robustness of Adversarial Samples Detection for Automatic Speaker Verification[C]., 2020: 1540-1544.
[15] Jati A, Hsu C C, Pal M, et al. Adversarial Attack and Defense Strategies for Deep Speaker Recognition Systems[J]., 2021, 68: 101199.
[16] Yang Z L, Li B, Chen P Y, et al. Characterizing Audio Adversarial Examples Using Temporal Dependency[EB/OL]. 2018: arXiv: 1809.10875. https://arxiv.org/abs/1809.10875.pdf.
[17] Yuan X J, Chen Y X, Zhao Y, et al. Commandersong: A Systematic Approach for Practical Adversarial Voice Recognition[C]., 2018: 49-64.
[18] Kwon H, Yoon H, Park K W. POSTER: Detecting Audio Adversarial Example through Audio Modification[C]., 2019: 2521-2523.
[19] Hossen I, Hei X L. AaeCAPTCHA: The Design and Implementation of Audio Adversarial CAPTCHA[C]., 2022: 430-447.
[20] Abdullah H, Garcia W, Peeters C, et al. Practical Hidden Voice Attacks Against Speech and Speaker Recognition Systems[C]., 2019: 1-15.
[21] Andronic I, Kürzinger L, Chavez Rosas E R, et al. MP3 Compression to Diminish Adversarial Noise in End-to-End Speech Recognition[C]., 2020: 22-34.
[22] Chen G K, Zhao Z, Song F, et al. SEC4SR: A Security Analysis Platform for Speaker Recognition[EB/OL]. 2021: arXiv: 2109.01766. https://arxiv.org/abs/2109.01766.pdf.
[23] Xu Y, Du J, Dai L R, et al. An Experimental Study on Speech Enhancement Based on Deep Neural Networks[J]., 2014, 21(1): 65-68.
[24] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]., 2015: 234-241.
[25] Stoller D, Ewert S, Dixon S. Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation[EB/OL]. 2018: arXiv: 1806.03185. https://arxiv.org/abs/1806.03185.pdf.
[26] Yang C H, Qi J, Chen P Y, et al. Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement[C].,, 2020: 3107-3111.
[27] Vaswani A, Shazeer N, Parmar N, et al. Attention is all You Need[C]., 2017: 6000-6010.
[28] Zhang Y A, Xu H, Pei C F, et al. Adversarial Example Defense Based on Image Reconstruction[J]., 2021, 7: e811.
[29] Rajaratnam K, Kalita J. Noise Flooding for Detecting Audio Adversarial Examples Against Automatic Speech Recognition[C]., 2019: 197-201.
[30] Ahmed S, Nielsen I E, Tripathi A, et al. Transformers in Time-Series Analysis: A Tutorial[EB/OL]. 2022: arXiv: 2205.01138. https://arxiv.org/abs/2205.01138.pdf.
[31] Subakan C, Ravanelli M, Cornell S, et al. Attention is all You Need in Speech Separation[C].,, 2021: 21-25.
[32] Valentini C. Noisy speech database for training speech enhancement algorithms and TTS models[J]., 2016.
[33] Dehak N, Dehak R, Kenny P, et al. Support Vector Machines Versus Fast Scoring in the Low-Dimensional Total Variability Space for Speaker Verification[C]., 2009: 1559-1562.
[34] Snyder D, Garcia-Romero D, Sell G, et al. X-Vectors: Robust DNN Embeddings for Speaker Recognition[C].,, 2018: 5329-5333.
[35] Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit[C]., 2011: 1-4.
[36] Rix A W, Beerends J G, Hollier M P, et al. Perceptual Evaluation of Speech Quality (PESQ)-a New Method for Speech Quality Assessment of Telephone Networks and Codecs[C].,,.(..), 2002: 749-752.
[37] Taal C H, Hendriks R C, Heusdens R, et al. A Short-Time Objective Intelligibility Measure for Time-Frequency Weighted Noisy Speech[C].,, 2010: 4214-4217.
[38] Scalart P, Filho J V. Speech Enhancement Based on a Priori Signal to Noise Estimation[C].,,, 2002: 629-632.
[39] Ephraim Y, Malah D. Speech Enhancement Using a Minimum-Mean Square Error Short-Time Spectral Amplitude Estimator[J].,,, 1984, 32(6): 1109-1121.
Defense of Speaker Recognition Against Adversarial Examples Based on Noise Destruction and Waveform Reconstruction
WEI Chunyu1, SUN Meng1, ZHANG Xiongwei1, ZOU Xia1, YIN Jie2
1College of Command and Control Engineering, Army Engineering University of PLA, Nanjing 210007, China2Jiangsu Police Institute, Nanjing 210031, China
Voice is one of the most import ways of human communications. Besides texts, voice signals also hold the information of the speaker’s identity, race, age, gender, and emotion, where the recognition of speaker identity is also called speaker recognition which is a biometric technique. Given the fact that human voice is easy to be collected and saved, and that the development of deep learning improves the recognition accuracy, speaker recognition has been used in financial APP authentication, smart home, voice assistant and forensics. On the other hand, adversarial attacks against deep learning models have attracted great attention, which could make the models’ predictions incorrect by adding imperceptible perturbations to input signals. Therefore, the emergence of adversarial examples also poses the same serious security threat to deep learning-based speaker recognition. In this paper, a two-stage method with “destructing” and “reconstructing” is proposed to defense against adversarial examples of speaker recognition by overcoming the shortcomings of existing defense methods, such as the inability to remove adversarial perturbations, the negative impacts on the recognition of normal examples, and the poor robustness to different models and attack methods. At the first stage, Gaussian noises with a certain range of SNR amplitudes are added to the input speech signal to destroy the structure of potential adversarial perturbations and to eliminate its adversarial function. At the second stage, the proposed speech enhancement model named SCAT-Wave-U-Net is used to reconstruct the original clean speech. Global multi-head self-attention of Transformer and interlayer cross-attention mechanisms are introduced into the Wave-U-Net structure, which is more useful for defending the speaker adversarial examples. Experimental results show that the effectiveness of the proposed defense method does not depend on the specific speaker recognition system and the adversarial example attack method. By conducting extensive experiments on two state-of-the-art speaker recognition systems, i.e., i-vector and x-vector, the performances of the defense against multiple types of adversarial examples are superior to other defense methods using preprocessing techniques.
speaker recognition; noise destruction; speech enhancement; defense of adversarial examples
TP391.9
10.19363/J.cnki.cn10-1380/tn.2024.01.05
孫蒙, 博士, 副教授, Email: sunmeng@aeu.edu.cn。
本課題得到江蘇省優(yōu)秀青年基金(No. BK20180080)和國(guó)家自然科學(xué)基金(No. 62371469, No. 62071484)資助。
2022-05-08;
2022-07-06;
2023-09-27
魏春雨 于2016年在海軍航空大學(xué)電子對(duì)抗指揮與工程專業(yè)獲學(xué)士學(xué)位?,F(xiàn)在陸軍工程大學(xué)電子信息專業(yè)攻讀碩士學(xué)位。研究領(lǐng)域?yàn)槁暭y識(shí)別、語(yǔ)音識(shí)別、語(yǔ)音偽裝。Email: weichunyu2020@126.com
孫蒙 于2012年在比利時(shí)魯汶大學(xué)電子系獲博士學(xué)位?,F(xiàn)為陸軍工程大學(xué)智能信息處理實(shí)驗(yàn)室副教授。研究領(lǐng)域?yàn)橹悄苷Z(yǔ)音處理、機(jī)器學(xué)習(xí)。Email: sunmeng@aeu. edu.cn
張雄偉 現(xiàn)為陸軍工程大學(xué)智能信息處理實(shí)驗(yàn)室教授。研究領(lǐng)域?yàn)檎Z(yǔ)音與圖像處理、智能信息處理。Email: xwzhang9898@ 163.com
鄒霞 現(xiàn)為陸軍工程大學(xué)智能信息處理實(shí)驗(yàn)室副教授。研究領(lǐng)域?yàn)檎Z(yǔ)音信號(hào)處理、人工智能和機(jī)器學(xué)習(xí)。Email: zlc1997@ 163.com
印杰 現(xiàn)為江蘇警官學(xué)院高級(jí)工程師。研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、大數(shù)據(jù)、網(wǎng)絡(luò)安全。Email: yinjie@jspi.cn