周峻林 胡曉光 黃子旭 汪 旭 付哲宇
(中國(guó)人民公安大學(xué) 北京 100038)
隨著人工智能技術(shù)的發(fā)展,合成語(yǔ)聲的能力日益提高。通過(guò)技術(shù)手段合成得到的語(yǔ)聲開(kāi)始變得越來(lái)越逼真,甚至可以達(dá)到通過(guò)模仿目標(biāo)說(shuō)話人,生成即使是人類也很難區(qū)分的語(yǔ)聲。基于深度學(xué)習(xí)的最新語(yǔ)聲合成研究成果包括Tacotron和Tacotron2框架、百度AI 研發(fā)的Deep Voice、谷歌Deepmind 提出的Wavenet 技術(shù)、科大訊飛語(yǔ)聲合成系統(tǒng)等。嫌疑人利用這些技術(shù)合成語(yǔ)聲開(kāi)展電信詐騙等違法犯罪活動(dòng)的比例逐年上升,對(duì)人民財(cái)產(chǎn)安全、社會(huì)穩(wěn)定構(gòu)成了嚴(yán)重威脅?,F(xiàn)有的傳統(tǒng)司法語(yǔ)聲鑒定技術(shù)在開(kāi)展合成語(yǔ)聲檢驗(yàn)時(shí)難度較大,難以出具鑒定意見(jiàn)。但由于人對(duì)語(yǔ)聲的感知是非常多樣化的,考慮到計(jì)算機(jī)受限于目前人工智能技術(shù)和硬件運(yùn)算能力,只能通過(guò)部分參數(shù)在一定程度上對(duì)人類真實(shí)語(yǔ)聲的聲學(xué)特性進(jìn)行感知,使得通過(guò)語(yǔ)聲合成技術(shù)生成的語(yǔ)聲在聲學(xué)特性上仍與真實(shí)語(yǔ)聲存在著一定距離。因此,研究合成語(yǔ)聲識(shí)別的技術(shù)存在可行性。目前的主流研究趨勢(shì)[1]是通過(guò)設(shè)計(jì)和改進(jìn)語(yǔ)聲特征,以找到能夠較好表征出合成語(yǔ)聲和真實(shí)語(yǔ)聲間差異性的參數(shù),實(shí)現(xiàn)有效識(shí)別合成語(yǔ)聲的目的。
現(xiàn)有的語(yǔ)聲特征研究成果豐富[2],主要可分為倒譜系數(shù)特征、相位特征、幅度值特征、長(zhǎng)時(shí)特征、子帶特征,分別是根據(jù)在語(yǔ)聲合成的過(guò)程中短時(shí)內(nèi)頻率變化、相位、幅度特性差異,長(zhǎng)時(shí)內(nèi)語(yǔ)聲信息差異和頻帶中的部分特性差異所提出的一系列特征,主要如下。
Davis 等[3]提出,在以人對(duì)頻率的聽(tīng)覺(jué)感知曲線梅爾刻度的基礎(chǔ)上,設(shè)計(jì)得到梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)。在此基礎(chǔ)上,不同的研究人員設(shè)計(jì)了不同的MFCC改進(jìn)特征,如Chettri 等[4]提出的逆梅爾頻率倒譜系數(shù)(Inverted Mel-frequency cepstral coefficients,IMFCC)等。類似于MFCC,還有利用線性的三角濾波器組對(duì)語(yǔ)聲做出處理后,再求取對(duì)數(shù)的倒譜系數(shù),得到線性頻率倒譜系數(shù)特征(Linear frequency cepstral coefficients,LFCC),由于LFCC在語(yǔ)聲高頻區(qū)域可能具有更好的分辨率,其已被證實(shí)擁有較好性能。Hanilci[5]提出從線性預(yù)測(cè)殘差分析信號(hào)中提取出幅值和相位,得到線性預(yù)測(cè)殘差相位函數(shù)(Linear prediction residual phase,LPResPhase)、線性預(yù)測(cè)殘余希爾伯特包絡(luò)倒譜系數(shù)(Linear prediction residual Hilbert envelope cepstral coefficients,LPRHEC)以及線性預(yù)測(cè)殘余相位層系數(shù)(Linear prediction residual phase cepstral coefficients,LPRPC)特征,用于合成語(yǔ)聲識(shí)別,在ASVspoof2015 數(shù)據(jù)集上取得了較好性能。Sanchez等[6]提出利用相位信息開(kāi)展對(duì)合成語(yǔ)聲的檢測(cè)工作,使用相對(duì)相位偏移(Relative phase shift,RPS)特征實(shí)現(xiàn)了合成語(yǔ)聲的檢測(cè)。除此之外,相位特征還包括群延遲特征(Group delay,GD)、修正群延遲倒譜系數(shù)(Modified group delay cepstral coefficients,MGDCC)、基帶相位差(Baseband phase difference,BPD)等。Tian 等[7]綜合比對(duì)了這些相位特征在合成語(yǔ)聲識(shí)別任務(wù)中的性能,證實(shí)了相位特征的有效性。Todisco 等[8]提出利用基于長(zhǎng)時(shí)常數(shù)Q 變換的倒譜系數(shù)(Constant-Q cepstral coefficients,CQCC)特征,該特征是研究者針對(duì)偽造語(yǔ)聲識(shí)別領(lǐng)域所專門設(shè)計(jì)的特征,其能更密切地反映出人對(duì)聲音感知程度,提取過(guò)程是通過(guò)對(duì)語(yǔ)聲信號(hào)采樣恒Q變換(Constant-Q transform,CQT)后,再求對(duì)數(shù)得到倒譜系數(shù)所得到的。在CQCC 特征的基礎(chǔ)上,Yang 等[9]研究提出倒倍頻常數(shù)Q 系數(shù)和倒倍頻常數(shù)Q 倒倍頻系數(shù)來(lái)進(jìn)一步優(yōu)化CQCC特征。Das 等[10]驗(yàn)證了基于CQT 的擴(kuò)展恒Q 倒譜系數(shù)(extended constant-Q cepstral coefficients,eCQCC)、常數(shù)Q 統(tǒng)計(jì)量加主信息系數(shù)(Constant-Q statistics-plus-principal information coefficients,CQSPIC)特征的性能優(yōu)于CQCC 特征。子帶特征指的是通過(guò)對(duì)頻帶中的一部分展開(kāi)變換所得到的特征。主要包括子帶頻譜質(zhì)心幅度系數(shù)(Spectral centroid magnitude coefficients,SCMC)、子帶質(zhì)心頻率系數(shù)(Subband centroid frequency coefficients,SCFC)等。2020 年,Yang 等[11]提出的恒Q 等子帶變換(Constant-Q equal subband transform,CQEST)、恒Q 倍頻程子帶變換(CQ-OST)和離散傅里葉梅爾子帶變換(Discrete Fourier Mel subband transform,DF-MST),并在ASVspoof2019 LA數(shù)據(jù)集上取得了較好的效果,這證明了子帶特征也適用于合成語(yǔ)聲識(shí)別領(lǐng)域。Laskowski 等[12]提出基頻變化率(Fundamental frequency variation,FFV)特征用于說(shuō)話人識(shí)別領(lǐng)域。Monisankha等[13]將其應(yīng)用于合成語(yǔ)聲識(shí)別上,取得了較好的效果。
上述為目前研究領(lǐng)域主流特征,大部分是針對(duì)合成語(yǔ)聲短時(shí)內(nèi)頻率、幅度、相位和長(zhǎng)時(shí)內(nèi)語(yǔ)聲信息、部分頻帶特性5 個(gè)方面進(jìn)行設(shè)計(jì)和持續(xù)改進(jìn)的。但是由于目前計(jì)算機(jī)對(duì)于人類語(yǔ)聲的感知學(xué)習(xí)能力是有限的,現(xiàn)有成果針對(duì)合成語(yǔ)聲的聲學(xué)特性表現(xiàn)研究較少,針對(duì)合成語(yǔ)聲同真實(shí)語(yǔ)聲在聽(tīng)感上存在的韻律平淡、自然度欠缺的特點(diǎn)所設(shè)計(jì)的特征較少,且不同特征間的融合探索還可以進(jìn)一步加強(qiáng)。
本節(jié)通過(guò)剖析比對(duì)合成語(yǔ)聲同真實(shí)語(yǔ)聲在聲學(xué)特性上的差異,開(kāi)展聲學(xué)分析,從而證實(shí)兩者差異是可通過(guò)聲學(xué)特性進(jìn)行體現(xiàn)的。
本文通過(guò)使用語(yǔ)聲學(xué)分析軟件Praat 對(duì)比計(jì)算機(jī)合成的語(yǔ)聲、人類真實(shí)語(yǔ)聲的各項(xiàng)聲學(xué)特性,生成相關(guān)圖表,分析數(shù)據(jù)上的差異,從而找到可用以區(qū)分合成語(yǔ)聲和真實(shí)語(yǔ)聲的依據(jù)。其中真實(shí)語(yǔ)聲來(lái)自于TESS數(shù)據(jù)集[14],合成語(yǔ)聲來(lái)自于利用Jia等[15]提出的說(shuō)話人風(fēng)格遷移的方法和SV2TTS 模型在真實(shí)語(yǔ)聲的基礎(chǔ)上進(jìn)行合成。兩者在語(yǔ)義信息、說(shuō)話人聲音特點(diǎn)上保持了一致。
研究具體過(guò)程如圖1 所示。首先在語(yǔ)聲數(shù)據(jù)集中選取出真實(shí)語(yǔ)聲;隨后提取出真實(shí)語(yǔ)聲的文本信息與說(shuō)話人聲音特點(diǎn),融入至用于語(yǔ)聲合成的神經(jīng)網(wǎng)絡(luò)模型中,得到滿足比對(duì)條件的合成語(yǔ)聲和真實(shí)語(yǔ)聲樣本;再依次通過(guò)不同的軟件進(jìn)行語(yǔ)聲標(biāo)注、數(shù)據(jù)提取、繪制圖表,得到聲學(xué)特性的數(shù)據(jù)統(tǒng)計(jì)結(jié)果;最后經(jīng)過(guò)分析,得到結(jié)論。
圖1 聲學(xué)研究流程Fig.1 The process of acoustic research
對(duì)合成語(yǔ)聲與真實(shí)語(yǔ)聲的基頻、聲強(qiáng)、窄帶頻譜圖3 類聲學(xué)特性進(jìn)行比對(duì)以及結(jié)果分析,其中真實(shí)語(yǔ)聲包含中性、憤怒、恐懼、開(kāi)心、悲傷5 種情感。這是因?yàn)槿祟愅窃诓煌楦袪顟B(tài)下進(jìn)行發(fā)聲的,使用不同的情感語(yǔ)聲將能更全面地代表人類語(yǔ)聲的真實(shí)發(fā)聲情況。分別提取90 條合成語(yǔ)聲與90條真實(shí)語(yǔ)聲中的基頻和聲強(qiáng)數(shù)據(jù),求取均值和方差值的總體均值,統(tǒng)計(jì)結(jié)果如圖2、圖3所示。
圖2 合成與真實(shí)語(yǔ)聲的基頻、聲強(qiáng)均值及方差數(shù)據(jù)統(tǒng)計(jì)圖Fig.2 The statistical graph of the mean and variance data of the fundamental frequency and speech intensity of the synthetic and real speech
圖3 合成語(yǔ)聲與真實(shí)語(yǔ)聲窄帶頻譜比對(duì)圖Fig.3 The comparison of narrowband spectrogram of synthetic and real speech
總結(jié)合成語(yǔ)聲與真實(shí)語(yǔ)聲在聲學(xué)特性中的表現(xiàn)差異如下:
(1) 基頻。由圖2(a)可見(jiàn):合成語(yǔ)聲的基頻均值約為170.75 Hz,而真實(shí)語(yǔ)聲的基頻均值約為257.98 Hz;合成語(yǔ)聲基頻方差值約為44.57,真實(shí)語(yǔ)聲基頻方差值卻為1849.83。對(duì)比之下,可見(jiàn)真實(shí)語(yǔ)聲基頻均值和方差值均大于合成語(yǔ)聲,其中方差值要遠(yuǎn)大于合成語(yǔ)聲。這是因?yàn)槿祟愓鎸?shí)語(yǔ)聲往往會(huì)受多方面影響而起伏波動(dòng),比如在某些激烈的情緒條件下,聲調(diào)變化程度也會(huì)加劇,使得基頻方差要明顯大于合成語(yǔ)聲。因此,可利用聲調(diào)的變化程度作為區(qū)分合成語(yǔ)聲與真實(shí)語(yǔ)聲的可靠依據(jù)之一。
(2) 聲強(qiáng)。由圖2(b)可見(jiàn):合成語(yǔ)聲的聲強(qiáng)均值約為83.06 dB,真實(shí)語(yǔ)聲的聲強(qiáng)均值約為83.06 dB。對(duì)比之下,可見(jiàn)真實(shí)語(yǔ)聲聲強(qiáng)均值小于合成語(yǔ)聲,聲強(qiáng)方差值要大于合成語(yǔ)聲。這是因?yàn)檎鎸?shí)語(yǔ)聲往往節(jié)奏多變,致使語(yǔ)聲能量起伏輸出、方差較大。但是語(yǔ)聲的強(qiáng)度大小可受到聲源設(shè)備等非語(yǔ)聲自身因素決定,并非合成語(yǔ)聲與真實(shí)語(yǔ)聲的根本性差異。由此可知,可利用語(yǔ)聲聲強(qiáng)的變化程度作為區(qū)分合成語(yǔ)聲與真實(shí)語(yǔ)聲的可靠依據(jù)之一。
(3) 窄帶頻譜圖。由文獻(xiàn)[16]以及圖3 可見(jiàn):合成語(yǔ)聲3000 Hz 以上頻率的諧波存在著明顯缺失,諧波總體形態(tài)平直無(wú)傾斜,韻頭走向僅存在微小的彎曲,韻尾走向平直,音節(jié)過(guò)渡區(qū)域幾乎沒(méi)有抖動(dòng),見(jiàn)圖3(a)中藍(lán)色方框中無(wú)黑色實(shí)線;中性語(yǔ)聲諧波整體形態(tài)近乎平直,韻頭、韻尾均有微小的彎曲,傾角較小,在音節(jié)過(guò)渡區(qū)域可見(jiàn)明顯但幅度較小的抖動(dòng),見(jiàn)圖3(b)藍(lán)色方框中線條彎曲;悲傷語(yǔ)聲整體形態(tài)呈直線下降趨勢(shì),韻頭、韻尾走向有些許彎曲,過(guò)渡區(qū)域的抖動(dòng)較小,見(jiàn)圖3(d)藍(lán)色方框中線條起伏彎曲;恐懼、開(kāi)心、憤怒語(yǔ)聲可見(jiàn)整體形態(tài)存在著明顯的、不同程度的傾斜和彎曲,呈下降趨勢(shì),韻頭韻尾彎曲明顯且程度大,音節(jié)過(guò)渡區(qū)域存在明顯較大抖動(dòng),見(jiàn)圖3(c)、圖3(e)、圖3(f)藍(lán)色方框中線條為曲線,且彎曲程度大。
由上述比對(duì)結(jié)果可知:在窄帶頻譜圖諧波形態(tài)方面,真實(shí)語(yǔ)聲較合成語(yǔ)聲的整體彎曲、傾斜程度更大,韻頭韻尾彎曲程度明顯更大,過(guò)渡區(qū)域的抖動(dòng)范圍更大。因此,頻譜圖中反映的諧波形態(tài)、頻譜分布寬泛程度可作為區(qū)分合成語(yǔ)聲與真實(shí)語(yǔ)聲的可靠依據(jù)之一。
表征聲學(xué)特性的數(shù)據(jù)需進(jìn)一步量化為聲學(xué)特征輸入至構(gòu)造的深度學(xué)習(xí)模型中,才能讓機(jī)器實(shí)現(xiàn)自動(dòng)化識(shí)別合成語(yǔ)聲。本節(jié)針對(duì)聲學(xué)比對(duì)結(jié)果,對(duì)不同的聲學(xué)特性差異開(kāi)展了特征量化,設(shè)計(jì)選用不同的聲學(xué)特征及其結(jié)合開(kāi)展實(shí)驗(yàn),以驗(yàn)證性能。
特征化聲學(xué)特性的步驟是:(1) 依據(jù)聲學(xué)實(shí)驗(yàn)結(jié)果得到所需數(shù)據(jù);(2) 依據(jù)數(shù)據(jù)特點(diǎn),設(shè)計(jì)特定算法;(3) 利用特定算法處理聲學(xué)數(shù)據(jù);(4) 對(duì)數(shù)據(jù)進(jìn)行變換,突出高價(jià)值部分。最終表征出對(duì)合成語(yǔ)聲識(shí)別任務(wù)具有針對(duì)性的特征。
本文設(shè)計(jì)了均方根角(Root mean square angle,RMSA)特征,一種能夠反映聲強(qiáng)變化程度的聲學(xué)特征。選取能夠反映出基頻變化程度、語(yǔ)聲頻譜特性的聲學(xué)特征,分別為FFV 特征、語(yǔ)聲窄帶頻譜圖(Speech narrowband spectrogram,SNS)特征。其中RMSA與FFV特征為時(shí)域特征,包含時(shí)序信息;SNS 特征為頻域特征,包含頻譜信息。進(jìn)一步結(jié)合3種特征,將能更加適用于合成語(yǔ)聲識(shí)別任務(wù)。
2.1.1 RMSA特征
本文提出RMSA特征的具體過(guò)程如下:
(1) 語(yǔ)聲數(shù)據(jù)獲取。輸入語(yǔ)聲,經(jīng)過(guò)16000 Hz采樣和8位量化提取語(yǔ)聲數(shù)字信號(hào)。
(2)計(jì)算語(yǔ)聲均方根(Root mean square,RMS)能量。首先對(duì)語(yǔ)聲信號(hào)進(jìn)行分幀處理,其中每幀包含2048 個(gè)采樣點(diǎn),幀與幀間的重疊部分包含512 個(gè)采樣點(diǎn),再計(jì)算每幀語(yǔ)聲信號(hào)RMS能量,如公式(1)所示:
(3) 向量化輸入數(shù)據(jù)。為使一維時(shí)序型數(shù)據(jù)變換為二維數(shù)據(jù),向原數(shù)據(jù)中加入時(shí)間點(diǎn)數(shù)據(jù)作為維度一,維度二為該點(diǎn)的數(shù)值。
(4) 計(jì)算相鄰向量間的余弦距離,如公式(2)所示:
(5) 最后根據(jù)計(jì)算的余弦距離d,得出夾角余弦值,利用反余弦函數(shù)計(jì)算對(duì)應(yīng)的夾角度數(shù),得到RMSA 特征,計(jì)算過(guò)程表示如公式(3)所示:
本文通過(guò)利用RMS 能量的計(jì)算方式作為特定處理算法表征聲強(qiáng),能夠更為準(zhǔn)確地表征出語(yǔ)聲信號(hào)的真實(shí)強(qiáng)度大小,有利于提取出周期性變化的語(yǔ)聲信號(hào)的每一幀能量,而每一幀的語(yǔ)聲能量有效值則能夠較好地表征出信號(hào)在較短時(shí)間段內(nèi)的能量大小。圖4為語(yǔ)聲信號(hào)的RMS能量可視化??梢?jiàn)經(jīng)過(guò)計(jì)算RMS 能量值大小,將語(yǔ)聲信號(hào)的起伏程度以數(shù)值上變化的形式有效表征出來(lái),為下一步提取聲強(qiáng)變化率提供了計(jì)算條件。
圖4 RMS 能量可視化Fig.4 RMS energy visualization
為量化合成語(yǔ)聲與真實(shí)語(yǔ)聲的聲強(qiáng)的變化程度不同,本文進(jìn)一步計(jì)算了相鄰RMS 能量數(shù)據(jù)間的余弦?jiàn)A角,如圖5 所示。這樣做可以提高數(shù)據(jù)精細(xì)度,放大相鄰數(shù)據(jù)差異大的部分,縮小差異小的部分,降低數(shù)據(jù)的平滑度,從而增強(qiáng)數(shù)據(jù)的特點(diǎn)。這是因?yàn)樽匀徽Z(yǔ)聲在發(fā)聲過(guò)程中,往往是起伏較大、律感十足的,劇烈波動(dòng)對(duì)聲強(qiáng)的影響往往較大,相鄰向量間的夾角度數(shù)擴(kuò)大的程度較大,而合成語(yǔ)聲的聲強(qiáng)則會(huì)偏于平穩(wěn)發(fā)聲,這使得兩個(gè)相鄰向量之間的夾角變化較小。因此經(jīng)過(guò)計(jì)算得到兩個(gè)相鄰向量間的夾角大小,可以用以衡量數(shù)據(jù)點(diǎn)之間的差值大小,可以量化語(yǔ)聲在聲強(qiáng)聲學(xué)特性上體現(xiàn)的起伏程度。由圖5 可見(jiàn),下個(gè)時(shí)間點(diǎn)的數(shù)值較當(dāng)前時(shí)間點(diǎn)的增加得越多,則兩者夾角α越大,并且?jiàn)A角的增幅越大。
圖5 RMSA 特征余弦?jiàn)A角示意圖Fig.5 Diagram of RMSA feature cosine angle
通過(guò)提取語(yǔ)聲信號(hào)能量有效值,并量化相鄰兩幀的差異,在一定程度上可以反映出語(yǔ)聲的聲學(xué)特性情況和說(shuō)話人發(fā)音時(shí)的狀態(tài)。因此提取語(yǔ)聲的RMSA 特征表征聲強(qiáng)變化程度可以從語(yǔ)聲聲學(xué)特性的角度,提取出聲強(qiáng)的即時(shí)變化情況,進(jìn)而有利于區(qū)分合成語(yǔ)聲和真實(shí)語(yǔ)聲,有助于提高合成語(yǔ)聲自動(dòng)化識(shí)別的準(zhǔn)確率。
2.1.2 FFV和SNS特征
(1) FFV特征。使用韻律學(xué)特征中的FFV特征表示了逐幀間的基音頻率瞬時(shí)變化的情況,能夠較好體現(xiàn)聲學(xué)上的聲調(diào)起伏程度,又能較好地適用于合成語(yǔ)聲識(shí)別任務(wù),將有助于區(qū)分合成語(yǔ)聲和真實(shí)語(yǔ)聲。
(2) SNS特征。SNS在頻率上的分辨能力高,相比寬帶頻譜圖,其包含的諧波結(jié)構(gòu)及形態(tài)走向更加清晰明了。兩者本質(zhì)上是同種變換不同參數(shù)下的結(jié)果。因此,本文直接提取SNS特征,利用機(jī)器直接學(xué)習(xí)和識(shí)別輸入的窄帶頻譜圖像,將能比較直觀地學(xué)習(xí)到合成語(yǔ)聲與真實(shí)語(yǔ)聲的頻譜特性差異情況,相較于寬帶頻譜有著更為高效、直觀的優(yōu)點(diǎn)。
通過(guò)比對(duì)目前合成語(yǔ)聲識(shí)別領(lǐng)域前沿特征,開(kāi)展合成語(yǔ)聲識(shí)別實(shí)驗(yàn)和消融實(shí)驗(yàn),通過(guò)設(shè)置對(duì)照實(shí)驗(yàn)特征及模型,與本文所提和使用的特征在同一模型下的表現(xiàn)性能進(jìn)行比對(duì),從而得出特征化聲學(xué)特性得到的聲學(xué)特征在區(qū)分合成語(yǔ)聲任務(wù)中的表現(xiàn)情況,用以證明聲學(xué)特征的有效性,進(jìn)一步驗(yàn)證特征的針對(duì)合成語(yǔ)聲識(shí)別任務(wù)的性能。
本實(shí)驗(yàn)使用的數(shù)據(jù)集為FoR[17]:Fake or Real合成語(yǔ)聲數(shù)據(jù)集的2 s 語(yǔ)聲標(biāo)準(zhǔn)版。該數(shù)據(jù)集使用了最新的開(kāi)源語(yǔ)聲合成(Text-to-speech,TTS)系統(tǒng)包括百度的Deep voice3、谷歌云Wavenet、亞馬遜AWS Polly、微軟Azure TTS 系統(tǒng)等,對(duì)選取的特殊短語(yǔ)文本生成聲頻文件;收集了來(lái)自Arctic、LJSpeech、VoxForge三個(gè)開(kāi)源數(shù)據(jù)集和Youtube 視頻播放平臺(tái)上的語(yǔ)聲作為數(shù)據(jù)集中真實(shí)語(yǔ)聲的來(lái)源。訓(xùn)練集包含的合成語(yǔ)聲、真實(shí)語(yǔ)聲均為8391 條語(yǔ)句,總共16782 條語(yǔ)句,驗(yàn)證集包含2826 條語(yǔ)句,測(cè)試集中包含1088 條語(yǔ)句并且增加了一種訓(xùn)練和驗(yàn)證集中沒(méi)有的語(yǔ)聲合成方法,用以測(cè)試實(shí)驗(yàn)?zāi)P秃吞卣鞯姆夯阅堋?/p>
本實(shí)驗(yàn)使用的評(píng)價(jià)指標(biāo)為等錯(cuò)誤率(Equal error rate,EER)[18],即錯(cuò)誤接受率(False accept rate,FAR)和錯(cuò)誤拒絕率(False rejection rate,FRR)相等時(shí)的數(shù)值。其數(shù)值越小,代表性能越好,分類錯(cuò)誤出現(xiàn)得更少。
實(shí)驗(yàn)工具包括Keras、tensorflow 深度學(xué)習(xí)框架、sklearn 機(jī)器學(xué)習(xí)工具庫(kù)、librosa 聲頻數(shù)據(jù)處理庫(kù)、spafe 語(yǔ)聲特征提取庫(kù)、numba 開(kāi)源編譯器工具庫(kù)。實(shí)驗(yàn)運(yùn)行環(huán)境:操作系統(tǒng)為windows 10專業(yè)版,圖形運(yùn)算顯卡為Nvidia Tesla V100-SXM2 32 GB。
為保證能夠在相同的變量條件下開(kāi)展對(duì)照實(shí)驗(yàn),在實(shí)驗(yàn)?zāi)P蜕细鶕?jù)特征的類型選擇不同的深度神經(jīng)網(wǎng)絡(luò)模型,以保證聲學(xué)特征和對(duì)比特征在同一模型中開(kāi)展的同時(shí),保證識(shí)別模型的性能。
(1) 時(shí)序型特征識(shí)別模型。針對(duì)以時(shí)間序列上排序?yàn)橹匾匦缘腞MSA 特征、FFV 特征,將使用適用于合成語(yǔ)聲識(shí)別任務(wù)的包含5 層隱藏層、每層2048 個(gè)神經(jīng)元的深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)模型。
(2) 譜圖型特征識(shí)別模型。針對(duì)主要以頻譜圖像為形式的SNS 特征,將使用包含兩層64 個(gè)3×3的卷積核、兩層匯聚層的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)模型,對(duì)特征分類學(xué)習(xí)。使用該模型連接全連接層,實(shí)現(xiàn)二分類輸出為合成或者真實(shí)標(biāo)簽。
(3) 融合特征識(shí)別模型。特征融合的方法是通過(guò)使用DNN、CNN 模型對(duì)聲學(xué)特征數(shù)據(jù)進(jìn)行深度向量表示后,利用Concat 層融合,一同輸入至全連接層進(jìn)行二分類輸出。融合特征識(shí)別模型結(jié)構(gòu)如圖6所示。
圖6 融合特征識(shí)別模型結(jié)構(gòu)圖Fig.6 Structure diagram of fusion feature recognition model
模型的訓(xùn)練具體參數(shù)設(shè)置為:使用Adam 優(yōu)化器,學(xué)習(xí)率初始化為3×10-4,損失函數(shù)使用二值交叉熵函數(shù)。為避免過(guò)擬合,當(dāng)訓(xùn)練過(guò)程中損失不再下降超過(guò)5 輪時(shí),學(xué)習(xí)率縮小10 倍。訓(xùn)練批次大小為128,訓(xùn)練周期為60輪。
3.3.1 RMSA、FFV特征有效性驗(yàn)證實(shí)驗(yàn)
為驗(yàn)證本文設(shè)計(jì)的特征在合成語(yǔ)聲識(shí)別任務(wù)上的有效性以及優(yōu)化性能,開(kāi)展消融實(shí)驗(yàn),進(jìn)一步對(duì)比本文所選用和設(shè)計(jì)的聲學(xué)特征在合成語(yǔ)聲識(shí)別領(lǐng)域的適用性,將提取RMS特征、RMS 差分特征比對(duì)本文設(shè)計(jì)的RMSA 特征識(shí)別性能;提取Pitch(基頻)特征、Pitch 差分特征比對(duì)FFV 特征識(shí)別性能,在相同的DNN 模型下進(jìn)行測(cè)試,EER 指標(biāo)如表1所示。
表1 RMSA、FFV 和對(duì)比特征的實(shí)驗(yàn)結(jié)果Table 1 Experimental results of RMSA,FFV and comparison features
由驗(yàn)證集實(shí)驗(yàn)結(jié)果可見(jiàn),6 種特征都能實(shí)現(xiàn)在一定程度上識(shí)別合成語(yǔ)聲,其中對(duì)照設(shè)置的RMS、Pitch 特征在模型中的識(shí)別效果則分別為25.2%、27.8%。這表明提取出語(yǔ)聲的聲強(qiáng)、基頻聲學(xué)特性,并且利用其開(kāi)展區(qū)分合成語(yǔ)聲與真實(shí)語(yǔ)聲是可行的。差分特征能夠?qū)崿F(xiàn)一定程度的識(shí)別效果,改進(jìn)的RMSA和FFV特征優(yōu)于差分特征。
由測(cè)試集實(shí)驗(yàn)結(jié)果可見(jiàn),RMSA 特征、FFV 特征的EER 為28.6%、43.8%,識(shí)別效果最佳。這表明本文使用的RMSA特征、FFV特征分別能在一定程度上對(duì)合成語(yǔ)聲進(jìn)行識(shí)別的基礎(chǔ)上,對(duì)于訓(xùn)練集中沒(méi)有學(xué)習(xí)過(guò)的語(yǔ)聲合成算法的泛化識(shí)別性能更好。
通過(guò)對(duì)比上述實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):RMSA 特征在驗(yàn)證集中的性能略差于RMS 特征,優(yōu)于RMS 差分特征,在測(cè)試集中的性能卻同時(shí)好于RMS特征和RMS差分特征。這是因?yàn)槟P屯ㄟ^(guò)學(xué)習(xí)RMS特征,學(xué)習(xí)到了聲強(qiáng)的數(shù)值大小,利用聲強(qiáng)數(shù)值上的差異也能夠區(qū)分部分合成語(yǔ)聲與真實(shí)語(yǔ)聲,但是表征聲強(qiáng)變化程度的RMSA 特征更為根本性地反映了合成語(yǔ)聲在聲學(xué)特性上與真實(shí)語(yǔ)聲的差異,并進(jìn)一步增強(qiáng)了差異性表現(xiàn)程度,因此模型通過(guò)學(xué)習(xí)RMSA特征將能擁有更好的魯棒性和泛化性能。
FFV 特征則在驗(yàn)證集、測(cè)試集上均優(yōu)于Pitch特征及差分特征,但可以發(fā)現(xiàn)在測(cè)試集中Pitch 特征識(shí)別合成語(yǔ)聲失敗,且Pitch 差分特征和FFV 特征的EER 也明顯提高,證明在面對(duì)新算法的干擾時(shí),利用基頻特性開(kāi)展合成語(yǔ)聲識(shí)別的魯棒性要差于聲強(qiáng)特性。因此,可見(jiàn)通過(guò)提取RMSA特征、FFV特征實(shí)現(xiàn)合成語(yǔ)聲的識(shí)別,反映出本文所設(shè)計(jì)的算法能較好地表征出語(yǔ)聲聲學(xué)特性的特點(diǎn)的同時(shí),也證明利用聲強(qiáng)、基頻的變化程度差異,區(qū)分合成語(yǔ)聲與真實(shí)語(yǔ)聲是可行的且性能較好。
3.3.2 SNS特征有效性驗(yàn)證實(shí)驗(yàn)
為對(duì)比SNS 特征,選擇基于語(yǔ)聲頻譜數(shù)據(jù)為基礎(chǔ)進(jìn)行變換得到的特征,分別為MFCC、Mel-Spectrogram、CQT、LFCC 特征。以上4 種對(duì)比特征均是在語(yǔ)聲頻譜數(shù)據(jù)的基礎(chǔ)上設(shè)計(jì)應(yīng)用不同的算法得到的特征,是目前合成語(yǔ)聲識(shí)別領(lǐng)域性能較好、應(yīng)用較多、設(shè)計(jì)較為前沿的特征,在欺騙性語(yǔ)聲識(shí)別大賽上均能取得較好的實(shí)驗(yàn)效果。同時(shí)提取了寬帶頻譜圖中的Formants(共振峰)特征來(lái)對(duì)比SNS特征。
通過(guò)采用相同的CNN 模型分別對(duì)SNS 特征以及Formants、MFCC、Mel-spectrogram、CQT、LFCC 特征進(jìn)行對(duì)比實(shí)驗(yàn),以發(fā)現(xiàn)本文使用的SNS特征化頻譜聲學(xué)特性的方法對(duì)合成語(yǔ)聲識(shí)別任務(wù)的適用性,驗(yàn)證所設(shè)計(jì)語(yǔ)聲的特征的有效性。根據(jù)結(jié)果計(jì)算的EER指標(biāo)如表2所示。
表2 SNS 和對(duì)比特征的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of SNS and comparison features
由驗(yàn)證集實(shí)驗(yàn)結(jié)果可見(jiàn),SNS 特征與對(duì)比特征都能識(shí)別合成語(yǔ)聲。其中SNS 特征、Formants特征、MFCC特征、Mel-spectrogram特征、CQT特征、LFCC 特征的EER 分別達(dá)到了1.2%、3.9%、2.0%、4.5%、7.4%、1.5%。這表明利用頻譜特性為基礎(chǔ)的聲學(xué)特征能夠使模型學(xué)習(xí)到合成語(yǔ)聲與真實(shí)語(yǔ)聲之間的差異,并且SNS特征在驗(yàn)證集中的性能最優(yōu)。
由測(cè)試集實(shí)驗(yàn)結(jié)果可見(jiàn),同為頻譜變換得到的SNS 特征和對(duì)比特征在相同的網(wǎng)絡(luò)模型下,得到的EER 分別為13.4%、19.6%、26.3%、20.1%、13.8%、20.8%,其中SNS 特征EER 明顯最低。這表明本文使用的SNS 特征對(duì)于訓(xùn)練集中沒(méi)有學(xué)習(xí)過(guò)的語(yǔ)聲合成算法同樣保持著較好的識(shí)別性能,泛化性能更好。
通過(guò)對(duì)比上述實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):SNS 特征在驗(yàn)證集和測(cè)試集當(dāng)中的識(shí)別性能是最佳的。這是因?yàn)镾NS 特征表征的SNS 中包含了大量語(yǔ)聲頻譜聲學(xué)特性,當(dāng)CNN 模型利用該特性開(kāi)展合成語(yǔ)聲識(shí)別時(shí),能更加直觀地學(xué)習(xí)到諧波形態(tài)與分布寬泛程度的差異,優(yōu)于寬帶頻譜圖中Formants(共振峰)以及其他特征對(duì)于頻譜特性的表達(dá)方法。因此,可見(jiàn)通過(guò)提取SNS 特征能夠?qū)崿F(xiàn)合成語(yǔ)聲的識(shí)別,在表征出合成語(yǔ)聲與真實(shí)語(yǔ)聲頻譜聲學(xué)特性差異的同時(shí),也證明利用該差異區(qū)分合成語(yǔ)聲與真實(shí)語(yǔ)聲是可行的且性能較好。
3.3.3 RMSA、FFV、SNS融合特征消融實(shí)驗(yàn)
通過(guò)采用DNN 模型分別對(duì)RMSA、FFV 特征進(jìn)行深度向量表征,采用CNN 模型對(duì)SNS 特征進(jìn)行深度向量表示,以融合特征化聲學(xué)特性的聲學(xué)特征。將三者的融合特征與消融后的單個(gè)特征進(jìn)行對(duì)比,分析融合過(guò)程對(duì)最終的合成語(yǔ)聲識(shí)別所帶來(lái)的影響,驗(yàn)證融合特征的有效性。根據(jù)結(jié)果計(jì)算的EER指標(biāo)如表3所示。
表3 RMSA、FFV、SNS 融合特征的消融實(shí)驗(yàn)結(jié)果Table 3 Results of ablation experiments of RMSA,FFV and SNS fusion features
通過(guò)對(duì)比可以發(fā)現(xiàn):3 類特征融合后在驗(yàn)證集和測(cè)試集上表現(xiàn)最佳。這是因?yàn)椴煌穆晫W(xué)特征之間,存在著同質(zhì)和異質(zhì)之差的部分。特征數(shù)據(jù)內(nèi)部不同部分對(duì)目標(biāo)任務(wù)的價(jià)值高低也不盡相同。通過(guò)模型深度表示的方法對(duì)特征進(jìn)行融合,可以相互補(bǔ)足異質(zhì)有價(jià)值的數(shù)據(jù)、強(qiáng)化共有的同質(zhì)關(guān)鍵數(shù)據(jù)以及弱化異質(zhì)冗余數(shù)據(jù)。同時(shí),證明了本文使用的3種聲學(xué)特征之間的信息冗余較少,不同特征之間可以相互補(bǔ)充,使得融合后的數(shù)據(jù)信息價(jià)值更高。因此,通過(guò)利用RMSA、FFV、SNS 的融合特征開(kāi)展合成語(yǔ)聲識(shí)別是有效的,3 種特征之間包含著異質(zhì)高價(jià)值數(shù)據(jù),可以進(jìn)一步降低EER,提升模型的識(shí)別性能。
3.3.4 RMSA、FFV、SNS 以及融合特征的損失變化曲線對(duì)比分析
在驗(yàn)證集下的特征損失曲線變化如圖7 所示??梢园l(fā)現(xiàn),圖7(a)中訓(xùn)練曲線和驗(yàn)證損失曲線在前10 個(gè)周期時(shí)下降速度較快,10~30 個(gè)周期內(nèi)緩慢下降,最后大約于第35 個(gè)周期逐漸收斂于平穩(wěn);圖7(b)中訓(xùn)練損失曲線和驗(yàn)證測(cè)試曲線在前10 個(gè)周期內(nèi)下降速度快,10~20 個(gè)周期內(nèi)緩慢下降,驗(yàn)證損失曲線存在波動(dòng),在大約第20 和第22 個(gè)周期時(shí),訓(xùn)練曲線和驗(yàn)證損失曲線開(kāi)始收斂于穩(wěn)定值;由圖7(c)可見(jiàn),訓(xùn)練損失曲線在小于5 個(gè)周期內(nèi)就收斂平穩(wěn),驗(yàn)證損失曲線在經(jīng)過(guò)2~3 次微小波動(dòng)后于大約第12個(gè)周期就開(kāi)始收斂于平穩(wěn);由圖7(d)可見(jiàn),訓(xùn)練曲線和驗(yàn)證損失曲線均在小于5 個(gè)周期內(nèi)就開(kāi)始收斂于平穩(wěn)值,驗(yàn)證曲線僅經(jīng)過(guò)一次驟升劇降,便趨于穩(wěn)定下降。
圖7 單個(gè)特征和融合特征的損失曲線對(duì)比Fig.7 Comparison of loss curves of single features and fused features
通過(guò)分析以上的損失曲線觀察結(jié)果可以發(fā)現(xiàn):當(dāng)將RMSA 特征、FFV 特征和SNS 特征融合輸入至模型中時(shí),模型的訓(xùn)練損失曲線和驗(yàn)證損失曲線下降速度進(jìn)一步提高,起伏減少,穩(wěn)定收斂所需周期進(jìn)一步減小,反映出融合特征性能最佳。這是因?yàn)檫@3 種特征之間信息重復(fù)度較低,經(jīng)過(guò)組合后能夠較好地將合成語(yǔ)聲與真實(shí)語(yǔ)聲區(qū)分開(kāi)來(lái)。進(jìn)一步證實(shí)特征在本質(zhì)上所反映出的是語(yǔ)聲聲學(xué)特性的不同方面,且均有利于合成語(yǔ)聲的識(shí)別,也進(jìn)一步反映出頻譜聲學(xué)特性對(duì)于合成語(yǔ)聲識(shí)別精度的提高是極其重要的。
3.3.5 融合特征與已有研究成果對(duì)比實(shí)驗(yàn)
通過(guò)比對(duì)表4 可以發(fā)現(xiàn):每組特征在不同的后端神經(jīng)網(wǎng)絡(luò)模型中的性能各不一樣。其中在SERes-Net50 的模型下,本文提出的融合特征效果最佳;在SEResNet34 模型下,AFF 特征的效果最佳。除此之外,所提融合特征相比其他特征在不同模型下的表現(xiàn)差異更小,性能更為穩(wěn)定。這是由于所提融合特征的構(gòu)成是來(lái)自于頻譜、基頻、聲強(qiáng)3 個(gè)不同方面,不同特征之間相互補(bǔ)足,所以面對(duì)不同模型均能保持良好性能。融合特征在沒(méi)有SE 模塊的ResNet+DNN 模型下的表現(xiàn)依次優(yōu)于SERes-Net34/SEResNet50+DNN 模型,是因?yàn)镾E 注意力模塊并不能有效聚焦本文所提融合特征中的關(guān)鍵數(shù)據(jù)信息,導(dǎo)致,實(shí)驗(yàn)EER的提高。
表4 RMSA、FFV、SNS 融合特征和已有研究的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of RMSA,FFV,and SNS fusion features and existing studies
由此可見(jiàn),不同的后端分類模型對(duì)特征的性能影響較大。這是因?yàn)椴煌哪P蛯?duì)不同數(shù)據(jù)類型特征的學(xué)習(xí)程度不同,好的模型將能更為充分高效學(xué)習(xí)到關(guān)鍵信息。因此,接下來(lái)將開(kāi)發(fā)適用所提融合特征的深度神經(jīng)網(wǎng)絡(luò)模型,提高特征利用率,進(jìn)一步強(qiáng)化識(shí)別合成語(yǔ)聲的性能。
綜合上述實(shí)驗(yàn)可見(jiàn),基于聲強(qiáng)和基頻的變化程度和語(yǔ)聲頻譜特性數(shù)據(jù)特征化得到的RMSA、FFV、SNS 特征皆可適用于合成語(yǔ)聲識(shí)別任務(wù)。對(duì)比3 種特征性能,在面對(duì)已知算法的數(shù)據(jù)時(shí),三者都擁有較好的性能,能較好地實(shí)現(xiàn)合成語(yǔ)聲的識(shí)別。而面對(duì)訓(xùn)練集中沒(méi)有的新算法干擾時(shí),SNS 特征的泛化性能最優(yōu),RMSA特征其次,F(xiàn)FV特征最差,三者通過(guò)融合后的性能最佳。
為實(shí)現(xiàn)利用聲學(xué)特性實(shí)現(xiàn)合成語(yǔ)聲識(shí)別的目標(biāo),本文著重論述了基于聲學(xué)特性的聲學(xué)特征的提取和設(shè)計(jì)算法,開(kāi)展了深度學(xué)習(xí)實(shí)驗(yàn)驗(yàn)證所提特征的有效性。實(shí)驗(yàn)結(jié)果表明,基于聲強(qiáng)、基頻變化程度和頻譜特性數(shù)據(jù)特征化的RMSA 特征、FFV 特征、SNS 特征模型以及三者的深度融合特征在使用深度學(xué)習(xí)方法進(jìn)行合成語(yǔ)聲識(shí)別任務(wù)中,達(dá)到了較好的分類效果,實(shí)現(xiàn)了合成語(yǔ)聲與真實(shí)語(yǔ)聲的辨別。對(duì)于目前合成語(yǔ)聲識(shí)別領(lǐng)域大量使用頻域特征進(jìn)行識(shí)別的現(xiàn)狀,從聲學(xué)角度進(jìn)行對(duì)語(yǔ)聲差異進(jìn)行分析描述,拓寬了研究思路,形成了較為完備的特征研究過(guò)程,為合成語(yǔ)聲識(shí)別領(lǐng)域提供了不同的特征設(shè)計(jì)方法,為深度學(xué)習(xí)方法提供了前提條件和實(shí)驗(yàn)基礎(chǔ)。
在后續(xù)深化研究的過(guò)程中,將設(shè)計(jì)和使用更優(yōu)的深度神經(jīng)網(wǎng)絡(luò)模型,改進(jìn)深度學(xué)習(xí)方法,針對(duì)所提聲學(xué)特征設(shè)計(jì)優(yōu)化識(shí)別模型結(jié)構(gòu),提高聲學(xué)特征的使用效率,更大程度地發(fā)揮聲學(xué)特征效能。進(jìn)一步拓展研究深度,將能使得合成語(yǔ)聲的識(shí)別更加準(zhǔn)確。