張 霞,劉 乾,郭 倩,梁新彥,錢宇華,暢 江
1(山西大學(xué) 大數(shù)據(jù)科學(xué)與產(chǎn)業(yè)研究院,太原 030006) 2(山西省機(jī)器視覺與數(shù)據(jù)挖掘工程研究中心,太原 030006) 3(山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006)
說話人驗(yàn)證指的是根據(jù)待識(shí)別語(yǔ)音的聲紋特征識(shí)別該段語(yǔ)音是否對(duì)應(yīng)于指定說話人,它是一種自然而有效的生物特征身份認(rèn)證方法,尤其是文本無關(guān)說話人驗(yàn)證[1](Text Independent Speaker Verification,TI-SV),能夠極大的幫助檢索目標(biāo)說話人.目前,其已經(jīng)被廣泛應(yīng)用在語(yǔ)音認(rèn)證[2,3]、語(yǔ)音分離[4-6]以及語(yǔ)音合成[7-9]等領(lǐng)域.一般來說,說話人驗(yàn)證任務(wù)中最重要的工作是構(gòu)造一個(gè)說話人特征提取器,該提取器應(yīng)當(dāng)盡可能地生成具有區(qū)分度的固定維說話人嵌入[10,11].近些年來,隨著大量可供訓(xùn)練數(shù)據(jù)的出現(xiàn),深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)取代傳統(tǒng)說話人識(shí)別方式[12-15]成為了文本無關(guān)說話人驗(yàn)證任務(wù)中最廣泛使用的說話人表征提取模型.
目前,在端到端的深度學(xué)習(xí)說話人識(shí)別中,基于DNN方法的兩種主流模型分別是基于時(shí)延神經(jīng)網(wǎng)絡(luò)[16-18](Time Delay Neural Network,TDNN)的x-vector結(jié)構(gòu)和基于深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的r-vector結(jié)構(gòu).x-vector采用一定空洞率的空洞卷積來提取幀級(jí)特征,接著使用池化層將所有幀級(jí)特征聚合為一個(gè)固定維的向量,最后通過全連接層來提取說話人嵌入.由于深度殘差網(wǎng)絡(luò)[18]對(duì)于識(shí)別深層信息非常有效,Li C[19,20]等人將其應(yīng)用在說話人驗(yàn)證任務(wù)中,命名為r-vector.和x-vector不同,相比于基于TDNN的說話人驗(yàn)證模型,r-vector接受三維特征作為輸入,并采用二維卷積來提取特征,在不同的說話人驗(yàn)證數(shù)據(jù)集上均取得了良好的效果[21-23].盡管在2020VoxSRC[23]挑戰(zhàn)賽后,基于TDNN的ECAPA-TDNN[25]模型在說話人驗(yàn)證任務(wù)中取得了最優(yōu)表現(xiàn),但由于ResNet優(yōu)越的推理速度和不俗的性能在說話人驗(yàn)證任務(wù)中仍占據(jù)主導(dǎo)地位[26-28].
由2021VoxSRC[29]挑戰(zhàn)賽結(jié)果不難看出,隨著不斷對(duì)ResNet層數(shù)加深或者通道加寬,基于ResNet模型的性能仍可與當(dāng)前最優(yōu)說話人驗(yàn)證模型:ECAPA-TDNN性能持平.例如:2021VoxSRC競(jìng)賽中Wang J等人[30]使用ResNet101作為特征提取模型.然而為了追求良好的性能,一味的增加網(wǎng)絡(luò)的深度與寬度,會(huì)導(dǎo)致網(wǎng)絡(luò)優(yōu)化與學(xué)習(xí)的難度增加,這對(duì)于模型之后部署、應(yīng)用以及進(jìn)一步改進(jìn)帶來了巨大的負(fù)擔(dān).為解決上述問題,本文深入分析了ResNet體系架構(gòu),通過對(duì)網(wǎng)絡(luò)重新設(shè)計(jì),促進(jìn)信息在網(wǎng)絡(luò)中的傳播,提出了一個(gè)新的說話人驗(yàn)證模型EIPFD-ResNet,在僅使用7.486M參數(shù)量情況下,取得了目前說話人驗(yàn)證任務(wù)中的最優(yōu)結(jié)果.
本文貢獻(xiàn)主要包括以下3個(gè)方面:
1)提出了新的殘差塊結(jié)構(gòu)與特征圖下采樣方式.本文提出的殘差塊允許訓(xùn)練初期的負(fù)權(quán)值信息通過網(wǎng)絡(luò)以減少信息損失,重新設(shè)計(jì)的下采樣方式保證了下采樣過程中卷積核大小與卷積步長(zhǎng)相同從而避免了引入無意義的特征圖信息.新的殘差塊結(jié)構(gòu)與特征圖下采樣方式顯著改善了說話人信息在網(wǎng)絡(luò)傳播過程中的損失情況和噪聲引入問題,從而提高了說話人信息在網(wǎng)絡(luò)中的傳播效率,使模型在性能提升的同時(shí)加速了收斂.
2)對(duì)生成的說話人嵌入特征規(guī)范化處理.通過改變說話人嵌入空間中的特征分布,使相同個(gè)體的特征更緊湊,不同個(gè)體之間的特征更分散,從而提升說話人分類任務(wù)的性能.
3)為文本無關(guān)說話人驗(yàn)證任務(wù)提供強(qiáng)大的基線模型.
基于殘差網(wǎng)絡(luò)的說話人驗(yàn)證模型主要由說話人表征提取模塊和分類模塊兩部分組成.說話人表征提取模塊包含幀級(jí)特征提取和話語(yǔ)級(jí)特征聚合兩個(gè)部分.幀級(jí)特征提取部分包含4個(gè)階段,每個(gè)階段包含若干殘差塊,各階段中殘差塊分布比例/數(shù)量不同,通常來說,每個(gè)基本殘差塊(ResBlock)包含兩個(gè)權(quán)重層(weight layer)并使用跳躍連接(shortcut)允許信息隔層相加來避免深層網(wǎng)絡(luò)中的退化問題.話語(yǔ)聚合子模塊使用特征聚合層將不同長(zhǎng)度的幀級(jí)說話人特征編碼為固定長(zhǎng)度的話語(yǔ)級(jí)特征[31],通過模型輸出頭將固定長(zhǎng)度說話人特征送入分類模塊,以此訓(xùn)練模型對(duì)說話人嵌入的辨別能力,通常將模型輸出頭后的輸出稱為說話人嵌入(embedding).表1給出了基于ResNet說話人識(shí)別模型結(jié)構(gòu)(T和F分別代表特征圖的時(shí)間維度與頻率維度,(3×3),32,1代表卷積核大小為3×3,通道數(shù)為32,卷積步長(zhǎng)為1的卷積層;BN代表批歸一化層;{ResBlock,32,1}×3代表該階段由3個(gè)通道為32的步長(zhǎng)為1的ResBlock疊加在一起,F(xiàn)C代表全連接層).
鑒于ResNet優(yōu)越的推理速度和不俗的性能,本文以此為基線,展開了不同的改進(jìn)架構(gòu).
為了促進(jìn)信息在網(wǎng)絡(luò)中傳播,提升模型提取說話人嵌入能力.在本節(jié)中分別從基線模型中殘差塊比例、殘差塊結(jié)構(gòu)、特征下采樣方式以及最后的模型輸出頭4個(gè)方面對(duì)原始?xì)埐罹W(wǎng)絡(luò)進(jìn)行重新設(shè)計(jì),分析由此對(duì)說話人驗(yàn)證任務(wù)的影響.出于計(jì)算量與參數(shù)量考慮,最后結(jié)合實(shí)驗(yàn)給出了基于深度殘差網(wǎng)絡(luò)Half-ResNet34(通道數(shù)為原始ResNet34的一半)的更適合于說話人驗(yàn)證任務(wù)的模型EIPFD-ResNet,其整體結(jié)構(gòu)如圖1所示,其中IPBlock、下采樣層和輸出頭具體結(jié)構(gòu)分別見圖2(b)、圖3和圖4(b),表1中給出了EIPFD-ResNet網(wǎng)絡(luò)結(jié)構(gòu).
圖1 EIPDF-ResNet模型整體結(jié)構(gòu)圖Fig.1 Architecture of the EIPDF-ResNet
圖2 原始ResBlock與IPBlock的區(qū)別Fig.2 Difference between the original ResBlock and the modified IPBlock
表1 Half-ResNet34結(jié)構(gòu)與本文提出的EIPFD-ResNet結(jié)構(gòu)對(duì)比Table 1 Structure difference between the Half-ResNet34 and the EIPFD-ResNet
圖3 下采樣層結(jié)構(gòu)Fig.3 Architecture of downsampling layer
圖4 原始輸出頭與FDHead的區(qū)別Fig.4 Difference between originalhead and FDHead
ResNet起源于圖像領(lǐng)域,其殘差塊在模型各階段分布比例主要是根據(jù)圖像識(shí)別任務(wù)設(shè)計(jì),可能對(duì)于說話人驗(yàn)證任務(wù)來說不是最優(yōu)的.受ConvNext[32]啟發(fā),本節(jié)以更大第3階段殘差塊分布比例修改原始網(wǎng)絡(luò)中殘差塊分布,將每個(gè)階段的殘差塊數(shù)量由Half-ResNet34中的(3,4,6,3)調(diào)整為(2,2,6,2)、(3,3,9,3)、(2,2,12,2)以及(2,2,15,2).探索殘差塊分布比例以及由此帶來的模型深度與參數(shù)量改變對(duì)說話人驗(yàn)證任務(wù)的影響.
殘差網(wǎng)絡(luò)使用跳躍連接來解決深層網(wǎng)絡(luò)產(chǎn)生的退化問題,但在Ionut C D等人[33]實(shí)驗(yàn)中,隨著原始?xì)埐顗K的堆疊,模型深度增加,網(wǎng)絡(luò)仍表現(xiàn)出優(yōu)化的困難,這表明原始?xì)埐顗K的設(shè)計(jì)仍存在不足,過多的殘差塊仍會(huì)影響信息在網(wǎng)絡(luò)中的傳播.本文對(duì)原始?xì)埐顗K的結(jié)構(gòu)重新設(shè)計(jì),為方便描述,本文將原始?xì)埐顗K命名為ResBlock,修改后的殘差塊命名為IPBlock,圖2(a)給出了原始?xì)埐顗K的例子:在F(x[l])中包含兩個(gè)卷積層(conv),其卷積核大小均為3×3、兩個(gè)批歸一化層(BN)和一個(gè)激活層(ReLU),圖中大箭頭表示信息傳播的最直接路徑:主傳播路徑(在ResBlock主傳播路徑中包含跳躍連接過程),從公式上每個(gè)ResBlock可以定義為:
(1)
(2)
(3)
如同在公式(3)和圖2(a)中看到的,負(fù)值信號(hào)在主傳播路徑上通過ReLU激活層后結(jié)果將歸于0,但在初期訓(xùn)練時(shí)網(wǎng)絡(luò)中存在很多負(fù)權(quán)值,這意味著原始的殘差塊設(shè)計(jì)會(huì)阻礙特征信息的傳遞,導(dǎo)致說話人相關(guān)信息損失.由此本文分別去掉殘差塊中殘差連接后的激活層以及主干網(wǎng)絡(luò)中通道轉(zhuǎn)換層中的激活層.通道轉(zhuǎn)換層中的修改在表1中體現(xiàn),去掉激活層的殘差塊:IPBlock如圖2(b)所示(虛線框代表去掉了主傳播路徑中的激活層).為防止這樣設(shè)計(jì)的網(wǎng)絡(luò)在特殊情況下(公式(1)結(jié)果為0)主傳播路徑完全不受約束,給學(xué)習(xí)帶來困難,下文中提到的方式會(huì)將信號(hào)變得“標(biāo)準(zhǔn)化”,從而穩(wěn)定學(xué)習(xí)過程.
為解決上述問題,如圖3所示,本文將下采樣操作從殘差塊中剝離開,使用單獨(dú)的下采樣層來滿足維度變換的需求.在第1、2和3階段結(jié)束時(shí)采用步長(zhǎng)為2,卷積核大小為2×2的卷積層來對(duì)時(shí)頻維度和信道維度變換.通過使卷積核大小與步長(zhǎng)大小一致來考慮x[l]中所有的信息,使元素間的過度更平滑,減少信息損失.批歸一化層用來規(guī)范信號(hào),減少模型學(xué)習(xí)困難,保持模型訓(xùn)練過程的穩(wěn)定性[32].此外下采樣層的作用還在于防止3.2中提到的去掉主傳播路徑上所有激活層后,信息在極端情況下不受任何約束的通過網(wǎng)絡(luò).在實(shí)驗(yàn)部分展示了單獨(dú)使用下采樣層與3.2中方法結(jié)合在性能上的好處.
如圖4(a)所示,許多最先進(jìn)的說話人驗(yàn)證模型在模型輸出頭后使用AAM[35](Additive Angular Margin Softmax,AAM)來約束說話人嵌入.AAM如公式(4)所示:
(4)
其中n代表說話人個(gè)數(shù),θyi是當(dāng)前語(yǔ)句嵌入與其對(duì)應(yīng)說話人類中心夾角,θj是當(dāng)前語(yǔ)句嵌入與其他說話人類中心夾角,s和m是兩個(gè)超參數(shù),s代表尺度,該參數(shù)目的是將cos值增大s倍,方便AAM提高差異性,m為子空間角度間隔,間隔越大則表明不同說話人之間的分類間隔越大,越利于分類.
由公式(4)可知,AAM在特征空間內(nèi)使用余弦角度構(gòu)造一系列決策邊界,把不同說話人的特征分配到角度間隔為m的不同子空間中,如圖5(a)所示.最理想的情況是最小類間角度大于最大類內(nèi)角度,即除AAM強(qiáng)制類間存在角度間隔外,希望類內(nèi)特征分布盡可能緊湊,然而聚合層后的特征在歐式空間內(nèi),特征分布較為松散[36],這可能會(huì)給AAM優(yōu)化帶來困難.受Liu W等人啟發(fā)[37],如圖4(b)所示,本文在生成說話人嵌入的全連接層前后分別添加BN層來平滑嵌入空間的特征分布[36],減少特征分布的自由區(qū)域.對(duì)于AAM, Softmax使得特征傾向于仿射狀分布時(shí),導(dǎo)致靠近仿射中心的特征缺乏清晰的決策面并且難以區(qū)分,但BN層可以使特征保持緊湊分布[36]的同時(shí),使得特征空間內(nèi)話語(yǔ)特征更靠近其對(duì)應(yīng)的說話人類中心(圖5中虛線箭頭),從而得到更清晰的分類決策面,幫助AAM更好的約束特征.同時(shí)BN也能起到正則化效果,預(yù)防過擬合,經(jīng)過FDHead后的特征分布示意圖如圖5(b)所示.
圖5 說話人嵌入特征分布示意圖Fig.5 Illustration of speaker embedding feature distribution
1)數(shù)據(jù)集.為了評(píng)估本文所提出方法對(duì)說話人特征提取的有效性,本文在3個(gè)公開數(shù)據(jù)集CN-Celeb[38]、VoxCeleb1和VoxCeleb2數(shù)據(jù)集[39]進(jìn)行了實(shí)驗(yàn).
VoxCeleb:如表2所示,包含VoxCeleb1和VoxCeleb2兩個(gè)數(shù)據(jù)集.這兩個(gè)數(shù)據(jù)集均是從Youtube網(wǎng)站中提取的大規(guī)模文本獨(dú)立數(shù)據(jù)集.VoxCeleb1開發(fā)集包含1221位名人的148642條訪問語(yǔ)音,VoxCeleb2開發(fā)集包含5994位名人的1092009條訪問語(yǔ)音.兩個(gè)數(shù)據(jù)集之間沒有重復(fù).由于算力原因,本文絕大部分實(shí)驗(yàn)基于VoxCeleb1訓(xùn)練,使用VoxCeleb-O評(píng)估.為了與目前最優(yōu)說話人驗(yàn)證模型對(duì)比,本文最后以VoxCeleb2為訓(xùn)練集,分別在VoxCeleb-O、VoxCeleb-E和VoxCeleb-H驗(yàn)證集上做了實(shí)驗(yàn)驗(yàn)證.VoxCeleb-O評(píng)估集包含40名說話人,VoxCeleb-E評(píng)估集包含了整個(gè)VoxCeleb1開發(fā)集與VoxCeleb-O中所有說話人,其測(cè)試語(yǔ)句更多,結(jié)果更具代表性.而VoxCeleb-H內(nèi)則是包含VoxCeleb1中相同國(guó)籍,相同性別的說話人,對(duì)于說話人驗(yàn)證任務(wù)來說這個(gè)評(píng)估集相較于另外兩個(gè)更困難.
表2 VoxCeleb:訓(xùn)練集與評(píng)估集Table 2 VoxCeleb:training set and evaluation set
CN-Celeb:如表3所示,同樣是CN-Celeb1和CN-Celeb2兩個(gè)數(shù)據(jù)集,本文使用CN-Celeb2作為訓(xùn)練集,它是從嗶哩嗶哩、網(wǎng)易云、喜馬拉雅、抖音以及唱吧等平臺(tái)收集的包含娛樂、訪問、唱歌、戲劇、電影、視頻博客、現(xiàn)場(chǎng)直播等11個(gè)不同場(chǎng)景下的聲音數(shù)據(jù),涉及許多真實(shí)的噪音、信道失配和真實(shí)的講話風(fēng)格,包含1996人的超過500000條語(yǔ)音,相較于VoxCeleb中只包含訪問類型的語(yǔ)音,CN-Celeb更具無約束條件的代表性.本文實(shí)驗(yàn)中使用來自CN-Celeb1中的CN-Celeb(E)作為評(píng)估集,包含200個(gè)說話人的18024條語(yǔ)音.此外該評(píng)估集的驗(yàn)證對(duì)中注冊(cè)語(yǔ)句與測(cè)試語(yǔ)句的場(chǎng)景不匹配,以及數(shù)據(jù)集中包含的大量短語(yǔ)音數(shù)據(jù)使得該數(shù)據(jù)集在說話人驗(yàn)證任務(wù)中非常具有挑戰(zhàn)性.
表3 CN-Celeb2:訓(xùn)練集與評(píng)估集Table 3 CN-Celeb2:training set and evaluation set
2)特征提取.本文所有基于ResNet的模型使用64維對(duì)數(shù)梅爾濾波器能量(F-bank)作為輸入特征.使用長(zhǎng)度為25ms,窗口長(zhǎng)度為10ms的漢明窗從輸入音頻中提取F-bank.每段音頻使用200幀的隨機(jī)塊作為網(wǎng)絡(luò)輸入,并且不應(yīng)用語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection,VAD).輸入特征是在幀級(jí)別上的均值.所有實(shí)驗(yàn)在特征提取階段均結(jié)合噪音數(shù)據(jù)集[40](氣泡音,噪音,混響)做數(shù)據(jù)增強(qiáng)[41].最后對(duì)提取出的F-bank應(yīng)用頻譜增強(qiáng)[42].
實(shí)驗(yàn)是基于 Pytorch 深度學(xué)習(xí)框架下完成的,本文使用說話人驗(yàn)證任務(wù)中常用的模型Half-ResNet34作為基線模型,采用注意力統(tǒng)計(jì)池化[33](Attention Statistics Pooling,ASP)對(duì)模型提取出的幀級(jí)特征聚合,中間通道維度設(shè)置為128.使用AAM作為模型的監(jiān)督損失.
在訓(xùn)練階段,每次迭代批大小設(shè)置為256,學(xué)習(xí)率初始值設(shè)置為1e-3并以每個(gè)周期0.02的衰減率衰減,選用Adam優(yōu)化器并將其權(quán)重衰減設(shè)置為2e-5.AAM的超參數(shù)尺度和間隔分別設(shè)置為30和0.2.在評(píng)估階段應(yīng)用了測(cè)試時(shí)間增強(qiáng)(Test Time Augment,TTA)方法[43],通過重疊裁剪從單個(gè)話語(yǔ)中提取10個(gè)說話人嵌入,將10個(gè)嵌入的平均值作為最終的說話人嵌入.本文使用余弦相似度作為評(píng)判標(biāo)準(zhǔn).EER和最小檢測(cè)代價(jià)函數(shù)[44](Minimum Detection Cost Function,minDCF)作為性能指標(biāo),Ptarget=0.01,Cmiss=Ca=1,參數(shù)量用來衡量模型大小,下文中EER,minDCF,參數(shù)量3個(gè)評(píng)價(jià)指標(biāo)越小均代表模型越具優(yōu)越性.
為了徹底評(píng)估本文所提出的方法,在本節(jié)中首先在VoxCeleb1上實(shí)驗(yàn),證明了第3節(jié)中提出的4種方法的有效性.接著在3個(gè)不同數(shù)據(jù)集上分別實(shí)驗(yàn)與其余說話人驗(yàn)證模型對(duì)比,進(jìn)一步證明EIPFD-ResNet的優(yōu)越性.
表4內(nèi)容展示的是在原始Half-ResNet模型基礎(chǔ)上逐步增加第3節(jié)中提出的殘差塊分布比例、IPBlock、單獨(dú)下采樣層以及FDHead模塊,并給出了實(shí)驗(yàn)結(jié)果.
表4 本文中提出方法在VoxCeleb1數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results of the method proposed in this paper on VoxCeleb1 dataset
1)從模型深度與殘差塊分布比例結(jié)果可以看出原始ResNet中殘差塊的分布相對(duì)于更改后的殘差塊分布在說話人驗(yàn)證任務(wù)中表現(xiàn)并不出色;從(2,2,6,2)分布與(3,3,9,3)分布結(jié)果對(duì)比可知,盡管增加模型深度對(duì)模型會(huì)有一定增益,但這部分增益可能是由于參數(shù)量增加帶來的;通過觀察殘差塊按照(3,3,9,3)分布與(2,2,12,2)分布結(jié)果可以發(fā)現(xiàn),在參數(shù)量相對(duì)一定時(shí),更大的第3階段殘差塊比例對(duì)與說話人驗(yàn)證任務(wù)來說更有益,這是由于該階段可以保留特征結(jié)構(gòu)信息前提下使其推理能力達(dá)到最強(qiáng);在(2,2,12,2)分布基礎(chǔ)上進(jìn)一步擴(kuò)展第3階段殘差塊數(shù)量后,EER沒有進(jìn)一步改善,原因如本文3.2中描述的使用原始?xì)埐顗K構(gòu)建網(wǎng)絡(luò)時(shí),主路徑上激活層數(shù)量與網(wǎng)絡(luò)的深度呈正比關(guān)系,在網(wǎng)絡(luò)堆疊過深時(shí)會(huì)妨礙信息傳輸,導(dǎo)致網(wǎng)絡(luò)優(yōu)化困難.因此本文基于(2,2,12,2)分布完成后續(xù)實(shí)驗(yàn).
2)減少激活層數(shù)量后,即使用IPBlock替代ResBlock并去掉通道數(shù)轉(zhuǎn)換層中的激活層,EER進(jìn)一步達(dá)到了2.37,相對(duì)于修改殘差塊分布后的模型降低了4.4%,證明主傳播路徑中沒有激活層對(duì)語(yǔ)音特征在模型中的傳遞更有益.
3)盡管在使用單獨(dú)下采樣層來縮放模型特征圖后EER改善不明顯,但同時(shí)使用單獨(dú)下采樣層和減少激活層數(shù)量后,EER相對(duì)降低了8.5%,大于兩者對(duì)于模型提升之和,證明了3.3中所描述的下采樣層可以對(duì)主路徑信息起到約束作用,從而與IPBlock和去掉激活層的通道轉(zhuǎn)換層達(dá)到互補(bǔ)效果.此外使用下采樣層后,模型可以更好的收斂并加快收斂過程,圖6展示了使用單獨(dú)下采樣層策略后相對(duì)于原始下采樣方式收斂情況對(duì)比,為了表示更清晰,圖中沒有展示前10輪迭代的收斂過程.圖中橫軸代表迭代輪數(shù),縱軸代表訓(xùn)練損失,實(shí)線是使用原始下采樣方式結(jié)果,虛線是使用下采樣層的結(jié)果.
圖6 原始下采樣方式與下采樣層收斂情況對(duì)比Fig.6 Difference of convergence between original down sampling method and down sampling layer
4)表4的最后在上述結(jié)果基礎(chǔ)上使用本文提出的輸出頭來生成說話人嵌入,EER進(jìn)一步下降了0.07,這表明FC層前后的批歸一化層對(duì)模型提取特征有效,增強(qiáng)了損失函數(shù)對(duì)模型的約束.為了更好表現(xiàn)模型提取出的特征分布,本節(jié)對(duì)模型輸出特征作了可視化處理,但由于語(yǔ)音基線數(shù)據(jù)集中人物數(shù)量多,每個(gè)人對(duì)應(yīng)的話語(yǔ)很少且分布不均勻,可視化過程中會(huì)產(chǎn)生很大的噪音.參考Hao Luo等人解決方式[35],本節(jié)使用MNIST數(shù)據(jù)集訓(xùn)練模型來可視化特征空間內(nèi)的特征分布,原因是相比于語(yǔ)音基線數(shù)據(jù)集,MNIST數(shù)據(jù)集僅有10個(gè)類別且每個(gè)類由平均600個(gè)樣本組成,可使特征分布清晰穩(wěn)健.圖7展示了在MINIST數(shù)據(jù)集上特征可視化后的結(jié)果,可以看出,經(jīng)過FDHead輸出頭后的特征分布相對(duì)于改進(jìn)前特征分布更緊湊,決策面相對(duì)更清晰.
相較于改進(jìn)前的模型Half-ResNet,第3節(jié)提出的4個(gè)方法改進(jìn)后的模型:EIPDF-ResNet在VoxCeleb1數(shù)據(jù)集上EER達(dá)到了2.20,總體獲得了17.3%的提升.
為進(jìn)一步展示EIPDF-ResNet的優(yōu)越性,本節(jié)根據(jù)數(shù)據(jù)集大小及數(shù)據(jù)復(fù)雜程度,分別在VoxCeleb1(規(guī)模小)、VoxCeleb2(規(guī)模大)、CnCeleb2(復(fù)雜場(chǎng)景)3個(gè)數(shù)據(jù)集上進(jìn)行模型評(píng)估.
1)表5給出了EIPFD-ResNet在大數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)本文提出的EIPFD-ResNet盡管僅使用了7.486M的參數(shù)量,但仍表現(xiàn)出強(qiáng)大的表征能力,取得了最優(yōu)結(jié)果.相對(duì)于該數(shù)據(jù)集中最廣泛使用的說話人驗(yàn)證模型:ResNet34-SE[30],EIPFD-ResNet的EER/minDCF在VoxCeleb-O、VoxCeleb-E和VoxCeleb-H評(píng)估集上分別相對(duì)降低了19.1%/6.1%、43.5%/46.7%和38.8%/34.1%,并且顯著優(yōu)于當(dāng)前最優(yōu)說話人驗(yàn)證基線模型ECAPA-TDNN,在3個(gè)評(píng)估集上,EER/minDCF分別相對(duì)降低了9.7%/33.3%、8.5%/13.0%和13.2%/14.3%.
表5 在VoxCeleb2數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果Table 5 Experimental results on VoxCeleb2 dataset
2)表6給出了EIPFD-ResNet在小數(shù)據(jù)集上與常用的基于殘差網(wǎng)絡(luò)結(jié)構(gòu)的話人驗(yàn)證模型對(duì)比.可以發(fā)現(xiàn)本文所提出的EIPFD-ResNet在性能上顯著優(yōu)于其余基于殘差網(wǎng)絡(luò)的說話人驗(yàn)證模型.相較于傳統(tǒng)ResNet34模型,EER/minDCF相對(duì)改善了16.4%/18.4%.
表6 在VoxCeleb1數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果Table 6 Experimental results on VoxCeleb1 dataset
3)表7給出了EIPFD-ResNet在復(fù)雜場(chǎng)景下的性能表現(xiàn).EIPFD-ResNet在CN-Celeb2上的EER/minDCF結(jié)果達(dá)到了9.02/0.5233,相比于ResNet-34模型與ECAPA-TDNN模型,EER /minDCF分別相對(duì)降低了6.0%/7.8%和9.0%/8.4%.
表7 在CN-Celeb2數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果Table 7 Experimental results on CN-Celeb2 dataset
殘差網(wǎng)絡(luò)被廣泛應(yīng)用于說話人驗(yàn)證任務(wù)中.本文對(duì)殘差中的信息流及輸出特征進(jìn)行分析,針對(duì)其存在的信息傳播受限,容易引入噪聲信息,提取出的特征難以分類等問題,對(duì)殘差塊分布、殘差塊結(jié)構(gòu)、特征下采樣以及模型輸出頭進(jìn)行了更合理的設(shè)計(jì),提出了基于殘差網(wǎng)絡(luò)的說話人特征提取模型EIPFD-ResNet.在保持優(yōu)越推理速度的同時(shí)提高了捕捉說話人本質(zhì)特征的能力,并在多個(gè)數(shù)據(jù)集上均取得了顯著效果,為說話人驗(yàn)證任務(wù)提供了一個(gè)強(qiáng)有力的基線模型.未來計(jì)劃從語(yǔ)音信息中特有的時(shí)間與頻率信息出發(fā)對(duì)全局信息建模,從而進(jìn)一步提升模型性能.