王康 董元菲
摘 要: 針對(duì)傳統(tǒng)身份認(rèn)證矢量(i-vector)與概率線性判別分析(PLDA)結(jié)合的聲紋識(shí)別模型步驟繁瑣、泛化能力較弱等問(wèn)題,構(gòu)建了一個(gè)基于角度間隔嵌入特征的端到端模型。該模型特別設(shè)計(jì)了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò),從語(yǔ)音數(shù)據(jù)的聲學(xué)特征中提取深度說(shuō)話人嵌入;選擇基于角度改進(jìn)的A-Softmax作為損失函數(shù),在角度空間中使模型學(xué)習(xí)到的不同類別特征始終存在角度間隔并且同類特征間聚集更緊密。在公開(kāi)數(shù)據(jù)集VoxCeleb2上進(jìn)行的測(cè)試表明,與i-vector結(jié)合PLDA的方法相比,該模型在說(shuō)話人辨認(rèn)中的Top-1和Top-5上準(zhǔn)確率分別提高了58.9%和30%;而在說(shuō)話人確認(rèn)中的最小檢測(cè)代價(jià)和等錯(cuò)誤率上分別減小了47.9%和45.3%。實(shí)驗(yàn)結(jié)果驗(yàn)證了所設(shè)計(jì)的端到端模型更適合在多信道、大規(guī)模的語(yǔ)音數(shù)據(jù)集上學(xué)習(xí)到有類別區(qū)分性的特征。
關(guān)鍵詞:聲紋識(shí)別;端到端模型;損失函數(shù);卷積神經(jīng)網(wǎng)絡(luò);深度說(shuō)話人嵌入
中圖分類號(hào):TN912.34;TP391.42
文獻(xiàn)標(biāo)志碼:A
Abstract:? An end-to-end model with angular interval embedding was constructed to solve the problems of complicated multiple steps and weak generalization ability in the traditional voiceprint recognition model based on the combination of identity vector (i-vector) and Probabilistic Linear Discriminant Analysis (PLDA). A deep convolutional neural network was specially designed to extract deep speaker embedding from the acoustic features of voice data. The Angular Softmax (A-Softmax), which is based on angular improvement, was employed as the loss function to keep the angular interval between the different classes of features learned by the model and make the clustering of the similar features closer in the angle space. Compared with the method combining i-vector and PLDA, it shows that the proposed model has the identification accuracy of Top-1 and Top-5 increased by 58.9% and 30% respectively and has the minimum detection cost and equal error rate reduced by 47.9% and 45.3% respectively for speaker verification on the public dataset VoxCeleb2. The results verify that the proposed end-to-end model is more suitable for learning class-discriminating features from multi-channel and large-scale datasets.
Key words: voiceprint recognition; end-to-end model; loss function; convolutional neural network; deep speaker embedding
0 引言
聲紋識(shí)別是一種從語(yǔ)音信息中提取生物特征的識(shí)別技術(shù)[1]。在該技術(shù)發(fā)展的幾十年中,由Dehak等[2]提出的身份認(rèn)證矢量(identity vector, i-vector)方法一度成為聲紋識(shí)別領(lǐng)域的主流研究技術(shù)之一。該方法主要有三個(gè)步驟:1)利用高斯混合模型通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)計(jì)算充分統(tǒng)計(jì)量;2)在全因子空間上提取i-vector;3)利用概率線性判別分析(Probabilistic Linear Discriminant Analysis, PLDA)計(jì)算i-vector間的似然比分?jǐn)?shù)并作出判斷[3]。
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在圖像識(shí)別、機(jī)器翻譯和語(yǔ)音識(shí)別等諸多領(lǐng)域取得了非常矚目的成績(jī),所以聲紋識(shí)別技術(shù)同樣引入了這一思想。利用DNN對(duì)聲紋建模一般有兩種方式:一種是利用DNN取代i-vector框架中GMM-UBM來(lái)計(jì)算充分統(tǒng)計(jì)量[4];另一種是從DNN的瓶頸層中提取幀級(jí)別的特征,利用這些特征獲得話音級(jí)別表示[5-6],Variani等[7]將DNN最后一個(gè)隱藏層中提取的特征整體取平均來(lái)替代i-vector,是這種思想的典型代表。目前,將DNN和i-vector融合的技術(shù)已經(jīng)較為成熟,并且在部分小規(guī)模的商業(yè)產(chǎn)品上得到了實(shí)現(xiàn)。但利用該方法仍然存在兩大問(wèn)題:1)提取i-vector作為話音級(jí)別的表示形式后,還需要長(zhǎng)度標(biāo)準(zhǔn)化和后續(xù)分類器的步驟[8],比較繁瑣;2)由于加性噪聲的存在,利用i-vector構(gòu)建的模型泛化能力較弱[9]。
基于上述研究背景,本文構(gòu)建一個(gè)端到端的聲紋識(shí)別模型,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和重新設(shè)計(jì)的度量方式,提取到類別區(qū)分能力更強(qiáng)的嵌入表示。這些方法在人臉識(shí)別領(lǐng)域得到了驗(yàn)證,但在聲紋識(shí)別中比較少見(jiàn)。模型用于文本無(wú)關(guān)的開(kāi)集識(shí)別任務(wù),也就是訓(xùn)練和測(cè)試數(shù)據(jù)沒(méi)有交集,并通過(guò)嵌入之間的余弦距離直接來(lái)比較說(shuō)話人之間的相似性。為使模型學(xué)習(xí)到的深度說(shuō)話人嵌入有足夠的類別區(qū)分性,損失函數(shù)選擇A-Softmax(Angular Softmax)來(lái)替代分類網(wǎng)絡(luò)中最常使用的Softmax。A-Softmax損失函數(shù)能學(xué)習(xí)角度判別特征,將不同類別的特征映射到單位超球面上的不同區(qū)域內(nèi)[10],更適合大規(guī)模數(shù)據(jù)集的訓(xùn)練,得到泛化能力更強(qiáng)的模型。
1 端到端聲紋模型——深度說(shuō)話人嵌入開(kāi)集識(shí)別任務(wù)本質(zhì)上是一種度量學(xué)習(xí)任務(wù),其中的關(guān)鍵是使模型學(xué)習(xí)到類別間隔較大的特征,所形成的特征空間足以概括沒(méi)訓(xùn)練過(guò)的說(shuō)話人,所以模型訓(xùn)練過(guò)程中的目標(biāo)是在特征空間中不斷縮小同類距離的同時(shí)增大異類之間的距離。
目前,已有一些研究通過(guò)改進(jìn)主干神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升模型效果,如文獻(xiàn)[11]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)提取話音級(jí)別特征作為說(shuō)話人嵌入,文獻(xiàn)[12]則利用NIN(Network In Network)建模。
CNN最初在圖像領(lǐng)域應(yīng)用廣泛,將其應(yīng)用到語(yǔ)音分析中也能有效地在聲學(xué)特征中減少譜之間的變化并對(duì)譜之間的相關(guān)性進(jìn)行建模[13],故本文選擇CNN從聲學(xué)特征中提取語(yǔ)音數(shù)據(jù)幀級(jí)別的特征。
從平衡訓(xùn)練時(shí)間和模型深度的角度來(lái)看,選取CNN提取特征也要優(yōu)于語(yǔ)音識(shí)別中常用的長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)[3]。
另一方面,模型的度量方式也可以進(jìn)行改進(jìn),基于這種改進(jìn)思想一般有兩種方式[8]:一種是訓(xùn)練分類網(wǎng)絡(luò)作為深度說(shuō)話人嵌入的提取器,在損失函數(shù)上加上限制條件約束網(wǎng)絡(luò)學(xué)習(xí)方向,提取輸出層前一層的特征作為深度說(shuō)話人嵌入;另一種是直接在特征空間中訓(xùn)練,使不同類別說(shuō)話人之間的歐氏距離有一定的間隔,并將歸一化后的特征作為深度說(shuō)話人嵌入,這樣特征空間中的歐氏距離與余弦距離意義等價(jià),測(cè)試階段可以直接利用余弦相似性計(jì)算分?jǐn)?shù)。直接度量特征之間距離最具代表性的是三元組損失[14],但三元組的挖掘非常復(fù)雜,導(dǎo)致模型訓(xùn)練非常耗時(shí),且對(duì)性能敏感,所以本文主要研究分類網(wǎng)絡(luò),即輸出層神經(jīng)元的個(gè)數(shù)等于訓(xùn)練的說(shuō)話人類別數(shù),這種思想的系統(tǒng)流程如圖1所示。
系統(tǒng)的整體流程分為訓(xùn)練過(guò)程和測(cè)試過(guò)程兩個(gè)部分。在訓(xùn)練過(guò)程中,將從語(yǔ)音數(shù)據(jù)中提取的聲學(xué)特征送入CNN生成幀級(jí)別的特征,幀級(jí)別的特征被激活后送入平均池化層得到話音級(jí)別的特征,再利用仿射層進(jìn)行維度轉(zhuǎn)換,得到固定維度的深度說(shuō)話人嵌入,輸出層將固定維度的說(shuō)話人嵌入映射到訓(xùn)練說(shuō)話人類別數(shù)。損失函數(shù)是構(gòu)建的端到端網(wǎng)絡(luò)訓(xùn)練過(guò)程的最后一步,通過(guò)不斷減小網(wǎng)絡(luò)預(yù)測(cè)值和實(shí)際標(biāo)簽的差距來(lái)提高網(wǎng)絡(luò)性能。在測(cè)試階段,先把語(yǔ)音數(shù)據(jù)送入已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)模型,從仿射層中得到深度說(shuō)話人嵌入,再計(jì)算每對(duì)嵌入之間的余弦距離,根據(jù)閾值即可判斷該對(duì)語(yǔ)音數(shù)據(jù)是屬于相同說(shuō)話人還是不同說(shuō)話人。
2 具有角度區(qū)分性的深度說(shuō)話人嵌入
基于Softmax損失函數(shù)學(xué)習(xí)到的深度說(shuō)話人嵌入在本質(zhì)上就有一定的角度區(qū)分性[10],這一點(diǎn)在文獻(xiàn)[15]中也得到了證實(shí),但在由Softmax直接映射的角度空間中對(duì)異類說(shuō)話人嵌入沒(méi)有明確的限制條件,這樣同時(shí)優(yōu)化了特征之間的夾角和距離。A-Softmax損失函數(shù)將特征權(quán)值進(jìn)行歸一化,使CNN更集中于優(yōu)化不同特征之間的夾角,學(xué)習(xí)到具有角度區(qū)分性的深度說(shuō)話人嵌入[10],以提高模型性能。
2.1 A-Softmax原理
延用文獻(xiàn)[16]中的定義,將分類網(wǎng)絡(luò)的全連接輸出層,Softmax函數(shù)以及交叉熵?fù)p失函數(shù)三個(gè)步驟聯(lián)合定義為Softmax損失函數(shù),表達(dá)式為:
其中:xi表示第i個(gè)訓(xùn)練樣本的輸入特征; yi為其對(duì)應(yīng)的類別標(biāo)簽;Wj、Wyi分別是全連接輸出層權(quán)重矩陣W的第j列和第yi列;bj、byi為其對(duì)應(yīng)的偏置。訓(xùn)練數(shù)據(jù)時(shí)一般會(huì)分批處理,N即為每一批次中的訓(xùn)練樣本個(gè)數(shù),K為所有訓(xùn)練樣本中的類別數(shù)。
將W與xi展開(kāi)成模長(zhǎng)與夾角余弦的乘積,同時(shí)限制‖Wj‖=1和bj=0,即在每次迭代中都將權(quán)重矩陣W每列的模進(jìn)行歸一化,并將偏置設(shè)為0,損失函數(shù)表達(dá)式轉(zhuǎn)化為:
其中:θj,i(0≤θj,i≤π)為向量Wj與特征xi間的夾角,式(2)表明了訓(xùn)練樣本i被預(yù)測(cè)為類別j的概率僅與θj,i有關(guān)。A-Softmax不僅在角度空間上使不同類別的樣本分離,同時(shí)利用倍角關(guān)系增大了類別之間的角度間隔[10],表達(dá)式為:
2.2 A-Softmax角度間隔的性質(zhì)
A-Softmax損失函數(shù)不僅通過(guò)角度間隔增加了特征之間的類別區(qū)分能力,同時(shí)能將學(xué)習(xí)到的特征映射到單位超球面上解釋。權(quán)重Wyi與特征xi之間的夾角對(duì)應(yīng)于該單位超球面上的最短弧長(zhǎng),同一類別在超球面上形成一個(gè)類似于超圓的區(qū)域。通過(guò)角度間隔參數(shù)m的設(shè)定可以調(diào)節(jié)學(xué)習(xí)任務(wù)的難易程度,m越大,單個(gè)類別形成的超圓區(qū)域也就越小,學(xué)習(xí)任務(wù)也越困難。但m存在一個(gè)最小值mmin使同類特征之間最大角度間隔小于異類特征之間最小角度間隔,文獻(xiàn)[10]中未給出推導(dǎo)過(guò)程,本文將在二維空間中定量分析mmin。
二分類情況下不同類別之間的角度間隔如圖2所示,其中W1、W2分別是類1、類2的權(quán)重向量,W1與W2之間的夾角為θ12,令輸入的特征x屬于類1,則有cos(mθ1)>cos(θ2),即mθ1<θ2。當(dāng)特征x在W1、W2之間時(shí),θ1存在一個(gè)屬于類1的最大角
θin1_max;當(dāng)特征x在W1、W2之外時(shí),θ1存在一個(gè)屬于類1的最大角θout1_max,θ1的范圍即在θin1_max與θout1_max之間。如圖2(a),當(dāng)x在W1、W2之間時(shí)有:
選擇滿足期望特征分布的參數(shù)m,理論上可使所有訓(xùn)練特征按標(biāo)準(zhǔn)分布在單位超球面上,不同類別之間始終存在角度間隔,在此基礎(chǔ)上訓(xùn)練盡可能多的類別數(shù),則可以得到類別區(qū)分能力更強(qiáng)的深度說(shuō)話人嵌入,提高模型的泛化能力。
2.3 網(wǎng)絡(luò)模型設(shè)計(jì)
本文設(shè)計(jì)的網(wǎng)絡(luò)模型主要分為三個(gè)部分:首先是語(yǔ)音信號(hào)聲學(xué)特征的提取;其次是主干神經(jīng)網(wǎng)絡(luò)的構(gòu)建;最后,利用A-Softmax損失函數(shù)衡量模型預(yù)測(cè)值,并更新參數(shù)。
在聲學(xué)特征提取階段,為保留更豐富的原始音頻信息,將語(yǔ)音信號(hào)利用幀長(zhǎng)25ms、幀移10ms的滑動(dòng)窗口轉(zhuǎn)化為64維FBank(FilterBank)特征。每個(gè)樣本隨機(jī)截取多個(gè)約0.6s的語(yǔ)音段,生成64×64的特征矩陣,經(jīng)過(guò)零均值,單位方差歸一化后,轉(zhuǎn)化為單通道的特征圖送入構(gòu)建好的CNN。
主干網(wǎng)絡(luò)是基于殘差網(wǎng)絡(luò)設(shè)計(jì)[17],網(wǎng)絡(luò)層細(xì)節(jié)如表1所示。
每個(gè)殘差塊由兩個(gè)卷積核為3×3、步長(zhǎng)為1×1的卷積層構(gòu)成,包含低層輸出到高層輸入的直接連接,每一種殘差塊只有一個(gè)。當(dāng)輸出通道數(shù)增加時(shí),利用一個(gè)卷積核為5×5、步長(zhǎng)為2×2的卷積層使頻域的維度保持不變,將經(jīng)過(guò)多個(gè)卷積層和殘差塊提取到的幀級(jí)別特征送入時(shí)間平均池化層。時(shí)間平均池化層將特征在時(shí)域上整體取均值,得到話音級(jí)別的特征,使得構(gòu)建的網(wǎng)絡(luò)在時(shí)間位置上具有不變性,再經(jīng)過(guò)仿射層將話音級(jí)別的特征映射成512維的深度說(shuō)話人嵌入。
A-Softmax損失函數(shù)中的角度間隔參數(shù)m設(shè)為3,利用反向傳播更新模型參數(shù)。測(cè)試數(shù)據(jù)直接從仿射層提取512維深度說(shuō)話人嵌入,通過(guò)L2歸一化后直接計(jì)算余弦相似性,設(shè)置分?jǐn)?shù)閾值評(píng)判一對(duì)嵌入屬于相同說(shuō)話人還是不同說(shuō)話人,模型的訓(xùn)練算法和測(cè)試算法分別如算法1和算法2所示。
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
為得到一個(gè)強(qiáng)魯棒性模型,需要訓(xùn)練一個(gè)多類別、多信道的大規(guī)模數(shù)據(jù)集,本實(shí)驗(yàn)采用VoxCeleb2數(shù)據(jù)集進(jìn)行驗(yàn)證。VoxCeleb是一個(gè)從YouTube網(wǎng)站的采訪視頻中提取的視聽(tīng)數(shù)據(jù)集,由人類語(yǔ)音的短片段組成,其中VoxCeleb2數(shù)據(jù)集的規(guī)模比目前任何一個(gè)公開(kāi)的聲紋識(shí)別數(shù)據(jù)集仍大數(shù)倍,包含近6000個(gè)說(shuō)話人產(chǎn)生的百萬(wàn)多條語(yǔ)音數(shù)據(jù)[18]。
VoxCeleb2中的語(yǔ)音數(shù)據(jù)包含不同種族、口音、職業(yè)和年齡的說(shuō)話人演講,數(shù)據(jù)在無(wú)任何約束條件下采集,背景有說(shuō)話聲、笑聲、重疊的語(yǔ)音等符合實(shí)際環(huán)境的各種噪聲[18],更適合訓(xùn)練端到端的神經(jīng)網(wǎng)絡(luò)模型。同時(shí)該數(shù)據(jù)集提供了幾種不同方法在不同評(píng)價(jià)指標(biāo)下的基礎(chǔ)分?jǐn)?shù),本實(shí)驗(yàn)構(gòu)建自己的網(wǎng)絡(luò)模型與i-vector結(jié)合PLDA的方法進(jìn)行比較。
3.2 模型訓(xùn)練方法
模型共訓(xùn)練40輪,每輪每批處理的樣本數(shù)為64個(gè)音頻文件。每個(gè)卷積層后都加入批標(biāo)準(zhǔn)化(Batch Normalization, BN)和激活層,以提高模型訓(xùn)練速度,激活函數(shù)選擇上限值為20的線性整流函數(shù)(Rectified Linear Unit, ReLU)。優(yōu)化器選擇動(dòng)量為0.9的隨機(jī)梯度下降法,權(quán)重衰減設(shè)為0。
為防止訓(xùn)練過(guò)程中損失函數(shù)出現(xiàn)震蕩,利用指數(shù)衰減法控制模型學(xué)習(xí)率,衰減系數(shù)設(shè)為0.98,每隔1000個(gè)批處理步驟當(dāng)前學(xué)習(xí)率乘以衰減系數(shù),模型初始學(xué)習(xí)率為0.001。
3.3 實(shí)驗(yàn)結(jié)果分析
訓(xùn)練好的端到端模型可以同時(shí)進(jìn)行說(shuō)話人辨認(rèn)和說(shuō)話人確認(rèn)兩個(gè)實(shí)驗(yàn),前者是“多選一”問(wèn)題,后者是“一對(duì)一判別”問(wèn)題。VoxCeleb2中的測(cè)試集共有118類,36237條語(yǔ)音,兩個(gè)實(shí)驗(yàn)設(shè)計(jì)的方法均參考文獻(xiàn)[19]。實(shí)驗(yàn)訓(xùn)練了基于Softmax和A-Softmax兩種損失函數(shù)的模型,以驗(yàn)證本文模型的優(yōu)勢(shì)。
對(duì)于說(shuō)話人辨認(rèn)實(shí)驗(yàn),在118個(gè)說(shuō)話人中每人選擇5條語(yǔ)音數(shù)據(jù)構(gòu)建聲紋庫(kù),即聲紋庫(kù)中一共包含590條語(yǔ)音。再?gòu)拿總€(gè)說(shuō)話人中選擇一條不同于聲紋庫(kù)的測(cè)試語(yǔ)音與聲紋庫(kù)中的所有語(yǔ)音進(jìn)行比對(duì),按相似性分?jǐn)?shù)從大到小排序,計(jì)算相似度最大匹配成功的概率Top-1和前5名匹配成功的概率Top-5,結(jié)果見(jiàn)表2。
由表2的實(shí)驗(yàn)結(jié)果可知,采用提取深度說(shuō)話人嵌入的方式,模型性能要明顯優(yōu)于i-vector結(jié)合PLDA的方法。選擇A-Softmax作為損失函數(shù)構(gòu)建的模型與之相比,Top-1和Top-5準(zhǔn)確率分別提高了58.9%和30%。原因在于傳統(tǒng)方法提取的i-vector中既包含說(shuō)話人信息又包含信道信息,利用信道補(bǔ)償?shù)姆椒▉?lái)減少信道影響不能充分?jǐn)M合多種信道下采集的訓(xùn)練數(shù)據(jù)集,CNN卻可以很好地?cái)M合這種多種信道樣本和標(biāo)簽之間的關(guān)系。損失函數(shù)選擇A-Softmax與Softmax相比,Top-1和Top-5準(zhǔn)確率分別提高了17.53%和7.41%。原因在于A-Softmax能學(xué)習(xí)到具有角度區(qū)分性的特征,對(duì)于從大規(guī)模的數(shù)據(jù)集訓(xùn)練得到的說(shuō)話人嵌入在單位超球面上聚集更集中,這使得采用A-Softmax的模型比采用Softmax的模型具有更強(qiáng)的泛化能力。
在說(shuō)話人確認(rèn)實(shí)驗(yàn)中,測(cè)試集中共有36237條語(yǔ)音,對(duì)于每條測(cè)試語(yǔ)音組成兩對(duì)與該條語(yǔ)音屬于同種說(shuō)話人的語(yǔ)音數(shù)據(jù)和兩對(duì)屬于不同說(shuō)話人的語(yǔ)音數(shù)據(jù),實(shí)驗(yàn)一共組成了144948對(duì)測(cè)試對(duì)。計(jì)算所有測(cè)試對(duì)中錯(cuò)誤接受率(False Acceptance Rate, FAR)和錯(cuò)誤拒絕率(False Rejection Rate, FRR)相等時(shí)等錯(cuò)誤率(Equal Error Rate, EER)的值。同時(shí)該實(shí)驗(yàn)還有一個(gè)評(píng)價(jià)標(biāo)準(zhǔn)為最小檢測(cè)代價(jià)函數(shù)(Minimum Detection Cost Function, minDCF),檢測(cè)代價(jià)函數(shù)DCF的公式為:
其中:CFR和CFA分別表示錯(cuò)誤拒絕和錯(cuò)誤接受的懲罰代價(jià);Ptarget和1-Ptarget分別為真實(shí)說(shuō)話測(cè)試和冒認(rèn)測(cè)試的先驗(yàn)概率。實(shí)驗(yàn)設(shè) ,結(jié)果見(jiàn)表3。同時(shí)針對(duì)兩種不同損失函數(shù)所構(gòu)建的模型,繪制了檢測(cè)錯(cuò)誤權(quán)衡(Detection Error Tradeoff, DET)曲線圖,結(jié)果如圖4所示。
由表3和圖4的實(shí)驗(yàn)結(jié)果可知,采用提取深度說(shuō)話人嵌入的方式,模型性能受損失函數(shù)的影響非常大。選擇A-Softmax作為損失函數(shù)構(gòu)建的模型與傳統(tǒng)方法相比,minDCF和EER分別減小了47.9%和45.3%。原因是采用A-Softmax損失函數(shù)構(gòu)建的模型增加了角度間隔,學(xué)習(xí)到的深度說(shuō)話人嵌入有非常好的類別區(qū)分性。但選擇Softmax作為損失函數(shù)構(gòu)建的模型,minDCF反而大于傳統(tǒng)方法,EER的減少程度也不明顯,這也說(shuō)明了Softmax并不適用于學(xué)習(xí)具有類別區(qū)分性的深度說(shuō)話人嵌入。
4 結(jié)語(yǔ)
本文構(gòu)建了一個(gè)端到端聲紋識(shí)別模型,該模型利用類似于殘差網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò),從聲學(xué)特征中提取深度說(shuō)話人嵌入,選擇A-Softmax作為損失函數(shù)來(lái)學(xué)習(xí)具有角度區(qū)分性的特征。通過(guò)對(duì)角度間隔參數(shù)m的分析,推導(dǎo)出滿足期望的特征分布時(shí)m的最小值。本文從實(shí)驗(yàn)中得出,端到端的聲紋模型能訓(xùn)練出結(jié)構(gòu)更簡(jiǎn)單、泛化能力更強(qiáng)的模型,該模型在說(shuō)話人辨認(rèn)實(shí)驗(yàn)上有明顯的優(yōu)勢(shì),但在說(shuō)話人確認(rèn)實(shí)驗(yàn)中,模型性能受損失函數(shù)的影響較大。對(duì)于更大規(guī)模的數(shù)據(jù)集,本文構(gòu)建的網(wǎng)絡(luò)模型可能達(dá)不到更好的效果,需要構(gòu)建更深的網(wǎng)絡(luò)且減少過(guò)擬合對(duì)模型效果的影響,為保持特征在頻域上的維度不變,可以對(duì)每一層的殘差塊個(gè)數(shù)進(jìn)行增加。后續(xù)將會(huì)進(jìn)一步研究在大規(guī)模數(shù)據(jù)集的條件下,所設(shè)計(jì)的模型中殘差塊的個(gè)數(shù)對(duì)聲紋識(shí)別模型性能的影響。
參考文獻(xiàn)(References)
[1] KINNUNEN T, LI H. An overview of text-independent speaker recognition: from features to supervectors[J]. Speech Communication, 2010, 52(1): 12-40.
[2] DEHAK N, KENNY P J, DEHAK R, et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788-798.
[3] LI C, MA X, JIANG B, et al. Deep speaker: an end-to-end neural speaker embedding system[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1705.02304.pdf.
[4] LEI Y, SCHEFFER N, FERRER L, et al. A novel scheme for speaker recognition using a phonetically-aware deep neural network[C]// Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2014: 1695-1699.
[5] FU T, QIAN Y, LIU Y, et al. Tandem deep features for text-dependent speaker verification[EB/OL]. [2019-01-10]. https://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_1327.pdf.
[6] TIAN Y, CAI M, HE L, et al. Investigation of bottleneck features and multilingual deep neural networks for speaker verification[EB/OL]. [2019-01-10]. https://www.isca-speech.org/archive/interspeech_2015/papers/i15_1151.pdf.
[7] VARIANI E, LEI X, McDERMOTT E, et al. Deep neural networks for small footprint text-dependent speaker verification[C]// Proceedings of the 2014 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2014: 4052-4056.
[8] CAI W, CHEN J, LI M. Analysis of length normalization in end-to-end speaker verification system[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1806.03209.pdf.
[9] 王昕, 張洪冉. 基于DNN處理的魯棒性I-Vector說(shuō)話人識(shí)別算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018, 54(22): 167-172. (WANG X, ZHANG H R. Robust i-vector speaker recognition method based on DNN processing[J]. Computer Engineering and Applications, 2018, 54(22): 167-172.)
[10] LIU W, WEN Y, YU Z, et al. SphereFace: deep hypersphere embedding for face recognition[C]// Proceedings of the IEEE 2017 Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6738-6746.
[11] HEIGOLD G, MORENO I, BENGIO S, et al. End-to-end text-dependent speaker verification[C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2016: 5115-5119.
[12] SNYDER D, GHAHREMANI P, POVEY D, et al. Deep neural network-based speaker embeddings for end-to-end speaker verification[C]// Proceedings of the 2016 IEEE Spoken Language Technology Workshop. Piscataway: IEEE, 2016: 165-170.
[13] ZHANG Y, PEZESHKI M, BRAKEL P, et al. Towards end-to-end speech recognition with deep convolutional neural networks[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1701.02720.pdf.
[14] ZHANG C, KOISHIDA K. End-to-end text-independent speaker verification with triplet loss on short utterances[EB/OL]. [2019-01-10]. https://www.isca-speech.org/archive/Interspeech_2017/pdfs/1608.PDF.
[15] WEN Y, ZHANG K, LI Z, et al. A discriminative feature learning approach for deep face recognition[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9911. Cham: Springer, 2016: 499-515.
[16] LIU W, WEN Y, YU Z, et al. Large-margin softmax loss for convolutional neural networks[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1612.02295.pdf.
[17] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[18] CHUNG J S, NAGRANI A, ZISSERMAN A. VoxCeleb2: deep speaker recognition[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1806.05622.pdf.
[19] NAGRANI A, CHUNG J S, ZISSERMAN A. VoxCeleb: a large-scale speaker identification dataset[EB/OL]. [2019-01-10]. https://arxiv.org/pdf/1706.08612.pdf.