国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的語種識別系統(tǒng)

2019-04-25 07:09:42戴禮榮
數(shù)據(jù)采集與處理 2019年2期
關(guān)鍵詞:音素語種聲學(xué)

金 馬 宋 彥 戴禮榮

(中國科學(xué)技術(shù)大學(xué)語音及語言信息處理國家工程實驗室,合肥,230027)

引 言

語種識別是指利用計算機(jī)自動判定語音片段所屬語言種類的過程。據(jù)統(tǒng)計,全世界已查明的語言數(shù)量為7 099種[1],而中國的56個民族就有80多種彼此不能通話的語言和地區(qū)方言[2]。隨著全球國際化的日益加深,如何在全國甚至全世界范圍內(nèi)進(jìn)行無障礙交流成為不能忽略的問題。面對如此龐大的語言體系,一個人能掌握的語言種類非常有限。因此,自動語種識別技術(shù)的重要性和地位也顯得愈發(fā)重要。語種信息屬于語音信號中的弱信息,不像內(nèi)容信息可以直接通過識別結(jié)果反映,需要通過對語音中的底層信息加以組合、建模和分析才能夠得到。如何對語音的底層聲學(xué)信息進(jìn)行有效特征提取和統(tǒng)計建模,從而得到有效的語音段表示一直是語種識別的關(guān)鍵問題。

到目前為止,全變量因子(i-vector)一直是主流語種識別系統(tǒng)中語音段的表示,主要原因是i-vector比較緊湊且包含充足的信息量,可以得到性能優(yōu)異的語種識別系統(tǒng)[3-4],其最初主要應(yīng)用于聲紋識別領(lǐng)域[5-6]。然而,i-vector是通過無監(jiān)督的全變量子空間建模算法(Total variability,TV)得到,因此通常需要線性判別分析(Linear discriminant analysis,LDA)和類內(nèi)協(xié)方差規(guī)整(Within-class covariance normalization,WCCN)等區(qū)分性訓(xùn)練做進(jìn)一步噪聲補(bǔ)償處理,才能得到較好的識別結(jié)果。通常情況下,i-vector提取算法、噪聲補(bǔ)償算法和得分計算算法統(tǒng)稱為TV模型后端。

近期許多深度學(xué)習(xí)技術(shù),包括深度神經(jīng)網(wǎng)絡(luò)(Deep neural networks,DNNs)在語音信號處理中有著廣泛的應(yīng)用[7-9]。在語種識別系統(tǒng)中,由于DNN的區(qū)分性建模能力,將其與TV系統(tǒng)的結(jié)合,使得語種識別性能有了進(jìn)一步提升。在前端特征建模方面,前期工作中提出了深瓶頸特征(Deep Bottleneck feature,DBF),并搭建了基于DBF的TV系統(tǒng)(DBF-TV)[10-11]。DBF是通過自動語音識別系統(tǒng)中音素識別器深度瓶頸網(wǎng)絡(luò)(Deep bottleneck network,DBN)得到,相比于傳統(tǒng)的聲學(xué)特征,DBF能夠去除與音素?zé)o關(guān)的信息,包括說話人信息、信道信息和背景噪聲。而在后端建模方面,文獻(xiàn)[12-14]利用DNN對單音素(Monophone)或者三音子狀態(tài)(Tri-phone states)進(jìn)行統(tǒng)計建模,從而提升TV系統(tǒng)的性能。無論是前端幀級特征提取或是后端建模,DNN都凸顯了其強(qiáng)大的區(qū)分性建模能力。然而上述這些方法都是在單音素或者三音子狀態(tài)上進(jìn)行映射,并不是直接對語種的差異性信息進(jìn)行建模,因此在高混淆度及短時語音上的識別性能會有較大幅度的衰減。

最近也有學(xué)者提出了端對端網(wǎng)絡(luò)的語種識別系統(tǒng),這類網(wǎng)絡(luò)摒棄了傳統(tǒng)的TV框架,充分利用神經(jīng)網(wǎng)絡(luò)的區(qū)分性建模能力,直接對語種差異性信息進(jìn)行建模,取得了較好的識別性能。文獻(xiàn)[15]使用DNN進(jìn)行語種識別,然而網(wǎng)絡(luò)的輸入層受到維數(shù)的限制,只包含21幀的底層聲學(xué)參數(shù)信息,限制了網(wǎng)絡(luò)對語種信息的建模能力。文獻(xiàn)[16-18]利用長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)(Long short term memory-recurrent neural network,LSTM-RNN)對語音信號進(jìn)行建模。由于其獨(dú)特的結(jié)構(gòu)設(shè)計,LSTM-RNN適合處理和預(yù)測時間序列中間隔和延遲很長的信息,并一定程度上解決了傳統(tǒng)RNN模型的梯度消失和梯度爆炸問題,但是LSTM-RNN模型復(fù)雜度高,訓(xùn)練時間長。

本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)的端對端語種識別系統(tǒng),該網(wǎng)絡(luò)結(jié)合了DNN在前端特征的建模能力和CNN從幀級特征到段級特征的映射能力(由于DNN的全連接層也可以用卷積的形式進(jìn)行表達(dá),因此DNN的全連接層和CNN中的卷積層都可看作卷積層),從底層聲學(xué)特征直接得到語種標(biāo)號,稱為語種識別網(wǎng)絡(luò)(Language identification network,LID-net)。該網(wǎng)絡(luò)直接對語種的差異性信息進(jìn)行建模,可以得到帶有語種區(qū)分性的基本單元(Language identification senone,LID-senone),在語音識別中,帶有音素區(qū)分性的基本單元被定義為senone,因此帶有語種區(qū)分性的基本單元被稱為LID-senone。并利用不同語種在LID-senone統(tǒng)計量上的分布差異性進(jìn)行語種識別。同時,在前端特征建模過程中利用了音素識別器的DBN網(wǎng)絡(luò),緩解了LID-net訓(xùn)練時出現(xiàn)的過擬合問題。實驗結(jié)果表明,相比于目前國際主流的DBF-TV系統(tǒng),該網(wǎng)絡(luò)在不同時長上的性能評價指標(biāo)中均有提升。

1 DBF-TV基線系統(tǒng)

本文采用的基線系統(tǒng)為現(xiàn)階段國際主流的DBFTV系統(tǒng),充分利用了DBF特征對三音子狀態(tài)的描述能力和TV算法對聲學(xué)特征統(tǒng)計建模的優(yōu)勢,其流程圖如圖1所示。

DBF-TV系統(tǒng)可以分為兩個部分:聲學(xué)特征前端和TV模型后端。聲學(xué)特征前端主要進(jìn)行DBF特征的提取,利用DBN對底層聲學(xué)特征進(jìn)行映射,從而得到TV模型后端所需的語音學(xué)特征;TV模型后端主要利用語音學(xué)特征進(jìn)行統(tǒng)計建模得到語音段表示,并在i-vector因子上進(jìn)行區(qū)分性建模補(bǔ)償,計算余弦得分,最終得到判決結(jié)果。

圖1 DBF-TV系統(tǒng)流程圖Fig.1 Framework of DBF-TV system

1.1 聲學(xué)特征前端

由于底層聲學(xué)特征包含著十分豐富的信息,而一些無關(guān)的噪聲會對語種系統(tǒng)的識別性能造成影響,在聲學(xué)特征前端需要盡量消除無關(guān)噪聲。文獻(xiàn)[19-22]證明提升聲學(xué)特征對音素描述的準(zhǔn)確程度會使得語種識別性能得到提高,因此使用自動語音識別中基于三音子狀態(tài)的音素識別器DBN來提取DBF特征。該DBN的輸入是底層聲學(xué)特征,輸出是所對應(yīng)的三音子狀態(tài),網(wǎng)絡(luò)中設(shè)置一層節(jié)點數(shù)目較少的隱層,稱為瓶頸(Bottleneck,BN)層,DBF的具體提取過程可參考文獻(xiàn)[10]。由于該網(wǎng)絡(luò)在底層聲學(xué)特征和三音子狀態(tài)之間建立了信息提取關(guān)系,因此可以有效去除與音素?zé)o關(guān)的噪聲。在提取到DBF特征后,使用TV模型后端進(jìn)行處理。

1.2 TV模型后端

TV是建立在高斯混合模型(Gaussian mixture model,GMM)均值超矢量上的統(tǒng)計建模算法,將語音段信息的所有差異通過一個統(tǒng)一的空間進(jìn)行描述,稱之為全差異空間T。TV的數(shù)學(xué)模型表示為

式中:M是每段語音的GMM均值超矢量,m表示語種無關(guān)的通用背景模型(Universal background model,UBM)均值超矢量,T表示描述全差異空間的投影載荷矩陣,w表示均值超矢量M在載荷矩陣空間下對應(yīng)的低維因子表示,其后驗概率均值稱為i-vector,并服從均值為0、方差為I的高斯分布。由于GMM均值超矢量往往有數(shù)十萬維,而i-vector維數(shù)通??刂圃跀?shù)百,它的優(yōu)勢體現(xiàn)在把GMM均值超矢量盡可能無損壓縮到一個低維的矢量空間中。T空間的建立極大地減少了需要估計的參數(shù),緩解了GMM模型中協(xié)方差矩陣估計不準(zhǔn)的問題。然而,全差異空間建模中并沒有利用到訓(xùn)練數(shù)據(jù)的標(biāo)記信息,因此在提取i-vector后需要使用區(qū)分性模型進(jìn)行噪聲補(bǔ)償。在經(jīng)過補(bǔ)償后,可以直接計算兩段語音向量的余弦相似度得到判決結(jié)果,余弦距離計算為

2 基于卷積神經(jīng)網(wǎng)絡(luò)的語種識別系統(tǒng)

2.1 語種識別網(wǎng)絡(luò)框架

盡管DBF-TV通過DNN引入了三音子狀態(tài)的區(qū)分性信息,但由于這些信息并不直接在語種的差異性上建模,在易混淆及短時語音的統(tǒng)計量建模上仍然會造成比較大的偏差。因此提出了一個基于語種識別任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),稱為LID-net,網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。整個網(wǎng)絡(luò)包括DNN層、卷積層、池化層和全連接層,利用神經(jīng)網(wǎng)絡(luò)(Neural network,NN)的區(qū)分性建模能力將底層聲學(xué)特征經(jīng)過復(fù)雜的非線性變換映射到帶有語種區(qū)分性的基本單元LID-senone。然后,通過池化層對LID-senone進(jìn)行簡單加權(quán)平均來代替?zhèn)鹘y(tǒng)TV生成式的學(xué)習(xí)方法,從而得到語音段表示。最后,通過全連接層得到每個語音段在每個語種類別上的后驗概率。

圖2 語種識別卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)框架Fig.2 Structure of language identification convolutional neural network

網(wǎng)絡(luò)的參數(shù)配置如表1所示。其中輸入或卷積核尺寸1@50×N表示輸入或卷積核的高度是50,寬度是N,通道數(shù)是1。網(wǎng)絡(luò)使用了兩次擴(kuò)幀處理。第1次在DNN層1擴(kuò)幀,使用了固定的10-1-10擴(kuò)幀窗,即包括當(dāng)前幀及其前后各擴(kuò)展的10幀,共計21幀來表示當(dāng)前幀的語音信號,這在基于DNN的語音信號處理中非常常見。經(jīng)過DNN層后,可以得到語種相關(guān)的50維BN特征;第2次在卷積層1擴(kuò)幀,擴(kuò)幀數(shù)由卷積核的大小控制,例如卷積核尺寸為1@50×21,表示使用10-1-10的擴(kuò)幀窗。在池化層,語音幀級信息被直接池化到段級的語音段表示,由于需要從不定長的語音特征池化到固定長度的語音段表示,網(wǎng)絡(luò)使用了文獻(xiàn)[23]提出的空間金字塔池化層(Spatial pyramid pooling,SPP)來代替?zhèn)鹘y(tǒng)的池化層。經(jīng)過SPP層,K@1×N的幀級特征被池化到固定長度的語音段級矢量,從而可以使用全連接層直接進(jìn)行分類。

表1 語種識別卷積神經(jīng)網(wǎng)絡(luò)參數(shù)配置表Tab.1 Configuration of language identification convolutional neural network

DNN層1~DNN層3的作用是特征轉(zhuǎn)換,由于三音子狀態(tài)的統(tǒng)計量信息可用來進(jìn)行語種識別,因此在特征轉(zhuǎn)換時借助了三音子狀態(tài)的信息(見2.3節(jié))。經(jīng)過DNN層3之后,可以得到低維的BN特征表達(dá),不同于傳統(tǒng)的底層聲學(xué)特征,譬如梅爾頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)或者感知線性預(yù)測(Perceptual linear predictive,PLP)系數(shù),它具有更魯棒的語種區(qū)分性,因此稱為語種相關(guān)特征。卷積層和池化層可看作語音段向量表示的提取器。語種相關(guān)特征經(jīng)過若干卷積層映射到具有語種區(qū)分性的基本單元LID-senone,其統(tǒng)計量信息會比三音子狀態(tài)攜有更多的語種區(qū)分性信息,更適合進(jìn)行語種識別。一段語音中,LID-senone通過池化層可以得到LID-senone統(tǒng)計量信息,由于LID-senone統(tǒng)計量是一個固定長度的向量表示,因此可以直接送入全連接層進(jìn)行語種分類。

2.2 LID-net結(jié)構(gòu)分析

CNN在計算機(jī)視覺領(lǐng)域通常會使用5×5等小卷積核對特征映射圖進(jìn)行卷積操作[24],這是因為圖像維度之間的相關(guān)性非常高。但是在LID-net上,通過觀察圖3,語種相關(guān)特征的協(xié)方差矩陣除了對角線上的值不為零,其他值幾乎都為零,表明該特征維間相關(guān)性非常弱,在特征上使用小卷積核沒有意義。因此卷積核1的尺寸覆蓋了語種相關(guān)特征所有維度及部分時域,在經(jīng)過卷積層1后,特征的維數(shù)變成了512@1×(N-20)。

為了驗證LID-senone及其統(tǒng)計量的合理性,搭建了只包含1層卷積層的LID-net。由于通過前向計算得到的LID-senone的統(tǒng)計量被送入全連接層用于語種識別,因此LID-senone統(tǒng)計量具有語種區(qū)分性。如圖4所示,采集了4段語音的LID-senone統(tǒng)計量,4段語音均屬于波斯語種類,其中2段語音來自波斯語(Farsi),另外2段語音來自達(dá)里語(Dari)。為了便于分析,隨機(jī)選取了35個LID-senone統(tǒng)計量。可以看出,相同語種的統(tǒng)計量分布更加相似,而不同語種的統(tǒng)計量分布顯示出了較大的差異。

此外,假如每一幀特征都有相對應(yīng)的LID-senone,那么它在所有LID-senone上激活值組成的矢量就具有稀疏性。圖5展示了1段語音中某4幀LID-senone的激活情況,為了方便觀察,激活值都做了Soft-max歸一化處理。從圖5(a)和(b)可以發(fā)現(xiàn)某1個LID-senone被激活;圖5(c)展示了LID-senone的轉(zhuǎn)換幀,有不止一個LID-senone被激活;(d)是非語音幀,沒有LID-senone被激活。

圖3 語種相關(guān)特征協(xié)方差矩陣圖Fig.3 Covariance matrix of language dependent feature

圖4 LID-senone統(tǒng)計量Fig.4 Statistics of LID-senone

圖5 LID-senone的激活值示意圖Fig.5 Activation values of LID-senone

根據(jù)上述實驗分析認(rèn)為LID-senone的存在是合理的,每1幀特征都有與其相對應(yīng)的LID-senone,并且其統(tǒng)計量信息具有語種區(qū)分性。

2.3 LID-net訓(xùn)練步驟

在自動語音識別中使用的DNN網(wǎng)絡(luò),每一幀聲學(xué)特征都會被映射到對應(yīng)的三音子狀態(tài)上,然而對于語種識別,1段語音才對應(yīng)1個語種標(biāo)號。由于網(wǎng)絡(luò)的參數(shù)規(guī)模比較大而訓(xùn)練語料不足,非常容易出現(xiàn)過擬合的情況,而LID-net大部分參數(shù)都集中在DNN層,因此使用遷移學(xué)習(xí)方法[25]利用音素識別網(wǎng)絡(luò)對DNN層的參數(shù)進(jìn)行初始化來緩解過擬合問題。如前所述,音素信息也有助于語種識別分類,并且音素分類器在每1幀上都映射到相對應(yīng)的三音子狀態(tài),因此先訓(xùn)練1個音素識別器,然后把部分參數(shù)作為LID-net中DNN層的參數(shù)初始化。

具體來說,首先利用公開語音數(shù)據(jù)集SwitchBoard[26]訓(xùn)練1個7層DBN網(wǎng)絡(luò)的音素識別器,輸入特征是48維,前后各擴(kuò)10幀,網(wǎng)絡(luò)輸出的狀態(tài)數(shù)是3 020,并帶有1個50維的BN層,網(wǎng)絡(luò)的結(jié)構(gòu)是48×21—2 048—2 048—50—2 048—2 048—3 020。網(wǎng)絡(luò)完成訓(xùn)練后,把音素識別器網(wǎng)絡(luò)的前3層參數(shù)作為LID-net中DNN層的初始化參數(shù),再對LID-net進(jìn)行訓(xùn)練。訓(xùn)練時,需要把DNN層參數(shù)的學(xué)習(xí)率降低,通常設(shè)為正常學(xué)習(xí)率的1/10。網(wǎng)絡(luò)訓(xùn)練完成后,輸出每個語種后驗概率直接使用余弦距離計算得分。

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集及性能評價指標(biāo)

為了驗證提出網(wǎng)絡(luò)的有效性,在NIST LRE 2009公開標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行相關(guān)實驗。該數(shù)據(jù)集包含23個語種,每個語種的訓(xùn)練數(shù)據(jù)均包含兩種信道:電話語音信道(Conversational telephone speech,CTS)和美國之聲(Voice of America,VOA)窄帶廣播信道,訓(xùn)練數(shù)據(jù)在經(jīng)過語音端點檢測(Voice activity detection,VAD)和切分后,時長約1 100 h。此外,還包括15 000條驗證數(shù)據(jù)和30 000余條測試數(shù)據(jù),其中包含3種時長的語音,30 s和10 s的長時語音及3 s的短時語音,每個時長都需要訓(xùn)練對應(yīng)的語種識別網(wǎng)絡(luò)。

評價指標(biāo)采用NIST評測使用的等錯誤率(Equal error rate,EER)和平均錯誤代價(Average decision cost function,Cavg)。其中EER是當(dāng)虛警率(False alarm,FA)和漏警率(Miss alarm,MA)相等時二者的值,Cavg的計算方式為

式中NL表示所有待識語種的數(shù)目;LT和LN分別表示目標(biāo)語種和非目標(biāo)語種;CMiss和CFA表示漏判決和錯誤判決一條語音的代價;PTarget和PNon-Target分別表示目標(biāo)語種和非目標(biāo)語種的先驗概率。根據(jù)NIST LRE 2009測試標(biāo)準(zhǔn),計算時 CMiss=CFA=1,PTarget=0.5,PNon-Target=(1-PTarget)/(NL-1)[27]。

3.2 相關(guān)系統(tǒng)定義

本文采用的語種識別系統(tǒng)具體描述如下。

系統(tǒng)1(LID-net):本文提出的系統(tǒng)。底層聲學(xué)特征采用48維PLP特征(13維特征+3維基音頻率特征,并計算一階和二階差分),使用2.3節(jié)所述方法初始化DNN層。識別網(wǎng)絡(luò)包含6個卷積層,其中前5層卷積通道數(shù)為512,第6層卷積通道數(shù)由32變化到512作為實驗對比。網(wǎng)絡(luò)訓(xùn)練迭代15輪,初始學(xué)習(xí)率設(shè)為0.05,每迭代5次學(xué)習(xí)率降10倍。網(wǎng)絡(luò)輸出矢量直接使用余弦距離計算得分。

系統(tǒng)2(DBF-TV):本文搭建的基線系統(tǒng)。底層聲學(xué)特征與系統(tǒng)1一致,并使用1.1節(jié)和2.3節(jié)描述的DBN網(wǎng)絡(luò)提取50維DBF特征。TV系統(tǒng)采用期望最大化(Expectation maximization,EM)算法迭代5輪訓(xùn)練1個秩為400的T矩陣,然后提取i-vector,再使用LDA和WCCN進(jìn)行噪聲補(bǔ)償后使用余弦距離計算得分,作為對照實驗使用。

系統(tǒng)3(DBF-TV-Ferrer):文獻(xiàn)[14]采用的語種識別DBF-TV系統(tǒng),作為對照實驗使用。

3.3 實驗結(jié)果及分析

實驗1卷積核尺寸對系統(tǒng)性能影響

為了構(gòu)建一個較為合理的語種區(qū)分性單元LID-senone,對卷積核1的尺寸進(jìn)行了相關(guān)實驗,尺寸從1@50×1變換到1@50×26,每次尺寸長度增加5。為了使LID-senone在混淆語種中也能有較好的區(qū)分性,在NIST LRE 2009數(shù)據(jù)集中選取了6個最易混淆的語種進(jìn)行本次實驗,分為3個方言對,分別是:達(dá)里語(Dari)和波斯語(Farsi)、俄語(Russian)和烏克蘭語(Ukrainian)、印地語(Hindi)和烏爾都語(Urdu)[28]。網(wǎng)絡(luò)只包含1個卷積層,通道數(shù)是1 024。系統(tǒng)的性能由EER(%)進(jìn)行評價,性能對比如圖6所示。

圖6 不同卷積核尺寸的系統(tǒng)性能對比圖Fig.6 Performance on different convolutional filter sizes

從圖6可以看出,隨著卷積核的長度增長,3種時長下語種識別的性能都在逐步提升。其中10 s和3 s網(wǎng)絡(luò)在卷積核尺寸為1@50×21時性能最優(yōu);而對于30 s網(wǎng)絡(luò),卷積核尺寸在1@50×26時比在1@50×21時只有輕微提升。因此整體來說,卷積核1尺寸設(shè)置在1@50×21比較合適,相當(dāng)于在卷積層1進(jìn)行了10-1-10的擴(kuò)幀,即每21幀語種相關(guān)特征可以表示1個LID-senone。再考慮到DNN層固定的10-1-10擴(kuò)幀窗,相當(dāng)于每41幀底層聲學(xué)特征可以較好地表示1個LID-senone。在語音識別領(lǐng)域,通常認(rèn)為11幀或15幀底層聲學(xué)特征可以較好地對三音子信息進(jìn)行建模,但對于LID-senone明顯需要更長時的信息。在下面的實驗中,卷積核1的尺寸統(tǒng)一配置為1@50×21。

實驗2卷積神經(jīng)網(wǎng)絡(luò)語種識別系統(tǒng)及對照系統(tǒng)性能對比

為了驗證本文提出的端對端語種識別系統(tǒng)的有效性,將該系統(tǒng)與3.2節(jié)的系統(tǒng)2和系統(tǒng)3進(jìn)行性能對比。LID-net第6層卷積層的通道數(shù)由32變化到512。所有系統(tǒng)的性能由EER(%)和Cavg(%)進(jìn)行評價,如表2所示。其中每個時長中性能最優(yōu)系統(tǒng)的數(shù)值用粗體表示??梢园l(fā)現(xiàn),LID-net在不同時長上的指標(biāo)均好于兩個基線系統(tǒng)DBF-TV及DBF-TV-Ferrer??傮w來說,語音的時長越短,系統(tǒng)性能提升的幅度越大。相較于DBF-TV系統(tǒng),LID-net系統(tǒng)的EER在30 s,10 s和3 s時長上分別相對下降了1.35%,12.79%和29.84%;Cavg在3種時長上分別相對下降了32.73%,31.77%和32.49%。這是因為經(jīng)過CNN的區(qū)分性建模,不同語種的得分分布更具有區(qū)分性,從而實現(xiàn)更優(yōu)的系統(tǒng)性能。因此LID-net這種端對端模型可以很好地對語種信息進(jìn)行建模,尤其在短時語音上比生成性模型有更大優(yōu)勢。實驗結(jié)果表明,LID-net的第6個卷積層通道數(shù)需要合理設(shè)置,通道數(shù)太小會對系統(tǒng)性能造成影響,而太大則會導(dǎo)致過擬合。

表2 不同語種識別系統(tǒng)性能對比Tab.2 Performance comparison on different language identification systems

4 結(jié)束語

本文針對語種識別任務(wù)提出了一個基于卷積神經(jīng)網(wǎng)絡(luò)的端對端語種識別系統(tǒng),網(wǎng)絡(luò)層數(shù)較深但比較直觀。通過DNN層可以得到語種相關(guān)特征;再通過卷積層得到LID-senone;最后通過池化層得到LID-senone統(tǒng)計量并送入分類器得到識別結(jié)果。由于音素信息有助于語種識別,而DNN層有大量的待訓(xùn)練參數(shù)。因此先訓(xùn)練1個音素分類器,并把部分參數(shù)作為DNN層初始化參數(shù),然后訓(xùn)練LID-net網(wǎng)絡(luò)。對比現(xiàn)階段主流的DBF-TV系統(tǒng),EER在30 s,10 s和3 s時長上分別相對下降了1.35%,12.79%和29.84%,Cavg在所有時長上均相對下降了30%左右。然而,LID-net中池化層只是對LID-senone做了簡單的加權(quán)平均,造成了大量的信息損失。因此,如何充分利用LID-senone的信息將是未來工作的重點。

猜你喜歡
音素語種聲學(xué)
新目標(biāo)英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
《波斯語課》:兩個人的小語種
時代郵刊(2021年8期)2021-07-21 07:52:44
依托繪本課程,培養(yǎng)學(xué)生英語音素意識
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
小學(xué)英語課堂中音素意識與自然拼讀整合訓(xùn)練的探索
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
?不定冠詞a與an
“一帶一路”背景下我國的外語語種規(guī)劃
塘沽区| 五指山市| 屏南县| 定结县| 内黄县| 杭锦后旗| 巧家县| 盘锦市| 甘孜| 潞城市| 黄冈市| 文昌市| 石阡县| 扶风县| 噶尔县| 盐边县| 社旗县| 永丰县| 偃师市| 庆元县| 巴彦淖尔市| 长兴县| 镇沅| 永福县| 扎兰屯市| 广西| 易门县| 永春县| 同心县| 汨罗市| 霸州市| 吴桥县| 蚌埠市| 红安县| 定结县| 大港区| 新密市| 平舆县| 尤溪县| 塔河县| 承德市|