孫 健, 郭 武
(中國(guó)科學(xué)技術(shù)大學(xué) 語(yǔ)音及語(yǔ)言信息處理國(guó)家工程實(shí)驗(yàn)室, 合肥 230027)
隨著深度學(xué)習(xí)的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)取代混合高斯模型[1](Gaussian Mixture Model,GMM) ,并與隱馬爾可夫模型[2](Hidden Markov Model,HMM)相結(jié)合,對(duì)狀態(tài)進(jìn)行建模,使得大規(guī)模連續(xù)語(yǔ)音識(shí)別的性能獲得了顯著的提高.近年來(lái),循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)及其變體--長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[3](Long Short-Term Memory,LSTM)成功應(yīng)用于語(yǔ)音識(shí)別,解決了普通的深度神經(jīng)網(wǎng)絡(luò)[4](Deep Neural Network, DNN)無(wú)法對(duì)語(yǔ)音信號(hào)時(shí)序特性建模的缺點(diǎn),語(yǔ)音識(shí)別性能進(jìn)一步提升.但是以HMM為框架的識(shí)別算法對(duì)語(yǔ)言學(xué)知識(shí)的要求較高,包括上下文相關(guān)音素狀態(tài)綁定,發(fā)音字典的準(zhǔn)備等等,開(kāi)發(fā)難度較大.另外訓(xùn)練過(guò)程中,需要通過(guò)強(qiáng)制對(duì)齊,獲得幀級(jí)標(biāo)注,任務(wù)復(fù)雜程度較高,且忽略了語(yǔ)音序列內(nèi)在特性,無(wú)法全局優(yōu)化整個(gè)語(yǔ)音序列.
為解決上述問(wèn)題,A.Graves等人提出鏈接時(shí)序分類技術(shù)[5,6](Connectionist Temporal Classification,CTC)和端到端的識(shí)別系統(tǒng),解決了輸入和輸出標(biāo)簽對(duì)應(yīng)關(guān)系未知情況下的序列分類問(wèn)題,全局優(yōu)化語(yǔ)音序列.與之前提到的混合模型不同,CTC不需要隱馬爾可夫模型,僅需要單獨(dú)的神經(jīng)網(wǎng)絡(luò)即可完成整個(gè)語(yǔ)音識(shí)別任務(wù).在基于CTC的端到端系統(tǒng)中,將語(yǔ)音序列直接映射到標(biāo)注序列所在的空間,消減了發(fā)音詞典,語(yǔ)言模型等成分,極大地簡(jiǎn)化了語(yǔ)音識(shí)別的步驟[7,8].
本文探討了日語(yǔ)語(yǔ)音識(shí)別的相關(guān)問(wèn)題.日語(yǔ)是日本國(guó)的官方語(yǔ)言,日語(yǔ)中主要使用的文字包括平假名(例如:"あ"),片假名(例如:"テ"),和日語(yǔ)漢字(例如:"日本語(yǔ)").平假名包含了日語(yǔ)中所有的發(fā)音[9],片假名用于書寫外來(lái)詞,擬聲詞,擬態(tài)詞和一部分動(dòng)、植物的名稱,日語(yǔ)漢字用于表示實(shí)物的名稱或動(dòng)作.日語(yǔ)中一般混合使用三種字體,其中平假名和片假名一一對(duì)應(yīng),由于假名同音歧義的現(xiàn)象比較嚴(yán)重,因此日語(yǔ)中漢字使用十分廣泛,常用漢字有2000多個(gè),而且所有的漢字均可通過(guò)假名表達(dá).雖然日語(yǔ)中的發(fā)音單元并不多,但書寫單元種類繁多,表現(xiàn)形式復(fù)雜,因此以CTC技術(shù)為核心的端到端語(yǔ)音識(shí)別系統(tǒng)中,選擇合適的建模單元能夠?qū)ψR(shí)別性能進(jìn)一步優(yōu)化.本文首先采用字型(gra-phoneme)即全部的假名和常用漢字共2795個(gè)單元進(jìn)行建模,實(shí)驗(yàn)結(jié)果與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM-HMM)系統(tǒng)差距較大.進(jìn)一步,在已經(jīng)知道日語(yǔ)語(yǔ)音學(xué)知識(shí)的情況下,將其結(jié)合到端到端識(shí)別系統(tǒng)中.選擇以音素為建模單元訓(xùn)練任務(wù),系統(tǒng)性能得到提升.
在進(jìn)行CTC的實(shí)驗(yàn)中,我們發(fā)現(xiàn)字型作為建模單元的神經(jīng)網(wǎng)絡(luò)輸出的后驗(yàn)概率比較尖銳,隨機(jī)初始化的網(wǎng)絡(luò)容易陷入局部最優(yōu)解,因此本文把以音素為建模單元的訓(xùn)練模型作為初始網(wǎng)絡(luò)以提升前者模型的魯棒性,使得識(shí)別性能大幅提高,此外我們將傳統(tǒng)的語(yǔ)言模型與CTC相結(jié)合,系統(tǒng)效果獲得明顯的提升,超過(guò)當(dāng)前主流的BiLSTM-HMM系統(tǒng).
當(dāng)前語(yǔ)音識(shí)別的主要方法是采用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體和隱馬爾可夫模型相結(jié)合進(jìn)行聲學(xué)模型的訓(xùn)練.循環(huán)神經(jīng)網(wǎng)絡(luò)利用過(guò)去的信息,將上一時(shí)刻隱層輸出輸入到當(dāng)前時(shí)刻的隱層中,保留了之前的信息,如圖1所示.語(yǔ)音信號(hào)作為一個(gè)時(shí)間序列,上下文依賴性較強(qiáng),因此循環(huán)神經(jīng)網(wǎng)絡(luò)很快被應(yīng)用于語(yǔ)音識(shí)別.理論上RNN可以處理任意長(zhǎng)的序列,但是由于梯度消失,導(dǎo)致RNN無(wú)法利用較遠(yuǎn)時(shí)刻的信息.
圖1 RNN時(shí)間展開(kāi)圖 Fig.1 Unfolded RNN structure
為解決這一問(wèn)題,RNN衍生出一種變體--長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[10](LSTM).原始的RNN網(wǎng)絡(luò)中,隱藏層只有一個(gè)狀態(tài),無(wú)法解決序列的長(zhǎng)時(shí)依賴問(wèn)題,所以在隱藏層節(jié)點(diǎn)中額外引入一個(gè)cell單元,cell單元利用了門的概念,通過(guò)門的控制保留長(zhǎng)時(shí)信息.Cell單元包含"輸入門","輸出門"和"遺忘門",其中輸入門決定當(dāng)前語(yǔ)音信號(hào)如何保存到cell單元中,輸出門決定cell單元狀態(tài)如何作為隱藏層的輸出,遺忘門決定上一時(shí)刻的cell單元狀態(tài)如何保存到當(dāng)前時(shí)刻的cell單元中.
圖2展示了cell單元的工作原理,輸入信號(hào)包括當(dāng)前輸入信息xt,上一時(shí)刻隱藏層的輸出ht-1,以及上一時(shí)刻的cell單元狀態(tài)Ct,cell單元的輸出包括隱藏層當(dāng)前狀態(tài)ht,以及Cell單元的當(dāng)前狀態(tài)Ct.
圖2 cell結(jié)構(gòu) Fig.2 Architecture of memory cell
具體計(jì)算見(jiàn)式(1)到式(6),其中ft,it,ot分別表示遺忘門,輸入門和輸出門,° 表示按元素乘運(yùn)算.
ft=σ(Wf[ht-1,xt]+bf)
(1)
it=σ(Wi[ht-1,xt]+bi)
(2)
(3)
(4)
ot=σ(Wo[ht-1,xt]+bo)
(5)
ht=ot°tanh(Ct)
(6)
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)利用cell結(jié)構(gòu)解決了時(shí)間序列的長(zhǎng)時(shí)依賴問(wèn)題,有效使用了當(dāng)前時(shí)刻之前的信息,然而在一些任務(wù)中,除了過(guò)去的信息,未來(lái)信息也很重要,因此雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)[11]登上舞臺(tái).本文在后續(xù)實(shí)驗(yàn)中,采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)完成CTC系統(tǒng)的搭建.
鏈接時(shí)序分類(CTC)主要用于處理時(shí)序分類任務(wù),尤其是輸入信號(hào)與目標(biāo)標(biāo)簽對(duì)齊結(jié)果未知的情況.鏈接時(shí)序分類技術(shù)在整個(gè)輸入序列的任何一點(diǎn)都可以進(jìn)行標(biāo)簽預(yù)測(cè),解決了傳統(tǒng)語(yǔ)音識(shí)別中需要強(qiáng)制對(duì)齊的問(wèn)題.通過(guò)鏈接時(shí)序分類技術(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的準(zhǔn)則稱為CTC準(zhǔn)則.
(7)
基于集合A′得到序列l(wèi),需要映射到集合A所對(duì)應(yīng)的空間,因此定義函數(shù)F:A′T→A (8) O=-lnP(L|x) (9) (10) 根據(jù)上述公式,目標(biāo)函數(shù)可表示為時(shí)刻T輸出blank或者沒(méi)有輸出blank的前向概率之和,即: P(L|x)=α(T,2M+1)+α(T,2M) (11) 所有正確的路徑必須起始于blank,或者是L的第一個(gè)輸出標(biāo)簽. (12) (13) α(1,m)=0,?m>2 (14) 故前向概率的迭代形式如下: (15) 其中 (16) 在每一個(gè)時(shí)間點(diǎn)都要考慮是否有足夠的時(shí)長(zhǎng)來(lái)完成剩余序列,故前向概率需要滿足下式: α(t,m)=0 ?m<2M-2(T-t) (17) 同理定義后向概率β(t,m)表示滿足前向概率α(t,m),且從t+1時(shí)刻開(kāi)始到輸出序列L結(jié)束的所有可能路徑的概率之和,計(jì)算過(guò)程與前向概率類似,不再贅述. 因此,在訓(xùn)練樣本集合S={x,L}上的神經(jīng)網(wǎng)絡(luò)的損失函數(shù)可表示為: (18) (19) 日語(yǔ)擁有復(fù)雜的書寫系統(tǒng),主要包括平假名、片假名和日語(yǔ)漢字三種文字系統(tǒng),同時(shí)也可以以日語(yǔ)羅馬字轉(zhuǎn)寫為拉丁字母.日語(yǔ)漢字的讀音復(fù)雜,大多包含音讀(音読)和訓(xùn)讀(訓(xùn)読)兩類,音讀將古代漢語(yǔ)讀音日語(yǔ)化,訓(xùn)讀保留漢字含義,采用日語(yǔ)固有讀音方法,通常使用平假名和片假名為日語(yǔ)漢字注音(見(jiàn)圖3).羅馬字多用于商標(biāo)和招牌,文章中一般很少使用. 圖3 假名注音方式 Fig.3 Pronunciation in kana 現(xiàn)在語(yǔ)音識(shí)別有發(fā)音字典,在圖4中,左邊是我們圖3中的假名以及漢字分詞后的詞單元,右側(cè)則是在經(jīng)典的語(yǔ)音識(shí)別中用到的所謂音素,根據(jù)每個(gè)字的發(fā)音組成進(jìn)行處理. 圖4 發(fā)音字典 左側(cè)是假名,漢字以及兩者構(gòu)成的詞語(yǔ),右側(cè)是音素組成 Fig.4 Pronunciation dictionary on the left side of the pronunciation dictionary are kana, kanji and the words formed by the two. The right side is composed of phonemes 在經(jīng)典的DNN-HMM或者LSTM-HMM框架下,將圖4中的音素的綁定三音子單元(tri-phone)中的狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的建模單元.另一方面,采用CTC建模的策略下,可以直接忽略圖4所示的詞典,直接采用圖3所示的標(biāo)注來(lái)進(jìn)行模型訓(xùn)練.本文中,采用兩種策略實(shí)現(xiàn)CTC的日語(yǔ)識(shí)別,首先是直接采用假名(平假名、片假名)和漢字作為聲學(xué)建模的輸出單元,也就是最常用的日語(yǔ)分詞都不再采用,直接根據(jù)字型(gra-phoneme)來(lái)做輸出單元,而不考慮這些字到底是單音節(jié)還是多音節(jié),或者根本都無(wú)法組成一個(gè)音節(jié),本文的策略對(duì)非拉丁字母的端對(duì)端識(shí)別具有一定的參考;第二種策略是,既然有日語(yǔ)分詞和日語(yǔ)詞典,我們將其應(yīng)用到CTC的聲學(xué)建模中,也就是把一句話的gra-phoneme拆解成以單音素(mono-phone)為單元的音素串,但是采用CTC的優(yōu)化準(zhǔn)則來(lái)訓(xùn)練聲學(xué)模型,從訓(xùn)練語(yǔ)句一句話的角度來(lái)優(yōu)化模型參數(shù). 相對(duì)英語(yǔ)和漢語(yǔ)這兩種世界廣泛應(yīng)用的語(yǔ)言而言,日語(yǔ)識(shí)別語(yǔ)料還是相對(duì)較少,如何在語(yǔ)料較少的情況下訓(xùn)練一個(gè)穩(wěn)健的聲學(xué)模型也是一個(gè)很重要的研究點(diǎn).對(duì)于深度學(xué)習(xí)而言,首先采用相對(duì)好的參數(shù)來(lái)初始化模型參數(shù),避免陷入局部最優(yōu)解,是目前最常用的一種策略.最常用的初始化策略是采用大語(yǔ)種(如英漢)的模型參數(shù)作為初始值.故本文在搭建BiLSTM-HMM系統(tǒng)時(shí),采用300小時(shí)的switchboard英語(yǔ)數(shù)據(jù)集的訓(xùn)練結(jié)果作為初始網(wǎng)絡(luò),增強(qiáng)系統(tǒng)魯棒性. 正像漢語(yǔ)一樣,日語(yǔ)中也存在著多發(fā)音字現(xiàn)象,而直接把字形拿來(lái)建模是無(wú)法考慮這種情況的;另外,不同字的字頻分布也很不均勻,在基于日語(yǔ)字的CTC系統(tǒng)的訓(xùn)練過(guò)程中,我們發(fā)現(xiàn)隨機(jī)初始化的CTC相較于傳統(tǒng)的HMM模型,神經(jīng)網(wǎng)絡(luò)輸出的后驗(yàn)概率比較尖銳,訓(xùn)練過(guò)程不穩(wěn)定,容易過(guò)早收斂,陷入局部最優(yōu)解.考慮到已經(jīng)有日語(yǔ)的音素信息的詞典,而這種音素信息相對(duì)而言比較可靠,以音素為建模單元的模型相對(duì)而言穩(wěn)健性更好,將其作為以字為建模單元的初始網(wǎng)絡(luò),從而可以避免陷入局部最優(yōu)解的不足. 本文在King-ASR-117日語(yǔ)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).該數(shù)據(jù)庫(kù)收集了安靜環(huán)境下122945條語(yǔ)音數(shù)據(jù),長(zhǎng)達(dá)145.2小時(shí),所有語(yǔ)音數(shù)據(jù)均為16KHz采樣率、16bit、單通道的格式.在實(shí)驗(yàn)中我們挑選了~106.2k條語(yǔ)音數(shù)據(jù)(~123h)作為訓(xùn)練集,~5.4k條語(yǔ)音數(shù)據(jù)(~6.21h)作為開(kāi)發(fā)集,~2.5k條語(yǔ)音數(shù)據(jù)(~2.88h)作為測(cè)試集.本文以Kaldi[12]和Eesen[13]作為實(shí)驗(yàn)平臺(tái),比較了基于隱馬爾可夫模型的語(yǔ)音識(shí)別系統(tǒng)和基于鏈接分類技術(shù)的端到端系統(tǒng)的識(shí)別效果. 實(shí)驗(yàn)中將39維梅爾頻率倒譜系數(shù) (MFCC特征)作為GMM-HMM混合系統(tǒng)的輸入信號(hào),在GMM-HMM系統(tǒng)中,通過(guò)高斯分裂和決策樹(shù)聚類最終綁定狀態(tài)數(shù)目為12970,用得到的模型對(duì)訓(xùn)練數(shù)據(jù)做強(qiáng)制對(duì)齊得到幀級(jí)標(biāo)簽,作為后續(xù)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù). 在LSTM-HMM訓(xùn)練中,采用108維filterbank特征進(jìn)行訓(xùn)練.當(dāng)前幀利用之前發(fā)生的40幀信號(hào)獲得過(guò)去信息,同時(shí)在輸入語(yǔ)音幀和輸出標(biāo)簽中加入一定時(shí)延得到一部分之后的信息.網(wǎng)絡(luò)共有3層隱藏層,隱層節(jié)點(diǎn)為1024,輸出維度仍然是12970. 為更好地利用上下文信息,我們采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),BiLSTM-HMM系統(tǒng)與LSTM-HMM結(jié)構(gòu)基本一致,只是在當(dāng)前幀的前后各使用了40幀語(yǔ)音數(shù)據(jù).另外,我們采用英語(yǔ)的SwitchBoard作為初始網(wǎng)絡(luò)來(lái)提高系統(tǒng)的識(shí)別正確率. 基于鏈接時(shí)序分類的語(yǔ)音識(shí)別系統(tǒng),擯棄了隱馬爾可夫模型,直接從輸入序列映射到輸出序列.本實(shí)驗(yàn)中采取3層隱藏層,每層1024個(gè)隱藏節(jié)點(diǎn)的BiLSTM網(wǎng)絡(luò),和108維filterbank特征進(jìn)行聲學(xué)模型的訓(xùn)練.我們訓(xùn)練了兩個(gè)CTC的基本系統(tǒng),一個(gè)是以字作為神經(jīng)網(wǎng)絡(luò)輸出節(jié)點(diǎn),也就是基于gra-phoneme的系統(tǒng),另外一個(gè)是以音素為神經(jīng)網(wǎng)絡(luò)輸出節(jié)點(diǎn),也就是基于phoneme的系統(tǒng).在這兩個(gè)基本系統(tǒng)的基礎(chǔ)上,用后者的訓(xùn)練得到的網(wǎng)絡(luò)來(lái)作為初始網(wǎng)絡(luò),再重新優(yōu)化以字作為輸出節(jié)點(diǎn)的系統(tǒng),得到識(shí)別性能更優(yōu)的系統(tǒng). 在搭建以日字為建模單元的CTC系統(tǒng)時(shí),經(jīng)統(tǒng)計(jì),數(shù)據(jù)集中假名、漢字共有2794個(gè)單元,測(cè)試集中包含少量的集外英語(yǔ)詞匯,故添加1個(gè)blank單元,利用2795個(gè)建模單元進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)采取多句并行的方法,利用GPU,加快訓(xùn)練速度.在實(shí)驗(yàn)過(guò)程中,我們發(fā)現(xiàn)了不同單元詞頻差異很大,如圖5.這種字頻差異很大會(huì)導(dǎo)致模型相對(duì)魯棒性較差. 圖5 以字為建模單元,以頻率對(duì)不同建模單元分類Fig.5 Gra-phoneme as modeling unit, frequency of different modeling unit 考慮到資源稀疏性對(duì)實(shí)驗(yàn)結(jié)果的影響,我們利用發(fā)音詞典,以音素為建模單元進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集中共有音素237個(gè),加入blank后,網(wǎng)絡(luò)的輸出節(jié)點(diǎn)為238,統(tǒng)計(jì)各個(gè)音素出現(xiàn)的頻率如圖6所示,相對(duì)均衡性更好,訓(xùn)練得到的模型理應(yīng)更穩(wěn)健. 圖6 以音素為建模單元,以頻率對(duì)不同建模單元分類Fig.6 Phoneme as modeling unit, frequency of different modeling unit 得到以音素為建模單元的CTC網(wǎng)絡(luò)后,將其作為日字CTC訓(xùn)練系統(tǒng)的初始網(wǎng)絡(luò),增強(qiáng)系統(tǒng)的魯棒性,避免訓(xùn)練過(guò)程陷入局部最優(yōu)解. 由于基本的CTC方法不考慮語(yǔ)言學(xué)知識(shí),嚴(yán)重影響識(shí)別效果[14-16],因此本文采用加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)[17](Weighted Finite-State Transducer, WFST)的方法,將語(yǔ)言模型,詞典,標(biāo)注符號(hào)打包在一起生成龐大的搜索網(wǎng)絡(luò)進(jìn)行解碼,提高了解碼效率和識(shí)別的準(zhǔn)確率. 以上描述的多個(gè)系統(tǒng)的識(shí)別詞錯(cuò)誤率如表1所示. 在隱馬爾可夫模型的框架下,LSTM的實(shí)驗(yàn)結(jié)果相較于GMM提高了6.57個(gè)百分點(diǎn),可見(jiàn)神經(jīng)網(wǎng)絡(luò)對(duì)人類認(rèn)知世界的擬合能力非常強(qiáng)大.將LSTM替換為BiLSTM,神經(jīng)網(wǎng)絡(luò)高效地利用上下文的信息,最終我們的基線系統(tǒng)詞錯(cuò)誤率為16.22%. 表1 實(shí)驗(yàn)結(jié)果 Table 1 Experimental results 在基于鏈接時(shí)序分類的語(yǔ)音識(shí)別系統(tǒng),我們首先以日字作為建模單元(CTC-Gra-phoneme),隨機(jī)初始化網(wǎng)絡(luò)模型,詞錯(cuò)誤率為17.80%.降低建模單元的顆粒度之后,利用音素作為建模單元(CTC-Phoneme),實(shí)驗(yàn)性能得到進(jìn)一步提升,詞錯(cuò)誤率為17.37%,但相對(duì)于BiLSTM-HMM仍有差距,這主要是傳統(tǒng)的HMM建模單元采用的是三音子單元(tri-phone),而CTC采用的是單音子(mono-phone),區(qū)分性差一些.但是,將CTC-Phoneme系統(tǒng)得到的網(wǎng)絡(luò)作為初始模型添加到日字CTC系統(tǒng)中,最終詞錯(cuò)誤率為15.53%,這也證明了將音素初始信息加入后,模型參數(shù)更加可靠穩(wěn)健. 基于CTC的日字識(shí)別系統(tǒng)對(duì)日字進(jìn)行建模,能夠從語(yǔ)音空間直接映射到手寫空間,針對(duì)日語(yǔ)中存在大量的同音歧義字,有比較好的建模能力.在下例中,標(biāo)注為日語(yǔ)漢字,括號(hào)中是日語(yǔ)漢字對(duì)應(yīng)的假名,表明其發(fā)音,其中"次官"和"時(shí)間"假名注解相同.可以看到CTC系統(tǒng)和HMM系統(tǒng)的識(shí)別結(jié)果發(fā)音相同,但是HMM系統(tǒng)的識(shí)別結(jié)果卻不同于標(biāo)注.因此選擇端到端的方式針對(duì)日語(yǔ)語(yǔ)音識(shí)別具有一定的合理性. 例: 標(biāo)注:次官(じかん) 空(から) CTC識(shí)別結(jié)果:次官 空 HMM識(shí)別結(jié)果:時(shí)間(じかん) から 本文研究了基于鏈接時(shí)序分類的端到端技術(shù),在日語(yǔ)數(shù)據(jù)集上,根據(jù)日語(yǔ)文字的特點(diǎn),搭建了完整的語(yǔ)音識(shí)別系統(tǒng),通過(guò)實(shí)驗(yàn)比較了不同顆粒度建模單元對(duì)識(shí)別性能的影響,最終基于CTC的語(yǔ)音識(shí)別系統(tǒng)性能超越BiLSTM-HMM系統(tǒng),證明了CTC技術(shù)在日語(yǔ)語(yǔ)音識(shí)別上的有效性,也驗(yàn)證了如果能夠?qū)⒁羲匦畔⒔Y(jié)合到模型訓(xùn)練中,可以進(jìn)一步提升性能.3.2 目標(biāo)函數(shù)計(jì)算
3.3 基于CTC的日語(yǔ)識(shí)別單元選擇
3.4 CTC模型訓(xùn)練參數(shù)初始化
4 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集和實(shí)驗(yàn)平臺(tái)
4.2 基于HMM的語(yǔ)音識(shí)別系統(tǒng)
4.3 基于CTC的語(yǔ)音識(shí)別系統(tǒng)
4.4 實(shí)驗(yàn)分析
5 實(shí)驗(yàn)總結(jié)