国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Kaldi的普米語(yǔ)語(yǔ)音識(shí)別

2018-01-19 00:54:08,,
計(jì)算機(jī)工程 2018年1期
關(guān)鍵詞:魯棒性聲學(xué)識(shí)別率

,,

(云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,昆明 650500)

0 概述

近年來(lái)語(yǔ)音識(shí)別技術(shù)得到飛速的發(fā)展,通過(guò)自然語(yǔ)言控制機(jī)器的夢(mèng)想正在逐步實(shí)現(xiàn)。國(guó)內(nèi)語(yǔ)音識(shí)別研究經(jīng)過(guò)60年左右的積累,尤其是近20年來(lái)快速的發(fā)展,已取得顯著成效。語(yǔ)音識(shí)別技術(shù)已由傳統(tǒng)的隱馬爾科夫模型(Hidden Markov Model,HMM)發(fā)展到了當(dāng)今廣泛使用的深度學(xué)習(xí)技術(shù),并且取得較好的效果。但是這些研究都是針對(duì)英語(yǔ)、漢語(yǔ)等國(guó)際主流語(yǔ)言,對(duì)無(wú)文字瀕危少數(shù)民族語(yǔ)言進(jìn)行語(yǔ)音識(shí)別的研究目前還比較少見(jiàn)。

云南省有25個(gè)少數(shù)民族,大部分少數(shù)民族都有本民族的語(yǔ)言。由于民族語(yǔ)言眾多且語(yǔ)言之間差別較大,導(dǎo)致各民族之間的交流比較困難。同時(shí),像普米族、基諾族等人口較少的民族有20%的語(yǔ)言已經(jīng)瀕危[1]。因此,從少數(shù)民族語(yǔ)言保護(hù)和傳承的角度看,進(jìn)行少數(shù)民族語(yǔ)音識(shí)別研究就顯得尤為重要。本團(tuán)隊(duì)的主要工作是針對(duì)普米語(yǔ)進(jìn)行語(yǔ)音識(shí)別研究。普米族有本民族的語(yǔ)言,但沒(méi)有文字。普米語(yǔ)屬于漢藏語(yǔ)系藏緬語(yǔ)族羌語(yǔ)支,分為南北兩個(gè)方言[2]。在此之前本團(tuán)隊(duì)的研究主要是基于HTK進(jìn)行的,已取得了一些成果[3-7]。本文引入基于Kaldi的深度學(xué)習(xí)技術(shù)對(duì)普米語(yǔ)語(yǔ)音識(shí)別做進(jìn)一步研究,這對(duì)普米語(yǔ)語(yǔ)音識(shí)別率的提高意義重大。

文獻(xiàn)[8]提出深度學(xué)習(xí)的概念,激起了深度學(xué)習(xí)的研究熱潮。自2009年以來(lái),將深度學(xué)習(xí)技術(shù)應(yīng)用到語(yǔ)音識(shí)別領(lǐng)域取得巨大成功。百度研發(fā)的新技術(shù):深度語(yǔ)音識(shí)別(Deep Speech),通過(guò)使用一種叫做疊加的物理學(xué)原理,在干凈的語(yǔ)音語(yǔ)料中加入各種不同的背景噪聲來(lái)擴(kuò)大語(yǔ)音語(yǔ)料量,用得到的語(yǔ)音語(yǔ)料進(jìn)行深度語(yǔ)音識(shí)別實(shí)驗(yàn),同時(shí)使用百度強(qiáng)大的新計(jì)算機(jī)系統(tǒng)的GPU進(jìn)行加速支撐,運(yùn)算效率得到重大提升,詞錯(cuò)誤率降低了10%[9]。微軟公司人工智能研發(fā)團(tuán)隊(duì)受到機(jī)器學(xué)習(xí)集成技術(shù)的啟發(fā),系統(tǒng)性地結(jié)合使用了一系列的卷積神經(jīng)網(wǎng)絡(luò)模型、長(zhǎng)短時(shí)間記憶單元的神經(jīng)網(wǎng)絡(luò)、全新的空間平滑方法和最大互信息訓(xùn)練方法,為所有聲學(xué)模型架構(gòu)的性能帶來(lái)了顯著的提升,最好的單個(gè)聲學(xué)模型系統(tǒng)在NIST 2000 Switchboard數(shù)據(jù)集上的詞錯(cuò)誤率為6.9%,數(shù)個(gè)聲學(xué)模型系統(tǒng)性地結(jié)合將詞錯(cuò)誤率降低到6.3%[10]??拼笥嶏w將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)模型首次成功應(yīng)用到中文語(yǔ)音識(shí)別領(lǐng)域,語(yǔ)音識(shí)別率得到很大提升[11]。這些基于深度學(xué)習(xí)的語(yǔ)音識(shí)別研究主要是針對(duì)英語(yǔ)、漢語(yǔ)等國(guó)際主流語(yǔ)言的,在少數(shù)民族語(yǔ)言語(yǔ)音識(shí)別中使用深度學(xué)習(xí)技術(shù)的還比較少見(jiàn),查閱到的文獻(xiàn)主要集中在藏語(yǔ)、維吾爾語(yǔ)以及蒙古語(yǔ)。文獻(xiàn)[12]在基于DNN模型的聲學(xué)建模中,針對(duì)數(shù)據(jù)稀疏問(wèn)題,提出了采用大語(yǔ)種數(shù)據(jù)訓(xùn)練好的DNN模型作為目標(biāo)模型的初始網(wǎng)絡(luò)進(jìn)行模型優(yōu)化的策略,實(shí)驗(yàn)用自然對(duì)話(huà)風(fēng)格的藏語(yǔ)電話(huà)語(yǔ)音,共計(jì)10 327個(gè)句子,從中隨機(jī)選擇550個(gè)句子用于測(cè)試,其余的用于訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,用1 000 h的漢語(yǔ)訓(xùn)練的DNN模型作為藏語(yǔ)DNN模型的初始網(wǎng)絡(luò),相對(duì)直接用藏語(yǔ)訓(xùn)練的DNN模型,語(yǔ)音識(shí)別率提升了6.37%[12]。文獻(xiàn)[13]提出了基于DNN模型的維吾爾語(yǔ)語(yǔ)音識(shí)別方法,以Kaldi語(yǔ)音識(shí)別工具包為實(shí)驗(yàn)平臺(tái),用4 466條維吾爾語(yǔ)語(yǔ)音訓(xùn)練了一個(gè)含有4隱層的DNN模型,用訓(xùn)練好的DNN模型對(duì)499條維吾爾語(yǔ)語(yǔ)音進(jìn)行測(cè)試,測(cè)試結(jié)果顯示,DNN模型相比傳統(tǒng)的HMM詞錯(cuò)誤率下降了31.09%[13]。文獻(xiàn)[14]基于Kaldi語(yǔ)音識(shí)別工具包,用DNN模型建立大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),用78 h的蒙古語(yǔ)語(yǔ)音語(yǔ)料進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,DNN-HMM模型比GMM-HMM模型語(yǔ)音識(shí)別率提高了約50%。因此,針對(duì)語(yǔ)音語(yǔ)料量和系統(tǒng)魯棒性的問(wèn)題,本文將深度學(xué)習(xí)引入普米語(yǔ)語(yǔ)音識(shí)別中,在Kaldi上進(jìn)行普米語(yǔ)語(yǔ)音識(shí)別實(shí)驗(yàn)。

本文所使用的深度學(xué)習(xí)模型是深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(DNN-HMM)的混合模型,以Kaldi語(yǔ)音識(shí)別工具包為實(shí)驗(yàn)平臺(tái),訓(xùn)練一個(gè)含有4隱層的深度學(xué)習(xí)模型,實(shí)現(xiàn)普米語(yǔ)語(yǔ)音識(shí)別。

1 Kaldi簡(jiǎn)介及使用流程

目前,常用的開(kāi)源語(yǔ)音識(shí)別工具有Kaldi和HTK,Kaldi與HTK的比較如表1所示。

表1 Kaldi與HTK比較

從表1中可以看出,基于深度學(xué)習(xí)的語(yǔ)音識(shí)別實(shí)驗(yàn)在Kaldi上進(jìn)行更合適。因此,本文選用Kaldi語(yǔ)音識(shí)別工具包作為實(shí)驗(yàn)平臺(tái)。

1.1 Kaldi語(yǔ)音識(shí)別工具包

Kaldi語(yǔ)音識(shí)別工具包是由約翰·霍普金斯大學(xué)開(kāi)發(fā)的開(kāi)源的語(yǔ)音識(shí)別工具包,用C++編寫(xiě)并被Apache License v2.0授權(quán)許可[15-16]。Kaldi可以在Linux環(huán)境和Windows環(huán)境下編譯,但是在Linux環(huán)境下進(jìn)行編譯比較穩(wěn)定。因此,本文將在Linux環(huán)境下編譯Kaldi。Kaldi語(yǔ)音識(shí)別工具包的框架結(jié)構(gòu)如圖1所示。

圖1 Kaldi語(yǔ)音識(shí)別工具包結(jié)構(gòu)

從圖1中可以看出,Kaldi語(yǔ)音識(shí)別工具包主要依賴(lài)2個(gè)外部開(kāi)源庫(kù): BLAS/LAPACK和OpenFST。同時(shí),Kaldi本身也分為2個(gè)模塊,分別依賴(lài)這2個(gè)外部開(kāi)源庫(kù),這2個(gè)模塊通過(guò)Decodable接口橋接。

BLAS是基本線(xiàn)性函數(shù)庫(kù),是許多數(shù)值計(jì)算軟件庫(kù)的核心,主要用于向量操作、矩陣-向量操作、矩陣-矩陣操作等基本運(yùn)算。LAPACK是一個(gè)高性能的用于數(shù)值計(jì)算的函數(shù)集,以BLAS為基礎(chǔ),包含了豐富的工具函數(shù),可用于常見(jiàn)的數(shù)值線(xiàn)性代數(shù)問(wèn)題,例如求解線(xiàn)性方程、計(jì)算特征值和特征向量等問(wèn)題。

OpenFST是一個(gè)開(kāi)源的用于構(gòu)造、合并、優(yōu)化和搜索加權(quán)有限狀態(tài)轉(zhuǎn)換器(Weighted Finite State Transducer,WFST)的庫(kù)。OpenFST在處理時(shí)間和空間規(guī)模很大的問(wèn)題上時(shí)效果很好。WFST常被用于語(yǔ)音識(shí)別、模式匹配以及機(jī)器學(xué)習(xí)等任務(wù)中。在語(yǔ)音識(shí)別系統(tǒng)中,把數(shù)學(xué)模型轉(zhuǎn)換為有限狀態(tài)機(jī)模型,然后對(duì)有限狀態(tài)機(jī)模型進(jìn)行優(yōu)化得到搜索空間,這樣可以降低語(yǔ)音識(shí)別系統(tǒng)的復(fù)雜度。

1.2 基于Kaldi語(yǔ)音的識(shí)別實(shí)驗(yàn)過(guò)程

本文將Kaldi部署在Ubuntu14.04系統(tǒng)上,為了在DNN模型訓(xùn)練時(shí)使用GPU加速,還需要安裝配置CUDA。

所有安裝及配置都完成之后就可以在Kaldi上進(jìn)行基于深度學(xué)習(xí)的普米語(yǔ)語(yǔ)音識(shí)別實(shí)驗(yàn)了。實(shí)驗(yàn)主要在/kaldi-trunk/egs/PrimiL/s5/下進(jìn)行。具體過(guò)程如圖2所示。

圖2 基于Kaldi的普米語(yǔ)語(yǔ)音識(shí)別過(guò)程

從圖2可以看出,基于Kaldi的普米語(yǔ)語(yǔ)音識(shí)別主要分為3步,具體過(guò)程描述如下:

1)普米語(yǔ)語(yǔ)音語(yǔ)料的準(zhǔn)備。通過(guò)把錄音棚下錄制的干凈的普米語(yǔ)語(yǔ)音語(yǔ)料通過(guò)混音工具得到帶有背景噪音的普米語(yǔ)語(yǔ)音語(yǔ)料,用來(lái)擴(kuò)大語(yǔ)音語(yǔ)料量。本文使用的混音工具是本團(tuán)隊(duì)成員開(kāi)發(fā)的[7]。接著把帶噪的語(yǔ)音語(yǔ)料和干凈的語(yǔ)音語(yǔ)料都用格式工廠(chǎng)轉(zhuǎn)換為Kaldi可用的格式。最后,將實(shí)驗(yàn)用到的語(yǔ)音語(yǔ)料按要求存放在指定文件夾中。

2)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備又分為2個(gè)部分:第1部分是數(shù)據(jù)部分準(zhǔn)備,先用KaldiDPT工具分別生成訓(xùn)練集和測(cè)試集下的spk2gender、text、wav.scp以及utt2spk,KaldiDPT工具是專(zhuān)門(mén)用Kaldi數(shù)據(jù)部分的準(zhǔn)備工具[15]。再以這些文件作為輸入,通過(guò)調(diào)用Kaldi中相應(yīng)的工具,生成spk2utt、feats.scp以及cmvn.scp。其中,feats.scp中存儲(chǔ)所有語(yǔ)音語(yǔ)料的特征文件存放的位置,cmvn.scp中存儲(chǔ)所有語(yǔ)音語(yǔ)料的倒譜均值和方差歸一化統(tǒng)計(jì)量存放的位置。第2部分是語(yǔ)言部分準(zhǔn)備,語(yǔ)言部分的準(zhǔn)備以發(fā)音字典為輸入,依次調(diào)用prepare_lang.sh和format_data.sh工具,生成lang和lang_test_bg文件夾,這2個(gè)文件夾的差別在于lang_test_bg文件夾中多了G.fst文件,G.fst是語(yǔ)言模型的有限狀態(tài)轉(zhuǎn)換器格式的表示,用于解碼。普米語(yǔ)發(fā)音字典已根據(jù)《普米語(yǔ)簡(jiǎn)志》準(zhǔn)備好,且符合Kaldi的格式要求[15-16]。

3)模型的訓(xùn)練和測(cè)試。把前2步準(zhǔn)備好的語(yǔ)音語(yǔ)料和文件用于模型的訓(xùn)練和測(cè)試。本文訓(xùn)練了5種不同的聲學(xué)模型,分別是:單音子GMM-HMM,記為Monophone,該模型的訓(xùn)練過(guò)程要迭代39次,并且每迭代1次~3次要進(jìn)行一次數(shù)據(jù)對(duì)齊;三音子GMM-HMM模型,記為T(mén)riphone1,該模型的訓(xùn)練是以訓(xùn)練好的Monophone模型為輸入,訓(xùn)練過(guò)程要迭代34次,并且每迭代10次進(jìn)行一次數(shù)據(jù)對(duì)齊;優(yōu)化后的三音子GMM-HMM模型,記為T(mén)riphone2,該模型是對(duì)三音子GMM-HMM模型進(jìn)行線(xiàn)性判別分析、最大似然線(xiàn)性變換和發(fā)音自適應(yīng)訓(xùn)練的優(yōu)化;優(yōu)化后的子空間高斯混合模型,記為O-SGMM,該模型的訓(xùn)練以Triphone2模型為輸入,訓(xùn)練子空間高斯混合模型(Subspace Gauss Mixture Model,SGMM)之前要用通用背景模型進(jìn)行初始化,再訓(xùn)練SGMM,并進(jìn)行最大互信息的區(qū)分性訓(xùn)練;深度神經(jīng)網(wǎng)絡(luò)模型,記為G-DNN,是基于O-SGMM模型訓(xùn)練的,G-DNN含有4層隱層,且使用GPU加速訓(xùn)練過(guò)程。每個(gè)模型訓(xùn)練完成后都會(huì)進(jìn)行測(cè)試,得到基于該模型的普米語(yǔ)語(yǔ)音識(shí)別率。

2 實(shí)驗(yàn)及結(jié)果分析

本文基于Kaldi的普米語(yǔ)語(yǔ)音識(shí)別實(shí)驗(yàn)分為3個(gè)部分。第1部分:不同的聲學(xué)模型對(duì)普米語(yǔ)語(yǔ)音識(shí)別率的影響;第2部分:普米語(yǔ)語(yǔ)音語(yǔ)料的規(guī)模對(duì)普米語(yǔ)語(yǔ)音識(shí)別率的影響;第3部分:普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的魯棒性。

本文實(shí)驗(yàn)使用的語(yǔ)音語(yǔ)料:4位普米語(yǔ)發(fā)音人在錄音棚環(huán)境錄制的包含1 650個(gè)普米詞匯的干凈的普米語(yǔ)語(yǔ)音語(yǔ)料,在錄音棚錄制普米語(yǔ)語(yǔ)音語(yǔ)料時(shí),每個(gè)普米詞匯每個(gè)發(fā)音人說(shuō)8遍。再通過(guò)混音工具對(duì)所有干凈的語(yǔ)音語(yǔ)料分別混入4種不同的背景噪音,每種隨機(jī)混音8次,每2次混音得到的帶噪的普米語(yǔ)語(yǔ)音語(yǔ)料記為一組,共有4組,分別記為第1組~第4組。因此,干凈的語(yǔ)音語(yǔ)料有:1 650個(gè)詞×8遍×4位發(fā)音人=52 800條,帶噪的語(yǔ)音語(yǔ)料有:1 650個(gè)詞×8遍×4種背景噪聲×8次混音×4位發(fā)音人=1 689 600條,共計(jì)1 742 400條語(yǔ)音語(yǔ)料。

2.1 聲學(xué)模型實(shí)驗(yàn)

不同的聲學(xué)模型對(duì)語(yǔ)音識(shí)別率的影響較大,因此本實(shí)驗(yàn)驗(yàn)證不同的聲學(xué)模型對(duì)普米語(yǔ)語(yǔ)音識(shí)別率的影響。同時(shí),為了避免語(yǔ)音語(yǔ)料量不足及測(cè)試集和訓(xùn)練集設(shè)置的問(wèn)題導(dǎo)致識(shí)別結(jié)果出現(xiàn)偶然性,進(jìn)行交叉驗(yàn)證實(shí)驗(yàn)。

本實(shí)驗(yàn)用所有干凈的普米語(yǔ)語(yǔ)音語(yǔ)料和第1組帶噪的普米語(yǔ)語(yǔ)音語(yǔ)料。為了便于交叉驗(yàn)證實(shí)驗(yàn)的進(jìn)行,將本節(jié)所用的所有實(shí)驗(yàn)數(shù)據(jù)平均分為4組,分別記為第1組~第4組。使用留一交叉驗(yàn)證的方法,其中3組用于訓(xùn)練,余下的1組用于測(cè)試,每組數(shù)據(jù)都有且僅有一次作為測(cè)試集出現(xiàn)在實(shí)驗(yàn)中。用測(cè)試集的序號(hào)標(biāo)記實(shí)驗(yàn)組的序號(hào),例如以第4組為測(cè)試集,則記為第4組實(shí)驗(yàn)。

通過(guò)實(shí)驗(yàn)得到不同聲學(xué)模型的語(yǔ)音識(shí)別率,如表2所示。

表2 不同聲學(xué)模型的語(yǔ)音識(shí)別率 %

為了更直觀(guān)地表示在不同聲學(xué)模型中,普米語(yǔ)語(yǔ)音識(shí)別率的變化情況,由表2中的數(shù)據(jù)繪制折線(xiàn)圖,得到圖3、圖4。

圖3 不同聲學(xué)模型的語(yǔ)音識(shí)別率1

圖4 不同聲學(xué)模型的語(yǔ)音識(shí)別率2

從表2中可以看出,4組實(shí)驗(yàn)的語(yǔ)音識(shí)別率不完全相同,在圖3中,4條折線(xiàn)幾乎重合,說(shuō)明4組實(shí)驗(yàn)中語(yǔ)音識(shí)別率的波動(dòng)很小。由此可以得出,測(cè)試集和訓(xùn)練集的設(shè)置沒(méi)有影響普米語(yǔ)語(yǔ)音識(shí)別率。從圖4可以看出,4組實(shí)驗(yàn)中G-DNN模型的語(yǔ)音識(shí)別率最高,接著是O-SGMM模型、Triphone2模型、Triphone1模型、Monophone模型依次降低,而Monophone模型的語(yǔ)音識(shí)別率最低。以第1組為測(cè)試集的普米語(yǔ)語(yǔ)音識(shí)別實(shí)驗(yàn)為例,通過(guò)對(duì)表2中的數(shù)據(jù)比較得到,G-DNN模型比O-SGMM模型語(yǔ)音識(shí)別率提升了2.6%,G-DNN模型比Triphone2模型語(yǔ)音識(shí)別率提升了11.7%,G-DNN模型比Triphone1模型語(yǔ)音識(shí)別率提升了23.5%,G-DNN模型比Monophone模型語(yǔ)音識(shí)別率提升了49.6%。由此可知,G-DNN模型有效地提升了普米語(yǔ)語(yǔ)音識(shí)別率。

由于GMM-HMM在考慮三音子后,模型的參數(shù)迅速增加,模型參數(shù)無(wú)法充分地訓(xùn)練,影響語(yǔ)音識(shí)別率。而深度學(xué)習(xí)模型是一種多隱層的網(wǎng)絡(luò)結(jié)構(gòu),每一層都單獨(dú)訓(xùn)練,使得模型參數(shù)能夠充分地訓(xùn)練,所以基于深度學(xué)習(xí)的聲學(xué)模型相比其余4個(gè)聲學(xué)模型,語(yǔ)音識(shí)別率有了明顯提升。因此,使用不同的聲學(xué)模型對(duì)普米語(yǔ)語(yǔ)音識(shí)別率的影響較大,其中,由G-DNN模型訓(xùn)練得到的普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的語(yǔ)音識(shí)別率最高,由Monophone模型訓(xùn)練得到的普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的語(yǔ)音識(shí)別率最低。由此可以得出,深度學(xué)習(xí)模型能夠有效地提升普米語(yǔ)語(yǔ)音識(shí)別率。

2.2 不同語(yǔ)料量實(shí)驗(yàn)

不同語(yǔ)料量的實(shí)驗(yàn)指的是單個(gè)普米語(yǔ)詞匯語(yǔ)音語(yǔ)料的數(shù)量不同的實(shí)驗(yàn)?;谏疃葘W(xué)習(xí)的語(yǔ)音識(shí)別實(shí)驗(yàn),語(yǔ)音語(yǔ)料量的大小對(duì)語(yǔ)音識(shí)別率有很大的影響,本節(jié)將研究普米語(yǔ)語(yǔ)音語(yǔ)料量的大小對(duì)普米語(yǔ)語(yǔ)音識(shí)別率的影響。

本實(shí)驗(yàn)使用所有干凈的普米語(yǔ)語(yǔ)音語(yǔ)料和第1組~第4組帶噪的普米語(yǔ)語(yǔ)音語(yǔ)料,共進(jìn)行了4組實(shí)驗(yàn)。

第1組實(shí)驗(yàn):用所有干凈的語(yǔ)音語(yǔ)料和第1組帶噪的語(yǔ)音語(yǔ)料,分別取干凈的和帶噪的語(yǔ)音語(yǔ)料的6/8用于訓(xùn)練,余下的用于測(cè)試。

第2組實(shí)驗(yàn):用所有干凈的語(yǔ)音語(yǔ)料加上第1組、第2組帶噪的語(yǔ)音語(yǔ)料,分別取干凈的和帶噪的語(yǔ)音語(yǔ)料的6/8用于訓(xùn)練,余下的用于測(cè)試。

第3組實(shí)驗(yàn):用所有干凈的語(yǔ)音語(yǔ)料加上第1組、第2組、第3組帶噪的語(yǔ)音語(yǔ)料,分別取干凈的和帶噪的語(yǔ)音語(yǔ)料的6/8用于訓(xùn)練,余下的用于測(cè)試。

第4組實(shí)驗(yàn):用所有干凈的語(yǔ)音語(yǔ)料加上第1組~第4組帶噪的語(yǔ)音語(yǔ)料,分別取干凈的和帶噪的語(yǔ)音語(yǔ)料的6/8用于訓(xùn)練,余下的用于測(cè)試。

通過(guò)實(shí)驗(yàn)得到不同語(yǔ)料量的普米語(yǔ)語(yǔ)音識(shí)別率,如表3所示。

表3 不同語(yǔ)料量實(shí)驗(yàn)的語(yǔ)音識(shí)別率 %

為了更直觀(guān)地表示當(dāng)普米語(yǔ)語(yǔ)音語(yǔ)料量不同時(shí),語(yǔ)音識(shí)別率的變化情況,由表3中的數(shù)據(jù)繪制折線(xiàn)圖,如圖5、圖6所示。

圖5 不同語(yǔ)料量實(shí)驗(yàn)的語(yǔ)音識(shí)別率1

圖6 不同語(yǔ)料量實(shí)驗(yàn)的語(yǔ)音識(shí)別率2

由圖5可以看出,不論語(yǔ)料量的多少,每條折線(xiàn)均是從左往右呈上升趨勢(shì),即每組實(shí)驗(yàn)中均是由Monophone模型到Triphone1模型、Triphone2模型、O-SGMM模型、G-DNN模型語(yǔ)音識(shí)別率依次升高。由圖6可以看出,隨著普米語(yǔ)語(yǔ)音語(yǔ)料量的增加,Monophone模型、Triphone1模型、Triphone2模型以及O-SGMM模型的語(yǔ)音識(shí)別率都有所下降,只有G-DNN模型的語(yǔ)音識(shí)別率逐漸升高。當(dāng)語(yǔ)料量從干凈的語(yǔ)音語(yǔ)料加1組加噪的語(yǔ)音語(yǔ)料增加到干凈的語(yǔ)音語(yǔ)料加4組加噪的語(yǔ)音語(yǔ)料時(shí),基于G-DNN模型的普米語(yǔ)語(yǔ)音識(shí)別率提升了0.9%。實(shí)驗(yàn)結(jié)果表明,增加普米語(yǔ)語(yǔ)音語(yǔ)料量可以促進(jìn)基于深度學(xué)習(xí)的普米語(yǔ)語(yǔ)音識(shí)別率的提升。

2.3 魯棒性實(shí)驗(yàn)

本實(shí)驗(yàn)的目的在于驗(yàn)證不同的聲學(xué)模型對(duì)普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)魯棒性的影響以及相同的聲學(xué)模型用不同的訓(xùn)練集對(duì)普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的魯棒性的影響。

實(shí)驗(yàn)使用所有干凈的普米語(yǔ)語(yǔ)音語(yǔ)料和第1組帶噪的普米語(yǔ)語(yǔ)音語(yǔ)料,共進(jìn)行4組實(shí)驗(yàn)。

第1組實(shí)驗(yàn):用所有干凈的普米語(yǔ)語(yǔ)音語(yǔ)料,取6/8用于訓(xùn)練,余下的用于測(cè)試。

第2組實(shí)驗(yàn):用第1組實(shí)驗(yàn)訓(xùn)練好的模型,把第1組用于測(cè)試的干凈的普米語(yǔ)語(yǔ)音語(yǔ)料用混音工具隨機(jī)混音1次得到的帶噪普米語(yǔ)語(yǔ)音語(yǔ)料作為該組實(shí)驗(yàn)的測(cè)試集。

第3組實(shí)驗(yàn):將第1組實(shí)驗(yàn)的訓(xùn)練集加上第1組帶噪普米語(yǔ)語(yǔ)音語(yǔ)料的6/8用于該組實(shí)驗(yàn)的訓(xùn)練,第1組實(shí)驗(yàn)的測(cè)試集作為該組實(shí)驗(yàn)的測(cè)試集。

第4組實(shí)驗(yàn):用第3組實(shí)驗(yàn)訓(xùn)練好的模型,用第2組實(shí)驗(yàn)的測(cè)試集進(jìn)行該組實(shí)驗(yàn)的測(cè)試。

通過(guò)實(shí)驗(yàn)得普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)魯棒性實(shí)驗(yàn)的語(yǔ)音識(shí)別率,如表4所示。

表4 魯棒性實(shí)驗(yàn)的語(yǔ)音識(shí)別率 %

為了更直觀(guān)地表示魯棒性實(shí)驗(yàn)普米語(yǔ)語(yǔ)音識(shí)別率的變化規(guī)律,由表4中的數(shù)據(jù)繪制折線(xiàn)圖,如圖7、圖8所示。

圖7 魯棒性實(shí)驗(yàn)的語(yǔ)音識(shí)別率1

圖8 魯棒性實(shí)驗(yàn)的語(yǔ)音識(shí)別率2

對(duì)第1組實(shí)驗(yàn)與第2組實(shí)驗(yàn)進(jìn)行比較,第1組、第2組實(shí)驗(yàn)的訓(xùn)練集相同,都是干凈的語(yǔ)音語(yǔ)料,測(cè)試集分別為干凈的和帶噪的語(yǔ)音語(yǔ)料。從圖7中可以看出,第1組實(shí)驗(yàn)的語(yǔ)音識(shí)別率較高,第2組實(shí)驗(yàn)的語(yǔ)音識(shí)別率較低,且2組實(shí)驗(yàn)的語(yǔ)音識(shí)別率變化較大。由此可以得出,用干凈的語(yǔ)音語(yǔ)料訓(xùn)練出來(lái)的模型只有用干凈的語(yǔ)音語(yǔ)料去測(cè)試才能得到較高的語(yǔ)音識(shí)別率,若是使用帶噪的語(yǔ)音語(yǔ)料去測(cè)試則語(yǔ)音識(shí)別率很低,說(shuō)明僅使用干凈的語(yǔ)音語(yǔ)料訓(xùn)練的語(yǔ)音識(shí)別系統(tǒng),系統(tǒng)的魯棒性較差。對(duì)第3組實(shí)驗(yàn)與第4組實(shí)驗(yàn)進(jìn)行比較,第3組、第4組實(shí)驗(yàn)的訓(xùn)練集也相同,都是干凈的語(yǔ)音語(yǔ)料加上帶噪的語(yǔ)音語(yǔ)料,測(cè)試集分別為干凈的和帶噪的語(yǔ)音語(yǔ)料。從圖7可以看出,第3組實(shí)驗(yàn)的語(yǔ)音識(shí)別率更高,第4組實(shí)驗(yàn)的語(yǔ)音識(shí)別率更低,但是2組實(shí)驗(yàn)的語(yǔ)音識(shí)別率變化不大。由此可以得出,在訓(xùn)練集中加入帶噪的語(yǔ)音語(yǔ)料時(shí),即使用帶噪的語(yǔ)音語(yǔ)料進(jìn)行測(cè)試,語(yǔ)音識(shí)別率也不會(huì)大幅度地降低,說(shuō)明同時(shí)使用干凈的和帶噪的語(yǔ)音語(yǔ)料進(jìn)行訓(xùn)練的語(yǔ)音識(shí)別系統(tǒng),系統(tǒng)的魯棒性較好。實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練集中加入帶噪的語(yǔ)音語(yǔ)料能夠有效地提高普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的魯棒性。

從圖8可以看出,無(wú)論是在哪種方案的實(shí)驗(yàn)中,G-DNN模型的語(yǔ)音識(shí)別率均比其余4個(gè)模型的語(yǔ)音識(shí)別率高。當(dāng)測(cè)試集與訓(xùn)練集的設(shè)定不同時(shí),Monophone模型、Triphone1模型、Triphone2模型以及O-SGMM模型的語(yǔ)音識(shí)別率波動(dòng)較大,而G-DNN模型的語(yǔ)音識(shí)別率波動(dòng)較小。例如將第1組實(shí)驗(yàn)與第2組實(shí)驗(yàn)進(jìn)行比較,如表5所示,當(dāng)測(cè)試集由干凈的普米語(yǔ)語(yǔ)音語(yǔ)料換為帶噪的普米語(yǔ)語(yǔ)音語(yǔ)料時(shí),Monophone模型的語(yǔ)音識(shí)別率下降了80.3%;Triphone1模型的語(yǔ)音識(shí)別率下降了77.4%;Triphone2模型的語(yǔ)音識(shí)別率下降了72.1%;O-SGMM模型的語(yǔ)音識(shí)別率下降了66.8%;G-DNN模型的語(yǔ)音識(shí)別率下降了18.2%。為了更直觀(guān)地表示不同聲學(xué)模型語(yǔ)音識(shí)別率的變化情況,繪制柱狀圖,如圖9所示??梢钥闯?G-DNN模型的語(yǔ)音識(shí)別率的減少量最小。由此可知,G-DNN模型的語(yǔ)音識(shí)別率降低得最少。實(shí)驗(yàn)結(jié)果表明,G-DNN模型的魯棒性比其余4個(gè)聲學(xué)模型的魯棒性更好。

表5 第1組實(shí)驗(yàn)與第2組實(shí)驗(yàn)語(yǔ)音識(shí)別率比較 %

圖9 第2組比第1組語(yǔ)音識(shí)別率減少量

通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的詳細(xì)分析,得到僅用干凈的語(yǔ)音語(yǔ)料訓(xùn)練的語(yǔ)音識(shí)別系統(tǒng)中,只有用干凈的語(yǔ)音語(yǔ)料進(jìn)行測(cè)試才能得到較高的語(yǔ)音識(shí)別率。如果用帶噪的語(yǔ)音語(yǔ)料進(jìn)行測(cè)試,則語(yǔ)音識(shí)別率會(huì)變得很低,說(shuō)明僅使用干凈的普米語(yǔ)語(yǔ)音語(yǔ)料訓(xùn)練的普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的魯棒性較差。而同時(shí)使用干凈的和帶噪的語(yǔ)音語(yǔ)料進(jìn)行訓(xùn)練時(shí),不論是用干凈的語(yǔ)音語(yǔ)料進(jìn)行測(cè)試,還是用帶噪的語(yǔ)音語(yǔ)料進(jìn)行測(cè)試,語(yǔ)音識(shí)別率波動(dòng)較小,說(shuō)明在訓(xùn)練集中加入帶噪的語(yǔ)音語(yǔ)料能夠提高普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的魯棒性。同時(shí),在4組實(shí)驗(yàn)中,基于G-DNN模型的普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的語(yǔ)音識(shí)別率波動(dòng)最小,其余4個(gè)聲學(xué)模型的語(yǔ)音識(shí)別率波動(dòng)較大。綜上所述,相比于Monophone模型、Triphone1模型、Triphone2模型和O-SGMM模型,G-DNN模型具有更好的魯棒性,即用深度學(xué)習(xí)技術(shù)能夠提高普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的魯棒性。

3 結(jié)束語(yǔ)

本文在Kaldi上進(jìn)行基于深度學(xué)習(xí)的普米語(yǔ)語(yǔ)音識(shí)別實(shí)驗(yàn),為加速模型的訓(xùn)練,配置安裝了CUDA,有效地解決了深度學(xué)習(xí)模型訓(xùn)練效率的問(wèn)題。在Kaldi上進(jìn)行了3類(lèi)實(shí)驗(yàn):通過(guò)對(duì)不同聲學(xué)模型實(shí)驗(yàn)結(jié)果的比較發(fā)現(xiàn),深度學(xué)習(xí)模型的語(yǔ)音識(shí)別率明顯高于其余的4個(gè)聲學(xué)模型,G-DNN模型比Monophone模型的語(yǔ)音識(shí)別率平均提升了49.8%;通過(guò)不同語(yǔ)音語(yǔ)料量的實(shí)驗(yàn)發(fā)現(xiàn),在訓(xùn)練集中增加語(yǔ)音語(yǔ)料量,可以提高基于深度學(xué)習(xí)的普米語(yǔ)語(yǔ)音識(shí)別率;通過(guò)魯棒性的實(shí)驗(yàn)發(fā)現(xiàn),在訓(xùn)練集中加入帶噪的語(yǔ)音語(yǔ)料可以提高普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的魯棒性,并且基于深度學(xué)習(xí)的普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的魯棒性比其余4個(gè)聲學(xué)模型的普米語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的魯棒性更強(qiáng)。

[1] 陸惠云.云南省七個(gè)“特少”民族語(yǔ)言使用狀況調(diào)查[J].玉溪師范學(xué)院學(xué)報(bào),2014,30(1):45-59.

[2] 解魯云.國(guó)內(nèi)普米族研究綜述[J].云南民族學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2003,20(1):75-78.

[3] 李余芳,蘇 潔,胡文君,等.基于HTK的普米語(yǔ)孤立詞的語(yǔ)音識(shí)別[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,24(5):426-430.

[4] 蘇 潔.基于HTK的普米語(yǔ)孤立詞識(shí)別研究[D].昆明:云南民族大學(xué),2016.

[5] 郭 琳,蘇 潔,李余芳,等.一種人機(jī)交互語(yǔ)音切分系統(tǒng)[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版).2016,25(1):87-91.

[6] 蘇 潔,李余芳,郭 琳,等.HTK參數(shù)對(duì)普米語(yǔ)孤立詞識(shí)別率的影響[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,24(6):510-513.

[7] 李余芳.基于HTK的帶噪普米語(yǔ)音識(shí)別系統(tǒng)的魯棒性研究[D].昆明:云南民族大學(xué),2016.

[8] HINTON G E,OSINDERO S,TEH Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.

[9] AWNI H,CARL C,JARED C,et al.Deep Speech:Scaling up End-to-End Speech Recognition[EB/OL].(2014-10-19).https://arxiv.org/pdf/1412.5567v2.pdf.

[10] XIONG W,DROPPO J,HUANG Xuedong,et al.Achieving Human Parity in Conversational Speech Recognition[EB/OL].(2016-10-17).https://arxiv.org/abs/1610.05256.

[11] 科大訊飛.探索語(yǔ)音識(shí)別技術(shù)的前世今生[J].科技導(dǎo)報(bào),2016,36(9):76-77.

[12] 袁勝龍,郭 武,戴禮榮.基于深層神經(jīng)網(wǎng)絡(luò)的藏語(yǔ)識(shí)別[J].模式識(shí)別與人工智能,2015,28(3):209-213.

[13] 其米克·巴特西,黃 浩,王羨慧.基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾語(yǔ)語(yǔ)音識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2015(8):2239-2244.

[14] ZHANG Hui,BAO Feilong,GAO Guanglai.Mongolian Speech Recognition Based on Deep Neural Networks[M]// SUN Maosong,LIU Zhiyuan,ZHANG Min.Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data.Berlin,Germany:Springer,2015.

[15] HU Wenjun,FU Meijun,PAN Wenlin.Primi Speech Recognition Based on Deep Neural Network[C]//Proceedings of IEEE International Conference on Intelligent Systems.Washington D.C.,USA:IEEE Press,2016:667-671.

[16] 陸紹尊.普米語(yǔ)簡(jiǎn)志[M].北京:民族出版社,1983.

猜你喜歡
魯棒性聲學(xué)識(shí)別率
愛(ài)的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
基于類(lèi)圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性?xún)?yōu)化
全州县| 无极县| 定南县| 宜章县| 民县| 湾仔区| 邯郸市| 鄂州市| 南通市| 乌鲁木齐县| 柞水县| 靖西县| 宿迁市| 桂林市| 宁强县| 宁海县| 诸城市| 广河县| 寿宁县| 三明市| 永丰县| 偃师市| 枞阳县| 漳平市| 政和县| 鲜城| 德格县| 灵山县| 郑州市| 永吉县| 蛟河市| 育儿| 湖南省| 德惠市| 兴文县| 白山市| 南充市| 循化| 曲阳县| 台前县| 五河县|