国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多參數(shù)融合優(yōu)化的隱馬爾科夫模型的設(shè)計

2020-08-07 14:40蔣正鋒黃勇萍
現(xiàn)代計算機(jī) 2020年18期
關(guān)鍵詞:識別率韻母高斯

蔣正鋒,黃勇萍

(廣西民族師范學(xué)院數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,崇左532200)

0 引言

語音交互技術(shù)隨著計算機(jī)科學(xué)與信息等學(xué)科的發(fā)展逐步成為人機(jī)交互的手段,其中語音識別在現(xiàn)階段還是研究的一個熱點。語音識別技術(shù)的研究工作起始于二十世紀(jì)五十年代,主要是對語音識別技術(shù)的初步研究,集中在元音、輔音、音節(jié)的識別。到了二十世紀(jì)六十年代,線性預(yù)測和動態(tài)規(guī)劃技術(shù)的出現(xiàn),解決了語音識別中語音信號特征提取、模型的產(chǎn)生及語音信號不等長等問題取得了實際性的進(jìn)展。二十世紀(jì)七十年代,在語音識別的研究中,提出了動態(tài)時間規(guī)整(Dynamic Time Warping,DTW)、矢量量化(Vector Quantization,VQ)和隱馬爾可夫模型。二十世紀(jì)八十年代,從基于標(biāo)準(zhǔn)模板匹配的語音識別算法轉(zhuǎn)到基于統(tǒng)計模型的方法,識別任務(wù)的重點是大詞匯量、非特定人和連續(xù)語音。因為語音的時變性和平穩(wěn)性能被HMM 很好的描述出來,在大詞匯量連續(xù)語音識別(Large Vocabulary Continuous Speech Recognition,LVCSR)中HMM 被廣泛用于聲學(xué)建模[1-2],統(tǒng)計語言模型開始應(yīng)用于語音識別系統(tǒng)[3]中。這一時期,由于HMM/VQ、HMM/高斯混合模型、HMM/人工神經(jīng)網(wǎng)絡(luò)的語音建模在LVCSR 系統(tǒng)中被提出,語音識別的技術(shù)取得突破性的新進(jìn)展。二十世紀(jì)九十年代,語音識別從實驗走向?qū)嵱?,語音識別技術(shù)深入和細(xì)化方面取得了較大的進(jìn)展[3]。二十一世紀(jì)初,HMM 和前饋神經(jīng)網(wǎng)絡(luò)[4-5]等為代表的傳統(tǒng)語音識別方法占主導(dǎo)地位。就整個語音識別技術(shù)發(fā)展歷史來看,探索淺層表現(xiàn)和深層的人工神經(jīng)網(wǎng)絡(luò)持續(xù)了多年,由于2006 年,深度學(xué)習(xí)理論[6-7]在機(jī)器學(xué)習(xí)中初步的應(yīng)用成功引起了極大的關(guān)注,直到2009 年開啟了深度學(xué)習(xí)的研究序幕,語音識別與深度學(xué)習(xí)技術(shù)相結(jié)合[8-9],逐漸掀起基于深度學(xué)習(xí)的語音識別研究熱潮。

在理解語音識別原理的基礎(chǔ)上,使用HTK(Hidden Markov Model Toolkit)工具箱,搭建一個漢語離散數(shù)字語音識別系統(tǒng),探索不同參數(shù)融合的隱馬爾科夫模型對語音識別率的影響,設(shè)計多參數(shù)融合優(yōu)化的且有較高識別率的隱馬爾科夫模型。

1 HTK簡介

二十世紀(jì)七十年代,語音識別領(lǐng)域引入了隱馬爾可夫模型,它使得自然語音識別系統(tǒng)取得了突破性進(jìn)展,成為傳統(tǒng)語音識別的主流技術(shù)。目前大部分的語音識別系統(tǒng)還是基于HMM 的,雖然深度學(xué)習(xí)技術(shù)已引入到語音識別領(lǐng)域中。HTK 是由劍橋大學(xué)基于C 語言開發(fā),專門用于創(chuàng)建和處理HMM 的工具,廣泛應(yīng)用在語音識別、語音合成、字符識別和DNA 排序等多個領(lǐng)域。經(jīng)過劍橋大學(xué)、Entropic 公司及Microsoft 公司對HTK 的不斷改進(jìn),使HTK 在傳統(tǒng)語音識別領(lǐng)域處于世界領(lǐng)先水平[10-11]。

另外,HTK 的源代碼是對外公開的,可以把源代碼中基于ANSI C 的模塊嵌入到用戶系統(tǒng)中,方便用戶的開發(fā)。

1.1 HTK語音識別系統(tǒng)的體系結(jié)構(gòu)

構(gòu)建基于HTK 語音識別系統(tǒng)[11-13],具有如圖1 所示的體系結(jié)構(gòu),主要由三部分構(gòu)成,分別為特征提取、聲學(xué)模型訓(xùn)練和語音識別。

圖1 基于HTK語音識別系統(tǒng)的結(jié)構(gòu)

1.2 HTK語音識別工具

基于HTK 語音識別系統(tǒng)由語音數(shù)據(jù)準(zhǔn)備、HMM模型的訓(xùn)練、語音的識別以及結(jié)果數(shù)據(jù)分析等組成。

(1)語音數(shù)據(jù)準(zhǔn)備:語料庫的創(chuàng)建用CoolEdit 等錄音軟件進(jìn)行采集語音[6-7],手工或自動標(biāo)注好語料庫中的語料,語音特征的提取用HCopy 工具。

(2)HMM 模型的訓(xùn)練:創(chuàng)建好原始的HMM 模型,基于EM 重估算法,使用HCompv 和HInit 工具初始HMM 模型參數(shù),然后對HMM 模型的參數(shù)用HRset 和HERest 重新估計,應(yīng)用上下文無關(guān)的建模方法,用HERest 對HMM 模型進(jìn)行嵌入式訓(xùn)練,模型中的參數(shù)不斷被調(diào)整,參數(shù)性能不斷向最佳狀態(tài)逼近。

(3)識別:基于Viterbi 算法的HVite 命令用來識別未知的要測試的語音。

(4)識別結(jié)果分析:HResults 是訓(xùn)練好的HMM 模型的性能分析工具,用于分析未知語音的識別率。

2 實驗準(zhǔn)備

2.1 實驗環(huán)境

設(shè)計的漢語離散數(shù)字語音識別系統(tǒng),是在基于隱馬爾可夫模型的HTK3.4 上搭建的,運行在PC Windows 10 平 臺 上,CPU 為Intel Core i7- 6700HQ @2.6GHz,內(nèi)存為8GB。

2.2 語料庫的創(chuàng)建及模型狀態(tài)個數(shù)

離散數(shù)字語音識別系統(tǒng)是在語音庫基礎(chǔ)上搭建的,所以先要準(zhǔn)備好語料庫中用于訓(xùn)練和測試的語音樣本,語料庫的詳細(xì)情況如表1 所示。離散數(shù)字語音錄制是在實驗室環(huán)境下,采樣率設(shè)置為16000Hz,量化精度為16bits。

表1 語料庫樣本詳情

在實驗中提取的語音特征參數(shù)是梅爾倒頻譜,分別提取了13、26、39 維的MFCC(Mel Frequency Cepstral Coefficients)特征。語音的識別單元分音節(jié)和聲韻母兩種,其中聲學(xué)模型狀態(tài)的個數(shù)如表2 所示,每個狀態(tài)的高斯分量從1 逐個增加到7 進(jìn)行實驗。HMM 模型是采用存在跳變的Left-to-Right 的類型。

表2 聲學(xué)模型狀態(tài)個數(shù)

3 實驗與結(jié)果分析

實驗中提取了三種不同維度的MFCC 特征,分別為13 維、26 維和39 維,不同維度的MFCC 特征分別訓(xùn)練不同的HMM 模型,因此分三個大的實驗。每個大的實驗中語音識別單元采用了音節(jié)和聲韻母兩種,就語音識別單元不同的高斯分量對訓(xùn)練集和測試集中的離散數(shù)字進(jìn)行了識別。

3.1 13維的MFCC特征參數(shù)訓(xùn)練模型

提取的特征參數(shù)MFCC 為13 維,聲學(xué)模型分別為音節(jié)、聲韻母,按表1 所示音節(jié)的狀態(tài)個數(shù)設(shè)定為6,聲母的狀態(tài)個數(shù)設(shè)定為3,韻母的狀態(tài)個數(shù)設(shè)定為6,不同高斯分量個數(shù)訓(xùn)練好的的HMM 對語料庫中訓(xùn)練集和測試集分別進(jìn)行了測試,識別結(jié)果如表3 和表4所示。

表3 聲學(xué)模型為音節(jié)的13 維MFCC 特征訓(xùn)練模型的識別率

表4 聲學(xué)模型為聲韻母的13 維MFCC 特征訓(xùn)練模型的識別率

從表3 的識別結(jié)果可知:

(1)在高斯混合分量個數(shù)相同的情況下,訓(xùn)練集的識別率要高于測試集的識別率,因為用訓(xùn)練集來訓(xùn)練HMM 模型的,而測試集中的離散數(shù)字語音沒有訓(xùn)練HMM 模型。

(2)不管是訓(xùn)練集還是測試集,識別率不是隨高斯混合分量的增加而提高,對于訓(xùn)練集,高斯混合分量個數(shù)為4 時識別率最高,而測試集高斯混合分量個數(shù)為2識別率達(dá)到最高,再增加高斯混合分量,識別率反而降低。

從表4 的識別結(jié)果可知:

(1)在高斯混合分量個數(shù)為1 或2 時,測試集的識別率反而高于訓(xùn)練集,整體來看,訓(xùn)練集的識別率高于測試集。

(2)訓(xùn)練集識別率幾乎是與高斯混合分量個數(shù)成正比,測試集的識別率隨高斯分量個數(shù)增加而降低,在高斯分量個數(shù)為2 時,識別率達(dá)到最高。

由表3 和表4 識別結(jié)果得到:

(1)聲學(xué)模型為聲韻母時識別率不管是在訓(xùn)練集還是在測試集要高于識別單元是音節(jié)的HMM 模型。

(2)對于訓(xùn)練集來說,HMM 中高斯混合分量個數(shù)為4、5 和6 識別率比較高。而對于測試集,高斯混合分量個數(shù)為1 或2 時,識別率較高。

3.2 26維的MFCC特征參數(shù)訓(xùn)練模型

特征參數(shù)MFCC 為26 維,聲學(xué)模型分別為音節(jié)和聲韻母,按表1 所示設(shè)定音節(jié)、聲母和韻母的狀態(tài)個數(shù)分別為6、3 和6,不同高斯分量個數(shù)的情況下對語料庫中訓(xùn)練集和測試集分別進(jìn)行了識別,識別結(jié)果如表5所示。

表5 26 維MFCC 特征訓(xùn)練模型的識別率

從表5 的識別結(jié)果可知:

(1)聲學(xué)模型為音節(jié)時,訓(xùn)練集的識別率在對應(yīng)不同高斯分量個數(shù)上幾乎是高于測試集,在高斯混合分量為7 時,測試集的識別率高于訓(xùn)練集。訓(xùn)練集在高斯混合分量個數(shù)為4、5 和6 時識別率較高,最高識別率為89.00%,而測試集在高斯混合分量個數(shù)也是4、5和6 時識別率較高,最高識別率為85.00%。

(2)聲學(xué)模型為聲韻母時,訓(xùn)練集的識別率在對應(yīng)不同高斯分量個數(shù)上全高于測試集。訓(xùn)練集在高斯混合分量個數(shù)也是為4、5 和6 時識別率較高,最高識別率為92.39%,對應(yīng)的高斯混合分量個數(shù)為5,而測試集在高斯混合分量個數(shù)為4、5 和7 時識別率較高,最高識別率達(dá)到85.22%,對應(yīng)高斯混合分量個數(shù)為5。

(3)聲韻母為識別單元時整體上比以音節(jié)為識別單元的識別率高。

3.3 39維的MFCC特征參數(shù)訓(xùn)練模型

與提取的13 和26 維的MFCC 特征參數(shù)類似,39維MFCC 語音特征參數(shù)訓(xùn)練的HMM,聲學(xué)模型分別為音節(jié)和聲韻母,按表1 所示設(shè)定音節(jié)、聲母和韻母的狀態(tài)個數(shù)分別為6、3 和6,不同高斯分量個數(shù)的情況下對語料庫中訓(xùn)練集和測試集分別進(jìn)行了識別,識別結(jié)果如表6 所示。

表6 39 維MFCC 特征訓(xùn)練模型的識別率

從表6 的識別結(jié)果可知:

(1)聲學(xué)模型為音節(jié)時,訓(xùn)練集的識別率在對應(yīng)不同高斯分量個數(shù)上幾乎是高于測試集,只有高斯混合分量個數(shù)為7 時,測試集的識別率高于訓(xùn)練集。訓(xùn)練集在高斯混合分量個數(shù)為4、5 和6 時識別率較高,最高識別率達(dá)到93.00%,而測試集在高斯混合分量個數(shù)為5、6 和7 時識別率較高,最高識別率達(dá)到92.39%。

(2)聲學(xué)模型為聲韻母時,訓(xùn)練集的識別率在對應(yīng)不同高斯分量個數(shù)上全高于測試集。訓(xùn)練集在高斯混合分量個數(shù)也是為4、5 和6 時識別率較高,最高識別率為93.00%,對應(yīng)的高斯混合分量個數(shù)為4,而測試集在高斯混合分量個數(shù)為4、5 和7 時識別率較高,最高識別率達(dá)到85.22%,對應(yīng)高斯混合分量個數(shù)為4、5或7。

(3)聲學(xué)模型為聲韻母的識別率在訓(xùn)練集或測試集上高于以音節(jié)為識別單元。

4 結(jié)語

本文結(jié)合隱馬爾可夫模型原理,利用HTK 語音工具,搭建了漢語離散數(shù)字語音識別系統(tǒng),探索多參數(shù)融合優(yōu)化的HMM 模型。由實驗結(jié)果得到的表3、表4、表5 和表6 的識別結(jié)果得到:

(1)聲學(xué)模型的選擇:聲韻母作為識別單元比音節(jié)的識別效果要好。

(2)高斯混合分量個數(shù):一般選擇4 個或5 個或6個,個數(shù)過高或過低模型都不是最優(yōu)的。

(3)MFCC 特征維度:39 維的MFCC 語音特征參數(shù)比13 維和26 維MFCC 特征參數(shù)識別率高。

(4)聲學(xué)模型為聲韻母時訓(xùn)練集和測試集識別率的差異大于聲學(xué)模型為音節(jié)時訓(xùn)練集和測試集識別率的差異,避免過擬合。

由上述可以看出,以聲韻母為基本語音識別單元,特征參數(shù)為39 維的MFCC,高斯混合分量為4 或5 或6 時,可以獲得較高的識別率,對以后搭建基于HMM性能更優(yōu)的離散或連續(xù)語音識別系統(tǒng)具有借鑒意義,也為研究基于深度學(xué)習(xí)的語音識別打下基礎(chǔ)。

猜你喜歡
識別率韻母高斯
聲母韻母
數(shù)學(xué)王子高斯
單韻母扛聲調(diào)
《湘水韻》及其編撰原理要點
檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用分析
基于PCA與MLP感知器的人臉圖像辨識技術(shù)
科技文檔中數(shù)學(xué)表達(dá)式的結(jié)構(gòu)分析與識別
人工智能現(xiàn)狀和發(fā)展
從自卑到自信 瑞恩·高斯林
單韻母讀讀讀
烟台市| 湘西| 兰溪市| 雅安市| 安阳市| 徐汇区| 淳化县| 曲阜市| 元朗区| 大埔县| 安阳市| 西昌市| 定兴县| 龙岩市| 资溪县| 广东省| 晴隆县| 新津县| 汉中市| 铜梁县| 郧西县| 德州市| 无棣县| 磐安县| 吉水县| 五大连池市| 丰县| 吴堡县| 松溪县| 秦皇岛市| 得荣县| 石家庄市| 郸城县| 金昌市| 安新县| 唐河县| 信宜市| 田东县| 丹棱县| 比如县| 宾川县|