国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于神經(jīng)網(wǎng)絡(luò)的中文語音識(shí)別技術(shù)

2022-01-19 11:50:54偉,劉
關(guān)鍵詞:梅爾神經(jīng)元語音

代 偉,劉 洪

(1.內(nèi)江師范學(xué)院 人工智能學(xué)院,四川 內(nèi)江 641112;2.四川大學(xué) 計(jì)算機(jī)學(xué)院,四川 成都 610065)

語音識(shí)別技術(shù)(Automatic voice recognition)是一種將語音信號(hào)轉(zhuǎn)換為計(jì)算機(jī)可讀文本的技術(shù),是一個(gè)包含了聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)等眾多學(xué)科交叉的領(lǐng)域.由于語音信號(hào)的多樣性和復(fù)雜性,其信號(hào)質(zhì)量易受環(huán)境、設(shè)備干擾和眾多采集參數(shù)的影響.因此,當(dāng)前語音識(shí)別系統(tǒng)基本上只能在一定的限制條件環(huán)境添加下獲得滿意的性能,或者說只能應(yīng)用于某些特定的場(chǎng)合.同時(shí),作為提升產(chǎn)品智能化程度的一個(gè)標(biāo)志,語音識(shí)別技術(shù)大量用于生活當(dāng)中,包括語音搜索、智能家居等.

語音識(shí)別首先可分為孤立詞和連續(xù)詞語音識(shí)別,1952 年在美國(guó)貝爾實(shí)驗(yàn)室、1962 年在IBM實(shí)驗(yàn)室都開發(fā)實(shí)現(xiàn)了基于孤立詞(特定的數(shù)字及個(gè)別英文單詞)的語音識(shí)別系統(tǒng)[1].連續(xù)詞識(shí)別因?yàn)椴煌嗽诓煌膱?chǎng)景下會(huì)有不同的語氣和停頓,很難確定詞邊界,切分的幀數(shù)也未必相同,給連續(xù)語音識(shí)別造成了不小的挑戰(zhàn)[2].

直到20 世紀(jì)80 年代,研究人員通過引入隱馬爾科夫模型(Hidden markov model,HMM)在語音識(shí)別領(lǐng)域取得了里程碑式的突破[3].每個(gè)音素用一個(gè)包含6 個(gè)狀態(tài)的HMM 建模,每個(gè)狀態(tài)用高斯混合模型(Gaussian mixture model,GMM)擬合對(duì)應(yīng)的觀測(cè)幀[4],觀測(cè)幀依據(jù)時(shí)間順序?qū)?shù)據(jù)組合成觀測(cè)序列.每個(gè)模型可以生成任意長(zhǎng)度的觀測(cè)序列,訓(xùn)練時(shí)將樣本按音素劃分到具體的模型,在訓(xùn)練數(shù)據(jù)的基礎(chǔ)上通過算法學(xué)習(xí)每個(gè)模型中HMM 的轉(zhuǎn)移矩陣、GMM的權(quán)重以及均值方差等參數(shù).

其后,由于神經(jīng)網(wǎng)絡(luò)應(yīng)用的不斷興起,研究人員將神經(jīng)網(wǎng)絡(luò)引入到語音識(shí)別領(lǐng)域,神經(jīng)網(wǎng)絡(luò)的引入主要是代替GMM 擬合觀測(cè)幀數(shù)據(jù).由于神經(jīng)網(wǎng)絡(luò)的在函數(shù)逼近上的強(qiáng)大能力[5],語音識(shí)別效果亦有較大提高.上述方法雖然在語音識(shí)別中取得了較好的效果,但基于音素的HMM 模型是依賴于專家知識(shí)人為設(shè)計(jì)和創(chuàng)建的識(shí)別模型,未必反映了語音聲學(xué)的本質(zhì);其次,模型設(shè)計(jì)較為復(fù)雜且不易理解,不利于研究人員入門和改進(jìn).因此,研究人員一直在實(shí)驗(yàn)其他相關(guān)語音識(shí)別方法,端到端(End-toend)在此時(shí)應(yīng)運(yùn)而生.

End-to-end的語音識(shí)別方法是典型的深度學(xué)習(xí)模型方法,依賴于神經(jīng)網(wǎng)絡(luò)在特征自提取和表示方面的強(qiáng)大能力,不再人為預(yù)設(shè)對(duì)應(yīng)的模型,直接從輸入的語音頻譜圖映射到對(duì)應(yīng)的文本標(biāo)簽,同時(shí)End-to-end的方法不再依賴基于上下文(Context dependent)的狀態(tài)轉(zhuǎn)移和對(duì)齊(Alignment)處理.

本研究在借鑒和改進(jìn)已有的英文端到端識(shí)別方法基礎(chǔ)上進(jìn)行中文語音識(shí)別.首先,將語音信號(hào)分幀并轉(zhuǎn)換為頻譜圖;隨后,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)在時(shí)間維將頻譜圖進(jìn)行特征提取和壓縮,壓縮之后的特征以時(shí)間維輸入到多層遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)進(jìn)行時(shí)序相關(guān)性建模;然后,使用CTC(Connectionist temporal classification)作為損失函數(shù)進(jìn)行誤差反向傳遞,神經(jīng)網(wǎng)絡(luò)輸出單個(gè)漢字.

本文采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,實(shí)驗(yàn)數(shù)據(jù)采用清華大學(xué)信息技術(shù)研究院語音和語言技術(shù)中心王東等[6]發(fā)布的開放語音數(shù)據(jù)集THCHS30,最終以CCER(Chinese character error rate)作為識(shí)別結(jié)果評(píng)判標(biāo)準(zhǔn).

圖1 多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The structure of the multi-layer neural network

1 頻譜圖MFCC

MFCC 是Mel-frequency cepstral coefficients 的縮寫,其特征提取包含2 個(gè)關(guān)鍵步驟:首先將信號(hào)轉(zhuǎn)化到梅爾頻率,然后進(jìn)行倒譜分析[7].

1.1 梅爾頻率梅爾刻度是一種常用的語音信號(hào)分析方法,基于人耳對(duì)等距的音高(Pitch)變化的感官判斷而定的非線性頻率刻度.梅爾刻度的濾波器組在低頻部分的分辨率高,跟人耳的聽覺特性是相符的,這也是梅爾刻度的物理意義所在.梅爾頻譜m和頻率f的關(guān)系如下:

在頻譜圖生成過程中,首先,對(duì)時(shí)域信號(hào)進(jìn)行傅里葉變換轉(zhuǎn)換到頻域;然后,再利用梅爾頻率刻度的濾波器組對(duì)頻域信號(hào)進(jìn)行切分;最后,每個(gè)頻率段對(duì)應(yīng)一個(gè)數(shù)值.

1.2 倒譜分析倒譜分析是在對(duì)時(shí)域信號(hào)做傅里葉變換取對(duì)數(shù)之后,再進(jìn)行反傅里葉變換,可以分為復(fù)倒譜、實(shí)倒譜和功率倒譜,通常語音信號(hào)處理采用功率倒譜[8].

1.3 MFCC特征處理步驟1)預(yù)加重:高通濾波器處理,補(bǔ)償語音信號(hào)受到發(fā)音系統(tǒng)所壓抑的高頻部分;

2)窗函數(shù)處理:使用漢明窗平滑信號(hào),會(huì)減弱傅里葉變換以后旁瓣大小以及頻譜泄露;

3)梅爾濾波器處理:將語音信號(hào)從時(shí)域轉(zhuǎn)換到頻域,并精簡(jiǎn)信號(hào)在頻域的幅度值,然后進(jìn)行對(duì)數(shù)處理,本文采用的濾波器組為39 個(gè);

4)倒譜分析:反傅里葉變換(實(shí)際中常用離散余弦變換),然后通過低通濾波器獲得最后的低頻信號(hào);

5)差分處理:由于語音信號(hào)是時(shí)域連續(xù)的,分幀提取的特征信息只反應(yīng)了本幀語音的特性,為了使特征更能體現(xiàn)時(shí)域連續(xù)性,因此,在特征維度增加前后幀信息的維度,常用的是一階差分和二階差分.

2 模型結(jié)構(gòu)

本研究采用的網(wǎng)絡(luò)層類型包含CNN 和RNN.CNN用在時(shí)間維上對(duì)數(shù)據(jù)進(jìn)行特征自提取和維度壓縮,同時(shí)考慮到RNN 在模型訓(xùn)練時(shí)對(duì)時(shí)序數(shù)據(jù)記憶困難問題,采用改進(jìn)的GRU(Gated Recurrent Unit)結(jié)構(gòu)進(jìn)行數(shù)據(jù)時(shí)序建模[9].

CNN是一種廣泛用于計(jì)算機(jī)視覺領(lǐng)域[10]中的神經(jīng)網(wǎng)絡(luò)單元,其核心思想是模擬人類視覺特征,認(rèn)為視覺不只是聚焦在感興趣的像素上,還對(duì)其周圍領(lǐng)域的像素產(chǎn)生響應(yīng),解決了圖像空間相關(guān)性問題[11-12].同時(shí),在局部采用共享權(quán)值,以降低模型訓(xùn)練難度,卷積操作具有位移、縮放及其他形式扭曲不變性,極大地降低了CNN 對(duì)目標(biāo)在圖像中的角度、縮放和扭曲的依賴性和敏感度,池化操作對(duì)局部區(qū)域提取顯著性特征,壓縮圖像特征數(shù)據(jù),降低數(shù)據(jù)維度,提取有用深層數(shù)據(jù)特征,基本操作如(2)式所示:

RNN是一種廣泛用于時(shí)序數(shù)據(jù)建模的神經(jīng)元結(jié)構(gòu)[13],其核心思想為網(wǎng)絡(luò)會(huì)對(duì)前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計(jì)算中,即隱藏層之間的節(jié)點(diǎn)不再無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出,還包括上一時(shí)刻隱藏層的輸出[14].理論上,RNNs 能夠?qū)θ魏伍L(zhǎng)度的序列數(shù)據(jù)進(jìn)行處理.但是在實(shí)踐中,為了降低復(fù)雜性,往往假設(shè)當(dāng)前的狀態(tài)只與前面的幾個(gè)狀態(tài)相關(guān),基本操作如(3)式所示:

對(duì)于每一個(gè)隱狀態(tài)s,其輸入包含該時(shí)刻的輸入x(s)以及上一時(shí)刻的隱狀態(tài)h(s-1),輸出y(s)依賴于h(s),w 表示不同輸入輸出之間的權(quán)重值,b 為權(quán)重偏置值.

本文采用1 個(gè)CNN層用于時(shí)間維特征提取和數(shù)據(jù)壓縮,多個(gè)RNN 層用于時(shí)序時(shí)間建模[15],通過全連接層映射到語音識(shí)別詞典表,全連接層采用softmax作為激活函數(shù),輸出為對(duì)應(yīng)標(biāo)簽的概率值.

3 CTC

在傳統(tǒng)的語音識(shí)別模型中,對(duì)語音模型進(jìn)行訓(xùn)練之前,往往都要將文本與語音進(jìn)行嚴(yán)格的對(duì)齊操作[16].這樣不僅要花費(fèi)人力、時(shí)間,同時(shí)預(yù)測(cè)出的標(biāo)簽只是局部分類的結(jié)果,無法給出整個(gè)序列的輸出結(jié)果,往往要對(duì)預(yù)測(cè)出的標(biāo)簽做一些后處理才可以得到最終想要的結(jié)果.

2016 年,Graves 等[17]提出CTC(Connectionist temporal classification)算法用于解決時(shí)序數(shù)據(jù)的對(duì)齊問題,其核心思想是在標(biāo)注符號(hào)集中不斷加入空白符號(hào)blank,然后利用RNN 進(jìn)行標(biāo)注,最后把blank 符號(hào)和預(yù)測(cè)出的重復(fù)符號(hào)消除.例如標(biāo)簽“_a_bb”和“a_bbbb”最終均被處理為“ab”標(biāo)簽,上述表述中“_”代表blank,是發(fā)音之間的間隔.

對(duì)于給定長(zhǎng)度為T的時(shí)間序列

為網(wǎng)絡(luò)的輸出序列,y(k,t)表示輸出單元k 在t 時(shí)刻被觸發(fā),即在t時(shí)刻標(biāo)簽為k 的概率.那么,輸入觀測(cè)值在輸出集合(L′)上的時(shí)序數(shù)據(jù)概率分布可表示為(4)式,最終的標(biāo)簽輸出概率為所有可能的路徑之和,如(5)式所示:

4 實(shí)驗(yàn)

本文的實(shí)驗(yàn)數(shù)據(jù)為THCHS30,實(shí)驗(yàn)環(huán)境操作系統(tǒng)為Ubuntu16.04,處理器為Intel(R)Core(TM)i7-6800K@ 3.4 GHz,內(nèi)存64 GB,顯卡為2*NVIDIA GTX1080(2*8 GB顯存).

深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)相關(guān)實(shí)現(xiàn)基于Keras1.1.2和Theano 0.8.2 開源框架,程序開發(fā)語言為Python.實(shí)驗(yàn)設(shè)計(jì)包含以下部分:

1)通過實(shí)驗(yàn)驗(yàn)證不同的GRU 層數(shù)和神經(jīng)元數(shù)量對(duì)識(shí)別效果的影響;

2)與傳統(tǒng)語音識(shí)別方法(HMM/GMM 和HMM/DNN)的識(shí)別結(jié)果比較;

本文采用的識(shí)別結(jié)果評(píng)斷因子為CCER,為了使識(shí)別出來的詞序列和詞序列真實(shí)值(truth)之間保持一致,需要進(jìn)行替換(S),刪除(D),或者插入(I)某些詞,這些插入、替換、刪除的詞的總個(gè)數(shù),除以標(biāo)準(zhǔn)的詞序列中詞的個(gè)數(shù)的百分比,定義如(6)式所示:

根據(jù)上述實(shí)驗(yàn)設(shè)定,本文進(jìn)行了相關(guān)的仿真實(shí)驗(yàn),實(shí)驗(yàn)1 的結(jié)果如表1 所示.

表1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)驗(yàn)證實(shí)驗(yàn)結(jié)果Tab.1 Verification of the experimental results based on the neural network structure

針對(duì)已有訓(xùn)練數(shù)據(jù)集,在仿真實(shí)驗(yàn)過程中,本文做了9 組對(duì)比實(shí)驗(yàn),包含3、5、7 層的GRU 網(wǎng)絡(luò)結(jié)構(gòu)和與之對(duì)應(yīng)的500、1 000、1 500 個(gè)GRU 神經(jīng)元.表1 中對(duì)應(yīng)的CCER為多次實(shí)驗(yàn)所得的最好識(shí)別結(jié)果,顯存開銷和訓(xùn)練時(shí)間是為了對(duì)比增加GRU網(wǎng)絡(luò)層數(shù)和神經(jīng)元數(shù)量對(duì)整個(gè)模型造成的附加影響,其值均為大概值.

由表1 的結(jié)果可知,增加GRU 網(wǎng)絡(luò)層數(shù)和神經(jīng)元數(shù)量可在一定范圍內(nèi)提升最終的語音識(shí)別效果,由3*500 的15.4%提升到7*1 500的9.7%.在GRU 神經(jīng)元數(shù)量從500 增加至1 000,在各個(gè)GRU層數(shù)量的情況下,最終的CCER 均能提升2%~3%,但是神經(jīng)元數(shù)量從1 000 增加至1 500之后,CCER提升并不如之前的改進(jìn)大,約為0.3%,這個(gè)現(xiàn)象說明1 000 為本文網(wǎng)絡(luò)結(jié)構(gòu)神經(jīng)元的合適選擇值.在增加GRU 網(wǎng)絡(luò)層數(shù)和神經(jīng)元數(shù)量的同時(shí),模型訓(xùn)練的顯存和時(shí)間開銷明顯增大,大約為3.5 倍.

在完成上述實(shí)驗(yàn)之后,再基于同一訓(xùn)練數(shù)據(jù)集進(jìn)行一組對(duì)比實(shí)驗(yàn),對(duì)比本文的端到端語音識(shí)別方法與傳統(tǒng)的HMM/GMM算法和HMM/DNN算法的識(shí)別效果和訓(xùn)練時(shí)間,結(jié)果如表2 所示.

表2 語音識(shí)別對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Comparison of the experimental results based on the different algorithms

從表2 可知,本文所采用的方法在識(shí)別效果上均優(yōu)于傳統(tǒng)的HMM/GMM 算法和HMM/DNN 算法,但是訓(xùn)練時(shí)間上稍遜,但如果采用實(shí)驗(yàn)1 中第8個(gè)實(shí)驗(yàn)的結(jié)果,那么本文的方法在識(shí)別結(jié)果和訓(xùn)練時(shí)間消耗上均優(yōu)于傳統(tǒng)的語音識(shí)別算法.深究訓(xùn)練時(shí)間開銷的原因可知,傳統(tǒng)的HMM/GMM 算法和HMM/DNN算法在使用維特比算法解碼時(shí)消耗了大量的訓(xùn)練時(shí)間,約占50%.在識(shí)別效果和時(shí)間上的優(yōu)勢(shì)也是當(dāng)前端到端語音識(shí)別算法成為主流的根本原因.

5 結(jié)論

本文在傳統(tǒng)語音識(shí)別算法人為設(shè)計(jì)模型較為復(fù)雜,且消耗訓(xùn)練時(shí)間較長(zhǎng)的情況下,借鑒并改進(jìn)端到端語音識(shí)別算法在英文識(shí)別中的結(jié)果,設(shè)計(jì)和實(shí)現(xiàn)了適合本文數(shù)據(jù)集的中文語音識(shí)別算法.通過與其他傳統(tǒng)方法的識(shí)別結(jié)果比較,本文所采用的算法在能保證更好的識(shí)別效果的同時(shí),降低模型訓(xùn)練消耗的時(shí)間;同時(shí)極大地降低了語音識(shí)別技術(shù)對(duì)專家知識(shí)的依賴性,利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征自學(xué)習(xí)和建模能力對(duì)數(shù)據(jù)分布進(jìn)行擬合,端到端語音識(shí)別技術(shù)必將成為未來語音識(shí)別的主流技術(shù).

以后,將從增加訓(xùn)練樣本數(shù)據(jù)量、調(diào)整模型訓(xùn)練時(shí)的超參數(shù)等方面入手,進(jìn)一步改進(jìn)本文的模型識(shí)別結(jié)果.

猜你喜歡
梅爾神經(jīng)元語音
基于梅爾頻譜分離和LSCNet的聲學(xué)場(chǎng)景分類方法
《從光子到神經(jīng)元》書評(píng)
自然雜志(2021年6期)2021-12-23 08:24:46
魔力語音
基于MATLAB的語音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
女詩(shī)人梅爾詩(shī)集《十二背后》三人談
對(duì)方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
躍動(dòng)的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
基于二次型單神經(jīng)元PID的MPPT控制
毫米波導(dǎo)引頭預(yù)定回路改進(jìn)單神經(jīng)元控制
射洪县| 新昌县| 南乐县| 湖口县| 嵊泗县| 闽侯县| 固安县| 务川| 唐河县| 兴和县| 太白县| 安义县| 三原县| 宁德市| 石泉县| 延边| 东台市| 大足县| 布拖县| 且末县| 曲松县| 台江县| 西吉县| 盐池县| 隆子县| 冕宁县| 泰州市| 前郭尔| 德江县| 龙岩市| 旬邑县| 阜阳市| 中卫市| 乌拉特前旗| 新河县| 奉新县| 黎平县| 昌图县| 绥棱县| 浙江省| 类乌齐县|