楊金鋒,李凱濤,賈桂敏,師一華
(中國(guó)民航大學(xué)天津市智能信號(hào)與圖像處理重點(diǎn)實(shí)驗(yàn)室,天津 300300)
2010年美國(guó)國(guó)家航空航天局的調(diào)查報(bào)告顯示,由于陸空通話內(nèi)容不正確、用語不規(guī)范、信息紕漏、復(fù)述錯(cuò)誤或無復(fù)述造成的民航飛行事故所占比例分別為14%、9.9%、5.5%和13%[1]。將語音識(shí)別技術(shù)應(yīng)用到民航陸空通話中,通話內(nèi)容可轉(zhuǎn)換為相應(yīng)文本,輔助飛行員正確地理解管制員的指令,從而保障飛行安全。但通用語音識(shí)別聲學(xué)模型無法直接應(yīng)用到陸空通話中,這是由民航陸空通話語法規(guī)則不同于通用語音決定的。民航陸空通話主要規(guī)則[2-3]如下:①通話過程中對(duì)字母、數(shù)字及呼號(hào)有特定的發(fā)音標(biāo)準(zhǔn),如1 讀作幺,A 讀作ALPHA 等;②陸空通話語法規(guī)則較為固定,管制員發(fā)出的指令,飛行員應(yīng)予復(fù)誦,復(fù)誦必須包括指令與飛行器呼號(hào),且呼號(hào)后置等。目前,針對(duì)中文陸空通話語音識(shí)別和聲學(xué)建模的研究較少,且大多集中在陸空通話關(guān)鍵詞的語音識(shí)別和基于傳統(tǒng)高斯混合模型-隱馬爾可夫模型(GMM-HMM,Gaussian mixture modelhidden markov model)的聲學(xué)建模[4]。因此,利用深度神經(jīng)網(wǎng)絡(luò)(DNN,deep neural networks)[5]對(duì)中文陸空通話連續(xù)語音識(shí)別的聲學(xué)建模問題展開研究,提出一種基于深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型(DNN-HMM)[6-8]的陸空通話聲學(xué)模型構(gòu)建方法。
聲學(xué)模型是語音識(shí)別系統(tǒng)的重要組成部分。由于語音信號(hào)特征序列的產(chǎn)生類似于隱馬爾可夫(HMM)[9]狀態(tài)轉(zhuǎn)移過程,傳統(tǒng)聲學(xué)模型使用GMM-HMM 進(jìn)行構(gòu)建。深度學(xué)習(xí)算法中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具有強(qiáng)大的信息分析和提取能力,在語音識(shí)別領(lǐng)域有著廣泛應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural networks)[10]各隱層之間非全連接,通過卷積核卷積計(jì)算降低特征維度;長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM,long short-term memory)[11]各隱層之間為全連接,且可得到時(shí)序信息,但計(jì)算復(fù)雜度較高。較之CNN 與LSTM,DNN 結(jié)構(gòu)更加簡(jiǎn)單且更易實(shí)現(xiàn),各隱層之間全連接能夠保留更多信息。語音特征作為聲學(xué)模型的輸入,對(duì)其性能也有重大的影響,常用的語音特征有Fbank(filter-bank)、梅爾倒譜系數(shù)(MFCC, Mel frequency cepstrum coefficient)等[12]。好的語音特征應(yīng)該具有優(yōu)秀的區(qū)分性,主要體現(xiàn)在聲學(xué)模型利用不同的建模單元建模時(shí),具有較強(qiáng)的魯棒性[13]。
陸空通話語法規(guī)則較為固定,即使不使用復(fù)雜的網(wǎng)絡(luò),也能取得很好的識(shí)別效果,因此可利用DNN-HMM構(gòu)建陸空通話聲學(xué)模型。為提高輸入語音特征的區(qū)分度并減少說話人口音對(duì)聲學(xué)建模的影響,利用線性判別分析(LDA,linear discriminant analysis)、特征空間最大似然回歸(FMLLR,feature-space maximum likelihood linear regression)和說話人自適應(yīng)訓(xùn)練(SAT, speaker adaptive training)對(duì)模型輸入的語音特征進(jìn)行增強(qiáng),從而提高聲學(xué)模型的性能。利用項(xiàng)目組建立的中文陸空通話數(shù)據(jù)庫,通過實(shí)驗(yàn)對(duì)比分析不同語音特征、特征維數(shù)和連接幀數(shù)對(duì)陸空通話聲學(xué)模型的影響。實(shí)驗(yàn)結(jié)果表明,提出的基于DNN-HMM 的陸空通話聲學(xué)模型與傳統(tǒng)方法相比具有更低的音素錯(cuò)誤率。
DNN 是由受限玻爾茲曼機(jī)(RBM,restricted Boltzmann machine)疊加而成的一種自底向上訓(xùn)練的網(wǎng)絡(luò)模型[14],其結(jié)構(gòu)如圖1 所示。通過無監(jiān)督訓(xùn)練生成DNN模型的初始權(quán)重,再通過有監(jiān)督訓(xùn)練,利用各層之間的連接關(guān)系,使用期望輸出與實(shí)際輸出之間的誤差自頂向下逐層傳遞,不斷調(diào)整網(wǎng)絡(luò)參數(shù),完成整個(gè)網(wǎng)絡(luò)的訓(xùn)練。RBM 是一種無向網(wǎng)絡(luò)模型,其訓(xùn)練的關(guān)鍵在于訓(xùn)練網(wǎng)絡(luò)中各層之間的連接參數(shù)。RBM 由包含隨機(jī)節(jié)點(diǎn)的輸入層與服從二值分布的隱層相連接而構(gòu)成,其能量函數(shù)為
圖1 DNN 結(jié)構(gòu)圖Fig.1 DNN structure diagram
其中:v 為輸入層狀態(tài)參數(shù);h 為隱層狀態(tài)參數(shù);θ={ai,bj,wij}表示每個(gè)RBM 的參數(shù)集合;ai表示輸入層第i個(gè)輸入單元的偏移量、bj表示隱層第j 個(gè)隱含單元的偏移量;wij表示第i 個(gè)輸入單元和第j 個(gè)隱層單元之間的連接權(quán)重,且wij=wj;vi表示第i 個(gè)輸入單元狀態(tài);hj表示第j 個(gè)隱層單元狀態(tài);V 表示輸入層節(jié)點(diǎn)個(gè)數(shù);H表示隱層節(jié)點(diǎn)個(gè)數(shù)。似然函數(shù)P(v|θ)和歸一化因子Z(θ)為
若已知輸入層各個(gè)節(jié)點(diǎn),根據(jù)輸入和連接權(quán)重值,可求隱層第j 個(gè)單元的激活概率為
其中:激活函數(shù)σ(x)=1/(1+exp(-x))。由于RBM 是無向網(wǎng)絡(luò),輸入層第i 個(gè)單元的激活概率為
要得到輸入樣本的分布,可利用RBM 訓(xùn)練樣本的最大似然函數(shù)對(duì)數(shù)值估算參數(shù)θ 的近似值θ*,即
其中:L 為對(duì)數(shù)函數(shù);T 為訓(xùn)練樣本的數(shù)目。
使用訓(xùn)練樣本初始化輸入單元的各個(gè)狀態(tài),計(jì)算得到隱層各單元的狀態(tài),再根據(jù)隱層各單元的狀態(tài)反向推測(cè)出輸入單元的狀態(tài),完成單層RBM 網(wǎng)絡(luò)的參數(shù)更新和訓(xùn)練。將計(jì)算所得輸出狀態(tài)作為下一個(gè)RBM的輸入數(shù)據(jù),以此類推完成DNN 網(wǎng)絡(luò)的訓(xùn)練。
與傳統(tǒng)聲學(xué)模型相比,基于DNN-HMM 的陸空通話聲學(xué)模型不需要對(duì)陸空通話的分布進(jìn)行高斯擬合,利用DNN 估計(jì)HMM 狀態(tài)的后驗(yàn)概率分布,有利于利用語音相鄰幀之間的結(jié)構(gòu)信息[15]。對(duì)陸空通話進(jìn)行聲學(xué)建模時(shí),首先根據(jù)語料庫標(biāo)注的音素信息,將陸空通話的各個(gè)音素映射為HMM 結(jié)構(gòu)的各個(gè)狀態(tài),音素序列隨時(shí)間變化的過程構(gòu)成了HMM 狀態(tài)轉(zhuǎn)移過程。然后,利用陸空通話語料庫標(biāo)注的音素信息作為期望輸出,根據(jù)DNN 模型訓(xùn)練基本方法可得到DNN 模型的輸出。最后,給定陸空通話語音信號(hào),設(shè)在t 時(shí)刻處于狀態(tài)sj,定義前向概率αt(sj)和后向概率βt(sj),計(jì)算狀態(tài)占有概率γt(sj)和每一時(shí)刻的狀態(tài)轉(zhuǎn)移概率,找出每一個(gè)語音特征的后驗(yàn)概率并映射為HMM 狀態(tài),與DNN 的softmax 輸出相對(duì)應(yīng),完成基于DNN-HMM 的陸空通話語音識(shí)別聲學(xué)模型的構(gòu)建。一個(gè)M 隱層的DNN-HMM 框架[16]如圖2 所示。
圖2 DNN-HMM 框架圖Fig.2 DNN-HMM schematic diagram
將不同的語音特征作為DNN-HMM 模型的輸入,會(huì)影響陸空通話聲學(xué)模型的性能。語音識(shí)別大多使用MFCC 特征和Fbank 特征作為聲學(xué)模型的輸入。Fbank特征與MFCC 特征相比沒有進(jìn)行離散余弦變換(DCT,discrete cosine transform),從而減少語音特征在時(shí)域的前后關(guān)聯(lián)性丟失[17]。因此,采用Fbank 特征構(gòu)建基于DNN-HMM 的陸空通話聲學(xué)模型,同時(shí),利用LDA、SAT、FMLLR 3種語音特征變換方法,增加語音特征的區(qū)分性并減少說話人口音的影響。
語音信號(hào)是時(shí)變的非平穩(wěn)信號(hào),通過分幀加窗轉(zhuǎn)換成短時(shí)平穩(wěn)信號(hào)進(jìn)行處理。由于實(shí)際民航陸空通話語速明顯快于日常對(duì)話,語音信號(hào)幀長(zhǎng)設(shè)置為10 ms,幀移設(shè)為幀長(zhǎng)的50%;使用過零點(diǎn)端點(diǎn)檢測(cè)技術(shù)提取陸空通話語音信號(hào)的語音段,去除非語音段;再通過預(yù)加重處理來提升語音信號(hào)的高頻分量。對(duì)每一幀信號(hào)進(jìn)行離散傅里葉變換(DFT,discrete Fourier transform),然后輸入到39 個(gè)等帶寬的三角狀帶通濾波器,計(jì)算39 個(gè)濾波器輸出能量的對(duì)數(shù)與每一幀語音信號(hào)的總能量,共同構(gòu)成一個(gè)40 維的Fbank 特征。Fbank 特征提取流程如圖3 所示。
圖3 Fbank 特征提取提取流程Fig.3 Fbank feature extraction flow chart
根據(jù)民航陸空通話標(biāo)準(zhǔn),以實(shí)際陸空通話錄音和相關(guān)課程教材作為建立語料庫的原始參考,建立中文陸空通話語料庫。該語料庫由空管專業(yè)學(xué)生與一線管制員共同錄制(共21 人,男性15 名,女性6 名,每人錄音640 句),包含飛行各階段的民航陸空通話錄音。該語料庫共包含13 400 條音頻文件,容量為4 G。錄音格式為:采樣率8 kHz,比特率256 kbps,單聲道,wav 格式。
一般使用音素錯(cuò)誤率[18](PER,phoneme error rate)作為聲學(xué)模型評(píng)價(jià)標(biāo)準(zhǔn)。其計(jì)算公式為
其中:Ci、Cs、Cd分別為插入、替換和刪除音素的個(gè)數(shù);C為標(biāo)準(zhǔn)音素序列中音素的總數(shù)。
陸空通話聲學(xué)模型構(gòu)建中,每人錄制500 條語句(共10 500 條)作為模型的訓(xùn)練數(shù)據(jù),每人剩余的140條(共2 940 條)作為模型的測(cè)試數(shù)據(jù)。通過對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行音素標(biāo)注,使用標(biāo)注信息作為DNN 模型的期望輸出,調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),完成DNN 網(wǎng)絡(luò)的訓(xùn)練。同時(shí),作為先驗(yàn)信息計(jì)算HMM 的結(jié)構(gòu),從而完成基于DNN-HMM 的陸空通話聲學(xué)模型構(gòu)建。
模型初始學(xué)習(xí)率為0.008,初始權(quán)重為0.5,包含4個(gè)隱層,每層節(jié)點(diǎn)數(shù)為1 024,利用sigmod 函數(shù)作為模型激活函數(shù)。若每幀語音信號(hào)的Fbank 特征為40 維,使用當(dāng)前幀及其前后5 幀連接共11 幀的語音特征作為輸入,輸出特征為3 642 維。將提取的語音特征作為模型輸入,音素作為基元,使用最大似然估計(jì)準(zhǔn)則訓(xùn)練并搭建上下文相關(guān)的三音素模型,然后對(duì)搭建好的三音素模型的語音特征做LDA、SAT、FMLLR 變換(增強(qiáng)變換),增加語音特征的魯棒性。
為確定陸空通話DNN-HMM 聲學(xué)模型的最優(yōu)輸入,分別利用MFCC 特征、Fbank 特征及二者增強(qiáng)變換后得到的語音特征作為模型輸入,對(duì)比聲學(xué)模型的音素錯(cuò)誤率,如表1 所示。從表1 可看出,F(xiàn)bank 特征更適合作為基于DNN-HMM 的陸空通話聲學(xué)模型的輸入,這是由于基于DNN-HMM 的聲學(xué)模型不需要做高斯擬合,F(xiàn)bank 特征更多地保留了原始語音信號(hào)的相關(guān)信息,可使深度神經(jīng)網(wǎng)絡(luò)更好地利用音素的前后相關(guān)性,更精確地確定輸出特征所對(duì)應(yīng)的音素。同時(shí),通過語音特征增強(qiáng)變換,可進(jìn)一步降低音素識(shí)別錯(cuò)誤率。因此,在后續(xù)實(shí)驗(yàn)中均采用增強(qiáng)變換后的Fbank特征作陸空通話聲學(xué)模型的輸入。
表1 不同語音特征輸入DNN-HMM 模型的音素識(shí)別Tab.1 Phoneme idenfification of different speech features input to NDD-HMM %
聲學(xué)模型輸入維數(shù)對(duì)模型的訓(xùn)練十分重要。如果輸入維數(shù)過大,會(huì)造成過度擬合;而輸入維數(shù)過小會(huì)造成擬合不夠。在陸空通話聲學(xué)模型的構(gòu)建中,固定連接幀數(shù)為11 幀,對(duì)比不同F(xiàn)bank 特征維數(shù)對(duì)音素識(shí)別錯(cuò)誤率的影響,如表2 所示。
表2 Fbank 特征維數(shù)對(duì)音素識(shí)別錯(cuò)誤率的影響Tab.2 Effect of Fbank dimension on error rate of phoneme identification %
當(dāng)固定每一幀語音信號(hào)的Fbank 特征維數(shù)時(shí),不同的前后連接幀數(shù)對(duì)陸空通話聲學(xué)模型構(gòu)建也有較大影響,如表3 所示。從表2~表3 可看出,輸入特征向量長(zhǎng)度為40×11(前后連接11 幀,每一幀包含40 維的Fbank 特征),基于DNN-HMM 的陸空通話聲學(xué)模型音素錯(cuò)誤率最低。
表3 連接幀數(shù)目對(duì)音素錯(cuò)誤率的影響Tab.3 Effect of frames link size on error rate of phoneme identification %
將所提方法與傳統(tǒng)GMM-HMM 模型的聲學(xué)模型構(gòu)建方法進(jìn)行對(duì)比,在陸空通話語料庫上進(jìn)行實(shí)驗(yàn)分析,音素識(shí)別結(jié)果如表4 所示。從表4 可看出,所提方法的音素錯(cuò)誤率更低,更適合陸空通話語音信號(hào)的聲學(xué)建模。需要指出的是,目前的陸空通話數(shù)據(jù)庫規(guī)模仍然較小,隨著數(shù)據(jù)庫規(guī)模的增大,根據(jù)相關(guān)語音識(shí)別工作的實(shí)驗(yàn)結(jié)論可知,基于DNN-HMM 的陸空通話聲學(xué)模型優(yōu)勢(shì)將更明顯。
表4 不同聲學(xué)模型的音素識(shí)別Tab.4 Phoneme identification of different acoustic models %
針對(duì)中文陸空通話語音識(shí)別聲學(xué)模型的構(gòu)建問題展開研究。建立了中文陸空通話語料庫,利用DNN模型對(duì)陸空通話語音特征進(jìn)行建模,采用增強(qiáng)變換后的Fbank 語音特征作為聲學(xué)模型輸入,通過實(shí)驗(yàn)對(duì)比分析給出一種適用于中文陸空通話聲學(xué)模型的構(gòu)建方法。與MFCC 特征相比,F(xiàn)bank 特征更適合基于DNN 模型的聲學(xué)建模,且經(jīng)過特征增強(qiáng)后可以使音素識(shí)別錯(cuò)誤率進(jìn)一步降低。對(duì)于現(xiàn)有語料庫,當(dāng)采用40×11 的增強(qiáng)變換Fbank 特征作為輸入時(shí),基于DNNHMM 的陸空通話聲學(xué)模型音素識(shí)別錯(cuò)誤率低于傳統(tǒng)GMM-HMM 聲學(xué)模型,可降低至5.62%。