馬 晗,唐柔冰,張 義,張巧靈
(浙江理工大學(xué) 信息學(xué)院,杭州 310018)
語言是人類最原始直接的一種交流方式,通俗易懂、便于理解.隨著科技的發(fā)展,語言交流不再只存在于人與人之間,如何讓機(jī)器“聽懂”人類的語言并做出反應(yīng)成為人工智能的重要課題,語音智能交互技術(shù)應(yīng)運(yùn)而生.作為其中重要一環(huán)的語音識(shí)別技術(shù)近年來不斷發(fā)展,走出了實(shí)驗(yàn)室,隨著人工智能進(jìn)入人們的日常生活中.當(dāng)今市場(chǎng)上語音識(shí)別技術(shù)相關(guān)的軟件、商品涉及人類生活的方方面面,語音識(shí)別的實(shí)用性已經(jīng)得到充分的印證.如今語音識(shí)別技術(shù)已經(jīng)成為人類社會(huì)智能化的關(guān)鍵一步,能夠極大提高人們生活的便捷度.
語音識(shí)別技術(shù)始于20世紀(jì)50年代,貝爾實(shí)驗(yàn)室研發(fā)了10 個(gè)孤立數(shù)字的語音識(shí)別系統(tǒng),此后,語音識(shí)別相關(guān)研究大致經(jīng)歷了3 個(gè)發(fā)展階段.第1 階段,從20世紀(jì)50年代到90年代,語音識(shí)別仍處于探索階段.這一階段主要通過模板匹配—即將待識(shí)別的語音特征與訓(xùn)練中的模板進(jìn)行匹配—進(jìn)行語音識(shí)別.典型的方法包括動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)技術(shù)和矢量量化(vector quantification,VQ).DTW 依靠動(dòng)態(tài)規(guī)劃(dynamic programming,DP)技術(shù)解決了語音輸入輸出不定長(zhǎng)的問題;VQ 則是對(duì)詞庫中的字、詞等單元形成矢量量化的碼本作為模板,再用輸入的語音特征矢量與模板進(jìn)行匹配.總體而言,這一階段主要實(shí)現(xiàn)了小詞匯量、孤立詞的語音識(shí)別.20世紀(jì)80年代至21世紀(jì)初為第2 階段,這一階段的語音識(shí)別主要以隱馬爾科夫模型(hidden Markov model,HMM)為基礎(chǔ)的概率統(tǒng)計(jì)模型為主,識(shí)別的準(zhǔn)確率和穩(wěn)定性都得到極大提升.該階段的經(jīng)典成果包括1990年李開復(fù)等研發(fā)的SPHINX 系統(tǒng)[1],該系統(tǒng)以GMM-HMM (Gaussian mixture model-hidden Markov model)為核心框架,是有史以來第一個(gè)高性能的非特定人、大詞匯量、連續(xù)語音識(shí)別系統(tǒng).GMM-HMM 結(jié)構(gòu)在相當(dāng)長(zhǎng)時(shí)間內(nèi)一直占據(jù)語音識(shí)別系統(tǒng)的主流地位,并且至今仍然是學(xué)習(xí)、理解語音識(shí)別技術(shù)的基石.此外,劍橋推出了以HMM為基礎(chǔ)的語音識(shí)別工具包HTK (hidden Markov model toolkit)[2].21世紀(jì)至今是語音識(shí)別的第3 階段.這一階段的語音識(shí)別建立在深度學(xué)習(xí)基礎(chǔ)上,得益于神經(jīng)網(wǎng)絡(luò)對(duì)非線性模型和大數(shù)據(jù)的處理能力,取得了大量成果.2009年Mohamed 等[3]提出深度置信網(wǎng)絡(luò)(deep belief network,DBN)與HMM 相結(jié)合的聲學(xué)模型在小詞匯量連續(xù)語音識(shí)別中取得成功.2012年深度神經(jīng)網(wǎng)絡(luò)與HMM 相結(jié)合的聲學(xué)模型DNN-HMM 在大詞匯量連續(xù)語音識(shí)別(large vocabulary continuous speech recognition,LVCSR)中取得成功[4],掀起利用深度學(xué)習(xí)進(jìn)行語音識(shí)別的浪潮.此后,以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等常見網(wǎng)絡(luò)為基礎(chǔ)的混合識(shí)別系統(tǒng)和端到端識(shí)別系統(tǒng)都獲得了不錯(cuò)的識(shí)別結(jié)果和系統(tǒng)穩(wěn)定性.迄今為止,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的語音識(shí)別系統(tǒng)仍舊是國(guó)內(nèi)外學(xué)者的研究熱點(diǎn).
我國(guó)的語音識(shí)別則起步于國(guó)家的“863 計(jì)劃”和“973 計(jì)劃”,中科院聲學(xué)所等研究所以及頂尖高校嘗試實(shí)現(xiàn)長(zhǎng)時(shí)語音的漢語識(shí)別工作,如今中文語音識(shí)別技術(shù)已經(jīng)達(dá)到了國(guó)際水準(zhǔn).2015年清華大學(xué)建立了第一個(gè)開源的中文語音數(shù)據(jù)庫THCHS-30[5].2016年上海交通大學(xué)提出的非常深卷積網(wǎng)絡(luò)(very deep convolutional neural networks,VDCNN)[6]提高了噪聲語音識(shí)別的性能,并在此基礎(chǔ)上進(jìn)一步提出了非常深卷積殘差網(wǎng)絡(luò)(very deep convolutional residual network,VDCRN)[7].百度于2014年、2016年依次推出了DeepSpeech[8]及其改進(jìn)版本[9],并在2017年提出Cold Fusion[10]以便于更好地利用語言學(xué)信息進(jìn)行語音識(shí)別,該系統(tǒng)以LSTMCTC (long short-term memory-connectionist temporal classification)的端到端模型為基礎(chǔ),在不同的噪聲環(huán)境下實(shí)現(xiàn)了英語和普通話的語音識(shí)別.2018年科大訊飛提出的深度全序列卷積神經(jīng)網(wǎng)絡(luò)(deep full-sequence convolution neural networks,DFCNN)[11]直接對(duì)語音信號(hào)進(jìn)行建模,該模型采用的大量疊加卷積層能夠儲(chǔ)存更多歷史信息,獲得了良好的識(shí)別效果.同年,阿里巴巴提出低幀率深度前饋記憶網(wǎng)絡(luò)(lower frame ratedeep feed forward sequential memory networks,LFRDFSMN)[12],將低幀率算法和DFSMN 算法相結(jié)合,使錯(cuò)誤率降低了20%,解碼速度卻提升了近3 倍.
總體而言,當(dāng)前主流語音識(shí)別技術(shù)主要在大詞匯量連續(xù)語音數(shù)據(jù)集上,基于深度神經(jīng)網(wǎng)絡(luò)進(jìn)行模型構(gòu)建和訓(xùn)練,面向不同應(yīng)用場(chǎng)景需求和數(shù)據(jù)特點(diǎn)對(duì)現(xiàn)有的神經(jīng)網(wǎng)絡(luò)不斷改進(jìn),相比于傳統(tǒng)的統(tǒng)計(jì)方法取得了極大的性能提升.
語音識(shí)別是利用機(jī)器對(duì)語音信號(hào)進(jìn)行識(shí)別和理解并將其轉(zhuǎn)換成相應(yīng)文本和命令的技術(shù),涉及到心理學(xué)、信號(hào)處理、統(tǒng)計(jì)學(xué)、數(shù)學(xué)和計(jì)算機(jī)等多門學(xué)科.其本質(zhì)是一種模式識(shí)別,通過對(duì)未知語音和已知語音的比較,匹配出最優(yōu)的識(shí)別結(jié)果.
根據(jù)面向的應(yīng)用場(chǎng)景不同,語音識(shí)別存在許多不同的類型:從對(duì)說話人的要求考慮可分為特定人和非特定人系統(tǒng);從識(shí)別內(nèi)容考慮可分為孤立詞識(shí)別和連續(xù)語音識(shí)別、命令及小詞匯量識(shí)別和大詞匯量識(shí)別、規(guī)范語言識(shí)別和口語識(shí)別;從識(shí)別的速度考慮還可分為聽寫和自然語速的識(shí)別等[13].
通常,語音識(shí)別過程大致分為兩步:第1 步,首先對(duì)語音信號(hào)提取特定的聲學(xué)特征,然后對(duì)聲學(xué)特征進(jìn)行“學(xué)習(xí)”或者說是“訓(xùn)練”,即建立識(shí)別基本單元的聲學(xué)模型和進(jìn)行語言文法分析的語言模型;第2 步是“識(shí)別”,根據(jù)識(shí)別系統(tǒng)的類型選擇能夠滿足要求的識(shí)別方法,采用語音分析方法分析出這種識(shí)別方法所要求的語音特征參數(shù),按照一定的準(zhǔn)則和測(cè)度與系統(tǒng)模型進(jìn)行比較,通過判決得出識(shí)別結(jié)果.
設(shè)一段語音信號(hào)經(jīng)過特征提取得到特征向量序列為X=[x1,x2,…,xN],其中xi是一幀的特征向量,i=1,2,…N,N為特征向量的數(shù)目.該段語音對(duì)應(yīng)的文本序列設(shè)為W=[w1,w2,…,wM],其中wi為基本組成單元,如音素、單詞、字符,i=1,2,…,M,M為文本序列的維度.從貝葉斯角度,語音識(shí)別的目標(biāo)就是從所有可能產(chǎn)生特征向量X的文本序列中找到概率最大的W*,可以用公式表示為下式優(yōu)化問題:
由上式可知,要找到最可能的文本序列必須使兩個(gè)概率P(X|W)和P(W)的乘積最大,其中P(X|W)為條件概率,由聲學(xué)模型決定;P(W)為先驗(yàn)概率,由語言模型決定.聲學(xué)模型和語言模型對(duì)語音信號(hào)的表示越精準(zhǔn),得到的語音系統(tǒng)效果越準(zhǔn)確.
從語音識(shí)別系統(tǒng)的構(gòu)成來講,一套完整的語音識(shí)別系統(tǒng)包括預(yù)處理、特征提取、聲學(xué)模型、語言模型以及搜索算法等模塊,其結(jié)構(gòu)示意圖如圖1所示.其中較為重要的特征提取、聲學(xué)模型和語言模型將在第2.2節(jié)中詳細(xì)闡述.
圖1 語音識(shí)別系統(tǒng)結(jié)構(gòu)圖
預(yù)處理包括預(yù)濾波、采樣、模/數(shù)轉(zhuǎn)換、預(yù)加重、分幀加窗、端點(diǎn)檢測(cè)等操作.其中,信號(hào)分幀是將信號(hào)數(shù)字化后的語音信號(hào)分成短時(shí)信號(hào)作為識(shí)別的基本單位.這主要是因?yàn)檎Z音信號(hào)是非平穩(wěn)信號(hào),且具有時(shí)變特性,不易分析;但其通常在短時(shí)間范圍(一般為10–30 ms)內(nèi)其特性基本不變,具有短時(shí)平穩(wěn)性,可以用來分析其特征參數(shù).
搜索模塊是指在訓(xùn)練好聲學(xué)模型和語言模型后,根據(jù)字典搜索最優(yōu)路徑,即最可能的輸出詞序列.傳統(tǒng)的語音識(shí)別解碼建立在加權(quán)有限狀態(tài)轉(zhuǎn)換器(weighted finite state transducer,WFST)所構(gòu)成的動(dòng)態(tài)網(wǎng)絡(luò)上,將HMM 狀態(tài)、詞典和語法等結(jié)合起來.目前端到端模型中主流的搜索算法為Beam Search 等.
2.2.1 特征提取
通常,在進(jìn)行語音識(shí)別之前,需要根據(jù)語音信號(hào)波形提取有效的聲學(xué)特征.特征提取的性能對(duì)后續(xù)語音識(shí)別系統(tǒng)的準(zhǔn)確性極其關(guān)鍵,因此需要具有一定的魯棒性和區(qū)分性.目前語音識(shí)別系統(tǒng)常用的聲學(xué)特征有梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficient,MFCC)、感知線性預(yù)測(cè)系數(shù)(perceptual linear predictive cepstrum coefficient,PLP)、線性預(yù)測(cè)倒譜系數(shù)(linear prediction cepstral coefficient,LPCC)、梅爾濾波器組系數(shù)(Mel filter bank,Fbank)等.
MFCC是最為經(jīng)典的語音特征,其提取過程如圖2所示.MFCC的提取模仿了人耳的聽覺系統(tǒng),計(jì)算簡(jiǎn)單,低頻部分也有良好的頻率分辨能力,在噪聲環(huán)境下具有一定的魯棒性.因此,現(xiàn)階段語音識(shí)別系統(tǒng)大多仍采用MFCC 作為特征參數(shù),并取得了不錯(cuò)的識(shí)別效果.
圖2 MFCC的特征提取過程
2.2.2 聲學(xué)模型
聲學(xué)模型是對(duì)等式(1)中的P(X|W)進(jìn)行建模,在語音特征與音素之間建立映射關(guān)系,即給定模型后產(chǎn)生語音波形的概率,其輸入是語音信號(hào)經(jīng)過特征提取后得到的特征向量序列.聲學(xué)模型整個(gè)語音識(shí)別系統(tǒng)中最重要的部分,只有學(xué)好了發(fā)音,才能順利和發(fā)音詞典、語言模型相結(jié)合得到較好的識(shí)別性能.
GMM-HMM是最為常見的一種聲學(xué)模型,該模型利用HMM 對(duì)時(shí)間序列的建模能力,描述語音如何從一個(gè)短時(shí)平穩(wěn)段過渡到下一個(gè)短時(shí)平穩(wěn)段;此外,HMM的隱藏狀態(tài)和觀測(cè)狀態(tài)的數(shù)目互不相干,可以解決語音識(shí)別中輸入輸出不等長(zhǎng)的問題.該聲學(xué)模型中的每個(gè)HMM 都涉及到3 個(gè)參數(shù):初始狀態(tài)概率、狀態(tài)轉(zhuǎn)移概率和觀測(cè)概率,其中觀測(cè)概率依賴于特征向量的概率分布,采用高斯混合模型GMM 進(jìn)行建模.
GMM-HMM 聲學(xué)模型在語音識(shí)別領(lǐng)域有很重要的地位,其結(jié)構(gòu)簡(jiǎn)單且區(qū)分度訓(xùn)練成熟,訓(xùn)練速度也相對(duì)較快.然而該模型中的GMM 忽略時(shí)序信息,每幀之間相對(duì)孤立,對(duì)上下文信息利用并不充分.且隨著數(shù)據(jù)量的上升,GMM 需要優(yōu)化的參數(shù)急劇增加,這給聲學(xué)模型帶來了很大的計(jì)算負(fù)擔(dān),淺層模型也難以學(xué)習(xí)非線性的特征變換.
深度學(xué)習(xí)的興起為聲學(xué)建模提供了新途徑,學(xué)者們用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)代替GMM 估計(jì)HMM的觀測(cè)概率,得到了DNN-HMM 語音識(shí)別系統(tǒng),其結(jié)構(gòu)如圖3所示.DNN-HMM 采用DNN的每個(gè)輸出節(jié)點(diǎn)來估計(jì)給定聲學(xué)特征的條件下HMM 某個(gè)狀態(tài)的后驗(yàn)概率.DNN 模型的訓(xùn)練階段大致分為兩個(gè)步驟:第1 步是預(yù)訓(xùn)練,利用無監(jiān)督學(xué)習(xí)的算法訓(xùn)練受限波爾茲曼機(jī)(restricted Boltzmann machine,RBM),RBM 算法通過逐層訓(xùn)練并堆疊成深層置信網(wǎng)絡(luò)(deep belief networks,DBN);第2 步是區(qū)分性調(diào)整,在DBN的最后一層上面增加一層Softmax層,將其用于初始化DNN的模型參數(shù),然后使用帶標(biāo)注的數(shù)據(jù),利用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法(如BP 算法) 學(xué)習(xí)DNN的模型參數(shù).相比于GMM-HMM,DNN-HMM 具有更好的泛化能力,擅長(zhǎng)舉一反三,幀與幀之間可以進(jìn)行拼接輸入,特征參數(shù)也更加多樣化,且對(duì)所有狀態(tài)只需訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò).文獻(xiàn)[4]證實(shí)了神經(jīng)網(wǎng)絡(luò)在大詞匯量語音識(shí)別領(lǐng)域的出色表現(xiàn).
圖3 基于DNN-HMM的語音識(shí)別系統(tǒng)框架
通過將DNN 取代GMM 對(duì)HMM 觀測(cè)概率進(jìn)行聲學(xué)建模,DNN-HMM 相比GMM-HMM 在語音識(shí)別性能方面有很大提升;然而,DNN 對(duì)于時(shí)序信息的上下文建模能力以及靈活性等方面仍有欠缺.針對(duì)這一問題,對(duì)上下文信息利用能力更強(qiáng)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN[14]和卷積神經(jīng)網(wǎng)絡(luò)CNN[15]被引入聲學(xué)建模中.在RNN的網(wǎng)絡(luò)結(jié)構(gòu)中,當(dāng)前時(shí)刻的輸出依賴記憶與當(dāng)前時(shí)刻的輸入,這對(duì)于語音信號(hào)的上下文相關(guān)性建模非常有優(yōu)勢(shì).然而,RNN 存在因梯度消失和梯度爆炸而難以訓(xùn)練的問題,于是研究人員引入門控機(jī)制,得到梯度傳播更加穩(wěn)定的長(zhǎng)短時(shí)記憶(long short-term memory,LSTM)網(wǎng)絡(luò).LSTM-RNN 對(duì)語音的上下文信息的利用率更高,識(shí)別的準(zhǔn)確率與魯棒性也均有提升,這些在文獻(xiàn)[16]中能得到證實(shí).CNN的優(yōu)勢(shì)在于卷積的不變性和池化技術(shù),對(duì)上下文信息有建模能力,對(duì)噪聲具有魯棒性,并且可以減少計(jì)算量.時(shí)延神經(jīng)網(wǎng)絡(luò)(time delay neural network,TDNN)是CNN 對(duì)大詞匯量連續(xù)語音識(shí)別的成功應(yīng)用[17].CLDNN (CNN-LSTMDNN)綜合了三者的優(yōu)點(diǎn),實(shí)驗(yàn)結(jié)果也證明了三者的結(jié)合得到了正向的收益[18].
總體而言,近年來語音識(shí)別中對(duì)聲學(xué)模型的研究仍集中在神經(jīng)網(wǎng)絡(luò),針對(duì)不同的應(yīng)用場(chǎng)景和需求對(duì)上述經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行綜合和改進(jìn)[19–21],以期訓(xùn)練更復(fù)雜、更強(qiáng)大的聲學(xué)模型.
2.2.3 語言模型
語言模型是用來預(yù)測(cè)字符(詞)序列產(chǎn)生的概率,判斷一個(gè)語言序列是否為正常語句,也就是解決如何計(jì)算等式(1)中的P(W).傳統(tǒng)的語言模型n-gram[22]是一種具有強(qiáng)馬爾科夫獨(dú)立性假設(shè)的模型,它認(rèn)為任意一個(gè)詞出現(xiàn)的概率僅與前面有限的n–1 個(gè)字出現(xiàn)的概率有關(guān),其公式表達(dá)如下:
然而,由于訓(xùn)練語料數(shù)據(jù)不足或者詞組使用頻率過低等常見因素,測(cè)試集中可能會(huì)出現(xiàn)訓(xùn)練集中未出現(xiàn)過的詞或某個(gè)子序列未在訓(xùn)練集中出現(xiàn),這將導(dǎo)致n-gram 語言模型計(jì)算出的概率為零,這種情況被稱為未登錄詞(out-of-vocabulary,OOV)問題.為緩解這個(gè)問題,通常采用一些平滑技術(shù),常見的平滑處理有Discounting、Interpolation和Backing-off 等.n-gram 模型的優(yōu)勢(shì)在于其參數(shù)易訓(xùn)練,可解釋性極強(qiáng),且完全包含了前n–1 個(gè)詞的全部信息,能夠節(jié)省解碼時(shí)間;但難以避免維數(shù)災(zāi)難的問題,此外n-gram 模型泛化能力弱,容易出現(xiàn)OOV 問題,缺乏長(zhǎng)期依賴.
隨著深度學(xué)習(xí)的發(fā)展,語言模型的研究也開始引入深度神經(jīng)網(wǎng)絡(luò).從n-gram 模型可以看出當(dāng)前的詞組出現(xiàn)依賴于前方的信息,因此很適合用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行建模.Bengio 等將神經(jīng)網(wǎng)絡(luò)用于語言模型建模[23],提出用詞向量的概念,用連續(xù)變量代替離散變量,利用神經(jīng)網(wǎng)絡(luò)去建模當(dāng)前詞出現(xiàn)的概率與其前n–1 個(gè)詞之間的約束關(guān)系.這種模型能夠降低模型參數(shù)的數(shù)量,具有一定的泛化能力,能夠較好地解決數(shù)據(jù)稀疏帶來的問題,但其對(duì)取得長(zhǎng)距離信息仍束手無策.為進(jìn)一步解決問題,RNN 被用于語言模型建模[24].RNNLM中隱含層的循環(huán)能夠獲得更多上下文信息,通過在整個(gè)訓(xùn)練集上優(yōu)化交叉熵來訓(xùn)練模型,使得網(wǎng)絡(luò)能夠盡可能建模出自然語言序列與后續(xù)詞之間的內(nèi)在聯(lián)系.其優(yōu)勢(shì)在于相同的網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)可以處理任意長(zhǎng)度的歷史信息,能夠利用神經(jīng)網(wǎng)絡(luò)的表征學(xué)習(xí)能力,極大程度避免了未登錄問題;但無法任意修改神經(jīng)網(wǎng)絡(luò)中的參數(shù),不利于新詞的添加和修改,且實(shí)時(shí)性不高.
語言模型的性能通常采用困惑度(perplexity,PPL)進(jìn)行評(píng)價(jià).PPL 定義為序列的概率幾何平均數(shù)的倒數(shù),其公式定義如下:
PPL 越小表示在給定歷史上出現(xiàn)下一個(gè)預(yù)測(cè)詞的概率越高,該模型的效果越好.
傳統(tǒng)的語音識(shí)別由多個(gè)模塊組成,彼此獨(dú)立訓(xùn)練,但各個(gè)子模塊的訓(xùn)練目標(biāo)不一致,容易產(chǎn)生誤差累積,使得子模塊的最優(yōu)解并不一定是全局最優(yōu)解.針對(duì)這個(gè)問題,學(xué)者們提出了端到端的語音識(shí)別系統(tǒng),直接對(duì)等式(1)中的概率P(W|X)進(jìn)行建模,將輸入的語音波形(或特征矢量序列)直接轉(zhuǎn)換成單詞、字符序列.端到端的語音識(shí)別將聲學(xué)模型、語言模型、發(fā)音詞典等模塊被容納至一個(gè)系統(tǒng),通過訓(xùn)練直接優(yōu)化最終目標(biāo),如詞錯(cuò)誤率(word error rate,WER)、字錯(cuò)誤率(character error rate,CER),極大地簡(jiǎn)化了整個(gè)建模過程.目前端到端的語音識(shí)別方法主要有基于連接時(shí)序分類(connectionist temporal classification,CTC)[25]和基于注意力機(jī)制(attention model)[26]兩類方法及其改進(jìn)方法.
CTC 引入空白符號(hào)(blank)解決輸入輸出序列不等長(zhǎng)的問題,主要思想是最大化所有可能對(duì)應(yīng)的序列概率之和,無需考慮語音幀和字符的對(duì)齊關(guān)系,只需要輸入和輸出就可以訓(xùn)練.CTC 實(shí)質(zhì)是一種損失函數(shù),常與LSTM 聯(lián)合使用.基于CTC的模型結(jié)構(gòu)簡(jiǎn)單,可讀性較強(qiáng),但對(duì)發(fā)音詞典和語言模型的依賴性較強(qiáng),且需要做獨(dú)立性假設(shè).RNN-Transducer 模型[27]是對(duì)CTC的一種改進(jìn),加入一個(gè)語言模型預(yù)測(cè)網(wǎng)絡(luò),并和CTC網(wǎng)絡(luò)通過一層全連接層得到新的輸出,這樣解決了CTC 輸出需做條件獨(dú)立性假設(shè)的問題,能夠?qū)v史輸出和歷史語音特征進(jìn)行信息累積,更好地利用語言學(xué)信息提高識(shí)別準(zhǔn)確率.
基于注意力機(jī)制的端到端模型最開始被用于機(jī)器翻譯,能夠自動(dòng)實(shí)現(xiàn)兩種語言的不同長(zhǎng)度單詞序列之間的轉(zhuǎn)換.該模型主要由編碼網(wǎng)絡(luò)、解碼網(wǎng)絡(luò)和注意力子網(wǎng)絡(luò)組成.編碼網(wǎng)絡(luò)將語音特征序列經(jīng)過深層神經(jīng)網(wǎng)絡(luò)映射成高維特征序列,注意力網(wǎng)絡(luò)分配權(quán)重系數(shù),解碼網(wǎng)絡(luò)負(fù)責(zé)輸出預(yù)測(cè)的概率分布.該模型不需要先驗(yàn)對(duì)齊信息,也不用音素序列間的獨(dú)立性假設(shè),不需要發(fā)音詞典等人工知識(shí),可以真正實(shí)現(xiàn)端到端的建模.2016年谷歌提出了一個(gè)Listen-Attend-Spell (LAS)模型[28],其結(jié)構(gòu)框圖如圖4所示.LAS 模型真正實(shí)現(xiàn)了端到端,所有組件聯(lián)合訓(xùn)練,也無獨(dú)立性假設(shè)要求.但LAS 模型需要對(duì)整個(gè)輸入序列之后進(jìn)行識(shí)別,因此實(shí)時(shí)性較差,之后也有許多學(xué)者對(duì)該模型不斷改進(jìn)[29–31].
圖4 LAS 模型框架圖
目前端到端的語音識(shí)別系統(tǒng)仍是語音識(shí)別領(lǐng)域的研究熱點(diǎn),基于CTC[32–34]、attention 機(jī)制[35]以及兩者結(jié)合的系統(tǒng)[36,37]都取得了非常不錯(cuò)的成果.其中Transformer-Transducer 模型[38]將RNN-T 模型中的RNN 替換為Transformer 提升了計(jì)算效率,還控制attention 模塊上下文時(shí)間片的寬度,滿足流式語音識(shí)別的需求.2020年谷歌提出的ContextNet 模型[39],采用Squeeze-and-Excitation 模塊獲取全局信息,并通過漸進(jìn)降采樣和模型縮放在減小模型參數(shù)和保持識(shí)別準(zhǔn)確率之間取得平衡.在Transformer 模型捕捉長(zhǎng)距離交互的基礎(chǔ)上加入了CNN 擅長(zhǎng)的局部提取特征得到Conformer模型[40],實(shí)現(xiàn)以更少的參數(shù)達(dá)到更好的精度.實(shí)際上端到端的語音識(shí)別系統(tǒng)在很多場(chǎng)景的識(shí)別效果已經(jīng)超出傳統(tǒng)結(jié)構(gòu)下的識(shí)別系統(tǒng),但距其落地得到廣泛商業(yè)應(yīng)用仍有一段路要走.
語音識(shí)別作為人機(jī)交互的關(guān)鍵技術(shù)一直是科技應(yīng)用領(lǐng)域的研究熱點(diǎn).目前,語音識(shí)別技術(shù)從理論研究到產(chǎn)品的開發(fā)都已取得了很多的成果,然而,相關(guān)研究及應(yīng)用落地仍然面臨很大挑戰(zhàn),具體可歸納為以下幾方面:
魯棒性語音識(shí)別:目前,理想條件下(低噪聲加近場(chǎng))的語音識(shí)別準(zhǔn)確率已經(jīng)達(dá)到一定程度.然而,在實(shí)際一些復(fù)雜語音環(huán)境下,如聲源遠(yuǎn)場(chǎng)等情景,低信噪比、房間混響、回聲干擾以及多聲源信號(hào)干擾等因素,使得語音識(shí)別任務(wù)面臨很大挑戰(zhàn).因此,針對(duì)復(fù)雜環(huán)境研究魯棒語音識(shí)別是目前語音識(shí)別領(lǐng)域的研究難點(diǎn)和熱點(diǎn).當(dāng)前,針對(duì)復(fù)雜環(huán)境下的語音識(shí)別研究大致可以分為4 個(gè)方向:(1)在語音識(shí)別前端,利用信號(hào)處理技術(shù)提高信號(hào)質(zhì)量:采用麥克風(fēng)陣列技術(shù)采集遠(yuǎn)場(chǎng)聲源信號(hào),然后通過聲源定位[41]、回聲消除[42]、聲源分離或語音增強(qiáng)[43]等提高語音信號(hào)質(zhì)量.例如,文獻(xiàn)[44]在基于深度學(xué)習(xí)的自適應(yīng)聲學(xué)回聲消除(acoustic echo cancellation,AEC)中加入了背景關(guān)注模塊以適應(yīng)部署環(huán)境的變化,以提高語音信號(hào)質(zhì)量;文獻(xiàn)[45]以深度聚類為框架提出了結(jié)合頻譜和空間信息的盲源分離方法;文獻(xiàn)[46] 利用以基于生成式對(duì)抗網(wǎng)絡(luò)(generative adversial networks,GAN)為基礎(chǔ)框架的增強(qiáng)網(wǎng)絡(luò)進(jìn)行噪聲抑制,從而提高目標(biāo)語音信號(hào)質(zhì)量;(2)尋找新的魯棒性特征,盡可能消除非目標(biāo)語音信號(hào)的影響:例如,伽馬通濾波器倒譜系數(shù)(Gammatone frequency cepstrum coefficient,GFCC)[47]等聽覺特征參數(shù)更適合擬合人耳基底膜的選擇性,符合人耳聽覺特征;或者,采用自動(dòng)編碼器[48]、遷移學(xué)習(xí)[49]等多種方式提取更魯棒的特征;(3)模型的改進(jìn)與自適應(yīng)[50]:上海交通大學(xué)提出的VDCNN[6]以及VDCRN[7]通過加深卷積層提升算法的魯棒性,文獻(xiàn)[51]利用GAN中生成器與判別器的相互博弈和瓶頸特征構(gòu)建聲學(xué)模型,文獻(xiàn)[52] 采用teacher-student learning的方式以干凈語音訓(xùn)練的聲學(xué)模型作為教師模型訓(xùn)練噪聲環(huán)境下的學(xué)生模型;(4)多模態(tài)數(shù)據(jù)融合[53]:當(dāng)在高噪聲環(huán)境或多說話人造成語音重疊的情況下,目標(biāo)語音信號(hào)容易被噪聲或其他非目標(biāo)聲源(干擾信號(hào))“淹沒”,這時(shí)僅憑拾音設(shè)備捕捉的“語音”信號(hào)往往無法獲得良好的識(shí)別性能;這時(shí),將語音信號(hào)和其他信號(hào)如聲帶的振動(dòng)信號(hào)[54]、嘴部的圖像信號(hào)[55]等進(jìn)行融合,更好地提升識(shí)別系統(tǒng)的魯棒性.例如,文獻(xiàn)[56]以RNN-T為框架,提出多模態(tài)注意力機(jī)制對(duì)音頻和視頻信息進(jìn)行融合,以提高識(shí)別性能;文獻(xiàn)[57]同樣基于RNN-T,但利用vision-to-phoneme model(V2P)提取視覺特征,連同音頻特征以相同的幀頻輸入至編碼器,取得了良好的識(shí)別性能.
低資源語音識(shí)別:這是對(duì)各種小語種語言識(shí)別研究的統(tǒng)稱.小語種不同于方言,有獨(dú)立完整的發(fā)音體系,各異性較強(qiáng)但數(shù)據(jù)資源匱乏,難以適應(yīng)以漢語、英語為主的語音識(shí)別系統(tǒng),聲學(xué)建模需要利用不充分的數(shù)據(jù)資源訓(xùn)練得到盡可能多的聲學(xué)特征.解決這一問題的基本思路可以概括為從主流語言的豐富資源中提取共性訓(xùn)練出可以公用的模型,在此基礎(chǔ)上訓(xùn)練小語種模型.文獻(xiàn)[58]為解決共享隱藏層中會(huì)學(xué)到不必要的特定信息這一問題,提出了一個(gè)共享層和特有層平行的模型,它通過對(duì)抗性學(xué)習(xí)確保模型能夠?qū)W習(xí)更多不同語種間的不變特征.然而,小語種種類繁多,為了單獨(dú)一種建立識(shí)別系統(tǒng)耗費(fèi)過多資源并不劃算,因此現(xiàn)在主要研究多語種融合的語音識(shí)別系統(tǒng)[59,60].
語音的模糊性:各種語言中都存在相似發(fā)音的詞語,不同的講話者存在不同的發(fā)音習(xí)慣以及口音、方言等問題,母語者和非母語者說同一種語言也存在不同的口音,難以針對(duì)單獨(dú)的口音構(gòu)建模型.針對(duì)多口音建模[61]的問題,現(xiàn)有的方法一般可以分為與口音無關(guān)和與口音相關(guān)兩大類,其中與口音無關(guān)的模型普遍表現(xiàn)更好一些.文獻(xiàn)[62]嘗試通過特定口音模型的集合建立統(tǒng)一的多口音識(shí)別模型;文獻(xiàn)[63]通過多任務(wù)學(xué)習(xí)將聲學(xué)模型和口音識(shí)別分類器聯(lián)合;文獻(xiàn)[64]則基于GAN 構(gòu)建了預(yù)訓(xùn)練網(wǎng)絡(luò)從聲學(xué)特征中區(qū)分出不變的口音.
低計(jì)算資源:精度高效果好的神經(jīng)網(wǎng)絡(luò)模型往往需要大量的計(jì)算資源且規(guī)模巨大,但移動(dòng)設(shè)備(如手機(jī)、智能家居等)計(jì)算能力和內(nèi)存有限,難以支撐,因此需要對(duì)模型進(jìn)行壓縮及加速.目前針對(duì)深度學(xué)習(xí)模型采用的壓縮方法有網(wǎng)絡(luò)剪枝、參數(shù)量化、知識(shí)蒸餾等.文獻(xiàn)[65]采用網(wǎng)絡(luò)剪枝的方法構(gòu)建了動(dòng)態(tài)稀疏神經(jīng)網(wǎng)絡(luò)(dynamic sparsity neural networks,DSNN),提供不同稀疏級(jí)別的網(wǎng)絡(luò)模型,通過動(dòng)態(tài)調(diào)整以適應(yīng)不同資源和能量約束的多種硬件類型的能力.文獻(xiàn)[66]通過量化網(wǎng)絡(luò)參數(shù)減少內(nèi)存占用并加快計(jì)算速度.知識(shí)蒸餾能夠?qū)?fù)雜模型的知識(shí)遷入小模型,已應(yīng)用于對(duì)語音識(shí)別系統(tǒng)的語言模型[67]、聲學(xué)模型[68]和端到端模型[29,69,70]等進(jìn)行壓縮.文獻(xiàn)[71]利用知識(shí)蒸餾將視聽兩模態(tài)的識(shí)別系統(tǒng)遷移至單聽覺模型,縮小了模型規(guī)模,加快了訓(xùn)練速度,卻并不影響精度.
本文主要對(duì)語音識(shí)別的發(fā)展、系統(tǒng)結(jié)構(gòu)研究、熱點(diǎn)及難點(diǎn)進(jìn)行了闡述.目前主流的語音識(shí)別方法大多基于深度神經(jīng)網(wǎng)絡(luò).這些方法大體分為兩類:一類是采用一定的神經(jīng)網(wǎng)絡(luò)取代傳統(tǒng)語音識(shí)別方法中的個(gè)別模塊,如特征提取、聲學(xué)模型或語言模型等;另一類是基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)端到端的語音識(shí)別.相比于傳統(tǒng)的識(shí)別方法,基于深度神經(jīng)網(wǎng)絡(luò)的語音識(shí)別方法在性能上有了顯著的提升.在低噪音加近場(chǎng)等理想環(huán)境下,當(dāng)前的語音識(shí)別技術(shù)研究已經(jīng)達(dá)到了商業(yè)需求.然而,在實(shí)際應(yīng)用中存在各種復(fù)雜情況,如聲源遠(yuǎn)場(chǎng)、小語種識(shí)別、說話人口音、專業(yè)語言場(chǎng)景等,這些情況使得復(fù)雜場(chǎng)景下的語音識(shí)別應(yīng)用落地仍面臨挑戰(zhàn).此外,盡管當(dāng)前深度學(xué)習(xí)在語音識(shí)別的應(yīng)用確實(shí)提高了識(shí)別率等性能,但效果好的模型往往規(guī)模復(fù)雜且龐大、需要的數(shù)據(jù)資源較為冗余,不適合用于移動(dòng)設(shè)備(如手機(jī)、智能穿戴設(shè)備等);此外,小語種、多口音、不同方言等的識(shí)別性能仍然差強(qiáng)人意.總之,當(dāng)前語音識(shí)別領(lǐng)域已取得豐富的研究成果,但仍有很長(zhǎng)一段路要走.
在未來很長(zhǎng)一段時(shí)間內(nèi),基于深度神經(jīng)網(wǎng)絡(luò)的語音識(shí)別仍是主流;面向不同應(yīng)用場(chǎng)景,根據(jù)語音信號(hào)特點(diǎn)對(duì)現(xiàn)有神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)仍是未來研究重點(diǎn).大體上,未來語音識(shí)別領(lǐng)域的研究方向可大致歸納如下.
(1)模型壓縮與加速.盡管當(dāng)前深度學(xué)習(xí)在語音識(shí)別的應(yīng)用確實(shí)提高了識(shí)別率等性能,但效果好的模型往往規(guī)模復(fù)雜且龐大、需要的數(shù)據(jù)資源較為冗余,不適合用于移動(dòng)設(shè)備(如手機(jī)、智能穿戴設(shè)備等),因此對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的語音識(shí)別系統(tǒng)進(jìn)行網(wǎng)絡(luò)模型壓縮和加速,將是未來語音識(shí)別的研究方向之一.
(2)數(shù)據(jù)遷移.在面對(duì)小樣本數(shù)據(jù)或復(fù)雜問題時(shí),遷移學(xué)習(xí)是一種有效的方式.在語音識(shí)別領(lǐng)域中,采用遷移學(xué)習(xí)的方式對(duì)小語種、方言口音或含噪語音進(jìn)行識(shí)別也是未來的研究方向之一.
(3)多模態(tài)數(shù)據(jù)融合.對(duì)于一些復(fù)雜的語音場(chǎng)景(高噪聲、混響、多源干擾等),可以利用語音信號(hào)和其他信號(hào)(如圖像信號(hào)、振動(dòng)信號(hào)等)進(jìn)行融合,以提高語音識(shí)別性能,也是未來研究研究方向之一.
(4)多技術(shù)融合,提高認(rèn)知智能.當(dāng)前大多數(shù)語音識(shí)別算法只關(guān)注識(shí)別文字內(nèi)容的正確性;然而,許多智能語音交互的應(yīng)用(如QA 問答、多輪對(duì)話等)還涉及到語義的理解.因此,將語音識(shí)別技術(shù)結(jié)合其他技術(shù)[72–75]如自然語言處理(natural language processing,NLP)相結(jié)合以提升識(shí)別性能也是未來研究方向之一.