屈 丹, 楊緒魁, 閆紅剛, 陳雅淇, 牛 銅
(戰(zhàn)略支援部隊(duì)信息工程大學(xué) 信息系統(tǒng)工程學(xué)院,河南 鄭州 450001)
自動語音識別技術(shù)(automatic speech recognition, ASR)是人工智能領(lǐng)域非常活躍的一個(gè)領(lǐng)域。傳統(tǒng)的語音識別框架通過DNN或GMM與HMM聯(lián)合實(shí)現(xiàn)混合結(jié)構(gòu)的聲學(xué)模型,并需要語言模型和發(fā)音詞典的配合才能完成語音識別任務(wù),該框架的缺點(diǎn)在于模型結(jié)構(gòu)復(fù)雜、訓(xùn)練步驟煩瑣和專家知識依賴性強(qiáng)。為了解決這些問題,研究人員逐漸開始研究下一代語音識別框架——端到端(end-to-end)的語音識別技術(shù)。
2006年,Graves等[1]首次提出端到端連接時(shí)序分類(connectionist temporal classification, CTC)算法,并用其訓(xùn)練了一個(gè)由RNN編碼器和線性分類器構(gòu)成的深度網(wǎng)絡(luò),實(shí)現(xiàn)了端到端語音識別。2013年,Graves等[2]又提出了RNN轉(zhuǎn)換器(RNN transducer, RNN-T)語音識別模型。Chan等[3]提出了“l(fā)isten, attend, and spell (LAS)”模型,LAS模型的listen、attend和spell分別表示編碼器、注意力機(jī)制和解碼器,通過注意力機(jī)制在編碼器輸出的特征序列上構(gòu)造上下文相關(guān)矢量,并與前一時(shí)刻的解碼器的輸出一并用于生成當(dāng)前時(shí)刻的輸出,該模型超過之前的模型,達(dá)到了當(dāng)時(shí)最好的性能。2017年,谷歌公司在文本處理領(lǐng)域首先提出了基于全注意力的變換器(Transformer)模型[4],研究者將其擴(kuò)展到語音識別領(lǐng)域,在訓(xùn)練效率和識別性能上達(dá)到了新的最佳性能,逐漸成為端到端語音識別領(lǐng)域的基本模型。隨后很多針對Transformer的改進(jìn)模型陸續(xù)被提出[5]。
當(dāng)代最新語音識別技術(shù)在某些特定數(shù)據(jù)集上已突破了人類的能力極限,超過了人類聽抄的最高水平。但這種突破基于兩個(gè)特定條件:一是信道環(huán)境較為理想,即通常話音質(zhì)量非常好、采集場地相對單一、噪聲起伏變化不大;二是訓(xùn)練語料非常充足,尤其是對于漢語、英語等大樣本語言,其工業(yè)級實(shí)用系統(tǒng)訓(xùn)練所需的標(biāo)注數(shù)據(jù)常常超過數(shù)千小時(shí)甚至是數(shù)萬小時(shí)。但在大多數(shù)特定行業(yè)應(yīng)用領(lǐng)域,所面臨的實(shí)際條件對少樣本機(jī)器學(xué)習(xí)提出了更為迫切的需求,主要表現(xiàn)在以下兩個(gè)方面。一是現(xiàn)實(shí)環(huán)境極其復(fù)雜且難以預(yù)測,信道條件往往多種多樣,噪聲也起伏變化差異較大,如既有錄播室環(huán)境的高保真信號,也有經(jīng)過電信網(wǎng)絡(luò)或者其他帶噪通道傳輸?shù)恼瓗盘?這種復(fù)雜的條件為語音處理與識別處理帶來諸多難題。二是標(biāo)注數(shù)據(jù)匱乏使得傳統(tǒng)機(jī)器學(xué)習(xí)難以形成有效認(rèn)知。無論是哪種語言的語音識別系統(tǒng)都需要有大量標(biāo)注數(shù)據(jù)。世界上有超過7 000 種語言,而其中僅有為數(shù)很少的幾種語言(如漢語普通話、英語等)具有充足的標(biāo)注數(shù)據(jù),除此之外的絕大部分語言或方言都面臨“資源匱乏”或“少樣本”困境。而往往這些“少樣本”語言如馬來語、印尼語、印地語、土耳其語等在國家戰(zhàn)略交流中也非常重要。很多行業(yè)應(yīng)用的現(xiàn)實(shí)環(huán)境就不具備大規(guī)模采集標(biāo)注數(shù)據(jù)的條件,使得語音識別行業(yè)應(yīng)用面臨的迫切需求是突破少樣本機(jī)器學(xué)習(xí)的性能極限、探討更先進(jìn)的技術(shù)方法、從理論和技術(shù)上攻克難題。
近年來,國內(nèi)外針對低資源少樣本下的語音識別問題進(jìn)行了大量研究。其中以2011年美國情報(bào)先進(jìn)研究計(jì)劃署(Intelligence Advanced Research Projects Activity,IARPA)的Babel計(jì)劃[6],荷蘭代爾夫特理工大學(xué)、愛爾蘭都柏林城市大學(xué)等組織發(fā)起的每年一次的多媒體評測(MediaEval)為代表。低資源小語種語音識別指缺乏用于訓(xùn)練的相關(guān)數(shù)據(jù)資源,包括標(biāo)注語音、發(fā)音字典和文本等,其中尤其以發(fā)音字典和標(biāo)注語音影響最大。小語種語音數(shù)據(jù)難以獲取不僅表現(xiàn)在語音上,更表現(xiàn)在語料、發(fā)音詞典和標(biāo)注資源上。與傳統(tǒng)語音識別相比,低資源少樣本連續(xù)語音識別有許多針對性的技術(shù),主要體現(xiàn)在如下3個(gè)方面,總體框架如圖1所示。
圖1 低資源少樣本連續(xù)語音識別技術(shù)Figure 1 Low-resource few-shot continuous speech recognition
深層特征具有較強(qiáng)的魯棒性,在環(huán)境、說話人發(fā)生變動的情況下不確定性更小,因此目前廣泛采用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)提取更加穩(wěn)健的高層語義表示特征[7]。2011年前后,在深度學(xué)習(xí)引入語音識別領(lǐng)域不久,許多研究關(guān)注于利用DNN提取深層特征,典型的研究成果有tandem特征和瓶頸(bottleneck, BN)特征。目前關(guān)于低資源條件下的特征提取技術(shù)研究主要集中在3個(gè)方面:一是利用多語數(shù)據(jù)通過共享神經(jīng)網(wǎng)絡(luò)權(quán)值的方法實(shí)現(xiàn)相關(guān)特征的提取,從而提高在其基礎(chǔ)上建立的語音識別系統(tǒng)的性能;二是采用不同聲學(xué)特征參數(shù)拼接融合的方法增強(qiáng)特征的區(qū)分性和穩(wěn)健性[8];三是借助一些無監(jiān)督或者自監(jiān)督方法訓(xùn)練編碼器,可以將編碼器的輸出作為特征映射函數(shù),將信號或特征經(jīng)過編碼器后的輸出作為特征,或者將編碼器借助特定領(lǐng)域數(shù)據(jù)進(jìn)行遷移后作為特征提取模型來完成特征映射,該部分內(nèi)容將在2.2節(jié)的自監(jiān)督表示學(xué)習(xí)部分中重點(diǎn)闡述。
語音識別中的聲學(xué)建模技術(shù)發(fā)展可以分成4個(gè)階段:一是傳統(tǒng)隱馬爾可夫模型-高斯混合模型(hidden Markov model Gaussian mixture model, HMM-GMM);二是DNN混合聲學(xué)模型建模技術(shù);三是目標(biāo)函數(shù)的區(qū)分性訓(xùn)練準(zhǔn)則;四是打破傳統(tǒng)框架的端到端建模技術(shù)。
在HMM-GMM框架模型方面,2011年P(guān)ovey等[9]提出子空間高斯混合模型(subspace Gaussian mixture model, SGMM)來對HMM發(fā)射概率進(jìn)行建模;Imseng等[10]進(jìn)一步利用Kullback-Leibler距離對傳統(tǒng)GMM進(jìn)行正則化。在DNN混合聲學(xué)模型建模技術(shù)方面,Mohamed等[11]提出使用DNN代替HMM-GMM聲學(xué)模型中的GMM,用于對發(fā)射概率進(jìn)行建模,大大減少了對標(biāo)注數(shù)據(jù)的依賴性。后續(xù)的工作對DNN的結(jié)構(gòu)進(jìn)行了進(jìn)一步的探索,典型的如時(shí)間延遲神經(jīng)網(wǎng)絡(luò)(factorized time-delay neural network, TDNN-F)[12-13]等。此外,為了進(jìn)一步提升模型表現(xiàn)力,深度學(xué)習(xí)的區(qū)分性訓(xùn)練準(zhǔn)則如最大互信息(maximal mutual information, MMI)、提升最大互信息(boosted maximal mutual information, BMMI)、最小音素/詞錯(cuò)誤(minimum phone/word error, MPE/MWE)、狀態(tài)級最小貝葉斯風(fēng)險(xiǎn)(state-level minimum Bayes risk, sMBR)、詞格無關(guān)最大互信息(lattice-free maximum mutual information, LF-MMI)[14]等,也被引入到模型訓(xùn)練中,以進(jìn)一步提升識別率。鑒于混合模型需要多個(gè)模型分別訓(xùn)練,優(yōu)化難度大,且對專業(yè)知識需求高,研究者越來越關(guān)注端到端的結(jié)構(gòu),目前已成為主流的學(xué)習(xí)范式。但是這也并不意味著丟棄之前的研究,類似于區(qū)分性訓(xùn)練準(zhǔn)則也被廣泛整合到端到端模型的訓(xùn)練過程中。
標(biāo)注數(shù)據(jù)匱乏是低資源的一個(gè)顯著特點(diǎn),因此需要研究者考慮擴(kuò)展數(shù)據(jù)集。目前由于語音標(biāo)注資源比較受限于高成本,因此主要考慮標(biāo)注語音樣本擴(kuò)展技術(shù)。訓(xùn)練數(shù)據(jù)擴(kuò)展有兩種策略。一種是不改變文本標(biāo)注,只對音頻或聲學(xué)特征進(jìn)行擴(kuò)展。最簡單的做法是針對現(xiàn)有訓(xùn)練數(shù)據(jù),在保證基本語義不變的情況下通過改變語速等方法獲得額外的訓(xùn)練數(shù)據(jù)。因此噪聲添加、聲道長度擾動技術(shù)[15]、語速擾動(speed perturbation, SP)方法[16]作為經(jīng)典數(shù)據(jù)拓展方法常常被用于低資源語音識別中。后期更多的數(shù)據(jù)增強(qiáng)策略被采用,包括SpecAugment[17]、Wav-Aug[18]、MixSpeech等。目前這些方法已經(jīng)成為語音識別模型中的默認(rèn)配置,在各種場景、語種下展現(xiàn)出較強(qiáng)的魯棒性,可以使識別效果得到持續(xù)的提升。
另外一種重要的方法是基于半監(jiān)督的數(shù)據(jù)擴(kuò)充。首先,利用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)初始的語音識別模型。其次,對無標(biāo)注的單語數(shù)據(jù)進(jìn)行識別,將識別結(jié)果作為這些單語數(shù)據(jù)的標(biāo)注,一般稱之為偽標(biāo)注數(shù)據(jù)。最后,根據(jù)一定的策略對這些偽標(biāo)注數(shù)據(jù)進(jìn)行篩選,將篩選后的偽標(biāo)注數(shù)據(jù)和原始訓(xùn)練數(shù)據(jù)混合,重新訓(xùn)練整個(gè)模型。比較典型的有噪聲學(xué)生訓(xùn)練(noisy student training,NST)[19]。但是該方法一方面需要多輪重新訓(xùn)練,會耗費(fèi)大量訓(xùn)練資源;另一方面其性能依賴于好的標(biāo)簽選擇策略。
為了能夠在受限標(biāo)注樣本情況下獲得更好的性能,近年來深度學(xué)習(xí)中的高級建模技術(shù)也為低資源語音識別技術(shù)帶來了新的活力,主要技術(shù)包括生成對抗網(wǎng)絡(luò)、深度強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、元學(xué)習(xí)、自監(jiān)督表示學(xué)習(xí)等,其核心目標(biāo)在于從幾個(gè)方面克服低資源惡劣環(huán)境的影響:一是數(shù)據(jù)層面的拓展,例如生成對抗網(wǎng)絡(luò)和深度強(qiáng)化學(xué)習(xí)都可以進(jìn)行數(shù)據(jù)增強(qiáng);二是利用已有數(shù)據(jù)獲得更有泛化力和表征性更強(qiáng)的特征提取算法,如自編碼和自監(jiān)督表示學(xué)習(xí)技術(shù);三是已有相關(guān)知識的借鑒和利用,如遷移學(xué)習(xí)和元學(xué)習(xí)技術(shù);四是尋找一些更好的學(xué)習(xí)機(jī)制,例如元學(xué)習(xí)、對抗學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)機(jī)制等。總體框架如圖2所示。
圖2 少樣本語音識別中的高級深度學(xué)習(xí)技術(shù)框架Figure 2 Advanced deep learning framework in few-shot speech recognition
生成對抗網(wǎng)絡(luò)(generative adversarial networks, GAN) 是蒙特利爾大學(xué)Goodfellow等[20]在2014年提出的一種生成式模型。GAN的基本思想來源于博弈論中的二人零和博弈[21],通過從訓(xùn)練庫中獲取多個(gè)真實(shí)訓(xùn)練樣本,利用博弈對抗思想學(xué)習(xí)這些樣本的生成概率分布。GAN模型中的兩個(gè)博弈方分別由生成器G和判別器D構(gòu)成。其優(yōu)化目標(biāo)為
Ez~pz(z)[log(1-D(G(z)))]。
(1)
生成器在噪聲先驗(yàn)分布pz中采樣生成樣本以捕捉樣本數(shù)據(jù)的分布,判別器用于最大化式(1)的訓(xùn)練樣本來自于訓(xùn)練數(shù)據(jù)pdata(而非生成數(shù)據(jù))的概率,二者都可以采用結(jié)構(gòu)多樣的模型來完成。生成對抗網(wǎng)絡(luò)在低資源語音識別中的應(yīng)用主要體現(xiàn)在兩個(gè)方面:一是利用對抗網(wǎng)絡(luò)來產(chǎn)生訓(xùn)練數(shù)據(jù)等實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)和拓展;二是利用對抗網(wǎng)絡(luò)進(jìn)行對抗性訓(xùn)練以減少訓(xùn)練環(huán)境和測試環(huán)境失配。
在數(shù)據(jù)增強(qiáng)方面,2019年,Qian等[22]利用GAN進(jìn)行數(shù)據(jù)生成以改善噪聲條件下的語音識別,一方面利用生成對抗網(wǎng)絡(luò)構(gòu)建無監(jiān)督學(xué)習(xí)框架進(jìn)行聲學(xué)建模,另外一方面利用條件GAN生成帶標(biāo)簽信息的真實(shí)語音用于聲學(xué)模型建模。實(shí)驗(yàn)證明了這種數(shù)據(jù)增強(qiáng)可以降低噪聲環(huán)境下語音識別系統(tǒng)的詞錯(cuò)誤率。2018年,Sun等[23]采用快速梯度符號法(fast gradient sign method, FGSM)生成對抗樣本進(jìn)行數(shù)據(jù)增強(qiáng),與一些靜態(tài)轉(zhuǎn)換數(shù)據(jù)增強(qiáng)方法不同,樣本可以基于當(dāng)前聲學(xué)模型參數(shù)動態(tài)產(chǎn)生。該方法在噪聲和變化信道條件下獲得了較好的性能。
在對抗性訓(xùn)練方面,2016年,Shinohara[24]提出對抗多任務(wù)訓(xùn)練(adversarial multi-task learning, AMT)方法。該方法最早將GAN用于語音識別,其基本思想是基于DNN高層特征對噪聲具有魯棒性的特點(diǎn),將語音經(jīng)DNN編碼器處理后的高層次特征送入到GAN網(wǎng)絡(luò)中進(jìn)行對抗性訓(xùn)練來實(shí)現(xiàn)對音子建模。生成器目標(biāo)在于最大化分類概率,判別器目標(biāo)在于最大化信號域分類概率,而編碼器目標(biāo)在于上述兩種目標(biāo)和。實(shí)驗(yàn)結(jié)果表明該方法可提升噪聲條件下語音識別系統(tǒng)性能。2018年,Liu等[25]提出了一種直接增強(qiáng)聲學(xué)模型噪聲魯棒性的對抗性訓(xùn)練方法。該方法中生成器用來從噪聲特征中產(chǎn)生干凈的特征表示,判別器用于區(qū)分干凈信號和生成信號。2021年,Li等[26]提出了一種多鑒別器CycleGAN語音增強(qiáng)方法來提升語音識別性能,該方法不需要任何并行數(shù)據(jù),通過設(shè)置能夠比對不同頻率區(qū)域的判別器和多個(gè)類似數(shù)據(jù)子集的生成器來優(yōu)化噪聲增強(qiáng)性能,從而提高自動語音識別的性能。
盡管效果提升顯著,但生成對抗網(wǎng)絡(luò)較難訓(xùn)練,通常利用頻譜正則化等方法穩(wěn)定優(yōu)化過程,并且隨著其他訓(xùn)練方法如自監(jiān)督表示學(xué)習(xí)在低資源語言識別上展現(xiàn)出極其優(yōu)異的性能,目前對其直接的使用逐漸減少,更多的是利用其進(jìn)行領(lǐng)域自適應(yīng)或者作為一種正則化手段結(jié)合其他方法一起使用。
自監(jiān)督表示學(xué)習(xí)是無監(jiān)督學(xué)習(xí)的一個(gè)分支,其本質(zhì)是一種具有監(jiān)督形式的非監(jiān)督學(xué)習(xí)方法,即不借助任何標(biāo)注數(shù)據(jù),直接利用數(shù)據(jù)本身信息通過構(gòu)造某種形式的輔助訓(xùn)練任務(wù)來學(xué)習(xí)對下游任務(wù)有價(jià)值信息的表示方法。由于其非常適合解決少樣本環(huán)境下的模型冷啟動問題,已經(jīng)成為人工智能領(lǐng)域最熱點(diǎn)的方向之一。自監(jiān)督學(xué)習(xí)廣義上可以分為生成式、對比式兩類[27],而語音信號的自監(jiān)督表示學(xué)習(xí)主要包括信號重建和對比預(yù)測兩種,在語音識別、增強(qiáng)和處理等多個(gè)任務(wù)中獲得顯著效果。
基于信號重建的自監(jiān)督學(xué)習(xí)方法屬于生成式方法,即根據(jù)重建損失對語音信號的幀級基本單元信號進(jìn)行重建。信號重建方法又可以細(xì)分為回歸預(yù)測和掩蔽重建兩個(gè)子類。比較典型的模型有自回歸預(yù)測編碼(autoregressive predictive coding, APC)[28]、矢量量化自回歸預(yù)測編碼(vector-quantized autoregressive predictive coding, VQAPC)[29]、重構(gòu)變換器表示模型(transformer encoder representations from alteration, TERA)[30]、HuBERT[31]等。
語音處理中第二類自監(jiān)督表示學(xué)習(xí)是對比式方法,其基本思想是通過自動構(gòu)造相似實(shí)例(正例)和不相似實(shí)例(負(fù)例)訓(xùn)練一個(gè)表示模型,使得正例在編碼器對應(yīng)的投影空間中比較接近,反之負(fù)例距離較遠(yuǎn),因此可以認(rèn)為在編碼器投影空間中學(xué)習(xí)到樣本的本質(zhì)特征,或者說找到了數(shù)據(jù)內(nèi)在流形。而通常編碼器訓(xùn)練準(zhǔn)則為最小化噪聲對比估計(jì)(noice-contrastive estimation,NCE)[32]或InfoNCE[33]。典型對比式自監(jiān)督學(xué)習(xí)包括對比預(yù)測編碼(contrastive predictive coding, CPC)、wav2vec[34]系列、XLST等。以wav2vec2.0為例,其對比損失Lm定義為
(2)
雖然自監(jiān)督模型在多個(gè)下游任務(wù)上取得了優(yōu)異的性能,但是由于其在訓(xùn)練過程中采用的是無監(jiān)督的范式,因此學(xué)習(xí)到的表示是通用的表示。對于少樣本語音識別任務(wù)來說,這種表示存在相當(dāng)大的容量冗余,在少樣本的條件下模型難以有效去除掉這些冗余,并且模型的參數(shù)量巨大,在少樣本條件下微調(diào)容易過擬合。因此對少樣本語音識別任務(wù)來說,后續(xù)的研究主要集中在模型的輕量化調(diào)整、壓縮學(xué)習(xí)到的表示中的無關(guān)容量等方面。
強(qiáng)化學(xué)習(xí)是智能體(agent)與環(huán)境不斷交互獲得環(huán)境反饋進(jìn)行學(xué)習(xí)的方法,本質(zhì)上是一種“試錯(cuò)”學(xué)習(xí),即在與環(huán)境的不斷交互中尋找最優(yōu)策略。其理論基礎(chǔ)是馬爾可夫決策過程(Markov decision process, MDP)。近幾年來,強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合獲得了巨大的發(fā)展,尤其是在AlphaGo憑借深度強(qiáng)化學(xué)習(xí)技術(shù)先后打敗人類頂級圍棋選手后,深度強(qiáng)化學(xué)習(xí)的應(yīng)用越來越廣泛。當(dāng)前,深度強(qiáng)化學(xué)習(xí)技術(shù)在語音識別中應(yīng)用較少,主要集中在兩個(gè)方面[35]:一是利用策略梯度來進(jìn)行模型優(yōu)化提升,同時(shí)在目標(biāo)函數(shù)不可導(dǎo)時(shí)可利用策略梯度算法無須計(jì)算回報(bào)函數(shù)導(dǎo)數(shù)的特點(diǎn)進(jìn)行解決;二是利用強(qiáng)化學(xué)習(xí)無須數(shù)據(jù)標(biāo)注的特點(diǎn)進(jìn)行半監(jiān)督訓(xùn)練解決少樣本條件問題。
現(xiàn)有基于注意力機(jī)制編解碼器結(jié)構(gòu)的語音識別系統(tǒng)在訓(xùn)練時(shí)采用交叉熵訓(xùn)練準(zhǔn)則和教師強(qiáng)制(teacher-forcing)訓(xùn)練方法,即解碼器每一時(shí)刻輸入強(qiáng)制約束為正確標(biāo)注,而在測試時(shí)利用自回歸方式進(jìn)行解碼后計(jì)算詞錯(cuò)誤率,即解碼器每一時(shí)刻輸入為上一時(shí)刻輸出,使得訓(xùn)練和測試時(shí)解碼器行為不一致。換而言之,解碼器新預(yù)測單詞在訓(xùn)練和測試時(shí)是從不同分布中推斷,存在訓(xùn)練和測試失配問題。因此Tjandra等[35]提出采用強(qiáng)化學(xué)習(xí)訓(xùn)練方法,以輸出序列與正確標(biāo)注的編輯距離作為回報(bào)函數(shù),采用策略梯度下降進(jìn)行模型訓(xùn)練,在最大似然準(zhǔn)則下錯(cuò)誤率有明顯下降。隨后Tjandra等[36]進(jìn)一步優(yōu)化訓(xùn)練方法,探討了兩種不同單步符號級和序列級回報(bào)函數(shù)的性能,指出單步符號級回報(bào)函數(shù)可以獲得更優(yōu)結(jié)果。此外,為進(jìn)行在線實(shí)時(shí)語音識別,Luo等[37]提出一種類似于混合自回歸變換器(hybrid autoregressive transducer, HAT)結(jié)構(gòu)[38]的在線式序列到序列語音識別模型。
強(qiáng)化學(xué)習(xí)方法不需要監(jiān)督信號,因此理論上也不需要標(biāo)注數(shù)據(jù),利用無標(biāo)注數(shù)據(jù)就可以進(jìn)行學(xué)習(xí),但關(guān)鍵問題在于回報(bào)函數(shù)設(shè)定和識別結(jié)果的評價(jià)機(jī)制。由于強(qiáng)化學(xué)習(xí)本質(zhì)是人機(jī)交互式學(xué)習(xí),因此利用強(qiáng)化學(xué)習(xí)算法對語音識別系統(tǒng)進(jìn)行半監(jiān)督或非監(jiān)督訓(xùn)練也成為一個(gè)重要發(fā)展方向。如Kala等[39]提出一種利用無標(biāo)注數(shù)據(jù)、以人機(jī)交互式學(xué)習(xí)提升語音識別系統(tǒng)性能的方法;Chung等[40]提出一種強(qiáng)化學(xué)習(xí)半監(jiān)督訓(xùn)練方法,即對標(biāo)注數(shù)據(jù)采用交叉熵準(zhǔn)則進(jìn)行訓(xùn)練;Radzikowski等[41]提出將對偶學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的方法進(jìn)行非母語說話人語音識別系統(tǒng)的半監(jiān)督訓(xùn)練。最近由于ChatGPT的優(yōu)異表現(xiàn),基于人類反饋的強(qiáng)化學(xué)習(xí)引起了前所未有的關(guān)注,后期如何將相關(guān)的研究引入到語音識別中,并根據(jù)領(lǐng)域特點(diǎn)進(jìn)行調(diào)整是可期望的一個(gè)研究方向。
由于深度學(xué)習(xí)方法性能極其受標(biāo)注數(shù)據(jù)規(guī)模的影響,因此迫切需要一種新型學(xué)習(xí)方式來實(shí)現(xiàn)少樣本甚至是零樣本的學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)元學(xué)習(xí)作為推動當(dāng)代深度學(xué)習(xí)行業(yè)前沿的潛在強(qiáng)大驅(qū)動力,導(dǎo)致了近期研究的爆炸式增長。業(yè)界期望通過元學(xué)習(xí)來解決當(dāng)代深度學(xué)習(xí)中的許多瓶頸問題。
(3)
(4)
(5)
(6)
王璐等[42]在TIMIT和自建佤語語料庫上利用經(jīng)典MAML算法和Reptile算法,探討并驗(yàn)證了元學(xué)習(xí)方法有助于解決小規(guī)模孤立詞語音識別。后期侯俊龍等[43]將元度量學(xué)習(xí)也用于低資源孤立詞識別,但其孤立詞應(yīng)用場景設(shè)定過于簡單缺乏實(shí)用性。2018年Klejch等[44]提出采用元學(xué)習(xí)方法來進(jìn)行說話人自適應(yīng)來解決訓(xùn)練和測試條件失配問題,研究結(jié)果表明元學(xué)習(xí)者可以學(xué)習(xí)執(zhí)行有監(jiān)督和無監(jiān)督說話者適應(yīng),并且在適應(yīng)具有1.5 M個(gè)參數(shù)的DNN 聲學(xué)模型時(shí),優(yōu)于當(dāng)前性能比較好的隱含單元貢獻(xiàn)度學(xué)習(xí)(learning hidden unit contribution, LHUC)深層網(wǎng)絡(luò)自適應(yīng)方法。Hsu等[45]提出端到端框架的元語音識別(MetaASR)方法,即將不同語言的ASR認(rèn)為是不同的任務(wù),并且利用MAML算法進(jìn)行模型初始化訓(xùn)練,使用6種語言作為預(yù)訓(xùn)練任務(wù),4種語言作為目標(biāo)任務(wù)。結(jié)果表明,MetaASR顯著優(yōu)于最先進(jìn)的多任務(wù)預(yù)訓(xùn)練方法。2020年,Xiao等[46]借鑒MetaASR方法構(gòu)造多語言元學(xué)習(xí)語音識別(multilingual meta-learning ASR, MML-ASR)方法,將每個(gè)源語言ASR問題分解成許多小的ASR識別任務(wù),然后利用元學(xué)習(xí)對不同源語言所有任務(wù)的模型初始化,以快速適應(yīng)未知目標(biāo)語言。但由于不同語言的數(shù)據(jù)規(guī)模和其發(fā)音系統(tǒng)建模難度差異性很大,導(dǎo)致了元學(xué)習(xí)子任務(wù)數(shù)量和任務(wù)難度不平衡問題,從而導(dǎo)致了多語言元學(xué)習(xí)方法的失敗,為此該團(tuán)隊(duì)又提出元對抗采樣學(xué)習(xí)方法(adversarial meta sampling, AMS)來改善不同語言子任務(wù)的非均衡問題[46]??谝舻妮^大可變性和復(fù)雜性為語音識別系統(tǒng)帶來重大挑戰(zhàn),2020年,Winata等[47]在MAML算法基礎(chǔ)上提出口音無關(guān)元學(xué)習(xí)方法來快速適應(yīng)未知英語口音,在混合區(qū)域和跨區(qū)域口音任務(wù)中該方法均優(yōu)于聯(lián)合訓(xùn)練方法。同年,Winata等[48]又提出基于MAML的元遷移學(xué)習(xí)方法對混合語種的連續(xù)語音進(jìn)行識別,結(jié)果優(yōu)于同等情況下的其他方法。
元學(xué)習(xí)本質(zhì)上是一種更通用的模式,其核心在于元知識(meta-knowledge)的表征和獲取。通過在任務(wù)上學(xué)習(xí),具有非常強(qiáng)大的表征能力,因此對新任務(wù)的泛化能力更強(qiáng)。目前在連續(xù)語音識別上應(yīng)用的元學(xué)習(xí)算法主要是基于梯度的MAML、Reptile、ANIL等算法,這些算法都是與模型無關(guān)的、只改變模型的訓(xùn)練方式。元學(xué)習(xí)將語言作為任務(wù),通過“先適應(yīng)再學(xué)習(xí)”的學(xué)習(xí)范式,能夠獲得對新任務(wù)快速適應(yīng)的能力。
以上4類高級深度學(xué)習(xí)技術(shù)各有特點(diǎn),每類技術(shù)的代表方法、優(yōu)缺點(diǎn)以及適用場景如表1所示。
表1 高級深度學(xué)習(xí)技術(shù)方法特點(diǎn)對比Table 1 Comparison of advanced deep learning techniques and methods
盡管研究人員在低資源語音識別方面有一定進(jìn)展,但從認(rèn)知角度來看,采用的方法與人的快速學(xué)習(xí)能力相差甚遠(yuǎn);而且在訓(xùn)練數(shù)據(jù)規(guī)模方面,沒有考慮到更小的規(guī)模,因此需要對語音識別采用更先進(jìn)的理論、對低資源標(biāo)注數(shù)據(jù)獲取條件更為受限的情況開展研究。目前面臨的主要問題包括以下幾點(diǎn)。
由于很多語言的單一語種數(shù)據(jù)都很匱乏,而借鑒不同語言之間的共性信息進(jìn)行多語言聯(lián)合學(xué)習(xí)已經(jīng)成為提升少樣本語言識別性能的一種有效方式。無論是自監(jiān)督表示學(xué)習(xí)、元學(xué)習(xí)或者生成對抗網(wǎng)絡(luò),在進(jìn)行多語言聯(lián)合處理時(shí)都對不同語言沒有區(qū)別對待。但實(shí)際過程中,即使是相同方法處理不同語言的數(shù)據(jù)時(shí)性能都會有一定差異,或者說每種語言都有不同的難度系數(shù)。以元學(xué)習(xí)模型構(gòu)建為例,初始化元學(xué)習(xí)方法由于上述不均衡性會導(dǎo)致其初始化模型離大規(guī)模、易訓(xùn)練收斂語言比較近,離目標(biāo)語言最優(yōu)模型較遠(yuǎn),會導(dǎo)致后期優(yōu)化進(jìn)程緩慢且容易陷入局部最優(yōu)。因此在采用不同方法進(jìn)行模型建模時(shí),面臨多種“不均衡”問題,如何克服這種不均衡性、減少不均衡性對系統(tǒng)性能的影響是值得思考的問題。
深度學(xué)習(xí)由于其強(qiáng)大的復(fù)雜模式表示能力使得其在語音識別等諸多領(lǐng)域獲得了突飛猛進(jìn)的發(fā)展,但由于其模型參數(shù)規(guī)模大、計(jì)算復(fù)雜度和空間復(fù)雜度高,無法有效應(yīng)用于輕量級資源受限的便攜設(shè)備中。而語音識別是人機(jī)交互的重要一環(huán),人機(jī)交互場景更需要小型化、微型化設(shè)備的應(yīng)用,因此如何在低資源少樣本條件下進(jìn)行模型部署也成為一個(gè)重要問題。
深度學(xué)習(xí)技術(shù)正朝著兩極發(fā)展:一是深度學(xué)習(xí)領(lǐng)域研究人員致力于研發(fā)更深、更大的模型,達(dá)到更高的精度和準(zhǔn)確度,如speech-transformer模型層數(shù)和參數(shù)規(guī)模都很大,且這種大模型也開始向微觀世界發(fā)展,如深度學(xué)習(xí)用于蛋白質(zhì)合成、分子發(fā)現(xiàn)等領(lǐng)域;二是深度學(xué)習(xí)自身朝著小型化發(fā)展,很多智能化應(yīng)用場景的搭載平臺受體積、功耗等因素影響,因此一些研究學(xué)者致力于對深度學(xué)習(xí)模型進(jìn)行壓縮以便部署在小型平臺。而作為深度學(xué)習(xí)應(yīng)用的重要領(lǐng)域,語音識別也同樣遵循上述兩極化發(fā)展的脈絡(luò)。目前模型壓縮技術(shù)主要包括淺層壓縮和深層壓縮兩大類,淺層壓縮主要通過裁剪和知識整流來實(shí)現(xiàn),而深層壓縮通過量化、輕量級網(wǎng)絡(luò)和結(jié)構(gòu)搜索來實(shí)現(xiàn)。但當(dāng)模型壓縮與低資源少樣本同時(shí)出現(xiàn)時(shí),其性能更難以保證,因此未來需要對模型輕量化技術(shù)進(jìn)行更加深入的研究,以便在低資源少樣本條件下,輕量化模型可取得期望的性能。
事實(shí)上,眾多研究證實(shí):雖然低資源少樣本語音識別在標(biāo)注數(shù)據(jù)獲取、高層次語義表征、緊致模型的有效表征訓(xùn)練等方面存在諸多困難,但從少樣本學(xué)習(xí)誤差理論分析可知,少樣本訓(xùn)練識別仍然可以通過先驗(yàn)信息引入、假設(shè)空間約束條件設(shè)定等方式優(yōu)化提升?,F(xiàn)有的自監(jiān)督表示學(xué)習(xí)、元學(xué)習(xí)等高級深度學(xué)習(xí)技術(shù)都在低資源少樣本語音識別領(lǐng)域展現(xiàn)了優(yōu)越的性能。未來這些高級深度學(xué)習(xí)技術(shù)的體系化的組合互補(bǔ)策略、克服語言之間的不均衡性以及對深度模型的壓縮與輕量化部署等方面都是值得進(jìn)一步研究的方向。