国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語音識別的朝鮮語語音檢索方法

2021-11-03 13:49徐博文金小峰
關(guān)鍵詞:朝鮮語聲學(xué)文檔

徐博文, 金小峰

( 延邊大學(xué) 工學(xué)院, 吉林 延吉 133002 )

0 引言

語音檢索是指在語音文檔中查找與檢索語音相關(guān)的語音片段及其定位信息的方法[1].目前,語音檢索大多采用的是分步策略的方法,即首先通過上游的語音識別技術(shù)得到語音的轉(zhuǎn)寫結(jié)果,然后再經(jīng)過下游的檢索得到最終的結(jié)果.2006年, Burget等[2]在語音識別的基礎(chǔ)上基于多字查詢算法和對三音素進行索引提出了一種語音識別詞格網(wǎng)絡(luò)的檢索方法,該方法的檢索效果顯著優(yōu)于單音素網(wǎng)絡(luò).2011年,李偉[3]提出了一種基于內(nèi)容的漢語語音檢索方法,該方法可有效提高檢索效率.金惠琴[4]利用特征級融合和PCA降維的方法設(shè)計了一種維吾爾語關(guān)鍵詞檢索系統(tǒng),該系統(tǒng)可有效提高維吾爾語的檢索速度和重音檢測率.Liu等[5]提出了一種利用區(qū)分性局部空間-時間描述符對中文語音關(guān)鍵詞進行檢索的方法,該方法可有效提高語音檢索中的抗噪能力.王朝松等[6]提出了一種側(cè)重于關(guān)鍵詞的深度神經(jīng)網(wǎng)絡(luò)聲學(xué)建模方法,該方法利用非均勻的最小分類錯誤準則來調(diào)整深度神經(jīng)網(wǎng)絡(luò)聲學(xué)建模中的參數(shù),并利用 AdaBoost 算法來動態(tài)調(diào)整聲學(xué)建模中的關(guān)鍵詞權(quán)重,從而提高了關(guān)鍵詞檢索的性能.李鵬等[7]提出了一種將不同語音識別系統(tǒng)的詞圖進行相交融合的關(guān)鍵詞檢索方法,該方法能綜合利用各詞圖的得分信息來減小冗余,進而可有效提高關(guān)鍵詞的檢索效率.Chen等[8]提出了一種將語音識別和填充模型相融合的方法,該方法可提高關(guān)鍵詞的檢出性能.Zhuang等[9]利用LSTM - CTC (long short term memory - connectionist temporal classification)提出了一種基于深度學(xué)習(xí)的非限制詞表關(guān)鍵詞的檢索方法,該檢索方法具有詞典無關(guān)的優(yōu)點.Dhananjay等[10]提出了一種基于音素子空間特征增強的關(guān)鍵詞檢索方法,實驗結(jié)果表明該方法優(yōu)于傳統(tǒng)DNN后驗概率的方法.2021年, Huang等[11]在編碼器 - 解碼器網(wǎng)絡(luò)中引入了多頭注意機制和軟三重損失函數(shù),該方法可有效提高檢索性能.本文借鑒上述研究中的分步策略,利用改進的朝鮮語語音識別框架KoSpeech[12]學(xué)習(xí)來得到朝鮮語聲學(xué)模型,并在此基礎(chǔ)上提出了一種基于語音識別的朝鮮語語音檢索方法.

1 改進的朝鮮語聲學(xué)模型學(xué)習(xí)框架

2021年, Kim等[12]提出了一種專門針對朝鮮語語音識別的KoSpeech框架,該框架的核心編解碼器為LAS (listen, attend and spell)模型[13].LAS模型由1個聲學(xué)模型編碼器和1個基于注意力機制的字符解碼器組成,如圖1所示.由于LAS模型包含注意機制,因此該模型可以通過學(xué)習(xí)直接得到語音和文本之間的映射關(guān)系.且當訓(xùn)練數(shù)據(jù)充足時,該模型還可以實現(xiàn)聲學(xué)模型與語言模型的聯(lián)合學(xué)習(xí).

圖1 LAS模型的結(jié)構(gòu)

LAS框架有2個核心模塊,即Listener模塊和AttendAndSpeller模塊.其中, Listener模塊由多層雙向長短時記憶網(wǎng)絡(luò)(Bi - directional long short - term memory, BLSTM)堆疊而成.聲學(xué)特征編碼序列x=(x1,x2,…,xT)經(jīng)由Listener模塊輸出時,其被轉(zhuǎn)換為更為高級的編碼形式h(h=(h1,h2,…,hU), 其中U

h=Listen(x).

(1)

AttendAndSpell是一個基于注意力機制的LSTM解碼器函數(shù),為Speller的核心操作,它的主要作用是完成聲學(xué)特征編碼x與對應(yīng)文本字符序列y的映射.設(shè)y=(〈sos〉,y1,…,yS,〈eos〉), 則AttendAndSpell可以通過(h,y)計算得到y(tǒng)在輸入x時的概率分布P(y|x), 即:

P(y|x)=AttendAndSpell(h,y).

(2)

由式(2)可知,AttendAndSpell會根據(jù)先前產(chǎn)生的所有字符預(yù)測下一個輸出字符的概率分布,即根據(jù)上一時間步的輸出字符yi -1、解碼器狀態(tài)向量si -1和上下文向量ci -1來推理當前時間步的向量si.該過程可表示為:

si=RNN(si -1,yi -1,ci -1),

(3)

其中RNN在LAS網(wǎng)絡(luò)內(nèi)是一個兩層的LSTM,ci(ci=AttentionContext(si,h))由注意力機制得到.由si和ci可推出當前時間步的輸出字符yi的概率分布.設(shè)CharacterDistribution為多層感知機的softmax輸出,第i個時間步的字符輸出概率的計算公式為:P(yi|x,y

(4)

由于LSTM性能與GRU性能相近[14],因此本文對KoSpeech框架做如下改進:用圖2(b)中的單向門控循環(huán)單元(GRU)替換圖2(a)中的Bidirectional - LSTM和Unidirectional - LSTM.由于GRU比LSTM少1個門,因此其能夠降低運算量,進而提高學(xué)習(xí)的速度.改進后的KoSpeech框架可通過學(xué)習(xí)得到的朝鮮語聲學(xué)模型將語音文檔和檢索語音的語音信號轉(zhuǎn)寫為文本并輸出.

(a) KoSpeech框架 (b) 改進的KoSpeech框架圖2 改進前后的KoSpeech框架

2 語音文檔的分割方法

語音檢索需要建立語音文檔索引庫,其主要目的是為了便于集中管理語音文檔和提高檢索速度.另外,為提高語音文檔轉(zhuǎn)寫文本的準確性和語音檢索的時間定位精度,本文提出了一種語音文檔語義分割方法,即將語音文檔分割為一系列具有相對語義完整性的子語音文檔.語音文檔的分割方法是依據(jù)人們的說話習(xí)慣和文語語料數(shù)據(jù)集中語音數(shù)據(jù)的平均時長,將5 s作為每段子語音的初始分割時長,然后再結(jié)合語音信號的能量譜和閾值進一步精確定位分割點.具體的分割步驟如下:

輸入:語音文檔

輸出:子語音文檔分割信息

初始化:初始分割語音段的時長T(T=5 s),初始分割起止位置(pstart=pend=0).

Step 1 讀取一個語音文檔數(shù)據(jù)W, 計算靜音段的平均能量閾值e、 能量譜E和語音文檔的總時長L.

Step 2 while(pend≤L):

pend←pend+T

ifE(pend)≥ethen

向后搜索,直至E(pend+Δt)≤e,

pend←pend+Δt

將W[pstart,pend]作為分割片段,轉(zhuǎn)寫分割片段,記錄該片段的起止時間

pstart←pend

Step 3 把W子語音文檔分割信息記錄到索引庫中.

Step 4 如果處理完所有語音文檔,轉(zhuǎn)Step 5,否則轉(zhuǎn)Step 1.

Step 5 輸出所有語音文檔的分割信息.

圖3是語音文檔采用上述分割方法處理后的結(jié)果,圖中第1行是該語音文檔的完整波形圖,第2行至第7行是分割的子語音文檔的波形.由圖3可以看出,在保證分割語義完整性的前提下,各子語音文檔的時長存在差異.

圖3 語音文檔切分結(jié)果

語音文檔索引庫包含的主要信息有語音文檔名稱、子語音文檔中的相對完整的起止時間以及子語音文檔的轉(zhuǎn)寫文本信息.為了驗證本文提出的語音文檔分割方法的有效性,對277個語音文檔進行了分割實驗.分割共得到了1 978個子語音文檔,其中最長為7.5 s、最短為0.32 s、平均為4.3 s.該分割結(jié)果與人工分割結(jié)果接近(見表1),由此說明本文提出的語音文檔分割方法是有效的.

表1 語音文檔分割實驗結(jié)果

3 朝鮮語語音檢索方法

本文提出的朝鮮語語音檢索方法采用分步策略:第1步,通過改進的KoSpeech框架學(xué)習(xí)得到朝鮮語的聲學(xué)模型,以此實現(xiàn)語音文檔和檢索語音等語音信號的文本轉(zhuǎn)寫輸出;第2步,將語音檢索任務(wù)轉(zhuǎn)化為文本檢索任務(wù),即在語音文檔索引庫的轉(zhuǎn)寫文本中匹配和定位檢索語音的轉(zhuǎn)寫文本.本文提出的語音檢索方法的處理流程見圖4.

圖4 朝鮮語語音檢索的處理流程

本文采用的文本檢索方法是基于編輯距離(levenshtein distance)的文本相似度度量方法,即對檢索語音轉(zhuǎn)寫文本與索引庫轉(zhuǎn)寫文本的匹配度進行打分,并以top -k評價檢索的準確率.計算兩個字符串a(chǎn)和b的編輯距離的公式為:

leva,b(i,j)=

其中, leva,b(i,j)表示的是a中前i個字符與b中前j個字符之間的距離.當min(i,j)=0時,意味著i和j中有一個為0, leva,b(i,j)=max(i,j), 即編輯距離為i和j中的最大值.當min(i,j)≠0時,編輯距離為刪除操作(leva,b(i-1,j)+1)、插入操作(leva,b(i,j-1)+1)和替換操作(leva,b(i-1,j-1)+1(ai≠bj)下的最小值.1(ai≠bj)是指示函數(shù),當ai=bj時取0, 當ai≠bj時取1.

若將本文檢索語音的轉(zhuǎn)寫文本字符串設(shè)定為a, 將索引庫中的每個子語音文檔所對應(yīng)的轉(zhuǎn)寫文本字符串設(shè)定為b, 則a和b的匹配度得分可由式(5)計算獲得.得分越高表示兩者越相似.按照得分值大小降序排序即可生成候選的檢索結(jié)果.

(5)

4 結(jié)果與分析

實驗數(shù)據(jù)采用公開數(shù)據(jù)集AI - hub中的朝鮮語文語語料,每個樣本由一個語義完整的語音文件和一個對應(yīng)的人工標注文本文件組成,所有的語音數(shù)據(jù)時長為1 000 h.由于受計算機硬件資源的限制,本文濾除了文本字符數(shù)超過100的樣本,并在濾除后的文本中隨機選出1.1萬條文語語料用于聲學(xué)模型訓(xùn)練,其中訓(xùn)練集8 000條、驗證集2 000條、測試集1 000條.樣本的音頻格式為PCM, 采樣頻率為16 000 Hz, 音頻特征為80維fbank, 幀長度為20 ms, 幀移為10 ms, 窗口使用漢明窗.

4.1 網(wǎng)絡(luò)超參數(shù)調(diào)優(yōu)實驗

在改進的KoSpeech架構(gòu)的超參數(shù)調(diào)優(yōu)實驗中,分別對批處理大小、迭代次數(shù)和隱層單元數(shù)進行了調(diào)優(yōu),評價指標采用字符錯誤率(character error rate, CER).CER越低表示語音識別方法的性能越好.具體調(diào)優(yōu)實驗過程如下:

1)批處理大小參數(shù)調(diào)優(yōu).預(yù)設(shè)隱層單元數(shù)為256, 分別取批處理大小4、 8、 16.當?shù)螖?shù)為40、 批處理大小為16時CER收斂(穩(wěn)定在0.613), 因此最佳批處理大小為16.

2)隱層單元數(shù)參數(shù)調(diào)優(yōu).批處理大小取16, 隱層單元數(shù)分別取128和256.當?shù)螖?shù)為20次、隱層單元數(shù)為256時CER收斂(穩(wěn)定在0.801), 因此最佳隱層單元數(shù)為256.

3)迭代次數(shù)參數(shù)調(diào)優(yōu).批處理大小和隱層單元數(shù)分別取16和256.當?shù)螖?shù)為300次時CER收斂(穩(wěn)定在0.225), 因此最佳迭代次數(shù)為300.

超參數(shù)調(diào)優(yōu)實驗的具體結(jié)果見表2.由以上結(jié)果可知,當批處理大小、隱層單元數(shù)以及迭代次數(shù)分別取16、 256、 300時模型的性能最優(yōu).

表2 超參數(shù)調(diào)優(yōu)實驗結(jié)果

4.2 改進的KoSpeech框架的性能驗證

為了驗證改進的KoSpeech架構(gòu)的性能,本文將改進的KoSpeech架構(gòu)與文獻[12]中的KoSpeech原型架構(gòu)進行對比實驗,結(jié)果見表3.由表3可以看出,改進的KoSpeech架構(gòu)的CER指標與KoSpeech原型架構(gòu)基本接近,表明二者的語音轉(zhuǎn)寫性能相近.另外,改進的KoSpeech架構(gòu)的網(wǎng)絡(luò)參數(shù)規(guī)模和迭代平均耗時顯著低于KoSpeech原型架構(gòu),表明改進的KoSpeech架構(gòu)的學(xué)習(xí)速度優(yōu)于KoSpeech原型架構(gòu).

表3 改進前后的KoSpeech架構(gòu)的性能

4.3 朝鮮語語音檢索實驗

檢索實驗采用另外準備的451條檢索語音,評價指標使用基于top -k的召回率(recall)和均值平均精度(mean average precision,mAP).計算mAP時,首先利用式(6)計算不同k值對應(yīng)的平均精度值(average precision,AP),然后再利用式(7)求出mAP值.

(6)

(7)

其中Q表示查詢結(jié)果的個數(shù),AP(q)表示第q個查詢精度,N表示檢索數(shù)據(jù)庫的語音個數(shù), rel(k)表示檢索的語音是否和查詢語音相關(guān)(1為相關(guān), 0為不相關(guān)).

表4為k取不同值(k=1,2,3,…,10)時的實驗結(jié)果, mAP和recall隨k值的變化見圖5.從表4和圖5可以看出:隨著k值的增加,召回率顯著提高,并且在k=9時召回率達到最大值(95.25%); mAP在k≥2時呈現(xiàn)小幅上升隨后趨于穩(wěn)定,且在k=9時達到最大值(86.74%).mAP雖然總體上低于召回率,但是較高的召回率對于語音檢索任務(wù)而言比mAP更具實用意義.

圖5 mAP和recall隨k值的變化

表4 本文方法的檢索實驗結(jié)果 %

5 結(jié)論

研究表明,本文以構(gòu)建朝鮮語聲學(xué)模型為目標而改進的KoSpeech框架可以降低基于語音識別的語音檢索方法對數(shù)據(jù)集規(guī)模和語言模型的依賴,進而可以減少模型參數(shù)規(guī)模,提高訓(xùn)練速度.本文提出的語音文檔的分割方法能夠有效地分割出具有相對完整語義的子語音文檔,有助于提高語音文檔轉(zhuǎn)寫文本的準確性和語音檢索的時間定位精度.當k=9時,本文方法語音檢索的召回率和均值平均精度分別達到了95.25%和86.74%,該結(jié)果表明本文提出的語音檢索方法是有效的,可應(yīng)用在朝鮮語的語音檢索中.在今后的研究中,我們將嘗試構(gòu)建音素級的朝鮮語聲學(xué)模型,以此進一步提高語音轉(zhuǎn)寫的準確率.

猜你喜歡
朝鮮語聲學(xué)文檔
淺談Matlab與Word文檔的應(yīng)用接口
基于振動聲學(xué)方法的高壓開關(guān)機械缺陷診斷技術(shù)
是電聲學(xué)的奇跡,也是耀眼的藝術(shù)品 Vivid Audio舉辦新品發(fā)布會
有人一聲不吭向你扔了個文檔
《古今釋林》朝鮮語漢字詞征引文獻勘誤
輕松編輯PDF文檔
初級朝鮮語課堂教學(xué)模式改革研究
朝鮮語狀語在漢語中的對應(yīng)情況
Word文檔 高效分合有高招
朝鮮語音韻論中的同化現(xiàn)象