国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于二階隱馬爾可夫模型的清濁音恢復(fù)算法?

2011-04-02 21:09何洪華徐敬德崔慧娟唐昆
電訊技術(shù) 2011年6期
關(guān)鍵詞:濁音子幀子帶

何洪華,徐敬德,計 哲,崔慧娟,唐昆

(清華大學電子工程系清華信息科學與技術(shù)國家實驗室,北京100084)

基于二階隱馬爾可夫模型的清濁音恢復(fù)算法?

何洪華,徐敬德,計 哲,崔慧娟,唐昆

(清華大學電子工程系清華信息科學與技術(shù)國家實驗室,北京100084)

為了解決低速率語音編碼中比特受限的問題,提出了一種基于二階隱馬爾可夫模型的清濁音參數(shù)恢復(fù)算法。該算法采用二階隱馬爾可夫模型,通過歸一化的能量參數(shù)和LPC倒譜系數(shù)估計出序列中的全帶清濁音判決和各個子帶的清濁音度。解碼器實現(xiàn)該算法后,編碼器就無需對清濁音參數(shù)進行量化傳輸,從而節(jié)約了比特數(shù)。實驗結(jié)果表明,該算法比基于GMM模型的算法能更好地恢復(fù)出清濁音信息,全帶清濁音誤判率減少了5%~20%,合成語音的MOS分比用5 bit的矢量量化(VQ)算法提高了0.03左右,達到了在節(jié)約比特數(shù)的同時也提高了語音質(zhì)量的效果。

低速率語音編碼;二階隱馬爾可夫模型;全帶V/U判決;BPVC恢復(fù)

1 引言

隨著現(xiàn)代通信技術(shù)的不斷進步,特別是光纖通信的發(fā)展使得通信的能力大幅提高。但是在信道價格昂貴的衛(wèi)星通信、信道帶寬極其有限的水聲通信和信道環(huán)境惡劣的短波通信中,仍然存在著對超低速率的聲碼器的強烈需求。因此,有必要進一步研究300 bit/s甚至更低速率的語音編碼器。

在低速率語音參數(shù)編碼算法中,一般在編碼端對原始語音信號進行分析,提取各種能夠表征語音信號的參數(shù),如清濁音參數(shù)、線性預(yù)測系數(shù)(Linear Prediction Coding,LPC)、基音周期參數(shù)、能量參數(shù)等,對這些參數(shù)進行量化傳輸,然后在解碼端使用反量化后的這些參數(shù)來合成語音信號[1]。因此,各個參數(shù)的量化性能直接影響著合成語音的質(zhì)量。傳統(tǒng)的低速率聲碼器通過衡量各個參數(shù)對語音質(zhì)量的影響程度,然后給各個參數(shù)分配合理的比特數(shù)進行量化傳輸。然而在超低速率聲碼器中,分配給各個參數(shù)的比特數(shù)極其有限,各個參數(shù)的量化性能受到嚴重影響,從而影響了合成語音的質(zhì)量。文獻[2]提出了一種基于GMM(Gaussian Mixture Models)模型的清濁音解碼端恢復(fù)算法,使得濁音度參數(shù)無需傳輸,從而節(jié)約原本用于濁音度參數(shù)量化傳輸?shù)谋忍?。這樣,節(jié)約出的比特數(shù)就可以分配給線性預(yù)測系數(shù)和基音周期等其它參數(shù)進行量化,使得其它參數(shù)的量化性能得到提高,從而使合成語音的整體性能也得到提高。但是文獻[2]中的GMM模型忽略了語音信號參數(shù)具有時間相關(guān)性的事實。實際上,人的發(fā)音習慣相對穩(wěn)定,相鄰幀的清濁音參數(shù)之間相關(guān)性很大。為了更好地利用相鄰幀的清濁音參數(shù)的相關(guān)性及其與能量參數(shù)、LPC倒譜系數(shù)之間的統(tǒng)計相關(guān)性,本文提出了一種基于二階隱馬爾可夫模型的清濁音恢復(fù)算法。算法假定離散的清濁音為隱狀態(tài),歸一化的能量參數(shù)和LPC倒譜系數(shù)組成的聯(lián)合矢量為可觀測狀態(tài),采用二階隱馬爾可夫模型估計出序列中的清濁音處于濁音狀態(tài)的概率,將該值作為子帶的清濁音模糊值。由于目前低速率聲碼器如SELP[1]和MELP[3]都是將語音信號按頻率分為(0,0.5 kHz)、(0.5,1 kHz)、(1,2 kHz)、(2,3 kHz)、(3,4 kHz)5個子帶,分別在各個子帶內(nèi)判斷濁音度(BPVC),全帶的V/U判決與第1子帶的BPVC信息保持一致。因此,本文算法在恢復(fù)出各個子帶的BPVC模糊值后,給第1子帶的BPVC值設(shè)定一個門限即可以得到全帶的V/U判決。

2 清濁音參數(shù)恢復(fù)算法

隱馬爾可夫模型作為一種有效的語音信號統(tǒng)計模型,在語音識別和說話人識別研究中得到了廣泛的應(yīng)用[4-6]。本文假設(shè)每連續(xù)N個子幀組成一個超幀,超幀中的BPVC參數(shù)序列滿足馬爾可夫性,其中歸一化能量參數(shù)和LPC倒譜系數(shù)(LPCC)為該馬爾可夫鏈的可觀測狀態(tài),BPVC參數(shù)為隱狀態(tài),根據(jù)隱馬爾可夫模型,通過歸一化的能量參數(shù)和LPC系數(shù)來估計BPVC的狀態(tài)。為了更好地利用BPVC參數(shù)的幀間相關(guān)性,算法采用二階隱馬爾可夫模型(HMM2)。

2.1 清濁音參數(shù)的HMM2模型

首先將帶通濁音度的值分為兩個狀態(tài),分別標記為V(濁音)和U(清音),當BPVC的值大于某個門限時就標記其為V,否則為U。假設(shè)N個子幀組成一個超幀,第n子幀第b個子帶的清濁音參數(shù)的狀態(tài)為,若BPVC狀態(tài)滿足二階隱馬爾可夫性,則有:

然后將十維的LPC系數(shù)轉(zhuǎn)換成12維的LPC倒譜系數(shù)矢量l,并將其與歸一化能量參數(shù)ˉg組成一個聯(lián)合矢量

式中,歸一化能量參數(shù)ˉg=g/g0,g為當前子幀的能量,g0為當前子幀的長時能量。當前子幀的長時能量的更新方式為g0=αg+(1-α)g0,α為自適應(yīng)修正的權(quán)重因子。

N個子幀的聯(lián)合矢量組成了馬爾可夫鏈中的可觀測序列,則p(z|Sb=i)表示當?shù)赽個子帶的清濁音參數(shù)處于狀態(tài)i時出現(xiàn)觀測矢量z的概率。在隱馬爾可夫模型當中,觀測矢量的概率密度通常由多個正態(tài)概率密度函數(shù)的線性疊加來逼近[7],即:

2.2 清濁音參數(shù)恢復(fù)算法

根據(jù)上一節(jié)的假設(shè),在已知上一超幀最后一子幀的清濁音狀態(tài)和當前超幀各子幀觀測矢量的條件下,算法采用HMM2模型通過以下動態(tài)規(guī)劃過程估計當前子幀各子帶的清濁音狀態(tài)。

令前向概率αb(i,j,n)表示第n-1子幀第b子帶的濁音度處于狀態(tài)i,第n子幀第b子帶濁音度處于狀態(tài)j,且觀測矢量從第1幀到第n幀分別為z1到zn的概率,則有:

式中,n=1,2,…,N。假設(shè)上一超幀的最后一子幀為第0幀,則初始化

式中,n=2,3,…,N;r=2為狀態(tài)數(shù)。

令后向概率βb(i,j,n)表示已知第子n-1幀第b子帶的濁音度狀態(tài)為i,第n子幀第b子帶的濁音度狀態(tài)為j的條件下,觀測矢量從第n+1子幀到第N子幀分別為zn+1到zN的概率,則有:

式中,n=1,2,…,N。由初始條件βb(i,j,N)=1,通過以下公式迭代計算βb(i,j,n):

式中,n=2,3,…,N;r=2為狀態(tài)數(shù)。

在通過動態(tài)規(guī)劃迭代得到αb(i,j,n)與βb(i,j,n)后,按下式可以計算出超幀中的第n子幀第b子帶的濁音度狀態(tài)分布:

當j的狀態(tài)為V時上式即為該語音幀的第b子帶的BPVC參數(shù)處于狀態(tài)V時的概率,該值即為第n子幀第b子帶的模糊BPVC值。

一般認為全帶清濁音判決與低子帶的清濁音信息保持一致,因此可以根據(jù)第1子帶的BPVC值直接判決全帶的清濁音,如果下式成立則認為該語音幀為濁音,否則判決該語音幀為清音。

式中,Tuv為預(yù)設(shè)的判決門限。這樣通過本文算法既可以恢復(fù)出子帶的BPVC模糊值,也可以得到全帶的清濁音判決。

3 仿真實驗

本文使用一段114 min的中文語音作訓(xùn)練庫來訓(xùn)練狀態(tài)轉(zhuǎn)移矩陣和正態(tài)分布的各個參數(shù),該數(shù)據(jù)庫包含不同性別不同方言的說話人的不同語句。觀測矢量逼近為M個正態(tài)分布的線性組合,一般來說,M越大,逼近得越好,性能也就越好,但是復(fù)雜度也相應(yīng)增加,而且隨著M的增加,性能的提高會變得越來越不明顯[2]?;趯嶋H考慮選擇M=8進行模型訓(xùn)練。

3.1 清濁音參數(shù)恢復(fù)性能

為了去除LSF和能量的量化對恢復(fù)效果的影響,首先采用未量化的值來恢復(fù)U/V參數(shù),計算算法對U/V參數(shù)的恢復(fù)效果,測試指標包括全帶V/U判決的準確率以及5個子帶的BPVC參數(shù)恢復(fù)誤差,恢復(fù)誤差的計算采用以下的加權(quán)失真:

全帶V/U判決的測試語音采用帶有全帶V/U標注信息的Keele語音庫,包括10個男女聲說話人的話音內(nèi)容,總時長為5 min 36 s[2]。改變門限Tuv,得到清音誤判為濁音的概率Peu和濁音誤判為清音的概率Pev的相應(yīng)變化曲線如圖1所示。本文也實現(xiàn)了文獻[2]的GMM算法,曲線越靠近左下方,錯誤率越低,性能越好。

當Pev≈1%時,兩種算法的Peu如表1所示,由于濁音被誤判對語音的影響遠大于清音被誤判的影響,所以通常在實際應(yīng)用調(diào)整Tuv,使得Pev<1%。由圖1和表1可知,當Pev<1%時,本文算法比GMM算法的Peu減小了5%~20%,性能提高了20%~30%。

為了計算算法對各個子帶BPVC參數(shù)的恢復(fù)性能,按式(11)計算BPVC參數(shù)的失真。表2列出了本文算法與GMM算法的失真結(jié)果,測試語句采用了4段長度約為3 min的訓(xùn)練集外標準測試語音。

2018年9月18日下午,2018年中國技能大賽——第六屆全國職工職業(yè)技能大賽中建七局杯砌筑工決賽在河南鄭州舉行。

由表2可知,本文算法相比GMM算法,BPVC的失真減少了12.7%。

由以上測試可知,本文算法相比于GMM算法能更好地恢復(fù)出全帶V/U判決和子帶BPVC參數(shù)。

3.2 對合成語音質(zhì)量的影響

為了測試算法對整體語音性能的影響,在一種SELP聲碼器上進行了測試。該聲碼器以25 ms為一幀,采用12幀聯(lián)合矢量量化的方式對LSF參數(shù)、能量參數(shù)(Gain)進行量化,由于在SELP聲碼器模型中,BPVC要被用來輔助量化基音周期參數(shù)(Pitch),為了更客觀地比較,基音周期參數(shù)采用直通方式,無量化失真,不同算法的各個參數(shù)的比特分配方式如表3所示。其中,VQ算法采用5 bit對BPVC參數(shù)進行矢量量化(Vector Quantization)后傳輸;而GMM算法和HMM2算法不傳輸BPVC參數(shù),只需在解碼端根據(jù)量化后的LSF參數(shù)和能量參數(shù)分別采用GMM模型和HMM2模型對V/U參數(shù)進行恢復(fù),并利用恢復(fù)的V/U參數(shù)對語音信號進行合成。

測試語音采用4段長度約為3 min的訓(xùn)練集外標準測試語音。測試指標采用平均意見得分(Mean Opinion Score,MOS),測試過程采用國際電信聯(lián)盟建議的P.862 MOS測試軟件,對應(yīng)于表3中不同的算法,相應(yīng)的測試結(jié)果見表4。

表4的測試結(jié)果表明,相較于5 bit的粗糙量化,采用GMM算法和本文算法后,客觀MOS分都有不同程度的提高,且節(jié)省了5 bit,而本文算法的MOS分比GMM算法又提高了0.03,有效地提高了合成語音的質(zhì)量。

4 結(jié)論

在超低速率語音參數(shù)編碼算法中,極其有限的比特數(shù)給各個參數(shù)的量化增加了困難。為此,本文提出了一種基于二階隱馬爾可夫模型的BPVC恢復(fù)算法,算法充分利用子帶清濁音參數(shù)自身的時間相關(guān)性及其與能量、線性預(yù)測系數(shù)之間的統(tǒng)計相關(guān)性,采用二階隱馬爾可夫模型,用歸一化能量參數(shù)和LSF參數(shù)來恢復(fù)BPVC參數(shù),節(jié)省了原本用于BPVC參數(shù)量化傳輸?shù)谋忍?。實驗結(jié)果表明,相比于GMM算法,本文算法能使全帶清濁音誤判率減少了5%~20%,使合成語音的平均MOS分提高了0.03左右。因此,在超低速率語音參數(shù)編碼算法中,利用參數(shù)自身的時間相關(guān)性和各參數(shù)之間的統(tǒng)計相關(guān)性來進一步改善算法性能是下一步的研究方向。

參考文獻:

LI Ye.Research on low bit rate speech coding techniques and algorithm[D].Beijing:Tsinghua University,2009.(in Chinese)

[2] Wei X,Dang X,Cui H,et al.Voiced/Unvoiced Classification Recovery in the Speech Decoder Based on GMM[C]//Proceedings of ICSP.Beijing:IEEE,2008:546-548.

[3] McCree V,Barnwell T.A mixed excitation LPC vocoder model for low bit rate speech coding[J].IEEE Transactions on Speech Audio Processing,1995,3(4):242-250.

[4] Rabiner L,Juang B H.Fundamentals of Speech Recognition[M].New Jersey:Prentice-Hall,1993:321-386.

[5] Ismail Shahin.Using Second-Order Hidden Markov Model to Improve Speaker Identification Recognition Performance under Neutral Condition[C]//Proceedings of the 10th IEEE ICECS. Sharjah,United Arab Emirates:IEEE,2003:124-127.

[6] Jean-Francois Mari,Jean-Paul Haton,Abdelaziz kriouile. Automatic wordrecognition based on second-order hidden Markov models[J].IEEE Transactions on Speech and Audio Processing,1997(5):22-25.

[7]楊行峻,遲惠生.語音信號數(shù)字處理[M].北京:電子工業(yè)出版社,1995:141-144.

YANG Xing-jun,CHI Hui-sheng.Voice digital signal processing[M].Beijing:Publishing House of Electronics Industry,1995:141-144(in Chinese)

[8]李曄,洪侃,王童,等.正弦激勵線性預(yù)測聲碼器子帶清濁音模糊判決[J].清華大學學報(自然科學版),2008,48(7):1101-1103.

LI Ye,HONG Kan.WANG Tong,et al.Fuzzy unvoiced/voiced decision-making for sub-bands for SELP vocoder[J].Journal of Tsinghua University(Science& Technology Edition),2008,48(7):1101-1103.(in Chinese)

HE Hong-hua was born in Chenzhou,Hunan Province,in 1985.He received the B.S.degree in 2008.He is now a graduate student.His research direction is low-bit rate speech coding.

Email:hhonghua@gmail.com

徐敬德(1985—),男,福建安南人,2007年獲學士學位,現(xiàn)為博士研究生,主要研究方向為低速率語音編碼;

XU Jing-de was born in Annan,F(xiàn)ujian Province,in 1985. He received the B.S.degree in 2007.He is currently working toward the Ph.D.degree.His research direction is low-bit rate speech coding.

計哲(1984—),女,黑龍江大慶人,2006年獲學士學位,現(xiàn)為博士研究生,主要研究方向為低速率語音編碼;

JI Zhe was born in Daqing,Heilongjiang Province,in 1984. She received the B.S.degree in 2006.She is currently working toward the Ph.D.degree.Her research direction is low-bit rate speech coding.

崔慧娟(1945—),女,遼寧沈陽人,清華大學電子工程系教授,主要研究方向為信源編碼、多媒體通信系統(tǒng)等;

CUI Hui-juan was born in Shenyang,Liaoning Province,in 1945.She is now a professor.Her research interests include signal source coding and multimedia communication system.

唐昆(1945—),男,江蘇宜興人,清華大學電子工程系教授,主要研究方向為數(shù)字通信、語音編碼等領(lǐng)域。

TANG Kun was born in Yixing,Jiangsu Province,in 1945. He is now a professor.His research interests include communication,speech coding.

Voiced/Unvoiced Parameters Recovery Based on Second-Order Hidden Markov Model

HE Hong-hua,XU Jing-de,JI Zhe,CUI Hui-juan,TANG Kun
(Tsinghua National Laboratory for Information Science and Technology,Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)

In order to solve the problem of limited number of bits in low bit rate speech coding,an algorithm using second-order Hidden Markov Model(HMM2)to recover the voiced/unvoiced parameters is proposed in this paper.The algorithm uses the normalized energy and linear prediction coding(LPC)coefficients to estimate the full-band V/U classification and the sub-band BPVC value.The algorithm can be implemented in the decoder,saving the bits originally used by V/U parameters and reducing the bit rate of speech coding.Experimental results show that the algorithm proposed can reduce the V/U classification error rate by 5%~20%compared with the GMM algorithm,and improve the mean opinion score(MOS)of the synthesized speech signal by about 0.03 compared with the 5bit vector quantization(VQ),thereby greatly improves the estimation performance of the V/U parameters.

low-bit rate speech coding;second-order HMM;V/U classification;BPVC recovery

The National Natural Science Foundation of China(No.60572081)

TN912.32

A

10.3969/j.issn.1001-893x.2011.06.013

何洪華(1985—),男,湖南郴州人,2008年獲學士學位,現(xiàn)為碩士研究生,主要研究方向為低速率語音編碼;

1001-893X(2011)06-0056-05

2011-01-30;

2011-04-14

國家自然科學基金資助項目(60572081)

猜你喜歡
濁音子幀子帶
一種基于奇偶判斷WPT的多音干擾抑制方法*
子帶編碼在圖像壓縮編碼中的應(yīng)用
日語半濁音的變化規(guī)律研究
清濁音分離抗噪的語音識別算法的研究
有關(guān)鼻濁音使用實態(tài)的研究
——以NHK新聞為中心
LAA系統(tǒng)在非授權(quán)頻段上的動態(tài)子幀配置策略
基于虛擬孔徑擴展的子帶信息融合寬帶DOA估計
LTE-A異構(gòu)網(wǎng)中空白子幀的動態(tài)配置*
TD—LTE特殊子幀配比的優(yōu)化設(shè)計
LTE TDD系統(tǒng)中下行HARQ機制的研究*