国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MELP聲碼器的算法研究及實現(xiàn)

2009-07-01 02:42趙鵬飛危國騰
新媒體研究 2009年23期
關鍵詞:限值編碼系數(shù)

賈 亮 趙鵬飛 危國騰

[摘要]為了滿足數(shù)字通信及其它商業(yè)應用的需求,語音壓縮編碼技術得到了迅速發(fā)展。特別是低碼率語音編碼的研究具有十分重要的現(xiàn)實意義。在現(xiàn)有的語音編碼研究中,混合激勵線性預測編碼(MELP)是一種比較好的方法。對MELP編解碼算法的原理進行簡要分析,討論如何在MATLAB上實現(xiàn)該算法,并研究其關鍵技術,最后對測試結果進行分析和比較。

[關鍵詞]MELP語音編碼混合激勵線譜頻率

中圖分類號:TJ8文獻標識碼:A文章編號:1671-7597(2009)1210021-02

一、引言

隨著通信技術以及互聯(lián)網(wǎng)語音實時傳輸技術的迅速發(fā)展,對語音的傳輸速率和存儲容量都提出了很高的要求,解決這些問題的主要途徑之一就是語音編碼。因此,語音編碼的研究,特別是低碼率語音編碼的研究具有十分重要的現(xiàn)實意義。

在現(xiàn)有的語音編碼研究中,混合激勵線性預測編碼(MELP)是一種比較好的方法,它結合了二元激勵、碼激勵和多帶激勵的優(yōu)點,將短時語音段劃分為若干子帶,在每個子帶中分別進行清濁音判斷;在合成端,采用周期性脈沖序列和隨機噪聲的混合序列去激勵語音合成濾波器,能在較低的碼率下得到較好的再生語音。2.4kb/s混合激勵線性預測語音編碼(MELP)的編碼方法已經(jīng)被確立為美國新的聯(lián)邦語音編碼標準。

二、MELP編解碼算法

MELP算法聲碼器作為美軍聲碼器技術的重要類型,在各國及各領域有廣泛的應用。整個算法分為三個部分:語音參數(shù)提取、參數(shù)量化、解碼。

(一)語音特征參數(shù)提取

模擬輸入語音首先經(jīng)過低通濾波器,然后轉化成數(shù)字語音。采樣率為8KHz,按180個樣點(22.5ms)為一幀提取語音參數(shù)。MELP編碼技術將語音分為清音、濁音和抖動濁音三種狀態(tài)。一幀語音信號經(jīng)過一個4階切比雪夫高通濾波器,濾除50Hz的工頻干擾,經(jīng)過濾波之后的語音信號稱為輸入語音信號。這一幀語音信號再做以下處理:

1.基音分析:首先經(jīng)過1KHz的巴特沃思低通濾波器,用歸一化互相關法進行基音粗估,得到整數(shù)基音值T,然后進行分數(shù)基音分析,采用內(nèi)插方法,求得分數(shù)基音估計的小數(shù)部分,此時分數(shù)基音值P為整數(shù)基音T與分數(shù)基音小數(shù)部分之和。采用6階巴特沃思帶通濾波器將一幀語音信號分為五個帶,分別是[0,500Hz],[500,1000Hz],[1000,2000Hz],[2000,3000Hz],[3000,4000Hz]五個頻帶,利用[0,500Hz]子帶信號與殘差信號在分數(shù)基音值P前后5個樣點進行精細基音搜索,從而得到精確基音值。

2.帶通分析:在五個頻帶中分別計算語音強度Vi。最低頻帶確定非周期標志位,如果最低頻帶語音強度低于門限值,則非周期標志設為1,否則即為0。其余頻帶的語音強度由該頻帶與其時域包絡圍繞分數(shù)基音值P進行精細搜索時的歸一化互相關值來決定。

3.10階線性預測(LPC)分析:LPC線性預測分析系數(shù)的計算采用Levinson-Durbin遞歸算法,計算時對輸入語音信號加窗,窗長200個樣點(25ms),窗的中心點位于當前幀的最后一個樣點。此外,對求得的10個預測系數(shù)Ai(i=1,2…10)均乘以帶寬擴大系數(shù)K。LPC系數(shù)化為適合量化的線譜對(LSF)系數(shù)。

4.增益計算:使用自適應窗長,每一幀計算兩次基音值。增益值是加窗信號的均方根值,以dB形式輸出。

5.清濁音判決:利用由LPC系數(shù)決定的預測濾波器對輸入語音信號進行濾波,得到殘差信號,取殘差信號的160個樣點計算峰值,如果峰值大于門限值,則置最低頻帶的語音聲強為1,如果峰值大于另一個門限值,則最低的三個頻帶語音聲強置1。

(二)參數(shù)量化

參數(shù)提取結束,需要量化的參數(shù)有基音周期、子帶清濁音判斷、增益、線性預測系數(shù)、傅立葉系數(shù)、非周期標志。一共量化為54bit。具體量化包括如下:

1.基音量化:基音值和全局清濁音判斷共同量化為7比特。如果低頻段語音聲強小于或者等于門限值,則當前幀是清音幀,傳送全零碼。否則為濁音幀,先將基音值取對數(shù),再進行99級均勻量化,量化后的標號映射到7比特碼本。

2.子帶清濁音判決:當最低頻帶語音聲強大于門限值時,如果其余四個子帶聲強值也大于門限值,則量化為0。如果其余四個子帶量化后的值為0001,那么高子帶置0。如果最低頻帶語音聲強小于或者等于門限值,則該項參數(shù)量化為0。

3.增益:每一幀均傳送兩個增益參數(shù)。第一個增益參數(shù)采用自適應算法量化為3比特。第二個增益參數(shù),在10.0到77.0范圍內(nèi)使用級均勻量化器量化為5比特。

4.線性預測系數(shù)量化:首先將LPC系數(shù)轉化為易于量化的LSF系數(shù)。采用多級矢量量化方法,碼本設置四級,每級量化的比特數(shù)分別為7、6、6、6。

5.傅立葉系數(shù):若當前幀為濁音幀,則10階傅立葉系數(shù)采用矢量量化方法。量化比特為8。若當前幀是清音幀,則不進行量化。

(三)解碼部分

整個解碼過程包括對接收到的數(shù)據(jù)進行解包,生成混合激勵信號,再對混合激勵信號經(jīng)過自適應譜增強,LPC合成濾波,增益調(diào)整,脈沖離散濾波等,最后合成語音輸出??傮w編解碼框圖見圖1。

圖1MELP編解碼原理框圖

三、程序?qū)崿F(xiàn)研究和測試結果

測試方法是這樣的:采集了一段語音,采用8000bit/s采樣速率,單聲道,16位。先用麥克風生成一個WAV文件;接著用該程序中的WAV數(shù)據(jù)提取函數(shù)取出數(shù)據(jù),生成一個純數(shù)據(jù)的語音文件;然后用MELP算法處理程序?qū)φZ音文件進行處理并生成一個發(fā)送的數(shù)據(jù)包文件并通過一個模擬的信道進行傳送;接收端對接收到的數(shù)據(jù)包進行解碼,并合成語音生成一個純數(shù)據(jù)的語音合成文件;接著WAV數(shù)據(jù)合成函數(shù)生成一個WAV文件格式的文件;在MATLAB中使用WAVREAD命令,將原始語音讀入,并用PLOT將其時域顯示出來,顯示波形如圖2所示。

最后通過揚聲器放出來,六個人比較它們的效果,比較原始語音和合成語音的有四個人認為合成語音質(zhì)量不錯,有二個人覺得一般。結論:合成語音的質(zhì)量還可以,達到了預期的效果。

圖2原始語音信號時域波形

經(jīng)過MELP編碼后的合成語音,數(shù)據(jù)打包放在一個數(shù)組中。然后在MATLAB環(huán)境下,用WAVWRITE命令,將其數(shù)據(jù)寫出到一個WAV格式的音頻文件中。用PLOT命令觀察其波形,如圖3所示。

圖3合成語音時域波形

四、MELP編碼性能分析及仿真結果

圖2和圖3是經(jīng)過MATLAB軟件仿真后所得的原始語音信號和合成語音信號的波形比較圖,仿真所用的采樣頻率為8KHz,每個采樣點用8比特進行量化。為便于觀察選取其中的第100000個采樣點進行觀察比較,從顯示結果中可以看出MELP編碼算法在較低的編碼比特率基礎上較好的重構了原始語音信號,從聽音測試的結果來看,采用MELP編碼的合成語音也同樣能夠很好的滿足現(xiàn)今通信系統(tǒng)對語音質(zhì)量的要求。

參考文獻:

[1]王洪、唐凱,低速率語音編碼[M].北京:國防工業(yè)出版社,2006.

[2]鮑長春,低比特率數(shù)字語音編碼基礎,北京:北京工業(yè)大學出版社,2001,149-178.

[3]Alan V.McCree,Kwan Truong,E.Bryan George and Thomas P.Barnwell.A 2.4K BITPS MELP coder candidate for the new U.S.Federal.Proceeding of ICASSP.1996,107-112.

[4]陳顯治,現(xiàn)代通信技術[M],北京:電子工業(yè)出版社,2001.

[5]鐘明,一種2.4Kbps改進型MBELP編碼,電子科學學報,2000,9(5).

[6]McCree A V.Barnwell T P.A NewMixed Excitation LPC Vocoder.IC2ASSP.199l,593-596.

[7]王炳錫,語音編碼[M],西安,西安電子科技大學出版社,2002.

[8]劉寬海、葛萬成,MELP低比特率數(shù)字語音編碼技術研究[J]信息技術,2003,27(8):52-54.

[9]W.B.Kleijn,K.K.Paliwal.Speech Coding and Synt hesis,Amsterdam[M].The Net herlamds,Else-vier,1995,15-40.

[10]王都生、鐵滿霞、樊昌信,2.4kbit/s多帶混合激勵線性預測語音編碼器的模擬[J].西安電子科技大學學報,2000,27(4):476-478.

作者簡介:

賈亮(1971-),男,漢族,遼寧大石橋人,碩士研究生導師,副教授,主要從事信號處理方面的研究工作,研究方向:信號與信息處理;趙鵬飛(1980-),男,漢族,內(nèi)蒙古呼和浩特人,碩士研究生,研究方向:信號與信息處理;危國騰(1984-),男,漢族,江西南昌人,碩士研究生,漢族,研究方向:信號與信息處理。

猜你喜歡
限值編碼系數(shù)
住院病案首頁ICD編碼質(zhì)量在DRG付費中的應用
小小糕點師
蘋果屋
嬉水
高效視頻編碼幀內(nèi)快速深度決策算法
2017年北京將實施“世界最嚴”鍋爐排放標準
跨境電商執(zhí)行新稅制
歐洲議會采納了歐Ⅵ排放標準草案
不斷修繕 建立完善的企業(yè)編碼管理體系
待定系數(shù)法在分解因式中的應用