□文/聶銘瑋肖倩
采用ITU-T標(biāo)準(zhǔn)的商用音頻壓縮編碼系統(tǒng)研究
□文/聶銘瑋1肖倩2
聲音信號的存儲與傳輸,從模擬信號到數(shù)字信號經(jīng)歷了一個革命性的發(fā)展。隨著多媒體處理技術(shù)的發(fā)展,數(shù)字音頻壓縮編碼技術(shù)得到了廣泛應(yīng)用。從1972年開始ITU-T為音頻信號壓縮編碼制定的一系列標(biāo)準(zhǔn),成為當(dāng)前移動通訊、數(shù)字衛(wèi)星系統(tǒng)、網(wǎng)絡(luò)廣播等領(lǐng)域廣泛采用的音頻壓縮編碼技術(shù)和標(biāo)準(zhǔn)。
聲音信號;音頻壓縮編碼;ITU-T標(biāo)準(zhǔn)
聲音是一種能量波。數(shù)字音頻編碼是把連續(xù)變化的波形信號轉(zhuǎn)化為離散的數(shù)字信號的過程。我們通常采用PCM編碼方式進行轉(zhuǎn)化。
PCM也稱為脈沖代碼調(diào)制編碼。脈沖調(diào)制就是把一個時間連續(xù),取值連續(xù)的模擬信號變換成時間離散,取值離散的數(shù)字信號后在信道中傳輸。脈沖編碼調(diào)制就是對模擬信號先抽樣,再對樣值幅度量化、編碼的過程。
在計算機應(yīng)用中,能夠達到最高保真水平的就是PCM編碼,被廣泛用于素材保存及音樂欣賞,CD、DVD以及我們常見的WAV文件中均有應(yīng)用。因此,規(guī)定PCM為無損編碼。
(一)音頻數(shù)據(jù)壓縮比。音頻編碼的作用:一是采用一定的格式來記錄數(shù)字?jǐn)?shù)據(jù);二是采用一定的算法來壓縮數(shù)字?jǐn)?shù)據(jù)以減少存貯空間和提高傳輸效率。壓縮編碼的基本指標(biāo)之一就是壓縮比,它通常小于1。壓縮越多,信息丟失越多、信號還原后失真越大。
音頻數(shù)據(jù)壓縮比=壓縮后的音頻數(shù)據(jù)量/壓縮前的音頻數(shù)據(jù)量
(二)音頻壓縮的主要分類。一般來講,根據(jù)壓縮后的音頻能否完全重構(gòu)出原始聲音可以將音頻壓縮技術(shù)分為無損壓縮及有損壓縮兩大類;而按照壓縮方案的不同,又可將其劃分為時域壓縮、變換壓縮、子帶壓縮以及多種技術(shù)相互融合的混合壓縮,等等。各種不同的壓縮技術(shù),其算法的復(fù)雜程度(包括時間復(fù)雜度和空間復(fù)雜度)、音頻質(zhì)量、算法效率(即壓縮比例)以及編解碼延時等都有很大的不同。
多媒體音頻信號大致可分為三類:電話質(zhì)量的語音信號、調(diào)幅廣播質(zhì)量的音頻信號和高保真立體聲音頻。ITU-T標(biāo)準(zhǔn)是當(dāng)前商用音頻編碼系統(tǒng)主要的三大標(biāo)準(zhǔn)之一。
ITU-T(國際電信聯(lián)盟遠程通信標(biāo)準(zhǔn)化組原CCITT)旗下的G系列標(biāo)準(zhǔn)已成為電話質(zhì)量的語音信號、調(diào)幅廣播質(zhì)量的音頻信號壓縮編碼的國際標(biāo)準(zhǔn)。
ITU-T最初定義的音頻編碼算法建議標(biāo)準(zhǔn)包括G.711、G.721、G.722、G.723等。1995年之后,ITU-T批準(zhǔn)了新的語音壓縮標(biāo)準(zhǔn)G.728,G.729等。表1給出了ITU-T標(biāo)準(zhǔn)主要算法的比較。(表1)
表1 G.7XX算法比較
(一)G.726標(biāo)準(zhǔn)。G.726是ITU-T1990年在G.721和G.723標(biāo)準(zhǔn)的基礎(chǔ)上提出的關(guān)于把64kbps非線性PCM信號轉(zhuǎn)換為40kbps、32kbps、24kbps、16kbps的ADPCM信號的標(biāo)準(zhǔn)。G.726標(biāo)準(zhǔn)算法簡單,語音質(zhì)量高,多次轉(zhuǎn)換后語音質(zhì)量有保證,能夠在低比特率上達到網(wǎng)絡(luò)等級的話音質(zhì)量。
G.726最為常用的方式是32kbit/s,但由于其只是G.711速率的一半,所以就將網(wǎng)絡(luò)的可利用空間增加了一倍。在這些通道中,24kbps和16kbps的通道被用于數(shù)字電路倍增設(shè)備(DCME)中的語音傳輸,而40kbps通道則被用于DCME中的數(shù)據(jù)解調(diào)信號(尤其是4800kbps或更高的調(diào)制解調(diào)器)。
(二)G.727標(biāo)準(zhǔn)。ITU-T于1990年通過了鑲嵌式ADPCM標(biāo)準(zhǔn)G.727。其碼率為16~40kbit/s,G.727定義了當(dāng)原信號是脈沖率為64kbit/s脈沖編碼調(diào)制信號(從在G.711中具體規(guī)定的語音頻率模擬信號轉(zhuǎn)變而來)。
(三)G.728標(biāo)準(zhǔn)。為了進一步降低語音壓縮的碼率,1991年ITU-T制定了G.728標(biāo)準(zhǔn),使用基于短延時碼本激勵線性預(yù)測(LDCELP)算法,通過對語音信號的分析,提取CELP模型的參數(shù),在解碼端,這些參數(shù)用于恢復(fù)激勵信號和綜合濾波器的參數(shù)。其碼率為16kbit/s,其質(zhì)量與32kbit/s的G.721標(biāo)準(zhǔn)相當(dāng)。
CELP是一個閉環(huán)線性預(yù)測系統(tǒng),它利用輸入語音信號確定最佳參數(shù),然后根據(jù)最小誤差準(zhǔn)則從碼本中找出最佳激勵碼矢量。CELP具有較強的抗干擾能力,在4-16Kb的傳輸速率下能夠得到較高質(zhì)量的語音信號。
G.728標(biāo)準(zhǔn)的語音編碼的主要特點有:算法時延短,僅為0.625ms;編碼時延小于2ms;傳輸比特率為16kbit/s;MOS值為4.173,達到了長途通信質(zhì)量。
我們選用G.728標(biāo)準(zhǔn)的語音編碼算法作為IP電話的編碼算法。
(四)G.723.1標(biāo)準(zhǔn)。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和多媒體通信業(yè)務(wù)的飛速增長,ITU-T對8kbit/s以下的高質(zhì)量語音編碼方案給予了極大關(guān)注。由ITU-T的第15小組(SG15)1995年提出的G.723.1標(biāo)準(zhǔn)是極低速率多媒體通信標(biāo)準(zhǔn)系列H.324中的有關(guān)語音編碼的一個標(biāo)準(zhǔn)。
G.723.1編碼器采用了線性預(yù)測分析合成的技術(shù),對8kHz取樣的16bit精度的PCM數(shù)字音頻進行處理,以盡量減少實際語音與合成語音之間經(jīng)聽覺加權(quán)后的差分信號的能量為準(zhǔn)則來進行編碼的。在G.723.1標(biāo)準(zhǔn)中提供了兩種可選速率,分別為5.27kbit/s和6.3kbit/s。和同樣速率的其他語音編碼器相比,這兩種編碼器都具有較高的語音質(zhì)量,較低的編碼時延(30~40ms)。高速率提供更好的重建語音質(zhì)量,低速率的算法計算量低,給系統(tǒng)設(shè)計者提供了更多的靈活性。兩種速率的編解碼器都具有較高的語音質(zhì)量和較低的延時,允許在相鄰幀(30ms)的邊界轉(zhuǎn)換速率,在無聲幀進行噪聲填充,實現(xiàn)了可變速率的不間斷傳輸。
該編碼建議在有限的復(fù)雜度下最優(yōu)化地表示語音信號,采用線性預(yù)測的合成分析法分幀處理。高碼率(6.3kb/s)激勵信號采用多脈沖極大似然量化(MP-MLQ),低碼率(5.3kb/s)激勵信號采用代數(shù)碼本激勵線性預(yù)測(ACELP)。每幀30ms,另加7.5ms的前視,算法總延遲37.5m。
(五)G.729標(biāo)準(zhǔn)。G.729標(biāo)準(zhǔn)是國際電聯(lián)電信標(biāo)準(zhǔn)部門第十五研究組(ITU-TSG15)在(1993~1996)期間在語音編碼方面取得的最大標(biāo)準(zhǔn)化成果。
G.729協(xié)議定義了8kbit/s碼率的共扼結(jié)構(gòu)代數(shù)碼本激勵線性預(yù)測(CS-ACELP)語音編解碼算法。模擬信號經(jīng)過電話帶寬濾波,以8kHz采樣,再轉(zhuǎn)換為16bit PCM碼,送入編碼器編碼,輸出比特流參數(shù),解碼器對比特流參數(shù)解碼,以同樣方式轉(zhuǎn)換為模擬信號。其他格式的信號都要預(yù)先化為16bit PCM碼,解碼后再轉(zhuǎn)換回來。
CS-ACELP編碼器建立在碼本激勵模型的基礎(chǔ)上,8kHz采樣信號每10ms為一幀(含80個樣本),按幀計算CELP模型參數(shù)(LP系數(shù)、碼本增益、基音和碼本索引),將參數(shù)編碼傳送。解碼器將接收到的參數(shù)解碼,得到激勵和合成濾波器參數(shù)。激勵信號經(jīng)過短時合成濾波器濾波得重構(gòu)語音信號,短時合成濾波器為10階LP濾波器。長時濾波器為自適應(yīng)碼本濾波器。重構(gòu)語音還需經(jīng)過若干個后濾波處理步驟。
G.729標(biāo)準(zhǔn)主要應(yīng)用有:個人移動通信、低C/N數(shù)字衛(wèi)星系統(tǒng)(包括陸地移動衛(wèi)星通信、海事衛(wèi)星通信、一般航空衛(wèi)星通信等)、高質(zhì)量數(shù)字移動無線通信DOME、存儲/檢索以及分組語音和數(shù)字租用信道等。
音頻壓縮編碼技術(shù)的研究是目前國際上的信號壓縮領(lǐng)域的一大研究熱點。研究者一直在尋求能夠在保證音頻質(zhì)量的前提下盡可能的降低音頻信號碼率的技術(shù)。本文對數(shù)字音頻壓縮編碼的相關(guān)理論和技術(shù)參數(shù)做了簡要介紹。分析并研究了ITU-T國際標(biāo)準(zhǔn)在當(dāng)前數(shù)字廣播、網(wǎng)絡(luò)、移動通訊等領(lǐng)域的應(yīng)用。
(作者單位:1.北華航天工業(yè)學(xué)院;2.河北金融學(xué)院)
[1]房建,左濤等.數(shù)字音頻壓縮編碼技術(shù)及其應(yīng)用.信息技術(shù),2004.
[2]ISO/IEC11172.Coding of moving pictures and Associated audio for digital storage media at up to about 1.5Mbit/s. Information Technology,1993.
[3]http://www.itu.int/publications.
[4]Robert A,Wannamarker,Edward R J.Audio Eng.Soc.July/August,1997.45.
029
A