張 璐
(陜西省天然氣股份有限公司,陜西 西安 710016)
近年來,隨著多媒體和網(wǎng)絡(luò)通信技術(shù)的飛速發(fā)展,數(shù)字音頻技術(shù)己經(jīng)在數(shù)字影音系統(tǒng)、高清晰度電視(HDTV)、數(shù)字音頻廣播(DAB)、電話會議系統(tǒng)、無線通信、互聯(lián)網(wǎng)多媒體業(yè)務(wù)等領(lǐng)域中得到了廣泛的應(yīng)用[1]。然而,對于數(shù)字化之后的音頻信號,如果沒有有效的壓縮編碼方案,海量的數(shù)據(jù)將給存儲和傳輸帶來巨大的壓力,這就促進(jìn)了各種音頻編碼技術(shù)的出現(xiàn)。
通過對現(xiàn)有的感知音頻編碼算法進(jìn)行分析比較,研究了一種低延遲高質(zhì)量的音頻編碼算法,即 LDX算法。主要面向?qū)崟r全雙工音頻或多媒體通信的應(yīng)用,其特點(diǎn)是編解碼算法延遲小,同時具有其它感知音頻編碼的高壓縮比、高音質(zhì)的優(yōu)點(diǎn)。
跟其它感知音頻編碼算法一樣,LDX是通過去除感知冗余和統(tǒng)計冗余來獲得編碼增益[2-5],因此,時頻分析模塊與心理聲學(xué)模型是LDX音頻編碼器的核心。LDX音頻編碼器的結(jié)構(gòu)如圖1所示。
圖1 LDX音頻編碼器框
LDX編碼器對輸入的信號分塊處理,通常根據(jù)時域和頻域的分辨率及編碼延遲的要求確定數(shù)據(jù)塊的長度。在進(jìn)行時頻變換之前,對一數(shù)據(jù)塊進(jìn)行加窗處理,為了保證數(shù)據(jù)塊之間的銜接,相鄰數(shù)據(jù)塊部分重疊。加窗后的數(shù)據(jù)塊進(jìn)行時頻分析和心理聲學(xué)分析。
為了以盡量少的比特,且又能較精確地表示掩蔽曲線,LDX結(jié)合臨界頻帶的概念,對掩蔽曲線通過線性分段逼近的方式獲得基底曲線(Floor),然后用基底曲線對變址離散余弦變換(MDCT,Modified Discrete Cosine Tranform)頻譜進(jìn)行白化處理,如圖2(a)所示,得到去除感知冗余之后的殘差信號(Residue)[6],如圖2(b)所示,由于殘信號的動態(tài)范圍明顯變小,從而可以減少量化誤差或節(jié)省編碼比特數(shù)。
圖2 基底曲線和白化后的頻譜
LDX的編碼比特流從邏輯上可以分為頭包和音頻包,頭包出現(xiàn)在所有音頻包之前,它包含了信源的部分參數(shù)和用戶的指定參數(shù),在解碼音頻包之前,解碼器必須先正確解碼頭包,以獲得這些參數(shù),解碼器需根據(jù)這些參數(shù)建交解碼音頻包所需的一切信息[7]。
音頻包主要由基底曲線的編碼比特流和殘差信號的編碼比特流構(gòu)成,解碼器對兩者進(jìn)行解碼后,得到重構(gòu)的數(shù)字音頻輸出。LDX音頻解碼器結(jié)構(gòu)框圖如圖3所示。
圖3 LDX音頻解碼器框圖
LDX解碼流程圖如圖4示,由于頭包出現(xiàn)在所有音頻包之前,所以解碼器首先要完成頭包的解碼。頭包的正確解碼是正確解碼音頻包的前提。LDX音頻包解碼主要包括以下幾個步驟。
由于基底是對全局掩蔽曲線的分段折線逼近,解碼時先得到各個分段點(diǎn)的幅度,然后對所得的分段折線(即基底)進(jìn)行內(nèi)插以得到全局掩蔽曲線。
為了獲得更高的編碼增益,LDX采用了多維的霍夫曼編碼方式,編碼時,根據(jù)殘差的動態(tài)范圍選擇相應(yīng)的碼本,碼本的編號信息寫入編碼比特流中,所以解碼時,首先獲得碼本信息,然后選擇相應(yīng)的碼本對殘差進(jìn)行霍夫曼解碼。
如果是多聲道模式,需要進(jìn)行聲道去耦合算法。LDX只對多聲道的殘差信號進(jìn)行立體聲編碼,因此也只有殘差信號存在去耦合算法。去耦合以后得到了每聲道各自的殘差信號。
矢量點(diǎn)乘是指基底內(nèi)插得到的全局掩蔽曲線(矢量)與相應(yīng)聲道的殘差信號(矢量)進(jìn)行點(diǎn)乘,得到各聲道的頻域參數(shù),即重構(gòu)的MDCT頻譜。
各聲道的頻域參數(shù)變址離散余弦反變換(IMDCT,Inverse Modified Discrete Cosine Tranform)后,得到相應(yīng)的時域參數(shù)——重構(gòu)的時域數(shù)據(jù)塊。
由于編碼時相鄰數(shù)據(jù)塊有50%的重疊,因此,解碼時,為了重構(gòu)當(dāng)前幀,重構(gòu)的相鄰數(shù)據(jù)塊需要疊接相加,最后得到輸出的數(shù)字音頻。
音頻編碼算法的性能需要有可靠的測試來驗(yàn)證。通常對軟件實(shí)現(xiàn)的實(shí)時感知音頻編碼器評估的性能參數(shù)主要包括程序存儲空間、數(shù)據(jù)存儲空間、運(yùn)算量和重構(gòu)的音質(zhì)四個方面,而重構(gòu)的音質(zhì)是整個系統(tǒng)性能評估中最重要的一個指標(biāo)[8]。另外,運(yùn)算復(fù)雜度和存儲量也要針對不同應(yīng)用實(shí)際考慮。
圖4 DX音頻解碼流程
對LDX來說,重點(diǎn)是編解碼算法延遲和音頻質(zhì)量的問題,因此,主要就 LDX的算法延遲和音質(zhì)與其它幾種音頻編碼算法進(jìn)行測試和對比。
進(jìn)行測試的音頻編碼算法除LDX之外,為了進(jìn)行性能分析和比較,同時參與測試的有動態(tài)圖象專家組高級音頻編碼(MPEG-4 AAC-LD,Moving Pictures Experts Group Advanced Audio Code)、動態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面3(MP3,Moving Picture Experts Group Audio Layer III)、Ogg Vorbis格式以及G.722.1c等音頻和語音編碼算法。所有上述音頻編碼算法的測試都在每聲道16~64 kb/s的范圍內(nèi)進(jìn)行。表1、表2和表3是音頻質(zhì)量感性評價測試結(jié)果,表4和表5是感知話音評估法測試結(jié)果。表中“…”表示對應(yīng)的編碼器在相應(yīng)的采樣速率下不支持對應(yīng)的編碼比特率。表1至3的測試結(jié)果表明,從總體上來說,LDX的音質(zhì)與 Ogg Vorbis的性能相當(dāng),好于MP3,而相對于MPEG標(biāo)準(zhǔn)中的MPEG-4 AAC-LD,LDX在音質(zhì)方面有很大的改善;從表4和表5可以看出,在對 16 kHz采樣的語音信號處理上,LDX與G.722.1c表現(xiàn)出來的性能非常接近,而在對16 kHz的音頻信號處理上,LDX比G.722.1c更優(yōu)。
表1 16 kHz音頻信號編碼音頻質(zhì)量感性評價測試結(jié)果
表2 32 kHz音頻信號編碼音頻質(zhì)量感性評價測試結(jié)果
表3 48 kHz音頻信號編碼音頻質(zhì)量感性評價測試結(jié)果
表4 16 kHz語音信號編碼感知話音評估法測試結(jié)果
表5 32 kHz音頻信號編碼感知話音評估法測試結(jié)果
通過對當(dāng)前音頻編碼技術(shù)的綜合分析,提出了一種低延遲高質(zhì)量的感知音頻編碼算法——LDX,它最大的特點(diǎn)在于有較低的編解碼算法延遲,而在編碼效率、音質(zhì)和算法復(fù)雜度等方面,可以與時下的其它高級感知音頻編碼算法相媲美。當(dāng)然,LDX亦有不足之處,相對于MPEG-4 AAC-LD而言,在差錯隱藏與恢復(fù)等抗誤碼方面未曾顧及;由于預(yù)回聲處理算法與預(yù)回聲的判斷密切相關(guān),這一點(diǎn)與其它音頻編碼算法有所不同,因此,尋找一種與 LDX預(yù)回聲處理算法非常相吻合的預(yù)回聲判斷算法也十分重要。而且,在以后的具體應(yīng)用中,也會出現(xiàn)一些未曾料及的新問題,但無論怎樣,低延遲高質(zhì)量音頻編碼算法 LDX的提出,對音頻編碼技術(shù)的發(fā)展具有重要意義。
[1] 馬姍姍,錢建生.音頻數(shù)字水印技術(shù)綜述[J].通信技術(shù), 2008,41(11):135-138.
[2] 由守杰, 柏森, 曹巍巍.一種新穎的音頻信息隱藏算法[J].通信技術(shù), 2007,40(12):280-282.
[3] 楊帆,郭立,徐雷,等.基于信息量估計法的 MIDI音頻隱寫分析[J].通信技術(shù), 2010,43(01):86-88.
[4] STANLEY P L.Dawn of the Digital Age[J].AES, 1998(46):37-41.
[5] Brandenburg K.OCF - A New Coding Algorithm for High Quality Sound Signals[C].USA: IEEE, 1987:141-144.
[6] QUACKENBUSH S R, JOHNSTON J D.Noiseless Coding of Quantized Spectral Components in MPEG-2 Advanced Audio Coding[EB/OL].(1999-12-11)[2011-02-01].ieeexplore.ieee.org/iel3/4935/136 06/00625587.pdf.
[7] MAHIEUX Y, PETIT J P, CNET L.High-Quality Audio Transform Coding at 64 kb/s[J].IEEE Trans.Commun, 1994,42(11):3010-3019.
[8] JAYANT N, JOHNSTO J D.Signal Compression Based on Models of Human Perception[J].Proc.IEEE,1993(81):1385-1422.