文 彬 楊玉紅 姜 林,
1(武漢大學(xué)計(jì)算機(jī)學(xué)院國(guó)家多媒體軟件工程技術(shù)研究中心 湖北 武漢 430072)2(東華理工大學(xué)軟件學(xué)院 江西 南昌 330013)
基于相關(guān)系數(shù)的AVS-P10帶寬擴(kuò)展優(yōu)化
文 彬1楊玉紅2姜 林1,2
1(武漢大學(xué)計(jì)算機(jī)學(xué)院國(guó)家多媒體軟件工程技術(shù)研究中心 湖北 武漢 430072)2(東華理工大學(xué)軟件學(xué)院 江西 南昌 330013)
AVS-P10是我國(guó)第一部完全自主研發(fā)的移動(dòng)音頻編解碼國(guó)家標(biāo)準(zhǔn)。為適應(yīng)移動(dòng)通信環(huán)境,實(shí)現(xiàn)低碼率、高質(zhì)量的音頻傳輸與重建,在分析現(xiàn)有AVS-P10帶寬擴(kuò)展模塊的基礎(chǔ)上,提出一種基于相關(guān)系數(shù)的AVS-P10帶寬擴(kuò)展優(yōu)化方案。為找出高頻重建的最佳頻帶選擇方式,通過(guò)計(jì)算原始高頻頻帶與各準(zhǔn)高頻頻帶的皮爾遜系數(shù)絕對(duì)值進(jìn)行最強(qiáng)相關(guān)子帶選取,并通過(guò)判斷最高相關(guān)系數(shù)數(shù)值是否低于域值,選擇用最強(qiáng)相關(guān)準(zhǔn)高頻子帶或白噪聲來(lái)進(jìn)行高頻重建。實(shí)驗(yàn)表明,與原有的AVS-P10帶寬擴(kuò)展算法相比,該方法音頻信號(hào)的高頻重建效果有一定的提高。
移動(dòng)音頻 AVS-P10 帶寬擴(kuò)展 最強(qiáng)相關(guān)子帶選取 皮爾遜系數(shù)
人耳對(duì)于不同頻率的音頻信號(hào)的感知敏感度是不同的,相對(duì)于信號(hào)的高頻部分,人耳對(duì)于低頻信號(hào)感知更加敏感。因此,由于傳輸帶寬及存儲(chǔ)能力等方面的限制,在低比特率編碼當(dāng)中,為提高編碼效率,編碼器只針對(duì)信號(hào)的低頻部分進(jìn)行編碼,而人耳不那么敏感的高頻部分則幾乎被全部截去。這樣的編碼方式不可避免的導(dǎo)致了解碼后的音頻信號(hào)質(zhì)量會(huì)出現(xiàn)明顯的下降,變得沉悶不自然[1]。然而隨著人們對(duì)高品質(zhì)音頻需求的不斷提高,現(xiàn)有的編碼方式顯然無(wú)法滿足人們的需求。因此,對(duì)于帶寬擴(kuò)展技術(shù)的研究變得十分重要。
AVS-P10[2-3]是我國(guó)自主研發(fā)的,具有完全自主知識(shí)產(chǎn)權(quán)的移動(dòng)音頻編解碼器,它采用ACELP/TVC混合編碼模式分別編碼語(yǔ)音和音樂(lè)信號(hào)的低頻部分[3],2013年,AVS-P10頒布為國(guó)家標(biāo)準(zhǔn),于2014年正式實(shí)施。對(duì)于高頻信號(hào)的編碼,AVS-P10標(biāo)準(zhǔn)借鑒了3GPP AMR-WB+[4]標(biāo)準(zhǔn)的基本框架,通過(guò)帶寬擴(kuò)展模塊完成高頻信號(hào)的重建。其采用的是一種非盲式的帶寬擴(kuò)展算法,通過(guò)在時(shí)域利用低頻殘差信號(hào)和線性預(yù)測(cè)[5]構(gòu)建了準(zhǔn)高頻信號(hào),然后利用若干增益信息在頻域?qū)?zhǔn)高頻信號(hào)進(jìn)行調(diào)整,完成高頻重建。在高頻重建的過(guò)程中,僅僅簡(jiǎn)單地按子帶順序進(jìn)行復(fù)制,不足以保證相關(guān)性最好的原始高頻與準(zhǔn)高頻子帶能準(zhǔn)確匹配,若高、低頻子帶相關(guān)性變?nèi)鯐r(shí),可能會(huì)帶來(lái)較嚴(yán)重的失真。
針對(duì)上述問(wèn)題,本文提出一種基于相關(guān)系數(shù)的AVS-P10帶寬擴(kuò)展優(yōu)化方案。通過(guò)計(jì)算高頻子帶與各準(zhǔn)高頻子帶之間的皮爾遜相關(guān)系數(shù)選取最強(qiáng)相關(guān)子帶,并通過(guò)判斷最高相關(guān)系數(shù)數(shù)值是否低于閾值,選擇用最強(qiáng)相關(guān)準(zhǔn)高頻子帶或白噪聲來(lái)進(jìn)行高頻重建,構(gòu)建頻帶間更合適、更具關(guān)聯(lián)性的匹配組合,以提高高頻重建的音頻質(zhì)量,減少失真。本文的工作對(duì)于推動(dòng)AVS-P10標(biāo)準(zhǔn)的應(yīng)用和產(chǎn)業(yè)化具有重要意義。
1.1 已有帶寬擴(kuò)展技術(shù)
帶寬擴(kuò)展技術(shù)分為盲式和非盲式[6]。盲式帶寬擴(kuò)展在編碼端不需要任何高頻信息,在解碼端直接利用低頻信息完成高頻重建。國(guó)內(nèi)鮑長(zhǎng)春教授在該方面進(jìn)行了大量的研究,通過(guò)非線性分析,Volterra級(jí)數(shù)預(yù)測(cè)高頻包絡(luò)[7];利用分形插值的方法預(yù)測(cè)高頻頻譜細(xì)節(jié)[8],該類方法以非線性動(dòng)力學(xué)為基礎(chǔ),從物理動(dòng)力學(xué)角度分析了高頻包絡(luò)的形成,取得了較好的重建效果。但盲式帶寬擴(kuò)展復(fù)雜度較高,且由于沒(méi)有高頻任何信息,因此編碼音質(zhì)一般,尤其對(duì)于諧波豐富的音樂(lè)類信號(hào)效果較差。本文主要討論非盲式帶寬擴(kuò)展,這類方法以頻帶復(fù)制(SBR)和基于LPC的帶寬擴(kuò)展為代表。頻帶復(fù)制在頻率域內(nèi)進(jìn)行高低頻子帶劃分,利用低頻子帶復(fù)制到高頻子帶,通過(guò)高頻包絡(luò)、能量級(jí)數(shù)、噪聲級(jí)數(shù)等參數(shù)進(jìn)行包絡(luò)調(diào)整,得到較高的重建音質(zhì)[9]。Neukam等在SBR基礎(chǔ)上,通過(guò)相位聲碼器,通過(guò)諧波拉伸,噪聲補(bǔ)償?shù)确椒ㄔ贛DCT域內(nèi)對(duì)SBR進(jìn)一步優(yōu)化,得到了最新的eSBR技術(shù)[10],目前該技術(shù)已被應(yīng)用到最新的MPEG USAC音頻編碼標(biāo)準(zhǔn)中。SBR技術(shù)雖然能得到較高編碼音質(zhì),但其復(fù)雜度和碼率都較高,難以應(yīng)用到移動(dòng)音頻場(chǎng)景中?;贚PC的帶寬擴(kuò)展技術(shù)是目前低碼率、低復(fù)雜度的代表技術(shù)。它通過(guò)提取表征高頻包絡(luò)的LPC參數(shù),子帶能量,然后對(duì)得到高頻的低頻信號(hào)進(jìn)行調(diào)整,得到同碼率下接近SBR的編碼音質(zhì)。Zhan等將該方法成功應(yīng)用于我國(guó)AVS-M中[11];武漢大學(xué)Jiang等在此基礎(chǔ)上,根據(jù)信號(hào)類型提出了一種基于LPC和FFT的混合帶寬擴(kuò)展方法[12];之后Jiang等又提出了利用深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)高頻信號(hào)的方法得到了一種基于DAE的帶寬擴(kuò)展方法[13]。上述方法都在AVS-P10基礎(chǔ)上實(shí)現(xiàn),提升了AVS-P10編碼音質(zhì)。但上述方法都采用子帶順序復(fù)制,沒(méi)有考慮高低頻子帶間的相關(guān)性,難免造成編碼音質(zhì)受損。
1.2 AVS-P10的帶寬擴(kuò)展算法
現(xiàn)有AVS-P10帶寬擴(kuò)展模塊采用一種非盲式帶寬擴(kuò)展算法,其主要原理是用能量增益信息調(diào)整原始低頻殘差信號(hào)通過(guò)每個(gè)子幀的LPC系數(shù)組成的合成濾波器生成的準(zhǔn)高頻信號(hào)來(lái)重建高頻信號(hào)。過(guò)程包括:編碼端提取高頻信號(hào)的頻譜包絡(luò)信息和增益信息,在解碼端利用高頻頻譜包絡(luò)信息調(diào)整激勵(lì)信號(hào)得到重建準(zhǔn)高頻信號(hào),并用增益信息調(diào)整準(zhǔn)高頻得到重建高頻信號(hào)。編碼框圖如圖1所示。
在編碼器端,對(duì)每一幀高頻原始信號(hào)進(jìn)行一次八階線性預(yù)測(cè)分析,得到一組八階的線性預(yù)測(cè)編碼(LPC)系數(shù),并轉(zhuǎn)換為導(dǎo)抗頻譜對(duì)(ISP)系數(shù),導(dǎo)抗頻譜對(duì)系數(shù)進(jìn)一步變換為導(dǎo)抗譜頻率(ISF)系數(shù)。量化后的ISF系數(shù)變換為量化后線性預(yù)測(cè)系數(shù),并以此產(chǎn)生高頻合成濾波器。假設(shè)高頻合成濾波器288點(diǎn)的沖擊響應(yīng)為h(n),用288點(diǎn)的快速傅里葉變換(FFT)將h(n)變換到頻域,以此表示原始高頻信號(hào)的頻譜包絡(luò)。
低帶原始信號(hào)經(jīng)過(guò)低帶線性預(yù)測(cè)逆濾波器濾波后得到低帶殘差信號(hào)作為激勵(lì)信號(hào),低帶的線性預(yù)測(cè)系數(shù)每幀更新一次。每一個(gè)1024樣點(diǎn)超幀的低帶激勵(lì)信號(hào)通過(guò)長(zhǎng)度為288樣點(diǎn),重疊區(qū)域?yàn)?2樣點(diǎn)的余弦窗分割為四個(gè)長(zhǎng)度288樣點(diǎn)的幀,每一超幀中的分幀結(jié)構(gòu)如圖2所示。
圖2 超幀中的開窗分幀模式
每一幀的低帶激勵(lì)信號(hào)和高帶合成濾波器的沖擊響應(yīng)用288點(diǎn)的FFT變換到頻域。高帶合成濾波器沖擊響應(yīng)的288點(diǎn)FFT系數(shù)用其中的最大值歸一化。將低帶激勵(lì)信號(hào)的FFT系數(shù)乘以歸一化的高帶合成濾波器的沖擊響應(yīng)FFT系數(shù)就可以得到頻域的準(zhǔn)高頻信號(hào)。
假設(shè)XHF[k]和XBF[k]分別表示原始高頻信號(hào)和準(zhǔn)高頻頻域信號(hào),每一幀信號(hào)進(jìn)一步被劃分到四個(gè)子帶。在每個(gè)子帶中,按照子帶排列的對(duì)應(yīng)順序,通過(guò)式(1)來(lái)計(jì)算該子帶的增益系數(shù),式中Gain[i]表示當(dāng)前幀中第i個(gè)子帶增益系數(shù),M是子帶長(zhǎng)度72。
(1)
在解碼端,解碼器解析出碼流中的高頻譜包絡(luò)信息和增益信息,并使用高頻頻譜包絡(luò)信息調(diào)整低頻解碼后的激勵(lì)信號(hào)得到重建的準(zhǔn)高頻信號(hào),再用增益信息調(diào)整準(zhǔn)高頻信號(hào)的得到頻域重建高頻信號(hào)。
2.1 優(yōu)化的帶寬擴(kuò)展模塊流程
由以上可以看出,AVS-P10的帶寬擴(kuò)展模塊存在一定的弊端,在利用準(zhǔn)高頻信號(hào)進(jìn)行高頻重建時(shí),簡(jiǎn)單地按子帶順序選取準(zhǔn)高頻頻帶對(duì)原始高頻頻帶進(jìn)行重建,沒(méi)有選擇性。難以根據(jù)信號(hào)自身特性,做出自適應(yīng)的調(diào)整,影響高頻重建的準(zhǔn)確性。雖然原始高頻頻帶與準(zhǔn)高頻頻帶具有一定的相關(guān)性,但固定的匹配方式,不足以保證相關(guān)性最好的原始高頻與準(zhǔn)高頻子帶能準(zhǔn)確對(duì)應(yīng),相反可能導(dǎo)致相關(guān)性較弱甚至不相關(guān)的子帶匹配,導(dǎo)致高頻重建效果不佳。
針對(duì)上述問(wèn)題,本文提出了一種基于AVS-P10的帶寬擴(kuò)展優(yōu)化方案,通過(guò)計(jì)算高頻子帶與各準(zhǔn)高頻子帶之間的皮爾遜相關(guān)系數(shù)選取最強(qiáng)相關(guān)子帶,并通過(guò)判斷最高相關(guān)系數(shù)數(shù)值是否低于域值,找到頻帶間更合適、更具關(guān)聯(lián)性的匹配組合,指導(dǎo)原始高頻重建。此處選擇皮爾遜系數(shù)計(jì)算相關(guān)性的原因在于音頻信號(hào)具有類高斯的特點(diǎn),而根據(jù)文獻(xiàn)[14],當(dāng)數(shù)據(jù)具有高斯特性時(shí),皮爾遜系數(shù)是相關(guān)性最好的度量方法。優(yōu)化后的編碼框架如圖3所示,圖中虛線部分即為本文的改進(jìn)模塊。
圖3 優(yōu)化的AVS-P10帶寬擴(kuò)展編碼框圖
2.2 最強(qiáng)相關(guān)子帶選取
在編碼端,低頻殘差信號(hào)經(jīng)過(guò)利用高頻LPC系數(shù)構(gòu)建的高頻合成濾波器,生成準(zhǔn)高頻信號(hào)。時(shí)頻變換后,將準(zhǔn)高頻信號(hào)和原始高頻信號(hào)均分為4個(gè)子帶。
為建立原始高頻頻帶與準(zhǔn)高頻頻帶之間的最優(yōu)匹配,針對(duì)每一個(gè)原始高頻子帶,通過(guò)式(2)計(jì)算它與各個(gè)準(zhǔn)高頻信號(hào)子帶之間的皮爾遜相關(guān)系數(shù),從而得到原始子帶與各個(gè)待選子帶之間的相關(guān)性。
(2)
式中Pn[k]代表第n個(gè)原始高頻子帶與第k個(gè)準(zhǔn)高頻子帶之間的相關(guān)系數(shù),x[n,i]表示原始高頻子帶樣點(diǎn),其中n表示原始高頻子帶序號(hào),i表示子帶樣點(diǎn)序號(hào),y[k,i]表示準(zhǔn)高頻子帶樣點(diǎn),k表示準(zhǔn)高頻子帶序號(hào),N表示子帶長(zhǎng)度。
以上計(jì)算對(duì)所有的原始高頻子帶n進(jìn)行,對(duì)每個(gè)原始高頻子帶選擇出使得Pn[k]最大的k,即為原始高頻子帶相關(guān)度最高的準(zhǔn)高頻子帶。
每個(gè)原始高頻的最大相關(guān)系數(shù)max(Pn[k])用最大相關(guān)矩陣Pmax[n][k]記錄。
2.3 相關(guān)性判決修正
皮爾遜相關(guān)系數(shù)是一種度量?jī)蓚€(gè)變量間相關(guān)程度的方法。它的絕對(duì)值介于0到1之間。相關(guān)度與其值的大小成正比,當(dāng)其值介于0到0.2之間時(shí)表示兩個(gè)變量極弱相關(guān)或不相關(guān)。
有一種特殊情況,我們通過(guò)上述方法從準(zhǔn)高頻信號(hào)中選取出來(lái)的最強(qiáng)相關(guān)子帶與原始高頻信號(hào)子帶的相關(guān)性仍然極弱,此時(shí)如果仍然使用此子帶進(jìn)行高頻重建,可能會(huì)引入誤差,使聽到的聲音不自然。
因此為高質(zhì)量完成高頻重建,避免最強(qiáng)相關(guān)子帶與原始高頻子帶相關(guān)性極弱,帶入誤差,影響音頻恢復(fù)質(zhì)量需進(jìn)行相關(guān)性判斷,其判斷條件為:
(3)
式中Pmax[n][k]表示以原始高頻子帶與最大相關(guān)性子帶之間的皮爾遜系數(shù),此處根據(jù)統(tǒng)計(jì)學(xué)中弱相關(guān)或不相關(guān)的閾值,γ取0.2。
基于信號(hào)的高頻部分主要由噪聲和零散的諧波分量構(gòu)成這一假設(shè)。若上式成立,則用最強(qiáng)相關(guān)的準(zhǔn)高頻頻帶重建該原始高頻子帶。否則,則說(shuō)明原始高頻子帶盒相關(guān)系數(shù)最大的準(zhǔn)高頻子帶之間的相關(guān)程度仍然很弱,不宜直接使用準(zhǔn)高頻頻帶進(jìn)行高頻重建,使用白噪聲重建高頻子帶。后續(xù)也通過(guò)客觀實(shí)驗(yàn)證明了相關(guān)性判決修正的必要性和優(yōu)越性。
2.4 能量參數(shù)計(jì)算
計(jì)算能量參數(shù)指導(dǎo)高頻子帶的重建,若采用準(zhǔn)高頻信號(hào)來(lái)重建高頻信號(hào),需提取最相關(guān)子帶間的能量增益如式(4),以用來(lái)在解碼端指導(dǎo)高頻重建。若采用白噪聲重建高頻,則需提取高頻子帶平均能量如式(5),在解碼器端指導(dǎo)高頻重建。計(jì)算公式如下:
(4)
(5)
式中,r[i]表示第n個(gè)原始高頻子帶與第k個(gè)準(zhǔn)高頻子帶間的增益,e[i]表示第n個(gè)原始高頻子帶能量,x[n,i] 表示原始高頻子帶樣點(diǎn),其中n表示原始高頻子帶序號(hào),i表示子帶樣點(diǎn)序號(hào),y[k,i]表示準(zhǔn)高頻子帶樣點(diǎn),k表示準(zhǔn)高頻子帶序號(hào),N表示子帶長(zhǎng)度。
在解碼器端,根據(jù)原始高頻頻帶與準(zhǔn)高頻頻帶或白噪聲信號(hào)的對(duì)應(yīng)關(guān)系,以能量參數(shù)為依據(jù),結(jié)合經(jīng)過(guò)核心解碼器解碼出來(lái)的低頻信號(hào),重建原始高頻頻帶,從而恢復(fù)出完整的音頻信號(hào)。
3.1 實(shí)驗(yàn)材料
為驗(yàn)證文中所提方法的有效性,針對(duì)現(xiàn)有的AVS-P10帶寬擴(kuò)展模塊和文中的優(yōu)化方案進(jìn)行了一系列主客觀對(duì)比實(shí)驗(yàn)。所有的實(shí)驗(yàn)都是在AVS-P10編解碼器中進(jìn)行,編碼碼率為24kpbs,內(nèi)部采樣率為44.1KHz。實(shí)驗(yàn)采用MPEG標(biāo)準(zhǔn)化組織的音頻測(cè)試序列。實(shí)驗(yàn)中共使用了12組單聲道測(cè)試序列,包括3個(gè)語(yǔ)音序列,6個(gè)音樂(lè)序列和3個(gè)復(fù)雜序列,每個(gè)信號(hào)的頻譜特征、高低頻關(guān)聯(lián)度、信號(hào)噪聲分布等都不盡相同。
3.2 實(shí)驗(yàn)方法
(1) 客觀實(shí)驗(yàn)
在進(jìn)行客觀實(shí)驗(yàn)時(shí),采用ITU-R10/4工作組提出的音頻質(zhì)量客觀評(píng)價(jià)方法PEAQ法,分別針對(duì)現(xiàn)有AVS-P10帶寬擴(kuò)展模塊、本文中的優(yōu)化方案以及未經(jīng)相關(guān)性判決修正的優(yōu)化方案進(jìn)行客觀實(shí)驗(yàn),給出PEAQ的ODG分值(ODG分值為0~-5,分值越接近0表示音質(zhì)越好)。測(cè)試結(jié)果如表2所示。
表2 客觀測(cè)試ODG分值表
由表2可以看出,經(jīng)過(guò)優(yōu)化方案處理過(guò)的測(cè)試序列比原AVS-P10帶寬擴(kuò)展方案處理過(guò)的測(cè)試序列所得ODG分值普遍稍高,提高了7.1%((-2.68-(-2.49))/(-2.68)×100%)。而未經(jīng)相關(guān)性判決修正的優(yōu)化方案與原方案相比,在音樂(lè)序列上得分稍高,而在語(yǔ)音序列上得分相當(dāng),和本文優(yōu)化方案比低了6.8%。
從客觀結(jié)果來(lái)看,本文的優(yōu)化方法相比原有方案對(duì)于信號(hào)特性的恢復(fù)具有一定的改善作用。而未經(jīng)相關(guān)性判決修正的優(yōu)化方案和本文的優(yōu)化方案在語(yǔ)音序列上未經(jīng)修正的優(yōu)化方案得分與原有的AVS-P10算法得分相當(dāng),比經(jīng)過(guò)白噪聲修正的本文優(yōu)化方案得分稍低。這樣的差異也驗(yàn)證了我們之前的設(shè)想,由于語(yǔ)音信號(hào)的諧波特性不明顯,頻譜相關(guān)性比較弱,很容易出現(xiàn)最大相關(guān)子帶之間的相關(guān)性也很弱,如果此時(shí)仍然使用最大相關(guān)子帶重建,反而會(huì)引入誤差。所以引入白噪聲,代替相關(guān)程度較低的最大相關(guān)子帶,很有必要。
(2) 主觀實(shí)驗(yàn)
主觀測(cè)試是對(duì)比AVS-P10相同碼率情況下采取原有帶寬擴(kuò)展模塊和本文優(yōu)化方案解碼出來(lái)的音頻主觀聽力音頻質(zhì)量,本文根據(jù)AVS-P10音頻工作組提出的主觀聽力規(guī)范,進(jìn)行主觀聽力測(cè)試。在進(jìn)行聽力實(shí)驗(yàn)時(shí),聽力材料由 ref、A、B三組組成,ref為原始信號(hào),A為使用本文優(yōu)化方案的解碼信號(hào),B為使用AVS-P10現(xiàn)有帶寬擴(kuò)展算法的解碼信號(hào)。主觀實(shí)驗(yàn)采用CMOS打分機(jī)制如表3所示。
表3 CMOS打分機(jī)制
本文邀請(qǐng)了8名有經(jīng)驗(yàn)的測(cè)試者參加了主觀測(cè)試,對(duì)得分求均值和95%置信空間。實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 COMS得分圖
主觀試驗(yàn)結(jié)果可以看出,優(yōu)化后的多模式帶寬擴(kuò)展算法對(duì)于在信號(hào)的恢復(fù)質(zhì)量總體上優(yōu)于AVS-P10現(xiàn)有帶寬擴(kuò)展算法,提高幅度介于0分到1分之間,可見優(yōu)化后的方案對(duì)于音質(zhì)有所提升,但部分序列提升并不十分明顯。對(duì)于此,我們分析的原因可能是在判斷子帶相關(guān)的時(shí)候,我們采取的純統(tǒng)計(jì)學(xué)方法在應(yīng)用于音頻信號(hào)的時(shí)候可能會(huì)有些不足。因?yàn)閷?duì)于高頻頻帶,有時(shí)候在數(shù)字上并不是很相近,可能仍然會(huì)存在一定的相關(guān)性。如何更精確地判斷頻帶關(guān)系也是我們?nèi)蘸笈Φ姆较颉?/p>
針對(duì)AVS-P10帶寬擴(kuò)展模塊在進(jìn)行高頻重建時(shí),機(jī)械地根據(jù)子帶順序選擇準(zhǔn)高頻頻帶用于高頻重建,無(wú)法保證相關(guān)性最好的頻帶得到匹配。本文提出了一種基于相關(guān)系數(shù)優(yōu)化的AVS-P10帶寬擴(kuò)展優(yōu)化方案,通過(guò)皮爾遜系數(shù)衡量子帶之間的相關(guān)程度,選取與原始高頻信號(hào)相關(guān)性最高的準(zhǔn)高頻頻帶,并通過(guò)對(duì)最高相關(guān)系數(shù)數(shù)值的判斷,選擇用于高頻重建的頻帶??陀^實(shí)驗(yàn)結(jié)果表明,優(yōu)化后的編碼框架相比原方案提升了7.1%,主觀聽力實(shí)驗(yàn)表明,與原有的AVS-P10帶寬擴(kuò)展算法相比,該方法音頻信號(hào)的高頻重建效果也有一定的提高。
[1] Zhang X,Bao C,Liu X,et al.Audio bandwidth extension based on maximum Lyapunov prediction[C]//2011 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference,2011:1-4.
[2] 中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局.信息技術(shù) 先進(jìn)音視頻編碼(第10部分):移動(dòng)語(yǔ)音和音頻:GB/T 20090.10-2013[S].北京:中國(guó)標(biāo)準(zhǔn)出版社,2014.
[3] 胡瑞敏,艾浩軍,張勇.數(shù)字音頻壓縮技術(shù)和AVS音頻標(biāo)準(zhǔn)的研究[J].電視技術(shù),2005,29(7):21-23.
[4] Association of Radio Industries and Businesses.Audio codec processing functions;Extended adaptive multi-rate-wideband (AMR-WB+) codec;Transcoding functions:3GPP TS 26.290[S].2012.
[5] Liu C M,Lee W C,Hsu H W.High frequency reconstruction by linear extrapolation:20080109215[P].2006-6-26.
[6] 鮑楓,劉鑫,賈懋珅,等.音頻帶寬擴(kuò)展技術(shù)分析與展望[J].電訊技術(shù),2011,51(2):122-126.
[7] 張興濤,鮑長(zhǎng)春,劉鑫,等.基于Volterra級(jí)數(shù)預(yù)測(cè)的音頻頻帶擴(kuò)展[J].電子學(xué)報(bào),2012,40(12):2501-2506.
[8] 李紅蕊,鮑長(zhǎng)春,劉鑫,等.基于分形的音頻頻帶盲擴(kuò)展方法[J].信號(hào)處理,2013,29(9):1127-1133.
[9] Association of Radio Industries and Businesses.Enhanced aacPlus general audio codec;Encoder specification SBR part:3GPP TS 26.404[S].2012.
[10] Neukam C,Nagel F,Schuller G,et al.A MDCT based harmonic spectral bandwidth extension method[C]//Acoustics,Speech and Signal Processing (ICASSP),2013 IEEE International Conference on.IEEE,2013:566-570.
[11]ZhanJ,ChooK,OhE.BandwidthextensionforChinaAVS-Mstandard[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2009IEEEInternationalConferenceon.IEEE,2009:4149-4152.
[12]JiangL,HuR,WangX,etal.AVS2speechandaudiocodingschemeforhighqualityatlowbitrates[C]//MultimediaandExpoWorkshops(ICMEW),2014IEEEInternationalConferenceon.IEEE,2014:1-6.
[13]JiangL,HuR,WangX,etal.Lowbitratesaudiobandwidthextensionusingadeepauto-encoder[C]//16thPacific-RimConferenceonMultimedia.SpringerInternationalPublishing,2015:528-537.
[14] 徐維超.相關(guān)系數(shù)研究綜述[J].廣東工業(yè)大學(xué)學(xué)報(bào),2012,29(3):12-17.
AN OPTIMIZED BANDWIDTH EXTENSION ALGORITHM OF AVS-P10 BASED ON CORRELATION COEFFICIENTS
Wen Bin1Yang Yuhong2Jiang Lin1,2
1(NationalEngineeringResearchCenterforMultimediaSoftware,ComputerSchool,WuhanUniversity,Wuhan430072,Hubei,China)2(SchoolofSoftware,EastChinaUniversityofTechnology,Nanchang330013,Jiangxi,China)
AVS-P10 is the first national standard of mobile audio encoding and decoding which is completely self-developed. An optimized bandwidth extension algorithm of AVS-P10 based on correlation coefficients is proposed to adapt the mobile communication environment and realize low bit rate, high quality audio transmission and reconstruction by analyzing AVS-P10 bandwidth extension module. The algorithm calculated the absolute value of Pearson coefficient between the original high-frequency band and the quasi high-frequency band to search the optimal sub-band selection. Then, it chose the most relevant quasi high-frequency band or white noise for the high frequency band reconstruction by determining whether the highest correlation is lower than the threshold value. Experiments show that the high-frequency audio signal reconstruction effect of this method has significantly improved, comparing with the original AVS-P10 bandwidth extension algorithm.
Mobile Audio AVS-P10 Bandwidth extension The most relevant sub-band selection Pearson coefficient
2016-01-07。國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(61231015);國(guó)家自然科學(xué)基金面上青年項(xiàng)目(61102127);國(guó)家高技術(shù)研究發(fā)展計(jì)劃項(xiàng)目(2015AA016306)。文彬,碩士,主研領(lǐng)域:音頻信號(hào)處理。楊玉紅,副教授。姜林,副教授。
TP37
A
10.3969/j.issn.1000-386x.2017.02.031