徐 輝,王曉東,王讓定,章聯(lián)軍
(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江 寧波315000)
隨著數(shù)字多媒體通信與傳輸技術(shù)的發(fā)展,視頻會(huì)議、遠(yuǎn)程教學(xué)、視頻點(diǎn)播等多媒體服務(wù)已經(jīng)廣泛應(yīng)用于生活的各個(gè)方面。然而在網(wǎng)絡(luò)傳輸過程中會(huì)受到復(fù)雜網(wǎng)絡(luò)壞境的干擾,如網(wǎng)絡(luò)延時(shí)、抖動(dòng)等因素[1],導(dǎo)致多媒體出現(xiàn)不同步的現(xiàn)象,而音視頻同步作為其中的一個(gè)關(guān)鍵性技術(shù)越來越多地受到人們的關(guān)注。
為了解決音視頻同步問題,傳統(tǒng)的非嵌入式音視頻同步方案有基于時(shí)間戳[2]和同步標(biāo)記[3]來實(shí)現(xiàn)的;也有借助多線程和多路復(fù)用思想[4],在接收端把音視頻流分開,但復(fù)用后的音視頻流解碼會(huì)使得音視頻流的質(zhì)量嚴(yán)重下降。國際上,針對視頻會(huì)議和可視電話等應(yīng)用中的同步問題,相關(guān)學(xué)者提出了包括語音輔助視頻插補(bǔ)[5]、交叉模式預(yù)測編碼[5]及同步視頻幀自動(dòng)生成[6-7]等方法,該類算法中人的嘴部定位較難,且需要人參與。
以上非嵌入式的音視頻同步方案對解碼器要求較高,且算法復(fù)雜度較高。針對這個(gè)問題,近年來有很多學(xué)者借鑒基于H.264的信息隱藏和視頻水印的思想,將音頻信息嵌入視頻中進(jìn)行同步編碼,在解碼端提取音頻編碼數(shù)據(jù)并重構(gòu)音頻,最終實(shí)現(xiàn)同步。如文獻(xiàn)[8-9]通過修改離散余弦變換(Discrete Cosine Transform,DCT)系數(shù)建立待嵌音頻信息與DCT系數(shù)之間的映射關(guān)系,但該類方案會(huì)因系數(shù)的修改而造成視頻碼率失真較大。為此,文獻(xiàn)[10]在H.264運(yùn)動(dòng)估計(jì)的過程中通過調(diào)制1/4像素精度的最優(yōu)運(yùn)動(dòng)搜索點(diǎn)的奇偶性建立相應(yīng)匹配關(guān)系,降低了對視頻質(zhì)量的影響,但同時(shí)會(huì)引起幀間失真漂移。文獻(xiàn)[11]通過修改CAVLC(Context Adaptive Variable Length Coding)熵編碼高頻拖尾系數(shù)和非零系數(shù)將音頻嵌入其中。該方法可以保持碼率穩(wěn)定,但仍會(huì)因誤差累計(jì)而造成視頻質(zhì)量下降,導(dǎo)致音頻信息無法正確提取。為避免對視頻質(zhì)量造成較大影響,文獻(xiàn)[12]提出基于幀間預(yù)測模式嵌入音頻的算法,但該算法嵌入數(shù)據(jù)容量較小,每個(gè)宏塊只有2bit。在文獻(xiàn)[12]的基礎(chǔ)上,文獻(xiàn)[13]提出一種可變尺寸塊嵌入音頻編碼數(shù)據(jù)的方法,平均每個(gè)宏塊嵌入2.67bit數(shù)據(jù)量,提升了嵌入容量,也保證了音頻數(shù)據(jù)的準(zhǔn)確性。
基于上述分析,目前絕大部分嵌入式音視頻同步算法都是基于MPEG-x和H.26x的,但隨著人們對高清、超高清視頻需求的增加,H.264/AVC標(biāo)準(zhǔn)已無法得到滿意的壓縮性能,其對高清以及超高清視頻的音視頻同步處理效果不佳。HEVC作為最新一代應(yīng)用于高清、超高清視頻并具有更高編碼性能的視頻壓縮編碼標(biāo)準(zhǔn)正變得越來越流行[14],旨在H.264/AVC的基礎(chǔ)上提高編碼效率,并在節(jié)省碼率方面具有顯著優(yōu)勢[15]。因此,基于HEVC的音視頻同步算法的研究具有理論價(jià)值和現(xiàn)實(shí)意義。然而,目前基于HEVC的音視頻同步算法研究尚處于起步階段。
本文結(jié)合HEVC幀內(nèi)編碼技術(shù),針對上述方法和標(biāo)準(zhǔn)應(yīng)用的局限性,通過分析幀內(nèi)預(yù)測模式的相關(guān)性,引入可變長編碼的思想,建立預(yù)測模式和音頻碼組之間的雙映射關(guān)系,根據(jù)匹配關(guān)系修改幀內(nèi)預(yù)測模式來嵌入音頻信息。在解碼端,只需根據(jù)解碼得到預(yù)測模式,對照映射關(guān)系,提取音頻信息即可。
HEVC與上一代編碼標(biāo)準(zhǔn)H.264/AVC的編碼框架相似,但不同的是幀內(nèi)編碼采用了基于四叉樹結(jié)構(gòu)的編碼技術(shù)和多角度預(yù)測技術(shù)[16]。與H.264/AVC不同的是HEVC使用編碼單元(CU)、預(yù)測單元(PU)和變化單元(TU)3種更靈活的編碼元素來描述整個(gè)編碼過程。CU是每一幀視頻編碼的基本單元,CU的尺寸按四叉樹遞歸的方式,根據(jù)深度的不同可以分為64×64,32×32,16×16,8×8。每個(gè)深度的CU中,多個(gè)尺寸的PU進(jìn)行預(yù)測,而PU又包含多個(gè)尺寸的TU。如圖1所示,一個(gè)視頻幀首先被劃分為64×64的非重疊的編碼樹單元CU,然后通過遞歸分解的方式,依次將CU劃分為4種不同深度的CU,例如當(dāng)CU的深度depth為n(n=0,1,2,3),且劃分標(biāo)志位flag為1時(shí),則將其劃分為4個(gè)尺寸為原CU四分之一大小的CU塊,此時(shí)深度值depth為n+1。直到CU的尺寸為8×8,深度depth為3時(shí),其預(yù)測單元PU的尺寸可以繼續(xù)劃分為4個(gè)尺寸為4×4的預(yù)測塊。
圖1 LCU四叉樹劃分過程
和H.264/AVC幀內(nèi)預(yù)測原理類似,HEVC利用像素點(diǎn)在空間上的相關(guān)性,當(dāng)前塊的像素值通過相鄰已編碼并重建塊的邊界像素值進(jìn)行預(yù)測。但與H.264/AVC幀內(nèi)預(yù)測不同的是,如圖2所示,HEVC在相鄰方向預(yù)測模式的角度差減小的基礎(chǔ)上將方向提升到35種。
圖2 HEVC的35種預(yù)測模式
更為細(xì)小的角度劃分,使得幀內(nèi)預(yù)測更加精準(zhǔn)[17],為了從35種預(yù)測模式中,有效選擇最優(yōu)預(yù)測模式,HEVC采用了基于率失真優(yōu)化(Rate Distortion Optimization,RDO)準(zhǔn)則,遍歷所有編碼預(yù)測模式,通過Lagrangian函數(shù)選擇出率失真代價(jià)最小的模式作為最佳預(yù)測模式,代價(jià)函數(shù)定義如下[14]:
其中,QP為量化參數(shù);D為失真度;λMODE為拉格朗日乘數(shù);S為源視頻塊;C為重建視頻塊;R為編碼碼率。
本文算法通過調(diào)制滿足雙映射關(guān)系的幀內(nèi)4×4亮度塊的最優(yōu)預(yù)測模式進(jìn)行音頻信息嵌入、提取和重構(gòu)。在分析預(yù)測模式相關(guān)性的基礎(chǔ)上,對預(yù)測模式進(jìn)行分組,根據(jù)讀取的變長音頻碼組的長度,選擇對應(yīng)的映射關(guān)系,通過調(diào)制預(yù)測模式組中滿足嵌入條件的4×4亮度塊的預(yù)測模式,實(shí)現(xiàn)音頻信息的嵌入。音頻信息的提取只需根據(jù)雙映射關(guān)系對碼流中的預(yù)測模式解碼即可。
文獻(xiàn)[18]在分析幀內(nèi)預(yù)測模式方向特性時(shí)指出,H.264幀內(nèi)預(yù)測時(shí),相鄰方向預(yù)測模式之間具有很強(qiáng)的相關(guān)性,最優(yōu)預(yù)測模式與次優(yōu)預(yù)測模式之間有類似的預(yù)測方向。HEVC相比H.264幀內(nèi)預(yù)測,其將預(yù)測模式擴(kuò)展到35種,相鄰方向角度差相應(yīng)也縮小了,因而基于空間相關(guān)性的原理,相鄰方向預(yù)測模式的差異性不會(huì)很大。基于此分析,文獻(xiàn)[19]通過實(shí)驗(yàn)測試得出:同組候選預(yù)測模式具有彼此方向相鄰的特點(diǎn),對于planar模式和DC模式,如果當(dāng)前預(yù)測單元沒有明顯的方向性,由于其均勻平滑的特性,則此2種非方向性的模式很可能成為最優(yōu)模式。因此,文獻(xiàn)[20]在文獻(xiàn)[19]論證幀內(nèi)預(yù)測模式具有相關(guān)性的基礎(chǔ)上,當(dāng)最優(yōu)預(yù)測模式Best_M(jìn)i(i=0,1,…,34)確定的情況下,統(tǒng)計(jì)次優(yōu)預(yù)測模式Sub_opt_M(jìn)i(i=0,1,…,34)的概率分布,進(jìn)而指導(dǎo)預(yù)測模式的分組。
本文算法利用文獻(xiàn)[20]統(tǒng)計(jì)分析的思想,從HEVC標(biāo)準(zhǔn)視頻庫中選取BasketballDrive,Cactus,PeopleOnStreet等9個(gè)分辨率從1 920×1 080像素到2 500×1 600像素的高清視頻序列,分別統(tǒng)計(jì)各視頻序列在幀內(nèi)預(yù)測過程中,最優(yōu)預(yù)測模式確定后,其次優(yōu)預(yù)測模式的平均分布情況。表1所示的是測試60幀時(shí)部分預(yù)測模式的前4個(gè)次優(yōu)預(yù)測模式的分布情況。
表1 次優(yōu)模式分布
從表1中可以看出,相鄰方向預(yù)測模式成為次最優(yōu)預(yù)測模式的可能性很高。如最優(yōu)預(yù)測模式為5時(shí),次最優(yōu)預(yù)測模式往往是與其相鄰的模式6或者模式7。
本文提出的基于HEVC的幀內(nèi)音視頻同步算法,根據(jù)音頻信息與預(yù)測模式之間的映射關(guān)系,通過修改幀內(nèi)預(yù)測模式來實(shí)現(xiàn)音頻的嵌入。為使預(yù)測模式修改后的視頻質(zhì)量接近原始視頻的質(zhì)量,同時(shí)能實(shí)現(xiàn)較大容量的音頻信息嵌入,本文根據(jù)相鄰預(yù)測模式相關(guān)性分析結(jié)果,在最優(yōu)預(yù)測模式確定的前提下,將具有相近預(yù)測效果的4個(gè)預(yù)測模式分為1組。
在預(yù)測模式劃分的過程中,考慮到部分次優(yōu)預(yù)測模式分布不均以及預(yù)測模式之間重疊程度不同,本文將次優(yōu)預(yù)測模式出現(xiàn)概率在50%以上的4個(gè)模式(Sub_opt_M(jìn)0,Sub_opt_M(jìn)1,Sub_opt_M(jìn)2,Sub_opt_M(jìn)3)與當(dāng)前最優(yōu)預(yù)測模式Best_M(jìn)i構(gòu)成一個(gè)集合Si(i=0,1,…,34),對應(yīng)幀內(nèi)的35種預(yù)測模式會(huì)形成35個(gè)集合。根據(jù)集合的運(yùn)算規(guī)則,任意4個(gè)集合之間進(jìn)行相與得到共同元素,依此原則,當(dāng)預(yù)測模式組中的預(yù)測模式達(dá)到4個(gè)時(shí),就將此4個(gè)具有相近預(yù)測效果的預(yù)測模式Ni(i=0,1,2,3)劃分為一個(gè)預(yù)測模式組Classi={N0,N1,N2,N3}(0<i<12)。如表2所示,根據(jù)預(yù)測模式的相關(guān)性將35種幀內(nèi)預(yù)測模式分為11個(gè)預(yù)測模式組。
表2 預(yù)測模式分組
針對每個(gè)預(yù)測模式組中4個(gè)具有相近預(yù)測效果的預(yù)測模式,建立其與待嵌音頻之間的匹配關(guān)系。如果模式組中的每個(gè)預(yù)測模式表示2 bit的信息數(shù)據(jù),分別是00,01,10,11,則不能滿足較大容量的音頻信息的嵌入;如果每個(gè)預(yù)測模式表示3 bit的信息數(shù)據(jù),將相鄰3 bit信息分為1組,共有000,001,010,011,100,101,110,111這8種組合,這樣只能從8種組合中選取4種,如此會(huì)導(dǎo)致音頻信息無法完整、正確地被嵌入并提取。針對這種等長信息分組不具備普遍適應(yīng)性的缺陷,文獻(xiàn)[13]引入可變碼長的概念,針對H.264幀間7種預(yù)測模式,將音頻信息分為若干2 bit和3 bit的分組,實(shí)現(xiàn)音視頻同步。該變長分組的算法保證了音頻信息的完整性和正確性,并且可以實(shí)現(xiàn)較大容量的嵌入。受文獻(xiàn)[13]的啟發(fā),本文對exp-Golomb編碼K值進(jìn)行修改,根據(jù)讀取音頻信息長度為2或3,分別將K值修改為4或8,其具體變長算法修改如下:
其中,Ni表示預(yù)測模式編號(hào),令Ni=i(i=0,1,2,3);Len為信息組長度;Info為嵌入信息十進(jìn)制數(shù)值;Fool(.)為向下取整函數(shù);flag為標(biāo)識(shí)位,用于標(biāo)識(shí)讀取信息長度。
在編碼過程中,讀入二進(jìn)制音頻信息,然后將信息分為若干2 bit和3 bit的變長分組,考慮到每個(gè)預(yù)測模式組中有4個(gè)預(yù)測效果相近的預(yù)測模式,為保證嵌入信息的完整性和正確性,建立如圖3所示碼字的雙映射關(guān)系,每個(gè)2 bit信息組和3 bit信息組均包含4個(gè)元素。其中,2 bit信息分組為:Fi={00,01,10,11};3 bit信息分組為:Mi={000,001,010,011}。當(dāng)讀入信息長度為2時(shí),flag標(biāo)志位置0,進(jìn)行Fi→Ni;當(dāng)讀入信息長度為3時(shí),flag標(biāo)志位從0置1,進(jìn)行Mi→Ni映射。
圖3 預(yù)測模式與音頻碼組雙映射關(guān)系
根據(jù)式(2)、式(3)可得到如圖3的預(yù)測模式映射關(guān)系,如當(dāng)flag=0時(shí),Len=2,最優(yōu)預(yù)測模式所在模式分組的模式編號(hào)Ni=2時(shí),由式(2)得出Info=2,其他映射關(guān)系也根據(jù)式(2)或式(3)求得。
3.4.1 音頻信息讀取
本文在幀內(nèi)預(yù)測過程中選擇紋理比較復(fù)雜的4×4塊嵌入音頻數(shù)據(jù)。將經(jīng)過G.729編碼壓縮后的音頻數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制數(shù)值,每次根據(jù)標(biāo)志位的變換讀取2bit或3bit數(shù)據(jù)。二進(jìn)制音頻數(shù)據(jù)Fi(Mi)表示為(Fi)2或(Mi)2,嵌入音頻數(shù)據(jù)的十進(jìn)制記為:(Info)10。數(shù)據(jù)分組及映射模式組如圖4所示。
圖4 數(shù)據(jù)分組及其映射模式組
讀取音頻信息的流程可分為3步:
Step1讀取3bit音頻信息,標(biāo)志位flag=1,如果讀取音頻數(shù)據(jù)(Info)10>(011)10,標(biāo)志位flag=0,并進(jìn)入Step2;否則,根據(jù)Len=3和(Info)10值求得Ni,進(jìn)行Mi→Ni映射,根據(jù)表2得到相應(yīng)的預(yù)測模式,然后進(jìn)入Step3。
Step2flag=0,讀入2bit音頻信息,根據(jù)Len=2和(Info)10求得Ni,進(jìn)行Fi→Ni,根據(jù)表2得到相應(yīng)的預(yù)測模式,并輸出標(biāo)志flag=0,然后進(jìn)入Step3。
Step3讀取位置向前移動(dòng)Len個(gè)位置,重復(fù)Step1的操作。
讀取到音頻數(shù)據(jù)末尾時(shí),如果余下單比特?cái)?shù)據(jù),根據(jù)預(yù)測模式的奇偶對應(yīng)關(guān)系進(jìn)行映射。當(dāng)結(jié)尾數(shù)據(jù)為0時(shí),預(yù)測模式Ni為偶模式,則直接嵌入;否則,預(yù)測模式Ni為奇,則選取預(yù)測模式組Classi中為偶的次優(yōu)預(yù)測模式Nj替換,然后對替換后的預(yù)測模式進(jìn)行重編碼。
3.4.2 音頻嵌入過程
本文提出的算法旨在根據(jù)幀內(nèi)預(yù)測模式的相關(guān)性建立預(yù)測模式組和音頻信息之間的雙映射關(guān)系,實(shí)現(xiàn)音頻信息的嵌入。根據(jù)音頻信息可變長分組及其讀取規(guī)則,音頻信息嵌入的整個(gè)流程如圖5所示。
圖5 音視頻同步編碼過程
具體步驟如下所述:
Step1將經(jīng)過G.729語音編碼標(biāo)準(zhǔn)壓縮編碼的音頻信號(hào)轉(zhuǎn)化為二進(jìn)制數(shù)值A(chǔ)ui;
Step2判斷當(dāng)前編碼塊是否為4×4塊,如果滿足則進(jìn)行音頻信息嵌入,進(jìn)入Step3,否則進(jìn)入Step6;
Step3利用率失真優(yōu)化函數(shù)計(jì)算出4×4塊的最優(yōu)預(yù)測模式(Best_M(jìn)i),根據(jù)表2得到次優(yōu)預(yù)測模式組Classi={N0,N1,N2,N3};
Step4依次讀取音頻信息Au[i],根據(jù)音頻信息和預(yù)測模式之間的映射規(guī)則,嵌入音頻信息。如果當(dāng)前音頻信息和最優(yōu)預(yù)測模式Best_M(jìn)i匹配,則不對預(yù)測模式進(jìn)行修改;否則,用預(yù)測模式組Classi中滿足圖3映射關(guān)系的次優(yōu)預(yù)測模式Nj代換當(dāng)前最優(yōu)預(yù)測模式Best_M(jìn)i,并對替代后的預(yù)測模式進(jìn)行重編碼,同時(shí)將標(biāo)志位flag的值傳給解碼端;
Step5將調(diào)制后的4個(gè)連續(xù)的幀內(nèi)4×4塊的率失真代價(jià)值總和J(CU4)與包含該4個(gè)幀內(nèi)4×4塊的8×8塊的率失真代價(jià)值J(CU3)進(jìn)行比較,如果J(CU4)<J(CU3),則嵌入該音頻信息并保留,否則不嵌入,并進(jìn)入Step6;
Step6讀取下一個(gè)幀內(nèi)4×4塊亮度塊,并重復(fù)以上操作,當(dāng)讀取音頻信息至結(jié)尾處剩下單比特?cái)?shù)據(jù)時(shí),則根據(jù)結(jié)尾數(shù)據(jù)奇偶映射規(guī)則,嵌入音頻信息,此時(shí)音頻信息全部嵌入完畢。
在解碼端進(jìn)行音頻數(shù)據(jù)提取只需對幀內(nèi)預(yù)測模式進(jìn)行解碼即可,具體步驟如下:
Step1判斷當(dāng)前塊是否為4×4塊,如果是,則解碼當(dāng)前塊,否則轉(zhuǎn)到Step3;
Step2讀取當(dāng)前4×4塊的預(yù)測模式,結(jié)合標(biāo)志位flag值,對照表2,根據(jù)編碼模式和嵌入信息的雙映射關(guān)系,提取出嵌入二進(jìn)制信息組AujAuj+1或者AujAuj+1Auj+2;
Step3讀取下一個(gè)4×4塊,重復(fù)上述步驟,當(dāng)結(jié)尾剩下數(shù)據(jù)為單比特?cái)?shù)據(jù)時(shí),則根據(jù)結(jié)尾數(shù)據(jù)奇偶映射規(guī)則提取Aun,此時(shí)所有音頻信息全部被提取,然后再通過G.729音頻編碼標(biāo)準(zhǔn)將所提取的音頻信號(hào)進(jìn)行解碼重構(gòu)。
本文基于HM12.0參考軟件對所提出的音視頻同步算法的性能進(jìn)行了評估,實(shí)驗(yàn)選取了分辨率為ClassA到ClassB共7組高清視頻序列(BasketballDrive,BQTerrace,Cactus,Kimono,ParkScene,PeopleOnStreet,Traffic)進(jìn)行了實(shí)驗(yàn)測試。HM12.0的基本配置參數(shù)設(shè)置如表3所示,其余參數(shù)均為默認(rèn)值。嵌入的音頻信號(hào)采用8kHz/s,16bit單聲道PCM格式信號(hào),經(jīng)過G.729標(biāo)準(zhǔn)壓縮后的碼率是16Kb/s。
表3 測試平臺(tái)HM12.0主要參數(shù)配置
本文算法通過修改幀內(nèi)預(yù)測模式,用具有相近預(yù)測效果的預(yù)測模式代替最優(yōu)預(yù)測模式,并且重新編碼經(jīng)調(diào)制后的次優(yōu)預(yù)測模式,故本文算法不會(huì)對視頻質(zhì)量產(chǎn)生較明顯的影響。圖6為測試序列BQTerrace,Cactus和ParkScene在音頻信息嵌入前后的第5幀圖像,圖6(a)為原始視頻圖像,圖6(b)為未嵌入音頻重構(gòu)視頻圖像,圖6(c)為嵌入音頻重構(gòu)視頻圖像。從主觀上觀察,嵌入音頻信息前后的視頻圖像之間差別很小,說明同步后視頻無明顯失真。
圖6 視頻圖像質(zhì)量對比
除了上述主觀質(zhì)量分析外,本文還從編碼視頻的峰值信噪比(Peak Signal to Noise Ratio,PSNR)、比特率變化(Bit Rate Interval,BRI)、嵌入開銷(Oe)[11]、結(jié)構(gòu)相似度(Structural Similarity,SSIM)[21]4個(gè)方面對同步算法進(jìn)行評估。
嵌入音頻后帶來的開銷Oe表示為:
嵌入音頻后的視頻比特率變化為:
在式(4)中,Ov為視頻單獨(dú)壓縮數(shù)據(jù)量;He為音視頻同步編碼數(shù)據(jù)量;Ae為G.729單獨(dú)壓縮數(shù)據(jù)據(jù)量;在式(5)中,R和R′分別為同步前后的視頻比特率。
視頻序列的測試結(jié)果如表4所示,分別給出了QP=28時(shí)7個(gè)視頻序列Oe,PSNR和BRI的值在同步前后的變化情況。圖7給出了Cactus序列同步前后30幀的PSNR對比結(jié)果。圖8給出了視頻序列Traffic,Kimono和PeopleOnStreet在QP分別為20,24,28,32,36時(shí)同步前后率失真變化曲線。
表4 本文算法實(shí)驗(yàn)測試結(jié)果
同步算法具體性能分析如下:
(1)從表4可以看出,對于所測試的序列,同步編碼視頻與單獨(dú)編碼視頻的PSNR值相比差別很小,PSNR下降的最大值只有0.013 3 dB,不足0.05 dB。圖7所示同步前后Cactus序列30幀的PSNR變化較小,沒有大的波動(dòng),2條曲線基本重合,由此可見對視頻質(zhì)量影響較小,人眼不易察覺這種細(xì)微改變。而PSNR下降較多的視頻序列分別為Cactus和Traffic序列,說明對于運(yùn)動(dòng)較為劇烈的視頻序列,同步算法引起的PSNR下降較為明顯,而對于運(yùn)動(dòng)相對平緩的序列如Kimono,其PSNR會(huì)表現(xiàn)平穩(wěn)一些。
(2)圖 8 分 別 是 Traffic,BasketballDrive 和PeopleOnStreet序列,在 QP分別為16,20,24,28,32時(shí)情況下同步前后的率失真變化曲線。從圖中曲線可以看出,同步后比特率有所上升,但幅度不大,說明同步后比特率的增加表現(xiàn)較為平穩(wěn),處于可接受范圍。從表4也可以看出,音頻信息的嵌入并未對視頻的比特率產(chǎn)生很大影響,增加率主要集中在1.091 3%~1.571 6%,碼率變化控制在2%以內(nèi)。分析可能的原因是對4×4塊編碼模式進(jìn)行調(diào)制后,編碼模式用次優(yōu)預(yù)測模式代替最優(yōu)預(yù)測模式,重編碼后的非最優(yōu)匹配導(dǎo)致比特率有一定的增加。
(3)考慮對嵌入開銷的影響,從表2可以看出,同步算法的嵌入開銷主要集中在0.9%~1.3%這個(gè)區(qū)間,最小只有0.913 1,對于這樣小嵌入開銷可以滿足音視頻同步的應(yīng)用。同時(shí)可以發(fā)現(xiàn)本文同步算法的嵌入開銷有部分序列為負(fù)值,也就是說部分序列同步編碼后的數(shù)據(jù)量少于音視頻各自單獨(dú)編碼的數(shù)據(jù)量,說明所提算法真正達(dá)到了音視頻同步壓縮的目的。
基于上文的分析,雖然同步后的視頻質(zhì)量變化細(xì)微,為進(jìn)一步說明嵌入音頻后未對視頻的相對質(zhì)量產(chǎn)生較大影響,本文引入SSIM評價(jià)指標(biāo)。SSIM是基于人眼視覺模型的視頻客觀質(zhì)量評價(jià)標(biāo)準(zhǔn),其值在0~1之間,越接近1,原圖像的失真越小。如圖9所示,測試的同步重構(gòu)視頻的SSIM值都在0.96以上,說明視頻感知質(zhì)量并未因音頻信息的嵌入而下降很大。
圖9 SSIM感知視頻質(zhì)量測試結(jié)果
新一代高校視頻編碼標(biāo)準(zhǔn)HEVC相對于H.264/AVC標(biāo)準(zhǔn)在編碼結(jié)構(gòu)尤其是幀內(nèi)編碼結(jié)構(gòu)、預(yù)測模式等方面進(jìn)行了完全不同的設(shè)計(jì)和改進(jìn),應(yīng)用對象也有所不同,且基于HEVC的嵌入式音視頻同步算法目前還很缺乏,本文所提同步算法無法與基于H.264/AVC的音視頻同步算法直接進(jìn)行對比。故本文未給出相應(yīng)的對比實(shí)驗(yàn)。
對于音視頻同步系統(tǒng)來說,人們對于音頻質(zhì)量的要求要高于視頻,因?yàn)槿硕鷮τ诼曇舻拈g斷比較敏感,對視頻的要求就沒有音頻那么嚴(yán)格。本文提出的音視頻同步算法保證了所提取音頻信息的完整性和正確性。圖10(a)是原始音頻時(shí)域波形圖,圖10(b)是同步編碼重構(gòu)的音頻時(shí)域波形圖,圖10(c)是G.729單獨(dú)編碼的音頻時(shí)域波形圖。對比圖10(b)和圖10(c),可以發(fā)現(xiàn)同步算法較好地保護(hù)了音頻質(zhì)量,在傳輸和同步過程中重構(gòu)音頻的質(zhì)量并未下降,其失真主要是因?yàn)橐纛l的有損壓縮造成的。
圖10 時(shí)域波形圖
針對高清視頻序列,本文提出了一種在幀內(nèi)編碼過程中利用預(yù)測模式分組和可變長編碼嵌入音頻的HEVC音視頻同步方法。將幀內(nèi)預(yù)測模式進(jìn)行分組,根據(jù)讀取音頻信息長度為2或3,分別對exp-Golomb編碼算法的K值進(jìn)行修改,通過音頻信息長度標(biāo)志位的變換,調(diào)制預(yù)測模式組和音頻碼組的映射關(guān)系,從而實(shí)現(xiàn)音頻信息的嵌入,最后對混合音視頻進(jìn)行同步編碼傳輸。實(shí)驗(yàn)結(jié)果表明,所提算法在實(shí)現(xiàn)較大音頻信息量嵌入的同時(shí),PSNR下降在0.05以內(nèi),嵌入開銷和編碼比特率增長不足2%,平均SSIM值下降0.02左右,保證了音視頻的主客觀質(zhì)量,能夠較好地應(yīng)用到高清、超高清視頻序列的信息隱藏、視頻水印等相關(guān)領(lǐng)域中。但本文算法也存在不足,算法的計(jì)算復(fù)雜度較高,同時(shí)對于運(yùn)動(dòng)較為劇烈的視頻,編碼比特率增長過快。因此,下一步工作將對如何有效避免比特率的過快增長,并取得較低的計(jì)算復(fù)雜度進(jìn)行研究。
[1]時(shí)美強(qiáng),李 冰,熊 軍,等.基于 H.264/AVC的音視頻同步壓縮方法[J].電視技術(shù),2009,33(10):15-17.
[2]El-Helaly M,Amer A.Synchronization of Processed Audio-video Signals Using Time-stamps [C ]//Proceed-ings of International Conference on Image Processing.Washington D.C.,USA:IEEE Press,2007:193-196.
[3]Shepherd D,Salmony M.Extending OSI to Support Synchronization Required by Multimedia Applications[J].Computer Communication,1990,13(7):399-406.
[4]陳 勇,王林強(qiáng),曹玉保.一種多線程的音視頻同步控制方法及系統(tǒng)[J].中國集成電路,2012,(7):75-77.
[5]Chen T,Graf H P,Wang K.Lip Synchronization Using Speech-assisted Video Processing[J].IEEE Signal Process-ing Letters,1995,2(4):57-59.
[6]Cosatto E,Potamianos G,Graf H P.Audio-visual Unit Selection for the Synthesis of Photo-realistic Talkingheads[C]//Proceedings of IEEE International Conference on Multimedia and Expo.Washington D.C.,USA:IEEE Press,2000:619-622.
[7]Melek Z,Akarun L.Automated Lip Synchronized Speech Driven Facial Animation[C]//Proceedings of International Conference on Multimedia and Expo.Washington D.C.,USA:IEEE Press,2000:623-626.
[8]Qi Lifeng, Chen Hexin, Zhao Yan. New Synchronization Scheme Between Audio and Video[C]//Proceedings of the 8th International Conference on Software Engineer-ing,Artificial Intelligence,Networking,and Parallel/ Distributed Computing.Washington D.C.,USA:IEEE Press,2007:26-29.
[9]李曉妮.面向H.264的嵌入式音視頻同步編碼技術(shù)研究[D].長春:吉林大學(xué),2012.
[10]李曉妮,陳賀新,陳綿書.基于H.264運(yùn)動(dòng)估計(jì)的音視頻同步編碼技術(shù)[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2012,42(5):1321-1326.
[11]Qi Xiaoyin,Chen Mianshu,Chen Hexin.A CAVLC Embedded Method for Audio-video Synchronization Coding Based on H.264 [C]//Proceedings of International Conference on Multimedia Technology.Washington D.C.,USA:IEEE Press,2011:16-19.
[12]李曉妮,陳賀新,孫 元,等.基于 H.264的嵌入式音視頻同步編碼技術(shù)[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2011,41(5):1475-1479.
[13]曾 碧,林健浩,肖 紅,等.基于可變碼長的音視頻同步編碼改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1467-1472.
[14]Sullivan G J,Ohm J,Han Woo-Jan,et al.Overview of the High Efficiency Video Coding(HEVC)Standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1649-1668.
[15]王家驥,王讓定,李 偉,等.一種基于幀內(nèi)預(yù)測模式的HEVC視頻信息隱藏算法[J].光電子·激光,2014,(8):1578-1585.
[16]Pourazad M T,Doutre C,Azimi M,et al.HEVC:The New Gold Standard for Video Compression:How Does HEVC Compare with H.264/AVC [J].IEEE Consumer Electronics Magazine,2012,1(3):36-46.
[17]Kim I K,Min J,Lee T,et al.Block Partitioning Structure in the HEVC Standard [J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(12):1697-1706.
[18]Meng Bojun,Au B.Fast Intra-prediction Mode Selection for 4ABlocks in H.264[C]//Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,2003:389-392.
[19]Yan Shunqing,Hong Liang,He Weifeng,et al.Groupbased Fast Mode Decision Algorithm for Intra Prediction in HEVC [C]//Proceedings of IEEE International Con-ference on Signal Image Technology and Internet Based Systems.Washington D.C.,USA:IEEE Press,2012:225-229.
[20]王家驥,王讓定,李 偉,等.HEVC幀內(nèi)預(yù)測模式和分組碼的視頻信息隱藏[J].光電子·激光,2015,(5):942-950.
[21]Wang Zhou,Bovik A C,Sheikh H R,et al.Image Quality Assessment:From Error Visibility to Structural Similarity[J].IEEE Transactions on Image Processing,2004,13(4):600-612.