福州職業(yè)技術(shù)學(xué)院嚴(yán) 明
?
基于小波變換在自然場(chǎng)景視頻編碼中的應(yīng)用
福州職業(yè)技術(shù)學(xué)院
嚴(yán) 明
[摘要]自然場(chǎng)景視頻的紋理編碼是視頻壓縮應(yīng)用的一個(gè)重要環(huán)節(jié)。該文在分析了國(guó)際視頻編碼標(biāo)準(zhǔn)MPEG-4中對(duì)自然場(chǎng)景這一類視頻圖像所采用的編碼結(jié)構(gòu)基礎(chǔ)上,提出了利用小波技術(shù)的多層分解特性實(shí)現(xiàn)對(duì)單視頻對(duì)象自然場(chǎng)景視頻圖像靜態(tài)紋理的有效編碼。實(shí)驗(yàn)結(jié)果表明,它可以獲得較高的壓縮比。
[關(guān)鍵詞]自然場(chǎng)景 MPEG-4 小波
自從小波技術(shù)在靜態(tài)圖像編碼中顯示了其特有的優(yōu)勢(shì)后,現(xiàn)在它已經(jīng)逐步滲入到數(shù)字視頻圖像壓縮領(lǐng)域中。目前已經(jīng)有多種采用小波的視頻壓縮技術(shù)方案在探討研究中。本文主要討論小波技術(shù)與國(guó)際視頻壓縮標(biāo)準(zhǔn)MPEG-4相結(jié)合運(yùn)用于視頻壓縮,重點(diǎn)研究了在自然場(chǎng)景視頻中的靜態(tài)紋理編碼中小波技術(shù)所表現(xiàn)的優(yōu)勢(shì)。
小波變換[1]最早是在20世紀(jì)初由Harr提出的。同傅立葉變換一樣,小波變換也是一種正交數(shù)學(xué)變換。但是,小波變換與傳統(tǒng)的傅立葉變換又是截然不同的,重點(diǎn)在于它突破了傅立葉分析的局限,在變換過(guò)程中,它同時(shí)對(duì)信號(hào)的空間位置區(qū)域信息和頻域信息進(jìn)行變換,采用了良好的分層分解的變換模式,對(duì)高頻成分采用逐步精細(xì)的時(shí)域取樣步長(zhǎng)(見圖1所示),可以聚焦到對(duì)象的任意細(xì)節(jié),從而被人們譽(yù)為“數(shù)學(xué)顯微鏡”。這些特性對(duì)于二維信號(hào)的分析和處理都是十分有利的。在圖像處理中,小波以兩類濾波器族的形式表現(xiàn),即低通濾波器族和高通濾波器族。因?yàn)閳D像是二維信號(hào),小波分解首先從水平方向進(jìn)行,然后再?gòu)拇怪狈较蛱幚?。一次完整小波變換后,圖像被分成4個(gè)不同的頻帶。小波變換用于圖像編碼的基本思想就是把圖像進(jìn)行多分辨率分解,分解成不同空間、不同頻率的子圖像,然后再對(duì)子圖像進(jìn)行系數(shù)編碼。對(duì)小波系數(shù)編碼是小波變換用于圖像數(shù)據(jù)壓縮的核心,壓縮的實(shí)質(zhì)就是對(duì)小波系數(shù)的量化壓縮。
圖1 小波變換的時(shí)頻分辨率特性
對(duì)小波系數(shù)如何進(jìn)行編碼是決定圖像壓縮比高低的關(guān)鍵。鑒于小波系數(shù)的多分辨率特性,目前最常用、也是最有效的就是零樹小波編碼[2]方法。零樹小波編碼方法是1993年由美國(guó)學(xué)者Shapiro首先提出的基于比特連續(xù)逼近的圖像編碼方法。圖像經(jīng)小波變換后,我們可以用樹狀結(jié)構(gòu)來(lái)表示小波系數(shù)。位于較低頻頻帶的小波系數(shù),它們?cè)谙乱粚拥母哳l頻帶上均擁有4個(gè)后代系數(shù),這便是零樹最初的基本思想。零樹小波編碼利用預(yù)掃描方法得到小波系數(shù)的空間位置信息,利用零樹的空間位置關(guān)系,小波系數(shù)的空間信息便能隨著零樹編碼一起編碼進(jìn)入比特流中。
利用零樹小波編碼方法編碼圖像,可以實(shí)現(xiàn)任意指定比特率編碼的壓縮。壓縮圖像通過(guò)有效的算法機(jī)制,并結(jié)合一些最優(yōu)化的方法。任意比特率壓縮的實(shí)現(xiàn)也就意味著圖像信息的部分損失,然而,零樹小波編碼也可以實(shí)現(xiàn)無(wú)損編碼,這樣就使得圖像的壓縮率有所降低。
MPEG-4[3-4]是MPEG標(biāo)準(zhǔn)家族中的一員,是國(guó)際標(biāo)準(zhǔn)化組織為多媒體通信提供的一種解決方案。MPEG-4標(biāo)準(zhǔn)的主要特性是對(duì)圖像中的內(nèi)容進(jìn)行編碼,其編碼的具體對(duì)象就是圖像中的音頻和視頻,稱為AV對(duì)象。由AV對(duì)象可以組成AV場(chǎng)景。因此,MPEG-4標(biāo)準(zhǔn)就是圍繞著AV對(duì)象的編碼、存儲(chǔ)、傳輸和組合而制定的。MPEG-4編碼對(duì)象的變化,引起了視頻編碼器結(jié)構(gòu)的變化。傳統(tǒng)的編碼器是將視頻信號(hào)編碼為25 frame/s 的PAL制或30 frame/s的 NTSC制,將音頻信號(hào)編碼為48 kbps,視頻碼信息流中只含有紋理信息(DCT系數(shù))和運(yùn)動(dòng)信息(運(yùn)動(dòng)矢量)兩種信息。對(duì)于MPEG-4視頻編碼器,除含以上兩種信息外,還含有形狀信息,這是采用形狀自適應(yīng)離散余弦變換對(duì)視頻對(duì)象以固有的分解力進(jìn)行形狀編碼的信息,以便支持任意形狀視頻對(duì)象的編碼。事實(shí)上,MPEG-4視頻編碼器支持基于視覺(jué)內(nèi)容的交互性及視覺(jué)對(duì)象形狀的編碼,具有強(qiáng)大的編碼靈活性,可對(duì)任何形狀的自然視覺(jué)對(duì)象進(jìn)行編碼。
為了保證視頻編碼的效率且能向下兼容,視頻對(duì)象通常利用其對(duì)應(yīng)的VOP以混合編碼的方式進(jìn)行編碼。這里的VOP (Video Object Plane)稱為視頻對(duì)象平面,是MPEG-4視頻編碼的核心概念。一般地,基于視頻對(duì)象的結(jié)構(gòu)具有許多特性,為了能處理基于像素的數(shù)字信號(hào)表達(dá)的數(shù)據(jù),一個(gè)視頻對(duì)象的紋理信息會(huì)以YUV的顏色空間進(jìn)行描述。同樣,視頻對(duì)象的形狀信息也是這樣進(jìn)行編碼的。我們把這種簡(jiǎn)單的從視頻對(duì)象到形狀信息和紋理信息的映射表達(dá)稱為視頻對(duì)象平面。
基于VOP的視頻編碼技術(shù)利用宏塊編碼的方法完成,其編碼基本結(jié)構(gòu)見圖2所示,這樣的編碼器結(jié)構(gòu)既能降低算法的復(fù)雜度,又能兼容其他標(biāo)準(zhǔn)的視頻編碼格式。
圖2 基于VOP的編碼結(jié)構(gòu)
一個(gè)VOP擁有兩種基本類型的信息:形狀信息和紋理信息?;赩OP的視頻編碼主要包括兩個(gè)基本的編碼方案——形狀編碼和紋理編碼。這里主要探討的是紋理編碼。編碼方法基本上仍采用基于像素塊的DCT方法。一個(gè)視頻平面的紋理信息可以表示為Y亮度和Cr、Cb兩個(gè)色度成分。在幀內(nèi)情況下,紋理信息直接包含有亮度和色度成分,在運(yùn)動(dòng)補(bǔ)償?shù)那闆r下,紋理信息表示經(jīng)運(yùn)動(dòng)補(bǔ)償后的殘差。紋理編碼的對(duì)象可以是幀內(nèi)編碼模式的,也可以是幀間編碼模式或運(yùn)動(dòng)補(bǔ)償后的預(yù)測(cè)誤差。
目前,MPEG-4在自然場(chǎng)景視頻編碼方面具有空間可縮放性和時(shí)域可縮放性。
自然場(chǎng)景視頻編碼[5-6]中十分重要的一個(gè)部分就是對(duì)任意形狀靜態(tài)視頻對(duì)象的紋理編碼,也包括那些映射至三維表面的紋理信息。這種視頻紋理的編碼稱為靜態(tài)紋理編碼模式,可利用離散小波變換有效地進(jìn)行編碼。小波變換在自然場(chǎng)景視頻編碼中有很多方面的應(yīng)用,例如P、B類型VOP的紋理編碼,I類型VOP的靜態(tài)紋理編碼等等。
靜態(tài)紋理編碼的主要問(wèn)題集中在編碼小波系數(shù)的數(shù)值和位置信息上。編碼可以有以下兩個(gè)步驟:第一步掃描處理系數(shù)的位置信息;第二步掃描則編碼系數(shù)。因?yàn)閴嚎s是有損的,所以絕大部分重要系數(shù)必須首先完成傳輸,而其他一些非重要的系數(shù)則延遲傳輸或者根本不傳輸。如果系數(shù)大于給定的量化閾值,那么它便是一個(gè)重要系數(shù)。量化系數(shù)和未量化系數(shù)間的差值稱為殘留子帶,重要系數(shù)的選擇和編碼通過(guò)殘留子帶的遞歸量化完成。在每一次遞歸中,選擇出重要系數(shù),且它們的位置信息和數(shù)值將通過(guò)算術(shù)編碼器完成編碼。DC頻段小波系數(shù)的處理方法與其他頻段的處理方法有所不同。這一頻段的小波系數(shù)運(yùn)用了預(yù)測(cè)方法進(jìn)行編碼,每個(gè)系數(shù)都可以由它左邊或上方的鄰近系數(shù)來(lái)預(yù)測(cè)得到。預(yù)測(cè)系數(shù)的選擇由鄰近的水平或豎直方向的梯度幅值來(lái)確定,如果水平方向的梯度值最小,那么就應(yīng)通過(guò)左邊鄰近的系數(shù)進(jìn)行預(yù)測(cè),否則就通過(guò)上方鄰近的系數(shù)進(jìn)行預(yù)測(cè)。預(yù)測(cè)后的系數(shù)經(jīng)量化后,利用算術(shù)編碼方法來(lái)編碼。DC頻段的小波系數(shù)編碼完成后,余下頻段的小波系數(shù)編碼采用了零樹編碼。I幀類型的靜態(tài)紋理小波編碼流程可用如圖3所示。
圖3 I幀類型的靜態(tài)紋理小波編碼流程
在確定了小波在自然場(chǎng)景視頻編碼中的應(yīng)用流程后,我們?cè)赩isual C++ 6.0平臺(tái)上進(jìn)行了算法仿真實(shí)驗(yàn)。實(shí)驗(yàn)中采用的是原始AVI格式的單視頻對(duì)象的自然場(chǎng)景視頻圖像,以4:2:0的采樣轉(zhuǎn)換為YUV格式的尺寸為QCIF的視頻圖像序列foreman.qcif以及CIF格式的brea.cif。
實(shí)驗(yàn)結(jié)果表明,對(duì)于foreman.qcif這種具有豐富內(nèi)容的視頻在壓縮比高達(dá)108.2:1的情況下,重建圖像的PSNR值仍可以保持在人眼視覺(jué)允許范圍內(nèi),圖4和圖5分別對(duì)應(yīng)了foreman.qcif原始第一幀和壓縮后重建的第一幀圖像。而背景相對(duì)單一的brea.cif,其壓縮比可以達(dá)到130.6:1。這樣的壓縮比完全適合在低帶寬條件下實(shí)時(shí)傳輸視頻數(shù)據(jù)。
圖4 foreman原始圖像
圖5 foreman重建圖像
參考文獻(xiàn):
[1] Z.Xiong,K.Ramchandran, M.T.Orchard.Space-frequency quantization for wavelet image coding. IEEE Trans.Image Processing, 1997, 6(5):677-693.
[2] Shapiro J M.Embedded image coding using zerotrees of wavelet coefficients[J]. IEEE Trans on Signal Processing,1993, SP_41(12):3445-3462.
[3] Rob Koenen. Overview of the MPEG-4 standard[OL]. ISO/IEC JTC1/SC29/ WG11 N2725. http://www.MPEG.org.
[4] Thomas Sikora. The MPEG-4 video standard verfication model[J]. IEEE Trans on CSVT,1997,7(1):19-31.
[5] Andre Kaup. Object-based texture coding of moving video in MPEG-4[J]. IEEE Trans on CSVT,1999,9(1):5-15.
[6] Touradj Ebrahimi. MPEG-4 nature video coding-anoverview[EB/OL]. http://www.mpeg.org.