王 嫻,黃洪瓊
(上海海事大學(xué)信息工程學(xué)院,上海201306)
責(zé)任編輯:時(shí) 雯
香農(nóng)采樣定理下,信號采樣率須達(dá)信號帶寬兩倍以上,方能不失真地重構(gòu)原信號。采用基于該定理的視頻壓縮編解碼標(biāo)準(zhǔn)處理視頻時(shí),重構(gòu)視頻圖像需要的樣本數(shù)較多。另外,編碼過程中,視頻圖像變換后的系數(shù)被大量舍棄,從而造成了數(shù)據(jù)及資源的浪費(fèi)。近幾年提出的壓縮感知(Compressive Sensing,CS)[1-2]理論指出,若信號具有稀疏性或可壓縮性,則準(zhǔn)確重構(gòu)原信號所需的樣本數(shù)目可以遠(yuǎn)低于傳統(tǒng)香農(nóng)采樣定理所需的樣本數(shù)目。由于視頻相鄰幀之間的相關(guān)性較強(qiáng),從而殘差圖像的稀疏性較強(qiáng),因此可以將壓縮感知理論應(yīng)用于視頻編解碼中,大大減少重構(gòu)信號所需的采樣樣本數(shù)。這一理論在視頻編解碼中的應(yīng)用具有廣闊的前景[3-4]。
目前基于壓縮感知的編解碼器大多采用對視頻幀圖像進(jìn)行固定分組的形式來處理,這種固定分組的形式應(yīng)用在場景變化不大的情況下,視頻幀的重構(gòu)效果還是比較理想的[5-6],但是一旦視頻中出現(xiàn)場景快速變化的情況,其重構(gòu)視頻幀的效果并不佳。因此,如何能適應(yīng)視頻場景的快速變化,對各類視頻均能達(dá)到比較理想的重構(gòu)效果,便成為其實(shí)際應(yīng)用中急需解決的關(guān)鍵問題。
壓縮感知理論指出:若信號具有可壓縮性或在某個(gè)變換域是稀疏的,則可以用一個(gè)觀測矩陣(與變換基不相關(guān))將變換后得到的高維信號投影到低維空間上,然后通過求解優(yōu)化問題,從這些少量的投影中高概率地重構(gòu)出原信號。
對于離散實(shí)值信號 X(n),n=1,2,…,N,若其在某個(gè)正交基或緊框架 ΨN×N(ΨT= [ψ1,ψ2,…,ψN])下的變換系數(shù)Θ是稀疏的,則
其中,變換系數(shù)Θ僅有K(K?N)個(gè)非零元素,其余N-K個(gè)元素為零或接近于零,那么就可以用一個(gè)與變換基Ψ不相關(guān)的觀測基ΦM×N(M?N)對系數(shù)進(jìn)行線性變換,得到觀測集合
由于M?N,該方程組為欠定方程組,如果觀測基Φ與變換基Ψ滿足有限等距性質(zhì)(Restricted Isometry Property,RIP)[7],則可利用l1范數(shù)下的最優(yōu)化問題求解系數(shù)Θ
2008年,文獻(xiàn)[8]將壓縮感知理論引入到視頻壓縮采樣中,顯著地降低了視頻壓縮采樣時(shí)的采樣率。文獻(xiàn)[9-10]提出了一種基于壓縮感知理論的視頻編解碼器。該視頻編解碼器利用視頻圖像在變換域上的可壓縮性和視頻殘差圖像的稀疏性,大大降低了恢復(fù)視頻時(shí)所需的圖像樣本數(shù)。并且以整幅圖像進(jìn)行處理,而不是采用傳統(tǒng)視頻編解碼器的以塊作為處理單元的方式,也不再需要H.26x視頻編碼標(biāo)準(zhǔn)下幀間編碼的運(yùn)動估計(jì)和補(bǔ)償,有利于降低運(yùn)算的復(fù)雜度。
文獻(xiàn)[11-12]提出了分布式視頻壓縮感知(Distributed Compressed Video Sensing)理論,將原有的分布式視頻編碼技術(shù)與壓縮感知理論進(jìn)行了融合。該視頻編解碼理論是在編碼端對信源進(jìn)行獨(dú)立編碼,利用相鄰幀之間CS測量值的相關(guān)性,在解碼器中并入邊信息生成方案進(jìn)行聯(lián)合解碼,將編碼的運(yùn)算復(fù)雜度從編碼側(cè)移到解碼側(cè)。分布式視頻編碼器編碼碼流具有一定的抗誤碼能力,比較適合應(yīng)用于無線網(wǎng)絡(luò)中資源受限的視頻編碼設(shè)備。
上述兩種基于壓縮感知的視頻編解碼器,前一種是利用視頻信號在像素域的相關(guān)性,對幀間殘差進(jìn)行測量編碼以提高感知幀的重構(gòu)質(zhì)量,后一種則是利用視頻信號在稀疏域的相關(guān)性提高感知幀的編解碼速度。
文獻(xiàn)[13]針對不同應(yīng)用需求對于視頻恢復(fù)質(zhì)量和編解碼效率要求的不同,提出了一種混合式壓縮感知視頻編解碼方案。該方案是基于前兩種壓縮感知視頻編解碼理論,提出設(shè)定一個(gè)參數(shù)Function,用于自適應(yīng)判決為當(dāng)前視頻幀圖像組選擇前面兩種編解碼方案中的哪一種來進(jìn)行編解碼。
以上提出的3種基于壓縮感知的編解碼器均采用對視頻幀圖像進(jìn)行固定分組的形式來處理。在編碼前,先將視頻幀圖像分成若干圖像組,每N幀為1組(通常為8幀),并將每組中的第1幀設(shè)為關(guān)鍵幀,其他為非關(guān)鍵幀(或CS幀)。對關(guān)鍵幀采用幀內(nèi)編碼,即對整幀圖像單獨(dú)進(jìn)行編解碼;非關(guān)鍵幀則采用幀間編碼,以關(guān)鍵幀或前一幀的解碼重構(gòu)幀作為參考幀,并與當(dāng)前幀求殘差,再對殘差圖像進(jìn)行編碼,解碼端根據(jù)殘差和參考幀圖像重構(gòu)非關(guān)鍵幀圖像。
這種固定分組的形式應(yīng)用在場景變化不大的情況下,視頻幀的重構(gòu)效果還是比較理想的,但是一旦視頻中出現(xiàn)場景快速變化的情況,其重構(gòu)視頻幀的效果并不佳。
針對上述問題,本文提出一種基于壓縮感知的自適應(yīng)幀圖像分組視頻編解碼器。
本研究通過自適應(yīng)地判別和選取關(guān)鍵幀來達(dá)到自適應(yīng)幀圖像分組的目的。為實(shí)現(xiàn)自適應(yīng)地判別和選取關(guān)鍵幀,采取設(shè)定閾值的方法——該閾值用于判斷當(dāng)前幀與參考幀的差異性。視頻的首幀默認(rèn)設(shè)為關(guān)鍵幀,從第二幀起,如果當(dāng)前幀與參考幀之間的差異較小,即沒有場景的快速變化,則將當(dāng)前幀歸于當(dāng)前關(guān)鍵幀一組,并將當(dāng)前幀定義為非關(guān)鍵幀;如果當(dāng)前幀與參考幀之間的差異較大,即存在場景的快速變化,則將當(dāng)前幀劃為一個(gè)新組并將該幀作為新分組的關(guān)鍵幀。這樣就實(shí)現(xiàn)了自適應(yīng)幀圖像分組,每組幀數(shù)不等,隨視頻場景的變化而不同。
判斷兩幅圖像差異性的方法常用的有3種:均方誤差(Mean Squared Error,MSE)、峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似法(Structural Similarity Index Metric,SSIM)。對于圖像而言,兩幅圖像均方誤差的取值范圍較寬,不適宜于選取閾值;而結(jié)構(gòu)相似法計(jì)算較為復(fù)雜,也不適合作為閾值判定參數(shù)。因此,本研究選取峰值信噪比作為圖像差異性的判斷依據(jù)和閾值判定參數(shù)。
圖1 基于壓縮感知的自適應(yīng)幀圖像分組視頻編碼器原理圖
基于壓縮感知的自適應(yīng)幀圖像分組視頻編碼器設(shè)計(jì)原理如圖1所示。在對幀圖像進(jìn)行預(yù)處理前加入閾值判決模塊,用于判決當(dāng)前幀為關(guān)鍵幀還是非關(guān)鍵幀。對關(guān)鍵幀采用幀內(nèi)編碼方式,即對整幀圖像進(jìn)行壓縮感知變換和測量,然后編碼輸出,同時(shí)通過重構(gòu)和反變換得到參考幀圖像放入幀存儲,用于后續(xù)幀進(jìn)行閾值判決和幀間編碼方式下求殘差或求和;對非關(guān)鍵幀采用幀間編碼方式,即先將非關(guān)鍵幀圖像與參考幀圖像求殘差,之后僅對殘差圖像進(jìn)行壓縮感知變換和測量,然后編碼輸出,同時(shí)通過重構(gòu)和反變換得到重構(gòu)的殘差圖像,并將其與之前求殘差時(shí)的參考幀圖像相加,得到新的參考幀圖像放入幀存儲,同樣用于后續(xù)幀進(jìn)行閾值判決和幀間編碼方式下求殘差或求和。
基于壓縮感知的自適應(yīng)幀圖像分組視頻解碼器設(shè)計(jì)原理如圖2所示。
圖2 基于壓縮感知的自適應(yīng)幀圖像分組視頻解碼器原理圖
對關(guān)鍵幀采用幀內(nèi)解碼方式,接收碼流解碼后,進(jìn)行重構(gòu)和反變換得到重構(gòu)的關(guān)鍵幀圖像,將其放入幀存儲作為后續(xù)幀的參考幀圖像并輸出;對非關(guān)鍵幀采用幀間解碼方式,接收碼流解碼后,進(jìn)行重構(gòu)和反變換得到重構(gòu)的殘差圖像,然后將重構(gòu)的殘差圖像與幀存儲中的參考幀圖像相加得到非關(guān)鍵幀重構(gòu)圖像,同樣將其放入幀存儲作為后續(xù)幀的參考幀并輸出。
基于壓縮感知的自適應(yīng)幀圖像分組視頻編解碼器的實(shí)現(xiàn)流程如圖3所示。
圖3 基于壓縮感知的自適應(yīng)幀圖像分組視頻編解碼器的實(shí)現(xiàn)流程圖
視頻序列輸入編碼器時(shí),把視頻序列的首幀作為第一個(gè)分組(Group1)的第一個(gè)關(guān)鍵幀(Key1)。從視頻的第二幀開始即進(jìn)行閾值判決,若當(dāng)前幀與參考幀之間的差異系數(shù)小于閾值,則判定為場景變化較小或者沒有場景的變化,該幀就作為非關(guān)鍵幀與當(dāng)前關(guān)鍵幀劃在同一分組;若當(dāng)前幀與參考幀之間的差異系數(shù)大于或等于閾值,則判定為場景變化較大,該幀就作為新的關(guān)鍵幀(Key2)并劃入新的分組(Group2)。以此重復(fù),將視頻信號自適應(yīng)地劃分為 Group1,Group2,…,Group N,N 個(gè)分組,并對應(yīng)有Key1,Key2,…,Key N,N個(gè)關(guān)鍵幀和若干非關(guān)鍵幀。對關(guān)鍵幀整幀圖像進(jìn)行CS編碼、傳輸、解碼,然后重構(gòu)關(guān)鍵幀圖像輸出;對非關(guān)鍵幀則先與參考幀求殘差,然后只對殘差圖像進(jìn)行CS編碼、傳輸、解碼,重構(gòu)殘差圖像后與參考幀相加,得到非關(guān)鍵幀重構(gòu)圖像輸出。
為了對比固定分組和自適應(yīng)幀圖像分組壓縮感知編解碼器的性能,本研究分別對3組變化速度不同的視頻cup_slow,cup_both和cup_fast進(jìn)行測試:視頻cup_slow中場景變化緩慢;視頻cup_both中部分場景變化緩慢,部分場景變化較快;視頻cup_fast中場景變化迅速。3組視頻幀圖像大小均為432×240像素。實(shí)驗(yàn)中,變換基采用Daubechies9/7小波基,測量矩陣采用32×32隨機(jī)擾動分塊Hadamard矩陣,重構(gòu)算法采用GPSR算法。
固定分組模式(VCS_F)下,每8幀一組,每組第一幀為關(guān)鍵幀,其他為非關(guān)鍵幀,參考幀為前一幀的重構(gòu)幀。設(shè)定關(guān)鍵幀測量率為0.6,非關(guān)鍵幀測量率為0.3。
自適應(yīng)分組模式(VCS_Ad)下,每組幀數(shù)不定,由閾值判決決定,設(shè)定閾值T=28,每組第一幀為關(guān)鍵幀,其他為非關(guān)鍵幀,參考幀為前一幀的重構(gòu)幀。設(shè)定關(guān)鍵幀測量率為0.6,非關(guān)鍵幀測量率為0.3。
得到實(shí)驗(yàn)數(shù)據(jù)如表1所示。
表1 采用VCS_F和VCS_Ad對變化速率不同視頻處理的性能指標(biāo)比較
從表1中可以看出,對于場景變化緩慢的視頻cup_slow,兩種模式重構(gòu)視頻的平均PSNR基本相等且都較高。說明在此情況下,兩種模式均能很好地保證視頻的重構(gòu)質(zhì)量,處理效果不相上下。同時(shí)可以看到場景變化緩慢情況下,自適應(yīng)分組模式所需的關(guān)鍵幀明顯少于固定分組模式,視頻的平均測量率也更低,這說明自適應(yīng)分組模式在場景變化緩慢時(shí)能以更低的采樣率重構(gòu)視頻并且保證重構(gòu)視頻質(zhì)量。重構(gòu)效果圖對比如圖4所示。
圖4 視頻cup_slow第7幀圖像重構(gòu)效果對比圖
對于部分場景變化緩慢、部分場景變化較快的視頻cup_both,兩種模式下視頻的平均測量率基本相等,自適應(yīng)分組模式下重構(gòu)視頻的平均PSNR略高。說明在此情況下,自適應(yīng)分組模式對視頻的處理效果略佳,每幀平均重構(gòu)時(shí)間略短。重構(gòu)效果圖對比如圖5、圖6所示。
對于場景變化較快的視頻cup_fast,固定分組模式下重構(gòu)視頻的平均PSNR明顯下降,視頻重構(gòu)效果較差,而自適應(yīng)分組模式下重構(gòu)視頻的平均PSNR仍然保持較高,視頻重構(gòu)效果較好,且每幀平均重構(gòu)時(shí)間更短,說明在此情況下,自適應(yīng)分組模式對視頻的處理效果明顯優(yōu)于固定分組模式。重構(gòu)效果圖對比如圖7所示。
圖7 視頻cup_fast第75幀圖像重構(gòu)效果對比
綜合表1與圖4~7可見,本研究提出的基于壓縮感知的自適應(yīng)幀圖像分組視頻編解碼器可以適應(yīng)不同的場景變化,對各類視頻均能有較好的重構(gòu)效果,尤其是對于場景快速變化的視頻,重構(gòu)效果明顯優(yōu)于現(xiàn)有的固定分組模式。
本文提出的壓縮感知自適應(yīng)幀圖像分組視頻編解碼器,可以解決當(dāng)前視頻編解碼器視頻幀圖像固定分組模式的不足。該編解碼器不僅在場景變化緩慢時(shí),能獲得比較理想的視頻幀重構(gòu)效果,并且在出現(xiàn)場景快速變換時(shí),也能得到較好的視頻幀重構(gòu)效果。
經(jīng)多次實(shí)驗(yàn)驗(yàn)證,本文算法在閾值為28時(shí),可以得到較好的效果。事實(shí)上,該閾值可以根據(jù)壓縮編解碼的不同需求來自行設(shè)定。下一步的研究將圍繞閾值的優(yōu)化及其是否能夠根據(jù)視頻變化而自適應(yīng)性調(diào)整展開。
[1] CANDES E.Compressive sampling[EB/OL].[2013-12-02].http://www.disp.duke.edu/~dbrady/courses/holography/lectures/CompressiveSampling.pdf.
[2] BARANIUK R.Compressive sensing[J].IEEE Signal Processing Magazine,2007,24(4):118-120.
[3]石光明,劉丹華.壓縮感知理論及其研究進(jìn)展[J].電子學(xué)報(bào),2009,37(5):1070-1081.
[4] 焦李成,楊淑媛.壓縮感知回顧與展望[J].電子學(xué)報(bào),2011,39(7):1651-1662.
[5] WU M,ZHU X.A video code based on distribution compressive sensing[J].Procedia Engineering,2012(29):3613-3618.
[6] DONG G,XIZ.A novel video codec scheme based on compressive sensing[J].Journal of Information and Computational Science,2013,10(14):4681-4689.
[7]CANDES E.The restricted isometry property and its implications for compressed sensing[J].Comptes Rendus Mathematique,2008(9-10):589-592.
[8] STANKOVIC V,STANKOVIC L,CHENGS.Compressive video sampling[C]//Proc.16th IEEE International Conference on Image Processing.Poland:IEEE Press,2009:3001-3004.
[9] XIE X,LU Z,LAIZ.Fast encoding of video based on compressive sensing[C]//Proc.YC-ICT ’09.Beijing:IEEE Press,2009:114-117.
[10]謝曉春,賴昭勝,楊漢祥.基于壓縮感知理論的視頻編解碼器[J].電視技術(shù),2010,34(5):14-17.
[11] DO T.Distributed compressed video sensing[EB/OL].[2013-12-02]. http://citeseerx.ist.psu.edu/viewdoc/download?rep =rep1&type=pdf&doi=10.1.1.221.7026.
[12] BAIG Y,LAIE,PUNCHIHEWA A.Distributed video coding based on compressed sensing[C]//Proc.ICMEW 2012.Melbourne,VIC:IEEE Press,2012:325-330.
[13]陳建,蘇凱雄,朱宇耀.基于壓縮感知的視頻編碼技術(shù)研究[J].福州大學(xué)學(xué)報(bào):自然科學(xué)版,2012,40(6):742-747.