高 凱, 陳賀新, 趙 巖, 王 鋼, 黎昌明
(吉林大學(xué) 通信工程學(xué)院, 長春 130012)
隨著3D視頻顯示[1]和自由視點(diǎn)視頻(FTV: Free-Viewpoint Television)的發(fā)展[2], 虛擬視點(diǎn)合成成為構(gòu)建3D視頻和自由視點(diǎn)視頻的重要工具, 對于虛擬視點(diǎn)合成, 多視點(diǎn)視頻序列和相應(yīng)的深度圖序列的壓縮至關(guān)重要。通常, 對不精確的深度圖, 視點(diǎn)合成會受到繪制失真的影響, 尤其在目標(biāo)邊緣處更加嚴(yán)重。通常在虛擬視點(diǎn)目標(biāo)邊緣處, 不正確的深度值會導(dǎo)致繪制的相應(yīng)像素誤投影到3D空間中彩色圖像坐標(biāo)的深度平面。對于深度數(shù)據(jù)的有損壓縮(例如H.264/AVC)不可避免地扭曲深度結(jié)構(gòu), 尤其是含有豐富高頻成分的深度邊緣[3]。通過分析視頻和深度序列的相關(guān)性直方圖, 可知深度圖的結(jié)構(gòu)特征不同于相應(yīng)視頻序列的結(jié)構(gòu)特征[4], 當(dāng)前的H.264/AVC的擴(kuò)展部分JMVC (Joint Multi-view Video Coding)多視點(diǎn)視頻聯(lián)合編碼框架并不適合深度圖編碼。另外, 對感興趣區(qū)域的編碼可提高圖像的主觀質(zhì)量[5]。針對上述問題, 筆者提出在編碼深度圖當(dāng)前塊之前, 使用Sobel算子確定當(dāng)前塊中感興趣目標(biāo)邊界, 基本塊尺寸大小為16×16。
Sobel算子是進(jìn)行邊緣檢測的典型工具, 根據(jù)相應(yīng)像素的梯度判斷目標(biāo)邊緣的位置, 通過比較梯度值和預(yù)設(shè)置門限值Th確定邊緣的置, 當(dāng)超過預(yù)設(shè)門限值時, 邊緣被確定。使用簡單有效的8方向的掩模確定邊緣位置, 掩模模板如下所示
圖1a為視頻序列Breakdancers視點(diǎn)2的第1幀的深度圖, 對其進(jìn)行邊緣檢測, 通過設(shè)置門限閾值, 獲得Sobel算子檢測后的邊緣圖像(見圖1b), 之后通過分析邊緣檢測后的圖像塊狀態(tài), 對深度圖進(jìn)行編碼。
在編碼當(dāng)前宏塊(MB: MacroBlock)前, 判斷當(dāng)前MB是否含有目標(biāo)邊界。圖2是個16×16的宏塊(MB)示意圖, 它能分割為4個8×8的子宏塊, 每個8×8的子宏塊又可分為4個4×4塊。索引號0,1,2,…,15代表16個4×4塊。如圖2所示, 當(dāng)前宏塊內(nèi)部含有目標(biāo)邊界時, 若在索引號為0,1,2的8×8子宏塊內(nèi), 則進(jìn)一步分布在索引號為3,5~9,12的4×4塊中, 文中定義了標(biāo)志位SobelFlag16, SobelFlag8[4], SobelFlag4[16], 描述當(dāng)前16×16宏塊、 4個8×8子宏塊、 16個4×4塊是否含有目標(biāo)邊緣的狀態(tài)。根據(jù)圖2, 通過SobelFlag16={0}; SobelFlag8[4]={0,0,0,1}; SobelFlag4[16]={1,1,1,0,1,0,0,0,0,0,1,1,0,1,1,1}描述圖2中塊的狀態(tài), 其中‘0’代表塊內(nèi)含有目標(biāo)邊界, ‘1’代表塊內(nèi)不含有目標(biāo)邊界。
a 深度圖像 b 邊緣檢測圖像
本節(jié)詳細(xì)描述了率失真優(yōu)化編碼中的bit分配, 分別定義編碼中的16×16宏塊, 8×8子宏塊, 4×4塊的標(biāo)志位分別為
Flag16=SobelFlag16;
Flag8[i]=SobelFlag16|SobelFlag8[i],i=0,1,2,3
Flag4[j]=SobelFlag16|SobelFlag8[i]|SobelFlag4[j],i=0,1,2,3;j=0,1,2,…,15。
Flag16表示當(dāng)前MB的預(yù)測模式是16×16時, 編碼器量化參數(shù)QP的選擇標(biāo)志位; Flag8[i]表示當(dāng)前宏塊的預(yù)測模式是8×8時, 對應(yīng)的每個8×8子宏塊編碼器QP的選擇標(biāo)志位; Flag4[j]表示當(dāng)前宏塊的預(yù)測模式是4×4時, 對應(yīng)的每個4×4塊編碼器QP的選擇標(biāo)志位。每個標(biāo)志位分配1 bit。當(dāng)Flag16或Flag8[i]或Flag4[j]為0, LumaQP=QP+ΔQP, 則ΔQP=-5, 否則, ΔQP=5。對每個塊, 比特流中增加了相應(yīng)的標(biāo)志位, 但由于調(diào)整了量化參數(shù), 平均碼流僅稍有增加。圖3給出了16×16宏塊中各標(biāo)志位賦值狀態(tài)及編碼流程。
圖3 16×16宏塊中標(biāo)志位賦值及編碼流程圖
實(shí)驗(yàn)中使用的計(jì)算機(jī)配置為Intel Core2處理器, 2.93 GHz主頻, 2.0 GByte內(nèi)存, 軟件編程環(huán)境為VC++6.0。
該方法是在H.264/AVC的擴(kuò)展部分多視點(diǎn)視頻聯(lián)合編碼參考軟件JMVC[6-10]中進(jìn)行試驗(yàn)的, 配置中應(yīng)用視點(diǎn)間預(yù)測, 采用Breakdancers和Ballet兩個深度測試序列[11], 分辨率為1 024×768像素, YUV4 ∶2 ∶0格式, 幀率為15 Hz, 編碼幀數(shù)為100幀, GOPSize值取1, 1幀周期為12, 序列幀間預(yù)測結(jié)構(gòu)由視點(diǎn)2的所有幀通過視點(diǎn)0所有幀經(jīng)過視點(diǎn)間預(yù)測得出, 而視點(diǎn)1的所有幀是通過視點(diǎn)0和視點(diǎn)2的所有幀經(jīng)過視點(diǎn)間雙向預(yù)測得到的[12,13], 對于Ballet序列, 采用視點(diǎn)4,5,6進(jìn)行實(shí)驗(yàn), 預(yù)測結(jié)構(gòu)和Breakdancers序列一致。
虛擬視點(diǎn)合成使用由MPEG(Moving Pictures Experts Group)組織發(fā)布的VSRS3.0 (View Synthesis Reference Software)[14], 配置采用半像素精度。對于Breakdancers序列, 彩色紋理視頻使用視點(diǎn)0和視點(diǎn)2未經(jīng)壓縮的原始彩色紋理視頻, 深度圖序列使用視點(diǎn)0和視點(diǎn)2的解碼深度圖序列, 視點(diǎn)1由視點(diǎn)0和視點(diǎn)2通過VSRS3.0虛擬合成。實(shí)驗(yàn)中對比了由筆者方法合成的虛擬視點(diǎn)1和原JMVC方法中合成的虛擬視點(diǎn)1。對Ballet序列采用同樣的配置, 使用視點(diǎn)4和視點(diǎn)6虛擬合成視點(diǎn)5。
Sobel算子門限閾值Th的確定, 決定了邊緣檢測的效果, 進(jìn)而影響到整體碼流的大小。為選取最佳的Th, 實(shí)驗(yàn)中測試了Th值, 分別為9,11,13,15,17和19共6種情況。同樣為了能測試算法在不同序列中的有效性, 對視頻中目標(biāo)運(yùn)動快的Breakdancers和目標(biāo)運(yùn)動慢的Pantomime序列進(jìn)行了測試, 進(jìn)而尋找合適的Th和視頻序列。
圖4是對應(yīng)不同序列不同Th情況下的bitrate和虛擬視點(diǎn)峰值信噪比曲線。圖4a為Breakdancers序列量化參數(shù)為36時, 不同門限閾值情況下的bitrate。從圖4a可看出, 當(dāng)Th≥11時, 筆者的算法產(chǎn)生的bitrate基本趨于穩(wěn)定, 且均高于JMVC產(chǎn)生的bitrate。當(dāng)Th繼續(xù)增大, 筆者算法產(chǎn)生的bitrate會逐漸減小, 最終與JMVC產(chǎn)生的bitrate相同。由圖4b中不同的Th情況下虛擬視點(diǎn)的PSNR(Peak Signal to Noise Ratio,RPSNR)可看出, 在Th=13時, 虛擬視點(diǎn)的RPSNR低于原JMVC算法, 在其他采樣Th情況下, 筆者的算法合成視點(diǎn)的RPSNR高于JMVC算法。由于筆者的最終目標(biāo)是提高虛擬視點(diǎn)的質(zhì)量, 所以對目標(biāo)運(yùn)動較快的序列如Breakdancers和Ballet, 使用產(chǎn)生最不理想的虛擬視點(diǎn)峰值信噪比的閾值(Th)進(jìn)行測試。
圖4c為Pantomime序列量化參數(shù)為36時, 不同門限閾值情況下的bitrate。圖4d為Pantomime序列不同Th情況下虛擬視點(diǎn)的高度分量RPSNR。從圖4c和圖4d可看出, 筆者的方法不僅降低了虛擬視點(diǎn)的RPSNR, 而且總體編碼bitrate高出58%, 顯然筆者的方法不適合目標(biāo)運(yùn)動慢的序列, 如Pantomime和Champagne-tower。
a Th vs bitrate of Breakdancers b Th vs PSNR of Breakdancers
c Th vs bitrate of Pantomime d Th vs PSNR of Pantomime
JMVC和筆者方法對Breakdancers序列的RPSNR和Bitrate結(jié)果比較如表1所示, 相比于原JMVC, 在5組不同QP值的情況下, 該方法的視點(diǎn)0和視點(diǎn)2比特率之和平均增加1.39%, 虛擬視點(diǎn)1亮度分量RPSNR(Y)平均減少0.016 dB。圖5a顯示了使用JMVC方法解碼后的深度圖虛擬合成后的視點(diǎn)圖像及部分區(qū)域放大圖像, 使用筆者方法解碼后的深度圖虛擬合成后的視點(diǎn)圖像及部分區(qū)域放大圖像如圖5b所示。由各自的部分區(qū)域放大圖像可看出, 使用原JMVC方法合成后的視點(diǎn)圖像, 在第1幅局部放大圖像中的帽檐處存在缺陷, 在第2幅局部放大圖像的人臉部、 額頭及頭發(fā)存在空洞, 而經(jīng)筆者方法合成后的視點(diǎn)圖像很好地保留了帽檐的邊緣, 且不存在空洞, 從主觀質(zhì)量上明顯優(yōu)于使用原始JMVC方法生成的視點(diǎn)圖像。
表1 Breakdancers在JMVC和筆者方法中的結(jié)果對比
a Virtual synthesis of JMVC
b Virtual synthesis of our method
表2是使用JMVC和筆者方法針對Ballet測試序列進(jìn)行的PSNR和Bitrate對比結(jié)果, 相比于原JMVC, 在5組不同的QP值情況下,S4和S6視點(diǎn)比特率之和平均增加0.743 4%, 虛擬視點(diǎn)S5的亮度分量RPSNR(Y)平均減小0.078 dB。圖6a為使用JMVC解碼后的深度圖虛擬合成后的視點(diǎn)圖像及其部分放大圖像, 圖6b為使用筆者提出方法解碼后的深度圖虛擬合成后的視點(diǎn)圖像及其部分放大圖像。由部分放大圖像可看出, JMVC生成的虛擬視點(diǎn)圖像的頭部及背部邊緣存在嚴(yán)重鋸齒形缺陷, 而使用筆者方法則能很好地保留頭部及背部邊緣, 因此通過主觀的對比分析, 筆者方法優(yōu)于原JMVC方法。
表2 Ballet序列使用JMVC和筆者方法的結(jié)果對比
從實(shí)驗(yàn)仿真結(jié)果分析, 可得到如下結(jié)論: 對于目標(biāo)運(yùn)動相對較快的序列, 通過調(diào)整了深度圖中平坦區(qū)和邊緣區(qū)的量化參數(shù), 能很好地保留深度序列的目標(biāo)邊緣, 由圖5和圖6可以看出, 筆者方法生成的虛擬視點(diǎn)結(jié)果的主觀效果優(yōu)于JMVC方法。由此得出, 有選擇性地最大程度保留深度圖中的目標(biāo)邊緣對于合成虛擬視點(diǎn)是有利的, 也是值得進(jìn)一步深入研究的。
筆者針對深度圖中的深度值的分布特性, 對H.264/AVC標(biāo)準(zhǔn)擴(kuò)展部分多視點(diǎn)編碼框架進(jìn)行改進(jìn), 提出了對深度圖進(jìn)行邊緣檢測, 以當(dāng)前塊是否有深度圖邊緣為依據(jù), 調(diào)整壓縮標(biāo)準(zhǔn)的量化參數(shù)而達(dá)到保護(hù)深度圖邊緣的目的, 以確保在使用解碼后的深度圖虛擬合成的視點(diǎn)的主客觀質(zhì)量。雖然應(yīng)用該算法, 使虛擬視點(diǎn)的質(zhì)量有所提高, 但在如何更加精確地確定塊中是否含有邊緣以及提高壓縮性能, 仍是亟待解決的問題。因此, 未來的工作致力于在保證虛擬視點(diǎn)合成質(zhì)量的前提下, 尋找更加出色的壓縮方法, 以提高深度圖的壓縮性能。
參考文獻(xiàn):
[1]ONURAL L. Television in 3-D: What Are the Prospects? [J]. Proceedings of IEEE, 2007, 95(6): 1143-1145.
[2]TANIMOTO M. Overview of Free Viewpoint Television [C]∥Multimedia and Expo, 2009. ICME 2009. IEEE International Conference on. [s.l.]: IEEE, 2009: 1552-1553.
[3]ZHAO Yin, ZHU Ce, CHEN Zhen-zhong, et al. Boundary Artifact Reduction in View Synthesis of 3D Video: From Perspective of Texture-Depth Alignment [J]. IEEE Transactions on Broadcasting, 2011, 57(2):510-522.
[4]PHILIPP MERKLE, JORDI BAYO SINGLA, KARSTEN MULLER, et al. Correlation Histogram Analysis of Depth-Enhanced 3D Video Coding [C]∥Proceedings of 2010 IEEE 17th International Conference on Image Processing. Hong Kong: ICIP, 2010: 2605-2608.
[5]付文秀, 王世剛, 劉占聲. 基于四叉樹分割視頻對象的可伸縮編碼算法 [J]. 吉林大學(xué)學(xué)報(bào): 信息科學(xué)版, 2003, 21(5): 1-6.
FU Wen-xiu, WANG Shi-gang, LIU Zhan-sheng. Scalable Video Object Coding Algorithm Based on Quadtree Segmentation [J]. Journal of Jilin University: Information Science Edition, 2003, 21(5): 1-6.
[6]DESDVS X, FERNANDO W A C, KODIKAEAAEACHCHI H, et al. Adaptive Sharpening of Depth Maps for 3D-TV [J]. Electronics Letters, 2010, 46(23): 1546-1548.
[7]GLENN VAN WALLENDAEL, SEBASTIAAN VAN LEUVEN, JAN DE COCK, et al. IEEE 3D Video Compression Based on High Efficiency Video Coding [J]. IEEE Transactions on Consumer Electronics, 2012, 58(1): 137-145.
[8]CHEN Y, PABDIT P, YEA S, et al. Draft Reference Software for MVC [EB/OL]. [2012-08-21]. http:∥wftp3.itu.int/av-arch/jvt-site/200906London.
[9]MERKLE P, SMOLIC A, MULLER K, et al. Multi-View Video Plus Depth Representation and Coding [C]∥ICIP 2007. San Antonio, TX: ICIP, 2007: 201-204.
[10]WEIGAND T, SULLIVAN G J, BJONTEGARD G, et al. Overview of the H.264/AVC Video Coding Standard [J]. IEEE Trans Circuits System Video Technology, 2003, 13(7): 560-576.
[11]KANG S B, ZITNICK L. MSI Sequences with Corresponding Calibration Parameters [DB/OL]. [2012-10]. http://research.microsoft.com/en-us/um/people/sbkang/3dvideodownload/.
[12]MERKLE P, SMOLIC A, MULLER K, et al. Efficient Prediction Structures for Multi-View Video Coding [J]. IEEE Trans on CSVT, 2007, 17(11): 1461-1473.
[13]ISO/IEC MPEG, ITU-T VCEG, Doc. N6909. Survey of Algorithms Used for Multi-View Video Coding (MVC) [S]. 2005.
[14]TANIMOTO M, FUJII T, SUZUKI K. View Synthesis Algorithm in View Synthesis Reference Software 3.0(VSRS3.0) [EB/OL]. [2012-08-21]. http:∥www.itscj.ipsj.or.jp/sc29/29w129∥.htm.