王妍 馬秀榮 單云龍
摘 要:三維(S3D)圖像重定向技術(shù)的作用是調(diào)整S3D圖像的寬高比。為準(zhǔn)確和客觀地衡量三維重定向圖像的視覺質(zhì)量,建立了一個(gè)S3D重定向圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)。首先,使用八種具有代表性的三維重定向算法對(duì)45幅原始圖像按兩種重定向尺度進(jìn)行分辨率調(diào)整,共生成720幅三維重定向圖像; 然后,每幅重定向圖像通過主觀測(cè)試,得到相應(yīng)的主觀打分值; 最后,對(duì)主觀分?jǐn)?shù)進(jìn)行處理,得到平均主觀意見分(MOS)值。在此基礎(chǔ)上,提出一種三維重定向圖像客觀質(zhì)量評(píng)價(jià)方法,即通過提取S3D重定向圖像的深度感特征、視覺舒適度特征和左右視點(diǎn)的圖像質(zhì)量特征,使用支持向量回歸預(yù)測(cè)得到S3D重定向圖像的視覺質(zhì)量。在提出的數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試可以得知,所提方法的Pearson線性相關(guān)系數(shù)高于0.82,Spearman等級(jí)系數(shù)高于0.81,表明其能有效預(yù)測(cè)S3D重定向圖像的視覺質(zhì)量。
關(guān)鍵詞:質(zhì)量評(píng)價(jià);圖像數(shù)據(jù)庫(kù);三維圖像重定向;深度感;舒適度
中圖分類號(hào):TN919.81
文獻(xiàn)標(biāo)志碼:A
Abstract: Stereoscopic 3D (S3D) image retargeting aims to adjust aspect ratio of S3D images. To objectively and accurately assess the quality of different retargeted S3D images, a retargeted S3D image quality assessment database was constructed. Firstly, 45 original images were retargeted by eight representative retargeting algorithms with two retargeting scales to generate 720 retargeted S3D images. Then, the subjective quality evaluation score of each retargeted image was obtained via subjective testing. Finally, the subjective scores were converted to MOS (Mean Opinion Score) values. Based on all above, an objective quality assessment method was proposed for retargeted S3D images. In this method, three types of features including depth perception, visual comfort and image quality of left and right views were extracted to calculate the retargeted S3D image quality with the use of support vector regression prediction. Experimental results on the proposed database show that the proposed method has the Pearson linear correlation coefficient and the Spearman rankorder correlation coefficient higher than 0.82 and 0.81 respectively, demonstrating its superiority in retargeted S3D image visual quality assessment.
英文關(guān)鍵詞Key words: quality assessment; image database; stereoscopic 3D image retargeting; depth perception; visual comfort
0 引言
隨著三維(Stereoscopic 3D, S3D)圖像顯示技術(shù)的快速發(fā)展,越來越多的S3D顯示設(shè)備融入人們的生活。各種類型的S3D圖像和視頻極大地豐富了觀眾的視覺體驗(yàn), 然而,顯示設(shè)備分辨率的多樣化導(dǎo)致S3D圖像無法在不同寬高比的顯示器上自適應(yīng)顯示, 因此,需要S3D圖像重定向技術(shù)對(duì)S3D圖像的寬高比進(jìn)行調(diào)整[1]。
傳統(tǒng)平面重定向方法如CR(CRopping)、SCL(uniform scaling)、SC(Seam Carving)[2]和WARP(WARPing)[3]等,在調(diào)整圖像分辨率的同時(shí),將圖像重要區(qū)域的幾何形變和內(nèi)容缺失最小化; 然而,S3D圖像的質(zhì)量不僅包含圖像內(nèi)容本身,過大的雙目視差、雙目不對(duì)稱以及雙眼調(diào)節(jié)和輻輳沖突等都會(huì)嚴(yán)重影響S3D圖像的觀看舒適度[4]。另外,S3D圖像的深度信息使觀看者能夠獲得更加逼真的臨場(chǎng)體驗(yàn)。深度失真將會(huì)嚴(yán)重影響S3D圖像的觀看效果[5], 因此,與平面重定向方法相比,S3D圖像重定向技術(shù)需要考慮更多的圖像失真因素,這也極大地增加了S3D圖像重定向技術(shù)的復(fù)雜度。
近年來,人們提出了許多S3D圖像重定向方法,大致可分為離散方法和連續(xù)方法兩類。離散方法通過刪除或者增加左右圖像對(duì)應(yīng)位置的像素點(diǎn)或圖像塊,調(diào)整S3D圖像分辨率[6-8]。離散方法的優(yōu)點(diǎn)是直接對(duì)像素點(diǎn)進(jìn)行插入或刪除操作,能夠較好地保持S3D圖像的幾何一致性; 然而,高耗時(shí)、對(duì)象形狀難以保持等問題是這一類方法的主要瓶頸。連續(xù)方法的本質(zhì)是非均勻伸縮變換。這類方法通過設(shè)定約束條件,將原始圖像映射至目標(biāo)尺寸[9-12]。連續(xù)方法的優(yōu)點(diǎn)是能夠根據(jù)圖像內(nèi)容的重要性程度,將圖像的形變處理分布到人眼不關(guān)注的區(qū)域,相對(duì)于離散方法能夠更好地保持對(duì)象的形狀,尤其是當(dāng)圖像分辨率壓縮較大時(shí), 但連續(xù)方法較難保持重定向圖像的幾何一致性[6]。由于不同的S3D圖像重定向方法對(duì)圖像的處理結(jié)果差別很大, 一些S3D重定向方法在某一類圖像上處理效果較好,但在其他類別上處理結(jié)果卻很差, 因此,提出一種有效的S3D重定向圖像客觀質(zhì)量評(píng)價(jià)方法,對(duì)不同S3D圖像重定向方法的處理結(jié)果進(jìn)行準(zhǔn)確和客觀的衡量,進(jìn)而指導(dǎo)和優(yōu)化S3D圖像重定向算法就顯得尤為重要。
然而,S3D重定向圖像的分辨率與原始圖像不同,傳統(tǒng)的S3D圖像質(zhì)量評(píng)價(jià)方法如文獻(xiàn)[13-15]等無法直接運(yùn)用到S3D重定向圖像質(zhì)量評(píng)價(jià)中。目前,針對(duì)圖像重定向技術(shù)的評(píng)價(jià)方法大多集中在平面領(lǐng)域,例如,F(xiàn)ang等[16]提出了一種IRSSIM(Image Retargeting Structural SIMilarity)算法,采用SIFT(ScaleInvariant Feature Transform)特征建立原始圖像和重定向圖像間稠密匹配,并根據(jù)SSIM算法計(jì)算匹配后圖像的局部質(zhì)量,最后對(duì)局部質(zhì)量進(jìn)行加權(quán)得到重定向圖像的質(zhì)量; Hsu等[17]提出了一種PGDIL(Perceptual Geometric Distortion and Information Loss)算法,將重定向圖像的質(zhì)量分為幾何失真和內(nèi)容損失兩部分; Zhang等[18]提出了一種ARS(Aspect Ratio Similarity)算法,將圖像重定向過程轉(zhuǎn)換為后向重采樣問題。Liang等[19]將重定向圖像失真分為顯著區(qū)域保留、形變失真、全局結(jié)構(gòu)保留、美學(xué)特性和對(duì)稱性五個(gè)因素; Jiang等[20]通過構(gòu)建學(xué)習(xí)字典,預(yù)測(cè)重定向圖像質(zhì)量; Chen等[21]提取自然場(chǎng)景統(tǒng)計(jì)特征、全局結(jié)構(gòu)特征和雙向內(nèi)容缺失特征,評(píng)價(jià)重定向圖像質(zhì)量; Zhang等[22]分別從區(qū)域失真、圖像塊失真和像素失真三個(gè)層次評(píng)價(jià)重定向圖像質(zhì)量; Guo等[23]從全局失真和局部失真兩個(gè)方面計(jì)算重定向圖像的幾何失真和內(nèi)容缺失。然而,平面重定向圖像質(zhì)量評(píng)價(jià)方法未考慮S3D圖像的舒適度和深度等信息,不適用于S3D重定向圖像質(zhì)量評(píng)價(jià)。
為準(zhǔn)確和客觀地評(píng)價(jià)S3D重定向圖像的視覺質(zhì)量,本文首先建立了一個(gè)S3D重定向圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù),并對(duì)數(shù)據(jù)庫(kù)中的S3D重定向圖像進(jìn)行主觀打分。其次,提出了一種S3D重定向圖像客觀質(zhì)量評(píng)價(jià)方法。該方法從深度感(Depth Perception, DP)、視覺舒適度(Visual Comfort, VC)以及圖像質(zhì)量(Image Quality, IQ)三個(gè)方面評(píng)價(jià)S3D重定向圖像的視覺質(zhì)量。主要貢獻(xiàn)包括:1)本文建立了一個(gè)S3D重定向圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)。包含45幅原始圖像、8種重定向方法、2種壓縮尺度,整個(gè)數(shù)據(jù)庫(kù)共720幅S3D重定向圖像。2)本文從遮擋區(qū)域面積和對(duì)象深度差兩個(gè)方面評(píng)價(jià)S3D重定向圖像的深度感。提取視差幅值特征和視差梯度特征評(píng)價(jià)S3D重定向圖像的視覺舒適度。最后,結(jié)合深度感、舒適度以及S3D重定向圖像左右視點(diǎn)圖像的質(zhì)量,得到S3D重定向圖像的質(zhì)量,評(píng)價(jià)結(jié)果符合人眼主觀感知。
1 三維重定向圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)
當(dāng)前,重定向圖像的質(zhì)量評(píng)價(jià)研究主要集中在平面領(lǐng)域,對(duì)三維重定向圖像的視覺質(zhì)量評(píng)價(jià)研究較少,且缺少相應(yīng)的質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù)。為此,本文首先建立了一個(gè)三維重定向圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)庫(kù),對(duì)三維重定向圖像進(jìn)行主觀質(zhì)量評(píng)價(jià)。
1.1 原始圖像
三維圖像重定向方法根據(jù)S3D圖像的內(nèi)容差異,壓縮人眼不感興趣區(qū)域,保留圖像的重要內(nèi)容,保持或提升S3D圖像的深度感和視覺舒適度。為建立可靠的S3D重定向圖像據(jù)庫(kù),更加有效地反映不同重定向方法的處理效果,本文篩選了45幅原始S3D圖像,包含自然場(chǎng)景、顯著前景對(duì)象、幾何結(jié)構(gòu)、人物等室內(nèi)與室外場(chǎng)景。45幅原始S3D圖像的左圖像如圖1所示。另外,本文篩選的原始S3D圖像包含不同的視差范圍,以驗(yàn)證不同重定向方法的深度和舒適度優(yōu)化性能。
4 結(jié)語
本文構(gòu)建了一個(gè)S3D重定向圖像標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),選取八種代表性的S3D重定向方法,生成720幅S3D重定向圖像,并對(duì)每一幅圖像進(jìn)行主觀打分。在此基礎(chǔ)上,本文提出了一種結(jié)合深度感、舒適度和圖像質(zhì)量的S3D重定向圖像客觀質(zhì)量評(píng)價(jià)方法。在數(shù)據(jù)庫(kù)上的測(cè)試結(jié)果表明,提出的方法的評(píng)價(jià)結(jié)果符合人眼感知。本文提出的圖像數(shù)據(jù)庫(kù)可用于S3D重定向圖像的視覺質(zhì)量研究,提出的S3D重定向圖像質(zhì)量評(píng)價(jià)方法能客觀地預(yù)測(cè)S3D重定向圖像的視覺質(zhì)量,對(duì)S3D圖像重定向算法優(yōu)化有一定的指導(dǎo)意義。未來的研究重點(diǎn)是提取更多高層次的語義和結(jié)構(gòu)信息,建立更加準(zhǔn)確的評(píng)價(jià)模型。
參考文獻(xiàn) (References)
[1] ??? LUO S J, SUN Y T, SHEN I C, et al. Geometrically consistent stereoscopic image editing using patchbased synthesis[J]. IEEE Transactions on Visualization and Computer Graphics, 2015, 21(1): 56-67.
[2] ??? SHAMIR A, SHAMIR A, AVIDAN S. Improved seam carving for video retargeting[J]. ACM Transactions on Graphics, 2008, 27(3): Article No. 16.
[3] ??? WOLF L, GUTTMANN M, COHENOR D. Nonhomogeneous contentdriven videoretargeting[C]// Proceedings of the 2007 International Conference on Computer Vision. Piscataway, NJ: IEEE, 2007: 1-6.
[4] ??? LEE K, MOORTHY A K, LEE S, et al. S3D visual activity assessment based on natural scene statistics[J]. IEEE Transactions on Image Processing, 2014, 23(1): 450-465.