王 平,安 平,2,王 奎,張兆楊,2
(1.上海大學(xué)通信與信息工程學(xué)院,上海200072;2.新型顯示技術(shù)及應(yīng)用集成教育部重點(diǎn)實(shí)驗(yàn)室,上海 200072)
責(zé)任編輯:哈宏疆
雖然2D視頻技術(shù)在現(xiàn)今多媒體服務(wù)中得到成功應(yīng)用,但是由于3D視頻技術(shù)令人震撼的立體視覺效果使該技術(shù)得到了社會(huì)各界的廣泛關(guān)注并迅速發(fā)展。3D視頻技術(shù)從3D內(nèi)容的獲取到3D顯示器的制造,涵蓋了很多技術(shù)手段。其中,3D內(nèi)容的獲取是3D視頻服務(wù)核心部分。獲取3D內(nèi)容需要一些特殊的設(shè)備,比如立體相機(jī)(或攝像機(jī))、多視點(diǎn)相機(jī)或深度相機(jī)。盡管通過這些手段能生成一些3D內(nèi)容,但其中還有相當(dāng)多的關(guān)鍵技術(shù)沒有解決,導(dǎo)致3D視頻內(nèi)容的匱乏,從而限制了立體視頻顯示技術(shù)的推廣及應(yīng)用。因此,將傳統(tǒng)的2D視頻內(nèi)容轉(zhuǎn)換為3D,成為填補(bǔ)3D內(nèi)容缺失的快捷高效的解決方案。
然而,傳統(tǒng)的2D片源缺乏深度信息,而深度信息是構(gòu)成立體視覺的最重要因素。場景中物點(diǎn)到相機(jī)焦點(diǎn)的法線距離被稱為對應(yīng)該物點(diǎn)的2D圖像中的像素深度值,所有像素點(diǎn)的深度值構(gòu)成的矩陣就是該圖像的深度圖。
由于深度圖的準(zhǔn)確度嚴(yán)重影響重建3D場景的質(zhì)量,因此,深度圖提取是2D至3D轉(zhuǎn)換過程中的關(guān)鍵步驟。如果用多臺(tái)相機(jī)同時(shí)捕獲多視點(diǎn)圖像,可以通過立體匹配算法來得到深度圖。然而,由于缺少相機(jī)參數(shù)、視差信息等附加信息,從單視點(diǎn)圖像中提取深度還是很困難的,因此,只能通過分析單視點(diǎn)圖像的單目深度線索來提取相對的深度值[1]。
最近幾年,產(chǎn)生了一些從單視點(diǎn)圖像中提取深度圖的方法。S.Batiato提出了一種經(jīng)典的方法[2-3],通過以下步驟來產(chǎn)生深度圖:從梯度平面的生成、梯度深度的分配、區(qū)域連續(xù)性的檢測到最終深度圖的生成。Jae-Il Jung和Yo-Sung Ho通過貝葉斯分類器分析圖像中不同的物體類型和屬性,并分別對其采用不同的算法來實(shí)現(xiàn)相對深度值的分配[4]。然而,這些方法大都需要對圖像進(jìn)行較復(fù)雜的處理,計(jì)算量大。筆者提出一種基于區(qū)域融合的單視點(diǎn)圖像深度提取方法,只需由圖像中各像素點(diǎn)色彩信息進(jìn)行區(qū)域融合,即可準(zhǔn)確地得到相對深度圖。
盡管從單視點(diǎn)圖像中提取深度是一個(gè)病態(tài)問題,還是有一些深度線索和特性可以用來預(yù)測深度信息。假設(shè)圖像中每個(gè)目標(biāo)物體都可用一個(gè)完整區(qū)域表示,則可將目標(biāo)物體區(qū)域的邊緣看作是深度值的變化邊緣。整個(gè)過程分為兩部分:利用區(qū)域融合,得到圖像中需要深度提取的目標(biāo)物體區(qū)域;再根據(jù)先驗(yàn)假設(shè)深度梯度變化進(jìn)行深度分配,提取出深度圖。
這里采用基于統(tǒng)計(jì)概率的區(qū)域融合[5]。通過融合屬于同一目標(biāo)物體相鄰間區(qū)域來消除偽邊緣,得到圖像中各目標(biāo)物體的區(qū)域圖。
在融合過程中,通過融合小區(qū)域或像素迭代地成長生成大的區(qū)域,像素點(diǎn)被認(rèn)為是最基本的區(qū)域。像素點(diǎn)上各通道值獨(dú)立分布于[0,255]。這里假設(shè)屬于同一目標(biāo)物體上的像素點(diǎn)的RGB值具有相同的統(tǒng)計(jì)平均值,而不同目標(biāo)物體區(qū)域上,至少有一個(gè)RGB通道的統(tǒng)計(jì)平均值是不同的。通過計(jì)算區(qū)域之間各顏色通道平均值的差異來判斷是否進(jìn)行融合。
整個(gè)融合過程主要由融合閾值和融合順序決定。融合閾值如式(1)所示
式中:Ra表示在彩色通道a中區(qū)域R的平均值;b(R)=g。|R|表示區(qū)域R中的像素個(gè)數(shù);Q表示在各通道上可取隨機(jī)變化取值的個(gè)數(shù),Q值越大,像素點(diǎn)的變化就越豐富,這里一般取Q=24;δ表示允許的各通道統(tǒng)計(jì)均值變化范圍,一般取δ=1/(6|I|2),|I|為圖像I像素點(diǎn)個(gè)數(shù)。根據(jù)融合閾值,在區(qū)域間進(jìn)行遞增順序的融合測試,即得到由關(guān)鍵區(qū)域組成的融合后的圖像,這樣就大大刪減了與深度梯度變化無關(guān)的圖像邊緣。
根據(jù)區(qū)域間的相對位置關(guān)系,由先驗(yàn)假設(shè)深度梯度變化對各像素點(diǎn)分配深度值。
單視點(diǎn)圖像上像素點(diǎn)深度值變化是有方向性的,即沿著某一特定的方向,深度呈有規(guī)律的變化。大部分圖像深度的變化規(guī)律是線性的,因此尋找到深度變化的方向就可對圖像進(jìn)行線性深度分配。單視點(diǎn)圖像的先驗(yàn)假設(shè)深度變化圖有很多種,如圖1所示。但經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),大多數(shù)情況下,“bottom-up”模式是適合范圍最廣的模式,即深度值由下至上線性遞增[6]。因此,這里先驗(yàn)假設(shè)深度梯度變化圖就采用“bottom-up”模式。
圖1 先驗(yàn)假設(shè)深度變化圖
首先對圖像中的關(guān)鍵區(qū)域進(jìn)行深度分配,得到反映場景大體深度變化情況的相對深度圖。本文分配深度值的原則有2個(gè):1)關(guān)鍵區(qū)域中像素點(diǎn)深度值是一致的;2)關(guān)鍵區(qū)域的深度值由區(qū)域最下端像素點(diǎn)在先驗(yàn)假設(shè)深度變化圖中的值決定,如圖2所示。這里假設(shè)對象都是平面對象,即在對象平面區(qū)域上深度值是一致的。該假設(shè)忽略了立體對象深度值的變化,突出了關(guān)鍵區(qū)域之間的深度變化;從場景的大尺度角度出發(fā),強(qiáng)調(diào)了對象之間深度層次關(guān)系。
圖2 關(guān)鍵區(qū)域深度值
采用分辨力為1440×900的圖像“遠(yuǎn)山”來做實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。并運(yùn)用DIBR(Depth Image-Based Rendering)算法[7-8],繪制出3D 圖像。通過 3D 顯示器可觀看3D圖像,具有強(qiáng)烈的3D立體視覺效果。
圖3 圖像“遠(yuǎn)山”的實(shí)驗(yàn)結(jié)果圖
圖4給出了實(shí)驗(yàn)測試的部分圖像及生成的對應(yīng)深度圖。本文方法與其他方法相比,優(yōu)點(diǎn)在于無須提取出過多的深度線索,利用區(qū)域融合提取出單視點(diǎn)圖像中深度變化邊緣,生成了反映深度層次相對變化的深度圖。實(shí)驗(yàn)時(shí),可根據(jù)圖像中目標(biāo)物體區(qū)域之間色彩變化的復(fù)雜度,對Q值進(jìn)行調(diào)節(jié)。對于場景色彩變化復(fù)雜的,可以適當(dāng)增大Q,從而增加了融合后物體區(qū)域個(gè)數(shù),來達(dá)到更好的視覺效果,反之亦然。
圖4 實(shí)驗(yàn)結(jié)果
本文提出了一種從單視點(diǎn)圖像中提取出深度信息的方法。對圖像中像素點(diǎn)色彩信息進(jìn)行差異統(tǒng)計(jì)分析,并進(jìn)行區(qū)域融合,生成關(guān)鍵區(qū)域;利用先驗(yàn)假設(shè)深度梯度圖進(jìn)行區(qū)域間的深度分配,繪制出深度圖。本文方法可簡單、有效的繪制出深度圖,并生成具有強(qiáng)烈立體視覺效果的3D圖像,適用于實(shí)時(shí)室外場景立體演示等相關(guān)應(yīng)用。由于本文方法是假定于目標(biāo)區(qū)域是垂直于拍攝方向的,即區(qū)域中像素深度值是一致的,對圖像中垂直于拍攝方向的平面深度提取效果最優(yōu)。
[1]CHENG C,LI C,CHEN L.A 2D-to-3D conversion system using edge information[C]//2010 Digest of Technical Papers International Conference on Consumer Electronics.[S.l.]:IEEE Press,2010:377-378.
[2]BATTIATO S,CURTIS,CASCIA M L,etal.Depth map generation by image classification[C]//Proc.SPIE:vol.5302.[S.l.]:SPIE Press,2004:95-104.
[3]BATTIATO S,CAPRA A,CURTI S,et al.3D stereoscopic image pairs by depth-map generation[EB/OL].[2010-04-01].http://cgit.nutn.edu.tw:8080/cgit/PaperDL/WSY_100506083318.PDF.
[4]JUNG J,HO Y.Depth map estimation from single-view image using object classification based on Bayesian learning[C]//3DTV-Conference:The True Vision – Capture,Transmission and Display of 3D Video.[S.l.]:IEEE Press,2010:1-4.
[5]NOCK R,NIELSEN F.Statistical region merging[J].IEEE Trans.Pattern Anal.Mach.Intell.,2004,26(11):1452-1458.
[6]KO J,KIM M,KIM C.2D-To-3D stereoscopic conversion:depth-map estimation in a 2D single-view image[EB/OL].[2011-01-23].http://koasas.kaist.ac.kr/bitstream/10203/24829/1/2D-To-3D%20Stereoscopic%20Conversion.pdf.
[7]安平,張倩,鞠芹,等.用于3DTV的圖像繪制技術(shù)[J].電視技術(shù),2010,34(1):49-51.
[8]鞠芹,安平,張倩,等高質(zhì)量的虛擬視點(diǎn)圖像的繪制方法[J].電視技術(shù),2009,33(9):9-11.