牛連丁,趙志杰,金雪松,孫華東,王海濤
(哈爾濱商業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院,150028)
隨著三維立體視頻的廣泛應(yīng)用,三維視頻領(lǐng)域存在的市場(chǎng)需求旺盛與片源嚴(yán)重匱乏的矛盾日益凸顯.2010年以來(lái)三維顯示設(shè)備的迅速普及,使得市場(chǎng)對(duì)3D片源需求急劇增加.一方面,人們不斷追求立體視頻所帶來(lái)的強(qiáng)烈的視覺沖擊及逼真的臨場(chǎng)感;另一方面,利用立體視頻采集設(shè)備來(lái)制作3D片源存在成本高、周期長(zhǎng)、技術(shù)難度大等問(wèn)題,導(dǎo)致立體片源嚴(yán)重不足.為了解決這一矛盾,相關(guān)研究人員提出了利用二維視頻提取深度的方法,將現(xiàn)有的二維視頻轉(zhuǎn)換為三維視頻.充分利用已有的二維視頻資源,既節(jié)約了制作成本,又可以滿足市場(chǎng)需求.
三維視頻在工業(yè)仿真、建筑設(shè)計(jì)、軍事模擬、醫(yī)療衛(wèi)生、教育、機(jī)器制造、斟察測(cè)量、影視娛樂(lè)和廣告?zhèn)髅降阮I(lǐng)域具有廣泛的應(yīng)用前景.因此,2D-3D視頻轉(zhuǎn)換技術(shù)的研究,必將促進(jìn)這些領(lǐng)域內(nèi)相關(guān)的技術(shù)的發(fā)展,具有較高的應(yīng)用價(jià)值.
目前,大多數(shù)2D-3D視頻轉(zhuǎn)換技術(shù)的研究都是圍繞德國(guó)HHI(Heinrich Hertz Institute)提出的基于深度的三維圖像生成方式DIBR(Depth-Image-based Rendering)[1]進(jìn)行的.生成過(guò)程如圖1所示,DIBR是利用深度與目標(biāo)物體三維坐標(biāo)的幾何關(guān)系,由深度圖計(jì)算出物體的三維信息.基于該理論,深度提取成為2D-3D視頻轉(zhuǎn)換的關(guān)鍵問(wèn)題,是2D-3D視頻轉(zhuǎn)換技術(shù)研究中的一個(gè)重要方向.
圖1 基于DIBR的3D圖像生成系統(tǒng)結(jié)構(gòu)框圖
在基于深度的2D-3D視頻轉(zhuǎn)換方法中,通過(guò)采用不同的線索,如:運(yùn)動(dòng)視差(motion)、散焦(defocus)、線條透視(linear perspective)、大氣散射(atmosphere scattering)、圖像紋理(patterned texture)、遮擋(occlusion)等,獲得圖像的深度信息,取得了一定的研究成果.但每一個(gè)線索都有其特定的適用范圍,僅靠單一的線索提取深度信息很容易受到具體場(chǎng)景的限制.例如,Cheng等提出的基于宏塊的雙邊濾波的二維視頻到三維視頻轉(zhuǎn)換算法[2],以及Feng X等提出的通過(guò)采用光流法獲得運(yùn)動(dòng)矢量場(chǎng)來(lái)確定深度信息的技術(shù)[3].這兩種方案都是基于運(yùn)動(dòng)視差線索提取深度,認(rèn)為運(yùn)動(dòng)越快的物體越接近觀察者,這種算法在攝像機(jī)運(yùn)動(dòng)、場(chǎng)景靜止時(shí)能獲得較為理想的效果.否則無(wú)法得到滿意的估計(jì)結(jié)果.Zhou等提出了基于DFD(depth from defocus)通過(guò)高斯梯度方法建立邊緣模糊度模型[4],該方法在邊緣處理效果以及場(chǎng)景深度計(jì)算準(zhǔn)確度方面有所提高.但對(duì)于模糊對(duì)比不大的圖像效果不理想.研究人員為了彌補(bǔ)這一不足,提出了以一條線索為主,以其他線索作為補(bǔ)充的深度提取方法.如Y.FENG等人提出一種基于模糊度估計(jì)與光流法相結(jié)合進(jìn)行深度估計(jì)的算法[5].但是,由于多線索之間結(jié)合的方式是未知的,會(huì)出現(xiàn)因依據(jù)某個(gè)線索判斷得到錯(cuò)誤的結(jié)果而影響到最終結(jié)果的準(zhǔn)確性.例如在模糊估計(jì)時(shí),大面積天空背景會(huì)被誤判為清晰的前景,對(duì)最終深度圖的效果有一定的影響.
人眼可以從二維視頻甚至靜態(tài)圖片中獲取深度信息.因此,在觀看電影或照片時(shí),觀查者可以輕易地區(qū)分景物之間深度層次的關(guān)系,這是人類大腦能夠從圖象中獲取不同的線索,并將這些線索結(jié)合在一起來(lái)判斷深度信息.但是這種多線索結(jié)合的方式并不明確.如果深度提取算法也具有這種多線索學(xué)習(xí)能力,將會(huì)具有更強(qiáng)的適應(yīng)性.而SVM可以通過(guò)對(duì)小樣本學(xué)習(xí)近似地獲得存在但并不明確的模型.因此,本文提出了基于支持向量機(jī)的圖像深度提取算法.該算法利用支持向量機(jī)訓(xùn)練學(xué)習(xí)獲得多條線索結(jié)合方式,從而建立圖像深度信息的模型.利用該模型將圖像中提取的紋理變化、紋理梯度以及霧度等線索結(jié)合起來(lái)進(jìn)行深度預(yù)測(cè),從而提高深度提取的準(zhǔn)確性.
支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)是由Vapnik等人在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上提出的一種新的機(jī)器學(xué)習(xí)方法.它要求尋找一個(gè)最優(yōu)超平面H作為分類面.從而保證結(jié)構(gòu)化風(fēng)險(xiǎn)最小.如圖1所示,設(shè)兩類訓(xùn)練集為{xi,yi},i=1,…,n,x∈Rd,d為特征向量的維數(shù),訓(xùn)練集共n個(gè)樣本,其中xi是第i個(gè)樣本,yi∈{-1,+1}是第i個(gè)樣本的類別標(biāo)簽.
為保證結(jié)構(gòu)化風(fēng)險(xiǎn)最小,分類面H:wTx+b=0(其中:w是超平面的法向量,b是超平面的常數(shù)項(xiàng).)必須滿足以下兩個(gè)條件:
1)分類面對(duì)所有樣本都能正確分類,即:yi
2)正例和反例之間的隔離邊緣最遠(yuǎn).即下式最大.
所以尋找最優(yōu)超平面即正反例間隔最大化問(wèn)題,最終歸結(jié)為一個(gè)約束優(yōu)化問(wèn)題,即:
使用Lagrange乘子法建立Lagrange函數(shù):
求解出對(duì)偶問(wèn)題的最優(yōu)解,設(shè)用a*i表示最優(yōu)的Lagrange乘子,則此時(shí)原問(wèn)題的最優(yōu)解為:
則最優(yōu)判別函數(shù)為:
該判別函數(shù)是用來(lái)解決二分類問(wèn)題的.對(duì)于工程中出現(xiàn)的多分類問(wèn)題,一般采用將多分類問(wèn)題歸結(jié)為多個(gè)兩類問(wèn)題分別處理,通過(guò)組合多個(gè)二分類支持向量機(jī)(binary support vectormachine,BSVM)實(shí)現(xiàn)多類分類.目前常用的方法有:一對(duì)多、一對(duì)一、導(dǎo)向無(wú)環(huán)圖、二叉樹等.本文采用一對(duì)一的方式實(shí)現(xiàn)多類分類,這種方式是在任意兩類樣本之間訓(xùn)練一個(gè)SVM,對(duì)于K類樣本需要構(gòu)造K(K-1)/2個(gè)SVM.預(yù)測(cè)時(shí),對(duì)于一個(gè)樣本用所有的SVM進(jìn)行分類,累計(jì)各類別的預(yù)測(cè)得分,選擇得分最高者所對(duì)應(yīng)的類別為測(cè)試數(shù)據(jù)的類別.即通過(guò)投票的決策方式,由二分類支持向量機(jī)解決了多分類問(wèn)題.
基于支持向量機(jī)的圖像深度提取方法的結(jié)構(gòu)如圖2所示,系統(tǒng)處理分為數(shù)據(jù)準(zhǔn)備和SVM學(xué)習(xí)兩階段完成.在數(shù)據(jù)準(zhǔn)備階段,通過(guò)處理深度圖獲得分類標(biāo)簽,在原始圖像中提取深度特征構(gòu)成特征向量.在SVM學(xué)習(xí)階段,首先需要確定核函數(shù)及其參數(shù);然后根據(jù)數(shù)據(jù)準(zhǔn)備階段獲得的分類標(biāo)簽以及特征向量訓(xùn)練SVM建立分類模型;最后,使用該模型以及特征向量,由SVM對(duì)未知深度的圖像進(jìn)行預(yù)測(cè),最終獲得其深度圖.
圖2 基于支持向量機(jī)的圖像深度提取方法的結(jié)構(gòu)框圖
本文深度預(yù)測(cè)是以宏塊為單位進(jìn)行的,通過(guò)預(yù)測(cè)每個(gè)宏塊的深度來(lái)獲取一幀圖像的深度圖.所以將深度圖以及原始的二維圖像分成固定尺寸N×N的宏塊.則對(duì)于任意一個(gè)宏塊patch(i),以其塊內(nèi)像素深度的均值作為該宏塊的深度另外,人眼在觀察二維圖像時(shí),會(huì)將景物按深度不同分成不同的深度層,在本設(shè)計(jì)中為了方便處理,將宏塊的深度量化到l個(gè)層中處理.相應(yīng)的層號(hào)作為該宏塊在SVM多類分類器中的分類標(biāo)簽經(jīng)過(guò)綜合考慮主觀感受和處理復(fù)雜度,本文將宏塊尺寸選為、層數(shù)選為16.
二維圖像在制作過(guò)程中已經(jīng)丟失了大量的深度信息,要恢復(fù)其深度信息則需要根據(jù)殘留在圖像中不同的線索提取深度特征,這對(duì)推斷深度來(lái)說(shuō)是一個(gè)非常重要的前提.本研究的深度特征提取借鑒文獻(xiàn)[6]中絕對(duì)深度特征的提取方法.
觀看二維圖像的直觀經(jīng)驗(yàn)表明,利用一個(gè)單獨(dú)宏塊很難預(yù)測(cè)其自身的深度信息,必須參考場(chǎng)景中與其直接相鄰的景物或更大范圍內(nèi)的景物才能夠判斷出其深度.例如,對(duì)于一個(gè)孤立的藍(lán)色宏塊,我們無(wú)法判斷出它是遠(yuǎn)處的天空,還是近處藍(lán)色物體的一部分.這就要求在深度判斷過(guò)程中,要充分考慮深度特征的全局特性.因此,在原始圖像中建立多尺度空間一階鄰域系統(tǒng),如圖3所示.這樣可以將與中心宏塊直接相鄰的宏塊以及離它較遠(yuǎn)的宏塊(在更大的尺度中)的特征引入深度判斷.另外,由于在圖像中的景物(如樓房、樹木、人等)大多數(shù)是垂直的,將宏塊所在的列分成相等的4部分,形成可以捕捉該宏塊的垂直屬性的4個(gè)列宏塊.這樣,對(duì)于一個(gè)小宏塊來(lái)說(shuō),就獲得19個(gè)與其有空間約束關(guān)系的宏塊來(lái)表示其特征(5patchs/scale×3scales+4columnpatchs=19patchs).
圖3 多尺度一階臨域系統(tǒng)
在圖象中,不同深度的景物表現(xiàn)出的紋理變化、紋理梯度、霧度等特征也不同.因此,本研究利用給定的一組濾波器濾波(如圖4所示),根據(jù)這三個(gè)線索來(lái)獲得圖像的深度特征.其中,前9個(gè)模板是由Laws提出的一組3*3 Laws模板,可以用來(lái)檢測(cè)圖像中局部均值、邊緣、斑點(diǎn)等紋理變化信息;后6個(gè)5*5模板是定向偵測(cè)器,可以提取圖像中紋理梯度信息.對(duì)于YUV測(cè)試序列,大多數(shù)紋理變化及紋理梯度信息都存在于Y通道中、而大氣散射則在U、V通道的低頻部分比較明顯,所以采用濾波器作用于圖像的Y通道求得紋理變化和紋理梯度;利用第一個(gè)Laws模板作用于圖像的U、V兩個(gè)通道求得霧度.將上述17個(gè)濾波器Fn(x,y)(其中:n=1,…,17)與圖像I(x,y)卷積,并求其絕對(duì)能量和以及平方能量和,即
對(duì)于每個(gè)中心宏塊i就獲得了由646維數(shù)據(jù)特征向量.
圖4 Laws模板與方向偵測(cè)器
在SVM處理階段,首先要確定SVM所采用的核函數(shù)、參數(shù)、以及數(shù)據(jù)預(yù)處理的方式.目前對(duì)于SVM的核函數(shù)、參數(shù)選擇都沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),使用過(guò)程中一般都需要通過(guò)經(jīng)驗(yàn)或者實(shí)驗(yàn)對(duì)比確定.另外,避免在訓(xùn)練時(shí)為了計(jì)算核函數(shù)而計(jì)算內(nèi)積的時(shí)候引起數(shù)值計(jì)算的困難.通常將數(shù)據(jù)縮放到[-1,1]或者是[0,1]之間.實(shí)驗(yàn)中借助交互檢驗(yàn)實(shí)驗(yàn)對(duì)比的方法進(jìn)行核函數(shù)、參數(shù)以及數(shù)據(jù)縮放方式進(jìn)行選擇選擇.
為了驗(yàn)證算法的有效性,利用本文基于SVM的多線索深度提取算法分別對(duì)測(cè)試序列balloons、newspaper、lovebird中的第50幀進(jìn)行了深度圖生成實(shí)驗(yàn).實(shí)驗(yàn)中,采用Matlab完成數(shù)據(jù)準(zhǔn)備工作,采用Libsvm軟件包進(jìn)行訓(xùn)練和預(yù)測(cè).實(shí)驗(yàn)結(jié)果如圖5中所示,由左到右依次為原始圖像、真實(shí)深度圖、量化后的深度圖以及預(yù)測(cè)出的深度圖.實(shí)驗(yàn)中的準(zhǔn)確率分別為82.55%、85.799 2%、94.059 2%.實(shí)驗(yàn)結(jié)果表明,本文所提算法在這幾種情況下均能獲得較好的效果.
本文提出的基于SVM的多線索深度提取算法,利用SVM學(xué)習(xí)訓(xùn)練樣本中多線索的結(jié)合規(guī)則,將紋理變化、紋理梯度、霧度等線索結(jié)合在一起判斷深度信息,從而提高了深度提取的準(zhǔn)確性.本文通過(guò)實(shí)驗(yàn)驗(yàn)證了該方案的可行性.與單線索深度提取算法相比,該算法在不同場(chǎng)景中都能得到較好的深度圖.由于SVM可以通過(guò)增加特征向量的維數(shù)來(lái)增加使用更多的線索,所以對(duì)二維圖像中深度線索提取的研究以及如何選擇更加有效的深度特征作為SVM的特征矩陣是接下來(lái)的研究中的重點(diǎn).
圖5 實(shí)驗(yàn)結(jié)果對(duì)比
[1]CHRISTOPH F.A 3D-TV Approach Using Depth-Image-Based Rendering(DIBR)[C]//Visualization,Imaging,and Image Processing(VIIP),Benalmadena,Spain.2003,482--487.
[2]CHAOCHUNG C,CHENGTE L,POSUN H.A Block-based 2D-to-3D Conversion System with Bilateral Filte[C]//International Conference on Consumer Electronics,Las Vegas,NV,USA.2009:1-4.
[3]FENG X,GUIHUA E,XUDONG X,et al.2D-to-3D Conversion Based on Motion and Color Mergence[C]//3DTV Conference:The True Vision-Capture,Transmission and Display of 3D Video,Istanbul,Turkey,2008:205–208.
[4]SHAOJIE Z,TERENCES.Defocusmap estimation from a single image[J].Pattern Recognition,2011(5):1852–1858.
[5]YUE F,JAYASEELAN J,JIANG J.Cue based disparity estmation for possible2D to3D video conversion[C]//Visual Information Engineering.IET International Conference,Bangalore,India.2006:384-388
[6]ASHUOTSH S,JAMIE S,ANDREW Y N.Depth estimation usingmonocular and stereo cues[C]//International Joint Conference on Artificial Intelligence(IJCAI),Hyderabad,India.2007:2197-2203.