張 敏, 蘇新彥, 白 樺
(1. 中北大學(xué) 信息探測(cè)與處理山西省重點(diǎn)實(shí)驗(yàn)室, 山西 太原 030051; 2. 首都航天機(jī)械公司, 北京 100076)
基于相機(jī)陣列的多視角成像[1-2]通過(guò)單次采樣獲得物體的空間信息, 得到圖像序列, 保證了時(shí)間的一致性, 可以克服現(xiàn)有立體匹配[3-4]算法中環(huán)境等造成的誤差, 降低了誤匹配率, 使得得到的深度圖輪廓更加清晰. 基于多視角成像的測(cè)距相比于雙目立體視覺(jué)的測(cè)距, 前者獲得的視角信息更加豐富, 進(jìn)一步擴(kuò)展了匹配空間, 使配準(zhǔn)更加準(zhǔn)確, 得到的重建效果更好. 基于相機(jī)陣列的多視角成像同時(shí)記錄了場(chǎng)景點(diǎn)的角度信息和位置信息, 相比于傳統(tǒng)成像多了兩個(gè)維度, 可以很好地用于深度圖像的重建[5-6].
目前, 基于場(chǎng)景信息的深度估計(jì)算法已經(jīng)取得了一些研究. Bolles等[7]最先提出了極平面圖像(Extremeplane image, EPI)這一概念, 并將它運(yùn)用到多視角圖像中, 根據(jù)EPI特定的線性結(jié)構(gòu), 通過(guò)計(jì)算直線的斜率來(lái)間接地對(duì)場(chǎng)景的深度進(jìn)行估計(jì); Criminisi等[8]提出一種分層的思想, 通過(guò)迭代將EPI分成不同深度的EPI管, 并通過(guò)分類(lèi)整理, 去除EPI管中由于鏡面反射造成影響的信息, 重建圖像; Tao[9]等根據(jù)得到的光場(chǎng)相機(jī)數(shù)據(jù)集, 首先將聚焦區(qū)域與離焦模糊區(qū)域相融合, 在復(fù)雜的紋理與深度信息不連續(xù)的場(chǎng)景中, 取得了相對(duì)好的深度重建結(jié)果; Wanner等[10-11]提出一種基于能量最小化的深度估計(jì)方法, 利用結(jié)構(gòu)張量并結(jié)合EPI來(lái)估計(jì)局部視差, 并進(jìn)一步進(jìn)行全局能量?jī)?yōu)化, 得到全局優(yōu)化的深度圖, 雖然得到的結(jié)果更加平滑, 但是犧牲了一些細(xì)節(jié)信息; Kim等[12]提出由精到粗的深度擴(kuò)散方法, 首先根據(jù)邊緣置信度, 計(jì)算場(chǎng)景的邊緣輪廓信息, 再依次通過(guò)降采樣來(lái)計(jì)算輪廓內(nèi)部的深度, 能夠得到較多細(xì)節(jié)信息的邊緣深度圖, 但是它的深度擴(kuò)散算法需要在整個(gè)深度范圍內(nèi)搜索擴(kuò)散, 時(shí)間復(fù)雜度太高, 不適合廣泛應(yīng)用.
本文針對(duì)Kim算法深度擴(kuò)散中時(shí)間復(fù)雜度太高的問(wèn)題, 在其算法的基礎(chǔ)上進(jìn)行改進(jìn). 首先, Kim算法是對(duì)每一個(gè)存儲(chǔ)的邊緣深度點(diǎn)在整個(gè)深度范圍內(nèi)搜索, 對(duì)非邊緣區(qū)域進(jìn)行擴(kuò)散, 時(shí)間復(fù)雜度高. 本文是針對(duì)非邊緣平滑區(qū)域的像素點(diǎn), 在存儲(chǔ)的邊緣深度范圍內(nèi)進(jìn)行搜索, 找到最相近的深度進(jìn)行擴(kuò)散. 因?yàn)槭窃诖鎯?chǔ)的邊緣深度范圍內(nèi)進(jìn)行搜索, 而非整個(gè)深度范圍, 所以時(shí)間復(fù)雜度大大降低. 其次, Kim算法是在EPI中, 對(duì)單個(gè)視角中的像素進(jìn)行深度相似性匹配, 誤匹配率很高. 本文是在EPI中沿著斜率的方向, 針對(duì)在多視角下的同名點(diǎn), 計(jì)算同名點(diǎn)下的均值輻射度, 找到最相匹配的斜率, 提高了匹配的精準(zhǔn)度.
深度擴(kuò)散就是利用存儲(chǔ)的邊緣深度信息, 按照一定的約束, 將沒(méi)有計(jì)算深度的非邊緣平滑區(qū)域填充上與之相匹配的深度值. 在Kim算法中, 約束條件是使?jié)M足‖E(s′,u′)-r‖<ε的E(s′,u′)對(duì)應(yīng)的像素點(diǎn)為深度賦值r所對(duì)應(yīng)的深度值.
Kim算法是把每一個(gè)存儲(chǔ)的邊緣深度點(diǎn)在整個(gè)EPI范圍內(nèi)搜索, 尋找相近似的深度, 對(duì)非邊緣區(qū)域進(jìn)行擴(kuò)散. 本文是把每一個(gè)非邊緣平滑區(qū)域的像素點(diǎn)在存儲(chǔ)的邊緣深度范圍內(nèi)尋找最相近的深度進(jìn)行擴(kuò)散, 是在邊緣深度范圍內(nèi)進(jìn)行搜索, 而非整個(gè)EPI范圍. 我們知道, 邊緣圖像的深度信息范圍已經(jīng)包含了場(chǎng)景中圖像整體的深度范圍, 所以非邊緣平滑區(qū)域的深度, 一定包含在此深度范圍中. 也就是某非邊緣平滑區(qū)域像素點(diǎn)的深度, 一定有一個(gè)對(duì)應(yīng)的邊緣深度點(diǎn)與之相匹配.
本文的算法, 首先將對(duì)EPI計(jì)算得到的邊緣深度存儲(chǔ)在一個(gè)線段元組I中,I=[d,u,s,r], 其中d為計(jì)算得到的視差,u和s為對(duì)應(yīng)的位置坐標(biāo),r=E(s,u)存儲(chǔ)了顏色信息. 利用這些邊緣信息, 在EPI中對(duì)非邊緣平滑區(qū)域進(jìn)行擴(kuò)散. 擴(kuò)散的核心思想是: 對(duì)非邊緣平滑區(qū)域的像素點(diǎn), 遍歷線性元組I中的視差值, 計(jì)算在該視差下的同名點(diǎn)的顏色集合R(u,d), 取這個(gè)集合的均勻輻射值r′, 計(jì)算每一個(gè)視差所對(duì)應(yīng)的e=‖r′-r‖, 將計(jì)算得到的e存儲(chǔ)在矩陣E中, 并從小到大排序. 最多在矩陣E中找到前3個(gè)值存儲(chǔ); 對(duì)存儲(chǔ)的前幾個(gè)值, 綜合考慮距離與相似性e, 取e<ε且距離相對(duì)較近時(shí)所對(duì)應(yīng)的視差, 將這個(gè)最匹配的視差賦值給需要擴(kuò)散的非平滑區(qū)域的像素點(diǎn), 完成擴(kuò)散.
對(duì)一個(gè)M*N的圖像來(lái)綜合分析兩種擴(kuò)散算法的時(shí)間復(fù)雜度. 假設(shè)在每個(gè)EPI中計(jì)算得到的邊緣點(diǎn)都相等, 為m個(gè); 計(jì)算每一個(gè)同名點(diǎn)顏色集合的均勻輻射值需要時(shí)間t1, 計(jì)算e需要時(shí)間t2, 比較e<ε需要時(shí)間t3, 對(duì)矩陣E排序需要時(shí)間t4, 排序在matlab中有調(diào)用函數(shù), 所以t4相對(duì)較小. 對(duì)于Kim算法, 考慮一個(gè)EPI, 它的外循環(huán)是1∶m, 它的內(nèi)循環(huán)是1∶N, 所有的計(jì)算都在內(nèi)循環(huán)里, 所以它需要mN個(gè)t1+t2+t3. Kim算法擴(kuò)散總的時(shí)間為mN(t1+t2+t3), 它的時(shí)間復(fù)雜度為O(mN). 對(duì)于本文改進(jìn)的深度擴(kuò)散算法, 相同條件下, 它的外循環(huán)是1∶N, 內(nèi)循環(huán)是1∶m,t1在內(nèi)循環(huán)體內(nèi),t3和t4在外循環(huán)體內(nèi), 它擴(kuò)散需要總的時(shí)間為N(mt1+t4+3t3), 算法的時(shí)間復(fù)雜度為O(N). 可以發(fā)現(xiàn), 時(shí)間復(fù)雜度降低了.
實(shí)驗(yàn)基于文獻(xiàn)[12]算法所提供的數(shù)據(jù)集和斯坦福數(shù)據(jù)庫(kù)進(jìn)行測(cè)試, 在Microsoft Windows 7 操作系統(tǒng)下, Intel Core(TM) i5-2410 2.26GHz以及Matlab R2014b的仿真軟件下進(jìn)行驗(yàn)證.
圖 1 為深度估計(jì)實(shí)驗(yàn)對(duì)比圖. 可以發(fā)現(xiàn), 相對(duì)于文獻(xiàn)[12]的算法, 本算法在非邊緣平滑區(qū)域得到更多的細(xì)節(jié)信息, 擴(kuò)散效果更好. 另外, 本算法也較好地保持了圖像的邊緣信息, 同時(shí)運(yùn)行時(shí)間大大縮短, 幾乎為文獻(xiàn)[12]算法的3/5, 明顯地降低了時(shí)間復(fù)雜度, 適合于快速估計(jì)深度.
圖 1 深度估計(jì)實(shí)驗(yàn)對(duì)比圖Fig.1 Experimental contrast diagram of depth estimation
圖 1 中, 上邊為Kim數(shù)據(jù)集, 下邊為斯坦福數(shù)據(jù)集. (a)數(shù)據(jù)集的原圖; (b)文獻(xiàn)[12]結(jié)果圖; (c)本文算法結(jié)果圖.
表 1 給出了相應(yīng)的運(yùn)行時(shí)間.
表 1 運(yùn)行時(shí)間
本文在Kim算法基礎(chǔ)上, 對(duì)其深度擴(kuò)散算法進(jìn)行改進(jìn), 將原來(lái)的全局搜索, 改變?yōu)樵谶吘壣疃确秶鷥?nèi)的快速搜索, 明顯降低了算法的時(shí)間復(fù)雜度. 另外, 不是單一的對(duì)單個(gè)視角下像素點(diǎn)進(jìn)行擴(kuò)散, 而是沿著斜率的方向?qū)Χ鄠€(gè)視角進(jìn)行擴(kuò)散, 使非邊緣平滑區(qū)域的擴(kuò)散更加準(zhǔn)確, 減少不必要的錯(cuò)誤. 但是仍然可以發(fā)現(xiàn), 對(duì)于場(chǎng)景中的一些局部細(xì)節(jié)信息, 該算法不能夠很好地表現(xiàn)出來(lái), 依舊把它當(dāng)成一個(gè)整體. 所以, 在接下來(lái)的工作中, 我們應(yīng)該更加關(guān)注局部細(xì)節(jié)信息, 將距離相近的信息表現(xiàn)出來(lái), 得到更加具體的圖像深度信息.
參考文獻(xiàn):
[1]Lumsdaine A, Georgiev T. The focused plenoptic camera[C]. Computational Photography (ICCP), 2009 IEEE International Conference on. IEEE, 2009: 1-8.
[2]Georgiev T, Lumsdaine A. Superresolution with plenoptic camera 2.0[R]. Adobe Systems Incorporated, Tech. Rep, 2009.
[3]Yang Q. A non-local cost aggregation method for stereo matching[C]. IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2012: 1402-1409.
[4]Shi C, Wang G, Yin X, et al. High-accuracy stereo matching based on adaptive ground control points[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2015, 24(4): 1412.
[5]Geiger A, Roser M, Urtasun R. Efficient large-scale stereo matching[C]. Asian Conference on Computer Vision. Springer-Verlag, 2010: 25-38.
[6]Zhu Shiping,Yang Liu. Stereo matching algorithm with graph cuts based on adaptive watershed[J]. Acta Optica Sinica, 2013, 33(3): 0315004.
[7]Criminisi A, Kang S B, Swaminathan R, et al. Extracting layers and analyzing their specular properties using epipolar-plane-image analysis[J]. Computer Vision and Image Understanding, 2005, 97(1): 51-85.
[8]Tao M W, Hadap S, Malik J, et al. Depth from combining defocus and correspondence using light-field cameras[C]. IEEE International Conference on Computer Vision. IEEE Computer Society, 2013: 673-680.
[9]Wanner S, Goldluecke B. Variational light field analysis for disparity estimation and super- resolution. Pattern Analysis and Machine Intelligence[J]. IEEE Transactions on, 2014, 36(3): 606-619.
[10]Wanner S, Goldluecke B. Globally consistent depth labeling of 4D light fields[C]. Computer Vision and Pattern Recognition (CVPR), Conference on. IEEE, 2012: 41-48.
[11]Wanner S, Goldluecke B. Spatial and angular variational super- resolution of 4D light fields[J]. Computer Vision- ECCV 2012. Springer Berlin Heidelberg, 2012: 608-621.
[12]Kim C, Zimmer H, Pritch Y, et al.. Scene reconstruction from high spatio- angular resolution light fields[J]. ACM Transactions on Graphics, 2013, 32(4): 73-83.