宗 敏
(韓國(guó)清州大學(xué) 藝術(shù)學(xué)院,韓國(guó) 清州 28497;濰坊學(xué)院 傳媒學(xué)院,山東 濰坊 261061)
對(duì)圖像進(jìn)行三維重構(gòu)是目前計(jì)算機(jī)視覺(jué)領(lǐng)域研究的一個(gè)難點(diǎn),其通過(guò)從實(shí)際圖像中得到準(zhǔn)確的幾何信息[1],實(shí)現(xiàn)對(duì)圖像精準(zhǔn)的虛擬還原.目前主要有兩種三維圖像重建技術(shù): 1) 利用激光掃描儀、深度掃描儀等對(duì)空間目標(biāo)進(jìn)行三維立體測(cè)量;2) 將空間對(duì)象從影像中還原成立體結(jié)構(gòu),又稱為機(jī)器視覺(jué)[2-3].與第一種方法相比,基于圖像的三維重構(gòu)技術(shù)更易獲取真實(shí)場(chǎng)景中的數(shù)據(jù),隨著成像分辨率的提高,重構(gòu)模型的精度也逐漸提升,應(yīng)用領(lǐng)域更廣泛.霍林生等[4]提出了一種基于圖像壓縮算法的地震損傷三維模型快速重構(gòu)方法,根據(jù)所得圖像重構(gòu)出結(jié)構(gòu)的三維數(shù)字模型;張豪等[5]提出了一種基于深度學(xué)習(xí)的重建方法,將所得的深度圖像轉(zhuǎn)化為三維模型,并通過(guò)三維對(duì)抗生成網(wǎng)絡(luò),判定重建出的三維模型是否具有可信度,從而構(gòu)建出真實(shí)的三維圖像模型.
雖然上述方法取得了一定進(jìn)展,但構(gòu)建的圖像精準(zhǔn)度較低,細(xì)節(jié)部分不精細(xì),因此本文提出一種基于機(jī)器學(xué)習(xí)的三維數(shù)字圖像虛擬場(chǎng)景重建算法.該算法的創(chuàng)新點(diǎn)是處理三維數(shù)字圖像,實(shí)現(xiàn)了紋理和角點(diǎn)的匹配,校正局部細(xì)節(jié),利用分類器抑制離散特征點(diǎn),提高重建效率,去除多余特征,分割點(diǎn)集得到近似擬合函數(shù),分割三維曲面完成圖像重建.實(shí)驗(yàn)結(jié)果表明,本文算法重建性能較好.
在虛擬場(chǎng)景重建過(guò)程中,用場(chǎng)景的狀態(tài)和指示[6]對(duì)三維數(shù)字圖像進(jìn)行繪制[7],將圖像的擴(kuò)散角度設(shè)為10°,并以中間線為標(biāo)準(zhǔn),表達(dá)式為
(1)
其中u(R)表示三維數(shù)字圖像中呈現(xiàn)數(shù)目,R表示圖像半徑.圖像的中心像素點(diǎn)分布基于gi=(gix,giy,giz)(i=0,1,2,…,Ng-1)特征空間模型,得到三維數(shù)字虛擬圖像重構(gòu)網(wǎng)格模型G中第i個(gè)頂點(diǎn)的分布情況[8]:
(2)
其中η表示三維數(shù)字虛擬圖像重構(gòu)的網(wǎng)格變形因子,φ表示網(wǎng)格密度.從平面到中心線的縱向距離出發(fā),得出初始樣本點(diǎn)與繪制幀之間的關(guān)系為
(3)
其中n0表示圖像表面積,rpeak表示圖像周長(zhǎng),L表示圖像高度[9].在三維虛擬場(chǎng)景中,給出相應(yīng)的插值結(jié)果為
(4)
其中D表示插值系數(shù),ltriangle表示相似度計(jì)算參數(shù).
采用局部坐標(biāo)法對(duì)圖像進(jìn)行全局近似[10-11],獲得三維數(shù)字圖像的層次數(shù),并對(duì)其進(jìn)行紋理渲染和角點(diǎn)配準(zhǔn)[12],校正局部細(xì)節(jié),進(jìn)行矢量反加權(quán)處理,得出三維數(shù)字圖像虛擬場(chǎng)景重建后的曲面像素特征分布,對(duì)三維數(shù)字圖像實(shí)行平滑操作[13],得到三維坐標(biāo)系中的平滑算子為
(5)
在此基礎(chǔ)上,完成三維數(shù)字圖像的渲染處理,根據(jù)所得效果抽取出相應(yīng)的特征并匹配,從而完成三維數(shù)字圖像虛擬場(chǎng)景的繪制.
為削弱在圖像角度提取中像素的變化程度,用下式降采樣建立符合規(guī)模的金字塔:
(6)
其中K(x,y,σ)表示圖像的標(biāo)度空間,G(x,y,σ)表示高斯核函數(shù)[14],(x,y)表示像素坐標(biāo),I(x,y)表示輸入的二維圖像,σ表示比例空間系數(shù).
在金字塔的各標(biāo)度上進(jìn)行Harris特征提取,以在空間和尺度上檢測(cè)到的極值點(diǎn)為特征點(diǎn).根據(jù)響應(yīng)函數(shù)在每一標(biāo)度圖像上構(gòu)建相應(yīng)的窗口檢測(cè)模板[15],可表示為
(7)
其中g(shù)x和gy分別表示沿x和y方向的圖像梯度[16],λ1,λ2表示矩陣M的兩個(gè)特征數(shù),k表示不為零的常數(shù).利用分類器對(duì)獲得的離散特征點(diǎn)實(shí)行極大抑制[17],以得到穩(wěn)定的特征數(shù)值.
根據(jù)特征點(diǎn)的位置,畫(huà)出8×8的區(qū)域,并求出各像素點(diǎn)的梯度方向,表達(dá)式為
(8)
其中m(x,y)表示梯度模值[18],θ(x,y)表示梯度方向,K表示特征點(diǎn)的標(biāo)度.用梯度直方圖的形式對(duì)區(qū)域內(nèi)的梯度模值和方向進(jìn)行統(tǒng)計(jì),在0°~360°方向上,將各10°角的柱體分成8根,橫坐標(biāo)表示直方圖的梯度方向,直方圖的高度表示梯度模值,如圖1所示.特征點(diǎn)主要方向是直方圖的峰值方向,在特征點(diǎn)的輔助方向上,僅保留峰值超過(guò)80%的方向,以提高匹配的魯棒性[19].
圖1 像素梯度和模值統(tǒng)計(jì)Fig.1 Pixel gradient and simulation statistics
利用特征點(diǎn)方向、尺度、坐標(biāo)等信息,求出坐標(biāo)軸方向,并在4×4的視窗內(nèi),通過(guò)對(duì)8個(gè)方向上的梯度信息進(jìn)行處理,獲得128維向量的特征,即一個(gè)描述子.傳統(tǒng)尺度不變特征轉(zhuǎn)換(SIFI)方法計(jì)算很耗時(shí),導(dǎo)致實(shí)時(shí)性差,因此本文將128維的特征矢量二值化,以f=(f1,f2,…,fi,…,f128)為特征矢量,定義二值化函數(shù)為
(9)
其中w表示臨界點(diǎn).求f的中間值,將f矢量轉(zhuǎn)換成二進(jìn)制矢量,可極大減少匹配運(yùn)算的時(shí)間.
兩個(gè)特征點(diǎn)的匹配采用歐氏距離法,將待配點(diǎn)p,q的特征描述符用Desp,Desq表示,歐氏距離的計(jì)算公式為
(10)
該方法通過(guò)使用有限k-d樹(shù)進(jìn)行查找,以提高重建效率,最后利用隨機(jī)抽樣一致性算法去除不符合要求的特征點(diǎn).基于上述過(guò)程對(duì)場(chǎng)景渲染處理,通過(guò)特征提取和匹配能對(duì)初始的視差進(jìn)行校準(zhǔn),重建三維數(shù)字圖像虛擬場(chǎng)景.
圖2 三維數(shù)字圖像重建過(guò)程Fig.2 Reconstruction process of 3D digital image
通過(guò)對(duì)場(chǎng)景渲染處理和特征提取,獲得三維數(shù)字空間特征點(diǎn),得到場(chǎng)景目標(biāo)表面的三維點(diǎn)云圖,構(gòu)建出完整的三維數(shù)字圖像結(jié)構(gòu).圖2為三維數(shù)字圖像虛擬場(chǎng)景重建過(guò)程[20].最初三維點(diǎn)云的表面會(huì)出現(xiàn)突起點(diǎn)和凹點(diǎn),導(dǎo)致重建表面不連續(xù),出現(xiàn)漏洞,因此需要對(duì)三維點(diǎn)云進(jìn)行優(yōu)化,消除噪點(diǎn),采用擬合函數(shù)法求出平滑后的三維坐標(biāo).
假設(shè)點(diǎn)集的整體擬合函數(shù)為χ,分割點(diǎn)集,則近似擬合坐標(biāo)函數(shù)公式為
ηχ=δ(χ)×?s,
(11)
其中ηχ表示擬合函數(shù),?s表示基函數(shù)數(shù)量,δ表示待分割的點(diǎn)集數(shù)目.根據(jù)式(11)的計(jì)算結(jié)果,采用最小二乘法重建三維曲面,以一個(gè)空間內(nèi)的一個(gè)點(diǎn)為圓心,將該圓心投影到切面上,再用貪婪算法對(duì)該曲面進(jìn)行局部二維三角分割,將其映射到三維空間內(nèi),構(gòu)成一個(gè)完美的曲面,從而實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)的三維數(shù)字圖像虛擬場(chǎng)景重建.
為驗(yàn)證本文算法的有效性,進(jìn)行仿真實(shí)驗(yàn).以某三維數(shù)字圖像虛擬場(chǎng)景作為研究對(duì)象,實(shí)驗(yàn)參數(shù)設(shè)置如下: 工作功率≤5 W,遙感圖像數(shù)量為100張,時(shí)間間隔為20 s,分辨率為200像素,圖像輸出為1 280像素×720像素和1 920像素×1 080像素,防護(hù)等級(jí)為一級(jí).
圖3 分類器驗(yàn)證損失函數(shù)Fig.3 Loss function of classifier verification
分類器主要是對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行特征提取,即利用所抽取的特征矢量重建三維數(shù)字虛擬場(chǎng)景,得到點(diǎn)云數(shù)據(jù).在分類訓(xùn)練階段,每次訓(xùn)練結(jié)束后,對(duì)驗(yàn)證集進(jìn)行校驗(yàn),得出校驗(yàn)集合的損失曲線.圖3為3種不同算法的損失曲線.由圖3可見(jiàn): 圖像壓縮算法得到的損失函數(shù)最小可達(dá)218;深度學(xué)習(xí)算法損失函數(shù)的最小值可達(dá)213;本文算法損失函數(shù)的最小值可達(dá)205.與其他兩種算法相比,本文算法得到的驗(yàn)證集損失函數(shù)值較小.在固定橫坐標(biāo)值下,當(dāng)?shù)螖?shù)為3 000時(shí),3種算法的損失值分別為219,216和210.在固定縱坐標(biāo)值下,當(dāng)損失值降低至220時(shí),其他兩種算法在1 000次迭代,本文算法在900次迭代.實(shí)驗(yàn)結(jié)果表明,本文算法的收斂速度和效果均優(yōu)于其他兩種對(duì)比算法.
圖4 三維圖像重建網(wǎng)絡(luò)驗(yàn)證集Chamfer距離對(duì)比Fig.4 Comparison of Chamfer distance of 3D image reconstruction network verification set
驗(yàn)證集的Chamfer距離(倒角距離)表示每個(gè)點(diǎn)到最近特征點(diǎn)的距離,其數(shù)值越小證明重建圖像效果越好.圖4為三維圖像重建網(wǎng)絡(luò)驗(yàn)證集Chamfer距離對(duì)比.由圖4可見(jiàn): 圖像壓縮算法的損失函數(shù)隨著迭代次數(shù)的增加而下降,在第500次迭代時(shí),降低到0.049;而深度學(xué)習(xí)算法比圖像壓縮算法的損失函數(shù)更低,表示三維重建效果較好;本文算法與其他兩種算法相比損失值最低,隨著迭代次數(shù)增加損失值達(dá)0.048以下,因此本文算法對(duì)三維圖像重建效果最佳,收斂性較快.
用一把椅子做實(shí)驗(yàn)對(duì)象,能明顯看出不同算法對(duì)原始圖像中靠背和椅子腿的空洞部分的描述.將3種算法的實(shí)驗(yàn)結(jié)果可視化,如圖5所示.圖5(A)為需要重建的圖像,以此作為圖像構(gòu)建的基準(zhǔn).由圖5(B)可見(jiàn),圖像壓縮算法重建的椅子圖像靠背處空洞和椅子腿部分沒(méi)有被很好地呈現(xiàn),尤其是椅子腿位置已看不出任何形狀,視覺(jué)觀察只是各種點(diǎn)狀,重構(gòu)圖像整體效果不佳.由圖5(C)可見(jiàn),深度學(xué)習(xí)算法雖然整體椅子形狀顯示出來(lái)了,但明顯觀察到表面呈現(xiàn)一些冗余的紋理,與重建圖像有較大差異,但相對(duì)圖像壓縮算法總體效果較好.由圖5(D)可見(jiàn),本文算法重建的圖像效果最佳,邊緣輪廓以及細(xì)節(jié)部分分布均勻,重構(gòu)更精細(xì),椅子表面平整,精準(zhǔn)度比其他兩種算法都高.因此本文算法對(duì)三維數(shù)字圖像重建完整性更好,細(xì)節(jié)精度也較高,能呈現(xiàn)清晰紋理.
實(shí)驗(yàn)結(jié)果表明,本文算法的收斂速度和效果優(yōu)于其他兩種對(duì)比算法,得到的驗(yàn)證集損失函數(shù)值較小;同時(shí)本文算法重建的圖像效果最佳,邊緣輪廓以及圖像細(xì)節(jié)部分分布均勻,重構(gòu)更精細(xì),完整性更好,能呈現(xiàn)出清晰紋理.
圖5 三維圖像重建可視化結(jié)果比較Fig.5 Comparison of 3D image reconstruction visualization results
綜上可見(jiàn),針對(duì)傳統(tǒng)的三維重構(gòu)技術(shù)主要采用三維模型,使得三維重建工作量較大,耗時(shí)較長(zhǎng),模型的構(gòu)建效率較低,已無(wú)法滿足人們生產(chǎn)和生活需要的問(wèn)題,本文提出了一種基于機(jī)器學(xué)習(xí)的三維數(shù)字圖像虛擬場(chǎng)景重建算法.首先,將三維數(shù)字圖像進(jìn)行紋理渲染,角點(diǎn)配準(zhǔn),并對(duì)局部細(xì)節(jié)進(jìn)行校正,獲得去除噪聲圖像;其次,采用分類器對(duì)離散特征點(diǎn)進(jìn)行抑制,增強(qiáng)重建效率,剔除多余的特征,利用點(diǎn)集得到近似擬合函數(shù);最后,對(duì)三維圖像表面分割,實(shí)現(xiàn)三維數(shù)字圖像虛擬場(chǎng)景重建.通過(guò)實(shí)驗(yàn)可得如下結(jié)論:
1) 本文算法得到的驗(yàn)證集損失函數(shù)值較小,在固定的縱坐標(biāo)值中,當(dāng)損失值降低至220時(shí),其他兩種對(duì)比算法在1 000次迭代,本文算法在900次迭代,表明本文算法的收斂速度和效果均優(yōu)于其他兩種算法.
2) 本文算法重建的圖像效果最佳,邊緣輪廓以及圖像細(xì)節(jié)部分分布均勻,對(duì)三維數(shù)字圖像重建有較好的完整性,細(xì)節(jié)精度較高,能呈現(xiàn)清晰紋理特征.