国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的視差圖生成技術(shù)

2018-03-20 00:43:05朱俊鵬趙洪利楊海濤
計算機應(yīng)用 2018年1期
關(guān)鍵詞:視差視圖卷積

朱俊鵬,趙洪利,楊海濤

(1.裝備學(xué)院 研究生管理大隊,北京 101416; 2.裝備學(xué)院 訓(xùn)練部,北京 101416; 3.裝備學(xué)院 復(fù)雜電子系統(tǒng)仿真實驗室,北京 101416)(*通信作者電子郵箱523587076@qq.com)

0 引言

裸眼三維技術(shù),是基于硬件顯示技術(shù)的發(fā)展而興起的顯示方法,即人們在不使用三維輔助眼鏡的前提下,通過裸眼觀看到立體三維的效果,它有著比二維和普通三維顯示更加逼真的便捷體驗方式,目前在游戲、電影、廣告、醫(yī)療、交通、軍事等領(lǐng)域有著廣泛的應(yīng)用。從本質(zhì)上說裸眼三維顯示技術(shù)和普通的需要借助三維眼鏡的三維顯示技術(shù)最大的不同是前者將三維眼鏡“戴”到了屏幕上,人眼在相應(yīng)的范圍里觀看屏幕就能產(chǎn)生裸眼三維的效果,而并非兩者在三維圖像生成算法上的區(qū)別,同樣的算法借助不同的方式,都能實現(xiàn)三維顯示。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為機器學(xué)習(xí)的一個分支,它是一個含有多隱層的人工神經(jīng)網(wǎng)絡(luò),有著十分強大的特征提取能力,通過建立的訓(xùn)練模型從原始輸入端輸入的數(shù)據(jù)中提取更具體、更本質(zhì)的事物特征,從而有利于解決事物特征的分類和可視化分析。同時通過無監(jiān)督學(xué)習(xí)算法實現(xiàn)對輸入數(shù)據(jù)的分級表達,這樣就能降低深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度和訓(xùn)練規(guī)模[1]。

1 研究現(xiàn)狀與趨勢

1.1 三維圖像生成主流技術(shù)

結(jié)合計算機圖像處理技術(shù),目前常見的裸眼三維視頻生成方法主要有:基于水平視差的三維顯示算法[2]、基于深度圖像視點繪制(Depth Image-Based Rendering, DIBR)算法等主要的方法[3-4]。

基于水平視差的三維顯示主要利用人眼的特性,在人們裸眼觀察的前提下使顯示設(shè)備呈現(xiàn)出具有空間深度的影像,在轉(zhuǎn)換的過程中,通過平滑置換算法將右視圖以全局視差δ移動,通過反向映射得到左視圖。水平視差方法在處理過程中存在計算量過大、易出現(xiàn)空洞等現(xiàn)象且圖像效果欠佳。

具體的工作流程如圖1所示,由原圖生成的視差灰度圖通過平滑置換方法生成視差序列圖,由于視差圖會產(chǎn)生空洞所以通過平滑粘連補圖方法對視差圖進行補圖處理,將生成的左、右平滑灰度圖再次通過置換生成左、右視差序列圖,產(chǎn)生了粘連效果,接著通過消除粘連方法最終生成左眼視差圖和右眼視差圖,借助特殊的三維硬件顯示設(shè)備就能實現(xiàn)圖片的三維效果。

DIBR技術(shù)的主要工作原理是通過參考圖像及其相應(yīng)的深度圖合成具有新視點的視圖,稱之為新視圖,新視圖后續(xù)能夠構(gòu)成立體圖像對,通過相關(guān)算法產(chǎn)生新視圖,參考圖像和深度圖可分別通過普通攝像機和深度攝像機拍攝獲得。在實際操作中,DIBR技術(shù)通過三維圖像變換生成新視圖,但新視圖往往出現(xiàn)空洞現(xiàn)象。還需要在后續(xù)的操作中對圖像進行補圖處理。

DIBR算法工作流程如圖2所示,將參考圖片和相應(yīng)的深度圖作為輸入,輸入給DIBR,在DIBR算法中根據(jù)適當(dāng)?shù)膮?shù)生成多個視點的視圖,在生成的視圖中通常都包含了左視圖、右視圖以及在空間位置上對稱的圖像。再將生成的視圖融合成一幅圖像,通過硬件裸眼三維顯示器,就能夠?qū)崿F(xiàn)裸眼三維的效果。

圖1 水平視差算法流程

圖2 DIBR算法工作流程

1.2 三維圖像生成趨勢

隨著機器學(xué)習(xí)時代、大數(shù)據(jù)時代的到來,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像處理方面的能力得到了廣泛的應(yīng)用,相比傳統(tǒng)的方法,卷積神經(jīng)網(wǎng)絡(luò)對圖像的處理能夠避免出現(xiàn)圖像空洞的問題,且具備計算速度更快、學(xué)習(xí)效果良好的優(yōu)勢。卷積神經(jīng)網(wǎng)絡(luò)模型提供了一種端到端的學(xué)習(xí)模型,模型中的參數(shù)可以通過傳統(tǒng)的梯度下降方法進行訓(xùn)練,經(jīng)過訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到圖像中的特征,并且完成對圖像特征的提取、分類以及預(yù)測。在圖像分類、姿態(tài)估計、圖像分割等多個計算機視覺領(lǐng)域中有著大量的研究和成果[5]。

將卷積神經(jīng)網(wǎng)絡(luò)引入視差圖像的生成是未來圖像處理的一個全新方法,對于正在興起的裸眼三維來說將起到極大的促進作用。卷積神經(jīng)網(wǎng)絡(luò)模型通過學(xué)習(xí)后對輸入圖像進行視差圖片的生成過程,相比現(xiàn)有的方法既不會在轉(zhuǎn)換過程中出現(xiàn)空洞,也不用對特征圖進行補圖處理,不僅確保精確性也提高了效率,從而降低對內(nèi)部資源的消耗。

2 卷積神經(jīng)網(wǎng)絡(luò)

目前開源的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)有很多,本文使用的MXNet(Mix Net)學(xué)習(xí)系統(tǒng)包含卷積神經(jīng)網(wǎng)絡(luò),是一種為了滿足對二維輸入數(shù)據(jù)的處理而專門設(shè)計的一種多層人工神經(jīng)網(wǎng)絡(luò),每層網(wǎng)絡(luò)都由多個二維平面組成,每個平面也由相對獨立的多個神經(jīng)元組成,兩層相鄰的神經(jīng)元互相連接。卷積神經(jīng)網(wǎng)絡(luò)有著一個權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)使其更貼近生物神經(jīng)網(wǎng)絡(luò),與此同時通過調(diào)整網(wǎng)絡(luò)的深度和廣度可以改變網(wǎng)絡(luò)的容量,因此,使其能更加有效地降低網(wǎng)絡(luò)模型的復(fù)雜程度,具備更少的權(quán)值參數(shù)和網(wǎng)絡(luò)層數(shù),計算更加容易[6]。

典型的卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、上采樣層、全連接層和輸出層組成[5]。在本文中,將原始圖像W作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),用Si表示卷積神經(jīng)網(wǎng)絡(luò)的第i層特征圖,那么即有:

Si=W

(1)

假設(shè)Si是卷積層,那么Si的產(chǎn)生過程可以如下描述:

Si=f(Si-1?Hi+bi)

(2)

其中:Hi表示第i層卷積核的權(quán)值向量;“?”符號表示卷積核與第i-1層特征圖進行卷積運算,由于卷積運算的結(jié)果是存在一定偏移的,所以需要與第i層的偏移向量bi相加,最后經(jīng)過非線性的激勵函數(shù)f(x)最終得到第i層的特征圖Si。

卷積層之后通常是上采樣層,上采樣層根據(jù)相關(guān)的上采樣規(guī)則對卷積完成后的特征圖進行采樣,這一層的主要任務(wù)是對特征圖進行相應(yīng)的降維處理,其次還要保持特征圖的尺度不變特點[7]。假設(shè)Si是上采樣層,即有:

Si=upsampling(Si-1)

(3)

經(jīng)過多層卷積層和上采樣層的交替?zhèn)鬟f,通過全連接網(wǎng)絡(luò)對提取出來的特征進行相關(guān)的分類,總結(jié)出輸入的概率分布Y。卷積神經(jīng)網(wǎng)絡(luò)實際上就是一個讓原始矩陣(H0)進行多層數(shù)據(jù)變換和降維的過程,最后將得到的結(jié)果映射到新的數(shù)學(xué)特征表達模型中。如下:

Y(i)=P(L=li|S0:(H,b))

(4)

其中l(wèi)i為第i個標簽類別,從式(4)中分析可得卷積神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)進行訓(xùn)練的主要目的是最小化損失函數(shù)L(H,b)。輸入S0經(jīng)過前向傳導(dǎo)后通過損失函數(shù)計算出與期望值之間的差異,通常稱為“殘差”。常見的損失函數(shù)有均方誤差(Mean Squared Error, MSE)函數(shù)以及負對數(shù)似然(Negative Log Likelihood, NLL)函數(shù)等[8]:

(5)

(6)

在計算過程中會出現(xiàn)權(quán)值過度擬合的問題,損失函數(shù)最后通過增加L范數(shù)來控制權(quán)值的過擬合,由參數(shù)λ控制過擬合作用的強度[9]:

(7)

在訓(xùn)練過程中,通過使用梯度下降方法進行卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化。殘差通過梯度下降進行反向傳播,傳播過程中更新卷積神經(jīng)網(wǎng)絡(luò)每一層的可訓(xùn)練參數(shù)(H,b)。學(xué)習(xí)速率參數(shù)η主要控制殘差反向傳播的強度[9]:

(8)

(9)

卷積神經(jīng)網(wǎng)絡(luò)的工作流程分為三步進行,主要是網(wǎng)絡(luò)模型定義、網(wǎng)絡(luò)訓(xùn)練和網(wǎng)絡(luò)預(yù)測[6]。網(wǎng)絡(luò)模型定義,指網(wǎng)絡(luò)模型主要根據(jù)業(yè)務(wù)需求和數(shù)據(jù)的特征進行網(wǎng)絡(luò)深度、功能的設(shè)計。網(wǎng)絡(luò)訓(xùn)練,由于殘差的反向傳播能夠?qū)W(wǎng)絡(luò)中的參數(shù)進行訓(xùn)練,導(dǎo)致訓(xùn)練中出現(xiàn)過擬合和梯度的消逝與爆炸等問題,最終影響了訓(xùn)練的收斂性能;目前針對此問題提出了很多方法,隨著網(wǎng)絡(luò)規(guī)模和數(shù)據(jù)結(jié)構(gòu)的不斷擴大,也對相應(yīng)的網(wǎng)絡(luò)訓(xùn)練方法有了更高的要求。網(wǎng)絡(luò)預(yù)測就是將輸入數(shù)據(jù)通過前向傳輸,在每一層輸出相應(yīng)的特征圖,最終將這些特征圖作為全連接網(wǎng)絡(luò)的輸入,而全連接網(wǎng)絡(luò)的輸出就是基于輸入的條件概率分布過程。

3 關(guān)鍵技術(shù)

將卷積神經(jīng)網(wǎng)絡(luò)引入裸眼三維圖像的生成研究中,通過此網(wǎng)絡(luò)訓(xùn)練生成特征圖,將其疊加得到深度圖,具有保真度高的特征。

當(dāng)前對于裸眼三維圖像生成的工作主要包含兩步,從左視圖估計一個準確的深度圖,并使用DIBR算法渲染正確的右視圖。接著直接對右視圖進行回歸處理,由于深度圖采用了水平視差法故存在背景空洞,導(dǎo)致在DIBR計算過程中出現(xiàn)了像素空洞。

本文中建立卷積神經(jīng)網(wǎng)絡(luò)模型來預(yù)測概率視差序列圖,并將視差序列圖疊加得到深度圖,并將其作為中間媒介輸入,接著與輸入圖像進行卷積再疊加,通過使用各層的選擇層來模擬DIBR方法的過程。在訓(xùn)練過程中,視差序列圖由模型生成,且不存在背景空洞的現(xiàn)象,在生成后不用跟實際的視差圖進行比較分析,整個訓(xùn)練過程以水平視差的表達和繪圖展現(xiàn)的雙重目的而結(jié)束。此模型通過各層的選擇層能夠進行端到端的訓(xùn)練。

3.1 模型構(gòu)建

最近的研究證明,把全連接輸入層的特征圖結(jié)合起來,將有利于進行圖片像素的預(yù)測,這在人臉識別、姿態(tài)估計、物體檢測等應(yīng)用的特征提取上有著較高的準確率[10-11]。鑒于本文研究內(nèi)容中對無背景空洞、無背景粘連深度圖的需求,為了保證生成裸眼三維的高效性和準確性,因此把卷積神經(jīng)網(wǎng)絡(luò)引入到本文中,通過將卷積神經(jīng)網(wǎng)絡(luò)與DIBR法進行結(jié)合,構(gòu)建一種新的模型。

模型設(shè)計如圖3所示,將左視圖作為輸入,分別通過多個卷積層。由于在卷積訓(xùn)練中得到的是分辨率遠小于原始圖片的特征碎片,這些特征碎片在對新的圖像進行特征預(yù)測時會產(chǎn)生大量不同的卷積特征映射圖,對這些圖要經(jīng)過相應(yīng)的處理。

在每個卷積層后有一個分支,通過解卷積對上一層輸出的圖像進行上采樣,上采樣層的操作即為池化層,將每一卷積計算過后的特征映射圖進行聚合統(tǒng)計計算,不僅能對特征圖進行降維處理,還保證了每一層圖片尺寸的穩(wěn)定。

在全連接層中,首先將每一層的特征映射圖進行疊加得到最終的特征圖,再將每一層得到的每個特征圖進行疊加,得到與輸入圖像尺寸要求一致的深度圖,并將其作為選擇層的輸入。再將此深度圖在每一個空間位置的通道上分別進行運算得到多個概率視差圖,將概率視差圖和左視圖輸入選擇層,每一個概率視差圖都與左視圖進行一次卷積運算,再將所有的運算結(jié)果進行疊加,最終得到右視圖。

本文建立了12層的卷積計算層,在對樣本數(shù)據(jù)訓(xùn)練期間,每一卷積層的圖像訓(xùn)練都存在區(qū)別,從圖片的近景到遠景進行特征學(xué)習(xí)。故每一卷積層掌握的特征是不一樣的。

訓(xùn)練結(jié)束后,每一層都對新輸入圖像特征進行提取,結(jié)合訓(xùn)練所得特征,對輸入圖像依次從近景到遠景進行特征的提取,在實際操作中,卷積層的層數(shù)較少,卷積網(wǎng)絡(luò)對輸入圖像特征提取的不完全,卷積層數(shù)較多會產(chǎn)生過擬合現(xiàn)象,降低卷積神經(jīng)網(wǎng)絡(luò)的泛化能力。4.2節(jié)對本文模型中每一層的計算效果經(jīng)過上采樣處理后進行了展示,從中可以看出每一層的變化情況以及本文12層卷積網(wǎng)絡(luò)的合理性。

初始化的解卷積層相當(dāng)于能夠促進訓(xùn)練的雙線性插值,具體而言,通過因子S進行上采樣,核心的ω值[12]定義為:

(10)

(11)

圖3 模型結(jié)構(gòu)

3.2 選擇層重構(gòu)原理

選擇層是傳統(tǒng)裸眼三維生成的DIBR算法,用傳統(tǒng)的算法對選擇層進行重新構(gòu)造,一方面能保證右視圖生成的便捷性,一方面保證了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的完整性。在傳統(tǒng)的裸眼三維圖像生成過程中,通過左視圖I和深度圖Z,能夠計算出視差圖D,具體計算公式如下所示:

D=B(Z-f)/Z

(12)

其中:B為兩眼之間的間距,Z為輸入深度,f為兩眼到交點平面的距離,如圖4所示。右視圖O則表示為:

Oij=Iij+Dij

(13)

通過兩眼之間的距離B以及焦平面與兩眼之間的距離f,結(jié)合式(12)能計算視差圖。當(dāng)人眼的焦點離人眼越近時,生成的視差圖效果較差,反之較好。

然而,由于視差圖D并非可區(qū)分層次的,所以還不能直接通過選擇層計算。本文所采用的網(wǎng)絡(luò)在計算每個像素位置Dij時,可能存在差異值d的概率分布,對所有的i,j來說滿足:

(14)

同時將左視圖的移動產(chǎn)生的堆棧定義為:

(15)

那么通過下式由選擇層構(gòu)造右視圖:

(16)

目前Dij是能夠區(qū)分層次的,因此能夠計算輸出和真實右視圖Y之間的損耗M,并將此作為訓(xùn)練的目標。計算公式如下:

M=|O-Y|

(17)

圖4 視差圖生成物理模型

3.3 模型設(shè)置

在實驗過程中,采用不帶有時序信息的單個圖片作為輸入,這樣可以確保與傳統(tǒng)算法的進行比較的公平性。

訓(xùn)練數(shù)據(jù)集主要來自KITTI[13],KITTI數(shù)據(jù)集是目前最大的計算機視覺算法評測數(shù)據(jù)集。在訓(xùn)練期間,每個輸入左幀被調(diào)整為432×180像素,生成200個8×8大小的特征碎片,由此特征碎片對輸入的圖像做計算,最終由上采樣層進行降維處理,生成384×160的預(yù)測圖像。

生成的右視圖為384×160的分辨率,這對于一般圖片的使用來說是無法接受的分辨率。為了解決這個問題,首先通過卷積網(wǎng)絡(luò)的視差圖通常有很多比原始彩色圖像要少的高頻內(nèi)容,因此能夠?qū)㈩A(yù)測得到的視差圖進行擴展,并將其與原始的高分辨率左視圖相結(jié)合呈現(xiàn)出高分辨率的右視圖。以這種方式呈現(xiàn)右視圖與4倍上采樣頻率相比,具有更好的圖像質(zhì)量。

對于定量分析,本文主要采用384×160分辨率的圖像作為輸入和輸出;對于定性分析,本文采用卷積神經(jīng)網(wǎng)絡(luò)對圖片進行卷積和上采樣,通過利用卷積網(wǎng)絡(luò)的權(quán)值初始化主分支上的卷積層(圖3立體方塊部分),并以標準偏差為0.01的正態(tài)分布初始化所有其他權(quán)值。

為了使全連接輸入層的圖像特征信息、尺寸信息更加完整,在合并各層后,創(chuàng)建一個側(cè)面分支,將多層(本文創(chuàng)建了12層)卷積層進行批量的歸一化處理。接著通過解卷積層進行初始化處理,如式(10)~(11)所示,此解卷積的輸出尺寸也匹配最終的輸出尺寸。通過批量歸一化處理的卷積網(wǎng)絡(luò)層與隨機的初始化層進行連接,這樣就能夠解決由于卷積網(wǎng)絡(luò)的龐大和不均勻的激活量所造成的像素尺寸重構(gòu)數(shù)值不穩(wěn)定的問題[14-15]。

在硬件方面,需要通過Nvidia的獨立顯卡進行顯示,通過Nvidia GTX Titan GPU計算,卷積神經(jīng)網(wǎng)絡(luò)可以以每秒100幀的速度重建新的右視圖。而本文使用的主要是MXNet架構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),MXNet為開源的網(wǎng)絡(luò)架構(gòu)模型,支持C++、Python、R、Matlab、Javascript等語言,可運行在CPU、GPU或移動設(shè)備上[16]。

4 實驗對比分析

為了驗證算法的可靠性,提高實驗的可信度以及對視差圖效果進行優(yōu)劣判斷,本文通過基于水平視差的三維顯示、DIBR算法與卷積神經(jīng)網(wǎng)絡(luò)進行比較,驗證本文方法與傳統(tǒng)方法的優(yōu)缺點,采用定量分析和定性分析兩種方法進行綜合評價。定量分析主要比較生成右視圖像素尺寸重構(gòu)的平均絕對誤差,誤差越小,效果越好。定性分析通過直觀比較DIBR方法生成的視差圖和卷積神經(jīng)網(wǎng)絡(luò)生成的視差圖來判斷,由1.1節(jié)可知DIBR生成的視差圖是目前主流方法中應(yīng)用最廣、空洞效果改善最好的,將本文的方法與其進行比較將更好說明本文方法的優(yōu)劣。通過這兩種評估方法最終驗證卷積神經(jīng)網(wǎng)絡(luò)進行裸眼三維圖像生成的可行性。

4.1 定量分析

本文取像素尺寸重構(gòu)誤差值的平均絕對誤差進行定量分析,由于在生成右視圖時,都會對圖片的每一個像素進行重新排列,故與原圖會出現(xiàn)一定的尺寸誤差,尺寸誤差越小就說明生成的右視圖與原圖匹配效果更好。分析平均絕對誤差(Mean Absolute Error, MAE)通過計算進行,如式(18):

(18)

其中:x為右視圖,y為左視圖,g(·)表示生成相應(yīng)的模型,H和W分別為圖像的高度和寬度。考慮到卷積神經(jīng)網(wǎng)絡(luò)預(yù)測的不穩(wěn)定性,為保證實驗的準確性,本文對3種方法進行11次的定量分析,結(jié)果如圖5所示。

圖5 MAE值比較

由于卷積神經(jīng)網(wǎng)絡(luò)存在不穩(wěn)定性,故MAE并非一個定值,本文在3.2節(jié)中對其存在的不穩(wěn)定性結(jié)果進行了解卷積處理,由實驗結(jié)果來看其MAE值在一個合理的區(qū)域內(nèi)變動,卷積神經(jīng)網(wǎng)絡(luò)相對于水平視差和DIBR方法來說,其誤差值分別平均降低了12.82%和10.52%。由于考慮到修正誤差會降低模型計算速度,由圖分析可知誤差的范圍是在合理范圍中,故不需要對誤差進行修正。

4.2 定性分析

為了更好地理解本文所提的方法,文中展示了定性分析的結(jié)果,通過卷積神經(jīng)網(wǎng)絡(luò)對特征進行提取,展現(xiàn)出較強的立體感,并通過12個卷積層從近到遠的分配視差圖,如圖6所示。

從圖6中可以觀察到卷積神經(jīng)網(wǎng)絡(luò)方法能夠通過輸入圖片中對隱含的信息的特征提取得到特征圖,主要包括圖片的尺寸、遮擋物以及圖片中物體的幾何構(gòu)架。由卷積網(wǎng)絡(luò)計算出來的這12幅圖像都是384×160大小的尺寸,這得益于上采樣層的處理。隨著卷積計算的進行,在卷積計算的后幾層,無論是近景的人物還是任務(wù)背后遠景的湖、山、天空、云彩都得到了很好的體現(xiàn),這說明卷積神經(jīng)網(wǎng)絡(luò)很好地提取到原始圖像中的各個特征元素,并能很好地表現(xiàn)出來。

從圖6中分析可見對圖片的預(yù)測由近到遠進行分析,每一個層面的視差圖都不一樣,隨著卷積層數(shù)的深入,得到的視差圖存在過擬合的趨勢,使得后期視差圖會出現(xiàn)失真的現(xiàn)象,然而,這并不影響最后整體生成圖像的質(zhì)量。這是因為每一排的像素的值相同且固定,任何視差圖的分配都將按照固定的像素大小進行排列,所以視差的計算只需要精確的垂直邊緣,在實驗中也能夠看出深度學(xué)習(xí)框架的學(xué)習(xí)的主體主要也集中在這個區(qū)域當(dāng)中。

圖6 CNN方法定性分析結(jié)果(各層視差圖)

同時通過卷積神經(jīng)網(wǎng)絡(luò)生成的右視圖和DIBR方法生成右視圖的灰度圖進行對比分析,如圖7所示。

圖7 原圖、DIBR和CNN方法效果比較

圖7展示了不同樣本圖片經(jīng)過DIBR和卷積網(wǎng)絡(luò)的效果,從左至右依次為原圖、DIBR深度圖、卷積神經(jīng)網(wǎng)絡(luò)預(yù)測視差圖。從圖中分析可以得出,卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測視差圖方法能夠更好地勾勒圖片中物體的輪廓,能夠勾勒出圖中的遠景的山、湖泊、樓房、天空的輪廓,近景的字跡、人物形態(tài);而由傳統(tǒng)方法DIBR的深度圖其背景之間產(chǎn)生了粘連,遠景分不清景物的輪廓,也看不清石碑上的刻字,圖像特征不能直接區(qū)分。因此由圖7可以清楚地對比出由卷積神經(jīng)網(wǎng)絡(luò)生成的視差圖更加清晰,特征提取更加明顯,很好地克服了傳統(tǒng)方法的缺點。

5 結(jié)語

本文使用卷積神經(jīng)網(wǎng)絡(luò)對裸眼三維圖像生成進行了研究,通過輸入相應(yīng)的左視圖圖像進行多層的訓(xùn)練得到特征圖,通過模擬DIBR得到相應(yīng)的右視圖。此方法相比傳統(tǒng)的三維生成方法,特征圖沒有背景空洞現(xiàn)象,準確率高。在實驗中使用的圖像都來自于靜止圖像,未考慮帶有時態(tài)信息的視頻,在普通二維視頻生成裸眼三維視頻的過程中,可通過時間信息來提高特征提取的性能,并結(jié)合該網(wǎng)絡(luò)對視頻進行了研究,發(fā)現(xiàn)幾乎沒有定量性能的增益,且視頻的連貫性受到了影響,此問題也是下一步需要對本文的設(shè)計需要進行提高的一個研究方向。

References)

[1] 劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進展[J].計算機應(yīng)用研究,2014,31(7):1921-1930.(LIU J W, LIU Y, LUO X L. Research and development on deep learning [J]. Application Research of Computers, 2014, 31(7): 1921-1930.)

[2] 趙天奇.裸眼3D內(nèi)容生成和顯示若干關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2015:22-43.(ZHAO T Q. Research on key technologies of naked eye there-dimensional display and its content generation [D]. Beijing: Beijing University of Posts and Telecommunications, 2015: 22-43.)

[3] 李博樂.基于DIBR的裸眼3D顯示系統(tǒng)研究與實現(xiàn)[D].重慶:重慶大學(xué),2015:7-40.(LI B L. Research and implementation of glasses-free 3D display system based on DIBR [D]. Chongqing: Chongqing University, 2015: 7-40.)

[4] 譚偉敏.裸眼3D顯示關(guān)鍵技術(shù)研究[D].重慶:重慶大學(xué),2014:32-43.(TAN W M. Research on key technologies of glasses-free 3D display [D]. Chongqing: Chongqing University, 2014: 32-42.)

[5] 李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機應(yīng)用,2016,36(9):2508-2515.(LI Y D, HAO Z B, LEI H. Survey of convolutional neural network [J]. Journal of Computer Applications, 2016, 36(9): 2508-2515.)

[6] 盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):1-17(LU H T, ZHANG Q C. Application of deep convolutional neural network in computer vision [J]. Journal of Data Acquisition and Processing, 2016, 31(1): 1-17)

[7] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search [J]. Nature, 2016, 529(7587): 484-489.

[8] ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks [EB/OL]. [2017- 01- 11]. http://www.matthrwzeiler.com/pubs/iclr2013/iclr2013.pdf.

[9] MURPHY K P. Machine Learning: A Probabilistic Perspective [M]. Cambridge, MA: MIT Press, 2012: 82-92.

[10] TATARCHENKO M, DOSOVITSKIY A, BROX T. Single-view to multi-view: reconstructing unseen views with a convolutional network [J]. Knowledge & Information Systems, 2015, 38(1): 231-257.

[11] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 2758-2766.

[12] RICHTER S R, VINEET V, ROTH S, et al. Playing for data: ground truth from computer games [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 102-118.

[13] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset [J]. International Journal of Robotics Research, 2013, 32(11): 1231-1237.

[14] WANG C, YAN X, SMITH M, et al. A unified framework for automatic wound segmentation and analysis with deep convolutional neural networks [C]// EMBC 2015: Proceedings of the 37th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Piscataway, NJ: IEEE, 2015: 2415-2418.

[15] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification [C]// Proceedings of the 2016 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2016: 1026-1034.

[16] ATHEY S, IMBENS G. Machine learning methods for estimating heterogeneous causal effects [J]. Statistics, 2015, 113(27): 7353-7360.

This work is partially supported by the Academy of Equipment School Level Basic Research Project (DXZT-JC-ZZ- 2013- 009).

ZHUJunpeng, born in 1993, M. S. candidate. His research interests include information network security.

ZHAOHongli, born in 1964, Ph. D., professor. His research interests include information network security.

YANGHaitao, born in 1979, Ph. D., associate research fellow. His research interests include information network security.

猜你喜歡
視差視圖卷積
基于自適應(yīng)窗的立體相機視差圖優(yōu)化方法研究
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于梯度域引導(dǎo)濾波的視差精煉迭代算法
基于傅里葉域卷積表示的目標跟蹤算法
5.3 視圖與投影
視圖
Y—20重型運輸機多視圖
SA2型76毫米車載高炮多視圖
基于分割樹的視差圖修復(fù)算法研究
曲麻莱县| 贵南县| 灵山县| 贺州市| 康平县| 疏勒县| 嵩明县| 台前县| 山阴县| 湖口县| 方城县| 玉溪市| 手机| 建德市| 安丘市| 井冈山市| 耒阳市| 大渡口区| 定边县| 安宁市| 广元市| 资兴市| 辽阳县| 永兴县| 新干县| 孟连| 信阳市| 曲周县| 离岛区| 会同县| 安康市| 铁岭县| 佳木斯市| 西城区| 大余县| 江门市| 九龙城区| 顺昌县| 定南县| 泰宁县| 邵阳县|