国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于視覺注意力分析的3D內(nèi)容生成方法

2020-04-20 05:03:10李新福田學(xué)東
計(jì)算機(jī)工程 2020年4期
關(guān)鍵詞:深度圖像素卷積

蔡 凱,李新福,田學(xué)東

(河北大學(xué) 網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北 保定 071000)

0 概述

目前,以3D技術(shù)為基礎(chǔ)的3D電影[1]、立體醫(yī)學(xué)影像[2-3]、虛擬現(xiàn)實(shí)(Virtual Reality,VR)[4]等應(yīng)用在人們的日常生活中占據(jù)重要地位,這些應(yīng)用所需的顯示設(shè)備可能需要場景中的多個(gè)臨近視角[5],不同于立體顯示設(shè)備中僅需2個(gè)視角。雖然可以通過多個(gè)相機(jī)同步拍攝得到視圖,但事實(shí)證明,這種方法既繁瑣又耗時(shí)。因此,越來越多的人使用基于深度圖的2D-3D轉(zhuǎn)換技術(shù)來獲得視圖。深度圖由深度線索構(gòu)成,深度線索是人類用來感知真實(shí)三維世界的最重要的信息?;谏疃葓D的方法一般由3個(gè)步驟組成,首先通過計(jì)算或者深度傳感器得到深度圖,然后利用深度圖和原圖像合成新視圖,最后將新視圖與原圖像相結(jié)合得到最終的3D圖像。由于新視圖與原圖像存在視差,因此最終合成的3D圖像能夠在視覺上給予觀察者以立體感。

目前,研究人員提出多種基于深度圖的3D內(nèi)容生成方法,這些方法大致可以分為三類,即純?nèi)斯まD(zhuǎn)換方法、人工輔助轉(zhuǎn)換(半自動(dòng)轉(zhuǎn)換)方法和全自動(dòng)轉(zhuǎn)換方法。純?nèi)斯まD(zhuǎn)換方法將視頻的每一幀進(jìn)行區(qū)域/目標(biāo)分割,然后再由“深度專家”將深度值分配給每一個(gè)分割出的區(qū)域/目標(biāo)[6],這種方法可以產(chǎn)生高質(zhì)量的深度圖,但是價(jià)格十分昂貴且非常費(fèi)時(shí)。人工輔助轉(zhuǎn)換方法在將2D圖像轉(zhuǎn)換為3D圖像的過程中進(jìn)行人工“手動(dòng)”修正,雖然這種方法可以降低時(shí)間消耗,但是仍然需要大量的人工成本[7-9]。為了將2D-3D轉(zhuǎn)換技術(shù)在商業(yè)中進(jìn)行更廣泛的推廣,需要其他方法來解決時(shí)間和人工成本問題。全自動(dòng)轉(zhuǎn)換方法先使用單幅圖像生成深度圖,然后再將2D圖像轉(zhuǎn)換為3D圖像,全程無需人工干預(yù)。

一幅圖像的顯著性區(qū)域是人們?cè)谠搱D像中注意到的最重要的部分,因此,使顯著性物體靠近人眼的同時(shí)將人們不感興趣的目標(biāo)遠(yuǎn)離人眼合乎情理。文獻(xiàn)[10]通過視覺注意力分析進(jìn)行2D-3D轉(zhuǎn)換,并且證明了這種方法的可行性,但是,由于其使用低級(jí)別手工方式提取特征,因此所生成的顯著圖較為粗糙。本文使用顯著圖代替深度圖生成3D內(nèi)容,通過全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN)[11]估算粗糙的顯著圖并用條件隨機(jī)場(Conditional Random Field,CRF)[12]進(jìn)行優(yōu)化,這種FCN+CRF的方法可以適用于大部分設(shè)備,包括個(gè)人計(jì)算機(jī)、智能手機(jī)等。

1 相關(guān)工作

1.1 顯著性檢測(cè)

文獻(xiàn)[13]將視覺注意力問題用計(jì)算模型進(jìn)行表達(dá)。在此之后,顯著性檢測(cè)領(lǐng)域出現(xiàn)了越來越多的新算法,這些算法可以分為兩大類:基于任務(wù)驅(qū)動(dòng)的自頂向下的算法[14-16]和由數(shù)據(jù)驅(qū)動(dòng)的自底向上的算法[17-19]。自底向上的算法多數(shù)都將研究重點(diǎn)集中在低等級(jí)視覺特征上,例如中心偏移量[20]、對(duì)比度[17]和邊緣[21]等。在顯著性檢測(cè)領(lǐng)域,從傳統(tǒng)方法發(fā)展到深度學(xué)習(xí)方法之前,文獻(xiàn)[22]對(duì)非深度學(xué)習(xí)方法做了充分的總結(jié),一些表現(xiàn)良好的方法[20]在此階段得到廣泛應(yīng)用。

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,越來越多的研究人員開始使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行顯著性檢測(cè)。近幾年,人們更加傾向于使用端到端(end-to-end)的網(wǎng)絡(luò),這是因?yàn)橛晌墨I(xiàn)[11]提出的FCN可以接收各種尺寸的輸入圖像,縮短了人工預(yù)處理和后續(xù)處理的時(shí)間,給予模型更多的自動(dòng)調(diào)節(jié)空間。為了使算法可以更充分地應(yīng)用于人們的生產(chǎn)生活中,本文算法并未使用結(jié)構(gòu)復(fù)雜的網(wǎng)絡(luò)模型,而是使用對(duì)硬件要求相對(duì)較低的FCN+CRF檢測(cè)模型。

1.2 基于深度線索的深度信息提取

在現(xiàn)實(shí)世界中,人類從外界接收到各種各樣的深度線索,并利用深度線索來感知三維世界,這些深度線索可以分為兩類:雙目深度線索和單目深度線索。雙目深度線索通過雙眼對(duì)場景中感知到的2幅圖像的差別來提供深度信息,單目深度線索通過用一只眼睛觀察場景來提供深度信息。

單目深度線索又可分為圖繪深度線索和運(yùn)動(dòng)深度線索。圖繪深度線索是人類從2D圖像中感知深度的最基本的線索,這些線索包括相對(duì)高度或尺寸、光線與遮蔽、大氣散射、紋理梯度、對(duì)焦/去對(duì)焦等。在實(shí)踐中,主要通過2種方法來從對(duì)焦/去對(duì)焦中提取深度:

1)從具有不同焦距特征的多個(gè)圖像中提取模糊變化,這些變化可以轉(zhuǎn)換為深度[23]。

2)通過測(cè)量每個(gè)相關(guān)像素的模糊量來從單個(gè)圖像中提取模糊信息,然后將模糊量映射為該像素的深度[24-25]。

幾何學(xué)相關(guān)的繪圖深度線索包括相對(duì)高度或尺寸、紋理梯度等,但是,其中有些深度線索很難應(yīng)用到實(shí)際中[26]。從顏色和亮度線索中提取的深度體現(xiàn)在顏色和亮度的變化上,這些深度線索包括大氣散射、光線與遮蔽、局部對(duì)比度等。與繪圖深度線索不同的是,視頻序列提供運(yùn)動(dòng)視差作為額外的深度線索。

近年來,研究人員在使用深度學(xué)習(xí)技術(shù)進(jìn)行深度圖生成方面投入了大量精力,他們將一幅2D圖像作為輸入并學(xué)習(xí)如何預(yù)測(cè)出一幅與之相對(duì)應(yīng)的深度圖。但是,上述研究在收集高質(zhì)量的圖像-深度圖對(duì)上遇到了很大困難,因此,數(shù)據(jù)集的缺失限制了深度圖生成算法的發(fā)展。

文獻(xiàn)[10]通過視覺注意力分析得到顯著圖,用顯著圖代替深度圖來生成3D圖像,這種方法可以取得較好的效果[25]。但是該方法中使用的是低等級(jí)視覺特征,使得算法性能十分依賴于所選取特征的優(yōu)劣,因此,在大部分情況下無法獲得較高的精度。為解決上述問題,本文使用FCN進(jìn)行顯著性檢測(cè),以提高檢測(cè)精度并得到效果更好的3D圖像。

2 算法設(shè)計(jì)

雖然本文方法與傳統(tǒng)方法[5,8,24]在細(xì)節(jié)上有些差異,但是在整體流程(見圖1)上并沒有太大的差別。因此,本節(jié)主要討論本文方法與傳統(tǒng)方法不同的部分(顯著圖生成階段),視差計(jì)算與圖像繪制部分可以參考文獻(xiàn)[26]。

圖1 基于深度圖的2D-3D轉(zhuǎn)換流程Fig.1 2D to 3D conversion procedure based on depth map

2.1 顯著圖計(jì)算

FCN是一種卷積神經(jīng)網(wǎng)絡(luò),其通過一系列卷積層提取特征并使用池化層減少過擬合現(xiàn)象。FCN將原始卷積網(wǎng)絡(luò)中的全連接層直接替換為卷積層,從而使運(yùn)算更便捷。最后一個(gè)卷積層的輸出被稱作熱圖,FCN通過反卷積使熱圖恢復(fù)到與輸入圖像相同的尺寸,從而對(duì)每個(gè)像素都產(chǎn)生一個(gè)預(yù)測(cè)。如果只使用由熱圖反卷積而來的圖像進(jìn)行預(yù)測(cè),得到的結(jié)果往往比較粗糙,FCN通過定義跳躍結(jié)構(gòu)來解決該問題。FCN的整體結(jié)構(gòu)如圖2所示,卷積網(wǎng)絡(luò)每一層的輸入數(shù)據(jù)都是三維張量,尺寸為h×w×d,其中,h和w為數(shù)據(jù)的空間維度,d為數(shù)據(jù)的特征或者通道維度。FCN的第一層為輸入層,用來接收輸入圖像,輸入圖像的尺寸為h×w,d為圖像的顏色通道。在CNN中,決定某一層輸出結(jié)果中一個(gè)元素所對(duì)應(yīng)輸入層的區(qū)域大小被稱作感受野。

圖2 FCN結(jié)構(gòu)框架Fig.2 FCN framework

卷積網(wǎng)以平移不變性為基礎(chǔ),構(gòu)成卷積網(wǎng)的組成部分(卷積、池化和激活函數(shù))在對(duì)局部輸入?yún)^(qū)域進(jìn)行操作時(shí)僅與相對(duì)空間坐標(biāo)有關(guān)。令xij為某一層中的數(shù)據(jù)向量,該向量位于坐標(biāo)(i,j)處,yij為下一層中的數(shù)據(jù)向量,則yij的計(jì)算公式為:

yij=fks({xsi+δi,sj+δj}0≤δi,δj≤k)

(1)

其中,k為算子尺寸,s被稱作步長或下采樣算子,函數(shù)fks取決于該層類型。算子尺寸和步長遵循的變換規(guī)則如式(2)所示:

fks°gk′s′=(f°g)k′+(k-1)s′,ss′

(2)

隨著卷積和池化操作次數(shù)的增多,圖像的尺寸變得越來越小,此時(shí)可以通過反卷積操作對(duì)特征圖進(jìn)行尺寸還原。因此,FCN可以利用反卷積對(duì)任意尺寸的輸入進(jìn)行操作,然后計(jì)算一個(gè)相應(yīng)尺寸的輸出。

一些常見的CNN只接收固定尺寸的輸入圖像,并且在輸出中不包含空間信息,造成這種情況的原因在于網(wǎng)絡(luò)中應(yīng)用了全連接層,全連接層不能接收尺寸不同的輸入張量,這也會(huì)導(dǎo)致空間信息丟失。然而,任何一個(gè)全連接層都可以被替換為卷積層,它們之間唯一的不同在于卷積層中的神經(jīng)單元只與輸入數(shù)據(jù)中的局部區(qū)域相連接,并且處在同一列卷積的神經(jīng)單元共享參數(shù)。這種方法不僅可以使網(wǎng)絡(luò)接收任意尺寸的輸入,在計(jì)算的過程中保留空間信息,還可以提高前向傳播的效率[11]。一種將傳統(tǒng)卷積網(wǎng)絡(luò)變換為全卷積網(wǎng)絡(luò)的方法是:將原始卷積網(wǎng)絡(luò)中的全連接層直接替換為卷積層,這時(shí)網(wǎng)絡(luò)中只存在卷積層,全卷積網(wǎng)絡(luò)的名稱即由此得來。

經(jīng)過多次卷積和池化操作之后,輸入數(shù)據(jù)的空間尺寸會(huì)越來越小,當(dāng)尺寸在網(wǎng)絡(luò)中達(dá)到最小時(shí),可將該圖像稱為熱圖,熱圖表示輸入數(shù)據(jù)的高位特征。為了將熱圖恢復(fù)到與輸入數(shù)據(jù)相同的尺寸,需要對(duì)熱圖進(jìn)行上采樣。FCN通常使用一系列反卷積層和激活函數(shù)進(jìn)行上采樣,這是因?yàn)樵诰W(wǎng)絡(luò)學(xué)習(xí)的過程中,使用反卷積和激活函數(shù)的速度快、效率高[11]。

如果單獨(dú)對(duì)熱圖進(jìn)行上采樣,得到的輸出預(yù)測(cè)圖會(huì)顯得過于粗糙,一些細(xì)節(jié)無法恢復(fù)。隨著層數(shù)越來越高,得到的特征會(huì)越來越抽象,細(xì)節(jié)丟失會(huì)越來越嚴(yán)重。FCN使用跳躍結(jié)構(gòu)對(duì)低層中的輸出進(jìn)行上采樣并與最高層中的預(yù)測(cè)圖相連接,這樣可以兼顧局部和全局信息。需要注意的是,雖然使用跳躍結(jié)構(gòu)可以得到更精細(xì)的預(yù)測(cè)圖,但是所產(chǎn)生的開銷會(huì)增加。

本文將FCN應(yīng)用于顯著性檢測(cè)以生成顯著圖,但是得到的顯著圖精度并非很高,因此,需要使用CRF對(duì)結(jié)果進(jìn)行優(yōu)化。

2.2 基于CRF的結(jié)果優(yōu)化

本節(jié)主要對(duì)CRF在圖像標(biāo)注任務(wù)中的應(yīng)用進(jìn)行概述。在像素級(jí)標(biāo)簽預(yù)測(cè)問題中,令輸入圖像為全局觀測(cè)I,CRF將像素標(biāo)簽作為隨機(jī)變量,如果像素標(biāo)簽在全局觀測(cè)的條件下可以構(gòu)成馬爾科夫隨機(jī)場,則CRF將對(duì)像素標(biāo)簽進(jìn)行建模。

令隨機(jī)變量Xi是圖像中像素i的標(biāo)簽,L為預(yù)定義的標(biāo)簽集合,L={l1,l2,…,lk},k為標(biāo)簽數(shù)。變量X由隨機(jī)變量X1,X2,…,XN組成,其中,N為圖像中像素的總個(gè)數(shù)。條件隨機(jī)場符合吉布斯分布:

(3)

其中,E(x)為x∈LN的能量函數(shù),Z(I)為規(guī)范化因子。為了方便起見,下文討論中省略全局觀測(cè)I。在全連接條件隨機(jī)場中,E(x)的表達(dá)式為:

(4)

其中,一元?jiǎng)莺瘮?shù)Ψc(xi)測(cè)量將像素i標(biāo)注為xi的代價(jià),即為上一小節(jié)中FCN的輸出預(yù)測(cè)圖。二元?jiǎng)莺瘮?shù)Ψd(xi,xj)同時(shí)將像素i,j標(biāo)注為xi,xj的代價(jià),用來描述像素點(diǎn)之間的關(guān)系,鼓勵(lì)相似的像素分配相同的標(biāo)簽,差別較大的像素分屬于不同的類別。二元?jiǎng)莺瘮?shù)Ψd(xi,xj)的表達(dá)式為:

(5)

只需最小化CRF的能量函數(shù)E(x)便可得到輸入圖像的最優(yōu)預(yù)測(cè)圖。因?yàn)橹苯幼钚』芰亢瘮?shù)時(shí)計(jì)算量會(huì)非常大,所以本文使用平均近似方法[12]推斷結(jié)果。

2.3 2D-3D轉(zhuǎn)換

在進(jìn)行視差計(jì)算時(shí),本文方法與傳統(tǒng)方法差別不大。令圖中像素點(diǎn)(x,y)處的視差值為R(x,y),則有:

(6)

本文方法在進(jìn)行2D-3D轉(zhuǎn)換時(shí)除了將深度圖替換為顯著圖以外,在其他步驟上與DIBR方法無太大差別,且本文模型對(duì)硬件的要求較低,這2個(gè)優(yōu)點(diǎn)有助于本文方法的推廣。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)設(shè)置

根據(jù)本文的網(wǎng)絡(luò)結(jié)構(gòu),需要找到合適的基網(wǎng)絡(luò)并添加一些預(yù)訓(xùn)練層來構(gòu)成FCN。因此,實(shí)驗(yàn)的第一步為找到合適的網(wǎng)絡(luò)模型進(jìn)行微調(diào)。目前,在數(shù)量龐雜的網(wǎng)絡(luò)模型中,有多種卷積網(wǎng)絡(luò)可供選擇,比較流行的卷積網(wǎng)絡(luò)有AlexNet[27]、VGG16[28]、GoogLeNet[29]、InceptionV3[30]等。本文對(duì)改造后的VGG16、AlexNet、GoogLeNet進(jìn)行了對(duì)比,使用的度量標(biāo)準(zhǔn)為:

(7)

其中,k+1為類別總數(shù),pij為本應(yīng)預(yù)測(cè)為i類但預(yù)測(cè)為j類的像素個(gè)數(shù)(即預(yù)測(cè)錯(cuò)誤的像素總數(shù)),pii為預(yù)測(cè)正確的像素總數(shù)。3種網(wǎng)絡(luò)對(duì)比結(jié)果如表1所示。

表1 3種網(wǎng)絡(luò)的meanIU與運(yùn)行時(shí)間對(duì)比Table 1 Comaprison of meanIU and runtime of three networks

根據(jù)表1的結(jié)果,本文使用VGG16作為基網(wǎng)絡(luò),并利用目前較流行的Keras搭建顯著性檢測(cè)網(wǎng)絡(luò)模型,Keras是一種開源的深度學(xué)習(xí)框架。FCN前5層的參數(shù)通過VGGNet初始化,其他層的參數(shù)通過標(biāo)準(zhǔn)差為0.01、偏置為0的零均值高斯分布初始化。在訓(xùn)練開始之前,本文算法使用SGD(Stochastic Gradient Descent)作為優(yōu)化器,超參數(shù)的設(shè)置分別為:學(xué)習(xí)率10-8,權(quán)重衰減5-4,沖量0.9。FCN訓(xùn)練時(shí)的最大迭代次數(shù)為100 000,每批次大小為1,這是為了避免內(nèi)存不足從而引發(fā)錯(cuò)誤。

本文采用平均近似方法[12]優(yōu)化CRF,通過PyDenseCRF(https://github.com/lucasb-eyer/pydensecrf)來實(shí)現(xiàn)。

3.2 數(shù)據(jù)集與度量標(biāo)準(zhǔn)

為了更好地驗(yàn)證本文模型的性能并與已有方法進(jìn)行對(duì)比,本文使用ECSSD[31]、PASCALS[32]和DUT-OMRON[33]3種數(shù)據(jù)集對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練與測(cè)試,這些數(shù)據(jù)集在顯著性檢測(cè)領(lǐng)域應(yīng)用廣泛,且每一個(gè)數(shù)據(jù)集都包含了大量的圖像。ECSSD擁有1 000張圖像,其中多數(shù)圖像具有豐富的語義并且結(jié)構(gòu)復(fù)雜。PASCALS中的圖像全部是從PASCAL VOC 2010數(shù)據(jù)集中精心挑選而出。DUT-OMRON數(shù)據(jù)集包含5 000張圖像,用于進(jìn)行大規(guī)模模型比較。為了保證對(duì)比的公平性,本文使用相同的訓(xùn)練集對(duì)所有對(duì)比模型進(jìn)行訓(xùn)練,并且應(yīng)用相同測(cè)試集進(jìn)行測(cè)試。

在顯著性檢測(cè)領(lǐng)域,有3種被廣泛認(rèn)可的度量標(biāo)準(zhǔn),分別是精度-召回率(Precision-Recall,PR)曲線、F度量(F-measure)和平均絕對(duì)誤差(Mean Absolute Error,MAE)。精度和召回率是由二值顯著圖和真值圖做比較計(jì)算而出,假設(shè)顯著圖為S,將S進(jìn)行二值化后得到二值掩模M,將M與真值G作比較得出:

(8)

F度量可以測(cè)量模型的整體性能,其定義為精度和召回率的加權(quán)平均值:

(9)

本文將β2設(shè)置為0.3,這樣可以提升精度在測(cè)量中的重要性。MAE表示顯著圖與真值中每個(gè)像素之間的絕對(duì)誤差,計(jì)算公式為:

(10)

3.3 結(jié)果分析

本文將文獻(xiàn)[10]方法、RC方法[17]、DRFI方法[20]作為對(duì)比方法。文獻(xiàn)[10]方法使用基于對(duì)比度的方法進(jìn)行顯著性檢測(cè)。作為傳統(tǒng)顯著性檢測(cè)方法中的代表,DRFI方法在各個(gè)數(shù)據(jù)集上都有較好的性能表現(xiàn),其將顯著性檢測(cè)看作一個(gè)回歸問題,通過監(jiān)督學(xué)習(xí)的方法對(duì)圖像進(jìn)行分割,然后再將分割得到的區(qū)域特征進(jìn)行整合得到最終的顯著圖。RC結(jié)合了空間關(guān)系來獲取顯著圖,但是其相比于文獻(xiàn)[10]方法而言計(jì)算量更高。4種方法的Fβ和MAE對(duì)比結(jié)果如表2所示,其中,最優(yōu)結(jié)果用加粗字體標(biāo)出。

表2 4種方法在3個(gè)數(shù)據(jù)集上的性能對(duì)比結(jié)果Table 2 Performance comparison results of four methods on three datasets

從表2可以看出,本文深度學(xué)習(xí)方法在F-measure和MAE上的表現(xiàn)明顯優(yōu)于傳統(tǒng)方法,主要原因在于深度學(xué)習(xí)方法強(qiáng)大的特征提取能力和抽象能力。本文選取了各模型在DUT-OMRON上的精度-召回率來繪制PR曲線,結(jié)果如圖3所示,從圖3可以看出,本文深度學(xué)習(xí)方法性能同樣優(yōu)于傳統(tǒng)學(xué)習(xí)方法。

圖3 4種方法在DUT-OMRON數(shù)據(jù)集上的PR曲線Fig.3 PR curves of four algorithms on DUT-OMRONdataset

圖4所示為深度學(xué)習(xí)方法與傳統(tǒng)方法的視覺效果對(duì)比,從圖4可以看出,無論是在簡單場景還是復(fù)雜場景下,深度學(xué)習(xí)方法所生成的顯著圖都要優(yōu)于其他傳統(tǒng)方法,這是因?yàn)闊o論在哪種場景下,手工選取的顯著性特征都具有一定的局限性,而深度學(xué)習(xí)方法則可以通過自我選取特征和高度抽象特征的能力對(duì)場景進(jìn)行分析,從而預(yù)測(cè)出更為精確的顯著圖。

圖4 不同顯著性檢測(cè)方法的視覺效果對(duì)比Fig.4 Visual effect comparison of different saliencydetection algorithms

對(duì)于所生成的3D內(nèi)容而言,最重要的就是給予觀察者舒適的視覺體驗(yàn),因此,本文采用文獻(xiàn)[34]中的立體圖像質(zhì)量評(píng)價(jià)方法對(duì)本文模型進(jìn)行評(píng)估,該評(píng)價(jià)方法通過提取感興趣區(qū)域的視差圖,綜合多種影響視覺舒適度的因素,建立一個(gè)多維度的3D內(nèi)容視覺舒適度評(píng)價(jià)系統(tǒng)。評(píng)價(jià)的滿分為5分,代表“舒適”,4分表示“較舒適”,3分為“效果一般”,2分為“稍有不適”,1分為“難以忍受”。本次實(shí)驗(yàn)選用文獻(xiàn)[7]方法作為對(duì)比對(duì)象,該方法借助L1范數(shù)對(duì)異常數(shù)據(jù)的抵制,在一個(gè)統(tǒng)一框架下實(shí)現(xiàn)結(jié)構(gòu)相關(guān)、具有容錯(cuò)能力的稀疏深度稠密插值。本文取NJUD[35]數(shù)據(jù)集中的15種場景圖像作為實(shí)驗(yàn)測(cè)試集,實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 2種3D內(nèi)容生成方法在測(cè)試集上的圖像質(zhì)量評(píng)分Fig.5 Score of map quality of two 3D content generationmethods on testing set

由圖5可知,本文方法在15張圖像中的平均評(píng)分為4.348,高于文獻(xiàn)[7]方法(4.272),主要原因在于,如果希望觀察者得到滿意的3D效果,那么將場景中最令人感興趣的目標(biāo)置于人眼舒適區(qū)至關(guān)重要[36],本文方法正是利用這一立體感知原理來生成3D內(nèi)容。實(shí)驗(yàn)結(jié)果也證明了顯著性檢測(cè)方法可以給予觀察者良好的立體感受。

圖6所示為本文方法生成的3D視覺效果圖。從中可以看出,本文方法在顯著性較高的區(qū)域/物體上能取得良好的3D視覺效果,也論證了使用視覺注意力分析生成3D內(nèi)容的可行性。

圖6 本文方法的3D視覺效果Fig.6 3D visutal effect of the proposed method

4 結(jié)束語

顯著圖通過高效的深度學(xué)習(xí)方法進(jìn)行預(yù)測(cè),并且對(duì)硬件要求較低,因此,本文使用顯著圖代替深度圖進(jìn)行2D-3D轉(zhuǎn)換,提出一種基于視覺注意力分析的3D內(nèi)容生成方法。實(shí)驗(yàn)結(jié)果表明,該方法在生成3D內(nèi)容時(shí)能夠取得良好的視覺效果。但是,本文方法在處理視頻序列時(shí)仍然具有局限性,下一步考慮將時(shí)間序列信息融入到網(wǎng)絡(luò)模型中,以提升該方法的實(shí)用性。

猜你喜歡
深度圖像素卷積
趙運(yùn)哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
像素前線之“幻影”2000
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
“像素”仙人掌
基于深度圖的3D-HEVC魯棒視頻水印算法
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
一種基于局部直方圖匹配的深度編碼濾波算法
疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
科技視界(2016年2期)2016-03-30 11:17:03
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
永州市| 扶绥县| 贺兰县| 北宁市| 长春市| 阆中市| 赤峰市| 广州市| 武川县| 公安县| 平利县| 遵化市| 宣城市| 余庆县| 昌宁县| 玉屏| 曲周县| 康平县| 土默特右旗| 怀化市| 德州市| 江西省| 冀州市| 乳源| 新疆| 略阳县| 迭部县| 盐源县| 南丰县| 客服| 龙岩市| 潞西市| 安国市| 南召县| 重庆市| 黄大仙区| 大田县| 仪征市| 洪泽县| 武乡县| 达尔|