国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的三維模型檢索研究

2019-07-01 02:35張靜曲志堅劉曉紅
智能計算機(jī)與應(yīng)用 2019年3期
關(guān)鍵詞:卷積視圖特征提取

張靜 曲志堅 劉曉紅

摘 要:基于卷積神經(jīng)網(wǎng)絡(luò)在圖像領(lǐng)域的發(fā)展,本文研究了將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到三維模型檢索領(lǐng)域。對三維模型預(yù)處理后,選擇6個投影角度把模型投影成6幅二維圖像,利用提取的視圖作為神經(jīng)網(wǎng)絡(luò)的輸入,利用深度學(xué)習(xí)框架提取圖像特征作為最終的模型描述符。之后通過比較2個模型多個視角的二維投影的相似度,如果兩者間相似,則三維模型也是相似的,再取多維視圖的相似度平均值得到2個三維模型的最終相似度,選擇最終相似度最大的10個模型作為結(jié)果輸出。充分利用二維圖像領(lǐng)域性能優(yōu)越的網(wǎng)絡(luò)架構(gòu),并且存在海量圖像數(shù)據(jù)供深度學(xué)習(xí)模型進(jìn)行預(yù)訓(xùn)練。從檢索結(jié)果看出,該方法能夠得到較好的效果。

關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò); 視圖; 特征提取; ?三維模型檢索文章編號: 2095-2163(2019)03-0054-05?中圖分類號: TP391.41?文獻(xiàn)標(biāo)志碼: A

0?引?言

隨著計算機(jī)圖形學(xué)的快速發(fā)展,新的三維掃描設(shè)備和建模工具的出現(xiàn)使三維建模變得簡單、快捷、高效;顯卡技術(shù)的不斷進(jìn)步則大幅提升了三維模型的顯示和處理速度,與此同時網(wǎng)絡(luò)技術(shù)的深入系統(tǒng)研究更進(jìn)一步推動了三維模型的傳播和應(yīng)用[1]?。

互聯(lián)網(wǎng)上已涌現(xiàn)出越來越多的三維模型[2],合理重復(fù)使用現(xiàn)有的三維模型,對其進(jìn)行編輯和修改以符合設(shè)計需要,不僅能夠節(jié)約成本、減少構(gòu)建模型的工作量,而且還將有助于三維模型的流通,并對電子商務(wù)、虛擬現(xiàn)實等行業(yè)的發(fā)展有著重要的促進(jìn)作用。這需要高效的三維模型檢索系統(tǒng)作為支撐。根據(jù)文獻(xiàn)[3-4]可知,三維模型檢索在各種領(lǐng)域已然得到廣泛應(yīng)用,例如計算機(jī)輔助設(shè)計、數(shù)字娛樂、醫(yī)療診斷、電子商務(wù)和基于位置的手機(jī)應(yīng)用。

三維模型檢索是針對給定的查詢模型,檢索出符合用戶查詢意圖的模型集合的過程。為適應(yīng)當(dāng)前三維模型數(shù)量爆炸式增長和互聯(lián)網(wǎng)搜索引擎規(guī)模與復(fù)雜性日趨增加的變化態(tài)勢,三維模型檢索即已從基于文本關(guān)鍵字檢索轉(zhuǎn)變?yōu)榛趦?nèi)容的檢索[3]。具體來說,基于內(nèi)容的三維模型檢索首先從模型所包含的內(nèi)容中用特征提取方法自動計算三維模型的特征,然后在特征空間中計算待查詢模型與目標(biāo)模型之間的相似度,實現(xiàn)對三維模型庫的檢索。該類檢索方法的共同特點就是利用模型本身包含的低層特征,然而人類是以視覺上的高層語義來理解模型內(nèi)容的,這就導(dǎo)致基于內(nèi)容的檢索效果尚未達(dá)到令人滿意地步[5]。

三維模型特征提取作為三維模型檢索的核心部分,引起了國內(nèi)外學(xué)者的廣泛關(guān)注[6]。然而,由于視點、光照強(qiáng)度、模型尺寸、模型樣式等的變化,卻仍然面臨諸多頗具挑戰(zhàn)性的困難。三維對象的表示對于三維模型識別和檢索任務(wù)很重要。人工提取的特征主要用于表示3D對象。這些特征多是通過提取幾何分布或直方圖統(tǒng)計來獲得,例如熱核簽名、旋轉(zhuǎn)圖像、FPFH [7-9]等。但是這種方法很難獲得最佳的三維形狀特征表示,而深度學(xué)習(xí)為特征學(xué)習(xí)提供了新的研究思路[10]。

1?算法流程

近年來,基于內(nèi)容的圖像檢索方法在計算機(jī)視覺領(lǐng)域取得了突破性的進(jìn)展[11],這一切均需歸功于深度卷積網(wǎng)絡(luò)強(qiáng)大的非線性擬合能力。

綜合以上論述,本文提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的三維模型檢索方法,但是與圖像數(shù)據(jù)不同,三維模型是非結(jié)構(gòu)化的,不能直接輸入到深度神經(jīng)網(wǎng)絡(luò)中。采用深度學(xué)習(xí)技術(shù)提取模型特征的首要一步就是要解決三維模型的結(jié)構(gòu)化表示問題[12]。針對該問題,結(jié)合基于投影圖像的檢索方法的思路,本文將三維模型轉(zhuǎn)化為系列二維圖像,把三維模型從三維空間降到二維空間進(jìn)行處理,這就大大降低了特征處理和相似度度量的復(fù)雜度,且容易提取和計算。此后再采用深度學(xué)習(xí)框架提取圖像特征,設(shè)計研發(fā)流程如圖1所示。文中對此擬展開研究論述如下。

1.1?預(yù)處理

三維模型所包含的信息自由度很高, 其空間位置、尺寸和方位等信息都具有不確定性。用戶在進(jìn)行模型檢索的時候, 提供的模型的坐標(biāo)系很有可能與數(shù)據(jù)庫中的模型坐標(biāo)系有著一定區(qū)別。例如示例模型和數(shù)據(jù)庫中的模型在坐標(biāo)系中的位置不同、 或尺寸不一致、 或?qū)τ谧鴺?biāo)系旋轉(zhuǎn)的角度不同。如果未做處理直接比較就可能導(dǎo)致本是相同的模型卻被檢索系統(tǒng)視為不同的模型, 會影響檢索系統(tǒng)檢索的準(zhǔn)確性[13]。

本文采用主成分分析法(Principle Component Analysis,PCA)對模型進(jìn)行預(yù)處理。三維模型點集合協(xié)方差矩陣計算對應(yīng)的特征值λ1、λ2和λ3,使得λ1>λ2>λ3,對應(yīng)的特征向量為I1、I2、I3,以I1、I2、I3為新坐標(biāo)系統(tǒng),把三維模型調(diào)整到該新坐標(biāo)系統(tǒng)。

經(jīng)過變換矩陣變換后的三維模型頂點分布最廣泛的方向處于第一主軸上,是第一主成分,頂點分布次廣泛的方向處于第二主軸上,是第二主成分,依此類推,得到第三主成分。這樣就使模型分布最廣泛的方向都分布在x、y、z 三個坐標(biāo)軸上。

提取特征前對模型進(jìn)行同向性處理,使得任意方向、任意比例的模型達(dá)到歸一,提高系統(tǒng)的準(zhǔn)確性,變換矩陣如式(1)所示[5]:

1.2?提取三維模型視圖

基于二維投影的三維模型特征識別的基本原理為:如果2個三維物體多個視角的二維投影看起來相似,那么兩者在三維上也是相似的。分析可知,接下來則需提取三維模型的二維投影[14]。

觀察者的位置(視點)確定坐標(biāo)區(qū)的方向。依據(jù)方位角和仰角或者三維空間中的點來指定視點。

研究中,采用view(az,el)來設(shè)置三維圖的視角。其中,方位角 az 是從負(fù) y 軸圍繞 z 軸水平旋轉(zhuǎn)的角度(以度為單位)。正值表示按逆時針方向旋轉(zhuǎn)視點。el 是視點的垂直仰角(以度為單位)。仰角為正值,對應(yīng)于在對象上方移動;為負(fù)值,對應(yīng)于在對象下方移動。觀察視角的形象展示見圖2。圖2中,箭頭指示正方向。

本文中選擇了[-135,45;135,45;45,135;45,-135;0,45;0,90]這6個角度的視圖進(jìn)行提取。

研究中給出了一個模型的6個視角的二維圖像如圖3所示。

依據(jù)前文所述,在將數(shù)據(jù)庫中每一個三維模型成功提取視圖后,本次研究即將所有三維模型的六視圖作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入。

1.3?卷積神經(jīng)網(wǎng)絡(luò)提取特征

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)是人工神經(jīng)網(wǎng)絡(luò)中含有多個隱含層以及輸入層的一種網(wǎng)絡(luò),其中的權(quán)值網(wǎng)絡(luò)結(jié)構(gòu)更為接近人腦的生物結(jié)構(gòu),同時也降低了模型的復(fù)雜度和權(quán)值的數(shù)目。這種設(shè)計減少了學(xué)習(xí)參數(shù),與以往的神經(jīng)網(wǎng)絡(luò)相比較,在整體上提高了訓(xùn)練性能[15]。

CNN分類的網(wǎng)絡(luò)架構(gòu)大體上可分為卷積層、池化層、全連接層和輸出層。網(wǎng)絡(luò)設(shè)計流程如圖4所示。

由圖4可知,設(shè)輸入圖像I,其在 CNN 中的研發(fā)處理步驟可闡釋解析如下。

(1)輸入層(Image Layers):用于圖像輸入。本文建立的網(wǎng)絡(luò)中,輸入層大小為640*360*3。

(2)卷積層(Convolutional Layers):用于圖像的卷積計算,將圖像數(shù)據(jù)進(jìn)行映射,得到更高緯度的特征。在本次實驗中,卷積核大小為5*5。研究推得其數(shù)學(xué)公式可表示為:

其中,l表示層數(shù);al表示該層的激活函數(shù);δ(I)表示對圖像的卷積操作;bl表示該層的偏置;xl表示經(jīng)過卷積層操作后得到的特征圖。

(3)池化層(Pooling Layers):用于卷積層輸出的特征向量進(jìn)行降維處理,以減少數(shù)據(jù)量,提高訓(xùn)練速度,加快收斂。研究推得其數(shù)學(xué)公式可表示為:

(4)正則(ReLU):用于在訓(xùn)練過程中對損失函數(shù)(loss function)進(jìn)行修正,通過影響特征向量對每一個輸入數(shù)據(jù)的修正,使得網(wǎng)絡(luò)訓(xùn)練不至于過擬合或者欠擬合,使網(wǎng)絡(luò)權(quán)重的值盡可能地小,具有較強(qiáng)的泛化能力。本此構(gòu)建網(wǎng)絡(luò)中,正則為L2范數(shù)[16]。

(5)全連接層(Full Connect Layers):用于特征提取,利用激活函數(shù)直接得到網(wǎng)絡(luò)訓(xùn)練后的特征。本實驗中,全連接層為100維。研究推得其數(shù)學(xué)公式可表示為:

(6)輸出層(Output Layer):對前一層的特征向量進(jìn)行處理,得到最終分類,用于多分類器輸出,將全連接層的輸出映射到(0,1),輸出softmax值對應(yīng)的類別標(biāo)簽。研究推得其數(shù)學(xué)公式可表示為:

至此,研究得出本文的網(wǎng)絡(luò)部分結(jié)構(gòu),可做如下設(shè)計定義:

layers =

[imageInputLayer([640 360 3]);

convolution2dLayer(5,20,'Padding',[2 2],'Stride', [1,1]);

reluLayer();

maxPooling2dLayer(2,'Stride',2);

fullyConnectedLayer(100);

dropoutLayer(.4);

fullyConnectedLayer(35);

softmaxLayer();

classificationLayer();]

本文搭建的深度卷積神經(jīng)網(wǎng)絡(luò),簡稱V9。在V9網(wǎng)絡(luò)中沒有過多的卷積和池化層,主要是由于數(shù)據(jù)本身的特殊性,對此可描述為:數(shù)據(jù)本身紋理并不復(fù)雜,易于辨識,因而無需使用大規(guī)模的卷積層來提取更深層的特征,否則就會大大延長訓(xùn)練時間,增加網(wǎng)絡(luò)的復(fù)雜度。

基于上述搭建模型,研究利用卷積神經(jīng)網(wǎng)絡(luò)提取每張圖片的最終特征。V9在圖片數(shù)據(jù)集中訓(xùn)練好的效果作為三維模型每張視圖的特征器。V9網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。提取得到的特征如圖6所示。

1.4?相似度測量

對檢索者提供的檢索樣本進(jìn)行特征提取后,把提取到的特征與模型庫里的模型特征進(jìn)行比較,計算相似的程度,同時輸出與輸入樣本特征最相似的前若干個模型。這個比較的過程就是相似性度量[17]。

基于卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的每張視圖的特征,研究運(yùn)算不同二維圖像的相似度,利用相似度測量方法強(qiáng)調(diào)特征提取的效果。輸出的三維模型的特征與輸入樣本的特征有較近的距離。通過距離度量函數(shù)來計算輸入模型特征與模型庫中所有模型特征向量之間的距離,并根據(jù)距離從小到大進(jìn)行排序返回給用戶。排序結(jié)果中,排位在前的模型具有較小的距離,因此與用戶的輸入模型越相似。

這是三維模型相似度計算過程中最常用的度量方法。距離計算中,最常用的就是歐式距離。假設(shè)任意2個模型的特征表示為X=(x1,x2,…,xn)和Y=(y1,y2,…,yn),其中n為特征向量的維數(shù)。由此可得2個特征間的歐式距離計算公式為:

先計算所有的相似度,然后取出每一個6*6方陣中主對角線的元素,作為每個模型對應(yīng)的6個視圖的相似度,再計算平均值得到最終的相似度,降序排列得到前10個相似度最大的檢索模型。

2?實驗分析與結(jié)果

為了更好地提取三維模型的特征,普林斯頓大學(xué)等機(jī)構(gòu)提供了2個大規(guī)模的三維模型數(shù)據(jù)集,分別為ShapeNet數(shù)據(jù)集和 ModelNet 數(shù)據(jù)集。其中,ModelNet數(shù)據(jù)集包含了來自662類的127 915個三維模型,相應(yīng)內(nèi)部子集Model10包含了來自10類的4 899個三維模型,ModelNet40包含了來自40類的12 311個三維模型。本文選取ModelNet40的模型作為實驗數(shù)據(jù)庫。

實驗平臺和開發(fā)工具有:中央處理器(CPU) 為Intel(R) Xeon E5-2650 2.0 GHz, 內(nèi)存為 64 GB, 顯卡1080Ti,編程環(huán)境為Python3.2,基于Tensorflow框架搭建的實驗驗證本文方法的有效性。

為了清晰觀察檢索效果,本文隨機(jī)選取了數(shù)據(jù)集中的任意2個模型作為輸入,計算選取模型與相應(yīng)數(shù)據(jù)集中的其余模型之間的相似度,對最相似的8個模型進(jìn)行可視化輸出,位置最上面的表示相似程度越高,檢索結(jié)果詳見表1。

實驗結(jié)果證明了本文方法的有效性。從檢索結(jié)果可看出,利用卷積神經(jīng)網(wǎng)絡(luò)提取特征的檢索效果較好,所檢索出的模型和待檢索模型的相似度很高。

3?結(jié)束語

基于深度學(xué)習(xí)的提取算法,研究先將三維模型轉(zhuǎn)換為一系列的二維圖像,把三維模型從三維空間降到二維空間來進(jìn)行處理,大大降低了特征處理和相似度度量的復(fù)雜度,且容易提取和計算。再采取深度學(xué)習(xí)方法提取圖像特征作為最終的模型描述符。充分利用普林斯頓大學(xué)的數(shù)據(jù)集進(jìn)行了模擬三維模型檢索的可視化展示,可以看到,使用卷積神經(jīng)網(wǎng)絡(luò)在一定程度上能夠得到不錯的檢索效果。在未來工作中,將繼續(xù)探索三維模型的特征描述符,并嘗試將本文中方法引入到實際的應(yīng)用中。

參考文獻(xiàn)

[1]張曉東. 三維模型的形狀特征提取方法研究[D]. 北京:中國石油大學(xué), 2010 .

[2]?TANGELDER J W H, VELTKAMP R C. A survey of content based 3D shape retrieval methods[J]. Multimedia Tools and Applications,2008,39(3):441-471.

[3]?GAO Yue, ZHANG Hanwang, ZHAO Xibin, et al. Event classification in microblogs via social tracking[J]. ACM Transactions on Intelligent System Technology (TIST) ,2017,8(3):1-14.

[4]?ZHAO Sicheng, CHEN Lujun, YAO Hongxun, et al. Strategy for dynamic 3d depth data matching towards robust action retrieval[J]. Neurocomputing,2015, 151(Part II):533-543.

[5]?李朋杰. 面向三維模型檢索的特征提取算法研究[D]. ?北京:北京郵電大學(xué), 2012.

[6]?BIASOTTI S, CERRI A, BRONSTEIN A, et al. Recent trends, applications, and perspectives in 3D shape similarity assessment[J]. Computer Graphics Forum, 2016,35(6):87-119.

[7]?GAO Yue, WANG Meng, TAO Dacheng, et al. 3D object retrieval and recognition with hypergraph analysis[J]. IEEE Transactions on Image Processing,2012, 21(9):4290-4303.

[8]?GAO Yue, ZHEN Yi, LI Haojie, et al .Filtering of brand-related microblogs using social-smooth multiview embedding[J]. IEEE Transactions on Multimedia,2016 18(10):2115-2126.

[9]?ZHAO X, WANG N, ZHANG Y, et al. Beyond pairwise matching: Person reidentification via high-order relevance learning[J]. IEEE Transactions on Neural Networks and Learning Systems,2018,29(8):3701-3714.

[10]孫志軍,薛磊,許陽明,等. 深度學(xué)習(xí)研究綜述[J]. 計算機(jī)應(yīng)用研究,2012,29(8):2806-2810.

[11]席曉聰. 圖像分類方法研究[D]. 濟(jì)南:山東大學(xué),2013.

[12]郭裕蘭. ?三維形狀數(shù)據(jù)的深度特征表示[J]. CCF計算機(jī)視覺專委簡報,2017(2):8-11.

[13]潘翔, 張三元, 張引,等. 一種基于拓?fù)溥B接圖的三維模型檢索方法[J]?. 計算機(jī)學(xué)報, 2009, 27(9):1250-1255.

[14]WANG Dong, WANG Bin, ZHAO Sicheng, et al. View-based 3D object retrieval with discriminative views[J]. Neurocomputing,2017,252:58-66.

[15]HU Fan, XIA Guisong, HU Jingwen, et al. Transferring deep convolutional neural networks for the scene classification of high-resolution remote sensing imagery[J]. Remote Sensing, 2015, 7(11):14680-14707.

[16]YANG Songfan, RAMANAN D. Multi-scale recognition with DAG-CNNS[C]//2015 IEEE International Conference on Computer Vision. Santiago, Chile:IEEE, 2015: 1215-1223.

[17]楊榮, 馮有前,袁修久. 利用現(xiàn)有模型修復(fù)不完整三維模型[J]. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報, 2015,27 (1): 98-105.

猜你喜歡
卷積視圖特征提取
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
基于全卷積神經(jīng)網(wǎng)絡(luò)的變壓器故障診斷
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計數(shù)
基于MED—MOMEDA的風(fēng)電齒輪箱復(fù)合故障特征提取研究
Y—20重型運(yùn)輸機(jī)多視圖
SA2型76毫米車載高炮多視圖
卷積神經(jīng)網(wǎng)絡(luò)概述
基于曲率局部二值模式的深度圖像手勢特征提取
《投影與視圖》單元測試題
Django 框架中通用類視圖的用法