羅順心 張孫杰
(上海理工大學(xué)光電信息與計(jì)算機(jī)學(xué)院 上海 200093)
在近些年,移動(dòng)機(jī)器人、無(wú)人駕駛、飛行器的發(fā)展有稱(chēng)為一個(gè)熱門(mén)的話(huà)題,例如百度的無(wú)人機(jī)是汽車(chē)Apollo、大疆的航拍飛行器、餐廳服務(wù)機(jī)器人等。而這些熱門(mén)話(huà)題中,必不可缺的一門(mén)技術(shù)就是SLAM(Simultaneous localization and mapping)技術(shù),SLAM是在現(xiàn)實(shí)環(huán)境中為移動(dòng)機(jī)器人等設(shè)備提供定位和建圖的功能,通過(guò)SLAM技術(shù),移動(dòng)機(jī)器人能夠?qū)崿F(xiàn)在現(xiàn)實(shí)生活中的導(dǎo)航功能。由于近些年,視覺(jué)傳感器的發(fā)展,使得視覺(jué)SLAM(Visual Simultaneous localization and mapping)的成型尤為迅速。并且在過(guò)去幾年中已經(jīng)在機(jī)器人技術(shù)和計(jì)算機(jī)視覺(jué)中得到了廣泛的研究?;丨h(huán)檢測(cè),在計(jì)算機(jī)視覺(jué)中,也常被稱(chēng)為位置識(shí)別,是視覺(jué)SLAM系統(tǒng)中最重要的部分之一?;丨h(huán)檢測(cè)是解決在機(jī)器人移動(dòng)的定位和建圖過(guò)程中,使用的幀間位姿估計(jì)算法估計(jì)位姿時(shí),隨著時(shí)間的增加而位姿產(chǎn)生漂移的問(wèn)題。位姿產(chǎn)生漂移,則會(huì)使機(jī)器人建立的地圖和定位不在準(zhǔn)確?;丨h(huán)檢測(cè)旨在識(shí)別移動(dòng)機(jī)器人以曾經(jīng)經(jīng)過(guò)的地方。一個(gè)準(zhǔn)確的回環(huán)檢測(cè)有利于可視SLAM系統(tǒng),因?yàn)樗梢燥@著地減少隨時(shí)間累積的位置誤差,并使系統(tǒng)能夠構(gòu)建一致的環(huán)境圖。此外,當(dāng)機(jī)器人跟蹤由于例如突然運(yùn)動(dòng),嚴(yán)重遮擋或運(yùn)動(dòng)模糊而損失時(shí),環(huán)閉合檢測(cè)可用于重新定位。
回環(huán)檢測(cè)問(wèn)題的一類(lèi)流行且成功的方法是基于將外觀的方法。由機(jī)器人捕獲的圖像與對(duì)應(yīng)于先前訪(fǎng)問(wèn)過(guò)的地點(diǎn)的地圖中所獲取的圖像進(jìn)行比較。如果它們之間的相似性足夠高,超過(guò)了所設(shè)定的相似度閾值,則檢測(cè)到回環(huán)。因此,在這種情況下,檢測(cè)循環(huán)本質(zhì)上是圖像匹配問(wèn)題。大多數(shù)最先進(jìn)的閉環(huán)檢測(cè)算法利用Bag-of-Visual-Words(BoVW)模型,例如:DBOW、DBOW2、DBOW3等。視覺(jué)詞袋模型最初主要應(yīng)用于圖像分類(lèi)。BoVW模型使用大量圖像聚類(lèi)特征描述符,例如SIFT或SURF,ORB等特征,產(chǎn)生包含許多“單詞”的字典,可以將單詞視為幾個(gè)相似特征的代表。當(dāng)出現(xiàn)新圖像時(shí),將計(jì)算特征描述符,并根據(jù)特征是否出現(xiàn)在字典中來(lái)表示圖像,通過(guò)圖像的描述計(jì)算圖像的相似成圖。然而,基于BoVW的方法有幾個(gè)缺點(diǎn),因?yàn)樗鼈兺ǔR蕾?lài)于人工建立的傳統(tǒng)特征。這些特征中的每一個(gè)都有各自的特性,有些特征可能是計(jì)算復(fù)雜,有些可能是效率低下等,不能很好地描述圖像的特性。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)常用來(lái)處理圖像類(lèi)型的數(shù)據(jù),是一種專(zhuān)門(mén)用來(lái)處理具有類(lèi)似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。自從卷積神將網(wǎng)絡(luò)出現(xiàn)以后,卷積網(wǎng)絡(luò)的框架也得到了很好的發(fā)展。如圖1所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展
卷積神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)領(lǐng)域的最新發(fā)展表明它們具有強(qiáng)大的表示圖像的能力,這為解決環(huán)閉合檢測(cè)問(wèn)題提供了一種新方法。CNN模型是基于數(shù)百萬(wàn)個(gè)標(biāo)記圖像進(jìn)行訓(xùn)練,例如,使用ImageNet訓(xùn)練以獲得大量權(quán)重參數(shù)。CNN模型使用訓(xùn)練的方式,能夠?qū)W習(xí)圖像的判別特性和特征?,F(xiàn)在,由于CNN提取的特征顯著優(yōu)于手工制作的視覺(jué)任務(wù)特征,CNN已被用于在各種任務(wù)上實(shí)現(xiàn)優(yōu)異的性能,例如:圖像分類(lèi)、地方辨識(shí)和圖像檢索等方面。閉環(huán)檢測(cè)基本上類(lèi)似于圖像分類(lèi)和圖像檢索,對(duì)于這些問(wèn)題的關(guān)鍵步驟都是獲得圖像的良好表示,因此CNN特征可用于檢測(cè)視覺(jué)SLAM系統(tǒng)的回環(huán)檢測(cè)。
本模塊主要針對(duì)于使用卷積特征來(lái)實(shí)現(xiàn)回環(huán)檢測(cè)。卷積神經(jīng)網(wǎng)絡(luò)的框架眾多,例如有VGG16、VGG19、深度卷積的Resnet、Googlenet等,本文選用了最常使用的VGG16網(wǎng)絡(luò)作為卷積特征提取的網(wǎng)絡(luò),將獲取的圖片輸入到VGG16的卷積神經(jīng)網(wǎng)絡(luò)中,提取圖片的特征圖,由于特征圖是一個(gè)高維度的矩陣,因此使用了TSNE降維方法對(duì)特征圖進(jìn)行數(shù)據(jù)處理,然后使用降維之后的數(shù)據(jù)進(jìn)行相似度的計(jì)算。本節(jié)主要包含四個(gè)部分,卷積神經(jīng)網(wǎng)絡(luò)工作原理、VGG16卷積神經(jīng)網(wǎng)絡(luò)特征圖提取、TSNE降維數(shù)據(jù)處理以及相似度計(jì)算?;丨h(huán)檢測(cè)的主要實(shí)現(xiàn)過(guò)程如圖2所示。
卷積神經(jīng)網(wǎng)絡(luò)常用來(lái)處理圖像類(lèi)型的數(shù)據(jù),是一種專(zhuān)門(mén)用來(lái)處理具有類(lèi)似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。它不像BP神經(jīng)網(wǎng)絡(luò)那樣通過(guò)ONE HOT的方式對(duì)圖像的數(shù)據(jù)進(jìn)行處理,而是直接在圖像上面進(jìn)行卷積。
卷積神經(jīng)網(wǎng)絡(luò)包含多個(gè)由卷積層和池化層構(gòu)成的特征提取器。在CNN的一個(gè)卷積層中,通常包含若干個(gè)特征平面(Feature Map),每個(gè)特征平面由一些矩形排列的神經(jīng)元組成,同一特征平面的神經(jīng)元共享權(quán)值,共享的權(quán)值也被稱(chēng)為卷積核(卷積濾波器)。卷積核一般以隨機(jī)小數(shù)矩陣的形式進(jìn)行初始化,在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中卷積核將通過(guò)學(xué)習(xí)得到合理的權(quán)值。卷積核帶來(lái)的直接好處是減少網(wǎng)絡(luò)各層之間的連接,同時(shí)又降低了過(guò)擬合的風(fēng)險(xiǎn)。在卷積神經(jīng)網(wǎng)絡(luò)中,往往進(jìn)行卷積的時(shí)候也伴隨著子采樣的過(guò)程,子采樣也叫做池化(pooling),通常有均值子采樣(mean pooling)和最大值子采樣(max pooling)兩種形式,子采樣可以看作一種特殊的卷積過(guò)程。卷積和池化過(guò)程都大大簡(jiǎn)化了模型復(fù)雜度,減少了模型的參數(shù)。
圖2 CNN回環(huán)檢測(cè)
在卷積網(wǎng)絡(luò)中,也同樣由三個(gè)部分組成,輸入層、隱含層、全連接層。卷積神經(jīng)網(wǎng)絡(luò)的輸入層直接用來(lái)處理多維數(shù)據(jù),例如灰度圖像或者擁有三通道的RGB圖像等。由于卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域應(yīng)用非常的廣泛,因此一般在介紹其結(jié)構(gòu)時(shí)都是預(yù)先假設(shè)了三維數(shù)據(jù),由平面上的二維像素點(diǎn)以及RGB通道組成;隱藏層通常包含了卷積層、池化層、全連接層。全連接是將卷積層的最后一層的特征圖轉(zhuǎn)化成一列向量,同神經(jīng)網(wǎng)絡(luò)一樣,前一層的所有的神經(jīng)元都與后一個(gè)層里面的所有的神經(jīng)元相連。
卷積層主要是對(duì)輸入的數(shù)據(jù)通過(guò)其內(nèi)部的多個(gè)卷積核使用滑動(dòng)窗口的方式進(jìn)行特征提取,然后生成與之對(duì)應(yīng)的特征圖。如圖3所示。
圖3 卷積層示意圖
圖中輸入的數(shù)據(jù)為6*8的圖片,經(jīng)過(guò)一個(gè)每次移動(dòng)2個(gè)位置的2*2大小的卷積核之后,生成了一個(gè)3*4的特征圖。
池化層池化是一個(gè)基于樣本的離散化過(guò)程。其目的是降低輸入表示的采樣,減少它們的維度,并允許我們假設(shè)特征已經(jīng)被包含在了子區(qū)域中。池化層作用是為了通過(guò)提供抽象形式的表現(xiàn)來(lái)防止過(guò)度擬合。同樣的,它也通過(guò)減少了參數(shù)的數(shù)量降低了計(jì)算的復(fù)雜度并為內(nèi)部的表示提供一個(gè)基本的不變性的轉(zhuǎn)換。池化層示意圖如圖4所示。
圖4 池化層示意圖(均值池化、最大池化)
圖4 中,分別表示了兩種池化方式,一種是均值池化,一種是最大池化,使用了2*2的池化層濾波器,每次移動(dòng)兩個(gè)步長(zhǎng),因此均值池化則就是將左圖中四個(gè)方格的數(shù)據(jù)相加求和,然后再計(jì)算出平均值。最大值池化則是將四個(gè)方格的數(shù)據(jù)比較找出最大的數(shù)據(jù)作為輸出。
VGG16卷積神經(jīng)網(wǎng)絡(luò)模型是一個(gè)針對(duì)于圖像分類(lèi)和目標(biāo)檢測(cè)任務(wù)的模型,它是由牛津大學(xué)視覺(jué)幾何組在2014年提出,且獲得了當(dāng)年的ILSVR的冠軍。本文選用了VGG16模型來(lái)提取圖像的卷積特征。VGG16模型如圖5所示。
VGG16模型的輸入是一個(gè)224*224*3的圖片,當(dāng)輸入圖片的時(shí)候,需要對(duì)圖片的大小進(jìn)行重置,使得其與VGG16模型要求的輸入保持一致性。VGG16網(wǎng)絡(luò)由5個(gè)卷積層,3個(gè)全連接層以及一個(gè)Softmax輸出層構(gòu)成,每一個(gè)隱藏層也都參用了RELU作為非線(xiàn)性激活函數(shù)。每一個(gè)卷積層都增加一個(gè)池化層(如圖5紅色框部分為池化層生成的結(jié)果),每一個(gè)池化層都會(huì)將特征圖的尺寸縮為原來(lái)的二分之一,通道數(shù)增加為原來(lái)的2倍,大大減少了參數(shù)的同時(shí)又增強(qiáng)了特征圖對(duì)圖像的表達(dá)能力。
圖5 VGG16模型圖
VGG16的卷積層使用多個(gè)較小卷積核(3×3)的卷積層代替一個(gè)卷積核較大的卷積層(如圖6所示),一方面可以減少參數(shù),另一方面相當(dāng)于進(jìn)行了更多的非線(xiàn)性映射,可以增加網(wǎng)絡(luò)的擬合以及表達(dá)能力,因此小卷積核是VGG16網(wǎng)絡(luò)的的一個(gè)重要特點(diǎn)。兩個(gè)3×3的卷積堆疊獲得的感受野大小,相當(dāng)一個(gè)5×5的卷積;而3個(gè)3×3卷積的堆疊獲取到的感受野相當(dāng)于一個(gè)7×7的卷積。這樣可以增加非線(xiàn)性映射,也能很好地減少參數(shù)(例如一個(gè)7×7的參數(shù)為49個(gè),而3個(gè)3×3的參數(shù)為27)。
圖6 VGG16結(jié)構(gòu)圖
本文采用了VGG16的預(yù)訓(xùn)練權(quán)重作為VGG16的權(quán)重參數(shù),該訓(xùn)練參數(shù)是由ImageNet數(shù)據(jù)集的圖像訓(xùn)練生成。由于VGG16的卷積層生成的特征圖的數(shù)量較多,如 CONV1-1、CONV1-2、CONV2-1、CONV2-2、CONV3-1、…、CONV5-3,層數(shù)越高,特征圖的表達(dá)能力就越強(qiáng),因此本文使用CONV5-3所生成的特征圖7*7*512的特征圖,即全連接層之前的特征圖。每一個(gè)7*7的方格塊都可以當(dāng)做該圖片的一個(gè)特征,因此該圖片使用了512個(gè)7*7的特征表示,這512張?zhí)卣鲌D即為該圖片的特征圖描述。如圖7所示。
圖7 CNN提取特征圖
TSNE(T-Distributed Stochastic Neighbor Embedding)是一種基于流行學(xué)習(xí)方法(Manifold Learning)的降維方法。它是基于SNE(Stochastic Neighbor Embedding)發(fā)展而來(lái)。TSNE的思想是通過(guò)仿射變換將高維度數(shù)據(jù)映射到概率分布上,然后降維后的數(shù)據(jù)具有相似的概率分布,實(shí)際上就是映射在高維的數(shù)據(jù)的距離在映射成低維度之后的距離具有相似的特性。
對(duì)于一個(gè)N維的數(shù)據(jù)x1,x2,…,xn進(jìn)行降維,其中每一個(gè)x都具有相同的維度。SNE算法首先將歐幾里得距離轉(zhuǎn)換為條件概率來(lái)表達(dá)點(diǎn)與點(diǎn)之間的相似度。定義一個(gè)高維度樣本的分布概率P為
P(j|i)表示第i個(gè)樣本分布在樣本j周?chē)母怕?。δi表示以樣本xi為中心的高斯分布的方差。由于只關(guān)心不同樣本之間的相似度,因此定義P(i|i)=0。映射的低維空間的概率分布公式為
其中y是x映射到低維空間的向量,同樣,在低維空間中,q(i|i)=0。由于要保持低維空間和高為空間中分布概率的一致性,以KL散度定義了兩個(gè)不同分布之間的目標(biāo)優(yōu)化函數(shù)為
式中Pi和Qi分別為樣本i在高維度空間中的概率分布和在低維度空間中的概率分布。從目標(biāo)函數(shù)中可以看出當(dāng) pj|i較大時(shí),qi|j較小時(shí),目標(biāo)函數(shù)的代價(jià)會(huì)很高;當(dāng) pj|i較小時(shí),qi|j較大時(shí),目標(biāo)函數(shù)的代價(jià)會(huì)得到一個(gè)較低的值,因此,這樣就會(huì)造成不好的擬合結(jié)果。對(duì)稱(chēng)SNE則很好地解決了此問(wèn)題。對(duì)稱(chēng)SNE將條件概率密度更改為聯(lián)合概率密度,使在高維空間中的聯(lián)合概率分布P和低維度空間中的概率分布 Q,對(duì)任意 i,j均有 pij=pji,qij=qji,定義如下:
高維度空間為
其中n為x樣本的個(gè)數(shù),低維度空間為
在對(duì)稱(chēng)SNE中,同樣最小化SNE中的目標(biāo)函數(shù),其中條件概率的pj|i、qj|i變成了聯(lián)合分布的pji、qji:
一個(gè)高維度數(shù)據(jù)降維到一個(gè)低維度數(shù)據(jù),很可能會(huì)產(chǎn)生數(shù)據(jù)擁擠的問(wèn)題,TSNE使用了t分布作為低維空間概率分布函數(shù),有效地解決了數(shù)據(jù)擁擠的問(wèn)題,同時(shí)在高維度空間采用了對(duì)稱(chēng)SNE的聯(lián)合概率分布。因此:
高維度空間概率分布:
低維度空間概率分布:
目標(biāo)函數(shù)也同樣采用了KL散度來(lái)擬合兩個(gè)分布函數(shù)。
回環(huán)檢測(cè)中的一個(gè)重要環(huán)節(jié)就是計(jì)算兩個(gè)圖像的相似度,它代表著兩個(gè)圖像之間的相似程度。在機(jī)器人移動(dòng)的過(guò)程中產(chǎn)生了很多的關(guān)鍵幀,將這些關(guān)鍵幀的集合稱(chēng)之為P={p1,p2,…,pn},對(duì)于關(guān)鍵幀中的每一幀都需要進(jìn)行回環(huán)檢測(cè)的計(jì)算,每一幀關(guān)鍵幀通過(guò)VGG16卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖使用 F={f1,f2,…,fn},其中每一個(gè) f都是一個(gè)7*7*512的維度的矩陣。對(duì)于兩個(gè)關(guān)鍵幀的相似度計(jì)算,可使用如下算法描述:
算法計(jì)算相似度
輸入:關(guān)鍵幀 p1,p2;
輸出:相似度得分:Score;
1)定義Score=0;s=[];
2)VGG16提取特征圖f1,f2:
5)計(jì)算每一個(gè)特征層的距離得分:
6)end for
7) 計(jì)算兩張圖像的相似度得分:
return Score
該算法主要分為由三個(gè)部分組成。第一個(gè)部分是,輸入的兩個(gè)關(guān)鍵幀p1,p2通過(guò)VGG16的卷積神經(jīng)網(wǎng)絡(luò)提取conv5-3池化后的特征圖f1,f2,每一個(gè)關(guān)鍵幀的卷積特征都是7*7*512的特征圖。在這里,將每一個(gè)特征圖都可以看做圖像的特征描述,特使一個(gè)7*7的矩陣塊,使用ONE HOT的方式,將該矩陣塊變成一個(gè)49維度的向量,因此該圖片的描述特征為一個(gè)512*49的矩陣。如圖8所示。
圖8 多層特征圖轉(zhuǎn)化為特征矩陣
第二個(gè)部分是對(duì)特征矩陣的降維處理,從算法中可以看待TSNE函數(shù)有一個(gè)參數(shù)dim,該dim就是設(shè)定轉(zhuǎn)化到的低維度的空間數(shù)。在對(duì)特征矩陣降維之前,首先要將兩個(gè)關(guān)鍵幀的特征矩陣變成一個(gè)曾廣矩陣,這樣可以使得在降維之后,仍能保持兩個(gè)特征矩陣在同一個(gè)空間中,合并特征矩陣生成Fh:
TSNE算法也使得降維后的數(shù)據(jù)保持了在高維空間中的相似特性。通過(guò)TSNE算法降維后生成一個(gè)低維度矩陣Fl,將矩陣分割成降維后的特征f1′,f2′:
最后兩個(gè)關(guān)鍵幀的得分為所有特征之和的平均值:
其中n為特征層的個(gè)數(shù),即n=512。
回環(huán)檢測(cè)就是判斷兩個(gè)關(guān)鍵幀之間的得分是否有達(dá)到相似度閾值。若大于相似度閾值則檢測(cè)到回環(huán)。若小于相似度閾值,則未檢測(cè)到回環(huán)。
本節(jié)主要對(duì)本篇論文中所提出的的算法進(jìn)行有效性驗(yàn)證以及參數(shù)與相似度的關(guān)系。在本實(shí)驗(yàn)中,設(shè)備參數(shù):CPU為i7 7700k,運(yùn)行內(nèi)存為64G,GPU為英偉達(dá)NVDIA GTX1080。采用了基于Ubuntu16.04系統(tǒng),Python3.6的環(huán)境搭建而成。針對(duì)于VGG16模型,采用了較為熟知的Keras深度學(xué)習(xí)框架,VGG16模型的權(quán)重參數(shù)使用了從ImageNet數(shù)據(jù)集訓(xùn)練的預(yù)訓(xùn)練權(quán)重。TSNE降維方法使用了基于Scikit-learn的API庫(kù)。實(shí)驗(yàn)一使用了本地采集的數(shù)據(jù)集和公開(kāi)數(shù)據(jù)集TUM的數(shù)據(jù)進(jìn)行測(cè)試,驗(yàn)證該算法實(shí)現(xiàn)回環(huán)的效果。實(shí)驗(yàn)二同時(shí)展示了降低維度的維數(shù)dim與相似度的關(guān)系,實(shí)驗(yàn)三展示了相似度得分中δ與相似度的關(guān)系。
實(shí)驗(yàn)一:
圖9 本地實(shí)驗(yàn)室模擬機(jī)器人移動(dòng)過(guò)程中拍攝的照片
圖10 TUM數(shù)據(jù)集中提取的圖片
圖11 本地?cái)?shù)據(jù)相似矩陣熱力圖
圖12 TUM數(shù)據(jù)集相似矩陣熱力圖
圖9 的圖片是在本地實(shí)驗(yàn)室模擬機(jī)器人移動(dòng)過(guò)程中拍攝的照片,圖10是TUM數(shù)據(jù)集中提取的圖片;圖11是由本地?cái)?shù)據(jù)集通過(guò)本實(shí)驗(yàn)算法得到的相似矩陣;圖12是TUM公共數(shù)據(jù)集得到的相似性矩陣。
通過(guò)實(shí)驗(yàn)一,分別使用本地的數(shù)據(jù)和TUM數(shù)據(jù)集的數(shù)據(jù)驗(yàn)證了算法的可靠性,從熱力圖中,可以清楚地看出對(duì)角線(xiàn)上的相似度分?jǐn)?shù)很高,而不是對(duì)角線(xiàn)上的數(shù)據(jù)的相似度得分很低。該熱力圖非常形象的說(shuō)明了該算法的有效性,能夠?qū)崿F(xiàn)回環(huán)檢測(cè)。在TUM數(shù)據(jù)集中,第一幀圖片和最后一針圖片也是一個(gè)回環(huán),在圖12中能夠看到該回環(huán)同樣被有效的檢測(cè)出。通過(guò)本實(shí)驗(yàn),充分驗(yàn)證了該算法對(duì)回環(huán)檢測(cè)具有相當(dāng)優(yōu)異的表現(xiàn)能力,驗(yàn)證了該算法的可靠性。
實(shí)驗(yàn)二:
圖13 TSNE降維中低維空間對(duì)相似度的影響
在實(shí)驗(yàn)二中,使用了三組數(shù)據(jù)試驗(yàn)了TSNE降維方法中低維空間維度的選取對(duì)圖片相似度的影響。第一組和第二組采用了回環(huán)數(shù)據(jù)的圖片,第三組數(shù)據(jù)采用了不是回環(huán)的數(shù)據(jù)。從圖13中,能夠輕易得出隨著維度空間的增加,相似度的結(jié)果逐漸收斂到一個(gè)值,相似度的結(jié)果計(jì)算越準(zhǔn)確。但是同樣,隨著維度的增加,降維的時(shí)間也會(huì)變得很長(zhǎng)。因此選擇一個(gè)合適的維度是非常的中,技能工增加實(shí)時(shí)性,又能夠得到優(yōu)異的結(jié)果。從本實(shí)驗(yàn)的數(shù)據(jù)中看出,降低的維度使用維度空間為5就能得到優(yōu)異的結(jié)果。
實(shí)驗(yàn)三:
圖14 δ參數(shù)對(duì)相似度的影響
實(shí)驗(yàn)三使用了兩組數(shù)據(jù)對(duì)參數(shù)δ進(jìn)行了探討實(shí)驗(yàn),從圖14中可以看出,該參數(shù)對(duì)相似度的影響非常大。圖中data1的曲線(xiàn)為回環(huán)數(shù)據(jù)的曲線(xiàn),data2的曲線(xiàn)為非回環(huán)的數(shù)據(jù),對(duì)于data2來(lái)說(shuō),如果選擇了一個(gè)大的參數(shù)值,而相似度閾值卻沒(méi)有改變,則很容易就誤認(rèn)為檢測(cè)到回環(huán)。該參數(shù)必須選擇一個(gè)非常合適的才能夠準(zhǔn)確的表示回環(huán)。從本實(shí)驗(yàn)中能能夠看出,δ的取值盡量在0.1~1之間,該區(qū)間內(nèi),既能夠得到很好的相似度結(jié)果,又能夠非常明顯地區(qū)分出不是回環(huán)的效果。
本文采用了深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)作為圖像特征的提取,對(duì)于得到的高維特征,采用了目前效果最好的TSNE數(shù)據(jù)降維方法進(jìn)行數(shù)據(jù)降維,剔除高維特征中冗余的數(shù)據(jù),減輕了計(jì)算量。最后采用高斯函數(shù)計(jì)算每一張?zhí)卣鲌D的距離相似度得分。最后將所有特征圖中的分?jǐn)?shù)均值化處理,得到最終相似度得分。在本文的實(shí)驗(yàn)中,能夠看出卷積神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)現(xiàn)回環(huán)檢測(cè)有著非常好的效果。TSNE數(shù)據(jù)降維方法中降低特征的維度的選取是一個(gè)重要的參數(shù),它不僅影響著相似度得分,同時(shí)對(duì)算法的實(shí)時(shí)性也有重大的影響,因此需要選擇一個(gè)合適的維度,既能保持相似度的效果,又能滿(mǎn)足實(shí)時(shí)性要求。參數(shù)δ也需要選擇一個(gè)合適的值,使得回環(huán)檢測(cè)的相似度結(jié)果滿(mǎn)足要求。