杜曉英,袁慶霓,b,c,齊建友,王 晨
(貴州大學(xué) a.現(xiàn)代制造技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室;b.機(jī)械工程學(xué)院;c.省部共建公共大數(shù)據(jù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,貴陽(yáng) 550025)
同步定位與建圖(simultaneous localization and mapping,SLAM)[1]能夠在未知環(huán)境下完成地圖的自主構(gòu)建與定位,是工業(yè)機(jī)器人、自主導(dǎo)航、無(wú)人駕駛等應(yīng)用中的基礎(chǔ)技術(shù)之一。近年來(lái)以相機(jī)作為傳感器的視覺(jué)SLAM逐漸成為SLAM領(lǐng)域的主要研究方向之一。如ORB-SLAM2[2]、LSD-SLAM(large-scale direct monocular SLAM)[3]、稀疏直接法里程計(jì)(direct sparse odometry,DSO)[4]等視覺(jué)SLAM算法。
如何解決視覺(jué)SLAM在動(dòng)態(tài)場(chǎng)景下魯棒性差、定位與建圖精度受到動(dòng)態(tài)物體干擾成為當(dāng)前研究熱點(diǎn),張慧娟等[5]通過(guò)特征點(diǎn)匹配的結(jié)果計(jì)算兩幀之間的變換矩陣,之后利用該矩陣提取線特征,并對(duì)其進(jìn)行靜態(tài)權(quán)重的評(píng)估,最后通過(guò)余下的靜態(tài)特征進(jìn)行相機(jī)位姿估計(jì),完成跟蹤任務(wù)。楊世強(qiáng)等[6]對(duì)傳統(tǒng)SLAM系統(tǒng)進(jìn)行改進(jìn),提出一種基于幾何約束的動(dòng)態(tài)目標(biāo)檢測(cè)算法。DAI等[7]采用Delaunay三角剖分方法為地圖點(diǎn)建立與圖類似的結(jié)構(gòu),以此判斷其鄰接關(guān)系。之后,將多個(gè)關(guān)鍵幀之間觀測(cè)不一樣的邊緣移除,最終,完成動(dòng)態(tài)物和靜態(tài)背景的分離。但以上幾種SLAM算法構(gòu)建的地圖只包含簡(jiǎn)單的幾何信息,且構(gòu)建的稀疏地圖不能直接用于機(jī)器人后續(xù)的導(dǎo)航工作。YU等[8]提出DS-SLAM算法,利用語(yǔ)義分割網(wǎng)絡(luò)SegNet和運(yùn)動(dòng)一致性檢測(cè)方法剔除動(dòng)態(tài)特征點(diǎn),并創(chuàng)建語(yǔ)義地圖。ZHONG等[9]采用目標(biāo)檢測(cè)方法SSD[10]檢測(cè)幀中的動(dòng)態(tài)物體,利用特征匹配和擴(kuò)展影響區(qū)域的方式對(duì)動(dòng)態(tài)特征點(diǎn)進(jìn)行運(yùn)動(dòng)概率傳播,在跟蹤線程中剔除動(dòng)態(tài)點(diǎn)。唐鼎新等[11]同樣使用PSPNet檢驗(yàn)先驗(yàn)運(yùn)動(dòng)物體,剔除動(dòng)態(tài)物體,并創(chuàng)建了語(yǔ)義地圖。語(yǔ)義分割和目標(biāo)檢測(cè)網(wǎng)絡(luò)雖然可以檢測(cè)動(dòng)態(tài)物體,為SLAM提供語(yǔ)義信息,但如何選擇一個(gè)精度高且計(jì)算量較小的語(yǔ)義分割網(wǎng)絡(luò)與SLAM結(jié)合是也是需要考慮的重要問(wèn)題。針對(duì)以上問(wèn)題,本文結(jié)合語(yǔ)義分割網(wǎng)絡(luò)和多視圖幾何方法,提出一種面向動(dòng)態(tài)場(chǎng)景的視覺(jué)SLAM方法,分割出具體的動(dòng)態(tài)對(duì)象和靜態(tài)對(duì)象,去除動(dòng)態(tài)目標(biāo),然后將剩余的靜態(tài)特征用于位姿估計(jì),提高定位精度,并生成包含語(yǔ)義信息的八叉樹(shù)地圖。最后與現(xiàn)有算法進(jìn)行了對(duì)比實(shí)驗(yàn)分析,表明了該算法的有效性。
本文以O(shè)RB-SLAM2為基礎(chǔ)框架,提出基于語(yǔ)義分割和幾何的視覺(jué)SLAM算法,在視覺(jué)ORB-SLAM2的RGB-D相機(jī)模式中,結(jié)合語(yǔ)義分割,在原有的前端里程計(jì)、局部建圖、回環(huán)檢測(cè)3個(gè)線程基礎(chǔ)之上,添加了語(yǔ)義分割模塊和構(gòu)建語(yǔ)義八叉樹(shù)地圖的線程??傮w框架如圖1所示,首先,RGB-D相機(jī)獲取的RGB圖像傳入跟蹤線程,在跟蹤線程中,采用GCNv2網(wǎng)絡(luò)提取當(dāng)前幀的關(guān)鍵點(diǎn)和描述子。之后通過(guò)語(yǔ)義分割網(wǎng)絡(luò)對(duì)RGB圖像進(jìn)行像素級(jí)的語(yǔ)義分割,分割出具體的對(duì)象,包括動(dòng)態(tài)目標(biāo)對(duì)象和靜態(tài)目標(biāo)對(duì)象,并對(duì)動(dòng)態(tài)特征點(diǎn)進(jìn)行初步的剔除,如行走的人等。并結(jié)合多視圖幾何方法檢測(cè)[12]、進(jìn)一步去除動(dòng)態(tài)物體,將剩余的靜態(tài)特征用于位姿估計(jì)。最后,在語(yǔ)義地圖構(gòu)建線程中利用語(yǔ)義分割提取的語(yǔ)義信息生成點(diǎn)云地圖并轉(zhuǎn)換為八叉樹(shù)地圖。
圖1 視覺(jué)SLAM算法總體框架
GCNV2是一種為三維投影幾何訓(xùn)練的網(wǎng)絡(luò),能夠用來(lái)提取特征點(diǎn)和描述子。它受SuperPoint的啟發(fā)只對(duì)單個(gè)幀進(jìn)行檢測(cè),并通過(guò)刪除部分不必要的參數(shù),采用更低的尺度等操作簡(jiǎn)化網(wǎng)絡(luò)結(jié)構(gòu)。與一般采用單張圖像進(jìn)行訓(xùn)練的方式不同,GCNv2在TUM和SUN-3D數(shù)據(jù)集上使用圖像對(duì)進(jìn)行訓(xùn)練,之后將圖像對(duì)之間的相對(duì)位姿(相對(duì)位姿是通過(guò)數(shù)據(jù)集中g(shù)round-truth獲得的)參與到損失函數(shù)的設(shè)計(jì)中去,可以讓其提取的特征點(diǎn)更加適用于位姿匹配,提高系統(tǒng)在動(dòng)態(tài)環(huán)境下的精度和穩(wěn)定性。GCNv2接收輸入進(jìn)的單通道圖像,將其調(diào)整為320×240尺寸,網(wǎng)絡(luò)接收調(diào)整之后的圖像,對(duì)其進(jìn)行特征提取,并對(duì)特征進(jìn)行均勻化與非極大值抑制處理,最終獲得分布均勻的特征點(diǎn)及其對(duì)應(yīng)的描述子。圖2為采用GCNv2方法進(jìn)行的特征提取結(jié)過(guò)程。從圖中我們可以很明顯的看到中提取的特征均勻的分布在整張圖像中。
圖2 GCNv2網(wǎng)絡(luò)結(jié)構(gòu)
為了對(duì)圖像中的像素進(jìn)行像素級(jí)的語(yǔ)義信息提取,進(jìn)而確定先驗(yàn)的運(yùn)動(dòng)目標(biāo),本文采用分割網(wǎng)絡(luò)Deeplabv3+[13]完成圖像幀的語(yǔ)義分割任務(wù)。近年來(lái)許多學(xué)者不斷提出新的語(yǔ)義分割網(wǎng)絡(luò),如PSPNet像素準(zhǔn)確率為0.929 3,BiSeNet像素準(zhǔn)確率為0.933 7。DeepLabV3+在DeepLabv3的框架上增加了一個(gè)解碼器模塊,并在其中基于空洞卷積的空間金字塔池化層(ASPP)模塊中融合了多尺度信息,在解碼器架構(gòu)中通過(guò)空間信息恢復(fù)來(lái)獲得更加準(zhǔn)確的對(duì)象邊界,優(yōu)化分割結(jié)果,其像素準(zhǔn)確率達(dá)到0.943 1,因此本文選擇DeepLabv3+。圖3顯示了語(yǔ)義分割算法的過(guò)程,其中,粉色像素表示人,藍(lán)色像素表示顯示屏。圖像輸入到網(wǎng)絡(luò)之后,經(jīng)過(guò)DCNN特征提取之后得到兩個(gè)輸出值:包含高級(jí)語(yǔ)義信息的特征圖map1和含有低級(jí)特征(low_level_features)的特征圖map2。map1先通過(guò)ASPP模塊,然后利用1×1卷積調(diào)整通道數(shù)得到map1′。map2利用1×1卷積調(diào)整通道數(shù)得到map2′,將map1′進(jìn)行4次上采樣操作之后與map2′堆疊(concat),最后利用3×3卷積進(jìn)行通道調(diào)整之后,四倍上采樣得到最終分割結(jié)果。
圖3 DeepLabv3+語(yǔ)義分割
利用語(yǔ)義分割網(wǎng)絡(luò)只能檢驗(yàn)如人這樣的先驗(yàn)的運(yùn)動(dòng)目標(biāo)對(duì)象,忽略了椅子,書(shū)本等靜態(tài)物體發(fā)生被動(dòng)運(yùn)動(dòng)時(shí)對(duì)SLAM的影響,如人們手中的書(shū)本或者人為推動(dòng)的椅子等目標(biāo),應(yīng)該被視為動(dòng)態(tài)目標(biāo)對(duì)象,卻被視為靜態(tài)對(duì)象,這將會(huì)對(duì)SLAM產(chǎn)生較大影響。因此本文同時(shí)采用多視圖幾何的動(dòng)態(tài)特征點(diǎn)檢測(cè)方法:將地圖點(diǎn)云投影到當(dāng)前幀,并利用視點(diǎn)差異和深度值變化大小將目標(biāo)對(duì)象區(qū)分為動(dòng)態(tài)目標(biāo)和靜態(tài)目標(biāo)對(duì)象。多視圖幾何的原理如圖4所示,對(duì)于每個(gè)輸入幀,選擇多個(gè)之前與輸入圖像幀重合度較高的幀,把關(guān)鍵幀KF中的關(guān)鍵點(diǎn)p投影到當(dāng)前幀CF,得到投影點(diǎn)p′和投影深度Dproj,每個(gè)關(guān)鍵點(diǎn)對(duì)應(yīng)的3D點(diǎn)是P,然后計(jì)算視差角α(p的反投影與p′之間形成的夾角α)。根據(jù)TUM數(shù)據(jù)集上的測(cè)試實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)α>30°,可判斷其為動(dòng)態(tài)點(diǎn)。同時(shí),我們還要計(jì)算深度值差ΔD=Dproj-D′,D′表示當(dāng)前幀中關(guān)鍵點(diǎn)深度,若ΔD=0,該點(diǎn)被認(rèn)為是靜態(tài)的,若ΔD>0, 則該點(diǎn)被認(rèn)為是動(dòng)態(tài)的。
(a) 關(guān)鍵點(diǎn)p′屬于一個(gè) 靜態(tài)對(duì)象(D′=Dproj) (b) 關(guān)鍵點(diǎn)p′屬于一個(gè) 動(dòng)態(tài)對(duì)象(D′ 語(yǔ)義地圖構(gòu)建線程中,借助PCL庫(kù),結(jié)合關(guān)鍵幀和深度圖生成點(diǎn)云,然后利用當(dāng)前幀的位姿及其點(diǎn)云,進(jìn)行點(diǎn)云的拼接和濾波處理,生成點(diǎn)云地圖,并在點(diǎn)云地圖中進(jìn)行語(yǔ)義信息的標(biāo)注。然而點(diǎn)云地圖雖然給人很直觀的感覺(jué),但點(diǎn)云圖存在占用大量存儲(chǔ)空間、位置信息冗余以及不能直接用于導(dǎo)航等缺點(diǎn)。與此相比,八叉樹(shù)地圖[14]同樣具有點(diǎn)云地圖的直觀性,但存儲(chǔ)空間卻遠(yuǎn)遠(yuǎn)小于點(diǎn)云地圖,適用于各種導(dǎo)航。因此,本文對(duì)點(diǎn)云地圖做進(jìn)一步處理,將點(diǎn)云地圖轉(zhuǎn)換為八叉樹(shù)地圖,并結(jié)合語(yǔ)義信息構(gòu)建語(yǔ)義八叉樹(shù)地圖。但在建圖過(guò)程中,由于存在相機(jī)的噪聲和因動(dòng)態(tài)物體產(chǎn)生的誤差,同一個(gè)節(jié)點(diǎn)在不同時(shí)間點(diǎn)會(huì)有不同狀態(tài)。所以,我們選用概率的方式去說(shuō)明某一節(jié)點(diǎn)被占據(jù)還是未被占據(jù)。但這種方法可能會(huì)出現(xiàn)概率大于1的現(xiàn)象,會(huì)干擾數(shù)據(jù)的處理,因此,之后采用概率對(duì)數(shù)值描述節(jié)點(diǎn)是否被占用,設(shè)y∈R(實(shí)數(shù)集)表示概率對(duì)數(shù)值,占用概率p的數(shù)值范圍為[0,1],則logit變換公式為: (1) 式(1)可逆變換為: (2) 假設(shè)某節(jié)點(diǎn)n在T時(shí)刻的觀測(cè)概率是P(n|Zt),Z表示觀測(cè)數(shù)據(jù),則其被占據(jù)的概率P(n|Z1:T)表示為: (3) 式中:P(n)代表節(jié)點(diǎn)n被占據(jù)的先驗(yàn)概率,P(n|Z1:T-1)代表n節(jié)點(diǎn)從起始到T-1時(shí)刻的估計(jì)概率。往往我們將先驗(yàn)概率P(n)設(shè)為0.5,那么上式轉(zhuǎn)換為概率對(duì)形式為L(zhǎng)(n|Z1:T),表示節(jié)點(diǎn)n從起始到時(shí)間T的概率對(duì)數(shù)值,則T+1時(shí)刻為: L(n|Z1:T+1)=L(n|Z1:T-1)+L(n|ZT) (4) 式中:L(n|Z1:T+1)與L(n|ZT)分別代表節(jié)點(diǎn)n在T時(shí)刻前和T時(shí)刻被占據(jù)的概率對(duì)數(shù)值。由式(4)可知,當(dāng)某一節(jié)點(diǎn)被重復(fù)觀測(cè)到被占據(jù)時(shí),其概率對(duì)數(shù)值隨之增加,否則減少。根據(jù)獲得的這些信息,能動(dòng)態(tài)調(diào)整此節(jié)點(diǎn)的占據(jù)概率,對(duì)八叉樹(shù)地圖不斷進(jìn)行更新。 本文將從TUM數(shù)據(jù)集中選取高動(dòng)態(tài)場(chǎng)景walking序列共4組序列,來(lái)驗(yàn)證本文算法在動(dòng)態(tài)場(chǎng)景下的魯棒性和定位精度。以絕對(duì)軌跡誤差(absolute trajectory error,ATE)和相對(duì)位姿誤差(relative pose error,RPE)[15]為性能指標(biāo)。為了便于區(qū)分,本文用fr3、w、half分別代表freiburg3、walking、halfsphere,作為序列的名稱。將本文的算法分別與ORB-SLAM2、DS-SLAM以及文獻(xiàn)[11]方法進(jìn)行比較。 表1、表2顯示了本文算與ORB-SLAM2、DS-SLAM以及文獻(xiàn)[11]算法在絕對(duì)軌跡誤差和相對(duì)位姿誤差的方面的比較結(jié)果。從表中數(shù)據(jù)分析可得,與傳統(tǒng)ORB-SLAM2相比,在高動(dòng)態(tài)walking序列下,本文算法的絕對(duì)軌跡誤差(ATE)的RMSE值和S.D.值分別提升了95%以上和94%以上,相對(duì)位姿誤差的兩個(gè)指標(biāo)值提升了60%~80%之間。此外,本文所提算法的絕對(duì)軌跡誤差和相對(duì)位姿誤差的RMSE值和S.D.值也小于DS-SLAM、文獻(xiàn)[11]的。實(shí)驗(yàn)結(jié)果證明,在動(dòng)態(tài)環(huán)境下本文算法生成的軌跡誤差值更小,定位更加準(zhǔn)確。 表1 絕對(duì)軌跡誤差對(duì)比結(jié)果 表2 相對(duì)位姿誤差平移部分的對(duì)比結(jié)果 圖5和圖6分別顯示了在高動(dòng)態(tài)序列fr3/w/xyz下ORB-SLAM2及本文算法得到的相機(jī)運(yùn)動(dòng)軌跡與真實(shí)軌跡之間的偏差。其中,黑線代表真實(shí)軌跡,藍(lán)線代表估計(jì)軌跡,紅線代表相機(jī)運(yùn)動(dòng)軌跡與真實(shí)軌跡之間的偏差,紅線越短代表偏差越小。從圖5和6中我們可以看出,相較于其他算法,本文所提算法運(yùn)動(dòng)軌跡圖中紅線最短,位姿估計(jì)更加準(zhǔn)確。同時(shí),也表明了本文提出的算法在動(dòng)態(tài)環(huán)境下可以有效的去除動(dòng)態(tài)特征點(diǎn),得到軌跡誤差更小。 圖5 fr3/w/xyz序列下ORB-SLAM2的軌跡 圖6 fr3/w/xyz序列下本文系統(tǒng)的軌跡 本文將運(yùn)動(dòng)的人當(dāng)做動(dòng)態(tài)物體,通過(guò)移動(dòng)機(jī)器人搭載KinectV2相機(jī)在動(dòng)態(tài)環(huán)境中根據(jù)先前設(shè)計(jì)好的矩形路線勻速運(yùn)動(dòng),感知周圍環(huán)境,采集場(chǎng)景中的信息。隨后,利用ROS工具將獲得的真實(shí)場(chǎng)景數(shù)據(jù)拆成一幀幀圖像,并以TUM數(shù)據(jù)集為標(biāo)準(zhǔn),把獲取的真實(shí)場(chǎng)景數(shù)據(jù)制作成TUM數(shù)據(jù)集的格式,測(cè)試本文算法和ORB-SLAM2算法,進(jìn)而驗(yàn)證本文算法的有效性和可行性。圖7a與圖7b分別表示本文算法和ORB-SLAM2算法生成的三維運(yùn)動(dòng)軌跡,從圖7可以明顯看出,由于實(shí)驗(yàn)場(chǎng)景中有運(yùn)動(dòng)物體的存在,ORB-SLAM2算法生成的軌跡與實(shí)際運(yùn)動(dòng)軌跡相比出現(xiàn)了較大篇幅的波動(dòng),而本文算法生成的軌跡與實(shí)際運(yùn)動(dòng)軌跡基本相符,波動(dòng)幅度較小。 (a) 本文算法 (b) ORB-SLAM2算法圖7 運(yùn)動(dòng)軌跡對(duì)比 為驗(yàn)證本文算法在動(dòng)態(tài)場(chǎng)景下的建圖效果,選取TUM數(shù)據(jù)集中的walking序列的一個(gè)子序列為測(cè)試對(duì)象。圖8是ORB-SLAM2在添加了點(diǎn)云線程后建立的地圖,其中圖8a是點(diǎn)云地圖,圖8b是八叉樹(shù)地圖。圖9是本文算法建立的地圖,其中圖9a是包含語(yǔ)義信息的點(diǎn)云地圖,圖9b是包含語(yǔ)義信息的八叉樹(shù)地圖。為了可視化,本文使用紫色代表顯示屏的像素,綠色代表椅子的像素,其余像素使用物體本身顏色。從圖8可以明顯看出,本文算法建立的語(yǔ)義地圖中已剔除動(dòng)態(tài)物體,不存在顯著的動(dòng)態(tài)物體如行走的人,表明了較好地完成地圖構(gòu)建。 (a) 點(diǎn)云地圖 (b) 八叉樹(shù)地圖圖8 ORB-SLAM2在添加了點(diǎn)云線程后建立的地圖 本文利用GCNV2進(jìn)行特征提取,與傳統(tǒng)SLAM系統(tǒng)的特征提取方法相比,提取的特征點(diǎn)分布更加均勻,通過(guò)語(yǔ)義分割網(wǎng)絡(luò)DeepLabv3+對(duì)VSLAM系統(tǒng)中的圖像幀賦予語(yǔ)義信息,檢測(cè)出對(duì)象中的運(yùn)動(dòng)目標(biāo),再結(jié)合幾何信息檢測(cè)動(dòng)態(tài)特征點(diǎn),增加了視覺(jué)SLAM系統(tǒng)在動(dòng)態(tài)環(huán)境下的魯棒性,最后利用語(yǔ)義信息生成靜態(tài)的語(yǔ)義八叉樹(shù)地圖,節(jié)省大量的存儲(chǔ)空間,同時(shí)生成的地圖可直接用于機(jī)器人的路徑規(guī)劃中。但本文算法仍有不足之處,去除動(dòng)態(tài)特征點(diǎn)時(shí)由于分割的不完成導(dǎo)致部分動(dòng)態(tài)點(diǎn)未被識(shí)別,后面的工作中將會(huì)選擇分割精度更高的網(wǎng)絡(luò)。1.4 語(yǔ)義地圖構(gòu)建
2 實(shí)驗(yàn)結(jié)果與分析
2.1 定位誤差實(shí)驗(yàn)
2.2 建圖測(cè)試
3 結(jié)束語(yǔ)