摘 要:針對視覺SLAM在動態(tài)場景下魯棒性不足的問題,提出一種適用于動態(tài)場景下的視覺SLAM算法——SAD-SLAM。該算法首先使用GCNv2網(wǎng)絡(luò)進(jìn)行特征提取,以獲取分布均勻的特征點集合,并加快提取速度。然后使用YOLOv8-seg語義分割網(wǎng)絡(luò)完成場景內(nèi)物體的檢測,并對推理得到的物體按照是否具備自主運動能力進(jìn)行劃分。同時提出一種語義關(guān)聯(lián)方法,通過對潛在動態(tài)物體進(jìn)行2D和深度層面過濾,以確定潛在動態(tài)物體運動的可能性。最后,構(gòu)建了含有語義信息的稠密3D點云地圖,并避免了動態(tài)物體的干擾。算法使用TUM數(shù)據(jù)集及真實場景進(jìn)行實驗驗證,結(jié)果表明,相較于ORB-SLAM3及其他相關(guān)的動態(tài)SLAM算法,SAD-SLAM在動態(tài)場景下具有更好的定位精度。
關(guān)鍵詞:視覺SLAM;深度學(xué)習(xí);位姿估計;地圖構(gòu)建;室內(nèi)動態(tài)場景
中圖分類號:TP242.6 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)08-040-2528-05
doi: 10.19734/j.issn.1001-3695.2023.10.0557
Visual SLAM method based on semantic association in indoor dynamic scenes
Li Yong1, Liu Hongjie1, 2, Zhou Yonglu1, 2, Yu Ying1
(1.School of Information, Yunnan University, Kunming 650000, China; 2. Yunnan Provincial Key Laboratory of Digital Media Technology, Kunming 650223, China)
Abstract:
In order to improve the robustness of visual SLAM in dynamic scenes, this proposed a new visual SLAM algorithm called SAD-SLAM. This algorithm actively extracted features using the GCNv2 network to obtain a set of evenly distributed feature points and accelerate the extraction speed. Additionally, it detected objects within the scene using the YOLOv8-seg semantic segmentation network and classified them based on their ability to move autonomously. Furthermore, it used a semantic association method to filter potential dynamic objects at both the 2D and depth levels, determining their likelihood of movement. Finally, it constructed a dense 3D point cloud map containing semantic information, avoiding interference from dynamic objects. The effectiveness of this algorithm is demonstrated through experiments using the TUM dataset and real-world scenes. The results show that compared to ORB-SLAM3 and other related dynamic SLAM algorithms, SAD-SLAM achieves better positioning accuracy in dynamic scene.
Key words:VSLAM; deep learning; pose estimation; mapping; indoor dynamic scene
0 引言
同時定位與地圖構(gòu)建(simultaneous localization and mapping,SLAM)的問題可以描述為:機器人在位置環(huán)境中如何確定自身所在的環(huán)境地圖以及自身在該環(huán)境地圖中的位置[1]。根據(jù)獲取外界信息所使用的外部傳感器的不同,SLAM可以分為激光SLAM和視覺SLAM(visual SLAM,VSLAM)。相較于激光雷達(dá),相機低廉的成本和豐富的圖像信息使其在動態(tài)場景中有著更為廣泛的應(yīng)用[2~5]。
根據(jù)其視覺里程計(visual odometry,VO)的不同,VSLAM可以分為特征法和直接法兩類。特征法通過記錄相鄰兩幀圖像的相同特征以完成位姿估計,如Artal等人[6]提出的ORB-SLAM2通過使用ORB特征點(oriented FAST and rotated BRIFF)進(jìn)行當(dāng)前幀與上一幀的特征匹配以估算相機位姿。相較于SIFT[7]、SURF[8]等特征點,ORB特征點的計算量更小,適用于對實時性要求較高的SLAM中。Pumarola等人[9]提出一種基于線特征和點特征共用的SLAM方法,在應(yīng)對低紋理的場景時,該方法通過檢測三個連續(xù)幀中的線特征對應(yīng)關(guān)系從而完成初始化位姿估計。直接法基于圖像光度不變性的假設(shè),通過最小化光度誤差從而求得相機位姿。Engel等人[10]提出一種完全基于直接法的DSO方法,同時為避免光照對圖像的影響,該方法提出光度標(biāo)定,從而保證算法更具魯棒性。然而,由于傳統(tǒng)VSLAM算法假設(shè)環(huán)境為靜態(tài)的,而在真實環(huán)境中,運動物體的存在會對SLAM造成嚴(yán)重干擾,如何提升SLAM在動態(tài)場景下的魯棒性,已成為該領(lǐng)域需要解決的重大問題。
在視覺SLAM中,附著在動態(tài)物體上的特征點被認(rèn)為是異常值,因此不參與maping和tracking。在早期的視覺SLAM中,主要從幾何和光流兩個角度來決定檢測場景中的運動物體。如Zou等人[11]利用重投影誤差,將特征從前一幀投影到當(dāng)前幀,并測量與被跟蹤特征的距離,靜態(tài)和動態(tài)特征的分類取決于其重投影距離的大小。Sun等人[12]通過計算連續(xù)RGB圖像的強度差異并且量化深度圖像的分割,完成像素分類,從而獲得場景中的靜態(tài)部分。Klappstein等人[13]根據(jù)從光流計算得出的運動度量來定義“場景中存在移動物體”的可能性,而運動度量標(biāo)準(zhǔn)是根據(jù)場景中有移動物體的情況下圖像點違反光流的程度得出的,圖形分割算法則基于運動度量來分割運動物體。
在過去幾年,隨著深度學(xué)習(xí)在計算機視覺領(lǐng)域的廣泛應(yīng)用,目標(biāo)檢測、語義分割等任務(wù)都有著較高的精度提升。在視覺SLAM中,借助深度學(xué)習(xí)方法檢測或分割出動態(tài)物體,以避免動態(tài)物體帶來的干擾,該方法被認(rèn)為是可行的。
DynaSLAM[14]使用了Mask R-CNN語義分割網(wǎng)絡(luò)以檢測并分割場景中的動態(tài)特征點,并通過多視圖幾何方法對沒有先驗動態(tài)標(biāo)記的物體進(jìn)行分割,最終結(jié)合兩者結(jié)果,只要在任意一方被檢測出來就認(rèn)為是動態(tài)物體。Detect-SLAM[15]為保證算法的實時性,只對關(guān)鍵幀使用SSD網(wǎng)絡(luò)進(jìn)行動態(tài)物體的檢測,通過特征點的傳播將其結(jié)果傳播到普通幀中。Dynamic-SLAM[16]同樣使用SSD網(wǎng)絡(luò)檢測動態(tài)物體,同時為避免檢測結(jié)果的缺漏,依據(jù)相鄰幀速度不變的特性對其進(jìn)行補償。DS-SLAM[17]通過使用SegNet分割場景中的動態(tài)物體,并使用moving consistency check來確定動態(tài)物體的具體運動情況,若發(fā)生運動則視作動態(tài)物體,若未運動則視為靜態(tài)物體。
在室內(nèi)場景中,上述論文均采用了深度學(xué)習(xí)方法來獲取圖像中先驗的動態(tài)物體的位置,對處于該位置中的特征點進(jìn)行剔除,并使用其他位置的特征點進(jìn)行位姿估計。從實驗結(jié)果來看,該策略是十分有效的。但上述論文在針對提升定位精度這一問題時,對于檢測的結(jié)果僅考慮了“人”這一類別,然而在實際場景中,仍存在著部分潛在動態(tài)物體未被檢測并作為動態(tài)區(qū)域進(jìn)行剔除?;诖?,本文提出了SAD-SLAM,在ORB-SLAM3[18]的基礎(chǔ)上,使用RGB-D相機作為獲取外界信息的傳感器,通過語義關(guān)聯(lián)以篩選出場景中所有的動態(tài)物體,從而更好地完成動態(tài)場景下的定位與建圖。本文的主要工作如下:
a)通過GCNv2進(jìn)行特征提取,以獲得分布更為均勻的特征點集合,避免SLAM在剔除掉過多的動態(tài)特征點后導(dǎo)致追蹤失敗的情況,并加快SLAM在特征提取階段的提取速度。
b)使用YOLOv8-seg語義分割網(wǎng)絡(luò)對場景中的物體進(jìn)行檢測,并將推理得到的結(jié)果通過人工標(biāo)記劃分為兩類,即動態(tài)物體和潛在動態(tài)物體。同時提出一種語義關(guān)聯(lián)方法,通過考慮潛在動態(tài)物體與動態(tài)物體在三維空間內(nèi)的位置關(guān)系,將潛在動態(tài)物體進(jìn)行2D和深度層面雙層過濾,以決定是否將潛在動態(tài)物體視作動態(tài)物體處理。在進(jìn)行位姿估計時僅使用靜態(tài)特征點,以保證SLAM算法在動態(tài)場景下的魯棒性。
c)構(gòu)建稠密3D點云地圖,并通過添加語義信息以滿足移動機器人在進(jìn)行導(dǎo)航、交互和避障等任務(wù)時對地圖的高級需求,同時避免了動態(tài)物體對地圖構(gòu)建的干擾,保證了地圖的可用性。
1 算法框架
SAD-SLAM的總體流程如圖1所示。在算法開始階段,對于傳入進(jìn)來的每一組幀,首先使用GCNv2網(wǎng)絡(luò)提取ORB特征,并使用YOLOv8-Seg完成檢測,通過語義關(guān)聯(lián)來最終決定場景中的所有動態(tài)物體。在初始位姿估計前,剔除掉所有的動態(tài)特征點,僅保留靜態(tài)特征點參與初始位姿估計。在地圖構(gòu)建過程中,首先對關(guān)鍵幀作進(jìn)一步篩選,僅使用靜態(tài)關(guān)鍵幀完成稠密3D點云的地圖構(gòu)建,以避免動態(tài)物體帶來的干擾。同時,使用不同顏色對地圖中的靜態(tài)物體進(jìn)行語義標(biāo)注,從而滿足移動機器人對場景中物體的識別。接下來,將對本文所做的改進(jìn)進(jìn)行具體介紹。
1.1 GCNv2特征提取
在基于特征點的視覺SLAM算法中,ORB特征點相較于SIFT、SURF特征點有著提取速度較快的優(yōu)點,非常適用于實時的SLAM。但其存在著分布不夠均勻、易聚集的問題。如圖2第一列所示,盡管ORB-SLAM3使用了網(wǎng)格劃分的方法來保證ORB特征點的均勻分布,但效果仍不夠理想。Tang等人[19]使用了一種基于深度學(xué)習(xí)的方法來提取特征點,該網(wǎng)絡(luò)首先通過卷積,由原始灰度圖獲得低像素、多通道的概率圖(probability map)和特征圖(feature map)。再通過上采樣改變概率圖的像素大小,并根據(jù)變化后的概率圖中各點的概率值確定圖中的特征點位置。最后以特征點位置為基礎(chǔ),通過特征圖中的對應(yīng)值和一個二值化網(wǎng)絡(luò)層提取出每個特征點對應(yīng)的二值化描述子。在接下來的流程中,本文將對動態(tài)特征點進(jìn)行剔除操作,為避免過多的特征點聚集于動態(tài)物體上從而導(dǎo)致追蹤失敗,本文使用了該方法來替換原有的ORB提取方法,通過LibTorch推理庫,使用GPU加快特征點的提取速度。效果如圖2第二列所示。
1.2 語義分割
Utralytics YOLOv8是一款囊括了目標(biāo)檢測、目標(biāo)分割、關(guān)鍵點檢測等多項任務(wù)的神經(jīng)網(wǎng)絡(luò)模型。在動態(tài)SLAM中往往更關(guān)注于場景中動態(tài)物體的位置,基于深度學(xué)習(xí)的目標(biāo)檢測或者語義分割任務(wù)均可以應(yīng)用于其中。然而,由于僅依賴目標(biāo)檢測獲得的物體檢測框并不能完全擬合物體的邊界,存在大量靜態(tài)區(qū)域,所以本文使用了YOLOv8的語義分割模型來檢測場景中的物體。在綜合考量了YOLOv8-seg不同模型的分割精度和推理速度后,本文使用YOLOv8l-seg來完成場景中物體的識別,其邊界框的全類平均正確率(mAP)為52.3%,掩膜的精度為42.6%。
1.3 語義關(guān)聯(lián)
通常情況下,如水杯、椅子、書本等這些潛在的動態(tài)物體是否發(fā)生運動,取決于與之關(guān)聯(lián)的動態(tài)物體。例如,放在桌面上的水杯,只有當(dāng)人端起它的時候,它才會離開桌面發(fā)生運動。為更好地識別出場景中所有的動態(tài)物體并留下足夠的靜態(tài)特征點進(jìn)行追蹤,本文提出一種語義關(guān)聯(lián)方法,對于經(jīng)過推理所獲得的所有物體,按照是否具有自主運動能力將物體劃分為兩類,即具備自主運動能力的物體和不具備自主運動能力的物體。通過考慮兩者的關(guān)聯(lián)情況,從而確定不具備自主運動能力的物體是否有發(fā)生運動的可能性。在室內(nèi)場景中,本文以“人”作為動態(tài)物體的代表,對于潛在動態(tài)物體,經(jīng)過2D、depth雙層過濾,以最終決定是否將該物體視作動態(tài)物體。如圖3所示,其中第一行和第二行為原始RGB圖像和與之對應(yīng)的深度圖像,第三行為語義分割后的結(jié)果,第四行為通過語義關(guān)聯(lián)方法后保留下的動態(tài)物體。
1)2D過濾 在經(jīng)過語義分割網(wǎng)絡(luò)完成對RGB圖像的推理后,獲取了圖像中所有物體的檢測框位置和物體的掩膜(mask)。如圖4(b)所示,首先將每個潛在動態(tài)物體的檢測框與人的檢測框進(jìn)行相交判斷,從而濾除了圖中的紅色物體。由于藍(lán)色物體的檢測框雖然與人的檢測框相交(參見電子版),但可以明顯看出兩者并不關(guān)聯(lián)。針對該情況,本文對兩者的掩膜進(jìn)行了轉(zhuǎn)換(將掩膜中的前景部分取值為1,背景取值為0),并對相交部分的兩個掩膜矩陣執(zhí)行加法操作,如式(1)所示。同時,為避免在實際情況中相關(guān)聯(lián)的兩個物體由于分割邊界的問題從而導(dǎo)致計算錯誤,在執(zhí)行加法操作前,本文將潛在動態(tài)物體的掩膜向與之關(guān)聯(lián)的動態(tài)物體的方向移動2個像素距離。
Maskfinal=Maskoc+Maskpc(1)
其中:Maskoc為潛在動態(tài)物體相交部分的掩膜矩陣;Maskpc為動態(tài)物體相交部分的掩膜矩陣。
對于最終得到的矩陣Maskfinal,若其中存在值為2的元素,則認(rèn)為兩者在2D層面上是相交的。如圖4(c)所示,經(jīng)過2D過濾,從而保留了余下的物體。
2)深度過濾
由于視覺誤差的作用,僅從2D平面判斷兩個物體是否關(guān)聯(lián)是不夠嚴(yán)謹(jǐn)?shù)?。所以,本文?D平面關(guān)聯(lián)的兩個物體進(jìn)一步進(jìn)行了深度過濾。深度圖不同于RGB圖像,它是一維的,而K-means聚類可以很好地利用該特性判斷兩個在2D平面上關(guān)聯(lián)的物體在深度上是否保持一致。取每一對相交檢測框的最大外接矩形,并在深度圖的對應(yīng)位置進(jìn)行聚類,結(jié)果如圖5所示。
通過對潛在動態(tài)物體經(jīng)過語義分割獲得的掩膜和經(jīng)過K-means聚類得到的掩膜進(jìn)行對比,從而決定該潛在物體在深度上是否與動態(tài)物體關(guān)聯(lián)。
在此,同樣對轉(zhuǎn)換后的兩個掩膜矩陣執(zhí)行加法操作,并計算結(jié)果矩陣Maskdepth中元素值為2的元素個數(shù)。通過設(shè)置合適的閾值υ,若其相似率大于該閾值,則認(rèn)為兩者在深度上是關(guān)聯(lián)的,將該潛在動態(tài)物體歸入動態(tài)物體中。相似率計算公式如式(3)所示。
Maskdepth=Maskk+Masky(2)
其中:Maskk為潛在動態(tài)物體通過K-means聚類所得到的掩膜矩陣,Masky為潛在動態(tài)物體通過語義分割得到的掩膜矩陣。
ρ=NM(3)
其中:M 為潛在動態(tài)物體通過語義分割獲得的掩膜矩陣中前景的元素個數(shù);N為Maskdepth 中元素值為2的元素個數(shù);ρ 為相似率。
如圖6(b)所示,經(jīng)過2D、depth雙層過濾,最終確定了場景中所有具有運動可能性的物體。在經(jīng)過GCNv2網(wǎng)絡(luò)獲取的特征點集合中,若特征點位于動態(tài)物體上,則認(rèn)為該點為異常值。在追蹤過程中,通過剔除所有的動態(tài)特征點,僅使用剩下的靜態(tài)特征點進(jìn)行初始位姿估計以保證SLAM的定位精度。
1.4 稠密3D點云地圖構(gòu)建
關(guān)鍵幀作為連續(xù)幾幀中具有代表性的一幀,一方面降低了相鄰關(guān)鍵幀中的信息冗余度,另一方面由于在SLAM中會將普通幀的深度投影到關(guān)鍵幀上,所以關(guān)鍵幀可以看作是普通幀濾波和優(yōu)化的結(jié)果。同時,關(guān)鍵幀作為SLAM中后端優(yōu)化過程的輸入,從一定程度上提高了計算效率。為避免計算資源的浪費,本文使用關(guān)鍵幀來完成稠密3D點云地圖構(gòu)建,如圖7所示。
圖7(a)是本文為ORB-SLAM3添加的稠密3D點云地圖構(gòu)建模塊,可以看出,由于物體的運動導(dǎo)致其構(gòu)造的地圖很難應(yīng)用于實際需求中。同時,伴隨著移動機器人導(dǎo)航、交互等任務(wù)對地圖的要求越來越高,一般形式的地圖已無法滿足。為保證移動機器人能夠更好地識別地圖中的物體,本文對地圖中的物體進(jìn)行了語義標(biāo)注。通過語義分割及語義關(guān)聯(lián)過程后,區(qū)分了場景中的動態(tài)物體和靜態(tài)物體。對于靜態(tài)物體,對其掩膜使用不同的顏色加以替換,效果如圖7(b)所示;在動態(tài)場景下,通過對關(guān)鍵幀進(jìn)一步篩選,僅使用靜態(tài)關(guān)鍵幀進(jìn)行地圖構(gòu)建,從而避免動態(tài)物體對地圖構(gòu)建的影響,保證了地圖的可用性,效果如圖7(c)所示。
2 實驗驗證及分析
本文的定位精度實驗使用公開的TUM RGB-D數(shù)據(jù)集,通過與ORB-SLAM3及其他相關(guān)的動態(tài)SLAM算法進(jìn)行對比,以驗證SAD-SLAM在動態(tài)場景下的可行性和魯棒性。同時,通過構(gòu)建真實的動態(tài)場景,完成了真實場景下的動態(tài)特征點濾除實驗。最后,給出了本文改進(jìn)的各個模塊的計算時間。本文實驗平臺為AMD R5 CPU,NVIDIA RTX 2080 GPU,16 GB內(nèi)存,操作系統(tǒng)為Ubuntu 20.04。表1給出了算法在進(jìn)行實驗時所設(shè)置的一些參數(shù)。
2.1 TUM RGB-D數(shù)據(jù)集
絕對軌跡誤差(absolute trajectory error,ATE)為算法估計位姿與真實位姿之間的差值,用于評估整體SLAM算法的性能。相對軌跡誤差(relative pose error,RPE)為算法估計位姿與真實位姿之間的差值在經(jīng)過一段時間后相對上次計算的差值的變化量,用于評估SLAM的漂移誤差。本文使用上述兩種誤差對算法的定位精度進(jìn)行綜合評估[20]。
表2~4中給出了ORB-SLAM3和SAD-SLAM定位誤差的具體數(shù)值,并使用RMSE、Mean、Median、S.D對ATE和RPE進(jìn)行衡量。對于每一個序列,均進(jìn)行了10次實驗,并取每項結(jié)果的平均值以保證算法的可靠性。同時,提升量的計算公式如式(4)所示。
η=ο-εο×100%(4)
其中:ο 為ORB-SLAM3的定位精度值;ε 為SAD-SLAM的定位精度值;η 為提升量。
從表2~4中可以看出,在四個高動態(tài)序列中,SAD-SLAM相較于ORB-SLAM3有著極大的定位精度提升。在ATE中,RMSE和S.D的平均提升分別為95%、94.75%。同時,本文給出了動態(tài)序列下算法對每一幀估計的位姿與實際位姿的可視化對比,如圖8所示,紅色線條越長(參見電子版),則表示誤差越大。由此可以看出,本文通過對ORB-SLAM3算法作出的改進(jìn),有效提高了算法在動態(tài)場景下的定位精度,提升了算法的魯棒性。
表5~7給出了SAD-SLAM與DS-SLAM和DynaSLAM在高動態(tài)序列下的誤差對比,并使用RMSE和S.D作為衡量標(biāo)準(zhǔn)。其中DS-SLAM使用SegNet語義分割網(wǎng)絡(luò)完成場景中動態(tài)物體的檢測,而DynaSLAM則使用Mask R-CNN。
在ATE的對比中,SAD-SLAM在其中三個序列中取得最優(yōu)值;在RPE的對比中,SAD-SLAM取得所有序列的最優(yōu)值。其主要原因在于本文提出的語義關(guān)聯(lián)方法,根據(jù)潛在動態(tài)物體與動態(tài)物體的位置關(guān)系判斷潛在動態(tài)物體是否需要作為動態(tài)物體處理,在最大程度上保證了動態(tài)區(qū)域與靜態(tài)區(qū)域的精細(xì)劃分。由此可以表明,相較于其他動態(tài)SLAM算法,SAD-SLAM在動態(tài)場景下的表現(xiàn)要更為優(yōu)秀。
2.2 真實場景下動態(tài)特征點濾除實驗
在真實場景中,本文使用了leTMC520 RGB-D相機對SAD-SLAM進(jìn)行了動態(tài)特征點濾除實驗。如圖9所示,第一列給出了使用GCNv2網(wǎng)絡(luò)提取ORB特征點集合的分布情況;第二列為語義分割的結(jié)果;第三列為經(jīng)語義關(guān)聯(lián)后保留下來的動態(tài)物體;在第四列中,綠色特征點為有效、可用的,而紅色特征點則被認(rèn)為是異常值??梢钥闯?,在經(jīng)過語義關(guān)聯(lián)后,本文不僅剔除了動態(tài)物體(人)上的特征點,同時,與之關(guān)聯(lián)的潛在動態(tài)物體(椅子)上的特征點同樣被剔除,從而保證了對場景中動態(tài)、靜態(tài)特征點更為精細(xì)的劃分。
2.3 耗時分析
在該部分,本文使用了高動態(tài)序列w_half,共1 021幀圖像完成SAD-SLAM的耗時分析。首先對比了ORB-SLAM3中的特征提取時間和使用GCNv2的特征提取時間。然后通過對添加的每個模塊進(jìn)行單獨測試,更具體地表現(xiàn)每個模塊的耗時情況,結(jié)果如表8所示。
3 結(jié)束語
通過使用RGB-D相機,在ORB-SLAM3的基礎(chǔ)上,本文提出一種適用于動態(tài)場景下的視覺SLAM方法——SAD-SLAM。首先使用GCNv2網(wǎng)絡(luò)提取特征點,以獲取分布均勻的特征點集合并加快提取速度。然后通過YOLOv8-seg語義分割網(wǎng)絡(luò)完成對場景中物體的識別,并根據(jù)語義關(guān)聯(lián)結(jié)果以確定場景中所有的動態(tài)物體,僅保留靜態(tài)特征點參與位姿估計以提高定位精度。同時,本文構(gòu)建了動態(tài)場景下含有語義信息的稠密3D點云地圖,以滿足移動機器人對地圖的高級需求。最后,通過使用TUM RGB-D數(shù)據(jù)集和真實環(huán)境對本文算法進(jìn)行實驗,結(jié)果表明本文算法在動態(tài)場景下的定位精度要優(yōu)于ORB-SLAM3和其他相關(guān)的動態(tài)SLAM。
本文使用了深度學(xué)習(xí)方法對ORB-SLAM3中的部分模塊進(jìn)行改進(jìn),以提升算法在動態(tài)場景下的魯棒性,然而基本的位姿估計仍依靠明確的數(shù)學(xué)模型,未來考慮使用神經(jīng)網(wǎng)絡(luò)構(gòu)造端到端的動態(tài)SLAM算法。
參考文獻(xiàn):
[1]陳衛(wèi)東,張飛. 移動機器人的同步自定位與地圖創(chuàng)建研究發(fā)展 [J]. 控制理論與應(yīng)用,2005,22(3): 455-460. (Chen Weidong,Zhang Fei. Research and development of simultaneous localization and mapping for mobile robots [J]. Control Theory and Applications,2005,22(3): 455-460.)
[2]權(quán)美香,樸松昊,李國. 視覺SLAM綜述 [J]. 智能系統(tǒng)學(xué)報,2016,11(6): 768-776. (Quan Meixiang,Piao Songhao,Li Guo. An overview of visual SLAM [J]. CAAI Trans on Intelligent Systems,2016,11(6): 768-776.)
[3]Cadena C,Carlone L,Carrillo H,et al. Past,present,and future of simultaneous localization and mapping: toward the robust-perception age [J]. IEEE Trans on Robotics,2016,32(6):1309-1322.
[4]Pacheco J F,Ascencio J R,Mancha J M R,et al. Visual simultaneous localization and mapping: a survey [J]. Artificial Intelligence Review: An International Science and Engineering Journal,2015,43(1): 55-81.
[5]Takafumi T,Hideaki U,Sei I. Visual SLAM algorithms: a survey from 2010 to 2016 [J]. IPSJ Trans on Computer Vision and Applications,2017,9: 1-11.
[6]Artal R M,Tardos J D. ORB-SLAM2: an open-source SLAM system for monocular,stereo and RGB-D cameras [J]. IEEE Trans on Robotics,2017,33(5): 1255-1265.
[7]Lowe D G. Distinctive image feature from scale-invariant keypoints [J]. International Journal of Computer Vision,2017,60(2): 91-110.
[8]Bay H,Ess A,Tuytelaars T,et al. SURF: speeded up robust features [C]// Proc of European Conference Computer Vision. Berlin: Springer,2006: 404-417.
[9]Pumarola A,Vakhitov A,Agudo A,et al. PL-SLAM: real-time monocular visual SLAM with points and lines [C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2017: 4503-4508.
[10]Engel J,Koltun V,Cremers D. Direct sparse odometry [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017: 611-625.
[11]Zou Danping,Tan Ping. CoSLAM: collaborative visual SLAM in dynamic environments [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2013,35(2): 354-366.
[12]Sun Yuxiang,Liu Ming,Meng Max Q-H. Improving RGB-D SLAM in dynamic environments: a motion removal approach [J]. Robotics and Autonomous Systems,2017,89: 110-122.
[13]Klappstein J,Vaudrey T,Rabe C,et al. Moving object segmentation using optical flow and depth information [C]// Advances in Image and Vicko Technology: the 3rd Pacific Rim Sympoisum.
Berlin: Springer,2009: 611-623.
[14]Bescos B,F(xiàn)acil J M,Civera J,et al. DynaSLAM: tracking,mapping,and inpainting in dynamic scenes [J]. IEEE Robotics and Automation Letters,2018,3(4): 4076-4083.
[15]Zhong Fangwei,Wang Sheng,Zhang Ziqi,et al. Detect-SLAM: ma-king object detection and SLAM mutually beneficial [C]//Proc of IEEE Winter Conference on Applications of Computer Vision. Pisca-taway,NJ:IEEE Press,2018: 1001-1010.
[16]Xiao Linhui,Wang Jinge,Qiu Xiaosong,et al. Dynamic-SLAM: semantic monocular visual localization and mapping based on deep learning in dynamic environment [J]. Robotics and Autonomous Systems,2019,117: 1-16.
[17]Yu Chao,Liu Zuxin,Liu Xinjun,et al. DS-SLAM: a semantic visual SLAM towards dynamic environments[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press,2018: 1168-1174.
[18]Campos C,Elvira R,Rodriguez J G,et al. ORB-SLAM3: an accurate open-source library for visual,visual-inertial,and multi-map SLAM [J]. IEEE Trans on Robotics,2021,37(6): 1873-1890.
[19]Tang Jiexiong,Ericson L,F(xiàn)olkesson J,et al. GCNv2: efficient correspondence prediction for real-time SLAM [J]. IEEE Robotics and Automation Letters,2019,4(4): 3505-3512.
[20]Sturm J,Engelhard N,Endres F,et al. A bench-mark for the evaluation of RGB-D SLAM systems [C]//Proc of IEEE/RSJ International Conference on Intelligent Robotics and Systems. Piscataway,NJ:IEEE Press,2012: 573-580.