国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于無(wú)人駕駛配送實(shí)驗(yàn)平臺(tái)的封閉園區(qū)內(nèi)動(dòng)態(tài)環(huán)境視覺SLAM研究

2024-05-10 02:57薄孟德
關(guān)鍵詞:關(guān)鍵點(diǎn)人體動(dòng)態(tài)

薄孟德

(哈爾濱師范大學(xué)地理科學(xué)學(xué)院,黑龍江 哈爾濱 150025)

0 引言

SLAM(Simultaneous Localization And Mapping),即同時(shí)定位與建圖,是指主體搭載特定傳感器,在無(wú)環(huán)境先驗(yàn)信息的前提下,于運(yùn)動(dòng)過程中建立環(huán)境模型并估計(jì)自身運(yùn)動(dòng)狀態(tài)[1]。在虛擬現(xiàn)實(shí)、自動(dòng)駕駛和機(jī)器人技術(shù)等多個(gè)領(lǐng)域內(nèi),SLAM技術(shù)扮演了一個(gè)關(guān)鍵的角色。過去幾十年間,眾多研究人員不斷推進(jìn)技術(shù)創(chuàng)新,提出了諸如LSD_SLAM,ORB_SLAM等卓越的算法。盡管許多視覺SLAM算法的性能十分優(yōu)越,但大部分算法都基于靜態(tài)環(huán)境假設(shè)[2]。然而,靜態(tài)環(huán)境并不能完全反映現(xiàn)實(shí)使用情況,現(xiàn)實(shí)環(huán)境往往是動(dòng)態(tài)變化的。在這些動(dòng)態(tài)場(chǎng)景下,這些SLAM算法可能會(huì)面臨定位不精確和地圖構(gòu)建存在誤差的問題。因此,優(yōu)化SLAM系統(tǒng)在動(dòng)態(tài)環(huán)境中的精準(zhǔn)性和穩(wěn)定性已成為研究的焦點(diǎn)。本研究提出的算法是,使用HRNet網(wǎng)絡(luò)提取人體關(guān)鍵點(diǎn),從而進(jìn)行人體姿態(tài)估計(jì),通過分析連續(xù)30幀圖像來(lái)識(shí)別人體的實(shí)際行為狀態(tài),從而更有效地去除動(dòng)態(tài)特征點(diǎn),并在TUM數(shù)據(jù)集的動(dòng)態(tài)序列上驗(yàn)證該算法的性能。

1 系統(tǒng)框架

ORB_SLAM2是一種為單目、雙目和深度攝像頭設(shè)計(jì)的高效SLAM系統(tǒng),包含地圖重建、閉環(huán)檢測(cè)和重定位功能。此系統(tǒng)基于PTAM算法架構(gòu),采用了ORB特征來(lái)增強(qiáng)視角的不變性。ORB_SLAM2通過三個(gè)并行的主要線程實(shí)現(xiàn)功能:第一個(gè)線程利用局部地圖的匹配特征和運(yùn)動(dòng)BA重投影誤差最小化技術(shù)進(jìn)行相機(jī)跟蹤;第二個(gè)線程負(fù)責(zé)管理和優(yōu)化局部地圖,執(zhí)行局部BA;第三個(gè)線程進(jìn)行閉環(huán)檢測(cè),以識(shí)別大范圍的循環(huán)并通過位姿圖優(yōu)化來(lái)修正累積誤差。在位姿圖優(yōu)化完成后,啟動(dòng)第四個(gè)線程進(jìn)行全局BA,以精確調(diào)整結(jié)構(gòu)和運(yùn)動(dòng)參數(shù)。ORB_SLAM2作為一種基于特征的方法,對(duì)輸入進(jìn)行預(yù)處理以提取顯著關(guān)鍵點(diǎn)位置的特征,并且所有系統(tǒng)操作都基于這些特征[3]。本研究提出的動(dòng)態(tài)視覺SLAM以該系統(tǒng)為基礎(chǔ)進(jìn)行改進(jìn),完整流程如圖1所示。首先,系統(tǒng)在接收到視覺相機(jī)捕獲的圖像之后,利用HRNet從場(chǎng)景中提取出人體的關(guān)鍵點(diǎn)。然后,采用ST-GCN分析連續(xù)30幀圖像,從而識(shí)別場(chǎng)景中人的行為模式,判斷他們是否在移動(dòng)?;谶@個(gè)分析,可以有效地區(qū)分哪些動(dòng)態(tài)特征點(diǎn)應(yīng)該被剔除。最后,僅將剩余的靜態(tài)特征點(diǎn)送入ORB_SLAM2的后續(xù)處理流程,以進(jìn)行進(jìn)一步的優(yōu)化和地圖構(gòu)建。

圖1 系統(tǒng)框架圖

1.1 基于HRNet的姿態(tài)估計(jì)

目前,大多數(shù)動(dòng)態(tài)SLAM解決方案主要分為兩類:一類是依賴于相機(jī)自身運(yùn)動(dòng)模型來(lái)處理動(dòng)態(tài)環(huán)境下的視覺SLAM;另一類則不需要基于相機(jī)的運(yùn)動(dòng)模型,同樣能夠應(yīng)對(duì)動(dòng)態(tài)環(huán)境下的視覺SLAM。而在基于前者的這一類解決方案中,都需先計(jì)算相機(jī)運(yùn)動(dòng)狀態(tài)再判斷動(dòng)態(tài)區(qū)域,而在計(jì)算相機(jī)運(yùn)動(dòng)狀態(tài)這一過程中則需要濾除動(dòng)態(tài)區(qū)域的靜態(tài)路標(biāo)點(diǎn),存在著“是雞生蛋,還是蛋生雞”問題[4]。因此,本研究采用深度學(xué)習(xí)方法來(lái)判斷封閉園區(qū)內(nèi)動(dòng)態(tài)目標(biāo)的運(yùn)動(dòng)狀態(tài)。通過深度學(xué)習(xí)的方法可以直接針對(duì)動(dòng)態(tài)目標(biāo)進(jìn)行濾除,但不論是目標(biāo)檢測(cè)任務(wù),還是分割類任務(wù),都是通過對(duì)先驗(yàn)信息提前訓(xùn)練后得到的結(jié)果。此類任務(wù)只能判斷出目標(biāo)是否處于真實(shí)的運(yùn)動(dòng)狀態(tài),無(wú)法對(duì)目標(biāo)的真實(shí)運(yùn)動(dòng)狀態(tài)進(jìn)行合理的判斷。例如,場(chǎng)景中同時(shí)存在站立的人與運(yùn)動(dòng)的人,目標(biāo)檢測(cè)類任務(wù)與分割類任務(wù)無(wú)法完成對(duì)場(chǎng)景中人的真實(shí)運(yùn)動(dòng)狀態(tài)的判斷。

本研究選擇通過行為識(shí)別任務(wù)完成對(duì)運(yùn)動(dòng)主體多為人的封閉園區(qū)的運(yùn)動(dòng)狀態(tài)的判斷,人體行為識(shí)別這類任務(wù)中,因?yàn)樾枰獙?duì)人體關(guān)鍵點(diǎn)進(jìn)行提取從而構(gòu)建骨架,所以需要高分辨率的heatmap進(jìn)行關(guān)鍵點(diǎn)檢測(cè)。這與一般的網(wǎng)絡(luò)結(jié)構(gòu)要求不同,比如VGGNet,其最終得到的feature map分辨率較低,一定程度上損失了空間結(jié)構(gòu)。為獲取高分辨率feature map,大部分網(wǎng)絡(luò)選擇先降分辨率,然后再提高分辨率的方法,如U-Net,SegNet,Hourglass等。而在HRNet中,在不同分辨率的feature map間采用了類似“并聯(lián)”的結(jié)構(gòu),并在此基礎(chǔ)上在feature map間進(jìn)行了交互。這種做法保證了在整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中高分辨率的表征都得以保持,并且以交互的形式提高了模型的性能。本研究在參數(shù)和計(jì)算量不增加的前提下使用COCO數(shù)據(jù)集中驗(yàn)證集部分對(duì)HRNet與其他同類網(wǎng)絡(luò)人體關(guān)鍵點(diǎn)提取精度進(jìn)行對(duì)比測(cè)試,結(jié)果顯示,HRNet對(duì)人體關(guān)鍵點(diǎn)提取精度效果更加優(yōu)秀。綜合考慮,本研究使用HRNet進(jìn)行人體關(guān)鍵點(diǎn)提取,使用ST-GCN進(jìn)行人體行為識(shí)別。

1.2 基于姿態(tài)估計(jì)的行為識(shí)別

在2D或3D坐標(biāo)下,動(dòng)態(tài)骨骼模態(tài)可以通過人體關(guān)節(jié)位置的時(shí)間順序表示,通過分析運(yùn)動(dòng)模式則可以做到行為識(shí)別。早期的動(dòng)作識(shí)別技術(shù)主要通過在不同時(shí)間點(diǎn)捕捉關(guān)節(jié)位置,形成特征向量進(jìn)行時(shí)序上的分析。但這種方法沒有利用人體關(guān)節(jié)之間的空間關(guān)系。雖然有學(xué)者嘗試?yán)藐P(guān)節(jié)間自然連接的方法進(jìn)行行為識(shí)別,但大多數(shù)方法依賴手動(dòng)設(shè)定規(guī)則來(lái)分析空間模式。因此模型泛用性較差,難以完成特定應(yīng)用外的任務(wù)。ST-GCN是在骨骼圖序列上指定的,其中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)關(guān)節(jié)。圖中存在著符合關(guān)節(jié)的自然連接的空間邊和在連續(xù)時(shí)間步驟中連接相同關(guān)節(jié)的時(shí)間邊。在此基礎(chǔ)上構(gòu)建多層的時(shí)空?qǐng)D卷積,它使信息沿著空間和時(shí)間兩個(gè)維度進(jìn)行整合。ST-GCN的層次性消除了手動(dòng)劃分部分或遍歷規(guī)則的需要,這增強(qiáng)了模型的表達(dá)能力并且提高了模型性能,本研究使用ST-GCN對(duì)場(chǎng)景中人物進(jìn)行行為識(shí)別。

本研究使用NTU-RGB+D數(shù)據(jù)集進(jìn)行訓(xùn)練,數(shù)據(jù)集由微軟Kinect v2傳感器采集,使用三個(gè)不同角度的攝像機(jī)采集數(shù)據(jù)深度信息、3D骨骼信息、RGB幀以及紅外序列,包括60個(gè)種類的動(dòng)作,共56 880個(gè)樣本,其中包含日常行為動(dòng)作40類,雙人互動(dòng)動(dòng)作11類,健康相關(guān)動(dòng)作9類[5]。這些幾乎包括了封閉環(huán)境下所有常見的人體行為。本研究使用HRNet進(jìn)行關(guān)鍵點(diǎn)提取后,利用ST-GCN進(jìn)行人體行為識(shí)別,在HTU-RGB+D數(shù)據(jù)集上的cross-subject(X-Sub)與cross-view(X-View)兩個(gè)基準(zhǔn)測(cè)試中準(zhǔn)確性分別達(dá)到了85.3%與89.8%。

2 測(cè)試與分析

本研究通過TUM數(shù)據(jù)集的多個(gè)序列進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)首先通過行為識(shí)別算法測(cè)試其對(duì)動(dòng)態(tài)對(duì)象的識(shí)別能力,并移除對(duì)象區(qū)域內(nèi)的動(dòng)態(tài)特征點(diǎn),以展示該算法的有效性;其次評(píng)估所提算法在軌跡偏差精確度方面的表現(xiàn);最后評(píng)估該算法的處理速度。

TUM RGB-D數(shù)據(jù)集由慕尼黑工業(yè)大學(xué)(Technical University of Munich,TUM)的計(jì)算機(jī)視覺團(tuán)隊(duì)提供,其中包含RGB(彩色)圖像和深度圖像等39個(gè)序列,圖像采集分辨率為640×480像素,頻率為30 Hz[6]。數(shù)據(jù)集通常用于訓(xùn)練和評(píng)估計(jì)算機(jī)視覺算法,例如目標(biāo)檢測(cè)、物體識(shí)別、三維重建和SLAM等任務(wù)。本研究選用walking_xyz、walking_static、walking_half、sitting_static四個(gè)序列作為實(shí)驗(yàn)序列,其中因?yàn)榕臄z時(shí)傳感器的移動(dòng)方式不同,使得walking_xyz、walking_static和walking_half序列呈現(xiàn)高度的動(dòng)態(tài)性,由于sitting_static序列主要捕捉兩個(gè)人坐在桌子前時(shí)手部的動(dòng)態(tài)變化,因此sitting_static序列顯示較低的動(dòng)態(tài)性。文獻(xiàn)[7-8]中關(guān)于動(dòng)態(tài)場(chǎng)景下的視覺SLAM研究基本都建立在ORB_SLAM2的基礎(chǔ)框架之上。同時(shí),ORB_SLAM2算法已經(jīng)被廣泛應(yīng)用,并且其內(nèi)部參數(shù)經(jīng)過了充分的優(yōu)化。為了確保實(shí)驗(yàn)的一致性和有效性,本研究在使用ORB_SLAM2框架時(shí),參數(shù)設(shè)置保持不變,使用了該算法的默認(rèn)參數(shù)。

本研究采用相對(duì)位姿誤差(Relative Pose Error,RPE)和絕對(duì)軌跡誤差(Absolute Trajectory Error,ATE)對(duì)SLAM系統(tǒng)的定位精度進(jìn)行評(píng)估。RPE衡量特定時(shí)間段內(nèi)估計(jì)運(yùn)動(dòng)與實(shí)際運(yùn)動(dòng)的姿態(tài)差異,而ATE通過對(duì)比估計(jì)和真實(shí)軌跡的絕對(duì)差距,以評(píng)價(jià)系統(tǒng)的全局定位一致性。

RPE同時(shí)評(píng)估了平移和旋轉(zhuǎn)誤差,而ATE僅衡量平移誤差。設(shè)時(shí)間步長(zhǎng)為i,時(shí)間間隔為t,定義相對(duì)位姿誤差如下:

其中,Qi為第i幀的真實(shí)位姿,Pi為第i幀的估計(jì)位姿。

定義絕對(duì)位姿誤差為:

其中,S為估計(jì)位姿到真實(shí)位姿的轉(zhuǎn)換矩陣。

2.1 實(shí)驗(yàn)平臺(tái)

本研究使用封閉園區(qū)內(nèi)的無(wú)人駕駛配送實(shí)驗(yàn)平臺(tái)(圖2)對(duì)所提算法進(jìn)行測(cè)試。實(shí)驗(yàn)平臺(tái)使用Apollo自動(dòng)駕駛系統(tǒng),該系統(tǒng)是國(guó)內(nèi)應(yīng)用廣泛的自動(dòng)駕駛開源系統(tǒng)。平臺(tái)搭載輪式里程計(jì)、IMU、激光雷達(dá)、RGB-D攝像頭等多種傳感器。選用此平臺(tái)對(duì)本研究所提算法進(jìn)行實(shí)地驗(yàn)證,圖3為本研究所提算法使用實(shí)驗(yàn)平臺(tái)在封閉園區(qū)內(nèi)的應(yīng)用。本研究中的算法測(cè)試環(huán)境配置包括:顯卡為NVIDIA RTX 3060,處理器為i7-10750H,操作系統(tǒng)為Ubuntu 18.04,使用了CUDA 11.0和Pytorch 1.8.0。

圖2 無(wú)人配送實(shí)驗(yàn)平臺(tái)

圖3 本研究算法使用實(shí)驗(yàn)平臺(tái)在封閉園區(qū)內(nèi)的應(yīng)用

2.2 效果對(duì)比

在TUM數(shù)據(jù)集的walking_xyz序列中選擇一組圖像進(jìn)行比較,圖4(a)展示了ORB_SLAM2在該場(chǎng)景下捕獲的特征點(diǎn),而圖4(b)展現(xiàn)了本研究算法捕獲的特征點(diǎn)。結(jié)果顯示,本研究所提出的算法能夠有效地識(shí)別兩個(gè)人的動(dòng)作,并且能夠排除包含在人物上的動(dòng)態(tài)特征點(diǎn),僅保留靜態(tài)特征點(diǎn)。

圖4 動(dòng)態(tài)特征點(diǎn)濾除效果

2.3 精度對(duì)比

實(shí)驗(yàn)對(duì)比了walking_xyz、walking_static、walking_half、sitting_static四種序列的精度,采用ATE和RPE進(jìn)行量化評(píng)估,并提供了均方根誤差(RMSE)和標(biāo)準(zhǔn)差(SD)兩種度量指標(biāo)。使用如下公式描述精度的增強(qiáng)程度:

其中,α為ORB_SLAM2的運(yùn)行結(jié)果,β為本文所提算法的運(yùn)行結(jié)果。

表1至表3展示了ORB_SLAM2與本研究提出算法在walking_xyz、walking_static、walking_half、 sitting_static序列中的性能對(duì)比及精度改進(jìn)情況。結(jié)果表明,在活動(dòng)強(qiáng)度較高的序列中,本研究的算法明顯優(yōu)于ORB_SLAM2,在各項(xiàng)指標(biāo)上都有所提高。對(duì)于活動(dòng)強(qiáng)度較低的序列,改進(jìn)不太顯著,這主要是由于動(dòng)態(tài)變化不明顯,而ORB_SLAM2能夠利用其噪聲消除算法較好地處理這些低動(dòng)態(tài)環(huán)境。因此,在低動(dòng)態(tài)場(chǎng)景中,本研究算法的性能改進(jìn)并不突出。與DS_SLAM的比較結(jié)果見表4,DS_SLAM的相關(guān)性能數(shù)據(jù)可以在文獻(xiàn)[9]中找到。從表中可以看出,本研究算法在各個(gè)序列中均可達(dá)到與DS_SLAM類似的精度水平。

表1 ATE對(duì)比

表2 RPE平移誤差對(duì)比

表3 RPE旋轉(zhuǎn)誤差對(duì)比

表4 動(dòng)態(tài)環(huán)境下的SLAM算法RMSE對(duì)比

2.4 速度對(duì)比

在探討動(dòng)態(tài)環(huán)境下的視覺SLAM問題時(shí),不能忽視算法運(yùn)行速度的重要性。表5對(duì)本研究提出的算法、ORB_SLAM2以及DS_SLAM在同一硬件條件下的執(zhí)行時(shí)間進(jìn)行了比較。本研究算法在保持ORB_SLAM2架構(gòu)的基礎(chǔ)上,額外加入了一個(gè)識(shí)別人體行為的線程,因此其追蹤處理時(shí)間略高于ORB_SLAM2。然而,與DS_SLAM相比較,本研究算法在執(zhí)行速度上展現(xiàn)出了優(yōu)勢(shì)。

表5 動(dòng)態(tài)環(huán)境SLAM算法速度對(duì)比

綜上,綜合各方面的對(duì)比數(shù)據(jù),本研究提出的算法在保證性能的同時(shí),也實(shí)現(xiàn)了速度與精度之間的有效平衡。

3 結(jié)論

本研究開發(fā)了一套針對(duì)封閉區(qū)域中動(dòng)態(tài)環(huán)境的視覺SLAM系統(tǒng),該系統(tǒng)在ORB_SLAM2框架上集成了一個(gè)人體動(dòng)作識(shí)別模塊。通過識(shí)別圖像中人體的實(shí)際動(dòng)作,該系統(tǒng)能夠有效識(shí)別并去除動(dòng)態(tài)特征點(diǎn),確保了特征點(diǎn)的靜態(tài)屬性。

通過與其他主流SLAM算法進(jìn)行比對(duì),結(jié)果顯示,本文算法對(duì)位姿估計(jì)的精度有所提高并保證了算法運(yùn)行速度,實(shí)現(xiàn)了速度與效果的平衡。

本研究提出的方法在處理占較大比例的動(dòng)態(tài)區(qū)域圖像時(shí),可能會(huì)導(dǎo)致過濾后剩余的特征點(diǎn)數(shù)量不足。接下來(lái)需著手解決如何平衡算法的速度和性能,并拓展其在不同應(yīng)用場(chǎng)景中的適應(yīng)性。

猜你喜歡
關(guān)鍵點(diǎn)人體動(dòng)態(tài)
國(guó)內(nèi)動(dòng)態(tài)
國(guó)內(nèi)動(dòng)態(tài)
人體“修補(bǔ)匠”
國(guó)內(nèi)動(dòng)態(tài)
聚焦金屬關(guān)鍵點(diǎn)
人體冷知識(shí)(一)
肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
排便順暢,人體無(wú)毒一身輕
動(dòng)態(tài)
奇妙的人體止咳點(diǎn)