張棟翔 鄧一民 李天然
(上海汽車(chē)集團(tuán)股份有限公司,上海 200041)
近年來(lái),隨著語(yǔ)義分割、目標(biāo)檢測(cè)等領(lǐng)域的快速發(fā)展,語(yǔ)義地圖因其穩(wěn)定、可靠且占用內(nèi)存空間小等優(yōu)勢(shì),在智能導(dǎo)航中受到廣泛關(guān)注。
通過(guò)視覺(jué)語(yǔ)義構(gòu)建地圖的方法可以分為2 類(lèi):點(diǎn)云語(yǔ)義地圖構(gòu)建與概率語(yǔ)義地圖構(gòu)建。秦通等[1]基于點(diǎn)云配準(zhǔn)(Iterative Closest Point,ICP)算法構(gòu)建停車(chē)場(chǎng)的庫(kù)位語(yǔ)義地圖,由于點(diǎn)云密集易混淆,而未提取斑馬線(xiàn)。胡佳欣[2]采用航位推算和基于ICP算法的語(yǔ)義點(diǎn)云匹配方法,在鳥(niǎo)瞰視覺(jué)(Bird’s Eye View,BEV)頂視圖上采用ORB 特征點(diǎn)(Oriented FAST and Rotated BRIEF Features,ORB Features)進(jìn)行回環(huán)檢測(cè)和全局優(yōu)化,但該方法為構(gòu)建清晰的斑馬線(xiàn)地圖,需要載體的行駛路徑形成回環(huán),且使用特征點(diǎn)作為輔助手段,增加了系統(tǒng)的復(fù)雜性。Zaganidis 等[3]采用正態(tài)分布變換(Normal Distance Transform,NDT)方法驗(yàn)證了語(yǔ)義點(diǎn)云建圖的魯棒性和準(zhǔn)確性,利用不同類(lèi)別點(diǎn)云的法向量構(gòu)成的NDT直方圖估計(jì)局部地圖之間的相似性,并在此基礎(chǔ)上添加語(yǔ)義回環(huán)檢測(cè),但該研究對(duì)象為立體相機(jī)捕獲的點(diǎn)云。
Yang 等[4]融合語(yǔ)義立體框與特征點(diǎn),提出立方體 建 圖(Cube Simultaneous Localization and Mapping,CubeSLAM)方法,結(jié)合圖像的模式識(shí)別技術(shù),通過(guò)單目視覺(jué)提取物體的三維立體框。該方法可有效降低視覺(jué)漂移,提高相機(jī)位姿估計(jì)的精度,同時(shí)證明了語(yǔ)義識(shí)別和基于特征點(diǎn)的同步定位與地圖構(gòu)建(Simultaneous Localization And Mapping,SLAM)技術(shù)可相互促進(jìn),目標(biāo)識(shí)別可提供更大范圍的幾何和尺度約束,SLAM 技術(shù)能夠進(jìn)一步提升目標(biāo)識(shí)別的精度。Bowman 等[5]對(duì)識(shí)別結(jié)果使用期望最大化(Expectation Maximization)進(jìn)行數(shù)據(jù)關(guān)聯(lián),進(jìn)一步優(yōu)化了機(jī)器人及地標(biāo)的位姿。與CubeSLAM 類(lèi)似,該方法在采用最大似然估計(jì)推導(dǎo)出的最小二乘優(yōu)化中增加約束,從而提高建圖精度。受Bowman的啟發(fā),Doherty[6]認(rèn)為數(shù)據(jù)關(guān)聯(lián)在概率上呈現(xiàn)非高斯分布,提出使用最大混合類(lèi)(Max-Mixture-Type)模型,將多個(gè)可能性數(shù)據(jù)關(guān)聯(lián)進(jìn)行先驗(yàn)性建模。在推理過(guò)程中,用最大邊緣化法(Max-Marginalization)去除數(shù)據(jù)關(guān)聯(lián)中的變量,同時(shí)保持標(biāo)準(zhǔn)的服從高斯分布的后驗(yàn)假設(shè),最終完成基于非高斯概率分布的語(yǔ)義地圖的構(gòu)建。Bowman和Doherty等人的方法主要針對(duì)特征點(diǎn)與目標(biāo)語(yǔ)義框的數(shù)據(jù)關(guān)聯(lián),并未闡述圖像分割的語(yǔ)義點(diǎn)云匹配問(wèn)題。
構(gòu)建語(yǔ)義地圖時(shí),圖像分割引起的語(yǔ)義誤識(shí)別、邊界像素分割不佳等問(wèn)題,將導(dǎo)致無(wú)法正確進(jìn)行語(yǔ)義匹配。因此,本文提出二維概率網(wǎng)格語(yǔ)義法,針對(duì)圖像分割得到的語(yǔ)義點(diǎn)云,構(gòu)建概率語(yǔ)義地圖,對(duì)語(yǔ)義觀(guān)測(cè)的時(shí)間先后順序和空間連續(xù)性進(jìn)行建模,無(wú)需借助特征點(diǎn)(如ORB Features),不保留短時(shí)間內(nèi)的語(yǔ)義感知錯(cuò)誤,從而濾除噪聲,構(gòu)建穩(wěn)定、清晰的地圖。
在智能駕駛的應(yīng)用場(chǎng)景中,通過(guò)地平面上的車(chē)道線(xiàn)、斑馬線(xiàn)、箭頭、停止線(xiàn)等靜態(tài)地標(biāo)構(gòu)建語(yǔ)義地圖。本文以上述交通標(biāo)志為背景,闡述概率網(wǎng)格語(yǔ)義匹配策略。
如圖1所示,智能車(chē)輛可安裝多個(gè)相機(jī),能夠在360°范圍內(nèi)覆蓋車(chē)輛周邊視野。慣性測(cè)量單元(Intertial Measurement Unit,IMU)、GPS、輪速和轉(zhuǎn)向盤(pán)角度等傳感器信息為視覺(jué)語(yǔ)義信息提供先驗(yàn)位姿。語(yǔ)義信息網(wǎng)格化后,基于先驗(yàn)位姿對(duì)語(yǔ)義信息進(jìn)行匹配,并將匹配結(jié)果轉(zhuǎn)換為概率化網(wǎng)格。根據(jù)匹配過(guò)程中的約束,對(duì)地圖進(jìn)行最小二乘優(yōu)化。其優(yōu)化和匹配的結(jié)果反饋到多源信號(hào)的融合端,從而對(duì)先驗(yàn)信息進(jìn)行糾正。最后,將大于給定概率閾值的網(wǎng)格設(shè)為地標(biāo)物體占據(jù)的網(wǎng)格,輸出語(yǔ)義地圖。
圖1 智能車(chē)輛語(yǔ)義地圖構(gòu)建框架
使用智能車(chē)輛的多個(gè)單目相機(jī)采集圖像,結(jié)合相機(jī)外參標(biāo)定和圖像拼接技術(shù),將載體周邊空間的物體的體素投影到與地面平行的平面,空間維度由三維降低到二維,物體的尺度在水平方向上保持不變。通過(guò)時(shí)序同步將采集的圖像實(shí)時(shí)拼接成覆蓋車(chē)輛周?chē)?60°范圍的頂視圖。而對(duì)于位于載體行駛軌跡一定空間范圍內(nèi)的物體,在一段時(shí)間內(nèi),智能載體對(duì)其覆蓋的平面進(jìn)行多次觀(guān)測(cè),將平面的各點(diǎn)映射到頂視圖像。
從2.2節(jié)的頂視圖中提取所有組成車(chē)道線(xiàn)、斑馬線(xiàn)、箭頭、停止線(xiàn)以及可通行空間邊緣線(xiàn)等語(yǔ)義的像素。上述語(yǔ)義信息大多屬于靜態(tài)的背景,對(duì)光照變化不敏感,不受天氣變化影響,因而可鑒別性強(qiáng)。典型的車(chē)輛周邊不同類(lèi)別的語(yǔ)義信息如圖2所示。
圖2 頂視圖的語(yǔ)義類(lèi)別
對(duì)車(chē)輛周邊的語(yǔ)義空間進(jìn)行二維網(wǎng)格化預(yù)處理,如圖3 所示,車(chē)輛周邊以分辨率λ進(jìn)行網(wǎng)格化。對(duì)含有語(yǔ)義信息的網(wǎng)格標(biāo)記為“1”,沒(méi)有語(yǔ)義信息的網(wǎng)格標(biāo)記為“0”,同時(shí)對(duì)不同類(lèi)別的語(yǔ)義進(jìn)行標(biāo)記。
圖3 語(yǔ)義網(wǎng)格化
將多傳感器信號(hào)進(jìn)行時(shí)間戳對(duì)齊,利用卡爾曼濾波或因子圖(Georgia Tech Smoothing and Mapping,GTSAM)融合車(chē)載慣導(dǎo)、輪速計(jì)、轉(zhuǎn)向盤(pán)角度等信息,為車(chē)輛的位姿估計(jì)提供初始值χa=(Pa,θa),其中,Pa為車(chē)輛的位置坐標(biāo),θa為車(chē)輛的姿態(tài)朝向。
對(duì)語(yǔ)義網(wǎng)格進(jìn)行概率化處理,采用最大化后驗(yàn)概率的方法進(jìn)行匹配。圖4所示為車(chē)輛頂視圖轉(zhuǎn)換的網(wǎng)格,通過(guò)概率網(wǎng)格語(yǔ)義匹配構(gòu)建概率網(wǎng)格語(yǔ)義地圖。其中,交通標(biāo)志的網(wǎng)格概率大于背景網(wǎng)格。具體步驟如下:
圖4 網(wǎng)格匹配過(guò)程
a.定義地圖上某位置的網(wǎng)格(網(wǎng)格A)有語(yǔ)義(Hit,標(biāo)記為“1”)的概率為α,無(wú)語(yǔ)義(Miss,標(biāo)記為“0”)的概率為(1-α),并對(duì)網(wǎng)格A 的概率P進(jìn)行初始化:
隨著車(chē)輛移動(dòng),相機(jī)對(duì)網(wǎng)格A 在不同時(shí)刻進(jìn)行觀(guān)測(cè),同時(shí)對(duì)網(wǎng)格A的概率進(jìn)行更新:
式中,Pt為t時(shí)刻網(wǎng)格A 的概率;z=1、z=0 分別表示觀(guān)測(cè)結(jié)果為有語(yǔ)義、無(wú)語(yǔ)義;Chit、Cmiss分別為觀(guān)測(cè)結(jié)果為有語(yǔ)義和無(wú)語(yǔ)義時(shí)傳感器的更新系數(shù),由傳感器的屬性決定;f-1()為式(1)的反函數(shù)。
那進(jìn)獻(xiàn)釣竿的部下難免有些不悅,但還是強(qiáng)打精神討好說(shuō):“下端重才穩(wěn)得住,用起來(lái)更順手。”說(shuō)著就將握把那一截?cái)Q下,使勁在地面方磚上敲打,篤篤有聲,這還不算,他還高高舉起那一截,朝地上摔去。一聲脆響之后,那一小截釣竿完好無(wú)損。
b.考慮到角度對(duì)語(yǔ)義匹配結(jié)果的影響,以2.5節(jié)的初始位姿朝向θa為中心,在窗口(-τ,+τ)內(nèi),以δ為角度間隔,在已有地圖上對(duì)當(dāng)前幀進(jìn)行匹配,并在窗口內(nèi)找到使式(3)最大的值,即當(dāng)前車(chē)輛的朝向估計(jì)值θb,保持朝向不變,以2.5 節(jié)的初始移動(dòng)車(chē)輛位置Pa為中心,在窗口內(nèi)找到使式(3)概率最大的值Pb,令χb=(Pb,θb):
建圖過(guò)程中車(chē)輛位姿和地圖中地標(biāo)狀態(tài)(包括網(wǎng)格的位置估計(jì)和網(wǎng)格概率)聯(lián)合概率的最大似然估計(jì)[7]為:
式中,Zt為t時(shí)刻的2D 語(yǔ)義網(wǎng)格,包括由頂視圖轉(zhuǎn)換的像素網(wǎng)格、以初始位姿χa為參考位置的周邊語(yǔ)義網(wǎng)格的狀態(tài);Zt j為上述2D語(yǔ)義網(wǎng)格中各網(wǎng)格的語(yǔ)義狀態(tài);χt為t時(shí)刻的位姿;ut為t時(shí)刻車(chē)輛的運(yùn)動(dòng)狀態(tài);m為地圖中的網(wǎng)格狀態(tài);P(·|·)為條件概率。
當(dāng)式(3)取得最大值時(shí),式(4)為最大概率值。
c.為了得到精確值,建立誤差模型,在初值χb附近添加擾動(dòng),采用最小二乘優(yōu)化法得到精確解:
式中,Zhit為有語(yǔ)義的網(wǎng)格,表示此時(shí)精確解χ*使當(dāng)前頂視圖中含有語(yǔ)義網(wǎng)格與已有地圖中含有語(yǔ)義網(wǎng)格相互匹配。
確定車(chē)輛的位姿χ*后,通過(guò)式(2)更新地圖中已有網(wǎng)格的概率,同時(shí)創(chuàng)建新網(wǎng)格并賦予初始概率。
隨著頂視圖轉(zhuǎn)換的網(wǎng)格持續(xù)更新,按照上述步驟執(zhí)行,從而增量地構(gòu)建地圖,見(jiàn)圖4(地圖中數(shù)字表示概率的取值,無(wú)實(shí)際意義)?;陧斠晥D的多次觀(guān)測(cè)產(chǎn)生的2D語(yǔ)義網(wǎng)格,對(duì)網(wǎng)格A的概率進(jìn)行迭代更新。同理,地圖中各網(wǎng)格的概率可多次更新,且不易受到偶爾的語(yǔ)義錯(cuò)誤影響。因此,短時(shí)間內(nèi)的語(yǔ)義識(shí)別錯(cuò)誤或像素分割錯(cuò)誤不會(huì)在地圖上留下痕跡,從而提高地圖的準(zhǔn)確性。
圖5 算法實(shí)現(xiàn)框架
本文使用乘用車(chē)的4個(gè)環(huán)視相機(jī)采集的原始圖像數(shù)據(jù),在時(shí)間戳同步的基礎(chǔ)上,將原始圖像拼接為頂視圖,其覆蓋范圍為14 m×14 m,網(wǎng)格化分辨率為288×288。試驗(yàn)運(yùn)行的處理器為Intel@CoreTMi7-4710MQ, 主頻2.5 GHz,內(nèi)存8 GB。根據(jù)經(jīng)驗(yàn),Chit和Cmiss分別設(shè)置為0.55和0.49。
使用深度層聚合(Deep Layer Aggregation,DLA)為網(wǎng)絡(luò)的主干結(jié)構(gòu),通過(guò)U-Net[8]進(jìn)行語(yǔ)義分割,從頂視圖中提取不同類(lèi)型的語(yǔ)義。
由于環(huán)境具有復(fù)雜性,圖像分割時(shí)均會(huì)存在不同程度的噪聲。圖6所示為地下車(chē)庫(kù)典型場(chǎng)景中不同類(lèi)型的語(yǔ)義噪聲。此外,圖中均存在斑馬線(xiàn)界限不清晰以及部分條紋線(xiàn)未識(shí)別的問(wèn)題。圖6b 中道路間的地面由于白熾燈光反射被誤識(shí)別為車(chē)道線(xiàn)。
圖6 語(yǔ)義分割的噪聲
比較本文提出的概率網(wǎng)格匹配法與NDT 語(yǔ)義點(diǎn)云匹配法所構(gòu)建的語(yǔ)義地圖。如圖7 所示,DNT法不能抵抗語(yǔ)義分割產(chǎn)生的噪聲,其構(gòu)建的語(yǔ)義地圖存在語(yǔ)義邊界不清晰,甚至無(wú)法區(qū)分紋理的現(xiàn)象,在U形轉(zhuǎn)彎處語(yǔ)義混淆現(xiàn)象尤其明顯。
圖7 NDT法構(gòu)建的語(yǔ)義點(diǎn)云地圖
本文提出的概率網(wǎng)格匹配法構(gòu)建的語(yǔ)義地圖如圖8 所示。與圖7 相比,概率網(wǎng)格匹配法能有效抵抗語(yǔ)義噪聲,U 形轉(zhuǎn)彎區(qū)域所包含的斑馬線(xiàn)條紋清晰可見(jiàn)。從細(xì)節(jié)上看,NDT 法構(gòu)建的點(diǎn)云地圖語(yǔ)義輪廓粗糙、混疊不清晰,完全無(wú)法區(qū)分與條紋狀斑馬線(xiàn)相似度高且容易匹配錯(cuò)誤的語(yǔ)義,而本文提出的概率網(wǎng)格匹配法構(gòu)造的斑馬線(xiàn)紋理清晰且正確。
圖8 概率網(wǎng)格匹配法構(gòu)建的語(yǔ)義點(diǎn)云地圖
圖9 所示為卡爾曼濾波融合的里程計(jì)軌跡(簡(jiǎn)稱(chēng)里程計(jì)軌跡)、基于NDT 語(yǔ)義點(diǎn)云匹配的建圖軌跡和基于概率網(wǎng)格匹配的建圖軌跡。
圖9 里程計(jì)、NDT及概率網(wǎng)格建圖軌跡
以里程計(jì)軌跡為基準(zhǔn),比較其他2 種方法的建圖軌跡與里程計(jì)軌跡之間的相對(duì)位姿誤差(Relative Pose Error,RPE),如圖10所示。
圖10 NDT與概率網(wǎng)格建圖RPE曲線(xiàn)
表1列出了基于NDT語(yǔ)義點(diǎn)云匹配及基于概率網(wǎng)格語(yǔ)義匹配的RPE參數(shù)。由表1可知,概率網(wǎng)格匹配法與NDT 點(diǎn)云語(yǔ)義匹配法多項(xiàng)指標(biāo)接近,但概率網(wǎng)格匹配法最大RPE 遠(yuǎn)小于NDT 點(diǎn)云匹配法的RPE。RPE 比較的是不同軌跡上相鄰兩幀之間的位姿變換,作為計(jì)算RPE 基準(zhǔn)的車(chē)輛里程計(jì)軌跡是相對(duì)精確的。RPE 越大,表明建圖軌跡與車(chē)輛里程計(jì)軌跡之間的誤差越大,NDT 法建圖軌跡在部分區(qū)域與實(shí)際路徑相差甚遠(yuǎn)。
表1 相對(duì)位姿誤差比較 m
本文提出二維概率網(wǎng)格語(yǔ)義法進(jìn)行概率語(yǔ)義地圖構(gòu)建,基于多源信息融合提供位姿先驗(yàn)信息,在聯(lián)合概率的最大似然估計(jì)框架下,先確定角度,后確定位置,通過(guò)窗口搜索得到初始匹配位姿,再使用最小二乘法優(yōu)化網(wǎng)格概率更新,得到智能載體的最終位姿。利用語(yǔ)義觀(guān)測(cè)在空間和時(shí)間上的連續(xù)性,對(duì)各網(wǎng)格的概率進(jìn)行多次更新,從而消除噪聲的影響,獲得了清晰的語(yǔ)義地圖。試驗(yàn)結(jié)果證明了所提出方法的有效性。
此外,本文提出的方法無(wú)需多次使用相機(jī)采集原始圖像信息(例如從原始圖像上提取特征點(diǎn)),在計(jì)算過(guò)程中避免使用和存儲(chǔ)原始圖像,可節(jié)約計(jì)算資源和存儲(chǔ)資源,降低成本。
未來(lái),將構(gòu)建大范圍的三維語(yǔ)義地圖,如在多層地庫(kù)的場(chǎng)景中嘗試?yán)帽疚奶岢龅木W(wǎng)格匹配和概率更新法構(gòu)建語(yǔ)義地圖。本文提出的語(yǔ)義匹配方法還可用于開(kāi)發(fā)代客泊車(chē)定位算法。需要指出的是,本文所述的方法不限于智能駕駛,其他類(lèi)似可獲取行駛軌跡的頂視圖場(chǎng)景均適用。