張 煜,趙奉奎,張 涌
(南京林業(yè)大學 汽車與交通工程學院,南京 210037)
現(xiàn)如今,自動駕駛作為計算機科學、模式識別和控制技術高度結合的產(chǎn)物,從根本上改變了傳統(tǒng)的駕駛方式。自動駕駛主要涉及環(huán)境感知、決策規(guī)劃以及車輛控制三大模塊。目標檢測作為環(huán)境感知中的重要內(nèi)容,主要任務是通過多種傳感器進行道路信息的提取以及識別。如何快速并準確地檢測出復雜環(huán)境中的駕駛風險是實現(xiàn)安全駕駛的基礎,也是自動駕駛技術亟需解決的關鍵問題之一。
得益于深度學習的廣泛應用,目標檢測算法得到了快速的發(fā)展?;谏疃葘W習的目標檢測任務可分為目標分類和目標定位。其中,目標分類任務負責判別輸入圖像區(qū)域內(nèi)所出現(xiàn)物體的類別和相應的置信度得分。目標定位任務負責確定輸入圖像區(qū)域中感興趣類別物體的位置和區(qū)域。Zhu等人提出了一種多傳感器多層次增強的網(wǎng)絡體系結構,使檢測網(wǎng)絡具備了更強的去冗余能力和在復雜場景下的泛化能力。Yu等人利用focal loss對檢測模型的損失函數(shù)進行了優(yōu)化,采用剪枝算法簡化了網(wǎng)絡,并用多尺度數(shù)據(jù)集增強了檢測網(wǎng)絡的可預測范圍和魯棒性;袁志宏等人在YOLOv3基礎上提出了一種YOLOv3-BT目標檢測算法,可兼顧識別檢測的實時性和準確度。閆賀等人提出了一種基于Faster R-CNN算法的SAR運動目標檢測方法,通過Kmeans聚類方法修改錨框的長寬比,并采用FPN網(wǎng)絡架構檢測特征,該方法具有實現(xiàn)簡單、檢測效率高等優(yōu)勢。Zhao等人在MobileNetv2-SSDLite基礎上設計了一種新型輕量級目標檢測網(wǎng)絡—LMSDN,該模型具有更高的識別精度和更強的抗干擾能力。Xu等人提出了一種將視覺顯著性和級聯(lián)卷積神經(jīng)網(wǎng)絡結合的物體檢測方法,有效提高了物體檢測精度,保證了合成孔徑雷達圖像的檢測精度。
障礙物測距作為智能車和高級駕駛輔助系統(tǒng)感知交通信息的關鍵內(nèi)容,是降低交通事故概率,提高交通安全的重要技術手段。其主要任務就是,對周圍環(huán)境進行感知處理,測量車輛的橫向距離和縱向距離來實現(xiàn)精準定位,同時也可以對影響行駛安全的潛在危險進行有效的檢測和預警。單目視覺測距方法簡單,計算量小,實用性能高,是目前車輛測距的重要途徑。Liang等人提出了一種非固定相機的現(xiàn)場圖像提取方法,與傳統(tǒng)方法相比,在現(xiàn)場實驗時更加靈活、方便。Song等人基于3個道路消失點以及虛擬識別點的約束,提出了一種準確性更高的相機標定方法。劉軍等人通過一種變參數(shù)逆透視變化和道路消失點檢測的方法來實時測量車輛相對運動時橫向距離和側向距離,從而建立車輛測距模型。黃同愿等人提出了一種冗余切圖的方法,結合改進的邊界框篩選算法實現(xiàn)對小目標行人的檢測,同時提出了一種包含俯仰角和偏航角的改進相似三角形測距算法。吳駿等人采用多尺度分塊二值模式和Adaboost算法建立基于位置信息模型的車距測量方法。高敏等人基于特征變換算法來估計車輛的姿態(tài)角,利用目標姿態(tài)偏差模板和目標圖像模擬立體視覺。
本文在智能車前方障礙物檢測的基礎上,引入了基于單目視覺的目標測距算法。本文首先利用目標檢測算法獲取目標的邊界信息,隨后基于相機的小孔成像模型,運用像素坐標系和世界坐標系之間的轉換關系,得到相機與障礙物之間的距離,并在APOLLO D-KIT上進行了測距試驗,進而給出了相關結果及分析。
相機的成像過程可以用小孔成像來描述,如圖1所示。圖1中,為相機光心,為相機坐標系,為相機成像平面。是空間中的一點,是在相機成像平面上的投影點。假設相機焦距為,則滿足相似三角形關系,關系如式(1)所示:
圖1 相機成像模型Fig.1 Imaging model of the camera
整理得式(2):
其中,,就是的坐標。為了最終獲得成像的像素信息,需要將坐標轉換為像素坐標。在像素坐標系o-u-v中,原點o位于圖像左上角,軸向右,軸向下。坐標轉換中存在一個尺度縮放及原點平移,假設,軸的縮放系數(shù)分別為,,原點的平移為[c,c],則的坐標與像素坐標之間的關系如式(3)所示:
其中,,即為相機的焦距f,f,且f,f和c,c單位均為像素。將式(3)整理為矩陣形式,參見式(4):
則中間矩陣即為相機的內(nèi)參矩陣。
由于相機透鏡的存在,會引起圖像的徑向畸變。在產(chǎn)生徑向畸變的圖片中,直線往往會變成曲線,且越靠近圖像邊緣的地方畸變越明顯。對于圖1中的點,其極坐標形式為[,],其中表示與坐標系原點的距離,表示與水平軸的夾角。徑向畸變可以看作坐標點沿長度方向發(fā)生了變化,也就是發(fā)生了改變,假設畸變呈多項式關系,(x,y)就是畸變后的點坐標。即:
其中,、表示相機的外參數(shù)。
本文利用Matlab對相機的內(nèi)外參數(shù)進行標定。首先,需要將一張8×6、方格單位為28 mm的棋盤格固定在一塊垂直平面上,如圖2所示。隨后將相機以不同姿態(tài)、角度對棋盤格進行拍攝,選取清晰、多樣的拍攝結果,最后對拍攝結果進行標定。
圖2 棋盤格標定圖Fig.2 Camera calibrating by using checkerboard
攝像頭的內(nèi)參矩陣為:
徑向畸變參數(shù)為:
相機的主要參數(shù)見表1。
表1 相機的內(nèi)參與外參Tab.1 Intrinsic and extrinsic parameters of the camera
考慮到障礙物檢測所需要的速度與精度,本文選擇YOLOv3算法進行目標檢測。
YOLO(You Only Look Once)是基于回歸的目標檢測模型中的一種,其主要優(yōu)勢為檢測速度快,適合實時性檢測系統(tǒng)。與傳統(tǒng)的R-CNN、Faster R-CNN等不同,YOLO模型分為網(wǎng)絡特征提取和特征圖檢測兩個部分,可以直接從圖像中預測目標的分類及邊界框坐標,但是相比之下精度并不高。在此基礎上,YOLOv3在基礎網(wǎng)絡模型部分采用了DarkNet-53(如圖3所示),加強了特征提取能力,同時加入了殘差網(wǎng)絡模塊,從而更好地學習圖像特征。
圖3 ResNet-53結構圖Fig.3 Structure of ResNet-53
YOLOv3參考FPN(feature pyramid networks)的思想,利用類似金字塔的特征提取網(wǎng)絡,引入了多尺度預測。圖片在進入YOLOv3后會被調(diào)整為統(tǒng)一的尺寸,隨后被劃分為13×13、26×26、52×52三種規(guī)模。每種規(guī)模需要預測3個目標邊框(bounding box),每個目標邊框都會預測中心點坐標(,)、邊框的寬高(,)以及置信度5個值。因此,一個規(guī)模的網(wǎng)格,目標分類數(shù)為,最終得到的張量為[3(41)]。這里,研究推得的置信度公式為:
損失函數(shù)是用來衡量真實值與預測值之間誤差的標準,損失函數(shù)的建立往往決定著網(wǎng)絡模型的速度與檢測效果。對于本文研究的單目目標檢測問題,在損失函數(shù)中通常需要考慮3方面的損失、包括坐標損失、置信度損失以及類別損失,本文使用的YOLOv3的損失函數(shù)如下:
展開式如下:
本文的目標檢測主要是面對封閉園區(qū)及室內(nèi)的車輛及行人,因此融合多尺度特征的YOLOv3能夠對環(huán)境目標進行精確的檢測分類,并輸出相應的邊界框尺寸,符合本文需求。
前文實現(xiàn)了對目標障礙物的檢測,本節(jié)將在檢測環(huán)節(jié)輸出邊界框的基礎上,建立相機測距模型,并對障礙物與相機之間的縱向距離及橫向距離進行估算。
單目相機的目標測距通常是利用相機平面成像與實際物體之間的相似關系來確定相機光心到物體的實際距離。Stein等人提出了經(jīng)典的相似三角形測距算法的基礎模型,討論了像素誤差對該模型的影響情況。但是該模型并沒有考慮相機俯仰角對測距誤差的影響,因此Liu等人在此相似三角形測距模型基礎上加入相機姿態(tài)角俯仰角()對測距的影響。
目標檢測預測框的準確度對于目標測距的精度至關重要。準確的預測框意味著更精確的圖像參考點,因此參考點的選取是測距工作的前提。
YOLOv3輸出了障礙物在圖像上的邊界框信息,包括邊框的、、、。要進行障礙物測距,首先需要選定參考點才能進行距離的估算。本文選取邊界框底部的中心點作為參考點,參考點坐標計算如式(11)所示:
其中,y作為測距算法中縱向距離的輸入,輸出相機光心到底部邊界框中點的實際縱向距離。
本文采用基于投影模型的測距算法,在此基礎上加入了相機的俯仰角,對障礙物與相機之間的實際距離進行測算。由于相機在安裝過程及車輛行駛過程中的姿態(tài)會發(fā)生改變,因此,考慮能減小相機姿態(tài)帶來的測距誤差,降低對相機的安裝要求。本文的測距模型結構如圖4所示。
圖4 測距模型Fig.4 Ranging model
圖4中,是相機的焦距(像素),是相機光心距離地面的實際高度(m),為鏡頭中心點,y為汽車底部與地面的交線縱坐標(像素),y為車道消失線縱坐標,為相機的俯仰角(°),為所求實際距離(m)。
在測距模型中,已知相機高度,參考點坐標(x,y),相機中心坐標(u,v),相機焦距,相機俯仰角,由上文的成像模型及相似三角形原理有:
化簡后可得式(13):
且當較小時,·tan及cos可看作為0,因此可化簡得到檢測目標到相機光心的垂直距離的計算具體如式(14)所示:
本文以百度阿波羅D-KIT Lite為數(shù)據(jù)采集平臺進行實車試驗,試驗所用的工控機參數(shù)為處理器i9-9900K,內(nèi)存32G,顯卡NVIDIA GeForce GTX2060Ti。使用的攝像頭型號為LI-USB30-AR023ZWDR,圖像像素為1 920×1 080,焦距6 mm,像素大小為30 um,攝像機安裝在車身前側中部,固定安裝高度為0.93 m,水平視角90.2°。車輛圖片及相機安裝位置如圖5所示。
圖5 百度APOLLO D-KIT LiteFig.5 APOLLO D-KIT Lite
為了驗證該算法的準確度,就先在室內(nèi)對目標檢測及測距模型進行了測試。在一條平整的長廊上以5 m為單位,分別在5 m、10 m、15 m、20 m、25 m、30 m、35 m處拍攝行人的圖像。圖像采集完成后,對攝像頭內(nèi)外參數(shù)進行標定,得到其固定俯仰角。隨后對行人目標進行識別測距。行人檢測及測距的最終輸出如圖6所示。測算距離已在圖6中標出。
圖6 室內(nèi)驗證圖Fig.6 Laboratory verification diagram
室內(nèi)測距結果見表2。
表2 室內(nèi)測距結果Tab.2 Laboratory experimental results
室內(nèi)測距結果的絕對誤差如圖7所示。
圖7 室內(nèi)實驗結果的絕對誤差Fig.7 AE of laboratory experimental results
由表2和圖7可知,絕對平均誤差為0.71 m,平均相對誤差為2.71%。其中最小絕對誤差為0.12 m,而最小相對誤差為2.21%。且隨著距離的增加,測量結果的誤差會增大,這是由于測量精度與車道消失點的位置密切相關。目標物距離越遠,即越靠近車道消失線,則單個像素所衡量的實際距離就越大,因此誤差會隨著距離的增大而增大。
由于在室外實驗,動態(tài)目標的距離真實值無法準確測量,因此本文對室外靜態(tài)目標進行測距,以驗證本文算法的準確性。為評估測距算法的準確性,同樣在道路上以10 m為單位,在15 m、25 m、35 m、45 m、55 m、65 m處設置固定車輛目標,并且隨機設置行人目標,隨后用試驗車進行圖像采集,并進行檢測及測距。車輛檢測結果見表3。行人檢測結果見表4。
表3 室外車輛測距結果Tab.3 Outdoor experimental results of vehicles
表4 室外行人測距結果Tab.4 Outdoor experimental results of pedestrians
由表3、表4可知,車輛測距的平均相對誤差為3.4%。行人測距的平均相對誤差為4.21%。車輛測距的平均相對誤差要小于行人測距的相對誤差,說明該測距模型在室外應用時,能夠更好地反映車輛目標的距離。這是由于在戶外,行人的姿態(tài)不夠統(tǒng)一,導致目標檢測邊框的準確度并不高,因此測距算法的精度受到了影響。
部分檢測及測距結果如圖8所示,圖像中的行人及車輛目標均能被正確檢測且標識出距離,且該檢測網(wǎng)絡只識別車輛及行人目標,因此其他目標物將不會被檢測,提高了算法運行的效率及精度。
圖8 室外驗證圖Fig.8 Outdoor verification diagram
實驗結果顯示,室內(nèi)測距結果的平均相對誤差為2.71%,室外測距的平均相對誤差為3.81%。室內(nèi)測距結果更為準確的原因是室內(nèi)地面更為平整,而室外的地面存在起伏,導致了測量的誤差變大。
為了驗證本文測距模型的檢測精度,選取文獻[15]中提出的測距模型進行對比。文獻[15]首先利用背景差分法輸出障礙物目標,隨后利用成像模型測得障礙物距離。實驗在室外環(huán)境下對特定距離的車輛目標進行,實驗結果如圖9所示。
圖9 本文方法與背景差分法[15]對比Fig.9 Method in this paper compared with the traditional method[15]
實驗結果表明,與文獻[15]的測距模型相比,本文使用的障礙物測距模型在室外環(huán)境下的測距精度更高。主要原因在于基于深度學習的目標檢測網(wǎng)絡輸出的檢測框更加準確,而基于背景差分法的目標檢測模型輸出結果相對較差,因此本文目標檢測模型在輸入測距模型時的精度更高,最終的測距結果更加精確。
本文基于單目視覺,采用面向車輛及行人的YOLOv3目標檢測模型,經(jīng)由室內(nèi)外的實驗結果證明,該模型能夠輸出較為準確的預測邊框。本文的測距模型能夠在目標檢測準確的前提下,提供平均相對誤差在2.71%的室內(nèi)測距精度和3.81%的室外測距精度,能夠較為精確地反映相機與目標障礙物之間的實際距離。且相比于基于背景差分法的傳統(tǒng)測距模型,測距精度更高。