祖國強 何俏君 張志德 徐偉
(1.廣東省智能網(wǎng)聯(lián)汽車創(chuàng)新中心有限公司,廣州 511400;2.廣州汽車集團股份有限公司汽車工程研究院,廣州 511400)
主題詞:多源數(shù)據(jù)融合 感知 卡爾曼 深度學習
DS Dempster Shafer
ROI Region of Interest
RoarNet Region Approximation Refinement Network
AVOD Aggregate View Object Detection
MV3D Multi-View 3D Object Detection
MCU Microcontroller Unit
SoC System on a Chip
隨著汽車保有量的持續(xù)增加,交通事故日益高發(fā),這給人們出行甚至城市發(fā)展都帶來了嚴峻的挑戰(zhàn),而以無人駕駛為核心的新型智能交通系統(tǒng)在一定程度上改善了交通運輸?shù)男?提高了行車的安全性。通常,依據(jù)無人駕駛系統(tǒng)的功能定義,可將無人駕駛系統(tǒng)分為4大主要功能模塊:感知融合、融合定位、路徑規(guī)劃和決策控制。其中,感知融合模塊以攝像頭、激光雷達、毫米波雷達傳感器的原始數(shù)據(jù)為輸入,并根據(jù)各傳感器的感知特性對信息進行融合,以獲得更準確的自車位姿信息、狀態(tài)信息以及道路、障礙物、行駛區(qū)域周邊環(huán)境信息。感知融合模塊是無人駕駛系統(tǒng)中其它模塊的源頭,整個無人駕駛系統(tǒng)的性能很大程度上有感知融合模塊的性能決定。在感知融合模塊,常用的傳感器有攝像頭、毫米波雷達、激光雷達。不同的傳感器有不同的優(yōu)缺點及特定用途,通過對目前國內(nèi)外感知領(lǐng)域研究現(xiàn)狀調(diào)查發(fā)現(xiàn)以下結(jié)論。
攝像頭在無人駕駛系統(tǒng)中是必不可少的。其優(yōu)點主要有2方面:(1)攝像頭成本低,且是最接近于人類感知環(huán)境的傳感器;(2)攝像頭輸出具有豐富的語義信息,同時基于深度學習的目標檢測算法已趨于成熟,可以最大程度的挖掘其中信息,獲取盡可能準確的感知信息,比如物體的類別、交通牌信息、車道線信息等。但是攝像頭還存在一些缺點:實時性差、易受環(huán)境(光線、天氣)影響、不能準確地檢測前車速度和車距,以獲得精確的環(huán)境細節(jié)信息、縱向方向上的分辨率較低。
毫米波雷達是無人駕駛系統(tǒng)中最成熟的傳感器,其優(yōu)勢在于環(huán)境適應(yīng)性強,可直接獲取目標準確的速度、距離、角度信息,可以彌補攝像頭的不足,但是雷達輸出的障礙物列表噪聲較大、漏檢率與誤檢率較高、同時存在無法給出跟蹤目標的類別信息、尺寸信息。
激光雷達與毫米波雷達不同,使用工作頻率更高的激光束,因此具有分辨率高、隱蔽性強的優(yōu)點。然而,其工作時受天氣的影響較大,相較于在晴天的感知效果,激光雷達在雨、濃煙、濃霧的異常天氣里感知距離大幅縮短,對異常天氣的魯棒性較差。
對于單一類型的傳感器來說,某一采樣時刻只能獲取環(huán)境的1個片面數(shù)據(jù),數(shù)據(jù)量少,其信息只能描述環(huán)境的局部特征。同時,單一類型的傳感器有自己的局限性,雖然可以通過改進系統(tǒng)硬件性能或優(yōu)化算法,來提升單一傳感器的性能,但是仍不能滿足在復雜交通工況中的對感知性能的要求。而多源傳感器系統(tǒng)通過多類型、多視角傳感器獲得更多種類和數(shù)量的數(shù)據(jù),因此能夠更加全面的描述環(huán)境,這是因為多源傳感器之間的互補數(shù)據(jù)不僅擴展了單源傳感器的性能(圖1)及空間上的觀測范圍,還提高了系統(tǒng)的感知維度與感知準確度,增強了環(huán)境適應(yīng)能力與分辨能力,更重要的是增強了系統(tǒng)應(yīng)對不同天氣情況、光照情況的魯棒性。
圖1 多源數(shù)據(jù)融合示意
多源數(shù)據(jù)融合的具體過程如下:
(1)多源傳感器獨立工作獲得觀測數(shù)據(jù);
(2)對各傳感器數(shù)據(jù)進行預(yù)處理;
(3)對預(yù)處理之后的數(shù)據(jù)進行信息提取,獲取觀測對象的特征信息;
(4)在數(shù)據(jù)融合中心使用特定算法對觀測對象的多源信息進行融合,獲得對環(huán)境的一致性描述。
多源數(shù)據(jù)融合算法是感知融合領(lǐng)域的核心內(nèi)容。通過對多源數(shù)據(jù)在數(shù)據(jù)級、特征級、目標級不同層次進行融合處理,可以獲得目標的高精度描述。目前主流的融合算法有加權(quán)平均法、貝葉斯方法、卡爾曼濾波原理、DS證據(jù)理論推理和深度學習,不同的算法有不同的適用環(huán)境及各自的優(yōu)缺點。
加權(quán)平均法比較簡單、直觀,多個傳感器獨立探測的數(shù)據(jù),乘上相應(yīng)的權(quán)值,然后累加求和并取平均值,將其結(jié)果作為融合結(jié)果。該方法較容易實現(xiàn),實時性好。但是,其權(quán)值的分配和取值有一定的主觀性,且方法過于簡單,融合效果不夠穩(wěn)定,實用性較差。
貝葉斯方法基于先驗概率,并不斷結(jié)合新的數(shù)據(jù)信息得到新的概率,其公式如式(1)。
貝葉斯方法的主要局限性在于其工作基于先驗概率,而先驗概率往往需要通過大量的數(shù)據(jù)統(tǒng)計來實現(xiàn)。
卡爾曼濾波理論是1 種利用線性狀態(tài)方程,通過系統(tǒng)輸入的觀測數(shù)據(jù),對系統(tǒng)狀態(tài)進行最優(yōu)估計的算法,卡爾曼濾波法能合理并充分的處理多種差異很大的傳感器信息,并能適應(yīng)復雜多樣的環(huán)境?;诳柭鼮V波的遞推特性,不僅可以對當前狀態(tài)進行狀態(tài)估計,而且可以對未來狀態(tài)進行預(yù)測,通過狀態(tài)估計、狀態(tài)預(yù)測的不斷迭代實現(xiàn)對被測狀態(tài)的最優(yōu)估計??柭鼮V波算法常用的公式如下。
式中,是狀態(tài)矩陣,是狀態(tài)協(xié)方差矩陣,是卡爾曼增益矩陣,其中下標11為上一時刻數(shù)值,1為當前時刻數(shù)值;F是前后時刻的狀態(tài)轉(zhuǎn)移矩陣;Q是當前時刻的預(yù)測噪聲協(xié)方差;H是觀測矩陣到狀態(tài)的轉(zhuǎn)移矩陣;R是傳感器的噪聲協(xié)方差矩陣;z是傳感器測量向量。
DS證據(jù)理論是基于貝葉斯估計方法,Dempster首先通過構(gòu)造1個不確定性推理模型,將命題的不確定性轉(zhuǎn)化為集合的不確定性,Shafer在此基礎(chǔ)上對其進行了完善。其最大特點是將“區(qū)間”轉(zhuǎn)化為“點”,用“點估計”的方法描述不確定信息,算法的靈活度高是該方法最大的特點。而DS證據(jù)理論的缺點主要有3點:(1)算法的時間復雜度與樣本量的平方成正比,這意味著運算量會隨樣本數(shù)量的增加而指數(shù)增長;(2)證據(jù)理論的判決規(guī)則常常有很大的主觀性;(3)證據(jù)理論在多源輸入存在沖突時效果不好,因此在無人駕駛多源數(shù)據(jù)融合系統(tǒng)構(gòu)建時需要著重考慮如何解決證據(jù)沖突問題。
深度學習模型的底層原理是基于現(xiàn)代神經(jīng)科學,由大量模擬人類神經(jīng)的基本處理單元組成,因此又稱為深度學習網(wǎng)絡(luò)。在訓練階段,網(wǎng)絡(luò)的輸入?yún)?shù)是傳感器的原始數(shù)據(jù),網(wǎng)絡(luò)輸出與人為標注的真值之間的誤差以方向梯度傳遞的方式更新網(wǎng)絡(luò)參數(shù),通過大量數(shù)據(jù)、多次迭代訓練以優(yōu)化網(wǎng)絡(luò)參數(shù),進而消除非目標參量的干擾,完成相應(yīng)的智能任務(wù)。模型具有較強的容錯能力與自適應(yīng)能力,且能夠模擬復雜的非線性映射,例如深度學習中的卷積神經(jīng)網(wǎng)絡(luò)可基于攝像頭圖形進行目標檢測,進而得到目標的運動、位姿特征信息。在無人駕駛過程中存在著大量不確定信息,比如多傳感器數(shù)據(jù)及其噪聲、行人車輛等目標的突發(fā)狀況,對這些不確定信息的融合過程等同于不確定性的推理過程。而深度學習網(wǎng)絡(luò)可以通過獲取的傳感器信息,迭代優(yōu)化網(wǎng)絡(luò)權(quán)值,獲得不確定推理機制,因此無人駕駛感知融合領(lǐng)域常使用深度學習方法進行信息融合。
根據(jù)多源數(shù)據(jù)融合的輸入數(shù)據(jù)的抽象程度可將多源數(shù)據(jù)融合技術(shù)劃分為目標級融合(后融合)、特征級融合和數(shù)據(jù)級融合(前融合)3個層次(圖2)。
圖2 多源數(shù)據(jù)融合的3個層次
目標級融合先提取原始數(shù)據(jù)中的目標信息,并產(chǎn)生目標的跟蹤列表,然后融合模型將來自不同傳感器的跟蹤列表進行關(guān)聯(lián)匹配,最終得到完整的多源跟蹤列表。該方法只對目標信息進行融合,不受傳感器類別的限制,能夠保證實時性。其主要優(yōu)勢在于模塊化,所有與傳感器相關(guān)的細節(jié)都在傳感器后處理模塊進行處理,而融合模塊只需抽象地處理數(shù)據(jù)。但是該方法在融合之前已進行特征提取,信息存在一定程度上的損失,因此其準確度最差。
目標級融合最常用的算法就是卡爾曼濾波算法,融合框架一般有2種形式。
(1)該框架在收到任意一個傳感器信號的時候就進行1次更新,該方法對不同傳感器等同看待,對不同傳感器數(shù)據(jù)用同樣的方法進行處理,不同傳感器之間的區(qū)分僅在于初始化參數(shù)以及噪聲矩陣,這會導致誤差延續(xù)的問題,比如視覺傳感器的錯誤估計會向下傳遞影響后續(xù)的處理結(jié)果(圖3)。
圖3 貫序更新卡爾曼濾波融合框架
(2)另一種框架為同步更新(圖4),主要有2個特點:(1)允許時延,等待多傳感器數(shù)據(jù),進行同步;(2)根據(jù)不同傳感器的特性,融合不同傳感器精度更高的數(shù)據(jù)(毫米波雷達的速度信息或視覺結(jié)果的分類信息),相當于進行濾波處理。
圖4 同步更新卡爾曼濾波融合框架
特征級融合接收的是原始數(shù)據(jù)提取后的特征信息,根據(jù)目標已有特征對融合特征進行匹配,獲得目標的信息。信息丟失相對于目標級融合有所減少,其準確性有所提升。在特征提取方面主要基于深度學習,主流的方法有RoarNet、AVOD、MV3D、FPointNet。陳毅等首先將點云數(shù)據(jù)前向投影形成二維深度圖,并將深度圖的分辨率提高至與圖像分辨率一致,然后使用深度學習目標檢測算法分別對相機圖像和深度圖進行目標檢測,最后根據(jù)改進的DS 證據(jù)理論對檢測結(jié)果進行特征級融合。
數(shù)據(jù)級融合接對多源原始數(shù)據(jù)進行融合,然后從融合后的數(shù)據(jù)中進行特征提取,因此該方法又稱像素級融合(前融合),數(shù)據(jù)級融合充分利用了多源傳感器的原始數(shù)據(jù),不存在信息丟失的問題,理論上可以獲得對目標最準確的描述,但是正因為該融合模型接收的是原始數(shù)據(jù),所以對系統(tǒng)通信帶寬的要求很高。
表1 為上述3 種融合層次的優(yōu)缺點,數(shù)據(jù)融合的層次越高,用于融合的信息抽象性越強,模塊化越好;融合層次越低,融合的信息越全面,但數(shù)據(jù)量大,對各信息間的配準性(時間同步、空間同步)要求高。融合層次的選擇主要在于融合精度和融合速度的取舍。廖岳鵬分別建立3 種層次數(shù)據(jù)融合算法,通過對比發(fā)現(xiàn)對多傳感器進行數(shù)據(jù)上的融合能夠更加有效地提升融合模型性能。
表1 3種融合層次的性能比較
在無人駕駛感知領(lǐng)域,融合系統(tǒng)可根據(jù)模型的數(shù)據(jù)處理結(jié)構(gòu)分為3類:分布式、集中式和混合式。從融合信息的損失程度來看,分布式結(jié)構(gòu)的損失最高;而在融合處理的復雜度方面,混合式結(jié)構(gòu)最復雜。無論是哪種融合數(shù)據(jù)處理結(jié)構(gòu),都提升了傳感器的環(huán)境感知能力。
分布式融合的本質(zhì)是基于分布式結(jié)構(gòu)的融合算法,主要利用了假設(shè)生成和假設(shè)驗證的思想。分布式融合結(jié)構(gòu)中的處理單元分布在各獨立節(jié)點,在對傳感器的原始數(shù)據(jù)進行初步處理之后再送入統(tǒng)一的信息融合中心,通過對融合數(shù)據(jù)進行多維優(yōu)化、組合、推理,以獲取最終結(jié)果。
分布式融合結(jié)構(gòu)的一般做法是將其中1個傳感器檢測的目標生成可供其它傳感器識別的感興趣區(qū)域(ROI)。然后,用另一個傳感器來驗證ROI 內(nèi)是否包含目標。在包含毫米波雷達和攝像頭的融合系統(tǒng)中,毫米波雷達掃描速度快,適用于對目標的狀態(tài)進行初步估計,基于毫米波雷達生成的目標列表可供其它傳感器驗證ROI。該結(jié)構(gòu)不僅可以通過雷達目標信息使感興趣區(qū)域縮小了目標檢測范圍、縮短視覺處理時間。同時,基于計算機視覺的目標識別算法可以對雷達檢測的目標進行雜波剔除,從而減小雷達的誤報,提高目標識別精度。但是,該方案僅對目標存在的概率進行融合,對信息存在一定程度的浪費。
集中式融合的核心思想是不確定推理,首先對每個傳感器設(shè)置各自的置信度,然后匯總多源信息,最后基于一定的融合規(guī)則輸出融合結(jié)果。在集中式融合結(jié)構(gòu)中,多源傳感器的原始數(shù)據(jù)不進行任何處理直接送入信息融合中心。該結(jié)構(gòu)充分利用多源信息具有較高的融合精度,同時可以將融合步驟模塊化。
陳云坤等通過對毫米波雷達與雙目視覺的誤差分配不同的權(quán)重,通過加權(quán)平均計算出最后的融合結(jié)果。Sang等為提高多目標識別的精度,將圖像數(shù)據(jù)和點云數(shù)據(jù)作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,使用DS證據(jù)理論算法對目標的候選框進行融合。胡遠志等首先在圖像上采用深度學習框架識別車輛目標,然后將點云投影至圖像,將目標與點云進行關(guān)聯(lián),從而確定目標的深度信息,并利用點云信息提高目標的置信概率,提高識別精度。
混合式同時具有分布式和集中式2 種結(jié)構(gòu),兼顧2 者的優(yōu)點,能夠根據(jù)不同需要靈活且合理地完成信息處理工作。算法的可靠性與融合的精度雖然有所提升,但隨著傳感器數(shù)量的增多,信息的冗余程度與系統(tǒng)的復雜程度也會隨之增加。
Chavez-Garcia 等使用混合式融合結(jié)構(gòu)對毫米波雷達、攝像頭、激光雷達3 種傳感器的信息進行融合,首先以激光雷達檢測的目標生成感興趣區(qū)域,然后對毫米波雷達和攝像頭數(shù)據(jù)中的感興趣區(qū)域進行目標檢測,最后用DS 證據(jù)理論算法對感興趣區(qū)域檢測的目標信息進行融合。
隨著自動駕駛的逐漸落地,為逐步提升自動駕駛的自動化程度,主要的途徑就是增加感知傳感器的數(shù)量與種類,從而獲得車輛對環(huán)境更加準確的信息。而不同數(shù)據(jù)源對環(huán)境的描述有其自身的空間坐標系與時間坐標系,隨著數(shù)據(jù)源的增加,為了滿足自動駕駛在多種復雜環(huán)境下的正常使用,如何將多源數(shù)據(jù)融合在同一個時間系統(tǒng)和同一個空間系統(tǒng),實現(xiàn)真正意義上的同步是多源數(shù)據(jù)融合的關(guān)鍵問題。
空間同步是對多傳感器的自身坐標系進行聯(lián)合標定,建立坐標轉(zhuǎn)換關(guān)系,從而保證不同傳感器在同一坐標系下對同一目標進行識別。陳云坤等在空間維度上介紹了毫米波雷達與攝像頭相對位置關(guān)系,然后在此基礎(chǔ)上介紹了理想條件、非理想條件下坐標系之間的轉(zhuǎn)換關(guān)系以及攝像頭的畸變矯正方法。
時間同步是指1個系統(tǒng)的各個模塊都要同步到系統(tǒng)的主時鐘源,整個系統(tǒng)的運行基于同1個時間基點。在自動駕駛環(huán)境感知系統(tǒng)中,正確運行的1個重要問題就是要保證獲取的數(shù)據(jù)精確、時間同步,算法的基準是所有的數(shù)據(jù)都是在同一時間點獲取,否則應(yīng)用功能無法保證做出正確的預(yù)判,可能造成自動駕駛的嚴重事故。
文獻[12]采用基于時間戳的同步方式,在接收點云信息和圖像信息時會附加系統(tǒng)當前時刻的時間戳,緩存攝像頭采集的圖像信息,當獲取激光雷達的點云信息之后,根據(jù)點云信息的時間戳從緩存中找最鄰近的圖像信息,然后將點云信息和圖像信息同時送入處理函數(shù)進行信息融合,完成2種傳感器信息的時間同步。文獻[37]在分析自動駕駛域控制器復雜架構(gòu)的基礎(chǔ)上,結(jié)合應(yīng)用算法對獲取數(shù)據(jù)時間同步的要求,以包含1 個MCU 和2 個SoC 的域控制器為研究對象,詳細介紹了域控制器和外部主時鐘源控制器的時間同步方法、域控制器片內(nèi)異構(gòu)的時間同步方法、域控制器和外部傳感器控制器的時間同步方法,保證整個域控系統(tǒng)的運行基于同1個時間基點。
考慮到無人駕駛在復雜交通工況中對感知性能的高要求,以及深度學習的快速發(fā)展,相信基于深度學習的集中式、數(shù)據(jù)級、端到端融合框架將成為后續(xù)的主流方式。該融合框架可以最大程度的保留原始數(shù)據(jù)的信息,最大可能的提升感知的性能。但是,該框架要想達到理想的性能也在兩方面存在挑戰(zhàn)。其一是不同傳感器數(shù)據(jù)類型不同,難以做到數(shù)據(jù)空間內(nèi)的理想化同步;其二是不同品牌的傳感器產(chǎn)生的數(shù)據(jù)特性不盡相同,難以獲得深度學習訓練所需的大量數(shù)據(jù)集,導致框架的魯棒性較差。