王宇嵐,孫韶媛,劉致驛,卜德飛
(1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620;2.東華大學(xué) 數(shù)字化紡織服裝技術(shù)教育部工程研究中心,上海 201620)
夜間無人車在道路上行駛需要感知周圍環(huán)境的車輛、行人[1-2]等,基于紅外攝像頭的感知方案[3-5]雖然能夠感知車輛前方的障礙物,但是無法準確獲取障礙物的位置信息且準確率有限。激光雷達是一種主動傳感器,通過發(fā)射與接收激光光束獲取環(huán)境中物體的信息[6-7]。近幾年陸續(xù)有研究人員利用深度學(xué)習(xí)在激光雷達點云上進行目標檢測,斯坦福大學(xué)的Point Net[8]直接將激光點云作為輸入,并解決了旋轉(zhuǎn)問題和無序性問題。2017年蘋果公司Voxel Net[9]將激光雷達分成等間距的體素,并引入新的體素特征編碼表示,在KITTI[10]上取得很好的成績。清華大學(xué)提出了MV3D[11],將彩色圖像與激光雷達點云融合進行三維目標檢測,該算法在KITTI 上也表現(xiàn)出色。
上述前人的研究工作基本都是在白天條件下的彩色圖像上進行,而在夜間,無人車往往需要依賴紅外圖像,但紅外圖像的成像原理是通過紅外攝像頭探測物體自身的紅外輻射,再通過光電變換將物體的溫度分布變換成圖像。紅外圖像具有無色彩、簡紋理、低信噪比等特點。因此在紅外圖像上進行目標檢測效果較差??紤]到各個傳感器在不同方面均有利弊,本文利用多傳感器融合的思想,提出了利用多視角通道融合網(wǎng)絡(luò)的基于紅外圖像與激光雷達點云的夜間無人車三維目標檢測方法。實驗結(jié)果證明,該方法的準確率高且能基本滿足實時性的要求。
本文所采用的多視角通道融合網(wǎng)絡(luò)由特征提取模塊、候選區(qū)域生成模塊和通道融合模塊組成,整體結(jié)構(gòu)圖如圖1所示。
特征提取模塊由特征編碼網(wǎng)絡(luò)和特征解碼網(wǎng)絡(luò)2 部分組成,結(jié)構(gòu)如圖2所示。
圖1 多視角通道融合網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of multi-view channel fusion network
圖2 特征提取模塊結(jié)構(gòu)圖Fig.2 Structure diagram of feature extraction module
特征編碼網(wǎng)絡(luò)采用的是改進后的VGG(visual geometry group)16 網(wǎng)絡(luò)[12],將原VGG16 網(wǎng)絡(luò)的通道數(shù)減少一半至50%,然后在網(wǎng)絡(luò)中加入批標準化層,并在Conv4 刪除最大池化層。特征編碼網(wǎng)絡(luò)將M×N×C的紅外圖像、鳥瞰圖或前視圖作為輸入,并輸出的特征圖。式中,M表示圖像的長,N表示圖像的寬,C表示通道數(shù)。對于紅外圖像,C為1。特征解碼網(wǎng)絡(luò)采用特征金字塔網(wǎng)絡(luò)[13]的形式,學(xué)習(xí)將特征映射上采樣回原始的輸入大小。特征解碼網(wǎng)絡(luò)將特征編碼網(wǎng)絡(luò)的輸出作為輸入,輸出新的M×N×D的特征圖,如圖2所示,通過轉(zhuǎn)換-轉(zhuǎn)置操作對輸入進行上采樣處理,并和來自特征編碼網(wǎng)絡(luò)的對應(yīng)特征映射進行級聯(lián)操作,最后通過3×3 卷積來融合二者。
輸入一幅鳥瞰圖,候選區(qū)域生成模塊會生成一系列的三維候選區(qū)域。每個三維候選區(qū)域有六維的參數(shù):(x,y,z,l,w,h),分別表示三維候選區(qū)域在激光雷達坐標系中的中心坐標和長寬高尺寸。對于每個三維候選區(qū)域,對應(yīng)在鳥瞰圖中的參數(shù)(xbv,ybv,lbv,wbv)利 用離散的 (x,y,l,w)變換可以得到,表示三維候選區(qū)域在鳥瞰圖中的坐標和長寬,其中 離散分辨率為0.1 m。
通道融合模塊結(jié)合各個視角的特征,對各視角上的目標進行聯(lián)合分類,并針對三維候選區(qū)域進行定向回歸。由于不同的視角有不同的分辨率,對于每個視角通道所輸出的不同分辨率的特征向量,通過ROI(region of interest)池化操作將每個視角通道所輸出的特征向量調(diào)整到相同的長度。通過下式得到3 個視角不同的ROI。
式中:T3D→v表示從激光雷達點云坐標系到鳥瞰圖形式、前視圖形式,和紅外圖像的轉(zhuǎn)換函數(shù);P3D表示三維候選區(qū)域參數(shù)向量。對于區(qū)域候選網(wǎng)絡(luò)所生成的三維候選區(qū)域,將其投影到經(jīng)過ROI池化操作的鳥瞰圖形式(BV)特征向量、前視圖(FV)特征向量和紅外圖像(IR)特征向量中。對于從某個視角特征提取通道中輸出的特征向量x,通過ROI池化獲得固定長度的特征fv。
式中:R表示相應(yīng)的矩陣變換。為了融合來自各個視角通道的特征信息,采用多層次融合的方法,分層融合多視角特征,使得各通道的信息可以在中間層有更多的交互。如圖3所示。
圖3 通道融合網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Structure diagram of channel fusion network
對于通道融合網(wǎng)絡(luò)的每一層,輸入為鳥瞰圖形式、前視圖形式以及紅外圖像3 個通道的特征,經(jīng)過一次逐元素平均計算后,再經(jīng)過各自的中間卷積層進一步提取特征。具體的融合過程如下式所示。
式中:fl表示第l層的融合結(jié)果;fBV、fFV和fIR分別表示鳥瞰圖通道、前視圖通道以及紅外圖像通道的輸入特征;表示第l層不同通道的中間卷積層;⊕表示逐元素平均運算;經(jīng)過通道融合網(wǎng)絡(luò)融合各個視角通道的特征之后,利用融合結(jié)果對候選區(qū)域模塊生成的三維候選區(qū)域進行回歸校正,并將融合結(jié)果輸入Softmax 分類器對三維候選區(qū)域內(nèi)的物體進行分類識別。
本文算法中的網(wǎng)絡(luò)基于Tensor Flow[14]框架,實驗硬件配置為處理器Intel i5-6600,內(nèi)存16 GB,顯卡NVIDIA GTX 1070;操作系統(tǒng)Ubuntu14.04。實驗的所有數(shù)據(jù)由載有紅外攝像頭和激光雷達的車輛在南京理工大學(xué)夜晚的校園道路上拍攝所得,有車輛、行人和騎自行車的人3 種類別。其中訓(xùn)練集為1 500 張紅外圖像及其對應(yīng)的由激光雷達點云數(shù)據(jù),驗證集為500 張紅外圖像及其對應(yīng)的由激光雷達點云數(shù)據(jù),測試集為600 張紅外圖像及其對應(yīng)的由激光雷達數(shù)據(jù)。
對于激光雷達點云數(shù)據(jù),其中每一個點由其三維坐標 (x,y,z)和 反射率r組成,本文將其轉(zhuǎn)化為鳥瞰圖與前視圖的形式。鳥瞰圖形式指的是沿水平坐標系(地面)將激光雷達點云分割成700×800 的網(wǎng)格,再沿Z軸方向把激光雷達點云平均分成5 層。對于每一個區(qū)域,提取其中最大高度的點的高度作為高度特征;該長方體區(qū)域內(nèi)點的數(shù)目作為密度特征;對于密度特征ρ,作歸一化處理。
式中N是長方體區(qū)域內(nèi)點的數(shù)目。最后將激光雷達點云轉(zhuǎn)換成通道數(shù)為700×800×6 的鳥瞰圖形式。前視圖形式指的是將激光雷達點云投射到一個前方的圓柱體平面上。給定激光雷達點云中的一個點的三維坐標p=(x,y,z),其在前視圖中的坐標pfv=(r,c)可以通過下式計算得出。
式中:Δθ是 激光的水平分辨率;Δ?是垂直分辨率。
把紅外圖像與激光點云數(shù)據(jù)輸入到多視角通道融合網(wǎng)絡(luò)中,網(wǎng)絡(luò)給出檢測結(jié)果。由于紅外攝像頭與激光雷達的采集頻率不一致,本文根據(jù)激光雷達幀號匹配紅外圖像,設(shè)定閾值為10 幀,尋找與雷達幀號小于閾值且最接近的圖像作為對應(yīng)圖像,如圖4所示。
圖4 輸入的紅外圖像與對應(yīng)的激光雷達點云Fig.4 Input infrared image and lidar point cloud
使用傳統(tǒng)的AdaBoost[15]算法、和二維的目標檢測算法Fast RCNN[16]算法、Faster RCNN[17]算法以及三維的目標檢測算法Voxel Net[10]在測試集中進行測試,并與本文算法進行結(jié)果對比,結(jié)果見表1。
從表1的結(jié)果中可得,本文算法在犧牲部分時間的情況下提高了夜間目標檢測的正確率。為了更直觀地顯示本文算法結(jié)果,將目標檢測的結(jié)果顯示在激光雷達點云的鳥瞰圖形式上和紅外圖像上,其中綠色矩形框表示行人,紅色矩形框表示車輛。如圖5所示。
表1 不同算法在測試集上的結(jié)果對比Table1 Comparison of results for different algorithms on test sets
圖5 目標檢測可視化結(jié)果Fig.5 Visualized result of detection
由圖5可以看出,對于圖5(a 組),本文算法可以很好地定位行人的位置;對于圖5(b 組),雖然紅外圖像分辨率較低,連人眼也不容易分辨圖片中的車輛,但加入激光雷達點云信息后對于該車的定位準確;對于圖5(c 組),本文算法定位結(jié)果與人工標注信息一致。
本文采用多傳感器融合的思想,在原有紅外圖像的基礎(chǔ)上加入激光雷達點云,并使用多視角通道融合網(wǎng)絡(luò)對這2 種數(shù)據(jù)進行特征融合,準確地檢測出目標的位置以及類別。實驗結(jié)果表明,該方法能夠提高無人車在夜間的物體識別能力,在實驗室的測試數(shù)據(jù)中準確率達到90%,每幀耗時0.43 s,達到實際應(yīng)用要求。