鄧茂林,韓志嶸,劉力萌,韓宇飛,肖 禹,田永林
(1.貴陽學院 機械工程學院,貴州 貴陽 550005;2.南安普頓大學 社會科學學院,英國 南安普頓 SO17 1BJ;3.上海大學 通信與信息工程學院,上海 200444)
目前可見光下基于深度學習的環(huán)境感知方法都對輸入圖像的清晰度要求較高。[1-3]以應用最廣泛的目標檢測算法為例,一旦出現(xiàn)復雜環(huán)境的干擾(如雨幕),會極大地影響感知能力,尤其是遠距離的小目標,大部分的紋理和輪廓信息會因環(huán)境因素而遮擋,導致錯檢或漏檢。
為解決這個問題,Wang等[4]提出融合可見光攝像頭和毫米波雷達的環(huán)境感知方法。Caltagirone等[5]選擇激光雷達與攝像頭結合的方法,這兩種設備對異常環(huán)境擁有更強的適應能力,但由于其價格高昂,無法使用在廣泛的環(huán)境中。在只使用攝像頭的環(huán)境下,Hoang等[6]和Volk等[7]通過數(shù)據增強的方法,提出在訓練的數(shù)據中引入合成的帶雨數(shù)據集,從訓練端改善網絡的泛化能力,但這種方法需要新的數(shù)據集重新訓練和移植模型參數(shù)。Zhou等在YOLOV4-Tiny的基礎上將基于二次模糊的清晰度算法(ReBlur)和暗通道先驗算法相結合后對圖像進行處理,再將處理前后的圖像用于網絡的訓練和測試,以克服雨霧天氣造成的圖像質量下降問題,但這種方法并沒有將復原和檢測有效結合,并且復原網絡的計算量過大,無法實現(xiàn)實時推理[8]。Huang等在目標檢測網絡中引入特征選擇子網絡、特征吸收子網絡,利用特征吸收子網絡中的吸收檢查器從特征選擇子網絡中吸收有益的特征,并將其與目標檢測子網絡共享,以便更好地學習目標分類和目標定位,但是此方案需要對目標檢測算法進行修改,無法兼容多種目標檢測網絡。[9]
綜上所述,基于卷積神經網絡,通過引入的分類模塊和可見光圖像復原模塊,提出一個有效、快速的多異常天氣目標檢測網絡(Multiple anomaly weather object detection Network,MawNet)。實現(xiàn)在異常天氣下不僅可以實時推理,且能在不修改不移植目標檢測模型的條件下,提高檢測的性能。另外,本文在RainDS[10]數(shù)據集基礎上,提出包含矩形框標注和更多異常天氣的檢測數(shù)據集FRainDS,用于驗證MawNet在異常天氣下?lián)碛性诹己铆h(huán)境下相近的檢測能力。
本文方案的數(shù)據集主要由3個部分組成,分別是用于檢測的目標檢測數(shù)據集,用于訓練分類網絡和圖像復原網絡的異常天氣數(shù)據集,用于最后測試復原后檢測效果的專用測試數(shù)據集。
采用BDD100k[11]數(shù)據集作為目標檢測數(shù)據集,該數(shù)據集涵蓋不同時間、不同天氣條件(包括晴天、陰天和雨天,以及白天和晚上的不同時間)的駕駛場景。這使得訓練的模型能更好地應對多種環(huán)境,能進一步驗證本文提出的異常天氣的環(huán)境感知方案優(yōu)于數(shù)據集優(yōu)化的方案。
另外,為將后文的數(shù)據集與BDD100k中的類別統(tǒng)一,BDD100k中的標簽按照以下方法處理:公交車和卡車類別歸類為大型車;自行車和摩托車歸類為兩輪車;行人和騎行者類保持不變;信號燈、交通標志和火車類別則被刪除。
異常天氣數(shù)據集本文采用擴展后的RainDS數(shù)據集FRainDS。RainDS數(shù)據集含有與清晰圖像成對的玻璃表面雨滴、雨線以及二者共存的異常天氣狀況圖像,如圖1所示。本文在這三種異常天氣的情況下,通過數(shù)字圖像處理的方法,從ground truth上生成霧霾天氣,如圖1所示。
圖1 FRainDS數(shù)據集
而測試數(shù)據集則不僅需要多種的異常天氣,還需要有標注的矩形框標簽。本文選擇對FRainDS數(shù)據集中的測試集部分,使用labelimg軟件人工對圖像進行標注,最終得到五種不同環(huán)境下的測試圖片各200張,具體的標簽數(shù)量如表1所示。
表1 FrainDS數(shù)據集標簽統(tǒng)計
MawNet網絡包括用于檢測YOLOv4-tiny[12]網絡、圖像復原模塊APreNet和圖像分類模塊,如圖2所示。
圖2 MawNet網絡結構
分類模塊負責判斷當前網絡是否處于雨幕環(huán)境,若處在雨幕環(huán)境下,將輸入數(shù)據傳輸至復原模塊后再送入檢測網絡;若處在無干擾環(huán)境下,則跳過復原模塊,直接將數(shù)據輸入檢測網絡,這就大大加快整個網絡的推理速度。圖像復原模塊降低異常天氣對圖像的干擾,使得目標檢測網絡能夠獲得噪聲較少的圖像。目標檢測網絡從獲得的圖像中獲取目標的類別與位置,實現(xiàn)環(huán)境感知。
本文的分類卷積神經網絡模型由3層卷積層、4層池化層、2層全連接層和一層Dropout層構成。假設輸入圖像為X∈R224×224×3,首先它通過三組卷積和池化結構實現(xiàn)特征的提取和下采樣,此時可以得到張量X1∈R5×5×64。再經過一層全局池化后,得到張量X2∈R1×1×64。然后改變其維度得到張量X3∈R64×1。最后通過兩個全連接層和一層Dropout層得到張量X4∈R5×1,其中每一層代表輸入圖像屬于該類別的置信度。
圖3 分類模塊結構
PReNet[13]網絡是基于Resnet的殘差思想,將5個Resblock級聯(lián)后形成Resblocks,再將多個Resblocks增加Input模塊和Output模塊后構成新的Concatblock模塊,對該模塊迭代6次,并將上一階段的去雨圖像與原始有雨圖像作為下一階段的輸入,構成PReNet網絡,如圖4所示。其中多個Concatblock共用參數(shù),通過多次迭代逐漸去除網絡中的雨跡。
圖4 PReNet網絡結構
由于PReNet網絡僅針對雨線網絡設計,為適應本文中的多種異常天氣,選擇將Concatblock之間迭代的方式改為級聯(lián),使得不同Concatblock能擁有不同的參數(shù),能適應更復雜的環(huán)境。同時將級聯(lián)次數(shù)降低為3次,加快整個網絡的推理速度。另外,在Resblock之前加入一個簡單的空洞卷積金字塔[14](Atrous Spatial Pyramid,ASP)結構,加大網絡的感受野,進一步提升網絡的恢復能力。由此得到一個新的圖像恢復網絡APReNet,如圖5所示。
圖5 APReNet網絡結構
假設輸入一個張量X∈RH×W×3,首先會將輸入圖像與輸入圖像做拼接操作,形成張量X1∈RH×W×6的張量。經過一層卷積將深度調整為16,得到張量X2∈RH×W×16。張量經過平行的擴張率為7和13的兩層空洞卷積,和一層保留原有信息的1×1卷積,得到張量X2-1,X2-2,X2-3,對以上張量拼接后得到X3∈RH×W×48。隨后經過一層卷積降低通道數(shù)得到張量X4∈RH×W×32,在經過級聯(lián)的Resblock和輸出層后與殘差相加后構成完整的ASP-Concatblock模塊。對其級聯(lián)3次后構成完整APReNet網絡。
YOLOv4-Tiny是YOLOv4的輕量化版本,相比于YOLOv4,雖然檢測精度有所下降,但Tiny網絡通過模型壓縮的方法大大提高了檢測速度。 YOLOv4-tiny 由特征提取網絡 (CSPDarknet53-Tiny)、特征金字塔[15](Feature Pyramid Network,FPN)和YOLO檢測頭(YOLO Head)組成,如圖6所示。 CSPDarknet53-Tiny 是 CSPDarknet53 的精簡版。FPN結構可以融合不同網絡層之間的特征,增強特征提取能力。YOLO Head利用獲得的特征信息進行最終預測,若輸入尺度為416×416的圖片時,檢測頭輸出的特征尺度為13×13和26×26。
圖6 YOLOv4-Tiny網絡結構
3.1.1評價指標
在本文中,評價指標分為5個部分:對模型狀況參數(shù)量Parma,計算量Flops和模型的推理時間;對分類網絡的分類正確率Pacc;對圖像復原網絡的峰值信噪比PSNR和結構相似度SSIM[16];對目標檢測網絡的mAP等表示檢測效果的指標;對目標檢測能力提升的指標Rr(Recovery rate)。
指標Rr通過目標檢測指標中的多個mAP計算得出。考慮到性能下降越多,性能的恢復量會更大,簡單的減法并不能公平地表示不同干擾狀況下的目標檢測性能的恢復能力,因此本文提出了以下算法,如式(1)所示:
(1)
(2)
其中,N為有N種噪聲,Rri為第i種噪聲檢測的恢復率。
3.1.2訓練環(huán)境與參數(shù)
實驗中使用的硬件和軟件平臺配置如表2所示。分類模塊和圖像復原模塊使用本文擴展的FRainDS數(shù)據集訓練。分類模塊訓練100個epoch,訓練過程中初始學習率設置為0.0003,并在第60和80個epoch對學習率降低為原來的0.1倍;batch size設定為16,采用交叉熵CE作為loss函數(shù)。復原模塊訓練100個epoch,訓練過程中初始學習率設置為0.0001,并在第60和80個epoch對學習率降低為原來的0.1倍;batch size設定為8,采用負SSIM作為loss函數(shù)。YOLOv4-tiny網絡采用修改過類別的BDD100k數(shù)據集訓練,一共訓練200個epoch,初始學習設置為0.0007,學習率策略采用步進策略;batch size設置為24,采用IoU和BCE作為loss函數(shù)。
表2 硬件和軟件平臺配置
3.2.1對比實驗
表3 復原模塊實驗結果
首先,對提出的APReNet復原模塊與更改前的PReNet網絡在性能和效率上進行對比,如表3所示。從PSNR和SSIM上看,在全部異常天氣噪聲下,APReNet模塊在PSNR指標上已經獲得了接近PReNet的復原效果,并且在SSIM指標上實現(xiàn)大幅提升。另外在網絡效率上,雖然將ConcatBlock的連接方式從迭代改進為級聯(lián)并增加了ASP模塊,使得參數(shù)量增加了3倍,但網絡的浮點計算量卻從131.0 G下降為75.7 G;同樣的,網絡的推理時間從50.1 ms下降到34.1 ms。綜上所述,本文提出的APReNet網絡相較于原始的PReNet網絡擁有更好的性能和效率。
表4 目標檢測實驗結果
其次,對目標檢測能力的提升,做了詳盡實驗,如表4所示。通過使用經過BDD100k訓練后的模型,在本文提出的FRainDS數(shù)據集上進行測試。在無干擾的情況下實現(xiàn)了17.0%的mAP。當引入霧、雨滴、雨線、雨滴和雨線的干擾后,mAP下降為15.1%、14.8%、11.5%和9.0%;而引入APReNet模塊后,mAP分別恢復到16.5%、16.6%、15.4%、13.0%,值也分別達到了73.6%、81.8%、70.9%、50.0%。
3.2.2消融實驗
表5 消融實驗結果
3.2.3擴展實驗
對本文提出的分類模塊,也做了完整的實驗,如表6所示。本文提出的分類模塊極度輕便,擁有極低的參數(shù)量、計算量和極短的推理時間,且在類別識別上有94%的正確率。
表6 分類模塊實驗結果
對于網絡整體的推理時間,也進行了測試,如表7所示。在無異常天氣下,會跳過復原模塊直接進行檢測,只需要6.8 ms完成網絡全部推理。若存在異常天氣,則會增加復原模塊的推理時間,總共需要40.9 ms的推理時間。
表7 推理時間
另外,為驗證提出的方案不僅限于提升一種目標檢測網絡,本文提出了以下實驗,如表8所示。在Efficientdet[17]、Yolov5-nano[18]、SSD[19]等算法上,通過提出的復原模塊使得目標檢測能力得到提升。
表8 其他檢測算法實驗結果
圖7(a)為在無干擾圖像上的檢測結果,可明確地看到基本識別到所有目標。在圖像中添加異常天氣中的霧霾和玻璃表面雨跡后,會出現(xiàn)少量的漏識別和錯識別,如圖7(b)所示;隨著圖像的復原,檢測能力基本得到恢復。而添加雨線以及雨線和雨滴混合的噪聲后,識別能力大幅度下降,最易識別的正前方車輛也未能正常識別,如圖7(h)所示;在經過恢復后,對近距離的大目標實現(xiàn)了檢測,同時排除了誤識別。
圖7 異常天氣下目標檢測結果
對可見光攝像頭的環(huán)境感知模塊易受異常天氣干擾的問題,提出FRainDS異常天氣檢測數(shù)據集和MawNet多異常天氣檢測網絡。通過分類模塊,區(qū)分多種異常天氣狀況,為后續(xù)圖像復原選擇不同的模型;通過APReNet,更快更好地獲得原始無噪聲干擾的圖像;最后通過yolov4-tiny快速有效地獲得周圍環(huán)境信息。本文的方案在異常天氣下獲得69.1%的平均恢復率和24.4的fps,同時由于分類模塊的存在,實現(xiàn)了多種不同異常天氣的有效識別,以及無異常天氣下147的fps。