楊 帆,吳韶波
(北京信息科技大學 信息與通信工程學院,北京 100101)
近年來,智能駕駛越來越受到廣大消費者的青睞,該技術控制車輛在無人類干預的情況下安全地完成駕駛任務。車輛目標檢測就是其中的重要一環(huán):利用傳感器采集的信息檢測周圍車輛和智能駕駛車輛的相對位置。隨著深度學習算法的發(fā)展,通用目標檢測技術也逐漸發(fā)展成熟。但對于智能駕駛場景而言,通用目標檢測技術存在實時性差、易受天氣和光照等變化的影響等缺點,需要做進一步的改善才能滿足需求。深度學習中的SSD(Single Shot MutiBox Detectior, SSD)算法[1]采用卷積層替代全連接層,實現(xiàn)了特征提取和定位,克服了由于車輛數(shù)據(jù)集問題帶來的各種困難,具有一定的泛化能力。該算法較傳統(tǒng)目標檢測算法計算效率更高,在性能上有了極大提升,然而仍存在下列缺陷:
(1)在現(xiàn)實交通環(huán)境中,車輛較為集中,普遍存在遮擋問題,檢測結果仍有所欠缺;
(2)由于交通場景視野較遠,存在許多尺寸較小的目標,且交通場景環(huán)境多變,容易出現(xiàn)誤檢、漏檢等現(xiàn)象[2]。
針對以上問題,還需要在SSD算法的基礎上做進一步優(yōu)化,才能使模型在更加復雜的場景下提高判斷和檢測能力,減少誤判和漏檢等現(xiàn)象。
SSD網(wǎng)絡架構是由VGG16[3]和大小不同的卷積層組成,由于一張圖片中可能會有多個目標需要檢測,所以之前的全連接層(FC6和FC7)便體現(xiàn)出很大的局限性??紤]到卷積層提取特征的作用,產(chǎn)生了用卷積層替代全連接層的想法,相應的最后做預測時也需要使用卷積層。SSD架構如圖1所示。
圖1 SSD架構
最初的輸入數(shù)據(jù)為300×300×3的可見光圖像,經(jīng)過VGG16基礎特征提取層后,依次使用不同的卷積層Conv6、Conv7、Conv8_2、Conv9_2、Conv10_2進行處理。因為不同層的特征圖(feature map)對應到原圖上的感受野存在差異,所以在不同層上生成的默認框(default box)大小不同,可以檢測到不同大小的車輛目標。每個檢測層后接上2路3×3卷積用做分類與回歸,之后運用NMS(非極大值抑制)選擇出置信度最大的候選框作為最終的檢測結果。
SSD網(wǎng)絡模型中共使用了6個不同尺度的特征,相應分別產(chǎn)生了6個不同形狀的anchor,底層的特征圖尺度較大,點也較密集,適合使用較小的anchor檢測小目標;高層的特征圖尺度較小,點也比較稀疏,適合使用較大的anchor檢測大目標。假設用m個特征圖進行預測,那么對于每個特征圖而言,其anchor尺度的計算方式如下:
SSD算法的匹配策略:首先給每個anchor分配一個真實標簽,通過anchor與Groundtruth box比較計算最佳重疊。IOU大于閾值0.5,則該anchor為正樣本,反之為負樣本。實際上,每張圖片中負樣本的數(shù)量遠多于正樣本,為避免負樣本主導整個loss,按照預設正負樣本比例1∶3挑選出一定數(shù)量的負樣本,即對負樣本按照loss從大到小排序,只選擇前n個loss較大的負樣本進行梯度更新[5]。SSD對正負樣本比例進行了一定控制,能夠提高訓練結果的穩(wěn)定性和優(yōu)化速度??傮w目標損失函數(shù)是置信損失(conf)和位置損失(loc)的加權和:
式中:N為匹配的anchor的數(shù)量(正負樣本的數(shù)量之和);c為置信度;置信損失是Softmax對多類別的損失;l為預測框;g為真實框;位置損失是l和g之間的smoothL1損失,α為兩者的權重。
SSD選用的位置損失函數(shù)smoothL1計算方式如下:
SSD用了6個不同尺寸的特征圖進行預測,每層都會先得到默認框的尺寸,然后再在默認邊界框的基礎上添加不同的長寬比得到不同的anchor,如圖2所示。anchor的設置通常會有幾個像素偏移中心位置,未與感受野對齊。大目標對于這樣的現(xiàn)象不會太敏感,IOU變化不會太大(IOU計算方法見式(7));而小目標不同,尤其當感受野不夠大時,anchor甚至會偏移出感受野區(qū)域,影響最終的檢測性能。
圖2 8×8和4×4特征圖
為了使小目標的檢測效果更好,充分利用最底層的特征圖,將各特征層對應的anchor種類數(shù)[6]由之前的[4,6,6,6,4,4]提升至 [6,6,6,6,4,4]。SSD模型中 anchor的數(shù)量計算方式為:各層的像素點數(shù)×各層anchor的類別數(shù),由之前的8 732增加到11 620。
增加底層特征圖anchor的類別數(shù)能夠更好地捕捉到一些易被漏檢的小目標,提升模型對車輛檢測的整體準確率。
考慮到特殊場景下,如夜晚或大霧天氣時,單憑可見光圖像進行訓練具有一定的局限性,而紅外熱成像不受光源的影響,特別是光線不足的情況下依然可以有效成像,因此本實驗利用紅外熱成像的特點[7],在可見光的基礎上引入紅外熱像圖。紅外熱像圖的特點如下:
(1)包含移動物體的溫度信息;
(2)不受周圍環(huán)境的影響,例如強光、霧霾等;
(3)對比度低,有利于關鍵特征的提取。
綜合以上特點,將對紅外熱像圖提取的特征與對可見光圖像提取的特征進行融合,經(jīng)過分類和回歸計算出最終檢測結果。兩組圖像數(shù)據(jù)可視化如圖3所示。
圖3 兩組圖像數(shù)據(jù)可視化
本實驗數(shù)據(jù)集選取了城市道路、普通公路、高速公路和鄉(xiāng)村道路多個場景,分別進行下采樣、標注及數(shù)據(jù)增強等操作。車輛數(shù)據(jù)來源于實景拍攝,普遍存在車輛之間相互重疊、遮擋的現(xiàn)象,檢測難度較大。數(shù)據(jù)集處理流程如圖4所示。
圖4 數(shù)據(jù)集處理流程
在本實驗訓練過程中,大量使用了數(shù)據(jù)增強的方法進行水平翻轉、縮放、隨機裁剪,并調整亮度、對比度、飽和度和色調等。經(jīng)過數(shù)據(jù)增強,對于不同大小、不同尺度的物體均有較好的檢測性能,有效提升了SSD模型的魯棒性[8];數(shù)據(jù)增強對待測目標進行變形后,有助于豐富數(shù)據(jù),防止模型過擬合,提高泛化性。
本文在自己制作的數(shù)據(jù)集上對網(wǎng)絡進行訓練,車輛檢測網(wǎng)絡基于SSD算法,訓練環(huán)境為Tensor flow,對特征層anchor數(shù)量進行調整,學習率設置為0.000 1,weight decay為0.000 04,momentum為0.9,batch為32,正負樣本比例為1∶3。將車輛檢測實驗的系統(tǒng)流程總結如下:
(1)配置文件和環(huán)境變量;
(2)制作數(shù)據(jù)集,對2路數(shù)據(jù)進行預處理,如批量修改圖片名稱、下采樣、校準對齊及對數(shù)據(jù)集標簽進行標注等;
(3)修改腳本,訓練可見光數(shù)據(jù)得到模型1;
(4)重新設計網(wǎng)絡結構,加入紅外熱像圖,融合可見光數(shù)據(jù)和紅外熱像圖數(shù)據(jù)經(jīng)過卷積層提取的特征,訓練得到模型2;
(5)將預測圖片分別輸入訓練好的模型1和模型2,輸出檢測結果。
本文使用典型評價指標—平均精度均值(mean Average Precision, mAP)對車輛檢測模型的精度進行衡量,mAP是各類別平均精度(Average Precision, AP)的均值。平均精度結合精確率(Precision)和召回率(Recall),可以評估模型在某一類別上的好壞,精確率和召回率計算方法分別見式(8)、式(9)所示:
式中:TP為IOU>0.5的預測框的數(shù)量;FP為IOU≤0.5的預測框或是檢測到同一個ground truth的多余檢測框的數(shù)量;FN為未檢測到ground truth的預測框的數(shù)量。
實際上,AP為Precision和Recall構成的曲線下的面積,mAP即各類別AP的平均值,如有n個類,則mAP用式(10)表示:
本實驗中,模型1的mAP計算為76.5%,引入紅外熱像圖模型2的mAP計算為79.3%,提高了2.8%,最終的車輛檢測效果如圖5所示。
圖5 車輛目標檢測效果
通過以上結果可看出,本文實驗較好地完成了車輛檢測的任務,anchor在卷積層上數(shù)量的改進,以及在普通數(shù)據(jù)集基礎上增加紅外熱像圖,都有效提高了目標檢測的精確率。這是因為光線不足時,網(wǎng)絡難以從可見光數(shù)據(jù)中提取足夠的特征,而紅外熱像圖的加入更有利于昏暗環(huán)境下目標特征提取。但本文的實驗環(huán)境不一定是最佳的,還需要進一步完善。
本文基于SSD模型在采集的可見光和紅外熱像圖兩路數(shù)據(jù)集上進行車輛目標檢測,該方法使用全卷積網(wǎng)絡進行特征提取、回歸和分類,具有一定的魯棒性。首先,在SSD模型的基礎上對anchor進行改進,有效降低了小目標漏檢的概率。然后,增加紅外熱像圖數(shù)據(jù)集進行特征補充,不僅提高了小目標檢測的準確率,更有利于夜晚等特殊環(huán)境下的大目標檢測。從實驗結果可以得出結論,該模型的檢測效果還有提升空間,今后的工作方向為進一步改進模型性能,提高車輛目標檢測的精確度。