金 鑫,胡 英
(大連海事大學船舶電氣工程學院,遼寧 大連 116026)
HOV(High-Occupancy Vehicle)車道又稱多乘員車道、高載客率車道,指規(guī)定時間對多乘員車輛開放的車道,可以有效緩解交通擁堵問題,提高車道的出行效率[1]。但是目前國內HOV車道的執(zhí)法主要通過交警現(xiàn)場人工排檢來完成,執(zhí)法效率較低,因此設計一套自動化的車輛乘員數(shù)量檢測系統(tǒng)就顯得十分必要。本文采用光譜紅外技術與圖像融合技術設計了一套多光譜紅外成像系統(tǒng),可以獲得較為清晰的駕駛室內部空間圖像,成像效果如圖1所示。車內乘員數(shù)量可以通過目標檢測算法來實現(xiàn),在前期實驗過程中發(fā)現(xiàn),將乘員面部作為檢測目標時檢測效果相對較好,但目標尺寸較小,當汽車后排人員較多時容易發(fā)生遮擋,在預測過程中容易在NMS過程當做相同目標被濾除掉,同時受天氣、曝光程度、光照等因素的影響,目標在成像效果上特征差異較大,因此在檢測結果中經常出現(xiàn)漏報和誤報。
圖1 多光譜紅外成像效果
近年來,國內外學者針外弱小多目標檢測問題進行了深入研究,同時隨著深度學習技術的成熟發(fā)展,紅外目標檢測精度已經有了很大的提升[2]。張駿等人[3]提出了一種基于U-Net[4]網絡的消防紅外圖像的人體檢測算法,通過該算法解決了人體姿態(tài)復雜、多障礙物遮蔽等情況下的目標識別,但是在多目標場景下檢測效果還不夠理想。李承昊等人[5]提出一種可變錨框候選區(qū)域網絡的目標檢測方法,通過注意力機制引導模塊對Faster RCNN[6]的RPN進行改進,并且引入了一種置信因子的NMS算法,在增強候選框生成合理性的同時提高了檢測精度,但是對于目標位置回歸的精度并沒有起到很好的引導作用,多目標聚集下效果仍然不夠理想。
本文在總結現(xiàn)有研究的基礎上,以Faster RCNN為基礎,通過使用變形結構的卷積計算和ROI-Pooling來提高網絡的泛化能力[7],引入KL損失函數(shù)[8]來改進目標框位置回歸過程,同時采用了Soft-NMS與方差投票相結合的方式提高NMS過程的合理性,提高目標框定位精度,避免相鄰目標間因目標框重疊度大而產生誤檢,多乘員檢測的準確率得到明顯提高。
Faster RCNN網絡將目標檢測網絡中特征提取、候選區(qū)域生成、目標分類、位置回歸等四個步驟融合到一個深度網絡中,實現(xiàn)了端到端的訓練,算法結構如圖2所示[9]。數(shù)據(jù)在經過特征提取后,首先經過RPN網絡生成候選區(qū)域,接著判斷候選區(qū)域內容是否為前景,如果內容是前景,則最后經過ROI-Pooling將其映射成固定尺寸的特征圖進行目標分類和位置回歸,否則放棄該候選框,RPN網絡也會對候選框的幾何坐標進行調整。所以相比于YOLO、SSD等算法而言,Faster RCNN是一個兩步法的端到端訓練,所以在實際表現(xiàn)中準確率會更高一些。
圖2 Faster RCNN網絡結構圖
RPN網絡通過卷積運算使得候選框生成的方式更加科學,可以有效地的將RPN網絡和特征提取網絡的權值進行共享,避免了對候選區(qū)域進行重復的卷積運算。在RPN網絡的訓練上,一般將與任意標注框的IOU值最大的或者與標注框的IOU值大于0.7的候選框分配正樣本,為IOU值低于 0.3的候選框分配負樣本,RPN的損失包括分類損失和位置回歸損失,函數(shù)定義為:
(1)
卷積神經網絡(CNN)是一種重要的深度學習計算,在圖像分類、目標檢測、語義分割等方面都有著很成功的應用。變形卷積是指通過將可學習的2D偏移參數(shù)添加到標準卷積中的網格采樣位置,實現(xiàn)了采樣網格的自由變形,使得根據(jù)目標尺寸、形狀來自適應地確定卷積區(qū)域。卷積變形前后的效果如圖3所示。從圖中可以看出,變形后的卷積計算避免了對背景區(qū)域的無用計算,計算效率得到提高,特征單元的感受野也隨之增大。
圖3 采樣網格的變換
卷積過程主要分為兩個步驟:1)在輸入特征圖x上使用規(guī)則網格R進行采樣;2)對采樣值按權重加權求和。只要我們改變采樣網格的規(guī)則性,便可實現(xiàn)變形卷積。規(guī)則網格R定義了感受野大小和擴張尺度。比如定義一個3×3的卷積核,擴張大小為1。
R={(-1,-1),(-1,0),…,(0,1),(1,1)}
對于輸出特征圖y上每個位置p0有:
y(p0)=∑pn∈Rw(pn)·X(p0+pn)
(2)
其中,pn是網格R中的位置。
在變形卷積中,標準的格子R用{Δpn|n=1,…,N}增加了偏移量,其中N=|R|,則此時公式(2)變成:
y(p0)=∑pn∈Rw(pn)·x(p0+pn+Δpn)
(3)
現(xiàn)在采樣是在不規(guī)則、有偏移位置(pn+Δpn)上進行的。由于偏移量Δpn通常是小數(shù),則公式(3)通過雙線性差值變成:
x(p)=∑qG(q,p)·x(q)
(4)
其中,p表示任意小數(shù)位置(p=p0+pn+Δpn);q表示特征圖x中所有整體空間位置;G代表雙線性插值核。通過雙線性插值變換便可以獲取到變形后每一個采樣網格單元對應的像素點。G是二維的,可表示成:
G(q,p)=g(qx,px)·g(qy,py)
(5)
其中,g(a,b)=max(0,1-|a-b|)。
如圖4所示,某一通道數(shù)為N的特征圖先經過一層卷積獲得偏移量,卷積層的輸出與輸入的特征圖具有相同的尺寸,但通道維數(shù)為2N,對應于x、y兩個方向的偏移量。在訓練期間,提取特征的卷積核與獲得偏移量的卷積核參數(shù)同時學習。
圖4 3×3的變形卷積過程
ROI-Pooling是RPN網絡的中間環(huán)節(jié),它可以將任意大小的候選目標區(qū)域縮放成固定尺寸特征。數(shù)據(jù)降維的池化過程會導致細節(jié)特征丟失,同時在完成候選目標區(qū)域和深層特征的映射時還會存在非整數(shù)倍的取整,使得采樣網格是非均勻劃分的,也會造成一定的細節(jié)特征丟失,對小目標的檢測精度影響很大[10],對此本文展開了深入的研究。受變形卷積的啟發(fā),本文設計了一種變形的ROI-Pooling,過程與之相似,唯一有區(qū)別的是通過全連接層求取參數(shù),這樣是為了增強參數(shù)求取的針對性,將其與變形卷積學習過程區(qū)別開來,偏移量表示為{Δpij|0≤i,j 變形池化的過程如圖5所示,偏移的采樣方式使得可以將采樣區(qū)域重點關注在目標上,使得完成映射的特征圖盡可能多的保留目標特征,減少縮放過程的信息丟失,提高了位置回歸和目標分類的特征質量。假設給定輸入特征圖x和大小為w×h的RoI,并且左上角為p0,ROI-Pooling將RoI劃分為k×k(k為自由參數(shù))個bin(粗實線框),并輸出k×k特征圖y。對于y的特征值: y(i,j)=fmaxpoolx(p0+p)p∈bin(i,j) (6) 其中,p代表采樣區(qū)域,最終取得的y值為該采樣區(qū)域的最大值。變形池化可以表示: y(i,j)=fmaxpoolx(p0+p+Δpij)p∈bin(i,j) (7) 圖5 變形池化過程 在本節(jié)首先介紹了修改后邊界框的預測方式。然后提出了KL Loss用于訓練檢測網絡的定位置信度。最后,采用了Soft-NMS與方差投票結合的方式提高目標框回歸的準確性。 本文與原Faster RCNN網絡中位置預測方式不同,為了探索學習到的坐標方差與坐標位置的內在關系,本文在直接預測候選框坐標的同時預測和估計坐標預測的置信度來提升位置回歸過程的準確性。本文采取預測其概率分布的形式,盡管分布可能很復雜,例如多元高斯分布或高斯混合分布,但在本文中,由于候選框的各個坐標相互獨立,可以將其數(shù)學模型表示為: (8) 其中,xe是預測的邊框位置。標準差σ代表預測的不確定度,當σ→0時,這意味著我們的網絡對目標框位置預測的置信度很高,它是在原網絡的基礎上添加一個全連接層分支產生的,參考文獻[8],可表示為如圖6所示。 圖6 改進后的網絡結構 同樣的,我們也需要為數(shù)據(jù)中真實目標框的概率分布建立一個數(shù)學函數(shù),按照之前的分析,將式(8)取σ=0便轉換為狄拉克三角函數(shù); PD(x)=δ(x-xg) (9) 其中,xg代表標簽中真實的坐標值。 KL又稱KL散度、相對熵,是用來描述相同時間空間里某一概率分布像另一概率分布的擬合情況,當KL散度越小,兩個概率分布的差異也就越小。在本文中為了捕捉目標框預測的不確定性,本文將高斯分布函數(shù)向狄拉克三角函數(shù)擬合的KL散度作為損失函數(shù),通過訓練使得KL散度最小。 用Lreg記為目標框的誤差函數(shù): Lreg=DKL(PD(x)‖Pe(x)) H(PD(x)) (10) (11) 因為σ在分母中,會在訓練時存在梯度爆炸的現(xiàn)象。為了避免梯度爆炸,我們的網絡實際上采用α=log(σ2)的方式,而不是直接預測σ,對于|xg-xe|>1,采用類似Smooth L1損失函數(shù)的形式,表示為: (12) 本小節(jié)采用了將Soft-NMS與方差投票結合的方式對目標框篩選、目標定位等過程做出改進,前者將NMS中IOU值較高的預測框重新賦值一個較低的分數(shù),而不是直接濾除掉,避免刪除堆疊目標。由于線性加權方式不是連續(xù)函數(shù),這樣會使得結果中分數(shù)出現(xiàn)間斷,因此采用高斯加權的方式: (13) 式中,si為第i個目標框的分類得分;M表示為當前選定得分最高的目標框;bi為當前與M進行分值抑制計算的目標框;D為分值抑制計算完成的候選框集合。 方差投票是指根據(jù)學習到的有重疊邊界框的方差對候選框位置進行權重分配,受Soft-NMS的啟發(fā),我們?yōu)檩^接近且不確定性較低的候選框分配較高的權重。設x為坐標,xi為第i個候選框的坐標。新坐標的計算如下: (14) subjecttoIOU(bi,b)>0 其中,σt是方差投票過程可手動調整的參數(shù)。在投票期間,兩種類型的預測框將具有較低的權重:①已學習方差較高的候選框; ②與重新計算坐標的預測框交并比較小的候選框。類別分數(shù)不參與投票,分數(shù)較低的預測框可能具有較高的位置置信度。 實驗部分首先從RPN網絡的位置loss回歸曲線、改進前后網絡泛化能力、檢測速度等方面作以分析,然后重點在多乘員、目標存在遮擋的情況下測試檢測效果,并進行準確率統(tǒng)計做出定量分析,最后將其和改進前、其他主流的目標檢測網絡進行對比實驗,并對實驗結果進行總結。實驗平臺配置及相關訓練參數(shù)如表1所示。 表1 實驗平臺配置及相關訓練參數(shù) RPN網絡的訓練效果將直接影響目標檢測的準確率,同時為了驗證損失函數(shù)改進的可行性,本文繪制了RPN網絡改進前后的位置loss回歸曲線,如圖7所示。從圖中可以看出,改進后的RPN網絡在經過六千次迭代以后開始平穩(wěn)收斂,訓練過程相對平穩(wěn),證明損失函數(shù)改進可行。此外改進后網絡訓練誤差的初始值明顯降低,收斂速度更快,loss值收斂更加理想,這說明網絡結構改進對網絡整體性能的提升作用很大。 圖7 RPN loss訓練曲線對比 NMS改進主要是為了使網絡能夠更好應對在4+數(shù)量乘員情況下,因目標遮擋而造成的誤報問題。一部分原因是目標遮擋會造成目標有效識別面積變小,還有一部分原因是原NMS中固定的IOU閾值很難準確適應重復目標的濾除需要。如圖8所示,當閾值取為0.3時,原網絡由于位置預測的不夠準確使得重疊目的交并比過大,造成了目標漏報,當閾值增加到0.4時,又會造成重復目標框濾除效果不理想,造成誤報。 圖8 原網絡測試效果 由于IOU閾值偏大會影響重復目標框的濾除效果,因此選取IOU=0.3。圖9的實驗結果表明,本文算法可以滿足重疊目標的預測,目標框位置預測的精度更高,加入方差投票改進后,目標框標記的視覺效果更好,重疊區(qū)域變小,提高了在執(zhí)法時人工復檢過程中判斷證據(jù)的可靠性。 圖9 NMS改進效果(IOU=0.3) 首先測試模型的泛化能力,選取了一些典型的乘員目標特征差異較大的數(shù)據(jù)進行測試,特征差異主要表現(xiàn)在乘員臉部曝光程度、明暗差異、有口罩、手掌、帽子遮擋等等。改進前后的檢測效果如圖10所示。 由檢測結果可以看出,當目標的曝光程度較高導致面部信息缺失嚴重時,改進后的網絡也可以對乘員面部準確識別,并保持較高的識別分數(shù)。此外由于照片抓拍過程的不確定性,乘員面部容易被車窗、帽子、口罩等物體遮擋,也因此對網絡的泛化能力提出了更高的要求。從實驗中可以看出原網絡可以實現(xiàn)對理想目標的準確識別,但當存在上述干擾時還不能很好的勝任檢測任務,在目標存在外部遮擋導致同一類別目標特征的差異較大時,改進后的網絡的可以很好的完成檢測任務,這說明變形改進的網絡計算可以盡可能多的保留目標細節(jié)特征,與預期設想基本相符,同時目標框的位置預測更加精準,避免了相鄰目標發(fā)生重疊。 同時為了量化驗證本文的改進效果,選取了多組數(shù)據(jù),每組2500張圖片,每類乘員數(shù)量(1~5)各500張,將改進后的網絡和目前主流的YOLOv3、Mask RCNN等檢測算法分別進行實驗,記錄各類乘員數(shù)量下檢測的平均準確率和檢測速度,統(tǒng)計結果如表2所示。 從表2中數(shù)據(jù)可以看出,本文模型在各類乘員數(shù)量下識別準確率較高,基本保證在80 %以上,檢測的速度與改進前略微降低,但仍在可承受范圍之內。與改進前相比,檢測乘員越多,本文模型準確率提升幅度越大,說明本文的NMS改進能夠很好應對多乘員情況下重疊目標的檢測。YOLOv3是目前較為優(yōu)秀的目標檢測網絡,但其算法計算的基礎是針對正方形的圖像輸入,本文數(shù)據(jù)經過裁剪多余背景信息的預處理后圖像多為長方形,壓縮為正方形后再輸入網絡訓練,這樣會使得圖像質量降低,網絡預測的準確率不佳。Mask RCNN的實驗結果表明實例分割的效果優(yōu)于一般的目標檢測算法,但是語義分割網絡的加入使得網絡整體的計算量增大,檢測速度犧牲較大。基于以上分析總結得知,檢測精度隨乘員數(shù)量增加呈下降趨勢,本文在3+數(shù)量上準確較改進前提高幅度更大,與其他算法相比綜合檢測精度、檢測速度等指標,本文算法仍是最優(yōu)選擇。 表2 不同算法檢測效果對比 結合已獲得的多光譜紅外圖像,本文以Faster RCNN網絡模型為基礎,通過變形卷積網絡結構、在RPN網絡中目標特征圖映射方式中提出變形的ROI-Pooling,以提高RPN網絡中特征映射的質量,使其可以更多的保留目標的細節(jié)特征,網絡模型的泛化能力得到明顯的提高。在位置回歸過程中,KL損失與方差投票相結合的改進方式,使得網絡對于重疊目標的識別能力明顯增強。本文算法可以很好應對在可能存在誤報、漏報的情況下的目標識別。相比于改進之前,3+乘員數(shù)量檢測準確率提升幅度更大,雖然4+數(shù)量乘員檢測準確率還不能穩(wěn)定居于80 %以上,但在4+數(shù)量乘員以上允許1~2名漏報的原則下,本文算法完全可以滿足實際的執(zhí)法和檢測需求。但是在檢測速度上相比于YOLOv3還有很大差距,提高各類數(shù)量乘員檢測精度的同時提升檢測速度將作為以后主要的研究方向。4 損失函數(shù)改進
4.1 函數(shù)計算基礎
4.2 KL損失函數(shù)
4.3 NMS改進
5 實驗分析
5.1 RPN網絡訓練過程
5.2 NMS改進實驗
5.3 泛化能力測試
6 結 論