宋 巍,張光德
(武漢科技大學(xué) 汽車與交通工程學(xué)院,武漢 430081,中國)
隨著汽車保有量和駕駛?cè)藬?shù)的增長[1-2],交通安全問題也日趨嚴(yán)峻。汽車安全事故的發(fā)生與駕駛員的狀態(tài)密切相關(guān),其中疲勞駕駛最為普遍。當(dāng)駕駛員感到疲倦時,駕駛員行為處置不當(dāng)和反應(yīng)力減弱,進(jìn)而對人生安全和社會財產(chǎn)造成極大危害[3-5]。因此,駕駛員疲勞狀況的實時監(jiān)測是預(yù)防交通安全事故發(fā)生的重要手段,值得深入研究。其中,機器視覺與人工智能技術(shù)在人類狀態(tài)與行為識別領(lǐng)域應(yīng)用廣泛,且效果顯著。
隨著成像技術(shù)與圖形處理器(graphics processing unit,GPU)等軟硬件的快速迭代,基于深度學(xué)習(xí)的圖像識別技術(shù)應(yīng)運而生,其以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)為特征提取器,克服了傳統(tǒng)機器學(xué)習(xí)應(yīng)用中的種種瓶頸,在駕駛員狀態(tài)檢測方面的研究日益增多。王政等[6]針對傳統(tǒng)的、基于單一特征的疲勞檢測方法誤檢率高、可靠性不強、無法適應(yīng)復(fù)雜多變的行車環(huán)境等問題,提出了一種基于深度學(xué)習(xí)的駕駛員多種面部特征融合的疲勞駕駛檢測方法,取得了相對優(yōu)異的檢測效果。李昭慧等[7]提出一種基于改進(jìn)YOLOv4 算法的疲勞駕駛檢測方法,測試中平均精度均值(mean average precision,MAP)達(dá)到97.29%,相較原YOLOv4 算法提高了1.98%,其中對眼睛部位的檢測精度提高了6%。此外,仍有部分學(xué)者基于深度學(xué)習(xí)技術(shù)對駕駛員疲勞檢測的應(yīng)用效果進(jìn)行測試,將不同特征提取網(wǎng)絡(luò)、不同模型搭建方式的深度學(xué)習(xí)目標(biāo)檢測網(wǎng)絡(luò)應(yīng)用于實際的檢測過程之中,取得了相對優(yōu)異的檢測結(jié)果[8-15]。
然而,大量特征點的定位與識別造成了計算數(shù)據(jù)量和難度大大提升,降低了實時檢測效率。本文通過構(gòu)建多類別疲勞駕駛狀態(tài)圖像數(shù)據(jù)庫,以瞌睡度量方法判定駕駛員的疲勞駕駛狀態(tài),以EfficientDet[16-17]目標(biāo)檢測網(wǎng)絡(luò)提取駕駛員面部圖像特征,以k-means先驗框邊界聚類方法確定目標(biāo)檢測區(qū)域,并利用雙向特征金字塔網(wǎng)絡(luò)檢測駕駛員狀態(tài),避免繁雜面部特征點的細(xì)致識別,實現(xiàn)駕駛員疲勞狀態(tài)精確、高效檢測。
1.1.1 EfficientNet 架構(gòu)
在基礎(chǔ)CNNs 網(wǎng)絡(luò)模型(如圖1a 所示)的基礎(chǔ)上提升層寬(如圖1b 所示),即增加網(wǎng)絡(luò)特征圖個數(shù)可以使網(wǎng)絡(luò)獲得更高細(xì)粒度的特征,且降低模型訓(xùn)練難度。其次,增加網(wǎng)絡(luò)層數(shù)(如圖1c 所示),即搭建更深層次的網(wǎng)絡(luò)使CNNs 模型有能力提取到更加豐富、復(fù)雜的特征,且提取到的特征能被有效應(yīng)用于具體圖像分類任務(wù)之中。此外,提高輸入圖像的分辨率(如圖1d 所示)能夠潛在的獲得更高細(xì)粒度的特征模板,即在輸入端提高CNNs 模型的分類性能。因此,若同時優(yōu)化基礎(chǔ)CNNs 寬度、深度及輸入分辨率(如圖1e 所示)則能最大程度上提升卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,進(jìn)而優(yōu)化模型的圖像分類效果。
圖1 EfficietNet 設(shè)計思路
1.1.2 視覺注意力機制
將視覺注意力機制融入于CNNs 模型中,是一種高效的特征提取方法[18]。在EfficientNet 中,采用“視覺注意力模塊(或壓縮和激勵模塊) (squeeze &excitation block,SE block)”來實現(xiàn)注意力增強。SE 模塊的結(jié)構(gòu)如圖2 所示。
圖2 SE 視覺注意力模塊
SE 視覺注意力模塊是一種基于注意力的特征圖運算。首先對輸入特征圖進(jìn)行Squeeze 操作,并在通道維度方向上進(jìn)行全局平均池化(global average pooling)運算,以獲得輸入特征圖在通道維度方向上的全局特征。其次,SE 模塊對全局特征圖進(jìn)行Excitation 操作,以學(xué)習(xí)圖像中各個通道之間的關(guān)系。最終,SE 模塊通過sigmoid 激活函數(shù)獲得不同通道所占的權(quán)重,并將各通道權(quán)重與輸入特征圖相乘以獲得最終注意力增強后的特征圖像。
EfficientDet 主要由EfficientNet 特征提取網(wǎng)絡(luò)與雙向特征金字塔網(wǎng)絡(luò)(bidirectional feature pyramid network,BiFPN)所組成[19]。
1.2.1 雙向特征金字塔網(wǎng)絡(luò)(BiFPN)
特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN)將CNNs 特征提取網(wǎng)絡(luò)中較為抽象的頂層特征圖像進(jìn)行上采樣運算,并將上采樣運算結(jié)果通過橫向連接與特征提取網(wǎng)絡(luò)中其他層級所提取的相同特征大小的特征圖像進(jìn)行融合,在不顯著增加模型計算量的前提條件下顯著提升了深度學(xué)習(xí)目標(biāo)檢測網(wǎng)絡(luò)對不同尺度目標(biāo)的檢測性能。啟發(fā)于基礎(chǔ)FPN,研究人員對特征提取網(wǎng)絡(luò)中不同層級所提取的特征圖像進(jìn)行融合實驗,而路徑聚合網(wǎng)絡(luò)(path aggregation network,PANet)[20]則是其中一項特征融合效果較優(yōu)的變體網(wǎng)絡(luò)。PANet 在PFN 的基礎(chǔ)上提出為特征融合網(wǎng)絡(luò)提供自下而上特征融合路徑的方法,進(jìn)而提升了目標(biāo)檢測模型對多尺度目標(biāo)的整體檢測性能,但PANet 的參數(shù)量與計算消耗也較大。
為進(jìn)一步提升PANet 的深度學(xué)習(xí)目標(biāo)檢測技術(shù)在多尺度目標(biāo)檢測任務(wù)中的性能,并降低特征融合網(wǎng)絡(luò)的計算消耗,EffiicentDet 將跨尺度連接和加權(quán)特征融合應(yīng)用于網(wǎng)絡(luò)搭建之中,進(jìn)而提出全新的特征融合網(wǎng)絡(luò)BiFPN,如圖3 所示。
以圖3中P6融合特征輸出為例,其運算過程如式(1)和式(2)所示。
圖3 特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)
式中:代表經(jīng)過加權(quán)運算后的代表經(jīng)過加權(quán)最終輸出;代表對應(yīng)特征層所被賦予的權(quán)重;ε為預(yù)設(shè)參數(shù),用于防止分母為0,本文預(yù)設(shè)ε=1×10-4。
1.2.2 EfficientDet 架構(gòu)
EfficientDet 是一類基于EfficientNet 特征提取網(wǎng)絡(luò)而提出的深度學(xué)習(xí)目標(biāo)檢測架構(gòu),其主要由圖像輸入端、特征提取網(wǎng)絡(luò)、BiFPN 特征融合網(wǎng)絡(luò)、類別預(yù)測網(wǎng)絡(luò)與位置預(yù)測網(wǎng)絡(luò)五個模塊所構(gòu)成,模型架構(gòu)如圖4所示。
圖4 EfficientDet 目標(biāo)檢測網(wǎng)絡(luò)架構(gòu)
在EfficientNet 特征提取網(wǎng)絡(luò)中,模型通過初始階段高效的下采樣與通道維度擴張后獲得P1、P2、P3、P4、P5等5 層的特征圖像,且P5特征圖像經(jīng)過后續(xù)2 次下采樣獲得P6、P72 層的特征圖像,其中P3、P4、P5、P6、P7被應(yīng)用于BiFPN 的后續(xù)特征加權(quán)融合,而由于P1、P2特征圖像所包含的語義信息較弱,未進(jìn)行后續(xù)特征融合。其次,為精確定位輸入圖像中目標(biāo)所在位置,EfficientDet 將BiFPN 所輸出的具有語義和空間信息的特征圖像劃分為N×N個不同網(wǎng)格,以每個網(wǎng)格為錨點生成先驗框,以用于目標(biāo)定位。最終,類別預(yù)測網(wǎng)絡(luò)與位置預(yù)測網(wǎng)絡(luò)將分別對先驗框內(nèi)所包含目標(biāo)的類別進(jìn)行判斷和先驗框位置回歸,進(jìn)而確定輸入圖像中所包含的目標(biāo)類別與目標(biāo)位置,完成目標(biāo)檢測任務(wù)。
在EfficientDet 目標(biāo)檢測網(wǎng)絡(luò)中,先驗框的高寬比(aspect ratios)由實驗者手動設(shè)計,更加貼合具體檢測任務(wù)實踐的預(yù)設(shè)高寬比將有效提高模型的收斂速度與目標(biāo)檢測準(zhǔn)確度。因此,為提高疲勞駕駛狀態(tài)目標(biāo)檢測網(wǎng)絡(luò)的模型收斂速度與檢測準(zhǔn)確性,本文提出采用k-means 聚類方法來確定預(yù)設(shè)先驗框高寬比的優(yōu)化方案。其中,k-means 主要通過以下步驟完成先驗框高寬比聚類任務(wù):
步驟1隨機選取疲勞駕駛樣本圖像中的k個真實框作為初始化簇心,即anchor box。
步驟2順序計算疲勞駕駛樣本圖像樣本中每個真實框與k個anchor box 之間的距離,并將距離簇心最近的真實框樣本劃分為該類,其距離為
式中:box 為邊界框位置;centr 為簇心點位置;Sbox∩centr為聚類中心與真實框相交區(qū)域面積;Sbox∪centr為聚類中心與真實框并集區(qū)域面積。
步驟3計算簇心除所有真實框的參數(shù)均值、更新簇心位置,并不斷重復(fù)步驟2、步驟3 過程,直至簇心點確定。
因此,通過k-means 預(yù)設(shè)先驗框高寬比聚類過程,其最終的高寬比能夠有效反映圖像數(shù)據(jù)集中的目標(biāo)形狀特征及大小,進(jìn)而確定更為合理的預(yù)設(shè)先驗框高寬比值,以優(yōu)化目標(biāo)檢測網(wǎng)絡(luò)的訓(xùn)練過程與檢測效果。
面向于駕駛員疲勞駕駛檢測的實際任務(wù),本實驗選取正常駕駛狀態(tài)及3 種疲勞駕駛狀態(tài)下的圖像為研究對象,其中,3 種疲勞駕駛狀態(tài)圖像包括閉眼樣本、張嘴樣本和低頭樣本。本數(shù)據(jù)由專業(yè)圖像數(shù)據(jù)公司所采集,其攝像機部署位置在機動車左側(cè)A 柱上方,該拍攝位置能夠清晰、直觀的獲取駕駛員在駕車行駛過程中的行為,并對駕駛過程中疲勞駕駛狀態(tài)下的圖像進(jìn)行采集,且選取各類別中2 張圖像為示例,攝像機部署位置及圖像拍攝效果如圖5 所示。
圖5 攝像機部署位置及疲勞駕駛圖像數(shù)據(jù)集示例
在實驗數(shù)據(jù)集準(zhǔn)備階段,采用8 : 1 : 1 劃分疲勞駕駛圖像訓(xùn)練集、測試集與驗證集。同時,為避免模型訓(xùn)練過程中可能出現(xiàn)的訓(xùn)練數(shù)據(jù)量不足及組間數(shù)據(jù)量不平衡等問題,采用色彩變換、旋轉(zhuǎn)等圖像數(shù)據(jù)增強技術(shù)擴充數(shù)據(jù)集大小,經(jīng)數(shù)據(jù)增強后的圖像數(shù)據(jù)集中各類別的數(shù)據(jù)量如表1 所示。
表1 駕駛員疲勞駕駛圖像數(shù)據(jù)集劃分
采用平均精度均值(mean average precision,MAP),檢測頻率(每秒幀數(shù),frame per second,FPS),召回率(Recall)和訓(xùn)練時間(Time,或t)等常用指標(biāo)來評價EfficientDet 目標(biāo)檢測性能。其中,Recall 表征查全率,Time 表征訓(xùn)練難度。在MAP 值的計算過程中需要使用P(Precision)和R(Recall) 2 個指標(biāo):
式中:tp (true positive)為模型檢測正確的駕駛行為數(shù)量;fp (false positive)為模型檢測錯誤的駕駛行為數(shù)量;fn (false negative)為模型漏檢的駕駛行為數(shù)量。
模型的平均檢測精度(average detection precision,AP)代表了以P為橫軸、以R為縱軸的P-R曲線下的面積,即
平均精度均值為
式中:QR為測試集中所包含圖像個數(shù)。
實驗過程中,通過Win10 系統(tǒng)Python 環(huán)境搭建疲勞駕駛圖像檢測模型,其訓(xùn)練環(huán)境條件如表2 所示。
表2 實驗?zāi)P陀?xùn)練環(huán)境條件
另外,采用Carnegie Mellon 研究所實驗驗證[21]的、用來判定駕駛員疲勞狀態(tài)的瞌睡程度指數(shù)為
計算結(jié)果的疲勞駕駛評價標(biāo)準(zhǔn)如表3 所示。其中,疲勞狀態(tài)幀數(shù)包括 閉眼、張嘴、低頭 3 種表現(xiàn)形式的幀數(shù);依照Perclos[21]的計算結(jié)果,可以劃分為正常駕駛狀態(tài)、輕微疲勞駕駛、嚴(yán)重疲勞駕駛 3 種駕駛狀態(tài)。同時,在駕駛員疲勞駕駛狀態(tài)的檢測任務(wù)中,考慮實時性,檢測時間總幀數(shù)設(shè)置為0.8 s,以此來判別駕駛員當(dāng)前時段的駕駛狀態(tài)。
表3 疲勞駕駛評價標(biāo)注
在本實驗中,未使用k-means 先驗框邊界聚類算法時,使用平均精度均值MAP、召回率R、檢測頻率FPS、訓(xùn)練時間t等4 個評價指標(biāo)來評估各階段EfficientDet 疲勞駕駛目標(biāo)檢測模型。結(jié)果如表4 所示。
表4 未使用k-means 先驗框邊界聚類算法時各階段EfficientDet 的檢測性能
EfficientDet-D2 模型的平均檢測精度相對更高;EfficientDet-D1 次之;EfficientDet-D0 平均 檢測精度MAP 相對較低;其他3 個指數(shù)也展現(xiàn)出了類似的變化趨勢,R指數(shù)、訓(xùn)練時長t隨著特征提取網(wǎng)絡(luò)的優(yōu)化而逐漸增大,檢測頻率隨著特征提取網(wǎng)絡(luò)的優(yōu)化而逐漸減小,主要原因在于不同模型的圖像特征提取能力不同,影響了模型檢測精度和效率。
使用k-means 先驗框邊界聚類方法實現(xiàn)先驗框大小比例的預(yù)先決策。同時,在疲勞駕駛圖像先驗框邊界聚類實驗時,不改變特征層預(yù)設(shè)先驗框尺度大小及個數(shù)的前提下,聚類類別k選定為3,即聚類出3 種符合駕駛員疲勞駕駛圖像檢測先驗框分布的長寬比。之后,將各尺度大小的先驗框各自分配聚類后,3 組長寬比能夠在特征層上生成9 種先驗框,且經(jīng)過20 次聚類實驗,所得聚類精確度最高的3 組先驗框長寬比比例分別為(55,63)、(59,53)、(56,57)。
以上述3 組先驗框長寬比例為先驗框預(yù)設(shè)值,3 種EfficientDet 目標(biāo)檢測網(wǎng)絡(luò)的評價指標(biāo),以及以相同數(shù)據(jù)集訓(xùn)練并測試的YOLO V3、Faster-RCNN 模型的實際檢測效果,如表5 所示。
表5 使用k-means 先驗框邊界聚類算法時各模型的檢測性能
對比于未使用k-means 先驗框邊界聚類算法時的檢測性能,其檢測精度均有一定幅度的提升,這表明k-means 先驗框邊界聚類算法的使用能在一定程度上優(yōu)化目標(biāo)檢測網(wǎng)絡(luò)的檢測性能。YOLO V3、Faster-RCNN 模型的檢測精度相比于EfficientDet 模型稍差,但YOLO V3 框架的檢測頻率較高,訓(xùn)練耗時較短,而Faster-RCNN 框架并沒有明顯優(yōu)勢??傮w來說,本文所提EfficientDet-D2 模型檢測精度最高,檢測速度適中,綜合檢測效果較好。
選取除采樣人員外的2 名測試人員進(jìn)行駕駛測試,并錄制對應(yīng)視頻。實驗?zāi)M真實駕駛環(huán)境,由實驗人員側(cè)前方攝像頭實時采集面部信息,分別模擬出3 種疲勞駕駛狀態(tài)。每位實驗人員分別進(jìn)行100 次模擬實驗,共進(jìn)行200 次模擬實驗。其測試結(jié)果如表6所示。
表6 使用先驗框邊界聚類算法的視頻檢測效果
使用先驗框邊界聚類算法的EfficietDet-D2 在2 名實驗人員拍攝視頻中的檢測過程如圖6 所示。整體趨勢上,使用先驗框邊界聚類算法的EfficietDet-D2 誤檢率及漏檢率相對較低,且分類準(zhǔn)確率相對較高。其次,正常駕駛狀態(tài)下的檢測精度較高,而在駕駛員輕微疲勞駕駛狀態(tài)下的檢測精度相對要低,這表明輕微疲勞駕駛狀態(tài)仍是當(dāng)下基于深度學(xué)習(xí)的疲勞駕駛檢測算法的應(yīng)用難點。此外,EfficietDet-D2 模型檢測速度分別達(dá)到21.05 和20.98,即檢測速度相對較快,且面對不同駕駛員時的檢測速度相對接近。
圖6 EfficientDet-D2 在2 名實驗人員拍攝視頻中的檢測過程
本文提出了一種基于改進(jìn)EfficientDet 深度學(xué)習(xí)網(wǎng)絡(luò)的疲勞駕駛視覺檢測方法。通過深度可分離卷積與移動反轉(zhuǎn)瓶頸卷積模塊降低了特征提取網(wǎng)絡(luò)部分的計算復(fù)雜度,提升了圖像特征的提取效率;應(yīng)用視覺注意力機制并構(gòu)建擠壓與激勵模塊,進(jìn)一步加強整個檢測網(wǎng)絡(luò)的特征提取能力,并融合檢測模型中低層位置信息與高層語音信息,增加了網(wǎng)絡(luò)整體的信息流動性;同時,采用k-means 聚類算法對數(shù)據(jù)集中的真實框進(jìn)行統(tǒng)計,設(shè)定更加符合具體任務(wù)需求的先驗框,優(yōu)化了網(wǎng)絡(luò)特征提取方向,降低了模型對冗余信息的關(guān)注度。對比分析3 種不同深度、不同寬度、不同分辨率大小的改進(jìn)EfficientDet 模型以及YOLO V3、Faster-RCNN模型檢測效果。
結(jié)果表明:使用k-means 先驗框邊界聚類算法時的EfficientDet 模型檢測精度和幀率均有一定幅度提升,其中EfficientDet-D2 模型檢測效果較好,其平均精度和召回率分別達(dá)到97.92%和96.75%,誤檢率和漏檢率分別低于2.39%和1.78%。