摘" 要: 近年來,全國的交通安全形勢日益嚴(yán)峻,交通事故頻繁發(fā)生,人員傷亡和財(cái)產(chǎn)損失慘重。其中,因視覺盲區(qū)受限引起的人車碰撞事故最為常見,由于傳感器的高昂造價(jià)和在盲區(qū)檢測方面的研究應(yīng)用較少,預(yù)防此類事故主要依靠司機(jī)駕駛經(jīng)驗(yàn)。針對盲區(qū)檢測和研究的不足,提出一種簡潔高效的輕量化盲區(qū)檢測網(wǎng)絡(luò)BsDet和BsDet+。輕量化網(wǎng)絡(luò)以最先進(jìn)的YOLOv8為基礎(chǔ),結(jié)合其他YOLO網(wǎng)絡(luò)的優(yōu)點(diǎn),在頭部和頸部進(jìn)行了輕量化重構(gòu),在特征提取部分使用改進(jìn)的深度可分離卷積降低網(wǎng)絡(luò)的參數(shù)量與計(jì)算量。在特定層使用更大的卷積核來擴(kuò)大感受野,進(jìn)一步提高網(wǎng)絡(luò)的檢測精度。在構(gòu)建的盲區(qū)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,BsDet擁有97.72%的mAP和300.76 f/s的FPS,BsDet+的mAP和FPS分別為99.35%和181.31 f/s,相比于SOTA方法,提高了36.8%的檢測速度和1.44%的mAP。兩種網(wǎng)絡(luò)分別在樹莓派、安卓手機(jī)和便攜式計(jì)算機(jī)上進(jìn)行部署與測試,結(jié)果顯示在任何平臺(tái)上,BSDet均擁有最高的檢測速度。BsDet和BsDet+可適用于不同性能的硬件與檢測需求,具有設(shè)備要求低、準(zhǔn)確率高、速度快等特點(diǎn),不僅為輕量化設(shè)計(jì)提供了借鑒,也能夠有效改善基于視覺的輔助駕駛技術(shù)。
關(guān)鍵詞: 交通事故; 盲區(qū)檢測; 輕量化網(wǎng)絡(luò); YOLOv8網(wǎng)絡(luò); 深度可分離卷積網(wǎng)絡(luò); 大卷積核
中圖分類號(hào): TN911.73?34" " " " " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " 文章編號(hào): 1004?373X(2024)16?0163?08
A lightweight blind spot detection network based on YOLOv8
LI Wenqu, CHEN Jiqing, HAO Kewei, LI Mingyu
(College of Mechanical Engineering, Guangxi University, Nanning 530007, China)
Abstract: In recent years, the national traffic safety situation has become increasingly severe, with frequent traffic accidents, heavy casualties and property losses. Human vehicle collision accidents caused by visual blind spot limitations are the most common. Due to the high cost of sensors and limited research applications in blind spot detection, prevention of such accidents mainly relies on the driver's driving experience. In allusion to the shortcomings of blind spot detection and research, a concise and efficient lightweight blind spot detection network BsDet and BsDet+ is proposed. The lightweight network is based on the most advanced YOLOv8 and combined with the advantages of other YOLO networks to perform lightweight reconstruction on the head and neck. In the feature extraction section, an improved depthwise separable convolution is used to reduce the parameter and computational complexity of the network. The larger convolutional kernels at specific layers are used to expand the receptive field and further improve the detection accuracy of the network. The experiments were conducted on the constructed blind spot dataset, and the results show that BsDet has 97.72% mAP and 300.76 f/s FPS, while BsDet+ has 99.35% and 181.31 f/s mAP and FPS, respectively. In comparison with the SOTA method, it can improve detection speed by 36.8% and mAP by 1.44%. Two types of networks were deployed and tested on Raspberry Pi, Android phones, and portable computers, and the results show that BSDet has the highest detection speed on any platform. BsDet and BsDet+ can be applied to different hardware and detection requirements with low equipment requirements, high accuracy, and fast speed. They not only provide reference for lightweight design, but also effectively improve visual assisted driving technology.
Keywords: traffic accidents; blind spot detection; lightweight network; YOLOv8 network; deep separable convolutional network; large convolutional kernel
據(jù)EMDAT(Emergency Events Database)數(shù)據(jù)庫統(tǒng)計(jì),1980—2020年間,道路交通事故數(shù)量占總事故數(shù)比例約為49.7%,交通事故造成的死亡人數(shù)占各種事故的90%以上[1]。人車碰撞事故是道路交通事故中的主要事故之一,其中最容易忽視和難以規(guī)避的就是因視覺盲區(qū)造成的人車碰撞事故。由于側(cè)邊停車、建筑物、公交站臺(tái)公交停留、天橋石墩以及綠化帶等道路環(huán)境遮擋駕駛?cè)艘暰€,形成視覺盲區(qū)環(huán)境,當(dāng)前方出現(xiàn)行人或非機(jī)動(dòng)車橫穿馬路的情況時(shí),駕駛?cè)藛T往往無法及時(shí)掌握信息采取措施,從而造成人車碰撞事故,俗稱“鬼探頭”事故[2]。
圖1是典型的人為盲區(qū)相關(guān)事故發(fā)生前的圖像。目前主要依靠司機(jī)的駕駛經(jīng)驗(yàn)預(yù)判來降低這類特殊盲區(qū)事故的發(fā)生率。隨著機(jī)器視覺技術(shù)的快速發(fā)展和輔助駕駛技術(shù)的成熟,基于視覺的檢測算法在如今的輔助駕駛技術(shù)中扮演著重要角色。比如Mobileye的Super Vision、百度的Apollo Lite、特斯拉的FSD都選擇純視覺方案的技術(shù)路線[3]。
在基于視覺的檢測算法方面,傳統(tǒng)的目標(biāo)檢測方法主要是使用定向梯度直方圖(HOG)和支持向量機(jī)(SVM)在每個(gè)檢測窗口中檢測紋理特征,從而判斷特定區(qū)域有無檢測對象。K. H. Jung等使用HOG和SVM方法,借助后視攝像頭實(shí)現(xiàn)了盲區(qū)車輛的檢測[4]。隨著道路交通的發(fā)展,路況日趨復(fù)雜,車載攝像頭獲取的圖像信息也更加豐富,傳統(tǒng)的圖像檢測算法逐漸處于劣勢。2012年,A. Krizhevsky等憑借卷積神經(jīng)網(wǎng)絡(luò)AlexNet獲得了ImageNet LSVRC大賽的冠軍,其準(zhǔn)確率遠(yuǎn)超傳統(tǒng)的視覺算法[5]。相對于繁瑣的傳統(tǒng)檢測算法,基于深度學(xué)習(xí)的檢測算法通過簡單的隨機(jī)候選區(qū)域或錨框回歸進(jìn)行大量數(shù)據(jù)迭代計(jì)算,實(shí)現(xiàn)了更高的精度和更快的速度[6];同時(shí),深度學(xué)習(xí)技術(shù)解決了傳統(tǒng)算法對背景環(huán)境和人工調(diào)參過于依賴的問題,更加適用于復(fù)雜的環(huán)境條件和自動(dòng)化的任務(wù)。
己有學(xué)者使用深度學(xué)習(xí)在檢測方面進(jìn)行了新的研究。H. Lee等使用GAN網(wǎng)絡(luò)來生成訓(xùn)練數(shù)據(jù)中的增強(qiáng)夜間圖像,以解決在夜間等低照度環(huán)境中檢測性能不足的問題[7]。Han等提出了一種新穎的基于時(shí)空注意力機(jī)制的端到端深度學(xué)習(xí)框架,旨在解決復(fù)雜環(huán)境下車輛轉(zhuǎn)向角預(yù)測不準(zhǔn)確和模型解釋困難的問題[8]。但深度學(xué)習(xí)網(wǎng)絡(luò)參數(shù)和計(jì)算量較大,需要較高的算力,這對于車載嵌入式系統(tǒng)是一個(gè)嚴(yán)峻的挑戰(zhàn)。
為了實(shí)現(xiàn)技術(shù)應(yīng)用落地,需要對網(wǎng)絡(luò)進(jìn)行輕量化的優(yōu)化。Zhao等簡單地將檢測區(qū)域固定,使盲區(qū)檢測任務(wù)轉(zhuǎn)化為分類任務(wù),并通過設(shè)計(jì)輕量的卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)來滿足車載嵌入式系統(tǒng)的要求[9]。
隨著YOLO(You Only Look Once)算法[10]的出現(xiàn),基于GPU的計(jì)算機(jī)實(shí)現(xiàn)了對對象的實(shí)時(shí)檢測,同時(shí)保持了較高的檢測精度。YOLO算法被廣泛應(yīng)用于智能農(nóng)業(yè)[11]、醫(yī)療診斷[12]和安全監(jiān)測[13]等領(lǐng)域。Jiang J等使用一種改進(jìn)的輕量型YOLOv3模型,在移動(dòng)終端等設(shè)備上實(shí)現(xiàn)了更高的效率和更好的性能[14]。通過對YOLO算法進(jìn)一步輕量化處理,可以更好地實(shí)現(xiàn)深度學(xué)習(xí)技術(shù)在嵌入式設(shè)備中的應(yīng)用。
1" 盲區(qū)檢測網(wǎng)絡(luò)
盲區(qū)檢測網(wǎng)絡(luò)框架基于YOLOv8[15],如圖2所示。YOLO是一個(gè)快速、強(qiáng)大的單階段目標(biāo)檢測算法,也是目前最先進(jìn)的檢測算法之一,它在現(xiàn)實(shí)世界的許多下游任務(wù)如語義分析、目標(biāo)檢測的應(yīng)用中表現(xiàn)出了優(yōu)異的性能。為了使該網(wǎng)絡(luò)更好地運(yùn)用于嵌入式設(shè)備,需要減少計(jì)算量與參數(shù)量。
本文對YOLOv8檢測網(wǎng)絡(luò)進(jìn)行了輕量化重構(gòu):在主干提取網(wǎng)絡(luò)中使用3個(gè)輕量化模塊進(jìn)行特征提取,激活函數(shù)使用SiLU函數(shù)(YOLOv5和YOLOv8中使用)。頭部參考了YOLOv4?tiny[16],僅使用兩個(gè)頭檢測進(jìn)行解碼(帶錨框)和預(yù)測。由于檢測頭減少,在頸部的上下采樣和特征融合操作就會(huì)相應(yīng)減少,這將顯著減少網(wǎng)絡(luò)的計(jì)算量。算法具體流程如下:輸入圖像經(jīng)過Backbone中的特征提取網(wǎng)絡(luò),生成兩種不同尺度的特征圖;在Neck部分會(huì)將最后一個(gè)特征圖通過一個(gè)基礎(chǔ)卷積進(jìn)行上采樣,然后與上一個(gè)特征圖進(jìn)行堆疊,增強(qiáng)特征融合網(wǎng)絡(luò)的多尺度能力;最后檢測頭會(huì)根據(jù)特征圖進(jìn)行解碼和預(yù)測。
1.1" 輕量化模塊設(shè)計(jì)
BsConv Block和BsConv Block+是輕量化模塊,結(jié)構(gòu)如圖3所示。其中BsConv Block+保留了YOLOv8中的結(jié)構(gòu)(CSP[17] Block),使用改進(jìn)的深度可分離卷積(圖4)來代替一些普通的卷積;BsConv Block是更簡潔的模塊,僅使用簡單的殘差結(jié)構(gòu)來代替BsConv Block+中的多次堆疊結(jié)構(gòu)。
改進(jìn)后的深度可分離卷積[18]刪除了逐點(diǎn)卷積,只保留了深度卷積(Dw Conv)部分。逐點(diǎn)卷積(卷積核為1)需要進(jìn)行大量的內(nèi)存讀寫,導(dǎo)致深度可分離卷積的高M(jìn)AC(Memory Access Cost)[17]。在一些高端GPU上,深度可分離卷積的運(yùn)算速度還不如普通卷積。本文通過刪除逐點(diǎn)卷積保證網(wǎng)絡(luò)擁有較少參數(shù)的同時(shí),不會(huì)有過高的MAC。
當(dāng)一張尺寸為[H×W]的圖像經(jīng)過一個(gè)普通卷積時(shí),參數(shù)量P與計(jì)算量F分別為:
[P=K×K×Cin×Cout]" " "(1)
[F=K×K×(W-K+1)×(H-K+1)×Cin×Cout] (2)
深度卷積部分參數(shù)量與計(jì)算量如下:
[P=K×K×Cin] (3)
[F=K×K×(W-K+1)×(H-K+1)×Cin] (4)
而逐點(diǎn)卷積參數(shù)量與計(jì)算量如下:
[P=1×1×(W-K+1)×(H-K+1)×Cin×Cout] (5)
[F=1×1×Cin×Cout] (6)
式中:P和F分別表示參數(shù)量和計(jì)算量;K為卷積核的大??;W和H為輸入圖像的寬度和高度;[Cin]為輸入通道數(shù)量;[Cout]為輸出通道數(shù)量。
一般地,當(dāng)卷積核為3時(shí),深度可分離卷積的計(jì)算量和參數(shù)量約為普通卷積的[19]。改進(jìn)后的深度可分離卷積少了逐點(diǎn)卷積,可以擁有更少的參數(shù)量與計(jì)算量。
1.2" 使用更大的卷積核
大卷積核能夠顯著增加有效感受野,在淺層網(wǎng)絡(luò)使用大卷積核可以提取更多有用的信息,這對檢測任務(wù)十分關(guān)鍵。在傳統(tǒng)的卷積網(wǎng)絡(luò)中會(huì)使用大量的3[×]3卷積去堆疊來代替大卷積核,如連續(xù)使用兩個(gè)3[×]3的卷積核來代替一個(gè)5[×]5的卷積核。有效感受野理論公式如下:
[σ=kL] (7)
式中:[k]為卷積核的大小;L表示網(wǎng)絡(luò)的深度;σ為感受野。
感受野的大小不僅與卷積核大小成正比,也與模型深度的平方根成正比。通過堆疊層數(shù)實(shí)現(xiàn)大感受野必然不如增加卷積核大小更高效,借助檢測網(wǎng)絡(luò)的輕量化重構(gòu)與輕量化模塊的設(shè)計(jì),并不會(huì)因?yàn)榫矸e核增大而產(chǎn)生的指數(shù)爆炸問題。
1.3" 使用NCNN進(jìn)行部署
盲區(qū)檢測網(wǎng)絡(luò)是為了嵌入式等低算力平臺(tái)而進(jìn)行設(shè)計(jì)的,而這類低算力平臺(tái)沒有CUDA加速環(huán)境和PyTorch框架,因此要實(shí)現(xiàn)深度學(xué)習(xí)網(wǎng)絡(luò)的部署,需要借助NCNN[19]和vulkan接口。NCNN是專為移動(dòng)平臺(tái)優(yōu)化的高性能神經(jīng)網(wǎng)絡(luò)推理計(jì)算框架,通過vulkan接口便可以利用GPU來加速計(jì)算和推理,解決了嵌入式設(shè)備平臺(tái)計(jì)算能力低、部署困難和檢測速度慢的問題。圖5顯示了深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練、轉(zhuǎn)換和部署過程。
2nbsp; 實(shí)驗(yàn)與分析
2.1" 實(shí)驗(yàn)數(shù)據(jù)集
數(shù)據(jù)集中包含4 000張圖像,圖像的分辨率為960×512×3,訓(xùn)練集和測試集分別有3 400張和600張。本文按照9∶1的比例進(jìn)一步將數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集。
數(shù)據(jù)集來源于三個(gè)部分:網(wǎng)絡(luò)上行車記錄儀視頻截取圖像、CuLane數(shù)據(jù)集、道路實(shí)景拍攝。通過下載網(wǎng)絡(luò)交通頻道上傳的視頻并編寫Python腳本文件批量截取了視頻中盲區(qū)相關(guān)幀,總計(jì)獲取2 500張初始圖像。CuLane[20]是一個(gè)公開數(shù)據(jù)集,用于車道檢測研究,拍攝地點(diǎn)位于北京,由6臺(tái)不同的車載相機(jī)收集。經(jīng)過篩選、裁剪與拉伸,獲取1 500張初始圖像。數(shù)據(jù)清洗后盲區(qū)圖像減少,通過數(shù)據(jù)擴(kuò)增保證網(wǎng)絡(luò)的泛化能力。數(shù)據(jù)增強(qiáng)后的圖像統(tǒng)一調(diào)整分辨率再進(jìn)行標(biāo)注,完成車輛盲區(qū)數(shù)據(jù)集。圖6顯示了部分?jǐn)?shù)據(jù)集圖像。
2.2" 實(shí)現(xiàn)細(xì)節(jié)
實(shí)驗(yàn)在CUDAToolkit 11.7和PyTorch 1.12的深度學(xué)習(xí)框架上進(jìn)行,使用Arch Linux x86_64操作系統(tǒng),CPU為Intel i5?10400F,GPU是一塊顯存為12 GB的NVIDIA GeForce RTX 2060。訓(xùn)練過程中,初始學(xué)習(xí)率設(shè)置為0.01,權(quán)重衰減設(shè)置為0.000 5,學(xué)習(xí)率動(dòng)量為0.937,批量大小為32。訓(xùn)練時(shí)使用Sgd優(yōu)化器,迭代周期(Epoch)設(shè)置為600。測試期間,非最大抑制(NMS)閾值為0.3,置信閾值為0.5,交并比(IoU)閾值為0.3。
2.3" 評價(jià)指標(biāo)
選取7個(gè)評估指標(biāo),F(xiàn)LOPS、Params用于評估模型的大小,F(xiàn)PS用來評估網(wǎng)絡(luò)的檢測速度,平均精度均值(mAP)、Precision、Recall和F1分?jǐn)?shù)用于評估檢測網(wǎng)絡(luò)的準(zhǔn)確性[21]。其中平均準(zhǔn)確率是不同召回率下準(zhǔn)確率的平均值,F(xiàn)1分?jǐn)?shù)代表總準(zhǔn)確率和召回率的平均值。
將框表示為盲區(qū)或非盲區(qū)可能會(huì)導(dǎo)致以下潛在情況:真陽性(TP)為正確地將一個(gè)區(qū)域分類為盲區(qū);誤報(bào)(FP)為錯(cuò)誤地將背景區(qū)域分類為盲區(qū),以及對同一盲區(qū)的多次檢測;假陰性(FN)為錯(cuò)誤地將盲區(qū)分類為背景區(qū)域。為了量化TP、FP和FN,使用0.5的交并比(IoU)閾值上的平均精度度量。其中:
[Precision=TPTP+FP] (8)
[Recall=TPTP+FN] (9)
除了計(jì)算精度和召回率外,模型性能的平均精度可以評估為:
[Accuracy=TP+TNTP+TN+FP+FN] (10)
使用上面的Precision和Recall指標(biāo)可以計(jì)算F1分?jǐn)?shù),作為分析模型準(zhǔn)確性的另一種方式。根據(jù)準(zhǔn)確率和召回率得到的F1分?jǐn)?shù)公式如下:
[F1=2×Precision×RecallPrecision+Recall] (11)
2.4" 結(jié)果與分析
2.4.1" 網(wǎng)絡(luò)性能對比實(shí)驗(yàn)
將輕量化檢測網(wǎng)絡(luò)BsDet和BsDet+與常見的輕量化網(wǎng)絡(luò)Mobilenet系列(V1、V2[22]、V3[23])、Ghostnet[24]、YOLO系列(YOLOv4?tiny、YOLOv5s[25])在CUDA平臺(tái)進(jìn)行實(shí)驗(yàn)比較。表1顯示了這些網(wǎng)絡(luò)的各種指標(biāo)。圖7、圖8的網(wǎng)絡(luò)性能對比結(jié)果表明,BsDet擁有最快的檢測速度,BsDet+則擁有更高的檢測精度。在FPS方面,BsDet擁有最快的檢測速度,比MobilenetV1、MobilenetV2、MobilenetV3 、Ghostnet、YOLOv4?tiny和YOLOv5s分別快了236.53、249.1、238.39、259.58、80.97(36.8%)和213.31。在精度方面,BsDet+擁有99.35%的最高檢測精度,分別比MobilenetV1、MobilenetV2、MobilenetV3、Ghostnet、YOLOv4?tiny和YOLOv5s高8.01%、5.7%、3.42%、4.24%、1.44%和0.56%。BsDet+在F1和Precision上也有著最好的表現(xiàn),在Recall方面與YOLOv5s接近。
從圖9所示的網(wǎng)絡(luò)參數(shù)量與計(jì)算量對比結(jié)果可以看出,BsDet和BsDet+的參數(shù)量與計(jì)算量均少于現(xiàn)有的輕量化模型,其中BsDet最少,參數(shù)量和計(jì)算量分別為3.6×109和3.067,僅為其他輕量化網(wǎng)絡(luò)的[12]。
通過輕量化網(wǎng)絡(luò)對比實(shí)驗(yàn)可知,網(wǎng)絡(luò)輕量化結(jié)構(gòu)設(shè)計(jì)(BsDet與BsDet+)和刪除過多的特征融合操作(YOLOv4?tiny與YOLOv5s)處理可以有效提升網(wǎng)絡(luò)檢測速度。深度可分離卷積雖然具有較少的參數(shù)量與計(jì)算量,但檢測速度卻不一定快(Mobilenet與YOLOv4?tiny),而使用更優(yōu)秀的激活函數(shù)對網(wǎng)絡(luò)的檢測精度有很大的提升。實(shí)驗(yàn)結(jié)果驗(yàn)證和支持了輕量化盲區(qū)檢測網(wǎng)絡(luò)設(shè)計(jì)的理論。
2.4.2" 方法對比實(shí)驗(yàn)
為驗(yàn)證本文方法對檢測網(wǎng)絡(luò)的有效性,對各個(gè)優(yōu)化策略進(jìn)行對比實(shí)驗(yàn)。
表2對比了使用5×5卷積和兩個(gè)連續(xù)的3×3卷積的性能表現(xiàn)。對于BsDet,相比連續(xù)使用兩個(gè)3×3的卷積,使用5×5的卷積,計(jì)算量增加了0.004×109,參數(shù)量沒有變化,F(xiàn)PS和Recall分別提升了4.57和0.45%。對于BsDet+,使用5×5的卷積后,計(jì)算量和參數(shù)量增加了0.386×109和0.013 MB,F(xiàn)PS和Recall分別提升了1.82 f/s和0.88%??紤]到檢測FPS時(shí)會(huì)存在波動(dòng)與誤差,可以認(rèn)為使用大卷積核后,在不影響網(wǎng)絡(luò)的檢測速度的同時(shí)可以提高網(wǎng)絡(luò)的檢測精度。
表3對比了不同層使用BsConv Block+模塊對網(wǎng)絡(luò)的性能影響。實(shí)驗(yàn)結(jié)果表明,網(wǎng)絡(luò)的檢測速度會(huì)隨著BsConv Block+使用的增加而下降。當(dāng)不使用BsConv Block+時(shí),F(xiàn)PS最高可達(dá)235.21 f/s。BsConv Block+作用在不同層時(shí)的性能不同,如單獨(dú)作用在第2層時(shí)綜合性能最好,而單獨(dú)作用在第1層時(shí)這些指標(biāo)卻達(dá)到最低。
2.4.3" 網(wǎng)絡(luò)部署實(shí)驗(yàn)
分別將BsDet和BsDet+部署在樹莓派、Android手機(jī)、便攜式計(jì)算機(jī)和NVIDIA平臺(tái),測試網(wǎng)絡(luò)在不同算力平臺(tái)上的性能表現(xiàn)。樹莓派(Raspberry Pi)和安卓手機(jī)是嵌入式設(shè)備,便攜式計(jì)算機(jī)代表另一種低算力平臺(tái)。
表4為NCNN框架在不同平臺(tái)上的檢測速度和處理每幅圖像所消耗的時(shí)間。由表4可知,在相同檢測平臺(tái)下,BsDet的檢測速度最快,在樹莓派、安卓手機(jī)和便攜式計(jì)算機(jī)上分別是YOLOv4?tiny(CUDA平臺(tái)檢測速度較快)的1.486、1.423和1.572倍,是BsDet+的2.436、1.946和3.492倍。在高計(jì)算能力平臺(tái)上,BsDet的FPS是YOLOv4?tiny和BsDet+的1.369倍和1.659倍,這與之前的實(shí)驗(yàn)結(jié)果一致。
在低計(jì)算能力平臺(tái)上,網(wǎng)絡(luò)之間的差距遠(yuǎn)大于高計(jì)算能力平臺(tái),平臺(tái)算力越低,BsDet的優(yōu)越性就越高。綜上,使用輕量級(jí)網(wǎng)絡(luò)和減少模型參數(shù)對車載等嵌入式設(shè)備具有重要意義。圖10展示了不同網(wǎng)絡(luò)在NCNN和CUDA框架下的檢測性能。可以看出,不同網(wǎng)絡(luò)在實(shí)時(shí)檢測過程中,針對不同的盲區(qū)檢測精度也不同。和網(wǎng)絡(luò)性能實(shí)驗(yàn)不同,該實(shí)驗(yàn)不能保證BsDet+在檢測每一個(gè)盲區(qū)時(shí)都有最高的檢測精度。BsDet、YOLOv4?tiny和BsDet+都能保證90%以上的準(zhǔn)確率。
3" 結(jié)" 語
本文中,BsDet和BsDet+被用于道路特殊盲區(qū)檢測。以YOLOv8為基礎(chǔ),通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)、設(shè)計(jì)輕量化模塊和改進(jìn)深度可分離卷積,實(shí)現(xiàn)了檢測網(wǎng)絡(luò)參數(shù)量與計(jì)算量的減少并顯著提高了檢測速度。在CUDA平臺(tái)的實(shí)驗(yàn)結(jié)果表明,BsDet增加了36.8%的檢測速度,BsDet+的檢測精度均高于現(xiàn)有的輕量化網(wǎng)絡(luò)。在低算力平臺(tái)上的部署和實(shí)驗(yàn)探究表明,輕量化是實(shí)現(xiàn)深度學(xué)習(xí)技術(shù)應(yīng)用的關(guān)鍵一步,復(fù)雜的模型在嵌入式和低算力設(shè)備上有著很低的FPS,無法滿足實(shí)時(shí)檢測任務(wù)。
從部署的實(shí)際效果來看,在實(shí)際檢測工作中,由于檢測目標(biāo)的多樣性與復(fù)雜性,mAP總處于動(dòng)態(tài)變化,而FPS則相對穩(wěn)定,F(xiàn)PS相對于mAP更能衡量檢測網(wǎng)絡(luò)的優(yōu)劣。在未來的研究中,如何穩(wěn)定mAP是一項(xiàng)挑戰(zhàn)。網(wǎng)絡(luò)的檢測速度與檢測精度是矛盾的,要想提高檢測精度就涉及更多的參數(shù)和計(jì)算,這必然導(dǎo)致檢測速度的下降。本文提出的BsDet和BsDet+為輕量化設(shè)計(jì)提供了思路與借鑒,解決的盲區(qū)問題為輔助駕駛和深度學(xué)習(xí)技術(shù)的應(yīng)用與普及奠定了基礎(chǔ)。
注:本文通訊作者為陳繼清。
參考文獻(xiàn)
[1] 應(yīng)江龍,郭建群,蔣仲廉,等.1980—2020年中國交通事故空間分布特征研究[C]//2022世界交通運(yùn)輸大會(huì)(WTC2022)論文集(交通工程與航空運(yùn)輸篇).北京:人民交通出版社,2022:498?502.
[2] DENG T, YANG Z, CHEN Q. Modeling pedestrian ghost probe crossing behavior choices [EB/OL]. [2024?01?19]. http://papers.ssrn.com/sol3/papers.cfm?abstract_id=4152867.
[3] SHAO J. Testing object detection for autonomous driving systems via 3D reconstruction [C]// 2021 IEEE/ACM 43rd International Conference on Software Engineering: Companion Proceedings (ICSE?Companion). [S.l.]: ACM, 2021: 52.
[4] JUNG K H, YI K. Vision?based blind spot monitoring using rear?view camera and its real?time implementation in an embedded system [J]. Journal of computing science and engineering, 2018, 12: 127.
[5] KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with deep convolutional neural networks [J]. Advances in neural information processing systems, 2012, 25(2): 386.
[6] ZHANG Y, WANG D, WANG L, et al. Learning regression and verification networks for long?term visual tracking [EB/OL]. [2023?09?07]. https://arxiv.org/pdf/1809.04320.
[7] LEE H, RA M, KIM W Y. Nighttime data augmentation using GAN for improving blind?spot detection [J]. IEEE access, 2020(8): 48049?48059.
[8] HAN L, WU L, LIANG F, et al. A novel end?to?end model for steering behavior prediction of autonomous ego?vehicles using spatial and temporal attention mechanism [J]. Neurocomputing, 2021, 490: 295?311.
[9] ZHAO Y, BAI L, Lü Y, et al. Camera?based blind spot detection with a general purpose lightweight neural network [J]. Electronics, 2019, 8(2): 233.
[10] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real?time object detection [C]// Computer Vision amp; Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 779?788.
[11] MIRHAJI H, MIRHAJI H, SOLEYMANI M, et al. Fruit detection and load estimation of an orange orchard using the YOLO models through simple approaches in different imaging and illumination conditions [J]. Computers and electronics in agriculture, 2021, 191: 106533.
[12] AL?ANTARI M, HAN S, KIM T. Evaluation of deep learning detection and classification towards computer?aided diagnosis of breast lesions in digital X?ray mammograms [J]. Computer methods and programs in biomedicine, 2020, 196: 105584.
[13] SON H, KIM C. Integrated worker detection and tracking for the safe operation of construction machinery [J]. Automation in construction, 2021, 126: 103670.
[14] JIANG J, FU X, QIN R, et al. High?speed lightweight ship detection algorithm based on YOLO?V4 for three?channels RGB SAR image [J]. Remote sensing, 2021, 13(10): 1909.
[15] Anon. YOLOv8 [EB/OL]. [2023?07?09]. https://github.com/ultralytics/yolov8.
[16] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: optimal speed and accuracy of object detection [EB/OL]. [2023?07?15]. https://www.xueshufan.com/publication/3018757597.
[17] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: a new backbone that can enhance learning capability of CNN [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Seattle, WA, USA: IEEE, 2020: 1571?1580.
[18] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2023?05?18]. http://arxiv.org/pdf/1704.04861.
[19] Anon. NCNN [EB/OL]. [2021?12?20]. https://github.com/Tencent/ncnn.
[20] PAN X, SHI J, LUO P, et al. Spatial as deep: spatial CNN for traffic scene understanding [EB/OL]. [2023?09?17]. http://arxiv.org/pdf/1712.06080.
[21] SOKOLOVA M, JAPKOWICZ N, SZPAKOWICZ S. Beyond accuracy, F?score and ROC: a family of discriminant measures for performance evaluation [C]// AI 2006: Advances in Artificial Intelligence. Berlin, Heidelberg: Springer, 2006: 1015?1021.
[22] SANDLER M, HOWARD A, ZHU M, et al. MobileNetV2: inverted residuals and linear bottlenecks [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.[S.l.]: IEEE, 2018: 474.
[23] HOWARD A, SANDLER M, CHEN B, et al. Searching for mobile NetV3 [C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul, South Korea: IEEE, 2020: 1314?1324.
[24] HAN K, WANG Y, TIAN Q, et al. GhostNet: more features from cheap operations [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 1577?1586.
[25] Anon. YOLOv5 [EB/OL]. [2022?12?07]. https://github.com/ultralytics/yolov5.