顧德英, 羅聿倫, 李文超
(東北大學(xué)秦皇島分校 控制工程學(xué)院, 河北 秦皇島 066004)
近年來,自動駕駛、智能交通等領(lǐng)域的研究飛速發(fā)展,成果豐碩.基于深度學(xué)習(xí)和計算機視覺的交通場景目標(biāo)檢測技術(shù)已經(jīng)擁有了非常豐富的應(yīng)用領(lǐng)域,正在逐漸取代傳統(tǒng)算法.但是,深度學(xué)習(xí)算法的應(yīng)用往往需要消耗大量的計算資源,不容易實現(xiàn)實時檢測.如果能從算法入手,通過算法的改良來提升模型檢測精度和推理速度,進(jìn)而部署到車載攝像頭或電子監(jiān)控等邊緣計算設(shè)備中,可以有效降低成本,有利于深度學(xué)習(xí)目標(biāo)檢測算法在交通領(lǐng)域的大規(guī)模部署落地和推廣應(yīng)用.
2006年Hinton等學(xué)者最早提出深度學(xué)習(xí)的概念[1],基于深度學(xué)習(xí)的計算機視覺目標(biāo)檢測算法開始發(fā)展.2012年Krizhevsky等提出的AlexNet模型在ImageNet競賽中實現(xiàn)重大突破[2],深度學(xué)習(xí)算法又取得了長足的進(jìn)步.深度學(xué)習(xí)目標(biāo)檢測算法經(jīng)歷了兩個發(fā)展階段,首先是以R-CNN[3]、Faster R-CNN[4]等為代表的兩階段檢測算法,需要遍歷圖片所有區(qū)域得到候選框再進(jìn)行目標(biāo)分類.Tian等[5]使用改進(jìn)的Faster R-CNN在相關(guān)數(shù)據(jù)集上對車道線進(jìn)行檢測與標(biāo)記,獲得了比R-CNN更快的結(jié)果.然而,此類算法檢測精度較低,很難實現(xiàn)實時檢測,實際應(yīng)用效果不佳.其次是以YOLO[6]、SSD[7]等為代表的一階段檢測算法,基于邊框回歸的端到端目標(biāo)檢測可在單個神經(jīng)網(wǎng)絡(luò)內(nèi)實現(xiàn)目標(biāo)的分類與定位,它的模型檢測精度、速度都比前者提升了一個數(shù)量級,是目前主流的目標(biāo)檢測算法.周攀等[8]采用ResNext網(wǎng)絡(luò)代替原YOLOv3結(jié)構(gòu)中基于ResNet的殘差結(jié)構(gòu),并采用K-means算法聚類分析模型的錨框參數(shù),在KITTI數(shù)據(jù)集上檢測精度達(dá)到87.60%.
為了解決傳統(tǒng)深度學(xué)習(xí)模型推理速度慢、部署效率低的問題,人們也曾提出過YOLOv3-tiny[9],YOLOv4-tiny[10-11]等輕量化網(wǎng)絡(luò).但是,多個數(shù)據(jù)集上的測試結(jié)果證明,相比于原YOLOv3和YOLOv4網(wǎng)絡(luò),這些經(jīng)過輕量化處理的網(wǎng)絡(luò)會造成模型精度損失,準(zhǔn)確率不高[11].因此,本文采用改進(jìn)前后的YOLOv5網(wǎng)絡(luò)進(jìn)行對比訓(xùn)練,再將得到的模型用于交通目標(biāo)檢測的測試和仿真部署.
作為一階段檢測算法的典型代表,YOLO系列目前已經(jīng)由Ultralytics公司發(fā)展到第五代YOLOv5[12].它可以通過調(diào)整網(wǎng)絡(luò)的深度和寬度自由設(shè)定模型結(jié)構(gòu),兼顧了檢測精度與速度,適合作為計算性能有限的設(shè)備的部署模型.原始YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)擁有輸入層、骨干層、頸部層和預(yù)測層4個部分,如圖1所示.
圖1 原始YOLOv5的簡要結(jié)構(gòu)
本文所采用的輸入圖像像素尺寸為640×640和通道數(shù)為3,YOLOv5算法首先在輸入層對輸入圖像進(jìn)行預(yù)處理,包括基于遺傳算法迭代的K-means聚類自動計算最佳anchor(錨框)尺寸,以及對訓(xùn)練集中4張隨機圖像進(jìn)行四合一自適應(yīng)拼接縮放的Mosaic數(shù)據(jù)增強.前者有利于預(yù)設(shè)的anchor更加貼近真實框,提升模型的擬合能力,后者能夠提升模型訓(xùn)練速度和學(xué)習(xí)小目標(biāo)特征的能力,學(xué)習(xí)到比單張圖片更為豐富的特征信息.Mosaic數(shù)據(jù)增強在本文數(shù)據(jù)集上的效果如圖2所示.
原始版本的YOLOv5骨干層包含F(xiàn)ocus模塊、SPP(spatial pyramid pooling,空間金字塔池化)模塊和BottleneckCSP網(wǎng)絡(luò).Focus模塊對預(yù)處理后的640×640×3圖像采用切片和卷積操作,最終變成320×320×32的特征圖.BottleneckCSP將輸入特征圖一分為二,分別進(jìn)行卷積運算再通過局部跨層合并,即類似ResNet[13]的跳躍連接,目的是加快網(wǎng)絡(luò)的計算,豐富網(wǎng)絡(luò)提取到的特征.隨后SPP模塊的最大池化和張量拼接,則提升了模型的感受野.另外,骨干層3×3的卷積模塊步長為2,與CSP(cross stage partial,跨階段局部融合)模塊交替排布對圖像進(jìn)行下采樣,最后網(wǎng)絡(luò)輸出80×80,40×40,20×20三種像素尺寸的特征圖進(jìn)入頸部層.
圖2 Mosaic數(shù)據(jù)增強的效果
頸部層的主要組成部分是由FPN(feature pyramid networks,特征金字塔網(wǎng)絡(luò))改進(jìn)而來的PANet(path aggregation network,路徑聚合網(wǎng)絡(luò))[14].PANet增加了卷積下采樣部分,得到三種不同尺寸的特征圖輸入預(yù)測層.預(yù)測層特征圖深度為3×(5+K),K是檢測目標(biāo)的類別個數(shù).
在損失函數(shù)方面,YOLOv5預(yù)測層的損失函數(shù)分為cls,obj,box三部分,分別對應(yīng)物體分類、置信度和檢測框的損失,前兩者采用BCE with Logit Loss,而算法本身為box提供了GIOU_Loss損失函數(shù)[15],相較于普通的IOU_Loss更能準(zhǔn)確地描繪檢測框的偏差程度,如式(1)和式(2)所示.式中A,B分別代表真實框和預(yù)測框,C為包含A,B的最小外接矩形.分別計算出三部分損失函數(shù)后求和即得到最終的總損失函數(shù).
(1)
(2)
自YOLOv5的原始版本問世后,算法本身也在隨著時間的推移不斷發(fā)展,本文基于其v5.0版本作出了改進(jìn),主要集中在網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)兩方面.首先是將原始的網(wǎng)絡(luò)結(jié)構(gòu)替換為更復(fù)雜的P6網(wǎng)絡(luò)結(jié)構(gòu)[16],如圖3所示.
圖3 改進(jìn)后的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
具體來看,網(wǎng)絡(luò)中骨干層的BottleneckCSP模塊已經(jīng)被C3模塊所取代,SPP模塊中的5×5,9×9,13×13卷積核調(diào)整為3×3,5×5和7×7,卷積模塊的激活函數(shù)由LeakyReLU(式(3))變成SiLU,后者借鑒了ReLU系列函數(shù)的思想,但更為平滑,如式(4)和式(5)所示.
(3)
f(x)=x·sigmoid(x) ;
(4)
(5)
SPP模塊前增加了一個卷積下采樣模塊,獲得尺寸更小的10×10特征圖,因此對應(yīng)的頸部層中也需要增加一次上采樣.最后,PANet自下而上的下采樣部分增加1個10×10的特征圖送入預(yù)測層,能夠輸出4種不同尺寸的特征圖.特征圖的種類越多,將圖像劃分的網(wǎng)格與預(yù)測的錨框數(shù)量也就越多,容易檢測出尺寸較小或互相重疊的目標(biāo),在推理速度稍微降低的同時提升檢測能力.另外,本文在計算損失函數(shù)的box部分中引入理論效果更好的CIOU_Loss來替換原有的GIOU_Loss,提升模型檢測效果和魯棒性,CIOU_Loss如式(6)~(8)所示.
(6)
(7)
(8)
式中:ρ(Actr,Bctr)是預(yù)測框和真實框的中心點歐氏距離;c為包含A,B的最小外接矩形的對角線長度;wA和hA代表真實框A的長和高;wB和hB代表預(yù)測框B的長和高.原有的GIOU_Loss在目標(biāo)框完全包含相同大小的預(yù)測框時,無論預(yù)測框的位置如何變化,函數(shù)值不變.鑒于這一缺陷,CIOU_Loss增加影響因子v,考慮到2個框的相對位置、中心點距離、寬高比三種因素,能更為精確地反映模型訓(xùn)練時的損失情況.
本文采用交通目標(biāo)數(shù)據(jù)集KITTI作為算法測試的數(shù)據(jù)來源,該數(shù)據(jù)集由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合創(chuàng)辦,通過車載攝像頭和傳感器,采集城市道路、高速公路、校園等多個復(fù)雜交通場景的真實交通圖像,適合目標(biāo)檢測、光流、3D跟蹤等計算機視覺任務(wù)的使用[17].數(shù)據(jù)集的標(biāo)簽細(xì)分為Car,Van,Truck,Pedestrian,Person_sitting,Cyclist,Tram,Misc以及Dontcare等若干類.本文選擇的是其中的2D目標(biāo)檢測數(shù)據(jù)集,包含7 481張有標(biāo)注的圖像和7 518張無標(biāo)注圖像.由于交通環(huán)境下移動目標(biāo)多為車輛和行人,為了降低輕量化模型的檢測難度,不再細(xì)分車輛的種類和行人的姿態(tài),將原數(shù)據(jù)集標(biāo)簽重新整理,“Van”“Truck”“Tram”標(biāo)簽合并到“Car”類,“Person_sitting”標(biāo)簽合并到“Pedestrian”類,忽略“Misc”和“Dontcare”兩類.最終得到需要檢測的“Pedestrian”“Cyclist”“Car”三類標(biāo)簽.然后重新劃分KITTI數(shù)據(jù)集有標(biāo)注的圖像,得到訓(xùn)練集5 440張,驗證集1 280張,測試集761張.
KITTI數(shù)據(jù)集除了7 481張有標(biāo)注的圖像之外,還有7 518張無標(biāo)注的圖像,為了進(jìn)一步提升檢測的準(zhǔn)確性,可以將這部分圖像進(jìn)行充分利用,采用偽標(biāo)簽的形式加入劃分好的訓(xùn)練集中.偽標(biāo)簽是機器學(xué)習(xí)中一種常見的半監(jiān)督學(xué)習(xí)方法,其核心思想是使用大量無標(biāo)注的數(shù)據(jù)使模型能夠在監(jiān)督學(xué)習(xí)之外學(xué)習(xí)到一定的額外信息,當(dāng)預(yù)測的置信度超過一定的閾值(本文為50%)時,可以認(rèn)為這一偽標(biāo)簽的標(biāo)注結(jié)果正確,再與有標(biāo)注的數(shù)據(jù)相結(jié)合,以提高模型在有標(biāo)注的測試集上的表現(xiàn).將原標(biāo)簽數(shù)據(jù)和預(yù)測正確的偽標(biāo)簽數(shù)據(jù)結(jié)合起來作為新的訓(xùn)練數(shù)據(jù)集再進(jìn)行訓(xùn)練得到最終的檢測模型.
本次實驗采用AP(average precision,每一類目標(biāo)的精度均值)和mAP(mean average precision,所有類別目標(biāo)的平均精度均值)作為模型評價指標(biāo).每個模型的改進(jìn)策略如表1所示,實驗分別采用原始YOLOv5算法預(yù)訓(xùn)練權(quán)重YOLOv5s,以及改進(jìn)后的預(yù)訓(xùn)練權(quán)重YOLOv5s6在KITTI數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到原始模型A和改進(jìn)后的模型B.然后改變訓(xùn)練策略,使用偽標(biāo)簽策略以模型B為基礎(chǔ)再次進(jìn)行訓(xùn)練,得到最終訓(xùn)練模型C.最后劃分好的測試集對3個模型進(jìn)行對比測試,得到它們的評價指標(biāo)和推理速度.為了驗證改進(jìn)YOLOv5算法損失函數(shù)的有效性,額外增加一組訓(xùn)練模型A1,該模型與原始模型相同,僅將損失函數(shù)的box部分替換為CIOU_Loss.
表1 每個模型的改進(jìn)策略Table 1 Improvement strategies for each model
每次模型訓(xùn)練均采用SGD優(yōu)化器,其余參數(shù)如下:圖像batchsize(每批次訓(xùn)練量)為32張;迭代次數(shù)為400;動量因子為0.937;權(quán)重衰減系數(shù)為0.001.采用余弦退火策略動態(tài)調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率為0.1,IOU閾值設(shè)為0.5.
本次實驗的A,B,C三個模型訓(xùn)練過程的損失函數(shù)和mAP變化曲線如圖4所示.
訓(xùn)練過程顯示,迭代次數(shù)為400時,3個模型的訓(xùn)練集和驗證集損失函數(shù)均達(dá)到最低,mAP達(dá)到最高且在一段連續(xù)過程中都不再有太大變化,可以視為完成了收斂.對訓(xùn)練后的模型測試每一類的檢測精度均值A(chǔ)P和所有類的平均精度均值mAP,結(jié)果如表2所示.
圖4 模型訓(xùn)練過程中mAP和損失函數(shù)的變化
表2的結(jié)果說明,在本文劃分的KITTI交通目標(biāo)測試集上,改進(jìn)后YOLOv5模型B對比原始YOLOv5模型A的mAP提升了2.5%,在模型C采用偽標(biāo)簽訓(xùn)練策略后又提升了0.5%,兩次共計提升3%.對行人和騎車人這兩類較小的目標(biāo),檢測精度的總提升分別達(dá)到了5.4%和3.5%,本文訓(xùn)練的YOLOv5檢測模型在交通目標(biāo)的檢測上做到了平均精度和小目標(biāo)檢測精度的提升,證明算法和訓(xùn)練策略的改進(jìn)是成功的.而YOLOv5算法本身對車輛等中大型目標(biāo)檢測效果較好,原始模型已經(jīng)取得不錯的檢測效果,3個訓(xùn)練模型對車輛的檢測精度大體相當(dāng)?shù)慕Y(jié)果是可以接受的.改進(jìn)損失函數(shù)的模型A1的mAP和行人、騎車人的檢測精度等指標(biāo)也比原始模型有所提升,說明算法網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)的改進(jìn)都能使檢測效果得到增益.
表2 模型測試結(jié)果對比Table 2 Comparison of model test results
本文的目標(biāo)檢測算法與其他經(jīng)典的目標(biāo)檢測算法在KITTI數(shù)據(jù)集上的對比結(jié)果如表3所示,實驗結(jié)果表明,相比Faster R-CNN,SSD和YOLOv3系列算法,本文采用的改進(jìn)YOLOv5算法檢測精度達(dá)到了一個更高的水平.
表3 改進(jìn)YOLOv5與其他算法的測試結(jié)果對比Table 3 Comparison of test results between improved YOLOv5 and other algorithms
圖5a顯示模型在光照強度反差較大場景的檢測結(jié)果,圖中亮部的目標(biāo)較小的車輛和騎車人,暗部的車輛都能被模型識別和定位.圖5b是光照較弱的遮擋場景,模型檢測出了互相遮擋的車輛、騎車人和被車輛遮擋的行人等目標(biāo),對于此類目標(biāo)較多的場景沒有發(fā)生漏檢和誤檢.圖5c存在被圖像邊緣遮擋的行人和車輛,還有互相遮擋的行人和騎車人,行人和騎車人目標(biāo)特征有相似之處,模型能將它們準(zhǔn)確定位且互相區(qū)分體現(xiàn)了其良好的檢測性能,僅僅漏檢遠(yuǎn)處1個極小的車輛目標(biāo).
從以上結(jié)果可以看出,經(jīng)過改進(jìn)的YOLOv5模型實際檢測圖像時不容易受不良條件影響,具有較好的魯棒性.但是,僅僅訓(xùn)練出精準(zhǔn)的模型是不夠的,還需要將其移植到實際應(yīng)用的嵌入式平臺并且做到實時檢測,方能體現(xiàn)出它的實用性.
圖5 不同條件下的檢測結(jié)果
訓(xùn)練模型的嵌入式設(shè)備采用NVIDIA Jetson Nano,相較于其他同類設(shè)備,其價格優(yōu)勢明顯,并且體積更小,設(shè)備的布置更為便利.它配備了四核Cortex-A57 CPU、128核Maxwell GPU和4GB內(nèi)存,使用集成CUDA、OpenCV、TensorRT等環(huán)境的NVIDIA JetPack開發(fā)組件,支持TensorFlow和Pytorch等常見的人工智能框架,支持CSI、USB等攝像頭圖像輸入.本次模型部署采用10 W高性能運行模式.設(shè)備實物圖如圖6所示.
TensorRT是 NVIDIA 公司推出的推理加速引擎,內(nèi)部使用CUDA和C語言進(jìn)行編程,適合應(yīng)用于駕駛輔助等推理速度比較重要的目標(biāo)檢測場景.
圖6 Jetson Nano實物圖
TensorRT通過GPU對網(wǎng)絡(luò)層進(jìn)行水平和垂直整合來達(dá)到優(yōu)化和加速的效果,優(yōu)化過程沒有改變模型參數(shù)量和網(wǎng)絡(luò)底層的計算,只需要對計算圖進(jìn)行重構(gòu),就可以讓模型高效運行.例如本文圖1和圖2的YOLOv5網(wǎng)絡(luò)包含大量的卷積模塊和張量合并,TensorRT可以將前者的卷積、BN正規(guī)化和激活三個步驟一次性融合完成計算,而張量合并的Concat層輸入可以直接進(jìn)入網(wǎng)絡(luò)下一層,不再單獨進(jìn)行合并計算,減少了計算步驟和數(shù)據(jù)傳輸?shù)臅r間.TensorRT的過程首先把Pytorch框架下訓(xùn)練的交通目標(biāo)檢測模型的.pt權(quán)重文件轉(zhuǎn)化為.wts中間文件,再使用.wts文件構(gòu)建用于推理的引擎(.engine)文件,使用推理引擎推理即可獲得加速.
本文從KITTI的原始數(shù)據(jù)集中選擇了100張未經(jīng)標(biāo)注的連續(xù)圖像進(jìn)行復(fù)雜交通場景模型推理測試,在Jetson Nano平臺模擬從攝像頭逐幀讀取需要檢測的視頻,結(jié)果如表4所示.
從表4可以看出,原始YOLOv5網(wǎng)絡(luò)的模型A平均每張圖像推理時間為163 ms,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)的模型B和C這一推理時間為195 ms,二者的推理速度相當(dāng)于5~6幀/s,速度較慢.經(jīng)過TensorRT加速,3個模型每張圖像的推理時間在73 ms到83 ms不等,平均每張圖像推理時間均為77 ms,約合13幀/s,圖像推理速度大幅提高,能夠滿足檢測實時性要求.另外,網(wǎng)絡(luò)改進(jìn)后的模型加速效果更明顯,推理速度與體積更小的原始網(wǎng)絡(luò)模型A相當(dāng),此前未經(jīng)加速時推理速度會因為改進(jìn)模型而下降的問題得到了解決.圖7以圖5a為例展示了原模型和改進(jìn)后的模型經(jīng)過推理加速后檢測的畫面效果,TensorRT加速使得目標(biāo)種類的編號取代了名稱和置信度,編號0,1,2分別代表Pedestrian,Cyclist和Car,畫面更為簡潔.二者推理生成的檢測框幾乎沒有差異,不會造成檢測精度損失.由此,本文在嵌入式平臺仿真實現(xiàn)了實時的復(fù)雜場景交通目標(biāo)檢測,YOLOv5模型出色的檢測能力也得到驗證.
表4 TensorRT加速前后推理時間對比Table 4 Comparison of inference time before and after TensorRT acceleration ms
圖7 TensorRT加速后模型的檢測效果
為了實現(xiàn)復(fù)雜場景下的交通目標(biāo)實時檢測,本文提出一種基于改進(jìn)YOLOv5的交通目標(biāo)檢測算法,采用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和更精確的損失函數(shù),對訓(xùn)練過程采用偽標(biāo)簽的形式進(jìn)行優(yōu)化.在KITTI數(shù)據(jù)集上的訓(xùn)練和測試結(jié)果表明,經(jīng)過本文方法改進(jìn)的訓(xùn)練模型檢測性能指標(biāo)優(yōu)于原始YOLOv5訓(xùn)練的模型,用于實際的交通目標(biāo)檢測任務(wù)中效果較好.鑒于將模型移植到Jetson Nano嵌入式平臺后推理速度較慢,本文使用TensorRT對模型推理進(jìn)行加速,不僅實現(xiàn)了復(fù)雜場景交通目標(biāo)檢測,檢測速度也能滿足實時性要求.后續(xù)工作可以嘗試將攝像頭與嵌入式平臺連接并在真實交通環(huán)境下實時采集并處理圖像或視頻數(shù)據(jù),以驗證模型的泛化能力,還可以對寬度和深度更高的YOLOv5網(wǎng)絡(luò)進(jìn)行輕量化處理,將得到的模型與現(xiàn)有的YOLOv5s系列模型進(jìn)行對比,發(fā)掘檢測效果和速度更好的方案.