李虹 紀(jì)任鑫 陳軍鵬 耿榮妹 蔡驍 張艷迪
摘? 要:該文提出一種基于改進(jìn)YOLOv5s的森林煙火檢測(cè)算法,通過(guò)引入GSConv輕量化卷積和消除網(wǎng)格敏感度的策略,在原始YOLOv5s模型的基礎(chǔ)上優(yōu)化。在煙火數(shù)據(jù)集上進(jìn)行廣泛的實(shí)驗(yàn),同時(shí)將改進(jìn)的算法部署到無(wú)人機(jī)上進(jìn)行真機(jī)測(cè)試。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)改進(jìn)的模型在森林煙火檢測(cè)任務(wù)中取得顯著的性能提升。模型的平均精度達(dá)到90.65%,且檢測(cè)耗時(shí)僅為4.1 ms,滿(mǎn)足煙火檢測(cè)的高精度和實(shí)時(shí)性要求。這一研究為森林煙火檢測(cè)算法的實(shí)際應(yīng)用提供有力支持,具有重要的實(shí)際意義和應(yīng)用價(jià)值。
關(guān)鍵詞:森林煙火檢測(cè);YOLOv5s;GSConv輕量化卷積;消除網(wǎng)格敏感度;實(shí)時(shí)性
中圖分類(lèi)號(hào):S762.32? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ? 文章編號(hào):2095-2945(2024)05-0007-05
Abstract: This paper proposes an improved forest fire detection algorithm based on YOLOv5s. The algorithm enhances the original YOLOv5s model by introducing the GSConv lightweight convolution and a strategy to eliminate grid sensitivity. Extensive experiments are conducted on a forest fire dataset, and the proposed algorithm is successfully deployed on a drone for real-world testing. The experimental results demonstrate significant performance improvements achieved by the enhanced model in forest fire detection. The average accuracy of the model is 90.65%, and the detection time is only 4.1 ms, which meets the high precision and real-time requirements of pyrotechnic detection. This study provides a strong support for the practical application of forest fire detection algorithm, and has important practical significance and application value.
Keywords: forest fire detection; YOLOv5s; GSConv lightweight convolution; elimination of grid sensitivity; real-time
隨著溫室效應(yīng)的增強(qiáng),全球氣候進(jìn)一步變暖,世界范圍內(nèi)年平均降雨量減少,森林中的枯枝敗葉增多,進(jìn)而導(dǎo)致森林火災(zāi)頻發(fā)。森林火災(zāi)具有燃燒時(shí)間長(zhǎng)、難以控制的特點(diǎn),這會(huì)嚴(yán)重破壞林木資源、毀滅動(dòng)植物、嚴(yán)重危及人民群眾的生命財(cái)產(chǎn)安全,給人們帶來(lái)難以估計(jì)的損失[1]。據(jù)統(tǒng)計(jì),我國(guó)自1950年開(kāi)始,全國(guó)年均森林火災(zāi)案例超過(guò)13 000起,由森林火災(zāi)造成的傷亡人數(shù)達(dá)到580 人之多,超過(guò)653 000 hm2的林地面積被破壞[2]。
傳統(tǒng)的火災(zāi)預(yù)防方法有紅外探測(cè)器檢測(cè)、衛(wèi)星遙感等方式,這些方法對(duì)于森林火災(zāi)的檢測(cè)都有明顯的不足?;诩t外探測(cè)器的檢測(cè)距離過(guò)短,易受環(huán)境干擾,并不適合用來(lái)檢測(cè)森林火災(zāi)。衛(wèi)星遙感雖能在檢測(cè)范圍上達(dá)到最大化,但檢測(cè)性能主要偏向于大面積森林火災(zāi),火災(zāi)早期因面積較小不易被衛(wèi)星遙感探測(cè),不能及早提醒消防人員撲火,因此容易延誤火災(zāi)撲滅的最佳時(shí)機(jī)。
隨著深度學(xué)習(xí)和圖像處理技術(shù)的快速發(fā)展,為森林火災(zāi)識(shí)別提供了新的手段,可以及時(shí)發(fā)現(xiàn)并撲滅森林火災(zāi)。無(wú)人機(jī)搭載深度學(xué)習(xí)平臺(tái),巡檢過(guò)程中快速準(zhǔn)確識(shí)別出煙火等目標(biāo),為人們提供最佳的撲滅森林火災(zāi)的時(shí)機(jī)。
1? YOLOv5算法介紹
YOLO[3-4]系列算法,因其高準(zhǔn)確率和實(shí)時(shí)性而在學(xué)術(shù)界和工業(yè)界廣受歡迎。最新發(fā)布的YOLOv5提供了4種網(wǎng)絡(luò)模型:YOLOv5x、YOLOv5l、YOLOv5m和YOLOv5s。雖然這些模型在結(jié)構(gòu)上相同,但區(qū)別在于網(wǎng)絡(luò)深度和權(quán)重。其中,YOLOv5s是最輕量級(jí)的模型,擁有最小的網(wǎng)絡(luò)寬度和深度,以及最快的檢測(cè)推理速度。
考慮到實(shí)際應(yīng)用的需求,本文選擇了YOLOv5s作為改進(jìn)模型。如圖1所示,該模型的網(wǎng)絡(luò)結(jié)構(gòu)分為3部分:骨干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和檢測(cè)頭。骨干網(wǎng)絡(luò)采用了CSPDarknet架構(gòu),這是一種高效的特征提取模塊。它通過(guò)疊加多個(gè)BottleneckCSP模塊和SPP(Spatial Pyramid Pooling Fast,空間金字塔池化)模塊,有效地捕獲不同尺度和層次的特征信息,從而提升模型的感知范圍和檢測(cè)能力。頸部網(wǎng)絡(luò)位于骨干網(wǎng)絡(luò)和檢測(cè)頭之間,其作用是進(jìn)一步整合和加工骨干網(wǎng)絡(luò)提取的特征。在YOLOv5s中,頸部網(wǎng)絡(luò)采用FPN+PAN結(jié)構(gòu),通過(guò)卷積和上采樣操作,實(shí)現(xiàn)了不同分辨率特征的融合,從而使模型在多尺度上都能夠有效地捕捉目標(biāo)信息。檢測(cè)頭是模型的最后一部分,它使用頸部網(wǎng)絡(luò)融合得到的特征進(jìn)行目標(biāo)檢測(cè)預(yù)測(cè)。在YOLOv5s中,檢測(cè)頭負(fù)責(zé)生成候選目標(biāo)框,對(duì)目標(biāo)進(jìn)行分類(lèi)和位置回歸,從而實(shí)現(xiàn)了目標(biāo)檢測(cè)任務(wù)。
2? 模型的改進(jìn)
2.1? GSConv輕量化卷積
深度學(xué)習(xí)模型的非線(xiàn)性表達(dá)能力與卷積網(wǎng)絡(luò)的復(fù)雜度之間存在一定的正相關(guān)性。然而,復(fù)雜模型通常需要大量的計(jì)算資源。因此,在有限的成本內(nèi)構(gòu)建強(qiáng)大模型不應(yīng)簡(jiǎn)單地依賴(lài)于無(wú)限增加模型參數(shù)的數(shù)量。Howard等[5]提出了輕量化網(wǎng)絡(luò),該網(wǎng)絡(luò)在計(jì)算資源有限的環(huán)境中表現(xiàn)出色,能夠以更少的計(jì)算資源實(shí)現(xiàn)高效推理,從而滿(mǎn)足實(shí)時(shí)性能需求。受到Howard等的啟發(fā)后,許多輕量化模型采用深度可分離卷積來(lái)代替普通卷積。然而,深度可分離卷積在特征提取過(guò)程中將輸入圖像的通道信息分離,從而破壞了通道之間的信息融合,導(dǎo)致模型的檢測(cè)精度降低。Zhang等[6]提出的ShuffleNet 引入了“channel shuffle” 操作,通過(guò)在通道維度上進(jìn)行信息混洗,以增強(qiáng)通道之間的交互性,從而提高特征表示能力。盡管該方法改進(jìn)了深度可分離卷積以實(shí)現(xiàn)通道信息交互,但其檢測(cè)精度仍無(wú)法達(dá)到普通卷積的水平。
為了在提高檢測(cè)速度的同時(shí)不降低檢測(cè)精度,本文引入了一種新的方法[7],即結(jié)合了普通卷積、深度可分離卷積和“channel shuffle” 操作的混合卷積,稱(chēng)為GSConv。如圖2所示,首先通過(guò)普通卷積生成高維特征,然后使用深度可分離卷積將高維特征進(jìn)行轉(zhuǎn)換,把普通卷積生成的特征完全混合到深度分離卷積中。接著將這2個(gè)特征進(jìn)行拼接,并通過(guò)“channel shuffle” 操作,將不同組的特征圖混洗在一起,以增強(qiáng)不同組之間的信息交互。這種設(shè)計(jì)有效地減少了計(jì)算量和參數(shù)數(shù)量。
在對(duì)YOLOv5s模型的改進(jìn)中,保留了骨干特征提取網(wǎng)絡(luò)中的普通卷積,把頸部(Neck)普通卷積層使用GSConv替換,如圖3所示。實(shí)驗(yàn)結(jié)果表明,GSConv和普通卷積在精度上基本保持一致。普通卷積在計(jì)算過(guò)程中最大程度地保留了通道之間隱藏的信息,從而保留了語(yǔ)義信息,然而深度可分離卷積會(huì)破壞這種聯(lián)系。本文采用的GSConv通過(guò)混合普通卷積和深度可分離卷積的特征,恢復(fù)了通道之間的信息交互。需要注意的是,GSConv并沒(méi)有替YOLOv5s模型中的所有普通卷積層。這一決策是出于對(duì)骨干網(wǎng)絡(luò)的考慮,骨干網(wǎng)絡(luò)負(fù)責(zé)對(duì)輸入圖像的尺寸進(jìn)行壓縮和通道擴(kuò)展,輸出的高通道的低分辨率特征包含了豐富的語(yǔ)義信息和多級(jí)感受野。如果在模型的所有階段都使用GSConv,模型的網(wǎng)絡(luò)層將變得更加深,網(wǎng)絡(luò)訓(xùn)練可能會(huì)出現(xiàn)不收斂的和梯度爆炸。實(shí)驗(yàn)表明,這一改進(jìn)的網(wǎng)絡(luò)模型在保持YOLOv5s的檢測(cè)精度的同時(shí),通過(guò)輕量化設(shè)計(jì),加快了推理速度。
2.2? 消除網(wǎng)格敏感度
在目標(biāo)檢測(cè)中,預(yù)測(cè)的目標(biāo)邊界框會(huì)在不同的網(wǎng)格中滑動(dòng),輸出相應(yīng)的錨框值。如圖4所示,在卷積過(guò)程中,當(dāng)滑動(dòng)到中心網(wǎng)格位置時(shí),將相對(duì)于網(wǎng)格左上角的偏移量tx和ty的值傳遞給Sigmoid函數(shù)。這一步將偏移量的值限制在0到1之間,然后加上網(wǎng)格的尺寸,從而得到了預(yù)測(cè)邊界框的中心坐標(biāo)。當(dāng)預(yù)測(cè)的中心點(diǎn)非常接近邊界值時(shí),例如在中心網(wǎng)格的左上角和右下角,Sigmoid函數(shù)的值需要趨近于0或無(wú)窮大,而網(wǎng)絡(luò)很難穩(wěn)定地達(dá)到這種極端值。
為了解決這個(gè)問(wèn)題,在YOLOv5中引入了一個(gè)新的scale參數(shù),用于調(diào)整Sigmoid函數(shù)的輸出。如式(1)所示,bx,y是預(yù)測(cè)框的中心坐標(biāo),scale是一個(gè)尺度參數(shù),tx,y是偏移量坐標(biāo),δ是Sigmoid函數(shù),cx,y是距離左上角網(wǎng)格的坐標(biāo)。通過(guò)增加tx,y區(qū)域的斜率擴(kuò)大了可取值范圍。隨著尺度參數(shù)的增加,發(fā)現(xiàn)了一個(gè)新問(wèn)題:在tx,y附近的區(qū)域,斜率也隨之增加,如圖5(a)所示。式(2)中b′x,y是bx,y的導(dǎo)數(shù),當(dāng)tx,y為0時(shí),斜率達(dá)到最大值,最大斜率與比例值有關(guān)。因此,為了消除柵格敏感性,增加比例值會(huì)導(dǎo)致在tx,y附近出現(xiàn)非常大的斜率。而接近0的輸入值tx,y會(huì)導(dǎo)致網(wǎng)絡(luò)的不穩(wěn)定性。
為了克服這些問(wèn)題,受Huang等[8]的啟發(fā)對(duì)先前的方法進(jìn)行了改進(jìn),將tx,y乘以一個(gè)參數(shù)α/scale,如式(3)所示,其中α代表一個(gè)固定的斜率值。當(dāng)將消除網(wǎng)格敏感性的方法(在YOLOv4中使用)作為基準(zhǔn)時(shí),將參數(shù)α設(shè)置為2。而在不消除網(wǎng)格敏感性的情況下(類(lèi)似于YOLOv3的方法),參數(shù)α被設(shè)定為1。通過(guò)對(duì)式(3)進(jìn)行導(dǎo)數(shù)分析(如式(4)所示),可以觀察到當(dāng)tx,y為0時(shí),斜率與α相關(guān)。在這種方法中,使用固定值α,而不是可變的尺度值。因此,通過(guò)這種方式消除網(wǎng)格敏感性時(shí),曲線(xiàn)的斜率保持不變,如圖5(b)所示。實(shí)驗(yàn)中將參數(shù)α設(shè)定為2。
3實(shí)驗(yàn)結(jié)果與分析
3.1數(shù)據(jù)集
本文所使用的數(shù)據(jù)集來(lái)源于實(shí)際的應(yīng)用場(chǎng)景,利用標(biāo)注工具對(duì)1 400張圖片進(jìn)行標(biāo)注,包含4類(lèi):火、煙、水源以及建筑物。為了增強(qiáng)網(wǎng)絡(luò)模型的泛化能力和魯棒性,對(duì)1 400張圖做數(shù)據(jù)增強(qiáng)處理,包括隨機(jī)裁剪、顏色變換、仿射變換。并將數(shù)據(jù)集按照訓(xùn)練集、測(cè)試集、驗(yàn)證集以 8∶1∶1 的比例進(jìn)行劃分。
3.2評(píng)價(jià)指標(biāo)
為了全面評(píng)估模型的性能,采用多種不同的評(píng)價(jià)指標(biāo)進(jìn)行衡量和量化。式(5)代表精確率,精確率越高代表檢測(cè)正確的目標(biāo)數(shù)量占所有檢測(cè)目標(biāo)數(shù)量的比例越高。式(6)代表召回率,召回率較高時(shí),模型能夠找到大部分真實(shí)目標(biāo),但可能會(huì)有一些誤檢測(cè)。式(7)、(8)分別代表平均精確率和平均精確率的平均值,用于評(píng)估模型在不同閾值下的性能。
上述4式中,TP表示預(yù)測(cè)為正樣本的正樣本數(shù)量,F(xiàn)P表示預(yù)測(cè)為負(fù)樣本的正樣本數(shù)量,F(xiàn)N表示預(yù)測(cè)為正樣本的負(fù)樣本數(shù)量,m表示標(biāo)簽的類(lèi)別數(shù)。
參數(shù)量是指模型中所有可學(xué)習(xí)參數(shù)的總數(shù)量。計(jì)算量是指模型在推理或訓(xùn)練過(guò)程中需要執(zhí)行的總計(jì)算操作的數(shù)量,計(jì)算量可以用來(lái)衡量模型的復(fù)雜度和計(jì)算資源的要求,影響著模型的速度和效率。通常情況下,較高的計(jì)算量會(huì)導(dǎo)致更長(zhǎng)的推理或訓(xùn)練時(shí)間。速度是指處理單幀圖像的時(shí)間。
3.3? 輕量化和消融實(shí)驗(yàn)結(jié)果
3.3.1? 輕量化實(shí)驗(yàn)結(jié)果
為了在輕量化模型的同時(shí)保持檢測(cè)精度并提升推理速度,把原始YOLOv5s頸部普通卷積替換為GSConv層,并在計(jì)算目標(biāo)預(yù)測(cè)框時(shí),并在目標(biāo)預(yù)測(cè)過(guò)程中引入了參數(shù)以消除網(wǎng)格敏感度。實(shí)驗(yàn)結(jié)果見(jiàn)表1,改進(jìn)的模型在精度方面提升了3.09個(gè)百分點(diǎn),召回率也提高了2.13個(gè)百分點(diǎn),這表明在目標(biāo)識(shí)別方面,模型不僅減少了誤判,還增強(qiáng)了目標(biāo)的檢測(cè)能力。另外,AP-50 值相對(duì)于原始 YOLOv5s 提高了3.25個(gè)百分點(diǎn),參數(shù)量減少了0.8 MB,計(jì)算量減少了5.7 G,推理速度提高了2.1 ms,實(shí)驗(yàn)結(jié)果證明了所采用的改進(jìn)模型和策略在煙火檢測(cè)方面的有效性。
3.3.2? 消融實(shí)驗(yàn)
為了驗(yàn)證各改進(jìn)模塊的有效性,本文共進(jìn)行了4組消融實(shí)驗(yàn),選取訓(xùn)練最優(yōu)的訓(xùn)練權(quán)重在驗(yàn)證集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表2。 其中“√”表示加入該模塊,“×”表示沒(méi)有加入該模塊,由表2可知,使用GSConv后,參數(shù)量下降,推理速度也提高了2.2 ms,說(shuō)明該模塊比原來(lái)模型更加輕量化;引入消除網(wǎng)格策略后,雖然檢測(cè)速度的提升幅度不大,但模型的精確率卻增加了2.58個(gè)百分點(diǎn),有效提升了模型的精確性。
3.3.3? 檢測(cè)效果與分析
模型可視化如圖6所示,通過(guò)對(duì)比可見(jiàn),原始的YOLOv5在某些情況下存在煙霧目標(biāo)的漏檢現(xiàn)象,而經(jīng)過(guò)改進(jìn)的模型則能夠準(zhǔn)確地檢測(cè)出圖像中所有的煙霧目標(biāo),徹底解決了漏檢的問(wèn)題。此外,不僅在漏檢方面有所改善,改進(jìn)的模型在目標(biāo)定位和分類(lèi)方面也表現(xiàn)出更高的準(zhǔn)確性,從而在整體得分上取得了顯著提升,進(jìn)一步驗(yàn)證了模型的優(yōu)越性能。改進(jìn)的輕量化模型并沒(méi)有犧牲準(zhǔn)確性來(lái)?yè)Q取推理速度的提升。在實(shí)際應(yīng)用中,經(jīng)過(guò)TensorRT部署后,該改進(jìn)模型在Windows平臺(tái)上的推理速度達(dá)到了1 ms,這意味著模型能夠在實(shí)時(shí)應(yīng)用場(chǎng)景中快速地進(jìn)行目標(biāo)檢測(cè)和識(shí)別,為實(shí)際應(yīng)用提供了高效的解決方案。
4? 結(jié)論
本文在深入研究目標(biāo)檢測(cè)領(lǐng)域的基礎(chǔ)上,提出了一種針對(duì)森林煙火檢測(cè)的改進(jìn)算法。通過(guò)對(duì)YOLOv5s模型進(jìn)行GSConv輕量化卷積的改進(jìn)以及消除網(wǎng)格敏感度的優(yōu)化,成功地提升了模型的檢測(cè)性能和推理速度。實(shí)驗(yàn)結(jié)果表明,所提出的算法在煙火檢測(cè)任務(wù)中表現(xiàn)出優(yōu)越的性能,取得了顯著的平均精度和實(shí)時(shí)性。將算法應(yīng)用于無(wú)人機(jī)實(shí)際場(chǎng)景中的真機(jī)測(cè)試進(jìn)一步驗(yàn)證了其有效性和可行性。該研究不僅在理論上提出了創(chuàng)新性的解決方案,還在實(shí)際應(yīng)用中取得了實(shí)質(zhì)性的成果。未來(lái),將繼續(xù)深入研究目標(biāo)檢測(cè)領(lǐng)域,進(jìn)一步拓展算法的適用范圍,為森林火災(zāi)的預(yù)防和控制提供更加可靠和高效的技術(shù)支持。
參考文獻(xiàn):
[1] 王楚.基于改進(jìn)YOLOv5的森林火災(zāi)識(shí)別方法研究與應(yīng)用[D].重慶:重慶大學(xué),2022.
[2] 葉錦斌.基于深度學(xué)習(xí)的森林煙火檢測(cè)系統(tǒng)軟件設(shè)計(jì)與開(kāi)發(fā)[D].廣州:華南理工大學(xué),2022.
[3] 馬慶祿,魯佳萍,唐小垚,等.改進(jìn)YOLOv5s的公路隧道煙火檢測(cè)方法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2023,57(4):784-794,813.
[4] 劉洪,王元華,何健,等.YOLOv5算法在山火檢測(cè)中的應(yīng)用[J].興義民族師范學(xué)院學(xué)報(bào),2022(4):113-118.
[5] HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2019: 1314-1324.
[6] ZHANG X, ZHOU X, LIN M, et al. Shufflenet: An extremely efficient convolutional neural network for mobile devices[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6848-6856.
[7] LI H, LI J, WEI H, et al. Slim-neck by GSConv: A better design paradigm of detector architectures for autonomous vehicles[J]. arXiv preprint arXiv:2206.02424,2022.
[8] HUANG L, LI W, SHEN L, et al. High-Performance Fine Defect Detection in Artificial Leather Using Dual Feature Pool Object Detection[J]. arXiv preprint arXiv:2307.16751,2023.