魏志慧 張聰 成濘伸 陳新波 閆可
摘要:在水稻害蟲的防治中,往往會(huì)因?yàn)樘镩g背景雜亂、葉片與害蟲顏色相似、害蟲個(gè)頭較小導(dǎo)致水稻害蟲不易被察覺。針對(duì)田間水稻害蟲檢測(cè)精度不高的問題,提出一種多尺度均衡級(jí)聯(lián)檢測(cè)模型(ME-Cascade)。為更好地提取水稻害蟲這種小目標(biāo)的特征,該模型以級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)(Cascade RCNN)為基礎(chǔ),引入多尺度骨干網(wǎng)絡(luò)結(jié)構(gòu)Res2Net,實(shí)現(xiàn)單個(gè)殘差塊中構(gòu)建類似殘差的分層連接。然后在區(qū)域生成網(wǎng)絡(luò)中加入跨通道特征融合層,降低訓(xùn)練過程中背景葉片與目標(biāo)害蟲顏色相似帶來的干擾,增強(qiáng)候選區(qū)域定位的準(zhǔn)確性。并在級(jí)聯(lián)檢測(cè)器中使用樣本均衡化采樣,解決目標(biāo)害蟲與背景特征數(shù)量差異大帶來的正負(fù)樣本不均衡問題,減少小目標(biāo)的錯(cuò)檢漏檢。最后,為避免深層網(wǎng)絡(luò)在小樣本檢測(cè)中梯度爆炸和過擬合的發(fā)生,在梯度下降中使用梯度裁剪技術(shù)。將該模型用于公開發(fā)表的水稻蟲害數(shù)據(jù)集上,mAP達(dá)到了96.9%,比原始 Cascade RCNN模型提高了2.7百分點(diǎn),驗(yàn)證了該模型在真實(shí)田間的水稻害蟲上具有更好的識(shí)別效果。
關(guān)鍵詞:田間水稻害蟲;小目標(biāo)檢測(cè);多尺度骨干網(wǎng)絡(luò);跨通道特征融合;均衡采樣;梯度裁剪
中圖分類號(hào):S435.112;TP391.41文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)09-0232-09
水稻在我國糧食作物中占據(jù)重要地位,其產(chǎn)量與我國的糧食安全問題緊密相連,但它在生長過程中經(jīng)常會(huì)遇到蟲害的威脅。受各種環(huán)境影響,水稻害蟲的發(fā)生逐年加重,對(duì)水稻的產(chǎn)量和安全造成了十分嚴(yán)重的損害,蟲害防治也成為了水稻生長中的首要問題。傳統(tǒng)的除蟲方法主要是通過人工識(shí)別和誘殺,這不僅耗時(shí)耗力,還會(huì)因?yàn)檗r(nóng)藥噴灑不當(dāng)造成水稻進(jìn)一步減產(chǎn)。因此,精準(zhǔn)識(shí)別田間復(fù)雜環(huán)境下的水稻蟲害是至關(guān)重要的。只有精準(zhǔn)除殺害蟲,才能使水稻產(chǎn)量得到保障。
為解決農(nóng)作物蟲害問題,國內(nèi)外學(xué)者在蟲害檢測(cè)方面做過很多研究。早期主要圍繞著傳統(tǒng)機(jī)器學(xué)習(xí)和經(jīng)典神經(jīng)網(wǎng)絡(luò),蔣龍泉等提出一種基于多特征融合和SVM分類器的植物病蟲害檢測(cè)方法,將提取到的植物葉片的各種特征進(jìn)行融合,有效地提高了單特征訓(xùn)練對(duì)于植物病蟲害檢測(cè)的正確率[1]。Ebrahimi等將圖像處理技術(shù)與支持向量機(jī)相結(jié)合來識(shí)別溫室草莓薊馬,通過選擇合適的區(qū)域和顏色指數(shù)成功檢測(cè)到了目標(biāo)[2]。葉聰?shù)冉Y(jié)合了圖像處理算法與人工神經(jīng)網(wǎng)絡(luò)分類技術(shù),實(shí)現(xiàn)了目標(biāo)害蟲的早期檢測(cè)與分類[3]。近年來,隨著深度學(xué)習(xí)的發(fā)展,其模型在目標(biāo)檢測(cè)任務(wù)中取得了良好的效果,正逐步應(yīng)用于農(nóng)作物蟲害。郭陽等提出了基于YOLO v3的水稻蟲害圖像識(shí)別方法,有效解決了葉片遮擋目標(biāo)和相似背景等問題,驗(yàn)證了將深度學(xué)習(xí)算法引入復(fù)雜環(huán)境下水稻蟲害識(shí)別的可行性[4]。溫艷蘭等針對(duì)復(fù)雜背景下傳統(tǒng)蟲害圖像識(shí)別方法準(zhǔn)確率和效率低等問題,提出了一種基于遷移學(xué)習(xí)和改進(jìn)殘差網(wǎng)絡(luò)的蟲害圖像識(shí)別方法,有效提高了復(fù)雜環(huán)境下害蟲識(shí)別的準(zhǔn)確性[5]。姚青等通過優(yōu)化RetinaNet中的特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu)和使用組歸一化來精確識(shí)別水稻背景稻飛虱和二化螟的水稻危害狀況[6]。Li等在YOLO v5模型的基礎(chǔ)上提出了點(diǎn)線距離損失函數(shù),并在網(wǎng)絡(luò)中加入注意力模塊,在保證檢測(cè)精度的同時(shí)實(shí)現(xiàn)了檢測(cè)速度的提升[7]。
上述研究表明,雖然已有的目標(biāo)檢測(cè)算法在復(fù)雜環(huán)境下蟲害的識(shí)別上取得了一些進(jìn)展,但田間雜亂的背景和目標(biāo)體積較小等給水稻害蟲檢測(cè)帶來的干擾并沒有被解決。針對(duì)以上問題,本研究提出一種多尺度均衡級(jí)聯(lián)檢測(cè)模型(ME-Cascade),引入了Res2Net網(wǎng)絡(luò)和跨通道特征融合,并對(duì)采樣方法做了正負(fù)樣本均衡化的改進(jìn),為防止小樣本帶來的梯度爆炸和過擬合還采用了梯度裁剪操作。最后用該模型對(duì)常見的水稻害蟲稻螟蛉、水稻大螟、稻綠蝽等進(jìn)行識(shí)別,驗(yàn)證該模型的有效性。
1 材料與方法
1.1 試驗(yàn)數(shù)據(jù)集
從1.8萬張水稻蟲害圖片(由安徽省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與信息研究所提供)選取3種常見的水稻害蟲稻螟蛉(Naranga aenesscens)、水稻大螟(Sesamia inferens)、稻綠蝽(Nezara viridula)共1 800張,每種害蟲的圖片600張,經(jīng)過數(shù)據(jù)增強(qiáng)處理后擴(kuò)增到4 700張。根據(jù)COCO數(shù)據(jù)集格式對(duì)其進(jìn)行格式化,并使用LabelImg標(biāo)記圖片中害蟲的類別和坐標(biāo)信息。然后在數(shù)據(jù)集中隨機(jī)抽取80%作為訓(xùn)練集,10%作為驗(yàn)證集,剩下的作為測(cè)試集,其中訓(xùn)練集3 760張,驗(yàn)證集和測(cè)試集各470張。訓(xùn)練集完成模型參數(shù)訓(xùn)練,在驗(yàn)證集上來確定網(wǎng)絡(luò)結(jié)構(gòu)以及模型參數(shù),測(cè)試集檢驗(yàn)最終選擇性能最優(yōu)的模型,并對(duì)試驗(yàn)結(jié)果進(jìn)行對(duì)比。圖1為部分害蟲圖像示例。
1.2 傳統(tǒng)的級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)(Cascade RCNN)
級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)(Cascade RCNN)是一個(gè)多重級(jí)聯(lián)結(jié)構(gòu)的二階段目標(biāo)檢測(cè)模型,由Faster RCNN改進(jìn)而來[8-9]。其基本結(jié)構(gòu)如圖2所示,由特征提取網(wǎng)絡(luò)ResNet101、特征金字塔網(wǎng)絡(luò)(feature pyramid network,簡稱FPN)、區(qū)域生成網(wǎng)絡(luò)(region proposal network,簡稱RPN)和級(jí)聯(lián)檢測(cè)器組成[10-12]。ResNet101將特征提取后,把每一層輸出的特征圖由深至淺進(jìn)行特征融合,然后將融合后的特征圖輸入?yún)^(qū)域生成網(wǎng)絡(luò)RPN得到候選目標(biāo)區(qū)域。在檢測(cè)階段,Cascade RCNN由一組IoU不斷增加的檢測(cè)器組成,每個(gè)階段的檢測(cè)器重點(diǎn)檢測(cè) IoU 在不同范圍內(nèi)的候選框,把前一個(gè)檢測(cè)器輸出的邊框回歸B作為后一個(gè)檢測(cè)器的輸入,逐步提升IoU閾值訓(xùn)練,過濾掉一些誤檢框,得到新的分類得分C和邊框回歸B,最終得到更高質(zhì)量的預(yù)測(cè)和網(wǎng)絡(luò)訓(xùn)練效果。
雖然Cascade RCNN[HJ2mm]對(duì)小目標(biāo)的檢測(cè)精度有一定提升,但仍存在以下問題:首先,如果要更大程度上解決水稻害蟲小目標(biāo)的檢測(cè)問題,提高小目標(biāo)的檢測(cè)精度,[HJ]原有的特征提取網(wǎng)絡(luò)并不能很好地滿足這一需求,還需要進(jìn)一步擴(kuò)大感受野。其次,由于小目標(biāo)與背景占比差距大,特征數(shù)量非常少,如果按照Cascade RCNN中的正負(fù)樣本隨機(jī)采樣,很有可能會(huì)漏掉小目標(biāo)的特征,從而造成小目標(biāo)的漏檢。最后,圖片背景環(huán)境中的噪聲也是一個(gè)需要解決的問題,例如水稻葉片與害蟲顏色相似等,會(huì)使網(wǎng)絡(luò)提取到很多錯(cuò)誤特征,導(dǎo)致目標(biāo)害蟲錯(cuò)檢。所以該網(wǎng)絡(luò)仍然不能夠很好地解決水稻害蟲小目標(biāo)的錯(cuò)檢漏檢問題。
1.3 多尺度均衡級(jí)聯(lián)檢測(cè)模型(ME-Cascade)
針對(duì)原始網(wǎng)絡(luò)存在的問題,提出的ME-Cascade模型結(jié)構(gòu)如圖3所示。輸入的圖片首先通過特征提取網(wǎng)絡(luò)Res2Net101在更細(xì)粒度級(jí)別提取特征,生成多尺度特征圖[13]。經(jīng)過改進(jìn)的特征金字塔網(wǎng)絡(luò)進(jìn)行特征增強(qiáng)后,將特征圖送到區(qū)域生成網(wǎng)絡(luò)(RPN)中通過跨通道特征融合篩選出更加精確的建議區(qū)域,并映射到原圖上生成較為準(zhǔn)確的RoI(region of interesting),送入到RoI Align層中池化[14]。將其轉(zhuǎn)變?yōu)楣潭ňS度的特征后,通過全連接層進(jìn)行訓(xùn)練和回歸,利用損失函數(shù)進(jìn)行目標(biāo)物體的類別分類和回歸定位,使用多個(gè)級(jí)聯(lián)檢測(cè)器進(jìn)行正負(fù)樣本均衡化重采樣,避免正負(fù)樣本數(shù)量差異大帶來的影響,從而提高分類和回歸的精確度。最后在網(wǎng)絡(luò)中加入梯度裁剪來防止過擬合。本節(jié)將分別介紹模型中用于提取多尺度特征的Res2Net卷積神經(jīng)網(wǎng)絡(luò)、跨通道特征融合層、正負(fù)樣本均衡采樣和梯度裁剪技術(shù)。
1.3.1 Res2Net卷積神經(jīng)網(wǎng)絡(luò)
在真實(shí)的田地里,水稻害蟲相較于稻田目標(biāo)小且種類繁多。低分辨率的小目標(biāo)可視化信息少,難以提取到具有鑒別力的特征,進(jìn)而導(dǎo)致檢測(cè)模型難以精準(zhǔn)定位和識(shí)別小目標(biāo)[15]。對(duì)此本研究引入Res2Net卷積神經(jīng)網(wǎng)絡(luò),通過類殘差的連接方式對(duì)不同尺度上的顏色、形狀、紋理等特征進(jìn)行提取,并將多個(gè)尺度的特征傳入特征金字塔進(jìn)行融合,通過擴(kuò)大感受野來增強(qiáng)模型對(duì)于小目標(biāo)的感知能力。
Res2Net網(wǎng)絡(luò)是對(duì)ResNet網(wǎng)絡(luò)的改進(jìn),區(qū)別如圖4所示,其中左邊是ResNet殘差塊,右邊是Res2Net殘差塊。
Res2Net殘差塊用較小的過濾器組替換ResNet中3×3的過濾器,同時(shí)以類似分層殘差的方式連接不同的過濾器組。這種拆分混合連接的結(jié)構(gòu),相當(dāng)于在每個(gè)殘差塊內(nèi)部構(gòu)建特征金字塔結(jié)構(gòu),在特征層內(nèi)部進(jìn)行多尺度的卷積,形成不同感受野,獲得不同細(xì)粒度的特征。Res2Net模塊的詳細(xì)計(jì)算過程可以用如下的公式來表示:
式(1)中,先將經(jīng)過1×1卷積輸出后的特征圖按通道數(shù)均分為s(圖4-B中s=4)組,分別記作xi[i∈(1,2,…,s)],每組特征圖的通道數(shù)均為輸入特征圖通道數(shù)的1/s 。然后,x1組不做處理,其他組的特征圖都會(huì)經(jīng)過一個(gè)3×3的卷積層,將這個(gè)卷積操作記為Ki。每組卷積后的輸出會(huì)形成2條線路,一條繼續(xù)作為該組輸出,用yi表示,一條則傳入下一組特征圖與其相加之后再進(jìn)行Ki()操作。最后,將這s組的輸出(y1,y2,…,ys)在通道維度拼接,進(jìn)行1×1的卷積操作。Res2Net模塊更好地融合了不同規(guī)模的信息,更加有效地提取全局特征和局部特征。
1.3.2 跨通道特征融合層
判別特征對(duì)于分類和定位任務(wù)都至關(guān)重要,小目標(biāo)通常分辨率低,外觀質(zhì)量差,因此很難從其扭曲的結(jié)構(gòu)中進(jìn)行區(qū)分學(xué)習(xí)。同時(shí),小目標(biāo)的區(qū)域特征容易受到背景和其他情況的污染,如背景葉片與目標(biāo)害蟲顏色相似、標(biāo)簽噪聲(帶有正標(biāo)簽的特征可能位于背景或遮擋物上)等。RPN的本質(zhì)是基于滑窗的無類別物體檢測(cè)器,通過輸入的特征圖篩選出一系列的矩形預(yù)選框。上述的噪聲干擾會(huì)使得在訓(xùn)練過程中,生成在目標(biāo)害蟲上的預(yù)選框數(shù)量遠(yuǎn)少于生成在背景上的,導(dǎo)致水稻害蟲難以精準(zhǔn)檢測(cè)。為了提升候選區(qū)域初步定位的準(zhǔn)確性以及對(duì)前景和背景的判別能力,在RPN中加入了跨通道特征融合層,其結(jié)構(gòu)如圖5所示。
在RPN中3×3卷積層前后都加入跨通道特征融合層,通過對(duì)多通道圖像做1×1卷積,將輸入的特征圖在每個(gè)通道乘以卷積系數(shù)后加在一起,來實(shí)現(xiàn)信息的跨通道整合和交互,獲取更多的上下文信息,使得在訓(xùn)練過程中來自非目標(biāo)區(qū)域(背景或被遮擋區(qū)域)的特征和非判別行特征的貢獻(xiàn)降低,目標(biāo)區(qū)域特征增強(qiáng),小目標(biāo)水稻害蟲能夠被更好地關(guān)注到。跨通道特征融合層進(jìn)行的降維和升維操作,在保持特征圖尺寸不變(即不損失分辨率)的前提下大幅增加了非線性特性,既可以把網(wǎng)絡(luò)做得很深,也可以提升網(wǎng)絡(luò)的表達(dá)能力,還沒有增加模型參數(shù)。
1.3.3 樣本均衡采樣
根據(jù)Cascade RCNN的級(jí)聯(lián)特性可知,其思想就是在保證樣本數(shù)量不減少的情況下,通過不斷地提高閾值訓(xùn)練出效果最好的檢測(cè)器,將級(jí)聯(lián)回歸作為一種重采樣機(jī)制,不同級(jí)采用不同IoU閾值通過重新計(jì)算正負(fù)樣本和采樣策略來逐漸提高bbox質(zhì)量,使得目標(biāo)害蟲的檢測(cè)效果達(dá)到最佳。原始級(jí)聯(lián)結(jié)構(gòu)中,為了保證樣本的質(zhì)量,采用了隨機(jī)采樣的方式在每個(gè)階段進(jìn)行重采樣。但對(duì)水稻田間的小目標(biāo)害蟲檢測(cè)使用這種采樣方式,會(huì)提取到很多無用特征的樣本,導(dǎo)致訓(xùn)練效果變差[16]。背景的斑駁使得目標(biāo)害蟲的特征數(shù)量遠(yuǎn)小于背景特征的數(shù)量,由于負(fù)樣本數(shù)量較多且本身IoU的不平衡,當(dāng)采用隨機(jī)采樣后,會(huì)出現(xiàn)難負(fù)(IoU在0.5附近)和易負(fù)(IoU接近0)樣本不平衡的情況,大量容易負(fù)樣本被采樣不提供有用的學(xué)習(xí)信息,目標(biāo)害蟲的特征不能有效學(xué)習(xí),從而造成小目標(biāo)錯(cuò)檢漏檢,因此本研究提出ME-Cascade模型,通過樣本均衡采樣的方式進(jìn)行重采樣[17]。公式如下所示:
式中:K指將原有負(fù)樣本的采樣區(qū)間分成K個(gè)區(qū)間;N為總采樣的負(fù)樣本數(shù);Mk為每個(gè)區(qū)間候選抽樣的數(shù)量;pk為最終算出每個(gè)區(qū)間采樣的概率。
對(duì)負(fù)樣本按照IoU劃分k個(gè)區(qū)間,每個(gè)區(qū)間再進(jìn)行隨機(jī)采樣,保證易學(xué)習(xí)負(fù)樣本和難負(fù)樣本比例盡量平衡,避免學(xué)習(xí)到大量無用特征。該方法解決了回歸預(yù)測(cè)時(shí)正負(fù)樣本不平衡的問題,能有效提高小目標(biāo)的檢測(cè)精度。
1.3.4 梯度裁剪
ME-Cascade模型選取了Res2Net101作為特征提取網(wǎng)絡(luò),這在提高精度的同時(shí),也增加了網(wǎng)絡(luò)的深度。在深度學(xué)習(xí)中,訓(xùn)練模型時(shí)通常使用反向傳播算法來計(jì)算梯度,并使用梯度下降等優(yōu)化算法來更新模型參數(shù)。隨著網(wǎng)絡(luò)層數(shù)的增加,訓(xùn)練過程的不穩(wěn)定性增大,會(huì)出現(xiàn)梯度爆炸和過擬合的問題。
本研究使用梯度裁剪技術(shù)來解決這一問題。梯度裁剪與其他正則化方法不同,它不是通過對(duì)模型參數(shù)進(jìn)行限制來達(dá)到正則化的效果,而是通過限制梯度大小來達(dá)到正則化的效果。在反向傳播過程中,如果梯度的范數(shù)超過了一個(gè)預(yù)先設(shè)定的閾值,就將梯度裁剪到這個(gè)閾值之內(nèi)。這樣可以保證梯度的大小不會(huì)過大,避免了模型的梯度爆炸和過擬合問題,從而提高模型的穩(wěn)定性和泛化能力。梯度裁剪過程可以用如下公式來描述:
式中:g為梯度向量;‖g‖為裁剪后梯度的L2范數(shù);θ為設(shè)定裁剪的閾值。
從上述公式可以看出,梯度裁剪就是當(dāng)梯度太大時(shí)強(qiáng)行把梯度縮?。ㄍㄟ^乘以一個(gè)小于1的數(shù),即(θ[]‖g‖)),當(dāng)梯度不是很大時(shí),保持原樣g,從而達(dá)到限制梯度大小的目的。
2 結(jié)果與分析
2.1 評(píng)價(jià)指標(biāo)
選取目標(biāo)檢測(cè)中常用的評(píng)估指標(biāo)對(duì)模型進(jìn)行評(píng)估,包含各類水稻蟲害的損失值、平均精準(zhǔn)度(average precision,簡稱AP)、平均精度均值(mean average precision,簡稱mAP) 、精度-召回曲線(precision-recall曲線)、檢測(cè)速度(frames per second,簡稱FPS)和模型復(fù)雜度(floating-point operations per second,簡稱FLOPs)[18]。
精確率是指正確預(yù)測(cè)正樣本的數(shù)量與所有預(yù)測(cè)框數(shù)量的比值,其計(jì)算公式可以表示為
召回率是指正確預(yù)測(cè)正樣本的數(shù)量與所有實(shí)際正樣本數(shù)量的比值,其計(jì)算公式可表示為
式中:TP為正確檢測(cè)到水稻害蟲的數(shù)量;FP為檢測(cè)為水稻害蟲實(shí)則為背景的數(shù)量;FN為檢測(cè)為背景實(shí)則為水稻害蟲的數(shù)量;TN為正確檢測(cè)為背景的數(shù)量。其中TP+FP=所有預(yù)測(cè)框的數(shù)量。
平均精準(zhǔn)度(AP)是由召回率(Recall)為橫坐標(biāo),精準(zhǔn)率(Precision)為縱坐標(biāo)所繪的某一個(gè)類別的P-R曲線下的面積而計(jì)算得成,封閉面積越大,模型的性能越好。其計(jì)算公式如下:
mAP是目標(biāo)檢測(cè)的主要評(píng)價(jià)指標(biāo),用來評(píng)估多類別對(duì)象檢測(cè)模型,是通過將所有類別的AP值相加并取平均值而獲得的,mAP越大則模型的檢測(cè)精度越高。計(jì)算公式表示如下:
其中,S是類的數(shù)量。
除了這些表示準(zhǔn)確率的指標(biāo)之外,評(píng)估模型的檢測(cè)速度指標(biāo)幀率(FPS)用于表示在對(duì)象檢測(cè)中模型每秒可以處理的圖片數(shù)量。FPS值越大,模型的檢測(cè)速度就越快。計(jì)算公式如下:
其中,T是檢測(cè)圖片所需的時(shí)間。
參數(shù)量(Params)是指深度學(xué)習(xí)模型中所有可學(xué)習(xí)權(quán)重和偏置參數(shù)的總數(shù)。這些參數(shù)包括但不限于卷積層的卷積核權(quán)重、全連接層的權(quán)重矩陣以及所有層的偏置項(xiàng)。參數(shù)量是衡量模型復(fù)雜度和模型大小的一個(gè)直接指標(biāo),反映了模型的容量和對(duì)數(shù)據(jù)擬合的潛在能力。
復(fù)雜度是指計(jì)算量,通常以浮點(diǎn)運(yùn)算次數(shù)FLOPs為單位,衡量的是模型進(jìn)行一次前向傳播或反向傳播時(shí)所需的理論浮點(diǎn)運(yùn)算次數(shù),代表了模型在推理或訓(xùn)練時(shí)的時(shí)間復(fù)雜度,是評(píng)估模型運(yùn)行效率和硬件需求的重要依據(jù)。為了進(jìn)一步表達(dá)大規(guī)模的運(yùn)算量,可能會(huì)使用更大的單位來表示復(fù)雜度,如MFLOPs(百萬次浮點(diǎn)運(yùn)算)、GFLOPs(十億次浮點(diǎn)運(yùn)算)、TFLOPs(萬億次浮點(diǎn)運(yùn)算)、PFLOPs(千萬億次浮點(diǎn)運(yùn)算)等。
2.2 試驗(yàn)環(huán)境與試驗(yàn)設(shè)置
本試驗(yàn)使用Pytorch 1.12.1框架,Linux操作系統(tǒng),python 3.8版本,處理器為4.7 GHz的AMD R7-6800H,GPU為NVIDIA GeForce RTX 2080Ti。
試驗(yàn)過程中,通過遷移學(xué)習(xí)使用ImageNet模型的預(yù)訓(xùn)練權(quán)重以達(dá)到更好的訓(xùn)練效果[19]。將批量大小(batch size)設(shè)置為8,為降低batch size過小帶來的影響,使用批量歸一化(batch normalization,簡稱BN)來加快模型的收斂速度[20]。迭代次數(shù)(epoch)設(shè)置為60次,分類損失函數(shù)采用交叉熵?fù)p失函數(shù),參數(shù)優(yōu)化器采用隨機(jī)梯度下降優(yōu)化算法(stochastic gradient descent,簡稱SGD),動(dòng)量參數(shù)設(shè)置為0.9[21]。采用動(dòng)態(tài)更新學(xué)習(xí)率的訓(xùn)練策略,初始學(xué)習(xí)率設(shè)置為0.001,并在迭代的第17、20次將學(xué)習(xí)率降低90%。此次試驗(yàn)于2023年5月6日在武漢輕工大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院東八402實(shí)驗(yàn)室完成。
2.3 試驗(yàn)結(jié)果與分析
為驗(yàn)證本研究提出的模型的有效性,本節(jié)使用“1.1”節(jié)中的數(shù)據(jù)集進(jìn)行比較試驗(yàn)。首先,將數(shù)據(jù)集按8 ∶1 ∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;其次,使用經(jīng)過訓(xùn)練的模型來測(cè)試測(cè)試集。最后,使用“2.1”節(jié)中的評(píng)估指標(biāo)來驗(yàn)證提出的模型。
2.3.1 損失分析
損失值是衡量模型訓(xùn)練好壞的重要指標(biāo),損失值越低代表著預(yù)測(cè)框與真實(shí)框之間的差距越小,目標(biāo)檢測(cè)效果越好。圖6顯示了Cascade RCNN和ME-Cascade在訓(xùn)練過程中的損失變化圖,其中橫坐標(biāo)是迭代次數(shù),縱坐標(biāo)是損失值。從圖中可以看出,迭代4 000次后,損失明顯減少。這是因?yàn)楸狙芯渴褂玫乳g隔學(xué)習(xí)率調(diào)整方法,32 000 次迭代對(duì)應(yīng)于第1次學(xué)習(xí)率調(diào)整(即第17次epoch),這顯示了引入等間隔學(xué)習(xí)率來訓(xùn)練模型的優(yōu)點(diǎn)。此外,經(jīng)過55 000次迭代,2個(gè)模型的損失逐漸收斂,可以看出本研究提出的ME-Cascade模型的損失收斂值有明顯的降低,改進(jìn)之后的檢測(cè)效果有明顯提升。
2.3.2 消融試驗(yàn)
消融試驗(yàn)的結(jié)果見表1,以Cascade RCNN模型為基礎(chǔ),與依次加入多尺度特征提取網(wǎng)絡(luò)Res2Net、跨通道特征融合層和樣本均衡采樣的3種模型在確保試驗(yàn)環(huán)境和其他參數(shù)一致的前提下進(jìn)行對(duì)比試驗(yàn),并通過mAP、幀率(FPS)、參數(shù)量、復(fù)雜度等指標(biāo)來分析模型性能。
由表1可知,在原模型上增加了多尺度特征提取網(wǎng)絡(luò)Res2Net的Case1,相比較Cascade RCNN而言mAP值增長了2.1百分點(diǎn),F(xiàn)PS下降了6.71幀/s,參數(shù)量增長了0.66 M,模型復(fù)雜度增加了 2.64 GFLOPs。由此可以看出,Case1在犧牲了少量的訓(xùn)練時(shí)間的前提下,獲得了比較明顯的精度提升,也表明了Res2Net有利于小目標(biāo)的檢測(cè)。在Case2中,加入了跨通道特征融合層,使得mAP值達(dá)到96.6%,比Case1中高出了0.3百分點(diǎn)。這是因?yàn)橥ㄟ^跨通道特征融合層可以更好地融合多個(gè)特征圖,增強(qiáng)網(wǎng)絡(luò)對(duì)不同大小目標(biāo)的感知能力,從而降低對(duì)小目標(biāo)的漏檢問題。與Case1相比,參數(shù)的數(shù)量并沒有變化,訓(xùn)練時(shí)間也變化不大,這是因?yàn)榭缤ǖ捞卣魅诤蠈記]有添加新的參數(shù),它相當(dāng)于在3×3的卷積前后都加入了1×1的卷積,只是為了獲取更多的上下文信息,增加網(wǎng)絡(luò)表達(dá)能力。最后,ME-Cascade在Case2的前提下加入了樣本均衡采樣,解決了小目標(biāo)帶來的正負(fù)樣本數(shù)量差距大的問題,mAP漲到了96.9%,相比較Cascade RCNN、Case1和Case2,分別增長了2.7、0.6、0.3百分點(diǎn)。
在當(dāng)前的目標(biāo)檢測(cè)算法中,通常以IoU閾值為0.5或0.75時(shí)的 AP值作為參考標(biāo)準(zhǔn)。所以根據(jù)實(shí)驗(yàn)結(jié)果,分別繪制了交并比(IoU)閾值為0.5和0.75時(shí)不同改進(jìn)點(diǎn)模型的PR圖,如圖7所示。無論IoU閾值是0.5還是0.75,都可以看出,ME-Cascade的PR曲線圖所包圍的區(qū)域,即平均精度,要高于其他3個(gè)模型。進(jìn)一步說明了多尺度特征提取、跨通道特征融合和樣本均衡采樣的有效性和合理性。
此外,圖8、圖9提供了原始模型Cascade RCNN和本研究提出模型ME-Cascade的混淆矩陣圖,矩陣的每一行代表預(yù)測(cè)的類別,每一列代表真實(shí)的類別,主對(duì)角線上的元素屬于正確檢測(cè)樣本所占比例,從混淆矩陣可以直觀地看出改進(jìn)后的模型在檢測(cè)的準(zhǔn)確率上有所提高,錯(cuò)檢率明顯降低。
以上試驗(yàn)結(jié)果表明,ME-Cascade在復(fù)雜環(huán)境的水稻害蟲檢測(cè)上,可以高質(zhì)量地提取小目標(biāo)害蟲的特征,減少周圍環(huán)境對(duì)害蟲檢測(cè)的干擾,進(jìn)而提升模型的檢測(cè)性能。
2.3.3 不同模型之間的性能比較
選取經(jīng)典的目標(biāo)檢測(cè)模型Faster RCNN、RetinaNet[22]、YOLOF[23]、VFNet[24]和現(xiàn)有的用于害蟲檢測(cè)的模型YOLOF_PD[23]、MSRSALU-Net[25],以及原始模型Cascade RCNN與本研究提出的ME-Cascade模型分別進(jìn)行對(duì)比試驗(yàn),驗(yàn)證該模型的有效性。不同模型的mAP值變化對(duì)比如圖10、圖11所示,可以看出ME-Cascade的檢測(cè)精度不管是訓(xùn)練開始還是到最后收斂,都要高于其他的幾種對(duì)比模型。
由表2可知,從檢測(cè)精度的角度來看,ME-Cascade模型要遠(yuǎn)高于其他的目標(biāo)檢測(cè)模型,mAP達(dá)到了96.9%。尤其是水稻害蟲稻螟蛉這一類的漲幅最為明顯,平均精度漲了5.7百分點(diǎn),因?yàn)榇祟惡οx的體積最小,本研究提出的針對(duì)于小目標(biāo)檢測(cè)的模型有效解決了這一類害蟲的識(shí)別。從檢測(cè)速度的角度來看,單階段模型的檢測(cè)速度最快,但是他們的檢測(cè)精度卻最低,ME-Cascade模型雖然慢,但是卻得到了更好的檢測(cè)效果。無論是與經(jīng)典模型,還是與現(xiàn)有的害蟲檢測(cè)模型進(jìn)行對(duì)比,ME-Cascade模型的檢測(cè)精度都要高很多。由上述可得,本研究提出的模型相較于原始模型在每張圖片損失了0.005 s速度的同時(shí),得到了2.7百分點(diǎn)的精度提升,更適用于真實(shí)復(fù)雜環(huán)境下的水稻害蟲檢測(cè)。
3 結(jié)論
本研究提出一種ME-Cascade模型用于復(fù)雜環(huán)境下的水稻害蟲檢測(cè),該模型在檢測(cè)過程中針對(duì)水稻害蟲體積小、背景雜亂而產(chǎn)生的錯(cuò)檢漏檢等問題,不僅能在更細(xì)粒的程度上提取小目標(biāo)的特征,而且能降低真實(shí)田地環(huán)境給小目標(biāo)檢測(cè)的帶來的噪聲干擾,為復(fù)雜環(huán)境下的水稻害蟲檢測(cè)提供了一種新的思路。
針對(duì)復(fù)雜環(huán)境下蟲害目標(biāo)較小的問題,本研究模型引入了Res2Net卷積神經(jīng)網(wǎng)絡(luò)用于多個(gè)尺度特征的提取,mAP值較原始模型提高了2.1百分點(diǎn)。然后為解決環(huán)境噪聲問題,在RPN中加入了跨通道融合層,并將重采樣方式改為樣本均衡采樣,減少了對(duì)無用特征的提取而更加關(guān)注于小目標(biāo),緩解了錯(cuò)檢和漏檢的問題,mAP值提高了0.6百分點(diǎn)。
本研究提出的ME-Cascade模型mAP值達(dá)到了96.9%,檢測(cè)性能遠(yuǎn)優(yōu)于對(duì)比模型Faster RCNN、RetinaNet、YOLOF、VFNet、Cascade RCNN、YOLOF_PD和MSRSALU-Net。但本研究在試驗(yàn)中選取的水稻害蟲種類不多、模型參數(shù)量大,在接下來的研究中,如何在檢測(cè)更多的水稻害蟲種類時(shí)保持較高的檢測(cè)精度,并將檢測(cè)模型輕量化用于移動(dòng)設(shè)備方便現(xiàn)場實(shí)操是需要挑戰(zhàn)的難點(diǎn)。
參考文獻(xiàn):
[1]蔣龍泉,魯 帥,馮 瑞,等. 基于多特征融合和SVM分類器的植物病蟲害檢測(cè)方法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014,31(12):186-190.
[2]Ebrahimi M A,Khoshtaghaza M H,Minaei S,et al. Vision-based pest detection based on SVM classification method[J]. Computers and Electronics in Agriculture,2017,137:52-58.
[3]葉 聰,沈金龍. 基于圖像灰度頻率與人工神經(jīng)網(wǎng)絡(luò)的病蟲害防治[J]. 電子器件,2018,41(1):250-255.
[4]郭 陽,許貝貝,陳桂鵬,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的水稻蟲害識(shí)別方法[J]. 中國農(nóng)業(yè)科技導(dǎo)報(bào),2021,23(11):99-109.
[5]溫艷蘭,陳友鵬,王克強(qiáng),等. 基于遷移學(xué)習(xí)和改進(jìn)殘差網(wǎng)絡(luò)的復(fù)雜背景下害蟲圖像識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(8):171-177.
[6]姚 青,谷嘉樂,呂 軍,等. 改進(jìn)RetinaNet的水稻冠層害蟲為害狀自動(dòng)檢測(cè)模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(15):182-188.
[7]Li K S,Wang J C,Jalil H,et al. A fast and lightweight detection algorithm for passion fruit pests based on improved YOLO v5[J]. Computers and Electronics in Agriculture,2023,204:107534.
[8]Cai Z W,Vasconcelos N. Cascade R-CNN:delving into high quality object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT,USA:IEEE,2018:6154-6162.
[9]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[10]Wicaksono G W,Andreawan V. ResNet101 model performance enhancement in classifying rice diseases with leaf images[J]. Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi),2023,7(2):345-352.
[11]Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA:IEEE,2017:936-944.
[12]Liu L,Ouyang W L,Wang X G,et al. Deep learning for generic object[KG*2/3]detection:a[KG*2/3]survey[J].[KG*2/3]International Journal of ComputerVision,2020,128(2):261-318.
[13]Gao S H,Cheng M M,Zhao K,et al. Res2Net:a new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(2):652-662.
[14]岳有軍,田博凱,王紅君,等. 基于改進(jìn)Mask RCNN的復(fù)雜環(huán)境下蘋果檢測(cè)研究[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2019,40(10):128-134.
[15]高新波,莫夢(mèng)竟成,汪海濤,等. 小目標(biāo)檢測(cè)研究進(jìn)展[J]. 數(shù)據(jù)采集與處理,2021,36(3):391-417.
[16]蔣心璐,陳天恩,王 聰,等. 農(nóng)業(yè)害蟲檢測(cè)的深度學(xué)習(xí)算法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2023,59(6):30-44.
[17]Pang J M,Chen K,Shi J P,et al. Libra R-CNN:towards balanced learning for object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA:IEEE,2019:821-830.
[18]徐 聰,王旭啟,劉 裕. 一種改進(jìn)可形變FCN的農(nóng)作物害蟲檢測(cè)方法[J]. 江蘇農(nóng)業(yè)科學(xué),2022,50(9):211-219.
[19]何雨霜,王 琢,王湘平,等. 深度學(xué)習(xí)在農(nóng)作物病害圖像識(shí)別中的研究進(jìn)展[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2023,44(2):148-155.
[20]Garbin C,Zhu X Q,Marques O. Dropout vs. batch normalization:an empirical study of their impact to deep learning[J]. Multimedia Tools and Applications,2020,79(19/20):12777-12815.
[21]鄭顯潤,鄭 鵬,王文秀,等. 基于多尺度特征提取深度殘差網(wǎng)絡(luò)的水稻害蟲識(shí)別[J]. 華南農(nóng)業(yè)大學(xué)學(xué)報(bào),2023,44(3):438-446.
[22]Lin T Y,Goyal P,Girshick R,et al. Focal loss for dense object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice,Italy:IEEE,2017:2980-2988.
[23]彭紅星,徐慧明,高宗梅,等. 基于改進(jìn)YOLOF模型的田間農(nóng)作物害蟲檢測(cè)方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(4):285-294,303.
[24]Zhang H Y,Wang Y,Dayoub F,et al. VarifocalNet:an IoU-aware dense object detector[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville,TN,USA:IEEE,2021:8510-8519.
[25]李 萍,劉 裕,師曉麗,等. 基于多尺度殘差空間注意力輕量化U-Net的農(nóng)業(yè)害蟲檢測(cè)方法[J]. 江蘇農(nóng)業(yè)科學(xué),2023,51(3):187-196.
收稿日期:2023-07-15
基金項(xiàng)目:國家自然科學(xué)基金面上項(xiàng)目(編號(hào):61272278);湖北省重大科技專項(xiàng)(編號(hào):2018ABA099);湖北省教育廳科學(xué)研究計(jì)劃重點(diǎn)項(xiàng)目(編號(hào):D20201601)
作者簡介:魏志慧(1998—),女,湖北武漢人,碩士研究生,主要從事農(nóng)業(yè)圖像識(shí)別研究。E-mail:1559480513@qq.com。
通信作者:張 聰,博士,教授,主要從事多媒體信息處理及網(wǎng)絡(luò)通信、人工智能與大數(shù)據(jù)等研究。E-mail:hb_wh_zc@163.com。