孫劍明 畢振宇 牛連丁
摘要:馬鈴薯葉片病害是影響馬鈴薯質(zhì)量和產(chǎn)量的主要因素,為了能夠快速準(zhǔn)確地識(shí)別馬鈴薯葉片病害并采取對(duì)應(yīng)的防控和救治措施,本研究提出一種新型馬鈴薯葉片病害識(shí)別方法。該方法利用EfficientNet v2網(wǎng)絡(luò)提取圖像特征,通過(guò)4個(gè)不同尺度的網(wǎng)絡(luò)層進(jìn)行金字塔融合,從而捕捉不同尺度下的圖像細(xì)節(jié)和上下文信息,并在金字塔融合中的每個(gè)下采樣環(huán)節(jié)都添加1個(gè)CBAM注意力機(jī)制模塊,且每個(gè)CBAM模塊后都加入Vision Transformer的Encoder模塊進(jìn)行特征增強(qiáng),幫助提升所提取特征的豐富性和抽象能力,最后使用softmax進(jìn)行分類。研究提出的模型識(shí)別準(zhǔn)確率達(dá)到98.26%,相比改進(jìn)之前提升3.47百分點(diǎn),且其loss收斂更快,宏平均值與加權(quán)平均值都有明顯提升。消融試驗(yàn)表明,該模型在各項(xiàng)指標(biāo)上的表現(xiàn)最優(yōu),超過(guò)基線模型和融合模型,大幅提高圖像分類識(shí)別任務(wù)模型的性能表現(xiàn)。該方法可有效提高病害區(qū)域的識(shí)別能力和檢測(cè)準(zhǔn)確率,且能在強(qiáng)干擾的環(huán)境下做到高精度識(shí)別,具有良好的魯棒性和適應(yīng)性,同時(shí)能解決病害識(shí)別中泛化能力弱、精度低、計(jì)算效率低等問(wèn)題。
關(guān)鍵詞:農(nóng)業(yè);馬鈴薯葉片病害;圖像識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);特征融合;Transformer模型
中圖分類號(hào):TP391.41 ??文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)08-0166-10
收稿日期:2023-05-15
基金項(xiàng)目:國(guó)家自然科學(xué)基金(編號(hào):32201411)。
作者簡(jiǎn)介:孫劍明(1980—),男,山東黃縣人,博士,教授,主要從事模式識(shí)別智慧農(nóng)業(yè)、機(jī)器視覺(jué)、圖像信息處理及自動(dòng)控制方向的研究。E-mail:sjm@hrbcu.edu.cn。
通信作者:畢振宇,碩士研究生,主要研究方向?yàn)槟J阶R(shí)別智慧農(nóng)業(yè)。E-mail:15776480171@163.com。
馬鈴薯因高產(chǎn)穩(wěn)產(chǎn)、適應(yīng)性廣、營(yíng)養(yǎng)成分全、產(chǎn)業(yè)鏈長(zhǎng),受到全世界的高度重視,隨著需求量的增加,其種植面積也在不斷擴(kuò)張,同時(shí)馬鈴薯的病害發(fā)病率也在不斷增高,直接影響馬鈴薯的產(chǎn)量和質(zhì)量。但是,對(duì)于大面積農(nóng)田種植的馬鈴薯,單靠人力來(lái)識(shí)別其病害,費(fèi)時(shí)費(fèi)力、效率低下。及時(shí)、準(zhǔn)確識(shí)別馬鈴薯病害,盡早做出相對(duì)應(yīng)的防控和救治措施,從而減少農(nóng)藥使用,減輕對(duì)田地的傷害,可在保證產(chǎn)量的同時(shí)提高質(zhì)量,并減輕農(nóng)戶的經(jīng)濟(jì)支出[1]。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)在不斷地改進(jìn)和創(chuàng)新。卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中的一個(gè)分支,在這個(gè)分支下有很多優(yōu)秀的圖像分類檢測(cè)模型[2]。在圖像識(shí)別任務(wù)中,從最早的LeNet-5一直發(fā)展到2017年ImageNet大賽冠軍模型SeNet[3-4]。在目標(biāo)檢測(cè)任務(wù)中,從使用selective search類暴力搜索模型 Fast RCNN,到現(xiàn)在已可利用APN構(gòu)建快速模型YOLO v3[5-6]。Liu等提出一種基于DCNN的蘋果樹葉病識(shí)別方法,對(duì)4種常見蘋果葉病在給定樣本數(shù)據(jù)集進(jìn)行試驗(yàn),結(jié)果顯示模型具有較快的收斂速度和較高的準(zhǔn)確度[7]。Zhang等利用AlexNet模型構(gòu)建全局池化擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò),為減少訓(xùn)練時(shí)間和提高識(shí)別精確度,將全連接層替換為全局池化層以增加卷積感受域,采用擴(kuò)張卷積層以恢復(fù)空間分辨率,完成6種常見黃瓜葉片的疾病識(shí)別[8]。Too等直接對(duì)VGG16、Inception-v4、ResNet、DenseNet 網(wǎng)絡(luò)調(diào)優(yōu),將這些神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練和測(cè)試PlantVillage 圖像集中 14 種植物的病害圖像,并對(duì)比在不同迭代次數(shù)下的試驗(yàn)結(jié)果[9]。郭小清等提出了一種多尺度檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)模型,可以在一定程度上緩解圖像數(shù)據(jù)稀疏的問(wèn)題[10]。任守綱等利用VGGNet計(jì)算多分類交叉熵?fù)p失,對(duì)番茄葉病害進(jìn)行分類訓(xùn)練,實(shí)現(xiàn)植物葉部病斑分割和病害種類識(shí)別,構(gòu)建基于反卷積引導(dǎo)的 VGG網(wǎng)絡(luò)模型[11]。
2021年,鐘昌源等融合不同水平特征構(gòu)建新模型,該模型在作物病害葉片語(yǔ)義分割的效率和準(zhǔn)確性之間具有良好的平衡[12]。彭紅星等提出一種基于多重特征增強(qiáng)與特征融合的SSD模型,能夠更精準(zhǔn)有效地檢測(cè)無(wú)人機(jī)拍攝的荔枝圖像,可為小目標(biāo)農(nóng)作物的檢測(cè)開拓思路[13]。受Transformer模型在自然語(yǔ)言處理領(lǐng)域成功應(yīng)用的啟發(fā),Transformer模型視覺(jué)轉(zhuǎn)換器(ViT)在許多計(jì)算機(jī)視覺(jué)基準(zhǔn)測(cè)試中取得了很好的結(jié)果;Borhani等提出一種基于ViT的輕量級(jí)深度學(xué)習(xí)方法,用于實(shí)時(shí)自動(dòng)化分類植物病害[14-15]。
上述利用各神經(jīng)網(wǎng)絡(luò)模型雖然取得了較好的識(shí)別精度,但計(jì)算效率、高精度、泛化能力仍有提升空間。本研究以馬鈴薯的健康葉片和患有晚疫病、早疫病的葉片為研究對(duì)象,在EfficientNet v2網(wǎng)絡(luò)中加入金字塔特征融合,并結(jié)合CBAM注意力機(jī)制和Vision Transformer的Encoder模塊,提高對(duì)特征的判斷和利用能力,在分類決策過(guò)程中更加準(zhǔn)確可靠。研究設(shè)計(jì)的模型具有高效的特征提取能力和加權(quán)融合能力,同時(shí)也在模型輕量化方面有很好的表現(xiàn)。
1 馬鈴薯葉片病害數(shù)據(jù)集
1.1 數(shù)據(jù)集介紹
試驗(yàn)所用到的數(shù)據(jù)集源于Kaggle網(wǎng)站上基于PlantVillage的公共數(shù)據(jù)集。PlantVillage是一個(gè)公開的農(nóng)作物病害數(shù)據(jù)集,其中針對(duì)馬鈴薯葉片的病害類別有早疫病、晚疫病2種疾病,原數(shù)據(jù)集圖片中包含早疫病葉片1 000張、晚疫病葉片1 000張、健康葉片152張。試驗(yàn)先對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),按照8 ∶2比例將其分成訓(xùn)練集、測(cè)試集。同時(shí)將數(shù)據(jù)集中的原始圖像歸一化為 256×256×3,使其適應(yīng)模型的輸入。PlantVillage數(shù)據(jù)集中的部分樣本圖像如圖1所示。
1.2 數(shù)據(jù)預(yù)處理與數(shù)據(jù)增強(qiáng)
預(yù)處理能優(yōu)化圖像的識(shí)別效果,所以在大多數(shù)圖像研究中都會(huì)加入預(yù)處理這個(gè)過(guò)程。在獲取數(shù)據(jù)的過(guò)程中,會(huì)產(chǎn)生各種影響因素,比如數(shù)據(jù)缺失、噪聲的產(chǎn)生、試驗(yàn)不均衡等。故使用深度學(xué)習(xí)來(lái)進(jìn)行圖像識(shí)別分類預(yù)處理是十分必要的,可以降低環(huán)境因素對(duì)圖像的影響。
對(duì)數(shù)據(jù)集圖像進(jìn)行遮擋和調(diào)暗處理,以增加圖像的復(fù)雜性,可以對(duì)模型的魯棒性進(jìn)行比較全面的提升。在實(shí)際應(yīng)用中往往會(huì)遭遇到各種因素的干擾,如光照條件的變化、遮擋、各種噪聲等,這些因素會(huì)導(dǎo)致原始圖像的特征信息發(fā)生變化,使得模型的性能下降。通過(guò)數(shù)據(jù)增強(qiáng)方法,模擬真實(shí)情況下的圖像,增加模型訓(xùn)練的難度,從而可以使模型學(xué)習(xí)到更豐富的特征信息,提高模型的識(shí)別能力,增強(qiáng)模型的魯棒性。
進(jìn)行數(shù)據(jù)增強(qiáng)時(shí),將調(diào)暗系數(shù)設(shè)置為0.2,以創(chuàng)造一個(gè)更加黑暗的環(huán)境,同時(shí)再對(duì)數(shù)據(jù)集圖片進(jìn)行隨機(jī)遮擋處理,遮擋概率設(shè)置為0.5,遮擋框(相對(duì)于圖片大?。┳钚?.02,最大為0.4,遮擋框的最小、最大寬高比分別設(shè)置為0.3、3.3,經(jīng)數(shù)據(jù)增強(qiáng)處理后的數(shù)據(jù)集中包含早疫病2 000張,晚疫病2 000張,健康葉片304張。部分增強(qiáng)圖片如圖2所示。
2 模型與方法
2.1 EfficientNet v2網(wǎng)絡(luò)
EfficientNet v2是新一代高效神經(jīng)網(wǎng)絡(luò)模型,由Google Brain在2021年提出。該模型采用Compound Scaling、多階段、優(yōu)化高級(jí)模塊、EMA權(quán)重平均等多項(xiàng)創(chuàng)新技術(shù),實(shí)現(xiàn)更高的準(zhǔn)確度和效率,同時(shí)具備更少的參數(shù)。Compound Scaling綜合考慮深度、寬度、分辨率的縮放,實(shí)現(xiàn)更好的性能和更高的能效比;多階段采用不同的深度、寬度、分辨率,提升模型性能;優(yōu)化高級(jí)模塊則加強(qiáng)特征提取和模型優(yōu)化。此外,EfficientNet v2還采用大量的進(jìn)階優(yōu)化技術(shù),如Swish激活函數(shù)、 Squeeze-and-Excitation模塊、EMA權(quán)重平均等,以提高模型的性能和泛化能力。通過(guò)這些創(chuàng)新技術(shù)的引入,EfficientNet v2在圖像分類、目標(biāo)檢測(cè)、分割等各個(gè)領(lǐng)域的任務(wù)中都能取得出色表現(xiàn),成為當(dāng)前最先進(jìn)和高效的神經(jīng)網(wǎng)絡(luò)模型之一[16-17]。
EfficientNet v2-B0是EfficientNet v2模型系列中的基礎(chǔ)模型,相比于EfficientNet v2-S等其他模型,它擁有更少的層數(shù)和更小的參數(shù)量,因此計(jì)算速度更快,內(nèi)存消耗更少,訓(xùn)練速度更快,能夠在更為復(fù)雜的計(jì)算任務(wù)中獲得更好的表現(xiàn)。研究采用EfficientNet v2-B0網(wǎng)絡(luò)作為基線網(wǎng)絡(luò)進(jìn)行試驗(yàn),其網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
EfficientNet v2-B0采用MBConv3、MBConv5結(jié)構(gòu),包括具有不同變化的多個(gè)階段和不同數(shù)量的MBConv層,以提取不同級(jí)別的特征,并逐步提高模型的深度和寬度。模型精度和推斷速度的升級(jí)效果得到顯著提高,同時(shí)適用于更小的設(shè)備。EfficientNet v2-B0網(wǎng)絡(luò)結(jié)構(gòu)如圖3、圖4所示。
2.2 多尺度特征融合
多尺度特征融合是一種將不同尺度的特征圖進(jìn)行融合的方法,用于提升模型在各種尺度下的檢測(cè)和識(shí)別性能。在圖像處理方面,多尺度特征融合廣泛應(yīng)用于目標(biāo)檢測(cè)、圖像分類、語(yǔ)義分割等任務(wù)中,模型可以在多種尺度下更好地捕捉圖像中的物體信息。金字塔特征融合是一種常見的多尺度特征融合方法,其思想是通過(guò)構(gòu)建一組不同尺度的特征圖,從而提供更加全面和豐富的圖像信息,使得模型具有更好的魯棒性和泛化能力[18]。
金字塔特征融合可以通過(guò)對(duì)原始圖像進(jìn)行多次下采樣(或上采樣),將不同尺度的特征圖進(jìn)行融合,得到整個(gè)金字塔中所有尺度的特征圖。金字塔特征融合的優(yōu)點(diǎn)在于,它可以通過(guò)構(gòu)建一組不同尺度的特征圖,從而提供更加全面和豐富的圖像信息,使得模型具有更好的魯棒性和泛化能力[19]。
本研究提取MBConv3模塊的第1個(gè)Swish激活層block2b_expand_activation(64×64×128)、MBConv5模塊的第1個(gè)Swish激活層block4a_expand_activation(32×32×192)、MBConv5模塊的第2個(gè)Swish激活層block6a_expand_activation(16×16×672)、top_activation(8×8×1 280),金字塔特征融合結(jié)構(gòu)如圖5所示。
2.3 CBAM注意力機(jī)制
CBAM(convolutional block attention module)是一種注意力機(jī)制模塊,它可以自適應(yīng)學(xué)習(xí)特征圖中不同部分的重要程度,通道注意力、空間注意力機(jī)制都是CBAM模塊用于提高圖像特征表示的有效方法。這些注意力機(jī)制不僅可以識(shí)別有用信息,還可以抑制無(wú)關(guān)信息。通過(guò)學(xué)習(xí)每個(gè)通道和空間位置的重要性,注意力機(jī)制可以使網(wǎng)絡(luò)更好地識(shí)別輸入圖像中的關(guān)鍵特征,從而提高模型的性能[20]。CBAM模塊結(jié)構(gòu)如圖6所示。
CBAM的通道注意力提取如公式(1)表示:
Mc(F)=σ{MLP[AvgPool(F)]+MLP[MaxPool(F)]}
=σ{W1[W0(FCavg)]+W1[W0(FCmax)]}。(1)
其中:σ表示sigmoid函數(shù);W0∈RC/r×C;W1∈RC×C/r;MLP 的權(quán)重W0、W1是共享的,用于2個(gè)輸入,并且ReLU激活函數(shù)接在W0后面。
CBAM的空間注意力提取如公式(2)表示:
Ms(F′)=σ(f7×7{[AvgPool(F′);MaxPool(F′)]})
=σ(f7×7([F′savg;F′smax]))。(2)
其中:f7×7表示卷積核大小為7×7的卷積操作。
2.4 Vision TransformerEncoder模塊
在Vision Transformer模型中,Encoder模塊是模型的核心之一,它的主要作用是為計(jì)算機(jī)的機(jī)器視覺(jué)任務(wù)提取特征, 如圖像分類、目標(biāo)檢測(cè)、圖像分割
等任務(wù)[21]。該模塊的結(jié)構(gòu)基于Transformer模型,通過(guò)注意力機(jī)制實(shí)現(xiàn)不需要局部卷積操作就可以處理空間特征的能力,并且具備良好的擴(kuò)展性[22]。該模塊的工作流程包括將輸入的像素?cái)?shù)據(jù)(二維圖像)轉(zhuǎn)化為向量表示,通過(guò)多層Encoder將特征優(yōu)化和抽象,最后輸出得到圖像的特征表示。該模塊在解決長(zhǎng)序列的處理能力、建模全局特征依賴、提高數(shù)據(jù)利用率等方面,具備很多優(yōu)勢(shì)[23]。相對(duì)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),使用Vision Transformer Encoder模塊能夠提取更明確的特征表示,并更好地應(yīng)用于文本識(shí)別、自然語(yǔ)言處理等計(jì)算機(jī)視覺(jué)任務(wù)中[24]。Vision Transformer Encoder模塊結(jié)構(gòu)如圖7所示。
在輸入到本研究的Encoder模塊之前,先將提取的2個(gè)特征層融合,然后使用一個(gè)叫Reshape的層,將輸入的張量x轉(zhuǎn)化為2D矩陣,其中第1維是(-1),該維的大小根據(jù)張量中“非1”元素的總數(shù)計(jì)算得出,第2維則等于原始張量中每個(gè)元素的大小x.shape[-1]。轉(zhuǎn)化成符合Encoder模塊輸入的二維張量,也就是其中的融合張量(fusion tensor)模塊。
標(biāo)準(zhǔn)化處理(Norm)層對(duì)輸入的張量進(jìn)行標(biāo)準(zhǔn)化處理,確保數(shù)據(jù)特征在一定的范圍內(nèi)。
Norm(x)=LayerNorm[x+Attention(x)]。(3)
通過(guò)多頭注意力機(jī)制層(Multi-Head Attention)對(duì)標(biāo)準(zhǔn)化后的張量進(jìn)行全局關(guān)系的建模,
捕捉特征張量中各部分之間的依賴關(guān)系,從而得到一個(gè)新的高維特征表示,用于輸入特征的下一步處理。在Multi-Head Attention中,輸入的特征張量為x,包括N個(gè)特征向量,每個(gè)向量的長(zhǎng)度為d_model。將x通過(guò)線性投影變換為3個(gè)張量,分別表示Query、Key、Value。將Query、Key、Value分別輸入到num_heads個(gè)獨(dú)立的注意力頭中,計(jì)算得到num_heads個(gè)注意力張量,再將其按通道維度進(jìn)行合并,從而得到1個(gè)張量,最后通過(guò)線性投影得到輸出。
Query=x×Wq;Key=x×Wk;Value=x×Wv;(4)
Attention(Q,K,V)=softmax[QKT/sqrt(d_k)]×V;(5)
MultiHead(Q,K,V)=concat(head1,…,headh)×Wo。(6)
其中,Wq、Wk、Wv、Wo分別表示針對(duì)Query、Key、Value和輸出的線性變換矩陣;head表示注意力頭數(shù)量;d_k表示每個(gè)Query、Key矩陣中元素的維度大小;sqrt(d_k)為縮放因子,能夠控制結(jié)果的范圍和分布。
將Multi-Head Attention層的輸出、輸入張量進(jìn)行相加(Add層),以便使當(dāng)前層處理后的特征與原始特征發(fā)生變化,并通過(guò)Norm層進(jìn)行標(biāo)準(zhǔn)化處理,確保不同維度之間的變化具有相似的尺度。
在多層感知機(jī)(MLP)層中使用帶有激活函數(shù)的Dense層對(duì)標(biāo)準(zhǔn)化后的特征張量進(jìn)行變換,從而進(jìn)一步提取特征。再次對(duì)輸出特征張量進(jìn)行標(biāo)準(zhǔn)化處理。
MLP(x)=Gelu(xW1+b1)W2+b2。(7)
其中,x表示輸入張量;W1、b1分別表示第1個(gè) Dense 層的權(quán)重、偏置;W2、b2分別表示第2個(gè) Dense 層的權(quán)重、偏置。公式(7)將標(biāo)準(zhǔn)化后的特征張量通過(guò)2個(gè) Dense 層進(jìn)行變換,并使用Gelu激活函數(shù)進(jìn)行非線性變換,得到1個(gè)新的張量作為當(dāng)前層處理后的特征。
最后將第1個(gè)Add層的輸出和MLP層的輸出進(jìn)行相加,以得到最終的輸出向量,并同時(shí)進(jìn)行殘差連接,確保多層處理后的特征仍然包含原始特征信息。
2.5 本研究模型識(shí)別方法
本研究首先使用EfficientNet v2網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,為了能夠更好地捕獲不同尺度下的圖像信息,使用了4個(gè)不同尺度的網(wǎng)絡(luò)層進(jìn)行金字塔融合,從而提高模型的分類準(zhǔn)確率和穩(wěn)定性。接下來(lái),在特征融合的下采樣環(huán)節(jié)添加3個(gè)CBAM注意力機(jī)制模塊。這些模塊能夠動(dòng)態(tài)地調(diào)整特征圖中不同位置的通道權(quán)重,更好地捕獲有用的特征信息。為了增強(qiáng)特征表達(dá)能力,每個(gè)CBAM模塊后都添加了Vision Transformer的Encoder模塊,從而提高了模型的分類準(zhǔn)確率、穩(wěn)定性、魯棒性。最終的輸出結(jié)果被送入softmax分類器進(jìn)行分類。本研究改進(jìn)模型網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。
3 試驗(yàn)結(jié)果與分析
3.1 試驗(yàn)環(huán)境
試驗(yàn)采用 Windows 10操作系統(tǒng),Python 3.9 作為開發(fā)語(yǔ)言,Tensorflow 2.11.0為深度學(xué)習(xí)開發(fā)框架,開發(fā)工具為Pycharm。硬件包括16 GB內(nèi)存、Nvidia RTX-3060顯卡,配備AMD RyzenTM 7 5800H with Radeon Graphics處理器。
3.2 訓(xùn)練過(guò)程
3.2.1 評(píng)價(jià)指標(biāo) 精確率(Precision):指被分類器正確分類的樣本數(shù)量占總樣本數(shù)的比例,即
Precision=TPTP+FP。(8)
其中,TP表示真正例(分類器將正類正確分類的數(shù)量),F(xiàn)P表示假正例(分類器將負(fù)類錯(cuò)誤分類成正類的數(shù)量)(表2)。
召回率(Recall):指分類器正確分類的正樣本數(shù)量占真實(shí)正樣本總數(shù)的比例,即
Recall=TPTP+FN。(9)
其中,TP表示真正例,F(xiàn)N表示假負(fù)例(分類器將正類錯(cuò)誤分類為負(fù)類的數(shù)量)。
F1分?jǐn)?shù):綜合考慮Precision 和 Recall,以一個(gè)綜合的指標(biāo)來(lái)評(píng)估模型分類效果,即
F1=2×Precision×RecallPrecision+Recall。(10)
準(zhǔn)確率(Accuracy):指分類器將所有樣本正確分類的數(shù)量占總樣本數(shù)的比例,即
Accuracy=TP+TNTP+FP+TN+FN。(11)
其中,TP表示真正例,TN表示真負(fù)例(分類器將負(fù)類正確分類的數(shù)量),F(xiàn)P表示假正例,F(xiàn)N表示假負(fù)例。
宏平均(macro avg):對(duì)每個(gè)類別的評(píng)價(jià)指標(biāo)(Precision、Recall、F1分?jǐn)?shù))求平均值,各類別的評(píng)價(jià)指標(biāo)平等對(duì)待,適用于多分類模型樣本分布均衡的情況。
加權(quán)平均(weighted avg):對(duì)每個(gè)類別的評(píng)價(jià)指標(biāo)進(jìn)行加權(quán)平均,其中權(quán)重為每個(gè)類別樣本數(shù)在總樣本數(shù)中所占的比例,用于多分類模型存在樣本不均衡的情況。
3.2.2 不同網(wǎng)絡(luò)模型性能對(duì)比
TensorBoard是由Google開發(fā)的機(jī)器學(xué)習(xí)可視化工具,主要用于追蹤機(jī)器學(xué)習(xí)過(guò)程中的各項(xiàng)指標(biāo),如準(zhǔn)確率、損失等變化。各模型訓(xùn)練結(jié)束后直接通過(guò)TensorBoard可視化顯示各評(píng)價(jià)指標(biāo)折線圖。試驗(yàn)選取 EfficientNet v2-B0 作為基線網(wǎng)絡(luò), 該網(wǎng)絡(luò)與常見分類網(wǎng)絡(luò)模型AlexNet、VGG16、ResNet50、Inception v3、MobileNet v2采用相同數(shù)據(jù)集進(jìn)行試驗(yàn)對(duì)比,且訓(xùn)練集 ∶測(cè)試集=8 ∶2,試驗(yàn)設(shè)置epoch為10、batch_size為16、學(xué)習(xí)率為0.000 1進(jìn)行訓(xùn)練,其中褐色為AlexNet、灰色為VGG16、綠色為MobileNet v2、粉色為Inception v3、深藍(lán)色為ResNet50、淺藍(lán)色為EfficientNet v2-B0,各模型網(wǎng)絡(luò)性能在訓(xùn)練集下的表現(xiàn)如圖9所示。
各網(wǎng)絡(luò)模型在測(cè)試數(shù)據(jù)集上的分類準(zhǔn)確率如表3所示。
由圖9、表3可知,EfficientNet v2-B0相較于其他模型具有更高的識(shí)別準(zhǔn)確率、更好的泛化能力和穩(wěn)定性,這意味著在面對(duì)不同環(huán)境的圖像時(shí),其識(shí)別能力更好。且該模型具有更高的適用性,可以在更多的場(chǎng)景下應(yīng)用。同時(shí),EfficientNet v2-B0的loss收斂更快,這意味著訓(xùn)練成本更低,更節(jié)省時(shí)間和資源,故選取EfficientNet v2-B0為基線網(wǎng)絡(luò)。
3.2.3 消融試驗(yàn)
研究進(jìn)行了3種消融試驗(yàn),旨在優(yōu)化目標(biāo)識(shí)別任務(wù)模型的性能。首先進(jìn)行基線試驗(yàn),使用EfficientNet v2網(wǎng)絡(luò)進(jìn)行圖像特征提取和分類,未進(jìn)行額外優(yōu)化,命名該模型為基線模型,對(duì)應(yīng)圖10中的綠色曲線。接著,在特征融合和CBAM模塊添加試驗(yàn)中,為模型添加4個(gè)不同尺度的網(wǎng)絡(luò)層進(jìn)行金字塔融合,并在金字塔的融合下采樣環(huán)節(jié)添加3個(gè)CBAM注意力機(jī)制模塊,以進(jìn)一步提高模型的性能表現(xiàn), 命名該模型為融合模型, 對(duì)應(yīng)圖10中的灰色曲線。最后,再添加Vision Transformer的Encoder模塊進(jìn)行特征增強(qiáng),命名該模型為本研究模型,對(duì)應(yīng)圖10中的橙色曲線。Encoder模塊可以將輸入序列進(jìn)行多頭自注意力計(jì)算和前饋網(wǎng)絡(luò)計(jì)算,從而能夠更好地捕捉圖像特征之間的關(guān)系,提高準(zhǔn)確度和泛化能力。試驗(yàn)設(shè)置epoch為50、batch_size為32、學(xué)習(xí)率為0.000 1進(jìn)行訓(xùn)練。圖10為3種模型的各項(xiàng)性能對(duì)比。
由表4可知,模型放進(jìn)前識(shí)別準(zhǔn)確率為94.79%,放進(jìn)后達(dá)到98.26%,提升3.47百分點(diǎn)。在測(cè)試數(shù)據(jù)集上采用查準(zhǔn)率 P、查全率 R、F1分?jǐn)?shù)來(lái)進(jìn)一步衡量本研究算法模型的識(shí)別性能。由于查準(zhǔn)率和查全率一般相互矛盾,故常用F1調(diào)和平均數(shù)來(lái)對(duì)模型進(jìn)行分析。表5至表8為各模型性能的評(píng)價(jià)指標(biāo)。
根據(jù)圖10與表4至表8分析可知,本研究的擴(kuò)展試驗(yàn)?zāi)P途軌蝻@著提升模型的性能表現(xiàn),特別是在F1分?jǐn)?shù)、召回率、精確率等指標(biāo)方面。其中,本研究模型在各項(xiàng)指標(biāo)上的表現(xiàn)最優(yōu),超過(guò)基線模型和融合模型,模型的loss收斂更快,準(zhǔn)確率更高,宏平均值與加權(quán)平均值都有明顯提升。消融試驗(yàn)結(jié)果表明,通過(guò)添加金字塔特征融合、CBAM注意力機(jī)制、Vision Transformer的Encoder模塊,可以大幅度提高圖像分類識(shí)別任務(wù)模型的性能表現(xiàn)。
混淆矩陣常用來(lái)可視化地評(píng)估模型的性能優(yōu)劣。圖11至圖13給出了早疫病、晚疫病、健康類別的分類混淆矩陣。圖11中,401張?jiān)缫卟∪~片中有368張被正確識(shí)別,其中33張被識(shí)別成了晚疫??;61張健康葉片中有53張被正確識(shí)別,8張被識(shí)別成晚疫??;401張晚疫病葉片中有397張被正確識(shí)別,4張被識(shí)別成健康葉片。圖12中,401張?jiān)缫卟∪~片中有400張被正確識(shí)別,其中1張被識(shí)別成了晚疫??;61張健康葉片中有51張被正確識(shí)別,2張被識(shí)別成早疫病,8張被識(shí)別成晚疫?。?01張晚疫病葉片中有381張被正確識(shí)別,18張被識(shí)別成早疫病,2張被識(shí)別成健康葉片。圖13中,401張?jiān)缫卟∪~片中有399張被正確識(shí)別,其中2張被識(shí)別成了晚疫病;61張健康葉片中有52張被正確識(shí)別,9張被識(shí)別成晚疫?。?01張晚疫病葉片中有397張被正確識(shí)別,2張被識(shí)別成早疫病,2張被識(shí)別成健康葉片。分析可知,本研究提出的模型針對(duì)早疫病和晚疫病有著極高的分類準(zhǔn)確率,且具有較好的識(shí)別性能和魯棒性,可以應(yīng)用于復(fù)雜的自然環(huán)境中。預(yù)測(cè)效果如圖14所示。
4 結(jié)論
本研究在馬鈴薯病害葉片的識(shí)別任務(wù)中應(yīng)用
EfficientNet v2網(wǎng)絡(luò)進(jìn)行特征提取,并采用金字塔特征融合、CBAM注意力機(jī)制、Vision Transformer的Encoder模塊進(jìn)行模型的擴(kuò)展與優(yōu)化。試驗(yàn)結(jié)果表明,經(jīng)過(guò)模型擴(kuò)展和優(yōu)化后,該模型不僅在干擾環(huán)境下具有高精度識(shí)別能力,而且表現(xiàn)出良好的魯棒性和適應(yīng)性,能夠有效提高病害區(qū)域的識(shí)別能力和檢測(cè)準(zhǔn)確率,同時(shí)解決了病害識(shí)別中泛化能力差、精度低、計(jì)算效率低等問(wèn)題。研究可以為農(nóng)業(yè)信息化技術(shù)的可行性提供合理依據(jù),在一定程度上可以增強(qiáng)馬鈴薯病害的預(yù)測(cè)和防控能力。
參考文獻(xiàn):
[1] 黃鳳玲,張 琳,李先德,等. 中國(guó)馬鈴薯產(chǎn)業(yè)發(fā)展現(xiàn)狀及對(duì)策[J]. 農(nóng)業(yè)展望,2017,13(1):25-31.
[2]Lu J Z,Tan L J,Jiang H Y. Review on convolutional neural network (CNN) applied to plant leaf disease classification[J]. Agriculture,2021,11(8):707.
[3]Zhang J S,Yu X S,Lei X L,et al. A novel deep LeNet-5 convolutional neural network model for image recognition[J]. Computer Science and Information Systems,2022,19(3):1463-1480.
[4]Pragy P,Sharma V,Sharma V. Senet cnn based tomato leaf disease detection[J]. International Journal of Innovative Technology and Exploring Engineering,2019,8(11):773-777.
[5]Sardogˇan M,zen Y,Tuncer A. Detection of apple leaf diseases using Faster R-CNN “,” Faster R-CNN Kullanarak ElmaYapragˇ Hastalklarnn Tespiti[J]. Düzce üniversitesi Bilim Ve Teknoloji Dergisi,2020,8(1):1110-1117.
[6]Farhadi A,Redmon J. YOLO v3:an incremental improvement[C]//Computer vision and pattern recognition. Berlin/Heidelberg,Germany:Springer,2018,1804:1-6.
[7]Liu B,Zhang Y,He D J,et al. Identification of apple leaf diseases based on deep convolutional neural networks[J]. Symmetry,2017,10(1):11.
[8]Zhang S W,Zhang S B,Zhang C L,et al. Cucumber leaf disease identification with global pooling dilated convolutional neural network[J]. Computers and Electronics in Agriculture,2019,162(C):422-430.
[9]Too E C,Li Y J,Njuki S,et al. A comparative study of fine-tuning deep learning models for plant disease identification[J]. Computers and Electronics in Agriculture,2019,161:272-279.
[10]郭小清,范濤杰,舒 欣. 基于改進(jìn)Multi-Scale AlexNet的番茄葉部病害圖像識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(13):162-169.
[11]任守綱,賈馥瑋,顧興健,等. 反卷積引導(dǎo)的番茄葉部病害識(shí)別及病斑分割模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2020,36(12):186-195.
[12]鐘昌源,胡澤林,李 淼,等. 基于分組注意力模塊的實(shí)時(shí)農(nóng)作物病害葉片語(yǔ)義分割模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(4):208-215.
[13]彭紅星,李 荊,徐慧明,等. 基于多重特征增強(qiáng)與特征融合SSD的荔枝檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(4):169-177.
[14]Borhani Y,Khoramdel J,Najafi E. A deep learning based approach for automated plant disease classification using vision transformer[J]. Scientific Reports,2022,12:11554.
[15]LiXP,ChenXY,YangJL,etal.Transformerhelpsidentify
kiwifruit diseases in complex natural environments[J]. Computers and Electronics in Agriculture,2022,200:107258.
[16]Li X P,Li S Q. Transformer help CNN see better:a lightweight hybrid apple disease identification model based on transformers[J]. Agriculture,2022,12(6):884.
[17]Zhong Y W,Huang B J,Tang C W. Classification of cassava leaf disease based on a non-balanced dataset using transformer-embedded ResNet[J]. Agriculture,2022,12(9):1360.
[18]Luo Y Q,Sun J,Shen J F,et al. Apple leaf disease recognition and sub-class categorization based on improved multi-scale feature fusion network[J]. IEEE Access,2021,9:95517-95527.
[19]郭啟帆,劉 磊,張 珹,等. 基于特征金字塔的多尺度特征融合網(wǎng)絡(luò)[J]. 工程數(shù)學(xué)學(xué)報(bào),2020,37(5):521-530.
[20]Ma R,Wang J,Zhao W,et al. Identification of maize seed varieties using MobileNet v2 with improved attention mechanism CBAM[J]. Agriculture,2022,13(1):11.
[21]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.December 4-9,2017,Long Beach,California,USA.ACM,2017:6000–6010.
[22]Xing L P,Jin H M,Li H A,et al. Multi-scale vision transformer classification model with self-supervised learning and dilated convolution[J]. Computers and Electrical Engineering,2022,103:108270.
[23]侯越千,張麗紅. 基于Transformer的多尺度物體檢測(cè)[J]. 測(cè)試技術(shù)學(xué)報(bào),2023,37(4):342-347.
[24]Wang S S,Zeng Q T,Ni W J,et al. ODP-Transformer:interpretation of pest classification results using image caption generation techniques[J]. Computers and Electronics in Agriculture,2023,209:107863.