王忠培 謝成軍 董偉 管博倫
摘要:水稻病害的快速、準確識別是水稻病害防治的前提,也是提高水稻產(chǎn)量和品質(zhì)的有效途徑之一。為了提高水稻病害識別的準確率,本研究提出一種多維間的三維注意力水稻病害識別模型Inter_3DRiceNet網(wǎng)絡(luò)模型,通過3個不同維度(通道維度、高度維度以及寬度維度)提取水稻病害特征信息。通道維度主要構(gòu)建基于通道關(guān)系的三維立體注意力機制,通過建立一維的通道間關(guān)系注意力機制再結(jié)合二維空間關(guān)系,最終獲得基于通道關(guān)系的三維注意力特征信息。高度維度建立的是基于高度維度關(guān)系的三維注意力機制,而寬度維度建立的是基于寬度維度關(guān)系的立體注意力機制。然后將以上3個不同維度的注意力信息進行簡單的相加再取平均值作為最終的病害提取特征。通過這種方式,不僅可以獲取輸入圖像更豐富的特征,而且可以獲得不同維度的立體空間關(guān)系。試驗結(jié)果表明,在自建的6種真實自然環(huán)境水稻病害數(shù)據(jù)集中,本研究提出的Inter_3DRiceNet網(wǎng)絡(luò)模型在測試集取得了98.32%的最高準確率,高于經(jīng)典網(wǎng)絡(luò)模型ResNet34、ResNet50、MobileNetV2、DenseNet、EfficientNet_B0和通道注意力機制模型SENet和GCT??梢姳狙芯糠椒ㄓ行岣吡怂静『Φ淖R別準確率,獲得了優(yōu)于經(jīng)典網(wǎng)絡(luò)模型和通道注意力模型的識別準確率,有助于提升自然環(huán)境下對常見水稻病害的識別性能。
關(guān)鍵詞:水稻病害;三維注意力;多維間關(guān)系;注意力機制;識別
中圖分類號:TP391.41文獻標識碼:A文章編號:1000-4440(2024)04-0625-11
Rice disease identification model based on multi-dimensional attention mechanism
WANG Zhong-pei1,XIE Cheng-jun2,DONG Wei1,GUAN Bo-lun1
(1.Institute of Agricultural Economics and Information, Anhui Academy of Agricultural Sciences, Hefei 230001, China;2.Hefei Institute of Intelligent Machinery, Chinese Academy of Sciences, Hefei 230031, China)
Abstract:Rapid and accurate identification of rice diseases is a prerequisite for controlling rice diseases and is one of the effective ways to improve rice yield and quality. To improve the identification accuracy of rice diseases, a network model of multi-dimensional attention mechanism for rice disease identification named Inter_3DRiceNet was proposed in this study to extract rice disease feature information through three different dimensions (channel dimension, height dimension and width dimension). The channel dimension mainly constructed a three-dimensional attention mechanism based on channel relationship, and finally obtained three-dimensional attention feature information based on channel relationship by establishing a one-dimensional attention mechanism of inter-channel relationship combined with two-dimensional spatial relationship. The height dimension established a three-dimensional attention mechanism based on the height dimension relationship, while the width dimension established a tridimensional attention mechanism based on the width dimension relationship. The attention information of the above three different dimensions was simply summed and then averaged as the final disease extraction features. Thus, besides more abundant features of the input images could be obtained, stereoscopic spatial relations of different dimensions could also be obtained. ?The experimental results showed that, the Inter_3DRiceNet network model proposed in the study got the highest accuracy of 98.32% in the test sets of the six self-constructed rice disease datasets in real natural environment, which was higher than the classical network models such as ResNet34, ResNet50, MobileNetV2, DenseNet, EfficientNet_B0, and channel attention mechanism models SENet and GCT. The research method improved the recognition accuracy of rice diseases effectively and obtained better classification accuracy than the classical network model and the channel attention model, which can help improve the performance of common rice diseases recognition in natural environment.
Key words:rice diseases;three-dimensional attention;multi-dimensional relationship;attention mechanism;identification
水稻是中國的主要糧食作物之一,種植面積約占全國耕地面積的四分之一,是中國的第二大糧食作物。由于中國水稻種植具有面積大、分布廣的特點,因此不同地區(qū)、不同環(huán)境等因素(比如天氣、氣候、土壤、水資源等自然條件)都會影響水稻產(chǎn)量。除了自然條件,水稻病蟲害也是影響水稻產(chǎn)量的重要因素之一。全國農(nóng)業(yè)技術(shù)推廣服務(wù)中心對2022年全國重大病蟲害發(fā)生情況的預(yù)報結(jié)果[1]顯示,2022年預(yù)計水稻“三蟲兩病”發(fā)生面積為6.87×107 hm2,比2021年增加13.6%。因此,水稻病蟲害的預(yù)警、監(jiān)測、防治將有助于減少病蟲害對水稻產(chǎn)量的影響。
隨著技術(shù)的進步,中國農(nóng)業(yè)生產(chǎn)方式正在從傳統(tǒng)手工方式向智能化方向轉(zhuǎn)變。傳統(tǒng)水稻病蟲害識別主要通過人工方式,人工識別存在效率低、工作量大以及難以廣泛推廣等問題,而且人工識別對識別主體的專業(yè)技能要求較高,一般只有該領(lǐng)域的專家才能準確識別出相應(yīng)的病蟲害。而作為農(nóng)業(yè)經(jīng)營主體的農(nóng)民不具備該領(lǐng)域的專業(yè)知識,很難準確識別出不同種類的病蟲害,因此如何借助計算機領(lǐng)域相關(guān)技術(shù)實現(xiàn)農(nóng)作物病蟲害的快速、準確識別是值得研究的課題。
近年來隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks, CNN)技術(shù)的提出,CNN在計算機視覺領(lǐng)域的各個子任務(wù)中獲得了大量的應(yīng)用,并取得了令人矚目的性能提升。農(nóng)業(yè)作為該技術(shù)的實際應(yīng)用場景之一,如何在農(nóng)業(yè)中應(yīng)用CNN技術(shù)同樣獲得了大量學(xué)者的關(guān)注,并提出了不同的技術(shù)方案。
趙立新等[2]將遷移學(xué)習(xí)方法應(yīng)用到棉花葉片病蟲害識別中,通過改進AlexNet模型并在PlantVillage數(shù)據(jù)集上預(yù)訓(xùn)練,將預(yù)訓(xùn)練好的模型遷移到棉花病蟲害數(shù)據(jù)集,可以達到97.16%的平均測試準確率。劉陽等[3]通過對SqueezeNet網(wǎng)絡(luò)的改進提出一種小型化和輕量化網(wǎng)絡(luò)結(jié)構(gòu),以便部署到移動終端等嵌入設(shè)備上。鮑文霞等[4]提出了一種輕量型殘差網(wǎng)絡(luò)(Light weight residual network,LW-ResNet),用于對水稻害蟲進行識別。該模型對13類水稻害蟲的識別準確率為92.5%,并且該模型的參數(shù)量只有1.62×10 6 個,浮點運算量只有0.34×109次。Espejo-Garcia等[5]使用遷移學(xué)習(xí)的方法實現(xiàn)對作物營養(yǎng)缺乏癥狀的診斷,在初始化模型權(quán)重時,采用了基于ImageNet數(shù)據(jù)集的噪聲學(xué)生模型訓(xùn)練結(jié)果,然后使用自建的數(shù)據(jù)集在EfficientNetB4模型上微調(diào)。
隨著研究的深入,一些學(xué)者針對卷積神經(jīng)網(wǎng)絡(luò)的不足提出了一些改進方案。比如針對卷積神經(jīng)網(wǎng)絡(luò)只能提取識別對象的空間信息而無法獲得通道間關(guān)系信息,Hu等[6]提出的SENet模型將通道注意力引入網(wǎng)絡(luò)。SENet網(wǎng)絡(luò)模型獲得了2017年ImageNet大規(guī)模圖像識別競賽(ImageNet large scale visual recognition challenge,ILSVRC)圖像分類子任務(wù)中的第一名。使用通道注意力機制可以顯著提高模型的識別準確率。為此,有學(xué)者將注意力機制方法引入農(nóng)業(yè)領(lǐng)域。劉陽等[3]主要從網(wǎng)絡(luò)規(guī)模的小型化以及輕量化角度對SENet網(wǎng)絡(luò)結(jié)構(gòu)提出一系列改進措施并在PlantVillage數(shù)據(jù)集中的14種作物38類葉片上進行驗證。趙輝等[7]使用另一種被稱之為高效通道注意力(Efficient channel attention,ECA)[8]的機制,ECA是通道注意力機制的一種,是對原始通道注意力機制SENet的一種改進。趙輝等[7]將ECA通道注意力機制應(yīng)用到田間雜草識別領(lǐng)域,改進后的模型較改進前的模型平均識別準確率提高了2.09個百分點,為智能除草機器人開發(fā)奠定了技術(shù)基礎(chǔ)。孫俊等[9]以MobileNet-V2模型為基礎(chǔ),將ECA通道注意力機制引入模型并將分組卷積引入模型,實現(xiàn)田間農(nóng)作物葉片病害的識別。改進后的模型較改進前的模型識別準確率提高了2.91個百分點,達到了92.20%的識別準確率。甘雨等[10-11]將坐標注意力(Coordinate attention, CA)機制引入EfficientNet網(wǎng)絡(luò)結(jié)構(gòu),提出了一種改進的輕量化作物害蟲識別模型 CA-EfficientNet,該模型在大規(guī)模害蟲數(shù)據(jù)集IP102[12]中的識別準確率達到69.45%,較改進前作物害蟲識別準確率提高了2.32個百分點。Zhao等[13]首先提出結(jié)合Inception結(jié)構(gòu)和殘差結(jié)構(gòu)來構(gòu)建新的網(wǎng)絡(luò)結(jié)構(gòu),然后將改進的塊注意力模塊(Convolutional block attention module,CBAM)引入網(wǎng)絡(luò),實現(xiàn)對玉米、馬鈴薯和番茄病害葉片的分類識別,3種作物的整體識別準確率可以達到99.55%。Zhao等[14]使用遷移學(xué)習(xí)結(jié)合注意力機制提出DTL-SE-ResNet50模型。該模型以ResNet50為基礎(chǔ),將SENet方法引入后提出SE-ResNet50網(wǎng)絡(luò)模型。該模型先在ImageNet數(shù)據(jù)集上訓(xùn)練,得到一個初始權(quán)重,然后將初始模型在AI Challenge 2018公共數(shù)據(jù)集上進行再次訓(xùn)練獲得新的權(quán)重,最后將經(jīng)過上面2次訓(xùn)練后的模型在自建的蔬菜病害數(shù)據(jù)集上微調(diào),形成蔬菜病害DTL-SE-ResNet50模型。
可見,注意力機制在農(nóng)業(yè)領(lǐng)域的應(yīng)用主要使用通道注意力機制方法,并取得了較好的效果。借鑒通道注意力機制的思想,本研究提出多維間注意力機制識別模型Inter_3DriceNet模型。本研究提出的模型不僅考慮通道注意力機制信息,同時也考慮圖像高度注意力以及寬度注意力機制信息,以獲得圖像高度之間的關(guān)系以及寬度之間的關(guān)系。同時,在建立圖像高度之間關(guān)系的過程中,可以同時建立圖像通道和圖像寬度之間的關(guān)系。同理,在建立圖像寬度之間關(guān)系的時候,也同時建立圖像通道和圖像高度之間的關(guān)系。通過以上步驟,可以建立圖像在通道、高度和寬度之間的多維間三維立體空間關(guān)系。
1數(shù)據(jù)集
為了真實反映自然環(huán)境的實際病害數(shù)據(jù),本研究構(gòu)建了常見水稻病害數(shù)據(jù)集,所有圖片均使用Canon相機拍攝于實際田間場景,拍攝圖片分辨率從低到高分別為1 440×1 080、1 423×1 920、3 008×2 000、4 288×2 848、4 928×3 264、6 016×4 000、7 360×4 912??紤]到水稻病害的危害性以及頻發(fā)性,本研究主要選取影響水稻產(chǎn)量的以下6種病害做重點研究:水稻胡麻斑病、水稻白葉枯病、水稻紋枯病、水稻細菌性條斑病、稻曲病、稻瘟病。6種病害的部分示例如圖1所示。
本研究獲取的6種主要水稻病害數(shù)據(jù)樣本量(6 938張)如表1所示。
2多維間立體三維注意力機制
SENet模型通過建立通道之間的關(guān)系獲得了2017年ILSVRC競賽圖像分類子任務(wù)冠軍,顯示出建立通道之間關(guān)系的有效性以及優(yōu)越性。借鑒通道之間關(guān)系構(gòu)建的方法,本研究分別建立了高度(H)和寬度(W)之間的關(guān)系以獲得更豐富的特征信息。同時,為了簡化運算,本研究將以上建立的3種關(guān)系特征信息進行簡單相加并取平均值作為最終的特征信息,最終構(gòu)建出多維間的三維注意力機制水稻病害識別模型。
2.1基于通道關(guān)系的立體注意力機制構(gòu)建
2.1.1一維通道關(guān)系的建立卷積神經(jīng)網(wǎng)絡(luò)只能提取物體的空間特性,無法獲得不同通道間之間的關(guān)系。為解決該問題,Hu等[6]提出的SENet模型給出了最初的解決方案。為了建立通道之間的關(guān)系,SENet通過壓縮和激發(fā)2個步驟獲取通道間的關(guān)系。壓縮指的是通過一定的方法獲得輸入特征或者原始輸入圖像每個通道的全局信息,SENet模型使用簡單的全局平均池化(Global average pooling,GAP)操作獲得全局信息。激發(fā)指的是通過一定的機制獲得通道之間的相互關(guān)系,SENet模型通過設(shè)置2層全連接層實現(xiàn):首先將輸入特征輸入第一個全連接層,并將輸出維度設(shè)置為輸入維度的1/N倍(N是一個超參數(shù)),SENet模型將N設(shè)置為16;然后再連接一個全連接層,并且將輸出維度升維為和第一層全連接層的輸入維度相同。2層全連接層構(gòu)成的網(wǎng)絡(luò),實際上是含有一個隱藏層的多層感知機(Multi-layer perceptron,MLP)。通過在全連接層設(shè)置不同的維度,強迫網(wǎng)絡(luò)學(xué)習(xí)出不同層之間的權(quán)重信息,進而獲得不同層之間的重要性,從而實現(xiàn)通道之間權(quán)重關(guān)系的構(gòu)建。
本研究不使用全連接層,使用1×1的卷積層替換全連接層,通過對1×1卷積設(shè)置不同的輸出維度來實現(xiàn)。具體過程為:將輸入特征輸入1×1的卷積層,并且將輸出通道數(shù)設(shè)置為原來的1/R,然后再通過一個1×1的卷積,將維度還原為初始的維度,從而構(gòu)建通道之間的關(guān)系。圖2表明了通道注意力機制的實現(xiàn)方法。
2.1.2高度和寬度空間關(guān)系的構(gòu)建2維空間高度和寬度之間關(guān)系的建立是通過堆疊不同的卷積層來實現(xiàn)的。具體實現(xiàn)流程如下:假設(shè)輸入特征X∈RC×H×W,首先將輸入特征X輸入1×1的卷積,并且將輸出特征降為原來的1/R,然后再次經(jīng)過2層3×3卷積,并且保持維度不變,最后輸入1×1卷積層,并將維度降為1。通過以上步驟,形成高度和寬度之間的二維注意力關(guān)系構(gòu)建過程。圖3展示了具體的實現(xiàn)過程。
2.1.3基于通道的三維注意力機制基于通道間關(guān)系的三維注意力機制構(gòu)建是將通道注意力乘以空間注意力獲得基于通道的立體注意力。具體的實現(xiàn)過程如圖4所示。
2.2基于高度關(guān)系的立體注意力機制構(gòu)建
2.2.1一維高度關(guān)系的建立為了獲得基于高度的立體注意力,首先需要建立輸入圖片高度之間的關(guān)系。高度間關(guān)系的構(gòu)建與通道關(guān)系的構(gòu)建類似,將高度通過2層1×1卷積層,通過設(shè)置不同的輸出維度來實現(xiàn)。具體實現(xiàn)流程如圖5所示。
2.2.2通道和寬度之間關(guān)系的構(gòu)建通道和寬度之間的關(guān)系構(gòu)成,也是通過堆疊不同的卷積層來實現(xiàn)的。輸入X的高度維度經(jīng)過幾層卷積操作可以建立通道和寬度之間的關(guān)系。具體的流程如圖6所示。
2.2.3基于高度的三維注意力機制高度間關(guān)系的三維注意力機制構(gòu)建是將高度注意力乘以由通道和寬度之間建立的注意力,以獲得基于高度的立體注意力。具體的實現(xiàn)過程如圖7所示。
2.3基于寬度關(guān)系的立體注意力機制構(gòu)建
2.3.1一維寬度關(guān)系的建立為了獲得基于寬度的立體注意力,首先需要建立寬度之間的關(guān)系。寬度關(guān)系的構(gòu)建也是采用和通道類似的方法。具體實現(xiàn)流程如圖8所示。
2.3.2通道和高度之間關(guān)系的構(gòu)建通道和高度之間關(guān)系的構(gòu)建,是將寬度通過不同的卷積層實現(xiàn),最終建立起通道和高度之間的二維注意力關(guān)系。具體的操作流程如圖9所示。
2.3.3基于寬度的三維注意力機制為了構(gòu)建基于寬度關(guān)系的三維注意力機制,將寬度注意力乘以通道和高度之間的關(guān)系值,獲得寬度的立體注意力。具體的實現(xiàn)過程如圖10所示。
2.4多維間立體注意力機制構(gòu)建
為了獲得以通道、高度以及寬度的多維間立體注意力,本研究將以上3種方法獲得的注意力值進行平均后作為最終的三維注意力。即,將圖4、圖7和圖10得到的特征值相加后再取平均值作為最終的多維間立體注意力機制的值。
3試驗環(huán)境與數(shù)據(jù)處理
本試驗使用Pytorch深度學(xué)習(xí)軟件進行仿真驗證。電腦配置中,中央處理器(CPU):Intel i7-9700@3.00 GHz,圖形處理器(GPU):英偉達GeForce RTX2060,顯存大小為6 GB。
3.1試驗參數(shù)設(shè)置
為了訓(xùn)練模型并驗證模型的效果,將數(shù)據(jù)集按照80%和20%的比例劃分為訓(xùn)練集和驗證集。由于顯存大小只有6 GB,將批處理大小設(shè)置為16。整個訓(xùn)練集一共迭代訓(xùn)練100次,即訓(xùn)練次數(shù)設(shè)置為100。本試驗使用隨機梯度下降(SGD)優(yōu)化器,并設(shè)置優(yōu)化器學(xué)習(xí)率為0.001,動量因子(Momentum)設(shè)置為0.9,權(quán)重衰減系數(shù)(Weight_decay)設(shè)置為0.005??s放因子(R)取值為8。
3.2數(shù)據(jù)預(yù)處理方法
為了保證訓(xùn)練的穩(wěn)定性,對圖片進行歸一化處理。即將圖片的R、G、B 3個通道值分別減去均值并除以標準差。均值和標準差的值分別設(shè)置為(0.485,0.456,0.406)和(0.229,0.224,0.225)。以上均值和標準差來自對ImageNet數(shù)據(jù)集中所有圖片計算后得到的均值和標準差。
因為訓(xùn)練模型要求輸入的圖片尺寸一致,先將圖片的短邊調(diào)整為256像素大小,然后從圖片的中心選取224×224像素大小作為訓(xùn)練圖片的輸入尺寸。
4結(jié)果與分析
為了保證算法比較的公平性,各算法使用相同的試驗參數(shù)和相同的圖像預(yù)處理方法。
4.1不同模型性能對比試驗
為了評估本研究Inter_3DRiceNet模型的性能,選取當前主流深度模型以及注意力機制網(wǎng)絡(luò)模型進行對比分析。選取的經(jīng)典網(wǎng)絡(luò)模型:ResNet模型[15]、MobileNetV2模型[16]、DenseNet模型[17]、EfficientNet模型[18]。選取的注意力機制的模型:SENet模型和GCT模型[19],其中SENet和GCT模型是基于ResNet50網(wǎng)絡(luò)結(jié)構(gòu)進行試驗,各算法都迭代100次,經(jīng)過100次迭代之后在驗證集上的識別準確率曲線如圖11所示。
圖11表明,表現(xiàn)最差的是EfficientNet_B0模型,該模型不僅準確率最差,而且波動性也是最大的。表現(xiàn)最好的是本研究所提出的模型,算法準確率基本維持在98%附近,其次是DenseNet模型。而2個注意力機制模型SENet和GCT的準確率僅次于DenseNet模型。
為了進一步分析各模型的準確率,統(tǒng)計了各模型的最高準確率以及對應(yīng)的輪次。從表2可以看出,8種模型的最高準確率都在96.00%以上,本研究提出的模型準確率最高(98.32%),比ResNet50模型提高了1.43個百分點,比DenseNet模型提高了0.56個百分點,比SENet模型提高了0.92個百分點。說明使用多維間三維注意力機制方法可以在一定程度上提高模型的準確率。
4.26種常見水稻病害識別結(jié)果定性分析
為了更詳細地分析每種水稻病害的識別效果,分別計算6種水稻病害在測試集上的混淆矩陣值,計算結(jié)果如圖12所示。
水稻胡麻斑病在測試集上的數(shù)目是291張圖片,其中預(yù)測正確的有283個,8張病害圖片預(yù)測錯誤,其中錯誤預(yù)測為水稻白葉枯病、水稻紋枯病、水稻細菌性條斑病的個數(shù)都是1張,有2張病害被預(yù)測為稻曲病,3張水稻胡麻斑病的圖片被預(yù)測為稻瘟病。由混淆矩陣可知,對角線上表示預(yù)測正確的數(shù)目都遠遠大于預(yù)測錯誤的數(shù)目,證明本研究算法在各類水稻病害上取得了比較好的識別效果。
4.36種常見水稻病害識別結(jié)果定量分析
為了對每種水稻病害做定量分析,分別從精度、召回率、特異度、F1得分以及平均準確率這5個指標進行定量分析。
4.3.1定量分析評價指標TP(True positive)被稱為真正類,表示模型正確地預(yù)測為正的樣本數(shù);FP(False positive)被稱為假正類,表示模型將樣本錯誤地預(yù)測為正的樣本數(shù);FN(False negative)被稱為假負類,表示模型將樣本錯誤地預(yù)測為負的樣本數(shù);TN(True negative)被稱為真負類,表示模型正確地預(yù)測為負的樣本數(shù)。而精度、召回率、特異度等的計算來自于以上4個基本概念,為表示它們之間的關(guān)系,使用如下公式來說明。
精度(P)的公式為:
P=TPTP+FP×100%(1)
精度表示被正確預(yù)測的樣本數(shù)與被預(yù)測的樣本總數(shù)的比率,值越大表示模型的預(yù)測能力越好。
特異度(S)的公式為:
S=TNFP+TN×100%(2)
特異度表示預(yù)測為負樣本中預(yù)測正確的樣本除以真實標簽是負樣本的數(shù)量。
召回率(R)的公式為:
R=TPTP+FN×100%(3)
召回率也稱之為查全率,表示預(yù)測正確的正樣本占所有正樣本的比例,值越大表示模型的預(yù)測能力越好。
F1得分定義為:
F1=2×(P×R)P+R×100%(4)
F1得分是為了綜合考慮精度和召回率這2個指標之間的關(guān)系,可以看作是精度和召回率之間的一種調(diào)和平均。因為精度和召回率是一對矛盾的指標。當精度高時,召回率往往偏低;而精度低時,召回率往往偏高。F1得分的核心思想在于盡可能地提高精度和召回率的同時,使兩者之間的差異盡可能小。
準確率(Accuracy, ACC)的定義為:
ACC=TP+TNTP+TN+FP+FN×100%(5)
ACC表示預(yù)測對的樣本數(shù)占總樣本數(shù)的比例。但是在正樣本、負樣本數(shù)量不均衡的情況下,準確率指標有一定的缺陷。
4.3.2定量分析試驗結(jié)果根據(jù)以上定義,分別計算出每種水稻病害在測試集上的精度、召回率、特異度、F1得分以及平均準確率(表3)。從表3可知,精度最低的是稻曲病,只有92.7%,其次是水稻紋枯病。召回率最低的是水稻紋枯病,只有92.7%。特異度的值各病害差別不大。F1得分最低的是水稻紋枯病,其次是稻曲病。從以上分析可知,該模型對水稻紋枯病和稻曲病的識別效果不太好。
通過分析水稻紋枯病數(shù)據(jù)集可知,水稻紋枯病數(shù)據(jù)集中的圖片大部分都是橫向長條狀或者縱向長條狀。很多圖片的橫縱比為6∶1、7∶1、8∶1,較高的橫縱比加大了模型識別的難度。部分橫向長條狀樣本示例圖片如圖13所示。
通過對稻曲病數(shù)據(jù)集分析可知,拍攝的稻曲病病害表現(xiàn)差異較大,病害的顏色有黃色、黑色,病害的范圍有整株稻穗或幾個稻穗。從圖14可知,稻曲病圖像差異較大,而且該數(shù)據(jù)集的樣本總數(shù)只有716張,進一步加大了模型提取特征的難度。
4.3.3類激活圖可視化分析為了直觀地展示本研究算法的性能,使用Grad-CAM方法[20]對學(xué)習(xí)到的特征進行可視化展示。以水稻紋枯病為展示樣例,圖15分別展示了網(wǎng)絡(luò)模型從層1到層4學(xué)習(xí)到的圖像特征信息。由圖15可知,經(jīng)過網(wǎng)絡(luò)的逐層學(xué)習(xí)后,學(xué)習(xí)出的特征區(qū)域范圍逐漸增加。比如層1主要學(xué)習(xí)較小區(qū)域的邊緣信息,層2不僅學(xué)習(xí)到層1已有的邊緣信息,還學(xué)習(xí)出其他區(qū)域的邊緣信息,并且學(xué)習(xí)的區(qū)域變大了。層3可以學(xué)習(xí)主要區(qū)域的邊緣信息,即圖中中心區(qū)域的邊緣信息。這種學(xué)習(xí)方式符合人類觀察物體的特點。人類在觀察物體時,會重點關(guān)注物體主要區(qū)域的顯著特征。經(jīng)過層4學(xué)習(xí)后,網(wǎng)絡(luò)獲得了更大區(qū)域的顯著特征。這樣可以在更高的視角理解圖像,可以對圖像有一個全局的認識,從而避免陷入局部區(qū)域的細節(jié)之中。圖15不僅說明模型可以逐層學(xué)習(xí)更大范圍的圖像特征,而且說明在模型學(xué)習(xí)各層特征的過程中,對同一層特征學(xué)習(xí)并不是平等對待的,而是學(xué)習(xí)層內(nèi)重點區(qū)域的特征,即將注意力機制的學(xué)習(xí)也貫穿到各層特征的學(xué)習(xí)過程之中。比如層1重點學(xué)習(xí)了圖像左上和右下區(qū)域的邊緣特征信息,層3重點學(xué)習(xí)了中間區(qū)域的更長范圍內(nèi)的邊緣信息。
5結(jié)論
為提高自然環(huán)境中常見水稻病害的識別率,從而為精準防治水稻病害提供參考進而提升水稻產(chǎn)量和質(zhì)量,本研究提出一種多維間關(guān)系的三維注意力機制Inter_3DRiceNet模型。為了真實反映自然環(huán)境情況,本研究收集自然環(huán)境下的6種常見水稻病害共計6 938張圖片。借鑒通道注意力機制優(yōu)點,本研究不僅構(gòu)建了通道注意力機制,同時構(gòu)建了高度注意力機制以及寬度注意力機制,最終獲得多維間的三維注意力機制模型。結(jié)果表明,本研究模型在6種常見水稻病害數(shù)據(jù)集上取得了較好的識別準確率,優(yōu)于ResNet、MobileNet、DenseNet、EfficientNet等經(jīng)典神經(jīng)網(wǎng)絡(luò)模型,并優(yōu)于SENet和GCT等注意力機制模型。本研究的模型展示了其在識別常見水稻病害中的有效性。
參考文獻:
[1]佚名. 2022年全國農(nóng)作物重大病蟲害發(fā)生趨勢預(yù)報[J]. 中國植保導(dǎo)刊,2022,42(4):107-108.
[2]趙立新,侯發(fā)東,呂正超,等. 基于遷移學(xué)習(xí)的棉花葉部病蟲害圖像識別[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(7):184-191.
[3]劉陽,高國琴. 采用改進的 SqueezeNet 模型識別多類葉片病害[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(2):187-195.
[4]鮑文霞,吳德釗,胡根生,等. 基于輕量型殘差網(wǎng)絡(luò)的自然場景水稻害蟲識別[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(16):145-152.
[5]ESPEJO-GARCIA B, MALOUNAS I, MYLONAS N, et al. Using EfficientNet and transfer learning for image-based diagnosis of nutrient deficiencies[J]. Computers and Electronics in Agriculture,2022,196:106868.
[6]HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]. Piscataway: IEEE,2018:7132-7141.
[7]趙輝,曹宇航,岳有軍,等. 基于改進 DenseNet 的田間雜草識別[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(18):136-142.
[8]WANG Q, WU B, ZHU P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]. Piscataway:IEEE,2020:11531-11539.
[9]孫俊,朱偉棟,羅元秋,等. 基于改進 MobileNet-V2 的田間農(nóng)作物葉片病害識別[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(22):161-169.
[10]甘雨,郭慶文,王春桃,等. 基于改進 EfficientNet 模型的作物害蟲識別[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(1):203-211.
[11]HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]. Piscataway:IEEE, 2021.
[12]WU X, ZHAN C, LAI Y K, et al. IP102: a large-scale benchmark dataset for insect pest recognition[C]. Piscataway:IEEE, 2019.
[13]ZHAO Y, SUN C, XU X, et al. RIC-Net: a plant disease classification model based on the fusion of Inception and residual structure and embedded attention mechanism[J]. Computers and Electronics in Agriculture, 2022,193:106644.
[14]ZHAO X, LI K, LI Y, et al. Identification method of vegetable diseases based on transfer learning and attention mechanism[J]. Computers and Electronics in Agriculture,2022,193:106703.
[15]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Piscataway:IEEE,2016:770-778.
[16]SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: inverted residuals and linear bottlenecks[C]. Piscataway: IEEE,2018:4510-4520.
[17]HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]. Piscataway:IEEE,2017.
[18]TAN M, LE Q. Efficientnet: rethinking model scaling for convolutional neural networks[C]. Madison:ACM,2019.
[19]YANG Z, ZHU L, WU Y, et al. Gated channel transformation for visual recognition[C]. Piscataway:IEEE,2020.
[20]SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam: visual explanations from deep networks via gradient-based localization[C]. Piscataway:IEEE,2017.
(責(zé)任編輯:陳海霞)
收稿日期:2023-02-24
基金項目:國家自然科學(xué)基金項目(32171888)
作者簡介:王忠培(1981-),男,安徽金寨人,博士,助理研究員,研究方向為智能農(nóng)業(yè)技術(shù)。(E-mail)wangzhongpei@aaas.org.cn
通訊作者:謝成軍, (E-mail)cjxie@iim.ac.cn