羅鳴,方睿,徐銘美,王宇
(成都信息工程大學(xué)計(jì)算機(jī)學(xué)院,成都 610225)
水稻、小麥、玉米是世界上三種最為重要的糧食作物,與人類的生活息息相關(guān)。這三種作物在生長(zhǎng)過程中,往往會(huì)遭受各種病害的侵?jǐn)_,對(duì)其產(chǎn)量造成嚴(yán)重的影響[1-2]。當(dāng)前農(nóng)作物病害識(shí)別主要依靠當(dāng)?shù)氐膶I(yè)種植戶或者農(nóng)業(yè)部門的專家,但由于人數(shù)有限、人工成本高、效率低等因素,往往不能在大規(guī)模區(qū)域進(jìn)行病害判別[3-4]。建立一個(gè)可以在移動(dòng)端進(jìn)行快速、準(zhǔn)確識(shí)別農(nóng)作物病害類型的模型是非常具有現(xiàn)實(shí)意義的。
隨著人工智能的發(fā)展,深度學(xué)習(xí)的方法被應(yīng)用于農(nóng)作物病害識(shí)別當(dāng)中。黃雙萍等[5]提出了深度卷積神經(jīng)網(wǎng)絡(luò)CoogleNet 模型方法對(duì)1467 張?zhí)镩g采集的水稻稻穗病檢測(cè),在驗(yàn)證集上準(zhǔn)確率最高為92%。范春林等[6]使用遷移學(xué)習(xí)的方法對(duì)16種主要的水稻病蟲害共9675張圖片進(jìn)行病蟲害識(shí)別,在ResNet50 上的準(zhǔn)確率為95.23%。王國(guó)偉等[7]采用LeNet 模型在5 種類別的玉米病害上識(shí)別平均準(zhǔn)確率達(dá)96%。這些研究基于經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),雖然在農(nóng)作物病害識(shí)別上取得了較好的識(shí)別精度,但存在訓(xùn)練出的模型大,參數(shù)量多,識(shí)別速度較慢等問題。能夠在手機(jī)上快速識(shí)別農(nóng)作物病害才符合實(shí)際的需求[8],所以本文收集了3種農(nóng)作物的15種病害的圖像建立了樣本集,基于3 種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí)的方法建立作物病害圖像識(shí)別模型。通過神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類需要大量的計(jì)算機(jī)資源和圖像數(shù)據(jù),并且花費(fèi)時(shí)間長(zhǎng),本文使用遷移學(xué)習(xí)的方法在較大的圖像數(shù)據(jù)集上訓(xùn)練好模型,通過權(quán)重遷移,在小的圖像數(shù)據(jù)集上經(jīng)過短時(shí)間訓(xùn)練就能達(dá)到較好的分類效果[9]。在提高精度的同時(shí),也減少了模型訓(xùn)練的時(shí)間。
其中,Shufflenet v2 是Face++ 2018 年提出的一個(gè)高效網(wǎng)絡(luò)模型,在Shufflenet v1分組卷積的基礎(chǔ)上,設(shè)計(jì)了一種新的運(yùn)算,使輸入的通道數(shù)與輸出通道數(shù)保持相同,最小化了內(nèi)存訪問成本[10]。MobileNet v3 是由谷歌公司2019 年推出的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò),分為兩個(gè)版本MobileNet_large 和MobileNet_small[11],前者的網(wǎng)絡(luò)層數(shù)較后者的網(wǎng)絡(luò)層數(shù)更深,且MobileNet_large 在圖像分類任務(wù)上取得的效果更好[12-13]。GhostNet由華為諾亞方舟實(shí)驗(yàn)室在2020年提出,構(gòu)造了一種端側(cè)神經(jīng)網(wǎng)絡(luò),極大的減少了參數(shù)量和計(jì)算量[14]。這三個(gè)輕量級(jí)網(wǎng)絡(luò)在圖像分類任務(wù)上均取得了較好的效果,但使用這三個(gè)網(wǎng)絡(luò)在農(nóng)業(yè)作物病害識(shí)別的研究上還較少。
本文使用的農(nóng)作物病害數(shù)據(jù)集包含水稻、小麥、玉米三種作物共15 種常見病害,其中6 種水稻病害,4 種小麥病害,5 種玉米病害,共計(jì)12011張圖片,作物病害類型及圖片數(shù)量如表1所示,每種類型的病害如圖1所示。
圖1 作物病害數(shù)據(jù)樣例
表1 水稻、小麥、玉米的病害類型以及圖片數(shù)量
數(shù)據(jù)集中的圖片來源主要是通過搜索引擎獲取。由于獲取的圖片尺寸大小不一,每張圖片還包含過多的冗余信息,而模型訓(xùn)練時(shí),要求輸入統(tǒng)一的維度和大小,因而統(tǒng)一將圖片轉(zhuǎn)換為了224×224 像素的大小和RGB 三通道,并將數(shù)據(jù)集按照8∶1∶1 的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練通常需要較大的數(shù)據(jù)集和計(jì)算資源,而使用遷移學(xué)習(xí),預(yù)先在大規(guī)模數(shù)據(jù)集上訓(xùn)練好成熟的網(wǎng)絡(luò)模型,再將參數(shù)遷移到本文的圖像分類模型上,不僅可以明顯降低我們訓(xùn)練模型所需的計(jì)算資源,還能在保證一定精度條件下提高模型的學(xué)習(xí)速度。本文選取輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)Shufflenet v2 1×,MobileNet v3_large,GhostNet,首先在ImageNet 數(shù)據(jù)集上得到1000 種分類的預(yù)訓(xùn)練模型。然后,進(jìn)行模型遷移訓(xùn)練[15-16],刪除最后的全連接層,添加15個(gè)類的新分類器,然后使用作物病害數(shù)據(jù)集訓(xùn)練這個(gè)新的分類器,從而得到農(nóng)作物病害識(shí)別的模型。
遷移學(xué)習(xí)通常分為特征選擇遷移、特征映射遷移和權(quán)重遷移三種方式,本文的研究使用的是基于權(quán)重的遷移學(xué)習(xí),基于權(quán)重的遷移學(xué)習(xí)通常采用的是凍結(jié)預(yù)訓(xùn)練網(wǎng)絡(luò)的所有層,然后逐步解凍靠近最后一層的部分卷積層,其余層的權(quán)重直接使用,重新訓(xùn)練未凍結(jié)的卷積層參數(shù)和分類器[17]。由于實(shí)驗(yàn)所用到的網(wǎng)絡(luò)均為輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)模型的參數(shù)量比較少,所以實(shí)驗(yàn)不凍結(jié)任何層,每個(gè)網(wǎng)絡(luò)中的所有參數(shù)均進(jìn)行訓(xùn)練[18]。
ShuffleNet v1 是在殘差單元上進(jìn)行的改進(jìn),將部分1×1 的卷積替換為分組卷積,模型基本結(jié)構(gòu)如圖1 所示,ShuffleNet v2 在此基礎(chǔ)上提出了channel split 這種新的運(yùn)算,將輸入的特征通道分為了兩部分,每個(gè)分支替代原來的分組卷積,減少了計(jì)算成本,而且兩個(gè)部分的輸出和輸出通道數(shù)相同。最后使用concatnate 操作進(jìn)行通道數(shù)合并,從而達(dá)到了較好的分類精度。基本單元如圖2所示。
圖2 ShuffleNet v1和ShuffleNet v2基本模塊
MobileNet v2 建立在深度可分離的基礎(chǔ)上[14],極大的減少了參數(shù)量和計(jì)算量,又引入了逆殘差結(jié)構(gòu)來提高了網(wǎng)絡(luò)性能,而MobileNet v3 在MobileNet v2 的基礎(chǔ)上將最后平均池化層前移,并刪除了最后一個(gè)卷積層,同時(shí)也加入了Sequeze and Excitation 模塊在線性瓶頸結(jié)構(gòu)的最后一層上[19],取代了MobileNet v2 的逐點(diǎn)卷積,提高了模型的精度。模塊如圖3 所示。另外也將swish 函數(shù)替換為了h-swish 激活函數(shù),提升了運(yùn)行的速度。如公式(1)所示。
圖3 Sequeze and Excitation模型結(jié)構(gòu)
通常訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)里特征圖中存在著很多相似的特征,而GhostNet 引入了殘差結(jié)構(gòu)[20],將常規(guī)的卷積分為了兩步。第一步,使用少量的卷積核生成一組特征圖,然后對(duì)生成的這一組特征圖再做一次簡(jiǎn)單的計(jì)算生成另一組特征,再將這兩組特征串聯(lián)。第二步,使用Ghost module 對(duì)串聯(lián)的特征圖進(jìn)行卷積,減少了大量的參數(shù)量[21]。Ghost module如圖4所示。
圖4 Ghost Module結(jié)構(gòu)
本實(shí)驗(yàn)使用的是ubuntu 16.04操作系統(tǒng),硬件環(huán)境CPU 是R5-3600X,內(nèi)存為32 GB,GPU 為NVIDIA 的1080Ti 16 G 顯卡。軟件環(huán)境為CUDA 11.0、CUDNN 8.0.5、Python 3.7、Pytorch 11.7。
本文使用訓(xùn)練集和驗(yàn)證集分別對(duì)Shufflenet v2 1×、MobileNet v3_large、GhostNet 進(jìn)行遷移訓(xùn)練,得到三個(gè)分類的預(yù)訓(xùn)練模型,訓(xùn)練的批處理數(shù)量(banch size)為64,學(xué)習(xí)率設(shè)置為0.001,一共迭代(epoch)50 次。使用Adam 算法對(duì)網(wǎng)絡(luò)模型進(jìn)行優(yōu)化。
Shufflenet v2 1×、MobileNet v3_large、Ghost-Net 模型訓(xùn)練過程的準(zhǔn)確率和loss 曲線變化如圖5所示,從折線圖中可以看出,MobileNet v3_large的準(zhǔn)確率上升和loss 曲線的下降都變化比較快,而Shufflenet v2 1×從最開始的準(zhǔn)確率就比另外兩個(gè)高,但在50個(gè)epoch后的準(zhǔn)確率最低。
圖5 準(zhǔn)確率曲線對(duì)比
圖6 損失率曲線對(duì)比
從表2 記錄了ShuffleNet v2 1×、MobileNet v3_large、GhostNet 三種模型通過遷移學(xué)習(xí)在驗(yàn)證集和測(cè)試集上的準(zhǔn)確率和模型的大小,MobileNet v3_large 在農(nóng)作物病害上識(shí)別精度最高達(dá)到了99.27%,ShuffleNet v2 1×訓(xùn)練的模型體積最小,僅1.21M。而使用GhostNet 訓(xùn)練出的模型體積最大,分類的精度但不是最高, MobileNet v3 憑借著深度可分離卷積和SE模塊,在識(shí)別的精度和模型大小上表現(xiàn)的更好。
表4 基于遷移學(xué)習(xí)不同模型的性能指標(biāo)
本文針對(duì)農(nóng)作物病害在移動(dòng)端便捷識(shí)別的需求,建立了水稻、小麥、玉米三種農(nóng)作物共15種常見病害圖片樣本數(shù)據(jù)集,并基于遷移學(xué)習(xí)的方法,輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型,構(gòu)建了識(shí)別準(zhǔn)確率高,適合移動(dòng)端應(yīng)用的農(nóng)作物病害圖像識(shí)別的模型。
通過將Shufflenet v2 1×、 MobileNet v3_large和GhostNet 這三個(gè)目前分類效果較好的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)遷移到作物病害數(shù)據(jù)集上,不凍結(jié)權(quán)重參數(shù),經(jīng)過較短時(shí)間的訓(xùn)練,從模型的體積和識(shí)別的精度上對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行綜合考慮[22-23],MobileNet v3_large 模型在農(nóng)作物病害上具有較好的分類效果,為后續(xù)農(nóng)作物病害在移動(dòng)設(shè)備上的應(yīng)用提供了可靠的技術(shù)支持,本實(shí)驗(yàn)與目前的基于深度學(xué)習(xí)的農(nóng)作物病害識(shí)別的方法相比,不僅豐富了水稻、小麥、玉米的病害數(shù)據(jù)的種類和數(shù)量,還首次將這三個(gè)分類效果較好的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在農(nóng)作物病害識(shí)別上并取得了不錯(cuò)的分類效果。
本研究建立的模型只在15種農(nóng)作物病害分類任務(wù)上取得了較好的精確度,但在實(shí)際的應(yīng)用場(chǎng)景中,作物的病害種類還有很多,并且不同種類的病害在不同時(shí)期表現(xiàn)出病癥可能類似,這還需要采集更多的病害信息[24]。另外數(shù)據(jù)集采集的圖像均來自于網(wǎng)絡(luò),每張圖片在特征信息上還存在較多的差異[25],在之后對(duì)模型應(yīng)用到實(shí)際的識(shí)別場(chǎng)景中時(shí),需要進(jìn)一步擴(kuò)充數(shù)據(jù)集,以提高模型的泛化能力。