趙小虎,李曉
(1.礦山互聯(lián)網(wǎng)應(yīng)用技術(shù)國家地方聯(lián)合工程實(shí)驗(yàn)室(中國礦業(yè)大學(xué)),徐州221008;2.中國礦業(yè)大學(xué)信息與控制工程學(xué)院,徐州221008)
國家“十三五”規(guī)劃就已明確指出,農(nóng)業(yè)領(lǐng)域的應(yīng)用基礎(chǔ)和軟件科學(xué)研究急需加強(qiáng),通過信息技術(shù)推動(dòng)農(nóng)業(yè)技術(shù)發(fā)展。為實(shí)現(xiàn)農(nóng)業(yè)生產(chǎn)智能化、現(xiàn)代化,優(yōu)秀學(xué)者將圖像分割技術(shù)應(yīng)用于農(nóng)業(yè)領(lǐng)域,以解決病蟲害防治、診斷不及時(shí)等問題[1]。目前,圖像分割大致分為語義分割、實(shí)例分割和全景分割三個(gè)部分。在農(nóng)業(yè)領(lǐng)域較為常用的為語義分割,圖像語義分割不僅能夠在像素級別對目標(biāo)進(jìn)行逐像素分割,實(shí)現(xiàn)從底層到高層的語義推理過程,還能夠?qū)δ繕?biāo)進(jìn)行定位[2-3]。將語義分割技術(shù)應(yīng)用于農(nóng)作物病害識(shí)別可以實(shí)現(xiàn)非人工監(jiān)測病害分析,減少人工成本,實(shí)現(xiàn)病害診斷、防治,促進(jìn)農(nóng)業(yè)生產(chǎn)的高產(chǎn)能、優(yōu)品質(zhì)、高效益。
傳統(tǒng)的語義分割方法由圖像紋理、顏色、幾何形狀和空間結(jié)構(gòu)等信息對目標(biāo)進(jìn)行分割,將具有同一語義的像素分割為同一區(qū)域,且各區(qū)域間互不相交。傳統(tǒng)語義分割方法可分為基于閾值的分割、基于聚類的分割、基于邊緣的分割和基于區(qū)域的分割等,但傳統(tǒng)方法需要特定的預(yù)處理以及人工標(biāo)注數(shù)據(jù)集,成本高耗時(shí)長,因而網(wǎng)絡(luò)的靈活性不高,應(yīng)用范圍有所限制。隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),圖像分割技術(shù)突破傳統(tǒng)模式得到飛速發(fā)展。2015年LONG等人提出FCN[4]網(wǎng)絡(luò)以后,SegNet、U-Net、PSPNet、ASPP、DeepLab系 列 和Mask R-CNN等網(wǎng)絡(luò)陸續(xù)出現(xiàn),不同程度的實(shí)現(xiàn)了空間上文信息完整性和多尺度提取特征等目標(biāo),提高模型的精度和分割速度,普適性較好,泛化性較強(qiáng)。目前在基于深度學(xué)習(xí)的語義分割方法中,主要分為基于強(qiáng)監(jiān)督、弱監(jiān)督和無監(jiān)督學(xué)習(xí)的語義分割[5]。其中,弱監(jiān)督和無監(jiān)督語義分割網(wǎng)絡(luò)模型搭建難度較大[6],且已有的模型效果精度不高,魯棒性不強(qiáng)。本文在監(jiān)督學(xué)習(xí)的基礎(chǔ)上將圖像語義分割主要分為基于編-解碼架構(gòu)和基于融合架構(gòu),并對兩個(gè)架構(gòu)下的農(nóng)作物病害分割進(jìn)行闡述。以下將簡要闡述常用的圖像語義分割數(shù)據(jù)集和網(wǎng)絡(luò)評價(jià)指標(biāo)。
在圖像語義分割技術(shù)中,常用的數(shù)據(jù)集有PASCALVOC、Microsoft COCO、Cityscapes等,具體介紹如表1所示。
表1 圖像語義分割常用數(shù)據(jù)集
目前較為缺乏農(nóng)作物病害數(shù)據(jù)集,僅有的AI challenger 2018比賽官方公布的PlantVillage數(shù)據(jù)集應(yīng)用于眾多農(nóng)作物病害分割研究,該數(shù)據(jù)集中帶有標(biāo)簽的數(shù)據(jù)包含32768張訓(xùn)練集圖像和4992張驗(yàn)證集圖像,涵蓋10個(gè)物種(蘋果、桃子、草莓、玉米、辣椒、番茄、橘子、葡萄、櫻桃、馬鈴薯),27種病害[7-9],并按照物種-病害-病級程度分為61類。以玉米葉片為例,如圖1所示。
圖1 PlantVillage數(shù)據(jù)集玉米葉片展示
目前在大多數(shù)的論文研究中,針對圖像語義分割網(wǎng)絡(luò)在通過訓(xùn)練和測試階段后,為了評價(jià)該網(wǎng)絡(luò)的性能,往往需要與其他網(wǎng)絡(luò)方法進(jìn)行對比,而經(jīng)常被用來對比的評價(jià)指標(biāo)為像素準(zhǔn)確率(Pixel Accuracy,PA)、平均準(zhǔn)確率(mean Pixel Accuracy,mPA)、平均交互比(Mean Intersection over Union,MIoU)和頻率加權(quán)交并比(Frequency Weighted Intersection over Union,F(xiàn)WMIoU)[10]。
(1)PA
PA表示被正確分類的像素占總像素的比例,值越大分割效果越好,其表達(dá)公式如式(1):
其中,r表示類別,Pii表示正確預(yù)測的像素?cái)?shù),Pij表示本是i類被分割成j類的數(shù)量。
(2)mPA
mPA表示每個(gè)類被正確分類的像素?cái)?shù)的比例,值越大分割效果越好,其表達(dá)公式如式(2):
其中r+1表示加上一個(gè)背景的總類別。
(3)MIoU
MIoU為分割網(wǎng)絡(luò)中常用的評價(jià)指標(biāo),該指標(biāo)表示在數(shù)據(jù)集中被正確分割的測試數(shù)據(jù)和已經(jīng)被標(biāo)簽好的分割數(shù)據(jù)相交叉的部分的平均值,值越大分割效果越好,其表達(dá)公式如式(3):
其中,P ji表示本是j類被分割成i類的數(shù)量。
真實(shí)的大田環(huán)境下背景較為復(fù)雜,農(nóng)作物的不同部位之間相互遮擋,由于天氣等原因存在光照不均勻的情況,這些因素致使復(fù)雜環(huán)境下的大田或大棚農(nóng)作物病害分割任務(wù)十分困難。目前主要從基于閾值、聚類、邊緣和深度學(xué)習(xí)的農(nóng)作物病害圖像分割進(jìn)行分類[11],但缺乏基于深度學(xué)習(xí)的農(nóng)作物病害分割技術(shù)應(yīng)用研究。因此,本文在監(jiān)督學(xué)習(xí)的基礎(chǔ)上將圖像語義分割主要分為基于編-解碼架構(gòu)和基于融合架構(gòu),并對兩個(gè)架構(gòu)下的農(nóng)作物病害分割進(jìn)行闡述。
基于編-解碼架構(gòu)的網(wǎng)絡(luò)是分割常用的方法,圖2為基本的編-解碼架構(gòu)模型,主要包括編碼器和解碼器部分,圖中藍(lán)色部分代表編碼器,對輸入圖像進(jìn)行下采樣,紫色部分代表解碼器,對特征圖進(jìn)行上采樣,前后相互對應(yīng)。編碼器通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提取病害圖像特征,大多數(shù)編碼器框架較為相似,解碼器通過編碼器得到的特征圖進(jìn)行逐像素類別標(biāo)注,實(shí)現(xiàn)病斑分割。FCN、SegNet、U-Net等都是編-解碼結(jié)構(gòu),并且有許多學(xué)者在基于編-解碼架構(gòu)的基礎(chǔ)上對其做出了改進(jìn)。
圖2 編-解碼架構(gòu)基本模型
段凌鳳等人[12]對比了SegNet、DeepLab和PSPNet網(wǎng)絡(luò)之后優(yōu)選了SegNet網(wǎng)絡(luò)并將一張?jiān)瓐D劃分成24張子圖,通過對子圖進(jìn)行基于SegNet改進(jìn)的網(wǎng)絡(luò)分割操作,最終再將子圖進(jìn)行拼接。SegNet網(wǎng)絡(luò)的編-解碼結(jié)構(gòu)使該模型能夠多尺度提取特征,且SegNet網(wǎng)絡(luò)結(jié)構(gòu)簡單、運(yùn)行速度快。王振等人[13]使用了編-解碼結(jié)構(gòu)網(wǎng)絡(luò)進(jìn)行玉米病斑分割,編碼器由VGG-16改進(jìn)得來,該部分記錄了池化索引,在解碼階段由池化索引進(jìn)行上采樣,最終得到密集的特征圖。此法避免了傳統(tǒng)的人工特征提取,且比現(xiàn)有的分割網(wǎng)絡(luò)結(jié)構(gòu)簡單。陳進(jìn)等人[14]在U-Net網(wǎng)絡(luò)基礎(chǔ)上對網(wǎng)絡(luò)進(jìn)行深度增加,并增加至32層,結(jié)合交叉損失熵函數(shù),以及自適應(yīng)時(shí)刻估計(jì)等方法,從而較為快速、準(zhǔn)確地分割出谷物、枝梗和莖稈。劉永波等人[15]通過使用兩個(gè)U-Net網(wǎng)絡(luò)并行的方式來分別實(shí)現(xiàn)玉米葉片和病斑的分割,進(jìn)而求出病斑與葉片的面積之比。以此來實(shí)現(xiàn)玉米病害的病級判斷,且病斑分割MIoU達(dá)到93.63%?;诰?解碼架構(gòu)的分割模型容易忽略像素間的空間上下文信息,導(dǎo)致分割結(jié)果對目標(biāo)位置失去敏感性。王雪等人[16]使用編碼器、多尺度特征提取、解碼器三個(gè)模塊解決了由于編碼下采樣過程中丟失空間上下文信息的問題,在U-Net網(wǎng)絡(luò)中加入Atrous卷積,擴(kuò)大感受野,在不加入?yún)?shù)量的同時(shí)提取了不同尺度的特征信息。張善文等人[17]提出了由編碼-解碼器構(gòu)成的多尺度融合神經(jīng)網(wǎng)絡(luò),ENs實(shí)現(xiàn)了病斑特征的多尺度提取,DNs使用九點(diǎn)雙線性插值算法對特征圖進(jìn)行上采樣,以恢復(fù)圖像尺寸和分辨率,該模型的MIoU達(dá)到91.36%。
綜上,基于編-解碼的圖像語義分割架構(gòu)可以提取圖像的淺層像素和深層語義信息,其中U-Net網(wǎng)絡(luò)在農(nóng)作物病害分割中得到較好的應(yīng)用,該網(wǎng)絡(luò)能夠使用較小數(shù)據(jù)集對農(nóng)作物病害實(shí)現(xiàn)分割訓(xùn)練與測試,并且其訓(xùn)練速度與分割準(zhǔn)確率可以得到很好的保證。但基于編-解碼架構(gòu)的網(wǎng)絡(luò)需要充分考慮像素的空間上下文信息,多尺度提取病害特征,提高模型分割精度。
基于融合架構(gòu)的農(nóng)作物病害分割模型常將基于全卷積網(wǎng)絡(luò)的語義分割模型和目標(biāo)檢測、圖像分類等模型相結(jié)合,如FCN-VGG16、FCN-AlexNet、FCN-CRF網(wǎng)絡(luò)等,獲取高層次語義信息和低層次邊界輪廓信息,有利于圖像深度特征提取,使分割性能提高,并較為準(zhǔn)確地實(shí)現(xiàn)在復(fù)雜大田環(huán)境下的病斑分割任務(wù)。劉立波等[18]采用VGG-16與FCN-8s融合方法進(jìn)行棉田冠層預(yù)分割操作,隨后將分類結(jié)果送入CRF模型,以加強(qiáng)像素之間的關(guān)聯(lián),從而更準(zhǔn)確地進(jìn)行邊緣分類,該模型可以很好地應(yīng)用在背景復(fù)雜、光照不均勻情況下。姜紅花等人[19]在基于Mask R-CNN的結(jié)構(gòu)前提下,主要分為四個(gè)部分完成雜草檢測,其中輸出模塊包括分類回歸、FCN,分別用來實(shí)現(xiàn)檢測雜草的類別、位置和面積,F(xiàn)CN網(wǎng)絡(luò)在整個(gè)網(wǎng)絡(luò)中較好地計(jì)算了目標(biāo)像素。孫俊等人[20]基于AlexNet識(shí)別網(wǎng)絡(luò),提出批歸一化和全局池化相結(jié)合的多種植物葉片病害分割識(shí)別模型,加速網(wǎng)絡(luò)收斂的同時(shí)減少特征數(shù)。郭小清等人[21]設(shè)計(jì)了基于Multi-Scale AlexNet的多感受野識(shí)別模型,在AlexNet模型中添加不同尺寸卷積核實(shí)現(xiàn)同時(shí)提取多種局部特征提取,對番茄葉部病害及8種病害程度的平均識(shí)別準(zhǔn)確率達(dá)到92.7%。許景輝等人[22]提出一種基于遷移學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)玉米病害分割識(shí)別模型,基于VGG-16模型設(shè)計(jì)了新的全連接層模塊,明顯提高了模型的收斂速度與識(shí)別能力。曹英麗等人[23]結(jié)合了YOLOv1、YOLOv2和Faster R-CNN網(wǎng)絡(luò),將YOLOv1的Dark?Net-19與Faster R-CNN的錨盒機(jī)制組合用來檢測水稻紋枯??;任守綱等人[24]基于VGGNet,使上采樣和卷積相結(jié)合實(shí)現(xiàn)反卷積,構(gòu)建DGVGGNet,使用多類別、二分類交叉熵?fù)p失函數(shù)來實(shí)現(xiàn)番茄葉部病害的十個(gè)類別的識(shí)別以及病斑的二分類分割。
綜上,基于融合架構(gòu)的分割網(wǎng)絡(luò)能夠完成環(huán)境較為復(fù)雜的病害分割任務(wù),結(jié)合目標(biāo)檢測、圖像分類等網(wǎng)絡(luò),使模型魯棒性更強(qiáng)、普適性更好、泛化能力更強(qiáng),對實(shí)現(xiàn)不同農(nóng)作物的不同病害分割提供可能性,但基于融合架構(gòu)的網(wǎng)絡(luò)算法復(fù)雜,部分網(wǎng)絡(luò)的參數(shù)量偏高。
本文闡述了圖像語義分割的發(fā)展現(xiàn)狀,描述了常用的數(shù)據(jù)集和模型評價(jià)指標(biāo)。此外,結(jié)合深度學(xué)習(xí),從基于編-解碼架構(gòu)和基于融合架構(gòu)兩個(gè)方面對圖像語義分割在農(nóng)作物病害識(shí)別的應(yīng)用進(jìn)行綜述,并指出其特點(diǎn)。盡管以上方法在農(nóng)作物病害識(shí)別中得到了廣泛應(yīng)用,但依然面臨以下挑戰(zhàn):
(1)實(shí)際生活中農(nóng)業(yè)病害分割需要考慮實(shí)時(shí)性,模型構(gòu)建需要平衡準(zhǔn)確率和運(yùn)行速度的關(guān)系,以達(dá)到準(zhǔn)確、實(shí)時(shí)地檢測農(nóng)作物病害;
(2)目前主流的網(wǎng)絡(luò)大多基于二維空間對農(nóng)作物病斑進(jìn)行提取,容易忽視空間位置信息,提取特征不夠準(zhǔn)確,故需要針對大田的復(fù)雜環(huán)境進(jìn)行3D數(shù)據(jù)應(yīng)用;
(3)針對數(shù)據(jù)集標(biāo)注不完善、缺少大規(guī)模數(shù)據(jù)集的現(xiàn)狀,可在基于弱監(jiān)督、無監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)上進(jìn)行改進(jìn),或使用遷移學(xué)習(xí)方法,使圖像分割具有更好地泛化性和普適性。