姚建斌, 劉建華, 張英娜, 李元好
(華北水利水電大學(xué) 信息工程學(xué)院, 河南 鄭州 450046)
精準(zhǔn)識別農(nóng)作物生長階段不僅對農(nóng)作物的科學(xué)施肥、按需灌溉、合理施藥、保產(chǎn)增產(chǎn)具有重要意義,而且對實現(xiàn)農(nóng)業(yè)生產(chǎn)過程的智能化管理具有促進作用。傳統(tǒng)的冬小麥生育階段識別需要不間斷地觀測農(nóng)作物長勢,且依賴于專業(yè)人士的經(jīng)驗判斷,無法適應(yīng)當(dāng)前日益擴大的種植規(guī)?,F(xiàn)狀,難以保證有效生產(chǎn)和科學(xué)增產(chǎn)。隨著深度學(xué)習(xí)技術(shù)在圖像處理和識別領(lǐng)域中的不斷發(fā)展[1-4],其在農(nóng)業(yè)信息化管理方面的應(yīng)用也越來越廣泛[5-7]。如:2011年,陸明等[8]在識別玉米生長期的研究中,根據(jù)玉米不同時期顏色和其圖像像素值不同的特點,利用RGB(Red、Green、Blue)和HSL(Hue、Saturation、Lightness)分別提取了綠色和黃色特征,從而獲取了不同顏色的像素值所占的比重,并根據(jù)其差異實現(xiàn)了對玉米生長期的分類識別;2015年,權(quán)文婷等[9]采用S-G濾波分析方法處理遙感SAR影像,利用歸一化差分植被指數(shù)方法,實現(xiàn)了對冬小麥幼苗期和抽穗期遙感圖像的歸一化識別;2017年,陳玉青等[10]通過機器學(xué)習(xí)的方式對得到的冬小麥葉面積指數(shù)進行分析,根據(jù)分析結(jié)果開發(fā)了一個基于Android手機平臺的冬小麥葉面積指數(shù)自動檢測系統(tǒng);2018年,張蕓德等[11]利用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)提取了玉米不同生長期的特征,結(jié)合粒子群優(yōu)化算法優(yōu)化了支持向量機參數(shù),構(gòu)造了多級支持向量機分類識別模型,最終實現(xiàn)了玉米生長期識別;2019年,賈少鵬等[12]針對農(nóng)作物病蟲害問題,提出了一種膠囊網(wǎng)絡(luò)與CNN相融合的模型,該模型對病蟲害的識別正確率達93.75%,比傳統(tǒng)CNN模型提高了3.55個百分點;2020年,宋余慶等[13]提出了一個多層次增強高效空間金字塔(Extremely efficient spatial pyramid,EESP)的深度學(xué)習(xí)模型,該模型先逐層計算不同空洞率對應(yīng)的空洞卷積,然后再融合不同層次的信息,進而提取出不同病蟲害的特征,最終實現(xiàn)了農(nóng)作物病蟲害識別;2022年,周文進等[14]提出了一種基于YOLOv3的內(nèi)嵌通道注意力MultiSE1D識別網(wǎng)絡(luò),通過提取不同尺度下的高維特征有效提高了模型提取蝴蝶圖像特征的準(zhǔn)確率及細(xì)節(jié)特征的學(xué)習(xí)能力。
鑒于深度學(xué)習(xí)技術(shù)在農(nóng)業(yè)信息化方面的優(yōu)秀表現(xiàn),為了解農(nóng)作物各個生育階段的時間長短與播種早晚、生態(tài)條件、品種特性等因素間的關(guān)系,明確農(nóng)作物不同生育階段的管理方法和重點管理任務(wù),以華北平原的冬小麥為研究對象,構(gòu)建了田間圖像分割模型,通過對圖像中冬小麥、土壤及雜草的分割、過濾,獲取到了冬小麥樣本圖像;然后,基于VGG16提取的圖像特征以及區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)模型,構(gòu)建了可生成候選框的改進Faster R-CNN分類識別模型,通過對候選框的分類訓(xùn)練和回歸訓(xùn)練,實現(xiàn)了冬小麥目標(biāo)候選區(qū)域的提取以及生育階段的精準(zhǔn)分類識別(研究流程如圖1所示),以期為農(nóng)業(yè)智能化管理提供科學(xué)支撐。
圖1 冬小麥生育階段識別的研究流程
本文中冬小麥生育階段的圖像數(shù)據(jù)來源于華北水利水電大學(xué)農(nóng)水教學(xué)實踐基地,共900張不同生育階段的圖像樣本。將冬小麥生育期劃分為3個主要階段[15]:第1個階段是營養(yǎng)生長階段,稱為幼苗期(9月下旬—次年2月中下旬),該階段生育特點是生根、長葉和分蘗;第2個階段是營養(yǎng)生長和生殖生長并進階段,稱為抽穗期(2月下旬—4月下旬),該階段生育特點是麥根、麥莖、麥葉持續(xù)生長和結(jié)實器官分化;第3個階段是生殖生長階段,稱為成熟期(4月下旬—6月上中旬),該階段是決定粒重的重要時期。
冬小麥圖像分類識別一般直接將原始圖像作為各類模型的輸入,這種方式雖然簡單,但是受環(huán)境噪聲以及光照等因素的影響,提取到的樣本圖像難免存在特征模糊和不精確的問題,若不處理直接進行分類識別,不僅會影響準(zhǔn)確率,也會降低模型的泛化能力。針對該問題,設(shè)計了基于深度可分離卷積的冬小麥分割模型,對原始樣本進行分割。
本模塊主要分為樣本標(biāo)注、圖像初步分割以及分割圖像提取3個環(huán)節(jié)。研究中采用LabelImage軟件對冬小麥生育階段的圖像樣本數(shù)據(jù)進行標(biāo)記,按照經(jīng)典數(shù)據(jù)集劃分比例8∶2將樣本數(shù)據(jù)分為2個數(shù)據(jù)集。為便于計算,將兩個數(shù)據(jù)集的數(shù)量做取整處理,最終取750張(3個生育階段各250張)圖像作為訓(xùn)練集樣本,其余150張(3個生育階段各50張)圖像作為測試集樣本。LabelImage軟件能夠提供可視化界面,在樣本上可以直接使用矩形框標(biāo)示出冬小麥、土壤以及雜草等信息,最后生成XML文件參與后續(xù)的分割模型訓(xùn)練。
在圖像分割模型的選取上,選擇深度可分離卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)樣本中冬小麥、土壤及雜草的有效分割。傳統(tǒng)的卷積操作將每個卷積核逐通道與輸入特征圖進行卷積,由于每個卷積核只能提取到一種特征,因此,每增加檢測圖片的一個屬性,卷積核就要增加一個。深度可分離卷積將傳統(tǒng)卷積分為深度卷積和點卷積兩個操作,能夠?qū)崿F(xiàn)卷積通道相關(guān)性和空間相關(guān)性的聯(lián)合映射,可更好地在每層卷積操作中對通道信息進行融合,顯著提高模型的準(zhǔn)確率,同時可有效減少參數(shù)量,提高運算速度。傳統(tǒng)卷積和深度可分離卷積的操作示意圖分別如圖2和圖3所示。
圖2 傳統(tǒng)卷積操作示意
圖3 深度可分離卷積操作示意
本文構(gòu)建的端到端圖像分割網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖4所示。模型的輸入是經(jīng)過標(biāo)注的224像素×224像素的原始RGB圖像;編碼器是去掉了全連接層的MobileNets,目的是壓縮圖像尺寸容量,以便獲得圖像的局部信息值并進行歸類和分析;解碼器由深度可分離卷積及反卷積模塊組成,其中,深度可分離卷積核大小為3×3,反卷積核大小為2×2,步長為2;解碼器之后是BN層和ReLu激活函數(shù)層,以確保與MobileNets相應(yīng)層中的特征圖尺度一致;模型輸出為標(biāo)注原始圖像的分割圖像,分別為提取到的冬小麥、土壤及雜草圖像。該模型可執(zhí)行快速的分割任務(wù),實現(xiàn)冬小麥、土壤及雜草的有效分割[16]。
與傳統(tǒng)的CNN結(jié)構(gòu)相比,深度可分離CNN模型的參數(shù)數(shù)量大大減少,運算規(guī)模和計算復(fù)雜度也同比減少。同時,訓(xùn)練階段模型權(quán)重的調(diào)整時間和計算速度大幅提高。
基于VGG16及RPN的Faster R-CNN目標(biāo)檢測模型,是在Fast R-CNN的基礎(chǔ)上優(yōu)化而來的。一般來說,Fast R-CNN通常采用選擇性搜索方法獲取候選框,一張圖片約產(chǎn)生2 000個候選框,然后通過感興趣區(qū)域池化(Region of interest pooling,ROI Pooling)把候選區(qū)域調(diào)整為固定尺寸,輸入到最后的全連接層。Faster R-CNN在Fast R-CNN的基礎(chǔ)上放棄了選擇性搜索方法,而選用RPN卷積網(wǎng)絡(luò)自行產(chǎn)生候選框進而進行目標(biāo)檢測,這不僅提高了候選框的質(zhì)量,還極大減少了候選框的數(shù)量,降低了計算復(fù)雜度。
本文對Faster R-CNN檢測模型的改進包括以下幾個方面:
1)修改特征提取網(wǎng)絡(luò)VGG16的激活函數(shù)。Faster R-CNN在使用VGG16進行圖像特征提取時,一般采用ReLu激活函數(shù),有研究[17]表明,Swish激活函數(shù)能夠提高分類準(zhǔn)確率。因此,引入Swish激活函數(shù)進行圖像特征提取,整體提取過程如圖5所示。
圖5 改進的VGG16提取冬小麥圖像特征的過程
2)修改RPN網(wǎng)絡(luò)錨點的尺寸。為有效減少相鄰區(qū)域出現(xiàn)漏檢情況,提高檢測準(zhǔn)確率,對候選框的大小和比例進行調(diào)整,通過聚類方法對冬小麥數(shù)據(jù)集重新聚類生成適合的錨點尺寸,聚類后的錨點尺寸見表1。
表1 重新設(shè)置后的錨點尺寸
3)改進的非極大值抑制算法。RPN模塊在檢測某一目標(biāo)時,可能會出現(xiàn)多個候選框被重復(fù)選中的情況。針對該問題,Faster R-CNN采用非極大值抑制(Non-Maximum Suppression,NMS)方法篩選最佳候選框。NMS具體步驟為:首先,設(shè)定一個定位精確評價公式IoU(Intersection Over Union)的閾值;其次,將選擇出的區(qū)域框按照與真實框重合的分?jǐn)?shù)(計算公式見式(1)和式(2))大小排序;最后,丟棄那些重疊度小于預(yù)先設(shè)置閾值的候選框,得到更為有用的候選框。抑制的過程實質(zhì)上是一個迭代-遍歷-消除反復(fù)循環(huán)的過程[18]。
(1)
IoU=SA∩B/SA∪B。
(2)
式中:Si為當(dāng)前類別的得分;Nt為第t次迭代設(shè)定的閾值;A為選擇出的區(qū)域框;B為真實候選框;SA∩B為候選框A與候選框B重疊的面積;SA∪B為候選框A與候選框B的總面積。
NMS方法在單個目標(biāo)檢測模型中的效果最好,對多目標(biāo)的檢測效果較不理想。然而,冬小麥生育階段識別存在多目標(biāo)的情況。此外,由于冬小麥植株比較密集,在生育階段分類識別中會出現(xiàn)檢測框定位不準(zhǔn)確以及相鄰識別區(qū)域漏檢、誤檢的情況。高斯加權(quán)法具有相對連續(xù)性,其所得曲線平滑、沒有跳躍點等。因此,采用高斯加權(quán)法懲罰函數(shù)對非極大值抑制算法進行改進,改進后的算法對小于閾值的候選框不是直接刪除而是通過一定的懲罰因子重新判斷重疊區(qū)域,改進后的候選框重疊度分?jǐn)?shù)的計算公式見式(3):
(3)
式中:bm為當(dāng)前得分最高的預(yù)測結(jié)果;bi為當(dāng)前第i個候選框的預(yù)測結(jié)果;θ為高斯加權(quán)懲罰因子,其取值不同會影響懲罰函數(shù)的懲罰力度;D為包含所有邊框的集合。
改進的Faster R-CNN模型的核心結(jié)構(gòu)如圖6所示。模型應(yīng)用時,首先對前期由圖像分割模型得到的冬小麥樣本數(shù)據(jù)進行前景和后景標(biāo)注;然后基于VGG16網(wǎng)絡(luò)提取冬小麥生育階段特征,并將特征圖輸入到RPN網(wǎng)絡(luò)中,分別進行原始候選框的篩選和邊框回歸糾正訓(xùn)練;最后采用改進的Faster R-CNN模型進行冬小麥生育階段的識別和分類。
圖6 改進的Faster R-CNN網(wǎng)絡(luò)的核心結(jié)構(gòu)
試驗均在同一設(shè)備上運行,硬件設(shè)備為Windows-10環(huán)境的聯(lián)想筆記本,計算機硬件配置為Intel(R) Core(TM)i5-7300HQ;CPU為16 GB內(nèi)存,GTX1050顯卡;深度學(xué)習(xí)框架為TensorFlow2.0。
評價圖像分割模型的指標(biāo)主要有準(zhǔn)確率(A)、查準(zhǔn)率(P)和召回率(R)3個,評價區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型的指標(biāo)為準(zhǔn)確率(A),各評價指標(biāo)如下:
1)準(zhǔn)確率(A)。其表示數(shù)據(jù)集總樣本中被分類正確的樣本的比例,計算公式為:
(4)
式中:Tp為該類別中正樣本被分類為正樣本的數(shù)量;TN為負(fù)樣本被分類為負(fù)樣本的數(shù)量;T為測試集樣本總數(shù)量。
2)查準(zhǔn)率(P)。其表示每個類別中被預(yù)測為正樣本的樣本中實際為正樣本的比例,計算公式為:
(5)
式中Fp為負(fù)樣本被分類為正樣本的數(shù)量。
3)召回率(R)。其表示每個類別的正樣本中被預(yù)測為正樣本的比例,計算公式為:
(6)
式中FN為正樣本被分類為負(fù)樣本的數(shù)量。
對冬小麥的RGB圖像進行分割,并通過試驗選取準(zhǔn)確率最高的一組參數(shù)作為最終的圖像分割模型的超參數(shù)。最終模型對應(yīng)的參數(shù)優(yōu)化器采用隨機梯度下降算法,學(xué)習(xí)率設(shè)置為0.001,batchSize設(shè)置為5,Dropout比率設(shè)置為0.3,最后一層的激活函數(shù)采用Sigmoid激活函數(shù)。
對同一批次的冬小麥測試集樣本,分別采用SegNet模型、U-Net模型和本文提出的圖像分割模型進行試驗,各模型對應(yīng)的準(zhǔn)確率、查準(zhǔn)率和召回率見表2。以幼苗期的冬小麥樣本為例,各模型的輸出結(jié)果如圖7所示,圖中黑色的是土壤,綠色的是小麥。
表2 基于冬小麥測試集樣本的不同模型評價指標(biāo)值 %
圖7 基于測試數(shù)據(jù)的不同分割模型的輸出結(jié)果對比圖
結(jié)合表2及圖7可以看出:SegNet模型的輸出圖像大體上可以反映出分割的基本效果,但圖像邊緣部分模糊;U-Net模型的輸出圖像較為清晰、準(zhǔn)確,但模型對雜草的切割精度較本文模型的低;本文所構(gòu)建的圖像分割模型對冬小麥、雜草及土壤的分割準(zhǔn)確率、查準(zhǔn)率、召回率均優(yōu)于另外兩種模型的。
3.2.1 改進的VGG16模型試驗結(jié)果
在TensorFlow框架下搭建VGG16模型,分別采用ReLU(改進前)與Swish(改進后)的激活函數(shù)提取冬小麥特征圖,并訓(xùn)練30次。改進前后VGG16模型提取的冬小麥特征圖如圖8所示,準(zhǔn)確率見表3。由圖8和表3可以看出,改進后VGG16模型提取的特征圖較改進前的更為清晰,各個生育階段的識別準(zhǔn)確率也較高。
表3 改進前后VGG16模型準(zhǔn)確率 %
圖8 基于測試集數(shù)據(jù)的改進前后VGG16模型提取出的冬小麥可視化特征圖
3.2.2 修改RPN錨點尺寸后的試驗結(jié)果
通過聚類方法對冬小麥數(shù)據(jù)集進行重新聚類,生成適合的錨點尺寸。錨點尺寸修改前后的試驗結(jié)果對比如圖9所示。由圖9可以看出,錨點尺寸修改后的RPN可有效減少相鄰區(qū)域漏檢情況的發(fā)生。
圖9 錨點尺寸修改前后的可視化特征圖
3.2.3 改進的非極大值抑制算法試驗結(jié)果
采用前述的改進非極大值抑制算法對各生育階段的冬小麥圖像進行檢測,其結(jié)果如圖10所示。由圖10可以看出,在冬小麥圖像檢測中引入懲罰因子后,冬小麥成熟期的目標(biāo)檢測試驗效果更顯著。
圖10 冬小麥成熟期的檢測效果
3.2.4 改進Faster R-CNN的試驗結(jié)果
對RPN模型生成的目標(biāo)框分別采用傳統(tǒng)的Faster R-CNN及改進的Faster R-CNN進行冬小麥生育階段的分類識別,其識別準(zhǔn)確率見表4。
表4 基于改進前后的Faster R-CNN的冬小麥測試集準(zhǔn)確率對比
由表4可以看出,模型改進前的平均分類識別準(zhǔn)確率為84.67%,模型改進后的平均分類識別準(zhǔn)確率達96.00%,較改進前的提高了11.33%,且各生育階段的分類識別準(zhǔn)確率均有較大提高。
本文選擇實際拍攝的華北平原冬小麥生育階段圖像作為試驗樣本,構(gòu)建了一種基于深度可分離卷積的冬小麥、土壤及雜草的分割模型,獲取了背景單純的冬小麥樣本,進而設(shè)計了基于改進的Faster R-CNN目標(biāo)檢測模型,通過對候選框的分類訓(xùn)練和回歸訓(xùn)練,實現(xiàn)了冬小麥生育階段的準(zhǔn)確識別。試驗結(jié)果表明,本文設(shè)計的研究流程及網(wǎng)絡(luò)模型能夠有效提高冬小麥生育階段分類識別的準(zhǔn)確率,對農(nóng)業(yè)生產(chǎn)活動的指導(dǎo)具有一定研究意義。
受數(shù)據(jù)集的限制,本文將冬小麥的生育階段分為幼苗期、抽穗期,成熟期3個時期,后續(xù)有待進一步擴充數(shù)據(jù)集,細(xì)化生育階段(如播種期、出苗期、分葉期、越冬期、返青期、起身期、拔節(jié)期、孕穗期、抽穗期、開花期、灌漿期、成熟期),并優(yōu)化所構(gòu)建的模型,實現(xiàn)更精細(xì)的冬小麥生育階段分類識別研究。