陳冬梅 張赫 魏凱華 袁琳 金晶 吳開華
摘要:昆蟲圖像分割是昆蟲圖像的識別與鑒定的重點和難點。目前,昆蟲分割算法速度慢、過程復雜且大多數(shù)只針對于單一背景圖像。為了更準確高效地實現(xiàn)昆蟲圖像的前景背景圖像分離,提出一種基于逐像素聚類的端對端的昆蟲圖像分割方法,能夠同時實現(xiàn)復雜背景下的昆蟲圖像分割與昆蟲種類識別。采用覆蓋5個昆蟲目級階元的37種實際場景下拍攝的昆蟲圖像作為研究對象,首先通過試驗確定所提模型的最優(yōu)參數(shù)設置,選擇ResNet101作為分割模型的主干特征提取網(wǎng)絡,在IoU取0.50時,其掩膜分支平均準確度均值、定位平均準確度均值及平均識別誤差率分別為93.15%、95.06%和12.12%,分割每張昆蟲圖像僅需0.080 s,所提模型能夠同步實現(xiàn)復雜背景下昆蟲目標與背景的快速準確分割并進行分類。
關鍵詞:昆蟲圖像;復雜背景;實時性;實例分割;識別分類
中圖分類號:TP391.41 文獻標志碼: A
文章編號:1002-1302(2021)24-0195-10
收稿日期:2021-06-01
基金項目:浙江省基礎公益研究計劃(編號:LGN19F030001);浙江省農(nóng)業(yè)重大技術協(xié)同推廣計劃項目(編號:2020XTTGCY04-02、2020XTTGCY01-05);浙江省基礎公益研究計劃(編號:LGN19D010001、LGF20F050004、LQ16F050002);國家自然科學基金(編號:61705056);浙江省教育廳科研計劃(編號:Y201533689);中國博士后科學基金(編號:2020M681848)。
作者簡介:陳冬梅(1988—),女,山東煙臺人,博士,副教授,主要從事圖像分析處理在農(nóng)業(yè)領域的研究。E-mail:chendonmei@hdu.edu.cn。
通信作者:吳開華,博士,教授,主要從事光電檢測技術及儀器、在線檢測技術及儀器、無人機技術等方面的研究工作。E-mail:wukaihua@hdu.edu.cn。
龐大的昆蟲家族是大自然生物鏈中的重要一環(huán),占據(jù)著節(jié)肢動物門的最大一綱。這些生物形態(tài)各異,數(shù)量驚人,分布又極其廣泛,迄今發(fā)現(xiàn)的昆蟲有120多萬種,占整個動物界種類的80%左右[1]。其中,絕大多數(shù)昆蟲以植物為寄主,通過取食作物獲取營養(yǎng),會造成農(nóng)作物的產(chǎn)量和品質顯著降低,成為制約農(nóng)業(yè)生產(chǎn)的重要因素之一[2]。因此,研究昆蟲的規(guī)律,找出其中可供利用的特性,對于農(nóng)業(yè)發(fā)展,尤其是害蟲防治策略的設計和益蟲的保護與利用都具有十分重要的意義。在昆蟲研究中,昆蟲的識別既是昆蟲研究和害蟲防治的基礎,也是昆蟲研究的重要內(nèi)容之一[3]。
傳統(tǒng)的昆蟲識別是通過分類學專家或具有昆蟲分類知識的技術人員對昆蟲進行種類的鑒定[4]。但現(xiàn)有的分類學專家和掌握分類的技術人員無論在分布還是在數(shù)目上均難以滿足時下正呈現(xiàn)擴大傾向的各類實際場景需求。同時,昆蟲圖像識別由于昆蟲本身紋理豐富而被視為一類相對困難的圖像細粒度識別問題。當識別種類及數(shù)量較多時,群體所呈現(xiàn)出的種間相似性、種內(nèi)多樣性以及不同姿態(tài)的差異會進一步增加數(shù)據(jù)復雜度,此類圖像的區(qū)分信息更多地集中在像素層面,用人為構建并篩選的特征對圖像進行表達很容易丟失其中的細節(jié)[5]。
信息技術的快速發(fā)展使得計算機代替人腦進行判別的方法成為了可能,以計算機為基礎的昆蟲自動識別方法可以處理最常見的昆蟲圖像數(shù)據(jù),先將采集的昆蟲圖像進行圖像處理和背景前景分離,再使用圖像識別方法進行類別分析。目前,基于計算機的昆蟲圖像分割主要依賴于傳統(tǒng)圖像分割方法,如基于閾值的分割方法、基于邊緣的分割方法、基于區(qū)域的分割方法以及基于數(shù)學形態(tài)學的分割方法等[6]。Mele等提出了基于全局閾值與局部種子區(qū)域生長法相結合的昆蟲圖像分割方法[7]。劉曉靜等根據(jù)復雜背景下的昆蟲彩色圖像的特點,采用了一種融合顏色和空間信息的靜態(tài)圖像壓縮(JSEG)分割算法[8]。一方面,這些研究只利用圖片中邊緣、顏色、紋理等低級特征,分割結果并不精確,同時對于圖像的要求較高,且對于昆蟲的分類大多是在分割結果的基礎上進行,整個過程須要分步進行,存在效率低、適用性差等缺點。另一方面,目前多數(shù)研究是將某領域中較成熟的圖像分割算法直接或稍加改進后,在較小的測試集或某張圖像上進行仿真測試,很少對大樣本的圖像做測試,不能充分說明方法的可行性[9]。自然環(huán)境下昆蟲種類繁多,實際場景下獲取的昆蟲圖像背景復雜,有些昆蟲目標與背景相似度高,這使得僅依靠圖片中低級特征去解決復雜背景下昆蟲目標的分割及識別分類存在較大的局限性。
近年來,隨著機器學習的迅速發(fā)展,國內(nèi)外學者越來越關注以機器學習和深度學習算法為基礎的圖像識別分割。在昆蟲分割方面,楊信廷等以粉虱和薊馬為例,提出了一種基于邊緣檢測算子分割和支持向量機的溫室粉虱和薊馬誘蟲板的圖像識別算法,實現(xiàn)溫室害蟲的誘蟲板圖像識別[10]。王衛(wèi)民等針對害蟲圖像分割和計數(shù)存在的問題,在U-Net基礎上改進得到了Insect-Net模型用于昆蟲的識別和計數(shù)[11]。竺樂慶等基于全卷積網(wǎng)絡實現(xiàn)了鱗翅目標本圖像前背景的自動分割[12]。Pang等針對傳統(tǒng)分類器對圖像要求高且分類不準確等問題,基于F-RCN對昆蟲進行識別[13]。上述昆蟲分割方法僅在實驗室環(huán)境無背景或單一背景的昆蟲圖像上具有較好的分割效果。對于自然環(huán)境下復雜背景的昆蟲圖像的分割及識別分類效果還有待進一步探索。
針對自然環(huán)境下昆蟲圖像分割和識別的特殊性和復雜性,以及目前昆蟲圖像分割及識別的不足,本試驗提出逐像素聚類的端對端的昆蟲圖像分割方法,擬同時實現(xiàn)復雜背景下的昆蟲圖像背景分離和昆蟲識別,本研究主要包括材料與方法、試驗與結果以及總結與展望。
1 材料與方法
1.1 圖像數(shù)據(jù)與試驗環(huán)境
本試驗的試驗圖像數(shù)據(jù)涵蓋5個目級階元下的37類共4 285張昆蟲圖像[14-15]。所有圖像都是通過數(shù)碼相機(佳能、尼康和移動設備等)捕獲的。為了消除光照變化的潛在負面影響,所有樣品圖像在作物田間情況下均采用統(tǒng)一的光照設置進行預處理。本試驗采用圖像標注軟件Labelme[16]以VOC格式對圖像添加掩膜標簽,并生成模型訓練所需的掩膜圖片,數(shù)據(jù)集中每類昆蟲圖像及其對應的掩膜圖像示例如圖1所示。圖1中對應每種昆蟲的編號、種類名稱及數(shù)量均在表1中詳細列出。試驗在杭州電子科技大學高性能計算機平臺上進行。該平臺操作系統(tǒng)為Windows 10,平臺采用單塊型號為NVDIA GTX 1080Ti的圖形處理器,搭載Intel(R) Core(TM) i7-8700k的CPU,內(nèi)存為11 G。
1.2 昆蟲圖像分割方法概述
本研究擬使用基于YOLCAT++[17]的昆蟲分割模型,其算法整體流程如圖2所示。首先,昆蟲原始圖像通過主干特征提取網(wǎng)絡得到特征圖,然后C3~C5層特征圖通過特征金字塔網(wǎng)絡FPN[18]得到P3~P5層特征圖。同時為消除混疊效應,對P3~P5層進行卷積得到新的P3~P5層,P6、P7層是由P5層卷積得到。模型將分割過程拆分為頭部預測和原型網(wǎng)絡2個并行的分支,將2個分支的輸出合并獲得最終的掩膜。筆者使用快速非極大抑制對每個實例預測得到的掩膜進行處理。通過裁剪將邊界外的掩膜清零,其中訓練階段的邊界是真實邊框,評估階段的邊界是預測的邊框。最后,以0.5為閾值對生成的掩膜進行圖像二值化處理得到最終結果。
1.2.1 主干特征提取網(wǎng)絡結構 目前,主流的圖像識別算法主要是利用卷積神經(jīng)網(wǎng)絡(CNN)自動提取圖像特征,而后依據(jù)提取到的特征進行目標的提取和分類。特征金字塔網(wǎng)絡是一種通用結構,它可以與VGG[19]、ResNet[20]、Mobilenets[21]、Darknet[22]等不同的骨架網(wǎng)絡組合使用。本研究分別使用了ResNet50、ResNet101與FPN組合的結構,具體結構如圖3所示。從圖3可以看出,ResNet-FPN分為3個部分,分別是自下而上連接部分、自下而上連接部分及橫向連接部分。其中,自下而上部分是以ResNet作為骨架結構進行特征的提取,ResNet分為5個不同的階段,其中將階段3到階段5各層最后輸出的一層特征分別定義為C3、C4、C5。自上而下是從最高層開始以最近鄰法進行上采樣。橫向連接是利用256×1×1的卷積核對C3~C5各層進行卷積操作,不經(jīng)過激活函數(shù)直接得到256通道的特征圖輸出,將其與上采樣得到的特征圖進行加和得到融合特征圖。然后用3×3的卷積核對融合后的特征圖進行卷積,以便消除混疊效應。最終得到 P3~P5特征層。特征層P6則是P5經(jīng)過步長為2的最大池化下采樣得到,特征層P7則是P6經(jīng)過步長為2的最大池化下采樣得到。 其中, P3用于輸入到原型網(wǎng)絡分支,P3~P7特征層作為后續(xù)頭部預測分支的輸入。
1.2.2 原型掩膜及系數(shù)計算 原型網(wǎng)絡是一種簡單、高效的學習方式,其基本思路是對于每一個分類來創(chuàng)建一個原型表示。模型中原型網(wǎng)絡分支由若干卷積層組成,其結構如圖4-a所示。以P3層作為輸入進入到原型網(wǎng)絡分支,利用全卷積神經(jīng)網(wǎng)絡產(chǎn)生一系列與圖像大小一致的原型掩膜,這一過程不依賴任一特定實例且不依賴重池化,因此產(chǎn)生了質量非常高且穩(wěn)定性更好的掩碼。P3層昆蟲特征圖經(jīng)過卷積層卷積后輸出維度為138×138×32的掩膜,即32個大小是138×138的原型掩膜。
為了提高速度,達到實時分割的目的,引入共享卷積網(wǎng)絡,在RetinaNet[23]的基礎上改進得到頭部預測分支,其網(wǎng)絡結構如圖4-b所示。以P3~P7作為輸入進入到預測頭,然后有1個分支輸出目標位置,1個分支輸出掩膜系數(shù),1個分支輸出分類的置信率,即在原本目標檢測分支的基礎上添加一個掩膜輸出,對每個錨框來預測掩膜系數(shù),也就是對實例的表示編碼為原型域的表達。所以決定目標的有4(位置)+k(掩膜系數(shù))+37(分類置信率)個參數(shù)。將預測頭分支得到的掩膜系數(shù)和原型分支得到的原型掩膜做矩陣乘法,得到圖像中每一個目標物體的掩膜。
以P3層昆蟲特征圖為例進行說明,P3的維度是69×69×256,則P3層生成的錨框個數(shù)是14 283(69×69×3=14 283)。然后頭部預測分支將其分為3個分支輸出,分別是 (1)類別置信度,本數(shù)據(jù)集共有38類(包括背景),所以其維度為542 754(P3層生成的錨框個數(shù)×38);(2)位置偏移,維度為 57 132(P3層生成的錨框個數(shù)×4);(3)掩膜置信度,維度為457 056(P3層生成的錨框個數(shù)×32)。對P4~P7進行相同的操作,最后將這些結果拼接起來,標記共有19 248,本數(shù)據(jù)集共有38類(包括背景),所以全部類別的置信度維度為731 424(標記個數(shù)×38);全部位置偏移維度為76 992(標記個數(shù)×4);全部掩膜的置信度維度為615 936(標記個數(shù)×32)。
同時,在模型中引入了可變形卷積[24],即采用自由形式的采樣代替了傳統(tǒng)的剛性網(wǎng)格采樣,將ResNet C3~C5層中的各個3×3標準卷積每隔3個卷積層換成一個3×3可變形卷積。因此,相比標準卷積,可變形卷積通過學習位置偏移得到更符合待檢目標形狀和尺寸的采樣點。在錨框策略上,本研究采用的是保持比例[1,1/2,2]不變,把FPN每一層的特征尺寸數(shù)目增加3倍。
1.3 分割結果評價指標
圖像分割的評價指標是從文獻檢索演變而來的,將圖像分割的像素點屬于感興趣區(qū)域的可能性與文本的相關性相關聯(lián),從而將文本檢索中的性能評價指標應用到圖像分割[25]。目標一般分為2類(正例和負例,分別用P和N表示)。模型評價指標一般由TP(true positive)、FP(false positive)、FN(false negative)及TN(true negative)4個參數(shù)表示(表2)。其中,TP表示把正例判為正例的數(shù)目,F(xiàn)N表示把正例判為負例的數(shù)目,F(xiàn)P表示把負例判為正例的數(shù)目,TN表示把負例判為負例的數(shù)目。
準確率是指判斷正確的情況占所有情況的比例,其中判斷正確的總共有(TP+TN)個,準確率A可通過公式(1)計算得到。精確率是指把正的預測為正的個數(shù)占所有預測為正的樣本的比例。預測為正的樣本總共有(TP+FP)個,精確率P可由公式(2)計算得到。召回率是指所有正樣本中被預測正確的占所有正樣本的比例,其中正樣本預測為正的有TP個,正樣本總共有(TP+FN)個。召回率R可通過公式(3)計算得到。
A=TP+TNTP+TN+FN+FP;(1)
P=TPTP+FP;(2)
R=TPTP+FN。(3)
平均精度(AP)指標可以全面地表達圖像分割模型的分類器性能,是準確率和召回值的綜合體現(xiàn),已被廣泛應用于目標檢測方法的評價[26-27]。通常計算過程中會提供一系列重疊閾值對其進行平均以避免偏頗。重疊閾值指單個實例的候選框與原標記框的交疊率,即IoU。例如,AP50%表示統(tǒng)計IoU值大于50%的實例的平均精度。平均精度是精確率在召回率上的積分,計算公式如公式(4)所示。式中:P為精確率,R為召回率,通常AP值越高,分類器性能越好。
AP=∫10P(R)dR。(4)
每一類圖像都可以計算出對應的AP值,平均準確度均值(mAP)是指分類器能識別的所有類的AP值取算術平均值得到的值,其計算公式如公式(5)所示。
mAP=∑CC=1AP(C)C。(5)
除了分類和定位準確度,速度也是體現(xiàn)目標檢測算法性能的重要指標,對于移動端昆蟲識別來說,速度是檢驗能否達到實時檢測的一個重要指標。評估速度常用的指標是每秒幀率(FPS),即每秒內(nèi)可以處理的圖片數(shù)量。另外也可以通過處理一張圖片消耗的時間來評估檢測速度,時間越短,速度越快。本研究以處理每張圖片所用時間作為評價速度的指標。
無論是目標檢測還是分割,都會對目標進行分類,即檢測到的目標屬于哪一種類別。本研究以測試數(shù)據(jù)集中每類昆蟲錯分的數(shù)量占本類測試圖像總數(shù)的比例作為類別誤差率(LR),通過求取每種類別誤差率的均值作為平均識別誤差率(mLR)。具體計算公式如公式(6)所示,式中:i取1~37內(nèi)的整數(shù),表示37類昆蟲,n=37表示共37類昆蟲,LR(i) 表示每類昆蟲的誤差率。
mLR=∑37i=1LR(i)n。(6)
2 試驗與結果
在試驗中,對超參數(shù)進行了統(tǒng)一設置,其中batch size設置為4,學習率設置為0.001,使用了動量的隨機梯度下降(SGDM)優(yōu)化算法[28],交叉驗證的L2正則化參數(shù)設置為0.000 5。
2.1 主干特征提取網(wǎng)絡對比試驗
主干特征提取網(wǎng)絡是特征提取的重要組件,其復雜程度很大程度上決定了目標分割算法的耗時,且模型的性能很大程度上依賴于主干特征提取網(wǎng)絡。本研究分別以ResNet50和ResNet101作為主干特征提取網(wǎng)絡對昆蟲分割模型進行試驗。首先,通過判斷訓練總損失曲線、定位損失曲線、分類損失曲線及掩膜損失曲線是否收斂來確定不同主干特征提取網(wǎng)絡對于分割模型是否具有良好的擬合泛化能力,在確定擬合泛化能力之后,通過比較不同主干下模型的平均準確度均值、平均識別誤差率、訓練時間及測試每張昆蟲圖片所耗時間等4項性能評價指標,進而確定分割效果最優(yōu)的主干特征提取網(wǎng)絡。分別以ResNet50和ResNet101作為主干特征提取網(wǎng)絡,對模型進行訓練和測試。圖5是模型在不同主干特征提取網(wǎng)絡下模型各類損失訓練曲線,可以看出,2個模型在訓練和驗證的迭代過程中,分類、邊框及掩膜的損失值均呈整體下降趨勢,且最終達到收斂。說明2種主干特征提取網(wǎng)絡組成的分割模型均具有較強的擬合及泛化能力。在確定模型的擬合泛化能力之后,對不同主干下模型的整體性能進行分析。表3為模型分別以ResNet50、ResNet101作為主干特征提取網(wǎng)絡的條件下,IoU取0.50~0.95閾值時模型邊框及掩膜的平均準確度均值。隨著IoU值的遞增,定位及掩膜的mAP值逐漸變小。由表3可知,在IoU取0.50時,平均準確度均值最大。由表4可知,IoU取0.50時,以ResNet50作為主干特征提取網(wǎng)絡得到的掩膜平均準確度均值稍高于ResNet101,且訓練時間和測試每張圖片消耗的時間均少于ResNet101,但分類平均識別誤差率比ResNet101高3.48百分點,因此對模型而言,以ResNet101作為主干特征提取網(wǎng)絡時得到的整體性能更佳。
2.2 模型與Mask R-CNN分割性能對比試驗
在實現(xiàn)分割與分類的同時,如何提高圖像的識別速度是本研究的重點之一。在以Mask R-CNN為代表的雙階段實例分割方法中模板掩膜的生成與特征定位的準確與否有著密切的關聯(lián),現(xiàn)有的方法是通過對特征進行“repooling”(RoI pooling/Align)使其與原始圖像位置對準,之后將新的定位特征送入掩膜分支進行預測,這個過程須要分步驟進行,因此很難加速。通過對本研究采用的單階段分割模型與雙階段分割模型Mask R-CNN進行比較,分析兩者在分割效果及效率上的性能。
對于Mask R-CNN模型,同樣分別以ResNet50和ResNet101作為主干特征提取網(wǎng)絡進行試驗。首先通過判斷訓練總損失曲線、定位損失曲線、分類損失曲線及掩膜損失曲線是否收斂來確定不同主干特征提取網(wǎng)絡對于Mask R-CNN模型是否具有良好的擬合泛化能力,在確定擬合泛化能力之后,通過比較不同主干下模型的平均準確度均值、平均識別誤差率、訓練時間及測試每張昆蟲圖片所耗時間等4項性能評價指標,進而確定分割效果最優(yōu)的主干特征提取網(wǎng)絡。然后將得到的結果與基于本研究網(wǎng)絡模型得到的結果進行對比分析。
對Mask R-CNN及本研究模型在掩膜分支的性能進行分析比較。不同模型在主干特征提取網(wǎng)絡分別為ResNet50及ResNet101的情況下,IoU取0.50時掩膜平均準確度均值、平均識別誤差率、訓練時間及測試每張昆蟲圖片所耗時間4項性能指標的值如表5所示。由表5可知,本研究所用模型在訓練時所耗時間要遠遠多于Mask R-CNN,但是測試每張昆蟲圖片所耗時間要遠少于Mask R-CNN。其中,本研究采用的模型以ResNet50作為主干特征提取網(wǎng)絡時測試每張昆蟲圖片所耗時間要少于以ResNet101作為主干特征提取網(wǎng)絡時的時間。在平均識別誤差率方面,以ResNet50作為主干特征提取網(wǎng)絡的Mask R-CNN比以ResNet50作為主干特征提取網(wǎng)絡的分割模型低7.03百分點;以ResNet101作為主干特征提取網(wǎng)絡的分割模型與以ResNet101作為主干特征提取網(wǎng)絡的Mask R-CNN相當。在平均準確度均值方面,無論是以ResNet50還是以ResNet101作為主干特征提取網(wǎng)絡,基于本研究模型得到的平均準確度均值均優(yōu)于Mask R-CNN。綜合上述分析,以ResNet101作為主干特征提取網(wǎng)絡時本研究采用的模型具有較好的分割性能,在保證識別誤差率和分割精度的基礎上,大大減少了分割消耗的時間。圖6、圖7所示分別是基于本研究模型和基于Mask R-CNN得到的部分分割結果,通過對比可以看出,基于本研究模型得到的掩膜結果要明顯優(yōu)于Mask R-CNN。
2.3 分割異常分析
在分割結果中存在少數(shù)異常的情況,存在異常結果的昆蟲種類主要包括菊方翅網(wǎng)蝽、菜蝽、赤條蝽、稻綠蝽和小菜蛾等。蟲害圖像分割異常主要包括小目標漏檢、圖像中目標與背景相似導致目標無法識別及類別錯分等3種情況。圖8-a、圖8-b是小目標未被檢測到的示例,本研究分割模型是基于錨框的,大目標的檢測主要依靠小的特征圖,而小目標的檢測依賴于較大的特征圖,大特征圖來自于淺層網(wǎng)絡,淺層網(wǎng)絡提取到的特征主要是一些淺層特征,小目標的像素特征少,檢測往往更依賴于淺層特征,由于所能得到的特征信息過少造成小目標漏檢的結果。圖8-c、圖8-d是由于圖像目標與背景相似導致網(wǎng)絡提取不到足夠的信息對目標進行分類、定位及分割,從而造成結果異常。圖8-e、圖8-f、圖8-g、圖8-h是種類錯分的示意圖,由于圖像目標之間存在較大的相似性,在卷積網(wǎng)絡提取特征的過程中,不同種類之間可用于區(qū)分的信息較少導致類別出錯,測試結果中錯分主要包括2個種類,將菜蝽和赤條蝽錯分。
3 總結與展望
本研究以作物常見昆蟲圖像為研究目標,基于單階段實例分割模型設計了復雜背景下作物昆蟲快速識別分割方法,分別對不同主干特征提取網(wǎng)絡單階段實例分割算法及雙階段實例分割算法Mask R-CNN進行試驗及性能的對比分析,結果表明,以ResNet101作為主干特征提取網(wǎng)絡時,本研究采用的模型具有最好的分割性能,在IoU取0.50時,其掩膜分支平均準確度均值、定位平均準確度均值及平均識別誤差率分別為93.15%、95.06%和12.12%,分割每張昆蟲圖像僅需0.080 s。與雙階段分割算法Mask R-CNN相比,本研究采用的單階段分割算法在保證識別誤差率及精確度的同時,極大地縮減了分割圖片消耗的時間。
本方法初步實現(xiàn)了昆蟲圖片的識別與分割。雖然在識別誤差率上仍須要進一步優(yōu)化提高,但是與之前的研究相比,該方法實現(xiàn)了復雜背景下昆蟲目標的分割,同時大大縮減了昆蟲目標分割所消耗的時間,這對于實現(xiàn)昆蟲圖像的實時性分割具有重要意義,且對于特定場景下昆蟲的識別及分割具有參考價值。
目前,病蟲害分割主要是利用溫室或田間地頭的攝像頭、相機等設備采集作物葉片上的蟲害圖像,然后將圖像上傳到遠端服務器進行相關圖像處理[10]。在后續(xù)相關工作中,對于分割模型,在保證分割準確率及分割效率的情況下,可以通過簡化模型大小,將模型應用到移動端。其次,可以開發(fā)對應的蟲害計數(shù)軟件應用,這樣農(nóng)戶可以隨時對作物蟲害進行識別分類及計數(shù),進而對蟲情進行實時判斷并采取對應的措施。
本研究所用數(shù)據(jù)集大多是單目標圖像,對于昆蟲計數(shù),在后續(xù)研究中需要增加圖像的復雜性,進而通過分割結果得到計數(shù)結果。此外,在對于多種類的昆蟲檢測及分割達到相對較好效果的條件下,將算法模型應用于特定應用場景下昆蟲的檢測及分割還有待進一步研究,相應的昆蟲圖像數(shù)據(jù)集有待進一步健全。
參考文獻:
[1]閻錫海,王延鋒,李延清. 昆蟲起源、進化及其原因模糊性研究[J]. 延安大學學報(自然科學版),2003,22(1):81-84.
[2]吳孔明. 我國農(nóng)業(yè)昆蟲學的現(xiàn)狀及發(fā)展策略[J]. 植物保護,2010,36(2):1-4.
[3]陳學新. 21世紀我國害蟲生物防治研究的進展、問題與展望[J]. 昆蟲知識,2010,47(4):615-625.
[4]姚 青,呂 軍,楊保軍,等. 基于圖像的昆蟲自動識別與計數(shù)研究進展[J]. 中國農(nóng)業(yè)科學,2011,44(14):2886-2899.
[5]劉子毅.基于圖譜特征分析的農(nóng)業(yè)蟲害檢測方法研究[D]. 杭州:浙江大學,2017.
[6]華敏杰.基于深度學習的圖像語義分割算法概述[J]. 中國戰(zhàn)略新興產(chǎn)業(yè),2018(4):120.
[7]Mele K.Insect soup challenge:segmentation,counting,and simple classification[C]//2013 IEEE International Conference on Computer Vision Workshops.Sydney,NSW,Australia:IEEE,2013:168-171.
[8]劉曉靜,耿國華,周明全,等. 一種基于復雜背景下的昆蟲彩色圖像分割方法[J]. 計算機應用與軟件,2008,25(11):37-38,88.
[9]王江寧,紀力強. 昆蟲圖像分割方法及其應用[J]. 昆蟲學報,2011,54(2):211-217.
[10]楊信廷,劉蒙蒙,許建平,等. 自動監(jiān)測裝置用溫室粉虱和薊馬成蟲圖像分割識別算法[J]. 農(nóng)業(yè)工程學報,2018,34(1):164-170.
[11]王衛(wèi)民,符首夫,顧榕蓉,等. 基于卷積神經(jīng)網(wǎng)絡的蟲情圖像分割和計數(shù)方法[J]. 計算機工程與科學,2020,42(1):110-116.
[12]竺樂慶,馬夢園,張 真,等. 基于全卷積網(wǎng)絡的鱗翅目標本圖像前背景自動分割方法研究[J]. 昆蟲學報,2018,61(2):255-262.
[13]Pang H W,Yang P P,Chen X L,et al. Insect recognition under natural scenes using R-FCN with anchor boxes estimation[C]//International Conference on Image and Graphics.Springer,Cham,2019:689-701.
[14]Xie C J,Zhang J E,Li R,et al. Automatic classification for field crop insects via multiple-task sparse representation and multiple-kernel learning[J]. Computers and Electronics in Agriculture,2015,119:123-132.
[15]Xie C J,Wang R J,Zhang J E,et al. Multi-level learning features for automatic classification of field crop pests[J]. Computers and Electronics in Agriculture,2018,152:233-241.
[16]Russell B C,Torralba A,Murphy K P,et al. LabelMe:a database and web-based tool for image annotation[J]. International Journal of Computer Vision,2008,77(1/2/3):157-173.
[17]Bolya D,Zhou C,Xiao F,et al. YOLACT++:better real-time instance segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,99:1.
[18]Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu,HI,USA:IEEE,2017:936-944.
[19]Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science,2014:1409-1556.
[20]He K M,Gkioxari G,Dollár P,et al. Mask R-CNN[C]//Proceedings of the IEEE international conference on computer vision.Venice,Italy:IEEE,2017:2961-2969.
[21]Howard A G,Zhu M L,Chen B,et al. MobileNets:efficient convolutional neural networks for mobile vision applications[J]. Computer Vision & Pattern Recognition,2017:1704-4861.
[22]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,NV,USA:IEEE,2016:779-788.
[23]Lin T Y,Goyal P,Girshick R,et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(2):318-327.
[24]Zhu X Z,Hu H,Lin S,et al. Deformable ConvNets V2:more deformable,better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA:IEEE,2019:9300-9308.
[25]鄧 穎,吳華瑞,朱華吉. 基于實例分割的柑橘花朵識別及花量統(tǒng)計[J]. 農(nóng)業(yè)工程學報,2020,36(7):200-207.
[26]Kapoor A J,F(xiàn)an H,Sardar M S.Intelligent detection using convolutional neural network[J]. Earth and Environmental Science,2019,234:12061.
[27]Revaud J,Almazan J,Rezende R,et al. Learning with average precision:training image retrieval with a listwise loss[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul,Korea (South):IEEE,2019:5106-5115.
[28]Theodoridis S. Stochastic gradient descent[M]//Machine learning. Amsterdam:Elsevier,2015:161-231.