張兆國,張振東,李加念,王海翼,李彥彬,李東昊
采用改進YoloV4模型檢測復雜環(huán)境下馬鈴薯
張兆國,張振東,李加念,王海翼,李彥彬,李東昊
(1. 昆明理工大學現(xiàn)代農(nóng)業(yè)工程學院,昆明 650500;2. 云南省高校中藥材機械化工程研究中心,昆明 650500)
為解決馬鈴薯聯(lián)合收獲機在作業(yè)過程中分級清選的問題,并在收獲作業(yè)過程中實時監(jiān)測評估收獲狀態(tài),該研究提出一種在光照亮度變化大、土壤與薯塊遮擋、機器振動以及塵土干擾等情況下對馬玲薯進行識別檢測并快速準確獲取馬鈴薯數(shù)量以及損傷情況的機器學習模型。在卷積神經(jīng)殘差網(wǎng)絡中引入輕量級注意力機制,改進YoloV4檢測網(wǎng)絡,并將YoloV4結(jié)構(gòu)中的CSP-Darknet53網(wǎng)絡替換為MobilenetV3網(wǎng)絡,完成特征提取。試驗結(jié)果表明,基于卷積神經(jīng)網(wǎng)絡的深度學習方法相比于傳統(tǒng)Open-CV識別提高了馬鈴薯識別精度,相比于其他傳統(tǒng)機器學習模型,MobilenetV3-YoloV4識別速度更快,馬鈴薯識別的全類平均準確率達到91.4%,在嵌入式設備上的傳輸速度為23.01幀/s,模型魯棒性強,能夠在各種環(huán)境下完成對正常馬鈴薯和機械損傷馬鈴薯的目標檢測,可為馬鈴薯聯(lián)合收獲機智能清選以及智能收獲提供技術(shù)支撐。
機器視覺;目標檢測;深度學習;馬鈴薯;YoloV4;MobilenetV3
近年來,馬鈴薯產(chǎn)業(yè)快速發(fā)展[1-2]。馬鈴薯作為中國第四大糧食作物,為國家糧食安全提供更多保障[3]。目前馬鈴薯產(chǎn)業(yè)的發(fā)展進入瓶頸期,原因之一是馬鈴薯收獲作業(yè)效率低,智能化程度不高[4]。馬鈴薯的自動檢測是馬鈴薯收獲機智能化的前提。國外馬鈴薯收獲機配備自動轉(zhuǎn)速匹配功能,應用視覺系統(tǒng)與傳感器配合檢測馬鈴薯流量[5]。在馬鈴薯收獲后應用視覺系統(tǒng)記錄收獲馬鈴薯數(shù)量以及檢測馬鈴薯機械損傷情況。但農(nóng)業(yè)機械工作環(huán)境較為復雜,傳統(tǒng)基于Open-CV開發(fā)的馬鈴薯識別系統(tǒng)大多應用于簡單環(huán)境,例如在暗箱中補充光源的檢測環(huán)境,或者統(tǒng)一背景色下的檢測環(huán)境,很難應用于田間作業(yè)的復雜環(huán)境。如光線變化程度大,土壤與薯塊遮擋,塵土干擾,機器振動頻率高等情況。基于機器學習的圖像識別技術(shù)能在復雜環(huán)境下完成對馬鈴薯的檢測以及定位任務[6-7]。
國內(nèi)外針對馬鈴薯的圖像識別技術(shù)已取得了一些成果,但大多停留在利用Open-CV進行閾值分割、邊緣輪廓提取等傳統(tǒng)計算機視覺處理方法以及高光譜圖像的方法。針對的問題也停留在研究馬鈴薯薯型與芽眼識別以及分級檢測。周竹等[8]設計了一款基于V型平面鏡獲取整個馬鈴薯的3面圖像的分級系統(tǒng);鄭冠楠等[9]在傳統(tǒng)視覺算法上,提出改進的離心率法,并利用該方法完成馬鈴薯分級;祁雁楠[10]提出了一種基于高斯拉普拉斯算子特征的瘡痂斑跡定位方法,并對基于BP神經(jīng)網(wǎng)絡和回歸分割曲線的瘡痂病薯識別模型進行了研究;蘇文浩[11]運用高光譜圖像技術(shù)實現(xiàn)5種馬鈴薯缺陷的在線快速無損檢測,獲取馬鈴薯的高光譜圖像并提取圖像中反射率光譜,選取的7個特征波進行主成分分析法完成缺陷檢測;汪成龍等[12]研究基于OpenCV的畸形馬鈴薯識別方法能正確判斷馬鈴薯是否為畸形,許傳悅等[13]基于傳統(tǒng)機器視覺中的灰度變化,二值化處理,開閉運算以及去噪等方法,利用MATLAB軟件開發(fā)馬鈴薯質(zhì)量檢測分級方法。
以上方法可識別的馬鈴薯類型較單一,且對土壤顏色相近、光照變化大等情況適應性較差;高光譜方法準確率相對較高,但響應速度慢,無法滿足實時檢測的效率要求。而深度學習中的目標檢測算法能夠快速完成目標檢測任務[14-15],目前國內(nèi)外學者就機器學習在農(nóng)業(yè)領(lǐng)域上的應用展開研究,并在果蔬疾病識別、病蟲害識別、藍莓冠層識別等問題上取得進展[16-19]。使用的深度學習的識別方法大致分為兩類,一類基于區(qū)域推薦的目標檢測方法,如Mask R-CNN[20]、Faster R-CNN[21]等,另一類是基于回歸的目標檢測,典型算法有SDD[22]、Yolo系列。相比之下,基于回歸的目標檢測算法在保證檢測精度時,具有較快的檢測速度[23],更適于農(nóng)業(yè)領(lǐng)域。YoloV4是基于回歸的Yolo系列目標檢測第四代算法,比較前幾代算法,在檢測中更具優(yōu)勢。
綜上,本文以檢測馬鈴薯及馬鈴薯機械損傷情況為目標任務,采用人工智能機器學習的技術(shù)手段,運用MobilenetV3-YoloV4網(wǎng)絡完成馬鈴薯的識別。通過對比試驗改進模型參數(shù),并與YoloV4,YoloV3等網(wǎng)絡模型以及OpenCV的識別效果進行對比,以評估模型的性能與速度。
馬鈴薯圖像采集于云南省昆明理工大學農(nóng)業(yè)與食品學院土槽試驗臺,試驗臺0~200 mm土壤含水率為15.64%~17.13%,土壤堅實度為0.59 MPa。拍攝相機為佳能EOS-600D,相機采用CMOS傳感器,傳感器尺寸為22.3 mm×14.9 mm,有效像素為1 800萬,圖像獲取時間為2020年12月11日。馬鈴薯圖像采集現(xiàn)場如圖1所示,馬鈴薯品種為“麗薯6號”與“青薯9號”,最小長寬高尺寸為78.9 mm×65.4 mm×44.8 mm,質(zhì)量135.2 g;最大長寬高尺寸為102.7 mm×68.9 mm×58.7 mm,質(zhì)量230.6 g。相機中心點到馬鈴薯中心與水平方向分別呈30°、45°、75°、90°夾角進行拍攝,采集圖像的分辨率為5 184×3 456(像素),原圖像保存為png格式,總計拍攝2 302張圖像。為保證后續(xù)模型訓練的精準度與對比試驗的可靠性,從采集的圖像中,篩選出質(zhì)量高、畫面清晰的1 849張照片。為提升訓練模型結(jié)果的泛化能力,對采集的圖像分別進行水平翻轉(zhuǎn),垂直翻轉(zhuǎn),鏡像,添加噪聲等處理。其中表面完好馬鈴薯照片為1 296張,機械損傷馬鈴薯圖像為322幅,兩者共存的圖像231張。
圖像識別系統(tǒng)對馬鈴薯收獲作業(yè)進行實時監(jiān)測時,識別效果主要受角度、光照亮度、表面黏土、掩埋程度等因素影響,為了使訓練模型具有更好的泛化性能,首先運用OpenCV改變原始圖像亮度和對比度,以模擬不同光照亮度下的環(huán)境狀況;引入高斯噪聲與椒鹽噪聲,擾亂圖像可觀測信息,提升模型對目標的捕捉能力,如圖2所示。
由于土槽試驗臺采集的圖像數(shù)據(jù)集在統(tǒng)一背景環(huán)境下完成,為豐富數(shù)據(jù)集,提升網(wǎng)絡模型的泛化性,利用Python3中的Request模塊編寫爬蟲程序,獲取647張網(wǎng)頁中的馬鈴薯圖片,選取出167張有代表性的圖片完成馬鈴薯標定,并在其他背景環(huán)境下補充馬鈴薯圖像集201張。利用Shuffle函數(shù)打亂數(shù)據(jù)集,完成馬鈴薯圖像集的亂序工作,以便網(wǎng)絡模型得到更好的訓練。選取數(shù)據(jù)集的90%共1 994張作為訓練集,其余的10%共223張作為測試集。
使用LabelImg對經(jīng)過處理的所有馬鈴薯圖像進行標注,生成與圖片名稱相對應的XML文件,應用ElementTree 模塊對XML文件進行解析,讀取標注的單個或多個馬鈴薯的坐標位置。
YoloV4的網(wǎng)絡結(jié)構(gòu)簡圖如圖3所示,在YoloV4的主干特征提取網(wǎng)絡CSPDarknet53中,先對輸入圖像進行卷積處理,將卷積后的結(jié)果進行5次殘差網(wǎng)絡結(jié)構(gòu)訓練[24]。這些特征層為輸入圖片的特征集合,在主干特征提取網(wǎng)絡中先開始進行下采樣,大小從開始的416×416×3變?yōu)?2×52×256(特征層1)、26×26×512(特征層2)、13×13×1 024(特征層3)等,其目的是使提取的語義信息更高。對最后一層殘差網(wǎng)絡的特征層進行3次卷積運算,并將特征層導入到空間金字塔池化層(Spatial Pyramid Pooling,SPP),利用不同大小的最大池化層對該特征層進行池化。池化后的結(jié)果進行堆疊并再一次進行3次卷積。將3次卷積過后的特征層進行2次上采樣,與主干特征提取網(wǎng)絡中的特征層1和特征層2進行堆疊,實現(xiàn)特征融合。完成特征金字塔的構(gòu)建后,再進行第二階段下采樣。其中不斷進行上采樣與下采樣的目的是堆疊得到更好的特征。最后Yolo head利用提取特征[25]對結(jié)果進行預測。
YoloV4使用Mosaic數(shù)據(jù)增強方法。Mosaic數(shù)據(jù)增強方法是CutMix數(shù)據(jù)增強方法的優(yōu)化延伸,將4張訓練圖片進行翻轉(zhuǎn)、縮放與色域調(diào)整,并按照左上角、左下角、右下角、右上角的順序進行排列并拼接為一張圖片,如圖4所示。將得到的新圖片傳輸至神經(jīng)網(wǎng)絡中學習。使用Mosaic數(shù)據(jù)增強方法進行標準化計算時,一次檢測4張圖片,加快了模型學習效率,也可以豐富目標圖像的背景。
在目標識別任務中,為使訓練網(wǎng)絡收斂到最優(yōu)解,盡可能接近損失(Loss)值的全局最小值,采用梯度下降的辦法使學習率變得更小。余弦函數(shù)值會隨著的變化而變化,梯度下降值先減速下降后加速下降再減速下降。通過這種方法可以避免Loss值進入局部最優(yōu)解,而非全局最優(yōu)解。
余弦退火衰減法原理如下:
其中η為當前學習率;為第幾次索引運行值;η為學習率的最大值;η為學習率最小值;T為當前執(zhí)行的周期數(shù);T為當前運行環(huán)境下的總周期數(shù)。
當準確率震蕩或Loss值不再衰減時,通過使用余弦退火衰減法調(diào)整學習率衰減梯度,使模型達到更低的Loss值。
2.2.1 利用MobilenetV3系列搭建YoloV4目標檢測平臺
Mobilenet模型是Google針對手機等嵌入式設備提出的一種輕量級深層神經(jīng)網(wǎng)絡,其核心是Depthwise-separable-convolution(深度可分離卷積塊),MobilenetV3使用特殊的Bneck結(jié)構(gòu),具備MobilenetV2的線性瓶頸逆殘差結(jié)構(gòu)和MobilenetV1的深度可分離卷積,并引入輕量級的注意力模型,使用H-swish激活函數(shù)代替swish函數(shù)[26-27]。
如圖5所示,MobilenetV3的Bneck結(jié)構(gòu)對輸入層進行1×1的卷積,而后進行3×3的深度可分離卷積。通過計算分析,改進后計算量和參數(shù)量下降到原來的1/4,顯著提高檢測速度。另外MobilenetV3引入輕量級注意力模型,MobilenetV3的注意力機制作用于全連接層,通過調(diào)整每個通道的權(quán)重為YoloV4加入注意力機制。
MobilenetV3針對MobilenetV2修改了尾部結(jié)構(gòu),之前MobilenetV2的Avg-PooL存在一個1×1卷積層用以提高特征維度,增加了計算量。改進后的尾部結(jié)構(gòu)如圖6所示,利用Avg-PooL將特征圖大小由7×7減小到1×1,然后提高維度,減少49倍的計算量。為了進一步降低計算量,去掉前面紡錘型3×3卷積以及1×1卷積,進一步減少了計算量,而精度并沒有損失。
MobilenetV3引入H-Swish激活函數(shù)代替MobilenetV2的部分ReLU6激活函數(shù)。H-Swish激活函數(shù)是在Swish激活函數(shù)上進行優(yōu)化,優(yōu)化后的H-Swish激活函數(shù)計算量更小。原激活函數(shù)Swish公式為
對原激活函數(shù)Swish進行調(diào)整后的H-Swish公式為
2.2.2 Anchor Box適應數(shù)據(jù)集式先驗框改進
YoloV4通過自然場景數(shù)據(jù)集訓練,計算得到9個特定位置的先驗框(anchor),并將9個先驗框分為3組,分別用于檢測小物體,中等物體和大物體的默認先驗框。本文馬鈴薯目標檢測系統(tǒng)大多應用于農(nóng)田環(huán)境和馬鈴薯分級檢測平臺等,在保證圖像輸入系統(tǒng)與地面或檢測平臺距離一定的情況下,馬鈴薯的大小相對均勻,與自然場景數(shù)據(jù)集完全不同,如果采用原有-means聚合算法,大小相近的馬鈴薯會被分到不同層進行預測,出現(xiàn)預測尺度和感受野不匹配的情況。大部分馬鈴薯屬于中等尺寸物體,訓練過程中造成大輸出層與小輸出層得不到訓練,導致檢測精度降低。
為解決這一問題,改進網(wǎng)絡將原有YoloV4的3個輸出層合并為一個大輸出層,如圖7所示,即所有馬鈴薯都在合并后的大輸出層中采用多尺度融合方式完成檢測。
2.2.3 改進后YoloV4網(wǎng)絡模型
改進后的YoloV4網(wǎng)絡模型結(jié)構(gòu)圖如圖8所示,將輸入層圖片大小調(diào)整為416×416×3,使用MobilenetV3網(wǎng)絡替換YoloV4原主干特征提取網(wǎng)絡CSPDarknet53,并保證改進后主干提取網(wǎng)絡獲取的有效特征層的高和寬與CSPDarknet53獲取的特征層的高和寬一致,即可將提取后的特征層傳輸至加強特征提取網(wǎng)絡。在加強特征提取網(wǎng)絡中將部分原有Conv卷積替換為DepthwiseConv深度可分離卷積以減小網(wǎng)絡模型參數(shù)量,最后將3個輸出層合并為一個大輸出層。
本文利用Precision-Recall曲線(簡稱-曲線)、AP(檢測精度)、mAP(AP值在所有類別下的均值)、檢測速度作為評價指標。其中,AP值即為-曲線與坐標軸圍成區(qū)域面積。mAP是所有類的AP平均值。召回率()與精準率()按公式(4)和公式(5)計算。
其中T為被判為正類的正類;F為被判為正類的負類;F為被判為負類的正類。
試驗采用TensorFlow-GPU2.3深度學習框架,運行深度學習工作站處理器為Intel Core-i9-10980XE,3.00 GHz,顯卡為 GeForce GTX 2080s,操作系統(tǒng)為Windos 10,NVIDIA 461.37驅(qū)動,CUDA10.1版本,CUDNN神經(jīng)網(wǎng)絡加速庫版本為7.6.5。
網(wǎng)絡模型訓練參數(shù)設置:迭代訓練的樣本數(shù)為8,總計8批次,進行20 000次迭代;動量因子設置為0.95,衰減系數(shù)設置為0.005,初始學習率為0.001,使用Mosaic數(shù)據(jù)增強與余弦退火算法。
衡量模型訓練效果的指標之一是損失值。理論上來說,損失值越小,模型訓練效果越好。訓練完畢后根據(jù)后臺日志信息記錄可視化繪圖,如圖9所示。
訓練集包含正常馬鈴薯圖像1 497張,機械損傷馬鈴薯圖像283張,兩者共存214張。由圖 9可知,隨迭代次數(shù)的增加,損失值逐漸減少。改進后YoloV4在經(jīng)歷4 000次迭代后,模型損失值迅速收斂到2.5以下,至12 500次后損失值趨于平穩(wěn)。每400次輸出權(quán)重模型,得到50個模型,本文通過評價指標選取最優(yōu)模型。
MobilenetV3-YoloV4網(wǎng)絡模型隨著迭代次數(shù)的增加,訓練集損失值(Train_loss)和測試集損失值(Val_loss)不斷減小。網(wǎng)絡模型在迭代6 000次之后,Train_loss值和Val_loss值逐漸收斂,損失值小于2,在1.2附近趨于穩(wěn)定,證明網(wǎng)絡訓練效果良好。趨于穩(wěn)定后Val_loss值比YoloV4網(wǎng)絡模型低1.1%,比YoloV3網(wǎng)絡模型低1.7%。VGG16網(wǎng)絡的Train_loss值在迭代過程不斷下降,Val_loss值趨于不變,網(wǎng)絡訓練出現(xiàn)過擬合情況,比MobilenetV3-YoloV4網(wǎng)絡模型的Val_loss值高2.3%。
3.2.1 馬鈴薯識別檢測效果
本研究針對不同光照亮度、塵土干擾、機器抖動、大面積遮擋等情況下進行馬鈴薯的檢測識別,驗證MobilenetV3-YoloV4網(wǎng)絡模型的有效性。
馬鈴薯檢測識別的測試集共有622張照片,本文以相同的數(shù)據(jù)使用改進后的YoloV4網(wǎng)絡模型進行訓練與測試,訓練平臺的配置信息不變,使用YoloV4、YoloV3、和VGG16深度學習模型在相同數(shù)據(jù)集上進行對比,其中OpenCV是通過提取顏色與外邊緣輪廓的特征信息實現(xiàn)馬鈴薯的識別,圖10為測試結(jié)果展示。
在光照條件比較充足的情況下,各個網(wǎng)絡模型均可以完成對單個馬鈴薯的檢測,但改進后的YoloV4和YoloV4,YoloV3的檢測結(jié)果置信度最高;在光照充足的情況下,改進后的YoloV4網(wǎng)絡模型完成對所有馬鈴薯的識別;在馬鈴薯收獲機運行情況下,改進后的YoloV4模型由于引入了輕量級注意力機制,對馬鈴薯的識別效果最好;在陰天光照不足的環(huán)境下,其他模型檢測效果略低于改進后的YoloV4網(wǎng)絡模型,而VGG16與Open-CV完全不適用于陰天光照不足的情況,在光照充足的情況下,只有改進后的YoloV4模型與YoloV4模型識別出機械損傷馬鈴薯;在收獲機作業(yè)工程中機器振動和塵土干擾情況下,改進后的YoloV4模型能夠完成復雜環(huán)境下的動態(tài)檢測,其他算法模型不易捕捉馬鈴薯模型,或錯將土塊檢測為馬鈴薯。
圖11為MobilenetV3-YoloV4、YoloV4、YoloV3、VGG16模型對馬鈴薯識別,以及機械損傷識別的P-R曲線圖,表1為不同訓練網(wǎng)絡模型的馬鈴薯檢測結(jié)果。由表1可知,改進后的YoloV4模型與YoloV3、VGG16模型相對比,檢測正常馬鈴薯的精度分別提升4、14.8個百分點,檢測機械損傷馬鈴薯的精度分別提升了3.1、11.6個百分點,模型的平均精度均值分別提高了3.5、12.7個百分點。試驗中改進后的YoloV4與原YoloV4檢測精度基本不變,甚至在光照不足的條件下檢測精度要比原YoloV4精度要高,且檢測速度比原YoloV4、YoloV3、VGG16快70%、47%、168%。改進后網(wǎng)絡模型可以完成在復雜環(huán)境下對馬鈴薯的檢測任務。
表1 不同訓練網(wǎng)絡模型的馬鈴薯檢測結(jié)果
3.2.2 不同觀測角度下模型檢測效果
試驗馬鈴薯為“麗薯8號”,視覺采集系統(tǒng)嵌入一個基于深度相機與機器人操作系統(tǒng)(ROS)融合的嵌入式機器人中,該設備由激光雷達、深度相機、工控機、樹莓派4B+等設備組成。激光雷達型號為RPLIDAR-A2,測量半徑為0.2~16 m,深度相機選用Astra-pro,深度范圍0.6 ~8 m,工控機處理器型號為盈馳YM-501,處理器為i5-5200U,顯卡型號為Intel-HD5500,搭載Ubuntu操作系統(tǒng),試驗現(xiàn)場如圖12所示。
試驗在昆明理工大學農(nóng)業(yè)與食品學院土壤-植物-機器系統(tǒng)實驗室進行。在農(nóng)田環(huán)境中,嵌入式設備上的深度相機與馬鈴薯目標在水平方向和豎直方向都存在不同距離,造成攝像機識別馬鈴薯的角度不同,為驗證馬鈴薯在不同角度下的識別效果,調(diào)整深度相機中心點到馬鈴薯中心與水平方向呈30°、45°、60°、90°角度的情況下進行識別,如圖13所示,搭載Mobilenet-YoloV4模型的嵌入式平臺在不同探測角度下可完成馬鈴薯目標檢測并給出馬鈴薯數(shù)量與馬鈴薯中心點坐標。
將MobilenetV3-YoloV4訓練網(wǎng)絡導入至機器人控制系統(tǒng),在Linux系統(tǒng)下為目標識別網(wǎng)絡配置Python,Tensorflow環(huán)境。將當前視覺識別區(qū)域中馬鈴薯、機械損傷的馬鈴薯個數(shù)以及坐標位置發(fā)送至工控機,工控機結(jié)合深度相機測量距離,通過算法定位機械損傷馬鈴薯的空間位置,控制機械臂抓取。該目標檢測系統(tǒng)應用在低功耗的嵌入式設備中,檢測速率平均可達23.01幀/s,滿足實際工作需要。
3.2.3 馬鈴薯收獲作業(yè)實時監(jiān)測效果
于2021年3月在重慶市農(nóng)業(yè)科學院農(nóng)業(yè)機械研究所進行田間試驗,如圖14所示,試驗過程中馬鈴薯收獲機通過牽引架與東方紅604輪式拖拉機掛接作業(yè),前進速度為2 km/h,二級升運鏈線速度為1.4 m/s。攝像頭安裝在機架上,鏡頭俯視輸送帶,采用多角度位置固定拍攝。馬鈴薯聯(lián)合收獲機作業(yè)時長2 h,田間調(diào)頭時停止記錄拍攝6次。在工控機中運行錄屏軟件Kazam,實時記錄馬鈴薯聯(lián)合收獲時圖像識別檢測效果,將視頻按1幀/s進行png格式的圖片提取,捕捉田間作業(yè)時檢測效果圖。
根據(jù)馬鈴薯升運鏈上馬鈴薯的數(shù)量,將馬鈴薯流量評為Ⅰ級、Ⅱ級、Ⅲ級。在試驗確定升運篩最佳速度的條件下,輸送帶上馬鈴薯數(shù)量小于10個,馬鈴薯流量等級定位分為Ⅰ級,輸送帶上馬鈴薯數(shù)量大于10個小于20 個時,馬鈴薯流量等級定為Ⅱ級,輸送帶上馬鈴薯數(shù)量大于20個時,馬鈴薯流量等級定為Ⅲ級。視覺系統(tǒng)識別到經(jīng)過輸送帶的薯土混合物喂入量過多時,調(diào)節(jié)立式環(huán)形分離裝置轉(zhuǎn)速加快,避免馬鈴薯過量堆積,形成不必要的“回流”與“滾動”,可有效降低馬鈴薯-馬鈴薯,土壤-馬鈴薯之間產(chǎn)生線性擦傷,造成破皮率增大。當喂入量減少時,調(diào)節(jié)立式環(huán)形分離裝置轉(zhuǎn)速下降,減弱裝置振動帶來的損傷,減少馬鈴薯-柵條之間產(chǎn)生線性擦傷,同時降低能耗。正確預測當前馬鈴薯流量等級,可為馬鈴薯聯(lián)合收獲機在作業(yè)中調(diào)速提供準確參考。各流量等級下馬鈴薯檢測正確率如下表2所示,試驗效果圖如圖15所示。
1.東方紅604拖拉機 2.馬鈴薯聯(lián)合收獲機 3. 清石除雜裝置 4.立式環(huán)形分離裝置
表2 不同流量等級下馬鈴薯檢測結(jié)果
由試驗結(jié)果可知,MobilenetV3-YoloV4網(wǎng)絡模型在實際作業(yè)環(huán)境中識別正確率略高于90%,分析識別預測不準確的主要原因在于兩個馬鈴薯之間重合度過大。圖片中預測框上數(shù)字表示預測置信度。
1)本研究提出了一種基于MobilenetV3改進YoloV4的目標檢測模型,在卷積神經(jīng)殘差網(wǎng)絡中引入輕量級注意力機制,并將YoloV4中CSP-Darknet53網(wǎng)絡替換為MobilenetV3網(wǎng)絡結(jié)構(gòu)。完善后的MobilenetV3-YoloV4網(wǎng)絡魯棒性更好,網(wǎng)絡模型更輕量化,保證馬鈴薯的識別率不降低的同時,提高設備檢測效率。
2)根據(jù)田間實際作業(yè)環(huán)境,制作了正常馬鈴薯與機械損傷馬鈴薯兩類圖像數(shù)據(jù)集,并分別使用MobilenetV3-YoloV4,YoloV4,YoloV3,VGG-16,Open-CV模型進行測試,結(jié)果表明,在保證檢測精度的條件下,MobilenetV3-YoloV4網(wǎng)絡模型檢測速度均優(yōu)于其他網(wǎng)絡。
3)對MobilenetV3-YoloV4網(wǎng)絡模型進行性能評價,網(wǎng)絡能夠在光照亮度變化大、土壤與薯塊遮擋、機器振動以及塵土干擾等復雜情況下完成馬鈴薯識別檢測。MobilenetV3-YoloV4網(wǎng)絡模型在30°,45°,60°,90°的識別角度下,能夠完成對馬鈴薯的識別。田間收獲試驗表明馬鈴薯識別的平均準確率達到91.4%,在嵌入式設備上檢測速度為23.01幀/s,滿足作業(yè)要求,利于應用在農(nóng)業(yè)嵌入式設備中。
[1] 中國農(nóng)業(yè)年鑒編輯委員會. 中國農(nóng)業(yè)年鑒2018[M]. 北京:中國農(nóng)業(yè)出版社,2018:46-49.
[2] 羅其友. 馬鈴薯產(chǎn)業(yè)與美麗鄉(xiāng)村論文集[C]. 哈爾濱:黑龍江科學技術(shù)出版社,2020.
[3] 黃鳳玲,張琳,李先德,等. 中國馬鈴薯產(chǎn)業(yè)發(fā)展現(xiàn)狀及對策[J]. 農(nóng)業(yè)展望,2017,13(1):25-31.
Huang Fengling, Zhang Lin, Li Xiande, et al. Development status and Countermeasures of China's potato industry[J]. Agricultural Outlook, 2017, 13(1): 25-31. (in Chinese with English abstract)
[4] 張爍,羅其友,馬力陽,等. 我國馬鈴薯區(qū)域格局演變及其影響因素分析[J]. 中國農(nóng)業(yè)大學學報,2020,25(12):151-160.
Zhang Shuo, luo Qiyou, Ma Liyang, et al. Evolution of potato regional pattern and its influencing factors in China[J]. Journal of China Agricultural University, 2020, 25(12): 151-160. (in Chinese with English abstract)
[5] 周玉華,劉汶樹,張先鋒,等. 西南地區(qū)馬鈴薯生產(chǎn)機械化與產(chǎn)業(yè)發(fā)展戰(zhàn)略[J]. 農(nóng)業(yè)開發(fā)與裝備,2017(10):6.
[6] 趙民,葛云露,丁寧. 基于CenterNet算法的復雜環(huán)境目標檢測技術(shù)[J]. 中國電子科學研究院學報,2021,16(7):654-660.
Zhao Min, Ge Yunlu, Ding Ning. Object detection technology in complex environment based on centerNet algorithm[J]. Journal of Chinese Academy of Electronic Sciences, 2021, 16(7): 654-660.
[7] 劉沖沖. 基于深度學習的馬鈴薯外部缺陷檢測方法研究[D].銀川:寧夏大學,2019.
Liu Chongchong. Study on Potato External Defeet Detection Method Based on Deep Learning[D]. Yinchuan: Ningxia University, 2019. (in Chinese with English abstract)
[8] 周竹,李小昱,陶海龍,等. 基于高光譜成像技術(shù)的馬鈴薯外部缺陷檢測[J]. 農(nóng)業(yè)工程學報,2012,28(21):221-228.
Zhou Zhu, Li Xiaoyu, Tao Hailong, et al. External defect detection of potato based on hyperspectral imaging technology[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(21): 221-228. (in Chinese with English abstract)
[9] 鄭冠楠,譚豫之,張俊雄,等. 基于計算機視覺的馬鈴薯自動檢測分級[J]. 農(nóng)業(yè)機械學報,2009,40(4):166-168.
Zheng Guannan, Tan Yuzhi, Zhang Junxiong, et al. Automatic potato detection and grading based on computer vision[J].Transactions of The Chinese Society of Agricultural Machinery, 2009, 40(4): 166-168. (in Chinese with English abstract)
[10] 祁雁楠. 基于機器視覺的馬鈴薯瘡痂檢測方法[D]. 北京:中國農(nóng)業(yè)機械化科學研究院,2019.
Qi Yannan. Method for Detecting Potato Scab based on Machine Vision[D]. Beijing: Chinese Academy of agricultural mechanization, 2019. (in Chinese with English abstract)
[11] 蘇文浩. 馬鈴薯外部缺陷的高光譜技術(shù)無損檢測研究[D]. 銀川:寧夏大學,2014.
Su Wenhao. Hyperspectral Imaging in Detecting Potato External Defects[D]. Yinchuan: Ningxia University, 2014. (in Chinese with English abstract)
[12] 汪成龍,陳廣財,陳國壯. 基于OpenCV的畸形馬鈴薯識別方法[J]. 湖南農(nóng)業(yè)科學,2018(4):85-87.
Wang Chenglong, Chen Guangcai, Chen Guozhuang. Identification method of abnormal potato based on OpenCV[J]. Hunan Agricultural Science, 2018(4): 85-87. (in Chinese with English abstract)
[13] 許傳悅,彭世英,楊金鳳,等. 基于MATLAB的馬鈴薯圖像特征提取[J]. 科學技術(shù)創(chuàng)新,2020(7):77-78.
[14] Feichtenhofer C, Pinz A, Zisserman A. Detect to track and track to detect[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017.
[15] Kang K, Li H, Xiao T, et al. Object detection in videos with tubelet proposal networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. 2017.
[16] 朱旭,馬淏,姬江濤,等. 基于Faster R-CNN的藍莓冠層果實檢測識別分析[J]. 南方農(nóng)業(yè)學報,2020,51(6):1493-1501.
Zhu Xu, Ma Yu, Ji Jiangtao, et al. Detecting and identifying blueberry canopy fruits based on Faster R-CNN[J]. Southern Journal of Agriculture, 2020, 51(6): 1493-1501. (in Chinese with English abstract)
[17] 譚文學,趙春江,吳華瑞,等. 基于彈性動量深度學習神經(jīng)網(wǎng)絡的果體病理圖像識別[J]. 農(nóng)業(yè)機械學報,2015,46(1):20-25.
Tan Wenwen, Zhao Chunjiang, Wu Huarui, et al. Fruit pathological image recognition based on elastic momentum deep learning neural network[J]. Transactions of The Chinese Society of Agricultural Machinery, 2015, 46(1): 20-25. (in Chinese with English abstract)
[18] 魏靖,王玉亭,袁會珠,等. 基于深度學習與特征可視化方法的草地貪夜蛾及其近緣種成蟲識別[J]. 智慧農(nóng)業(yè),2020,2(3):75-85.
Wei Jing, Wang Yuting, yuan Huizhu, et al. Identification and morphological analysis of adultSpodoptera frugiperda and its close related species using deep learning[J]. Intelligent agriculture, 2020, 2(3): 75-85. (in Chinese with English abstract)
[19] 徐巖,李曉振,吳作宏,等. 基于殘差注意力網(wǎng)絡的馬鈴薯葉部病害識別[J]. 山東科技大學學報:自然科學版,2021,40(3):76-83.
Xu Yan, Li Xiaozhen, Wu Zuohong, et al. Potato leaf disease recognition via residual attention network[J]. Journal of Shandong University of Science and Technology: Natural Science Edition, 2021, 40(3): 76-83. (in Chinese with English abstract)
[20] He K, Gkioxari G, Dollar P, et al. Mask R-CNN[C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.
[21] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]. Advances in Neural Information Processing Systems, 2015: 91-99.
[22] Liu W, Anguelov D, Erhan D, et al. SSD: Single Shot Multibox Detector[C]. I European Conference on Computer Vision. Springer, Cham, 2016: 21-37.
[23] 孔維剛,李文婧,王秋艷,等. 基于改進YOLOv4算法的輕量化網(wǎng)絡設計與實現(xiàn)[J/OL]. 計算機工程,[2021-04-30] DOI:10.19678/j.issn.000-3428.0060948
Kong Weigang, Li Wenjing, Wang Qiuyan, et al. Design and implementation of lightweight network based on YOLOv4 algorithm[J/OL]. Computer Engineering: [2021-04-30] DOI: 10.19678/j.issn.000-3428.0060948 (in Chinese with English abstract)
[24] Redmon J, Divvala S, Girshick R, et al. You only look once: unified, real-time object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society: Piscataway, 2016: 779-788.
[25] Bochkovskiy A, Wang C Y, Liao H. YOLOv4: Optimal Speed and Accuracy of Object Detection[C]. CVPR 2020 Alexey Bochkovskiy
[26] 周博文. 基于MobileNetV2的目標檢測算法研究與應用[D].武漢:湖北工業(yè)大學,2020.
Zhou Bowen. Research and Application of Object Detection A1gorithm Based on MobileNetV2[D]. Wuhan: Hubei University of Technology, 2020. (in Chinese with English abstract)
[27] 陳泳豪,蕭嘉樂,粟濤. MobileNetV2神經(jīng)網(wǎng)絡處理器設計方案比較[J]. 計算機工程與科學,2021,43(1):24-32.
Chen Yonghao, Xiao Jiale, Su Tao. Comparison of design schemes of MobileNetV2 neural network processor[J]. Computer Engineering and Science, 2021, 43(1): 24-32. (in Chinese with English abstract)
Potato detection in complex environment based on improved YoloV4 model
Zhang ZhaoGuo, Zhang Zhendong, Li Jianian, Wang Haiyi, Li Yanbin, Li Donghao
(1.,,650500,; 2.,650500,)
Potatoes have been provided more guarantee for the national food security as the fourth largest food crop in China. However, the relatively low harvest efficiency and intelligence operation have been serious bottlenecks in the potato industry at present. It is necessary to real-time detect and evaluate the potato’s state during harvesting, particularly on the grading and cleaning treatment in a combine harvester. In this study, a machine learning model was proposed to quickly and accurately identify the number and damage of potatoes under the various working environments, such as light brightness, shielding of soil and potato blocks, machine vibration, and dust interference. A lightweight attention mechanism was also introduced into the convolutional neural residual network. The attention mechanism acted on the full connection layer was then added to the YoloV4 using the different weights of each channel. The original K-means aggregation was abandoned, due to the relatively consistent size of potatoes. Three output layers of YoloV4 were combined into a large output layer, where the cspdarknet53 was replaced by the mobile netv3 network structure to realize the feature extraction. As such, the MobilenetV3 presented an inverse residual structure with the deeply separable convolution blocks and linear bottlenecks. The amount of calculation and parameters were reduced to 1/4 of the original using the H-swish activation function instead of the swish function, thereby significantly improving the detection speed without loss of the recognition rate of the potato. Some operations were selected to process the collected images for the better generalization ability of the training model, including the horizontal flip, vertical flip, mirror image, and adding noise. Among them, there were 1 296 images with high quality, 322 images of mechanically damaged potatoes, and 231 images with disturbing for comparison. The collected image data set was used for the model training at the workstation, where the loss value of training set and test set were recorded. Subsequently, the comparative and field tests were carried out, where the trained network was introduced into the embedded equipment. The evaluation indexes were set as the precision-recall curve, AP (detection accuracy), map (mean value of AP value in all categories) and detection speed. It was proved that the depth learning improved the recognition accuracy of potato, compared with the traditional open CV model. The MobilenetV3-YoloV4 also presented a higher recognition speed, and an excellent extraction performance to the target, compared with YoloV4, YoloV3, VGG16, and traditional open CV models. The results show that the average accuracy of potato recognition was 91.4%, indicating strong robustness for the target detection of normal potato and mechanically damaged potato in various environments. There was a better performance at the illumination of 30o, 45o, 60o and 90o, where the transmission speed of 23.01 frames per second when the network model was applied to embedded devices. A field experiment proved that the MobilenetV3-YoloV4 was used to real-time detect the potato flow in the actual harvest. According to the flow, the separation speed of the vertical annular was adjusted to avoid the excessive accumulation of potatoes, when the potato was fed too much. Otherwise, the linear scratch between potato and soil potato would result in the increase of the skin breaking rate. Once the feeding amount was reduced, the rotating speed of the vertical annular was adjusted to reduce the damage caused by the vibration of the device, where there was less energy consumption, as well as the less linear scratch between the potato and the grid. This finding can provide sound technical support for the intelligent cleaning and grading of potatoes in a combine harvester.
machine vision; target detection; deep-learning; potato; YoloV4; MobilenetV3
張兆國,張振東,李加念,等. 采用改進YoloV4模型檢測復雜環(huán)境下馬鈴薯[J]. 農(nóng)業(yè)工程學報,2021,37(22):170-178.doi:10.11975/j.issn.1002-6819.2021.22.019 http://www.tcsae.org
Zhang ZhaoGuo, Zhang Zhendong, Li Jianian, et al. Potato detection in complex environment based on improved YoloV4 model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(22): 170-178. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.22.019 http://www.tcsae.org
2021-05-30
2021-06-29
云南省重大科技專項(2018ZC001);重慶市科研機構(gòu)績效激勵引導專項(cstc2019jxj100002)
張兆國,博士,教授,博士生導師,研究方向為農(nóng)業(yè)機械裝備設計。Email:zzg@kust.edu.cn
10.11975/j.issn.1002-6819.2021.22.019
S24
A
1002-6819(2021)-22-0170-09