閆建偉,趙 源,張樂偉,蘇小東,劉紅蕓,張富貴,3,樊衛(wèi)國,何 林,4
改進Faster-RCNN自然環(huán)境下識別刺梨果實
閆建偉1,2,3,趙 源1,張樂偉1,蘇小東1,劉紅蕓1,張富貴1,3※,樊衛(wèi)國2,何 林1,4
(1. 貴州大學機械工程學院,貴陽 550025; 2. 國家林業(yè)和草原局刺梨工程技術研究中心,貴陽 550025;3. 貴州省山地農業(yè)智能裝備工程研究中心,貴陽 550025;4. 六盤水師范學院,六盤水 553004)
為了實現(xiàn)自然環(huán)境下刺梨果實的快速準確識別,根據(jù)刺梨果實的特點,該文提出了一種基于改進的Faster RCNN刺梨果實識別方法。該文卷積神經網絡采用雙線性插值方法,選用Faster RCNN的交替優(yōu)化訓練方式(alternating optimization),將卷積神經網絡中的感興趣區(qū)域池化(ROI pooling)改進為感興趣區(qū)域校準(ROI align)的區(qū)域特征聚集方式,使得檢測結果中的目標矩形框更加精確。通過比較Faster RCNN框架下的VGG16、VGG_CNN_M1024以及ZF 3種網絡模型訓練的精度-召回率,最終選擇VGG16網絡模型,該網絡模型對11類刺梨果實的識別精度分別為94.00%、90.85%、83.74%、98.55%、96.42%、98.43%、89.18%、90.61%、100.00%、88.47%和90.91%,平均識別精度為92.01%。通過對300幅自然環(huán)境下隨機拍攝的未參與識別模型訓練的刺梨果實圖像進行檢測,并選擇以召回率、準確率以及1值作為識別模型性能評價的3個指標。檢測結果表明:改進算法訓練出來的識別模型對刺梨果實的11種形態(tài)的召回率最低為81.40%,最高達96.93%;準確率最低為85.63%,最高達95.53%;1值最低為87.50%,最高達94.99%。檢測的平均速度能夠達到0.2 s/幅。該文算法對自然條件下刺梨果實的識別具有較高的正確率和實時性。
卷積神經網絡;Faster RCNN;機器視覺;深度學習;刺梨果實;目標識別
刺梨廣泛分布于暖溫帶及亞熱帶地區(qū),在我國主要分布在貴州、云南、四川等地,其中以貴州的盤縣、龍里等刺梨資源最豐富、品種最多、產量最高[1]。
近年來,卷積神經網絡(convolutional neural network,CNN)在目標識別與檢測方面有廣泛的應用。孫世鵬等[2]采用機器視覺技術對冬棗黑斑病害和縮果病害進行無損檢測,分類正確率分別達到了89.6%和99.4%,但是該方法過于依賴顏色分量,在復雜背景下的冬棗識別效果有限;傅隆生等[3]提出一種基于LeNet卷積神經網絡的深度學習模型進行多簇獼猴桃果實圖像的識別方法,該方法對田間獼猴桃圖像具有較高的識別率和實時性,但對于強反射光及重疊果實的識別效果不理想。孫云云等[4]采用AlexNet經典網絡模型對茶樹病害進行圖像識別,平均測試準確率為90%,正確區(qū)分率分別為85%、90%和85%,說明卷積神經網絡在農作物的識別上具有高效性和可行性。Przybylo等[5]提出了利用卷積神經網絡對橡膠種子切片顏色圖像進行活性識別的方法,該方法的準確度(85%)相當或略高于人工(84%),提高了作業(yè)效率。夏為為等[6]提出了一種基于卷積神經網絡的改進算法對宮頸癌細胞圖像進行識別,該改進算法降低了對宮頸癌細胞圖像的識別錯誤率(從4.74%降到4.38%左右),說明神經網絡在醫(yī)學領域也有重要的應用。目標識別方法正在從傳統(tǒng)的機器學習算法轉向神經網絡領域,傳統(tǒng)的機器學習算法由于對目標的顏色過度依賴,使其對于復雜背景中的目標識別正確率較低。而卷積神經網絡則通過對大量數(shù)據(jù)的訓練,學習目標具體特征,以實現(xiàn)對目標的精準識別與定位。卷積神經網絡不僅在手寫字符識別[7-9]、人臉識別[10-14]、行為識別[15-21]以及車輛檢測[22-23]等方面有較成熟的應用,在蘋果[24-26]、獼猴桃[3,27]和橘子[28]等果實的識別方面也有廣泛的應用,但是,還沒有將神經網絡用于刺梨果實識別方面的相關文獻。
目前,刺梨果實采摘是刺梨生產中最耗時、耗力的環(huán)節(jié),其投入的勞力約占生產過程50%~70%。刺梨果實的采摘人工成本高、勞動強度大、采摘效率低[29]。刺梨果實自身重力較小,且枝梗較硬,使得刺梨花苞朝向各個方向,且刺梨果實顏色特征與其枝條和葉片相近,這對實現(xiàn)自然環(huán)境下刺梨果實的識別和定位帶來了困難。
本文結合自然環(huán)境下刺梨果實的生長特征,對Faster RCNN框架下的VGG16網絡的結構和參數(shù)進行了調整、改進和優(yōu)化,通過對刺梨數(shù)據(jù)集的訓練,最終得到一個基于改進的卷積神經網絡的刺梨果實識別模型,該模型能夠高效快速地識別自然環(huán)境下的刺梨果實,以實現(xiàn)對刺梨果實進行高精度、快速的識別。
本文刺梨果實圖像采集于貴州省龍里縣谷腳鎮(zhèn)茶香村刺梨產業(yè)示范園區(qū),品種為貴龍5號。2018年8月8日下午采集未成熟時期刺梨果實圖像1 500幅,天氣晴朗;2018年9月20日下午采集成熟時期刺梨果實圖像1 600幅,天氣晴朗;共采集自然環(huán)境下刺梨果實原始圖像3 100幅。本文所用圖像采用尼康(Nikon)D750單反相機多角度近距離(2 m以內)進行拍攝,原始圖像格式為.JPEG,分辨率為6 016×4 016像素。自然環(huán)境下的刺梨果實圖像樣本示例如圖1所示。
圖1 自然環(huán)境下的刺梨果實圖像樣本示例
本文從拍攝的3 100幅刺梨果實圖像中選出2 000幅,將識別類別數(shù)設為11種。為避免參與訓練的某類別數(shù)目過少而出現(xiàn)無法精確分類的欠擬合現(xiàn)象,以及某類別數(shù)目過多而出現(xiàn)在分類過程中過于注重某個特征的學習而導致分類錯誤的過擬合現(xiàn)象。本研究盡量保證各類別的刺梨果實圖像樣本數(shù)量均衡。
通過Photoshop CS6軟件,將2 100幅大小為6 016× 4 016像素的原圖裁剪為多幅大小為500×500像素的完全包含刺梨果實的樣本,借助ACDSee軟件,對裁剪出的樣本進行上下翻轉以及旋轉45°、90°和270°,增強圖像數(shù)據(jù)集,同時統(tǒng)一批量重命名為2018_000001.jpg格式,最終處理完后得到8 475幅樣本。再借助labelImg對其中8 175幅樣本進行標簽制作,本文使用POSCAL VOC2007數(shù)據(jù)集格式,制作樣本標簽。
根據(jù)刺梨果實自然生長環(huán)境,按其成熟程度、獨立與相鄰、遮擋與否等情況,將刺梨果實圖像分為11類:1g0csnot、1g0csyes、1g1csnot、1g1csyes、2g0csnot、2g0csyes、2g1csnot、2g1csyes、ng0csnot、ng1csnot、ng1csyes;其中,1g、2g、ng分別表示相鄰單元刺梨果實數(shù)為1個、2個和3個以上(包含3個),0cs表示刺梨果實未成熟,1cs表示刺梨果實已成熟(顏色純黃視為成熟,其余情況均視為未成熟),yes表示有樹葉或樹枝等遮擋超過1/4而小于3/4的刺梨,not表示沒有遮擋或遮擋小于1/4或相互重疊而沒有被枝葉遮擋的情況,對于2個和3個的情況,有1個未成熟則視為未成熟,有1個遮擋超過1/2或有枝葉橫跨整個刺梨則視為遮擋。刺梨果實圖像分類簡圖如圖2所示。
注:圖為1g0csnot表示獨立刺梨未成熟沒有遮擋的情況, 其中:g表示個數(shù),其前面的數(shù)字表示有幾個相鄰,0cs表示未成熟,1cs表示成熟,顏色純黃視為成熟,其余情況均視為未成熟。yes和not分別表示有遮擋和無遮擋。
本文試驗條件為:Ubuntu 16.04、64位操作系統(tǒng),采用caffe框架。相機:尼康(Nikon D750),常用變焦頭:AF-S尼克爾,24-120mm f/4G ED VR鏡頭。電腦配置:臺式電腦,GeForce GTX 1060顯卡,6G顯存;Intel (R)Core(TM) i7-8700K處理器,主頻3.70 GHz,磁盤內存 250 GB,編程語言是Python編程語言。
本文選擇以Faster RCNN作為刺梨果實檢測識別的基礎網絡框架,根據(jù)刺梨果實的圖像特征,對該框架下的VGG16、VGG_CNN_M1024及ZF 3種訓練模型的重要結構參數(shù)和模型訓練策略進行了改進和優(yōu)化,使其能夠更好地實現(xiàn)對刺梨果實圖像的識別。
Faster RCNN由2部分構成:特征提取和RPN+Fast RCNN。首先對特征進行提取,再進入?yún)^(qū)域候選網絡(region proposal network,RPN),最后進入Faster RCNN的后半部分,作為特征提取的網絡,再接入?yún)^(qū)域提取網絡,生成建議矩形框(Proposals)[30]。各網絡主要結構都由卷積層、激勵層、池化層、RPN層、ROI Align層及全連接層構成,網絡結構如下。
2.2.1卷積層(Conv layer)
Faster RCNN支持輸入任意大小的圖像,卷積層輸出圖像的大小如公式(1)所示。
式中outputsize表示該卷積層輸出到下一層的圖像大小,inputsize表示輸入該層的圖像大小,kernel_size表示卷積核大小,pad表示填充的像素,stride表示卷積核在圖像上滑動的步長。
由于在卷積層圖像的每一個像素點都有一個新值,所以卷積層不會改變圖像的大小。
2.2.2 激勵層(ReLu layer)
由于ReLu函數(shù)的收斂速度非常快,所以選用修正線性單元函數(shù)(the rectified linear unit,ReLu)作為激勵層函數(shù)。
2.2.3 池化層(Pooling layer)
池化層選用了最大池化(Max-pooling)方法,可以在一定的程度上降低卷積層參數(shù)誤差造成的估計均值偏移所引起的特征提取的誤差。通過卷積層、激勵層和池化層完成了對輸入圖像特征圖的提取。
2.2.4 RPN(Region proposal networks)
RPN可以把一個任意尺度的圖像作為輸入,輸出一系列的建議矩形框(object proposals),每個矩形框都帶一個目標框得分(objectness score)。它是在特征圖上提取候選框,大幅加快了訓練速度。
2.2.5 感興趣區(qū)域校準(ROI Align)
ROI Align是Mask-RCNN框架中提出的一種區(qū)域特征聚集方式,該方式能夠解決ROI Pooling操作中2次量化造成的區(qū)域不匹配(mis-alignment)的問題[31]。ROI Align使用雙線性內插的方法獲得坐標為浮點數(shù)的像素點上的圖像數(shù)值,從而將整個特征聚集過程轉化為一個連續(xù)的操作,解決了區(qū)域不匹配問題。
2.2.6 全連接層(FC layer)
全連接層即兩層之間的所有神經元都有權重連接,它將ROI Align層輸出的特征圖(feature map)進行全連接操作。
本文使用ImageNet預訓練的模型初始化權值,選擇交替優(yōu)化訓練方式(alternating optimization),在VGG16、VGG_CNN_M1024以及ZF3種訓練模型下進行了訓練。
VGG16訓練模型具有13個卷積層,13個激勵層,4個池化層,是一種用于數(shù)據(jù)分別較多,數(shù)據(jù)集較大的大型網絡;VGG_CNN_M1024有5個卷積層,5個激勵層,2個池化層,是一種中型網絡;ZF也有5個卷積層,5個激勵層,2個池化層,是一種用于分類較少數(shù)據(jù)較小的小型網絡。
VGG16、VGG_GNN_M_1024以及ZF 3種神經網絡參數(shù)調整如下:樣本在4個階段的訓練迭代總次數(shù)為280 000次,初始學習率設置為0.001,批處理圖像為128幅,RPN第一、二階段stepsize均為60 000,最大迭代次數(shù)為80 000,F(xiàn)aster RCNN第一、二階段stepsize均為40 000,最大迭代次數(shù)為60 000,動量因子均為0.9,weight_decay均為0.000 5,分別在VGG16、VGG_GNN_M_1024和ZF模型下訓練出來的精確率-召回率曲線(precision-recall, PR)如圖3所示。從圖3中可以看出,以VGG16網絡訓練出來的P-R曲線圖效果最佳,其召回率更接近于1,說明在這3種網絡模型中,VGG16網絡下訓練出來的模型所檢測出的目標矩形框與制作標簽時所畫的矩形框重疊度最高。
圖3 VGG16、VGG_GNN_M_1024和ZF模型下的PR曲線圖
VGG16、VGG_GNN_M_1024以及ZF 3種網絡模型下各類別的訓練精度如表1所示,3種網絡模型下訓練性能對比如表2所示。
從表1可以看出,3種網絡訓練模型中,VGG16網絡模型訓練出的模型平均精度最高,最低精度為0.837 4,最高精度為1.000 0。所以本文采用VGG16網絡模型進行訓練。
隨機從8 175幅樣本中選擇6 540(80%)幅作為訓練驗證集(trainval),作為訓練集與驗證集,其余20%作為測試集(test);trainval的80%作為訓練集,其余20%作為驗證集;其余未參與訓練的300幅用于對最終模型進行檢驗。
表1 3種網絡模型下各類別的訓練精度
表2 3種網絡模型下訓練性能對比
本文的網絡可以直接將刺梨樣本作為數(shù)據(jù)輸入,通過歸一化將樣本縮放為500像素×500像素大小,在卷積層中,對歸一化后的圖像進行了擴邊處理(=1,即圖像四周填充一圈0像素點),以保證不改變輸入和輸出矩陣的大小。使用Relu函數(shù)作為激勵函數(shù)。經過一個大小為2×2的核進行池化(下采樣),圖像變?yōu)?50×250像素大小,網絡的訓練階段采用批量隨機梯度下降法,經過13個卷積層,13個Relu層,4個池化層后,生成大小為31像素×31像素大小的特征圖,該特征圖的每一個特征點都與原圖16像素×16像素大小的區(qū)域對應。RCNN使用選擇性搜索(Selective Search)方法[8]生成檢測框,極大地提升了檢測框生成速度。
本文選用損失函數(shù)Softmax loss(對應Softmax回歸分類器)進行網絡性能的對比分析?;赩GG16的Faster RCNN網絡結構框架圖如圖4所示。
通過對300幅未參與訓練的刺梨果實圖像進行檢驗,當圖像大小為500像素×500像素時檢驗速度最快,平均速度可達到0.2 s/幅。通過對300幅檢驗圖像中實際存在的刺梨類別及其個數(shù)與檢驗出來的數(shù)據(jù)進行對比分析和對比,即可得到識別準確率。
圖4 基于VGG16的Faster RCNN網絡結構框架圖
改進的卷積神經網絡進行刺梨果實識別模型訓練的步驟如下:
1)對刺梨果實原圖進行預處理,根據(jù)刺梨生長狀況進行分類,盡量使各類別刺梨果實圖像數(shù)量相近;
2)根據(jù)改進的卷積神經網絡對輸入數(shù)據(jù)大小的要求,統(tǒng)一裁剪出500×500像素大小的樣本,同時通過旋轉、鏡像等擴展樣本數(shù)量,制作訓練樣本集;
3)采用交叉驗證的模型訓練方法,分別使用VGG16、VGG_GNN_M_1024以及ZF模型進行訓練,對比分析后,決定使用模型訓練精度較高的VGG16進行最終模型的訓練。通過對輸入網絡的刺梨樣本進行固定縮放至500像素×500像素,采用ReLu激勵函數(shù)以及最大池化的下采樣法,經過13個卷積層+13個relu層+4個池化層提取特征圖;經過RPN網絡的一個3×3的卷積,生成前景錨點與邊界框回歸偏移量,計算出建議候選框;
4)通過反向傳播算法調節(jié)更新網絡參數(shù),進行參數(shù)的調整與改進;
5)通過區(qū)域特征聚集的方式,從特征圖中提取出建議候選框,輸入全連接層以及softmax網絡進行分類,得到各類的平均精度值(average precision,AP)以及所有類別的平均精度均值(mean average precision,mAP)。最終得到矩形框幾何中心位置,即刺梨的近似質心坐標,達到對刺梨的準確識別與定位。
改進的VGG16網絡模型下訓練的各階段(stage1_rpn、stage1_fast_rcnn、stage2_rpn、stage2_fast_rcnn)Loss曲線圖如圖5所示。
圖5 改進后的VGG16網絡模型下訓練的各階段Loss曲線圖
從以上訓練過程的4幅損失率-迭代次數(shù)關系圖可以看出,stage1_rpn和stage2_rpn為區(qū)域生成網絡(RPN)階段,在這一訓練階段將生成大量的檢測框,其損失率較低,說明生成的大多數(shù)檢測框與標簽中的目標框重疊度較高。stage1_fast_rcnn和stage2_fast_rcnn為Fast RCNN網絡訓練過程的損失率。stage1_rpn和stage2_rpn生成的檢測框進行判別,區(qū)分目標是背景還是目標對象,并返回含有目標對象的矩形框與感興趣區(qū)域的信息,stage2_rpn再生成大量檢測框,由stage2_fast_rcnn階段接著上一階段的數(shù)據(jù)進行判別。從stage1_fast_rcnn和stage2_fast_rcnn可以看出,當?shù)螖?shù)達到40 000次時曲線收斂,損失率約為0.05%左右,訓練結果比較理想。
本文的研究是為刺梨果實的智能化采摘提供刺梨果實的識別、類別及位置等提供依據(jù),在采摘過程中,執(zhí)行末端的允許誤差半徑為10 mm,因此,需要識別出刺梨果實的大部分區(qū)域即可實現(xiàn)刺梨果實的識別。當檢測的紅框區(qū)域與刺梨果實重疊部分超過約3/4且紅框標記的類別與實際刺梨果實類別相同時,視為正確檢測。
本文所用的模型性能評價指標有召回率(recall,)、準確率(precision,)以及F值,F值計算公式如公式(2)所示,其中,=檢測正確/(檢測正確+檢測誤以為正確);=檢測正確/(檢測正確+檢測誤以為錯誤)。
式中為準確率,%,為召回率,%。
根據(jù)對刺梨果實不同尺寸大小的圖像進行檢測,當圖像尺寸大小為500像素×500像素時檢測用時最少,檢測平均速度約為0.2 s每幅圖像。本文將沒參與訓練的300幅大小為500像素×500像素的圖像對模型進行了驗證,其中包含刺梨的11種類別。未參與訓練的300幅刺梨圖像在模型中檢測的結果如表3所示。
表3 模型檢測結果
由表3可知,本文選擇F值來度量識別模型的優(yōu)劣,1值即準確率與召回率的一個平衡點,能同時考慮到準確率和召回率。1值均高于87.50%,最高可達到94.99%,說明本文訓練出來的識別模型檢測效果較好。改進前后訓練的模型檢測效果圖如圖6所示。
由圖6可以看出,使用感興趣區(qū)域池化(ROI pooling)訓練出來的模型對刺梨果實的檢測存在較大的偏差,改進為感興趣區(qū)域校準(ROI align)方法后,檢測矩形框的精度有明顯的改善。有極少數(shù)刺梨由于果實過小、遮擋面積較大或是模糊不清而不能被檢測到。同時,也有小部分刺梨類別識別有誤,一方面是由于在制作標簽時帶有人為判別誤差導致,另一方面也有數(shù)據(jù)集樣本不夠多的因素在內。從效果圖可以看出,該識別模型對光線較暗情況下的目標也能夠檢測到。
注:圖中小圖為具體果實識別情況。
目前,還沒有刺梨果實圖像識別相關研究,本文將應用卷積神經網絡Faster RCNN(ZFNet網絡)、LeNet網絡對獼猴桃、蘋果等其他果實圖像進行識別及檢測的結果進行了對比,以驗證本文的算法Faster RCNN(VGG16網絡)的識別準確率及識別速率。具體對比分析見表4基于卷積神經網絡的果實識別算法比較所示。
表4 基于卷積神經網絡的果實識別算法比較
從表4對獼猴桃、蘋果、刺梨等果實識別的準確率和識別時間比較可以看出,本文的算法Faster RCNN(VGG16網絡)對刺梨果實的識別精度高,達到95.16%;在單個果實識別識別速度更快,平均每個刺梨果實的識別時間約為0.20 s,平均時間上具有一定的優(yōu)勢,比Fu等[32]的方法要快0.07 s。同時,本文提出的算法對弱光照和強光照條件下的刺梨果實都有較好的識別效果,適合在復雜的田園環(huán)境中對刺梨果實進行有效地識別檢測,能夠達到刺梨果實自動化識別定位采摘的要求。
1)為了實現(xiàn)刺梨果實的自動化采摘,本文建立了一種基于卷積神經網絡的田間刺梨果實識別方法。通過對Faster RCNN架構下的VGG16、VGG_GNN_M_1024以及ZF網絡模型的結構和參數(shù)進行調整優(yōu)化,對比分析后選擇了適用于刺梨果實識別模型訓練的VGG16網絡,本文訓練出來的識別模型對自然條件下刺梨果實識別率較高,能夠為刺梨果實的采摘奠定數(shù)據(jù)基礎。
2)本文中將Faster RCNN框架中的感興趣區(qū)域池化方法(ROI Pooling)改為Mask RCNN中提出的一種區(qū)域特征聚集方式-ROI Align,提高了模型檢測精度。本文算法對圖像中刺梨果實的平均識別速度能夠達到0.2 s/個,1值最低為87.50%,最高達94.99%,能夠滿足刺梨果實識別采摘的要求。
本文利用卷積神經網絡對刺梨果實圖像特征進行深度提取的文章,為刺梨果實的智能化識別與采摘奠定了一定的基礎,為刺梨果實的自動化采摘技術的研究開啟了新的征程。
[1] 唐玲,陳月玲,王電,等. 刺梨產品研究現(xiàn)狀和發(fā)展前景[J]. 食品工業(yè),2013,34(1):175-178.
Tang Ling, Chen Yueling, Wang Dian, et al. The research status and the development prospect ofTratt products[J]. Food Industry, 2013, 34(1): 175-178. (in Chinese with English abstract)
[2] 孫世鵬,李瑞,謝洪起,等. 基于機器視覺的冬棗病害檢測[J]. 農機化研究,2018(9):183-188.
Sun Shipeng, Li Rui, Xie Hongqi, et al. Detection of winter jujube diseases based on machine vision[J]. Journal of Agricultural Mechanization Research, 2018(9): 183-188. (in Chinese with English abstract)
[3] 傅隆生,馮亞利,Tola Elkamil,等. 基于卷積神經網絡的田間多簇獼猴桃圖像識別方法[J]. 農業(yè)工程學報,2018,34(2):205-211.
Fu Longsheng, Feng Yali, Elkamil Tola, et al. Image recognition method of multi-cluster kiwifruit in field based onconvolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE) 2018, 34(2): 205-211. (in Chinese with English abstract)
[4] 孫云云,江朝暉,董偉,等. 基于卷積神經網絡和小樣本的茶樹病害圖像識別[J]. 江蘇農業(yè)學報,2019,35(1):48-55.
Sun Yunyun, Jinag Zhaohui,Dong Wei, et al. Image recognition of tea plant disease based on convolution neural net-work and small samples[J]. Jiangsu Journal of Agricultural Sciences, 2019, 35(1): 48-55. (in Chinese with English abstract)
[5] Przyby?o J, Jab?oński M. Using deep convolutional neural network for oak acorn viability recognition based on color images of their sections[J]. Computers and Electronics in Agriculture, 2019, 156: 409-499.
[6] 夏為為,夏哲雷. 基于卷積神經網絡的宮頸癌細胞圖像識別的改進算法[J]. 中國計量大學學報,2018,29(4):439-444.
Xia Weiwei, Xia Zhelei. An improved algorithm for cervical cancer cell image recognition based on convolution neural networks[J]. Journal of China University of Metrology, 2018, 29(4): 439-444. (in Chinese with English abstract)
[7] Mane D T, Kulkarni U V. Visualizing and understanding customized convolutional neural network for recognition of handwritten marathi numerals[J]. Procedia Computer Science, 2018, 132: 1123-1137.
[8] Rabby A S A, Haque S, Abujar S, et al. Using convolutional neural network for bangla handwritten recognition[J]. Procedia Computer Science,2018, 143: 603-610.
[9] Trivedi A, Srivastava S, Mishra A, et al. Hybrid evolutionary approach for devanagari handwritten numeral recognition using convolutional neural network[J]. Procedia Computer Science,2018, 125: 525-532.
[10] Li Ya,Wang Guangrun, Nie Lin , et al. Distance metric optimization driven convolutional neural network for age invariant face recognition[J]. Pattern Recognition, 2018, 75: 51-62.
[11] O Toole A J, Castillo C D, Parde C J, et al. Face space representations in deep convolutional neural networks[J]. Trends in Cognitive Sciences, 2018, 22(9): 794-809.
[12] Jiao Licheng, Zhang Sibo, Li Lingling, et al.A modified convolutional neural network for face sketch synthesis[J]. Pattern Recognition, 2018, 76: 125-136.
[13] Banerjee S, Das S. Mutual variation of information on transfer-CNN for face recognition with degraded probe samples[J]. Neurocomputing,2018, 310: 299-315.
[14] Yang Meng, Wang Xing, Zeng Guohang, et al. Joint and collaborative representation with local adaptive convolution feature for face recognition with single sample per person[J]. Pattern Recognition, 2017, 66: 117-128.
[15] Aminikhanghahi S, Cook D J. Enhancing activity recognition using CPD-based activity segmentation[J]. Pervasive and Mobile Computing, 2019, 53: 75-89.
[16] Hassan M M, Uddin M Z, Mohamed A, et al. A robust human activity recognition system using smartphone sensors and deep learning[J]. Future Generation Computer Systems, 2018, 81: 307-313.
[17] Nweke H F, Teh Y W, Al-Garadi M A, et al. Deep learning algorithms for human activity recognition using mobile and wearable sensor networks: State of the art and research challenges[J]. Expert Systems with Applications, 2018, 105: 233-261.
[18] San-Segundo R, Blunck H, Moreno-Pimentel J, et al. Robust human activity recognition using smartwatches and smartphones[J]. Engineering Applications of Artificial Intelligence, 2018, 72: 190-202.
[19] Ignatov A. Real-time human activity recognition from accelerometer data using convolutional neural networks[J]. Applied Soft Computing,2018, 62: 915-922.
[20] 張匯,杜煜,寧淑榮,等. 基于Faster RCNN的行人檢測方法[J]. 傳感器與微系統(tǒng),2019,38(2):147-149.
Zhang Hui, Du Yu, Ning Shurong,et al. Pedestrian detection method based on Faster RCNN[J]. Transducer and Microsystem Technologies, 2019, 38(2): 147-149. (in Chinese with English abstract)
[21] 李宗民,邢敏敏,劉玉杰,等. 結合Faster RCNN和相似性度量的行人目標檢測[J]. 圖學學報,2018,39(5):901-908.
Li Zongmin, Xing Minmin, Liu Yujie, et al. Pedestrian object detection based on Faster RCNN and similarity measurement[J]. Journal of graphics, 2018, 39(5): 901-908. (in Chinese with English abstract)
[22] 張琦,胡廣地,李雨生,等. 改進Fast-RCNN的雙目視覺車輛檢測方法[J]. 應用光學,2018,39(6):832-838.
Zhang Qi, Hu Guangdi, Li Yusheng,et al. Binocular vision vehicle detection method based on improved Fast-RCNN[J]. Journal of Applied Optics, 2018, 39(6): 832-838. (in Chinese with English abstract)
[23] 史凱靜,鮑泓,徐冰心,等. 基于Faster RCNN的智能車道路前方車輛檢測方法[J]. 計算機工程,2018,44(7):36-41.
Shi Kaijing, Bao Hong, Xu Binxin,et al. Forward vehicle detection method of intelligent vehicle in road based on Faster RCNN[J]. Computer Engineering, 2018, 44(7): 36-41. (in Chinese with English abstract)
[24] 車金慶,王帆,呂繼東,等. 重疊蘋果果實的分離識別方法[J]. 江蘇農業(yè)學報,2019,35(2):469-475.
Che Jinqing, Wang Fan, Lv Jidong,et al. Separation and recognition method for overlapped apple fruits[J]. Jiangsu Journal of Agricultural Sciences, 2019, 35(2): 469-475. (in Chinese with English abstract)
[25] 程鴻芳,張春友. 自然場景下基于改進LeNet卷積神經網絡的蘋果圖像識別技術研究[J]. 食品與機械,2019,35(3):155-158.
Cheng Hongfang, Zhang Chunyou. Research on apple image recognition technology based on improved LeNet convolution neural network in natural scene[J]. Food and Machinery, 2019, 35(3): 155-158. (in Chinese with English abstract)
[26] Park K, Hong Y K, Kim G H,et al. Classification of apple leaf conditions in hyper-spectral images for diagnosis of Marssonina blotch using mRMR and deep neural network[J]. Computers and Electronics in Agriculture, 2018(148): 179-187.
[27] 詹文田,何東健,史世蓮. 基于Adaboost算法的田間獼猴桃識別方法[J]. 農業(yè)工程學報,2013,29(23):140-146.
Zhan Tianwen, He Dongjian, Shi Shilian. Recognition of kiwifruit in field based on adaboost algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(23): 140-146. (in Chinese with English abstract)
[28] 畢松,高峰,陳俊文,等. 基于深度卷積神經網絡的柑橘目標識別方法[J]. 農業(yè)機械學報,2019,50(5):182-186.
Bi Song, Gao Feng, Chen Junwen,et al. Detection method of citrus based on deep convolution neural network[J]. Transactions of The Chinese Society for Agricultural Machinery, 2019, 50(5): 182-186. (in Chinese with English abstract)
[29] 雷倩,楊永發(fā). 便攜式變徑球形刺梨采摘器的設計[J]. 林業(yè)機械與木工設備,2017,45(3):26-28.
Lei Qian, Yang Yongfa. Design of a portable variable- diameter sphericalPicker[J]. Forestry machinery and woodworking equipment, 2017, 45(3): 26-28. (in Chinese with English abstract)
[30] Shaoqing Ren, Kaiming He, Ross Girshick,et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J], IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[31] Kaiming He, Georgia Gkioxari, Piotr Dollar,et al. Mask R-CNN[C]. in ICCV,2017.
[32] Fu Longsheng, Feng Yali, Majeed Yaqoob, et al. Kiwifruit detection in field images using Faster R-CNN with ZFNet[J]. IFAC-Papers OnLine, 2018, 51(17): 45-50.
Recognition ofin natural environment based on improved Faster RCNN
Yan Jianwei1,2,3, Zhao Yuan1, Zhang Lewei1, Su Xiaodong1, Liu Hongyun1, Zhang Fugui1,3※, Fan Weiguo2, He Lin1,4
(1.,550025,; 2,550025,; 3.550025,; 4.553004,)
is widely distributed in warm temperate zone and subtropical zone, mainly in Guizhou, Yunnan, Sichuan and other places in China. Panxian and Longli are the most abundant the most varieties and the highest yieldresources in Guizhou. The harvesting offruit is the most time-consuming and labor-consuming work inproduction, and its labor input accounts for 50%-70% of the production process. Hand-picking offruit is of high cost, high labor intensity and low picking efficiency. In recent years, convolutional neural network has been widely used in target recognition and detection. However, there is no relevant literature on the application of neural network infruit recognition. In this paper, in order to realize rapid and accurate identification offruits in natural environment, according to the characteristics offruits, the structure and parameters of VGG16, VGG_CNN_M1024 and ZF network models under the framework of Faster RCNN were optimized by comparing them. The convolutional neural network adopted bilinear interpolation method and selected alternating optimization training method of Faster RCNN. ROI Pooling in convolutional neural network is improved to ROI Align regional feature aggregation. Finally, VGG16 network model is selected to make the target rectangular box in the detection result more accurate. 6 540 (80%) of 8 175 samples were selected randomly as training validation set (trainval), the remaining 20% as test set, 80% as training set, the remaining 20% as validation set, and the remaining 300 samples that were not trained were used to test the final model. The recognition accuracy of the network model for 11fruits was 94.00%, 90.85%, 83.74%, 98.55%, 96.42%, 98.43%, 89.18%, 90.61%, 100.00%, 88.47% and 90.91%, respectively. The average recognition accuracy was 92.01%. The results showed that the recognition model trained by the improved algorithm had the lowest recall rate of 81.40%, the highest recall rate of 96.93%, the lowest accuracy rate of 85.63%, the highest 95.53%, and the lowest1value of 87.50%, the highest 94.99%. Faster RCNN (VGG16 network) has high recognition accuracy forfruit, reaching 95.16%. The recognition speed of single fruit is faster, and the average recognition time of eachfruit is about 0.2 seconds. The average time has some advantages, which is 0.07 s faster than the methods of Fu Longsheng. In this paper, a Faster RCNNfruit recognition network model based on improved VGG16 is proposed, which is suitable forfruit recognition model training. The algorithm proposed in this paper has good recognition effect forfruit under weak and strong illumination conditions, and is suitable for effective recognition and detection offruit in complex rural environment. This paper is the first study on the depth extraction offruit image features by using convolution neural network. This research has high recognition rate and good real-time performance under natural conditions, and can meet the requirements of automatic identification and positioning picking offruit. It lays a certain foundation for intelligent identification and picking offruit, and opens a new journey for the research of automatic picking technology offruit.
convolutional neural network; Faster RCNN; machine vision; deep learning;; target recognition
10.11975/j.issn.1002-6819.2019.18.018
TP391.41
A
1002-6819(2019)-18-0143-08
閆建偉,趙 源,張樂偉,蘇小東,劉紅蕓,張富貴,樊衛(wèi)國,何 林. 改進Faster-RCNN自然環(huán)境下識別刺梨果實[J]. 農業(yè)工程學報,2019,35(18):143-150.doi:10.11975/j.issn.1002-6819.2019.18.018 http://www.tcsae.org
Yan Jianwei, Zhao Yuan, Zhang Lewei, Su Xiaodong, Liu hongyun, Zhang Fugui, Fan Weiguo, He Lin. Recognition ofin natural environment based on improved Faster RCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 143-150. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.18.018 http://www.tcsae.org
2019-03-26
2019-08-25
貴州大學培育項目(黔科合平臺人才[2017]5788);貴州省普通高等學校工程研究中心建設項目(黔教合KY字[2017]015);貴州省科技計劃項目(黔科合平臺人才[2019]5616號)
閆建偉,博士,副教授。主要從事農業(yè)智能化技術與裝備研究。Email:jwyan@gzu.edu.cn。
張富貴,博士,教授,主要從事農業(yè)機械化技術研究。Email:zhfugui@vip.163.com
中國農業(yè)工程學會會員:閆建偉(E041201018S)