宋中山,劉越,鄭祿,帖軍,汪進(jìn)
(1.中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,武漢市,430074;2.湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢市,430074)
隨著我國鄉(xiāng)村振興戰(zhàn)略的深入實(shí)施,農(nóng)業(yè)向著高質(zhì)量、高產(chǎn)量方向的發(fā)展成為關(guān)鍵,這促使農(nóng)產(chǎn)品的信息采集,尤其是產(chǎn)量信息的獲取顯得尤為重要。柑橘作為我國消費(fèi)量最大的水果之一,對果樹進(jìn)行早期估產(chǎn)有助于種植者提前進(jìn)行相關(guān)收獲規(guī)劃,而目前柑橘園估產(chǎn)主要是在柑橘成熟變黃以后以人工清點(diǎn)、目測預(yù)估等傳統(tǒng)方式進(jìn)行,這存在耗時(shí)長、工作強(qiáng)度大等缺點(diǎn),且此時(shí)成熟的柑橘已經(jīng)不能通過人工干預(yù)的方式來提高產(chǎn)量[1]。在成熟期前對未成熟的綠色柑橘進(jìn)行早期的產(chǎn)量預(yù)測有助于種植者提前確定果樹的產(chǎn)量情況,這不僅可以幫助種植者在種植過程中科學(xué)規(guī)劃水肥投入量,同時(shí)幫助種植者在早期果園銷售時(shí)提供商業(yè)參考[2]。
國內(nèi)外關(guān)于水果檢測方向多在非近景色果實(shí)識別上進(jìn)行相關(guān)研究[3-10]。在近景色果實(shí)的研究方面,目前有較多的研究利用深度學(xué)習(xí)技術(shù)開展,如綠色柑橘、青蘋果、綠番茄和獼猴桃等果實(shí)識別。近景色水果果實(shí)與背景的葉子顏色相近,使得識別難度較大,識別準(zhǔn)確率較低。
目前在水果識別的研究方向上,Kurtulmus等[11]提出使用三個(gè)不同尺度的移動子窗口掃描整個(gè)圖像,每個(gè)子窗口分別用強(qiáng)度分量的特征值法、飽和度分量的特征值法和圓形Gabor紋理進(jìn)行三次分類,最后通過多數(shù)投票來確定子窗口分類器的結(jié)果。Sengupta等[12]提出由霍夫圓檢測,基于SVM的紋理分類和尺度不變特征變換等技術(shù)集成的算法用于檢測自然戶外照明條件下的綠色柑橘,算法達(dá)到80.4%的正確識別率。Zhao等[13]提出基于紋理特征分析和絕對變換差和算法的塊匹配模型來檢測綠色柑橘,模型達(dá)到83%的正確檢測精度。以上對果實(shí)的識別方法主要是利用圖像處理技術(shù)結(jié)合顏色、紋理、形狀等基本特征來進(jìn)行識別。
隨著機(jī)器學(xué)習(xí)的深入研究,學(xué)者開始利用目標(biāo)檢測算法實(shí)現(xiàn)果實(shí)的自動識別。Gan等[14]提出一種新的彩色—熱聯(lián)合概率算法,有效地融合彩色圖像和熱圖像的信息,再利用Faster-RCNN算法進(jìn)行實(shí)時(shí)的檢測,提高識別的準(zhǔn)確率。熊俊濤等[15]利用Faster-RCNN方法進(jìn)行樹上綠色柑橘的視覺檢測研究,通過試驗(yàn)對超參數(shù)進(jìn)行調(diào)優(yōu),使用優(yōu)化后的超參數(shù)對模型進(jìn)行訓(xùn)練,最終模型在測試集上的平均精度為85.49%。呂石磊等[16]提出一種基于改進(jìn)YOLOV3-LITE輕量級神經(jīng)網(wǎng)絡(luò)的柑橘識別方法,該方法通過引入GIoU邊框回歸損失函數(shù)來提高果實(shí)識別回歸框準(zhǔn)確率。
目標(biāo)檢測作為計(jì)算機(jī)視覺的一個(gè)熱門研究方向,現(xiàn)已被廣泛應(yīng)用于機(jī)器人導(dǎo)航、智能視頻監(jiān)控、水果自動識別等諸多領(lǐng)域[17]。本文在采集大量的柑橘園綠色柑橘圖像基礎(chǔ)上,提出一種基于改進(jìn)YOLOV3的自然環(huán)境下綠色柑橘的識別算法,利用DenseNet的密集連接機(jī)制替換YOLOV3網(wǎng)絡(luò)中的特征提取網(wǎng)絡(luò)Darknet53中的后三個(gè)下采樣層,加強(qiáng)特征的傳播,實(shí)現(xiàn)特征的復(fù)用。通過該算法可實(shí)現(xiàn)自然環(huán)境下近景色柑橘的快速有效識別,為近景色水果的早期測產(chǎn)提供技術(shù)支持。
柑橘圖像數(shù)據(jù)采集于桂林市靈川縣九屋鎮(zhèn)的果園,共532幅。拍攝工具為三星S10手機(jī),在自然光背景下將手機(jī)相機(jī)調(diào)整為“自動聚焦”模式,在不使用閃光燈和縮放的情況下進(jìn)行拍攝,所拍攝的圖像像素為4 032像素×3 024像素(大小約3.9 M);考慮到現(xiàn)實(shí)情況的多變性,拍攝場景選擇陰天和晴天,拍攝時(shí)間選擇下午2點(diǎn)和下午5點(diǎn),拍攝距離選擇距離樹干1.0 m 和0.5 m。數(shù)據(jù)集具體分類如表1所示。
表1 數(shù)據(jù)集具體類別Tab.1 Specific categories of data set
為增強(qiáng)數(shù)據(jù)集的豐富性對數(shù)據(jù)集進(jìn)行預(yù)處理。首先對圖像分別以左上、左下、右上、右下和中心為基準(zhǔn),將一幅圖像裁剪成5幅圖像以降低分辨率,且只保留下含有果實(shí)的圖像,處理后共獲得2 000幅圖像,每幅圖像的分辨率為512像素×512像素。圖像裁剪如圖1所示。其次利用OpenCV庫對圖像進(jìn)行預(yù)處理,其中分別使用色彩平衡、亮度變換、旋轉(zhuǎn)變換、高斯模糊、中值模糊和高斯噪聲各處理300幅圖像,使用椒鹽噪聲處理200幅圖像。最后以7:3的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,使用1 400幅圖像訓(xùn)練網(wǎng)絡(luò)模型,600幅圖像作為測試集驗(yàn)證模型的檢測性能。預(yù)處理后圖像如圖2所示。
(a)原始圖像
(a)原始圖像
YOLOV3[18]網(wǎng)絡(luò)由YOLO[19]和YOLOV2[20]網(wǎng)絡(luò)演變而來,它將檢測問題轉(zhuǎn)換為回歸問題,通過回歸生成邊界框坐標(biāo)和每個(gè)類的概率。與Faster-RCNN相比,這使得檢測速度大幅提升。YOLOV3采用稱為Darknet53的特征提取網(wǎng)絡(luò)結(jié)構(gòu),它借鑒殘差網(wǎng)絡(luò)的思路,在一些層之間設(shè)置快捷鏈路,可以有效緩解反向傳播中的梯度消失問題。為降低池化帶來的梯度負(fù)面效果,使用步長為2的卷積操作來實(shí)現(xiàn)降采樣。YOLOV3使用特征圖金字塔網(wǎng)絡(luò)的多尺度預(yù)測方法和融合做法以提高算法對小目標(biāo)檢測的精確度。
DenseNet[21]的密集連接機(jī)制是每層接受其前面所有層作為額外的輸入。ResNet[22]的機(jī)制是每層與前面的某層以元素級相加的形式短路連接在一起。在DenseNet中,每層都會與前面所有層以通道維度上連接在一起,并作為下層的輸入。因此傳統(tǒng)的L層卷積神經(jīng)網(wǎng)絡(luò)中存在L個(gè)連接,而DenseNet結(jié)構(gòu)中存在L(L+1)/2個(gè)連接。由于DenseNet直接連接來自不同層的特征圖,這可以實(shí)現(xiàn)特征重用,提升效率,提高網(wǎng)絡(luò)性能。
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,第L層的輸出如式(1)所示。
xL=HL(xL-1)
(1)
DenseNet中,第L層的輸出如式(2)所示。
xL=HL([x0,x1,…,xL-1])
(2)
式中:x0——密集連接塊的輸入特征圖;
xL——第L層的輸出;
HL(·)——層間非線性轉(zhuǎn)化函數(shù),是包括批量歸一化函數(shù)(Batch normalization,BN),線性整流函數(shù)(Leaky ReLu)和卷積(Conv)的組合操作;
[x0,x1,…,xL-1]——與第L層的特征圖尺寸相同的前面若干層所生成的特征圖集合。
深層網(wǎng)絡(luò)中梯度信息會隨著網(wǎng)絡(luò)的加深消失或過度膨脹。卷積神經(jīng)網(wǎng)絡(luò)中淺層主要提取局部特征,比如顏色特征,邊緣特征等,深層主要提取語義特征,所以深層特征更接近人對事物的現(xiàn)實(shí)認(rèn)知。YOLOV3作為經(jīng)典深度卷積神經(jīng)網(wǎng)絡(luò),圖像輸入后進(jìn)行卷積操作時(shí),若丟失重要語義特征,會影響模型的檢測效果。而DenseNet模型的密集連接機(jī)制可以將前面層提取到的特征信息更為有效地為后面層所復(fù)用,進(jìn)而使得網(wǎng)絡(luò)隨著層數(shù)的增加,在原已得到的全局特征信息的基礎(chǔ)上不斷增加新的后面層所產(chǎn)生的特征信息。因此,為了提高YOLOV3模型對深層語義特征的利用,減少語義信息的丟失,本文借鑒DenseNet網(wǎng)絡(luò)的密集連接機(jī)制對YOLOV3模型做出改進(jìn)。
Dense Block內(nèi)部為了減少計(jì)算量,提升計(jì)算效率而采用瓶頸層,即在原結(jié)構(gòu)中增加1×1Conv,Hl(·)變成BN+ReLu+1×1Conv+BN+ReLu+3×3Conv。
Darknet53網(wǎng)絡(luò)中共有5個(gè)步長為2的下采樣層,將后三個(gè)下采樣層替換成Dense Block結(jié)構(gòu),因?yàn)楹笕齻€(gè)下采樣層緊靠YOLOV3中3個(gè)尺度的輸出特征,且在網(wǎng)絡(luò)中處于可以提取到更多語義信息的深層,將這三處的特征加強(qiáng)傳播,實(shí)現(xiàn)特征重用,有利于獲得的輸出特征得到豐富的內(nèi)容,進(jìn)而優(yōu)化檢測效果。將此改進(jìn)得到的算法結(jié)構(gòu)命名為D-YOLOV3算法,該算法的架構(gòu)圖如圖3所示。改進(jìn)后的Darknet53網(wǎng)絡(luò)可以更有效的提取特征信息,緩解了由于層數(shù)過多而導(dǎo)致的梯度消失問題,由于Dense Block中的每一層都接收前面的所有層作為輸入,因此特征更加多樣化,并且傾向于有更豐富的模式。
圖3 D-YOLOV3算法架構(gòu)圖Fig.3 Network structure of D-YOLOV3 algorithm
D-YOLOV3模型的具體參數(shù)如圖4所示。為了配合數(shù)據(jù)集的分辨率,將輸入的圖像的大小設(shè)置為512像素×512像素,位于12、37和62層的下采樣層替換為有密集連接機(jī)制的Dense Block模塊。
圖4 D-YOLOV3模型具體參數(shù)Fig.4 Specific parameters of D-YOLOV3 algorithm3
以62層的結(jié)構(gòu)為例,H1先對x0應(yīng)用BN+ReLU+1×1Conv非線性運(yùn)算,然后對結(jié)果執(zhí)行BN+ReLU+3×3Conv運(yùn)算,之后H2對由[x0,x1]形成的特征圖應(yīng)用相同的操作,再將x2和[x0,x1]拼接成[x0,x1,x2]并用作H3的輸入,x3和[x0,x1,x2]被拼接為[x0,x1,x2,x3],作為H4的輸入,最后特征層被拼接成16×16×1 024并向前傳播。12層和37層同理進(jìn)行處理。
評估神經(jīng)網(wǎng)絡(luò)模型有效性的相關(guān)指標(biāo)主要有精確率(Precision)、召回率(Recall)、F1得分、PR(Precision-Recall)曲線和IoU值(交并比)。針對二分類問題,一般根據(jù)樣本的真實(shí)類別和預(yù)測類別進(jìn)行分類。具體有四種分類:真陽性(TP),假陽性(FP),真陰性(TN)和假陰性(FN)。
精確率表示預(yù)測為正的樣本中有多少實(shí)際為正,召回率表示實(shí)際為正的樣本中有多少預(yù)測為正,F(xiàn)1分?jǐn)?shù)為精確率和召回率的調(diào)和平均值,一般F1分?jǐn)?shù)越大,模型越穩(wěn)定,魯棒性越高。IoU值為圖像中存在的對象的預(yù)測區(qū)域和地面實(shí)況區(qū)域之間的相似性。
(3)
(4)
(5)
本研究在Windows10環(huán)境下通過Pycharm軟件完成模型的訓(xùn)練和測試,計(jì)算機(jī)內(nèi)存為8 G,CPU為InterCorei7-6700 3.40 GHz。
為了驗(yàn)證本文提出的模型的性能,用綠色柑橘圖像訓(xùn)練集來訓(xùn)練D-YOLOV3模型和YOLOV3模型,并將它們在訓(xùn)練過程中的Loss圖進(jìn)行對比。
(a)D-YOLOV3模型Loss圖
從圖5可知D-YOLOV3模型在訓(xùn)練過程中具有比YOLOV3模型更好的收斂效果。YOLOV3模型的最終損失穩(wěn)定在0.3,而D-YOLOV3模型的損失穩(wěn)定在0.2,這表明所提出模型的性能得到一定的改善。兩個(gè)模型的收斂速度相似,經(jīng)過1 000個(gè)訓(xùn)練步驟后,兩個(gè)模型的loss曲線都開始收斂,在1 500個(gè)訓(xùn)練步驟此后不再減少。為了進(jìn)一步驗(yàn)證模型的性能,在測試集上對改進(jìn)前后的YOLO模型、文獻(xiàn)15中的Faster-RCNN模型的精確率、召回率、F1分?jǐn)?shù)、IoU值、處理時(shí)間和MAP上進(jìn)行比較。文獻(xiàn)15使用Faster-RCNN的中型網(wǎng)絡(luò)作為預(yù)訓(xùn)練網(wǎng)絡(luò),設(shè)置初始學(xué)習(xí)速率為0.01,批處理為128,動量系數(shù)為0.9。從表2可知,D-YOLOV3模型相較于YOLOV3模型而言,精確率提升6.57%,召回率提升2.75%,F(xiàn)1分?jǐn)?shù)提升4.41%,IOU值提升6.13%,表明模型在提高檢測效果的同時(shí),模型的穩(wěn)定性也得到提高。Faster-RCNN模型的性能相對YOLOV3模型也有一定的提升,而D-YOLOV3模型的性能相對來說更好。
表2 各模型評價(jià)指標(biāo)對比Tab.2 Comparison of evaluation indexes of each model
在本節(jié)中,主要分析圖像數(shù)據(jù)集的大小對D-YOLOV3模型的影響。在數(shù)據(jù)集中隨機(jī)選擇100、500、800、1 000、1 400、1 700張圖像以形成訓(xùn)練集,在不同大小的訓(xùn)練集情況下,模型的F1分?jǐn)?shù)變化情況如圖6所示。
圖6 不同訓(xùn)練圖像數(shù)量下D-YOLOV3模型的F1分?jǐn)?shù)Fig.6 F1 scores of D-YOLOV3 model under different training images
從圖6可知,D-YOLOV3模型的性能隨訓(xùn)練集大小的增加而提高。如果訓(xùn)練集包含少于800張圖像,則隨著訓(xùn)練集的增長,性能會迅速提高。當(dāng)訓(xùn)練集的大小超過1 000時(shí),增強(qiáng)速度會隨著圖像數(shù)量的增加而逐漸降低。當(dāng)圖像數(shù)量超過1 250時(shí),訓(xùn)練集的大小不會對模型的性能產(chǎn)生更大的影響,這表明模型已經(jīng)擬合,不再需要更多的圖像進(jìn)行訓(xùn)練。
在數(shù)據(jù)預(yù)處理部分,本研究主要使用色彩平衡、亮度變換、旋轉(zhuǎn)變換、模糊處理和噪聲處理用于增強(qiáng)圖像,使算法的魯棒性更好。為了驗(yàn)證這五種數(shù)據(jù)增強(qiáng)方法對訓(xùn)練模型的影響,在3.3試驗(yàn)的同一數(shù)據(jù)集中,使用控制變量方法每次刪除一種數(shù)據(jù)增強(qiáng)方法,觀察模型的F1分?jǐn)?shù)變化。模型的PR曲線變化如圖7所示。
圖7 不同數(shù)據(jù)預(yù)處理下D-YOLOV3模型的PR曲線Fig.7 PR curve of D-YOLOV3 model under different data preprocessing
從表3可知,模糊處理對模型的性能影響最大,去掉模糊處理后,模型的F1分?jǐn)?shù)下降6.51%;其次是亮度變換和噪聲,亮度變換模擬的是在自然背景下的自然光照效果,對模型的性能有較大的影響;旋轉(zhuǎn)變換對模型的影響最小。通過對數(shù)據(jù)集進(jìn)行多種預(yù)處理可以增加樣本的多樣性,模擬現(xiàn)實(shí)中的多種情況,這使模型的魯棒性更好。
表3 不同數(shù)據(jù)預(yù)處理下D-YOLOV3模型的F1分?jǐn)?shù)Tab.3 F1 scores of D-YOLOV3 model under different data preprocessing
在自然環(huán)境下,柑橘樹的果實(shí)在果樹上的分布往往是成片式的,隨著拍攝角度的選取以及拍攝距離的改變,圖像中出現(xiàn)的果實(shí)數(shù)量是不相同的,尤其對于未成熟的綠色柑橘,此時(shí)果實(shí)體積較小且互相遮擋,使得檢測的難度更大。在自然環(huán)境下拍攝包含果實(shí)數(shù)量1~5個(gè),5~10個(gè),10個(gè)以上的圖像各100幅,對比測試D-YOLOV3模型、YOLOV3模型和Faster-RCNN模型的檢測效果。識別效果如圖8所示。
(a)1~5 D-YOLOV3
從表4可知,改進(jìn)后模型的整體識別效果相對于YOLOV3模型和Faster-RCNN模型更好,尤其是識別10個(gè)以上果實(shí)的圖像,D-YOLOV3模型比改進(jìn)前模型的精確度高7.65%,比Faster-RCNN模型的精確度高4.43%。對于多果實(shí)圖像,D-YOLOV3模型可以識別出更多的果實(shí),而在現(xiàn)實(shí)場景下,多果實(shí)的情況是很普遍的,這表明D-YOLOV3模型在實(shí)際場景中對多目標(biāo)果實(shí)的識別更有優(yōu)勢。
表4 不同果實(shí)數(shù)量下各模型精確率對比Tab.4 Accuracy of each model under different fruit numbers
1)提出一種基于改進(jìn)的YOLOV3算法對自然背景下的未成熟的綠色柑橘進(jìn)行識別檢測,通過構(gòu)建綠色柑橘數(shù)據(jù)集以及一系列數(shù)據(jù)集預(yù)處理操作,提高了神經(jīng)網(wǎng)絡(luò)的泛化能力;利用DenseNet的密集連接機(jī)制改進(jìn)了YOLOV3網(wǎng)絡(luò)的結(jié)構(gòu),使特征在網(wǎng)絡(luò)中更好的傳播。最終訓(xùn)練得到的模型在測試集上的精確率為83.01%,相對YOLOV3模型提高6.57%,表明模型可以識別出更多的果實(shí)以達(dá)到產(chǎn)量預(yù)估的目的。
2)為進(jìn)一步驗(yàn)證此方法的有效性和可行性,設(shè)計(jì)了3個(gè)試驗(yàn),分別是不同果實(shí)數(shù)量試驗(yàn)、不同數(shù)據(jù)量試驗(yàn)和不同數(shù)據(jù)預(yù)處理影響試驗(yàn),通過試驗(yàn)結(jié)果可知,本文提出的算法有較高的泛化性能和檢測精度,展示出對多目標(biāo)果實(shí)識別的有效性。