項(xiàng)新建,周焜,費(fèi)正順,鄭永平,姚佳娜
(浙江科技學(xué)院,杭州市,310023)
中國是楊梅的主要生產(chǎn)國,楊梅果實(shí)采摘時(shí)限較短,成熟后必須盡快采摘[1]。楊梅種植地多在山地丘陵地區(qū),果農(nóng)如果無法適時(shí)采摘,會(huì)導(dǎo)致大批楊梅錯(cuò)過最佳食用期,因此楊梅采摘的智能化能夠有效提高楊梅的生產(chǎn)效率和降低楊梅產(chǎn)業(yè)工人的勞動(dòng)強(qiáng)度。機(jī)器視覺是水果采摘智能化設(shè)備中的重要組成部分,快速準(zhǔn)確地識(shí)別到楊梅果實(shí)是實(shí)現(xiàn)智能采摘的核心問題[2-3]。
徐黎明等[4]設(shè)計(jì)出一種研究自然場(chǎng)景下成熟楊梅的識(shí)別技術(shù),采用最大類間方差法根據(jù)R-G顏色特征對(duì)楊梅圖像進(jìn)行分割,再使用SUSAN算子自適應(yīng)選取閾值對(duì)圖像進(jìn)行邊緣檢測(cè),最后通過Hough實(shí)現(xiàn)對(duì)楊梅的識(shí)別。Ghazal等[5]對(duì)水果的視覺特征和各種分類器進(jìn)行分析,觀察到對(duì)于具有fruit 360數(shù)據(jù)集這種數(shù)據(jù)集中相似成像條件的較小數(shù)據(jù)集,將顏色特征和紋理特征進(jìn)行組合再利用傳統(tǒng)算法進(jìn)行分類可以顯著提高分級(jí)準(zhǔn)確度。Khodabakhshian等[6]采用混合對(duì)比度拉伸法,利用頂帽運(yùn)算濾波和高斯函數(shù)提高圖像對(duì)比度,經(jīng)Gabor小波變換和k-means聚類分割后采用SVM分類器進(jìn)行番茄的果實(shí)分類。以上學(xué)者使用的主要是基于計(jì)算機(jī)視覺的傳統(tǒng)算法進(jìn)行水果檢測(cè),傳統(tǒng)算法過于依賴人工提取的特征,存在泛化性差、易受環(huán)境影響等問題。
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度學(xué)習(xí)也越來越多的運(yùn)用到了水果檢測(cè)當(dāng)中。Kang等[7]提出一種基于深度學(xué)習(xí)的蘋果檢測(cè)器的快速實(shí)現(xiàn)框架,采用多尺度金字塔和聚類分類器對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行快速標(biāo)記,實(shí)驗(yàn)證明這種方法提高了模型的檢測(cè)性能。Akram[8]等使用兩種深度預(yù)訓(xùn)練模型(VGG16和Caffe AlexNet)用于植物病蟲害特征提取,使用遺傳算法來選擇最具判別性的特征后采用多類支持向量機(jī)進(jìn)行最后的分類,在PlantVillage和CASC-IFW數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分類準(zhǔn)確率達(dá)到98.6%。
目前較為流行的目標(biāo)檢測(cè)算法分為兩種類型,一種是基于區(qū)域建議的雙階段目標(biāo)檢測(cè)算法,如R-CNN[9]、SPP-Net[10]、Fast R-CNN[11]、Faster R-CNN[12]、MaskR-CNN[13];另一種是基于回歸分析的單階段目標(biāo)檢測(cè)算法,如 YOLO[14]系列、SSD[15]系列、RetinaNet[16]等。雙階段目標(biāo)檢測(cè)算法通常先通過算法提取到候選框,再進(jìn)行二次修正獲得結(jié)果。而單階段算法則直接在整幅圖中預(yù)測(cè)目標(biāo)的位置信息,相比較而言,單階段算法在檢測(cè)速度上擁有更優(yōu)的性能。在實(shí)際使用場(chǎng)景中,單階段算法更符合檢測(cè)任務(wù)的需求。
本研究基于深度學(xué)習(xí)算法,采用Jetson Nano A02開發(fā)一款便攜式楊梅果實(shí)成熟度檢測(cè)儀,提出一種適合在嵌入式系統(tǒng)中部署的基于輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOX-NANO的改進(jìn)楊梅果實(shí)檢測(cè)算法,改進(jìn)特征金字塔結(jié)構(gòu),在FPN層中引入通道與空間注意力機(jī)制,增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)的識(shí)別精度。使用Focal loss以解決單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)中的正負(fù)樣本不均衡問題。引入了EIoU損失函數(shù)替代IoU,既考慮到邊框與目標(biāo)中心點(diǎn)距離還解決了邊框橫縱比定義模糊的問題?;谶w移學(xué)習(xí)的思想,使用預(yù)訓(xùn)練模型,加快網(wǎng)絡(luò)收斂速度提升網(wǎng)絡(luò)模型性能。
本研究采用的數(shù)據(jù)集圖像除從互聯(lián)網(wǎng)上獲取外,還由楊梅果園實(shí)地拍攝獲得。拍攝的楊梅果實(shí)圖像包含光線不足、強(qiáng)光照射、枝葉遮擋、果實(shí)堆疊等自然環(huán)境因素,圖像包含成熟果實(shí)、將成熟果實(shí)以及未成熟果實(shí)三種,部分?jǐn)?shù)據(jù)集如圖1所示。
(a) 光線不足
楊梅圖像的采集地位于楊梅種植基地,采用55 mm定焦鏡頭的Sony α6300微單相機(jī)進(jìn)行不同距離的拍攝,共采集原始圖像1 000幅以.jpg格式保存,圖像分辨率為3 840像素×2 160像素,將圖像根據(jù)楊梅果實(shí)的密集程度進(jìn)行八等分和四等分后,刪除部分無目標(biāo)的無效圖片,最終得到的樣本數(shù)據(jù)為5 035幅圖片。使用Labelme對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,根據(jù)楊梅表面的顏色對(duì)成熟度進(jìn)行劃分,其中全青色或整體呈現(xiàn)青色楊梅劃為未成熟,表面轉(zhuǎn)黃、紅色明顯但未全紅劃為將成熟,表面全紅或轉(zhuǎn)紫劃為已成熟,成熟度劃分示例如圖2所示。
圖2 成熟度劃分示例
使用標(biāo)注工具Labelme對(duì)圖像進(jìn)行標(biāo)注后,轉(zhuǎn)換成標(biāo)準(zhǔn)VOC格式。在已有數(shù)據(jù)集的基礎(chǔ)上,本研究通過數(shù)據(jù)增強(qiáng)算法,對(duì)每幅圖片進(jìn)行一次擴(kuò)增,每次擴(kuò)增采取從翻轉(zhuǎn)、增加噪聲、平移、旋轉(zhuǎn)中的隨機(jī)最少一種擴(kuò)增方法進(jìn)行擴(kuò)增,擴(kuò)增樣本圖像至10 070幅,按照7∶1∶2的比例將數(shù)據(jù)集隨機(jī)劃為訓(xùn)練集(7 049)、驗(yàn)證集(1 007)、測(cè)試集(2 014)。
YOLOX[17]是由曠世科技于2021年提出的單階段高精度目標(biāo)檢測(cè)算法。YOLOX引入了解耦頭(Decoupled Head)、數(shù)據(jù)增強(qiáng)(Mosaic)、無錨框思想(anchor free)、動(dòng)態(tài)匹配正樣本(SimOTA)等目前目標(biāo)檢測(cè)領(lǐng)域的有效應(yīng)用,網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示,YOLOX主要分為三個(gè)部分,分別是backbone主干特征提取網(wǎng)絡(luò)部分、Neck加強(qiáng)特征提取網(wǎng)絡(luò)部分和Prediction檢測(cè)頭部分。YOLOX仍采用了CSPDarknet作為主干特征提取網(wǎng)絡(luò),圖片輸入到backbone中進(jìn)行淺層特征提取,輸出三層不同尺度的特征層傳入Neck部分的加強(qiáng)特征提取網(wǎng)絡(luò)層(FPN)之中進(jìn)行多尺度特征信息融合提取深層特征,輸出的三層特征圖傳入Prediction部分進(jìn)行回歸預(yù)測(cè)。
圖3 YOLOX結(jié)構(gòu)圖
根據(jù)現(xiàn)有的研究現(xiàn)狀可知,通道注意力機(jī)制對(duì)深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)性能的增強(qiáng)取得了顯著的效果[18]。現(xiàn)有的注意力機(jī)制例如SENet[19]、CBAM[20]、BAM[21]、GCNet[22]、FcaNet[23]等在引入到各大主流網(wǎng)絡(luò)中都得到了可觀的性能增強(qiáng)效果。本文在特征加強(qiáng)提取網(wǎng)絡(luò)(FPN)中引入了超強(qiáng)通道注意力模塊(ECA)結(jié)構(gòu)如圖4所示。
圖4 通道注意力機(jī)制(ECA)結(jié)構(gòu)圖
由圖4可得,特征圖k輸入后在不降維的情況下進(jìn)行逐通道全局平均池化再傳入卷積核大小為k的快速一維卷積層來實(shí)現(xiàn)通道之間的信息交互。公式如式(1)所示。
w=σ[C1Dk(y)]
(1)
式中:C1D——快速一維卷積;
k——本地跨通道交互的覆蓋范圍,即有k個(gè)相近鄰參與一個(gè)通道的注意力預(yù)測(cè)。
為了有效表示跨通道信息交互作用的覆蓋范圍(即卷積核大小k)與通道維度C(卷積核數(shù)量)之間的特征關(guān)系,ECA將C與k的值設(shè)為
C=φ(k)=2(γ×k-b)
(2)
給定通道維數(shù)C的值即可自適應(yīng)確定卷積核大小k的值
(3)
式中:|*|odd——最接近的*奇數(shù)。
本文中γ的值設(shè)為2,b的值設(shè)為1。
FPN特征金字塔能夠很好地解決多尺度融合的問題,然而傳統(tǒng)的FPN在多尺度融合過程中會(huì)損失部分特征信息,卷積結(jié)構(gòu)在處理不同感受野的特征圖時(shí)在產(chǎn)生有效特征的同時(shí)也會(huì)產(chǎn)生無效特征。本文提出的ECA-FPN結(jié)構(gòu)在FPN的輸入層引入了ECA模塊,以及在上采樣的過程中引入ECA模塊,從而實(shí)現(xiàn)了通道間充分的信息交流以達(dá)到增強(qiáng)網(wǎng)絡(luò)性能的目的。結(jié)構(gòu)圖如圖5所示。
圖5 改進(jìn)ECA-FPN結(jié)構(gòu)圖
ECA-FPN特征加強(qiáng)網(wǎng)絡(luò)會(huì)輸出三個(gè)特征加強(qiáng)后的特征層,在經(jīng)過解耦頭預(yù)測(cè)后,每個(gè)特征層將得到三個(gè)預(yù)測(cè)結(jié)果分別是預(yù)測(cè)框(Reg)、目標(biāo)(Obj)、和目標(biāo)種類(Cls)。
2.3.1 高效交并比損失函數(shù)
本研究在邊界框預(yù)測(cè)中引入了高效交并比損失函數(shù)(EIoU)[24],與原本的交并比(IoU)[25]損失函數(shù)相比,EIoU既考慮到邊界框回歸的重疊面積,也考慮到邊框距離目標(biāo)的中心點(diǎn)距離和邊框長寬邊的差。EIoU損失函數(shù)由三部分組成,計(jì)算公式如式(4)所示。
(4)
式中:b、bgt——預(yù)測(cè)框、真實(shí)框;
ρ2(b,bgt)——預(yù)測(cè)框中心點(diǎn)與真實(shí)框中心點(diǎn)的歐式距離;
c——同時(shí)包含預(yù)測(cè)框與真實(shí)框的最小外接框的對(duì)角線距離。
2.3.2 焦點(diǎn)損失函數(shù)
單階段算法在目標(biāo)檢測(cè)時(shí)會(huì)生成大量預(yù)選框(Region Proposal),而其中大部分都是負(fù)樣本,正樣本只占很少一部分,這便導(dǎo)致樣本類別不均衡問題[16]。大量無用的易分負(fù)樣本會(huì)導(dǎo)致Loss函數(shù)的梯度下降方向指向非最優(yōu)解。針對(duì)以上問題,為提高網(wǎng)絡(luò)模型的精度,本研究采用的焦點(diǎn)損失函數(shù)(Focal Loss)通過減少易分類樣本的權(quán)重,使模型在訓(xùn)練時(shí)更專注于難分類樣本。
Focal Loss是基于標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)(Cross Entropy Loss)修改而來,公式如式(5)所示。
FL(pt)=-(1-pt)γlog(pt)
(5)
式中:pt——樣本屬于正確分類的概率;
γ——聚焦參數(shù)(focusing parameter),γ≥0。
當(dāng)γ為0時(shí),Focal Loss函數(shù)即為標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練平臺(tái)使用AMAX深度學(xué)習(xí)服務(wù)器XG-48202G,該服務(wù)器采用Intel E5-2620v4x2,內(nèi)存為4通道8 GB共32 GB,采用NVIDIA GeForce RTX2080Ti顯卡,顯存大小為11 GB。服務(wù)器系統(tǒng)為Ubuntu18.04,內(nèi)置軟件開發(fā)環(huán)境Python3.7、pytorch1.7-GPU、CUDA10.2。測(cè)試環(huán)境的CPU為Intel i7-8565U,內(nèi)存為雙通道8 GB,顯卡為mx220,顯存大小為2 GB,系統(tǒng)為Windows 11專業(yè)版。
嵌入式試驗(yàn)平臺(tái)采用Jetson Nano A02版,該開發(fā)板具有4 GB內(nèi)存,CPU采用4核ARM A57,最高頻率為1.43 GHz。操作系統(tǒng)采用Ubuntu 16.04,內(nèi)置軟件開發(fā)環(huán)境Python3.69、pytorch1.6-GPU、CUDA10.2。
本研究采用平均精度(Mean Average Precision,mAP)作為模型檢測(cè)精度的評(píng)價(jià)指標(biāo),mAP與準(zhǔn)確率(Precision,P)、召回率(Recall,R)有關(guān),公式如式(6)~式(9)所示。
(6)
(7)
(8)
(9)
式中:TP——被正確劃為正樣本的數(shù)量;
FP——被錯(cuò)誤劃為正樣本的數(shù)量;
FN——被錯(cuò)誤劃為負(fù)樣本的數(shù)量;
M——分類的類別數(shù);
AP(k)——第k類的AP值。
F1得分是一種用于衡量二分類模型精確度的指標(biāo)。
(10)
基于遷移學(xué)習(xí)思想[26],通過在大規(guī)模通用數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,獲得泛化性較強(qiáng)的網(wǎng)絡(luò)模型來替代源模型進(jìn)行目標(biāo)任務(wù)數(shù)據(jù)集上的訓(xùn)練。相比源模型隨機(jī)選取初始權(quán)重進(jìn)行訓(xùn)練,預(yù)訓(xùn)練模型已具備一定的通用特征提取能力,使用預(yù)訓(xùn)練模型進(jìn)行具體任務(wù)的訓(xùn)練可加快模型收斂速度,得到魯棒性更優(yōu)的模型。本研究使用COCO-Train2017數(shù)據(jù)集對(duì)YOLOX-NANO的主干網(wǎng)絡(luò)CSPDarknet53進(jìn)行預(yù)訓(xùn)練,得到了預(yù)訓(xùn)練模型權(quán)重。訓(xùn)練時(shí),將預(yù)訓(xùn)練模型權(quán)重設(shè)置為初始權(quán)重,對(duì)前50個(gè)訓(xùn)練輪數(shù)(epoch)進(jìn)行凍結(jié)訓(xùn)練,即前50個(gè)epoch不進(jìn)行主干網(wǎng)絡(luò)的權(quán)值更新,后150個(gè)epoch再進(jìn)行主干網(wǎng)絡(luò)權(quán)值更新,從而提高訓(xùn)練效率,加快模型收斂速度。置信度閾值設(shè)為0.5,即得分大于0.5的預(yù)測(cè)框會(huì)被保存。在前90%的epoch中采用Mosaic數(shù)據(jù)增強(qiáng)法訓(xùn)練。在凍結(jié)訓(xùn)練階段,本研究的batchsize設(shè)為32,則每個(gè)epoch進(jìn)行了315次迭代(step),在解凍階段,batchsize設(shè)為32,每個(gè)epoch進(jìn)行了315次迭代。
訓(xùn)練過程的Loss曲線如圖6所示,橫坐標(biāo)為訓(xùn)練輪數(shù)(epoch),縱坐標(biāo)為Loss值,解凍前訓(xùn)練集損失值收斂于2.36,測(cè)試集損失值收斂于1.95。解凍后的訓(xùn)練集損失值收斂于1.26,測(cè)試集損失值收斂于1.21。
圖6 訓(xùn)練Loss圖
為驗(yàn)證模型有效性,在訓(xùn)練參數(shù)相同情況下對(duì)改進(jìn)后的 YOLOX-NANO網(wǎng)絡(luò)進(jìn)行橫向縱向?qū)Ρ葘?shí)驗(yàn),比較不同模型的單類別平均精度AP、平均精度mAP、模型大小Size和每秒檢測(cè)幀數(shù)FPS,其中AP值表示每種成熟度楊梅的識(shí)別平均精度,mAP值表示整體的識(shí)別平均精度,FPS體現(xiàn)出模型的檢測(cè)速度。由于部分模型過大,無法在Jetson nano A02正常運(yùn)行,因此在測(cè)試環(huán)境下,對(duì)測(cè)試集進(jìn)行試驗(yàn),結(jié)果如表1所示。
表1 對(duì)比試驗(yàn)結(jié)果
本研究改進(jìn)算法在網(wǎng)絡(luò)結(jié)構(gòu)和推理速度基本不變的情況下,提高了mAP,對(duì)三種不同成熟度的楊梅果實(shí)的識(shí)別率均有提升,尤其對(duì)于數(shù)據(jù)集中數(shù)量比重較少的成熟楊梅和半成熟楊梅提升更明顯。與同為輕量級(jí)網(wǎng)絡(luò)的YOLOv4-tiny和SSD-moblenetv2相比,雖然推理速度有所下降,但是mAP比后者分別高出13.48%和9.43%,比Faster R-CNN高出7.82%。本研究改進(jìn)的算法精度與YOLOX-TINY相差不大,但網(wǎng)絡(luò)模型大小遠(yuǎn)遠(yuǎn)小于YOLOX-TINY,更易于在嵌入式設(shè)備中部署。
在Jetson Nano A02中部署了YOLOv4-tiny、YOLOv5s、YOLOX-NANO、YOLOX-TINY和本文算法對(duì)處于自然狀態(tài)的楊梅圖片進(jìn)行檢測(cè),識(shí)別效果圖如圖7所示。其中,在YOLOv4tiny和YOLOv5s中,紅色框代表成熟楊梅,藍(lán)色框代表半成熟楊梅,綠色框代表未成熟楊梅。在YOLOX系列和本文改進(jìn)算法中,紅色框代表未成熟楊梅,綠色框代表成熟楊梅,藍(lán)色框代表半成熟楊梅。可以看出YOLOv4tiny和YOLOv5s均存在漏檢問題;YOLOX-NANO對(duì)嚴(yán)重遮擋楊梅存在漏檢;YOLOX-TINY漏檢率有所減少;本研究改進(jìn)的YOLOX-NANO算法漏檢率最低。
(a) YOLOv4tiny
在Jetson nano A02中對(duì)測(cè)試集進(jìn)行檢測(cè)。如圖8所示,在單目標(biāo)+強(qiáng)光的圖片中,本文改進(jìn)算法與YOLOX-NANO均能進(jìn)行有效檢測(cè),在多目標(biāo)+堆疊遮擋+強(qiáng)光條件下,YOLOX-NANO算法存在誤檢,本文改進(jìn)算法能正確識(shí)別楊梅。
(a) YOLOX-NANO
如圖9所示,在暗光條件下本文改進(jìn)算法的漏檢率比YOLOX-NANO更低,但是對(duì)模糊的目標(biāo)依舊存在漏檢現(xiàn)象。
(a) YOLOX-NANO
使用包含自然環(huán)境干擾的數(shù)據(jù)集和圖像擴(kuò)增技術(shù)大大加強(qiáng)了網(wǎng)絡(luò)模型的魯棒性,同時(shí)結(jié)合注意力機(jī)制讓網(wǎng)絡(luò)的特征提取能力得到了增強(qiáng)從而精度得到了提升。
本文提出一種改進(jìn)YOLOX-NANO輕量級(jí)目標(biāo)檢測(cè)算法,針對(duì)不同成熟度楊梅進(jìn)行識(shí)別。為增強(qiáng)模型對(duì)多尺度特征提取能力,又能夠部署于嵌入式設(shè)備中,本文以YOLOX-NANO目標(biāo)檢測(cè)網(wǎng)絡(luò)為基礎(chǔ),引入輕量級(jí)通道注意力模塊。通過融合加強(qiáng)特征提取網(wǎng)絡(luò)與通道注意力,在僅增加少量參數(shù)前提下,提高網(wǎng)絡(luò)模型通道注意力。同時(shí)引入焦點(diǎn)損失函數(shù)解決樣本不均衡問題,采用EIoU損失函數(shù)提高了模型檢測(cè)精度。
1) 在FPN中引入ECA模塊的改進(jìn)算法相比原YOLOX-NANO算法,mAP提高了2.9%,未成熟楊梅、半成熟楊梅和成熟楊梅的AP分別提高了2.01%,4.35%,2.36%。而網(wǎng)絡(luò)模型大小僅增加了0.059 MB,實(shí)現(xiàn)了增加少量參數(shù)提高準(zhǔn)確率的目的。
2) 在解耦頭中引入Focal Loss的改進(jìn)算法,相較于原算法,mAP提高了2.25%,未成熟楊梅、半成熟楊梅和成熟楊梅的AP分別提高了1.01%,4.15%,1.63%,對(duì)于半成熟楊梅準(zhǔn)確率提升相較于其他成熟度更為明顯,且模型大小幾乎不變。
3) 本文改進(jìn)的YOLOX-NANO算法與原算法相比較,mAP提高了4.54%,未成熟楊梅、半成熟楊梅和成熟楊梅的AP分別提高了2.45%,6.78%,4.43%,對(duì)各成熟度楊梅的識(shí)別率均達(dá)到90%以上,檢測(cè)效果與YOLOX-TINY持平,模型大小僅為3.813 MB遠(yuǎn)小于YOLOX-TINY的19.83 MB。
4) 本文改進(jìn)的YOLOX-NANO算法能夠在自然環(huán)境下對(duì)不同成熟度的楊梅果實(shí)進(jìn)行檢測(cè),且檢測(cè)效果良好,與其他輕量級(jí)網(wǎng)絡(luò)相比,在準(zhǔn)確度和模型大小上更具優(yōu)勢(shì),更適合用于楊梅果實(shí)成熟度檢測(cè)儀的研發(fā)。下一步將考慮如何通過剪枝蒸餾技術(shù),對(duì)模型進(jìn)行進(jìn)一步的壓縮以加快推理速度。