吳 蘭,周永強
1.河南工業(yè)大學(xué) 機電工程學(xué)院,河南 鄭州 450001
2.河南工業(yè)大學(xué) 電氣工程學(xué)院,河南 鄭州 450001
開展小麥不完善粒檢測技術(shù)的研究,對于小麥評級和糧食儲藏品質(zhì)檢測具有重要現(xiàn)實意義。小麥不完善粒是指受到損傷但仍有食用價值的籽粒,包括破損粒、蟲蝕粒、病斑粒(黑胚粒以及赤霉病粒)、生芽粒、霉變粒等[1]。傳統(tǒng)小麥不完善粒檢測方法主要有人工檢測和傳統(tǒng)機器學(xué)習(xí)。其中人工檢測方法由質(zhì)檢員進行人工識別判斷,主觀性強、費時費力、時效性較差[2-3]。傳統(tǒng)機器學(xué)習(xí)則是一種快速而無損的檢測方法[4]。左衛(wèi)剛等[5]設(shè)計了具有多層感知器的FFBP-ANN模型用于識別籽粒,分類準確率達99%。蔣雪松等[6]對麥粒光譜圖像預(yù)處理后,建立LDA識別模型,對霉變粒識別率達90.6%。Olgun等[7]根據(jù)提取籽粒的密集尺度不變特征,使用支持向量機算法進行分類,準確率為88.33%。但這些傳統(tǒng)方法需要人工提取籽粒特征并設(shè)計分類器模型,操作過程復(fù)雜。
隨著計算機技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的迅速發(fā)展,許多研究者將深度學(xué)習(xí)技術(shù)應(yīng)用到小麥不完善粒識別領(lǐng)域中。一些學(xué)者基于數(shù)據(jù)增強和融合的方法對圖像進行處理,輸入到分類網(wǎng)絡(luò)進行識別。郝傳銘等[8]將小麥高光譜圖像與彩色圖像匹配融合后輸入到VGG網(wǎng)絡(luò)進行識別,準確率較僅使用彩色圖像和高光譜圖像分別提高3.34%和6.08%。賀杰安等[9]使用交替最小化算法對籽粒特征進行細節(jié)增強,輸送到CNN中進行識別,準確率較經(jīng)典網(wǎng)絡(luò)提高7百分點。于重重等[10]采集多波段的小麥高光譜圖像,并進行邊緣降噪處理,實現(xiàn)對4類不完善粒的無損檢測。張博[11]對單籽粒圖像進行樣本擴充,使用引入殘差結(jié)構(gòu)的CNN模型實現(xiàn)對不完善粒的平均識別率達90.6%。但上述方法均需要對圖像進行復(fù)雜的預(yù)處理,耗時較長,識別率有待提升,且高光譜設(shè)備成本高。
部分學(xué)者對經(jīng)典分類網(wǎng)絡(luò)進行改進,用以提升不完善粒的識別率。如余樂等[12]通過增加卷積核的數(shù)量提高LeNet-5網(wǎng)絡(luò)的性能,但數(shù)據(jù)樣本較小,模型對3種小麥不完善粒的平均識別準確率達93%。曹婷翠等[13]利用空間金字塔池化(SPP)對普通CNN網(wǎng)絡(luò)進行改進,并采用雙面識別方案,對完善粒、破損粒和病斑粒的平均識別準確率達到90%。祝詩平等[14]使用加入Droupout層的AlexNet網(wǎng)絡(luò)建立小麥檢測模型對2類不完善粒進行識別,并與LeNet-5、VGG-16、ResNet-34和AlexNet經(jīng)典網(wǎng)絡(luò)對比,該改進模型識別效果最佳,準確率高達98%。張慶輝等[15]將多粒小麥圖像分割為單籽粒,輸入到VGG16、VGG19和ResNet50的融合模型中進行特征提取,使用深度信念網(wǎng)絡(luò)(DBN)代替隱藏層和softmax識別不完善粒,準確率達91.86%。以上這些方法樣本的獲取需要進行煩瑣的單籽粒分割操作,增加了識別時間。同時,改進后的網(wǎng)絡(luò)無法實現(xiàn)對多籽粒的同時識別并進行計數(shù),識別效率較低。
深度學(xué)習(xí)目標(biāo)檢測算法能夠?qū)崿F(xiàn)多類別目標(biāo)快速識別檢測和解決多目標(biāo)粘連的問題,但目前目標(biāo)檢測算法多應(yīng)用于麥穗檢測方向[16-18],在小麥籽粒檢測方向的研究較少。雖然,WU等[19]通過優(yōu)化Faster R-CNN模型對小麥有效分蘗中的籽粒進行檢測和計數(shù)。宋懷波等[20]在YOLOv5網(wǎng)絡(luò)基礎(chǔ)上,引入壓縮激勵模塊提高檢測精度,對正常粒的平均檢測精度達到90%。但是以上模型僅檢測完善粒,籽粒類型單一,泛化能力較弱,難以用于多類別的不完善粒糧食質(zhì)量檢測。
為此,以多類別的小麥不完善粒為研究對象,提出一種改進YOLOX的小麥不完善粒檢測方法。針對YOLOX應(yīng)用在不完善粒檢測中,存在模型計算量大,對不同大小的不完善粒識別效果差的問題,在原網(wǎng)絡(luò)主干部分添加坐標(biāo)注意力機制(coordinate attention,CA)增強不完善特征;使用加權(quán)雙向特征金字塔(BiFPN)結(jié)構(gòu),使不同大小籽粒的多尺度特征有效融合;使用深度可分離卷積對網(wǎng)絡(luò)進行輕量化處理,減少參數(shù)量,實現(xiàn)對多籽粒的快速準確識別。該檢測模型提供了一種批量、連續(xù)的不完善粒檢測方法,為多類別小麥不完善粒的實時檢測和計數(shù)提供技術(shù)參考。
豫農(nóng)908、鄭麥618和鄭麥136:許昌市糧食質(zhì)量檢測中心。試驗前從小麥中挑選出完善粒、破損粒、生芽粒、蟲蝕粒、病斑粒(本研究選黑胚粒)。
MV-CS050-10GC工業(yè)相機、MVL-HF0628M-6MPE鏡頭:杭州??低晹?shù)字技術(shù)股份有限公司;PFM-HX3475CO10W-A-1A2環(huán)形光源:浙江華睿科技股份有限公司。
由于公開數(shù)據(jù)集COCO、ImageNet和PASCALVOC均不包含本研究的對象,因此,手動采集制作小麥圖像數(shù)據(jù)集。圖像采集裝置由5部分構(gòu)成,包括工業(yè)相機、亮度可調(diào)節(jié)的環(huán)形光源、升降桿、載物板和計算機。同時,每次選取1~20粒,21~40粒,41~60粒的小麥樣品隨機撒在載物板上,在90°角度和不同高度下(10、15、20 cm)拍攝不同密集程度的小麥籽粒原始圖像,共獲得3 572幅圖像。實際場景下,光線和噪聲等條件無法保證絕對均勻,為了使模型適應(yīng)性更強,通過變暗、引入椒鹽噪聲、旋轉(zhuǎn)和顏色空間轉(zhuǎn)換等方法對小麥籽粒進行數(shù)據(jù)增強,增加樣本多樣性。每張圖片隨機使用1~2種方法進行增強,原圖由原來的3 572幅篩選后擴充至6 000張。圖1為部分經(jīng)過數(shù)據(jù)增強的小麥圖像。
圖1 圖像增強后的小麥籽粒圖像Fig.1 Images of wheat kernels enhanced by different methods
采用LabelImg工具對小麥圖像進行標(biāo)注,生成與其對應(yīng)的XML標(biāo)簽文件。將圖像按照7∶2∶1隨機劃分為訓(xùn)練集4 200張、驗證集1 200張、測試集600張,各類小麥籽粒的簡稱和數(shù)量如表1所示。
表1 小麥籽粒類型簡稱和數(shù)量Table 1 Abbreviation and number of different wheat grain types
YOLOX模型由主干特征提取網(wǎng)絡(luò)(Backbone)、特征融合網(wǎng)絡(luò)(PANet)和預(yù)測端的解耦檢測頭(Yolo Head)組成,并引入無先驗框和正負樣本匹配策略(Sim OTA)使網(wǎng)絡(luò)檢測性能得到有效提升。該模型在公開數(shù)據(jù)集上具有較好的檢測性能,但對于小麥圖像中多類別不完善粒的檢測和計數(shù),仍有計算量大、對不同大小的不完善粒識別效果差的問題。
為此,基于YOLOX算法將主干網(wǎng)絡(luò)中的普通卷積替換為深度可分離卷積,通過逐層和逐點的不同卷積方式減少模型計算參數(shù)量。同時,為提高模型精度,在YOLOX的主干特征網(wǎng)絡(luò)中CSP模塊與卷積塊之間添加坐標(biāo)注意力機制(coordinate attention,CA),使模型更加關(guān)注籽粒細節(jié)特征,提高不完善粒的特征表達能力。此外,在特征融合部分使用加權(quán)雙向特征金字塔結(jié)構(gòu)進行雙向跨尺度連接,提高模型的特征學(xué)習(xí)能力,增強特征的魯棒性。提出的算法檢測框架如圖2所示。算法檢測流程:采集多個品種的小麥籽粒圖像進行圖像增強和數(shù)據(jù)標(biāo)注,構(gòu)建小麥數(shù)據(jù)集,并劃分為訓(xùn)練集、驗證集和測試集;將訓(xùn)練集圖片輸入到引入CA和使用加權(quán)雙向特征金字塔結(jié)構(gòu)及深度可分離卷積(Depthwise separable convolution,DwConv)進行改進的YOLOX網(wǎng)絡(luò)中進行訓(xùn)練,從而獲得檢測模型的最優(yōu)訓(xùn)練權(quán)重;利用訓(xùn)練得到的模型權(quán)重對測試集圖片進行檢測,得到各類別不完善粒的數(shù)量和置信度。
圖2 算法的檢測框架Fig.2 Detection framework of the proposed algorithm
3.1.1 坐標(biāo)注意力模塊
由于小麥籽粒較小,在圖像中所占像素較少,原YOLOX網(wǎng)絡(luò)采樣時容易丟失小目標(biāo)的特征信息,故引入坐標(biāo)注意力,增強麥粒的特征顯著度,進而提高不完善粒的識別精度。以往的注意力機制如CBAM[21]、SENet[22]等使用全局池化編碼空間信息會造成位置信息丟失。如圖3所示,坐標(biāo)注意力機制[23]包含坐標(biāo)信息嵌入和注意力生成兩部分。在信息嵌入階段,將位置信息加入到通道注意力中,將通道注意力全局池化分解為水平和垂直方向的一維特征編碼,得到尺寸C×H×1和C×1×W的特征圖,在兩個空間方向進行聚合,返回方向注意力圖。注意力模塊保存一個空間方向的精準位置信息,同時獲取另一個空間方向的長程依賴,有助于網(wǎng)絡(luò)更準確地定位目標(biāo)。注意力生成階段,首先,將兩個特征圖拼接得到C×1×(H+W)的特征圖,使用1×1卷積將其進行壓縮,得到中間特征圖f,將其沿空間維度分解為C/r×1×W的水平注意張量和C/r×H×1的垂直注意張量。然后,用兩組1×1的卷積將通道維度從C/r變換到C維。最后,將獲取的兩個注意圖C×H×1和C×1×W與輸入特征圖F相乘,完成坐標(biāo)注意力的施加。原始YOLOX網(wǎng)絡(luò)在特征提取過程中對特征信息采用相同的權(quán)重進行提取,無法獲取不同目標(biāo)的特有信息。在CSP模塊后引入CA模塊,使網(wǎng)絡(luò)在特征提取中更加關(guān)注目標(biāo)重要信息。
圖3 CA 模塊Fig.3 CA module
3.1.2 深度可分離卷積模塊
為了使網(wǎng)絡(luò)具有較高檢測精度,同時減少引入注意力機制后對網(wǎng)絡(luò)檢測速度的影響,使用深度可分離卷積(DwConv)[24]替換原YOLOX主干網(wǎng)絡(luò)的普通卷積,DwConv將卷積過程分解為逐層卷積和逐點卷積,相較于普通卷積能夠大幅減少參數(shù)計算量,提高模型計算速度。DwConv結(jié)構(gòu)如圖4所示。
注:H1、W1、C1分別表示輸入特征圖的高、寬和通道數(shù),H2、W2、C2分別表示輸出特征圖的高、寬和通道數(shù),n×n表示卷積核的大小。圖4 深度可分離卷積結(jié)構(gòu)Fig.4 Deep separable convolution structure
使用普通卷積對特征圖進行卷積運算,其參數(shù)計算量P1如式(1)所示:
P1=n2×C1×C2×H2×W2。
(1)
DwConv使用n×n的逐層卷積和1×1的逐點卷積,其參數(shù)計算量P2如式(2)所示:
P2=n2×C1×H2×W2+C1×C2×H2×W2。
(2)
由以上可得,兩種卷積的參數(shù)計算量比值如式(3)所示:
主干網(wǎng)絡(luò)輸入通道數(shù)為3,輸出通道數(shù)為512,使用DwConv后的參數(shù)計算量約為使用普通卷積運算的1/9,極大地減少了網(wǎng)絡(luò)的參數(shù)計算量。
3.1.3 加權(quán)雙向特征金字塔網(wǎng)絡(luò)
原始YOLOX網(wǎng)絡(luò)中采用FPN+PAN結(jié)構(gòu)進行多尺度特征融合,但是二者進行特征融合時,需要將特征圖變換成相同的尺寸進行相加,無法進行不同尺度特征圖之間的融合,導(dǎo)致網(wǎng)絡(luò)的檢測精度受限。
為了提高網(wǎng)絡(luò)對籽粒的檢測精度,實現(xiàn)對不同尺寸不完善粒特征圖的高效融合,引入加權(quán)雙向特征金字塔網(wǎng)絡(luò)(BiFPN)。首先,刪除只有一條輸入邊的特征圖,只有一條輸入邊且未與其他輸入邊的特征圖融合,其對融合不同特征的網(wǎng)絡(luò)貢獻很小,將其刪除對網(wǎng)絡(luò)影響小,同時簡化了雙向網(wǎng)絡(luò)。然后,將刪除的單輸入邊的特征圖輸入到下一層的特征圖中,實現(xiàn)跨尺度融合,達到更強的特征融合。最后,在同一層網(wǎng)絡(luò)中,在原輸入節(jié)點到輸出節(jié)點之間新加一條輸入邊,在不增加計算量的前提下融合更多特征。通過上述策略構(gòu)建BiFPN,結(jié)果如圖5所示。改進的模型將主干網(wǎng)絡(luò)中提取的3種不同尺度特征圖F1、F2、F3作為BiFPN的輸入,利用不同尺度的特征進行跨尺度特征融合,提高網(wǎng)絡(luò)對于小目標(biāo)的檢測精度。
圖5 雙向特征金字塔網(wǎng)絡(luò)Fig.5 Pyramid network with bidirectional features
為了驗證本文模型的有效性,從引入CA、應(yīng)用DwConv、使用BiFPN結(jié)構(gòu)3個方面進行消融試驗,并用訓(xùn)練模型對小麥籽粒進行檢測。所有試驗均使用相同數(shù)據(jù)集在同一臺計算機上進行,計算機操作系統(tǒng)為Ubuntu18.04LTS,CPU為E5-2673V4,GPU為NVIDIAGeForceRTX2080Ti,顯存 12G。CUDA版本為 11.1.0,CUDNN版本為 8.1.0。深度學(xué)習(xí)框架為Pytorch1.7。
為了能夠全面評價模型的性能,使用精確率(Precision)、召回率(Recall)、平均精度均值(meanaverageprecision,mAP)和損失值(Loss)作為指標(biāo)評價模型,各指標(biāo)的計算公式如下:
式中:TP(truepositives)表示被正確分類的正樣本;TN(truenegatives) 表示被正確分類的負樣本;FP(falsepositives)表示被錯誤分類的正樣本;FN(falsenegatives)表示被錯誤分類的負樣本。平均精度(averageprecision,AP)是以Recall為橫軸,Precision為縱軸組合的曲線下積分的面積,m為檢測目標(biāo)的類別數(shù)量。
精確率反映的是檢測結(jié)果中檢測正確的目標(biāo)數(shù)量占全部識別目標(biāo)數(shù)量的比率。召回率表示在所有小麥籽粒中不完善粒被識別出來的比率,這兩個指標(biāo)值越大,表明所訓(xùn)練的模型檢測性能越好。損失值用來描述預(yù)測值與真實值之間的誤差,數(shù)值越小,表示模型預(yù)測越準確。
將原YOLOX主干網(wǎng)絡(luò)中的普通卷積替換為深度可分離卷積,并在每一個CSP模塊后引入CA注意力模塊,同時使用加權(quán)雙向特征金字塔結(jié)構(gòu)進行雙向跨尺度連接,得到改進的YOLOX網(wǎng)絡(luò)模型。模型訓(xùn)練中,動量因子設(shè)為0.937,每次訓(xùn)練批次大小為32,學(xué)習(xí)率設(shè)置為0.000 1,權(quán)重衰減設(shè)置為0.000 5,使用Adam優(yōu)化器。將模型迭代訓(xùn)練100輪,訓(xùn)練過程中平均精度均值mAP(交并比為0.5)和損失值的變化如圖6所示。由圖6可知,該模型具有較高的檢測精度,同時損失值較小,具有很好的收斂效果。
圖6 訓(xùn)練結(jié)果Fig.6 Training results
4.3.1 消融試驗
為了驗證本文改進方法的有效性,采用消融試驗驗證不同改進策略對整個模型的影響。進行4組試驗,第1組為原始YOLOX網(wǎng)絡(luò)模型;第2組在主干網(wǎng)絡(luò)CPS模塊后引入CA注意力機制模塊;第3組在第2組的基礎(chǔ)上使用BiFPN結(jié)構(gòu);第4組在第3組的基礎(chǔ)上將主干網(wǎng)絡(luò)中的普通卷積替換為DwConv卷積,即本文提出改進模型。
消融試驗結(jié)果如表2所示,由第2組試驗可知,引入CA注意力模塊后,參數(shù)量增加了0.03M,但模型檢測時間影響很小,而模型的mAP提升了2.09百分點,說明加入CA注意力模塊后網(wǎng)絡(luò)更加關(guān)注麥粒局部的不完善特征,提高不完善粒的特征表達能力,使用Grad-CAM繪制模型引入CA前后不完善粒的對比結(jié)果如圖7所示(以蟲蝕粒為例)。
表2 消融試驗結(jié)果Table 2 Ablation experiment results
圖7中紅色區(qū)域為各不完善粒特征明顯區(qū)域,且顏色越深表示顯著度越高。引入坐標(biāo)注意力機制,使模型更關(guān)注不完善特征,降低模型漏檢率。由表2可知,第3組試驗相對于第2組,mAP提高了1.33百分點,參數(shù)量僅增加了0.19M,檢測速度(檢測時間的倒數(shù))基本不變。采用加權(quán)跨尺度特征融合算法,充分利用不同尺度籽粒特征的語義信息,提高不完善粒的檢測精度。第4組試驗相對于第3組,模型mAP下降了0.84百分點,但參數(shù)量減少了7.97%,檢測速度提高了10.72fps,表明深度可分離卷積能夠有效降低模型的參數(shù)量,提高檢測速度,但同時會損失一些精度。本文算法綜合各模塊的優(yōu)點,檢測精度達到93.43%,并且具有更好的檢測實時性。
4.3.2 不同籽粒數(shù)量的檢測試驗
為了檢驗?zāi)P偷臏蚀_性,使用不同數(shù)量籽粒的圖片進行測試,結(jié)果如表3所示。當(dāng)圖像中的籽粒數(shù)小于30時,沒有漏檢情況,識別準確率達到100%。當(dāng)籽粒數(shù)小于40時,大多數(shù)樣本的漏檢率不超過3%。當(dāng)籽粒數(shù)量達到60時,漏檢率有所增加,最高不超過5%。其中,模型不受小麥品種類型和密集程度的影響,魯棒性較強。使用改進模型對不同籽粒數(shù)量的樣本圖片進行識別,部分檢測結(jié)果如圖8所示。
表3 不同籽粒數(shù)下模型檢測結(jié)果Table 3 Model detecting results for different grain numbers
圖8 不同籽粒數(shù)量檢測結(jié)果Fig.8 Test results of different grain numbers
實際應(yīng)用時,對于模型單幅圖像的檢測速度有一定的時間要求,最好能夠?qū)崿F(xiàn)對目標(biāo)的實時檢測。檢測時間小于1s可考慮將模型應(yīng)用于移動端[25],檢測模型對圖像尺寸為640×640像素的不同數(shù)量籽粒的檢測時間如圖9所示。由圖9可知,檢測時間隨著籽粒數(shù)量的增加而增加,模型對于單幅圖像的平均檢測時間為0.027s,檢測速度達到37fps,最大檢測時間為0.04s。
圖9 不同籽粒數(shù)量的檢測時間Fig.9 Detection time of different grain numbers
4.3.3 混合籽粒的檢測試驗
從試驗材料中另外采集5個類別的小麥籽粒圖像,每類200粒。每幅圖像包含20?;旌献蚜?共50幅小麥圖像,使用改進后的網(wǎng)絡(luò)進行檢測,結(jié)果如表4所示。由表4可知,完善粒、破損粒、蟲蝕粒、生芽粒和黑胚粒正確識別個數(shù)分別為188、179、185、189、186,識別準確率分別為94%、89.5%、92.5%、94.5%、93%,平均識別正確率為92.7%。結(jié)果表明,模型對于不同的小麥籽粒類型均能有效識別與檢測。將此檢測技術(shù)應(yīng)用到實際糧食質(zhì)量檢測中,通過統(tǒng)計批量小麥中完善粒的數(shù)量,其余均為不完善粒,計算完善粒的占比即可對該批小麥的質(zhì)量進行評級。
表4 改進YOLOX模型對混合籽粒的檢測結(jié)果Table 4 Detection results of mixed grains by improved YOLOX model
為驗證本文所作改進對YOLOX模型的提升效果,將其與原YOLOX模型進行對比;同時為說明YOLOX相較于YOLOv5模型的輕量性及檢測優(yōu)勢,也將YOLOv5模型作為對比對象之一;選取小麥籽粒檢測方面的FasterRCNN[19]和YOLOv5-MDC[20]以及在農(nóng)作物檢測廣泛使用的單階段檢測網(wǎng)絡(luò)SSD[26]進行了對比,結(jié)果如表5所示。
表5 不同檢測算法結(jié)果的對比Table 5 Comparison of results by different detection algorithms
由表5可知,本文算法相較于一階段的SSD和YOLOv5-MDC以及兩階段的Faster-RCNN網(wǎng)絡(luò)模型輕量化了許多;YOLOv5-MDC的檢測精度比本文算法稍微優(yōu)越一點,比本文高0.78百分點,但其網(wǎng)絡(luò)模型參數(shù)量比本文多12.97M,檢測速度低于本文算法。本文算法的檢測精度高于其他3種主流檢測算法,相較于原YOLOX算法平均檢測精度提升了2.58百分點,檢測速度提高了5.78fps,檢測速度更快,能夠更好地滿足實時檢測的要求。
本文提出一種基于改進YOLOX的小麥不完善粒檢測算法。針對籽粒過小難以檢測的問題,通過引入CA注意力機制有效增強小麥籽粒局部的不完善特征顯著度,并將網(wǎng)絡(luò)特征融合部分改為加權(quán)雙向特征金字塔(BiFPN)結(jié)構(gòu),實現(xiàn)多尺度籽粒特征更有效地融合和表達,進而提高目標(biāo)的檢測精度;針對不完善粒檢測實時性問題,通過應(yīng)用DwConv卷積,降低網(wǎng)絡(luò)的計算復(fù)雜度,提高模型的檢測速度。利用自制的小麥數(shù)據(jù)集,通過對多個品種不同密集程度的多籽粒進行檢測,本文算法對于隨機分布的多類別不完善粒的平均檢測精度達到93.43%,單幅圖像平均檢測時間為0.027s,且模型占用內(nèi)存小,便于移植至嵌入式設(shè)備。該模型可用于多品種、不同數(shù)量的密集小麥籽粒識別檢測中,為小麥不完善粒檢測提供一種新的技術(shù)參考。
本文未對實際檢測場景下批量的小麥不完善粒進行連續(xù)檢測,下一步研究的重點是在保證模型檢測速度和精度的前提下,對模型進一步完善后在嵌入式平臺上進行部署,并在實際應(yīng)用場景下進行檢測測試。