基于多目標采樣和改進Mask R-CNN的木瓜成熟度檢測

2024-05-06 13:00:28齊國紅

食品與機械 2024年3期

齊國紅

張云龍1

蘇曼2

( 1. 鄭州西亞斯學院,河南鄭州 451100;2. 河南大學,河南鄭州 450046)

隨著農(nóng)業(yè)科技的不斷發(fā)展和人們對食品品質(zhì)的日益關(guān)注,對農(nóng)作物的精準監(jiān)測與檢測成為了現(xiàn)代農(nóng)業(yè)中至關(guān)重要的研究領(lǐng)域[1]。作為熱帶和亞熱帶地區(qū)的主要經(jīng)濟作物之一,木瓜因其豐富的營養(yǎng)價值和廣泛的應(yīng)用而備受關(guān)注[2]。然而,木瓜的成熟度對于品質(zhì)和產(chǎn)量的影響不容忽視[3]。傳統(tǒng)的木瓜成熟度評估方法通常依賴于主觀經(jīng)驗和人工抽樣,一定程度上限制了成熟度評估的準確性和效率[4]。

近年來,計算機視覺技術(shù)的迅猛發(fā)展為農(nóng)作物成熟度的非侵入式監(jiān)測提供了新的可能,其中,深度學習技術(shù)在圖像分析領(lǐng)域取得了顯著成果。此外,目標檢測和語義分割方法的結(jié)合在農(nóng)作物成熟度檢測方面展現(xiàn)出了巨大潛力。熊俊濤等[4]基于輕量化YOLO v5-Lite模型,提出了一種自然環(huán)境下木瓜成熟度檢測方法,該方法對木瓜成熟度檢測的均值平均精度(mAP)為92.4%。Suban等[5]提出了一種基于k最近鄰算法的木瓜成熟度識別方法,該方法能夠準確識別木瓜果實的成熟度。Ratha等[6]提出了一種基于VGG16和離散小波變換的番木瓜成熟度識別方法,該方法對木瓜成熟度檢測的準確率達98%。Behera等[7]提出了一種基于VGG19和遷移學習算法的木瓜成熟度分類方法,通過VGG19和遷移學習算法的結(jié)合,該方法對木瓜成熟度的分類準確率得到顯著提升。

Mask R-CNN作為一種強大的視覺識別模型,通過同時實現(xiàn)目標檢測和像素級別的語義分割,為農(nóng)作物成熟度的精準檢測提供了可能[8]。但現(xiàn)有的Mask R-CNN模型在應(yīng)用于木瓜成熟度檢測時仍存在一些挑戰(zhàn)。首先,木瓜的生長狀態(tài)和形態(tài)多樣,生長環(huán)境復(fù)雜,導(dǎo)致成熟度檢測變得更加復(fù)雜,而現(xiàn)有方法針對不同背景下木瓜成熟度檢測的泛化能力不足。其次,由于木瓜的顏色和紋理在不同成熟度階段呈現(xiàn)出明顯變化,傳統(tǒng)的目標檢測方法可能無法準確捕捉這些細微的特征變化。

研究擬提出一種非破壞性的木瓜成熟度檢測框架,開發(fā)一種基于多目標采樣和改進Mask R-CNN的木瓜成熟度檢測方法。該方法在數(shù)據(jù)增強過程中采用單圖像多目標采樣技術(shù),從而將單目標訓練模型推廣到能夠適應(yīng)多目標和雜亂背景場景;由于小數(shù)據(jù)集導(dǎo)致模型對未見數(shù)據(jù)高度敏感,且不同成熟度階段的木瓜具有相似的紋理和顏色模式,因此,在所提出的方法中評估和比較了分割模型的魯棒性;提出了最佳置信度閾值試驗性選擇方法,以期為小數(shù)據(jù)集、具有相似模式但具有強魯棒性的水果分級模型開發(fā)提供依據(jù)。

1 Mask R-CNN

試驗?zāi)康氖抢媚繕藱z測和實例分割模型[9]對圖像中的木瓜果實進行檢測,并對其成熟度進行識別。所提出的木瓜成熟度檢測方法將不同卷積神經(jīng)網(wǎng)絡(luò)層次的特征結(jié)合到自下而上的區(qū)域方案中,在目標定位和分割方面有較大改進。檢測準確度依賴于區(qū)域候選技術(shù),該技術(shù)已被引入基于R-CNN的多種CNN方法,如快速R-CNN和Mask R-CNN[10]。

所改進的Mask R-CNN結(jié)構(gòu)實現(xiàn)了對Faster R-CNN擴展,如圖1所示。

圖1 所提方法使用的Mask R-CNN架構(gòu)

改進的Mask R-CNN包括使用卷積神經(jīng)網(wǎng)絡(luò)(主干)的區(qū)域候選網(wǎng)絡(luò)(RPN)和用于對象回歸、分類的網(wǎng)絡(luò)頭部兩個主要組件。與Faster R-CNN相比,Mask R-CNN還輸出每個感興趣區(qū)域(ROI)的掩模檢測。

改進的Mask R-CNN使用的卷積主干為ResNeXt網(wǎng)絡(luò)[11]和具有50,101層的殘差網(wǎng)絡(luò)ResNet[12]。

ResNeXt重復(fù)了一個構(gòu)建模塊,該模塊聚合了一組具有相同拓撲結(jié)構(gòu)的轉(zhuǎn)換。與ResNet相比,其引入了一個新的維度:基數(shù)(轉(zhuǎn)換集的大小)C,并將其作為除深度和寬度之外的一個關(guān)鍵因素。一組聚合轉(zhuǎn)換可以表示為:

(1)

式中:

Ti(x)——任意函數(shù)。

類似于簡單神經(jīng)元,函數(shù)Ti應(yīng)將x投影到一個(可選的低維)嵌入中,并對其進行轉(zhuǎn)換。

(1) 基本構(gòu)建塊:ResNeXt的基本構(gòu)建塊稱為“基數(shù)組”?！盎鶖?shù)”指組內(nèi)并行路徑或分支的數(shù)量。在ResNeXt中,每個組包含多條并行路徑,這些路徑用于從輸入數(shù)據(jù)中捕獲不同的特征。使用多條路徑與傳統(tǒng)的ResNet架構(gòu)不同,后者只使用兩條路徑(一條快捷路徑和一條主路徑)?；鶖?shù)參數(shù)(通常表示為“C”)確定組內(nèi)有多少個并行路徑。

(2) 基數(shù)組:在基數(shù)組內(nèi),并行路徑被實現(xiàn)為“瓶頸塊”。這些塊包括3個主要組件:1×1卷積、3×3卷積和另一個1×1卷積。1×1卷積用于降低輸入特征的維度,而3×3卷積負責捕獲更復(fù)雜的模式。然后,這些并行路徑的輸出通常通過求和聚合在一起,以創(chuàng)建組的最終輸出。

(3) 架構(gòu):ResNeXt架構(gòu)可表示為:“ResNeXt-C(C×4)-Y”?！癈”表示基數(shù),確定組內(nèi)并行路徑數(shù)?！癈×4”表示組內(nèi)每條并行路徑中的濾波器或通道數(shù)?！?”是原始ResNeXt中常用的乘數(shù)?！癥”表示整體網(wǎng)絡(luò)架構(gòu),例如ResNeXt-50的“50”,ResNeXt-101的“101”等。

(4) 更深和更寬的網(wǎng)絡(luò):ResNeXt在增加深度(加深)和增加寬度(添加更多并行路徑/組)之間提供了一個權(quán)衡。這種靈活性使研究人員能夠根據(jù)任務(wù)的特定要求來定制架構(gòu)。更深的網(wǎng)絡(luò)可以捕獲更復(fù)雜的特征,而更寬的網(wǎng)絡(luò)(具有更多并行路徑)可以捕獲更多樣的特征,使其對各種任務(wù)非常有效。

殘差網(wǎng)絡(luò)具有跳躍連接,解決了梯度消失問題。ROI特征通過從特征金字塔網(wǎng)絡(luò)(FPN)的不同層次中提取出來,FPN具有自上而下的結(jié)構(gòu)和橫向連接[13]。使用ResNet-FPN主干進行特征提取,其在準確率和計算時間上都具有很高的性能。區(qū)域候選網(wǎng)絡(luò)用于提出候選對象,使用注意機制在邊界框中輸出一組候選對象。

所改進Mask R-CNN的網(wǎng)絡(luò)頭部使用ROI Align,ROI Align使用雙線性插值來計算采樣位置的輸入特征的精確值,然后對組合結(jié)果使用最大值或平均值[14]。

雙線性插值,又稱為雙線性內(nèi)插。在數(shù)學上,雙線性插值是有兩個變量的插值函數(shù)的線性插值擴展,其核心思想是在兩個方向分別進行一次線性插值。

如圖2所示,若想得到未知函數(shù)f在點P=(x,y)的值,假設(shè)已知函數(shù)在Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)和Q22=(x2,y2)4個點的值。首先在x方向進行線性插值,得到

圖2 雙線性插值示例圖

(2)

(3)

然后在y方向進行線性插值,得到

(4)

得到所要的結(jié)果:

(5)

如果選擇一個坐標系統(tǒng)使得f的4個已知點坐標分別為(0,0)、(0,1)、(1,0)和(1,1),那么插值公式就可以化簡為

f(x,y)≈f(0,0)(1-x)(1-y)+f(1,0)x(1-y)+f(0,1)(1-x)y+f(1,1)xy。

(6)

ROI Align的輸出用于根據(jù)框檢測和類分數(shù)對每個候選對象執(zhí)行對象回歸和分類。全卷積網(wǎng)絡(luò)(FCN)的頭部網(wǎng)絡(luò)包括卷積掩碼檢測分支,該分支具有用于使用sigmoid和二進制損失檢測掩碼的一些濾波器?？偟挠柧殦p失包括分類損失、邊界框損失和平均二進制交叉熵損失[15]。

所改進Mask R-CNN參數(shù)使用均值平均精度(mAP)與準確率[真實木瓜標簽數(shù)量與所有檢測到的數(shù)量(假陽性標簽和真實標簽之和)之比]之間的關(guān)系進行選擇。

2 數(shù)據(jù)采集和數(shù)據(jù)增強

所構(gòu)建的木瓜圖像數(shù)據(jù)集包括原始數(shù)據(jù)集#1和增強數(shù)據(jù)集#2兩部分。數(shù)據(jù)集#1中的木瓜圖像在白色背景下拍攝,然后在像素級別對每個圖像進行標注。由于數(shù)據(jù)集#1中木瓜圖像數(shù)量有限,使用旋轉(zhuǎn)、縮放和平移技術(shù)進行圖像增強,并從像素級別的標簽生成附加的圖像數(shù)據(jù)集,得到增強數(shù)據(jù)集#2。數(shù)據(jù)集#1和數(shù)據(jù)集#2用于訓練和測試木瓜圖像檢測和分割模型、最佳成熟度檢測閾值的選擇和驗證基于多目標采樣和改進Mask R-CNN的木瓜成熟度檢測模型。

實際上,木瓜的成熟度分為未成熟、半成熟和完全成熟3個級別(表1),該指標可用以確定目標在送達客戶之前仍保持新鮮的時間長度。

表1 木瓜成熟度等級分組

未成熟的木瓜可以在成熟前存放6～7 d,而部分成熟的木瓜可以再保鮮3～4 d。完全成熟的木瓜應(yīng)盡快食用或加工。因此,未成熟和部分成熟的木瓜可以通過包裝以便遠距離輸送或出口,而完全成熟的木瓜將在當?shù)劁N售。

2.1 數(shù)據(jù)采集

為了獲得圖像,木瓜被放置在一個由漫射熒光燈源均勻照明的相機中。加入白色背景以提高對比度,并在此背景上放置尺子以允許在開發(fā)的代碼中進行校準(見圖3)。使用高分辨率數(shù)碼相機(尼康A(chǔ)F-S DX Nikkor 18～55 mm)獲取木瓜圖像,無閃光燈和變焦(55×)。

a. 相機 b. 光源 c. 待采樣的木瓜 d. 背景 e. 校準線條 f. 隔離外部光線的盒子

對60個番木瓜果實采集了240張圖像(每個木瓜4張圖像),不同成熟階段的木瓜圖像如圖4所示。

圖4 不同成熟階段的木瓜圖像

由于木瓜圖像中含有背景像素,對于未成熟、半成熟和完全成熟的不同成熟度的原始圖像,用白色像素標記木瓜,如圖5所示。

圖5 木瓜圖像樣本及其標記的木瓜所在范圍實況

2.2 數(shù)據(jù)增強

通過在原始帶標簽的真實圖像基礎(chǔ)上生成更多的數(shù)據(jù),以提高訓練數(shù)據(jù)的效率,使其更加真實和實用[16]。使用幾何變換來區(qū)分50%原始圖像中不同的木瓜外皮、朝向和位置。此外,圖像中包括了背景元素。通過像素級別的標注,將所有的木瓜對象存儲在數(shù)據(jù)庫中。將另外的25%原始圖像添加到不同的背景圖像中,包括天然木瓜田、超市、工廠等,另外25%的原始圖像添加到帶有多個不同尺寸、朝向和位置的多木瓜背景圖像中,以模擬更真實的包含多個對象的圖像[17]。每個木瓜都在像素級別和實例級別上進行了標注。用于訓練的木瓜圖像包括原始圖像和增強圖像,完全與測試數(shù)據(jù)集分開。

3 試驗與結(jié)果分析

為驗證所提出的木瓜成熟度檢測方法Mask R-CNN (ResNeXt-101)的有效性和魯棒性,將其對木瓜成熟度的檢測結(jié)果與R-CNN的其他模型進行對比,所選擇對比的方法對水果進行檢測時具有較高的平均檢測精度[18]。ResNeXt-101簡記為X101。

該試驗使用detectron2框架[19]和配備有Intel(R) 2核Xeon(R) CPU @ 2.20 GHz、NVIDIA Tesla V100-SXM2顯卡和16 GB HBM2內(nèi)存的Google Colab機器,使用PyTorch 1.8運行程序。參數(shù)配置是根據(jù)每個模型的總損失經(jīng)驗進行選擇;所有基于R-CNN模型均使用相同的參數(shù)配置,例如最大迭代次數(shù)為1 000,基本學習率為0.000 25,每批處理2張圖像。原始圖像尺寸為4 128像素×3 096像素,增強后的圖像尺寸從855像素×1 280像素到6 016像素×4 000像素不等。每個模型均使用在COCO數(shù)據(jù)集[20]上預(yù)訓練的原始模型進行初始化,然后在兩個不同數(shù)據(jù)集上進行微調(diào):原始的木瓜數(shù)據(jù)集(數(shù)據(jù)集#1)和帶有多目標采樣的木瓜數(shù)據(jù)集(數(shù)據(jù)集#2),如表2所示。

表2 原始數(shù)據(jù)集和增強數(shù)據(jù)集中不同成熟階段木瓜圖像數(shù)

3.1 R-CNN模型和殘差網(wǎng)絡(luò)

所對比的R-CNN模型包括RetinaNet、CenterMask、Mask R-CNN、Faster R-CNN,所采用的殘差網(wǎng)絡(luò)包括具有99,57層的VoVNetV2和具有50,101層的ResNet。根據(jù)R-CNN模型和殘差網(wǎng)絡(luò)的不同組合,所對比的方法主要包括CenterMask (VoVNet-99)、CenterMask (VoVNet-57)、Faster R-CNN (ResNet-50)、Faster R-CNN (ResNet-101)、RetinaNet (ResNet-101)、RetinaNet (ResNet-50)、Mask R-CNN (ResNet-101)、Mask R-CNN(ResNet-50)。后續(xù)分析中,VoVNet-99簡記為v99,VoVNet-57簡記為v57,ResNet-101簡記為r101,ResNet-50簡記為r50。

(1) RetinaNet是一種應(yīng)用于密集采樣候選對象的單級檢測器。RetinaNet由一個主干網(wǎng)絡(luò)和兩個子網(wǎng)絡(luò)組成,分別用于框分類和框回歸。由于背景和前景之間的類不平衡是影響檢測準確性的主要問題,RetinaNet通過對負面示例進行重點訓練來計算焦點損失。焦點損失由所有候選對象的焦點損失之和計算得出。訓練損失包括分類損失和邊界框損失。

(2) 基于最新分割模型CenterMask的檢測方法,CenterMask是一個單階段和無錨點實例分割模型,CenterMask通過增加一個空間注意引導(dǎo)的掩碼網(wǎng)絡(luò)(SAG-mask)用于檢測物體掩碼。SAG-mask網(wǎng)絡(luò)包含空間注意圖(SAM),在聚焦于信息像素并減少噪聲方面起著至關(guān)重要的作用。

3.2 評估指標

為了評估不同方法對木瓜果實圖像成熟度檢測的性能,考慮檢測到的目標與真實邊界框之間的相似性,包括重疊面積和檢測到的木瓜成熟度。交并比(IoU)IIoU可用于衡量檢測目標的邊界框(Ap)和真實邊界框(Agt)之間重疊區(qū)域的比率[21]:

(7)

當IIoU=1時,IoU分數(shù)為最佳,而IoU閾值通常設(shè)置為識別到的目標是否正確的限制程度。此外,精確率可以用來識別所有檢測到的物體中的正確陽性樣本數(shù),而召回率用于識別圖像中所有真實邊界框?qū)ο骩22]。

(8)

(9)

式中:

NTP——正確檢測到的樣本數(shù)量;

NFP——錯誤檢測到的樣本數(shù)量或不存在的樣本數(shù)量;

NFN——未檢測到的真實樣本數(shù)量。

此外,目標檢測器的置信度分數(shù)也可以考慮在檢測指標內(nèi)。較大的置信度分數(shù)可以被視為正的檢測結(jié)果。將精確度和召回率重新表示為置信度閾值(τ)的函數(shù)[23]:

(10)

(11)

理想的目標檢測器應(yīng)具有精確率和召回率均為1的性能。精確率—召回率曲線(PR曲線)呈現(xiàn)了從檢測開始的不同閾值的精確率—召回率關(guān)系,試驗方法的PR曲線呈鋸齒狀(圖6)。此外,平均精度(AP)是一種常用的指標,為PR曲線下的面積;mAP為AP在類別和閾值上的平均值。

圖6 不同方法對未熟、半熟和全熟木瓜檢測的PR曲線

3.3 成熟度階段檢測及最優(yōu)閾值選擇

3.3.1 成熟度階段檢測 mAP從50%變化到95%,步長為5%,AP50和AP75分別對應(yīng)50%和75%的平均檢測精確度。由表3可知,試驗方法在所有指標得分上的表現(xiàn)最好,而Mask R-CNN和Faster R-CNN在考慮特定重疊閾值時在AP50和AP75上表現(xiàn)出較高的精確度。CenterMask在AP50閾值下展現(xiàn)出良好的檢測性能。

表3 使用原始數(shù)據(jù)集(數(shù)據(jù)集#1)訓練和測試不同方法時的木瓜成熟度檢測結(jié)果

由表4可知,由于未知的背景干擾、重疊的目標、不同尺寸的目標和其他目標變化,所有方法對木瓜成熟度檢測的mAP均有不同程度的下降,但試驗方法在所有指標得分上的表現(xiàn)仍是最好的。由表5可知,通過多目標采樣技術(shù),試驗方法在不受限制的數(shù)據(jù)集(數(shù)據(jù)集#2)上泛化能力更強,如mAP從92.76%提升至98.43%。

表4 使用原始數(shù)據(jù)集(數(shù)據(jù)集#1)訓練、增強數(shù)據(jù)集(數(shù)據(jù)集#2)測試不同方法時的木瓜成熟度檢測結(jié)果

表5 使用原始數(shù)據(jù)集(數(shù)據(jù)集#1)+增強數(shù)據(jù)集(數(shù)據(jù)集 #2)訓練和測試不同方法時的木瓜成熟度檢測結(jié)果

3.3.2 計算時間由圖7可知,相比于ResNet50和VoVNet59等較小尺寸的層,r101(ResNet101)和v99(VoVNet99)等較大尺寸的層通常需要更多的計算時間。Mask R-CNN通過全連接網(wǎng)絡(luò)進行掩碼檢測,因此需要更多的計算時間。RetinaNet和Faster R-CNN具有最高的計算速度,但RatinaNet出現(xiàn)了較多誤檢。

圖7 各檢測模型在每張圖像上的推理時間與mAP之間的關(guān)系

3.4 木瓜成熟度檢測性能比較

為進一步驗證試驗方法的有效性,將試驗方法的木瓜成熟度檢測性能與基于輕量化YOLO v5-Lite模型的木瓜成熟度檢測方法(YOLO v5-Lite)、基于k最近鄰算法的木瓜成熟度識別方法(KNN)、基于VGG16和離散小波變換的番木瓜成熟度識別方法(VGG16-DWT)、基于VGG19和遷移學習算法的木瓜成熟度分類方法(VGG19-TLA)進行對比,結(jié)果見表6。由表6可知,試驗方法對木瓜成熟度檢測的mAP、AP50、AP75、未成熟的AP、半成熟的AP和成熟的AP比其他方法至少提高了0.07%,0.65%,0.56%,1.27%,0.78%,0.88%。

表6 木瓜成熟度檢測方法的檢測性能對比

綜上,試驗方法的木瓜成熟度檢測mAP、準確率和召回率均優(yōu)于所對比的其他方法,驗證了試驗方法的有效性和實用性。

4 結(jié)論

研究提出了一種基于多目標采樣和改進Mask R-CNN的木瓜成熟度檢測方法。結(jié)果表明,通過多目標采樣技術(shù),試驗方法對木瓜成熟度檢測的泛化能力更強,可將均值平均精度、50%平均精度、75%平均精度、未成熟的平均精度、半成熟的平均精度和成熟的平均精度分別提高5.67%,5.65%,5.78%,5.91%,6.56%,6.66%。與其他4種木瓜成熟度檢測方法相比,試驗方法對木瓜成熟度檢測的均值平均精度、50%平均精度、75%平均精度、未成熟的平均精度、半成熟的平均精度和成熟的平均精度比其他方法至少提高了0.07%,0.65%,0.56%,1.27%,0.78%,0.88%。試驗方法的計算時間偏長,后續(xù)將進一步研究具有更高計算效率且可保持當前木瓜成熟度檢測準確率、召回率等性能優(yōu)勢的方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡