基于TMU-Net網(wǎng)絡(luò)的蘋果果心分割方法

2023-01-13 00:46劉長(zhǎng)勇李思佳查志華鄧紅濤

農(nóng)業(yè)工程學(xué)報(bào) 2022年16期

劉長(zhǎng)勇，李思佳，史慧，查志華，鄧紅濤

劉長(zhǎng)勇1，李思佳3，史慧2，查志華2，鄧紅濤2※

（1. 新疆農(nóng)墾科學(xué)院，石河子 832000；2.石河子大學(xué)機(jī)械電氣工程學(xué)院，石河子 832000；3. 中山大學(xué)電子與通信工程學(xué)院，深圳 510275）

針對(duì)蘋果內(nèi)在品質(zhì)檢測(cè)過(guò)程中傳統(tǒng)測(cè)量果心大小方法效率低、準(zhǔn)確性差等問(wèn)題，該研究提出一種基于TMU-Net網(wǎng)絡(luò)自動(dòng)分割果心的方法，將Transformer編碼器融入U(xiǎn)-Net網(wǎng)絡(luò)結(jié)構(gòu)中，構(gòu)建改進(jìn)U型卷積網(wǎng)絡(luò)TMU-Net模型。模型由特征提取模塊、特征處理模塊、解碼器、特征拼接模塊組成，以VGG-16前13層作為主干特征提取網(wǎng)絡(luò)，在跳躍連接中疊加多重殘差空洞卷積（Multiple Residual Dilated Convolution，MRDC）模塊，增大感受野的同時(shí)增強(qiáng)了模型對(duì)底層特征提取能力。采用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)果心數(shù)據(jù)集擴(kuò)充后，利用遷移學(xué)習(xí)方法凍結(jié)特定的網(wǎng)絡(luò)層，對(duì)TMU-Net模型進(jìn)行訓(xùn)練。試驗(yàn)結(jié)果表明：引入遷移學(xué)習(xí)并使用最佳訓(xùn)練方式使模型分割精確率提高了22.48個(gè)百分點(diǎn)；TMU-Net網(wǎng)絡(luò)模型在果心分割任務(wù)中實(shí)現(xiàn)了96.72%的精確率，與U-Net、PSPNet、DeeplabV3+網(wǎng)絡(luò)對(duì)比，精確率分別提升了14.28、9.98、7.15個(gè)百分點(diǎn)。該方法能夠精準(zhǔn)、有效地實(shí)現(xiàn)果心分割，可為實(shí)現(xiàn)蘋果內(nèi)在品質(zhì)智能檢測(cè)提供參考。

模型；圖像分割；果心分割；TMU-Net網(wǎng)絡(luò)；多重殘差空洞卷積；Transformer；遷移學(xué)習(xí)

0 引言

蘋果果心比例是評(píng)價(jià)蘋果內(nèi)在品質(zhì)的重要指標(biāo)[1]。目前，果心數(shù)據(jù)主要依靠人工測(cè)量獲取，這種方法不僅工作量大、效率低，而且蘋果果心形狀不規(guī)則、邊緣凹凸等因素導(dǎo)致手工測(cè)量誤差大，難以滿足當(dāng)前發(fā)展的需求。

隨著計(jì)算機(jī)理論和硬件設(shè)備的快速發(fā)展，機(jī)器視覺(jué)技術(shù)在工業(yè)中取得了廣泛應(yīng)用[2]。劉浩等[3]通過(guò)轉(zhuǎn)換色彩空間，選取合適的色度閾值實(shí)現(xiàn)果心區(qū)域分割，但是圖像中往往存在一些不確定的噪聲點(diǎn)，單一的閾值分割精度較低。胡智元[4]通過(guò)Canny邊緣檢測(cè)算法、霍夫變換特征提取算法、梯度下降算法等多種方法結(jié)合實(shí)現(xiàn)水果位置信息的計(jì)算，但是水果的不規(guī)則形狀和表皮顏色的深淺對(duì)定位效果影響較大。上述方法只能提取圖像的低級(jí)特征，難以準(zhǔn)確提取出邊緣細(xì)節(jié)，識(shí)別精度有限。

近年來(lái)，深度學(xué)習(xí)技術(shù)在圖像分割領(lǐng)域的應(yīng)用取得了顯著成功[5-7]。Chen等[8]提出的DeeplabV3+模型通過(guò)在編碼器中使用大量的空洞卷積，使每個(gè)卷積輸出都包含了較大范圍的信息。U-Net[9]是基于編碼器與解碼器結(jié)構(gòu)的網(wǎng)絡(luò)，由主干特征提取、加強(qiáng)特征提取、跳躍連接（skip-connection）三部分組成，能夠融合低層次和高層次的語(yǔ)義信息，近年來(lái)被研究者優(yōu)化后廣泛應(yīng)用于農(nóng)業(yè)圖像分割領(lǐng)域[10-11]。在模型結(jié)構(gòu)融合中，Ge等[12]提出將不同分辨率的圖像作為網(wǎng)絡(luò)的輸入，使用空洞卷積代替U-Net中間3層的標(biāo)準(zhǔn)卷積，在膀胱癌數(shù)據(jù)集中取得了較高精度，為U-Net模型優(yōu)化提供了新思路。Maji等[13]通過(guò)在跳躍連接中引入注意門（Attention gates），只將相關(guān)信息進(jìn)行特征拼接，并采用引導(dǎo)解碼器（guided decoder）增強(qiáng)每一層的特征表示能力。Song等[14]將可分離卷積融合在SegNet網(wǎng)絡(luò)中，并結(jié)合條件隨機(jī)場(chǎng)模型對(duì)向日葵遙感圖像進(jìn)行倒伏識(shí)別，取得了較好的識(shí)別效果。

雖然卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）有較強(qiáng)的特征表示能力，但是由于卷積運(yùn)算的固有局部性，其在紋理和形狀差異較大的目標(biāo)結(jié)構(gòu)中表現(xiàn)出的性能較弱，為了克服這種局限性，現(xiàn)有的研究提出建立基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)。Transformer[15]最初應(yīng)用于自然語(yǔ)言處理（Natural Language Processing，NLP）領(lǐng)域，與之前基于CNN的方法不同，其采用完全依賴于注意力機(jī)制的卷積算子，具有強(qiáng)大的全局信息獲取能力，在各種圖像識(shí)別任務(wù)中達(dá)到甚至超越了現(xiàn)有網(wǎng)絡(luò)模型[16-17]。已有學(xué)者展開了在卷積神經(jīng)網(wǎng)絡(luò)中融合Transformer[15]結(jié)構(gòu)的研究。賈偉寬等[18]針對(duì)綠色目標(biāo)果實(shí)檢測(cè)，提出一種基于Transformer的優(yōu)化模型，將卷積神經(jīng)網(wǎng)絡(luò)提取到的特征輸入Transformer編碼-解碼器，可并行處理多個(gè)對(duì)象，提高了檢測(cè)效率。針對(duì)動(dòng)物骨骼關(guān)鍵點(diǎn)檢測(cè)，張飛宇等[19]通過(guò)在HRNet模型中引入Transformer編碼器和多尺度信息融合模塊，提高了網(wǎng)絡(luò)高維特征提取能力，大大提升了檢測(cè)效率和精度。安小松等[20]將Transformer應(yīng)用于缺陷柑橘分選，通過(guò)預(yù)測(cè)果實(shí)路徑指導(dǎo)機(jī)器手臂準(zhǔn)確抓取缺陷柑橘，實(shí)現(xiàn)快速分選。以上研究為開展Transformer融合CNN應(yīng)用于蘋果果心的精確分割提供了參考和可行性依據(jù)。

因此，本研究提出了一種融合Transformer的改進(jìn)U型卷積網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)Transformer編碼器增強(qiáng)網(wǎng)絡(luò)的全局信息獲取能力，改善卷積運(yùn)算的固有局部性，并使用VGG-16網(wǎng)絡(luò)[21]的前13層作為主干特征提取網(wǎng)絡(luò)，加強(qiáng)對(duì)蘋果圖像細(xì)節(jié)特征的提??；在跳躍連接路徑中引入多重殘差空洞卷積（Multiple Residual Dilated Convolution，MRDC），通過(guò)疊加不同空洞率的卷積操作提取多尺度信息，從而減小來(lái)自編碼器和解碼器的特征之間存在的語(yǔ)義差異；訓(xùn)練過(guò)程中通過(guò)加載預(yù)訓(xùn)練權(quán)重并在訓(xùn)練前期凍結(jié)部分層的方式進(jìn)行遷移學(xué)習(xí)，以期提高果心分割精度，為蘋果去心研究提供新思路。

1 材料與方法

1.1 數(shù)據(jù)采集與數(shù)據(jù)集制作

1.1.1 圖像采集

選取紅富士、嘎拉、黃元帥三類蘋果（產(chǎn)地：新疆）。使用配有索尼IMX377感光芯片的KS12A884攝像頭作為采集設(shè)備，最大分辨率為3 840×2 880（像素）。依據(jù)NY/T 2316—2013蘋果評(píng)價(jià)指標(biāo)規(guī)范[1]，沿蘋果最大橫徑處切開，得到兩個(gè)樣本。如圖1所示，采集時(shí)將樣本放置于大小為50 cm×50 cm×50 cm（長(zhǎng)×寬×高）的影棚中，樣本橫切面距攝像頭12 cm且與攝像頭平行。圖像采集過(guò)程中每個(gè)蘋果樣本旋轉(zhuǎn)90°進(jìn)行兩次拍攝，并將圖像大小統(tǒng)一調(diào)整為800×600（像素），最終得到的蘋果樣本圖像如圖2所示。

圖1 采集設(shè)備

圖2 蘋果圖像

1.1.2 數(shù)據(jù)增強(qiáng)

訓(xùn)練深度學(xué)習(xí)網(wǎng)絡(luò)模型參數(shù)需要足夠的樣本數(shù)據(jù)。因此，本文對(duì)采集的311幅樣本圖像隨機(jī)采用平移、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和高斯模糊的方法來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)，以提高模型的泛化能力[22]。通過(guò)數(shù)據(jù)增強(qiáng)，最終共獲得933幅樣本圖像。

數(shù)據(jù)增強(qiáng)過(guò)程中，每張?jiān)紙D片會(huì)輸出兩張不同的增強(qiáng)效果圖，并且每種增強(qiáng)方式被觸發(fā)的概率均為25%。進(jìn)行平移變換時(shí)，隨機(jī)產(chǎn)生平移方向，但平移的距離不超過(guò)100像素。高斯模糊處理時(shí)，隨機(jī)添加均值為0，方差為0.01的高斯白噪聲。

1.1.3 數(shù)據(jù)集制作

本研究采用VOC數(shù)據(jù)集格式，使用圖像標(biāo)注工具Labelme標(biāo)注果心區(qū)域。標(biāo)注完成后得到的類別標(biāo)簽、坐標(biāo)等標(biāo)注信息存為.json文件，經(jīng)處理后生成8位彩色標(biāo)簽圖，其中每個(gè)像素點(diǎn)的值代表了該像素所屬的種類。將擴(kuò)充后的樣本圖像依據(jù)留出法[22]按7∶2∶1的比例劃分，分別得到訓(xùn)練集、驗(yàn)證集和測(cè)試集。

1.2 改進(jìn)U型卷積網(wǎng)絡(luò)TMU-Net

U-Net[23]網(wǎng)絡(luò)是典型的“U型”編碼-解碼架構(gòu)，其編碼器和解碼器之間引入了跳躍連接，能夠融合不同層次的語(yǔ)義信息，從而提升網(wǎng)絡(luò)性能。但簡(jiǎn)單的跳躍連接忽略了特征之間存在的語(yǔ)義差異，導(dǎo)致其對(duì)形狀不規(guī)則且拐角尖銳的果心分割效果較差，無(wú)法精確分割果心邊緣，且難以識(shí)別圖像中的模糊目標(biāo)。

針對(duì)上述問(wèn)題，本研究提出一種融合Transformer改進(jìn)U型卷積網(wǎng)絡(luò)TMU-Net（Transformer Multiple U Networks），該模型以VGG-16的前13層作為特征提取網(wǎng)絡(luò)，引入Transformer編碼器進(jìn)行特征處理，增強(qiáng)網(wǎng)絡(luò)的全局特征提取能力，在解碼路徑中，對(duì)特征圖進(jìn)行上采樣操作，并在跳躍連接中引入多重殘差空洞卷積（MRDC），以彌補(bǔ)編碼器和解碼器特征之間存在的語(yǔ)義差異，最后使用預(yù)測(cè)映射函數(shù)對(duì)卷積層的輸出進(jìn)行像素分類，獲得分割結(jié)果。

1.2.1 TMU-Net網(wǎng)絡(luò)結(jié)構(gòu)

TMU-Net主要由4部分組成：特征提取模塊、特征處理模塊、解碼器、特征拼接模塊。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

特征提取模塊：VGG-16中13個(gè)卷積層均采用大小為3×3的卷積核，5個(gè)池化層均采用2×2的池化核，最后為3個(gè)全連接層，其結(jié)構(gòu)與U-Net的編碼結(jié)構(gòu)相似。本研究中對(duì)VGG-16網(wǎng)絡(luò)進(jìn)行裁剪，僅保留前13個(gè)卷積層作為特征提取網(wǎng)絡(luò)，并使用其在ImageNet數(shù)據(jù)集中的預(yù)訓(xùn)練權(quán)重，幫助網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)。

注：①：特征提取模塊；②：特征處理模塊；③：解碼器；④：特征拼接模塊；d：空洞率；MRDC：多重殘差空洞卷積。

圖4 Transformer層結(jié)構(gòu)

解碼器：在編碼器中卷積和池化操作將圖像進(jìn)行降維，壓縮圖像分辨率，導(dǎo)致部分細(xì)節(jié)信息損失。解碼路徑中，通過(guò)兩倍上采樣在一定程度上補(bǔ)全圖像信息，使圖像恢復(fù)至原始尺寸以便對(duì)每一個(gè)像素點(diǎn)進(jìn)行分類。

特征拼接模塊：在U-Net以及類似的U型體系結(jié)構(gòu)中，跳躍連接將圖像的細(xì)粒度特征與抽象特征進(jìn)行拼接，傳遞丟失的空間信息。然而來(lái)自編碼器的特征是較為原始的，來(lái)自解碼器的特征則是經(jīng)過(guò)網(wǎng)絡(luò)深層計(jì)算得到的，二者之間存在語(yǔ)義差異，直接將兩組不兼容的特征進(jìn)行拼接會(huì)在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中產(chǎn)生不一致性，從而影響最后的預(yù)測(cè)結(jié)果。為了解決上述問(wèn)題，本研究重新設(shè)計(jì)了跳躍連接，如圖4所示，通過(guò)多重殘差空洞卷積（MRDC）對(duì)來(lái)自編碼器的特征進(jìn)一步計(jì)算處理，與對(duì)應(yīng)的解碼器特征進(jìn)行拼接。空洞卷積[24]擴(kuò)大了卷積核的感受野，通過(guò)空洞率調(diào)整卷積核中非零值之間的間隔數(shù)量，卷積核大小計(jì)算式為

=·(-1)+1 （1）

式中為空洞卷積的卷積核尺寸；為空洞率；為原始卷積核尺寸。由于空洞卷積引入了0值，大小為的卷積區(qū)域?qū)嶋H參與計(jì)算的像素點(diǎn)僅有個(gè)，因此空洞卷積只能以網(wǎng)格形式提取圖像信息，破壞了局部信息的連續(xù)性。為了減小上述問(wèn)題對(duì)分割效果的影響，本研究疊加使用不同的空洞率，使其能覆蓋更多的底層特征，其中空洞率的組合采用混合膨脹卷積（Hybrid Dilated Convolution，HDC）[25]中的組合要求。

為了彌補(bǔ)拼接特征之間的語(yǔ)義差異，不同跳躍連接路徑上卷積塊的個(gè)數(shù)隨著編碼器深度的減小而增加。同時(shí)在卷積塊中引入1×1卷積作為殘差連接，使網(wǎng)絡(luò)訓(xùn)練更加容易。為了彌補(bǔ)拼接特征之間存在的語(yǔ)義差異，不同跳躍連接路徑上的卷積塊個(gè)數(shù)隨著編碼器深度的減小而增加，如圖5所示，第四層的編碼器特征得到的計(jì)算處理較多，因此僅使用一個(gè)MRDC模塊，而第一層的編碼器特征得到的計(jì)算處理較少，需使用多個(gè)MRDC模塊進(jìn)一步處理，從而使網(wǎng)絡(luò)達(dá)到更好的性能。

圖5 TMU-Net中第二個(gè)跳躍連接結(jié)構(gòu)

綜上所述，TMU-Net模型以VGG-16網(wǎng)絡(luò)的前13層作為特征提取網(wǎng)絡(luò)，用于捕獲低層次細(xì)節(jié)特征，Transformer編碼器能增強(qiáng)網(wǎng)絡(luò)的全局特征提取能力，彌補(bǔ)卷積操作的局部性，引入多重殘差空洞卷積后的跳躍連接能夠減小拼接特征之間存在的語(yǔ)義差異，最終完成果心分割。

1.2.2 構(gòu)建損失函數(shù)

試驗(yàn)中采用交叉熵?fù)p失（Cross Entropy Loss）與Dice Loss結(jié)合作為模型的損失函數(shù)。交叉熵?fù)p失函數(shù)的計(jì)算公式為

式中L為交叉熵?fù)p失；是樣本的類別個(gè)數(shù)；y僅有0和1兩種取值，若樣本類別與當(dāng)前類別一致，y取1，否則y取0；p為當(dāng)前樣本預(yù)測(cè)屬于類的概率。Dice Loss最早由Milletari等[26]提出，用于評(píng)價(jià)樣本的相似性，被廣泛應(yīng)用于圖像分割領(lǐng)域。Dice Loss的計(jì)算與Dice系數(shù)有關(guān)，Dice系數(shù)用來(lái)度量集合相似度，在分割任務(wù)中其表達(dá)式為

式中為Dice系數(shù)；TP、FN、FP分別代表真陽(yáng)性、假陰性、假陽(yáng)性的像素個(gè)數(shù)。Dice Loss計(jì)算公式為

Dice Loss能減少樣本不均衡帶來(lái)的影響，但是在訓(xùn)練過(guò)程中不夠穩(wěn)定，不利于網(wǎng)絡(luò)收斂，因此本研究中結(jié)合交叉熵?fù)p失函數(shù)來(lái)穩(wěn)定訓(xùn)練過(guò)程。

1.3 遷移學(xué)習(xí)

遷移學(xué)習(xí)是將一項(xiàng)任務(wù)中學(xué)到的知識(shí)進(jìn)行存儲(chǔ)，并將其用于解決相關(guān)但不同的問(wèn)題。給定源域、源任務(wù)、目標(biāo)域、目標(biāo)任務(wù)，遷移學(xué)習(xí)在源域和源任務(wù)中學(xué)到的知識(shí)有助于改進(jìn)目標(biāo)任務(wù)中預(yù)測(cè)函數(shù)的學(xué)習(xí)能力，在源域數(shù)據(jù)量充足而目標(biāo)域數(shù)據(jù)量較少時(shí)能有效提升模型性能。

本研究利用模型遷移的方法，將VGG-16和Transformer的預(yù)訓(xùn)練權(quán)重共享于TMU-Net網(wǎng)絡(luò)模型的特征空間，能夠使TMU-Net網(wǎng)絡(luò)模型獲得更好的初始性能，幫助模型更快地學(xué)習(xí)，提高模型訓(xùn)練的效率和魯棒性。

1.4 試驗(yàn)設(shè)計(jì)

1.4.1 TMU-Net網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練環(huán)境

硬件環(huán)境：算法處理平臺(tái)為MistGPU服務(wù)器，處理器為Intel Core i7，16GB內(nèi)存，顯卡型號(hào)為NVIDIA Titan RTX。

軟件環(huán)境：采用Linux操作系統(tǒng)，編程語(yǔ)言為Python3.7.8，使用深度學(xué)習(xí)框架Pytorch1.9.0進(jìn)行網(wǎng)絡(luò)搭建。

1.4.2 訓(xùn)練參數(shù)及方法

模型訓(xùn)練過(guò)程分為凍結(jié)與解凍兩個(gè)階段，前10個(gè)訓(xùn)練輪次（Epoch）采用較大的學(xué)習(xí)率，凍結(jié)部分網(wǎng)絡(luò)參數(shù)，防止權(quán)值被破壞，僅對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)，將更多的資源用于訓(xùn)練網(wǎng)絡(luò)后半部分的參數(shù)，從而提高訓(xùn)練的效率。解凍階段整個(gè)網(wǎng)絡(luò)的參數(shù)都會(huì)發(fā)生改變，因此采用較小的學(xué)習(xí)率。試驗(yàn)中每完成一個(gè)Epoch迭代便保存一次權(quán)重文件。本研究中網(wǎng)絡(luò)優(yōu)化器選用Adam優(yōu)化器，凍結(jié)訓(xùn)練階段初始學(xué)習(xí)率設(shè)置為10-4，解凍訓(xùn)練階段初始學(xué)習(xí)率設(shè)置為10-5，批次輸入樣本數(shù)為2，采用衰減率為0.9的隨機(jī)梯度下降法訓(xùn)練50個(gè)輪次。

1.4.3 模型評(píng)價(jià)指標(biāo)

本研究采用交并比（Intersection Over Union，IOU）、精確率（Precision）、召回率（Recall）、F1值（F1-score）作為模型評(píng)價(jià)指標(biāo)。

交并比為預(yù)測(cè)區(qū)域和真實(shí)區(qū)域重疊部分與集合部分的比值。精確率與召回率的計(jì)算公式如下：

精確率表示預(yù)測(cè)正確的正樣本數(shù)量與全部預(yù)測(cè)為正樣本的樣本數(shù)量之比，即“查準(zhǔn)率”。召回率表示預(yù)測(cè)正確的正樣本數(shù)量與真實(shí)正樣本數(shù)量之比，即“查全率”。F1值（F1-score）是調(diào)和平均值，綜合考慮了精確率與召回率，計(jì)算公式為

2 結(jié)果與分析

2.1 遷移學(xué)習(xí)訓(xùn)練對(duì)模型性能的影響

訓(xùn)練過(guò)程中使用預(yù)訓(xùn)練權(quán)重，模型中VGG-16的預(yù)訓(xùn)練權(quán)重來(lái)自VOC拓展數(shù)據(jù)集，Transformer層的預(yù)訓(xùn)練權(quán)重來(lái)自ImageNet數(shù)據(jù)集。

本研究對(duì)比了不同訓(xùn)練方式對(duì)網(wǎng)絡(luò)模型分割效果的影響：①不使用預(yù)訓(xùn)練權(quán)重，直接對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練；②使用VGG-16預(yù)訓(xùn)練權(quán)重，凍結(jié)所有層；③使用Transformer預(yù)訓(xùn)練權(quán)重，凍結(jié)所有層；④使用VGG-16和Transformer預(yù)訓(xùn)練權(quán)重，凍結(jié)所有層；⑤使用VGG-16和Transformer預(yù)訓(xùn)練權(quán)重，凍結(jié)特定層。訓(xùn)練方式⑤凍結(jié)了Transformer編碼器所在層的參數(shù)，凍結(jié)層位置如圖 3的虛線框所示。最終得到的試驗(yàn)結(jié)果如表1所示。

表1 不同訓(xùn)練方式的試驗(yàn)結(jié)果

注：訓(xùn)練方式中的序號(hào)①～⑤分別為：未使用遷移學(xué)習(xí)的訓(xùn)練方式、僅使用VGG-16權(quán)重遷移訓(xùn)練的方式、僅使用Transformer權(quán)重遷移訓(xùn)練的方式、使用VGG-16和Transformer權(quán)重遷移訓(xùn)練的方式、使用VGG-16和Transformer權(quán)重并凍結(jié)特定層遷移訓(xùn)練的方式；IOU表示交并比，Precision表示精確率，Recall表示召回率，F(xiàn)1-score表示F1值。

Note: The serial numbers ①-⑤ in the training methods are: the training method without transfer learning, the method using only VGG-16 weight transfer training, the method using only Transformer weight transfer training, the method using VGG-16 and Transformer weight transfer training, the method using VGG-16 and Transformer weights and freezing specific layer transfer training; IOU represents intersection-union ratio, Precision represents precision, Recall represents recall, and F1-score represents F1 value.

在相同的訓(xùn)練環(huán)境下，同時(shí)使用VGG-16和Transformer的預(yù)訓(xùn)練權(quán)重比使用單個(gè)預(yù)訓(xùn)練權(quán)重效果更優(yōu)，說(shuō)明多權(quán)重同時(shí)遷移訓(xùn)練的方式更適合TMU-Net網(wǎng)絡(luò)模型。在訓(xùn)練過(guò)程中，訓(xùn)練方式⑤與未使用遷移學(xué)習(xí)的訓(xùn)練方式①相比，IOU、精確率、召回率、F1值分別提升了18.09、27.62、20.86、22.48個(gè)百分點(diǎn)；與凍結(jié)網(wǎng)絡(luò)所有層參數(shù)的訓(xùn)練方式④相比，IOU、精確率、召回率、F1值分別提升了1.30、6.10、11.89、4.97個(gè)百分點(diǎn)。因此，使用遷移學(xué)習(xí)并選擇凍結(jié)合適的網(wǎng)絡(luò)層進(jìn)行訓(xùn)練可以有效提升模型的檢測(cè)性能。

2.2 數(shù)據(jù)增強(qiáng)對(duì)模型性能的影響

為了保證試驗(yàn)設(shè)置的合理性，在其他參數(shù)相同的條件下，分別使用擴(kuò)充前后的數(shù)據(jù)集對(duì)TMU-Net網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，試驗(yàn)結(jié)果如表2所示。

由表2可知，相比于原始數(shù)據(jù)集，使用擴(kuò)增數(shù)據(jù)集訓(xùn)練，TMU-Net網(wǎng)絡(luò)模型的IOU、精確率、召回率、F1值分別提高27.28、36.62、29.81、32.06個(gè)百分點(diǎn)。說(shuō)明使用擴(kuò)增數(shù)據(jù)集訓(xùn)練效果更好。

表2 不同大小數(shù)據(jù)集的試驗(yàn)結(jié)果

2.3 MRDC模塊對(duì)模型性能的影響

在其他參數(shù)相同的條件下，本研究對(duì)使用MRDC模塊前后的模型進(jìn)行訓(xùn)練，并在測(cè)試集上進(jìn)行驗(yàn)證，試驗(yàn)結(jié)果如表3所示。相比于未使用MRDC模塊，優(yōu)化的TMU-Net模型分割的IOU、精確率、召回率、F1值分別提高了1.59、6.49、11.87、4.65個(gè)百分點(diǎn)，說(shuō)明MRDC模塊有效地提升了網(wǎng)絡(luò)模型的性能。

表3 使用MRDC模塊前后的試驗(yàn)結(jié)果

為了更直觀、清楚地看到MRDC模塊在蘋果橫切面不同區(qū)域特征提取的效果，本文將U-Net與TMU-Net中每一層跳躍連接的輸出特征進(jìn)行熱力圖可視化，熱力圖中高溫區(qū)域（紅色區(qū)域）顏色越深，表明網(wǎng)絡(luò)對(duì)該區(qū)域的關(guān)注度越高，提取到的特征越多，如圖6所示。

圖6 不同跳躍連接輸出特征可視化圖

通過(guò)熱力圖縱向比較可知，第4層跳躍連接中使用MRDC模塊的TMU-Net提取的特征能夠較為準(zhǔn)確的覆蓋果心區(qū)域，對(duì)圖像中的其他區(qū)域也有一定的識(shí)別能力。在TMU-Net模型的第3層和第2層跳躍連接中，未使用MRDC模塊的TMU-Net提取的果心特征輪廓較為模糊，果心區(qū)域存在部分損失，而使用MRDC模塊的TMU-Net對(duì)果心邊緣的提取更加精細(xì)，并且網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)時(shí)對(duì)果心區(qū)域的關(guān)注度更高。

2.4 TMU-Net網(wǎng)絡(luò)模型改進(jìn)效果

U-Net、PSPNe和DeeplabV3+作為語(yǔ)義分割中的經(jīng)典模型，具有檢測(cè)準(zhǔn)確度高、模型創(chuàng)新性強(qiáng)的特點(diǎn)。因此，在果心分割效果試驗(yàn)中，選取U-Net模型、PSPNet模型、DeeplabV3+模型與TMU-Net模型進(jìn)行分割效果對(duì)比。不同網(wǎng)絡(luò)模型的蘋果果心分割效果如圖7所示，真實(shí)標(biāo)簽為自人工標(biāo)注的果心邊界標(biāo)簽。通過(guò)橫向?qū)Ρ瓤芍瑢?duì)于形狀較均勻的蘋果果心，如樣本1，TMU-Net模型可以較為準(zhǔn)確和全面地分割果心，DeeplabV3+模型所分割的果心各角會(huì)有細(xì)微的錯(cuò)誤分割現(xiàn)象，而PSPNet模型分割出的果心各角連接處有明顯的錯(cuò)誤分割現(xiàn)象；樣本2的果心較細(xì)，需要處理的細(xì)節(jié)較多，與其他模型相比，TMU-Net網(wǎng)絡(luò)對(duì)細(xì)節(jié)的分割效果最佳，PSPNet與U-Net網(wǎng)絡(luò)模型，在果心各角連接處分割錯(cuò)誤面積較多，嚴(yán)重影響結(jié)果；雖然樣本3的原始圖像較為模糊，但TMU-Net的分割結(jié)果最接近真實(shí)標(biāo)簽，其余網(wǎng)絡(luò)分割的錯(cuò)誤區(qū)域過(guò)多，難以精確識(shí)別果心的邊緣輪廓，進(jìn)一步表明本研究做出的改進(jìn)是有效的。

通過(guò)縱向?qū)Ρ瓤芍琓MU-Net對(duì)精細(xì)的尖銳邊角及連接處的分割效果優(yōu)于圓滑的邊沿；DeeplabV3+模型對(duì)原始圖片的質(zhì)量要求較高，對(duì)于低清晰度圖片，該模型只能分出大致形狀，難以應(yīng)用在實(shí)際任務(wù)中；PSPNet與U-Net網(wǎng)絡(luò)模型，在本次果心分割任務(wù)中，只能分割出果心的大致范圍。說(shuō)明以上兩個(gè)模型對(duì)果心的特征利用不夠，信息丟失的情況嚴(yán)重，不適合做果心類的小目標(biāo)精細(xì)分割任務(wù)。

注：分割結(jié)果中，藍(lán)色部分代表正確分割的區(qū)域，綠色部分代表未分割到的區(qū)域，紅色部分代表誤分割的區(qū)域。

為了全面分析TMU-Net模型與U-Net模型、PSPNet模型、DeeplabV3+模型的分割性能差異，在其他參數(shù)相同的試驗(yàn)條件下，使用本研究構(gòu)建的果心數(shù)據(jù)集訓(xùn)練50個(gè)輪次，各模型訓(xùn)練精度損失（Loss）和交并比（IOU）變化曲線如圖8和圖9。

如圖8所示，在訓(xùn)練初期網(wǎng)絡(luò)的損失值快速下降，隨著迭代次數(shù)的增加，在模型迭代至4 000次時(shí)，各模型的損失值逐漸趨于平緩，最終模型達(dá)到收斂。相較與其他模型，TMU-Net網(wǎng)絡(luò)模型在迭代至2 000次時(shí)，損失函數(shù)基本保持不變，說(shuō)明此時(shí)模型已經(jīng)收斂，該模型的收斂速度最快。當(dāng)達(dá)到穩(wěn)定后，TMU-Net網(wǎng)絡(luò)損失曲線始終處于最下方且波動(dòng)幅度更小，表明模型達(dá)到預(yù)期訓(xùn)練效果。

如圖9所示，當(dāng)訓(xùn)練前5個(gè)輪次時(shí)，各網(wǎng)絡(luò)模型的IOU隨著輪次的增加而快速增長(zhǎng)，在此過(guò)程中，PSPNet網(wǎng)絡(luò)模型的IOU曲線在最低處。當(dāng)各網(wǎng)絡(luò)模型的IOU值出現(xiàn)拐點(diǎn)后，訓(xùn)練輪次的增加對(duì)U-Net網(wǎng)絡(luò)模型、DeeplabV3+網(wǎng)絡(luò)模型和TMU-Net網(wǎng)絡(luò)模型的IOU值的提升影響不大，但PSPNet網(wǎng)絡(luò)模型的IOU值在緩慢提升，在此過(guò)程中，U-Net模型的IOU值逐漸轉(zhuǎn)變?yōu)檩^低水平。通過(guò)對(duì)比發(fā)現(xiàn)，相較與其他模型，TMU-Net模型的IOU曲線一直處于最上方，IOU值最終穩(wěn)定在90.48%，說(shuō)明在訓(xùn)練初期便達(dá)到了較好的性能。

圖8 損失值隨迭代次數(shù)變化曲線

圖9 IOU值隨訓(xùn)練輪次變化曲線

將訓(xùn)練好的不同網(wǎng)絡(luò)模型在果心測(cè)試集圖像上進(jìn)行模型測(cè)試，以IOU、Precision、Recall、F1-score為評(píng)價(jià)依據(jù)，試驗(yàn)結(jié)果如表4所示。

表4 不同網(wǎng)絡(luò)模型對(duì)果芯分割效果的精度評(píng)價(jià)

由表4可知，與U-Net模型相比，TMU-Net模型在果心分割任務(wù)中性能有大幅提升，其中IOU值、精確率、F1值分別提升了13.68、14.28、11.94個(gè)百分點(diǎn)；與性能較好的DeeplabV3+網(wǎng)絡(luò)相比，IOU值、精確率、F1值分別提升了3.96、7.15、6.30個(gè)百分點(diǎn)；與PSPNet模型對(duì)比，精確率提升了9.98個(gè)百分點(diǎn)。在單張圖片的推理時(shí)間中，TMU-Net模型平均耗時(shí)為1.688 s。將現(xiàn)階段手工測(cè)量方法改為智能識(shí)別，在考量不同智能識(shí)別方法的性能時(shí)，檢測(cè)精度要求比檢測(cè)時(shí)間更關(guān)鍵，單個(gè)果心檢測(cè)時(shí)間在“秒”數(shù)量級(jí)都可滿足檢測(cè)要求，所以TMU-Net模型1.688 s的檢測(cè)時(shí)長(zhǎng)已滿足需求。

3 結(jié) 論

為滿足蘋果內(nèi)在品質(zhì)檢測(cè)中精準(zhǔn)定位果心的需求，本研究提出了一種針對(duì)小目標(biāo)精細(xì)分割的模型TMU-Net。該模型在U-Net網(wǎng)絡(luò)模型的基礎(chǔ)上以VGG-16前13層作為主干特征提取網(wǎng)絡(luò)，并將Transformer編碼器融入網(wǎng)絡(luò)結(jié)構(gòu)、在跳躍連接中疊加多重殘差空洞卷積（Multiple Residual Dilated Convolution，MRDC）模塊，構(gòu)建了TMU-Net網(wǎng)絡(luò)模型，該模型實(shí)現(xiàn)了蘋果果心的精準(zhǔn)分割，為蘋果內(nèi)在品質(zhì)自動(dòng)檢測(cè)提供了技術(shù)參考，主要結(jié)論如下：

1）VGG-16網(wǎng)絡(luò)的前13層和Transformer編碼器的引入，有效地提高了網(wǎng)絡(luò)的特征提取能力，與原始的U-Net網(wǎng)絡(luò)模型相比，交并比（Intersection Over Union，IOU）、精確率、F1值分別提升13.68、14.28、11.94個(gè)百分點(diǎn)，在一定程度上提高了模型分割的性能。

2）MRDC模塊可以使模型獲取豐富的底層信息，因此模型在果心的尖銳拐角及連接處，能夠?qū)崿F(xiàn)精準(zhǔn)分割，模型的分割精度高達(dá)96.72%，與未使用MRDC模塊的TMU-Net模型相比提升6.49個(gè)百分點(diǎn)，已滿足實(shí)際應(yīng)用水平。

3）通過(guò)數(shù)字圖像處理技術(shù)中的隨機(jī)平移、水平鏡像、垂直鏡像、高斯模糊等方法對(duì)原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)，構(gòu)建了適合網(wǎng)絡(luò)模型訓(xùn)練的果心數(shù)據(jù)集。從對(duì)比結(jié)果可以看出，數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集從能有效提升模型的各項(xiàng)性能， IOU、精確率、召回率、F1值分別提高27.28、36.62、29.81、32.06個(gè)百分點(diǎn)，因此，增強(qiáng)了網(wǎng)絡(luò)的泛化能力，避免網(wǎng)絡(luò)在訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合問(wèn)題的問(wèn)題。

4）采用雙權(quán)重遷移訓(xùn)練并部分凍結(jié)特征層的訓(xùn)練方式，與采用雙權(quán)重遷移訓(xùn)練并凍結(jié)所有層的訓(xùn)練方式相比，IOU、精確率、召回率、F1值分別提升了1.30、6.10、11.89、4.97個(gè)百分點(diǎn)。通過(guò)模型訓(xùn)練曲線可以看出，該訓(xùn)練方式還可以加快訓(xùn)練時(shí)的收斂速度。

[1] 中華人民共和國(guó)農(nóng)業(yè)部. NY/T2316—2013蘋果品質(zhì)指標(biāo)評(píng)價(jià)規(guī)范[S]. 北京：農(nóng)業(yè)部農(nóng)產(chǎn)品加工標(biāo)準(zhǔn)化技術(shù)委員會(huì)，2013.

[2] Hu Q, Jiang Y, Zhang J B, et al. Development of an automatic identification system autonomous positioning system[J]. Sensors, 2015, 15(11): 28574-28591.

[3] 劉浩，袁野，莊守望，等. 一種用于水果去核的視覺(jué)識(shí)別方法：CN106203527A[P]. 2016-07-18.

[4] 胡智元. 新型水果榨汁機(jī)定位關(guān)鍵技術(shù)研究[D]. 贛州：江西理工大學(xué)，2018.

Hu Zhiyuan. Research on Key Positioning Technology of New Fruit Juicer[D]. Ganzhou: Jiangxi University of Technology, 2018. (in Chinese with English abstract)

[5] 鐘昌源，胡澤林，李淼，等. 基于分組注意力模塊的實(shí)時(shí)農(nóng)作物病害葉片語(yǔ)義分割模型[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37(4)：208-215.

Zhong Changyuan, Hu Zelin, Li Miao, et al. Real-time crop disease leaf semantic segmentation model based on group attention module[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(4): 208-215. (in Chinese with English abstract)

[6] 孫志同，朱珊娜，高鄭杰，等. 基于波段增強(qiáng)的DeepLabv3+多光譜影像葡萄種植區(qū)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2022，38(7)：229-236.

Sun Zhitong, Zhu Shanna, Gao Zhengjie, et al. Grape planting area recognition based on band enhanced DeepLabv3+ multi-spectral image[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(7): 229-236. (in Chinese with English abstract)

[7] 楊蜀秦，王鵬飛，王帥，等. 基于多頭自注意力DeepLab v3+的無(wú)人機(jī)遙感影像小麥倒伏檢測(cè)[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào)(2022-06-23) [2022-07-23]http: //kns. cnki. net/kc ms/detail/11. 196 4. S. 2022, 06, 22. 1158. 012. html.

Yang Shuqin, Wang Pengfei, Wang Shuai, et al. Wheat lodging detection based on multi-head self-attention DeepLabv3+ UAV remote sensing image [J/OL]. Transactions of the Chinese Society for Agricultural Machinery (2022-06-23) [2022-07-23]http: //kns. cnki. net/kcms/detail/11. 1964. S. 2022, 06, 22. 1158. 012. html. (in Chinese with English abstract)

[8] Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European conference on computer vision (ECCV). Munich, Germany: 2018: 801-818.

[9] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Munich, Germany: Technical University Munich, 2015: 234-241.

[10] 饒秀勤，朱逸航，張延寧，等. 基于語(yǔ)義分割的作物壟間導(dǎo)航路徑識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37(20)：179-186.

Rao Xiuqin, Zhu Yihang, Zhang Yanning, et al. Navigation path recognition between crop ridges based on semantic segmentation[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(20): 179-186. (in Chinese with English abstract)

[11] 趙晉陵，詹媛媛，王娟，等. 基于SE-UNet的冬小麥種植區(qū)域提取方法[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào)(2022-07-12) [2022-07-23]http: //kns. cnki. net/kcms/detail/11. 1964. S. 20220711. 1350. 016. html.

Zhao Jinling, Zhan Yuanyuan, Wang Juan, et al. SE-UNet based extraction method for planting area of winter wheat[J/OL]. Transactions of the Chinese Society for Agricultural Machinery (2022-07-12) [2022-07-23]http: //kns. cnki. net/kcms/detail/11. 1964. S. 20220711. 1350. 016. html. (in Chinese with English abstract)

[12] Ge R, Cai H, Yuan X, et al. MD-UNET: Multii-nput dilated U-shape neural network for segment-ation of bladder cancer[J]. Computational Biology and Chemistry, 2021, 93: 107510-107510.

[13] Maji D, Sigedar P, Singh M. Attention Res-UNet with Guided Decoder for semantic segmentation of brain tumors[J]. Biomedical Signal Processing and Control, 2022, 71: 103077.

[14] Song Z, Zhang Z, Yang S, et al. Identifying sunflower lodging based on image fusion and deep semantic segmentation with UAV remote sensing imaging[J]. Computers and Electronics in Agriculture, 2020, 179: 105812.

[15] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30.

[16] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C]//International Conference on Learning Representations (ICLR). Online: Yoshua Bengio, Yann LeCun, 2020.

[17] Zheng S, Lu J, Zhao H, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Online: IEEE, 2021: 6881-6890.

[18] 賈偉寬，孟虎，馬曉慧，等. 基于優(yōu)化Transformer網(wǎng)絡(luò)的綠色目標(biāo)果實(shí)高效檢測(cè)模型[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37(14)：163-170.

Jia Weikuan, Meng Hu, Ma Xiaohui, et al. Efficient detection model of green target fruit based on optimized Transformer network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(14): 163-170. (in Chinese with English abstract)

[19] 張飛宇，王美麗，王正超. 引入Transformer和尺度融合的動(dòng)物骨骼關(guān)鍵點(diǎn)檢測(cè)模型構(gòu)建[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37(23)：179-185.

Zhang Feiyu, Wang Meili, Wang Zhengchao. Construction of the animal skeletons keypoint detection model based on transformer and scale fusion[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(23): 179-185. (in Chinese with English abstract)

[20] 安小松，宋竹平，梁千月，等. 基于CNN-Transformer的視覺(jué)缺陷柑橘分選方法[J/OL]. 華中農(nóng)業(yè)大學(xué)學(xué)報(bào)（自然科學(xué)版），2022，41(4):158-169

An Xiaosong, Song Zhuping, Liang Qianyue, et al. Citrus sorting method for visual defects based on CNN transformer[J]. Journal of Huazhong Agricultural University (Natural SScience Edition), 2022, 41(4): 158-169. (in Chinese with English abstract)

[21] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[C]//International Conference on Learning Representations (ICLR). San Diego, CA, USA: Yoshua Bengio, Yann LeCun, 2015.

[22] Park P S, Kshirsagar A M. Correlation between successive values of Anderson's classification statistic in the hold-out method[J]. Statistics & Probability Letters, 1996, 27(3): 259-265.

[23] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]// International Conference on Medical Image Computing and Computer-assisted Intervention. Munich, Germany: Technical University Munich, 2015: 234-241.

[24] Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[C]//International Conference on Learning Representations (ICLR). San Juan, Puerto Rico: Yoshua Bengio, Yann LeCun,2016

[25] Wang P, Chen P, Yuan Y, et al. Understanding convolution for semantic segmentation[C]//2018 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Tahoe, Nevada, USA: IEEE, 2018: 1451-1460.

[26] Milletari F, Navab N, Ahmadi S A. V-net: Fully convolutional neural networks for volumetric medical image segmentation[C]//2016 Fourth International Conference on 3D Vision (3DV). Stanford, CA, USA: IEEE, 2016: 565-571.

Apple core segmentation method based on TMU-Net network

Liu Changyong1, Li Sijia3, Shi Hui2, Zha Zhihua2, Deng Hongtao2※

(1.,832000,; 2.,,832000,; 3.,-,510275,)

Apple quality has been ever increasingly required with the improvement of living standards in recent years. The core ratio is one of the most significant factors to determine the quality of apples. But, the manual measurement on the fruit core cannot fully meet the current detection requirements, in terms of cost and accuracy at present. In this study, an automatic segmentation was proposed for the fruit core using a TMU-Net network model. Firstly, three common types of apples were selected in the Xinjiang of China. An acquisition device was then used to capture the 311 cross-sectional images of the fruit core. Secondly, the preprocessing operations were also conducted to enhance the original images, including translation, vertical mirroring, horizontal mirroring, and adding Gaussian noise. Better training was achieved in the expanded dataset, compared with the original. Specifically, the Intersection Over Union (IOU), Precision, Recall, and F1-score of the TMU-Net network increased by 27.28, 36.62, 29.81, and 32.06 percentage points, respectively. It infers that the data enhancement improved the robustness and generalization of the model after training. The Multiple Residual Dilated Convolution (MRDC) module was also constructed with the Cavity convolution in the different void ratios and shortcut connections. Shortcut connections are skipping one layers, they simply perform identity mapping. As such, the information loss was reduced in the jump connection part of the model. There was also less semantic difference between the encoder and the decoder. The MRDC module was finally used to verify the TMU-Net jump connection. The results showed that: 1) The MRDC module was introduced to effectively improve the segmentation performance of the model, in which the IOU, Precision, and F1-score were improved by 1.59, 6.49, and 4.65 percentage points, respectively. 2) The first 13 layers of VGG-16 network were used as the backbone to capture the low-level features. The Transformer encoder was integrated into the network structure to enhance the global extraction of the network, particularly for the locality of convolution operations. The segmentation shows that the TMU-Net network was much more precise to process the sharp corner and edge details of the fruit center, indicating the feasibility of the model in the segmentation task of the fruit center. 3) The TMU-Net model was trained under a variety of transfer learning. Therefore, freezing the training of specific network layers can be expected to effectively improve the indicators of the model. The training curve of the model showed that the training was used to accelerate the convergence speed. Subsequently, the TMU-Net, DeeplabV3+, U-Net, and PSPNet models were trained to verify the test set under the same experimental parameters. The IOU, Precision, Recall, and F1-score of the TMU-Net model increased by 3.96, 7.15, 9.49, and 6.30 percentage points, respectively, compared with the DeeplabV3+ model with better effect. Therefore, this TMU-Net model can be expected to accurately and effectively realize the fruit core segmentation. The finding can also provide a strong reference for the intelligent detection of apple quality.

models; image segmentation; core segmentation; TMU-Net network; MRDC; Transformer;transfer learning

10.11975/j.issn.1002-6819.2022.16.033

TP391.4；S126

1002-6819(2022)-16-0304-09

劉長(zhǎng)勇，李思佳，史慧，等. 基于TMU-Net網(wǎng)絡(luò)的蘋果果心分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2022，38(16)：304-312.doi：10.11975/j.issn.1002-6819.2022.16.033 http://www.tcsae.org

Liu Changyong, Li Sijia, Shi Hui, et al. Apple core segmentation method based on TMU-Net network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(16): 304-312. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2022.16.033 http://www.tcsae.org

2022-04-29

2022-08-12

國(guó)家自然科學(xué)基金（31860466）；蘋果內(nèi)在品質(zhì)指標(biāo)評(píng)價(jià)技術(shù)研究（KH011402）

劉長(zhǎng)勇，高級(jí)實(shí)驗(yàn)師，研究方向?yàn)槭称焚|(zhì)量安全。Email：lw01_inf@shzu.edu.cn

鄧紅濤，副教授，研究方向?yàn)槿斯ぶ悄?。Email：denghtshzu@163.com

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于TMU-Net網(wǎng)絡(luò)的蘋果果心分割方法

0 引 言

1 材料與方法

1.1 數(shù)據(jù)采集與數(shù)據(jù)集制作

1.2 改進(jìn)U型卷積網(wǎng)絡(luò)TMU-Net

1.3 遷移學(xué)習(xí)

1.4 試驗(yàn)設(shè)計(jì)

2 結(jié)果與分析

2.1 遷移學(xué)習(xí)訓(xùn)練對(duì)模型性能的影響

2.2 數(shù)據(jù)增強(qiáng)對(duì)模型性能的影響

2.3 MRDC模塊對(duì)模型性能的影響

2.4 TMU-Net網(wǎng)絡(luò)模型改進(jìn)效果

3 結(jié) 論

0 引言