王小榮,許 燕,周建平,陳金榮
·農(nóng)業(yè)信息與電氣技術(shù)·
基于改進(jìn)YOLOv7的復(fù)雜環(huán)境下紅花采摘識別
王小榮1,2,許 燕1,2,周建平1,2※,陳金榮1
(1. 新疆大學(xué)機(jī)械工程學(xué)院,烏魯木齊 830017;2. 新疆維吾爾自治區(qū)農(nóng)牧機(jī)器人及智能裝備工程研究中心,烏魯木齊 830017)
針對光照、遮擋、密集以及樣本數(shù)量不均衡等復(fù)雜環(huán)境造成紅花機(jī)械化采摘識別不準(zhǔn)問題,該研究提出一種基于YOLOv7的改進(jìn)模型,制作紅花樣本數(shù)據(jù)集建立真實(shí)采摘的復(fù)雜環(huán)境數(shù)據(jù),增加Swin Transformer注意力機(jī)制提高模型對各分類樣本的檢測精準(zhǔn)率,改進(jìn)Focal Loss損失函數(shù)提升多分類任務(wù)下不均衡樣本的識別率。經(jīng)試驗(yàn),改進(jìn)后的模型各類別樣本的檢測平均準(zhǔn)確率達(dá)到88.5%,與改進(jìn)前相比提高了7個百分點(diǎn),不均衡類別樣本平均精度提高了15.9個百分點(diǎn),與其他模型相比,檢測平均準(zhǔn)確率與檢測速度均大幅提升。改進(jìn)后的模型可以準(zhǔn)確地實(shí)現(xiàn)對紅花的檢測,模型參數(shù)量小,識別速度快,適合在紅花采摘機(jī)械上進(jìn)行遷移部署,可為紅花機(jī)械化實(shí)時采摘研究提供技術(shù)支持。
圖像識別;圖像處理;復(fù)雜環(huán)境;YOLOv7;注意力機(jī)制;多分類Focal Loss損失函數(shù);紅花采摘
紅花花絲是一種具有醫(yī)療、染料等多種用途的經(jīng)濟(jì)作物[1]。隨著其功效在醫(yī)藥保健、農(nóng)副產(chǎn)品、化妝品等行業(yè)的不斷研發(fā),其需求量正在穩(wěn)步上漲。目前紅花花絲的采摘仍以人工采摘為主[2],紅花花期短,時效性要求高,勞動強(qiáng)度大,且作業(yè)環(huán)境差,受天氣影響嚴(yán)重。為提高紅花采收效率,降低勞動成本,機(jī)械化采收成為紅花產(chǎn)業(yè)化種植發(fā)展的必然趨勢。
針對紅花機(jī)械化采收研究,國內(nèi)外學(xué)者進(jìn)行了初步探索。圍繞采收設(shè)備的研究,BERTETTO等[3]設(shè)計(jì)制作背負(fù)式便攜采收設(shè)備進(jìn)行紅花采收,但仍需要勞動者長時間背負(fù)設(shè)備工作,沒有真正意義代替人工;針對末端采摘執(zhí)行機(jī)構(gòu)的研究,國內(nèi)多位學(xué)者進(jìn)行了結(jié)構(gòu)設(shè)計(jì),主要包括氣力式[4]、對輥式[5]、梳夾式[6]、旋切式[7]以及拉拔式[8];關(guān)于采收機(jī)械路徑規(guī)劃研究,GUO等[9]通過運(yùn)動學(xué)分析、采摘試驗(yàn)探索并聯(lián)機(jī)器人在紅花采摘中的可行性,ZHANG等[10]通過改進(jìn)蟻群算法探索雙輥型紅花采摘機(jī)器人路徑規(guī)劃方法。以上關(guān)于紅花采收的研究均是在實(shí)驗(yàn)室理想條件下開展,在實(shí)際農(nóng)田中的應(yīng)用研究尚存在很大空間,因此紅花機(jī)械化采收研究處于起步階段。
在采摘過程中,光照、遮擋等自然環(huán)境與紅花目標(biāo)小而密、成熟度不同等作物特性構(gòu)成了復(fù)雜環(huán)境因素,導(dǎo)致紅花機(jī)械采摘過程難以準(zhǔn)確識別精準(zhǔn)定位。近年來,隨著深度卷積網(wǎng)絡(luò)目標(biāo)檢測技術(shù)的發(fā)展以及Fast R-CNN[11]、YOLO系列[12-14]等經(jīng)典目標(biāo)檢測算法不斷開源,基于深度學(xué)習(xí)算法的采摘機(jī)器人被廣泛地應(yīng)用在蘋果、番茄、柑橘等[15-17]果蔬采摘中。JIA等[18-19]學(xué)者通過改進(jìn)Mask RCNN算法可以提高在樹葉遮擋等復(fù)雜環(huán)境下模型的蘋果識別的準(zhǔn)確度和識別精度,但是Mask RCNN作為兩階段檢測方法,其識別速度和效率較低;ZHANG等[20-21]學(xué)者采用Fast R-CNN模型算法分別對蘋果和藍(lán)莓進(jìn)行識別,識別準(zhǔn)確率和效率明顯提高,針對復(fù)雜環(huán)境下小目標(biāo)的檢測效果也有所改善,但是Fast R-CNN算法需要采集大量的數(shù)據(jù)用作模型訓(xùn)練,對于少樣本或樣本不均衡情況下目標(biāo)檢測效果有待加強(qiáng)。近年來,YOLO算法作為單階段檢測方法,具有速度快效率高等特點(diǎn),在實(shí)際場景目標(biāo)檢測中應(yīng)用廣泛。李天華等[22-24]學(xué)者在YOLOv4基礎(chǔ)上對模型進(jìn)行了改進(jìn),并對復(fù)雜環(huán)境下的番茄進(jìn)行實(shí)時識別,能夠有效解決遮擋、粘連、或光照影響下目標(biāo)識別準(zhǔn)確率低的問題。因采茶與紅花采收有相似性,以上研究為紅花的采摘檢測與識別提供借鑒。CHEN等[25]提出了一種基于YOLOv3的茶蕾識別與采摘點(diǎn)提取的方法,該方法將深度學(xué)習(xí)與傳統(tǒng)的圖像處理算法相結(jié)合,驗(yàn)證了在遮擋光照等自然環(huán)境下茶蕾識別與采摘點(diǎn)定位的可行性,提高了茶蕾采摘的完整率,但是該算法識別的準(zhǔn)確率有待加強(qiáng)。CAO等[26]提出了一種集成YOLOv5和GhostNet的茶芽檢測模型,該模型的精度、召回率均有所提高,但在自然環(huán)境下因受樣本數(shù)量、拍攝角度和照明角度的影響,該算法F1得分值沒有試驗(yàn)效果明顯。
基于此,本文建立復(fù)雜環(huán)境下紅花數(shù)據(jù)集,選用YOLOv7檢測網(wǎng)絡(luò)模型,針對數(shù)據(jù)樣本存在的問題進(jìn)行算法模型改進(jìn)與優(yōu)化,為紅花機(jī)械化采摘提供研究基礎(chǔ)。
新疆地區(qū)紅花種植面積占國內(nèi)紅花種植面積的80%以上,本文以新疆吉木薩爾縣種植紅花為研究對象。為滿足復(fù)雜環(huán)境下紅花識別的多樣性以及種植場景真實(shí)性,采用不同時間段不同角度拍攝,收集到不同成熟度、不同光照、不同遮擋程度以及不同姿態(tài)的紅花圖片約1 596張,經(jīng)過篩選后的圖片1 500張,從中隨機(jī)抽取1 200張作為訓(xùn)練集,150張作為驗(yàn)證集,150張作為測試集。圖1分別為復(fù)雜環(huán)境下不同光照、遮擋以及成熟度的紅花樣本數(shù)據(jù)。光照、遮擋等因素容易造成模型對紅花絲的特征提取不準(zhǔn)確,從而導(dǎo)致錯檢漏檢,影響網(wǎng)絡(luò)模型的性能。不同成熟度的紅花,因含水量不同,采摘決策不同,因此需對3種不同類別的紅花目標(biāo)進(jìn)行識別與定位。
a. 順光的紅花a. Safflower with front light b. 逆光的紅花b. Safflower with back lightc. 光線遮擋的紅花c. Safflower with no light d. 枝葉遮擋的紅花d. Safflower with shaded branches e.雜草遮擋的紅花e. Safflower with shaded weeds f. 異物遮擋的紅花f. Safflower with shaded others g. 未開花的球果 g. Unflowering bulb h. 成熟的紅花絲h. Mature safflower silki. 衰敗的紅花絲i. Decaying safflower silk
根據(jù)采收決策,本文按照成熟的紅花絲(silk)、未開花的球果(bulb)、衰敗的紅花絲(decay)對樣本進(jìn)行分類,利用Labelme圖像標(biāo)注軟件對數(shù)據(jù)集進(jìn)行人工標(biāo)注并對訓(xùn)練集的標(biāo)注文件進(jìn)行可視化分析,如圖2所示。
從圖2a可以看出,在復(fù)雜場景下silk、bulb和decay三種樣本數(shù)量比例約為5∶9∶1,樣本的數(shù)量是不均衡的,容易導(dǎo)致在模型訓(xùn)練過程中decay樣本的準(zhǔn)確率較低。對圖 2b中標(biāo)簽尺寸相對樣本尺寸而言,標(biāo)簽的寬和高大多為樣本尺寸的0.02~0.15倍,小目標(biāo)偏多,易導(dǎo)致模型準(zhǔn)確率不高。以上2種情況是由于紅花的種植模式、生長特性以及采摘視野等多重因素造成,均會影響模型的檢測效果。
圖2 訓(xùn)練集標(biāo)簽分布情況
針對以上問題,本文在YOLOv7網(wǎng)絡(luò)模型的第50層特征提取層增加Swin Transformer注意力機(jī)制,以提高模型骨干網(wǎng)絡(luò)對小目標(biāo)特征的提取能力;改進(jìn)適用于多分類的Focal Loss損失函數(shù),應(yīng)用于目標(biāo)置信度損失和分類損失,以提高網(wǎng)絡(luò)模型反向傳播時對不均衡樣本的關(guān)注程度,最終設(shè)計(jì)符合復(fù)雜環(huán)境下紅花檢測網(wǎng)絡(luò)模型以滿足實(shí)時準(zhǔn)確的檢測需求。
YOLO作為單階段目標(biāo)檢測典型算法,因較快的運(yùn)行速度被廣泛應(yīng)用于實(shí)時檢測,而YOLOv7在MSCOCO數(shù)據(jù)集上的檢測效果顯示,其準(zhǔn)確率和速度超越其他YOLO系列模型,因此本文選擇YOLOv7作為紅花目標(biāo)檢測的算法模型。
YOLOv7網(wǎng)絡(luò)結(jié)構(gòu)[27]主要包括Input層、Backbone層和Head層。Input層為輸入層,主要作用是對輸入的圖片進(jìn)行預(yù)處理后輸入到Backbone層;Backbone層又被稱作特征提取層,主要功能是提取不同大小的目標(biāo)信息特征,由51層(Layer0~50)不同的卷積組合模塊構(gòu)成,其最大特點(diǎn)是采用了高效的E-ELAN網(wǎng)絡(luò)架構(gòu),可以提高算法的檢測效率,Backbone層的輸出為不同大小的特征信息,位置分別位于第24層、第37層以及第50層;Head層主要是融合Backbone層給出的特征生成邊界框并預(yù)測類別,主要包括SPPCPC層、若干Conv層、MPConv層以及REP層,Head層在第75層、第88層以及第101層輸出不同大小的特征圖,經(jīng)過重參數(shù)化結(jié)構(gòu)REP層輸出預(yù)測結(jié)果。
2.2.1 Swin Transformer注意力機(jī)制
注意力機(jī)制是一組通過網(wǎng)絡(luò)自主學(xué)習(xí)得出權(quán)重系數(shù),并以“動態(tài)加權(quán)”的方式來強(qiáng)調(diào)感興趣的區(qū)域,抑制不相關(guān)背景區(qū)域的機(jī)制。目前主流的注意力機(jī)制可以分為通道注意力機(jī)制、空間注意力機(jī)制混合注意力機(jī)制以及自注意力機(jī)制。通道注意力機(jī)制通過對每個特征圖做全局池化獲取每個通道的重要程度,得到權(quán)重系數(shù)并以此來提升特征或抑制不重要的特征,該權(quán)重系數(shù)具有全局感受野,對本文復(fù)雜環(huán)境下紅花的小目標(biāo)檢測問題效果不佳。空間注意力機(jī)制僅關(guān)心與任務(wù)相關(guān)的區(qū)域,當(dāng)目標(biāo)區(qū)域被遮擋或受光照干涉時會影響注意力機(jī)制的判斷?;旌献⒁饬C(jī)制是由通道注意力及空間注意力串聯(lián)或并聯(lián)而成,因存在全局池化及平均池化操作,因此對復(fù)雜環(huán)境下紅花目標(biāo)的檢測仍存在問題。自注意力機(jī)制與前三者不同,是對輸入的特征進(jìn)行一系列的復(fù)雜矩陣運(yùn)算得到特征之間的相關(guān)權(quán)重,找到特征之間的關(guān)系,自注意力機(jī)制不依賴于卷積網(wǎng)絡(luò),更加關(guān)注每個像素特征之間的關(guān)系,適合小目標(biāo)的識別,因此本文在YOLOv7網(wǎng)絡(luò)增加Swin Transformer自注意力機(jī)制。
在進(jìn)行自注意力機(jī)制訓(xùn)練時,如果以特征序列為計(jì)算單位在圖像全局進(jìn)行矩陣計(jì)算,計(jì)算量大且訓(xùn)練速度慢。Swin Transformer[28]是一種以窗口和分層的形式代替長序列的自注意力機(jī)制,可以在提升檢測性能的同時降低對運(yùn)行速度的影響。Swin Transformer注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)如圖 3a所示,首先輸入一張3通道的特征圖像,經(jīng)過Patch Partition切分模塊將圖像切割,將切割的圖像送入Lineat Embedding層,得到嵌入向量。然后分4個階段(Stage1~Stage4)逐步下采樣分層計(jì)算注意力。Swin Transformer Block是注意力機(jī)制計(jì)算的核心模塊,是由基于窗口的多頭注意力(W-MSA)計(jì)算與基于滑動窗口的多頭注意力(SW-MSA)計(jì)算串聯(lián)而成?;瑒哟翱谠砣鐖D3b所示,首先基于窗口多頭注意力將特征圖像劃分為 A、B、C、D 4個窗口,為得到4個窗口的內(nèi)部聯(lián)系,再利用滑動窗口將圖像特征劃分為編號為1~9的9個窗口,此時9窗口的計(jì)算量比4窗口多了2.25倍,為并行計(jì)算MSA,必須保證二者之間窗口數(shù)一致,因此采取向上、向左平移的策略將9個窗口重新組合成與ABCD同等大小的4個窗口,最后進(jìn)行MSA計(jì)算,輸出特征圖。在YOLOv7中利用GradCAM可視化熱力圖對增加Swin Transformer注意力機(jī)制前后紅花數(shù)據(jù)的特征進(jìn)行可視化,如圖3a所示,模型輸入的原圖經(jīng)過前期特征提取,在第37層網(wǎng)絡(luò)中獲得的特征圖為輸入特征圖,經(jīng)過Swin Transformer 注意力機(jī)制后輸出特征圖,可以看出,增加Swin Transformer注意力機(jī)制后,網(wǎng)絡(luò)更加專注于對紅花絲的識別,即使是處于圖片邊緣葉片遮擋下的紅花絲小目標(biāo)也可以識別出來。
圖3 Swin Transformer 注意力機(jī)制網(wǎng)絡(luò)架構(gòu)及原理
2.2.2 多分類任務(wù)Focal Loss損失函數(shù)
YOLOv7的損失函數(shù)L用于更新梯度的損失,由坐標(biāo)損失ciou、目標(biāo)置信度損失obj和分類損失cls三部分求和而成。如式(1)所示。
loss=ciou+obj+cls(1)
其中目標(biāo)置信度損失和分類損失采用帶對數(shù)的二值交叉熵?fù)p失。為了解決樣本不均衡問題,LIN等[29]首先改善了分類過程中的交叉熵函數(shù),提出了針對二分類可以動態(tài)調(diào)整權(quán)重的Focal Loss。針對本文紅花圖像數(shù)據(jù),分為silk、bulb和decay 3種分類樣本,因此本文基于Focal Loss對多分類動態(tài)調(diào)整權(quán)重的損失函數(shù)進(jìn)行了推導(dǎo)。
樣本的標(biāo)簽為Onehot形式,與二分類不同的是多分類任務(wù)是以Softmax作為最后激活函數(shù)。例如silk、bulb、decay 3類標(biāo)簽分別為1(1,0,0),2(0,1,0),3(0,0,1),Softmax輸出為(1,2,3),1、2、3分別對應(yīng)3種類別的概率,1、2、3的和為1。以Sofmax作為激活函數(shù)的多分類任務(wù)損失函數(shù)(multi-classification focal loss,簡寫為MCFL)計(jì)算式推導(dǎo)過程如下:
MCFLylgP(2)
MCFLα(1-P)ylgP(4)
MCFL-α(1-P)ylgP(5)
式(2)為多類交叉熵?fù)p失,為降低易分類樣本的比例,式(3)函數(shù)中增加(1-P)做衰減;為調(diào)節(jié)正負(fù)樣本比例式(4)用α來調(diào)整該樣本的權(quán)重。因標(biāo)簽是Onehot形式,樣本標(biāo)簽中的值只有在對應(yīng)位置上為1,其余都為0,最終得到多分類以Sofmax作為激活函數(shù)的動態(tài)調(diào)整權(quán)重?fù)p失函數(shù)(式(5)),其中為衰減參數(shù),可以通過試驗(yàn)對比獲得最佳取值,α為該類別樣本的權(quán)重參數(shù),與α是相互作用的,并且起的作用比α大。
2.3.1 環(huán)境配置
試驗(yàn)運(yùn)行環(huán)境操作系統(tǒng)為Windows 10(64位),內(nèi)存為16 GB,顯卡驅(qū)動RTX3060,搭載12th Gen Intel(R) Core(TM) i5-12400F 2.50 GHz處理器,編程平臺Anaconda 4.12.0,CUDA 11.6,開發(fā)環(huán)境PyTorch,編程使用Python 3.8。
2.3.2 超參數(shù)設(shè)置
訓(xùn)練時選用官方提供的YOLOv7.pt預(yù)訓(xùn)練權(quán)重進(jìn)行訓(xùn)練,數(shù)據(jù)集選用自己建立的紅花數(shù)據(jù)集,標(biāo)簽格式為YOLO格式,輸入圖像大小為640×640,Batchsize大小為16,迭代次數(shù)Epoch為100,采用Adam優(yōu)化器并設(shè)置初始學(xué)習(xí)率為0.01。
2.3.3 評價(jià)標(biāo)準(zhǔn)
為了評價(jià)模型對紅花識別檢測結(jié)果的好壞,評價(jià)標(biāo)準(zhǔn)選用準(zhǔn)確率(precision)、召回率(recall)、平均準(zhǔn)確率(mean average precision,mAP)與檢測速度(frames per second,F(xiàn)PS)[16]。
2.3.4 模型集成
本文在YOLOv7網(wǎng)絡(luò)增加Swin Transformer注意力機(jī)制,對目標(biāo)置信度損失和分類損失均采用改進(jìn)的多分類損失函數(shù)Multiple Classifications Focal Loss計(jì)算,主要集成方法如下:第一步,在common.py文件中增加Swin Transformer網(wǎng)絡(luò)模型代碼,并在配置文件中的特征提取層(backbone)第50層增加該網(wǎng)絡(luò)結(jié)構(gòu)。第二步,在loss.py文件中定義多分類任務(wù) Focal Loss損失函數(shù)并通過改變數(shù)據(jù)集配置文件中fl_gamma的參數(shù)值對其進(jìn)行調(diào)用,實(shí)現(xiàn)兩種模型與YOLOV7網(wǎng)絡(luò)的集成。
為驗(yàn)證YOLOv7在紅花數(shù)據(jù)集上檢測效果,本文分別將YOLOv3、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv7五種網(wǎng)絡(luò)模型在紅花數(shù)據(jù)集上進(jìn)行訓(xùn)練,試驗(yàn)結(jié)果如表1所示。
通過表1對比結(jié)果可以看出,在相同迭代次數(shù)內(nèi),由于YOLOv7網(wǎng)絡(luò)的模型參數(shù)量增加,模型檢測速度低于YOLOv5s和YOLOv5m,但55.5幀/s的檢測速度已能滿足紅花采收決策需求。YOLOv7模型在紅花數(shù)據(jù)集上的mAP值比YOLOv3高出2.5個百分點(diǎn),比YOLOv5s、YOLOv5m、YOLOv5l三個不同大小的模型分別高出7.9、8.4、5.1個百分點(diǎn),尤其是在不均衡樣本類別上優(yōu)勢更加明顯,在decay不均衡樣本上分別高出4.2、23.5、24.5、10.8個百分點(diǎn)。因此本文選用YOLOv7模型,并在此基礎(chǔ)上進(jìn)行改進(jìn)以增強(qiáng)其在復(fù)雜環(huán)境下對紅花實(shí)時檢測的準(zhǔn)確率。
表1 紅花數(shù)據(jù)集在不同YOLO系列模型檢測效果
為驗(yàn)證不同注意力機(jī)制對模型的影響,分別將通道注意力機(jī)制SE、混合注意力機(jī)制CBAM以及自注意力機(jī)制Swin Transformer 3種注意力機(jī)制模塊添加到Y(jié)OLOv7的特征提取層第50層進(jìn)行試驗(yàn),結(jié)果顯示3種注意力機(jī)制均降低了模型的檢測速度,下降比例分別為21.08%、25.22%、17.66%,Swin Transformer速度下降比例最小。增加SE注意力后,模型的mAP值反而降低了3.1個百分點(diǎn),說明在本文數(shù)據(jù)集上SE注意力機(jī)制強(qiáng)化了成熟紅花絲、未開花的球果的通道特征,抑制了衰敗紅花絲的特征。CBAM注意力機(jī)制對3種樣本的平均準(zhǔn)確率分別提升0.8、2.1、3.0個百分點(diǎn),Swin Transformer注意力機(jī)制對3種樣本的平均準(zhǔn)確率分別提升1.6、2.1、10.6個百分點(diǎn),說明Swin Transformer注意力機(jī)制在本數(shù)據(jù)集上提升效果優(yōu)于其他兩種注意力機(jī)制。分析以上結(jié)果,這是由于Swin Transformer自注意力機(jī)制強(qiáng)化了各特征之間的關(guān)系,降低了對全局注意力計(jì)算的結(jié)果,因此Swin Transformer注意力機(jī)制在3種樣本上效果均有所改善,尤其是對衰敗紅花絲這種數(shù)量少的樣本改善效果更加明顯。為驗(yàn)證Swin Transformer模型添加位置對模型的影響,分別在特征提取層的第24、37層增加Swin Transformer,并相應(yīng)地調(diào)整Head層級數(shù)進(jìn)行對比,試驗(yàn)結(jié)果見表2。
表2 注意力機(jī)制對YOLOv7模型訓(xùn)練過程影響
通過以上結(jié)果可以看出,在第24層、37層、第50層增加Swin Transformer對平均準(zhǔn)確率有所提升,而且插入的位置層級越大,模型性能提升越明顯,這是由于插入的位置層級越大,感受野越大,特征提取就越多,效果越明顯,因此本文在特征提取網(wǎng)絡(luò)的第50層增加Swin Transformer注意力機(jī)制。
在計(jì)算損失函數(shù)時,為確定衰減參數(shù)對模型的影響,本文在loss.py文件通過改變數(shù)據(jù)集配置文件中fl_gamma的參數(shù)值對其進(jìn)行調(diào)用,設(shè)定3個樣本參數(shù)權(quán)重α為0.3、0.3、0.4,分別對在0.25~3取值范圍模型的性能與改進(jìn)前(=0)進(jìn)行對比,得出以下結(jié)論:1)關(guān)于模型訓(xùn)練損失loss:當(dāng)=0.5時出現(xiàn)了不收斂現(xiàn)象,值越大損失越小。2)關(guān)于均值精準(zhǔn)率mAP值,0.5≤≤1.5時,模型的mAP值有所提升。3)關(guān)于準(zhǔn)確率precision:當(dāng)≤0.5,≥2.0時,準(zhǔn)確率均下降。4)關(guān)于召回率recall,當(dāng)≥0.5時,召回率均有所提升。
綜上,當(dāng)0.5≤≤1.5時,損失函數(shù)對模型的性能提升效果較好。本文分別對選取=0.5、1.0、1.5與改進(jìn)前=0進(jìn)行結(jié)果對比,如表3所示,當(dāng)=1.0時,改進(jìn)的損失函數(shù)比改進(jìn)前各類別mAP值提高3.7個百分點(diǎn),對單類別AP值分別提升1.8、1.4、7.8個百分點(diǎn),可以看出該損失函數(shù)對數(shù)量較少的樣本進(jìn)行了強(qiáng)化,從而可以提高樣本不均衡造成的識別率低的現(xiàn)象。
表3 衰減參數(shù)γ=0.5、1.0、1.5與改進(jìn)前γ=0對模型影響對比
本文模型在YOLOv7特征提取層第50層插入Swin Transformer,目標(biāo)置信度損失和分類損失使用改進(jìn)損失函數(shù)計(jì)算。在紅花數(shù)據(jù)集上,利用MMDeteceion檢測工具箱將本文模型與改進(jìn)前的YOLOv7模型以及其他典型目標(biāo)檢測算法模型Faster RCNN、Transformer 框架目標(biāo)檢測算法Deformable DETR分別進(jìn)行對比,結(jié)果如表4所示。
表4 不同模型在紅花數(shù)據(jù)集檢測效果對比
通過對比可以看出,4種模型YOLO系列模型優(yōu)勢是實(shí)時的檢測速度,雖然Faster RCNN、Deformable DETR模型的準(zhǔn)確率及召回率較高,但是平均準(zhǔn)確率比YOLO系列低,在實(shí)際采摘中就會錯檢漏采情況較為明顯。本文根據(jù)YOLOv7改進(jìn)后的模型平均準(zhǔn)確率與Faster RCNN、Deformable DETR、YOLOv7模型相比,分別提高了9.7、16.5、7.0個百分點(diǎn),尤其是針對不均衡樣本的平均準(zhǔn)確率分別提高了19.4、33.9、15.9個百分點(diǎn),綜合性能指標(biāo)有一定優(yōu)勢。
利用改進(jìn)后的模型對紅花數(shù)據(jù)集進(jìn)行訓(xùn)練與驗(yàn)證,并在測試集中進(jìn)行測試,檢測效果如圖4所示??梢钥闯?,改進(jìn)后的算法在不同光照、遮擋以及小目標(biāo)等復(fù)雜環(huán)境下,可以準(zhǔn)確地識別出成熟的紅花絲、未開花的球果以及衰敗的紅花絲3種樣本,且識別的準(zhǔn)確率達(dá)到0.6以上。說明改進(jìn)后的模型對復(fù)雜環(huán)境下紅花樣本的識別效果較好。
圖4 改進(jìn)后的模型在復(fù)雜環(huán)境下的檢測效果
本研究針對環(huán)境背景復(fù)雜、光線遮擋以及樣本不均衡造成紅花機(jī)械化采摘識別率低的問題,建立紅花樣本數(shù)據(jù),增加Swin Transformer注意力機(jī)制提高模型對各分類樣本的檢測精準(zhǔn)率,改進(jìn)Focal Loss損失函數(shù)提升多分類任務(wù)下不均衡樣本的識別率,并與其他典型算法模型進(jìn)行對比,得出如下結(jié)論:
1)在本文紅花數(shù)據(jù)集上,改進(jìn)后模型的檢測效果與改進(jìn)前相比,各類樣本檢測的平均準(zhǔn)確率達(dá)到88.5%,提高了7.0個百分點(diǎn),不均衡樣本衰敗紅花絲decay的平均準(zhǔn)確率提高了15.9個百分點(diǎn);與Faster RCNN模型相比,平均準(zhǔn)確率提高了9.7個百分點(diǎn),不均衡樣本衰敗紅花絲decay的平均準(zhǔn)確率提高了19.4個百分點(diǎn);與Deformable DETR算法模型相比平均準(zhǔn)確率提高了16.5個百分點(diǎn),不均衡樣本衰敗紅花絲decay的平均準(zhǔn)確率提高了33.9個百分點(diǎn);無論是綜合檢測效果、還是對不均衡樣本檢測的平均準(zhǔn)確率,改進(jìn)后模型的優(yōu)勢都比較明顯。
2)在模型特征提取層增加Swin Transformer注意力機(jī)制可以提高復(fù)雜背景下目標(biāo)的檢測準(zhǔn)確率,尤其是提升不均衡樣本的檢測準(zhǔn)確率,可以減少紅花采摘過程的漏檢現(xiàn)象,但是會降低模型的檢測速度,降低后的識別速度仍可以滿足機(jī)械化實(shí)時采摘要求,而且對于機(jī)械化采摘而言,在保證識別準(zhǔn)確率的前提下,犧牲較小的速度指標(biāo),匹配采摘動作更有利于保障采摘機(jī)械的穩(wěn)定性。
3)改進(jìn)后的多分類任務(wù)Focal Loss損失函數(shù)通過調(diào)整衰減參數(shù)的大小抑制不同類別樣本的權(quán)重,改善樣本不均衡問題,經(jīng)過試驗(yàn)對比確定衰減參數(shù)取值范圍:0.5≤≤1.5,且在本數(shù)據(jù)集上取值1.0時模型性能提升效果最好。
本文所提方法可以有效改善網(wǎng)絡(luò)模型在復(fù)雜環(huán)境下對紅花的識別與檢測,尤其是解決樣本不均衡問題、光照遮擋等問題,可以為真實(shí)農(nóng)田環(huán)境下各種作物的識別提供借鑒。在今后的研究中,將從數(shù)據(jù)層面通過擴(kuò)大樣本數(shù)量縮小種類間的不均衡,為模型在采摘機(jī)械上的遷移部署提供支持。
[1] 曹衛(wèi)彬,焦灝博,劉姣娣,等. 基于TRIZ理論的紅花絲盲采裝置設(shè)計(jì)與試驗(yàn)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2018,49(8):76-82. CAO Weibin, JIAO Haobo, LIU Jiaodi, et al. Design of safflower filament picking device based on TRIZ theory[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(8): 76-82. (in Chinese with English abstract)
[2] 陳飛,葛云,張立新,等. 紅花采摘機(jī)器人集條預(yù)定位機(jī)構(gòu)設(shè)計(jì)與試驗(yàn)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(15):10-19. CHEN Fei, GE Yun, ZHANG Lixin, et al. Design and experiment of the strip-collected pre-positioning mechanism for safflower picking robots[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(15): 10-19. (in Chinese with English abstract)
[3] BERTETTO A, MANUELLO, RICCIU R, et al. A mechanical saffron flower harvesting system[J]. Meccanica, 2014, 49(12): 2785-2796.
[4] 錢營,葛云,谷家偉,等. 正壓紅花采摘裝置氣流場分析與結(jié)構(gòu)優(yōu)化[J]. 計(jì)算機(jī)仿真,2016,33(1):264-267. QIAN Ying, GE Yun, GU Jiawei. et al. Air flow simulation and flow field optimization for positive pressure safflower picking device[J]. Computer Simulation, 2016, 33(1): 264-267. (in Chinese with English abstract)
[5] 陳元博,葛云,梁丹丹,等. 對輥式紅花采收實(shí)驗(yàn)臺的設(shè)計(jì)與研究[J]. 農(nóng)機(jī)化研究,2017,39(10):38-41. CHEN Yuanbo, GE Yun, LIANG Dandan, et al. Design and research of the roller type safflower harvest test bed[J]. Journal of Agricultural Mechanization Research, 2017, 39(10): 38-41. (in Chinese with English abstract)
[6] 曹衛(wèi)彬,連國黨,牛馳,等. 梳夾式紅花絲采摘頭等高采收性能試驗(yàn)與參數(shù)優(yōu)化[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(22):36-44. CAO Weibin, LIAN Guodang, NIU Chi, et al. Harvest performance test and parameter optimization of comb-type safflower-filaments picking head at same height[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(22): 36-44. (in Chinese with English abstract)
[7] 張振國,呂全貴,任杰宇,等. 旋轉(zhuǎn)剪切式紅花花絲采摘機(jī)械關(guān)鍵部件的設(shè)計(jì)[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2019,40(7):1-6. ZHANG Zhenguo, LV Quangui, REN Jieyu et al.Design of critical compinents for safflower harvesting machinery by rotary shear[J]. Journal of Chinese Agricultural Machanization, 2019, 40(7): 1-6. (in Chinese with English abstract)
[8] 張曉偉,葛云,陳飛,等. 三手指拉拔式紅花采摘末端執(zhí)行器的設(shè)計(jì)[J]. 機(jī)械設(shè)計(jì)與制造,2022(1):145-149. ZHANG Xiaowei, GE Yun, CHEN Fei, et al. Design of three-finger pull-out safflower picking end effector[J]. Machinery Design and Manufacture, 2022(1): 145-149. (in Chinese with English abstract)
[9] GUO H, LUO D, GAO G, et al. Design and experiment of a safflower picking robot based on a parallel manipulator[EB/OL]. (2022-06-18)[2022-11-19] https://doi.org/10.1590/1809- 4430-Eng.Agric.v42n1e20210129/2022.
[10] ZHANG H, GE Y, SUN C, et al. Picking path planning method of dual rollers type safflower picking robot based on improved ant colony algorithm[J]. Processes, 2022, 10(6): 1213.
[11] Girshick R. Fast R-CNN[C]//Santiago: Proceedings of the IEEE International Conference on Computer Vision. 2015: 1440-1448.
[12] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Las Vegas, NV, USA: IEEE Conference on Computer Vision and Pattern Recognition. 2016: 779-788.
[13] Redmon J, Farhadi A. YOLOV3: An incremental improvement[EB/OL].(2018-04-08)[2022-11-19] https://arxiv.org/abs/1804.02767.
[14] WANG C Y, Bochkovskiy A, Liao H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[EB/OL]. (2022-07-06)[2022-11-19] https://arxiv.org/abs/ 2207.02696.
[15] 宋懷波,尚鈺瑩,何東健. 果實(shí)目標(biāo)深度學(xué)習(xí)識別技術(shù)研究進(jìn)展[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(1):1-19. SONG Huaibo, SHANG Yuying, HE Dongjian. Review on deep learning technology for fruit target recognition[J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(1): 1-19. (in Chinese with English abstract)
[16] 趙德安,吳任迪,劉曉洋,等. 基于 YOLO 深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜背景下機(jī)器人采摘蘋果定位[J]. 農(nóng)業(yè)工程學(xué)報(bào):2019,35(3):164-173. ZHAO De’an, WU Rendi, LIU Xiaoyang, et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 164-173. (in Chinese with English abstract)
[17] 呂佳,李帥軍,曾夢瑤,等. 基于半監(jiān)督SPM-YOLOv5的套袋柑橘檢測算法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(18):204-211. Lyu Jia, LI Shuaijun, ZENG Mengyao, et al. Detecting bagged citrus using a semi-supervised SPM-YOLOv5[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(18): 204-211. (in Chinese with English abstract)
[18] JIA W, TIAN Y, LUO R, et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot[J]. Computers and Electronics in Agriculture, 2020, 172: 105380.
[19] 岳有軍,田博凱,王紅君,等. 基于改進(jìn)Mask RCNN的復(fù)雜環(huán)境下蘋果檢測研究[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2019,40(10):128-134. YUE Youjun, TIAN Bokai, WANG Hongjun, et al. Research on apple detection in complex environment based on improved Mask RCNN[J]. Journal of Chinese Agricultural Machanization, 2019, 40(10): 128-134. (in Chinese with English abstract)
[20] ZHANG J, Karkee M, ZHANG Q, et al. Multi-class object detection using faster R-CNN and estimation of shaking locations for automated shake-and-catch apple harvesting[J]. Computers and Electronics in Agriculture, 2020, 173: 105384.
[21] 朱旭,馬淏,姬江濤,等. 基于Faster R-CNN的藍(lán)莓冠層果實(shí)檢測識別分析[J]. 南方農(nóng)業(yè)學(xué)報(bào),2020,51(6):1493-1501. ZHU Xu, MA Hao, JI Jiangtao, et al. Detecting and identifying blueberry canopy fruits based on Faster R-CNN[J]. Journal of Southern Agriculture, 2020, 51(6): 1493-1501. (in Chinese with English abstract)
[22] 李天華,孫萌,丁小明,等. 基于YOLO v4+HSV的成熟期番茄識別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(21):183-190. LI Tianhua, SUN Meng, DING Xiaoming, et al. Tomato recognition method at the ripening stage based on YOLO v4 and HSV[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(21): 183-190. (in Chinese with English abstract)
[23] 楊堅(jiān),錢振,張燕軍,等. 采用改進(jìn)YOLOv4-tiny的復(fù)雜環(huán)境下番茄實(shí)時識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(9):215-221. YANG Jian, QIAN Zhen, ZHANG Yanjun, et al. Real-time recognition of tomatoes in complex environments based on improved YOLOv4-tiny[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(9): 215-221. (in Chinese with English abstract)
[24] 張伏,陳自均,鮑若飛,等. 基于改進(jìn)型 YOLOv4-LITE 輕量級神經(jīng)網(wǎng)絡(luò)的密集圣女果識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(16):270-278. ZHANG Fu, CHEN Zijun, BAO Ruofei, et al. Recognition of dense cherry tomatoes based on improved YOLOv4-LITE lightweight neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 270-278. (in Chinese with English abstract)
[25] CHEN C, LU J, ZHOU M, et al. A YOLOv3-based computer vision system for identification of tea buds and the picking point[J]. Computers and Electronics in Agriculture, 2022, 198: 107116.
[26] CAO M, FU H, ZHU J, et al. Lightweight tea bud recognition network integrating GhostNet and YOLOv5[J]. Mathematical Biosciences and Engineering, 2022, 19(12): 12897-12914.
[27] 張大刀,YOLOv7 網(wǎng)絡(luò)架構(gòu)深度解析[EB/OL].(2022-07-20)[2022-11-19] https: //blog. csdn. net/zqwwwm/article/details/125901507.
[28] LIU Z, LIN Y, CAO Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Virtual, 2021: 10012-10022.
[29] LIN T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice, 2017: 2980-2988.
Safflower picking recognition in complex environments based on an improved YOLOv7
WANG Xiaorong1,2, XU Yan1,2, ZHOU Jianping1,2※, CHEN Jinrong1
(1.,,830017,;2.,830017,)
Safflower silk is one of the most important cash crops in the medical treatment and dye. The manual picking of safflower silk cannot fully meet the large-scale production at present. The mechanized harvesting can be expected to improve the safflower harvesting efficiency and labor cost-saving in the industrial planting. The complex environmental factors have made great difficulty to accurately identify and locate the safflower during mechanical picking, including the natural environment (such as the light and shelter), and the safflower characteristics (such as the small and dense target, as well as the different maturity). In this study, an improved YOLOv7 model was proposed to rapidly and accurately locate the safflower recognition in the complex environment. 1500 safflower images were established to divide into three types of samples, silk, bulb, and decay. The small target was found in the datasets with uneven sample size, especially the data of decay. The safflower sample dataset was produced to build the complex environment data for the real picking. Firstly, the Swin Transformer attention mechanism was added to the YOLOv7 network model, in order to improve the detection accuracy of the model for each classification sample, and the ability of the backbone network, especially to extract the small target features. Secondly, the Focal Loss function of the multi-classification was improved in the recognition rate of unbalanced samples under multi-class tasks, particularly for the target confidence loss and classification loss. The attenuation parameterswas adjusted to balance the sample. The attenuation parameters were determined after experimental verification. Finally, the safflower detection network model was designed to meet the real-time and accurate detection requirements under the complex environment. The test results show that the best performance of the model was achieved in the attenuation parameters of 1.0, where the position of Swin Transformer was the layer 50. The average precision of the improved model reached 88.5% in each category sample, which was 7.0 percentage points higher than before. The average detection accuracy of the unbalanced category sample decay was 15.9 percentage points higher. Compared with the Faster RCNN model, the detection speed increased by three times, while the average accuracy increased by 9.7 percentage points; Compared with the Deformable DETR model, the detection speed increased by about 5 times, and the average accuracy increased by 16.5 percentage points. The improved model performed the best, in terms of the detection efficiency, detection speed, and model size. The improved model can also be expected to accurately detect the safflower, indicating the smaller parameters and the faster recognition speed suitable for the migration deployment on the safflower picking machinery. The finding can provide the technical support for the mechanized picking in real time. In the future research, the balance between species can be promoted to expand the number of samples from the data level in the harvesting machinery.
image recognition; image processing; complex environments; YOLOv7; attention mechanisms; multi-classification focal loss function; safflower picking
10.11975/j.issn.1002-6819.202211164
S225;TP391
A
1002-6819(2023)-06-0169-08
王小榮,許燕,周建平,等. 基于改進(jìn)YOLOv7的復(fù)雜環(huán)境下紅花采摘識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2023,39(6):169-176.doi:10.11975/j.issn.1002-6819.202211164 http://www.tcsae.org
WANG Xiaorong, XU Yan, ZHOU Jianping, et al. Safflower picking recognition in complex environments based on an improved YOLOv7[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(6): 169-176. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202211164 http://www.tcsae.org
2022-11-19
2023-03-01
新疆維吾爾自治區(qū)創(chuàng)新團(tuán)隊(duì)項(xiàng)目-機(jī)器人及智能裝備技術(shù)科技創(chuàng)新團(tuán)隊(duì)(2022D14002)
王小榮,博士生,研究方向?yàn)槿斯ぶ悄?、農(nóng)業(yè)機(jī)械化與信息化。Email:XiaorongWang@xju.edu.cn
周建平,教授,博士生導(dǎo)師,研究方向?yàn)闄C(jī)電一體化、農(nóng)業(yè)機(jī)械化與信息化。Email:linkzhou@163.com