殷北辰,王子健,程 智,徐新喜
(軍事科學(xué)院系統(tǒng)工程研究院,天津 300161)
生物安全實(shí)驗(yàn)室也稱(chēng)生物安全防護(hù)實(shí)驗(yàn)室,是通過(guò)防護(hù)屏障和管理措施來(lái)避免或控制被操作的有害生物因子危害,達(dá)到生物安全要求的生物實(shí)驗(yàn)室和動(dòng)物實(shí)驗(yàn)室。諸多新發(fā)未知和突發(fā)烈性病原體研究需要在高等級(jí)生物安全實(shí)驗(yàn)室中進(jìn)行[1]。目前實(shí)驗(yàn)室的安全監(jiān)測(cè)主要依賴(lài)設(shè)備層人工巡檢的方式,該方式存在安全風(fēng)險(xiǎn),且無(wú)法實(shí)時(shí)保障巡檢質(zhì)量。將智能機(jī)器人技術(shù)引入實(shí)驗(yàn)室設(shè)備層是現(xiàn)階段滿(mǎn)足高等級(jí)實(shí)驗(yàn)室安全管控要求的最佳選擇[2]。采用智能機(jī)器人技術(shù)進(jìn)行設(shè)備層巡檢,既具有人工巡檢的靈活性和智能性,同時(shí)克服和彌補(bǔ)了人工巡檢中人員工作環(huán)境危險(xiǎn)、壓抑,并且工作質(zhì)量無(wú)法保證等缺陷和不足。運(yùn)用目標(biāo)檢測(cè)方法對(duì)設(shè)備層目標(biāo)儀表進(jìn)行識(shí)別能實(shí)現(xiàn)巡檢機(jī)器人對(duì)目標(biāo)的準(zhǔn)確識(shí)別[3],從而提高巡檢機(jī)器人工作的效率并縮短巡檢時(shí)長(zhǎng)。
近年來(lái),許多學(xué)者提出了不同的目標(biāo)識(shí)別檢測(cè)模型[4]。比如以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region covolutional neural networks,R-CNN)系列為代表的兩階段算法模型[5],該算法模型采用區(qū)域提取操作,首先利用卷積神經(jīng)網(wǎng)絡(luò)(covolutional neural networks,CNN)骨干網(wǎng)提取圖像特征,然后從特征圖中找出可能存在的候選區(qū)域,最后在候選區(qū)域上進(jìn)行滑動(dòng)窗口操作,進(jìn)一步判斷目標(biāo)類(lèi)別和位置信息。為進(jìn)一步提高目標(biāo)檢測(cè)的實(shí)時(shí)性,一些學(xué)者提出將目標(biāo)檢測(cè)轉(zhuǎn)化到回歸問(wèn)題上的簡(jiǎn)化算法模型,如YOLO 系列和單發(fā)多框檢測(cè)器(single shot multibox detector,SSD)系列基于位置回歸的單階段目標(biāo)檢測(cè)模型[6],在提高檢測(cè)精度的同時(shí)提高了檢測(cè)速度。
Li 等[7]提出了一種新的目標(biāo)檢測(cè)框架,通過(guò)增加多角度錨框來(lái)處理目標(biāo)的多尺度問(wèn)題,設(shè)計(jì)了雙通道特征融合網(wǎng)絡(luò),沿著2 個(gè)獨(dú)立的路徑學(xué)習(xí)局部和上下文屬性,以解決目標(biāo)外觀(guān)模糊問(wèn)題。Zhu 等[8]在YOLOv5 的基礎(chǔ)上采用增加一個(gè)檢測(cè)不同尺度的物體的預(yù)測(cè)頭、用變形預(yù)測(cè)頭(transformer prediction heads,TPH)替換原有的預(yù)測(cè)頭、整合卷積塊注意力模型(convolutional block attention module,CBAM)的方式使無(wú)人機(jī)檢測(cè)的平均準(zhǔn)確率(average precision,AP)提高了7%。Zhai 等[9]使用空間深度轉(zhuǎn)換卷積(space-to-depth convolution,SPD-Conv)代替卷積提取多尺度特征,對(duì)YOLOv8 模型進(jìn)行改進(jìn),更好地保留了微小目標(biāo)的特征,并去除了大目標(biāo)檢測(cè)頭,使模型大小減小了57.9%。
針對(duì)巡檢機(jī)器人儀表識(shí)別過(guò)程中存在巡檢機(jī)器人主動(dòng)識(shí)別儀表時(shí)采用復(fù)雜模型準(zhǔn)確率較高但速度慢,而采用簡(jiǎn)易模型速度快但準(zhǔn)確率較低的問(wèn)題,本文擬構(gòu)建基于改進(jìn)YOLOv8 模型的巡檢機(jī)器人識(shí)別目標(biāo)儀表方法,通過(guò)選擇不同的模型結(jié)構(gòu)、引入注意力機(jī)制、改進(jìn)損失函數(shù)和采用柔性非極大值抑制(soft non-maximum suppression,Soft-NMS)函數(shù),提升巡檢機(jī)器人在運(yùn)動(dòng)過(guò)程中對(duì)儀表的識(shí)別精度和速度,實(shí)現(xiàn)巡檢機(jī)器人的工程應(yīng)用。
2023 年1 月,Ultralytics 團(tuán)隊(duì)在YOLOv7 的基礎(chǔ)上提出一種識(shí)別速度更快、性能更強(qiáng)的YOLOv8 模型,其引入了新的Pytorch 訓(xùn)練和部署框架,使得自定義模型的訓(xùn)練變得更加方便[10]。
YOLOv8 算法共有5種網(wǎng)絡(luò)結(jié)構(gòu),分別是YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l 和YOLOv8x,5 種網(wǎng)絡(luò)結(jié)構(gòu)的區(qū)別在于Backbone(骨干網(wǎng)絡(luò))及Neck(多尺度特征融合模塊)部分卷積的次數(shù)和殘差塊的數(shù)目不一樣,但基本原理相同[11]。YOLOv8 網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示[12],其網(wǎng)絡(luò)模型分為3 個(gè)部分,分別為Backbone、Neck 和Head(預(yù)測(cè)端)。
圖1 YOLOv8 網(wǎng)絡(luò)結(jié)構(gòu)圖
(1)Backbone:采用一系列卷積和反卷積層來(lái)提取特征,同時(shí)使用殘差連接和瓶頸結(jié)構(gòu)來(lái)減小網(wǎng)絡(luò)的大小并提高性能。該部分采用C2f 模塊作為基本構(gòu)成單元。Backbone 部分由5 個(gè)CBS 模塊、4 個(gè)C2f模塊和1 個(gè)快速空間金字塔池化(spatial pyramid pooling-fast,SPPF)模塊組成。
(2)Neck:采用多尺度特征融合技術(shù),將來(lái)自Backbone 不同階段的特征圖進(jìn)行融合,以便更好地捕捉不同尺度目標(biāo)的信息,從而提高了目標(biāo)檢測(cè)的性能和魯棒性。
(3)Head:負(fù)責(zé)最終的目標(biāo)檢測(cè)和分類(lèi)任務(wù),設(shè)有3 個(gè)檢測(cè)頭,用于在不同的尺寸信息下檢測(cè)目標(biāo)信息。檢測(cè)頭包含一系列卷積層和反卷積層,用于生成檢測(cè)結(jié)果。
盡管YOLOv8 相較于YOLOv1~YOLOv7 已經(jīng)具有了良好的檢測(cè)性能和推理速度,但針對(duì)巡檢機(jī)器人的工作環(huán)境,仍然存在以下問(wèn)題:
(1)在YOLOv8 模型中,結(jié)構(gòu)越復(fù)雜,深度越深,檢測(cè)效果越好。但是相應(yīng)的越復(fù)雜的模型其參數(shù)也就越多,訓(xùn)練效率越低且權(quán)重越高,檢測(cè)時(shí)需要更多的運(yùn)算資源,嚴(yán)重降低了目標(biāo)檢測(cè)實(shí)時(shí)性,不適于在機(jī)器人端部署。
(2)在巡檢機(jī)器人運(yùn)動(dòng)過(guò)程中,采集的視頻信息絕大部分為無(wú)用信息,大量的視頻信息輸入占用大量的運(yùn)算資源,降低了目標(biāo)檢測(cè)的實(shí)時(shí)性和穩(wěn)定性。
(3)當(dāng)預(yù)測(cè)框在目標(biāo)框內(nèi)部且預(yù)測(cè)框大小一致時(shí),邊界框回歸損失函數(shù)將由完整交并比(complete IoU,CIoU)損失函數(shù)退化為簡(jiǎn)單的IoU 損失函數(shù),無(wú)法實(shí)現(xiàn)準(zhǔn)確預(yù)測(cè)框的定位和更好地對(duì)模型進(jìn)行優(yōu)化;且訓(xùn)練過(guò)程中應(yīng)用CIoU 損失函數(shù)預(yù)測(cè)框在水平或垂直方向上優(yōu)化困難,收斂較慢,降低了訓(xùn)練效率[13]。
(4)在目標(biāo)檢測(cè)的后處理過(guò)程中,針對(duì)很多目標(biāo)框的篩選,通常采用非極大值抑制(non-maximum suppression,NMS)算法操作。NMS 算法對(duì)于重疊閾值設(shè)定敏感,設(shè)定過(guò)低會(huì)導(dǎo)致漏檢,設(shè)定過(guò)高會(huì)導(dǎo)致誤檢,對(duì)于部分重疊目標(biāo)的識(shí)別僅能檢測(cè)出未被遮擋目標(biāo),而對(duì)于被部分遮擋目標(biāo)則不會(huì)輸出檢測(cè)結(jié)果[14]。
本研究中目標(biāo)檢測(cè)對(duì)象為體積較小的指針式儀表,為了設(shè)計(jì)出適用于本文應(yīng)用環(huán)境的模型,綜合考慮訓(xùn)練效率和檢測(cè)精度等問(wèn)題,將YOLOv8 的5 個(gè)預(yù)訓(xùn)練模型采用儀表數(shù)據(jù)集進(jìn)行訓(xùn)練。對(duì)訓(xùn)練后的模型通過(guò)測(cè)試數(shù)據(jù)集進(jìn)行檢測(cè),選出最優(yōu)模型。
注意力機(jī)制主要用于解決小目標(biāo)檢測(cè)問(wèn)題,與本文的應(yīng)用場(chǎng)景非常匹配,注意力機(jī)制的引入能很好地解決巡檢機(jī)器人在運(yùn)動(dòng)過(guò)程中目標(biāo)檢測(cè)的實(shí)時(shí)性和穩(wěn)定性問(wèn)題。
坐標(biāo)注意力機(jī)制是一種用于加強(qiáng)深度學(xué)習(xí)模型對(duì)輸入數(shù)據(jù)的空間結(jié)構(gòu)理解的注意力機(jī)制。先前的輕量網(wǎng)絡(luò)的注意力機(jī)制大多數(shù)采用了壓縮和激勵(lì)(squeeze-and-excitation,SE)模塊,僅考慮了通道之間的信息,忽略了位置信息[15]。盡管后來(lái)的CBAM 嘗試在降低通道數(shù)后通過(guò)卷積來(lái)提取位置注意力信息,但卷積只能提取局部信息,缺乏對(duì)長(zhǎng)距離關(guān)系提取的能力。為此,有學(xué)者提出了新的高效注意力機(jī)制,能夠?qū)M向和縱向的位置信息編碼到通道注意力中,使得移動(dòng)網(wǎng)絡(luò)能夠在關(guān)注大范圍位置信息的同時(shí)不會(huì)帶來(lái)過(guò)多的計(jì)算量[16]。注意力機(jī)制的結(jié)構(gòu)如圖2 所示。
圖2 注意力機(jī)制結(jié)構(gòu)圖
設(shè)輸入的特征圖通道數(shù)為C,圖像縱向高度為H,橫向?qū)挾葹閃,注意力機(jī)制首先對(duì)輸入特征圖[C,H,W]進(jìn)行2 次全局平均池化,一次在寬度方向上,一次在高度方向上。這2 次操作分別得到2 個(gè)特征映射:在寬度方向上的平均池化得到的特征映射[C,H,1]和在高度方向上的平均池化得到的特征映射[C,1,W]。這2 個(gè)特征映射分別捕捉了在寬度和高度方向上的全局特征。這2 個(gè)特征映射也允許注意力模塊捕捉到沿著一個(gè)空間方向的長(zhǎng)期依賴(lài)關(guān)系,并保存沿著另一個(gè)空間方向的精確位置信息,這有助于網(wǎng)絡(luò)更準(zhǔn)確地定位感興趣的目標(biāo)。將上述2 個(gè)特征映射合并,通過(guò)簡(jiǎn)單的堆疊操作,得到一個(gè)新的特征層,尺寸為[C,1,H+W],在寬度和高度2 個(gè)方向上的維度合并在一起。然后對(duì)合并后的特征層進(jìn)行卷積操作、標(biāo)準(zhǔn)化和激活函數(shù)操作來(lái)進(jìn)一步處理特征,最后分離得到在寬度和高度維度上的注意力向量[17]。
在巡檢機(jī)器人運(yùn)動(dòng)過(guò)程中,使用注意力機(jī)制可以從相機(jī)獲取的視頻信息提取注意區(qū)域,使得YOLOv8目標(biāo)檢測(cè)過(guò)程中能夠關(guān)注更多待檢測(cè)信息[18]。
YOLOv8 原算法中采用CIoU 損失函數(shù)[19],CIoU雖然提高了邊界框?qū)捀弑鹊某叨刃畔?quán)重,增加了檢測(cè)框尺度以及長(zhǎng)和寬的損失[20],但由于寬高比描述的是相對(duì)值,所以有研究[21]在CIoU 的基礎(chǔ)上計(jì)算縱橫比,提出了高效交并比(efficient IoU,EIoU)損失函數(shù)。
EIoU 的懲罰項(xiàng)在CIoU 的懲罰項(xiàng)基礎(chǔ)上將縱橫比的影響因子拆分后分別計(jì)算目標(biāo)框和預(yù)測(cè)框的長(zhǎng)和寬,該損失函數(shù)包含重疊損失、中心距離損失、寬高損失3 個(gè)部分。前2 個(gè)部分延續(xù)CIoU 中的方法,但是寬高損失直接使目標(biāo)框與預(yù)測(cè)框的寬度和高度差達(dá)到最小,使得收斂速度更快。EIoU 懲罰項(xiàng)計(jì)算公式如下[22]:
式中,cw和ch分別表示覆蓋2 個(gè)檢測(cè)框的最小外接框的寬度和高度;b和bgt分別表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn);w和wgt分別表示預(yù)測(cè)框和真實(shí)框的寬;h和hgt分別表示預(yù)測(cè)框和真實(shí)框的高;ρ 表示2 個(gè)中心點(diǎn)間的歐式距離。將YOLOv8 中原本的損失函數(shù)CIoU 改為EIoU,可能會(huì)使YOLOv8 的目標(biāo)檢測(cè)取得更好的效果。
Soft-NMS 是一種改進(jìn)的目標(biāo)檢測(cè)算法,用于在NMS 過(guò)程中更加平滑地抑制冗余的邊界框[23]。
傳統(tǒng)的NMS 方法是通過(guò)設(shè)置一個(gè)固定的閾值來(lái)判斷2 個(gè)邊界預(yù)測(cè)框是否重疊并進(jìn)行抑制[24]。然而,固定的閾值可能無(wú)法很好地適應(yīng)不同目標(biāo)之間的交疊情況[14,25],導(dǎo)致一些具有較低置信度但與真實(shí)目標(biāo)高度重疊的候選框被錯(cuò)誤地排除[26-27]。
Soft-NMS 通過(guò)引入一個(gè)衰減函數(shù)來(lái)解決這個(gè)問(wèn)題,將重疊區(qū)域的置信度進(jìn)行衰減,而不是直接舍棄[28]。通過(guò)引入衰減函數(shù),Soft-NMS 可以更加靈活地調(diào)整候選框的權(quán)重,對(duì)于與已選擇框高度重疊但置信度較低的候選框,仍有機(jī)會(huì)被保留下來(lái)[29-30],從而提高了目標(biāo)檢測(cè)的準(zhǔn)確性。
本文在研究過(guò)程中采集的圖片數(shù)據(jù)分為2 個(gè)部分,一部分為指針式儀表靜態(tài)拍攝圖片數(shù)據(jù),一部分為巡檢機(jī)器人工作過(guò)程中攝像頭錄制的視頻截圖獲得的圖片數(shù)據(jù)。統(tǒng)一對(duì)圖片進(jìn)行命名,最終選取1 000 張圖片作為目標(biāo)檢測(cè)訓(xùn)練的總數(shù)據(jù)集,如圖3所示。將數(shù)據(jù)集分為訓(xùn)練集800 張、測(cè)試集200 張,訓(xùn)練集與測(cè)試集彼此獨(dú)立,內(nèi)容無(wú)交叉。
圖3 目標(biāo)檢測(cè)訓(xùn)練總數(shù)據(jù)集中部分圖片
使用Labelimg 工具選取YOLO 格式對(duì)數(shù)據(jù)集中的每一張圖片進(jìn)行標(biāo)注,標(biāo)注過(guò)程中錨框要完全覆蓋待檢測(cè)目標(biāo),如圖4 所示。Labelimg 會(huì)在圖像中生成邊界框形式的外接框,并在手動(dòng)標(biāo)注結(jié)果保存后自動(dòng)生成與標(biāo)注圖像同名的txt 文件。
圖4 Labelimg 進(jìn)行數(shù)據(jù)集標(biāo)注示意圖
為選取最有利于巡檢機(jī)器人進(jìn)行儀表識(shí)別的目標(biāo)檢測(cè)模型,應(yīng)考慮訓(xùn)練效率和檢測(cè)精度等綜合因素。首先使用YOLOv8 現(xiàn)有的5 種預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,相關(guān)參數(shù)見(jiàn)表1。然后再通過(guò)實(shí)驗(yàn)對(duì)比分析選出最適合本文應(yīng)用場(chǎng)景的模型結(jié)構(gòu)。
表1 5 種不同模型訓(xùn)練參數(shù)
本文操作系統(tǒng)為Ubuntu 20.04,基于Pytorch 框架,CPU 為Intel Core i9-10900k,GPU 為NVIDIA RTX TITAN,內(nèi)存為24 GiB。本次訓(xùn)練預(yù)設(shè)訓(xùn)練次數(shù)為300 次,批次為16,學(xué)習(xí)率為0.01,動(dòng)量項(xiàng)為0.937,衰減正則項(xiàng)為0.000 5。
將表1 中5 個(gè)模型均按照上述訓(xùn)練參數(shù)進(jìn)行訓(xùn)練,獲得5 個(gè)訓(xùn)練后模型。為了對(duì)比不同模型的檢測(cè)效果,本文采用以下4 個(gè)指標(biāo)[30]作為模型評(píng)估指標(biāo):
(1)準(zhǔn)確率(Precision,Pre),即標(biāo)出的正確目標(biāo)個(gè)數(shù)除以標(biāo)出的目標(biāo)總個(gè)數(shù),越接近1,準(zhǔn)確率越高,計(jì)算公式如下:
式中,TP 表示真正為正的樣本預(yù)測(cè)為正;FP 表示真正為負(fù)的樣本預(yù)測(cè)為正。
(2)召回率(Recall,Rec),即標(biāo)出的正確目標(biāo)個(gè)數(shù)除以需要標(biāo)出的目標(biāo)總個(gè)數(shù),越接近1,召回率越高,計(jì)算公式如下:
式中,F(xiàn)N 表示真正為正的樣本預(yù)測(cè)為負(fù)。
(3)mAP_0.5:平均準(zhǔn)確率均值(mean average precision),即將IoU 設(shè)為0.5 時(shí),計(jì)算每一類(lèi)所有圖片的AP,然后對(duì)所有類(lèi)別求平均值。
(4)mAP_0.5:0.95:表示在不同IoU 閾值(從0.5到0.95,步長(zhǎng)0.05)上的平均mAP。mAP 的計(jì)算公式如下:
式中,AP 表示平均精度;p表示準(zhǔn)確率;r表示召回率;K表示檢測(cè)類(lèi)別數(shù),本文中為1。
訓(xùn)練后的5 個(gè)模型參數(shù)對(duì)比如圖5 所示。從圖5 可以看出,訓(xùn)練次數(shù)達(dá)到100 次后,各項(xiàng)數(shù)值趨于平穩(wěn),隨著訓(xùn)練次數(shù)達(dá)到300 次,曲線(xiàn)均取得了較好的擬合效果。通過(guò)訓(xùn)練結(jié)果對(duì)比圖可以發(fā)現(xiàn)準(zhǔn)確率和召回率隨著訓(xùn)練次數(shù)增加逐漸穩(wěn)定,趨近于1,這表明5 種模型訓(xùn)練均取得了較好的效果;mAP_0.5也隨著訓(xùn)練次數(shù)增加穩(wěn)定于1,mAP_0.5:0.95 在前100 次訓(xùn)練緩慢上升,隨后趨于穩(wěn)定緩慢接近于1??梢园l(fā)現(xiàn)對(duì)于不同的訓(xùn)練模型,最終的穩(wěn)定值雖有一定差距,但總體結(jié)果均>0.9,且趨勢(shì)穩(wěn)定,整體呈現(xiàn)隨著模型復(fù)雜程度越高mAP_0.5:0.95 值越大。
圖5 YOLOv8 5 種模型訓(xùn)練結(jié)果對(duì)比圖
為進(jìn)一步分析模型訓(xùn)練效果,對(duì)訓(xùn)練后的5 種模型進(jìn)行測(cè)試集檢測(cè)對(duì)比實(shí)驗(yàn),訓(xùn)練后的5 種模型性能指標(biāo)和在同一個(gè)測(cè)試集上的檢測(cè)結(jié)果見(jiàn)表2。
表2 5 種不同模型訓(xùn)練后性能指標(biāo)和檢測(cè)結(jié)果
由表2 可知,模型結(jié)構(gòu)越復(fù)雜、參數(shù)越多,相應(yīng)的訓(xùn)練耗時(shí)越長(zhǎng)、訓(xùn)練后模型泛化能力越強(qiáng)。從不同模型訓(xùn)練后的性能指標(biāo)和檢測(cè)結(jié)果對(duì)比可以看出,相對(duì)復(fù)雜的預(yù)訓(xùn)練模型如YOLOv8s、YOLOv8m 訓(xùn)練后得出的模型檢測(cè)準(zhǔn)確率不如相對(duì)簡(jiǎn)單的YOLOv8n,最復(fù)雜的YOLOv8x 檢測(cè)準(zhǔn)確率與其他模型差距不明顯,因此可以得出復(fù)雜的模型訓(xùn)練后得出的模型在實(shí)際情況下檢測(cè)效果不一定更好。YOLOv8n 預(yù)訓(xùn)練模型深度和寬度最小,得出的訓(xùn)練后模型層數(shù)、參數(shù)量最小,檢測(cè)時(shí)間也最短,非常有利于部署在巡檢機(jī)器人上;相較于其他更復(fù)雜的模型YOLOv8m、YOLOv8l 和YOLOv8x,其準(zhǔn)確率與之相近,且檢測(cè)時(shí)間僅為5.4 ms,遠(yuǎn)少于復(fù)雜模型(10 ms 以上)的檢測(cè)時(shí)間。YOLOv8n 訓(xùn)練結(jié)果如圖6 所示。
圖6 YOLOv8n 訓(xùn)練結(jié)果
圖6中,位置損失表示預(yù)測(cè)框與標(biāo)定框之間的誤差,值越小代表預(yù)測(cè)框定位得越準(zhǔn);分類(lèi)損失用于衡量錨框與對(duì)應(yīng)的標(biāo)定分類(lèi)是否正確,值越小代表分類(lèi)越準(zhǔn)確;分布焦點(diǎn)損失用于校正模型在預(yù)測(cè)物體邊界框時(shí)的誤差,值越小代表模型在預(yù)測(cè)邊界框方面的性能越好。由圖6 可以看出,模型損失值隨訓(xùn)練次數(shù)增加而不斷減小并趨于穩(wěn)定,曲線(xiàn)擬合狀態(tài)好,準(zhǔn)確率、召回率、mAP_0.5 和mAP_0.5:0.95 均趨向于1 并保持穩(wěn)定。綜合考慮模型的檢測(cè)準(zhǔn)確率、檢測(cè)時(shí)間以及模型權(quán)重大小,最終選擇YOLOv8n 作為檢測(cè)模型。
為解決巡檢機(jī)器人在目標(biāo)檢測(cè)過(guò)程中存在的問(wèn)題,進(jìn)一步提升模型檢測(cè)性能,本文將YOLOv8n 模型繼續(xù)進(jìn)行改進(jìn)優(yōu)化。由在模型主干結(jié)構(gòu)中引入注意力機(jī)制,將損失函數(shù)由CIoU 改為EIoU,并將預(yù)測(cè)框的選取由普通的NMS 改進(jìn)為更合理的Soft-NMS。改進(jìn)后的YOLOv8nxt 和YOLOv8n 模型訓(xùn)練的位置損失值和mAP_0.5:0.95,如圖7 所示。
圖7 2 種模型的訓(xùn)練結(jié)果對(duì)比圖
由圖7 可知,改進(jìn)模型YOLOv8nxt 和YOLOv8n的位置損失值均隨著訓(xùn)練次數(shù)增加而不斷下降,并逐漸趨于穩(wěn)定。改進(jìn)后的YOLOv8nxt 的位置損失值相較于改進(jìn)前的YOLOv8n 降低1.3%,實(shí)現(xiàn)了改進(jìn)策略所提出的要求,證明改進(jìn)策略使改進(jìn)模型具有更高的定位精度。如圖7(b)所示,YOLOv8nxt 和YOLOv8n在整個(gè)訓(xùn)練過(guò)程中mAP_0.5:0.95 逐漸接近于1,并在300 次訓(xùn)練后趨于穩(wěn)定,訓(xùn)練模型達(dá)到擬合,改進(jìn)后的YOLOv8nxt 相比于改進(jìn)前的YOLOv8n,其mAP_0.5:0.95 提高了1.9%,說(shuō)明改進(jìn)模型取得了較好的訓(xùn)練結(jié)果。
為進(jìn)一步評(píng)價(jià)改進(jìn)模型YOLOv8nxt 和未改進(jìn)模型YOLOv8n 的性能,將YOLOv8nxt 和YOLOv8n在測(cè)試集上進(jìn)行實(shí)驗(yàn),2 種模型的性能指標(biāo)和檢測(cè)結(jié)果比較見(jiàn)表3,2 種模型檢測(cè)結(jié)果對(duì)比如圖8所示。
表3 2 種模型的性能指標(biāo)和檢測(cè)結(jié)果比較
圖8 2 種模型檢測(cè)結(jié)果對(duì)比
由表3 可知,改進(jìn)的YOLOv8nxt 模型相較于YOLOv8n 模型檢測(cè)準(zhǔn)確率提高接近1%,檢測(cè)時(shí)間僅增加0.2 ms,改進(jìn)后模型尺寸也較接近,仍然適合部署在巡檢機(jī)器人上。由圖8 單儀表圖像對(duì)比可知,YOLOv8nxt 相較于YOLOv8n 不僅檢測(cè)結(jié)果置信度更高,檢測(cè)框的尺寸也更小,更加貼合儀表的實(shí)際位置,證明了引入注意力機(jī)制和改進(jìn)損失函數(shù)對(duì)于提高目標(biāo)檢測(cè)能力的有效性;由圖8 多儀表圖像對(duì)比可知,對(duì)于被部分遮擋的儀表,YOLOv8nxt 模型在YOLOv8n 模型漏檢的情況下仍能順利檢測(cè)到目標(biāo),證明NMS 的改進(jìn)可以增強(qiáng)算法對(duì)被遮擋目標(biāo)的識(shí)別能力。
本文針對(duì)巡檢機(jī)器人在儀表檢測(cè)階段存在的識(shí)別精度不足和受遮擋時(shí)識(shí)別效果較差等問(wèn)題,同時(shí)考慮目標(biāo)檢測(cè)模型在巡檢機(jī)器人的部署,首先通過(guò)實(shí)驗(yàn)在YOLOv8 的5 個(gè)預(yù)訓(xùn)練模型中選擇適合本文的預(yù)訓(xùn)練模型YOLOv8n,其次通過(guò)增加注意力機(jī)制、替換損失函數(shù)為EIoU 和替換NMS 函數(shù)為Soft-NMS 3種方式對(duì)原模型進(jìn)行改進(jìn)。實(shí)驗(yàn)結(jié)果表明,通過(guò)實(shí)驗(yàn)選取的YOLOv8n 模型更適合巡檢機(jī)器人的目標(biāo)任務(wù),且改進(jìn)后的目標(biāo)檢測(cè)模型YOLOv8nxt 與改進(jìn)前的YOLOv8n 相比,位置損失值降低1.3%,mAP_0.5:0.95提高了1.9%,檢測(cè)準(zhǔn)確度率提高了0.87%,證明改進(jìn)后的模型對(duì)目標(biāo)的檢測(cè)能力有顯著提升,魯棒性強(qiáng);在改進(jìn)模型的性能后,模型大小僅為6.2 M,檢測(cè)時(shí)間也僅增加了0.2 ms,說(shuō)明該模型既能滿(mǎn)足識(shí)別精度要求,又同時(shí)滿(mǎn)足檢測(cè)速度要求,能有效解決巡檢機(jī)器人在目標(biāo)檢測(cè)階段存在的問(wèn)題。本文改進(jìn)的儀表檢測(cè)模型雖然在檢測(cè)效果方面表現(xiàn)良好,但對(duì)指針式儀表的具體朝向沒(méi)有明確的感知,在算法檢測(cè)到儀表的條件下,還需要額外輸入表盤(pán)角度信息才能保證后續(xù)儀表讀數(shù)工作的順利開(kāi)展。今后的工作將圍繞3D 目標(biāo)檢測(cè)方向開(kāi)展,在檢測(cè)儀表的同時(shí)判斷儀表的傾斜角度,以提升研究的實(shí)用價(jià)值。