范天浩 ,顧寄南 ,王文波 ,左 宇 ,季 晨 ,侯征輝 ,盧寶勇 ,董鈞逸
(江蘇大學(xué)機(jī)械工程學(xué)院,鎮(zhèn)江 212013)
金銀花是一種廣泛分布于中國(guó)各省的草本植物,種植面積大,品種多,具有較高的藥用價(jià)值[1],其功效主要是清熱解毒,消炎退腫,尤其主治發(fā)炎發(fā)熱[2-3],且保存和沖泡方便,因此也有較高的經(jīng)濟(jì)價(jià)值。目前金銀花的采摘方式主要是依靠農(nóng)民手工采摘或者采用小型手持采摘器采摘,費(fèi)時(shí)費(fèi)力,效率低下。在現(xiàn)代農(nóng)業(yè)生產(chǎn)中,農(nóng)業(yè)采摘越來(lái)越偏向機(jī)械化和智能化,越來(lái)越多的采摘機(jī)器人投入生產(chǎn)使用,并逐步代替人類勞動(dòng)力,但是目前尚未有成型的金銀花采摘機(jī)器人。為解決目前金銀花人工采摘操作不便,效率不高的問(wèn)題,有必要設(shè)計(jì)一種金銀花采摘機(jī)器人,而實(shí)現(xiàn)金銀花的識(shí)別及模型輕量化是設(shè)計(jì)采摘機(jī)器人的基礎(chǔ)。
由于人工智能技術(shù)的發(fā)展,許多基于圖像處理和機(jī)器學(xué)習(xí)的目標(biāo)檢測(cè)方法開(kāi)始應(yīng)用于農(nóng)業(yè)采摘領(lǐng)域。呂小蓮等[4]針對(duì)采摘機(jī)器人對(duì)西紅柿識(shí)別不準(zhǔn)的情況,建立了基于色差信息改進(jìn)Ostu 分割算法的識(shí)別模型,準(zhǔn)確率可達(dá)98%以上。熊俊濤等[5]選取HSV 顏色模型進(jìn)行閾值分割,并利用模糊C-均值聚類法(fuzzy c-means, FCM)對(duì)圖像中荔枝果實(shí)和果梗進(jìn)行分割,提高了識(shí)別準(zhǔn)確率。BAI 等[6]針對(duì)成熟番茄的定位不準(zhǔn)確問(wèn)題,提出了一種結(jié)合霍夫圓檢測(cè)和輪廓擬合的采摘點(diǎn)定位方法,能夠達(dá)到理想的識(shí)別效果。
但使用傳統(tǒng)機(jī)器學(xué)習(xí)對(duì)農(nóng)作物進(jìn)行目標(biāo)檢測(cè)的方法容易受到地形、天氣、相機(jī)和農(nóng)作物之間距離等因素的影響,而且需要人工輸入特征并調(diào)整特征的閾值,訓(xùn)練時(shí)間較長(zhǎng)且精度較低,因此在復(fù)雜情況下難以獲得準(zhǔn)確的識(shí)別效果。近年來(lái),隨著計(jì)算機(jī)硬件的升級(jí),神經(jīng)網(wǎng)絡(luò)算法的創(chuàng)新以及智能化設(shè)備的需求擴(kuò)大,深度學(xué)習(xí)方法逐漸應(yīng)用于農(nóng)業(yè)生產(chǎn),特別是農(nóng)業(yè)機(jī)器人采摘領(lǐng)域。ZHENG 等[7]提出了一種新的骨干網(wǎng)絡(luò)R-CSPDarknet53,以提高遠(yuǎn)距離小目標(biāo)水果的檢測(cè)精度。LI 等[8]通過(guò)調(diào)整檢測(cè)層的數(shù)量并引入BiFPN(加權(quán)雙向特征金字塔網(wǎng)絡(luò))模塊,提高了模型的檢測(cè)精度,同時(shí)引入深度可分離卷積和Ghost 模塊,降低模型的復(fù)雜性,便于之后移動(dòng)端的部署。WANG 等[9]提出一種DSE(細(xì)節(jié)語(yǔ)義增強(qiáng))模塊用于檢測(cè)小水果,該模塊利用逐點(diǎn)卷積和擴(kuò)展卷積來(lái)提取水平和垂直維度上的各種細(xì)節(jié)和語(yǔ)義特征,同時(shí)構(gòu)造了指數(shù)增強(qiáng)二叉熵(EBCE)和雙增強(qiáng)均方誤差(DEMSE)損失函數(shù),提高了小目標(biāo)物體的識(shí)別精度。
近年來(lái),越來(lái)越多學(xué)者在研究模型輕量化方面做出貢獻(xiàn),通過(guò)減少模型的參數(shù)量、計(jì)算量和權(quán)重大小,使之更加方便部署到移動(dòng)端。林森等[10]提出一種基于改進(jìn)YOLOv5 的水下珍品檢測(cè)方法,通過(guò)引入注意力機(jī)制和Ghost 模塊,提升了識(shí)別準(zhǔn)確率并且降低了網(wǎng)絡(luò)的參數(shù)。王政等[11]通過(guò)剪枝操作降低了網(wǎng)絡(luò)的參數(shù)量并提高了檢測(cè)速度。尚鈺瑩等[12]提出了一種基于 YOLOv5s 深度學(xué)習(xí)的蘋果花朵檢測(cè)方法,經(jīng)過(guò)對(duì)比發(fā)現(xiàn)YOLOv5 模型具有較高的精度及較快的速度。龔惟新等[13]在 YOLOv5s基礎(chǔ)上引入 C3HB 模塊和交叉注意力模塊,實(shí)現(xiàn)了模型的輕量化。
以上研究提出了很多應(yīng)用于農(nóng)業(yè)采摘領(lǐng)域的算法,在農(nóng)作物識(shí)別方面取得了很大的突破,但是目前鮮有針對(duì)金銀花采摘提出目標(biāo)識(shí)別方法。本文針對(duì)現(xiàn)有目標(biāo)檢測(cè)模型在識(shí)別金銀花時(shí)存在精度較低、參數(shù)量和計(jì)算量較高、模型權(quán)重占用內(nèi)存較大、不利于移動(dòng)端部署等問(wèn)題,開(kāi)展關(guān)于金銀花目標(biāo)檢測(cè)模型的輕量化研究,通過(guò)把YOLOv5s 模型Backbone 層中的主干網(wǎng)絡(luò)替換為EfficientNet 輕量化模型中的主干網(wǎng)絡(luò),實(shí)現(xiàn)模型輕量化,同時(shí)針對(duì)模型精度較低問(wèn)題,將Neck 層中的上采樣模塊替換為CARAFE 上采樣模塊,提高模型對(duì)于金銀花的識(shí)別精度,提高采摘效率,為金銀花采摘機(jī)器人的設(shè)計(jì)提供參考。
1.1.1 圖像獲取
金銀花圖像的采集地為江蘇省鎮(zhèn)江市京口區(qū)衡山,拍攝日期為2022 年5 月中旬至6 月中旬期間,拍攝時(shí)間為09:00 至15:00,拍攝設(shè)備為手機(jī),在自然光下拍攝,采集不同環(huán)境條件下的圖像,其中包括順光、逆光、近距離、遠(yuǎn)距離、俯角、仰角等多種情況,盡可能提高數(shù)據(jù)的多樣性,提高模型的泛化能力,共得到金銀花圖像共2 198 張,分辨率為544×960 像素。后期對(duì)采集的圖像進(jìn)行人工篩選,去除因拍攝因素或天氣原因存在的不清晰圖像,去除距離較遠(yuǎn)的模糊圖像和不存在金銀花的圖像后,共得到金銀花圖像1 430 張,其中包括未開(kāi)苞和已開(kāi)苞的金銀花,部分采集的圖像如圖1 所示。為提高模型的識(shí)別精度,應(yīng)該盡可能提供多種環(huán)境下的金銀花圖像,所以從網(wǎng)絡(luò)選取部分金銀花圖像加入自己所拍攝的圖像集中,得到金銀花數(shù)據(jù)集,共有1 456 張圖像。
圖1 圖1 部分采集圖像Fig.1 Partially captured images
1.1.2 數(shù)據(jù)集制作
通過(guò)LabelImg 標(biāo)注軟件對(duì)數(shù)據(jù)集中的1 456 張金銀花圖像進(jìn)行標(biāo)注,用水平矩形框?qū)D像中的金銀花框出。因本研究著重為了識(shí)別金銀花,開(kāi)苞與未開(kāi)苞的金銀花均可進(jìn)行采摘,所以將數(shù)據(jù)集中的所有金銀花標(biāo)注為同一類別。同時(shí),拍攝圖像的遠(yuǎn)處背景中存在金銀花虛化且不易見(jiàn)的情況,為了減少標(biāo)注難度,不對(duì)一張圖像中像素小于20×20 以及被遮擋部分超過(guò)70%的金銀花進(jìn)行標(biāo)注,保存標(biāo)注信息為txt 格式。目前主流的小數(shù)據(jù)集劃分通常按照8∶2 或9∶1 的比例劃分訓(xùn)練集和驗(yàn)證集,為了盡可能減少訓(xùn)練集過(guò)多帶來(lái)的過(guò)擬合現(xiàn)象且提高訓(xùn)練的精度,按照85%和15%的比例將圖像集劃分為訓(xùn)練集和驗(yàn)證集,其中訓(xùn)練集1 238 張,驗(yàn)證集218 張。
目前,主流的目標(biāo)檢測(cè)模型分為二階段模型(twostage)和一階段模型(one-stage)兩種。其中,二階段目標(biāo)檢測(cè)模型首先生成候選目標(biāo)區(qū)域(region proposal),然后利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本的分類和回歸,代表性的網(wǎng)絡(luò)模型有R-CNN[14]、SPP-Net[15]、Fast R-CNN[16]、Faster R-CNN[17]和R-FCN[18]等。一階段目標(biāo)檢測(cè)模型直接在網(wǎng)絡(luò)中提取特征,預(yù)測(cè)物體的類別和位置,其特點(diǎn)是減少了網(wǎng)絡(luò)的訓(xùn)練時(shí)間和模型的復(fù)雜程度,速度較快,更適合移動(dòng)端的部署,代表性的網(wǎng)絡(luò)模型有SSD[19]、RetinaNet[20]和YOLO[21-24]系列等。
YOLOv5 相比于之前的YOLO 系列目標(biāo)檢測(cè)模型更加注重小目標(biāo)的檢測(cè),而且擁有較高的精度和速度。YOLOv5 一共給出了5 個(gè)版本,按照模型大小從小到大排列,分別是 YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLO5x。這些模型的寬度和深度不同,使得YOLOv5 能適用不同的數(shù)據(jù)集,方便用戶進(jìn)行選擇。因?yàn)楸狙芯恐蛔R(shí)別金銀花一個(gè)類別,且考慮到需要實(shí)時(shí)檢測(cè)和方便部署,所以采用參數(shù)量和計(jì)算量較少的YOLOv5s 模型作為基礎(chǔ)模型,YOLOv5s 模型結(jié)構(gòu)如圖2 所示。
圖2 YOLOv5s 模型結(jié)構(gòu)Fig.2 YOLOv5s model structure
YOLOv5s 目標(biāo)檢測(cè)模型主要包括輸入層(Input)、主干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)和預(yù)測(cè)層(Detect)4個(gè)部分。輸入層的作用是將圖像傳入模型,對(duì)其進(jìn)行預(yù)處理操作;主干網(wǎng)絡(luò)的作用是對(duì)圖像進(jìn)行特征提取,YOLOv5s 模型主干網(wǎng)絡(luò)采用CSPDarkNet53 結(jié)構(gòu);Neck層的作用是對(duì)主干網(wǎng)絡(luò)提取的特征進(jìn)行特征融合,使用特征金字塔網(wǎng)絡(luò)[25](feature pyramid network, FPN)和路徑聚合網(wǎng)絡(luò)[26](path aggregation network, PAN)來(lái)增強(qiáng)特征的融合程度,提高了網(wǎng)絡(luò)對(duì)不同特征層特征的識(shí)別能力;Detect 層的作用是對(duì)3 個(gè)不同維度的特征進(jìn)行預(yù)測(cè),得到網(wǎng)絡(luò)預(yù)測(cè)的類別和位置信息。
YOLOv5s 目標(biāo)檢測(cè)模型由于其較高的識(shí)別精度和較快的識(shí)別速度,目前已大量運(yùn)用在農(nóng)業(yè)領(lǐng)域[27-28]。近幾年來(lái)目標(biāo)檢測(cè)領(lǐng)域快速發(fā)展,YOLO 系列更新迭代較快,目前已推出YOLOv7、YOLOv8 等版本并改進(jìn)[29-30],但目前目標(biāo)檢測(cè)方面的文獻(xiàn)多數(shù)是圍繞五代開(kāi)展的 ,采用YOLOv5 方便進(jìn)行對(duì)比和改進(jìn),且部署和加速也是使用v5 居多,而且由于迭代較快,實(shí)質(zhì)上YOLOv5 之后的系列網(wǎng)絡(luò)版本相差不大。因此,本研究使用YOLOv5s 為基礎(chǔ)模型來(lái)識(shí)別金銀花,并在此基礎(chǔ)上進(jìn)行輕量化改進(jìn),使其更適合部署在移動(dòng)端設(shè)備上。
EfficientNet[31]是TAN 在2019 年提出的一種輕量化卷積神經(jīng)網(wǎng)絡(luò)模型。它不僅能通過(guò)增加網(wǎng)絡(luò)的通道數(shù)、增加網(wǎng)絡(luò)的層數(shù)和提高圖像的分辨率來(lái)提高特征提取能力,提高模型的識(shí)別精度,而且能夠有效避免出現(xiàn)梯度消失,計(jì)算量增大等問(wèn)題,從而取得最佳結(jié)果。與傳統(tǒng)網(wǎng)絡(luò)相比,EfficientNet 首先通過(guò)NAS(neural architecture search)技術(shù)搜索出了EfficientNetB0 的結(jié)構(gòu),如表1 所示,此外,它還提出了一個(gè)混合縮放方法(compound scaling method),以獲得最佳的網(wǎng)絡(luò)寬度、深度和輸入圖像分辨率縮放系數(shù),并且通過(guò)這個(gè)系數(shù)對(duì)網(wǎng)絡(luò)的寬度、深度和輸入圖像分辨率進(jìn)行縮放。與其他輕量化卷積神經(jīng)網(wǎng)絡(luò)相比,EfficientNet 的優(yōu)點(diǎn)在于能夠更好地平衡訓(xùn)練速度和精度,使網(wǎng)絡(luò)的訓(xùn)練更加有效。
表1 EfficientNetB0 結(jié)構(gòu)Table 1 EfficientNetB0 structure
在EfficientNetB0 結(jié)構(gòu)中,階段1 是包含卷積核大小為3×3,步距為2 的卷積、 BN 層、Swish 激活函數(shù)的卷積層,階段2-8 是重復(fù)堆疊的MBConv 結(jié)構(gòu),如圖3 所示,目的是通過(guò)提升網(wǎng)絡(luò)的寬度和深度來(lái)提高網(wǎng)絡(luò)對(duì)于特征的提取能力;而階段9 是由一個(gè)卷積核大小為1×1的卷積層,一個(gè)Pooling(平均池化層)和一個(gè)FC(fully connected layer)全連接層組成,目的是將階段2-8 中提取的特征進(jìn)行輸出;表1 中MBConv1 在特征提取時(shí)不擴(kuò)充特征的通道數(shù),MBConv6 表示將特征的通道數(shù)擴(kuò)充為輸入特征通道數(shù)的6 倍,目的是將特征在通道維度上進(jìn)行擴(kuò)充;k3×3 表示在MBConv 結(jié)構(gòu)中采用卷積核大小為3×3 的卷積,k5×5 表示在MBConv 結(jié)構(gòu)中采用卷積核大小為5×5 的卷積。
圖3 MBConv 結(jié)構(gòu)Fig.3 MBConv structure
在MBConv 結(jié)構(gòu)中,第一個(gè)卷積層包含卷積核大小為1×1,步距為1 的卷積、BN 層和Swish 激活函數(shù),作用是擴(kuò)充特征的通道數(shù),當(dāng)Operator 為MBConv1 時(shí),輸出通道數(shù)和輸入通道數(shù)保持一致,不存在第一個(gè)模塊,當(dāng)Operator 為MBConv6 時(shí),輸出通道數(shù)擴(kuò)充為輸入通道數(shù)的6 倍;第二個(gè)模塊是一個(gè)卷積核大小為3×3 或5×5 的Depthwise Conv(深度可分離)[32]卷積,包含BN層和Swish 激活函數(shù)的卷積層,作用是減少模型的參數(shù)量和計(jì)算量;第三個(gè)模塊是SE[33]注意力機(jī)制模塊,作用是提高模型對(duì)特征的提取能力,提高模型的精度和識(shí)別效果;第四個(gè)模塊是卷積核大小為1×1,步距為1,包含BN 層和Swish 激活函數(shù)的卷積層,作用是降低特征的通道數(shù),使用方法和第一個(gè)模塊一致;第五個(gè)模塊是Dropout 層,根據(jù)所給參數(shù)的不同,按照一定的概率將神經(jīng)網(wǎng)絡(luò)中的權(quán)重暫時(shí)丟棄,防止該處權(quán)重過(guò)大,該模塊的作用是防止網(wǎng)絡(luò)訓(xùn)練時(shí)產(chǎn)生過(guò)擬合的現(xiàn)象;根據(jù)Layers 參數(shù)的不同,在一個(gè)Stage 中,當(dāng)?shù)谖鍌€(gè)模塊的輸出與MBConv 結(jié)構(gòu)的輸入特征大小一致時(shí),將Dropout 模塊的輸出結(jié)果和MBConv 結(jié)構(gòu)的輸入特征進(jìn)行殘差連接,得到MBConv 結(jié)構(gòu)的輸出結(jié)果,若第五個(gè)模塊的輸出與MBConv 結(jié)構(gòu)的輸入特征大小不一致時(shí),不進(jìn)行殘差連接,直接輸出Dropout 模塊之后的結(jié)果作為MBConv 結(jié)構(gòu)的輸出。
目前,在圖像分類和目標(biāo)檢測(cè)的網(wǎng)絡(luò)模型中,上采樣[34]是一個(gè)非常重要的操作,尤其是在特征金字塔網(wǎng)絡(luò)(feature pyramid networks, FPN)中得到了顯著的應(yīng)用。當(dāng)前主流的上采樣方法分為兩種,插值上采樣和反卷積上采樣。插值上采樣主要有最臨近上采樣和雙線性上采樣,但是他們只關(guān)注到了局部的特征,忽視了特征圖全局的語(yǔ)義信息,且感受野較小,不能準(zhǔn)確反映圖像的全局特征。反卷積上采樣在特征圖中進(jìn)行上采樣時(shí)使用同一個(gè)卷積核,不能針對(duì)特征進(jìn)行調(diào)整,從而忽視了圖像的部分語(yǔ)義特征,這會(huì)導(dǎo)致引入較大的參數(shù)量和計(jì)算量,同時(shí)會(huì)增加訓(xùn)練的時(shí)長(zhǎng),不適用于輕量化的網(wǎng)絡(luò)模型。針對(duì)以上上采樣方法的不足之處,本研究使用CARAFE[35]上采樣替換YOLOv5s 模型中原本的插值上采樣模塊,CARAFE 上采樣模塊的具體結(jié)構(gòu)如圖4 所示。
圖4 CARAFE 上采樣模塊Fig.4 CARAFE Upsampling module
CARAFE 上采樣主要分為核預(yù)測(cè)模塊(kernel prediction module)和重組模塊(content-aware reassembly module)。首先,特征圖像被傳入核預(yù)測(cè)模塊,用一個(gè)卷積核為1×1 的卷積進(jìn)行降維處理,將原本的通道數(shù)C降為Cm,Cm表示降維后的特征層通道數(shù),如式(1)所示:
其中σ 為上采樣的倍數(shù),通常為2,Kup為預(yù)測(cè)的上采樣核的大小。
通過(guò)使用pixelshuffle[36]方法,將特征圖的高、寬、通道數(shù)依次reshape(重組)為σH、σW、Kup×Kup,得到預(yù)測(cè)的上采樣核,對(duì)預(yù)測(cè)結(jié)果進(jìn)行Softmax 歸一化處理;然后將特征圖像傳入重組模塊,使每一層特征圖上的特征與預(yù)測(cè)的上采樣核進(jìn)行乘積,得到的結(jié)果即為上采樣的結(jié)果。由于CARAFE 上采樣能夠針對(duì)不同的特征分別生成不同的上采樣核,關(guān)注到了特征在全局特征圖中的分布,提高了關(guān)注目標(biāo)特征的權(quán)重大小。因此相比起插值上采樣方法,該方法能夠在略微提高參數(shù)量的基礎(chǔ)上,提高上采樣時(shí)對(duì)于重要特征的識(shí)別能力,提高了網(wǎng)絡(luò)對(duì)特征的提取能力。
由于EfficientNet 輕量化網(wǎng)絡(luò)能夠有效減少模型的參數(shù)量和計(jì)算量,減小生成模型權(quán)重的大小,同時(shí)還不會(huì)造成太多的精度下降,因此將YOLOv5s 的Backbone 層中的主干網(wǎng)絡(luò)替換為EfficientNet 的主干網(wǎng)絡(luò),同時(shí)保留原本YOLOv5s 中的SPPF 模塊,目的是能夠在減少參數(shù)量和計(jì)算量的同時(shí),對(duì)不同特征層的特征進(jìn)行融合,提高模型對(duì)于特征的提取能力,從而提高模型的訓(xùn)練精度;為了彌補(bǔ)EfficientNet 輕量化網(wǎng)絡(luò)帶來(lái)的精度不足問(wèn)題,將YOLOv5s 網(wǎng)絡(luò)模型Neck 層中的插值上采樣模塊替換為CARAFE 上采樣模塊,針對(duì)不同的特征生成不同的上采樣核,提高了上采樣時(shí)對(duì)于全局特征的識(shí)別能力,目的是能夠在略微提高參數(shù)量的同時(shí),提高模型對(duì)于特征的提取能力,從而提高模型的檢測(cè)精度,改進(jìn)后的輕量化YOLOv5s 模型結(jié)構(gòu)如圖5 所示。
圖5 輕量化YOLOv5s 網(wǎng)絡(luò)模型Fig.5 Lightweight YOLOv5s network structure
本研究模型均在Windows 10 操作系統(tǒng)下進(jìn)行訓(xùn)練,使用的CPU 為Intel i5-12600kf,GPU 為NVIDIA GTX 3 070顯卡,顯存為8 GB,主機(jī)內(nèi)存為32 GB,CUDA 版本為11.3.1,Cudnn 版本為8.4.0,Python 版本為3.9,使用Pytorch 深度學(xué)習(xí)框架,Pytorch 版本為1.12.1,torchvision版本為0.13.1,torchaudio 版本為0.12.1。
訓(xùn)練過(guò)程中,設(shè)置圖片輸入尺寸為640×640 像素,批量大小設(shè)置為16,進(jìn)程works 設(shè)置為4,使用隨機(jī)梯度下降(stochastic gradient descent, SGD)作為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.05,動(dòng)量設(shè)置為0.937,權(quán)重衰退系數(shù)設(shè)為0.1,訓(xùn)練輪數(shù)設(shè)置為400 輪。
本研究主要采用精確度P(Precision),召回率R(Recall),平均精度均值(mAP)來(lái)體現(xiàn)模型的訓(xùn)練精度;采用參數(shù)量(parameters),計(jì)算量(computation),模型權(quán)重大小來(lái)體現(xiàn)模型的復(fù)雜程度;采用幀率(FPS)來(lái)體現(xiàn)模型實(shí)時(shí)檢測(cè)性能。其中精確度P表示所有樣本中預(yù)測(cè)正確樣本所占的比例,如式(2)所示:
召回率R表示預(yù)測(cè)正確樣本占所有正樣本的比例,如式(3)所示:
平均精度均值mAP 即為平均精度(average precision,AP)的均值,平均精度AP 即為P-R曲線的面積,如式(4)所示:
式中TP表示被正確預(yù)測(cè)為正樣本的數(shù)量,F(xiàn)P表示被錯(cuò)誤預(yù)測(cè)為正樣本的數(shù)量,F(xiàn)N表示被錯(cuò)誤預(yù)測(cè)為負(fù)樣本的數(shù)量,N表示類別的數(shù)量,在本研究中只討論金銀花一個(gè)類別,故此時(shí)N=1。
比較兩組護(hù)士生的理論考核成績(jī),由考核組教師統(tǒng)一命題、統(tǒng)一閱卷,滿分為100分;實(shí)踐操作能力和溝通能力,由考核組教師統(tǒng)一制作評(píng)估表,評(píng)估全部護(hù)士生的病情觀察、體格檢查、護(hù)理操作、溝通交流等能力,實(shí)踐操作能力和溝通能力的滿分均為100分。
3.3.1 輕量化網(wǎng)絡(luò)消融試驗(yàn)分析
本節(jié)主要對(duì)2.3 小結(jié)改進(jìn)的輕量化網(wǎng)絡(luò)模型進(jìn)行分析和驗(yàn)證。針對(duì)原始YOLOv5s 目標(biāo)檢測(cè)模型參數(shù)量和計(jì)算量較多,模型權(quán)重文件占用內(nèi)存較大的問(wèn)題,本研究改進(jìn)了YOLOv5s 網(wǎng)絡(luò)的結(jié)構(gòu),引入EfficientNet 輕量化模型的主干結(jié)構(gòu),并且將Neck 層中的上采樣替換為CARAFE 上采樣,在減少參數(shù)量和計(jì)算量的同時(shí)提高了模型的精度,使其更適用于金銀花的識(shí)別及后期的部署?;赮OLOv5s 做了輕量化改進(jìn)并進(jìn)行消融試驗(yàn),具體試驗(yàn)結(jié)果如表2 所示。
表2 輕量化模型消融試驗(yàn)結(jié)果Table 2 Ablation test result of lightweight model
根據(jù)表2 的消融試驗(yàn)可得出,使用EfficientNet 模型的主干網(wǎng)絡(luò)替換YOLOv5s 原始模型的主干網(wǎng)絡(luò),可以在基本保持mAP 不變,略微降低召回率的情況下,大幅減少模型的參數(shù)量和計(jì)算量,同時(shí)也能夠減少模型生成的權(quán)重文件大小,分析原因在于EfficientNet 模型的主干網(wǎng)絡(luò)使用了深度可分離卷積,極大減少了模型在普通卷積時(shí)所產(chǎn)生的參數(shù)量和計(jì)算量,同時(shí)擴(kuò)充了網(wǎng)絡(luò)的寬度,深度和分辨率,保證了網(wǎng)絡(luò)輕量化的同時(shí)又具有較高的識(shí)別精度;從消融試驗(yàn)中還可以看出,替換CARAFE 上采樣后,相比原始YOLOv5s 網(wǎng)絡(luò)能夠有效提升模型的精確度,召回率和平均精度,分別提升1.6,1.5 和0.9個(gè)百分點(diǎn),但是同樣也會(huì)帶來(lái)輕微的參數(shù)量和計(jì)算量提升,分析原因在于由于CARAFE 上采樣針對(duì)不同特征層采用不同的上采樣核,相比傳統(tǒng)插值上采樣更能關(guān)注特征的全局信息,而不是只關(guān)注局部信息,因此會(huì)帶來(lái)精度的提升,但同時(shí)由于需要預(yù)測(cè)不同的上采樣核,也會(huì)相應(yīng)帶來(lái)參數(shù)量和計(jì)算量的上漲。
通過(guò)消融試驗(yàn)對(duì)比也可看出,對(duì)模型進(jìn)行輕量化改進(jìn)之后,召回率R會(huì)出現(xiàn)輕微的下降,經(jīng)分析發(fā)現(xiàn)輕量化模型會(huì)在一定程度上降低網(wǎng)絡(luò)的復(fù)雜程度,從而降低模型對(duì)于網(wǎng)絡(luò)的提取能力,這是網(wǎng)絡(luò)輕量化所無(wú)法避免的。然而,本研究中只對(duì)金銀花一個(gè)類別進(jìn)行識(shí)別,召回率對(duì)于金銀花識(shí)別的重要性弱于精確度和平均精度,且主要目標(biāo)是模型的輕量化,在精確度P和平均精度mAP 均有所提高的前提下,召回率R輕微下降所帶來(lái)的影響可以忽略不計(jì)。
綜合消融試驗(yàn),在平衡模型輕量化和識(shí)別精度的前提下,本研究采用EfficientNet+CARAFE 的改進(jìn)方法改進(jìn)基于YOLOv5s 的輕量化金銀花目標(biāo)檢測(cè)模型,并將其命名為EC-YOLOv5s 網(wǎng)絡(luò)。其相比于YOLOv5s 網(wǎng)絡(luò)模型,參數(shù)量?jī)H為原始模型的55.5%;計(jì)算量?jī)H為原始模型的49.4%;權(quán)重大小僅為原始模型的57.4%,并且精確度和平均精度達(dá)到了90.7%和91.8%,相比原始YOLOv5s 模型分別提高1.9 和0.6 個(gè)百分點(diǎn),能夠在達(dá)到輕量化目的的同時(shí)提高模型對(duì)于金銀花的識(shí)別精度。
3.3.2 不同算法對(duì)比試驗(yàn)分析
表3 不同模型對(duì)比試驗(yàn)結(jié)果Table 3 Comparison test results of different models
根據(jù)表3 的試驗(yàn)結(jié)果可以看出,F(xiàn)aster-RCNN 網(wǎng)絡(luò)模型的參數(shù)量和計(jì)算量較多,生成的權(quán)重較大,且mAP最低,分析為二階段目標(biāo)檢測(cè)模型不適用于此數(shù)據(jù)集;SSD 網(wǎng)絡(luò)模型的參數(shù)量和計(jì)算量均低于Faster-RCNN,權(quán)重也略有減少,mAP 提高到了80.7%,說(shuō)明對(duì)于此個(gè)金銀花數(shù)據(jù)集,一階段目標(biāo)檢測(cè)模型的結(jié)構(gòu)優(yōu)于二階段模型,但是參數(shù)量和計(jì)算量還是較大,不適合部署到移動(dòng)端,且識(shí)別精度不適用于精確采摘;YOLOv4 網(wǎng)絡(luò)模型的參數(shù)量最多,計(jì)算量和模型權(quán)重也較大,且精度較差,不適用于金銀花的識(shí)別;YOLOv6s 與YOLOv7-tiny網(wǎng)絡(luò)模型為YOLO 系列最近提出的算法,其中tiny 輕量化模型在擁有較少的參數(shù)量和計(jì)算量的前提下獲得了不錯(cuò)的精度,而v6s 模型在此基礎(chǔ)上提高參數(shù)量和計(jì)算量,同時(shí)也提高了模型的精度,但還是存在模型權(quán)重過(guò)大的問(wèn)題;EC-YOLOv5s 與原始YOLOv5s 網(wǎng)絡(luò)的對(duì)比在3.2.1 節(jié)消融試驗(yàn)中已經(jīng)說(shuō)明。此外,一般實(shí)時(shí)檢測(cè)要求每秒檢測(cè)圖片張數(shù)大于24,根據(jù)表中可以看出,改進(jìn)后的網(wǎng)絡(luò)模型EC-YOLOv5s 檢測(cè)速度優(yōu)于包括YOLOv7 在內(nèi)的所有模型,僅略低于原始的YOLOv5s 模型,分析原因在于更換了Neck 層的上采樣后略微提高了模型的推理時(shí)間,但是還是遠(yuǎn)大于24 幀/s 的最低要求,能夠完成實(shí)時(shí)檢測(cè)的任務(wù)。
從試驗(yàn)結(jié)果可以看出,改進(jìn)后的網(wǎng)絡(luò)模型ECYOLOv5s 在替換了EfficientNet主干網(wǎng)絡(luò)和替換了CARAFE 上采樣之后擁有最少的參數(shù)量和計(jì)算量,生成的權(quán)重文件最小,且其mAP 最高,在輕量化的同時(shí)實(shí)現(xiàn)了最高的識(shí)別精度,且檢測(cè)速度較高,能滿足實(shí)時(shí)檢測(cè)的需求。
3.3.3 結(jié)果分析
不同目標(biāo)檢測(cè)模型對(duì)金銀花的識(shí)別效果如圖6 所示。
圖6 不同模型對(duì)于金銀花的識(shí)別效果Fig.6 Recognition effects of different models on honeysuckle
由結(jié)果可以看出,對(duì)于不同光線和不同形態(tài)的金銀花,改進(jìn)后的輕量化模型識(shí)別效果優(yōu)于其他目標(biāo)檢測(cè)模型,能夠準(zhǔn)確識(shí)別出金銀花的位置,置信度較高,預(yù)測(cè)框能夠完整地包裹住金銀花和識(shí)別出重疊的金銀花,且不存在漏檢的情況;YOLOv4 網(wǎng)絡(luò)模型置信度較差,且不能完全識(shí)別出圖像中所有的金銀花,存在缺檢漏檢的情況,因此不適用于金銀花的識(shí)別;SSD 網(wǎng)絡(luò)模型雖然置信度較高,但也存在缺檢漏檢的情況,對(duì)于遮擋的金銀花識(shí)別效果不佳,不能對(duì)金銀花進(jìn)行精確的識(shí)別;Faster-RCNN 網(wǎng)絡(luò)模型雖然置信度較高,且能識(shí)別出遮擋的金銀花,但是對(duì)金銀花的位置識(shí)別準(zhǔn)確度不夠,預(yù)測(cè)框不能完整并準(zhǔn)確地包裹住金銀花,金銀花會(huì)超出預(yù)測(cè)框的范圍,這會(huì)影響金銀花的精確定位,影響下一步的采摘效果,且識(shí)別速度較低,不能滿足移動(dòng)端實(shí)時(shí)檢測(cè)的任務(wù);YOLOv6s、YOLOv7-tiny 模型對(duì)于金銀花的識(shí)別效果弱于YOLOv5s 和改進(jìn)后的EC-YOLOv5s 模型,分析原因在于YOLOv6、v7 系列網(wǎng)絡(luò)為最新推出的YOLO 系列識(shí)別模型,主要提升在于檢測(cè)多目標(biāo)物體,本數(shù)據(jù)集只存在金銀花一個(gè)類別,使用YOLOv5 為基礎(chǔ)模型的效果更優(yōu)。
根據(jù)對(duì)比試驗(yàn)和模型識(shí)別結(jié)果可以看出,基于YOLOv5s 改進(jìn)的輕量化金銀花目標(biāo)檢測(cè)模型不但擁有最小的參數(shù)量和計(jì)算量,生成的模型權(quán)重最小;而且在識(shí)別金銀花時(shí)效果最好,擁有最高的mAP 精度,能夠準(zhǔn)確識(shí)別被遮擋的金銀花,不存在缺檢漏檢的情況,不會(huì)出現(xiàn)檢測(cè)框未能完全包裹金銀花的情況,且檢測(cè)速度能滿足實(shí)時(shí)檢測(cè)的需求。綜上可知,改進(jìn)后的模型能夠較好地滿足識(shí)別金銀花的需求,且權(quán)重較低,更適合移動(dòng)端的部署和日后集成到采摘機(jī)器人上。
本文在YOLOv5s 目標(biāo)檢測(cè)模型的基礎(chǔ)上進(jìn)行改進(jìn),替換了模型Backbone 層中的主干網(wǎng)絡(luò),并且替換了Neck層中的上采樣模塊,在減少模型參數(shù)量和計(jì)算量的同時(shí),降低了模型的權(quán)重,提高了檢測(cè)的精度,提高了對(duì)金銀花的識(shí)別效率且使其更方便部署在移動(dòng)端上。通過(guò)對(duì)改進(jìn)后的模型進(jìn)行消融試驗(yàn)和與其他目標(biāo)檢測(cè)模型進(jìn)行的對(duì)比試驗(yàn),可以得出以下結(jié)論:
1)用EfficientNet 輕量化模型的主干網(wǎng)絡(luò)替換YOLOv5s 的主干網(wǎng)絡(luò),實(shí)現(xiàn)了模型的輕量化;并將Neck 層中的上采樣模塊替換為CARAFE 上采樣模塊,改進(jìn)后的輕量化模型參數(shù)量?jī)H為原始YOLOv5s 模型的55.5%;計(jì)算量?jī)H為原始模型的49.4%;模型權(quán)重僅為原始模型的57.4%,并且精確度和平均精度達(dá)到了90.7%和91.8%,相比原始YOLOv5s 模型分別提高1.9 和0.6個(gè)百分點(diǎn),說(shuō)明改進(jìn)后的模型在輕量化的同時(shí)也具有較高的識(shí)別精度。
2)改進(jìn)后輕量化網(wǎng)絡(luò)檢測(cè)效果優(yōu)于原始YOLOv5s網(wǎng)絡(luò),且優(yōu)于更為先進(jìn)的YOLOv6、YOLOv7 網(wǎng)絡(luò)模型。相比于目前主流的目標(biāo)檢測(cè)模型,改進(jìn)后的輕量化模型對(duì)于金銀花的識(shí)別效果更好,能精準(zhǔn)識(shí)別重疊和被遮擋的金銀花,且速度較快,能滿足實(shí)時(shí)檢測(cè)的需求,驗(yàn)證了本文改進(jìn)的輕量化金銀花目標(biāo)檢測(cè)模型的可行性,為下一步金銀花采摘機(jī)器人的設(shè)計(jì)提供了參考。