摘 "要: 針對(duì)傳統(tǒng)目標(biāo)檢測(cè)算法在處理具有復(fù)雜紋理木刻雕版圖像時(shí)存在漏檢、參數(shù)量大、檢測(cè)和推理速度慢等問(wèn)題,通過(guò)改進(jìn)YOLOv5s模型,提出一種輕量化目標(biāo)檢測(cè)算法。首先,采用FasterNet作為特征提取模塊,解決原始YOLOv5s參數(shù)量大、運(yùn)行時(shí)間長(zhǎng)以及算法要求高等問(wèn)題;其次,在特征提取網(wǎng)絡(luò)后添加坐標(biāo)注意力機(jī)制以提高模型對(duì)木刻雕版元素特征的提取能力;最后,引入輕量化上采樣CARAFE,減少上采樣過(guò)程中特征信息的損失并提升模型的檢測(cè)精度。為了驗(yàn)證方法的有效性,文中在自己收集的數(shù)據(jù)上進(jìn)行測(cè)試,與初始YOLOv5s模型相比,改進(jìn)后的模型平均精度提升了2.2%,檢測(cè)速度提升了46.53%。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的模型可以快速定位和識(shí)別木刻雕版元素,實(shí)現(xiàn)對(duì)初始模型的輕量化,可以有效部署于嵌入式設(shè)備和移動(dòng)設(shè)備。
關(guān)鍵詞: YOLOv5s; 木刻雕版; FasterNet; 注意力機(jī)制; CARAFE; 輕量化目標(biāo)檢測(cè)
中圖分類號(hào): TN911.73?34; TP391 " " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " "文章編號(hào): 1004?373X(2024)21?0067?08
Research on woodcut engraving element detection method based on improved YOLOv5s
YANG Xin1, 2, CAIRANG Xianmu1, GAO Dingguo1, 2, XIA Jianjun1, 2, PUBU Danzeng1, ZHAO Qijun1, 2, 3
(1. School of Information Science and Technology, Tibet University, Lhasa 850000, China;
2. Tibetan Information Technology Innovative Talent Training Demonstration Base, Lhasa 850000, China;
3. School of Computer Science, Sichuan University, Chengdu 610065, China)
Abstract: The traditional object detection algorithms have the disadvantages of missing detection, a large quantity of parameters and slow detection and reasoning speed when processing images of woodcut engraving plates with complex textures. Therefore, a lightweight object detection algorithm is proposed by improving the YOLOv5s model. The FasterNet is taken as the feature extraction module to reduce the quantity of parameters, shorten the operation time and lower the algorithm requirements of the original YOLOv5s. The coordinate attention (CA) mechanism is added after the feature extraction network to improve the model′s ability to extract the features of woodcut engraving elements. The CARAFE (content?aware reassembly of features) is introduced to reduce the loss of feature information in the process of up?sampling and improve the detection accuracy of the model. The proposed method is tested with the data collected by the author himself to verify the effectiveness. In comparison with the initial YOLOv5s model, the average accuracy of the improved model is improved by 2.2% and its detection speed is increased by 46.53%. The experimental results show that the improved model can locate and identify the elements of woodcut engravings rapidly. The improved model is the lightweight of the initial model, and can be deployed in embedded and mobile devices effectively.
Keywords: YOLOv5s; woodcut engraving; FasterNet; attention mechanism; CARAFE; lightweight object detection
0 "引 "言
藏族木刻雕版是藏文化的活化石,承載了藏族人民的智慧,研究藏族木刻雕版可以更好地了解和尊重藏族文化,為非物質(zhì)文化遺產(chǎn)的保護(hù)和傳承做出貢獻(xiàn)[1]。木刻雕版因年代久遠(yuǎn)、儲(chǔ)存方式不當(dāng)?shù)仍?,出現(xiàn)了磨損或自然老化的情況,以致后續(xù)研究學(xué)者和文化愛(ài)好者在理解木刻雕版元素等內(nèi)容時(shí)遇到了一定的阻礙。深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)的發(fā)展為木刻雕版技藝的數(shù)字化保護(hù)和傳承提供了有效的解決方案。
目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向,采用深度學(xué)習(xí)算法對(duì)圖像和視頻內(nèi)容自動(dòng)識(shí)別和定位[2]。目標(biāo)檢測(cè)算法因?yàn)楦咝Ш涂焖俚葍?yōu)點(diǎn)已經(jīng)被廣泛應(yīng)用于自動(dòng)駕駛[3]、生物特征識(shí)別[4]和醫(yī)學(xué)影像分析[5]等多種領(lǐng)域。目標(biāo)檢測(cè)算法可以被劃分為兩大類:一類是依賴于傳統(tǒng)技術(shù)的算法;另一類則是利用深度學(xué)習(xí)技術(shù)的算法。傳統(tǒng)的目標(biāo)檢測(cè)方法主要基于手工設(shè)計(jì)的特征提取器和分類器,如方向梯度直方圖(Histogram of Gradient, HOG)特征[6]和支持向量機(jī)(Support Vector Machine, SVM)[7]等。傳統(tǒng)的方法在一些簡(jiǎn)單場(chǎng)景下表現(xiàn)良好,但在復(fù)雜背景情況下效果較差。近年來(lái),深度學(xué)習(xí)技術(shù)的興起極大地推動(dòng)了目標(biāo)檢測(cè)的發(fā)展,特別是隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的興起,目標(biāo)檢測(cè)技術(shù)獲得了顯著的突破和進(jìn)展。深度學(xué)習(xí)目標(biāo)檢測(cè)算法包括一次性完成檢測(cè)的單階段方法和分兩步走的兩階段方法。兩階段方法先生成候選框,再對(duì)候選框進(jìn)行分類和定位,典型算法有SPPnet(Spatial Pyramid Pooling Network)[8]和R?CNN[9]系列,其算法都采用一個(gè)區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network, RPN)來(lái)生成候選框,并使用一個(gè)分類器來(lái)判斷候選框是否包含目標(biāo)。以上目標(biāo)檢測(cè)算法的主要缺點(diǎn)是速度較慢,無(wú)法滿足實(shí)時(shí)目標(biāo)檢測(cè)的需求。與兩階段目標(biāo)檢測(cè)算法不同,SSD[10](Single Shot MultiBox Detector)算法是一種基于單階段檢測(cè)器的目標(biāo)檢測(cè)算法,其主要思想是調(diào)整卷積網(wǎng)絡(luò)的最后一層,將每個(gè)位置上的特征圖解釋為包含一組邊界框的概率分布。YOLO[11](You Only Look Once)系列算法是基于單階段檢測(cè)器的另一種目標(biāo)檢測(cè)算法,這些算法將目標(biāo)檢測(cè)問(wèn)題簡(jiǎn)化為一個(gè)回歸問(wèn)題,使用單個(gè)神經(jīng)網(wǎng)絡(luò)自底向上地預(yù)測(cè)邊界框和類別概率。相較于R?CNN系列和SSD算法,YOLO系列算法的檢測(cè)速度更快,且檢測(cè)效果更好。
綜上所述,如何有效、便捷地實(shí)現(xiàn)木刻雕版圖像元素自動(dòng)識(shí)別和定位已成為亟待研究的課題。然而,目前鮮有對(duì)木刻雕版元素方面的研究。為此,本文將單階段目標(biāo)檢測(cè)算法中綜合性能較好的YOLOv5模型應(yīng)用于木刻雕版數(shù)據(jù),但仍然存在參數(shù)量大、檢測(cè)和推理速度慢以及檢測(cè)精度低等問(wèn)題。為了解決上述問(wèn)題,本文在YOLOv5s的基礎(chǔ)上進(jìn)行了創(chuàng)新,設(shè)計(jì)出了一種優(yōu)化的算法。首先,采用FasterNet[12]作為特征提取模塊;其次,在特征提取網(wǎng)絡(luò)后添加坐標(biāo)注意力機(jī)制[13];最后,引入輕量化上采樣CARAFE(Content?aware Reassembly of Feature)[14]。有效實(shí)現(xiàn)木刻雕版元素的精準(zhǔn)定位和檢測(cè),有助于社會(huì)大眾以及藏文化愛(ài)好者深入理解藏族木刻雕版的版面元素,推動(dòng)藏文化的傳播與交流。
1 "方法概述
1.1 "YOLOv5s模型概述
YOLOv5s是一種單階段目標(biāo)檢測(cè)算法,與傳統(tǒng)的目標(biāo)檢測(cè)算法相比,YOLOv5s具有較高的檢測(cè)速度和精度。YOLOv5系列包含五個(gè)版本,按照規(guī)模從小到大排序?yàn)椋篩OLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,這些網(wǎng)絡(luò)在結(jié)構(gòu)上僅在網(wǎng)絡(luò)深度和通道數(shù)上有所區(qū)別。隨著網(wǎng)絡(luò)深度和寬度的遞增,雖然檢測(cè)精度逐漸提升,但處理速度卻相應(yīng)下降。由于木刻雕版檢測(cè)系統(tǒng)對(duì)實(shí)時(shí)性能的要求,本文選擇在速度和精度上均表現(xiàn)較優(yōu)的YOLOv5s作為基礎(chǔ)網(wǎng)絡(luò)模型。YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)清晰明了,由輸入端(Input)、骨干網(wǎng)絡(luò)(Backbone)、特征融合模塊(Neck)以及預(yù)測(cè)層(Prediction)四個(gè)主要部分組成。YOLOv5s模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
Input通常包含一個(gè)圖像預(yù)處理階段,其主要任務(wù)是對(duì)輸入的圖像進(jìn)行尺寸調(diào)整,以滿足網(wǎng)絡(luò)所需的輸入大小,并執(zhí)行歸一化等相關(guān)操作,從而確保圖像數(shù)據(jù)的規(guī)范性和一致性。
Backbone采用CSPDarknet53框架[15]。CSPDarknet53由一系列卷積層和殘差塊組成,通過(guò)多層的卷積操作,可以在深層網(wǎng)絡(luò)提取出圖像的高級(jí)語(yǔ)義特征。
Neck網(wǎng)絡(luò)采用FPN[16]+PAN[17]的結(jié)構(gòu)。FPN是一種簡(jiǎn)化的金字塔網(wǎng)絡(luò),用于提取和融合多尺度的特征信息,能夠在不同尺度上提取和融合特征信息。
Prediction包含了一系列的卷積和全連接層,用于將特征圖轉(zhuǎn)換為目標(biāo)的位置和類別信息。預(yù)測(cè)層輸出的結(jié)果包括目標(biāo)的邊界框坐標(biāo)、置信度分?jǐn)?shù)和類別概率。通過(guò)設(shè)置適當(dāng)?shù)拈撝岛头菢O大值抑制(NMS)操作,得到最終的目標(biāo)檢測(cè)結(jié)果。
1.2 "模型改進(jìn)
本文提出的改進(jìn)算法主要體現(xiàn)在以下三個(gè)方面。
1) 特征提取模塊采用FasterNet代替原有的模塊,解決了原始YOLOv5s參數(shù)量大、運(yùn)行時(shí)間長(zhǎng)等問(wèn)題,使檢測(cè)模型更加輕量化。
2) 在特征提取網(wǎng)絡(luò)后添加坐標(biāo)注意力(Coordinate Attention, CA)機(jī)制,可以更好地利用高層次的特征表示,并在全局池化前捕捉重要的特征信息,針對(duì)于木刻雕版的邊緣部分和小目標(biāo)可以得到更好的檢測(cè)。
3) 引入輕量化上采樣CARAFE代替最近鄰插值上采樣,可以使得模型能夠獲取更大的感受野、保留更多的信息。
改進(jìn)后的算法在提升模型檢測(cè)精度的同時(shí)可以提高檢測(cè)速度。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
1.3 "FasterNet網(wǎng)絡(luò)
YOLOv5s網(wǎng)絡(luò)模型在木刻雕版目標(biāo)檢測(cè)任務(wù)中憑借出色的特征提取能力展現(xiàn)出了優(yōu)越的性能,但由于其參數(shù)量大,導(dǎo)致模型的計(jì)算效率相對(duì)較低。特別是在處理木刻雕版這類復(fù)雜且精細(xì)的圖像數(shù)據(jù)時(shí),龐大的參數(shù)量不僅增加了計(jì)算負(fù)擔(dān),還會(huì)影響實(shí)時(shí)檢測(cè)的速度和性能。相比之下,F(xiàn)asterNet憑借較少的參數(shù)設(shè)計(jì),展現(xiàn)出了更高的計(jì)算效率。它在保持輕量級(jí)和高速度的同時(shí),顯著提升了特征表達(dá)能力和感受野的覆蓋范圍,從而更好地適應(yīng)了木刻雕版目標(biāo)檢測(cè)任務(wù)的需求。
具體來(lái)說(shuō),F(xiàn)asterNet的網(wǎng)絡(luò)結(jié)構(gòu)由四個(gè)級(jí)別組成,每個(gè)級(jí)別包含多個(gè)FasterNet塊。這些FasterNet塊通過(guò)結(jié)合部分卷積操作(PConv層)和1×1卷積操作(PWConv層),實(shí)現(xiàn)了高效的特征提取和轉(zhuǎn)換。在每個(gè)級(jí)別的開(kāi)始,嵌入層或合并層通過(guò)常規(guī)的卷積操作降低空間分辨率并增加通道數(shù),進(jìn)一步豐富了特征的層次性。而在最后一個(gè)級(jí)別之后,通過(guò)三個(gè)分類層對(duì)特征進(jìn)行精細(xì)分類。此外,每個(gè)層之后的標(biāo)準(zhǔn)化層和激活層不僅增加了特征的多樣性,還有助于降低網(wǎng)絡(luò)延遲,提升整體性能。FasterNet的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
1.4 "融合CA注意力機(jī)制
為了提高模型對(duì)木刻雕版關(guān)鍵元素的注意能力,在特征提取網(wǎng)絡(luò)后添加坐標(biāo)注意力機(jī)制。如圖4所示,坐標(biāo)注意力(CA)機(jī)制通過(guò)對(duì)通道之間的關(guān)系建模,使網(wǎng)絡(luò)能夠更加集中地關(guān)注重要特征,有助于模型能夠更準(zhǔn)確地定位和識(shí)別感興趣的對(duì)象[18]。經(jīng)過(guò)大量實(shí)驗(yàn)證明,相比于其他注意力機(jī)制,CA注意力機(jī)制不僅關(guān)注了通道信息還考慮了方向和位置的有關(guān)信息。另外,CA注意力機(jī)制足夠的靈活和輕量,能夠簡(jiǎn)單地插入到FasterNet網(wǎng)絡(luò)中,在保持較快訓(xùn)練速度的同時(shí),不會(huì)導(dǎo)致過(guò)擬合的問(wèn)題。
1.5 "上采樣方式改進(jìn)
YOLOv5s中常用的上采樣方式是最近鄰插值上采樣,盡管簡(jiǎn)單高效,但其感受野較小,容易導(dǎo)致細(xì)節(jié)信息的丟失和模糊等。這些問(wèn)題在處理復(fù)雜且精細(xì)的木刻雕版圖像時(shí)尤為突出,嚴(yán)重影響了目標(biāo)檢測(cè)的準(zhǔn)確性和穩(wěn)定性。
針對(duì)最近鄰插值存在的不足,可以用一種計(jì)算量小并且語(yǔ)義相關(guān)性高的模型來(lái)代替。CARAFE是一種輕量級(jí)的上采樣算子,相較于初始的最近鄰插值方法,感受野更寬,能大范圍聚合上下文信息,如圖5所示,主要由上采樣核預(yù)測(cè)和特征重組兩個(gè)步驟組成。假設(shè)上采樣倍率為[σ],對(duì)于一個(gè)初始形狀為[H×W×C]的輸入特征圖,首先利用上采樣核預(yù)測(cè)模塊來(lái)預(yù)測(cè)所需的上采樣核;接著,通過(guò)特征重組模塊對(duì)上采樣進(jìn)行處理,最終得到形狀為[σH×σW×C]的輸入特征圖。
2 "實(shí) "驗(yàn)
2.1 "數(shù)據(jù)集構(gòu)建
本研究通過(guò)與多地印經(jīng)院和相關(guān)領(lǐng)域?qū)<液献鞴膊杉? 070張風(fēng)格多樣的藏族木刻雕版圖像。
作為重要的文化載體,木刻雕版內(nèi)容豐富,技藝多樣,據(jù)此可分為不同的類別,如圖6所示,這些雕版可以依據(jù)不同的特征進(jìn)行細(xì)致的分類。隨后,利用LabelImg工具,結(jié)合領(lǐng)域?qū)<业膶I(yè)知識(shí),對(duì)這6種不同風(fēng)格類別的數(shù)據(jù)進(jìn)行精準(zhǔn)標(biāo)注,確保每一張圖像都得到準(zhǔn)確的分類。標(biāo)注后的數(shù)據(jù)集保存為Pascal VOC格式,涵蓋圖形符號(hào)類(Graphical Symbols)、咒輪類(Charm Wheel)、本尊類(Yidam)、民俗類(Folk)、文字類(Text)以及法器類(Magic Weapon)。為了進(jìn)一步滿足模型訓(xùn)練的需求,將XML格式的標(biāo)簽轉(zhuǎn)換為YOLOv5s模型適用的txt格式,并按照8∶1∶1的比例隨機(jī)自動(dòng)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集包含1 656張圖像,驗(yàn)證集和測(cè)試集各含207張圖像。圖7則直觀地呈現(xiàn)了各類雕版在數(shù)量上的分布情況,進(jìn)一步凸顯了藏族木刻雕版藝術(shù)的多樣性與豐富性。
2.2 "實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置
本實(shí)驗(yàn)?zāi)P陀?xùn)練的硬件環(huán)境為CPU:Intel? CoreTM i9?12900KF、GPU:NVIDIA GeForece RTX 3090 Ti,內(nèi)存:64 GB,系統(tǒng):Ubuntu 20.04+CUDA 11.8,編譯語(yǔ)言:Python 3.9,深度學(xué)習(xí)框架:PyTorch 1.12.1版本。
該模型的訓(xùn)練參數(shù)采用官方提供的權(quán)重參數(shù)作為訓(xùn)練的初始化參數(shù),使用相同的數(shù)據(jù)集以及參數(shù)設(shè)置以便于減少不確定因素的干擾??傆?xùn)練批次(Epochs)為150,batch?size為16,初始學(xué)習(xí)率為 0.01,使用 SGD 優(yōu)化器,動(dòng)量參數(shù)設(shè)置為0.937,Weight decay設(shè)置為0.000 5。
2.3 "評(píng)估指標(biāo)
為了有效驗(yàn)證改進(jìn)算法的精確度和實(shí)時(shí)性能,本文采用mAP(Mean Average Precision)、浮點(diǎn)計(jì)算量(Giga Floating?point Operation per Second, GFLOPs)和參數(shù)量(Parameters)三個(gè)指標(biāo)進(jìn)行評(píng)價(jià),平均精度(mAP@0.5)是每個(gè)檢測(cè)到的類別AP值的平均值,計(jì)算公式如下:
[AP=01PRdR] (1)
mAP值通常使用具有0.5閾值的交并比(IoU)來(lái)計(jì)算,計(jì)算公式如下:
[mAP=i=1sAPiS] (2)
GFLOPs表示浮點(diǎn)運(yùn)算次數(shù),用來(lái)衡量網(wǎng)絡(luò)模型的復(fù)雜度,評(píng)估模型的計(jì)算復(fù)雜度和推理速度;Parameters表示模型中包含參數(shù)的數(shù)量。
2.4 "實(shí)驗(yàn)結(jié)果及分析
2.4.1 "不同注意力機(jī)制對(duì)比測(cè)試
為了驗(yàn)證CA注意力機(jī)制對(duì)于木刻雕版元素的檢測(cè)效果,在相同條件下分別測(cè)試了幾種常見(jiàn)的注意力機(jī)制,并比較了不同的注意力機(jī)制對(duì)YOLOv5s模型的影響,實(shí)驗(yàn)結(jié)果如表1所示。
對(duì)比目前常用的注意力機(jī)制SE、CBAM、ECA和CA,從表1中可以得出,在加入了CBAM和ECA以后,mAP值相比YOLOv5s模型有所下降,分別下降了3.1%、0.5%,可以看出這兩種注意力機(jī)制對(duì)于該模型來(lái)說(shuō)效果不佳。相比CBAM和ECA注意力機(jī)制,SE和CA注意力機(jī)制對(duì)于該模型的效果有所提升,分別提升了0.9%、2.9%。尤其是CA注意力機(jī)制在保證模型大小的前提下﹐可以有效提升mAP值。因此經(jīng)過(guò)綜合考慮,添加CA注意力機(jī)制來(lái)提升模型檢測(cè)的性能。
2.4.2 "輕量化模塊的消融實(shí)驗(yàn)
為了驗(yàn)證FasterNet模塊對(duì)木刻雕版元素檢測(cè)的影響,將常用的輕量化模塊進(jìn)行了對(duì)比實(shí)驗(yàn),比較它們對(duì)YOLOv5s模型性能的影響,在保證其余條件不變的情況下,分別驗(yàn)證了常見(jiàn)的ShuffleNetV2和MobileNetV3輕量化主干網(wǎng)絡(luò)以及FasterNet網(wǎng)絡(luò),結(jié)果如表2所示。
從表2中可以看出,在YOLOv5s模型中引入ShuffleNetV2和MobileNetV3兩種輕量化模型雖然FLOPs和Parameters都出現(xiàn)了大幅度的降低,但是以犧牲較多的mAP值作為代價(jià),因此檢測(cè)精度會(huì)降低。相比較而言,F(xiàn)asterNet在降低GFLOPs和Parameters的同時(shí),只損失了較少的mAP值,在精度和速度之間達(dá)到了平衡。FasterNet相比MobileNetV3,雖然GFLOPs較高,但是其結(jié)構(gòu)中的PConv相比于DWConv極大地降低了內(nèi)存訪問(wèn)數(shù)量,對(duì)空間特征的提取更為有效。所以,本文在輕量化主干網(wǎng)絡(luò)的選擇上選取多方面都優(yōu)于ShuffleNetV2和MobileNetV3的FasterNet模型。
2.4.3 "消融實(shí)驗(yàn)
為了驗(yàn)證每個(gè)新增模塊對(duì)于初始算法的有效性,本文進(jìn)行了一系列消融實(shí)驗(yàn)。首先用輕量化模塊FasterNet替換初始YOLOv5s的特征提取網(wǎng)絡(luò),接著,在FasterNet模塊后添加坐標(biāo)注意力機(jī)制,最后將YOLOv5s的最近鄰插值上采樣替換成CARAFE上采樣。實(shí)驗(yàn)結(jié)果如表3所示,這些實(shí)驗(yàn)結(jié)果驗(yàn)證了改進(jìn)策略的有效性。
從表3中實(shí)驗(yàn)結(jié)果可以得出,與初始的YOLOv5s算法相比,加入FasterNet對(duì)特征提取網(wǎng)絡(luò)進(jìn)行輕量化后,模型的參數(shù)量和復(fù)雜度都有顯著減少。雖然對(duì)主干網(wǎng)絡(luò)進(jìn)行輕量化改進(jìn)后,模型的檢測(cè)精度略微下降,但隨后引入CA注意力機(jī)制,在保持較少參數(shù)量的情況下,使檢測(cè)精度相較于初始YOLOv5s提升了1.9%。將這兩項(xiàng)改進(jìn)融合在一起,不僅可以顯著減小模型的參數(shù)量和復(fù)雜度,還可以確保檢測(cè)精度高于初始YOLOv5s算法。最后,通過(guò)采用輕量化上采樣CARAFE替代YOLOv5s的最近鄰插值上采樣,模型的檢測(cè)精度在改進(jìn)后的基礎(chǔ)上進(jìn)一步提高了0.3%。從消融實(shí)驗(yàn)的結(jié)果可以得出,本文改進(jìn)算法模型相比于初始的YOLOv5s模型在保證輕量化的同時(shí)可以提升模型的檢測(cè)精度。
根據(jù)每一輪的訓(xùn)練數(shù)據(jù)結(jié)果繪制平均精度的變化曲線,如圖8所示,每個(gè)模型的mAP分別使用不同的曲線來(lái)表示。從圖中可以看出,相較于初始的YOLOv5s算法,經(jīng)過(guò)改進(jìn)的算法mAP提高了2.2%,同時(shí)速度也提高了46.53%,具有良好的效果。
2.5 "與其他算法對(duì)比分析
為了進(jìn)一步驗(yàn)證改進(jìn)算法的魯棒性,將本文方法與Faster?RCNN、SSD、YOLOv5s、YOLOv7?tiny、YOLOv8n等主流方法進(jìn)行比較,在實(shí)驗(yàn)過(guò)程中保持相同的參數(shù)和條件,分別從mAP@0.5、GFLOPs和Parameters進(jìn)行比較,證明改進(jìn)后算法的優(yōu)越性。對(duì)比結(jié)果如表4所示。
從表4中可以得出,相比于其他的主流算法,F(xiàn)aster?RCNN的參數(shù)量較大,檢測(cè)速度較慢,無(wú)法滿足實(shí)時(shí)性的要求。SSD相比于Faster?RCNN在參數(shù)量和檢測(cè)速度等方面都得到了大幅度的提升,但在檢測(cè)精度方面仍然存在欠缺。相比于Faster?RCNN和SSD算法,YOLO系列算法具有更快的檢測(cè)速度和更高的檢測(cè)精度。本文在YOLO系列算法中選擇綜合性能較好的YOLOv5、YOLOv7和YOLOv8進(jìn)行對(duì)比實(shí)驗(yàn)。從實(shí)驗(yàn)數(shù)據(jù)可以得出,YOLOv5模型可以更好地?cái)M合木刻雕版的數(shù)據(jù),在保證模型參數(shù)量和檢測(cè)速度的同時(shí)具有較高的檢測(cè)精度。本文以YOLOv5s為基準(zhǔn)模型,改進(jìn)后的模型可以在提高檢測(cè)速度的同時(shí)繼續(xù)提高檢測(cè)精度,具有較好的實(shí)時(shí)性和魯棒性。
2.6 "檢測(cè)結(jié)果
為了更直觀地感受改進(jìn)后模型的效果,實(shí)驗(yàn)選取光線相對(duì)灰暗且色澤比較重的不同場(chǎng)景下的圖片進(jìn)行驗(yàn)證效果對(duì)比,如圖9所示。
改進(jìn)后的模型在真實(shí)木刻雕版測(cè)試數(shù)據(jù)上取得了良好的檢測(cè)性能,不僅在精度上有所提升,且能解決初始模型存在小目標(biāo)漏檢的情況。從圖9a)和圖9b)可以看出,在復(fù)雜場(chǎng)景中引入注意力機(jī)制和上采樣后,改進(jìn)后的模型可以檢測(cè)出木刻雕版圖像中的小藏文字符目標(biāo),同時(shí)能夠提高檢測(cè)精度。此外,從圖9c)和圖9d)可以看出,在簡(jiǎn)單場(chǎng)景中,通過(guò)對(duì)初始模型的改進(jìn)可以提高目標(biāo)檢測(cè)的精準(zhǔn)度??偟膩?lái)說(shuō),對(duì)于初始YOLOv5s可能存在漏檢和不準(zhǔn)確定位的情況,改進(jìn)后的模型可以有效定位和檢測(cè)漏檢的部分,且模型的檢測(cè)精度提升顯著,有效驗(yàn)證了改進(jìn)模型的可行性。
3 "結(jié) "語(yǔ)
研究藏族木刻雕版不僅有助于深入了解藏族文化和藝術(shù),還能推動(dòng)藏族文化與其他文化的交流與融合。本文針對(duì)初始YOLOv5s算法在木刻雕版中存在漏檢、檢測(cè)精度低以及檢測(cè)速度慢等問(wèn)題,提出了一種改進(jìn)算法,改進(jìn)后的模型在復(fù)雜度、檢測(cè)精度和檢測(cè)速度等多方面均優(yōu)于原模型。本文不僅為木刻雕版元素的自動(dòng)檢測(cè)提供了一種有效的解決方案,還為其他具有類似復(fù)雜紋理和邊緣的圖像檢測(cè)任務(wù)提供了新的思路和啟示。
總的來(lái)說(shuō),本文證明了改進(jìn)后的輕量級(jí)模型在保證實(shí)時(shí)性檢測(cè)的要求下可以提高木刻雕版的檢測(cè)精度,該模型可以很好地部署到嵌入式設(shè)備和移動(dòng)設(shè)備中。在后期的研究中,將進(jìn)一步擴(kuò)大數(shù)據(jù)集規(guī)模并優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),繼續(xù)提升木刻雕版元素的檢測(cè)精度和檢測(cè)速度。
注:本文通訊作者為趙啟軍。
參考文獻(xiàn)
[1] 蘇發(fā)祥.論木刻雕版印刷術(shù)在西藏的發(fā)展及其影響[J].中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2017,44(4):115?122.
[2] 黃騰騰,李英娜,王路路,等.基于改進(jìn)YOLOv7?tiny的變電站多分類缺陷檢測(cè)方法[J/OL].控制工程:1?9[2024?03?29].https://doi.org/10.14107/j.cnki.kzgc.20231014.
[3] 貫懷光,郭蓬,夏海鵬,等.基于InfluxDB的自動(dòng)駕駛智慧貨運(yùn)平臺(tái)的構(gòu)建及應(yīng)用[J].現(xiàn)代電子技術(shù),2023,46(9):131?135.
[4] 伍倩,崔煒榮,汪超,等.基于多模態(tài)生物特征識(shí)別的高校門禁系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2024,47(2):37?43.
[5] 張波,蘭艷亭,李大威,等.基于卷積網(wǎng)絡(luò)通道注意力的人臉表情識(shí)別[J].無(wú)線電工程,2022,52(1):148?153.
[6] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2005: 886?893.
[7] SáNCHEZ A V D. Advanced support vector machines and kernel methods [J]. Neurocomputing, 2003, 55(1/2): 5?20.
[8] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904?1916.
[9] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2014: 580?587.
[10] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector [EB/OL]. [2020?02?12]. http://arxiv.org/abs/1512.02325.
[11] REDMON J, DIVVALA S K, GIRSHICK R B, et al. You only look once: Unified, real?time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 779?788.
[12] CHEN J, KAO S, HE H, et al. Run, don′t walk: Chasing higher FLOPS for faster neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 12021?12031.
[13] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713?13722.
[14] WANG J, CHEN K, XU R, et al. CARAFE: Content?aware reassembly of features [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2019: 3007?3016.
[15] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE, 2020: 1571?1580.
[16] LIN T Y, DOLLáR P, GIRSHICK R B, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 936?944.
[17] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 8759?8768.
[18] 張新偉,陳東,閆昊,等.基于改進(jìn)YOLOv5算法的密集遮擋零件檢測(cè)[J].工具技術(shù),2023,57(10):150?155.
[19] 鄧佳麗,龔海剛,劉明.基于目標(biāo)檢測(cè)的醫(yī)學(xué)影像分割算法[J].電子科技大學(xué)學(xué)報(bào),2023,52(2):254?262.
作者簡(jiǎn)介:楊 "欣(1998—),男,陜西眉縣人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)。
才讓先木(1996—),男,甘肅甘南人,碩士研究生,講師,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)。
高定國(guó)(1972—),男,四川阿壩人,碩士研究生,教授,主要研究方向?yàn)椴匚淖匀徽Z(yǔ)言處理、計(jì)算機(jī)算法。
夏建軍(1989—),男,湖南邵陽(yáng)人,博士研究生,主要研究方向?yàn)槎嗄B(tài)機(jī)器學(xué)習(xí)。
普布旦增(1982—),男,西藏白朗人,碩士研究生,高級(jí)實(shí)驗(yàn)師,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、模式識(shí)別。
趙啟軍(1980—),男,江蘇鹽城人,博士研究生,教授,主要研究方向?yàn)閳D像處理、模式識(shí)別、計(jì)算機(jī)視覺(jué)和生物特征識(shí)別。