摘要:為提升實(shí)時(shí)目標(biāo)檢測(cè)的準(zhǔn)確性和穩(wěn)健性,該文采用增強(qiáng)特征融合技術(shù)、網(wǎng)絡(luò)架構(gòu)技術(shù)、損失函數(shù)技術(shù)等對(duì)YOLOv4算法進(jìn)行優(yōu)化。結(jié)果表明,改良后的YOLOv4算法在多變環(huán)境下對(duì)小型目標(biāo)檢測(cè)表現(xiàn)出色,展現(xiàn)了其實(shí)用性和穩(wěn)定性,為廣泛應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。
關(guān)鍵詞:實(shí)時(shí)目標(biāo)檢測(cè);YOLOv4;特征融合;GIoU損失函數(shù)
doi:10.3969/J.ISSN.1672-7274.2024.09.006
中圖分類號(hào):TP 31 文獻(xiàn)標(biāo)志碼:B 文章編碼:1672-7274(2024)09-00-04
Research on Real-time Object Detection Method Based on Improved YOLOv4
LU Jianheng
(College of Artificial Intelligence, Guangzhou Huashang College, Guangzhou 511300, China)
Abstract: To enhance the accuracy and robustness of real-time object detection, this paper optimizes the YOLOv4 algorithm by employing enhanced feature fusion technology, network architecture technology, loss function technology, and other strategies. The results demonstrate that the improved YOLOv4 algorithm exhibits excellent performance in detecting small objects in diverse environments, showcasing its practicality and stability, and laying a solid foundation for its widespread application.
Keywords: real-time object detection; YOLOv4; feature fusion; GIoU loss function
0 引言
在人工智能與視覺(jué)科技領(lǐng)域,實(shí)時(shí)目標(biāo)檢測(cè)技術(shù)日益凸顯其重要性,廣泛應(yīng)用于自動(dòng)駕駛、視頻監(jiān)控、無(wú)人機(jī)導(dǎo)航等多個(gè)領(lǐng)域。YOLO(You Only Look Once)系列算法,尤其是YOLOv4版本,因其快速且高精度的檢測(cè)性能而受到關(guān)注[1]。然而,YOLOv4在微小目標(biāo)檢測(cè)、跨硬件性能一致性等方面仍存在局限性。
1 理論概述
1.1 改進(jìn)YOLOv4算法的概述
如圖1所示,在特征抽取的網(wǎng)絡(luò)結(jié)構(gòu)內(nèi),采用改良的主體結(jié)構(gòu),利用多個(gè)殘差塊層(包括Resblock_body層)逐步提取特性,在此每個(gè)組件的參數(shù)配置及其重復(fù)頻次均有所區(qū)別,有效提升了特性描述的深度,輸入圖像歷經(jīng)卷積操作和批量歸一化層(Conv2d BN)傳輸至網(wǎng)絡(luò)結(jié)構(gòu),緊跟著在歷經(jīng)Mish激活處理處理完成后,用于維持非線性特性[2]。然后,利用若干Resblock_body組件逐漸降低采樣率并從中提取特性,最后在SPP(Spatial Pyramid Pooling)模塊中整合多尺度最值池化,顯著充實(shí)了特性信息,在特征融合階段,引入了改良版PANet(Path Aggregation Network),借助層次化分離卷積有效提高特征融合效率。在PANet架構(gòu)里,在實(shí)施上,采樣與下采樣過(guò)程(UpSampling、DownSampling)反復(fù)進(jìn)行特征融合與卷積操作如執(zhí)行make_five_conv過(guò)程,實(shí)現(xiàn)了有效整合了多個(gè)尺度的特征數(shù)據(jù)[3],最終,網(wǎng)絡(luò)架構(gòu)在三種不同尺度(YOLO Head1、YOLO Head2、YOLO Head3)實(shí)現(xiàn)檢測(cè)能力,從而提升了對(duì)各種尺寸目標(biāo)的檢測(cè)精度和效率性。
1.2 目標(biāo)檢測(cè)方法概述
該技術(shù)首先對(duì)輸入圖像進(jìn)行處理,識(shí)別可能包含目標(biāo)物體的潛在區(qū)域。隨后,利用深度卷積神經(jīng)網(wǎng)絡(luò)等先進(jìn)技術(shù)對(duì)這些區(qū)域進(jìn)行特征抽取,提煉出用于目標(biāo)識(shí)別的精細(xì)特征。通過(guò)特征識(shí)別執(zhí)行分類處理,確定潛在區(qū)域中是否包含目標(biāo)實(shí)體及其種類。接著,采用邊界回歸技術(shù)精確捕捉目標(biāo)物體的邊界框[4]。在訓(xùn)練階段,通過(guò)構(gòu)建包含正反面實(shí)例的訓(xùn)練數(shù)據(jù)集,訓(xùn)練分類和回歸算法模型,以提升目標(biāo)識(shí)別的精確度和效率。該策略綜合考慮了潛在區(qū)域、特征辨認(rèn)、分類判定和邊界描繪,顯著提高了目標(biāo)識(shí)別的實(shí)時(shí)性和準(zhǔn)確性,在自動(dòng)駕駛、視頻監(jiān)控等領(lǐng)域得到廣泛應(yīng)用[5]。
2 實(shí)驗(yàn)設(shè)計(jì)
2.1 數(shù)據(jù)集選擇與預(yù)處理
COCO數(shù)據(jù)集涵蓋了80種常見(jiàn)物體類別,包含超過(guò)330 000張圖像及詳盡的標(biāo)注數(shù)據(jù),其中標(biāo)注框超過(guò)200 000個(gè),廣泛涵蓋各種復(fù)雜場(chǎng)景與不同尺寸的目標(biāo)物體。選擇COCO數(shù)據(jù)集的理由在于其詳盡的標(biāo)注和廣泛的環(huán)境,能夠準(zhǔn)確評(píng)價(jià)改進(jìn)算法在各種情境下的識(shí)別能力。數(shù)據(jù)預(yù)處理是模型訓(xùn)練成效的核心環(huán)節(jié),本文首先將圖像大小統(tǒng)一調(diào)整為416×416分辨率,以滿足YOLOv4模型輸入要求。隨后,運(yùn)用隨機(jī)剪裁、水平翻轉(zhuǎn)等增強(qiáng)手段增加數(shù)據(jù)多元性,避免模型過(guò)擬合。同時(shí),對(duì)標(biāo)注邊界進(jìn)行調(diào)整,確保標(biāo)注準(zhǔn)確度,并通過(guò)顏色調(diào)整和加入噪聲等手段模擬復(fù)雜場(chǎng)景,增強(qiáng)模型穩(wěn)健性。最終,將處理后的數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,用于模型訓(xùn)練、超參數(shù)調(diào)整和性能評(píng)估。
2.2 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)所用計(jì)算機(jī)系統(tǒng)配備NVIDIA GeForce RTX 3090圖形處理單元,該單元擁有24 GB GDDR6X顯存,提供強(qiáng)大的并行處理能力和高速存儲(chǔ)讀寫(xiě)能力。同時(shí),系統(tǒng)搭載AMD Ryzen 9 5950X處理器,具備16核32線程和3.4 GHz的時(shí)脈頻率,可有效處理大量數(shù)據(jù)和復(fù)雜計(jì)算任務(wù)。系統(tǒng)配置32 GB DDR4內(nèi)存,確保大數(shù)據(jù)處理和機(jī)器學(xué)習(xí)訓(xùn)練過(guò)程中內(nèi)存充足。實(shí)驗(yàn)軟件平臺(tái)基于Ubuntu 20.04操作系統(tǒng),采用TensorFlow 2.4和PyTorch 1.7深度學(xué)習(xí)框架,均支持GPU加速。選用NumPy、Pandas、Matplotlib等數(shù)據(jù)處理工具,結(jié)合CUDA 11.1和cuDNN 8.0加速庫(kù)提升GPU處理速度。采用Docker容器技術(shù),確保實(shí)驗(yàn)環(huán)境可復(fù)制且部署高效,實(shí)現(xiàn)了高效的開(kāi)發(fā)和測(cè)試流程。
2.3 實(shí)驗(yàn)流程
2.3.1 數(shù)據(jù)集準(zhǔn)備與劃分
COCO數(shù)據(jù)庫(kù)包含80個(gè)目標(biāo)種類,提供118 287張訓(xùn)練圖像和5 000張驗(yàn)證圖像,所有圖片統(tǒng)一尺寸為416×416像素,用此方法檢驗(yàn)符合YOLOv4模型的所需規(guī)格,在此步驟中對(duì)標(biāo)注信息進(jìn)行標(biāo)準(zhǔn)化,保證位置信息與圖像大小一致,在具體操作中,標(biāo)注框的歸一化采用公式如下:
(1)
式中,、是標(biāo)注框的左上角坐標(biāo);、是圖像的寬度和高度;、是標(biāo)注框的寬度和高度。
在數(shù)據(jù)集分割過(guò)程中,將全部數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,占比分別為70%、15%和15%。具體操作如下:精心選擇70%的圖片及其注釋作為訓(xùn)練數(shù)據(jù)集,用于模型訓(xùn)練和參數(shù)調(diào)優(yōu);挑選15%的圖像資料及相應(yīng)文字描述構(gòu)成驗(yàn)證數(shù)據(jù)集,以在訓(xùn)練過(guò)程中評(píng)估模型表現(xiàn),并調(diào)優(yōu)超參數(shù)和模型選擇;保留剩余15%的圖像和注釋作為測(cè)試數(shù)據(jù)集,用以評(píng)估模型在未知數(shù)據(jù)上的性能。此外,為提升訓(xùn)練數(shù)據(jù)的多樣性和難度,我們實(shí)施了數(shù)據(jù)增強(qiáng)策略,包括隨機(jī)裁剪、水FV04U1+6WZOtYJKbt90yRQ==平翻轉(zhuǎn)、調(diào)整光線和對(duì)比度等,以增強(qiáng)模型的健壯性,避免過(guò)擬合,確保模型在實(shí)際應(yīng)用中的表現(xiàn)和穩(wěn)定性。
2.3.2 模型訓(xùn)練
為提升模型性能,選定了適當(dāng)?shù)臉O其關(guān)鍵的參數(shù),涵蓋初始學(xué)習(xí)率、批量尺寸和訓(xùn)練周期,初始學(xué)習(xí)速度設(shè)定為0.001,批量尺寸為16,訓(xùn)練周期為百次,以此確保人工神經(jīng)網(wǎng)絡(luò)在不同成長(zhǎng)階段擁有有效收斂性,在訓(xùn)練過(guò)程中,使用余弦衰減學(xué)習(xí)速率調(diào)整策略,公式表示為
(2)
式中,是第t次迭代時(shí)的學(xué)習(xí)率;和分別為最小和最大學(xué)習(xí)率;T為總迭代次數(shù)。在訓(xùn)練過(guò)程中,使用交叉熵?fù)p失函數(shù)處理分類任務(wù),公式如下:
(3)
式中,為目標(biāo)類別的真實(shí)標(biāo)簽;為模型預(yù)測(cè)的概率。此外,采用改進(jìn)的GIoU損失函數(shù)進(jìn)行邊界框回歸,以提高定位精度,公式如下:
(4)
式中,B為預(yù)測(cè)框;為真實(shí)框;C為最小包圍框。在訓(xùn)練階段,利用跟蹤驗(yàn)證數(shù)據(jù)集給出的損失和精度指標(biāo),執(zhí)行調(diào)優(yōu)超參數(shù)和提前結(jié)束策略,防止過(guò)度擬合難題,在每個(gè)訓(xùn)練周期終止時(shí),儲(chǔ)存最優(yōu)算法模型的參數(shù),并周期性評(píng)估模型與驗(yàn)證數(shù)據(jù)集表現(xiàn),保證改進(jìn)的YOLOv4算法在眾多評(píng)價(jià)準(zhǔn)則上獲得明顯改進(jìn)。
2.3.3 模型測(cè)試
模型訓(xùn)練過(guò)程終止后,應(yīng)用事先安排的測(cè)試數(shù)據(jù)集對(duì)優(yōu)化后的YOLOv4算法執(zhí)行性能評(píng)價(jià),以評(píng)價(jià)它在實(shí)際使用場(chǎng)景中的表現(xiàn),測(cè)試階段至關(guān)重要在于精確衡量模型的辨識(shí)效能和效率,首先采取的行動(dòng)是,應(yīng)用已經(jīng)訓(xùn)練完畢的模型至測(cè)試數(shù)據(jù)集內(nèi)每一幅圖像,估計(jì)預(yù)測(cè)邊界框的坐標(biāo)和類別確信度,評(píng)定成效與實(shí)際分類相比較,采用平均精確度(mAP)和每秒處理的幀數(shù)(FPS)作為主要性能衡量標(biāo)準(zhǔn),通過(guò)以下公式計(jì)算不同類別的平均精度:
(5)
式中,N為類別數(shù);為第i類的平均精度。平均精確度的評(píng)定手段涵蓋精確性和召回率整體衡量,在運(yùn)算階段采用不同設(shè)定情境精確度與召回率,每秒畫(huà)面更迭次數(shù)則用來(lái)衡量模型的實(shí)時(shí)表現(xiàn),公式如下:
(6)
在驗(yàn)證階段,對(duì)模型生成的預(yù)測(cè)和實(shí)際標(biāo)記進(jìn)行對(duì)比校驗(yàn),通過(guò)IoU(Intersection over Union)衡量預(yù)測(cè)的邊界框和實(shí)際邊界框一致性,公式表示為
(7)
一般當(dāng)交并比超過(guò)預(yù)定閾限0.5時(shí),判斷預(yù)測(cè)的界限為可靠鑒別,通過(guò)梳理所有測(cè)試樣本表現(xiàn)數(shù)據(jù),計(jì)算出整體平均精度地圖和每秒幀數(shù),進(jìn)而綜合評(píng)價(jià)模型的精確性與反應(yīng)速率,另外,務(wù)必要在復(fù)雜多變的條件下檢測(cè)模型的穩(wěn)定性,如各種照明條件、遮擋狀況和多對(duì)象擁擠場(chǎng)景。
3 結(jié)果分析
3.1 實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)數(shù)據(jù)說(shuō)明,優(yōu)化后的YOLOv4算法在各項(xiàng)評(píng)價(jià)準(zhǔn)則之中均有顯著提高明顯優(yōu)化,改進(jìn)后的 YOLOv4(版本 1)在 mAP@0.5 和 mAP@[0.5:0.95] 上分別提升了 4.8% 和 4.6%。雖然幀數(shù)有所降低,但仍處于可行的實(shí)時(shí)檢測(cè)范疇內(nèi)。而改進(jìn)后的 YOLOv4(版本 2)進(jìn)一步提高了識(shí)別準(zhǔn)確性,mAP@0.5 和 mAP@[0.5:0.95] 分別達(dá)到了 72.8% 和 53.0%,展現(xiàn)出較高的辨識(shí)效率。不過(guò),其辨識(shí)速度略有減緩。表1列出了改進(jìn)YOLOv4算法于COCO數(shù)據(jù)集的主要評(píng)價(jià)指標(biāo),涵蓋平均精確度(mAP)以及幀每秒(FPS)不同條件下的測(cè)試結(jié)果。
在測(cè)試階段,模型的可靠性也得到了驗(yàn)證,在各種光線照射、阻擋以及眾多緊湊排列的目標(biāo)環(huán)境中,優(yōu)化YOLOv4繼續(xù)維持較高的識(shí)別準(zhǔn)確度和效能,這些數(shù)據(jù)證實(shí)了我們所提出的改良策略在增強(qiáng)檢測(cè)效率期間,一并考慮了實(shí)際應(yīng)用需求,展現(xiàn)了出色的穩(wěn)健性和適應(yīng)力。
3.2 結(jié)果討論
通過(guò)對(duì)YOLOv4的優(yōu)化,在mAP@0.5和mAP@[0.5:0.95]上分別實(shí)現(xiàn)了顯著提升,版本1提升至4.8%和4.6%,同時(shí)保持了高效的檢測(cè)速度,每秒幀數(shù)僅略有下降,仍維持在55 FPS的標(biāo)準(zhǔn)。這表明,引入改良后的主網(wǎng)絡(luò)和特征融合技術(shù),有效提升了特征抽取效率和多尺度特征融合效果,進(jìn)而顯著提高了目標(biāo)識(shí)別的準(zhǔn)確性。版本2進(jìn)一步優(yōu)化了結(jié)構(gòu)與功能,mAP@0.5和mAP@[0.5:0.95]分別增至72.8%和53.0%,盡管FPS略降至每秒50幀,但仍能滿足實(shí)時(shí)應(yīng)用需求。改良算法在各種光照、遮擋和復(fù)雜多目標(biāo)環(huán)境下均表現(xiàn)出高識(shí)別準(zhǔn)確度和效率,展現(xiàn)了出色的穩(wěn)定性和適應(yīng)性。這些優(yōu)化方法不僅提升了識(shí)別能力,還增強(qiáng)了不同尺寸目標(biāo)檢測(cè)的效率,展現(xiàn)出對(duì)多種環(huán)境的適應(yīng)性和穩(wěn)定性。
4 結(jié)束語(yǔ)
改進(jìn)后的YOLOv4算法在實(shí)時(shí)目標(biāo)檢測(cè)中展現(xiàn)出顯著提升的效率,尤其在多變環(huán)境和細(xì)小目標(biāo)偵測(cè)方面表現(xiàn)卓越。未來(lái)我們將聚焦于提升模型實(shí)時(shí)表現(xiàn)力和資源利用率,旨在推動(dòng)實(shí)時(shí)目標(biāo)檢測(cè)技術(shù)的進(jìn)步及其應(yīng)用的拓展。
參考文獻(xiàn)
[1] Jiang Z, Zhao L, Li S, et al. Real-time object detection method based on improved YOLOv4-tiny[J]. arXiv preprint arXiv:2011(04):244,.
[2] Fan Y C, Yelamandala C M, Chen T W, et al. Real-time object detection for lidar based on ls-r-yolov4 neural network[J]. Journal of Sensors, 2021: 1-11.
[3] Zhou Y, Wen S, Wang D, et al. MobileYOLO: Real-time object detection algorithm in autonomous driving scenarios[J]. Sensors, 2022(9): 3349.
[4] Yao G, Sun Y, Wong M, et al. A real-time detection method for concrete surface cracks based on improved YOLOv4[J]. Symmetry, 2021(9): 1716.
[5] Kumari N, Ruf V, Mukhametov S, et al. Mobile eye-tracking data analysis using object detection via YOLO v4[J]. Sensors, 2021(22): 7668.