基于改進YOLOv8的交通標志檢測與識別算法研究

2024-12-20 00:00:00曾海峰

電腦知識與技術 2024年30期

關鍵詞：CBMA注意力機制；數(shù)據(jù)增強；損失函數(shù)優(yōu)化；Swin-Transformer網(wǎng)絡；交通標志檢測與識別；YOLOv8

0 引言

交通標志檢測與識別技術在智能交通系統(tǒng)（ITS）和自動駕駛領域發(fā)揮著至關重要的作用。這些技術不僅能夠提高道路安全，還能增強駕駛的便捷性和自主性。近年來，國內(nèi)學者在該領域進行了廣泛研究，提出了一系列創(chuàng)新的方法和技術，旨在提高交通標志檢測與識別的準確率和魯棒性。

1） YOLO系列的改進。文獻[1]通過增加上采樣和輸出層數(shù)、引入注意力機制以及使用懲罰函數(shù)，提高了小目標交通標志的檢測精度和定位能力；文獻[2] 通過引入基于顏色衰減先驗的自適應伽馬變換圖像預處理算法和坐標注意力機制，提高了霧霾環(huán)境下的檢測精度；文獻[3]通過重參數(shù)模塊、注意力機制以及IoU-Aware查詢選擇等改進，顯著提升了檢測精度和效率；文獻[4]通過引入Tiny Head檢測頭、C2f CA模塊以及SIoU損失函數(shù)，增強了小目標檢測能力和模型魯棒性。文獻[5]結合小目標過采樣訓練數(shù)據(jù)生成方法、圖像分塊和幾何透視檢測預處理，提高了全景圖像中交通標志的檢測精度和速度。

2）多尺度特征融合。文獻[6]設計了基于空洞混合注意力機制的多尺度注意力特征融合模塊，增強了模型對小目標的檢測能力；文獻[7]通過不同尺度圖像的特征提取，豐富了圖像特征，提高了識別率；文獻[8] 采用了Bi-FPN網(wǎng)絡進行多尺度特征融合，從而提高了小目標的檢測精度和效率；文獻[4]使用SPPCSPC替代SPPF模塊，進一步增強了網(wǎng)絡對不同尺度特征信息的提取能力。

本文旨在設計一種基于改進YOLOv8的交通標志檢測與識別算法，以提高算法在復雜場景下的識別精度、魯棒性和實時性，為智能交通系統(tǒng)和自動駕駛技術的進一步發(fā)展提供技術支持。

1 交通標志檢測基礎

1.1 交通標志的特征及檢測

交通標志作為道路安全設施的重要組成部分，具有統(tǒng)一性、規(guī)范性和多樣性等特征。統(tǒng)一性：全國實行統(tǒng)一的道路交通標志，確保各地標志的一致性，便于駕駛人識別和遵守；規(guī)范性：交通標志的設置需符合道路交通安全和暢通的要求及國家標準，保持清晰、醒目、準確和完好；多樣性：根據(jù)用途和需要，交通標志分為指示標志、警告標志、禁令標志、指路標志、旅游區(qū)標志、道路施工安全標志以及輔助標志等多種類型。

隨著計算機視覺和圖像處理技術的發(fā)展，交通標志的識別與檢測技術日益成熟。傳統(tǒng)的檢測方案包括：1）基于顏色的檢測。不同類型的3e7dd422c0490b6a0c8b5e675eb42e44交通標志通常采用特定的顏色組合，如警告標志多為黃色背景加黑色圖案，禁令標志多為紅色背景加白色圖案，可通過從圖像中提取出特定顏色組合的區(qū)域?qū)崿F(xiàn)識別。2）基于形狀的檢測。交通標志通常具有規(guī)則的幾何形狀，如圓形、三角形和矩形等。通過邊緣檢測、形態(tài)學處理等技術，可從圖像中提取出具有特定形狀的區(qū)域。3）基于多特征融合的檢測。由于單一特征可能受光照、遮擋等因素影響，因此多特征融合成為提高識別準確率的重要手段，這種方法結合了顏色、形狀和紋理等多種特征，通過綜合評估實現(xiàn)對交通標志的準確識別。然而，傳統(tǒng)的識別與檢測技術往往存在識別準確率低、易受環(huán)境因素影響和泛化能力弱等問題。

1.2 卷積神經(jīng)網(wǎng)絡的應用

卷積神經(jīng)網(wǎng)絡的核心在于卷積層的使用。卷積層通過局部連接和權值共享的方式，有效減少了網(wǎng)絡參數(shù)的數(shù)量，降低了計算復雜度，同時能夠自動從輸入數(shù)據(jù)中提取出層次化的特征表示。卷積神經(jīng)網(wǎng)絡通常由卷積層、池化層和全連接層等組成，通過堆疊組合，可以構建出具有強大學習能力的深度網(wǎng)絡模型。

1.2.1 卷積神經(jīng)網(wǎng)絡在智慧交通領域的應用

1）交通標志檢測與識別。卷積神經(jīng)網(wǎng)絡通過對交通標志圖像進行預處理（如灰度化、歸一化等），并設計合適的網(wǎng)絡結構，能夠自動從圖像中提取交通標志的特征，實現(xiàn)快速準確地識別。

2）車輛檢測與跟蹤。卷積神經(jīng)網(wǎng)絡通過自動學習車輛的特征表示，能夠在復雜多變的交通場景中實現(xiàn)高效的車輛檢測。同時，結合循環(huán)神經(jīng)網(wǎng)絡或長短期記憶網(wǎng)絡等序列模型，能夠?qū)崿F(xiàn)車輛的連續(xù)跟蹤，為智能交通管理提供有力支持。

3）行為分析與異常檢測。卷積神經(jīng)網(wǎng)絡通過對監(jiān)控視頻進行分析，可以自動識別行人的行走軌跡、駕駛員的駕駛行為等關鍵信息，進而判斷是否存在異常行為。例如，通過識別駕駛員的疲勞駕駛和分心駕駛等行為，及時發(fā)出警告，從而有效降低交通事故的風險。

1.2.2 卷積神經(jīng)網(wǎng)絡在智慧交通領域的發(fā)展

卷積神經(jīng)網(wǎng)絡在智慧交通領域的應用不斷深化和拓展，其發(fā)展趨勢表現(xiàn)為：① 輕量化與高效化。針對實際應用中的實時性要求，開發(fā)更加輕量化和高效的卷積神經(jīng)網(wǎng)絡模型，減少計算量和存儲需求，提高系統(tǒng)的響應速度；② 多源信息融合。為了進一步提高識別的準確率和魯棒性，將更多地融合多源信息，實現(xiàn)多模態(tài)數(shù)據(jù)的協(xié)同處理；③ 跨場景適應性。針對不同交通場景的特點和需求，開發(fā)具有更強跨場景適應性的卷積神經(jīng)網(wǎng)絡模型，以應對復雜多變的交通環(huán)境；④ 集成學習與知識蒸餾。通過將多個卷積神經(jīng)網(wǎng)絡模型進行集成學習，或利用知識蒸餾技術將大模型的知識遷移到小模型中，可以進一步提高模型的性能和泛化能力。

1.3 目標檢測算法

目標檢測旨在從圖像或視頻中準確識別特定類別的目標，并確定其位置。其算法主要分為單階段檢測和兩階段檢測。

1.3.1 單階段檢測算法

單階段檢測算法直接從輸入圖像中預測目標的類別和位置，省略了候選區(qū)域生成和特征提取的中間步驟，因此具有較高的計算效率和實時性。其代表算法包括YOLO系列和SSD。

YOLO算法于2015年首次提出，其核心在于將目標檢測任務視為一個單一的回歸問題。YOLO將輸入圖像劃分為S×S的網(wǎng)格，每個網(wǎng)格負責預測B個邊界框及其置信度和C個類別的概率。SSD算法于2016年提出，結合了YOLO的回歸思想和Faster R-CNN的錨點機制。SSD在不同尺度的特征圖上預測邊界框，并利用不同尺度的特征圖來檢測不同大小的目標。此外，SSD還采用非極大值抑制來去除重復的邊界框，進一步提高了檢測的準確性。然而，與YOLO系列相比，SSD在特征提取和邊界框回歸方面可能稍顯復雜。

1.3.2 兩階段檢測算法

兩階段檢測算法首先將輸入圖像劃分為一系列候選區(qū)域，然后對這些候選區(qū)域進行分類和定位，從而實現(xiàn)較高的檢測精度，但其計算效率相對較低。其代表算法包括R-CNN、Fast R-CNN和Faster RCNN等。

R-CNN系列算法使用選擇性搜索算法生成候選區(qū)域，通過精細的候選區(qū)域生成和特征提取，能夠在復雜場景下實現(xiàn)較高的檢測精度。Fast R-CNN在RCNN的基礎上引入了ROI Pooling層，實現(xiàn)特征圖的共享，顯著提高了檢測速度。同時，F(xiàn)ast R-CNN提出了區(qū)域候選網(wǎng)絡，實現(xiàn)了候選區(qū)域的快速生成，進一步提升了檢測速度和精度。然而，這類算法由于需要分兩步進行檢測，其計算效率相對較低，難以滿足實時性要求較高的應用場景。

2 改進YOLOv8的交通標志檢測識別模型設計

2.1 YOLOv8檢測模型

1） YOLOv8的網(wǎng)絡結構主要由三部分組成：Back?bone、Neck和Head。

Backbone 部分參考了CSPDarkNet 結構，采用了C2f模塊替代C3模塊。C2f模塊通過更有效的結構設計減少了冗余參數(shù)，提高了計算效率。首先，通過Conv1層對輸入tensor進行拆分，將其分成兩部分：一部分直接通過Bottleneck 模塊，而另一部分則通過shortcut連接。每個Bottleneck的輸入Tensor的通道數(shù)僅為上一級的0.5倍，顯著降低了計算量。此外，第一個卷積層的核大小改為3×3，提升了特征提取能力。

Neck部分采用了PANet結構，這是一個雙向通路網(wǎng)絡，通過自底向上和自頂向下的路徑聚合增強了特征圖的表達能力。與FPN相比，PANet引入了自下向上的路徑，使得底層信息更容易傳遞到高層，從而提高了對不同尺寸目標的檢測能力。YOLOv8還通過SPPF模塊進行不同尺度的池化操作，進一步提高了特征提取的魯棒性。

Head部分負責最終的目標檢測和分類任務，并將回歸分支和預測分支分離。這種設計使得收斂速度更快，檢測效果更佳。針對回歸分支，YOLOv8使用了Distribution Focal Loss 策略，將坐標預測從確定性單值轉(zhuǎn)變?yōu)榉植夹问?，解決了邊界模糊的問題。此外，采用了Anchor-Free機制，減少了錨框的超參數(shù)設置，簡化了訓練過程。

2） YOLOv8是一種SOTA模型，旨在快速、準確且易于使用。YOLOv8優(yōu)異的檢測性能主要歸功于其優(yōu)化的網(wǎng)絡結構和創(chuàng)新的損失函數(shù)設計。通過引入新的骨干網(wǎng)絡，YOLOv8能夠更有效地提取圖像特征，從而提高檢測精度。同時，新的檢測頭和損失函數(shù)的設計也使得模型在訓練過程中更加穩(wěn)定，收斂速度更快。

此外，YOLOv8的檢測精度主要得益于其改進的特征融合策略和更精細的錨框設計。采用PANet結構進行特征融合，通過自底向上和自頂向下的路徑聚合，增強了特征圖的表達能力，使得模型能夠更好地處理不同尺寸的目標。同時，采用Anchor-Free機制，減少錨框的超參數(shù)設置，簡化訓練過程，提高模型的泛化能力。

再者，YOLOv8的推理速度主要體現(xiàn)在其輕量級的網(wǎng)絡設計和高效的計算策略上。通過減少網(wǎng)絡結構中的冗余參數(shù)和計算量，提高了模型的推理速度，使其在實際應用中能夠滿足實時檢測的需求。

2.2 CBMA 注意力機制

2.2.1 CBAM 注意力機制概述

CBAM（Convolutional Block Attention Module）注意力機制由通道注意力模塊（CAM）和空間注意力模塊（SAM）組成。

1）通道注意力模塊（CAM）對每個通道進行全局平均池化和全局最大池化，然后將這兩個池化結果輸入到一個共享的全連接層中，最后通過Sigmoid激活函數(shù)輸出一個通道注意力權重向量。這個權重向量用于加權輸入特征圖的每個通道，以強調(diào)重要特征并抑制不重要特征。

2）空間注意力模塊（SAM）對每個通道進行平均池化和最大池化，然后將這兩個池化結果拼接后通過一個卷積層，最后通過Sigmoid激活函數(shù)輸出一個空間注意力權重張量。這個張量用于加權輸入特征圖的每個像素，以強調(diào)重要區(qū)域并抑制不重要區(qū)域。

2.2.2 融合CBMA 機制改進YOLOv8

1）網(wǎng)絡結構集成。CBAM模塊可以作為一個即插即用的組件，在YOLOv8的主干網(wǎng)絡、頸部網(wǎng)絡或檢測頭中的適當位置插入。本文選擇將CBAM模塊插入到YOLOv8頸部網(wǎng)絡的特征融合層之后，能夠在不同尺度的特征圖上同時應用通道注意力和空間注意力，進一步提升特征圖的表達能力。此外，可以在檢測頭之前插入CBAM模塊，以進一步增強用于目標檢測的特征圖。

2）參數(shù)與訓練。由于CBAM模塊引入了額外的參數(shù)和計算量，需要對模型參數(shù)進行相應的調(diào)整，如增加訓練過程中的迭代次數(shù)、調(diào)整學習率等超參數(shù)，以確保模型能夠充分學習并收斂到最優(yōu)解。

2.3 Swin-Transformer 網(wǎng)絡

2.3.1 Swin-Transformer 網(wǎng)絡概述

Swin-Transformer是一種基于Transformer架構的圖像分類和目標檢測模型，它通過引入分層的窗口機制來處理圖像，解決了傳統(tǒng)Transformer在處理大尺寸圖像時的計算和內(nèi)存開銷問題。Swin-Transformer網(wǎng)絡結構包括Patch Embedding 層、多個Stage 和一個Head層。每個Stage由多個Swin Transformer Block組成，每個Block包含一個窗口化的Transformer模塊和一個跨窗口的注意力模塊，這種設計使其在保持高精度的同時，具有更高的計算效率和可擴展性。

2.3.2 融合Swin-Transformer 網(wǎng)絡改進YOLOv8

1）主干網(wǎng)絡替換。將YOLOv8的主干網(wǎng)絡替換為Swin-Transformer 網(wǎng)絡結構，充分利用Swin-Transformer在特征提取方面的優(yōu)勢，提升模型對圖像細節(jié)和全局信息的捕捉能力。通過修改YOLOv8的配置文件（如YAML文件），將原有的主干網(wǎng)絡參數(shù)替換為Swin-Transformer的相關參數(shù)，并相應地調(diào)整網(wǎng)絡層的連接關系。

2）特征融合與增強。在YOLOv8的頸部網(wǎng)絡中融合Swin-Transformer提取的特征，通過特征金字塔網(wǎng)絡（FPN）或路徑聚合網(wǎng)絡（PAN）等結構將不同尺度的特征圖進行有效融合，以增強模型對多尺度目標的檢測能力。此外，結合檢測頭部分引入的注意力機制，進一步加強對關鍵特征的關注，提高檢測的準確性和魯棒性。

3）訓練與優(yōu)化。由于引入了更多的參數(shù)和計算量，需要對模型進行重新訓練和優(yōu)化，如調(diào)整訓練過程中的學習率、批處理大小、迭代次數(shù)等超參數(shù)，以確保模型能夠充分學習并收斂到最優(yōu)解。同時，可以采用數(shù)據(jù)增強、正則化等策略來提高模型的泛化能力，減少過擬合現(xiàn)象的發(fā)生。

2.4 YOLOv8損失函數(shù)的優(yōu)化

2.4.1 YOLOv8損失函數(shù)概述

YOLOv8的損失函數(shù)是一個多任務損失函數(shù)，綜合考慮了目標分類、定位和置信度預測等多個方面，確保模型在訓練過程中能夠全面優(yōu)化這些關鍵任務。

1）分類損失：YOLOv8特別采用N個目標的二元交叉熵損失求和再取平均的方式，更準確地反映每個目標的分類準確性，適用于多類別分類場景。

2）定位損失：YOLOv8使用平方根誤差損失函數(shù)或平滑L1損失直接計算邊界框中心坐標和尺寸的誤差。

3）置信度損失：YOLOv8使用二進制交叉熵損失函數(shù)來計算置信度損失，通過比較模型預測的目標存在概率與真實標簽的差異來衡量模型的置信度準確性。

2.4.2 YOLOv8損失函數(shù)的優(yōu)化

1）引入先進的損失函數(shù)變體。

① 定位損失優(yōu)化：引入如GIoU、DIoU、CIoU等變體，考慮邊界框的重疊比例、中心點距離、長寬比等因素，使得定位更加全面和準確。

② 分類損失優(yōu)化：采用Focal Loss等變體，通過降低易分類樣本的權重，使模型更加關注難分類樣本，從而提高分類的準確性和魯棒性。

③ 置信度損失優(yōu)化：引入動態(tài)權重調(diào)整機制，根據(jù)模型的預測置信度動態(tài)調(diào)整損失權重，使得模型在訓練過程中更加關注置信度預測不準確的樣本。

2）結合多任務學習進行聯(lián)合優(yōu)化。

通過設計合適的損失函數(shù)組合來同時優(yōu)化多個任務的性能。例如，在關鍵點檢測任務中使用歐幾里得距離損失來評估預測關鍵點與實際關鍵點之間的相似性；在實例分割任務中則可以使用Dice損失或交叉熵損失來評估分割結果的準確性。通過聯(lián)合優(yōu)化這些任務的損失函數(shù)組合，可以進一步提升模型的整體性能。

3）利用梯度下降優(yōu)化算法進行參數(shù)調(diào)優(yōu)。

選擇合適的梯度下降優(yōu)化算法（如Adam、SGD 等）并進行適當?shù)膮?shù)調(diào)優(yōu)，對于提高YOLOv8模型的收斂速度和最終性能至關重要。在實際應用中，可以根據(jù)數(shù)據(jù)集規(guī)模、硬件設備以及訓練目標等因素選擇合適的優(yōu)化算法，并調(diào)整其學習率、動量等參數(shù)，以獲得最佳的訓練效果。

3 數(shù)據(jù)集的選擇與增強

在選擇數(shù)據(jù)集時，需要考慮數(shù)據(jù)集的規(guī)模、多樣性、圖像質(zhì)量等因素。對于交通標志和交通信號燈目標檢測任務，數(shù)據(jù)集的規(guī)模越大，模型的泛化能力越強。此外，數(shù)據(jù)集的多樣性也非常重要，它能夠提升模型對不同場景的適應能力。常用的交通標志數(shù)據(jù)集有：

1） GTSRB數(shù)據(jù)集（德國）：包含43種交通信號，共51 839張圖片，其中訓練圖片39 209張，測試圖片12630張，圖片尺寸在15×15至250×250像素之間。

2） LISA數(shù)據(jù)集（美國）：包含交通標志和交通信號燈。該數(shù)據(jù)集規(guī)模較大，標注信息包括交通標志和交通信號燈的類型、位置、尺寸等。

3） TT100K數(shù)據(jù)集（清華大學與騰訊合作制作）：包含約10萬張騰訊街景全景圖，其中約1萬張包含交通標志。該數(shù)據(jù)集規(guī)模龐大，標注詳細，覆蓋了多種天氣和光照條件，適用于復雜場景下的交通標志識別。

4） CTSDB數(shù)據(jù)集：是國內(nèi)較受歡迎的交通標志數(shù)據(jù)集之一，包含6 164個交通標志圖像，分為58類。數(shù)據(jù)集分為訓練數(shù)據(jù)庫（4 170 張圖像）和測試數(shù)據(jù)庫（1 994張圖像）。圖像采集于不同天氣和光照條件下，并包含部分遮擋情況，適用于國內(nèi)交通標志識別的研究。

5） CCTSDB 數(shù)據(jù)集：來自長沙理工大學，是在CTSDB數(shù)據(jù)集的基礎上擴充而來。標注數(shù)據(jù)分為指示標志、禁止標志和警告標志三大類，適用于中國道路實際場景下的交通標志識別研究。

在實際應用中，交通標志檢測與識別面臨著光線變化、背景復雜、物體遮擋、尺寸不一等諸多挑戰(zhàn)。因此，數(shù)據(jù)增強成為提高模型訓練效果的重要策略。數(shù)據(jù)預處理通過隨機調(diào)整圖像的亮度和對比度，可以模擬不同光照條件下的場景，使模型能夠適應各種光線變化；通過調(diào)整圖像的色相、飽和度和明度，可以模擬不同光源下的色彩效果，提高模型對色彩變化的魯棒性；隨機縮放和裁剪圖像可生成不同大小的交通標志樣本，從而提高模型對小目標和遠距離目標的檢測精度；通過Mosaic增強可以顯著增加訓練數(shù)據(jù)的多樣性和復雜性，使模型在訓練階段能夠接觸到更多樣化的場景；通過CutMix增強可以模擬交通標志被其他物體遮擋或重疊的場景，提高模型對遮擋和重疊目標的檢測能力。

4 結束語

實驗結果表明，改進的YOLOv8在交通標志的識別率、精確率、識別速度以及小目標的識別率等方面表現(xiàn)良好。從識別率來看，改進后的模型在復雜場景下顯示出較高的識別率，與原型算法相比，mAP和F1 分數(shù)分別提升了5.4%和4.8%；在大、中、小目標的準確率方面，分別提升了5.8%、4.2%和6.4%。從識別速度來看，改進后的模型在實際場景下的平均FPS達到93幀/秒，與原型算法相比略有下降。從模型魯棒性來看，改進后的算法具有較強的適應性和穩(wěn)定性，能夠在模糊失真、光線變化、目標尺寸變化以及小目標密集等復雜情況下進行有效檢測。展望未來，本研究將圍繞在保證模型性能的同時，致力于實現(xiàn)模型的輕量化與壓縮，以便于在智能終端上的部署與使用，進一步降低設備的硬件成本和提升識別效率。

電腦知識與技術2024年30期

電腦知識與技術的其它文章: 基于OBE理念的程序設計類課程教學質(zhì)量管理模式改革實踐探析; C語言程序設計課程思政建設路徑探索：以國家一流課程建設為契機; 產(chǎn)業(yè)學院背景下大數(shù)據(jù)應用現(xiàn)場工程師培養(yǎng)路徑研究; 基于核心能力培養(yǎng)的信息安全專業(yè)綜合實踐課程教學改革探析; 教改背景下電工技術課程思政建設改進思考; 面向新工科應用創(chuàng)新型人才培養(yǎng)的計算機網(wǎng)絡課程教學改革與實踐

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于改進YOLOv8的交通標志檢測與識別算法研究