李玉珍,陳 輝,王 杰,榮 文
基于透視降采樣和神經(jīng)網(wǎng)絡(luò)的地面標志檢測
李玉珍1,陳 輝1,王 杰1,榮 文2
(1. 山東大學信息科學與工程學院,山東 青島 266237;2. 山東高速信息集團有限公司,山東 濟南 250000)
在智能駕駛領(lǐng)域,為實時精確檢測路面的導向標志,提出一種基于透視降采樣和神經(jīng)網(wǎng)絡(luò)的地標檢測方法,有效解決傳統(tǒng)檢測方法實時性較差、復雜場景和遠處小目標檢測準確率較低的問題。首先,選取圖像感興趣區(qū)域進行透視降采樣,降低道路圖像近處分辨率,縮小圖像尺寸,同時消除透視投影誤差。其次對YOLOv3-tiny目標檢測網(wǎng)絡(luò)進行改進,采用k-means++算法對自建數(shù)據(jù)集的邊界框聚類;添加卷積層強化淺層特征,提升小目標表征能力;改變特征金字塔融合尺度,將預測輸出調(diào)整為適合地標尺寸的26×26和52×52。最后,在自建多場景數(shù)據(jù)集上測試,準確率由78%提升到99%,模型大小由33.8 MB減小為8.3 MB。結(jié)果表明,基于透視降采樣和神經(jīng)網(wǎng)絡(luò)的地標檢測方法魯棒性強,對小目標檢測精度更高,易于在低端嵌入式設(shè)備上部署。
透視降采樣;YOLOv3-tiny;地標檢測;數(shù)據(jù)集;k-means++
自動駕駛和智能輔助駕駛技術(shù)作為當今熱門的研究領(lǐng)域,一直是國內(nèi)外學者研究的熱點。地面交通標志檢測作為自動駕駛研究的關(guān)鍵技術(shù)之一,主要包含車道線檢測和地面轉(zhuǎn)向標志檢測。目前,針對車道線識別技術(shù)的研究較多,地面轉(zhuǎn)向標志識別的研究較少。地面標志檢測能實時精確定位和識別車道上的導向標志,在智能駕駛情況下對道路環(huán)境進行感知,幫助駕駛員或智能駕駛系統(tǒng)正確、安全地行駛。路面各種箭頭、字母等包含重要的交通指示信息,對道路場景的理解有重要的作用。駕駛員可能因樹影遮擋、光照變化等情況未注意地面標志,或不了解某個地標的具體含義等情況,導致嚴重的交通事故,影響正常交通秩序。
在地面標志檢測方面,目前常用的檢測方法可分為以下3類:
(1) 基于傳統(tǒng)二值化方法。REBUT等[1]使用全局二值化和用于箭頭標記的形態(tài)算子產(chǎn)生道路標志候選區(qū)域,通過傅里葉算子和K最近鄰算法識別標志,對目標輪廓完整性要求較高,對損壞或遮擋標志檢測效果不理想;FOUCHER等[2]利用局部閾值提取邊緣,并通過漢明距離和基于投影的直方圖圖像比較來分類,涉及閾值數(shù)量多,真實檢測率低;WU和RANGANATHAN[3]選取道路圖像中最大穩(wěn)定的極值區(qū)域,從中檢測到角作為模板特征,采用基于角特征的結(jié)構(gòu)匹配識別轉(zhuǎn)向標志,對陰影敏感、誤報率高;LIU等[4]提出一種基于感興趣區(qū)域(region of interest,ROI)透視變換的道路標記識別方法,通過逆透視變換(inverse perspective mapping,IPM)將梯形ROI轉(zhuǎn)為正方形,利用模板匹配進行檢測識別,對旋轉(zhuǎn)、尺度變化等魯棒性差;HE等[5]采用局部結(jié)合點特征實現(xiàn)了導向箭頭的特征編碼,采用編輯距離(edit distance)度量箭頭相似性來分類識別,對遮擋和磨損標志的召回率較低。
(2) 基于機器學習支持向量機(support vector machine,SVM)的目標分類方法。隨著機器學習的不斷發(fā)展,AdaBoost[6]和SVM[7]被應用于地面導向標志識別中。WANG等[8]采用IPM預處理,小波函數(shù)提取特征,多層SVM進行導向箭頭識別。QIN等[9]采用局部和全局二值化生成識別候選區(qū)域,基于具有輪廓特征的多分類SVM對地標分類。SCHREIBER等[10]利用分水嶺分割算法二值化圖像,利用基于SVM和光學字符識別(optical character recognition,OCR)對地面標志分類。
(3) 基于神經(jīng)網(wǎng)絡(luò)的地面標志檢測算法。神經(jīng)網(wǎng)絡(luò)是近年來國內(nèi)外學者的研究熱點,GIRSHICK等[11]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)與候選框相結(jié)合,提出了基于卷積神經(jīng)網(wǎng)絡(luò)特征區(qū)域 (regions with CNN features,R-CNN)的目標檢測和圖像分割的方法,為提高效率,又引入空間金字塔池化網(wǎng)絡(luò)[12]。REN等[13]在Faster R-CNN加入?yún)^(qū)域候選網(wǎng)絡(luò)(region proposal networks,RPN),將全圖像卷積特征進行共享,提高了GPU上的檢測速度。兩階段神經(jīng)網(wǎng)絡(luò)檢測精度較高,但實時性較差。
現(xiàn)有的地面導向標志識別方法中,多數(shù)研究都是基于傳統(tǒng)的二值化方法和機器學習中的SVM,實時性不高,遇到標志模糊、光照變化、陰影遮擋等情況,識別的準確率大幅降低。針對上述問題,為了提高檢測魯棒性,本文將YOLO (you only look once)[14]算法應用于地面標志檢測中,提出一種基于透視降采樣和神經(jīng)網(wǎng)絡(luò)的地標檢測算法,適用于城市及高速公路等場景。以YOLOv3-tiny算法為基礎(chǔ),利用k-means++算法[15]選擇最佳先驗框尺寸,強化淺層信息,更改特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)融合尺度,提高算法魯棒性和小標志的表征能力。實驗結(jié)果表明,本文算法兼顧精度和速度,可以在嵌入式設(shè)備上靈活部署。
YOLO是一種采用CNN實現(xiàn)端到端目標檢測的算法。與傳統(tǒng)基于候選框的方法不同,其直接將整幅圖輸入網(wǎng)絡(luò)訓練模型,將目標檢測看作回歸問題,采用滑動窗口的方式尋找目標中心位置,能夠?qū)崟r預測多個目標的類別和位置。YOLO網(wǎng)絡(luò)借鑒了GoogLeNet[16]分類網(wǎng)絡(luò)結(jié)構(gòu)。首先將輸入圖像劃分為×個網(wǎng)格,若目標物體的中心位置落入其中,則這個網(wǎng)格負責預測該目標。每個網(wǎng)格將輸出分類置信度和位置邊框,YOLO檢測原理如圖1所示。因此,輸入圖像只經(jīng)過一次檢測,就能得到圖像中所有物體的位置及其所屬類別的置信度,即每個邊界框中包含物體的概率為
其中,為置信度評分;()為邊界框含有目標的可能性;truth為實際標注的邊界框面積;pred為預測的邊界框面積;為交并比,代表truth和pred的交集與并集的比值。對結(jié)果預測時,由條件類別概率和目標置信度乘積得到類別的置信度,即
其中,為邊界框類別的置信度,代表該邊界框中目標屬于各個類別的可能性大小以及邊界框匹配目標的好壞程度;(c|)為該單元格存在物體且屬于第類的概率;c為目標種類中的第個類別。最后利用非極大值抑制(non-maximum suppression,NMS),去掉冗余預測窗口,得到置信度最高的預測窗口,即為檢測結(jié)果。
YOLOv3-tiny網(wǎng)絡(luò)是YOLOv3網(wǎng)絡(luò)[17]的簡化版,使用較少的卷積層和池化層進行特征提取,未使用Darknet-53中的殘差模塊。其具有相對較高的檢測速度,但識別精度不高,對復雜場景的檢測能力較低。
圖1 YOLO原理圖
YOLOv3-tiny包含24個網(wǎng)絡(luò)層,分別是13個卷積層(convolutional)、6個池化層(maxpool)、2個路由層(route)、2個輸出層(yolo)和1個上采樣層(upsample)。主干網(wǎng)絡(luò)采用卷積層和池化層串聯(lián)結(jié)構(gòu),骨干網(wǎng)絡(luò)類似于YOLOv2[18]中的Darknet-19網(wǎng)絡(luò),由1×1和3×3大小的卷積核提取特征,采用FPN[19],融合輸出了2個13×13和26×26尺度的特征信息,輸出通道直接得到包含目標框的坐標(,,,)和目標置信度。YOLOv3-tiny的網(wǎng)絡(luò)結(jié)構(gòu)框架如圖2所示。
圖2 YOLOv3-tiny網(wǎng)絡(luò)框架
地面較為常見的標志有導向箭頭和限速標志等,本文以導向箭頭標志為主,主要研究5類常見的標志,分別為直行或右轉(zhuǎn)、直行或左轉(zhuǎn)、直行、左轉(zhuǎn)、右轉(zhuǎn)。
目前,針對地面交通標志的研究較少,沒有公開的數(shù)據(jù)集。本文首先構(gòu)建了一個可用于深度學習訓練和測試的地面標志數(shù)據(jù)集,一部分數(shù)據(jù)來自濟青高速、山東大學青島校區(qū)周邊的車載相機數(shù)據(jù),另一部分來自百度阿波羅公開道路數(shù)據(jù)集中帶有地標的部分,使用LabelImg標注制作22 000余張數(shù)據(jù)。為降低數(shù)據(jù)集冗余度,每隔5幀抽取1張圖片作為數(shù)據(jù)集樣本,最終得到4 311張圖片的數(shù)據(jù)集,包含不同城市的不同場景。數(shù)據(jù)集滿足Pascal VOC數(shù)據(jù)集格式,按照7∶2∶1比例將數(shù)據(jù)集分為訓練集、測試集和驗證集。Landmark數(shù)據(jù)集統(tǒng)計見表1。
為了簡潔直觀地顯示類別,用SorR,SorL,S,L和R分別表示直行或右轉(zhuǎn)、直行或左轉(zhuǎn)、直行、左轉(zhuǎn)、右轉(zhuǎn)。
表1 Landmark數(shù)據(jù)集統(tǒng)計表
數(shù)據(jù)集圖片尺寸為2700×2400和1920×1080,使用原圖訓練速度慢,訓練特征圖感受野較大,不適宜檢測小目標。為了在嵌入式系統(tǒng)中進行實時目標檢測,將圖像導入低端設(shè)備時,首先將圖像進行降采樣操作,降低圖像分辨率,加速訓練。普通降采樣對大小為×的圖片進行倍縮放,原始圖片變?yōu)?/)×(/),原始圖像中每×的像素點轉(zhuǎn)化為降采樣圖片中的一個像素點。經(jīng)過數(shù)倍普通降采樣后,有效像素較少的目標特征不明顯,甚至整個目標丟失。
車載相機采集的圖像存在較強透視效應,且多為復雜場景下的數(shù)據(jù),涵蓋大量車輛、行人、建筑物等復雜信息。為消除透視投影誤差,可對透視圖進行IPM,以減少無關(guān)信息對模型性能的影響。原IPM模型直接對整張道路圖像進行變換,雖對遠處的小目標分辨率影響較小,但生成的俯視圖呈“下窄上寬”的倒梯形,保留了很多地標之外的干擾信息,轉(zhuǎn)向標志占俯視圖的比重較小,且被限制在俯視圖的中央?yún)^(qū)域,效果如圖3所示。
圖3 逆透視變換(2700×350)
轉(zhuǎn)向標志特征簡單,近處大目標所在區(qū)域像素冗余。為滿足實際需求,縮小圖像尺寸,同時消除透視投影誤差,本文提出一種透視降采樣方法,結(jié)合IPM和普通降采樣,將劃定的梯形ROI區(qū)域投影在目標圖像上。首先選取合適的ROI區(qū)域,根據(jù)ROI區(qū)域坐標和目標圖像坐標計算出變換矩陣,即可對圖像進行透視降采樣變換。目標圖像由遠及近按比例進行降采樣,遠處小目標的分辨率基本不變,近處在保留原圖信息的條件下降低圖像分辨率。其計算公式為
圖4 遠近目標結(jié)果對比圖((a)真實圖像;(b)普通降采樣;(c)透視降采樣)
圖4(a)為真實圖像和真實圖像中紅色方框區(qū)域的局部放大圖,圖4(b)和(c)分別為普通降采樣、透視降采樣到400×350的效果圖。對比圖4(a)和(b)可以看出,使用普通降采樣將整張圖像分辨率均勻降低后,圖4(b)中近處大目標分辨率相比圖4(a)降低,輪廓仍可見,不影響辨識目標類別,但遠處小目標明顯模糊,無法辨識目標輪廓和類別。圖4(c)使用透視降采樣,不僅保證遠處小目標分辨率與原圖4(a)中基本相同,還提高了小目標在整張圖像中的占比,更易于檢測;近處大目標的分辨率降低,與圖4(b)中近處大目標的處理效果類似。即透視降采樣方法主要依靠降低近處分辨率來縮小圖像尺寸,基本不會影響遠處小目標的分辨率。與原圖像相比,透視降采樣后的圖像具有3個優(yōu)點:①基本消除地標的透視形變影響;②縮小圖片尺寸,提升模型計算速度;③劃定ROI,減少路面之外的干擾信息,增強小目標特征信息。
本文檢測目標是5類轉(zhuǎn)向標志,特征簡單,選擇計算量低、速度快的YOLOv3-tiny作為基準網(wǎng)絡(luò)。由1.2節(jié)可知,其精度較低,本文通過改進YOLOv3-tiny網(wǎng)絡(luò)結(jié)構(gòu),提出適合地面轉(zhuǎn)向標志檢測的改進YOLOv3-tiny,因改進后包含12個卷積層,本文將其簡記為YOLOv3-tiny-12,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 YOLOv3-tiny-12網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv3-tiny-12網(wǎng)絡(luò)主要分為特征提取和回歸預測。前者由卷積層和池化層組成,后者用于預測目標的邊界框坐標和類別概率。根據(jù)地面轉(zhuǎn)向標志特點,本文改進主要分為3部分:①計算自建數(shù)據(jù)集的聚類中心,更新網(wǎng)絡(luò)中每個簇對應的先驗框值;②添加卷積層對淺層信息進行強化重構(gòu),增強圖像細粒度特征的提??;③根據(jù)目標近大遠小透視特點,采用FPN實現(xiàn)不同分辨率的特征融合,提高網(wǎng)絡(luò)對不同尺寸目標的檢測性能。
2.3.1 基于自建數(shù)據(jù)集的邊界框聚類
YOLOv3-tiny網(wǎng)絡(luò)中使用先驗框參數(shù),訓練時加入先驗錨框尺寸,對預測對象范圍進行約束,有助于模型加速收斂。先驗框是根據(jù)訓練集中的真實框(ground truth)聚類得到的不同尺寸框,在模型中即為尺度不同的滑動窗口。原始網(wǎng)絡(luò)中的先驗框由k-means算法對COCO數(shù)據(jù)集[20]聚類得到,劃分了6個簇分別對應2個尺度。由于COCO數(shù)據(jù)集中不含與地標相關(guān)數(shù)據(jù),原始先驗框參數(shù)不能與地標尺寸對應,因此訓練前對數(shù)據(jù)集標簽進行聚類??紤]到k-means算法[21]選擇初始聚類中心時有較大的隨機性,為避免其隨機選取初始聚類中心帶來的聚類結(jié)果偏差,選用隨機性更小的k-means++聚類代替k-means算法對圖像標簽進行聚類分析。
通過對數(shù)據(jù)集中標注框的寬和高進行聚類,得到6個聚類中心,設(shè)為初始先驗框的寬和高,分別是(16,13),(28,29),(35,15),(35,87),(51,68),(69,99),聚類結(jié)果如圖6所示。
圖6 數(shù)據(jù)集標注框聚類結(jié)果
2.3.2 增強淺層特征信息的提取
YOLOv3-tiny網(wǎng)絡(luò)在特征提取過程中,由于串聯(lián)式的卷積層、池化層結(jié)構(gòu),以及網(wǎng)絡(luò)結(jié)構(gòu)加深,感受野增大,導致復雜的背景特征增加,小目標特征減少。
對于CNN,不同深度的卷積層對應不同層次的特征信息。淺層網(wǎng)絡(luò)包含更多小目標的邊緣、紋理等信息。為了有效利用淺層特征,本文在網(wǎng)絡(luò)特征提取部分強化淺層信息,增強對第3個串聯(lián)式卷積池化層的特征提取效果,將maxpool層改為conv4層,卷積步長為1,不改變通道維度和特征圖尺寸,在conv4層后添加maxpool層,步長為2,改變特征圖尺寸,如圖5紅色標注框A所示。改進后既滿足深層的語義信息區(qū)分目標和背景特征,也增加淺層特征圖感受野,提高遠處小目標檢測精度。
2.3.3 基于特征金字塔的多尺度融合
YOLOv3網(wǎng)絡(luò)允許輸入不同尺寸的輸入圖像,如608×608,416×416等。原網(wǎng)絡(luò)默認將不同長寬的圖像統(tǒng)一調(diào)整分辨率為416×416,保證圖像經(jīng)過卷積、池化和特征融合等處理后,得到13×13和26×26尺度的特征圖。此特征圖有部分信息損失,滿足對大目標的檢測,但對小目標準確檢測需要更細粒度的特征。因低層網(wǎng)絡(luò)具有更高的分辨率和更詳細的特征信息,故本文根據(jù)邊界框聚類結(jié)果和先驗框(表2),調(diào)整特征金字塔輸出尺度為26×26和52×52,將小尺度的先驗邊界框分配給52×52特征圖。YOLOv3-tiny-12中使用的金字塔結(jié)構(gòu)如圖7所示。
表2 先驗框表
圖7 特征金字塔
先驗框(anchor)即在圖像上預先設(shè)定不同大小、不同長寬比例的框。網(wǎng)絡(luò)設(shè)置合適的先驗框尺度,可更高概率地出現(xiàn)對目標有高匹配度的先驗框,體現(xiàn)為高IOU。先驗框尺寸一般都是經(jīng)驗選取或k-means聚類得到,YOLOv2中介紹,網(wǎng)絡(luò)是通過k-means聚類代替人工經(jīng)驗選取,對訓練集中的bounding box進行聚類,生成一組更適合數(shù)據(jù)集的先驗框,使得先驗框與數(shù)據(jù)集目標的匹配度更高,網(wǎng)絡(luò)的檢測結(jié)果更好。
增加的52×52尺度特征圖融合conv5卷積層,如圖5紅色標注框B所示,將高層語義信息和淺層細節(jié)信息融合,通過更小的預選框提高小目標的檢測精度,平衡不同尺度的地面標志。
本文基于深度學習Darknet框架對數(shù)據(jù)進行訓練和評估,實驗操作系統(tǒng)為Ubuntu18.04.2,處理器為Intel Core i9-9900k,內(nèi)存為64 G,使用的GPU型號為GeForce RTX 2080Ti。
為了評價測試模型性能,本文主要選用平均精度均值(mean average precision,mAP)、平均耗時、運算量 (billion float operations,BFLOPs)和模型權(quán)重大小(size)作為評價指標。mAP用于評估算法檢測的準確率;平均耗時主要用于評估算法的實時性能,表示處理每張圖片消耗的時間(單位:ms),平均耗時越少,速度越快;BFLOPs描述算法進行卷積運算需要的十億次浮點運算次數(shù),表示算法的計算復雜度。部分指標為
其中,為檢測類別數(shù);(Precision)和(Recall)分別為精確率和召回率;,,分別為正確分類的正例、負例錯分為正例、正例錯分為負例個數(shù)。
表3是YOLOv3-tiny與其他幾種目標檢測算法性能對比實驗結(jié)果。
表3 不同檢測算法性能對比
從表3數(shù)據(jù)可看出,使用原始圖像進行訓練測試時,YOLOv3-tiny算法檢測每幀圖片的平均耗時為2.15 ms,速度快于其他4類算法,計算復雜度降低10倍以上,模型體積縮小數(shù)倍,但是算法精度比Faster R-CNN,SSD[22]和YOLOv4[23]算法低,符合理論預期。Faster R-CNN的檢測速度慢,計算復雜度是YOLOv3-tiny的20倍,且模型權(quán)重文件較大。綜上,本文選取計算復雜度低、模型體積小的實時檢測網(wǎng)絡(luò)YOLOv3-tiny作為基準網(wǎng)絡(luò)。
為進一步提升模型準確率,選取圖像車前區(qū)域(12 m×60 m)為ROI,設(shè)定生成圖像分辨率為400×350,對數(shù)據(jù)集進行透視降采樣(perspective down-sampling,PD)。消除透視形變和目標近大遠小對精度的影響,降低復雜場景對模型性能的干擾,在建立的數(shù)據(jù)集上使用YOLOv3-tiny驗證,透視降采樣前后的目標平均精度對比如圖8所示。
圖像進行透視降采樣后,測試集上的mAP值為96.1%,相比原mAP值提高18.8%。其中右轉(zhuǎn)R的AP最高,透視降采樣后提升到99.84%,提升了16.32%。直行S透視降采樣后平均精度提升25.37%,相比其他4類提升最大。但直行S最終的AP最低,為89.40%。結(jié)合數(shù)據(jù)集測試結(jié)果和類別形狀分析,直行標志與斑馬線、車道線虛線等交通標志的相似度程度較高,標志損壞或涂改后易錯檢,測試結(jié)果中一些正樣本標志被判定為負樣本,F(xiàn)N和FP偏高導致AP偏低。
圖8 透視降采樣前后測試結(jié)果對比
本文對網(wǎng)絡(luò)改進后,預測特征圖的感受野減小,遠處小目標的檢測效果增強,mAP值提高了3.1%,處理每幀圖片的平均耗時由2.11 ms縮短到1.89 ms,模型計算復雜度降低了7%。模型權(quán)重文件保存為訓練的網(wǎng)絡(luò)各層權(quán)值,由于網(wǎng)絡(luò)層數(shù)減少為23層,卷積核個數(shù)、通道數(shù)等減少,及卷積核尺寸變小等因素,模型大小由33.8MB減小為8.3MB,占原模型權(quán)重的25%左右,適宜在嵌入式設(shè)備部署。原網(wǎng)絡(luò)訓練8 000個epochs用時約4.5 h,改進后訓練時長僅需1.5 h。網(wǎng)絡(luò)改進前后的速度和計算復雜度對比見表4,目標的平均精度測試結(jié)果見表5。
本文使用透視降采樣后的圖像進行模型訓練,并使用YOLOv3-tiny和YOLOv3-tiny-12訓練的最優(yōu)權(quán)重測試,隨機抽取不同場景、不同距離的測試圖像結(jié)果對比如圖9所示。
表4 速度和計算量對比
表5 測試結(jié)果對比(%)
由圖9(a1)和(a2)可以看出,光線充足、路面狀況良好的情況下,原網(wǎng)絡(luò)可以較好地識別地面標志,但也存在較小目標漏檢情況;改進后的網(wǎng)絡(luò)預測尺度更適合小目標尺寸,檢測精度更高,漏檢情況較少。對于地面標志被樹蔭、建筑物陰影遮擋等情況,如圖9(b1)和(b2),或由于長期磨損、涂改以及污染等情況,如圖9(c1)和(c2),原網(wǎng)絡(luò)檢測精度有所下降,改進后網(wǎng)絡(luò)的檢測精度幾乎不受影響。不同場景下的檢測結(jié)果說明,通過對先驗框尺寸進行重新聚類、增強淺層網(wǎng)絡(luò)信息的提取等操作,網(wǎng)絡(luò)的魯棒性更強,更能適應多樣的天氣、光照和道路行駛環(huán)境等。
為進一步驗證算法對遠處小目標的準確率,采集不同距離的地標數(shù)據(jù)進行測試。車載相機距離地標的距離分別是5 m,25 m和50 m,部分測試結(jié)果如圖9(d),(e)和(f)所示。從圖中可以看出,采集距離為5 m和25 m時,如圖9(d)和(e),由于目標尺寸較大,左轉(zhuǎn)和前方直行或右轉(zhuǎn)標志均被準確識別,且識別準確率接近100%。采集距離為50 m時,如圖9(f1)和(f2),目標尺寸非常小,由于YOLOv3-tiny對淺層特征信息的提取不足,且預選框尺寸較大,目標識別準確率降低,圖9(f1)中的直行或右轉(zhuǎn)標志漏檢。YOLOv3-tiny-12重新聚類了先驗框的大小,使得預測時能更高概率的出現(xiàn)匹配度高的先驗框,并且增強對淺層特征的提取,獲得更多小目標的邊緣、紋理等信息,使得小目標特征提取更充分,提高了檢測精度。不同距離的測試結(jié)果表明,改進后的YOLOv3-tiny-12算法對小目標檢測能力更強,預測尺度與小目標尺寸更匹配,在一定距離范圍內(nèi),檢測精度更高。
圖9 YOLOv3-tiny與YOLOv3-tiny-12測試結(jié)果對比((a~c)不同場景對比; (d~f)不同距離對比)
本文為提高復雜場景的魯棒性和小目標檢測的精度,提出一種基于透視降采樣和YOLOv3-tiny-12的地標檢測方法。選取道路圖像ROI進行透視降采樣,減少了無關(guān)信息對模型的影響,縮小圖像尺寸的同時不改變遠處小目標的分辨率,提高了訓練速度。改進YOLOv3-tiny算法,增加卷積層強化淺層信息,采用金字塔結(jié)構(gòu)將預測尺度調(diào)整為適應地標的尺寸。通過平均精度均值、平均耗時和權(quán)重大小等對模型的性能進行了評估,在保證實時性的前提下,改進后的檢測精度為99.2%,提升了21.9%,模型權(quán)重8.3 MB,易于在低端嵌入式設(shè)備上部署。
[1] REBUT J, BENSRHAIR A, TOULMINET G. Image segmentation and pattern recognition for road marking analysis[C]//2004 IEEE International Symposium on Industrial Electronics. New York: IEEE Press, 2004: 727-732.
[2] FOUCHER P, SEBSADJI Y, TAREL J P, et al. Detection and recognition of urban road markings using images[C]//2011 14th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2011: 1747-1752.
[3] WU T, RANGANATHAN A. A practical system for road marking detection and recognition[C]//2012 IEEE Intelligent Vehicles Symposium. New York: IEEE Press, 2012: 25-30.
[4] LIU Z Q, WANG S J, DING X Q. ROI perspective transform based road marking detection and recognition[C]//2012 International Conference on Audio, Language and Image Processing. New York: IEEE Press, 2012: 841-846.
[5] HE U, CHEN H, PAN I, et al. Using edit distance and junction feature to detect and recognize arrow road marking[C]//The 17th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2014: 2317-2323.
[6] FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.
[7] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.
[8] WANG N, LIU W, ZHANG C M, et al. The detection and recognition of arrow markings recognition based on monocular vision[C]//2009 Chinese Control and Decision Conference. New York: IEEE Press, 2009: 4380-4386.
[9] QIN B, LIU W, SHEN X, et al. A general framework for road marking detection and analysis[C]//The 16th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2013: 619-625.
[10] SCHREIBER M, POGGENHANS F, STILLER C. Detecting symbols on road surface for mapping and localization using OCR[C]//The 17th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2014: 597-602.
[11] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.
[12] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[13] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[14] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 779-788.
[15] Arthur D, Vassilvitskii S. K-means++: the advantages of careful seeding[C]//The 18th Annual ACM-SIAM symposium on Discrete Algorithms. New York: ACM Press, 2007: 1027-1035.
[16] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1-9.
[17] REDMON J, FARHADI A. YOLOv3: an incremental improvement[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1-4.
[18] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6517-6525.
[19] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 936-944.
[20] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[M]//Computer Vision–ECCV 2014. Cham: Springer International Publishing, 2014: 740-755.
[21] 吳夙慧, 成穎, 鄭彥寧, 等. K-means算法研究綜述[J]. 現(xiàn)代圖書情報技術(shù), 2011(5): 28-35.
WU S H, CHENG Y, ZHENG Y N, et al. Survey on K-means algorithm[J]. New Technology of Library and Information Service, 2011(5): 28-35 (in Chinese).
[22] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision–ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.
[23] BOCHKOVSKIY A, WANG C Y, LIAO H Y MARK. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2021-08-28]. https://arxiv. org/abs/2004.10934.
Landmark detection based on perspective down-sampling and neural network
LI Yu-zhen1, CHEN Hui1, WANG Jie1, RONG Wen2
(1. School of Information Science and Engineering, Shandong University, Qingdao Shandong 266237, China; 2. Shandong Hi-Speed Information Group Co, Ltd, Jinan Shandong 250000, China)
In the field of intelligent driving, a neural network-based and perspective down-sampling-based landmark detection method was proposed to accurately detect the road guide signs in real time. This proposed method can effectively solve the problems of poor real-time performance of traditional detection methods and low detection accuracy for complex scenes and remote small targets. Firstly, the region of interest for the image was selected for perspective down-sampling to reduce the near resolution of the road image, reduce the image size, and eliminate the perspective projection error. Secondly, the YOLOv3-tiny target detection network was enhanced. The boundary frame clustering of self-built data set was implemented by k-means++. The convolution layer was added to strengthen the shallow features and enhance the small target representation ability. By changing the fusion scale of feature pyramid, the prediction output was adjusted to 26×26 and 52×52. Finally, the accuracy rate was elevated from 78% to 99% on the self-built multi-scene data set, and the model size was reduced from 33.8 MB to 8.3 MB. The results show that a neural network-based and perspective down-sampling-based landmark detection method displays strong robustness, higher detection accuracy for small targets, and is readily deployable on low-end embedded devices.
perspective down-sampling; YOLOv3-tiny; landmark detection; data set; k-means++
TP 391
10.11996/JG.j.2095-302X.2022020288
A
2095-302X(2022)02-0288-08
2021-06-21;
2021-09-26
山東省科技發(fā)展計劃重點項目(2019GGX101018);山東省自然科學基金項目(ZR2017MF057)
李玉珍(1996–),女,碩士研究生。主要研究方向為計算機視覺輔助和自動駕駛、目標檢測。E-mail:1874922136@qq.com
陳 輝(1963–),女,教授,博士。主要研究方向為對應點問題、虛擬現(xiàn)實、裸眼3D電視顯示、計算機視覺輔助和自動駕駛。 E-mail:huichen@sdu.edu.cn
21 June,2021;
26 September,2021
Key Projects of Science and Technology Development Plan of Shandong Province(2019GGX101018); National Natural Science Foundation of Shandong (ZR2017MF057)
LI Yu-zhen (1996–), master student. Her main research interests cover computer vision, assisted autopilot and target detection. E-mail:1874922136@qq.com
CHEN Hui (1963-), professor, Ph.D. Her main research interests cover correspondence issues, virtual reality, naked eye 3D TV display, computer vision assistance and autopilot. E-mail:huichen@sdu.edu.cn