王斯健 李志鵬
摘 ?要:交通標(biāo)志在道路交通運行中扮演著不可或缺的角色。隨著智能交通的不斷發(fā)展,道路交通標(biāo)志的自動檢測識別日益受到研究者的關(guān)注。在實際交通環(huán)境下,由于運動模糊、天氣條件、光線干擾及拍攝視角等因素,給圖像中交通標(biāo)志自動識別帶來了困難。針對這一問題,該文提出了基于深層神經(jīng)網(wǎng)絡(luò)的快速交通標(biāo)志識別的方法,實現(xiàn)了常見道路交通標(biāo)志的檢測識別,并通過實驗進行測試,結(jié)果表明,該方法在圖像中交通標(biāo)志的檢測率和識別率方面都達到了較好的效果。
關(guān)鍵詞:道路交通標(biāo)志 ?檢測識別方法 ?深層神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP391.41;TP183 ? 文獻標(biāo)識碼:A 文章編號:1672-3791(2019)06(b)-0001-04
建立全要素實體地理信息數(shù)據(jù)庫是我國新型基礎(chǔ)測繪項目的重點任務(wù)。目前是通過車載激光掃描儀獲取道路實體點云數(shù)據(jù),同時搭載全景相機進行輔助拍攝獲取全景照片,最后根據(jù)采集的數(shù)據(jù)進行數(shù)字化編輯、屬性錄入以及最終入庫。其中道路交通標(biāo)志的類別屬性需要根據(jù)全景照片進行人工判讀或者外業(yè)調(diào)繪來獲取,這導(dǎo)致了巨大的工作量以及較高的誤判率等問題。
近年來,隨著深度學(xué)習(xí)的迅速發(fā)展,利用神經(jīng)網(wǎng)絡(luò)算法解決圖像的問題逐漸受到研究者們的青睞。其中卷積神經(jīng)網(wǎng)絡(luò)是通過訓(xùn)練海量的樣本進行學(xué)習(xí)得到先驗知識,進而可以直接探測和識別目標(biāo)圖像。該文研究了深度學(xué)習(xí)的方法,利用卷積神經(jīng)網(wǎng)絡(luò)算法對全景圖片進行道路交通標(biāo)志的自動檢測和識別,并通過實驗評估了該方法的準(zhǔn)確性和可行性。
1 ?基本原理
卷積神經(jīng)網(wǎng)絡(luò)(CNN)的核心結(jié)構(gòu)包括兩部分。其一為特征提取,每個神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部區(qū)域的特征,一旦該局部特征被提取后,與其他特征間的位置關(guān)系也隨之確定下來;其二是分類,網(wǎng)絡(luò)的每個計算層由多個特征映射組成,每個特征映射是一個二維平面,平面上所有神經(jīng)元的權(quán)值共享,最終由全連接層作為分類層計算特征向量并輸出分類結(jié)果。在監(jiān)督學(xué)習(xí)和反饋機制調(diào)節(jié)下,CNN能夠模擬人腦機制的認(rèn)知過程逐步提高對不同物體的辨識能力[1]。
與傳統(tǒng)分類器相比,CNN作為智能分類器不需要手動設(shè)計特征。在傳統(tǒng)的模式識別中,需要通過人為設(shè)計特征從輸入樣本中收集圖像信息再使用分類器進行分類。CNN是原始圖像作為輸入,從大量的樣本數(shù)據(jù)中自主學(xué)習(xí)待識別目標(biāo)的特征。與人為設(shè)計特征很難適應(yīng)多種類物體的識別相比,自主學(xué)習(xí)特征能夠提取到更適合目標(biāo)分類的特征。從大量的數(shù)據(jù)中自主學(xué)習(xí)特征避免了由于特征復(fù)雜帶來的提取特征困難,并且對于環(huán)境變化、遮擋等影響有較強的魯棒性。概括來講,CNN算法的訓(xùn)練過程可以分為兩部分,即前向?qū)W習(xí)和反向驗證。在前向?qū)W習(xí)過程中計算網(wǎng)絡(luò)的損失(分類錯誤的程度)并利用反饋調(diào)節(jié)機制,使用梯度下降法調(diào)節(jié)網(wǎng)絡(luò)參數(shù)以降低網(wǎng)絡(luò)損失,輸出網(wǎng)絡(luò)模型。反向驗證過程中使用驗證集驗證模型的分類能力是否滿足要求。其具體過程如圖1所示。
2 ?數(shù)據(jù)研究與方法
2.1 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
該文的程序網(wǎng)絡(luò)架構(gòu)主要分為兩個部分,首先是利用了級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)探測交通標(biāo)志的位置,建立最終的候選區(qū)域。第二部分是利用密集卷積網(wǎng)絡(luò)對生成的含有交通標(biāo)志的候選區(qū)域進行分類[2]。
第一部分利用級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)進行探測主要分為3個階段。
第一步采用一個全卷積神經(jīng)網(wǎng)絡(luò),稱之為Proposal Net(P-Net)(見圖2),去獲得候選窗體和邊界回歸向量。同時,候選窗體根據(jù)邊界框進行校準(zhǔn)。然后,利用非極大值抑制(NMS)方法去除重疊窗體。
第二步Refine Network(R-Net)(見圖3),將經(jīng)過P-Net確定的包含候選窗體的圖片在R-Net網(wǎng)絡(luò)中訓(xùn)練,網(wǎng)絡(luò)最后選用全連接的方式進行訓(xùn)練。利用邊界框向量微調(diào)候選窗體,再利用NMS去除重疊窗體。
第三步Output network(O-Net) 比R-Net多一層卷積,功能與R-Net作用一樣,只是在去除重疊候選窗口的同時,顯示交通標(biāo)志的關(guān)鍵點定位(見圖4)。
選好候選區(qū)域后利用密集卷積網(wǎng)絡(luò)(DenseNet)對選中的候選區(qū)域的照片進行分類。DenseNet是一種具有密集連接的卷積神經(jīng)網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中,任何兩層之間都有直接的連接,也就是說,網(wǎng)絡(luò)每一層的輸入都是前面所有層輸出的并集,而該層所學(xué)習(xí)的特征圖也會被直接傳給其后面所有層作為輸入。DenseNet的網(wǎng)絡(luò)基本結(jié)構(gòu)如圖5所示,主要包含密集區(qū)塊(Dense Block)和過渡層(transition layer)兩個模塊組成[3]。其中Dense Block為稠密連接的模塊,transition layer為連接相鄰2個Dense Block的模塊。
2.2 樣本數(shù)據(jù)訓(xùn)練
通常從網(wǎng)絡(luò)上下載的交通標(biāo)志圖片都是理想化且不真實的。因此,為了模擬一個真實的道路場景,該文采用了在上海實地外業(yè)拍攝的照片以及騰訊街景全景影像作為樣本數(shù)據(jù)集。其中,騰訊街景照片覆蓋了全國300多個城市的道路場景,用了6個單反相機拍攝并拼合了起來,每間隔10m獲取一張。其中包含了30000張有交通標(biāo)志的影像,這些影像都是在不同的天氣條件下拍攝以及都有一定的扭曲。
該文在下載的全景影像中選擇了2000張帶有交通標(biāo)志的照片,其分布于5個不同的城市,并包含了市區(qū)與郊區(qū)。然后將影像上部25%(天空)和下部25%(地面)都裁切掉,留下中間的感興趣區(qū)域,再垂直分割為4塊[4],如圖6所示。最終得到了影像數(shù)據(jù)集,樣本影像的分辨率為2048×2048。實地拍攝的照片也類似切割成尺寸相同的影像。
根據(jù)交通標(biāo)志的特征顯著性,該文只標(biāo)注了3種類型的交通標(biāo)志:警告標(biāo)志、禁令標(biāo)志和指示標(biāo)志。由于網(wǎng)絡(luò)架構(gòu)分為交通標(biāo)志探測與識別兩個方面,因此制作數(shù)據(jù)樣本集也分為兩步。
首先,在制作探測交通標(biāo)志訓(xùn)練數(shù)據(jù)集的過程中,在樣本影像數(shù)據(jù)集中每一張照片上的所有交通標(biāo)志勾畫出外接矩形邊界框,其中包括了扭曲的以及被遮擋的標(biāo)志等情況,并記錄了其外接矩形左上角(x1,y1)與右下角(x2,y2)的坐標(biāo),保存在對應(yīng)的文本中(見圖7)。
然后在對交通標(biāo)志進行分類時,根據(jù)其在樣本數(shù)據(jù)集中的常見性,具體挑選出了42種常見的交通標(biāo)志,將它們根據(jù)上一步勾畫的外接矩形框裁切出來,尺寸皆重采樣成48×48像素,最后對它們進行標(biāo)注標(biāo)簽,具體交通標(biāo)志及其標(biāo)簽如表1所示。
由于交通標(biāo)志類型數(shù)量的不均勻性,該文把少于100個樣例的交通標(biāo)志也做了一個特殊的分類,以三大類型做劃分,分別是指示標(biāo)志的其他(io)、禁令標(biāo)志的其他(po)以及警告標(biāo)志的其他(wo);然后對100到1000個樣例的分類進行擴充,增加到1000個樣例。擴充是將原有的標(biāo)志進行隨機的旋轉(zhuǎn)[-20°,20°],或者進行色彩增強[5],部分還做了模糊和透視變形,如圖8所示;其他超過1000個樣例的數(shù)量保持不變。最后將制作好的樣本數(shù)據(jù)集進行訓(xùn)練得到訓(xùn)練模型。
3 ?實驗測試數(shù)據(jù)
3.1 數(shù)據(jù)樣本集中影像測試
實驗選取了100張數(shù)據(jù)樣本集中的照片進行測試。影像大小均為2048×2048,影像畸變較小。實驗中對于像素過于小的交通標(biāo)志檢測效果不是特別突出,因此選擇了剔除小于15×15像素的交通標(biāo)志后,重新進行了統(tǒng)計。數(shù)據(jù)檢測統(tǒng)計如表2所示。
3.2 實地拍攝全景影像測試
實驗還選取了在上海市張江鎮(zhèn)利用全景相機拍攝獲取的100張帶有交通標(biāo)志的全景影像進行了測試。影像大小均為4096×2048,影像畸變較大。得到如表3所示的實驗結(jié)果。
3.3 成果展示
具體情況見圖9、圖10。
4 ?結(jié)語
該文嘗試?yán)萌斯ぶ悄苌疃葘W(xué)習(xí)算法對車載全景影像中的交通標(biāo)志進行探測與識別分類,比以往的一些特定算法具有更好的可靠性。下階段,將擴大交通標(biāo)志的范圍,訓(xùn)練更多不同種類的交通標(biāo)志,能夠識別出更復(fù)雜的交通標(biāo)志,例如道路施工安全標(biāo)志、旅游區(qū)標(biāo)志以及輔助標(biāo)志等帶文字圖畫信息的交通標(biāo)志。
此外,該研究需要進一步探索對識別后的交通標(biāo)志進行測繪級別的空間定位,需要研究更多成熟的算法對全景圖片與三維激光點云進行分析、綜合,實現(xiàn)從車載采集的全景圖片與點云數(shù)據(jù)中自動化解算出城市交通標(biāo)志的類型和實際空間位置,從而智能化地生產(chǎn)地理信息數(shù)據(jù)。
參考文獻
[1] 楊振杰.基于CNN的交通標(biāo)志識別研究[D].天津工業(yè)大學(xué),2017.
[2] Zhang K,Zhang Z,Li Z, et al. Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks[J].IEEE Signal Processing Letters,2016, 23(10):1499-1503.
[3] Huang G, Liu Z, Maaten L V D, et al.Densely Connected Convolutional Networks[A].2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)[C].IEEE Computer Society,2017.
[4] Zhu Z, Liang D, Zhang S, et al. Traffic-Sign Detection and Classification in the Wild[A]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)[C]. IEEE Computer Society,2016.
[5] 黃琳.基于深層神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識別方法研究[D]. 江蘇科技大學(xué),2015.
[6] Charles R.Qi, Wei Liu, Chenxia Wu, et al. Frustum PointNets for 3D Object Detection from RGB-D Data[J].Computer Science Computer Vision and Pattern Recongnition,2017(12).