伍曉暉,田啟川 ,2
1.北京建筑大學(xué) 電氣與信息工程學(xué)院,北京 100044
2.北京建筑大學(xué) 建筑大數(shù)據(jù)智能處理方法研究北京市重點(diǎn)實驗室,北京 100044
現(xiàn)代社會經(jīng)濟(jì)發(fā)展迅速,汽車給人類帶來了很大的便利,自動駕駛、無人駕駛也逐步進(jìn)入商業(yè)應(yīng)用,交通標(biāo)志識別對行車安全至關(guān)重要,因此必須解決交通標(biāo)志的識別問題。然而交通標(biāo)志識別容易受到天氣變化、遮擋、光照強(qiáng)度變化等影響,這給無人駕駛的應(yīng)用帶來了很大的安全風(fēng)險。針對交通標(biāo)志所處環(huán)境的復(fù)雜性,設(shè)計一個準(zhǔn)確率高、實時性能好、魯棒性強(qiáng)的交通標(biāo)志識別系統(tǒng)至關(guān)重要。
交通標(biāo)志識別系統(tǒng)分為交通標(biāo)志檢測和交通標(biāo)志識別,而交通標(biāo)志檢測常見的方法有基于顏色的方法、基于形狀的方法、基于多特征融合的方法和基于深度學(xué)習(xí)的方法?;谏疃葘W(xué)習(xí)的方法具有較明顯的優(yōu)勢。交通標(biāo)志識別常用的方法有基于模板匹配的方法、基于機(jī)器學(xué)習(xí)的方法、基于深度學(xué)習(xí)的方法。從準(zhǔn)確率方面來說,基于深度學(xué)習(xí)的交通標(biāo)志識別率更高一些。
本文分別從交通標(biāo)志檢測與交通標(biāo)志識別兩方面進(jìn)行闡述,分析其包含的算法的原理、步驟、特點(diǎn)和性能;對公開的交通標(biāo)志數(shù)據(jù)庫進(jìn)行了羅列和說明;相比傳統(tǒng)的交通標(biāo)志檢測與識別算法,深度學(xué)習(xí)算法有助于解決光照變化、部分遮擋等情況下的交通標(biāo)志識別難題;分析基于深度學(xué)習(xí)的交通標(biāo)志檢測和識別需要解決的問題,并對其未來的發(fā)展趨勢進(jìn)行了展望。
交通標(biāo)志的檢測是交通標(biāo)志識別系統(tǒng)中的關(guān)鍵技術(shù)。本文根據(jù)交通標(biāo)志檢測的發(fā)展歷程,將典型的檢測方法分為四大類:基于顏色的方法、基于形狀的方法、基于多特征融合的方法和基于深度學(xué)習(xí)的方法。
現(xiàn)在國外應(yīng)用最廣的是德國交通標(biāo)志數(shù)據(jù)庫,本文僅例舉了中國和德國交通標(biāo)志示例。中國和德國的有些交通標(biāo)志僅存在細(xì)微差別,但是還有一些交通標(biāo)志具有完全不同的表示形式,例如警告標(biāo)志。中國的警告標(biāo)志是黑色邊框黃色內(nèi)層,而德國的警告標(biāo)志是紅色邊框白色內(nèi)層,紅色視覺感強(qiáng)烈,而黃色色調(diào)相對來說會更加溫和。將檢測與識別方法應(yīng)用于交通標(biāo)志應(yīng)該考慮到這些細(xì)節(jié)。
中國的交通標(biāo)志顏色主要有紅色、黃色和藍(lán)色,如圖1所示。
圖1 中國交通標(biāo)志顏色示例
德國的交通標(biāo)志顏色主要有紅色、黑色和藍(lán)色,如圖2所示。
圖2 德國交通標(biāo)志顏色示例
顏色是交通標(biāo)志的基本屬性,學(xué)者們一開始便使用顏色信息來檢測交通標(biāo)志。
(1)RGB顏色模型方法
相機(jī)采集到的圖像一般是RGB 圖像,直接在RGB圖像上進(jìn)行顏色分割會減少計算量。Benallal 等人[1]發(fā)現(xiàn)從日出到日落的光照條件下,RGB 各分量之間的差異明顯,比較兩個RGB 分量就可以分割交通標(biāo)志。顏色分割公式為:IFRi >Gi &Ri-Gi≥ΔRG;Ri-Bi≥ΔRB,則像素是紅色;ELSE IFGi >Ri &Gi-Ri≥ΔGR;Gi-Bi≥ΔGB,則像素是綠色;ELSE IFBi >Gi &Bi-Gi≥ΔBG;Bi-Ri≥ΔBR,則像素是藍(lán)色;其余像素是白色或黑色。RGB 顏色空間對光照變化比較敏感,但是光照變化對RGB各分量之間的差異影響較小。直接對相機(jī)采集到的RGB圖片進(jìn)行分割,可以減少計算量,從而極大地提高速度,滿足算法實時性要求。算法也存在一定的缺點(diǎn):當(dāng)交通標(biāo)志所處的環(huán)境比較復(fù)雜時,交通標(biāo)志可能會和背景噪聲混合在一起,算法不能達(dá)到良好的檢測效果。
(2)HSI顏色模型方法
HSI顏色空間由美國色彩學(xué)家Munseu在1915年提出,用色調(diào)、飽和度和強(qiáng)度三分量來描述圖像,從而使圖像表示更接近于人類的視覺感知。朱雙東等人[2]利用HSI顏色空間對光照不太敏感的特點(diǎn),將RGB彩色交通標(biāo)志圖像轉(zhuǎn)換到HSI 彩色空間,再進(jìn)行閾值分割,但是去噪效果不理想。HSI 顏色空間中的S 空間(色彩飽和度空間)可以消除光照對圖像的影響,申中鴻等人[3]在交通標(biāo)志圖像S空間的灰度直方圖信息的基礎(chǔ)上,用倒溯組內(nèi)標(biāo)準(zhǔn)差法來選取全局圖像分割閾值,實驗結(jié)果表明該方法比HIS 空間色彩判斷法和迭代閾值法分割效果更好。HSI顏色空間具有光照不變等特性,因此魯棒性好,但是將RGB 轉(zhuǎn)換到HSI 顏色空間具有一定的計算量,需要借助硬件處理來提高實時性。
中國的交通標(biāo)志形狀主要有三角形、圓形和矩形,如圖3所示。
圖3 中國交通標(biāo)志形狀示例
德國的交通標(biāo)志形狀主要有三角形、圓形和矩形,如圖4所示。
圖4 德國交通標(biāo)志形狀示例
形狀檢測最常見的方法是使用某種形式的霍夫變換[4]。方向梯度直方圖(Histogram of Oriented Gridients,HOG)是檢測形狀的可接受選擇之一[5],其表示梯度圖像的方向。在HOG 中,基本思想是將圖像劃分為單元格并在該單元格內(nèi)累積邊緣方向的直方圖。最后,生成特征以通過組合直方圖條目來描述對象。HOG變換法具有旋轉(zhuǎn)縮放不變性的優(yōu)點(diǎn),但運(yùn)算量太大。Paulo等人[6]首先通過將Harris角點(diǎn)檢測器應(yīng)用于感興趣的區(qū)域,然后在該區(qū)域的6 個預(yù)定義控制區(qū)域中搜索角落的存在來檢測三角形和矩形符號。Gavrila 使用基于距離變換的模板匹配進(jìn)行形狀檢測[7],首先找到原始圖像中的邊緣,其次建立距離變換(Distance Transform,DT)圖像,最后將模板與DT圖像匹配。許少秋等人利用邊緣信息來檢測形狀[8],首先使用離散曲線演變方法濾除邊緣噪聲,然后分解邊緣曲線并且移除與邊緣無關(guān)的部分,最后用正切函數(shù)描述形狀與模板進(jìn)行匹配。算法具有較強(qiáng)的魯棒性,但計算過程較為繁瑣。谷明琴等人針對車輛行駛環(huán)境中難以檢測的交通標(biāo)志[9],計算邊緣轉(zhuǎn)向角這樣尺度不變性的形狀特征,用無參數(shù)形狀檢測子來檢測圖像中的圓形、三角形和矩形等,檢測率達(dá)到95%以上。
交通標(biāo)志顏色和形狀都有特殊的規(guī)定,易受到環(huán)境的影響,僅僅依靠單種特征可能導(dǎo)致交通標(biāo)志檢測失敗。因此將顏色和形狀等多特征融合的方法更有利于交通標(biāo)志檢測,從而提高交通標(biāo)志檢測算法的準(zhǔn)確率。
湯凱等人提出一種顏色特征、形狀特征和尺度特征的多特征協(xié)同方法[10],采用支持向量機(jī)(Support Vector Machine,SVM)對融合特征分類獲得檢測結(jié)果。此方法對提取的閉合輪廓曲率直方圖鏈碼進(jìn)行尺度歸一化處理,但是小尺度曲率直方圖易受到邊緣噪聲的影響,會使尺度較小的交通標(biāo)志難以檢測。常發(fā)亮等人提出一種基于高斯顏色模型和HOG 與SVM 結(jié)合的快速交通標(biāo)志檢測算法[11],比單獨(dú)使用高斯顏色模型檢測效果有所提升,但是高維的HOG描述子增加了SVM分類器訓(xùn)練的難度。沙莎等人提出一種多通道融合的交通標(biāo)志檢測方法[12],結(jié)合RGB 和HIS 顏色通道的信息,對交通標(biāo)志進(jìn)行分割。算法結(jié)合RGB和HIS 彩色空間的分割結(jié)果,彌補(bǔ)了對HIS空間中S空間分割造成交通標(biāo)志信息缺失的缺點(diǎn),提高了交通標(biāo)志檢測的準(zhǔn)確率。
1998 年Itti 等人模仿靈長類動物早期視力特性,提出一種視覺注意系統(tǒng)[13],在復(fù)雜的自然環(huán)境中可以快速地檢測到交通標(biāo)志。之后,很多學(xué)者在此基礎(chǔ)上提出交通標(biāo)志圖像顯著性目標(biāo)檢測算法。劉芳等人提出一種基于自底向上和自頂向下相結(jié)合的視覺注意機(jī)制的交通標(biāo)志檢測方法[14]。根據(jù)兩種注意模型提取顏色、亮度、朝向、形狀特征,生成顯著圖,從中找到交通標(biāo)志區(qū)域,但是檢測速度特別慢,無法滿足實時應(yīng)用的要求。
由于文獻(xiàn)[13]生成的顯著圖分辨率低,保留的空間頻率范圍有限,Achanta 等人提出圖像顯著性的頻率調(diào)諧方法[15]。該算法提高了圖像檢測的準(zhǔn)確率和實時性,比傳統(tǒng)顏色分割方法濾除圖像噪聲的能力更強(qiáng),定位圖像更精準(zhǔn)。余超超等人[16]首先采用文獻(xiàn)[15]的頻率調(diào)諧顯著性分割方法,然后設(shè)定輪廓周長閾值來過濾干擾,接著用凸殼處理方法濾除高維信息,最后用傅里葉描述子分析輪廓,并與標(biāo)準(zhǔn)數(shù)據(jù)庫進(jìn)行比對來檢測交通標(biāo)志。此方法魯棒性強(qiáng),滿足交通標(biāo)志檢測實時性要求,但也存在一定的不足,比如濾除高維信息會使非交通標(biāo)志區(qū)域更平滑,從而造成誤檢;另外也沒有分解輪廓,無法準(zhǔn)確檢測連在一起的交通標(biāo)志。
道路交通標(biāo)志環(huán)境復(fù)雜,融合多特征檢測交通標(biāo)志會彌補(bǔ)單個特征的不足,提高交通標(biāo)志的檢測準(zhǔn)確率。
深度學(xué)習(xí)完全不同于前面的方法,它通過訓(xùn)練和學(xué)習(xí)來提取特征,從而實現(xiàn)交通標(biāo)志的檢測。
基于候選區(qū)域提取的目標(biāo)檢測算法檢測精度高,RCNN(Regions with CNN features)就是由Girshick 等人提出的一種基于候選區(qū)域的目標(biāo)檢測算法[17],它包含豐富的特征層次結(jié)構(gòu),用于精確的對象檢測和語義分割,通過使用深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對對象提議進(jìn)行分類,實現(xiàn)了出色的對象檢測精度。但是,因為它重復(fù)提取并存儲每個候選區(qū)域的特征,花費(fèi)了大量的計算時間和存儲資源。同時RCNN 使用區(qū)域拉伸將每個候選區(qū)域統(tǒng)一成227×227的尺寸,影響CNN 提取特征的質(zhì)量,降低了檢測精度。He等人提出了空間金字塔匯集網(wǎng)絡(luò)(SPP-Net)[18]。SPP-Net不再單獨(dú)提取每個候選區(qū)域的特征,而是計算整個輸入圖像的卷積特征映射,再在特征圖上取出對應(yīng)于不同候選區(qū)域的特征,處理速度比RCNN 提高了24~102 倍。為消除網(wǎng)絡(luò)的固定大小約束,SPP-Net 在最后一個卷積層后添加一個空間金字塔池化層(Spatial Pyramid Pooling,SPP),SPP合并特征并生成固定長度的輸出,然后將其輸入到全連接層(或其他分類器)中,提升了CNN提取特征的質(zhì)量。SPP-Net也有明顯的缺點(diǎn),它的訓(xùn)練是多階段的,而不是端到端的方法。Fast RCNN實現(xiàn)了在共享卷積特征上訓(xùn)練的端到端檢測[19],并提高了準(zhǔn)確性和速度。Fast RCNN訓(xùn)練非常深的VGG16網(wǎng)絡(luò)比 RCNN 快 9 倍,與 SPPnet 相比快 3 倍,并在 PASCAL VOC 2012上實現(xiàn)了更高的mAP。與SPP-Net不同,F(xiàn)ast RCNN把SPP層替換成RoI Pooling層。RoI Pooling層是SPP層的一個特例,將不同尺度的特征圖下采樣到一個固定的尺度。此外,F(xiàn)ast RCNN將候選區(qū)域分類損失和位置回歸損失統(tǒng)一在同一個框架中,實現(xiàn)多任務(wù)損失函數(shù),降低了訓(xùn)練所需的存儲空間。Faster RCNN引入了一個區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)[20],替換了Fast RCNN 采用的選擇性搜索方法,它與檢測網(wǎng)絡(luò)共享全圖像卷積特征,從而實現(xiàn)了幾乎無成本的區(qū)域提議。為了將RPN與Fast RCNN對象檢測網(wǎng)絡(luò)統(tǒng)一起來,引入了一種訓(xùn)練方案,該方案在區(qū)域提議任務(wù)的微調(diào)和物體檢測的微調(diào)之間交替,同時保持提議的固定。FPN(Feature Pyramid Network)在特征金字塔上使用RPN網(wǎng)絡(luò)提取候選區(qū)域[21],通過將深層特征與淺層特征相融合,在特征金字塔的多個尺度上進(jìn)行預(yù)測,從而加強(qiáng)了淺層特征圖的語義,提高了小目標(biāo)的檢測精度。
為了提高檢測速度,Redmon等人提出YOLO網(wǎng)絡(luò),將檢測框架設(shè)置為單個回歸問題[22],直接從整個圖像預(yù)測邊界框坐標(biāo)和類概率。YOLO 網(wǎng)絡(luò)可以快速識別圖像中的對象,但它很難精確地定位某些對象,尤其是小對象。SSD 網(wǎng)絡(luò)在特征圖上使用小卷積核來預(yù)測邊界框位置中的對象類別和偏移[23],采用多尺度特征圖預(yù)測,在不同尺度的特征圖上直接提取預(yù)設(shè)數(shù)目default box進(jìn)行預(yù)測,比YOLO網(wǎng)絡(luò)檢測更快,而且精度更高。
為獲取位置更精確的檢測邊界框,Jiang 等人提出IoU-Net網(wǎng)絡(luò)[24],使用網(wǎng)絡(luò)訓(xùn)練IoU(Intersection-over-Union)分支,提取每個邊界框的定位置信度,從而提升了定位的精度。還提出PrRol-Pooling,解決了Faster RCNN中Rol Pooling 取整運(yùn)算時一定程度丟失位置信息的問題。但是IoU-Net 網(wǎng)絡(luò)還存在一定的局限性:IoU 與常用的損失沒有強(qiáng)相關(guān)性;如果兩個對象不重疊,則IoU值始終為零且無法優(yōu)化,并且不會反映兩個形狀彼此之間的距離;IoU無法準(zhǔn)確區(qū)分兩個對象的對齊方式。為此,Rezatofighi 等人提出用 GIoU(Generalized Intersection over Union)損失函數(shù)作為邊界框回歸分支的損失[25],可以提升2%~14%的準(zhǔn)確度。
卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,參數(shù)太多,會導(dǎo)致無法應(yīng)用到實際場景中檢測交通標(biāo)志。因此Aghdam等人[26]提出一種輕量級的卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用膨脹卷積實現(xiàn)滑動窗口方法,使用數(shù)據(jù)集中的統(tǒng)計信息來加快網(wǎng)絡(luò)前向傳播的速度,在德國交通標(biāo)志檢測數(shù)據(jù)庫(German Traffic Sign Detection Benchmark,GTSDB)上測試得到99.89%的精確度,在NVIDIA GTX 980 GPU硬件上運(yùn)行每秒可以檢測定位37.72張高分辨率圖像。
交通標(biāo)志會被樹木、建筑物、旁邊行駛的車輛等遮擋,且交通標(biāo)志還會被其他交通標(biāo)志遮擋,這給交通標(biāo)志定位帶來一定的挑戰(zhàn)。為了解決檢測目標(biāo)被遮擋的問題,Wang等人提出Repulsion Loss來約束檢測器的推薦區(qū)域[27]。Repulsion Loss 包括兩部分:縮小提案與其指定目標(biāo)之間的距離的吸引項;使目標(biāo)與周圍的非目標(biāo)對象保持距離的排斥項。Repulsion Loss的計算公式為:
其中,LAttr是吸引項,需要一個預(yù)測框接近其指定目標(biāo),LRepGT是排斥項,直接懲罰預(yù)測框移動到其他地面真實物體,LRepBox是排斥項,要求每個預(yù)測框遠(yuǎn)離具有不同指定目標(biāo)的其他預(yù)測框。具有Repulsion Loss 的檢測器不僅顯著提高了遮擋情況下的檢測精度,也使得檢測結(jié)果對非極大值抑制(Non-Maximum Suppression,NMS)閾值的敏感性降低。
基于深度學(xué)習(xí)的交通標(biāo)志檢測方法通過訓(xùn)練大數(shù)據(jù)來學(xué)習(xí)特征,具有很強(qiáng)的特征表達(dá)能力,不容易受到光照、遮擋等與交通標(biāo)志無關(guān)的外界因素的影響,比傳統(tǒng)的交通標(biāo)志檢測方法泛化能力更強(qiáng),準(zhǔn)確率更高。
當(dāng)檢測出交通標(biāo)志之后,再提取交通標(biāo)志的特征對交通標(biāo)志進(jìn)行分類識別。交通標(biāo)志分類的方法比較多,目前主流的方法主要有基于模板匹配、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法。
模板匹配廣泛應(yīng)用于模式識別領(lǐng)域中,它的算法較為簡單。將預(yù)先已知的小模板在大圖像中平移來搜索子圖像,通過一定的算法在大圖像中找到與模板最匹配(相似)的目標(biāo),確定其坐標(biāo)位置[28]。為了減少傳統(tǒng)模板匹配算法的計算量,提高算法的運(yùn)行效率,唐琎等人提出一種快速的模板匹配算法[29]。一開始取較少的點(diǎn)參與模板匹配,通過相關(guān)系數(shù)的比較來逐步增加參與匹配的點(diǎn)的數(shù)目,記錄已運(yùn)算過的像素并保存步長變化前的運(yùn)算結(jié)果,保證不進(jìn)行重復(fù)計算。馮春貴等人提出一種改進(jìn)的模板匹配方法對限速標(biāo)志進(jìn)行識別[30]。首先將交通標(biāo)志與傳統(tǒng)模板進(jìn)行匹配,如果匹配不成功,再抽取限速標(biāo)志字符的邊緣信息,最后用邊緣模板匹配限速標(biāo)志,與傳統(tǒng)模板匹配算法相比較,識別率由80.95%提高到95.24%。
基于模板匹配的方法的識別結(jié)果易受到圖像扭曲、遮擋、損壞等影響,難以兼顧計算量和魯棒性的要求,因此基于機(jī)器學(xué)習(xí)的交通標(biāo)志識別是一種比較流行的方法。目前的算法主要是采用“人工提取特征+機(jī)器學(xué)習(xí)”,即提取一些能夠表示或描述交通標(biāo)志信息的特征,再結(jié)合機(jī)器學(xué)習(xí)算法進(jìn)行識別。常用的人工提取特征有尺度不變特征變換(Scale Invariant Feature Transform,SIFT)、ORB(Oriented Fast and Rotated BRIEF)特征、Gabor 小波特征和方向梯度直方圖(HOG)特征。常用的機(jī)器學(xué)習(xí)分類器有支持向量機(jī)(SVM)、BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)、極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)和最近鄰算法(K-Nearest Neighbor,KNN)。
胡曉光等人[31]提出使用SIFT 方法提取標(biāo)志的局部特征,然后使用SVM進(jìn)行訓(xùn)練得到分類模型,在采集的測試影像集上的識別率為93%,在Intel Core 2Q6600系統(tǒng)上平均識別時間為0.44 s。文獻(xiàn)[32]發(fā)現(xiàn)SIFT算法特征獲取時間較長,帶來很大的計算負(fù)擔(dān),于是提出ORB 算法,經(jīng)實驗對比發(fā)現(xiàn),它的計算速度比SIFT 快100 倍。胡月志等人采用基于ORB 全局特征與最近鄰的交通標(biāo)志快速識別算法[33],在公開的德國交通標(biāo)志識別數(shù)據(jù)庫(German Traffic Sign Recognition Benchmark,GTSRB)上測試,一個交通標(biāo)志的平均識別時間為2 ms,算法識別準(zhǔn)確率達(dá)到91%。對比文獻(xiàn)[31,33]實驗結(jié)果發(fā)現(xiàn),ORB 特征提取的識別率略低于SIFT 特征提取的識別率,但是實時性卻遠(yuǎn)遠(yuǎn)超過了后者。
谷明琴等人[34]提出用Gabor 小波提取交通標(biāo)志特征,用線性支持向量機(jī)來分類交通標(biāo)志,在GTSDB數(shù)據(jù)集上測試,識別率達(dá)到95.6%。甘露等人[35]用Gabor 濾波提取圖像紋理特征,同時用小波不變矩提取形狀特征,將融合特征輸入BP神經(jīng)網(wǎng)絡(luò)分類,識別率比文獻(xiàn)[34]算法提高了3%左右。文獻(xiàn)[36]采用HOG-Gabor特征融合與softmax分類器的交通標(biāo)志識別方法,在GTSRB數(shù)據(jù)庫上的識別率為97.68%,比單獨(dú)采用HOG 特征識別率提高了0.57%,比單獨(dú)采用Gabor 特征識別率提高了0.14%,識別每張圖片耗時0.08 ms。分析文獻(xiàn)[34-36]發(fā)現(xiàn),類別單一的特征提取具有一定的局限性,不能很好地描述交通標(biāo)志的特征,基于特征融合的算法能夠提高交通標(biāo)志的識別率。文獻(xiàn)[36]對線性判別分析(Linear Discriminant Analysis,LDA)、SVM、softmax 三種分類器性能進(jìn)行了比較,對于高維度Gabor 特征,softmax 分類器識別率比其他兩種分類器更高,識別時間更短,實驗結(jié)果表明LDA、SVM分類器更適合低維度特征識別。
2004 年Huang 等人[37]提出簡單高效單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法——極限學(xué)習(xí)機(jī)(ELM)。ELM算法比BP網(wǎng)絡(luò)、SVM學(xué)習(xí)得更快,且具有良好的泛化能力。徐巖等人提出一種基于PCA(Principal Component Analysis)-HOG 和極限學(xué)習(xí)機(jī)模型的交通標(biāo)志識別算法[38],在GTSRB數(shù)據(jù)庫上測試,識別率可達(dá)97.69%,耗時0.16 ms便可識別一張交通標(biāo)志。徐巖等人在文獻(xiàn)[38]的基礎(chǔ)上,融合ELM 和AdaBoost 分類器識別交通標(biāo)志[39],在GTSRB 數(shù)據(jù)庫上識別率為99.12%,單張交通標(biāo)志的識別時間為7.1 ms。實驗結(jié)果表明,分類器融合的分類算法能夠使識別效果更好,還能提高模型的泛化能力和魯棒性,而識別時間也變長。
深度學(xué)習(xí)具有強(qiáng)大的特征學(xué)習(xí)能力,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)在計算機(jī)視覺上應(yīng)用最廣的模型之一。深度卷積神經(jīng)網(wǎng)絡(luò)不需要設(shè)計手工特征,輸入模型的圖像通過監(jiān)督學(xué)習(xí)來完成特征提取和分類,識別率高于AdaBoost和SVM等傳統(tǒng)算法。
Sermanet 等人[40]提出多尺度CNN 應(yīng)用于交通標(biāo)志識別任務(wù),達(dá)到99.17%的準(zhǔn)確率。Ciresan 等人[41]使用多列深度卷積神經(jīng)網(wǎng)絡(luò)(Multi-Column Deep Neural Network,MCDNN)在GTSRB數(shù)據(jù)集上獲得99.46%的準(zhǔn)確率,但是運(yùn)算量大,在系統(tǒng)Core i7 950(3.33 GHz)4個GTX 580型顯卡的GPU上訓(xùn)練具有25列的MCDNN需要37 h,單張圖片的識別時間為690 ms。盡管前兩個網(wǎng)絡(luò)的準(zhǔn)確度很高,但它們的計算效率不高,需要在硬件上進(jìn)行大量的乘法運(yùn)算,采用的激活函數(shù)計算效率也不高,Aghdam 等人[42]為減少計算量,選用線性整流函數(shù)(Rectified Linear Unit,ReLU)激活函數(shù),然后將兩個中間卷積池化層劃分成兩組,使得中間層的參數(shù)數(shù)量減半。網(wǎng)絡(luò)模型去除了神經(jīng)網(wǎng)絡(luò)冗余參數(shù),同時也提高了交通標(biāo)志識別的準(zhǔn)確率和實時性,算法的識別率提高到99.51%。Jin等人[43]提出了一種鉸鏈損失隨機(jī)梯度下降(Hinge Loss Stochastic Gradient Descent,HLSGD)方法訓(xùn)練CNN,HLSGD 方法比之前網(wǎng)絡(luò)模型所使用的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)方法訓(xùn)練得更快,收斂更穩(wěn)定,在GTSRB上的識別率為99.65%,在系統(tǒng) 12 核 Intel?Core i7-3960X(兩臺 Tesla C2075 GPU,3.3 GHz)上的訓(xùn)練時間大約為7 h。
文獻(xiàn)[43]的準(zhǔn)確率已經(jīng)比較高,但是需要學(xué)習(xí)大量的參數(shù),訓(xùn)練時間還是比較長。為此,Natarajan 等人[44]提出一種低復(fù)雜度的加權(quán)組合的4 個并行的CNN 網(wǎng)絡(luò)來識別交通標(biāo)志,在GTSRB 數(shù)據(jù)集上的準(zhǔn)確率為99.59%,當(dāng)在NVIDIA 980 Ti GPU系統(tǒng)上運(yùn)行時,可在10 ms內(nèi)識別出交通標(biāo)志圖像。Li等人[45]使用具有不對稱內(nèi)核的高效且強(qiáng)大的CNN 作為分類器,用1×n卷積和n×1 卷積替換n×n卷積,減少了內(nèi)核參數(shù),并且降低了卷積的運(yùn)算量,分類效果好,在GTSRB數(shù)據(jù)集上準(zhǔn)確率為99.66%,在NVIDIA GTX 1080 GPU系統(tǒng)(單個GPU,2 GB內(nèi)存)上每張交通標(biāo)志圖像的識別時間為0.26 ms。
LeNet-5 網(wǎng)絡(luò)是一個7 層的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)模型較為簡單,對交通標(biāo)志這種多類別的圖像分類識別,準(zhǔn)確率不高,因此研究者通過增加網(wǎng)絡(luò)的深度來提高準(zhǔn)確率。汪貴平等人[46]在傳統(tǒng)LeNet-5卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入Inception 卷積模塊組,改變卷積核的大小和數(shù)目,并且增加網(wǎng)絡(luò)的深度,引入批量歸一化算法來防止隨著網(wǎng)絡(luò)層次加深而引起的過擬合和梯度消失等問題。改進(jìn)的LeNet-5 網(wǎng)絡(luò)在BelgiumTSC 交通標(biāo)志數(shù)據(jù)集上的識別率為98.51%。
基于深度學(xué)習(xí)的交通標(biāo)志識別方法通過訓(xùn)練大數(shù)據(jù)來學(xué)習(xí)特征,比采用人工設(shè)計特征的傳統(tǒng)方法更有優(yōu)勢,準(zhǔn)確率明顯提升。該算法有助于解決光照變化、部分遮擋等情況下的交通標(biāo)志識別難點(diǎn)問題。
為了滿足交通標(biāo)志檢測與識別研究的需要,研究機(jī)構(gòu)和學(xué)者們采集了交通標(biāo)志數(shù)據(jù)庫。交通標(biāo)志數(shù)據(jù)庫在交通標(biāo)志識別系統(tǒng)中起了非常重要的作用,它是衡量和比較交通標(biāo)志識別系統(tǒng)算法優(yōu)劣的基礎(chǔ)。2011 年以前公開的交通標(biāo)志數(shù)據(jù)庫是較小規(guī)模的數(shù)據(jù)庫,隨著深度學(xué)習(xí)的興起,大規(guī)模的交通標(biāo)志數(shù)據(jù)庫開始出現(xiàn)。為學(xué)者今后研究算法所需數(shù)據(jù)庫提供參考,列出了一些流行并且公開可用的交通標(biāo)志數(shù)據(jù)庫,如表1所示。
這些公開的交通標(biāo)志數(shù)據(jù)庫由攝像機(jī)在各種光照條件下、標(biāo)志形狀變化以及遮擋等條件下拍攝的,交通標(biāo)志樣本種類較為豐富,其中BTSD數(shù)據(jù)庫和Lisa數(shù)據(jù)庫包含視頻。研究人員常用GTSDB 和GTSRB 數(shù)據(jù)庫來進(jìn)行交通標(biāo)志的檢測與識別。
本文對交通標(biāo)志檢測與識別方法進(jìn)行了詳細(xì)的介紹和分析,由于人工提取特征具有一定的主觀性且難以選擇,隨著大規(guī)模交通標(biāo)志數(shù)據(jù)庫的出現(xiàn)和計算機(jī)硬件性能的提升,深度學(xué)習(xí)有著越來越明顯的優(yōu)勢。深度學(xué)習(xí)通過學(xué)習(xí)訓(xùn)練大量帶有標(biāo)簽的交通標(biāo)志數(shù)據(jù)庫,可以自發(fā)學(xué)習(xí)分類交通標(biāo)志,在復(fù)雜背景情況下檢測識別交通標(biāo)志仍然能夠達(dá)到很高的準(zhǔn)確率。然而基于深度學(xué)習(xí)的交通標(biāo)志檢測和識別方法仍然有很大的提升空間,未來可以在以下幾個方面進(jìn)一步研究:
表1 已公布交通標(biāo)志數(shù)據(jù)庫的對比
(1)卷積神經(jīng)網(wǎng)絡(luò)達(dá)到一定層數(shù)后再加深層次,訓(xùn)練時間更長,準(zhǔn)確率降低,對硬件的要求也會更加嚴(yán)格。如何在不影響準(zhǔn)確度的情況下,尋找裁剪神經(jīng)網(wǎng)絡(luò)大小的規(guī)律來實現(xiàn)網(wǎng)絡(luò)模型的壓縮是研究的重點(diǎn)。
(2)交通標(biāo)志會被樹木、建筑物、旁邊行駛的車輛等遮擋,這給交通標(biāo)志檢測和識別帶來一定的挑戰(zhàn)。文獻(xiàn)[27]利用Repulsion Loss一定程度上提高了被遮擋對象的檢測精度,但是還有提升的空間。根據(jù)被遮擋交通標(biāo)志的特點(diǎn),如何設(shè)計深度學(xué)習(xí)網(wǎng)絡(luò)模型來檢測識別交通標(biāo)志是未來需要關(guān)注的問題。
(3)隨著卷積神經(jīng)網(wǎng)絡(luò)層次的加深,梯度的傳播會變得更加困難,在訓(xùn)練時可能會有梯度消失、梯度爆炸情況出現(xiàn),批量歸一化和殘差連接算法的出現(xiàn)使這種情況得到了一定的改善,如何設(shè)計算法有助于梯度的傳播是一個重要的研究方向。