王佳琪, 李 哲, 高睿杰, 謝冰潔, 谷殿月, 于慧伶
(東北林業(yè)大學(xué) 信息與計算機(jī)工程學(xué)院, 哈爾濱 150040)
隨著人民生活水平的日益提高,機(jī)動車作為一種舒適便捷的交通工具,逐漸成為人民生活中不可或缺的產(chǎn)品。據(jù)調(diào)查,美國公路上每年發(fā)生約600萬起交通事故,其中的94%是由人的操作和是失誤引起的[1]。發(fā)展無人駕駛汽車可以減少或防止交通事故的目的。自動駕駛技術(shù)研究已有近百年的歷史,隨著計算機(jī)技術(shù)以及人工智能的迅速發(fā)展,自動駕駛技術(shù)的研究與開發(fā)也進(jìn)入了一個高速發(fā)展的階段,其中交通標(biāo)志識別技術(shù)是無人駕駛汽車感知靜態(tài)交通環(huán)境的關(guān)鍵內(nèi)容,世界各大院校及研究機(jī)構(gòu)在交通標(biāo)志識別領(lǐng)域均有不同程度的研究[2]。目前主流的方法有基于模板匹配、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法。
模板匹配方法是將預(yù)先已知的小模版在大圖像中找到與模板最匹配(相似)的目標(biāo),確定其坐標(biāo)位置。馮春貴等人提出了一種改進(jìn)的模板匹配方法,對限速標(biāo)志進(jìn)行識別[3],與傳統(tǒng)模板相比較,識別率由80.95%提高到95.24%。基于模板匹配方法的識別結(jié)果易受到圖像遮擋、變形、破壞等影響,不能同時兼顧計算量和魯棒性的要求。隨后基于機(jī)器學(xué)習(xí)的交通標(biāo)志識別成為了一種更為流行的方法。該算法主要采用“人工提取特征+機(jī)器學(xué)習(xí)”的模式,先提取能夠描述交通標(biāo)志信息的特征,隨后結(jié)合機(jī)器學(xué)習(xí)算法完成識別。常用的機(jī)器學(xué)習(xí)分類器有支持向量機(jī)(SVM)、BP神經(jīng)網(wǎng)絡(luò)和最近鄰算法(KNN)。胡曉光等人提出使用SIFT方法提取標(biāo)志的局部特征,使用SVM訓(xùn)練得到分類模型,在采集測試影像集上的識別率為93%[4]。深度學(xué)習(xí)具有十分強(qiáng)大的特征學(xué)習(xí)能力,深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)不需要設(shè)計手工特征,輸入的圖像可以通過監(jiān)督學(xué)習(xí)來自動完成特征提取和分類。Sermanet等人提出的多尺度CNN應(yīng)用于交通標(biāo)志的識別,達(dá)到99.17%的準(zhǔn)確率[5]?;谏疃葘W(xué)習(xí)的交通標(biāo)志識別方法相比于傳統(tǒng)人工設(shè)計特征方法更有優(yōu)勢,準(zhǔn)確率更高。但是計算效率較低,對硬件要求較高。
采用以上各方法,目前已經(jīng)基本可以實(shí)現(xiàn)對各類交通標(biāo)志的準(zhǔn)確識別。準(zhǔn)確率不斷提升的同時也提高了對硬件的要求,提升了生產(chǎn)成本,給智能交通標(biāo)志識別系統(tǒng)的普及造成了一定的困擾。本文提出的基于殘差神經(jīng)網(wǎng)絡(luò)的智能交通標(biāo)志識別算法,在Mxnet框架下引入殘差神經(jīng)網(wǎng)絡(luò)模型,支持多機(jī)多節(jié)點(diǎn)、多GPU的計算,在保證了識別率的前提下,加快了識別速度,同時提高了算法的可移植性,使得智能交通標(biāo)志識別系統(tǒng)可以在多種用戶端使用,具有較大的應(yīng)用前景。
本研究采用中國交通標(biāo)志檢測數(shù)據(jù)集(CCTSDB)中的58類交通標(biāo)志,如圖1所示,合計6 164幅圖像作為實(shí)驗(yàn)數(shù)據(jù)。CCTSDB數(shù)據(jù)庫中的交通標(biāo)志圖像全部從自然場景中采集得到,能夠真實(shí)反映出實(shí)際道路條件下的交通標(biāo)志外貌。同時,數(shù)據(jù)集中也包含了大量不利條件下的交通標(biāo)志圖像,比如低分辨率、部分標(biāo)志遮擋、不同光照強(qiáng)度、運(yùn)動模糊、視角傾斜等,能較全面的反應(yīng)現(xiàn)實(shí)駕車情況,增加識別系統(tǒng)的魯棒性。
圖1 中國交通標(biāo)志檢測數(shù)據(jù)集
由于每張交通標(biāo)志圖片的數(shù)據(jù)量較大,所以在實(shí)驗(yàn)之前,需要對所有的圖片預(yù)處理,提取圖片中的有效信息,如圖2所示。
首先,讀入圖片,進(jìn)行尺寸變換。由于數(shù)據(jù)集中的每張圖片存在尺寸差異,在保證圖片清晰的前提下,使用opencv中的立方插值方法將每張圖片的尺寸變換為64×64像素大小,同時將其灰度化處理;其次,對變換后的圖片高斯濾波。本文設(shè)置高斯濾波器模板大小為5×5,偏差sigma參數(shù)值為1.5。以去除圖片中高光點(diǎn)對邊緣提取的影響;最后,將濾波后的圖片進(jìn)行非微分邊緣檢測算子Canny邊緣提取,設(shè)置閾值大小為30。Canny方法不容易受噪聲干擾,可以檢測到真正的弱邊緣。設(shè)置高閾值為30,低閾值為70,高閾值將提取輪廓的物體與背景區(qū)分開來,低閾值平滑邊緣的輪廓。高閾值可能使邊緣輪廓不連續(xù)或者不夠平滑,通過低閾值來平滑輪廓線,使不連續(xù)的部分連接起來,讓邊緣輪廓更加明顯。由于圖片存在除邊緣外的無效像素信息,為避免對實(shí)驗(yàn)的干擾,需要進(jìn)一步裁剪,最終僅保留圖片需要識別的48×48的像素信息,減少了無關(guān)因素對實(shí)驗(yàn)的影響。
圖2 交通標(biāo)志預(yù)處理
在本研究中,采用ResNet模型。該模型可以解決“退化”問題,一般的神經(jīng)網(wǎng)絡(luò)模型在學(xué)習(xí)時,梯度彌散/爆炸成為訓(xùn)練深層次的網(wǎng)絡(luò)的障礙,導(dǎo)致網(wǎng)絡(luò)無法收斂。而該神經(jīng)網(wǎng)絡(luò)模型不同于一般模型,引入了殘差模塊,如圖3所示。在輸入和輸出之間建立了一個直接連接,新增的層僅需要在原來的輸入層上學(xué)習(xí)新的特征,即學(xué)習(xí)殘差。
圖3 殘差模塊圖
通常殘差模塊的結(jié)構(gòu)有二種,一種具有二層3×3的卷積層,另一種有3層卷積層,分別為1×1、3×3、1×1,本文選擇ResNet18模型中的殘差模塊為二層卷積的結(jié)構(gòu)作為基礎(chǔ)。該模型的殘差模塊第一層(weight layer)為3×3卷積層,加入Batch Normalization層,經(jīng)過Relu激活函數(shù)后還存在一層3×3卷積層,其次一層為Batch Normalization層,最后一層為相加層。ResNet18包含17個卷積層和一個全連接層。該模型首先是將預(yù)處理好的圖像進(jìn)行7×7、步數(shù)為2的卷積,之后通過同樣步數(shù),3×3的池化層,將池化后的結(jié)果依次帶入到4個殘差模塊(ResBlock)中,最后加入一層全連接層,輸出一個1×1的矩陣,通過Softmax運(yùn)算即可以進(jìn)行圖像的分類,模型中的每一層參數(shù)值大小見表1。通過引入殘差模型可以在不降低準(zhǔn)確率的情況下快速的學(xué)習(xí)并分類。
表1 ResNet各層參數(shù)值
分類模型的評價需要關(guān)注分類后的結(jié)果的影響,本實(shí)驗(yàn)將正確劃分的類別和沒有被正確劃分的類別計為評價指標(biāo)中的二類。
(1)Truepositives(TP):被正確地劃分為正例的個數(shù),即實(shí)際為正例且被分類器劃分為正例的實(shí)例數(shù);
(2)Falsepositives(FP):被錯誤地劃分為正例的個數(shù),即實(shí)際為負(fù)例但被分類器劃分為正例的實(shí)例數(shù);
(3)Falsenegatives(FN):被錯誤地劃分為負(fù)例的個數(shù),即實(shí)際為正例但被分類器劃分為負(fù)例的實(shí)例數(shù);
(4)Truenegatives(TN): 被正確地劃分為負(fù)例的個數(shù),即實(shí)際為負(fù)例且被分類器劃分為負(fù)例的實(shí)例數(shù)。
本文選取靈敏度和正確率作為殘差神經(jīng)網(wǎng)絡(luò)分類器的評價指標(biāo),檢查分類器是否能夠大概率識別所有的正例。
通常判斷分類模型的好壞需要關(guān)注分類后的結(jié)果的影響,本實(shí)驗(yàn)將正確劃分的類別和沒有被正確劃分的類別計為評價指標(biāo)中的二類。
(1)Truepositives(TP): 被正確地劃分為正例的個數(shù),即實(shí)際為正例且被分類器劃分為正例的實(shí)例數(shù)(樣本數(shù));
(2)Falsepositives(FP): 被錯誤地劃分為正例的個數(shù),即實(shí)際為負(fù)例但被分類器劃分為正例的實(shí)例數(shù);
(3)Falsenegatives(FN):被錯誤地劃分為負(fù)例的個數(shù),即實(shí)際為正例但被分類器劃分為負(fù)例的實(shí)例數(shù);
(4)Truenegatives(TN): 被正確地劃分為負(fù)例的個數(shù),即實(shí)際為負(fù)例且被分類器劃分為負(fù)例的實(shí)例數(shù)。
本文選取靈敏度和正確率作為殘差神經(jīng)網(wǎng)絡(luò)分類器好壞的評價指標(biāo),檢查分類器是否能夠大概率識別所有的正例。
靈敏度(sensitive)表示所有正例中被分對的比例,衡量了分類器對正例的識別能力,式(1):
sensitive=TP/(FP+TP).
(1)
正確率(accuracy)越高,分類器越好,式(2):
accuracy=(TP+TN)/(FP+TP+FN+TN).
(2)
在CCTSDB中,針對每一個不同的交通標(biāo)志,通過本文的殘差神經(jīng)網(wǎng)絡(luò)分類器識別后,得到的TP為2778,F(xiàn)P為223,F(xiàn)N為278,TN為2 885,經(jīng)過計算,最終得到的靈敏度為92.57%,正確率為91.87%.
本文首先對圖像高斯平滑和Canny銳化,提取邊緣輪廓,得到更利于分辨的圖像;其次,將預(yù)處理后的圖像帶入到神經(jīng)網(wǎng)絡(luò)框架MxNet中的ResNet18的模型中,該神經(jīng)網(wǎng)絡(luò)框架可以多GPU快速處理,并有較好的移植性;得到的交通識別分類結(jié)果準(zhǔn)確率為91.87%,與SVM方法比較錯誤率降低了10.36%,見表2。本文的交通標(biāo)志圖像智能識別方法可以快速的識別交通標(biāo)志。該識別模型的較高可移植性在無人駕駛技術(shù)上有較高實(shí)際應(yīng)用價值。在保證識別率的前提下,加快了識別速度,提高了算法的可移植性,使得智能交通標(biāo)志識別系統(tǒng)可以在多種用戶端使用,具有較好的應(yīng)用前景。
表2 各算法識別率對比圖