張凱斐,王翠娥
(呂梁學院 計算機科學與技術系,山西 離石 033001)
計算機視覺中圖像識別技術[1]的發(fā)展為移動設備的圖像識別提供了便捷的通道。目前圖像識別技術 結合卷積神經網絡[2](ConvolutionalNeural Networks,CNN)在對車輛和行人[3]識別等方面的研究也越來越深入。文獻[4]在探索計算機視覺基礎上,探討了車輛識別領域目前仍需解決可移動設備對車輛、行人識別的精確度和實時性等問題。并闡述了車輛識別技術應用于智能交通是未來進一步的研究熱點。
關于對車輛、行人識別的相關研究,Davidson R Y[5]等人將改進的Faster R-CNN的方法應用到了車輛識別中,該方法提高了模型對目標的判別能力,提升了算法的檢測精度。在文獻[6]中基于DNN-LSTM的算法實現了對車輛前方行人的準確識別。Philip Geismann等人在文獻[7]提出了一種兩階段識別行人視頻序列的方法,在合理的運行條件下,仍能獲得良好的識別性能。以上研究雖然在車輛及行人的識別上有了進步,但當同步到一些現實的場景中時,模型較大的網絡已不能滿足可移動設備的需求。所以研究小而高效的網絡模型已成為趨勢。在卷積神經網絡中較常見的輕量級模型[8]有:Mobilenet、SqueezeNet等。對于Mobilenet網絡[9]的應用與研究,文獻[10]中作者針對MobileNet模型分類準確率較低的問題,提出一種基于局部感受野擴張的D-MobileNet模型。黃躍珍等人[11]使用了相關模塊對MobileNet網絡結構進行改進,提高車型識別精度。雖然這些改進都提高了模型識別的精確度,但都依然存在檢測實時性較低的問題。
可移動網絡模型針對車輛及行人識別的研究已經在精確度上具有很明顯的優(yōu)勢,但是在過于追求精確度的情況下忽視了網絡模型在速率上的提升。通過學習研究相關方法,本文基于MobileNet網絡,對模型速率上的提升做了相關研究及改進,并通過實驗結果表明,改進模型識別速率顯著提升。這一改進對智能[12]車載識別系統(tǒng)、智能交通[13]和無人駕駛等方向的未來研究和發(fā)展都具有積極意義。
Andrew G.Howard等人于2017年提出MobileNet[14]模型。模型涉及深度可分離卷積,將標準的卷積分割成深度卷積(depthwise convolution)和逐點卷積(pointwise convolution)。深度可分離卷積的分解過程如圖1所示:
其中(a)表示標準卷積濾波器,標準的可割成(b)和(c)兩部分。(b)表示深度卷積過濾器。(c)表示1×1的卷積濾波器,即逐點卷積。M和N分別表示輸出、出入的通道數。
圖1 深度可分離卷積過程
圖2 MobileNet網絡卷積過程
卷積過程如圖2,輸入的特征映射F尺寸為(DF,DF,M),采用的標準卷積K(DK,DK,M,N),如圖(a)所示,輸出的特征映射G尺寸為(DG,DG,N),標準卷積計算過程如式(1)。
(1)
標準卷積對應計算量:DK·DK·M·N·DF·DF。將標準卷積(DK,DK,M,N)拆分為深度卷積和逐點卷積,深度卷積尺寸為(DK,DK,1,M),如圖(b)所示,具有濾波作用,輸出特征為(DG,DG,M)。逐點卷積負進行通道轉換,尺寸為(1,1,M,N)如圖(c)所示。得到最終輸出(DG,DG,N)。
深度卷積的卷積計算過程如式(2):
(2)
DK·DK·M·DF·DF+M·N·DF·DF
(3)
網絡模型的計算量變化由(4)式表達。
(4)
由此可見,對于MobileNet網絡而言,這種分解方式能夠有效的減少參數計算量,縮減模型大小。因此MobileNet卷積結構的這種優(yōu)勢在圖像識別應用中較為流行[15]。
通過研究MobileNet網絡結構的各層參數,對MobileNet模型網絡模型中Con DW3×3、Conv3×3卷積層相關參數做L2正則化處理。L2正則化可以看做是對網絡參數的約束或懲罰,將引導網絡中的參數向規(guī)定的趨勢優(yōu)化。L2正則化也稱為權重衰減,因為L2正則化會施加較大懲罰在稀疏的權重向量上,避免權重出現極值。加入正則化的權重的絕對值總體上是逐漸衰減,則模型的復雜度趨于簡潔。
Mobilenet的網絡結構如圖3。
由圖3可知depthwise convolution采用3×3卷積核進行卷積操作,而pointwise convolution則采用1×1卷積核進行卷積。在深入研究了MobileNet網絡的壓縮原理與思想之后,具體分析了其結構特點與參數分布特點。MobileNet網絡參數[14]及各層計算量如表1所示。
圖3 mobilenet網絡結構
表1 MobileNet網絡的計算與參數分布
由表1可知在MobileNet中1×1的卷積參與了90%以上的計算,相關參數占70%以上。
由于傳統(tǒng)的Mobilenet模型對1×1的卷積層參數已具有較好優(yōu)化,為提升模型的泛化能力,有效控制過擬合,同時達到提升速率的目的。改進模型重點對3×3的depthwise conv卷積層參數進行優(yōu)化。
模型相關參數正則化算法如下:
(1)損失函數由式(5)定義:
(5)
(6)
(2)本文定義損失函數為平方損失函數由公式(7)表示:
(7)
(3)參數的正則化由式(8)定義:
(8)
(4)將正則化的參數代入到式(7)中,對網絡層進行優(yōu)化,正則化后的損失函數可由式(9)表示:
(9)
(5)對Con DW3×3、Conv3×3進行網絡層優(yōu)化,就是對網絡層中對應的權值進行正則化。通過此方法使模型參數值較小,減少了參數量。進而1×1卷積對3×3網絡層輸出進行卷積計算時,采樣的數量明顯減少。并增加了3×3卷積層參數的計算量,降低了1×1卷積層的計算量,達到計算量均勻分布而提升網絡模型速率的目的。正則化過程如下:
進行正則化后這一層的輸出為:
(10)
在正則化過程中,只考慮權值,公式中簡化了偏置。經深度卷積層進行L2正則化處理后的Dw層計算量為:Dk·Dk·(L2M)·Df·Df。改進模型參數的減少量由式(11)表達:
(11)
改進模型選取基于車載行車記錄儀收集的圖像數據集進行訓練和預測。該模型訓練的數據是經過預處理后的圖像,對圖像特征提取時,要求圖片有合適的大小。實驗選取50×50的圖像集進行實驗。
3.1.1 數據集劃分
圖4 實驗流程圖
車載圖像數據集源于行車記錄儀采集,共20 000張 50×50的圖像,將相關數據集轉化為TFrecord格式之后進行劃分。選取15 000張圖像作為改進模型的訓練集,剩余5 000張圖像作為測試集,流程如圖4所示。
3.1.2 數據的讀取及預處理
一個網絡訓練的結果受多因素影響,在訓練相關改進模型之前對圖像進行預處理[16]。預處理過程如下:
(1)通過tfrecord讀取數據集以減少內存消耗,加速模型相關數據集讀取。
(2)利用最大值法對圖像數據集進行灰度化處理。灰度最大值法可由公式(12)表達:
Gray(i,j)=max{R(i,j),G(i,j),B(i,j)}
(12)
3.1.3 對灰度化的數據集進行圖像增強
改進算法主要研究圖像識別在速率上的提升,所以圖像質量的好壞直接影響識別算法速率提升的效果,數據集圖像中的類別較少,對圖像數據及進行上述預處理過程之后,可減少數據集圖像中的無關信息。圖像預處理效果如圖5所示。
圖5 圖像預處理效果圖
改進模型初始權值設置為1,學習率設置為0.03,訓練迭代次數設置為100 epoch,正則項系數λ的初始值設置為1。通過實驗次數的增加根據實驗情況可更改超參數的值。
圖6 傳統(tǒng)MobileNet網絡模型實驗結果與改進的網絡實驗結果對比圖
設置改進模型的各類參數及訓練步數,采用訓練集對改進模型進行預訓練。用訓練好的改進模型對測試集中的數據進行測試,得出測試結果。
改進算法以識別速率作為模型性能評價指標進行了一系列的實驗,得出了較為理想的實驗結果。我們將實驗結果和傳統(tǒng)的MobileNet網絡進行對比,實驗結果表明,改進算法的識別速率有明顯提升,速率對比如圖6所示,準確率和召回率對比如圖7、8所示。
由圖7、8可見,傳統(tǒng)模型識別準確率為73.2%,改進模型準確率為74.8%,準確率有所提高。改進算法較傳統(tǒng)算法而言有明顯優(yōu)勢。
圖7 傳統(tǒng)的MobileNet網絡模型實驗結果
圖8 改進的MobileNet網絡模型實驗結果
3.3.1 相關算法對比
表2 不同網絡實驗結果
利用本文收集的實際數據集,我們將改進算法與常用的輕量級網絡Squeezenet進行了實驗,在計算量和速率兩方面進行對比。結果如表2所示。
由表2可知,同數據集下進行模型測試,改進算法參數的計算量、識別速率均具有顯著優(yōu)勢。
3.3.2 基于不同數據集的測試對比
為驗證改進算法的合理性,我們將模型用于COCO(Common Objects in Context)數據集進行相關實驗做對比,改進算法在本文的數據集和COCO數據集上的實驗結果如表3所示。
由表3可知,改進算法模型在識別速率上比COCO數據集要高14%左右,說明改進算法具有較好的泛化能力。
3.3.3 不同大小圖像對測試結果的影響
考慮到在實際的實驗過程中可能會遇到圖像大小不一的問題,實驗將三種不同尺寸圖像輸入模型,來檢驗圖像的大小是否會影響到模型的識別速率。實驗結果如表4所示。
表3 不同數據集測試結果
表4 圖像大小對網絡結果的影響對比表
實驗結果表明輸入圖像的尺寸雖對識別率存在一定影響,但改進算法檢測實時性保持良好。
本文提出一種MobileNet網絡模型的車載圖像識別改進算法。對模型網絡結構中Con DW3×3、Conv3×3卷積層相關參數做L2正則化處理,優(yōu)化了相關參數以提升模型效率。通過實驗驗證,改進后的算法模型在本文數據集中的識別速率可以達到76%左右。與傳統(tǒng)的Mobilenet網絡模型相比,改進模型的識別速度更快。改進算法對于智能車載識別系統(tǒng)和嵌入式的小模型網絡研究具有重要意義。