張春玉 黃知紅
摘 要:車輛檢索是基于圖像的相似搜索的子任務(wù),在電子商務(wù)和智能安防領(lǐng)域有著重要的實際應(yīng)用價值。文章提出了一種有效的基于卷積神經(jīng)網(wǎng)絡(luò)車輛檢索的算法。利用YOLOV2檢測算法提取圖片中的車輛位置減少背景對車輛檢索造成的影響。提出了改變訓(xùn)練集中車輛的顏色進行數(shù)據(jù)增強,緩解訓(xùn)練數(shù)據(jù)集較少的問題?;谖⒄{(diào)的ResNet50網(wǎng)絡(luò)提取車輛的特征用來進行相似匹配。在香港大學(xué)車輛數(shù)據(jù)集上的實驗結(jié)果表明文中提出的算法取得了不錯的檢索效果。
關(guān)鍵詞:車輛檢索;以圖搜圖;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);電子商務(wù)
中圖分類號:TP311.5 文獻標志碼:A 文章編號:2095-2945(2018)13-0006-04
Abstract: Vehicle retrieval is a sub-task of similar search based on image, which has important practical application value in the field of e-business and intelligent security. This paper presents an effective vehicle retrieval algorithm based on convolution neural network. YOLOV2 detection algorithm is used to extract the vehicle position in the image to reduce the impact of background on the vehicle retrieval. The problem of changing the color of vehicle in training concentration to enhance the data is put forward to alleviate the problem of less training data set. The ResNet50 network based on fine tuning is used to extract vehicle features for similar matching. The experimental results on the vehicle data set of the University of Hong Kong show that the proposed algorithm has achieved good retrieval results.
Keywords: vehicle retrieval; graph searching via graph; convolutional neural network; deep learning; e-business
引言
隨著國家經(jīng)濟的發(fā)展和家庭總收入的不斷增加,汽車作為一種舒適的交通工具已經(jīng)成為了一個必備的消費需求。另外隨著互聯(lián)網(wǎng)技術(shù)的進步,電子商務(wù)取得了長足的發(fā)展。汽車電商平臺的出現(xiàn)為消費者購買汽車提供了一個方便的渠道?,F(xiàn)有的大部分汽車電商平臺只提供根據(jù)關(guān)鍵字進行指定車款信息的檢索,這樣就造成了一個潛在的問題,當(dāng)平臺用戶不知道車的具體品牌或者車款時,就很難根據(jù)關(guān)鍵字在平臺上找到想要購買的車輛信息。本文討論基于圖片的同款車檢索算法解決車輛商品檢索問題,對電商平臺的發(fā)展具有重要的發(fā)展意義。
圖像檢索是計算機視覺的一個研究領(lǐng)域,通過匹配兩幅圖像特征間的相似度進行相似檢索。傳統(tǒng)的圖像檢索方法大部分基于類似于SIFT[1]的局部描述子和BOW[2]算法來構(gòu)建圖像的特征來進行相似檢索,該種架構(gòu)已經(jīng)在一些特定的領(lǐng)域取得了非常好的應(yīng)用。但是由于局部特征的表征能力有限,該種算法并不能用來檢索同款車輛。
深度學(xué)習(xí)算法以其強大的特征表示能力,在計算機視覺的很多領(lǐng)域都取得了很好的應(yīng)用,例如目標檢測、語音識別、人臉識別、字符識別等。近年來也有很多基于深度學(xué)習(xí)相似圖像檢索的研究,并且在某些任務(wù)上也取得了不俗成績。本文采用深度學(xué)習(xí)算法來處理相似車款檢索的問題。值得一提的是,雖然基于深度學(xué)習(xí)的圖像相似檢索方面的研究很多,但是在基于圖片的同款車檢索這個問題上的研究卻相對較少。一方面是由于該問題并沒有受到大部分人的重視,另一方面是大規(guī)模數(shù)據(jù)集的缺少。針對這些問題,本文的貢獻點可以歸結(jié)為兩點:
(1)提出了一種驗證有效的基于深度學(xué)習(xí)的同款車檢索算法。
(2)提出了一種新的基于車輛顏色轉(zhuǎn)變的數(shù)據(jù)增強的方法。
1 車輛檢索算法
本文提出的算法架構(gòu)可以歸納為前期、中期和后期三個不同的階段。前期階段包括基于YOLOV2的車輛檢測網(wǎng)絡(luò)和基于ResNet50[4]的車款識別網(wǎng)絡(luò)的訓(xùn)練。中期階段主要是對檢索庫中的圖片進行特征提取。后期階段是根據(jù)輸入圖片的特征進行檢索庫中的特征匹配。
1.1 網(wǎng)絡(luò)訓(xùn)練
圖1中給出了檢測算法的網(wǎng)絡(luò)結(jié)構(gòu)。圖中I表示輸入圖片,Label(x,y,w,h,class)表示圖片中矩形框的位置和矩形框中目標的類別,其中x,y是矩形中心點,w,h是矩形框的寬和高。class表示目標的類別,由于本文只是檢測車輛因此只有一個類別class=0。另外在訓(xùn)練時候為了能夠方便收斂,x,y,w,h都相對于原始圖片做了歸一化處理。Loss用來表示訓(xùn)練過程中的計算得到的loss值。YOLOV2算法loss的計算主要包括三個部分,框的位置,是否包含目標,目標所屬的類別。由于在車輛檢測任務(wù)中目標類別的個數(shù)為1。因此本文修改了loss的計算方式。公式(1)中給出了loss計算的數(shù)學(xué)表達式:
1表示矩形框的loss占的權(quán)重,本文設(shè)置為5。?姿2表示包含目標的置信度的權(quán)重,本文設(shè)置為1,?姿3表示不包含目標的置信度的權(quán)重,本文設(shè)置為0.5。另外只有在區(qū)域包含目標的時候才會計算矩形框的loss值。
本文采用ResNet50網(wǎng)絡(luò)作為車款識別的基礎(chǔ)網(wǎng)絡(luò)。網(wǎng)絡(luò)訓(xùn)練采用遷移學(xué)習(xí)的方式,首先在ImageNet百萬數(shù)據(jù)集上進行訓(xùn)練,然后在車款分類數(shù)據(jù)集上進行微調(diào)訓(xùn)練。在數(shù)據(jù)預(yù)處理方面,提出了通過改變訓(xùn)練集車輛圖片的顏色來擴充訓(xùn)練數(shù)據(jù)集。圖2中給出了車身顏色修改的效果圖。上面一行是輸入圖片,下面一行是經(jīng)過改變車身顏色的效果圖。車身顏色改變的方法采用了開源代碼[5]。微調(diào)訓(xùn)練的方式比較簡單,只需要修改ResNet50輸出層的神經(jīng)元的個數(shù),在訓(xùn)練時加載預(yù)訓(xùn)練好的模型即可。
1.2 特征提取
本文通過可視化ResNet50不同層的特征以及結(jié)合在測試集上的檢索效果,最終選擇提取Layer_512_2_conv2層的特征作為車輛的特征信息。圖3中給出了特征提取的流程。I表示檢測到的車輛圖片,送入訓(xùn)練好的網(wǎng)絡(luò)做一次前向傳播,然后提取layer_512_2_conv層的特征。由于該層為卷積層,因此最后做一次max pooling 操作得到一個512維的向量f,該向量就是圖像I的特征。因此假設(shè)檢索庫中圖片數(shù)量為N。對于每一張圖片Ni,首先做一次車輛檢測(假設(shè)一張圖片只包含一輛車),然后送入網(wǎng)絡(luò)提取特征得到向量fi,最終可以得到一個N*512維的矩陣X,該矩陣就是建好的特征庫。
1.3 特征檢索
為了保證檢索的精度和速度,本文采用近鄰匹配計算特征之間的距離。本文采用歐式距離作為度量方式。因此首先對提取到的特征庫中的特征進行歸一化。另外為了提高檢索的速度和降低內(nèi)存的開銷,本文采用PCA算法進行特征降維。
2 實驗和分析
本文選用Caffe作為特征提取的深度學(xué)習(xí)框架,Darknet作為車輛檢測的依賴庫。硬件環(huán)境為三塊GeForce GTX 1080ti顯卡、英特爾E5處理器、128G內(nèi)存的臺式電腦。操作系統(tǒng)為Ubuntu14.04。
2.1 數(shù)據(jù)集
本文數(shù)據(jù)集主要包含三塊:車輛檢測數(shù)據(jù)集、車款識別數(shù)據(jù)集、車輛檢索數(shù)據(jù)集。車輛檢測數(shù)據(jù)集通過人工標注的方式收集。車款識別數(shù)據(jù)集基于香港大學(xué)車輛數(shù)據(jù)集中的監(jiān)控數(shù)據(jù)集:包含281個車款類別共44483張車輛圖片。車輛檢索測試集包括車款識別測試集以及收集的50000張干擾監(jiān)控數(shù)據(jù)集。從281個類別中每個類別抽取1張圖片作為測試集,剩下的和干擾數(shù)據(jù)一起作為檢索庫。表1中給出了數(shù)據(jù)集的使用情況。
2.2 網(wǎng)絡(luò)訓(xùn)練
檢測算法選用基于darknet19網(wǎng)絡(luò)結(jié)構(gòu)的YOLOV2檢測算法。從darknet官方網(wǎng)站下載訓(xùn)練網(wǎng)絡(luò)所需要的網(wǎng)絡(luò)定義cfg和保存權(quán)值的weights文件。修改cfg文件中的最后一層卷積層的輸出為30=5*(1+1+4),修改region層的classes=1,同時基于YOLOV2文中提到的改進kmeans算法根據(jù)標注的訓(xùn)練數(shù)據(jù)集的labels標簽生成anchor點的坐標。設(shè)置檢測網(wǎng)絡(luò)最大迭代次數(shù)為200000次,設(shè)置初始學(xué)習(xí)率為0.0001學(xué)習(xí)率下降策略為steps。由于darknet19是全卷積網(wǎng)絡(luò)結(jié)構(gòu)因此在訓(xùn)練過程中采用多尺度訓(xùn)練的方式。輸入圖片的尺寸為352、384、416、448。最終在測試集上設(shè)置IOU=0.8、thresh=0.8、nms=0.4得到的不同輸入尺寸的檢測效果如表2。表2的第一行給出了YOLO_V2算法在COCO數(shù)據(jù)集上訓(xùn)練的模型在本文測試集上的效果。從測試集上的結(jié)果可以看出,本文訓(xùn)練的車輛檢測算法在測試集上的檢測精度要明顯好于前者。
車款識別原始訓(xùn)練集一共包含38863張數(shù)據(jù),直接基于這些數(shù)據(jù)進行訓(xùn)練容易造成過擬合。因此采用旋轉(zhuǎn)、添加高斯噪聲、水平翻轉(zhuǎn)、車身顏色改變來進行數(shù)據(jù)增強。車身顏色改變對于黑夜中的車輛效果非常的差。所以在利用車身顏色改變進行數(shù)據(jù)增強之前,先根據(jù)輸入圖片的平均亮度來過濾掉夜晚的車輛圖片。設(shè)置平均亮度值低于50的為夜晚圖片,從訓(xùn)練集中過濾掉14843張圖片。 通過觀察過濾后的數(shù)據(jù)集,發(fā)現(xiàn)車身顏色大部分為白色、黑色、紅色。訓(xùn)練一個車身顏色識別的網(wǎng)絡(luò)模型,把訓(xùn)練集中的每個類別中包含的白色、黑色、紅色圖片提取出來。依托訓(xùn)練的車身顏色分類模型一共提出11569張圖片,其中紅色1165張,白色3372張,黑色7032張。接下來采用基于開源代碼訓(xùn)練的圖3中展示的顏色轉(zhuǎn)換模型進行數(shù)據(jù)增強。表3中給出了最終數(shù)據(jù)增強后的訓(xùn)練集組成。
從caffe的開源社區(qū)Model Zoo中下載預(yù)訓(xùn)練好的ResNet50網(wǎng)絡(luò)模型。修改輸出層網(wǎng)絡(luò)的神經(jīng)元個數(shù)為281類,設(shè)置初始學(xué)習(xí)率base_lr=0.001,學(xué)習(xí)方式lr_policy="multistep",momentum=0.96、weight_decay=0.0002。分別利用沒有加入顏色增強和加入顏色增強的數(shù)據(jù)集進行網(wǎng)絡(luò)的訓(xùn)練。前者由于數(shù)據(jù)集較少,訓(xùn)練80000次就開始出現(xiàn)欠擬合的情況,訓(xùn)練集上已經(jīng)達到了99.9%的精度,但是測試集上的精度在95%左右徘徊。當(dāng)加入顏色改變數(shù)據(jù)集之后該情況得到了明顯的緩解,訓(xùn)練100000次測試集上的準確度到了97%。表4中在測試集上的檢索效果對比也說明了,加入顏色改變增強的有效性。
2.3 檢索時間和效果分析
檢索的時間開銷和準確度是衡量算法好壞的兩個重要標準。本部分將圍繞這兩個指標對本文算法的性能進行詳細的分析。
表4中給出了不同檢索算法在本文測試集上的檢索精度。TopN表示前N張結(jié)果中正確結(jié)果所占的比例。實驗結(jié)果表明基于SIFT[1]暴力匹配的方式和基于BOW[2]的方式檢索效果都比較差,這和圖1中特征匹配可視化的結(jié)果相一致。直接基于AlexNet網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上訓(xùn)練的通用特征進行車輛檢索的效果也不夠理想。這也說明了在特定任務(wù)上進行遷移訓(xùn)練的重要性。Our_one表示直接采用沒有加入顏色增強數(shù)據(jù)進行訓(xùn)練的模型的檢索效果,Our_two是加入顏色增強數(shù)據(jù)的檢索效果。后者要比前者平均高約4個百分點,這也說明通過改變顏色增強能夠大幅度提高檢索的效果。Our_three是采用PCA進行降維,特征維度降到256維的檢索效果,可以發(fā)現(xiàn)檢索效果不但沒有下降還略微有上升。特征降維,可以提高檢索的速度同時減少內(nèi)存的開銷。Our_four算法是加入本文車輛檢測算法,提取測試集上的車輛圖片進行檢索效果。由于香港大學(xué)數(shù)據(jù)集中的測試圖片已經(jīng)不包含太多的背景信息,因此通過該方式在測試集上的效果只是略有提升。但是在實際應(yīng)用場景中,該種方式能夠極大的提高檢索的效果。
圖4中給出了部分車輛圖片的檢索效果。左邊第一列為輸入的檢索圖片,其它列為檢索出來的Top5結(jié)果。用紅色外邊框包圍的圖片表示檢索出錯的結(jié)果。夜間圖片由于光線較差,圖片的亮度較低因此檢索的精度會下降。但是從檢索效果可以看出,輸入夜晚的圖片也有一定的概率檢索出正確的白天的圖片,反之亦然。例如第二行的第三張和第7行的第三張。
本文算法的時間開銷主要包含三個部分。車輛檢測和特征提取和近鄰匹配。檢測算法在1080ti的顯卡上當(dāng)輸入圖片大小為416*416的時間為0.011s。特征提取的時間開銷為一張圖片0.02s。特征匹配的時間開銷根據(jù)檢索庫的大小和特征維度的不同,所需要的時間開銷也不一樣。表5給出了不同量級檢索庫上512維的特征維度,特征匹配的時間開銷。根據(jù)表5給出的時間統(tǒng)計,本文算法在百萬級的圖像檢索庫中依然能夠達到秒級以內(nèi)的檢索響應(yīng)的速度。
3 結(jié)束語
本文介紹了一種基于卷積神經(jīng)網(wǎng)絡(luò)進行車輛檢索的算法,并且提出了一種新的數(shù)據(jù)增強的方法。實驗證明算法能夠取得不錯的效果。然而,算法依然存在不足之處。例如對于夜晚圖片光線較差的情況檢索效果就不夠理想。希望在以后的研究中能夠改進這部分的問題。
參考文獻:
[1]Huang J, Feris R, Chen Q, et al. Cross-Domain Image Retrieval with a Dual Attribute-Aware Ranking Network[J]. 2015:1062-1070..
[2]Lin K, Yang H F, Liu K H, et al. Rapid Clothing Retrieval via Deep Learning of Binary Codes and Hierarchical Search[J]. 2015:499-502.
[3]Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J]. 2016.
[4]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. 2015:770-778.
[5]https://github.com/Armour/Automatic-Image-Colorization.
[6]Jegou H, Douze M, Schmid C. Hamming Embedding and Weak Geometric Consistency for Large Scale Image Search[M]// Computer Vision - ECCV 2008. OAI, 2008:304-317.
[7]Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems, 2012, 25(2):2012.
[8]Yang L, Luo P, Chen C L, et al. A large-scale car dataset for fine-grained categorization and verification[J]. 2015:3973-3981.
[9]Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(60):91-110.