国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于YOLOv2的行人檢測方法研究

2018-04-11 01:44:39劉建國王帥帥
數字制造科學 2018年1期
關鍵詞:候選框特征提取紋理

劉建國,羅 杰,王帥帥,關 挺

(1.武漢理工大學 現代汽車零部件技術湖北省重點實驗室,湖北 武漢 430070;2.武漢理工大學 汽車零部件技術湖北省協(xié)同創(chuàng)新中心,湖北 武漢 430070)

行人檢測就是判斷場輸入的圖形或視頻中是否有行人并快速準確地判斷出行人的位置。行人檢測一直是目標檢測領域的一項重要內容,其研究具有較大的理論意義和實際應用價值,相關研究成果可以運用于智能駕駛系統(tǒng)、智能機器人、行人分析等領域。行人檢測不同于普通目標檢測,復雜的背景、不同的光照條件、不同的相機拍攝視角等因素都會對檢測結果造成一定影響,加之行人的衣著多樣化,人與人之間的遮擋以及行走姿勢個性化,使得行人檢測非常具有挑戰(zhàn)性,同時也亟待解決。

目前行人檢測方法可以分為基于背景建模的方法和基于統(tǒng)計學習的方法[1],基于統(tǒng)計學習的方法又可以分為傳統(tǒng)的行人檢測方法和基于神經網絡的行人檢測方法。傳統(tǒng)的方法主要基于人工設計特征提取器,通過提取HOG(histogram of oriented gradient),Haar,LBP(local binary patterns)等特征,訓練分類器進行行人檢測,并取得了令人矚目的成果。其中,具有代表性的是Dalal于2005年提出的梯度方向直方圖HOG[2]特征,它結合線性支持向量機作為分類器,取得了不錯的效果,后續(xù)大多數算法都是在此基礎上進行了延伸。2009年Wang等[3]結合HOG特征和LBP特征處理行人遮擋,提高了檢測精度。但人工設計的行人特征很難適應行人的大幅度變化,且高運算復雜度限制了實際應用。為了克服傳統(tǒng)方法手工設計特征泛化性差的缺點,相關學者將深度模型應用于行人檢測。Ouyang等[4]根據人體不同部位之間的相互約束,運用深度模型學習行人身體不同部位特征來解決行人遮擋問題,完成行人檢測。近些年,深度學習在目標檢測領域取得了重大突破。2012年,Hinton及他的學生Krizhevsky[5]將深度學習應用于圖像處理,并在當年的國際大規(guī)模視覺識別大賽上取得了第一名的成績,其Top-5錯誤率為15.3%,遠超過高達26.2%的第二名。2015年,谷歌的Loffe等[6]和微軟的何凱明等[7]研究人員都分別將圖片分類任務Top-5錯誤率降低到5%以內,超過了人類極限。目標檢測領域學者從中受到啟發(fā),提出了一系列基于深度學習的目標檢測框架。從RCNN(region convolutional neural network)[8],Fast-RCNN[9],Faster-RCNN[10]到YOLO(you only look once)[11],SSD(single shot multibox detector)[12],YOLOv2[13],目標檢測的速度和準確率一直在不斷攀升。其中YOLOv2是目前速度和準確率綜合表現最好的網絡。本文借鑒目標檢測中最先進的成果,提出基于YOLOv2的行人檢測方法,在YOLOv2網絡第一層卷積層前添加底層特征提取層,對圖片中行人進行選擇性預處理,突出行人特征,區(qū)分背景干擾,然后根據行人呈現高寬比固定的特點,聚類分析得到初始候選框anchor的個數及維度,提升檢測效果。將本文的方法在INRIA數據集上進行測試,檢測效果有明顯提升。

1 YOLO算法原理

華盛頓大學Joseph Redmon等人針對區(qū)域提名(region proposal)目標檢測方法的不足,先后提出了YOLOv1和改進版YOLOv2。不同于其他目標檢測網絡,YOLOv1網絡先將圖像劃分成S×S的網格,對于每個網格預測B個邊界框(bounding boxes)。每個邊界框包含5個待預測值:x,y,w,h和置信度。(x,y)是目標窗口的中心坐標,w和h是目標窗口的寬度和高度。置信度Confidence指Pr(Object)×IOUtruthpred,其中IOUtruthpred指真實框和預測框IOU,IOU指兩個區(qū)域交集和并集的比值,Pr(Object)指目標出現的概率。除了預測邊界框,每個網格還要預測C個分類的概率Pr(Classi|Object),它表示檢測到的物體屬于某一類的概率。YOLOv1沒有使用區(qū)域提名步驟,直接回歸完成了位置和類別的判定,使得其檢測速度得到了質的飛躍,實現了端到端的回歸方法。檢測步驟如圖1所示。

圖1 檢測示意圖

預測的窗口屬于某個分類的得分公式為:

Pr(Classi|Object)×Pr(Object)×IOUtruthpred=

Pr(Classi)×IOUtruthpred

(1)

作者設計的損失函數如下:

(2)

根據候選框和分類概率Pr(Classi|Object)在網絡預測數據中的維度和重要程度不同,作者給予候選框較高的損失權重λcoord,同時給予分類概率Pr(Classi|Object)較低的損失權重λnoobj,并用候選框的平方根來減小候選框位置的準確性對預測結果的影響。上面函數中,前2項預測候選框,后3項依次預測的是含目標的置信度,不含目標的置信度和目標類別。

YOLOv2參照SSD和YOLOv1網絡結構設計了新的基礎網絡結構Darknet-19,其網絡結構包含19層卷積層和5層最大池化層,在保持原有的檢測速度下,大大提高了檢測準確率。YOLOv2在YOLOv1的基礎上使用了很多技巧,其中包括去掉全連接層,模型只剩下卷積層和池化層,因此可以隨時改變輸入圖片的尺寸,增強模型的泛化能力。YOLOv2借鑒Fast RCNN 的anchor機制預測候選框,采用K-means[14]聚類方法來選擇anchor boxs個數和寬高維度,由anchor直接預測目標的類別和位置等一系列技巧。

2 基于YOLOv2的行人檢測模型

雖然YOLOv2在目標檢測領域取得了最佳檢測效果,但并不完全適用于行人檢測。筆者針對具體應用,在YOLOv2的基礎上作出相應改進,使其適用于行人檢測,主要改進如下:

(1)在第一個卷積層之前加入底層特征提取層。YOLOv2網絡會對輸入的整幅圖片進行無差別特征提取,但行人檢測過程中,圖片中的行人僅僅是圖片極少的一部分。因此,在YOLOv2網絡之前增加底層特征提取層,對輸入圖像進行預處理,突出行人特征,減小計算量和分析難度。

(2)對數據集目標框進行聚類分析,選擇最優(yōu)anchor個數和寬高維度。YOLOv2的anchor參數是由VOC2007和VOC2012數據集聚類確定的,其數據集中類別豐富,得到的anchor參數具有普適性,但卻不適用于行人檢測。在行人檢測時,無論行人處于什么樣背景,行人姿態(tài)怎么變化,行人在圖片中的長寬比始終是一個相對固定的比值,呈現瘦高的框,因此需要對行人數據集進行聚類分析,重新確定anchor個數和寬高維度。

2.1 底層特征提取層

YOLOv2應用于行人檢測過程中,卷積層會對圖像進行無差別特征提取,這將導致計算的浪費,同時,行人圖像多以車輛,道路為背景,加上行人的非剛性特征,往往導致YOLOv2網絡在特征提取過程中學習到錯誤的特征,干擾最終的檢測結果。為了減少背景和行人的非剛性特征對檢測結果的影響,筆者對行人圖像進行圖像預處理,突出行人結構特征。根據傳統(tǒng)的行人檢測方法,選擇紋理特征作為圖像預處理計算,實驗結果表明,與不進行紋理特征預處理相比,改進的方法能夠有效提高檢測精度。LBP紋理特征用來描述圖像局部紋理特征的算子,它反映了圖像每個像素與周圍像素之間的關系,描述了圖像的表面性質[15]。但由于紋理只是一種物體表面的特性,并不能完全反映出物體的本質屬性,因此僅僅利用紋理特征是無法獲得高層次圖像內容的。與顏色特征不同,紋理特征不是基于像素點的特征,它需要在包含多個像素點的區(qū)域中進行統(tǒng)計計算。作為一種統(tǒng)計特征,紋理特征常具有旋轉不變性,灰度不變性,且對光照變化不敏感,同時對于噪聲有較強的抵抗能力。原始的LBP算子定義在3×3的窗口內,以窗口中心像素為基準,將周圍的8個像素的灰度值與其進行相減,若周圍像素值與中心像素值差值大于零,則該像素點的位置記為1,否則記為0。這樣,3×3鄰域內的8個點經比較可產生8位二進制數,即LBP碼,得到該窗口中心像素點的特征值,并用這個值來反映該區(qū)域的紋理信息。LBP特征值計算公式為:

(3)

式中:(x,y)代表3×3鄰域中心,其像素值為gc;gp表示鄰域其他像素點的值;S(x)為符號函數,其定義如下:

(4)

LBP特征值計算過程如圖2所示。

圖2 LBP計算過程示意圖

選擇LBP紋理預處理作為底層特征提取層運算,從圖3(a)與圖3(b)對比可以看出,行人背景的區(qū)別轉化成了紋理差異,突出了行人的特征。實驗表明,對圖片進行LBP紋理特征預處理后,降低了模型的漏檢率。

圖3 預處理效果圖

2.2 目標框聚類分析

YOLOv2借鑒Faster-RCNN的方法,引入了anchor,anchor是一組尺寸固定的初始候選框。Faster-RCNN的anchor是人工設定的,其設定的好壞將極大的影響目標檢測的精度和速度。在訓練網絡時,隨著迭代次數的增加,候選框的參數也在不斷調整以接近真實框。因此,Joseph Redmon提出了維度聚類的方法,通過K-means方法對目標框作聚類分析,網絡根據數據集目標框的特點,學習行人特征,找到統(tǒng)計規(guī)律,最終以K為anchor的個數,以K個聚類中心box的維度為anchor的維度。YOLOv2對VOC數據集的聚類結果為5,因此其anchor的個數為5。筆者同樣采用K-means聚類方法,對INRIA[16]數據集進行聚類分析,得到anchor的個數和寬高維度。傳統(tǒng)的K-means聚類方法使用的是歐式距離函數,這就意味著較大框會比較小框產生更多的錯誤,因此YOLOv2的作者采用IOU(候選框與真實框的交集除以并集),這樣就與候選框的尺寸無關了。最終的距離函數為:

d(box,centroid)=1-IOU(box,centroid)

(5)

本文的聚類目標函數為:

(6)

式中:box為候選框,truth為目標真實框,K為anchor的個數。

筆者采用遞增的方法來選擇K值。隨著K值的增大,目標函數變化越來越緩慢,變化線的拐點可以認為是最佳的anchor個數。目標函數變化曲線如圖4所示,當K值大于4時,曲線變得平緩,因此選擇K值為4,即anchor的個數為4。

圖4 目標函數變化趨勢圖

3 實驗與分析

3.1 訓練與測試樣本數據集

目前,關于行人檢測的數據集有很多,INRIA行人數據集是最常用的靜態(tài)行人數據集,分為訓練集和測試集兩部分,訓練集包含614張正樣本圖像和1 218張負樣本圖像,正樣本中含有2 416人。測試集包含288張正樣本圖像和453張負樣本圖像,正樣本中有1 126人。INRIA數據集拍攝條件多樣,存在光照條件變化,行人互相遮擋,背景較復雜等情況,是具有代表性的行人數據集。

3.2 實驗平臺

本文實驗硬件配置如表1所示。

表1 軟硬件配置

3.3 分類網絡預訓練

分類網絡預訓練是行人檢測的重要環(huán)節(jié),為減少訓練時間,采用Daimler[17]數據集對Darknet-19進行預訓練,每訓練10輪讓網絡調整每一層的權重,使網絡從分類算法切換為檢測算法的過程中能更好地適應行人檢測的任務。

3.4 實驗結果對比

3.4.1聚類分析

采用對數據集目標框進行聚類分析的方法得到了適合數據集的anchor個數和寬高維度。筆者提出的方法與目前最具代表性的目標檢測框架之一Faster-RCNN以及YOLOv2生成候選框的方法對比,聚類分析得到的候選框數量較少,減小了計算的浪費,加快了檢測速度,同時能保證更高的平均重疊率,對比結果如表2所示。

表2 候選框對比表

3.4.2底層特征提取層

在行人檢測中,漏檢和誤檢是共同的問題。為判斷行人檢測方法的優(yōu)劣,筆者選擇LAMR[18](log-average miss rate)指標來作為評判的標準。LAMR指標表示的是FPPI(平均每張圖片誤檢數)在[10-2102]上與漏檢率之間的關系。以INRIA數據集作為實驗數據,在FPPI一定(一般為10-1)[19]時,比較本文的方法與Faster-RCNN、YOLOv2以及傳統(tǒng)HOG+SVM的檢測效果,實驗結果如表3所示。

表3 實驗結果對比表

從表3可以看出,在誤檢率一定時,本文方法的漏檢率遠低于傳統(tǒng)的HOG+SVM方法,同時相比于直接將YOLOv2運用于行人檢測,加入底層特征提取層的方法將漏檢率降低了1.94%,表3所列的方法中,本文的方法達到了最佳檢測效果。將訓練好的模型用來檢測行人,檢測示例如圖5所示。圖5中顯示了直接應用YOLOv2和本文方法檢測效果對比,圖5(a)為直接應用YOLOv2的檢測效果,圖5(b)為是本文方法的檢測效果,從圖5對比可以看出,本文的方法降低了漏檢率。

圖5 檢測效果對比圖

4 結論

以YOLOv2為基礎,通過加入低層特征提取層,維度聚類分析等方法成功將目標檢測算法移植到行人檢測。以INRIA數據集為實驗數據,根據行人在圖像中呈現高寬比相對固定的規(guī)律,聚類分析選擇較少的anchor個數,并保證了更高的平均重疊率,同時增加了底層特征提取層,選擇紋理特征算子對圖像進行預處理,將行人背景差異轉化成了紋理差異,突出了行人輪廓,降低了行人的漏檢率,驗證了該方法優(yōu)越性。本文還存在訓練樣本較少,模型泛化能力不夠等情況。結合其他輔助信息,提高行人特征表達能力,進一步提升檢測模型的魯棒性和實時性,這是行人檢測的研究方向,也是下一步工作的研究重點。

參考文獻:

[1]Paul viola, Michael J Jones, Daniel snow. Detecting Pedestrians Using Patterns of Motion and Appearance[J]. International Journal of Computer Vision,2005,63(2):734-740.

[2]Dalai N,Triggs B.Histograms of Oriented Gradients for Human Detection[C]∥ Conference on Computer Vision and Pattern Recognition. Sandiego:[s.n.], 2005:886-893.

[3]Wang X,Han T X,Yan S. An HOG-LBP Human Detector with Partial Occlusion Handling[C]∥ Proc. 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE Press,2009:32-39.

[4]Ouyang W,Wang X.Joint Deep Learning for Pedestrian Detection[C]∥IEEE International Conference on Computer Vision(ICCV).[S.l.]:IEEE,2013:2056-2063.

[5]Krizhevsky A,Sutskever I,Hinton G E.Imagenet Classification with Deep Convolutional Neural Networks[C]∥Advances in Neural Information Processing Systems.[S.l.]:[s.n.],2012:1097-1105.

[6]Loffe S,Szegedy C.Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift[C]∥Internation Conference on Machine Learning. [S.l.]:[s.n.],2015:448-456.

[7]He K M,Zhang X,Ren S,et al.Delving Deep into Rectifiers:Surpassing Human-level Performance on Imagenet Classification[C]∥2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015:1026-1034.

[8]Girshick R,Donahue J,Darrell T,et al.Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. Computer Science, 2013(10):580-587.

[9]Girshick R.Fast R-CNN[C]∥IEEE International Conference on Computer Vision. [S.l.]:IEEE,2015:1440 -1448.

[10]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015(1):1-6.

[11]Redmon J,Divvala S,Girshick R,et al. You Only Look Once:Unified,Real-time Object Detection[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:[s.n.],2016:779-788.

[12]Wei L,Dragomir A. SSD:Single Shot Multi Box Detector[C]∥ European Conference on Computer Vision. [S.l.]:[s.n.],2016:21-37.

[13]Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]∥Proceeding of IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]:[s.n.],2017:135-142.

[14]張素潔,趙懷慈.最優(yōu)聚類個數和初始聚類中心點選取算法研究[J]. 計算機應用研究,2017,34(6):1-6.

[15]Ojala T,Harwood I.A Comparative Study of Texture Measures with Classification Based on Feature Distributions[J].Pattern Recognition,1996,29(1):51-59.

[16]INRIA. Person Dataset [DB/OL].[2017-12-8].http:∥pascal.inrialpes.fr/data∥human/.

[17]Daimler. Daimler Pedestrian Detection Benchmark Dataset[DB/OL].[2017-12-8].http:∥www Gavrila.net Reserk_d/Daimler_Mono_Ped_Detection_Be/daimler_mono_ped_detection_be.html.

[18]Wojek C,Dolla P,Schiele B,et al.Pedestrian Detection:An Evaluation of State of the Art[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2012,34(4):743-761.

[19]李海龍,吳震東,章堅武.基于卷積神經網絡的行人檢測[J].通信技術,2017(8):662-667.

猜你喜歡
候選框特征提取紋理
重定位非極大值抑制算法
面向自然場景文本檢測的改進NMS算法
基于Soft-NMS的候選框去冗余加速器設計*
基于BM3D的復雜紋理區(qū)域圖像去噪
軟件(2020年3期)2020-04-20 01:45:18
使用紋理疊加添加藝術畫特效
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
一種針對特定目標的提議算法
TEXTURE ON TEXTURE質地上的紋理
Coco薇(2017年8期)2017-08-03 15:23:38
Bagging RCSP腦電特征提取算法
消除凹凸紋理有妙招!
Coco薇(2015年5期)2016-03-29 23:22:15
台南县| 德惠市| 信宜市| 耒阳市| 奉新县| 界首市| 大方县| 牡丹江市| 子洲县| 江阴市| 沂南县| 华池县| 凤阳县| 蒲城县| 额敏县| 蚌埠市| 颍上县| 泰安市| 呼伦贝尔市| 万州区| 古蔺县| 武鸣县| 屯昌县| 五华县| 勃利县| 武定县| 固镇县| 阳原县| 蓬溪县| 青阳县| 大埔县| 大名县| 弥勒县| 兴和县| 丘北县| 东光县| 卢氏县| 河津市| 天台县| 漯河市| 太和县|