基于深度學(xué)習的鐵路行人細粒度檢測*

2020-08-11 00:46劉家輝胡廣朋王申宇

計算機與數(shù)字工程 2020年6期

劉家輝胡廣朋王申宇劉暢覃源程科

（1.江蘇科技大學(xué)計算機學(xué)院鎮(zhèn)江 212003）（2.中鐵隧道集團三處有限公司深圳 518051）

1 引言

高速鐵路的發(fā)展帶來了巨大的便利，鐵路事業(yè)高速發(fā)展的同時，鐵路安全問題也值得關(guān)注。國內(nèi)現(xiàn)有的鐵路安全，主要是依靠視頻監(jiān)控和人工巡檢相結(jié)合的方法。當有工作人員在鐵路軌道上作業(yè)時，首先由當?shù)卣{(diào)度員提供安全作業(yè)時間；其次分配觀察員負責監(jiān)控來往火車，進行預(yù)警；同時，在重要路口安裝監(jiān)控攝像頭，由人工監(jiān)控等多方面確保鐵路作業(yè)人員的安全。由于中國的鐵路軌道錯綜復(fù)雜，分布廣泛，列車具有較高的行駛速度，同時工作人員存在缺乏專業(yè)素養(yǎng)、操作不當，疏忽大意等現(xiàn)象，鐵路作業(yè)發(fā)生安全事故的情況仍然時有發(fā)生，常常有不知情的非工作人員缺乏安全意識，忽視警戒標識，誤闖誤入鐵路重地，極易發(fā)生重大事故。而我國的鐵路網(wǎng)規(guī)模較大，很難通過人工檢測的方法判斷所有線路是否有行人非法闖入和逗留。因此，為提高鐵路安全性、可靠性，同時節(jié)省人力成本，軌道視頻監(jiān)控系統(tǒng)迫切需要全面的技術(shù)升級和大規(guī)模應(yīng)用，及時判斷檢測警戒區(qū)域內(nèi)是否有行人并判斷行人是否非工作人員，并及時采取相應(yīng)措施。

目前視頻監(jiān)控系統(tǒng)基本采用傳統(tǒng)的目標檢測算法［1］，如Haar特征、HOG特征、SVM算法等。近年來，隨著深度學(xué)習的興起，卷積神經(jīng)網(wǎng)絡(luò)因其模擬人腦視覺處理機制，具有自動學(xué)習樣本特征的特點，在目標檢測，圖像分類等方面取得較好應(yīng)用。卷積神將網(wǎng)絡(luò)中CNN（Convolutional Neural Network）算法表現(xiàn)優(yōu)異［2］，近年來已開展大量相關(guān)研究。Girshick等提出了區(qū)域卷積神經(jīng)網(wǎng)絡(luò)R-CNN［3］，在VOC2012數(shù)據(jù)集上，將目標檢測的平均準確率MAP提升了30%，之后又提出了Fast-RCNN［4］性能進一步提高；而Joseph Redmon提出了YOLO［5］、YOLO9000［6］模型，能夠?qū)δ繕诉M行實時性檢測。

然而，中國幅員遼闊，地勢多變，鐵路沿線錯綜復(fù)雜，往往包含山川、河流、森林、城市等多種場景。這些場景的底層特征如紋理、顏色等都存在較大差異，給任務(wù)帶來了巨大的挑戰(zhàn)。此外，業(yè)界尚不存在公開的數(shù)據(jù)集用于實驗，如果采集的數(shù)據(jù)不均衡，對訓(xùn)練過程會帶來很大的影響［7］，而如果數(shù)據(jù)采集的來源場景單一，缺乏多樣性，直接用原始圖片訓(xùn)練會導(dǎo)致最終結(jié)果的泛化能力不足，影響算法的精確度。

針對上述任務(wù)以及難點，本文提出了一種新的細粒度行人檢測方法，該方法利用該領(lǐng)域大規(guī)模數(shù)據(jù)集，以YOLOV2高性能檢測算法為基礎(chǔ)，引入混合注意力機制，使得算法在特定的場景內(nèi)有著優(yōu)異的表現(xiàn)。

2 算法網(wǎng)絡(luò)架構(gòu)

圖1 基于混合注意力機制深層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，提出的網(wǎng)絡(luò)結(jié)構(gòu)包括三個模塊：1）數(shù)據(jù)增強模塊，采用類別平衡采樣+數(shù)據(jù)增強的方法對不平衡的數(shù)據(jù)集進行擴充，獲得適合深度神經(jīng)網(wǎng)絡(luò)的平衡數(shù)據(jù)集；2）注意力模塊，提出空間注意力模型?？臻g注意力解決卷積操作的全局共享造成的區(qū)域不敏感問題，高效的學(xué)習區(qū)域影響權(quán)重因子；3）目標檢測模塊，采用 keras［8～10］深度學(xué)習框架實現(xiàn)YOLOv2算法，對有人的圖像類別進行了行人檢測實驗。YOLO的訓(xùn)練樣本無需單獨將每類樣本從圖像中裁剪出，而可以直接將整張圖像用于訓(xùn)練［11］。同時，YOLO的樣本標簽不僅注釋樣本類別信息還注釋樣本在圖像中的位置信息。

3 基本模型

3.1 YOLO檢測算法

YOLO屬于CNN，由卷積層、池化層和全連接層組成。與CNN不同的是，YOLO的輸出層不再是Softmax函數(shù)，而是張量（Tensor）。YOLO在處理檢測問題時，其實是轉(zhuǎn)化成了回歸問題解決。YOLO本身是基于一個單獨的end-to-end網(wǎng)絡(luò)，完成從原始圖像的輸入到物體位置和類別的輸出，能夠做到實時的物體檢測，大約能達到40幀每秒。其經(jīng)典框架如圖2所示。

圖2 典型YOLOv2框架

使用YOLO來檢測物體，其流程是非常簡單明了的：

1）將圖像resize到448*448作為神經(jīng)網(wǎng)絡(luò)的輸入；

2）運行神經(jīng)網(wǎng)絡(luò)，得到一些Bounding box坐標、box中包含物體的置信度和class probabilities；

3）進行非極大值抑制［12］，篩選Boxes。

采用卷積網(wǎng)絡(luò)的pooling或者是stride將圖片劃分為S×S的網(wǎng)格。YOLO在預(yù)測目標時，只關(guān)注預(yù)測框的中心點，因此，不用計算所有預(yù)測框的損失函數(shù)。每一個網(wǎng)格中預(yù)測B個Bounding box和confidence score。得到一個物體的中心信息需要保證卷積核把物體的周邊覆蓋住，為此整個網(wǎng)絡(luò)使用ResNet、MobileNet或其他網(wǎng)絡(luò)結(jié)構(gòu)去學(xué)習得到固定大小的卷積核。通過pooling或者步長大于1的卷積層就相當于對圖片進行了一次切割，用小塊去代替大塊的信息。例如，當我們得到了一幅長寬為7，每個格子學(xué)出了一個1024維特征的圖像，就記為7×7×1024，將它通過卷積窗口大小為1×1的卷積核進行全鏈接變換輸出變換矩陣為［S，S，4+1+k］，其中前兩個維度代表了格子的索引號，最后一個維度中4為Bounding box坐標，1為置信度，最后k位代表物體類別的概率分布。

如果每一個網(wǎng)格中有物體存在，那么confidence score 為 Pr（object）*IOUPr（object）*IOU-predtruth，如果不存在物體，則為0。物體的位置用（x，y，w，h）（x，y，w，h）表示，（x，y）（x，y）表示物體的中心位置。每個網(wǎng)格還會預(yù)測C類的可能性Pr（Classi|Object）Pr（Classi|Object）為

通過上式可以得到每類的confidence score。在圖2中，VOC2007模型中，S=7，B=2，總共有20個標簽。所以最終產(chǎn)生7*7*307*7*30的tensor。

在測試過程中，計算檢測邊界框和參考標準框的IOU值，以此判斷結(jié)果中的真正例、假正例和假反例。當 IOU［12］≥ 0.5［13］，為真正例；當 IOU＜0.5時，為假正例。當IOU=0，則為假反例。通過式（2）和式（3），可以得出實驗結(jié)果的查準率和查全：

式中，TP、FP和FN分別為真正例、假正例和假反例的數(shù)量。

由于YOLO需要將圖片分割成許多小網(wǎng)格，對于每個網(wǎng)格來說，當它們包含有多個目標時時算法就很難將全部的對象檢測出來；此外，由于鐵路視野廣闊，常常需要檢測較遠處目標較小的行人，這種情況下YOLO算法的表現(xiàn)也不盡如人意；原始圖片在預(yù)處理過程中需要轉(zhuǎn)化成低分辨率圖片，在經(jīng)過YOLO的層層卷積之后往往也會損失小目標特征。

3.2 注意力模型

考慮到傳統(tǒng)YOLO算法的不足，在本文的模型中加入了空間注意力機制對圖片進行一次分類處理，使用圖像分類主網(wǎng)絡(luò)、空間注意力模型聯(lián)合建模，進行端到端的鐵路行人場景分類。

對于人類而言，圖3所示的圖像中僅有部分區(qū)域所對應(yīng)的視覺內(nèi)容對最終的分類結(jié)果起主導(dǎo)作用。若將圖像均勻分割為16個網(wǎng)格，則區(qū)域3、6、7、11的特征在最終的場景分類計算時應(yīng)具有較大權(quán)重。但是，卷積神經(jīng)網(wǎng)絡(luò)的特征會全局共享，神經(jīng)網(wǎng)絡(luò)中的任意一個濾波核對圖片的所有部分具有相同的權(quán)重參數(shù)，因此，若可以自適應(yīng)的根據(jù)輸入圖片的視覺內(nèi)容的不同區(qū)域賦予不同的權(quán)重，將會進一步提高場景分類的準確率。

圖3 圖像不同空間區(qū)域?qū)鼍胺诸愑绊懯疽鈭D

本文提出了空間注意力模型高效的學(xué)習區(qū)域影響權(quán)重因子解決了不同部分占有不同權(quán)重的問題。模型框架如圖4所示。網(wǎng)絡(luò)的特征輸出為Y，w'*h'*c'分別為矩陣所表示的特征圖的寬、高和通道數(shù)，則空間注意力網(wǎng)絡(luò)輸出H的維度就可以用w'*h'表示，最終具有空間注意力的輸出語義特征Y''的計算公式為

⊙表示按元素相乘，Y()i表示第i個通道的特征圖。式（4）的意義是網(wǎng)絡(luò)特征圖的每一個位置都與空間注意力模型輸出的對應(yīng)影響因子相乘。

采用空間注意力的模型可以有效地對遠距離小體積的目標判斷，這種方式有效的原因在于輸出特征圖的每一個元素都對應(yīng)原始圖片的一塊區(qū)域，這塊區(qū)域也被稱為感受域，因此對于網(wǎng)絡(luò)高層特征圖的每一個位置施加不同的權(quán)重即等價于對原始圖片的不同區(qū)域施加不同的影響因子。

圖4 空間注意力模型

4 實驗及結(jié)果分析

4.1 數(shù)據(jù)集的構(gòu)建

目前尚不存在公開的大規(guī)模數(shù)據(jù)集，本文通過多個鐵路監(jiān)控攝像頭獲取圖片3154張，然后進行人工標注。為進一步增加訓(xùn)練數(shù)據(jù)的多樣性，采用數(shù)據(jù)增強，首先將短邊縮放為224，長邊同比例縮放；隨后從縮放之后的圖片中隨機的裁剪224*244大小的區(qū)域；然后對裁剪之后的圖像進行隨機水平翻轉(zhuǎn)、隨機顏色變化、隨機仿射變換操作增加訓(xùn)練集圖片的多樣性。

4.2 實驗過程

本文總數(shù)據(jù)集為圖片3154張，標記數(shù)據(jù)為圖片410張，訓(xùn)練數(shù)據(jù)為圖片250張，測試數(shù)據(jù)為圖片160張，使用了keras深度學(xué)習框架，訓(xùn)練時優(yōu)化算法采用Adam［14］自適應(yīng)優(yōu)化算法。并且默認驗證集中的損失函數(shù)值趨于最小值時結(jié)束訓(xùn)練。首先通過分割將圖像變?yōu)?24*224*3的彩色圖像作為注意力模塊的網(wǎng)絡(luò)輸入。近來提出的輕量級網(wǎng)絡(luò)雖然占用了更少的內(nèi)存空間增加了運行速率，但是像MobileNet［15］，ShuffleNet［16］這些網(wǎng)絡(luò)均采用了分離卷積的操作。這導(dǎo)致模型在CPU上的運行速度提升不如GPU效果明顯，因此，我們引入了遷移學(xué)習訓(xùn)練模型，增加網(wǎng)絡(luò)的收斂速度。將最后一層神經(jīng)元的個數(shù)設(shè)置為1000，整個網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上進行訓(xùn)練。訓(xùn)練完成后的模型作為模塊所有曾的初始化參數(shù)在本文構(gòu)建的鐵路行人數(shù)據(jù)集上進行二分類訓(xùn)練。得到輸出為代表有人和無人概率的兩個神經(jīng)元。

本文檢測模塊網(wǎng)絡(luò)以YOLOv2網(wǎng)絡(luò)為原型，訓(xùn)練和檢測均是在一個單獨網(wǎng)絡(luò)中進行。其采用RPN（Regions Proposal Network）的思想，去掉全連接層，采用卷積層來預(yù)測目標框的偏移和置信度。使用DurkNET-19進行訓(xùn)練網(wǎng)絡(luò)，DurkNET-19具有與YOLVO2網(wǎng)絡(luò)相同的前19層（直到Conv18_1024），之后加上了 1024個 1×1卷積，使用DurkNET-19網(wǎng)絡(luò)訓(xùn)練可以節(jié)省訓(xùn)練時間并且提高精確度。得到的訓(xùn)練參數(shù)進行初始化網(wǎng)絡(luò)，應(yīng)用到自建的數(shù)據(jù)集中，訓(xùn)練60個epochs，batch_size設(shè)為16，learning_rate為1e-4，Momentum設(shè)為0.9，Decay為0.0005。在訓(xùn)練過程中，采用小批量梯度下降法，當損失函數(shù)趨于極小值時認為訓(xùn)練完成，損失函數(shù)如圖5所示。采用非極大值抑制算法消除多余的檢測框，篩選最佳的Boxes。值得注意的是，anchor box的個數(shù)及各個anchor box的參數(shù)都是固定值，不一定符合自建數(shù)據(jù)集的目標規(guī)格，因此，我們在人工標注的數(shù)據(jù)集中采用了k-means算法對檢測框聚類，重新獲得了5類全新的anchor box。

圖5 損失函數(shù)圖像

4.3 實驗結(jié)果及分析及仿真

表1 實驗結(jié)果對比

圖6 空間注意力模型可視化結(jié)果

從試驗中可以看出，傳統(tǒng)的FasterRCNN算法雖然有著相當高的平均檢測精度，但是每秒檢測幀數(shù)的表現(xiàn)相比于其他算法有著較大的劣勢；相比于傳統(tǒng)的YOLOv2算法，加入attention之后每秒檢測幀數(shù)下降了30，但是平均檢測精度由原來的75.8%上升到79.9%，提高了4.1%個百分點，attention的仿真圖如圖6所示。本文的主網(wǎng)絡(luò)模型僅有60M左右，而在具體場景中，“無人”類別占據(jù)絕大多數(shù)，因此加入attention之后，雖然運行速率有所下降，但是卻可以快速過濾掉大量無人場景的數(shù)據(jù)，從而在一定程度上彌補了多網(wǎng)絡(luò)訓(xùn)練消耗時間的劣勢；而加入數(shù)據(jù)增強技術(shù)以后，每秒檢測幀數(shù)又有了略微的提高，而平均檢測精度在原有的基礎(chǔ)上又提高了2.9個百分點，高達82.8%，超過了FasterRCNN的平均檢測精度。

5 結(jié)語

我們?yōu)榱藢崿F(xiàn)鐵路軌道行人檢測任務(wù)，構(gòu)建了一定規(guī)模的數(shù)據(jù)集，并采用了數(shù)據(jù)增強技術(shù)以提升算法表現(xiàn)；采用YOLOv2算法模型，并且采用了k-means算法重新聚類了anchor box，采用了非極大值抑制（NMS）篩選候選框；由于項目工程實際情況，圖片檢測中“無人”占有相當大的比重，因此又引入了空間注意力機制，先對數(shù)據(jù)集進行一次分類操作，雖然算法速率上有所下降，但是增加了算法精度以及可靠性，而速率的衰減也在可以接受的范圍之內(nèi)。最后采用傳統(tǒng)的SVM分類器對檢測到的行人進行歸類，判斷是否為工作人員。這樣，就將場景分類，目標檢測，檢測結(jié)果分類統(tǒng)一到一個整體的深度學(xué)習框架中，實現(xiàn)了對鐵路軌道行人的細粒度檢測。未來，我將探索如何進一步在保證檢測精度的基礎(chǔ)上提升網(wǎng)絡(luò)訓(xùn)練速度、檢測精度，并且網(wǎng)絡(luò)在識別遠距離、非常規(guī)形態(tài)特殊姿勢的行人目標時表現(xiàn)仍然有所欠缺，這也是未來的研究方向和重點難點。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡