劉家輝 胡廣朋 王申宇 劉 暢 覃 源 程 科
(1.江蘇科技大學(xué)計算機學(xué)院 鎮(zhèn)江 212003)(2.中鐵隧道集團三處有限公司 深圳 518051)
高速鐵路的發(fā)展帶來了巨大的便利,鐵路事業(yè)高速發(fā)展的同時,鐵路安全問題也值得關(guān)注。國內(nèi)現(xiàn)有的鐵路安全,主要是依靠視頻監(jiān)控和人工巡檢相結(jié)合的方法。當有工作人員在鐵路軌道上作業(yè)時,首先由當?shù)卣{(diào)度員提供安全作業(yè)時間;其次分配觀察員負責監(jiān)控來往火車,進行預(yù)警;同時,在重要路口安裝監(jiān)控攝像頭,由人工監(jiān)控等多方面確保鐵路作業(yè)人員的安全。由于中國的鐵路軌道錯綜復(fù)雜,分布廣泛,列車具有較高的行駛速度,同時工作人員存在缺乏專業(yè)素養(yǎng)、操作不當,疏忽大意等現(xiàn)象,鐵路作業(yè)發(fā)生安全事故的情況仍然時有發(fā)生,常常有不知情的非工作人員缺乏安全意識,忽視警戒標識,誤闖誤入鐵路重地,極易發(fā)生重大事故。而我國的鐵路網(wǎng)規(guī)模較大,很難通過人工檢測的方法判斷所有線路是否有行人非法闖入和逗留。因此,為提高鐵路安全性、可靠性,同時節(jié)省人力成本,軌道視頻監(jiān)控系統(tǒng)迫切需要全面的技術(shù)升級和大規(guī)模應(yīng)用,及時判斷檢測警戒區(qū)域內(nèi)是否有行人并判斷行人是否非工作人員,并及時采取相應(yīng)措施。
目前視頻監(jiān)控系統(tǒng)基本采用傳統(tǒng)的目標檢測算法[1],如Haar特征、HOG特征、SVM算法等。近年來,隨著深度學(xué)習的興起,卷積神經(jīng)網(wǎng)絡(luò)因其模擬人腦視覺處理機制,具有自動學(xué)習樣本特征的特點,在目標檢測,圖像分類等方面取得較好應(yīng)用。卷積神將網(wǎng)絡(luò)中CNN(Convolutional Neural Network)算法表現(xiàn)優(yōu)異[2],近年來已開展大量相關(guān)研究。Girshick等提出了區(qū)域卷積神經(jīng)網(wǎng)絡(luò)R-CNN[3],在VOC2012數(shù)據(jù)集上,將目標檢測的平均準確率MAP提升了30%,之后又提出了Fast-RCNN[4]性能進一步提高;而Joseph Redmon提出了YOLO[5]、YOLO9000[6]模型,能夠?qū)δ繕诉M行實時性檢測。
然而,中國幅員遼闊,地勢多變,鐵路沿線錯綜復(fù)雜,往往包含山川、河流、森林、城市等多種場景。這些場景的底層特征如紋理、顏色等都存在較大差異,給任務(wù)帶來了巨大的挑戰(zhàn)。此外,業(yè)界尚不存在公開的數(shù)據(jù)集用于實驗,如果采集的數(shù)據(jù)不均衡,對訓(xùn)練過程會帶來很大的影響[7],而如果數(shù)據(jù)采集的來源場景單一,缺乏多樣性,直接用原始圖片訓(xùn)練會導(dǎo)致最終結(jié)果的泛化能力不足,影響算法的精確度。
針對上述任務(wù)以及難點,本文提出了一種新的細粒度行人檢測方法,該方法利用該領(lǐng)域大規(guī)模數(shù)據(jù)集,以YOLOV2高性能檢測算法為基礎(chǔ),引入混合注意力機制,使得算法在特定的場景內(nèi)有著優(yōu)異的表現(xiàn)。
圖1 基于混合注意力機制深層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,提出的網(wǎng)絡(luò)結(jié)構(gòu)包括三個模塊:1)數(shù)據(jù)增強模塊,采用類別平衡采樣+數(shù)據(jù)增強的方法對不平衡的數(shù)據(jù)集進行擴充,獲得適合深度神經(jīng)網(wǎng)絡(luò)的平衡數(shù)據(jù)集;2)注意力模塊,提出空間注意力模型??臻g注意力解決卷積操作的全局共享造成的區(qū)域不敏感問題,高效的學(xué)習區(qū)域影響權(quán)重因子;3)目標檢測模塊,采用 keras[8~10]深度學(xué)習框架實現(xiàn)YOLOv2算法,對有人的圖像類別進行了行人檢測實驗。YOLO的訓(xùn)練樣本無需單獨將每類樣本從圖像中裁剪出,而可以直接將整張圖像用于訓(xùn)練[11]。同時,YOLO的樣本標簽不僅注釋樣本類別信息還注釋樣本在圖像中的位置信息。
YOLO屬于CNN,由卷積層、池化層和全連接層組成。與CNN不同的是,YOLO的輸出層不再是Softmax函數(shù),而是張量(Tensor)。YOLO在處理檢測問題時,其實是轉(zhuǎn)化成了回歸問題解決。YOLO本身是基于一個單獨的end-to-end網(wǎng)絡(luò),完成從原始圖像的輸入到物體位置和類別的輸出,能夠做到實時的物體檢測,大約能達到40幀每秒。其經(jīng)典框架如圖2所示。
圖2 典型YOLOv2框架
使用YOLO來檢測物體,其流程是非常簡單明了的:
1)將圖像resize到448*448作為神經(jīng)網(wǎng)絡(luò)的輸入;
2)運行神經(jīng)網(wǎng)絡(luò),得到一些Bounding box坐標、box中包含物體的置信度和class probabilities;
3)進行非極大值抑制[12],篩選Boxes。
采用卷積網(wǎng)絡(luò)的pooling或者是stride將圖片劃分為S×S的網(wǎng)格。YOLO在預(yù)測目標時,只關(guān)注預(yù)測框的中心點,因此,不用計算所有預(yù)測框的損失函數(shù)。每一個網(wǎng)格中預(yù)測B個Bounding box和confidence score。得到一個物體的中心信息需要保證卷積核把物體的周邊覆蓋住,為此整個網(wǎng)絡(luò)使用ResNet、MobileNet或其他網(wǎng)絡(luò)結(jié)構(gòu)去學(xué)習得到固定大小的卷積核。通過pooling或者步長大于1的卷積層就相當于對圖片進行了一次切割,用小塊去代替大塊的信息。例如,當我們得到了一幅長寬為7,每個格子學(xué)出了一個1024維特征的圖像,就記為7×7×1024,將它通過卷積窗口大小為1×1的卷積核進行全鏈接變換輸出變換矩陣為[S,S,4+1+k],其中前兩個維度代表了格子的索引號,最后一個維度中4為Bounding box坐標,1為置信度,最后k位代表物體類別的概率分布。
如果每一個網(wǎng)格中有物體存在,那么confidence score 為 Pr(object)*IOUPr(object)*IOU-predtruth,如果不存在物體,則為0。物體的位置用(x,y,w,h)(x,y,w,h)表示,(x,y)(x,y)表示物體的中心位置。每個網(wǎng)格還會預(yù)測C類的可能性Pr(Classi|Object)Pr(Classi|Object)為
通過上式可以得到每類的confidence score。在圖2中,VOC2007模型中,S=7,B=2,總共有20個標簽。所以最終產(chǎn)生7*7*307*7*30的tensor。
在測試過程中,計算檢測邊界框和參考標準框的IOU值,以此判斷結(jié)果中的真正例、假正例和假反例。當 IOU[12]≥ 0.5[13],為真正例;當 IOU<0.5時,為假正例。當IOU=0,則為假反例。通過式(2)和式(3),可以得出實驗結(jié)果的查準率和查全:
式中,TP、FP和FN分別為真正例、假正例和假反例的數(shù)量。
由于YOLO需要將圖片分割成許多小網(wǎng)格,對于每個網(wǎng)格來說,當它們包含有多個目標時時算法就很難將全部的對象檢測出來;此外,由于鐵路視野廣闊,常常需要檢測較遠處目標較小的行人,這種情況下YOLO算法的表現(xiàn)也不盡如人意;原始圖片在預(yù)處理過程中需要轉(zhuǎn)化成低分辨率圖片,在經(jīng)過YOLO的層層卷積之后往往也會損失小目標特征。
考慮到傳統(tǒng)YOLO算法的不足,在本文的模型中加入了空間注意力機制對圖片進行一次分類處理,使用圖像分類主網(wǎng)絡(luò)、空間注意力模型聯(lián)合建模,進行端到端的鐵路行人場景分類。
對于人類而言,圖3所示的圖像中僅有部分區(qū)域所對應(yīng)的視覺內(nèi)容對最終的分類結(jié)果起主導(dǎo)作用。若將圖像均勻分割為16個網(wǎng)格,則區(qū)域3、6、7、11的特征在最終的場景分類計算時應(yīng)具有較大權(quán)重。但是,卷積神經(jīng)網(wǎng)絡(luò)的特征會全局共享,神經(jīng)網(wǎng)絡(luò)中的任意一個濾波核對圖片的所有部分具有相同的權(quán)重參數(shù),因此,若可以自適應(yīng)的根據(jù)輸入圖片的視覺內(nèi)容的不同區(qū)域賦予不同的權(quán)重,將會進一步提高場景分類的準確率。
圖3 圖像不同空間區(qū)域?qū)鼍胺诸愑绊懯疽鈭D
本文提出了空間注意力模型高效的學(xué)習區(qū)域影響權(quán)重因子解決了不同部分占有不同權(quán)重的問題。模型框架如圖4所示。網(wǎng)絡(luò)的特征輸出為Y,w'*h'*c'分別為矩陣所表示的特征圖的寬、高和通道數(shù),則空間注意力網(wǎng)絡(luò)輸出H的維度就可以用w'*h'表示,最終具有空間注意力的輸出語義特征Y''的計算公式為
⊙表示按元素相乘,Y()i表示第i個通道的特征圖。式(4)的意義是網(wǎng)絡(luò)特征圖的每一個位置都與空間注意力模型輸出的對應(yīng)影響因子相乘。
采用空間注意力的模型可以有效地對遠距離小體積的目標判斷,這種方式有效的原因在于輸出特征圖的每一個元素都對應(yīng)原始圖片的一塊區(qū)域,這塊區(qū)域也被稱為感受域,因此對于網(wǎng)絡(luò)高層特征圖的每一個位置施加不同的權(quán)重即等價于對原始圖片的不同區(qū)域施加不同的影響因子。
圖4 空間注意力模型
目前尚不存在公開的大規(guī)模數(shù)據(jù)集,本文通過多個鐵路監(jiān)控攝像頭獲取圖片3154張,然后進行人工標注。為進一步增加訓(xùn)練數(shù)據(jù)的多樣性,采用數(shù)據(jù)增強,首先將短邊縮放為224,長邊同比例縮放;隨后從縮放之后的圖片中隨機的裁剪224*244大小的區(qū)域;然后對裁剪之后的圖像進行隨機水平翻轉(zhuǎn)、隨機顏色變化、隨機仿射變換操作增加訓(xùn)練集圖片的多樣性。
本文總數(shù)據(jù)集為圖片3154張,標記數(shù)據(jù)為圖片410張,訓(xùn)練數(shù)據(jù)為圖片250張,測試數(shù)據(jù)為圖片160張,使用了keras深度學(xué)習框架,訓(xùn)練時優(yōu)化算法采用Adam[14]自適應(yīng)優(yōu)化算法。并且默認驗證集中的損失函數(shù)值趨于最小值時結(jié)束訓(xùn)練。首先通過分割將圖像變?yōu)?24*224*3的彩色圖像作為注意力模塊的網(wǎng)絡(luò)輸入。近來提出的輕量級網(wǎng)絡(luò)雖然占用了更少的內(nèi)存空間增加了運行速率,但是像MobileNet[15],ShuffleNet[16]這些網(wǎng)絡(luò)均采用了分離卷積的操作。這導(dǎo)致模型在CPU上的運行速度提升不如GPU效果明顯,因此,我們引入了遷移學(xué)習訓(xùn)練模型,增加網(wǎng)絡(luò)的收斂速度。將最后一層神經(jīng)元的個數(shù)設(shè)置為1000,整個網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上進行訓(xùn)練。訓(xùn)練完成后的模型作為模塊所有曾的初始化參數(shù)在本文構(gòu)建的鐵路行人數(shù)據(jù)集上進行二分類訓(xùn)練。得到輸出為代表有人和無人概率的兩個神經(jīng)元。
本文檢測模塊網(wǎng)絡(luò)以YOLOv2網(wǎng)絡(luò)為原型,訓(xùn)練和檢測均是在一個單獨網(wǎng)絡(luò)中進行。其采用RPN(Regions Proposal Network)的思想,去掉全連接層,采用卷積層來預(yù)測目標框的偏移和置信度。使用DurkNET-19進行訓(xùn)練網(wǎng)絡(luò),DurkNET-19具有與YOLVO2網(wǎng)絡(luò)相同的前19層(直到Conv18_1024),之后加上了 1024個 1×1卷積,使用DurkNET-19網(wǎng)絡(luò)訓(xùn)練可以節(jié)省訓(xùn)練時間并且提高精確度。得到的訓(xùn)練參數(shù)進行初始化網(wǎng)絡(luò),應(yīng)用到自建的數(shù)據(jù)集中,訓(xùn)練60個epochs,batch_size設(shè)為16,learning_rate為1e-4,Momentum設(shè)為0.9,Decay為0.0005。在訓(xùn)練過程中,采用小批量梯度下降法,當損失函數(shù)趨于極小值時認為訓(xùn)練完成,損失函數(shù)如圖5所示。采用非極大值抑制算法消除多余的檢測框,篩選最佳的Boxes。值得注意的是,anchor box的個數(shù)及各個anchor box的參數(shù)都是固定值,不一定符合自建數(shù)據(jù)集的目標規(guī)格,因此,我們在人工標注的數(shù)據(jù)集中采用了k-means算法對檢測框聚類,重新獲得了5類全新的anchor box。
圖5 損失函數(shù)圖像
表1 實驗結(jié)果對比
圖6 空間注意力模型可視化結(jié)果
從試驗中可以看出,傳統(tǒng)的FasterRCNN算法雖然有著相當高的平均檢測精度,但是每秒檢測幀數(shù)的表現(xiàn)相比于其他算法有著較大的劣勢;相比于傳統(tǒng)的YOLOv2算法,加入attention之后每秒檢測幀數(shù)下降了30,但是平均檢測精度由原來的75.8%上升到79.9%,提高了4.1%個百分點,attention的仿真圖如圖6所示。本文的主網(wǎng)絡(luò)模型僅有60M左右,而在具體場景中,“無人”類別占據(jù)絕大多數(shù),因此加入attention之后,雖然運行速率有所下降,但是卻可以快速過濾掉大量無人場景的數(shù)據(jù),從而在一定程度上彌補了多網(wǎng)絡(luò)訓(xùn)練消耗時間的劣勢;而加入數(shù)據(jù)增強技術(shù)以后,每秒檢測幀數(shù)又有了略微的提高,而平均檢測精度在原有的基礎(chǔ)上又提高了2.9個百分點,高達82.8%,超過了FasterRCNN的平均檢測精度。
我們?yōu)榱藢崿F(xiàn)鐵路軌道行人檢測任務(wù),構(gòu)建了一定規(guī)模的數(shù)據(jù)集,并采用了數(shù)據(jù)增強技術(shù)以提升算法表現(xiàn);采用YOLOv2算法模型,并且采用了k-means算法重新聚類了anchor box,采用了非極大值抑制(NMS)篩選候選框;由于項目工程實際情況,圖片檢測中“無人”占有相當大的比重,因此又引入了空間注意力機制,先對數(shù)據(jù)集進行一次分類操作,雖然算法速率上有所下降,但是增加了算法精度以及可靠性,而速率的衰減也在可以接受的范圍之內(nèi)。最后采用傳統(tǒng)的SVM分類器對檢測到的行人進行歸類,判斷是否為工作人員。這樣,就將場景分類,目標檢測,檢測結(jié)果分類統(tǒng)一到一個整體的深度學(xué)習框架中,實現(xiàn)了對鐵路軌道行人的細粒度檢測。未來,我將探索如何進一步在保證檢測精度的基礎(chǔ)上提升網(wǎng)絡(luò)訓(xùn)練速度、檢測精度,并且網(wǎng)絡(luò)在識別遠距離、非常規(guī)形態(tài)特殊姿勢的行人目標時表現(xiàn)仍然有所欠缺,這也是未來的研究方向和重點難點。