李 輝,周 航,董 燕,張淑軍
(青島科技大學信息科學技術(shù)學院,山東 青島 266061)
電力行業(yè)是國家經(jīng)濟發(fā)展的基礎(chǔ)行業(yè)、支柱行業(yè)。為保證電力系統(tǒng)的正常運行,電網(wǎng)公司逐步加大了智能電網(wǎng)建設(shè)以及安全運營方面的投入。然而,輸電線路多鋪設(shè)在野外,具有距離長、高空高危、地理條件和氣象氣候條件復(fù)雜等特點,使得日常巡檢工作依舊存在著較多問題[1-3]。原有的人工巡檢方式受主觀因素影響較大,巡檢周期長且難以保證結(jié)果準確無誤,而且會耗費大量的人力財力和物力,同時也不能做到實時在線檢測,效率很低,已經(jīng)無法滿足當下的客觀需求。無人機和巡檢機器人技術(shù)尚未成熟,采用這些方法反而對輸電線路帶來較多的安全隱患。因此,從監(jiān)控的角度保證電力系統(tǒng)的安全穩(wěn)定運行是非常值得研究的方向。在監(jiān)控視頻中迅速發(fā)現(xiàn)異常,檢測出各種異常目標,就能夠快速預(yù)警防患未然。因此,輸電線路異常目標檢測能夠預(yù)防和減少事故發(fā)生,對提高輸電系統(tǒng)安全性、穩(wěn)定性起到十分重要的作用。
由于輸電線路場景復(fù)雜、受氣象氣候因素影響大、目標尺度變化大,當前很少有針對輸電線路場景的檢測方法,已有的傳統(tǒng)檢測方法如HOG+SVM、DPM、AdaBoost等[4-5],需人工提取特征對目標進行識別,高壓輸電線路場景中的異常目標種類多且不確定,因而會造成適應(yīng)性、魯棒性差。而基于深度學習目標檢測方法,目標特征則是通過神經(jīng)網(wǎng)絡(luò)自動提取,所提取的特征針對不同物體各不相同,具有表達能力強的優(yōu)勢[6-7]。
R-CNN[8]是第一個引入神經(jīng)網(wǎng)絡(luò)的目標檢測的方法,首先使用選擇性搜索在原始圖像上獲取建議區(qū)域,然后按建議區(qū)域裁剪原圖再縮放到固定尺寸送入卷積神經(jīng)網(wǎng)絡(luò)提取特征,最后用SVM進行分類和邊界框預(yù)測。R-CNN中要對每個建議區(qū)域提取特征,這些區(qū)域通常存在大量重疊,因此存在大量的計算冗余。Fast R-CNN[9]先對整張圖片進行卷積得到特征圖,再按建議區(qū)域?qū)ζ溥M行裁剪,然后經(jīng)過興趣池化層變成尺寸相同的特征圖,送入全連接網(wǎng)絡(luò)中進行預(yù)測,使得訓練速度得到提升,但使用的選擇性搜索仍然十分耗費時間。Faster R-CNN[10]將選擇性搜索改為區(qū)域建議網(wǎng)絡(luò),成為了端到端的訓練框架。Cascade R-CNN[11]針對Faster R-CNN僅有一個目標檢測器,從而導(dǎo)致部分檢測性能不高的問題,將目標檢測器級聯(lián),逐步改善預(yù)測質(zhì)量。該框架是目前目標檢測性能較優(yōu)秀的框架,故而選用其作為輸電線路異常目標檢測的框架。但是上述方法采用ResNet[12]網(wǎng)絡(luò)進行特征提取,特征表達不夠精細。Mask R-CNN[13]將目標檢測及實例分割相結(jié)合,用一個統(tǒng)一的框架同時完成2個任務(wù),但實例分割標注比較復(fù)雜,需要較為費時的人工標注,成本過高。YOLO[14]算法采用一個單獨的CNN模型實現(xiàn)端到端的目標檢測,速度快但精度低。YOLOv2[15]、YOLOv3[16]則是在YOLO的基礎(chǔ)上加入錨框,提高了性能但降低了速度。然而,輸電線路目標檢測雖然對實時性有一定要求,但需要較高的異常目標檢測性能為系統(tǒng)提供預(yù)警和決策支持。
因此,輸電線路場景的異常目標存在尺度變化大,部分目標樣本少(如異物)、無明確邊界(如煙火)等現(xiàn)象,而現(xiàn)有深度網(wǎng)絡(luò)并未針對輸電線路場景進行有效設(shè)計,所提取的特征表達不夠充分,造成檢測方法缺乏魯棒性。針對上述問題,本文以輸電線路監(jiān)測現(xiàn)場的視頻圖像為研究對象,采用HRNet[17]改進主干網(wǎng)絡(luò),結(jié)合HRFPN融合多尺度特征,通過均衡RPN[18]階段產(chǎn)生的正負錨點比例,使用級聯(lián)的目標檢測器實現(xiàn)輸電線路異常目標檢測。
針對高壓輸電線路監(jiān)測圖像,本文提出一種面向輸電線路的異常目標檢測方法,首先使用HRNet提取高分辨率特征,結(jié)合HRFPN融合多尺度特征獲得目標高質(zhì)量的特征表示。然后在RPN中均衡正負錨點數(shù)量并進行興趣池化,得到相同大小特征圖。最后采用級聯(lián)的目標檢測器實現(xiàn)多目標檢測。輸電線路異常目標檢測方法技術(shù)路線如圖1所示。
圖1 輸電線路異常目標檢測方法示意圖
目標檢測首先需要得到用于描述目標的特征來表示不同的目標。不同類別的特征差別應(yīng)較大,才能較好地區(qū)分不同的目標,特征表示的優(yōu)劣對目標檢測非常關(guān)鍵。而卷積神經(jīng)網(wǎng)絡(luò)可以對輸入圖片提取出特征,網(wǎng)絡(luò)不同層級得到的特征不同,淺層特征傾向于目標的表觀信息,深層特征傾向于物體語義信息。因此,本文充分利用淺層的表觀信息和深層的語義信息,主要包括HRNet高分辨率特征提取、HRFPN高分辨率特征信息融合。
1)HRNet高分辨率特征提取。在目標檢測網(wǎng)絡(luò)中,多采用ResNet作為主干網(wǎng)絡(luò)與FPN結(jié)合進行多尺度特征提取,ResNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。但ResNet網(wǎng)絡(luò)只得到不同層級的特征,并未進行不同層級信息的融合,僅依靠結(jié)合FPN[18]從高層向低層方向進行融合,限制了目標檢測器的性能進一步的提升。本文采用HRNet作為主干網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠在整個過程中維護高分辨率的表示,其結(jié)構(gòu)如圖3所示,從高分辨率子網(wǎng)作為第一階段開始,逐步增加高分辨率到低分辨率的子網(wǎng),形成更多的階段,并將多分辨率子網(wǎng)并行連接。在整個過程中,通過在并行的多分辨率子網(wǎng)絡(luò)上反復(fù)交換信息來進行多分辨率的重復(fù)融合,因此,用HRNet輸出的不僅包含高層語義信息,同時也融合了低層表觀信息。
圖2 ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖
圖3 HRNet結(jié)構(gòu)示意圖
2)HRFPN高分辨率特征融合。在傳統(tǒng)的FPN中,F(xiàn)PN是將ResNet在不同層級輸出的特征,各自通過一層1×1的卷積降低通道數(shù),由高層到低層依次放大2倍后相加,在每個低層上實現(xiàn)與上一層的語義相融合。與FPN只單向融合多尺度特征的方法不同,HRFPN能夠得到更高質(zhì)量的特征,如圖4所示。HRFPN先將各層的特征圖用雙線性上采樣到與最大的特征圖相一致的尺度,拼接到一起形成一張新的特征圖,然后將特征圖依次池化成不同尺度的特征圖即可。提出的檢測方法是在4個尺度上預(yù)測,因此還需3個池化層獲得不同尺度的特征圖,池化層卷積核大小依次是[2, 4, 8],池化層步長與池化層卷積核大小相對應(yīng),依次也是[2, 4, 8]。
圖4 FPN與HRFPN過程對比圖
對HRFPN得到的特征圖,輸入到RPN網(wǎng)絡(luò),在每個層級中,使用滑動的錨點anchors來生成興趣區(qū)域,根據(jù)區(qū)域得分和回歸位置,裁剪得到多尺度的感興趣區(qū)域ROIs。此階段的損失函數(shù)如式(1):
(1)
(2)
其中,參數(shù)x是預(yù)測結(jié)果與真實值的差。
在RPN網(wǎng)絡(luò)中,根據(jù)anchors與目標真實區(qū)域的交并比(IoU),把錨點區(qū)域分為正錨點和負錨點。然而,當輸入的圖片中只有小尺度目標,并且目標的數(shù)量也比較少的情況下,通過RPN區(qū)域建議網(wǎng)絡(luò)得到的負錨點的數(shù)量會遠高于正錨點,這會讓網(wǎng)絡(luò)提取到較多的背景語義信息,卻忽視了對于前景目標的特征提取,從而使訓練得到的目標檢測器更加偏向于對背景的識別,并減弱了對前景目標的識別,進而對最終的目標檢測器造成干擾?;谶@個問題,本文的檢測方法隨機去除部分負錨點,使其數(shù)量不超過正錨點的3倍,進一步均衡了RPN階段產(chǎn)生的正負anchors的數(shù)量比例,防止因為其懸殊的差距而影響到最終的目標檢測,從而提高目標檢測網(wǎng)絡(luò)的性能。
對興趣池化后的特征圖,使用級聯(lián)的目標檢測器進行分類和邊界框回歸,得到預(yù)測目標的類別及相應(yīng)邊界框的位置。所謂的級聯(lián)就是使用3個結(jié)構(gòu)相同但參數(shù)不同的目標檢測器,并將前一級目標檢測器的邊界框預(yù)測結(jié)果作為新的RPN建議區(qū)域,再根據(jù)其來重新裁剪特征圖,最后將裁剪后的特征圖輸入到下一級目標檢測器。級聯(lián)目標檢測器在訓練時累計每個目標檢測器的損失,其中每個目標檢測器組成如圖5所示,由3個部分組成:1)第一部分為卷積層,這組卷積層將特征進一步融合;2)第二部分由全連接層組成,接收第一部分生成的特征,得出預(yù)測的各類別概率,訓練時使用softmax測量損失;3)第三部分也由全連接層組成,接收第一部分生成的特征,但預(yù)測的是邊界框的位置,并且與第二部分的全連接層不共享參數(shù),訓練時使用smoothL1來測量損失。
圖5 級聯(lián)的目標檢測器
為了驗證本文方法的有效性,實驗主要分析高分辨率特征的提取與融合、混合興趣池化對異常目標檢測性能的影響,采用相同的輸電線路數(shù)據(jù)進行測試,對Faster R-CNN、Cascade R-CNN和本文方法進行對比。
本文實驗使用的Linux系統(tǒng)版本是Ubuntu 16.04,服務(wù)器的硬件配置如下:CPU使用的是Intel? Xeon? CPU E5-2678 v3 @ 2.50 GHz×2,GPU使用的是NVIDIA GeForce GTX 1080 Ti ×2,內(nèi)存為32 GB。本實驗使用的深度學習框架是PyTroch,為了提高GPU利用率,使用了CUDA 8.0以及cuDNN 6.0,同時使用nccl v2作為GPU間的通信方案。在實驗中所使用的Python庫為Anaconda 3,Python版本為3.6。實驗數(shù)據(jù)集是來自電網(wǎng)輸電線路監(jiān)控平臺實際環(huán)境采集的數(shù)據(jù),共有3650張圖片,根據(jù)電網(wǎng)公司需求,認定的異常目標分為5類,分別是施工機械、塔吊、吊車、煙火、導(dǎo)線異物,按4:1的比例將數(shù)據(jù)集劃分為訓練集和測試集2部分,每輪用訓練集訓練后再用測試集測試。
使用的優(yōu)化器類型為隨機梯度下降優(yōu)化,學習率為0.02,沖量為0.9,權(quán)重衰減為0.0001,訓練的epoch為75。為了統(tǒng)一尺寸、增加數(shù)據(jù)量以及保持訓練穩(wěn)定,對輸入圖像預(yù)處理如下:1)圖像縮放到1280×960;2)對輸入圖像進行翻轉(zhuǎn);3)按ImageNet數(shù)據(jù)集的標準,將圖像按照均值[123.675, 116.28, 103.53],方差[58.395, 57.12, 57.375]進行標準化。
將訓練數(shù)據(jù)作為網(wǎng)絡(luò)的輸入,進行神經(jīng)網(wǎng)絡(luò)的訓練,用matplotlib與tensorboardx來進行可視化,網(wǎng)絡(luò)中每輪訓練后的總損失值如圖6所示。
圖6 神經(jīng)網(wǎng)絡(luò)總體的損失值
實驗中各個神經(jīng)網(wǎng)絡(luò)的總體損失值變化如圖6所示,可以看到,隨著訓練迭代次數(shù)的增加,整個神經(jīng)網(wǎng)絡(luò)總體損失值下降,由此可知組合的神經(jīng)網(wǎng)絡(luò)能夠正常訓練。由于Cascade R-CNN和本文方法均有多個目標檢測器,總體的損失要高于使用單個目標檢測器的Faster R-CNN。值得注意的是,在使用Cascade R-CNN架構(gòu)后,觸發(fā)了momentum的特性,在訓練前期損失值有一定的上升,這是正?,F(xiàn)象,此后隨著訓練進行,損失開始下降。
訓練過程中,神經(jīng)網(wǎng)絡(luò)每輪訓練后的精度如圖7所示,單純使用Faster R-CNN進行檢測并不能較好地完成識別任務(wù)。分析其中精度較低的類別特性后,分別采用高分辨率特征網(wǎng)絡(luò)和級聯(lián)的目標檢測器,檢測精度有一定的提升。本文方法不僅采用級聯(lián)的檢測器,而且采用HRNet作為主干網(wǎng)絡(luò),替換掉原始的ResNet,使得檢測精度有了進一步提高,優(yōu)于前面提及的檢測方法。
圖7 神經(jīng)網(wǎng)絡(luò)每輪訓練后的精度
圖8為輸入的檢測圖片,圖9為該檢測圖片輸入網(wǎng)絡(luò)后2種主干網(wǎng)絡(luò)的特征圖對比。前2列采用的主干網(wǎng)絡(luò)組合是:ResNet+FPN,后2列是本文采用的主干網(wǎng)絡(luò)組合:HRNet+ HRFPN,從2種主干網(wǎng)絡(luò)提取的特征可以看出,低層特征圖表示的都是局部細節(jié),高層特征圖表示的都是物體大區(qū)域。對于主干網(wǎng)絡(luò)提取的特征,希望低層特征盡可能保留有用的細節(jié),高層特征盡可能是抽象語義。在低層特征圖上,ResNet基本上將局部的細節(jié)表示出來,而HRNet會融合高層的語義信息,產(chǎn)生的細節(jié)特征噪聲更少,更加清晰。在高層特征圖上,ResNet生成的語義特征仍然包含大量的細節(jié),而HRNet會融合低層的細節(jié)信息,將細節(jié)從中去除,生成更加干凈的抽象語義信息。因此,高低層特征相互融合的HRNet比依次提取特征的ResNet能夠生成更好的特征。
對于FPN和HRFPN生成的特征,目標檢測將會從高分辨率的特征圖上尋找小物體,從低分辨率特征圖上尋找大物體??梢钥闯?,在高分辨率特征圖上,F(xiàn)PN會強調(diào)大物體語義,HRFPN則會專注局部細節(jié),在低分辨率特征圖上,F(xiàn)PN強調(diào)語義過于抽象,HRFPN大物體的細節(jié)也能表示出來。
圖8 輸入的檢測圖片
圖9 2種主干網(wǎng)絡(luò)的特征圖對比
表1為5種異常目標檢測精度對比。實驗首先選用Faster R-CNN作為基線模型,可以看出其有一定的作用,不過對于煙火和導(dǎo)線異物這2個類別,精度并不是很好。其原因分別是:煙火是沒有明確邊界的,難以確定其邊界框;而線路異物則是由于樣本數(shù)量過少,即使使用了數(shù)據(jù)增廣,精度提升效果有限。針對以上問題,分別使用級聯(lián)的目標檢測器和高分辨率網(wǎng)絡(luò)進行提升,最后將二者相融合。實驗結(jié)果如下:1)通過高分辨率特征信息融合,各類的精度有了一定的提升,尤其是小樣本的線路異物,HRNet能夠充分地學習出其特征,此類檢測精度提高14%;2)在引入3個級聯(lián)的目標檢測器后,整體上各類的精度有了提升,特別是煙火的精度,通過級聯(lián)逐步估計煙火難以界定的邊界框,使得這一類提升達10%以上;3)最后將兩者相融合,由于兩者的相互補充,最后的精度達到0.777,高于之前的任何一個模型。
圖10~圖14為5種異常目標的部分檢測結(jié)果,可以看出本文的檢測方法在輸電線路復(fù)雜場景下,對不同尺度目標具有較好的檢測性能。
表1 5種異常目標檢測精度對比
圖10 施工機械部分檢測結(jié)果
圖11 塔吊部分檢測結(jié)果
圖12 吊車部分檢測結(jié)果
圖13 煙火部分檢測結(jié)果
圖14 導(dǎo)線異物部分檢測結(jié)果
本文對神經(jīng)網(wǎng)絡(luò)的主干網(wǎng)絡(luò)、特征提取、RPN、檢測器等部分進行了一系列的優(yōu)化改進,提出高分辨率特征信息融合的異常目標檢測方法,從而實現(xiàn)對輸電線路異常目標的高質(zhì)量檢測。主要貢獻如下:1)采用HRNet改進主干網(wǎng)絡(luò)提取高分辨率特征,并結(jié)合HRFPN進行多尺度特征信息融合,獲得目標高質(zhì)量的特征表示;2)平衡RPN階段產(chǎn)生的正負錨點的數(shù)量,均衡學習目標與背景的特征;3)采用級聯(lián)的目標檢測器進行分類和邊界框回歸,進一步提高目標檢測性能。將本文提出的方法用于電網(wǎng)輸電線路監(jiān)控環(huán)境采集的數(shù)據(jù)集上,實現(xiàn)了高于使用Faster R-CNN(NIPS15[10])、Cascade R-CNN(CVPR18[11])進行異常目標檢測的實驗結(jié)果。
然而,目前輸電線路監(jiān)測系統(tǒng)實際場景中出現(xiàn)的異常目標情況的不確定,造成煙火和導(dǎo)線異物類別的樣本數(shù)量少,影響該類別的檢測精度,未來可考慮引入目標上下文信息進一步改善特征提取質(zhì)量[21],以及使用OHEM[22]和focal loss[23]來提高檢測性能。