郭敬東,李曉林
(1.福建省電力有限公司電力科學(xué)研究院 福建省高供電可靠性配電技術(shù)企業(yè)重點(diǎn)實(shí)驗(yàn)室, 福建 福州 350007;2.武漢工程大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205)
根據(jù)電力作業(yè)規(guī)范,工作人員必須配戴安全帽、護(hù)目鏡和絕緣手套等[1]。但工作人員常未按要求進(jìn)行電力施工,存在重大安全隱患。傳統(tǒng)的安監(jiān)方法是用人工來(lái)實(shí)時(shí)查看監(jiān)控圖像中工作人員在工作現(xiàn)場(chǎng)是否安全施工,排除安全隱患。這種方式需要大量的專職監(jiān)管人員長(zhǎng)時(shí)間不間斷地關(guān)注視頻。由于視覺(jué)疲勞的原因,工作人員不可能長(zhǎng)時(shí)間目不轉(zhuǎn)睛地盯著顯示屏幕。這種人為疏忽可能造成重大安全事故隱患[2,3]。因此,利用計(jì)算機(jī)視覺(jué)算法實(shí)時(shí)檢測(cè)這種違規(guī)行為,成為最有應(yīng)用價(jià)值的方法之一。但是,低分辨率目標(biāo)(其高或?qū)捑∮?0像素)與傳統(tǒng)高分辨率目標(biāo)檢測(cè)不同。目標(biāo)檢測(cè)算法隨著目標(biāo)尺度的變小,性能會(huì)急劇下降[5]。為了能夠準(zhǔn)確地檢測(cè)電力工作現(xiàn)場(chǎng)的極低分辨率的小目標(biāo)(例如安全帽和護(hù)目鏡),本文提出了一種面向電力系統(tǒng)智能安監(jiān)的極低分辨率目標(biāo)檢測(cè)方法,該方法通過(guò)對(duì)視頻圖像中的小目標(biāo)進(jìn)行超分辨率增強(qiáng),進(jìn)而對(duì)增強(qiáng)圖像進(jìn)行目標(biāo)檢測(cè)。該方法極大地提高了目標(biāo)檢測(cè)方法的性能,同時(shí)滿足電力系統(tǒng)智能安監(jiān)實(shí)時(shí)性需求。本文的主要貢獻(xiàn)有:提出一種針對(duì)極低分辨率目標(biāo)的檢測(cè)算法框架;提出一種改進(jìn)的基于深度神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法;構(gòu)建面向電力智能安監(jiān)的極小目標(biāo)(高寬小于30像素)數(shù)據(jù)集,并在該數(shù)據(jù)集上驗(yàn)證了本文方法的有效性。
本文提出一種面向電力安監(jiān)的極低分辨率下目標(biāo)檢測(cè)算法。該算法框架主要分成3個(gè)部分:①利用背景建模方法獲取視頻圖像中運(yùn)動(dòng)目標(biāo);②將獲取的運(yùn)動(dòng)目標(biāo)前景圖像進(jìn)行超分辨率放大4倍;③放大圖像送入改進(jìn)的神經(jīng)網(wǎng)絡(luò)中進(jìn)行目標(biāo)檢測(cè)。
背景建模(background modeling)[6]假定背景圖像像素值符合某種的概率分布,而前景圖像像素則服從這種概率分布。根據(jù)這種假設(shè),原始圖像與背景圖像做差,即可以得到前景圖像,所以,該方法也被稱為背景減除。高斯背景建模方法將概率分布設(shè)定為高斯概率分布。由于光照變化、噪聲等對(duì)背景建模的影響,通常假設(shè)背景像素服從混合高斯分布模型[6]。為了獲得準(zhǔn)確的前景目標(biāo),本文采用混合高斯背景建模方法?;旌隙喔咚贡尘敖C枋鋈缦拢?/p>
假定背景圖像中每個(gè)像素點(diǎn)符合K個(gè)高斯分布構(gòu)成的混合模型,即
(1)
(2)
(3)
其中,K為高斯分布個(gè)數(shù),η(xt;μi,t,τi,t) 為t時(shí)刻第i個(gè)高斯分布,μi,t為其均值,τi,t為其協(xié)方差矩陣,δi,t為方差,I為單位矩陣,ωi,t為t時(shí)刻第i個(gè)高斯分布的權(quán)重。實(shí)驗(yàn)中,為了提高背景建模算法的處理速度,我們對(duì)單通道灰度圖像進(jìn)行建模?;旌细咚箓€(gè)數(shù)為3,即K=3。
圖像超分辨率重建技術(shù)(image super-resolution)[7]是利用一組低質(zhì)量、低分辨率圖像來(lái)構(gòu)建單幀高質(zhì)量、高分辨率圖像的新技術(shù)。該技術(shù)可以提高圖像的識(shí)別能力和識(shí)別精度。當(dāng)前基于學(xué)習(xí)的超分辨率重建方法是主流,其中以稀疏表示模型和深度學(xué)習(xí)模型為代表。由于深度學(xué)習(xí)模型需要海量的訓(xùn)練數(shù)據(jù),且重建過(guò)程消耗大量的計(jì)算資源,時(shí)間復(fù)雜度太高,因而在本文中采用基于稀疏表示的超分辨率重建方法。該方法具有模型簡(jiǎn)單,計(jì)算速度快,重建效果好,且不需要大量的訓(xùn)練數(shù)據(jù)。該方法描述如下:
給定圖像塊集合Y=[y1,…,yn],標(biāo)準(zhǔn)的無(wú)監(jiān)督字典學(xué)習(xí)算法通過(guò)最小化重建誤差約束試圖學(xué)習(xí)到一個(gè)字典D=[d1,…,dm] 和一組關(guān)聯(lián)的稀疏編碼矩陣。其代價(jià)函數(shù)如下
(4)
盡管該問(wèn)題是NP-hard問(wèn)題,但在一定假設(shè)條件下,可以等價(jià)轉(zhuǎn)化為可優(yōu)化的問(wèn)題,進(jìn)而采用隨機(jī)梯度下降算法求最優(yōu)解[7,8]。通過(guò)添加正則項(xiàng),可以實(shí)現(xiàn)這種變換,常用的正則項(xiàng)為L(zhǎng)asso懲罰項(xiàng)[8]
(5)
目標(biāo)檢測(cè)技術(shù)在電力智能化有較廣泛的應(yīng)用。研究人員能夠根據(jù)圖像中的信息獲得桿塔的編號(hào)[4]。傳統(tǒng)的目標(biāo)檢測(cè)算法僅僅通過(guò)使用物體自身顏色的BGR值作為閾值對(duì)視頻幀進(jìn)行判斷。然而同一顏色的BGR值隨光照改變明顯,針對(duì)不同的作業(yè)現(xiàn)場(chǎng)需要對(duì)該閾值進(jìn)行精調(diào)來(lái)達(dá)到最優(yōu)效果。當(dāng)視野中存在與目標(biāo)顏色或面積相近物體,目標(biāo)檢測(cè)難度會(huì)進(jìn)一步提高。電力識(shí)別作業(yè)的場(chǎng)景主要在戶外,背景復(fù)雜,根據(jù)傳統(tǒng)的顏色及紋理特征進(jìn)行判定很容易發(fā)生誤檢或者漏檢。因此,傳統(tǒng)的圖像特征配合機(jī)器學(xué)習(xí)中的傳統(tǒng)分類器無(wú)法達(dá)到理想的效果。目前主流的基于深度學(xué)習(xí)目標(biāo)檢測(cè)技術(shù)[5]是學(xué)術(shù)界和工業(yè)界關(guān)注的焦點(diǎn)?;诰矸e神經(jīng)網(wǎng)絡(luò)的Fast R-CNN[9]和Faster R-CNN[10]算法在物體識(shí)別上有著準(zhǔn)確度極高的識(shí)別性能,然而這些算法的網(wǎng)絡(luò)構(gòu)架十分復(fù)雜,檢測(cè)過(guò)程耗時(shí)嚴(yán)重,加上后續(xù)的決策分析會(huì)有更大的耗時(shí),難以滿足電力作業(yè)場(chǎng)景中對(duì)不規(guī)范著裝進(jìn)行實(shí)行預(yù)警的要求。
SSD(single shot multi-box detector)[11]是由Wei Liu等在ECCV 2016上提出的一種目標(biāo)檢測(cè)算法,采用VGG分類網(wǎng)絡(luò)并增加額外的特征提取層使其能夠識(shí)別多尺度的物體,然而這種SSD在小目標(biāo)的識(shí)別方面不盡人意。電力作業(yè)人員與攝像頭的距離會(huì)因作業(yè)內(nèi)容不同時(shí)遠(yuǎn)時(shí)近,導(dǎo)致勞動(dòng)防護(hù)用品的尺度在視頻幀中變化較大。當(dāng)距離較遠(yuǎn)時(shí),目標(biāo)在視頻幀中面積過(guò)小,SSD會(huì)失去對(duì)目標(biāo)的檢測(cè)。SSD具有如下主要特點(diǎn):①?gòu)腨OLO[12]中繼承了將detection轉(zhuǎn)化為regression的思路,同時(shí)一次即可完成網(wǎng)絡(luò)訓(xùn)練。②基于Faster RCNN中的anchor,提出了相似的prior box。③加入基于特征金字塔(feature pyramid network)[13]的檢測(cè)方式,相當(dāng)于半個(gè)FPN思路。
針對(duì)電力施工現(xiàn)場(chǎng)特點(diǎn),本文提出一種增強(qiáng)版的SSD目標(biāo)檢測(cè)算法,即I-SSD。I-SSD在定位上比普通SSD要更加準(zhǔn)確。當(dāng)神經(jīng)網(wǎng)絡(luò)層數(shù)增加變的更“深”后,能夠?qū)W習(xí)到更抽象的特征,然而一味地加深也會(huì)導(dǎo)致在訓(xùn)練過(guò)程中發(fā)生諸如梯度消失或者過(guò)擬合的問(wèn)題。為了在性能和準(zhǔn)確度取得平衡,本次研究在SSD的特征值提取層里加入了Inception結(jié)構(gòu),增加了卷積內(nèi)核的類型。由此使得SSD感受野的范圍增大,對(duì)小目標(biāo)更加敏感同時(shí)不會(huì)失去對(duì)大目標(biāo)的識(shí)別[11]。圖1展示的是I-SSD的網(wǎng)絡(luò)結(jié)構(gòu)。
圖1 I-SSD網(wǎng)絡(luò)結(jié)構(gòu)
圖1(a)為SSD網(wǎng)絡(luò)結(jié)構(gòu),圖1(b)為SSD-I的網(wǎng)絡(luò)結(jié)構(gòu)。預(yù)訓(xùn)練的網(wǎng)絡(luò)在一個(gè)包含1261個(gè)人的1 100 000幅圖像大規(guī)模ReID數(shù)據(jù)集上訓(xùn)練,由于該數(shù)據(jù)集包含不同光線、背景、角度條件下相同ID信息的行人數(shù)據(jù),使得通過(guò)深度學(xué)到的特征適合行人檢測(cè)。網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)配置見(jiàn)表1。
表1 網(wǎng)絡(luò)結(jié)構(gòu)配置
本次系統(tǒng)研發(fā)的應(yīng)用場(chǎng)景主要在戶外,因此要求模型能在較復(fù)雜的背景條件下實(shí)現(xiàn)精準(zhǔn)的目標(biāo)檢測(cè)。同時(shí),室外環(huán)境復(fù)雜、光線變化大,對(duì)系統(tǒng)挑戰(zhàn)更高,更能檢測(cè)模型的穩(wěn)定性。本次模擬測(cè)試的所有的實(shí)驗(yàn)場(chǎng)景都選在了戶外。采用Tensorflow來(lái)搭建網(wǎng)絡(luò)并在Titan XP上對(duì)模型進(jìn)行訓(xùn)練。
本次研究收集了5種安全裝備作為樣本集,分別為紅色安全帽、藍(lán)色安全帽、白手套、反光背心和黑色橡膠鞋。每種目標(biāo)樣本分別由不同的實(shí)驗(yàn)人員穿戴上,在不同的戶外條件下拍攝遠(yuǎn)近景照片作為訓(xùn)練樣本。初步收集每種目標(biāo)樣本2000余張作為數(shù)據(jù)集,其中1500張作為訓(xùn)練集,500張作為測(cè)試集。
圖2展示的是室內(nèi)訓(xùn)練模型的Learning Rate和Loss(avg)隨迭代次數(shù)的變化曲線。在室內(nèi)模型訓(xùn)練時(shí),首先用1.0×10-3的學(xué)習(xí)率進(jìn)行了5000次迭代,然后繼續(xù)用5×10-4繼續(xù)迭代至24 000次,如圖2(a)所示。當(dāng)?shù)螖?shù)達(dá)到20 000次以上,模型逐漸收斂,損失值趨于穩(wěn)定,從圖2(b)可以看出,最終的損失值在0.04左右。
圖2 訓(xùn)練模型的Learning Rate和Loss(avg)變化曲線
經(jīng)過(guò)2.4萬(wàn)次迭代之后,模型召回率趨于穩(wěn)定,最終在0.9左右,如圖3(a)所示,結(jié)合其它的迭代參數(shù)可以推測(cè)該模型已訓(xùn)練完全,可用于后續(xù)的驗(yàn)證測(cè)試。
圖3 訓(xùn)練模型的Recall和Obj的變化曲線
將改進(jìn)版的I-SSD與傳統(tǒng)的SSD及YOLO及Faster RCNN在預(yù)標(biāo)注的測(cè)試機(jī)上測(cè)試準(zhǔn)確率,如圖4所示,可以看出無(wú)論是在訓(xùn)練時(shí)提取特征的效率上,還是在測(cè)試時(shí)的準(zhǔn)確度上,改進(jìn)版的SSD效果明顯優(yōu)于其它檢測(cè)模型。
圖4 不同對(duì)比算法的準(zhǔn)確率比較
對(duì)SSD和I-SSD在同一樣的數(shù)據(jù)集上訓(xùn)練到收斂,并對(duì)自然電力作業(yè)場(chǎng)景下進(jìn)行目標(biāo)檢測(cè),從圖5中可以看出,傳統(tǒng)的SSD對(duì)諸如安全帽、手套等小目標(biāo)識(shí)別效果不夠穩(wěn)定,而改進(jìn)版的I-SSD對(duì)小目標(biāo)的識(shí)別能力有較大提高,對(duì)于大目標(biāo)也能有較穩(wěn)定的識(shí)別能力。
圖5 目標(biāo)檢測(cè)的可視化結(jié)果比較
圖6顯示了迭代2.4萬(wàn)次的I-SSD深度網(wǎng)絡(luò)模型在實(shí)時(shí)視頻流中的識(shí)別效果。該系統(tǒng)可以在視頻幀中檢測(cè)到指定目標(biāo)并且?guī)誓鼙3衷?5 fps左右,能夠滿足項(xiàng)目對(duì)于實(shí)時(shí)性方面的要求。
圖6 深度網(wǎng)絡(luò)模型在實(shí)時(shí)視頻流中的識(shí)別結(jié)果
為了模擬電力作業(yè)現(xiàn)場(chǎng),本文讓不同實(shí)驗(yàn)人員穿戴上不同的安全裝備并在攝像頭范圍內(nèi)隨機(jī)行走,模擬戶外電力作業(yè)場(chǎng)景和作業(yè)行為,測(cè)試訓(xùn)練出的分類模型在不同背景光線、距離條件下模型對(duì)穿戴護(hù)具的識(shí)別效果。
從圖6可以看出,手套相對(duì)于整個(gè)視頻幀中面積是很小的,具有極低分辨率的特點(diǎn),然而I-SSD算法仍能準(zhǔn)確地識(shí)別出來(lái)。同時(shí),通過(guò)人臉識(shí)別的結(jié)果與行人的ID綁定后,使人臉信息一直在當(dāng)前的檢測(cè)結(jié)果中,且具有很強(qiáng)的抗遮擋能力。
為驗(yàn)證本算法在電力監(jiān)控場(chǎng)景下的檢測(cè)效果和時(shí)間復(fù)雜度,為了檢測(cè)頭盔,護(hù)目鏡和手套等極小目標(biāo),本項(xiàng)目從5個(gè)電力智能安監(jiān)現(xiàn)場(chǎng)20個(gè)攝像頭采集2小時(shí)的監(jiān)控視頻,并對(duì)數(shù)據(jù)集進(jìn)行了標(biāo)準(zhǔn)整理,形成面向電力安監(jiān)的極小目標(biāo)檢測(cè)數(shù)據(jù)集。該數(shù)據(jù)集共包含20萬(wàn)張圖像,其分辨率為352×288像素,其中18萬(wàn)張作為訓(xùn)練集,剩余的作為測(cè)試集。該數(shù)據(jù)集共含有268個(gè)工作人員,35萬(wàn)個(gè)人體實(shí)例,戴頭盔的行人約29萬(wàn)個(gè),戴手套的行人約32萬(wàn)個(gè),戴護(hù)目鏡的行人約27萬(wàn)個(gè)。護(hù)目鏡的最小分辨率為18×7,手套的最小分辨率約為23×10,頭盔的最小分辨率約為 42×25 等。上述在ReID數(shù)據(jù)集上訓(xùn)練的行人檢測(cè)算法得到的模型參數(shù)作為本數(shù)據(jù)集初始化參數(shù)。模型訓(xùn)練參數(shù)設(shè)置保持不變。在圖像增強(qiáng)算法中,參數(shù)λ=0.5。實(shí)驗(yàn)對(duì)比算法選擇當(dāng)前速度最快的基于CNN的目標(biāo)檢測(cè)算法SSD[11]和YOLO[12],見(jiàn)表2。I-SSD為本文改進(jìn)算法,BG表示背景建模,SR表示基于稀疏表示模型的圖像超分變率算法。從表2中可以看出,本文方法在準(zhǔn)確率和召回率等指標(biāo)上取得最佳,同時(shí)也滿足了項(xiàng)目實(shí)時(shí)性的需求。
表2 監(jiān)控視頻場(chǎng)景測(cè)試結(jié)果
針對(duì)電力作業(yè)現(xiàn)場(chǎng)的智能安監(jiān)問(wèn)題,本文提出了一個(gè)面向電力智能安監(jiān)的極低分辨率目標(biāo)檢測(cè)算法。該方法使用google發(fā)布的Inception模塊替換了原SSD中VGG16的額外層,同時(shí)也改進(jìn)了SSD的輸出層,提高了SSD對(duì)于視頻幀中極低分辨率的小目標(biāo)的識(shí)別性能。通過(guò)與其它特征提取網(wǎng)絡(luò)對(duì)比檢測(cè)效果,可發(fā)現(xiàn)I-SSD在準(zhǔn)確率方面有較大的提高;同時(shí)該檢測(cè)模型相較于Faster RCNN和YOLO,在同等條件的硬件GPU環(huán)境下,該檢測(cè)框架比其它兩類主流的檢測(cè)框架具有明顯的速度優(yōu)勢(shì)。