宋旭峰,蔣夢(mèng)姣,周怡伶,吉俊杰,陸曉翔
1(國(guó)網(wǎng)新源控股有限公司,北京 100032)
2(華東宜興抽水蓄能有限公司,宜興 214200)
3(河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,南京 211100)
在大型工業(yè)廠房中,通常部署著各種各樣的機(jī)械電子設(shè)備,設(shè)備控制所涉及的開關(guān)種類繁多、數(shù)量龐大,給日常的運(yùn)行維護(hù)工作帶來(lái)挑戰(zhàn),例如抽水蓄能電站、光伏發(fā)電站等.在日常的運(yùn)維過(guò)程中,工作人員需要在復(fù)雜的環(huán)境下對(duì)各種設(shè)備上眾多的開關(guān)進(jìn)行操作和檢查,保證開關(guān)狀態(tài)的正確性,確保工廠安全穩(wěn)定地運(yùn)行.
以抽水蓄能電站為例,作為電力系統(tǒng)中的重要的電力來(lái)源,抽水蓄能電站在電力調(diào)峰、調(diào)壓調(diào)相、事故備用等方面發(fā)揮著重要作用.因此,安全穩(wěn)定地運(yùn)行、持續(xù)可靠地供電對(duì)于抽水蓄能電站至關(guān)重要[1,2].日常運(yùn)維監(jiān)管作為抽水蓄能電站安全生產(chǎn)與管理的重要手段,對(duì)抽水蓄能電站機(jī)組設(shè)備的檢修維護(hù)、實(shí)時(shí)監(jiān)督、狀態(tài)評(píng)估與預(yù)測(cè)等各個(gè)方面均有重要作用[3].然而,抽水蓄能電站工況多、維護(hù)操作復(fù)雜的特點(diǎn)加大了監(jiān)管的難度,傳統(tǒng)完全依賴人工監(jiān)督的方式對(duì)于運(yùn)行維護(hù)和突發(fā)事件的處置是不完全可靠的,一旦錯(cuò)誤操作沒能及時(shí)發(fā)現(xiàn)與糾正,將會(huì)造成設(shè)備損壞和人員傷亡的嚴(yán)重后果,同時(shí)影響下游電力用戶的生產(chǎn)和生活.
因此,為了有效監(jiān)控上述場(chǎng)景下的人工運(yùn)維過(guò)程,本文引入基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)來(lái)智能化地輔助操作人員判別機(jī)組設(shè)備的開關(guān)狀態(tài),確保操作結(jié)果的正確性.
對(duì)于設(shè)備開關(guān)狀態(tài)的識(shí)別問題,目前已有一些研究工作.主要分為如下3 類.
第1 類是基于傳統(tǒng)數(shù)字圖像處理的形態(tài)學(xué)與特征分析[4-10],比如周凱等人[4]提出一種基于非下采樣剪切波變換(NSST)圖像融合的開關(guān)圖像識(shí)別方法,胡聰?shù)热薣6]提出利用粒子群優(yōu)化算法對(duì)圖像進(jìn)行分割.這種基于傳統(tǒng)圖像處理技術(shù)的方法容易受到操作環(huán)境的影響,只能局限于固定的操作場(chǎng)景.
第2 類是基于傳統(tǒng)機(jī)器學(xué)習(xí)的模式識(shí)別方法[11-13],比如黃釗鵬[11]提出利用圖像處理的相關(guān)方法,冷從林[12]提出基于SVM 的開關(guān)狀態(tài)識(shí)別算法.這類方法的缺點(diǎn)在于圖像特征需要人為定義和提取,一方面提出的特征必須適用于開關(guān)的分類,否則會(huì)影響分類的效果,另一方面這種特征提取方法很難遷移到其他領(lǐng)域.
第3 類則是基于深度學(xué)習(xí)的圖像處理算法[14-21].比如史夢(mèng)安等人[14]提出基于YOLO-tiny-RFB 模型的電站旋鈕開關(guān)狀態(tài)識(shí)別方法,楊雨等人[15]提出基于YOLOv5 的變電站薄厚硬壓板檢測(cè)技術(shù),李巖等人[16]、蘇楊等人[17]提出通過(guò)卷積神經(jīng)網(wǎng)絡(luò)識(shí)別開關(guān)狀態(tài),鄧樂武等人[18]提出了基于深度學(xué)習(xí)的座艙開關(guān)識(shí)別方法,高露[19]、Khan[20]、張禮波等人[21]通過(guò)數(shù)據(jù)增強(qiáng)、特征融合和候選框的設(shè)計(jì)改進(jìn)Faster R-CNN 模型.上述方法均是針對(duì)單一的開關(guān)類型,只能應(yīng)用到相近的領(lǐng)域,限制了方法的普適性.
相較于上述文獻(xiàn)中所述的設(shè)備開關(guān)操作場(chǎng)景,本文研究的操作場(chǎng)景更加復(fù)雜,具體表現(xiàn)為設(shè)備控制所涉及的開關(guān)種類繁多、同類開關(guān)形狀與大小也各異.從開關(guān)的類型及其狀態(tài)劃分,總共分為18 類開關(guān),36 種開關(guān)狀態(tài); 從圖像數(shù)據(jù)分析,圖像中的開關(guān)密集分布,形狀相似,數(shù)量較多.這些都給開關(guān)識(shí)別帶來(lái)了很大的困難.針對(duì)這些挑戰(zhàn),本文提出了一種面向設(shè)備開關(guān)狀態(tài)識(shí)別的改進(jìn)的Faster R-CNN.
相比于原始Faster R-CNN[22],改進(jìn)之處在于以下4 點(diǎn): 選擇殘差網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò),將該網(wǎng)絡(luò)中卷積層的殘差塊改為多分支膨脹卷積殘差塊,融合不同感受野的信息; 在原特征金字塔網(wǎng)絡(luò)[23]的基礎(chǔ)上新增一條自底向上特征融合的分支,讓塔頂?shù)奶卣鲌D擁有底層特征圖的細(xì)節(jié)信息; 根據(jù)開關(guān)尺寸信息,聚類出適合開關(guān)數(shù)據(jù)集的候選框尺寸; 使用Soft-NMS 替代原來(lái)的NMS算法.試驗(yàn)表明,改進(jìn)模型在精度上優(yōu)于YOLO[24]、SSD[25]等常用的目標(biāo)檢測(cè)模型,在開關(guān)狀態(tài)數(shù)據(jù)集上比傳統(tǒng)的Faster R-CNN 檢測(cè)精度提升了約7%.此外,該算法已實(shí)際應(yīng)用于抽水蓄能電站日常運(yùn)維的設(shè)備開關(guān)狀態(tài)輔助識(shí)別,實(shí)踐表明可以滿足這一復(fù)雜場(chǎng)景下的智能監(jiān)管需求.
相比傳統(tǒng)的工廠,抽水蓄能電站部署的機(jī)械電子設(shè)備更多,設(shè)備控制所涉及的開關(guān)種類繁多、數(shù)量龐大,更加符合本文研究的復(fù)雜場(chǎng)景,所以,以抽水蓄能電站為例,研究開關(guān)狀態(tài)的識(shí)別問題.
本文的實(shí)驗(yàn)數(shù)據(jù)主要來(lái)自華東地區(qū)某抽水蓄能電站,通過(guò)對(duì)抽水蓄能電站日常操作視頻的抽幀,剔除走動(dòng)、模糊數(shù)據(jù),圖像增強(qiáng)等技術(shù)構(gòu)建圖像數(shù)據(jù)集.經(jīng)過(guò)圖像的分析和專家提供的信息,將開關(guān)一共分為18 種,每種開關(guān)雖然有多個(gè)狀態(tài),但是日常操作僅涉及2 種狀態(tài),所以每種開關(guān)均設(shè)置2 種狀態(tài).18 種開關(guān)用1 到18 的整數(shù)編號(hào),同時(shí)為了圖像標(biāo)注方便,將“關(guān)”“off”“拉開”“現(xiàn)地”“Local”這類開關(guān)狀態(tài)統(tǒng)一記為0,將“開”“on”“合上”“遠(yuǎn)程”“Auto”記為1.部分開關(guān)的狀態(tài)如表1 所示.
表1 部分開關(guān)類型和狀態(tài)
除了上述開關(guān)類型及狀態(tài)較多的問題之外,還存在以下的難點(diǎn)問題:
(1)在不同的設(shè)備上存在形狀相似的開關(guān).
(2)單張圖像中存在密集排列且眾多的小型開關(guān).
(3)不同設(shè)備上開關(guān)的大小不一樣.
這些問題的處理都直接影響到開關(guān)的整體識(shí)別結(jié)果.
針對(duì)上述問題,本文提出了改進(jìn)的Faster R-CNN.針對(duì)問題(1),在ResNet50 中加入多分支膨脹卷積,融合不同感受野的信息,提取更加明顯的特征,便于區(qū)分相似的開關(guān); 針對(duì)問題(2),改進(jìn)了特征金字塔網(wǎng)絡(luò),新增一條自底向上的特征增強(qiáng)分支,融合不同尺度的信息,提高對(duì)于密集型開關(guān)和小型開關(guān)的識(shí)別能力; 針對(duì)問題(3),用K-means++算法[26]對(duì)設(shè)備開關(guān)的邊界框進(jìn)行聚類,設(shè)計(jì)出適合開關(guān)狀態(tài)數(shù)據(jù)集的RPN 候選框尺寸,能夠檢測(cè)出不同形狀的開關(guān); 最后,使用Soft-NMS替代原RPN 的NMS,提升抑制重疊候選框的效果,提高候選框選擇的正確率; 改進(jìn)后模型整體結(jié)構(gòu)如圖1所示.
圖1 最左側(cè)為提出的膨脹殘差網(wǎng)絡(luò),將C3、C4、C5 卷積模塊中最后一個(gè)殘差塊變?yōu)槎喾种蛎浘矸e;T2、T3、T4、T5 為原特征金字塔網(wǎng)絡(luò)多尺度融合輸出的特征圖,D2、D3、D4、D5 為新增的自底向上特征融合分支的輸出特征圖; P2、P3、P4、P5 為改進(jìn)后的特征金字塔網(wǎng)絡(luò)輸出的多尺度特征圖.將這些特征圖送入RPN 中,根據(jù)K-means++算法選出的候選框進(jìn)行目標(biāo)檢測(cè); 最后,將每個(gè)特征矩陣通過(guò)ROI pooling層縮放到7×7 大小的特征圖,接著通過(guò)一系列全連接層分類回歸,最終通過(guò)多次訓(xùn)練達(dá)到預(yù)期效果.
圖1 改進(jìn)Faster R-CNN 整體模型結(jié)構(gòu)
如圖1 所示,Faster R-CNN 的損失主要包括RPN損失和ROI 損失,損失函數(shù)如下:
其中,i是批量數(shù)據(jù)中anchor 框的序號(hào),pi為anchor 預(yù)測(cè)為目標(biāo)的概率,p*i是真實(shí)的標(biāo)簽信息(在RPN 損失中是二分類,在ROI 損失中是多分類);表示預(yù)測(cè)框的位置信息,t*表示目標(biāo)框的位置信息;表示目標(biāo)和非目標(biāo)的對(duì)數(shù)損失,針對(duì)二分類問題,形式如下:是回歸損失,一般采用smooth L1 函數(shù)計(jì)算,形式如下:
RPN 損失包括分類損失和回歸損失,分類損失是二分類交叉熵?fù)p失,回歸損失是對(duì)anchor 的位置進(jìn)行回歸微調(diào).ROI 損失和RPN 損失相似,不同的是,ROI的分類損失是多分類交叉熵?fù)p失,ROI 的回歸損失是對(duì)ROI 的位置進(jìn)行回歸微調(diào).
在真實(shí)抽水蓄能電站操作場(chǎng)景中,某些設(shè)備的開關(guān)排列較為密集,如果拍攝角度偏離設(shè)備,那么一些開關(guān)的部分圖像信息會(huì)被其他開關(guān)遮擋,沒有明顯分隔邊界.開關(guān)狀態(tài)識(shí)別任務(wù)中開關(guān)種類有18 種,部分類型開關(guān)的圖像相似,如圖2 所示,3 種開關(guān)外觀相似,導(dǎo)致開關(guān)狀態(tài)在語(yǔ)義上很難有統(tǒng)一且清晰的定義.因此現(xiàn)有的深度模型要實(shí)現(xiàn)這樣的深層語(yǔ)義理解是十分困難的.
圖2 3 種開關(guān)及其狀態(tài)
卷積神經(jīng)網(wǎng)絡(luò)在處理圖像特征圖時(shí),為了提高網(wǎng)絡(luò)訓(xùn)練效率,會(huì)在一些卷積層后使用下采樣操作,但是下采樣會(huì)丟失很多空間語(yǔ)義信息和細(xì)節(jié)信息,因此在層數(shù)較深的網(wǎng)絡(luò)模型中,深層網(wǎng)絡(luò)會(huì)失去很多淺層網(wǎng)絡(luò)的空間語(yǔ)義信息,ResNet[27]中引入捷徑的目的就是將淺層網(wǎng)絡(luò)的空間信息能夠傳遞到深層網(wǎng)絡(luò),提高了淺層信息的利用率.開關(guān)圖像識(shí)別需要提取更多細(xì)節(jié)信息,所以本文使用殘差網(wǎng)絡(luò)ResNet50 作為骨干網(wǎng)絡(luò)來(lái)取代傳統(tǒng)的VGG16 網(wǎng)絡(luò)[28],網(wǎng)絡(luò)參數(shù)如表2 所示.網(wǎng)絡(luò)在卷積conv5 輸出之后,再通過(guò)1×1 的卷積實(shí)現(xiàn)通道聚合,降低參數(shù)量,最后通過(guò)全連接層實(shí)現(xiàn)分類.
表2 ResNet50 網(wǎng)絡(luò)結(jié)構(gòu)
在深度網(wǎng)絡(luò)中,特征圖空間信息的丟失容易導(dǎo)致小目標(biāo)信息的丟失.目前,這類問題無(wú)法完全解決,但是可以使用膨脹卷積[29]在不改變卷積核大小的情況下,通過(guò)改變擴(kuò)張率(dilated rate)擴(kuò)大感受野[30]來(lái)緩解上述問題.卷積核被膨脹卷積處理后感受野大小的計(jì)算公式為:
其中,n為膨脹卷積后感受野,k為原始卷積核大小,例如卷積核大小為3×3,k就是3,r為擴(kuò)張率.
圖3 分別表示一個(gè)3×3 的卷積核在r取1、2、4時(shí)的感受野.圖3(a)的卷積核的擴(kuò)張率r取1,卷積核感受野沒有變化,依然為3×3.圖3(b)的擴(kuò)張率r取2,感受野擴(kuò)大為7×7,由于空洞中填充的是0,不參與實(shí)際的計(jì)算,所以計(jì)算量沒有改變.圖3(c)的擴(kuò)張率r取4,感受野擴(kuò)大為15×15.
圖3 3 種擴(kuò)張率下卷積核的感受野
特征圖經(jīng)過(guò)膨脹卷積處理后大小變?yōu)?
其中,W為輸入特征圖的大小(寬或高),p為padding值,s為步長(zhǎng)stride.
使用膨脹卷積不可避免地出現(xiàn)網(wǎng)格效應(yīng)(gridding effect)[31],即膨脹卷積的卷積核在滑動(dòng)時(shí)覆蓋到的有效區(qū)域呈現(xiàn)網(wǎng)格狀,丟失臨近點(diǎn)的有關(guān)信息,擴(kuò)張率r越大這種問題越嚴(yán)重.所以,既要擴(kuò)大感受野,又要降低網(wǎng)格效應(yīng)的影響,本文采用綜合多個(gè)擴(kuò)張率的膨脹卷積方式,在感受野擴(kuò)大的同時(shí),減少信息的丟失.具體方法是將一組不同擴(kuò)張率的卷積進(jìn)行并聯(lián),均處理相同輸入的特征圖,把各個(gè)膨脹卷積輸出的特征信息融合在一起,那么多分支膨脹卷積模塊的最終輸出可以包含不同尺度、不同感受野的信息,小擴(kuò)張率的卷積核提取小型開關(guān)目標(biāo)的局部特征,大擴(kuò)張率卷積核提取中、大型開關(guān)目標(biāo)的局部特征.
圖4 展示了多分支膨脹卷積模塊,圖中模塊一共設(shè)置了3 條分支,擴(kuò)張率分別為1、2、3,并將3 條分支輸出相融合.圖5 是對(duì)不同擴(kuò)張率膨脹卷積輸出特征圖的融合,左側(cè)從上到下分別是擴(kuò)張率為1、2、3 的膨脹卷積,右側(cè)為輸出的融合后的特征圖.
圖4 多分支膨脹卷積模塊圖
圖5 多分支特征圖的融合
Faster R-CNN 模型的基礎(chǔ)網(wǎng)絡(luò)使用的是ResNet50,具體參數(shù)見表2.在ResNet50 基礎(chǔ)上使用膨脹卷積進(jìn)行改進(jìn),主要是將殘差塊中的3×3 普通卷積變?yōu)?×3的多分支膨脹卷積,改進(jìn)前后對(duì)比如圖6 所示.
圖6 殘差塊改進(jìn)前后對(duì)比
使用膨脹殘差網(wǎng)絡(luò)能夠在不擴(kuò)大卷積核尺寸的基礎(chǔ)上擴(kuò)大感受野,同時(shí)減少丟失的信息.不同尺度的目標(biāo)能夠在不同的感受野下提取特征,豐富了殘差塊輸出特征圖的信息,同時(shí)也能夠讓小型開關(guān)目標(biāo)在深層特征中有豐富的語(yǔ)義信息.而且,各個(gè)膨脹卷積分支之間權(quán)值共享,相較于原始?xì)埐顗K計(jì)算量不會(huì)增加,同時(shí)可根據(jù)不同的數(shù)據(jù)集調(diào)整多分支膨脹卷積殘差塊在卷積網(wǎng)絡(luò)中的位置來(lái)獲得適合數(shù)據(jù)集的網(wǎng)絡(luò)模型.
卷積神經(jīng)網(wǎng)絡(luò)在特征提取時(shí),底層網(wǎng)絡(luò)提取的是圖像的細(xì)節(jié)信息,層數(shù)越深的網(wǎng)絡(luò)提取的特征越抽象.圖7 是包含多個(gè)開關(guān)的設(shè)備圖像,由于拍攝距離較遠(yuǎn),所以圖像中開關(guān)的面積較小.
使用訓(xùn)練好的ResNet50 對(duì)圖7 進(jìn)行特征提取,并給出具有代表性的4 個(gè)卷積層輸出的特征圖,這些特征圖如圖8 所示.
圖7 多個(gè)開關(guān)的設(shè)備圖像
圖8 中越亮的地方,訓(xùn)練時(shí)網(wǎng)絡(luò)越會(huì)關(guān)注,從圖8(a)和圖8(b)可知,淺層網(wǎng)絡(luò)較關(guān)注圖像的紋理和細(xì)節(jié)信息,圖8(d)的特征圖已經(jīng)很抽象了,看不出開關(guān)的細(xì)節(jié).
圖8 各卷積層輸出的特征圖
由第2.2.2 節(jié)可知,在拍攝距離較遠(yuǎn)的情況下,一些小型開關(guān)在圖像中較小,此時(shí)開關(guān)目標(biāo)的檢測(cè)和識(shí)別對(duì)細(xì)節(jié)信息要求較高.然而部分開關(guān)是中型的,也有大型開關(guān),例如大閥門、閘刀等,需要兼顧高層的語(yǔ)義信息.所以特征提取網(wǎng)絡(luò)既要保留底層細(xì)節(jié)信息,還要兼顧高層語(yǔ)義信息.因此在膨脹卷積殘差網(wǎng)絡(luò)上加入特征金字塔網(wǎng)絡(luò),融合多維信息特征進(jìn)行開關(guān)狀態(tài)的檢測(cè)和識(shí)別.
圖9 所展示的是特征金字塔網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)一共兩個(gè)分支,左側(cè)自底向上的分支為特征提取,不斷下采樣輸出多個(gè)尺度特征,每一個(gè)方框都是一個(gè)尺度的特征圖,右邊分支的高層特征不斷進(jìn)行2 倍上采樣.這種結(jié)構(gòu)融合了高層特征和底層特征,讓每個(gè)尺度的特征圖都有豐富的語(yǔ)義信息.原Faster R-CNN 模型使用單一的特征提取網(wǎng)絡(luò),如VGG-16、ResNet 等,僅在網(wǎng)絡(luò)輸出層做預(yù)測(cè),由于特征提取網(wǎng)絡(luò)的卷積層較多,在卷積過(guò)程中丟失底層語(yǔ)義信息,不利于小目標(biāo)開關(guān)的檢測(cè).使用FPN 后,可以在底層輸出的融合特征圖上進(jìn)預(yù)測(cè),有利于關(guān)注細(xì)節(jié)信息的小目標(biāo)開關(guān)的檢測(cè).
圖9 多尺度特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)
但是特征金字塔網(wǎng)絡(luò)多尺度融合的特征圖中只有金字塔底部包含底層信息較多[32],頂部的特征圖經(jīng)過(guò)多次卷積后已經(jīng)丟失了很多底層信息,特征融合只是自頂向下融合,讓下層擁有上層的特征信息.為了解決這個(gè)問題,對(duì)FPN 結(jié)構(gòu)進(jìn)行改進(jìn),在原FPN 右側(cè)分支增加一個(gè)自底向上的特征增強(qiáng)分支,更加充分地融合高層和底層的語(yǔ)義信息,讓高層特征圖也有底層語(yǔ)義信息,改進(jìn)后的FPN 模型結(jié)構(gòu)如圖10 所示.
圖10 改進(jìn)的多尺度特征金字塔網(wǎng)絡(luò)
FPN 改進(jìn)后,因?yàn)閺奶卣魈崛【W(wǎng)絡(luò)的底層到特征增強(qiáng)分支頂層路徑上較短,卷積操作較少,所以在特征融合過(guò)程中底層信息丟失較少,特征增強(qiáng)分支的各尺度均含有底層信息.改進(jìn)后的FPN,各層所包含的語(yǔ)義信息要比原始網(wǎng)絡(luò)多,尤其是底層以上的各層均含有更豐富的底層信息,更加有利于小型開關(guān)目標(biāo)的檢測(cè)與識(shí)別.
在目標(biāo)檢測(cè)中,合適的候選框尺寸將決定最后分類回歸的效果.因?yàn)殚_關(guān)狀態(tài)數(shù)據(jù)集與公開的目標(biāo)檢測(cè)數(shù)據(jù)集存在很大差別,主要表現(xiàn)在開關(guān)的形狀相似,分布密集.所以Faster R-CNN 原模型中的候選框尺寸不一定適合開關(guān)狀態(tài)識(shí)別任務(wù),因此需要根據(jù)所有開關(guān)的真實(shí)邊界框尺寸來(lái)合理設(shè)計(jì)候選框大小和長(zhǎng)寬比例.
本文使用K-means++聚類算法對(duì)開關(guān)的真實(shí)邊界框大小和寬高聚類,得到更適合開關(guān)的候選框尺寸,使模型候選框的尺寸與真實(shí)邊界框盡量吻合.
為了評(píng)估K-means++聚類的效果,使用輪廓系數(shù)(Silhouette coefficient,SC)作為開關(guān)真實(shí)邊界框的聚類評(píng)價(jià)指標(biāo),SC可以同時(shí)考慮簇內(nèi)凝聚度和簇間分離度兩方面,從不同的K中選擇最優(yōu)的結(jié)果.假設(shè)第i個(gè)樣本與同簇內(nèi)其他樣本的平均距離為ai,到其他簇Cj的所有樣本的平均距離為bij,設(shè)bi={bi1,bi2,···,biK};ai衡量簇內(nèi)凝聚度,bi衡量簇間分離度,根據(jù)ai、bi定義第i個(gè)樣本的輪廓系數(shù)SCi,如式(3)所示:
ai比bi越小,SCi的值越接近于1,表示樣本聚類越合理,反之SCi接近于-1,則表明樣本i與其他簇的樣本更相似,如果接近于0,說(shuō)明樣本i在兩個(gè)簇邊界.數(shù)據(jù)集內(nèi)所有樣本的SCi的平均值就是在取K時(shí)聚類算法的輪 廓系數(shù)SC,公式如下:
其中,n為開關(guān)目標(biāo)總數(shù).
K-means++聚類實(shí)驗(yàn)前要先設(shè)置K的值,根據(jù)標(biāo)注開關(guān)的經(jīng)驗(yàn)預(yù)測(cè)為K在3 到6 之間,實(shí)驗(yàn)嘗試了K取3 到12,使用SC作為評(píng)價(jià)指標(biāo),其結(jié)果如圖11 所示.
圖11 不同K 值情況下的SC 值
由圖11 知K取4 時(shí)達(dá)到最佳效果,最高的SC值為0.636 94,K取4 也在經(jīng)驗(yàn)預(yù)測(cè)的范圍內(nèi).圖12 展示了K取3 到6 的實(shí)驗(yàn)結(jié)果圖.
圖12 K-means++算法取不同K 值時(shí)的聚類結(jié)果
圖12(b)為最佳聚類效果,4 個(gè)簇的聚類中心分別為(135,153)、(56,68)、(535,238)、(363,512),不難發(fā)現(xiàn),聚類中心(135,153)密集程度最高,聚類中心(363,512)密集程度最低.因此,對(duì)于開關(guān)狀態(tài)的識(shí)別可以更加關(guān)注中小型目標(biāo).計(jì)算4 個(gè)聚類中心點(diǎn)代表的面積,分別為: 20 655、3 808、127 330、185 856,對(duì)這些面積開平方取近似值得: 144、62、357、431,計(jì)算聚類中心橫縱坐標(biāo)之比也是寬高比取近似值得:(1:1.2)、(1:1.2)、(1:0.5)、(1:1.5).最終,本文候選框大小為62×62、144×144、357×357、431×431,寬高比設(shè)置為(1:1.2)、(1:0.5)、(1:1.5).
本文模型在檢測(cè)開關(guān)時(shí),由于特征圖的每個(gè)滑動(dòng)窗口上都會(huì)生成多個(gè)候選框,所以相鄰的窗口會(huì)有多個(gè)候選框交叉重疊,使用非極大值抑制算法(non-maximum suppression,NMS)抑制候選框,刪去重疊的多余的候選框,找到檢測(cè)效果最佳的候選框,從而提高模型性能.NMS 算法使用前后的檢測(cè)窗口變化如圖13 所示.
從圖13(a)可以看出,在對(duì)采集到的開關(guān)圖像進(jìn)行檢測(cè)時(shí),開關(guān)上有很多交叉重疊的候選窗口,但并不是所有窗口都可以完整地包含目標(biāo)開關(guān),多數(shù)窗口只能檢測(cè)到一部分.此時(shí),使用NMS 算法從圖13(a)中的候選框中選擇最優(yōu)的窗口,如圖13(b)所示,這樣可以提高開關(guān)檢測(cè)的準(zhǔn)確度,模型效果也會(huì)更好.
圖13 使用NMS 前后候選框圖示結(jié)果
假設(shè)某張圖像在檢測(cè)過(guò)程中,圖像內(nèi)的一個(gè)開關(guān)上生成了n個(gè) 候選框,將候選框集合記為B={B1,B2,···,Bn},候選框?qū)?yīng)的得分集合記為S={S1,S2,···,Sn},得分是候選框內(nèi)有目標(biāo)的概率大小,Si的計(jì)算公式如下:
其中,IoU為兩個(gè)候選框的交并比.
顯然,從式(5)中發(fā)現(xiàn),NMS 算法會(huì)直接丟棄所有超過(guò)閾值p的候選框,導(dǎo)致相鄰的候選框的分?jǐn)?shù)為0.如果相鄰候選框內(nèi)含有類似大小的目標(biāo),那么兩個(gè)候選框IoU可能會(huì)高于p,相鄰目標(biāo)的檢測(cè)會(huì)丟失一個(gè)目標(biāo)候選框.
針對(duì)NMS 暴力抑制候選框的問題,本文使用了改進(jìn)的非極大值抑制算法Soft-NMS[33].Soft-NMS 提出了兩種對(duì)候選框分?jǐn)?shù)的加權(quán),分別為線性加權(quán)和高斯加權(quán),本文采用高斯加權(quán)方式,如式(6)所示.
實(shí)驗(yàn)所使用的數(shù)據(jù)集是第1 節(jié)中經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的設(shè)備開關(guān)狀態(tài)數(shù)據(jù)集,一共1 644 張圖像,開關(guān)約有3 600 個(gè),分為18 種開關(guān)36 類狀態(tài).以7:3 的比例劃分訓(xùn)練集與測(cè)試集,訓(xùn)練集1 151 張圖像,測(cè)試集493 張圖像.
在參數(shù)設(shè)置方面,優(yōu)化器選擇SGD,學(xué)習(xí)率lr 設(shè)置為0.005,衰減系數(shù)weight_decay 設(shè)置為0.000 5,動(dòng)量參數(shù)momentum 設(shè)置為0.9,批大小batch_size 設(shè)置為2,迭代次數(shù)epoch 設(shè)置為50 次.
在抽水蓄能電站真實(shí)的操作場(chǎng)景下,本文對(duì)目標(biāo)檢測(cè)模型Faster R-CNN 進(jìn)行了4 個(gè)方面的改進(jìn),分別為:設(shè)計(jì)了膨脹殘差網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)、使用改進(jìn)后的特征金字塔網(wǎng)絡(luò)進(jìn)行多尺度信息融合、使用K-means++算法聚類出后候選框尺寸、使用Soft-NMS 代替NMS.為了驗(yàn)證改進(jìn)的有效性,設(shè)計(jì)了以下5 組對(duì)比試驗(yàn):
(1)不同多分支膨脹卷積使用策略的對(duì)比實(shí)驗(yàn): 先驗(yàn)證膨脹卷積對(duì)提升識(shí)別效果的有效性,然后對(duì)膨脹卷積的層組合進(jìn)行實(shí)驗(yàn),得出最合適的膨脹卷積的層組合.
(2)特征金字塔結(jié)構(gòu)改進(jìn)前后的對(duì)比實(shí)驗(yàn): 使用膨脹殘差網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),對(duì)比加FPN 與不加FPN 模型測(cè)試效果.
(3)使用原模型的候選框尺寸與K-means++算法聚類出的候選框之間的對(duì)比實(shí)驗(yàn): 驗(yàn)證設(shè)計(jì)的候選框尺寸可以提升模型精度.
(4)Soft-NMS 與NMS 的對(duì)比實(shí)驗(yàn): 使用兩種篩選候選框的算法,測(cè)試最終模型效果.
(5)本文模型與其他目標(biāo)檢測(cè)模型之間的對(duì)比實(shí)驗(yàn): 將改進(jìn)后的Faster R-CNN 與原Faster R-CNN 模型、SSD、YOLO 進(jìn)行實(shí)驗(yàn)對(duì)比,原模型特征提取網(wǎng)絡(luò)均使用VGG16.該組實(shí)驗(yàn)主要是為了驗(yàn)證改進(jìn)的有效性且將改進(jìn)的Faster R-CNN 與其他目標(biāo)檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn).
衡量一個(gè)目標(biāo)檢測(cè)模型的精準(zhǔn)度需要一些評(píng)價(jià)指標(biāo)來(lái)表示,對(duì)于目標(biāo)檢測(cè)模型,常用的度量方法有精確率、召回率、平均精度、均值平均精度、交并比等.
(1)精確率(Precision)
精確率表示檢測(cè)出開關(guān)并正確識(shí)別出的開關(guān)狀態(tài)的數(shù)量占測(cè)試集中所有識(shí)別出的開關(guān)狀態(tài)的比例,簡(jiǎn)記為P,計(jì)算公式如下:
其中,TP是檢測(cè)出開關(guān)并正確識(shí)別出開關(guān)狀態(tài)的數(shù)量,FP是檢測(cè)出開關(guān)但識(shí)別狀態(tài)錯(cuò)誤的數(shù)量.
(2)召回率(Recall)
召回率表示正確檢測(cè)出的開關(guān)數(shù)量占測(cè)試集中所有開關(guān)總數(shù)的比例,簡(jiǎn)記為R,計(jì)算公式如下:
其中,TP是檢測(cè)出開關(guān)狀態(tài)的數(shù)量,FN是沒有檢測(cè)出開關(guān)的數(shù)量.
(3)F1 分?jǐn)?shù)(F1score)
F1 分?jǐn)?shù)是Precision和Recall的調(diào)和平均值,簡(jiǎn)記為F1,公式如下:
(4)準(zhǔn)確率(Accuracy)
一般用來(lái)評(píng)估模型的全局準(zhǔn)確程度,簡(jiǎn)記為Acc,計(jì)算公式如下:
其中,TP是檢測(cè)出開關(guān)并正確識(shí)別出?開關(guān)狀態(tài)的數(shù)量,TN表示檢測(cè)出非開關(guān)狀態(tài)的數(shù)量,表示所有類開關(guān)的數(shù)量之和.
(5)平均精度(average precision,AP)
平均精度AP常被用來(lái)衡量模型對(duì)某一單個(gè)類別的檢測(cè)精度.事實(shí)上,AP是P-R曲線下的面積,也就是單個(gè)類別圖像的精度Precision和所有圖像數(shù)量的比值,通常AP越高,表示模型對(duì)這個(gè)類別的檢測(cè)性能就越好.單個(gè)開關(guān)狀態(tài)AP的公式如下:
其中,APswitch表示單個(gè)類別開關(guān)狀態(tài)的平均精度,是這一類別開關(guān)狀態(tài)的精度和,Ntotal是單個(gè)類別開關(guān)的總數(shù)量.
(6)均值平均精度(mean average precision,mAP)
均值平均精度mAP,它用來(lái)衡量模型某類圖像的檢測(cè)精度.通常mAP的值越高,表示此模型的檢測(cè)性能越好.mAP的計(jì)算公式如下:
其中,APswitch表示某類開關(guān)狀態(tài)的平均精度值,是所有類開關(guān)狀態(tài)的精度和,Nclassestotal是開關(guān)狀態(tài)類別數(shù).
開關(guān)狀態(tài)識(shí)別效果評(píng)價(jià)指標(biāo)主要使用Precision、F1score、Accuracy和mAP(在實(shí)驗(yàn)中分別簡(jiǎn)記為P,F1,Acc和mAP),IoU均設(shè)置為0.5.將從第2.1 節(jié)的5 個(gè)方面進(jìn)行實(shí)驗(yàn)并對(duì)比分析,驗(yàn)證本文改進(jìn)算法的有效性.
(1)不同多分支膨脹卷積使用策略的對(duì)比實(shí)驗(yàn)
首先,通過(guò)一組實(shí)驗(yàn)驗(yàn)證膨脹卷積的有效性,將ResNet50 中的conv4 的殘差塊換成膨脹卷積,其結(jié)果如表3 所示.
表3 使用不同擴(kuò)張率膨脹卷積的對(duì)比實(shí)驗(yàn)(%)
由表3 結(jié)果可知,在開關(guān)數(shù)據(jù)集上,僅改變殘差塊的感受野大小可以提升模型檢測(cè)的效果.
從圖8 的特征圖中可以看出,conv1、conv2 輸出的特征圖與原圖像相比信息丟失較少,所以本文在conv3、conv4、conv5 這3 個(gè)模塊使用膨脹卷積,然后對(duì)conv3、conv4、conv5 使用多分支膨脹卷積的組合形式進(jìn)行了實(shí)驗(yàn),結(jié)果如表4 所示.
由表4 可知,在ResNet50 中的conv3、conv4、conv5 使用多分支膨脹卷積在開關(guān)狀態(tài)數(shù)據(jù)集上效果最好,比原模型mAP高了6%.
表4 多分支膨脹卷積不同層組合的對(duì)比實(shí)驗(yàn)(%)
(2)改進(jìn)的特征金字塔結(jié)構(gòu)使用前后的對(duì)比實(shí)驗(yàn)
本文改進(jìn)了FPN 結(jié)構(gòu),在原FPN 基礎(chǔ)上新加一條自底向上特征增強(qiáng)的分支,做了兩組對(duì)比實(shí)驗(yàn),分別在骨干網(wǎng)絡(luò)為ResNet50 和膨脹殘差網(wǎng)絡(luò)的Faster RCNN 模型上對(duì)比FPN 改進(jìn)前后模型的精度.實(shí)驗(yàn)結(jié)果如表5 所示.
表5 特征金字塔結(jié)構(gòu)使用前后的對(duì)比實(shí)驗(yàn)(%)
由表5 可知,在兩個(gè)骨干網(wǎng)絡(luò)上使用FPN 的效果都相當(dāng)明顯,以ResNet50 為骨干網(wǎng)絡(luò)的模型精度提升了4.1%; 使用改進(jìn)后的FPN,提升了對(duì)小目標(biāo)的檢測(cè)能力,比改進(jìn)前提升約0.8%,膨脹殘差網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)的模型提升了約0.5%.說(shuō)明改進(jìn)的FPN 對(duì)開關(guān)狀態(tài)的識(shí)別有作用.
(3)候選框聚類前后的對(duì)比實(shí)驗(yàn)
以上一組實(shí)驗(yàn)為基礎(chǔ),在Faster R-CNN 的RPN 網(wǎng)絡(luò)中設(shè)置適合數(shù)據(jù)集候選框大小和寬高比例,將使用原RPN 的候選框尺寸和使用K-means++算法得出的尺寸進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表6 所示.
表6 候選框聚類使用前后的對(duì)比實(shí)驗(yàn)(%)
由表6 可知,在開關(guān)狀態(tài)數(shù)據(jù)集上候選框聚類對(duì)模型精度的識(shí)別有提升效果,主要原因是開關(guān)形狀都是規(guī)則的,大多數(shù)的開關(guān)具有相似的大小和高寬比例.所以候選框聚類對(duì)提升模型識(shí)別精度有效.
(4)使用Soft-NMS 與使用NMS 的對(duì)比實(shí)驗(yàn)
原Faster R-CNN 模型使用的是傳統(tǒng)的NMS 算法來(lái)抑制重疊的候選框,物體重疊時(shí),NMS 的暴力丟棄容易導(dǎo)致丟失目標(biāo),本文改進(jìn)的模型使用Soft-NMS,提高了模型抑制候選框的效果,從而提升模型精度.
由表7 可知,Soft-NMS 對(duì)模型的識(shí)別效果有提升作用.因?yàn)閿?shù)據(jù)集中含有較多的電壓開關(guān),且這些開關(guān)緊密排列,在檢測(cè)這些開關(guān)時(shí),各個(gè)目標(biāo)的多個(gè)候選框容易重疊,Soft-NMS 比傳統(tǒng)的NMS 更有效地抑制重疊的候選框.
表7 使用Soft-NMS 與NMS 的對(duì)比實(shí)驗(yàn)(%)
(5)Faster R-CNN 與其他目標(biāo)檢測(cè)模型之間的對(duì)比實(shí)驗(yàn)
本節(jié)主要介紹改進(jìn)前后的Faster R-CNN 與YOLOv3、SSD 的比較實(shí)驗(yàn),其中,YOLOv3、SSD 均使用原始的骨干網(wǎng)絡(luò),實(shí)驗(yàn)比較結(jié)果如表8 所示.
表8 主流模型與本文模型的對(duì)比實(shí)驗(yàn)(%)
本文模型在開關(guān)狀態(tài)數(shù)據(jù)集上比傳統(tǒng)的Faster RCNN 檢測(cè)精度提升了約7%.而且模型能較好地適用于抽水蓄能電站設(shè)備的開關(guān)狀態(tài)識(shí)別,滿足了預(yù)期的識(shí)別精度要求,能夠輔助監(jiān)督抽水蓄能電站日常運(yùn)維操作.
不難發(fā)現(xiàn),模型的精確率Precision和F1score的數(shù)值較低,這是由于部分類沒有檢測(cè)出目標(biāo),識(shí)別出開關(guān)狀態(tài),經(jīng)過(guò)平均后數(shù)值較低.
為了進(jìn)一步分析和驗(yàn)證模型訓(xùn)練的穩(wěn)定性以及收斂性,對(duì)于改進(jìn)的Faster R-CNN 模型,給出了模型的損失收斂曲線和精度收斂曲線.結(jié)果如圖14、圖15 所示.
從圖14 中的曲線可以看出,模型在迭代4 000 step 之后損失基本收斂,從圖15 中的曲線可以看出,模型精度在訓(xùn)練40 epoch 之后基本收斂.所以模型的訓(xùn)練過(guò)程穩(wěn)定,收斂速度較快.
圖14 改進(jìn)模型的損失收斂曲線
圖15 改進(jìn)模型的mAP 收斂曲線
最后,對(duì)于改進(jìn)的Faster R-CNN,測(cè)試模型在其他開關(guān)數(shù)據(jù)集上的檢測(cè)效果.改進(jìn)后Faster R-CNN 對(duì)抽水蓄能電站設(shè)備開關(guān)狀態(tài)識(shí)別的效果圖,如圖16 所示.可以發(fā)現(xiàn),模型可以很好地檢測(cè)出圖像中的開關(guān),并且對(duì)開關(guān)狀態(tài)的分類準(zhǔn)確率很高,能夠起到輔助監(jiān)督的作用.
圖16 改進(jìn)的Faster R-CNN 檢測(cè)識(shí)別效果
針對(duì)大型廠房中設(shè)備開關(guān)狀態(tài)識(shí)別問題,提出了改進(jìn)的Faster R-CNN: 設(shè)計(jì)了膨脹殘差網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),提升了模型特征提取的性能; 改進(jìn)特征金字塔網(wǎng)絡(luò)進(jìn)行多尺度融合,提升小型開關(guān)的檢測(cè)效果; 使用K-means++算法對(duì)開關(guān)的真實(shí)邊界框進(jìn)行聚類,設(shè)計(jì)出更適合設(shè)備開關(guān)狀態(tài)數(shù)據(jù)集的候選框尺寸; 使用Soft-NMS 代替NMS,降低了NMS 暴力丟棄候選框?qū)﹂_關(guān)檢測(cè)的影響.最終,模型的mAP達(dá)到91.5%,并且已實(shí)際應(yīng)用于抽水蓄能電站日常運(yùn)維的設(shè)備開關(guān)狀態(tài)輔助識(shí)別,滿足復(fù)雜場(chǎng)景下的智能監(jiān)管需求.
在設(shè)備開關(guān)狀態(tài)識(shí)別問題上,實(shí)際應(yīng)用中由于拍攝角度可能嚴(yán)重偏離設(shè)備開關(guān),從而影響采集的開關(guān)狀態(tài)圖像的識(shí)別精度,這一問題仍然值得進(jìn)一步研究.