孫 磊, 吳文海, 柯 堅(jiān), 黨帥濤
(西南交通大學(xué) 機(jī)械工程學(xué)院,四川 成都 610031)
絕緣子作為電網(wǎng)系統(tǒng)的重要組成部分,由其表面污穢導(dǎo)致的污閃事故常對(duì)整個(gè)電網(wǎng)系統(tǒng)造成巨大經(jīng)濟(jì)損失[1,2]。國(guó)內(nèi)外對(duì)絕緣子的污穢檢測(cè)做出了大量研究,目前主要有:等值鹽密法、紅外圖像檢測(cè)法、紫外圖像檢測(cè)法、可見光圖像檢測(cè)等[3]。圖像檢測(cè)方法具有不斷電、非接觸等優(yōu)點(diǎn),其中可見光圖像檢測(cè)受到環(huán)境因素干擾小、工作條件廣、魯棒性好等優(yōu)點(diǎn)備受關(guān)注[4,5]。在可見光圖像中,室外絕緣子通過(guò)顏色差異描述其等值灰密,可有效表示污穢狀況[6],自動(dòng)化圖像檢測(cè)方法也因準(zhǔn)確率高、響應(yīng)快、安全可靠等優(yōu)點(diǎn)成為該鄰域研究熱點(diǎn),然而室外環(huán)境條件復(fù)雜,機(jī)器學(xué)習(xí)空間中的異常類樣本數(shù)量相對(duì)較少,致使傳統(tǒng)分類方法得到的分類超平面產(chǎn)生偏移,泛化能力下降。這導(dǎo)致待測(cè)絕緣子產(chǎn)生錯(cuò)誤檢測(cè):非污穢目標(biāo)檢測(cè)為污穢,稱為誤檢;污穢目標(biāo)檢測(cè)為非污穢,稱為漏檢。部分圖像樣本因處于區(qū)分邊緣附近,難以準(zhǔn)確分類,然而傳統(tǒng)分類方法強(qiáng)行對(duì)其進(jìn)行分類,導(dǎo)致了檢測(cè)結(jié)果必然伴隨不可避免的誤檢與漏檢。誤檢與漏檢均降低了絕緣子的污穢檢測(cè)精度,實(shí)際工作中,應(yīng)盡可能地降低漏檢率。
支持向量數(shù)據(jù)描述(support vector data description,SVDD)作為一種經(jīng)典的單分類方法,以支持向量機(jī)和統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ),具有堅(jiān)實(shí)的理論支持和高效的學(xué)習(xí)能力[7]。但經(jīng)典SVDD對(duì)離群點(diǎn)及異常點(diǎn)較為敏感,容易產(chǎn)生過(guò)學(xué)習(xí);且其數(shù)據(jù)描述邊界間隔為0,魯棒性不高。針對(duì)此類問(wèn)題,許多專家學(xué)者取得了諸多研究成果,文獻(xiàn)[8,9]考慮到數(shù)據(jù)集本身的分布信息,構(gòu)造了基于樣本本身分布信息的模糊數(shù)據(jù)描述輪廓,改善了經(jīng)典SVDD的數(shù)據(jù)敏感問(wèn)題;Chen G等人[10]引入不敏感損失函數(shù)ε的概念,構(gòu)造了一個(gè)ε間隔,在一定程度上解決了分類間隔為零的問(wèn)題;Nguyen P等人[11]提出Distant SVDD,在SVDD的最小包圍球的基礎(chǔ)上最大化球心至原點(diǎn)的距離,文獻(xiàn)[12]改進(jìn)了Nguyen P[11]的方法,推廣構(gòu)建了最小二乘形式,提高了SVDD的泛化能力。
上述方法均對(duì)SVDD的局部缺陷進(jìn)行改進(jìn),但缺乏整體考慮。為了解決典型樣本不足的問(wèn)題,設(shè)計(jì)一種雙超球數(shù)據(jù)域描述模型,在SVDD最小化包圍球的前提下優(yōu)化一個(gè)最大超球,使其能夠接收更多的樣本,并把異常樣本排除在外,以此避免對(duì)難以區(qū)分的樣本進(jìn)行分類決策,從而降低絕緣子的誤檢率與漏檢率。
對(duì)于n個(gè)訓(xùn)練樣本x,SVDD尋找最小超球R使絕大部分樣本處于該超球體之內(nèi),極少部分異常樣本被排除在超球體之外,表達(dá)形式
(1)
式中a為超球中心;ε為松弛變量;C為正則化參數(shù)。
為改善數(shù)據(jù)描述性能通常引入核函數(shù)把原始數(shù)據(jù)映射到高維特征空間,并在高維特征空間中最小化包圍球。
傳統(tǒng)的SVDD及其改進(jìn)算法通過(guò)調(diào)整正則化參數(shù)來(lái)改變超球半徑,必然導(dǎo)致更多的樣本位于超球體之外(或內(nèi)),增加了誤檢率(或漏檢率),這是機(jī)器學(xué)習(xí)中最常見的兩種錯(cuò)誤。位于決策邊界處的樣本的決策信息與分割閾值相近,難以準(zhǔn)確處理,這也是造成SVDD精度不足的主要原因。面對(duì)這種情況,嘗試避免做出決策。
(2)
圖1中,虛線輪廓為新生成的大超球輪廓,相比較于傳統(tǒng)SVDD模型,雙超球?qū)⒃瓨颖痉指魹?個(gè)區(qū)域,大超球的存在使得小超球在盡可能包含所有樣本的同時(shí)令絕大多數(shù)的異常樣本被排除在大超球外,而原本容易造成分類誤差的不確定性樣本則被分隔在兩個(gè)超球輪廓之間。
圖1 二維DSHDD
為了進(jìn)一步改善DSHDD方法的性能,引入一個(gè)反映樣本本身分布信息的模糊因子ωi,構(gòu)造模糊雙超球數(shù)據(jù)域描述(fuzzy double hyper-sphere data description,FDHSDD),理論公式
(3)
模糊均值聚類(fuzzy means clustering,FMC)是在硬均值聚類的基礎(chǔ)上引入模糊數(shù)學(xué)的概念,通過(guò)聚類的方法對(duì)樣本進(jìn)行軟劃分,建立樣本與類別間的不確定性描述。
為驗(yàn)證方法的有效性,選取206幅不同污穢情況的絕緣子圖像(正常樣本189幅,異常樣本17幅)進(jìn)行測(cè)試,比較SVDD與DSHDD性能的差異。實(shí)驗(yàn)環(huán)境為:Windows 10操作系統(tǒng),Intel酷睿4核CPU,主頻為3.3 GHZ,4 G內(nèi)存,運(yùn)行平臺(tái)為MATLAB 2016。核函數(shù)選擇高斯核函數(shù),其中σ為核函數(shù)寬度
(4)
利用模糊支持向量數(shù)據(jù)描述(fuzzy SVDD,FSVDD)和FDSHDD對(duì)樣本進(jìn)行學(xué)習(xí)訓(xùn)練,通過(guò)10次10折交叉驗(yàn)證的網(wǎng)格搜索算法來(lái)獲取優(yōu)化SVDD與本文DSHDD方法的最佳參數(shù)。分別得到如圖2、圖3、圖4的模型。
圖2 FSVDD
圖3 調(diào)整參數(shù)后的FSVDD
圖4 FDSHDD
圖2中,SVDD方法通過(guò)在特征空間最小化一個(gè)包圍球,將絕緣子樣本分割為兩部分,其中超球邊界內(nèi)的樣本被認(rèn)為是無(wú)污穢或輕度污穢的正常樣本,超球邊界外的樣本被認(rèn)為是污染嚴(yán)重,需要維護(hù)處理的異常樣本。然而0間隔的邊界造成其附近出現(xiàn)大量的樣本錯(cuò)判,即誤檢與漏檢。為了降低漏檢率,對(duì)SVDD參數(shù)進(jìn)行調(diào)節(jié)以減小超球輪廓,如圖3所示。漏檢率降低的同時(shí)造成了誤檢率上升,導(dǎo)致了無(wú)意義的清潔維護(hù)工作,造成資源浪費(fèi)。
DSHDD方法則通過(guò)建立雙超球模型,在隔離正常樣本與異常樣本的同時(shí),對(duì)部分無(wú)法準(zhǔn)確分類的樣本設(shè)置了“拒絕區(qū)域”,有效地降低了漏檢率與誤檢率,如圖4所示。
由表1可知,傳統(tǒng)SVDD方法無(wú)法調(diào)和誤檢率與漏檢率,而DSHDD則在犧牲了部分檢測(cè)率的前提下,有效降低了誤檢率與漏檢率。就檢測(cè)精度而言,DSHDD方法更適用于實(shí)際工作的安全性與經(jīng)濟(jì)性,具備良好的分類檢測(cè)效果。
表1 原始方法與改進(jìn)方法性能對(duì)比
針對(duì)室外污穢絕緣子異常數(shù)據(jù)較多及SVDD方法魯棒性不強(qiáng)等缺陷,本文提出一種基于SVDD改進(jìn)的DSHDD模型,在SVDD最小超球外優(yōu)化一個(gè)帶參數(shù)的大超球邊界使其盡可能地接收更多的樣本,并把絕大部分異常數(shù)據(jù)排除在外,對(duì)于不能準(zhǔn)確分類的樣本避免決策,即將樣本分類為正常區(qū)域、異常區(qū)域與拒絕區(qū)域。結(jié)果表明:該方法可以有效降低絕緣子污穢檢測(cè)中的誤檢與漏檢情況。