国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多分類融合模型的智能電能表故障預測

2022-11-23 11:26:34陳葉韓彤魏齡于秀麗李鑫雄
電測與儀表 2022年11期
關鍵詞:電能表準確率分類

陳葉,韓彤,魏齡,于秀麗,李鑫雄

(1.云南電網(wǎng)有限責任公司電力科學研究院,昆明 650217; 2.北京郵電大學 自動化學院,北京 100876;3.南方電網(wǎng)公司電能計量重點實驗室,昆明 650217)

0 引 言

智能電能表是電網(wǎng)采集系統(tǒng)中關鍵的計量設備,承擔著用電數(shù)據(jù)采集和傳輸?shù)娜蝿誟1],保障智能電能表的正常運行,故障電表維修的及時性,對用電企業(yè)、電網(wǎng)公司及家庭用戶的切身利益具有十分重要的意義。然而,智能電能表功能的日益豐富,伴隨而來發(fā)生的故障類型也逐漸多樣化[2],此外由于智能電能表的來源不同,國內多家供應商所選擇的設備原件、制作工藝有所區(qū)別,因此安裝后的智能電能表可能發(fā)生的故障類型有所差異[3]。當故障發(fā)生時,要求檢修人員能快速維護,然而實際操作中,運維系統(tǒng)因無法判斷具體故障導致故障電能表維修不及時[2]。如何確定智能電能表發(fā)生了何種故障,提高智能電能表的檢修效率,成為現(xiàn)在電能表檢修的一個關鍵問題。

國內對智能電能表的相關研究中,文獻[4]介紹了一種基于RFID的現(xiàn)場智能電能表快速定位手持終端的設計與實現(xiàn),文獻[5]應用Apriori關聯(lián)規(guī)則數(shù)據(jù)挖掘方法對智能電能表的質量問題進行了分析,文獻[6]對低壓用電信息系統(tǒng)故障分析與解決策略進行了研究分析,文獻[7]設計了一種基于圖像處理的自動檢測系統(tǒng),能夠實現(xiàn)智能電能表顯示面板質量檢測的自動化。

目前電網(wǎng)系統(tǒng)的數(shù)據(jù)中心每天采集智能電能表的運行數(shù)據(jù),其中的故障數(shù)據(jù)信息中包含故障電能表的生產廠家、設備類型、資產編號、投運日期、設備狀態(tài)、故障發(fā)現(xiàn)日期、故障來源、工作時長等相關屬性。本文針對采集的電能表歷史故障數(shù)據(jù)信息,利用數(shù)據(jù)統(tǒng)計、特征選擇、采樣方法、機器學習中的多分類等大數(shù)據(jù)分析技術,提出了一種多分類算法融合的智能電能表故障類型預測模型,之后若運行中的智能電能表發(fā)生故障時,只需要將該電能表的相關信息輸入到該模型中,便可得到相應的故障類型預測結果,并根據(jù)此結果快速匹配具備相關維修技能的工作人員,從而提高故障電能表的檢修效率,可以降低國家電網(wǎng)在智能電能表運維方面的人力成本和資源成本。

1 智能電能表故障多維度分析及故障類型篩選

針對智能電能表故障數(shù)據(jù)集,繪制了各屬性與故障類型之間的統(tǒng)計圖,初步分析各屬性是否可以作為故障預測模型的輸入,為后續(xù)數(shù)據(jù)的預處理方法和屬性相關度分析提供了依據(jù),并且對智能電能表故障數(shù)據(jù)集進行故障類型篩選,僅保留部分故障類型進行后續(xù)研究,并對特征缺失及異常的樣本進行剔除。

1.1 智能電能表故障數(shù)據(jù)整體統(tǒng)計分析

完成數(shù)據(jù)的初步處理之后,對樣本的故障類型進行統(tǒng)計分析。樣本的裝置故障共有16種故障類型,每種故障類型的具體名稱和對應的樣本數(shù)如表1所示。

表1 故障類型名稱及樣本數(shù)分布情況表

將各故障類型按樣本數(shù)量從高到低排序,其中后8種故障類型:故障死機、表箱損壞、時段錯亂、高壓TA匝間短路、過負荷TA、高壓TV匝間短路、斷熔絲、TA開路的樣本數(shù)據(jù)量偏少,故不做深入研究,將其相關樣本數(shù)據(jù)刪除,并將前8種故障類型分別編號為1~8,后文中故障類型皆用編號表示,對應關系如表2所示。

表2 故障類型名稱與編號對應表

從圖1可知各個故障類型樣本數(shù)量占比不均衡,其中1~3類故障占比較大,總計近79%,而7~8類故障占比較小,只占約2%,因此利用此數(shù)據(jù)集對故障分類預測模型訓練時,模型將基于樣本較多的故障數(shù)據(jù)做訓練,而屬性和小樣本的故障類型暫且不予處理,帶來的問題是模型容易出現(xiàn)過擬合現(xiàn)象。因此,本文提出了過采樣與欠采樣相結合的混合采樣方法解決數(shù)據(jù)不平衡的問題。

圖1 智能電能表故障類型樣本數(shù)量分布直方圖

1.2 智能電能表故障數(shù)據(jù)各屬性統(tǒng)計分析

將數(shù)據(jù)集明顯與故障類型無關的屬性刪除,并將目前屬性合并整理后,數(shù)據(jù)集中保留了對故障類型有影響的屬性,其中包括生產廠家、設備類型、正常運行時間、故障恢復時間、設備狀態(tài)、故障來源共6種屬性,由于篇幅原因,僅對設備類型與故障類型的相關性進行了統(tǒng)計分析,圖2為設備類型與故障類型的分析結果。由于不同類型的設備制造工藝不同,所以導致發(fā)生的故障類型也有所區(qū)別。

圖2 設備類型-故障類型交叉直方圖

2 智能電能表故障數(shù)據(jù)預處理

文中針對智能電能表故障數(shù)據(jù)中可能存在冗余特征或不相關特征的問題,通過計算特征之間的相關系數(shù),選擇不同的特征子集進行對比實驗,最終確定了數(shù)據(jù)集中應該保留的特征。并且針對智能電能表故障數(shù)據(jù)集中各故障類型樣本量差別較大的數(shù)據(jù)不平衡問題,采用過采樣和欠采樣結合的混合采樣方式解決該問題,并通過對比實驗驗證了該方式的可行性。

2.1 特征選擇

該部分主要通過計算各屬性特征與故障類型之間的相關系數(shù),然后選擇不同的特征子集基于決策樹算法進行對比實驗,實驗效果最佳的特征子集即為最后選定的特征集合。

各特征屬性之間及特征屬性與故障類型之間的相關系數(shù)公式如下:

假定一個數(shù)據(jù)集為:

T= {(x1,y1), (x2,y2), … ,(xn,yn)}

(1)

式中xi∈X?Rn;xi是第i個樣本數(shù)據(jù)特征的向量表達;X為輸入空間;yi∈Y?Rn,yi是第i個樣本的故障類別標簽;Y是輸出空間,且i=1,2,…,n,n為樣本個數(shù)。

假設數(shù)據(jù)集有N個特征屬性,φk表示第k個特征,k=1,2,…,N。

則該數(shù)據(jù)集各屬性特征與與故障類型之間的相關系數(shù)表示為:

r=[ρ1ρ2…ρk…ρN]

(2)

式中ρk表示第k個特征φk與樣本標簽故障類型之間的相關系數(shù),k=1,2,…,N,且有式(3)所示:

(3)

式中Cov(φk,Y)表示特征φk與樣本故障類型Y的協(xié)方差;D(φk)和D(Y)分別表示特征φk與故障類型Y的方差。得到的結果如表3所示。

表3 各屬性特征與故障類型之間的相關系數(shù)表

文中通過相關性的分析,能夠剔除與故障類型關聯(lián)性較弱的特征屬性,降低模型的復雜度,減少訓練參數(shù)。

考慮到不同特征與故障類型的相關系數(shù)差別較大,其中故障恢復時間、設備類型與故障類型的相關性較弱,因此將此二者屬性刪除,在剩余屬性中選擇如下三個特征子集:(1)正常運行時間、設備狀態(tài)、故障來源、生產廠家、故障恢復時間;(2)正常運行時間、設備狀態(tài)、故障來源、生產廠家、設備類型;(3)正常運行時間、設備狀態(tài)、故障來源、生產廠家、故障恢復時間、設備類型。分別利用如上特征子集,基于決策樹算法對智能電能表故障數(shù)據(jù)集進行學習,然后三個子集分類模型準確率的平均值,結果如下:(1)45.96%;(2)47.86%;(3)48.61%。

分析如上數(shù)據(jù)可以看出利用(3)號特征子集訓練所得的模型預測準確率相比較其它子集較高,所以最終選擇(3)號特征子集,即保留6個特征屬性:正常運行時間、設備狀態(tài)、故障來源、生產廠家、故障恢復時間、設備類型。

2.2 不平衡數(shù)據(jù)采樣

針對智能電能表故障數(shù)據(jù)集中存在類型樣本數(shù)量不平衡影響故障預測的結果及分類模型準確度不高的問題[8-14],本小節(jié)基于過采樣與欠采樣相結合的混合采樣,為實現(xiàn)對采樣后各類樣本數(shù)量的靈活調整設定了采樣平衡系數(shù),從而確定最佳的訓練數(shù)據(jù)集?;旌喜蓸拥牧鞒虉D如3所示,具體步驟如下:

圖3 混合采樣流程圖

(1)統(tǒng)計數(shù)據(jù)集中每個特征屬性對應的樣本數(shù)量。假設數(shù)據(jù)集的特征屬性類別為M種,每個特征屬性的樣本數(shù)為Num1,Num2,…,NumM。其中Numi表示第i類樣本的數(shù)據(jù)量,i= 1,2,…,M;

(2)確定各類別的采樣方式。取所有類別的樣本數(shù)量的中位數(shù)NumMed,若該類i的樣本數(shù)Numi大于NumMed,則該類別的采樣標記為0,即為欠采樣方式;若該類i的樣本數(shù)Numi小于NumMed,則該類別的采樣標記為0,即為欠采樣方式;

(3)確定各類別采樣后的理論數(shù)據(jù)量。首先設定采樣平衡系數(shù)a,a∈[0, 1],如該類采樣方式為過采樣,則該類理論樣本數(shù)量=該類原本樣本數(shù)量-a×(該類原本樣本數(shù)量-中位數(shù));若該類采樣方式為欠采樣,則該類理論樣本數(shù)量=該類原本樣本數(shù)量+a×(中位數(shù)-該類原本樣本數(shù)量),具體公式如式(4),類別i采樣后的理論樣本數(shù)為Num_newi,i= 1,2,…,M。

(4)

當假定采樣平衡系數(shù)a=0.5時,采樣過程中的相關數(shù)據(jù)計算結果如表4所示。

表4 采樣過程的相關數(shù)據(jù)表

3 智能電能表故障數(shù)據(jù)多分類預測模型

3.1 多分類預測模型的評估指標

混淆矩陣是對分類模型進行性能評價的重要工具,通過它可以計算真陽性率、假陽性率、真陰性率、假陰性率、準確率、精確率和F指標等各種評價指標。本文中模型預測精度的評價指標包括:準確率、精確率、召回率和F1分數(shù),正例表示此時正在進行計算分析的類別,其他類別作為反例。如圖4所示,TP表示正確地預測為正例,實際為正例;TN表示正確地預測為反例,實際為反例;FP表示錯誤地預測為正例,實際為反例;FN表示錯誤地預測為反例,實際為正例。文中所用的分類算法評價指標的計算公式可以由圖4的混淆矩陣推導得出,公式如下:

準確率=(TP+TN)/(TP+FN+FP+TN)

(5)

精確率=TP/(TP+FP)

(6)

召回率=TP/(TP+FN)

(7)

F1分數(shù)=2TP/(2TP+FP+FN)

(8)

圖4 混淆矩陣

3.2 多分類模型融合方法

假設現(xiàn)有模型1和模型2,樣本數(shù)據(jù)集共有M類數(shù)據(jù),樣本量為n,第k個分類模型訓練得到的模型為fk(x),fk(xi)表示該模型對第i個樣本的分類結果,k=1,2。假定一個數(shù)據(jù)集為:

T= {(x1,y1), (x2,y2), … ,(xn,yn)}

(9)

式中xi∈X,xi是第i個樣本數(shù)據(jù)特征的向量表達;X為輸入空間;yi∈Y,yi表示第i個樣本所屬的故障類型,Y是輸出空間,且i=1,2,…,n,n為樣本個數(shù)。

ak,j表示第k個分類模型的輸出結果中,第j類樣本的預測準確率,k=1,2,j=1,2,…M,可得兩個模型訓練結果中各類別的分類準確率為:

a1=[a1,1a1,2…a1,M]

a2=[a2,1a2,2…a2,M]

對原數(shù)據(jù)集的各樣本類別設置融合標志δ:

(10)

式中aj表示第j類樣本的融合標志,值為1表示該類樣本的預測輸出結果最終取分類模型1的結果,值為2表示該類樣本的預測輸出結果最終取分類模型2的結果。

對于原數(shù)據(jù)集中的每一個樣本設置融合標志,第j類的所有樣本的融合標志等于aj,j=1,2,…M。將數(shù)據(jù)集按訓練集:測試集等于7:3隨機劃分,基于訓練集分別對模型1和模型2進行訓練,訓練完成后,對于每一個測試樣本,根據(jù)該樣本的融合標志決定進入模型1或者模型2得到輸出。

所提方法的基模型個數(shù)沒有限制,當只有兩個基分類模型參與融合為最基礎的情形,當基分類模型的數(shù)量大于2時,只需要對此方法略做改動也可適用。

3.3 公共數(shù)據(jù)及實驗驗證及結果分析

本部分以機器學習權威KEEL[15]數(shù)據(jù)集中的的5組公共數(shù)據(jù)作為模型訓練集,通過比較各基分類模型和融合模型的準確率來驗證本章所提多模型融合方法的有效性。選取的5組公共數(shù)據(jù)集如表5所示。

表5 公共數(shù)據(jù)集具體信息

本部分實驗將各公共數(shù)據(jù)集采取隨機劃分的方法按7:3的比例分為訓練集和測試集,首先對SVM、決策樹、KNN、隨機森林四種基模型進行訓練,并得到各模型對測試數(shù)據(jù)集的預測準確率,然后選取KNN模型和隨機森林模型進行融合,得到融合后模型的預測準確率,結果如表6所示,表中的屬性準確率增長值等于屬性融合后模型準確率減去基模型準確率中的最大值所得的差。

表6 實驗結果對比

由表6可以看出,在解決公共數(shù)據(jù)集的分類問題時,基于本文所提的模型融合方法得到模型準確率相比較基分類模型具有明顯提升,說明該方法的普遍使用性和有效性,可以用于智能電能表故障數(shù)據(jù)集的分類研究。

3.4 智能電能表故障數(shù)據(jù)集實驗分析

為驗證所提多分類模型融合方法的有效性,采用常用分類算法中的支持向量機、決策樹、最近鄰和隨機森林算法對智能電能表故障數(shù)據(jù)集進行訓練學習作為對比實驗。實驗中基分類算法支持向量機、決策樹、最近鄰和隨機森林均使用機器學習常用第三方模塊sklearn內封裝的功能包實現(xiàn)。

實驗過程中,將智能電能表故障數(shù)據(jù)集采取隨機劃分的方法按7:3的比例分為訓練集和測試集,得到各基分類模型對各故障類別的預測準確率如表7所示。

表7 各分類模型對各類別的預測準確率

由表7可以看出,集成學習的隨機森林算法預測的平均準確率明顯高于其他算法,但是針對某一類樣本,如類別1,SVM模型的分類準確率又異常突出,高達97.02%,因此,有必要按照前文中所提的模型融合方法將兩種基分類模型進行融合,進一步提高分類準確率。

本部分設置了四個模型融合實驗,分別是KNN模型和隨機森林模型融合,SVM模型與隨機森林模型融合,SVM模型與KNN模型融合,KNN與決策樹模型融合,實驗中,仍以精確率、召回率和F1分數(shù)作為分類模型的評價標準,并且為了排除偶然性對實驗產生的影響,每個融合實驗重復100次,最后結果取均值,以增加實驗結果的可信度,實驗結果如表8~表11所示。

表8 KNN模型與隨機森林模型融合后結果

表9 SVM模型與隨機森林模型融合后結果

表10 SVM模型與KNN模型融合后結果

表11 KNN模型與決策樹模型融合后結果

由于篇幅所限,在兩者模型融合時的具體過程只以KNN模型與隨機森林模型融合為例說明,根據(jù)上文中所提融合方法,根據(jù)圖7中結果,對于類別1,KNN模型的預測準確率高于隨機森林模型,因此將類別1中所有樣本的融合標志設為1,即此類樣本的最終分類結果實際以KNN模型的輸出結果為準,而對于類別2~8,隨機森林模型的預測準確率高于KNN模型,因此這些類別中所有樣本的融合標志設為2,即這些類別的最終分類結果實際以隨機森林模型的輸出結果為準。確定融合標志之后,在融合模型中進行分類時,每一個樣本可根據(jù)自身的融合標志自適應的選擇進入合適的模型,從而得到相應的分類結果。

由實驗結果可以看出,利用所提的多分類模型融合方法,融合后模型的精確率、召回率和F1分數(shù)都有所提升,其中SVM模型和隨機森林模型融合后的性能提升最為顯著,由此可以得出結論,基于智能電能表故障數(shù)據(jù)集進行分類研究時,所設計的多分類模型融合方法可以提高分類準確率。

4 結束語

基于數(shù)據(jù)挖掘中的多分類算法,對國家電網(wǎng)公司收集到的智能電能表故障數(shù)據(jù)集進行分析和學習,并構建故障類型預測模型以解決故障的分類問題,從而提高智能電能表的檢修效率。

首先針對智能電能表故障數(shù)據(jù)集進行故障類型篩選,僅保留部分故障類型進行后續(xù)研究,并且對特征缺失及異常的樣本進行剔除;其次,對智能電能表故障數(shù)據(jù)集的各屬性進行初步地統(tǒng)計和分析,并利用可視化手段將結果直接地展示出來,為后續(xù)屬性相關度分析提供參考;然后對智能電能表故障數(shù)據(jù)集進行預處理,提高數(shù)據(jù)質量以滿足構建分類預測模型的需求,根據(jù)各屬性與故障類型的相關系數(shù)大小對數(shù)據(jù)集進行特征選擇,通過對比實驗確定最佳的特征子集,剔除了冗余特征或弱相關特征對結果的干擾,并且通過過采樣和欠采樣相結合的混合采樣方式來解決數(shù)據(jù)集中類不平衡的問題;最后搭建各基分類模型對智能電能表故障數(shù)據(jù)集進行訓練學習,得到各模型的預測準確率、精確率、召回率和F1分數(shù)的結果,提出了一種多分類模型融合方法,并在公共數(shù)據(jù)集上對該方法進行驗證,并最終在智能電能表故障數(shù)據(jù)集上進行實驗,實現(xiàn)了多分類模型效率的提升。故障預測有助于電網(wǎng)系統(tǒng)運維人員做出合理的解決方案,提高系統(tǒng)運維效率。

猜你喜歡
電能表準確率分類
巧數(shù)電能表
分類算一算
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
認識電能表
分類討論求坐標
高速公路車牌識別標識站準確率驗證法
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
上栗县| 平乡县| 江都市| 潜山县| 罗平县| 仙桃市| 宜兰县| 同仁县| 于都县| 南木林县| 黎城县| 濮阳市| 丹凤县| 宽城| 庆安县| 当涂县| 静安区| 长海县| 平顺县| 环江| 班戈县| 乌兰县| 黔西县| 文登市| 卢湾区| 遵化市| 潮州市| 泰来县| 囊谦县| 微山县| 南投县| 万盛区| 开封市| 简阳市| 化德县| 蒲城县| 阳高县| 余姚市| 磐石市| 武邑县| 方正县|