国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林模型的臺區(qū)相序識別方法

2021-08-21 20:46蔡永智唐捷危阜勝李健郭文翀董志奎楊銀
機電工程技術(shù) 2021年12期
關(guān)鍵詞:隨機森林

蔡永智 唐捷 危阜勝 李健 郭文翀 董志奎 楊銀

摘要:低壓臺區(qū)拓?fù)潢P(guān)系識別是實現(xiàn)電網(wǎng)智能化的一個關(guān)鍵基礎(chǔ),相對于人工識別,從數(shù)據(jù)挖掘角度進(jìn)行識別,具有成本低、準(zhǔn)確率高、時效性好的優(yōu)勢。就其相序識別問題,提出了基于隨機森林算法的低壓臺區(qū)相序關(guān)系自動識別方法。首先基于隨機算法原理搭建了用于臺區(qū)相序識別的隨機森林算法模型,并提出采用 F1_score統(tǒng)計值作為識別模型的評價指標(biāo);然后將搭建好的模型應(yīng)用到實際臺區(qū)進(jìn)行訓(xùn)練,訓(xùn)練方式設(shè)置了兩類測試集:口袋內(nèi)臺區(qū)測試集與口袋外臺區(qū)測試集;最后將訓(xùn)練好的算法模型對測試樣本進(jìn)行相序分許。實證結(jié)果證明,所提方法對臺區(qū)的相序拓?fù)浞治鲇休^高準(zhǔn)確性,為低壓臺區(qū)拓?fù)浞治鎏峁┝艘环N技術(shù)思路和可行方法。

關(guān)鍵詞:低壓臺區(qū);相序識別;隨機森林

中圖分類號:TM71???????????? 文獻(xiàn)標(biāo)志碼:A

文章編號:1009-9492(2021)12-0050-04

開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

Phase Sequence Recognition Method of Station Area Based on Random Forest Algorithm

Cai Yongzhi1,Tang Jie2,Wei Fusheng2,Li Jian1,Guo Wenchong1,Dong Zhikui3,Yang Yin3

(1. Metrology Center of Guangdong Power Grid Co., Ltd., Guangzhou 510060, China;

2. Guangdong Power Grid Corp, Guangzhou 510060, China;3. Guangzhou Power Electrical Technology Co., Ltd., Guangzhou 510700, China)

Abstract: The recognition of low-voltage station topology is a key foundation for the realization of intelligent power grid. Compared with manual recognition, recognition from the perspective of data mining has the advantages of low cost, high accuracy, and good timeliness. Regarding the phase sequence identification problem, an automatic identification method of the phase sequence relationship of low-voltage stations based on the random forest algorithm was proposed. First, based on the principle of random algorithm, a random forest algorithm model for phase sequence recognition of station area was built, and the F1_score statistical value was proposed as the evaluation index of the recognition model. Then the built model was applied to the actual station area for training. The training method was set with two types of test sets: the pocket inner station area test set and the pocket outer station area test set. Finally, the trained algorithm model was divided into the phase sequence of the test samples. The empirical results prove that the proposed method has high accuracy in the phase sequence topology analysis of the station area, then provides a technical idea and feasible method for the topology analysis of the low voltage station area.?????? Key words: low-voltage station area; phase sequence recognition; random forest

0 引言

隨著社會的發(fā)展,用戶對更可靠更優(yōu)質(zhì)的電能供應(yīng)、更優(yōu)質(zhì)更貼心的供電服務(wù)的要求日益提升[1-2]。而技術(shù)進(jìn)步推進(jìn)了智能配電網(wǎng)建設(shè)快速發(fā)展,給電網(wǎng)公司管理電網(wǎng)運行及提升服務(wù)提供了技術(shù)支撐。配電網(wǎng)的拓?fù)浣Y(jié)構(gòu)是配電網(wǎng)進(jìn)行線損分析、故障診斷、潮流計算、三相平衡等應(yīng)用功能的基礎(chǔ)。隨著智能電表的普及,終端用戶用電數(shù)據(jù)的積累,這使得能夠?qū)ε_區(qū)數(shù)據(jù)進(jìn)行挖掘,研究臺區(qū)運行數(shù)據(jù)高頻采集、戶變、相序與線戶關(guān)系識別算法研究變?yōu)榭赡堋?/p>

相序識別問題是拓?fù)渥R別的一個子問題,目前從數(shù)據(jù)驅(qū)動角度來分析相序識別已有較多的研究成果,大概可分為顯式規(guī)則分析和隱式規(guī)則分析兩種技術(shù)路線,顯式規(guī)則分析是首先研究臺區(qū)供電網(wǎng)絡(luò)中各用戶的電氣物理特征,得到同相線用戶和異相線用戶的電氣關(guān)聯(lián)規(guī)律,以此為理論依據(jù)設(shè)計算法,唐捷等[3]建立了用戶時空特性模型,證明了了同相線用戶的電氣距離更近,然后采用電壓相關(guān)性來描述電表的集群特性,基于此提出了電壓相關(guān)性分類結(jié)合電流優(yōu)化的相序識別算法。張麗強等[4]采用線性回歸方式描述了單相用戶和同相母線的電壓具有更好的回歸效果。一些學(xué)者基于電壓聚類進(jìn)行相序分析,在實驗中都取得了不錯的效果[5-8]。采用這種方法所建立的算法普適性較好,計算效率高,魯棒性強,但其應(yīng)用效果受數(shù)據(jù)質(zhì)量影響,背后機理復(fù)雜,難以分析改進(jìn)。為此,從隱式規(guī)則分析來嘗試解決這些問題,借用機器學(xué)習(xí)善于處理高維、非線性的復(fù)雜映射問題的特點研究機器學(xué)習(xí)算法的相序識別模型成為可能。

目前關(guān)于隱式規(guī)則的機器學(xué)習(xí)算法的相序識別研究較少,谷海彤等[9] 針對載波技術(shù)對網(wǎng)絡(luò)拓?fù)涞年P(guān)聯(lián),提出了基于CNN-LSTM深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的臺區(qū)戶變拓?fù)潢P(guān)系的識別模型,該方法對臺區(qū)戶變拓?fù)渥R別問題提出了深度學(xué)習(xí)方式解決思路,但沒有就相序識別做分析。本文從機器學(xué)習(xí)視角分析了相序識別的可行性,結(jié)合隨機森林算法,搭建了低壓臺區(qū)相序識別模型,通過對實際臺區(qū)的數(shù)據(jù)樣本進(jìn)行訓(xùn)練和測試,結(jié)果表明本文所提模型具有較好的適應(yīng)效果。

1隨機森林算法

隨機森林算法是集成學(xué)習(xí)領(lǐng)域的常用算法,是由美國學(xué)者LeoBreiman結(jié)合Bagging方法和隨機屬性子空間理論提出的一種集成學(xué)習(xí)方法[10] 。隨機森林中的決策樹通常選用分類回歸樹決策樹算法(Classification And Re? gression Tree,CART)決策樹。Cart 決策樹算法有兩個基本思想:(1)建樹過程是通過對訓(xùn)練樣本集D進(jìn)行遞歸地劃分自變量空間來訓(xùn)練決策樹的生長;(2)剪枝過程則利用驗證數(shù)據(jù)集V進(jìn)行剪枝[11-12] 。

1.1 建樹過程

假設(shè)數(shù)據(jù)集D中有m個不同的類別Ci。Ci, D是數(shù)據(jù)集 D中Ci類元組的集合, |D| 和|C | i, D 分別是D和Ci, D元組的個數(shù),則CART決策樹使基尼指數(shù)Gini(D),計算公式為:

式中:Pi為Ci類元組出現(xiàn)的頻率。

假設(shè)存在屬性A,其數(shù)值形式為離散型,A的二元劃分將D劃分為D1和D2,則在給定劃分的條件下,D的基尼指數(shù)為:

基于屬性A的二元劃分使得不純度降低量為:

CART 算法遍歷每個屬性,將能產(chǎn)生最大不純度降低的屬性作為劃分點。

1.2 剪枝過程

為防止建樹過程過度適應(yīng)數(shù)據(jù)問題,CART 算法常用的是事后剪枝進(jìn)行模型修正,即在決策樹已經(jīng)完全長成后對其進(jìn)行剪枝,剪枝以后會生成剪枝子樹,再利用交叉驗證法篩選效果最優(yōu)的剪枝操作,具體算法如下。

假設(shè)任意一顆以t為根節(jié)點的決策樹Tt,其損失函數(shù)定義為:

式中: C( Tt )為決策樹訓(xùn)練過程中的損失函數(shù),在 CART 回歸樹中是均方差,在 CART分類樹中是基尼系數(shù); α為正則化參數(shù);Tt 為葉子數(shù)量,表示樹的規(guī)模,可以用來衡量模型容量。

剪枝以后得到僅含有 t 節(jié)點的單節(jié)點決策樹,其損失函數(shù)為:

Cα( t )= C( t )+α

當(dāng)α=0或者很小,則有不等式:

Cα(Tt )< Cα( t )

當(dāng)α增大到一定程度則有:

Cα(Tt )= Cα( t )

假設(shè)此時α為α1 ,可以推導(dǎo)得:

當(dāng)α>α1 的時候,如果需要得到最優(yōu)子樹則必須進(jìn)行剪枝。當(dāng)?shù)玫溅恋膮^(qū)間,就對完整 Tt 的任意子樹{Ti , i =1, 2, 3, … , m},計算Cα(Ti ),找到最小Cα(Ti )所對應(yīng)的子樹。

2 臺區(qū)相戶關(guān)系隨機森林識別模型

2.1? 算法模型

隨機森林是由 B 棵 CART決策樹作為弱學(xué)習(xí)器組成的集合:{T1(X), T2(X), …, TB(X)},在分類問題中,統(tǒng)計 B 棵 CART的決策結(jié)果的投票,取最大投票數(shù)的結(jié)果作為最后隨機森林的輸出結(jié)果。

訓(xùn)練集樣本數(shù)據(jù),特征變量用 D ={(X1 , Y1), … , (XN? , YN )}, Xi (i =1, … , N )來表示,而 Yi 指采用點的真實相序關(guān)系,其中 X 是具有 M 維的特征向量,表示為 X ={x1 , x2 , x3 , … , xM },是數(shù)據(jù)集 D 的一個訓(xùn)練樣本,y 為樣本標(biāo)簽,原始訓(xùn)練數(shù)據(jù)集有 N 個樣本集, M 個特征變量,算法流程如圖1所示。

隨機森林相序識別模型的流程如下。

(1) 從數(shù)據(jù)集 D 中,采用 Bootstrap采樣方法,進(jìn)行有放回重抽樣得到與原始數(shù)據(jù)集數(shù)量相同的數(shù)據(jù)集,重復(fù)上述操作 k 次構(gòu)造訓(xùn)練樣本集 Dtr ain ={D1 , D2 , …,Dk },其中每一個數(shù)據(jù)集 Di (i

(2) 構(gòu)建隨機森林,隨機森林是 W 棵 CART決策樹經(jīng)過訓(xùn)練構(gòu)成的,樹的個數(shù) W 可人為設(shè)定。每顆決策樹生長訓(xùn)練的過程是相互獨立的,它們之間是無關(guān)聯(lián)的,這樣就進(jìn)一步增加了隨機性,提高模型的泛化能力。

(3) 計算隨機森林的輸出結(jié)果,隨機森林的最終預(yù)測結(jié)果則是所有決策樹結(jié)果的眾數(shù)。

2.2 模型評價指標(biāo)

相序識別分類屬于多分類任務(wù),本文將采用 F1_score以及準(zhǔn)確率作為評價模型性能的指標(biāo)。F1_score 用于多分類問題以及樣本不平衡問題中,是查準(zhǔn)率于查全率的綜合。F1_score指標(biāo)基于混淆矩陣計算得到?;煜仃嚱Y(jié)構(gòu)如下:

其中真陽性記錄與假陽性記錄分別代表模型將陽性樣本標(biāo)記為陽,陰性樣本標(biāo)記為陽。假陰性記錄與真陰性記錄分別代表模型將陽性樣本標(biāo)記為陰,陰性樣本標(biāo)記為陰。為了引出 F1_score 概念,定義了查準(zhǔn)率(recall)、查全率(precision)兩個統(tǒng)計值:

F1_score指標(biāo)考慮了查準(zhǔn)率與查全率的平衡,計算

公式如下:

3 算例分析

本文選用數(shù)據(jù)有兩部分,一部分是東莞市某臺區(qū)2019年12月份的臺區(qū)智能電表的運行數(shù)據(jù)作為,另一部分是肇慶某臺區(qū)2019年12月份的臺區(qū)智能電表的運行數(shù)據(jù)。實證分析分為兩部分,一部分是口袋內(nèi)臺區(qū)實證分析,即利用臺區(qū) A 的歷史數(shù)據(jù)作為訓(xùn)練集,用臺區(qū) A 的某個時期的數(shù)據(jù)作為測試集;另一個口袋外臺區(qū)實證分析,即利用臺區(qū) A 的歷史數(shù)據(jù)作為訓(xùn)練集,用臺區(qū) B 的歷史數(shù)據(jù)作為測試集。

采用隨機森林算法得到口袋內(nèi)臺區(qū)和口袋外臺區(qū)的 F1_score值結(jié)果如表1所示。

為了后續(xù)模型優(yōu)化以及拓展建模思路,對模型分類中的錯誤樣本進(jìn)行畫像分析對錯誤樣本在結(jié)果信心分布、時間分布兩個方面進(jìn)行統(tǒng)計刻。隨機森林相序識別模型分類信心指數(shù)分布如表2所示。從左到右本分別是隨機森林相序識別模型對 A 相、B 相、C相的分類信心。

為了驗證是否分類錯誤樣本的模型信心指數(shù)是偏低的。統(tǒng)計分析如圖2所示。

圖2(a)中信心均值為0.56,可以看到絕大多數(shù)都在0.4~0.68之間,極少數(shù)為0.9以上。而且,有些樣本的極大值居然比0.4小。圖2(b)中信心均值為0.785,可以看到大多數(shù)正確分類樣本的信息指數(shù)在0.65~1之間,很多是直接為1。

對于3分類而言,當(dāng)信心分?jǐn)?shù)很均衡的時候,0、1、2大部分應(yīng)該在0.33之間,因此可知,錯誤分類的樣本信心指數(shù)都不高。錯誤樣本中有70%的信心小于0.64,可以推斷造成錯誤的主要原因在于錯誤樣本在當(dāng)前特征集空間內(nèi),難以產(chǎn)生較大的信息不純度下降,下一階段應(yīng)該著重優(yōu)化特征集合,并增加訓(xùn)練樣本所覆蓋的臺區(qū)量。

對錯誤樣本的所發(fā)生的時間進(jìn)行刻畫,提取每個樣本所屬的日期,將星期一到星期日映射到(0,6)數(shù)值空間。統(tǒng)計結(jié)果如圖3所示。由圖可知,分類錯誤樣本中周末的占比要遠(yuǎn)大于分類正確樣本中周末占比,可以推斷:(1)電壓序列的特征分布存在周末與工作日的差異;(2)周末的分類難度較大;(3)由于周末于工作日存在差異,且周末樣本少可能是造成難度較大的原因。上述分析有助于接下來對模型進(jìn)行優(yōu)化,理清思路。

4 結(jié)束語

本文在海量智能電表用電數(shù)據(jù)的基礎(chǔ)上,針對以往低壓臺區(qū)人工相序識別準(zhǔn)確率低,成本高等缺陷,提出了隨機森林相序識別方法。區(qū)別于傳統(tǒng)的數(shù)據(jù)分析方法,本文對訓(xùn)練樣本設(shè)置了口袋內(nèi)臺區(qū)和口袋外臺區(qū),通過實證分析對兩種樣本的訓(xùn)練模型進(jìn)行對比,結(jié)果表明,口袋外臺區(qū)的相序識別效果和口袋內(nèi)臺區(qū)的相序識別效果相當(dāng),說明所提模型具有較好的泛化性和遷移能力。此外,對分類結(jié)果進(jìn)行信心分布和時間分布統(tǒng)計,發(fā)現(xiàn)分類錯誤樣本信心指數(shù)偏低,且在周末時段更容易發(fā)生分類錯誤,說明所提模型還需進(jìn)一步優(yōu)化特征集合的區(qū)分度,同時為了提高模型識別效果,樣本可挑選工作日的用電數(shù)據(jù)進(jìn)行相序分析。

參考文獻(xiàn):

[1] 張勇軍, 劉斯亮, 江金群, 等. 低壓智能配電網(wǎng)技術(shù)研究綜述 [J]. 廣東電力, 2019, 32(1): 1-12.

[2] 李西明,趙斌,楊一帆,等. 基于泛在電力物聯(lián)網(wǎng)技術(shù)的配電網(wǎng)故障診斷方法優(yōu)化[J].內(nèi)蒙古電力技術(shù),2020,38(1):63-65.

[3] 唐捷,蔡永智,周來,等. 基于數(shù)據(jù)驅(qū)動的低壓配電網(wǎng)線戶關(guān)系識別方法[J]. 電力系統(tǒng)自動化, 2020, 44(11): 127-137.

[4] 張麗強,叢偉,董罡,等.基于多元線性回歸的單相電表相別判斷方法[J].電力自動化設(shè)備,2020,40(5):144-156.

[5] 徐曉東,呂干云,魯濤,等. 基于智能電表數(shù)據(jù)與模糊C均值算法的臺區(qū)識別[J].南京工程學(xué)院學(xué)報(自然科學(xué)版),2020,18(4): 1-7.

[6] 連子寬,姚力,劉晟源,等.基于 t-SNE 降維和 BIRCH 聚類的單相用戶相位及表箱辨識 [J].電力系統(tǒng)自動化,2020,44(8): 176-184.

[7] 張然,孫曉璐,何仲瀟,等.基于異常點檢測和改進(jìn) K-means 算法的臺區(qū)用戶相別辨識方法[J].智慧電力,2020,48(1):91-96.

[8] 耿俊成,張小斐,萬迪明,等.基于電壓曲線聚類分析的低壓用戶相序自動識別[J].電力大數(shù)據(jù),2019,22(12):1-8.

[9] 谷海彤,張遠(yuǎn)亮,盧翔智,等.基于深度學(xué)習(xí)的戶變拓?fù)潢P(guān)系的識別方法研究[J].信息系統(tǒng)工程,2020(3):150-151.

[10] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-38.

[11] 李欣海.隨機森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報,2013,50(4):1190-1197.

[12] 姚登舉,楊靜,詹曉娟.基于隨機森林的特征選擇算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2014,44(1):137-141.

第一作者簡介:蔡永智(1984-),男,博士,工程師,研究領(lǐng)域為電能數(shù)據(jù)分析。

(編輯:王智圣)

猜你喜歡
隨機森林
隨機森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
基于隨機森林的登革熱時空擴散影響因子等級體系挖掘
基于隨機森林的HTTP異常檢測
個人信用評分模型比較數(shù)據(jù)挖掘分析
隨機森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
基于二次隨機森林的不平衡數(shù)據(jù)分類算法
拱壩變形監(jiān)測預(yù)報的隨機森林模型及應(yīng)用
基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
基于奇異熵和隨機森林的人臉識別
基于隨機森林算法的B2B客戶分級系統(tǒng)的設(shè)計
麟游县| 木里| 麦盖提县| 绿春县| 即墨市| 屏东市| 光山县| 瑞丽市| 盖州市| 蒙城县| 五河县| 威海市| 驻马店市| 黎平县| 永济市| 阿瓦提县| 沽源县| 满洲里市| 辽中县| 鹿泉市| 丁青县| 昌宁县| 靖边县| 民权县| 徐水县| 东阿县| 镇安县| 定南县| 平谷区| 莲花县| 都匀市| 辽阳市| 长沙市| 合水县| 黎城县| 临颍县| 乌苏市| 繁昌县| 潞城市| 隆林| 松潘县|