国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘判別用電類別異常的分析與研究

2020-06-08 08:31金昌鉉朱宇龍馬博劉森黎晚晴陳玲娜
科技與創(chuàng)新 2020年10期
關(guān)鍵詞:類別代碼用電

金昌鉉,朱宇龍,馬博,劉森,黎晚晴,陳玲娜

基于數(shù)據(jù)挖掘判別用電類別異常的分析與研究

金昌鉉1,朱宇龍1,馬博1,劉森1,黎晚晴2,陳玲娜2

(1.中國南方電網(wǎng)有限責(zé)任公司,廣東 廣州 510000;2.南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司,廣東 廣州 510000)

隨著電網(wǎng)企業(yè)全面實現(xiàn)智能電表全覆蓋和低壓集抄全覆蓋,產(chǎn)生了海量實時的計量數(shù)據(jù),這些數(shù)據(jù)通過分析挖掘技術(shù),可在輔助電網(wǎng)規(guī)劃、電網(wǎng)運行狀態(tài)監(jiān)控、負(fù)荷預(yù)測等方面發(fā)揮價值。然而,利用傳統(tǒng)的統(tǒng)計分析挖掘技術(shù),較難處理如此海量的計量數(shù)據(jù),也無法識別異常數(shù)據(jù)蘊藏的企業(yè)經(jīng)營風(fēng)險問題,因此,有必要引入大數(shù)據(jù)分析挖掘技術(shù),運用分類預(yù)測算法進(jìn)行異常分析,有效識別電網(wǎng)高價值用戶的用電類別異常。對電網(wǎng)企業(yè)用戶如高耗能行業(yè)用戶、一般工商業(yè)用戶、大工業(yè)用戶以及居民用戶的用電數(shù)據(jù)進(jìn)行深入研究,從宏觀和微觀角度分別對用電行為數(shù)據(jù)進(jìn)行特征提取和行為分析,刻畫出不同用電類別用戶的負(fù)荷曲線,歸納用電行為特征,運用有效監(jiān)督的數(shù)據(jù)挖掘算法構(gòu)建用電類別異常識別模型,并和用戶檔案中的用電類別數(shù)據(jù)進(jìn)行核對,找出異常數(shù)據(jù),輔助識別電能計算裝置使用異常、用戶檔案信息錯亂和電費收取錯誤等異常。

用電行為;數(shù)據(jù)挖掘;日負(fù)荷曲線;決策樹算法

1 引言

隨著智能電網(wǎng)的普及,電力自動化數(shù)據(jù)日漸增多,如何從這些海量的數(shù)據(jù)中挖掘出其隱藏的價值便顯得尤為重要。整個社會的用電量是無法估量的,用電的時間段、用電高峰的電力負(fù)荷、用電的需求這些都處于時時變化的狀態(tài)。大數(shù)據(jù)時代的到來,已推進(jìn)了新興技術(shù)的突破,其中,分布式分析挖掘計算引擎Spark也帶給了人們挖掘海量數(shù)據(jù)的可能性,而數(shù)據(jù)的背后通常也隱藏了事物發(fā)展的潛在規(guī)律,用電數(shù)據(jù)也不例外。運用分類預(yù)測算法,從海量數(shù)據(jù)中挖掘出不同類別用戶的用電行為規(guī)律,是本文研究的核心內(nèi)容。

通過閱讀大量的文獻(xiàn)發(fā)現(xiàn),當(dāng)前對用電用戶的研究大多集中在運用用戶基本信息和客戶服務(wù)數(shù)據(jù)構(gòu)建標(biāo)簽的用戶畫像相關(guān)的技術(shù),但因數(shù)據(jù)質(zhì)量問題,用戶標(biāo)簽和其用電行為標(biāo)簽未能完全匹配。

本研究運用大數(shù)據(jù)挖掘技術(shù)對電力客戶進(jìn)行用電特征的分類分析,將得到的用戶分類與原始分類指標(biāo)作對比,找出用電類別異常的用戶,輔助電網(wǎng)企業(yè)追回?fù)p失,也加深對客戶的了解,便于針對不同的用戶群制訂服務(wù)策略,實現(xiàn)精準(zhǔn)客戶服務(wù)。

2 大數(shù)據(jù)挖掘算法

大數(shù)據(jù)挖掘是當(dāng)今社會研究的熱點問題,所謂數(shù)據(jù)挖掘,是指從大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。通常分為有監(jiān)督學(xué)習(xí)算法和無監(jiān)督學(xué)習(xí)算法。其中,無監(jiān)督學(xué)習(xí)算法是對沒有分類標(biāo)記的訓(xùn)練樣本識別其結(jié)構(gòu)性知識,比如聚類分析。而有監(jiān)督學(xué)習(xí)算法,是事先對具有標(biāo)記(分類)信息的訓(xùn)練樣本進(jìn)行學(xué)習(xí),再對樣本外的數(shù)據(jù)進(jìn)行分類預(yù)測,也稱分類算法。常見的分類算法有決策樹、神經(jīng)網(wǎng)絡(luò)、支撐向量機(jī)和貝葉斯等,不同的分類算法,由于原理的不同,存在各自的優(yōu)缺點和適合的應(yīng)用場景,各個算法的優(yōu)缺點如表1所示。

表1 各個算法的優(yōu)缺點

算法優(yōu)點缺點 決策樹①不需要任何領(lǐng)域知識;②不需要參數(shù)假設(shè);③適合維度較多的數(shù)據(jù);④簡單、易用、容易理解;⑤執(zhí)行效率高;⑥可同時處理數(shù)值型和字符型字段①當(dāng)訓(xùn)練樣本失衡時,信息增益偏向于那些具有更多數(shù)值的特征;②容易出現(xiàn)過擬合現(xiàn)象;③常忽略字段間的相關(guān)性;④不支持在線學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò)①分類準(zhǔn)確率高;②并行處理能力強(qiáng);③分布式存儲和學(xué)習(xí)能力強(qiáng);④魯棒性較強(qiáng),不易受噪聲影響①需要大量參數(shù);②結(jié)果難以解釋;③訓(xùn)練時間過長 支持向量機(jī)①可以解決小樣本下機(jī)器學(xué)習(xí)的問題;②提高泛化性能;③可以解決高維、非線性問題;④可以超高維文本分類問題;⑤避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小的問題①對缺失數(shù)據(jù)敏感;②內(nèi)存消耗大,難以解釋;③運行和調(diào)參較為麻煩 貝葉斯①所需估計的參數(shù)少,對于缺失數(shù)據(jù)不敏;②有著堅實的數(shù)學(xué)基礎(chǔ)以及穩(wěn)定的分類效率①需要假設(shè)字段間相互獨立;②需要知道先驗概率;③分類決策存在錯誤率

3 用電數(shù)據(jù)集與數(shù)據(jù)清洗

3.1 數(shù)據(jù)集

基于企業(yè)大數(shù)據(jù)中心,讀取企業(yè)營銷自動化積累的電量數(shù)據(jù),選擇參與模型訓(xùn)練的數(shù)據(jù),主要包括計量點表、運行電能表、運行電能表日凍結(jié)電能量表、運行電能表日負(fù)荷極值表和用戶信息表等。其中運行電能表日凍結(jié)電能量表記錄

的是電能表總正向有功以及峰、平、谷各時間段的正向有功,用來說明用戶固定時間段的用電量;運行電能表日負(fù)荷極值表用于記錄電能表功率、電壓和電流等信息。

經(jīng)篩選抽取后的數(shù)據(jù)基礎(chǔ)表結(jié)構(gòu)如表2所示。

表2 數(shù)據(jù)基礎(chǔ)表結(jié)構(gòu)

數(shù)據(jù)表構(gòu)建指標(biāo)數(shù)據(jù)類型指標(biāo)說明 用電量計量點編號VARCHAR2(20)計量點的唯一編號 用戶編號VARCHAR2(20)用電客戶的唯一編號 用電時間Date包含日期和時分秒 最大功率Number(8,3)一天內(nèi)最大的有功功率,即一天內(nèi)最大負(fù)荷 平均功率Number(8,3)一天內(nèi)有功功率平均值 用電客戶用戶編號VARCHAR2(20)用電客戶的唯一編號 負(fù)荷性質(zhì)代碼VARCHAR2(8)負(fù)荷的重要程度分類 用電類別代碼VARCHAR2(8)定義客戶用電基本屬性分類及代碼,又稱用電類別 電壓等級代碼VARCHAR2(8)用電客戶受電點的電壓等級 行業(yè)分類代碼VARCHAR2(8)用電客戶的行業(yè)分類代碼 用戶類別代碼VARCHAR2(8)用戶一種常用的分類方式,方便用戶的管理 高耗能行業(yè)類別代碼VARCHAR2(8)依據(jù)國家最新的高耗能行業(yè)劃分 用電性質(zhì)VARCHAR2(8)用電性質(zhì) 用戶狀態(tài)代碼VARCHAR2(8)用電客戶的狀態(tài)說明 客戶分群標(biāo)志VARCHAR2(8)客戶重要性分類類型(客戶分群代碼) 運行容量Number(15,4)用電客戶正在使用的合同容量 行政區(qū)域代碼VARCHAR2(8)用電客戶所在地址的行政區(qū)劃代碼 城鄉(xiāng)代碼VARCHAR2(8)用電客戶所在地址的城鄉(xiāng)代碼 計量點計量點編號VARCHAR2(20)計量點的唯一編號 用戶編號VARCHAR2(20)用電客戶的唯一編號 計量方式代碼VARCHAR2(8)主計量方式 計量點電壓等級代碼VARCHAR2(8)標(biāo)明計量點的計量電壓等級 計量裝置分類代碼VARCHAR2(8)計量裝置分類主要根據(jù)用電量進(jìn)行區(qū)分 計量點狀態(tài)代碼VARCHAR2(8)標(biāo)明計量點的當(dāng)前狀態(tài) 計量點類別代碼VARCHAR2(8)計量點類別代碼 計量點用途代碼VARCHAR2(8)定義計量點的主要用途 計量點位置代碼VARCHAR2(8)標(biāo)明計量點所屬的具體位置 接線方式代碼VARCHAR2(8)計量點接線方式 用電容量Number(15,4)計量點用電容量 計量點類型代碼VARCHAR2(8)計量點類型代碼 運行電能表標(biāo)識VARCHAR2(16)運行電能表的唯一標(biāo)識

3.2 數(shù)據(jù)清洗

數(shù)據(jù)清洗是發(fā)現(xiàn)并糾正錯誤數(shù)據(jù)的第一道程序,包括檢查數(shù)據(jù)一致性、處理無效數(shù)據(jù)和缺失值等,數(shù)據(jù)清洗的目的是為了得到高質(zhì)量的建模輸入數(shù)據(jù),而分類算法通常要求輸入數(shù)據(jù)進(jìn)行歸一化等方法處理,以便提高數(shù)據(jù)挖掘算法的執(zhí)行效率。同時,由于數(shù)據(jù)挖掘算法往往只能對單一的數(shù)據(jù)表進(jìn)行分析,因此就需要將相關(guān)數(shù)據(jù)整合成一個“寬表”,這個表每行都是代表一個用電戶,每列代表與用電戶用電性質(zhì)潛在相關(guān)的影響因素,最后一列“用電性質(zhì)”為分類算法的目標(biāo)列。相關(guān)數(shù)據(jù)整合成的“寬表”如表3所示。

4 用電類別異常識別

4.1 模型變量選擇

4.1.1 特征選擇

為了縮小選擇范圍,提高模型的性能,需要對數(shù)據(jù)清洗后得到的“寬表”進(jìn)行特征選擇,即字段篩選,通常采用以下幾種方式:根據(jù)數(shù)據(jù)的特征質(zhì)量,過濾掉數(shù)據(jù)質(zhì)量很差的字段;計算剩余的輸入字段對目標(biāo)“用電性質(zhì)”的重要性,選取一些對用目標(biāo)字段影響較大的字段,減少數(shù)據(jù)挖掘算法的計算量,提高執(zhí)行效率。

4.1.2 樣本數(shù)據(jù)選取

通常一個電網(wǎng)公司的用電戶數(shù)據(jù)量達(dá)千萬級別,如果在模型訓(xùn)練階段就將所有的用電戶數(shù)據(jù)參與建模,則會出現(xiàn)算法執(zhí)行時間過長,甚至細(xì)微的參數(shù)調(diào)整都會帶來重復(fù)執(zhí)行的需求;另一方面,大工業(yè)用戶、一般工商業(yè)用戶、居民用戶的本身體量也不屬于一個數(shù)量等級,容易導(dǎo)致樣本失衡的問題。因此使用抽樣技術(shù),分別選取不同類別的典型用戶數(shù)據(jù)參與模型訓(xùn)練,可以有效提高算法執(zhí)行效率。本文選取10個典型行業(yè)的計量點在當(dāng)前年的所有特征指標(biāo)及其組合指標(biāo),分析用戶的用電行為,既能保證樣本的抽樣覆蓋,也能避免遺漏用戶的季節(jié)性用電特征。

表3 相關(guān)數(shù)據(jù)整合成的“寬表”

構(gòu)建指標(biāo)數(shù)據(jù)類型指標(biāo)說明 用戶編號VARCHAR2(20)用電客戶的唯一編號 用電日期Date數(shù)據(jù)時間 年份VARCHAR2(8)數(shù)據(jù)年份 月份VARCHAR2(8)數(shù)據(jù)月份 星期VARCHAR2(20)判斷數(shù)據(jù)日期是星期幾 是否節(jié)假日VARCHAR2(20)判斷當(dāng)天是不是節(jié)假日 正向有功總Number(15,4)全天總用電量 正向9_12Number(15,4)一天時間段(09:00—12:00)用電量 正向14_17Number(15,4)一天時間段(14:00—17:00)用電量 正向19_22Number(15,4)一天時間段(19:00—22:00)用電量 正向2_5Number(15,4)一天時間段(02:00—05:00)用電量 最大功率Number(8,3)一天內(nèi)最大的有功功率,即一天內(nèi)最大負(fù)荷 平均功率Number(8,3)一天內(nèi)有功功率平均值 負(fù)荷性質(zhì)代碼VARCHAR2(8)負(fù)荷的重要程度分類 用電類別代碼VARCHAR2(8)定義客戶用電基本屬性分類及代碼,又稱用電類別 電壓等級代碼VARCHAR2(8)用電客戶受電點的電壓等級 行業(yè)分類代碼VARCHAR2(8)用電客戶的行業(yè)分類代碼 用戶類別代碼VARCHAR2(8)用戶一種常用的分類方式,方便用戶的管理 高耗能行業(yè)類別代碼VARCHAR2(8)依據(jù)國家最新的高耗能行業(yè)劃分 用戶狀態(tài)代碼VARCHAR2(8)用電客戶的狀態(tài)說明 客戶分群標(biāo)志VARCHAR2(8)客戶重要性分類類型(客戶分群代碼) 運行容量Number(15,4)用電客戶正在使用的合同容量 行政區(qū)域代碼VARCHAR2(8)用電客戶所在地址的行政區(qū)劃代碼 城鄉(xiāng)代碼VARCHAR2(8)用電客戶所在地址的城鄉(xiāng)代碼 計量方式代碼VARCHAR2(8)主計量方式 計量點電壓等級代碼VARCHAR2(8)標(biāo)明計量點的計量電壓等級 計量裝置分類代碼VARCHAR2(8)計量裝置分類主要根據(jù)用電量進(jìn)行區(qū)分 計量點狀態(tài)代碼VARCHAR2(8)標(biāo)明計量點的當(dāng)前狀態(tài) 計量點類別代碼VARCHAR2(8)計量點類別代碼 計量點用途代碼VARCHAR2(8)定義計量點的主要用途 計量點位置代碼VARCHAR2(8)標(biāo)明計量點所屬的具體位置 接線方式代碼VARCHAR2(8)計量點接線方式 用電容量Number(15,4)計量點用電容量 計量點類型代碼VARCHAR2(8)計量點類型代碼 用電性質(zhì)VARCHAR2(8)用電性質(zhì)

4.1.3 最終模型分析指標(biāo)

將負(fù)荷波動特性指標(biāo)、時間指標(biāo)、分類指標(biāo)排列組合得出最終用于模型分析的各項指標(biāo),具體指標(biāo)如表4所示。

4.2 模型構(gòu)建

采用70%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),分別采用決策樹、神經(jīng)網(wǎng)絡(luò)、支撐向量機(jī)、樸素貝葉斯等算法建立了模型,并用剩余30%數(shù)據(jù)進(jìn)行了測試。

各算法建模參數(shù)和測試結(jié)果如圖1所示。神經(jīng)網(wǎng)絡(luò)建模參數(shù)如圖2所示。支撐向量機(jī)建模參數(shù)如圖3所示。樸素貝葉斯建模參數(shù)如圖4所示。

4.3 模型結(jié)果

主要選取了總體正確分類率、Kappa統(tǒng)計量這兩個評估指標(biāo)作為模型評估參數(shù),各算法建立的模型測試結(jié)果如表5所示。從結(jié)果看,神經(jīng)網(wǎng)絡(luò)算法得到的模型準(zhǔn)確率最高,其次是決策樹算法。

考慮到業(yè)務(wù)實際情況,除了需要知道哪些企業(yè)用電性質(zhì)申報存在欺詐,還需要了解對方具有什么用電特征,因此相比神經(jīng)網(wǎng)絡(luò)為黑盒模型,決策樹模型可以得到顯性的業(yè)務(wù)規(guī)則,因此最終選擇決策樹模型作為最終的模型。通過決策樹算法對用電數(shù)據(jù)進(jìn)行分析建模,最終得到如圖5所示的用電性質(zhì)識別模型,決策樹的根節(jié)點到每個葉子結(jié)點形成的路徑就對應(yīng)一條用電性質(zhì)決策規(guī)則。

例如,圖5深色的路徑就表示“19:00—22:00用電占比小于18%,且09:00—12:00用電占比小于12.25%,且最大功率大于582 W,則100%是工商業(yè)用電”。

5 業(yè)務(wù)應(yīng)用分析

基于此模型,對轄區(qū)內(nèi)目前登記為“居民生活”用電性質(zhì)的所有企業(yè)進(jìn)行了分析,如表6所示。

表4 模型分析的各項指標(biāo)

數(shù)據(jù)表構(gòu)建指標(biāo)數(shù)據(jù)類型 用電類別分析表計量點編號VARCHAR2(20) 一月工作日正向有功總Number(15,4) 一月周末正向有功總Number(15,4) 一月工作日峰總比Number(4,3) 一月周末峰總比Number(4,3) 一月工作日平總比Number(4,3) 一月周末平總比Number(4,3) 一月工作日谷總比Number(4,3) 一月周末谷總比Number(4,3) 一月工作日最大功率Number(8,3) 一月周末最大功率Number(8,3) 一月工作日負(fù)荷率Number(4,3) 一月周末負(fù)荷率Number(4,3) …… 十二月工作日正向有功總Number(15,4) 十二月周末正向有功總Number(15,4) 十二月工作日峰總比Number(4,3) 十二月周末峰總比Number(4,3) 十二月工作日平總比Number(4,3) 十二月周末平總比Number(4,3) 十二月工作日谷總比Number(4,3) 十二月周末谷總比Number(4,3) 十二月工作日最大功率Number(8,3) 十二月周末最大功率Number(8,3) 十二月工作日負(fù)荷率Number(4,3) 十二月周末負(fù)荷率Number(4,3) 負(fù)荷性質(zhì)VARCHAR2(8) 電壓等級VARCHAR2(8) 行業(yè)分類VARCHAR2(8) 用戶類別VARCHAR2(8) 高耗能行業(yè)類別VARCHAR2(8) 電源類型VARCHAR2(8) 行政區(qū)域VARCHAR2(8) 城鄉(xiāng)代碼VARCHAR2(8) 計量方式VARCHAR2(8) 計量點電壓等級VARCHAR2(8) 接線方式VARCHAR2(8) 用電容量Number(15,4) 計量點類型VARCHAR2(8) 用電類別VARCHAR2(8)

圖1 決策樹建模參數(shù)

圖2 神經(jīng)網(wǎng)絡(luò)建模參數(shù)

圖3 支撐向量機(jī)建模參數(shù)

圖4 樸素貝葉斯建模參數(shù)

表5 模型結(jié)果

模型評估指標(biāo)算法 決策樹神經(jīng)網(wǎng)絡(luò)支撐向量機(jī)樸素貝葉斯 窗體頂端正確分類率/(%)窗體底端98.8198.83窗體頂端94.05窗體底端窗體頂端93.45窗體底端 Kappa統(tǒng)計量0.968 8窗體底端0.9690.837 7窗體底端0.838 9

圖5 用電性質(zhì)識別決策數(shù)模型

發(fā)現(xiàn)存在部分企業(yè)被識別為“工商業(yè)”用電性質(zhì),并且這些企業(yè)具有顯著的工商業(yè)企業(yè)用電特征,因此被納入審計調(diào)查的范圍,并追回了大量經(jīng)濟(jì)損失,在審計工作中發(fā)揮了重要的作用。

此模型為電力行業(yè)基于數(shù)據(jù)挖掘技術(shù)進(jìn)行精細(xì)化管理提供了有效的示范,后期將進(jìn)一步利用數(shù)據(jù)挖掘技術(shù)推動電網(wǎng)運營管理的精細(xì)化和智能化發(fā)展。

表6 “居民生活”用電性質(zhì)分析表

用戶編號年份月份星期是否節(jié)假日平均功率最大功率用電占比9_12用電占比14_17用電占比19_22用電占比2_5當(dāng)前用電性質(zhì)預(yù)測用電性質(zhì) 87316201901星期一否2113550.2460.2220.1340.010居民生活工商業(yè) 52141201806星期二否2404090.2470.2450.1390.014居民生活工商業(yè) 6632201903星期三否1832550.2270.2340.1370.019居民生活工商業(yè)

[1]高琳琳.基于數(shù)據(jù)挖掘的短期負(fù)荷預(yù)測[D].南昌:南昌大學(xué),2014.

[2]陸園園,王成然.基于電力負(fù)荷模式分類的短期電力負(fù)荷預(yù)測[J].中國高新技術(shù)企業(yè),2014(1):69-70.

[3]董莉麗.基于大數(shù)據(jù)挖掘的客戶用電行為分析[J].黑龍江科技信息,2016(4):45.

[4]高旭旭.基于深度學(xué)習(xí)的分類預(yù)測算法研究及實現(xiàn)[D].北京:北京郵電大學(xué),2019.

2095-6835(2020)10-0014-04

TM715

A

10.15913/j.cnki.kjycx.2020.10.005

〔編輯:張思楠〕

猜你喜歡
類別代碼用電
一起去圖書館吧
簡析基于概率預(yù)測的網(wǎng)絡(luò)數(shù)學(xué)模型建構(gòu)
神秘的代碼
一周機(jī)構(gòu)凈增(減)倉股前20名
重要股東二級市場增、減持明細(xì)
第12講 家庭電路與安全用電專題復(fù)習(xí)
學(xué)習(xí)用電小知識
近期連續(xù)上漲7天以上的股
選相紙 打照片
赫章县| 龙井市| 饶阳县| 砀山县| 南宫市| 西畴县| 方正县| 奎屯市| 宣汉县| 灌云县| 堆龙德庆县| 永兴县| 合水县| 永丰县| 册亨县| 文成县| 永泰县| 滕州市| 修文县| 宁强县| 会泽县| 香港 | 衡水市| 同仁县| 五台县| 武乡县| 南郑县| 华阴市| 丹凤县| 灵川县| 浦城县| 互助| 安乡县| 东城区| 宜宾县| 寿阳县| 华蓥市| 师宗县| 冕宁县| 盐源县| 平利县|