夏翔,吳臻,方建亮,王春蕓,鄭建鋒
(1.國網(wǎng)浙江省電力公司,杭州310007;2.國網(wǎng)衢州供電公司,浙江衢州324000)
◆營銷與服務(wù)◆
居民用戶用電數(shù)據(jù)質(zhì)量管控技術(shù)研究
夏翔1,吳臻2,方建亮1,王春蕓2,鄭建鋒2
(1.國網(wǎng)浙江省電力公司,杭州310007;2.國網(wǎng)衢州供電公司,浙江衢州324000)
電力產(chǎn)業(yè)是我國的基礎(chǔ)產(chǎn)業(yè),提高電力用戶的滿意度、建設(shè)堅強智能電網(wǎng)是電力企業(yè)的目標(biāo),而保證合格的電壓質(zhì)量是其重要工作之一。如果電壓過低,不僅會使得家用電器不能正常工作,降低變壓器等設(shè)備的使用壽命,同時也會加大設(shè)備和線路的損耗,給工農(nóng)業(yè)生產(chǎn)和人民生活帶來很大的困難和損失,嚴(yán)重降低了低電壓用戶對電網(wǎng)企業(yè)的滿意度。為解決低電壓給用戶帶來的問題,從2015年起,國家電網(wǎng)公司就實施了針對于低電壓問題的舉措:在“十三五”期間僅電網(wǎng)建設(shè)和改造的投資已超過2萬億元,解決用戶低電壓問題超過520萬戶。預(yù)計2020年基本可以實現(xiàn)用戶無低電壓問題,從而保證用戶的正常用電[1]。
低電壓治理的關(guān)鍵在于數(shù)據(jù)診斷。目前,國內(nèi)學(xué)者和電力從業(yè)人員對低電壓問題的成因以及特點的研究已經(jīng)有了一些經(jīng)驗和成果,但僅僅是通過對少量數(shù)據(jù)以及簡單的圖表進行分析得出的結(jié)論,而缺乏對海量數(shù)據(jù)的分析。究其原因是農(nóng)村多采用窄帶載波I型集中器,由于帶寬有限,采集相對困難;城區(qū)多采用II型集中器,雖然采集相對方便,然而低電壓出現(xiàn)概率較小,造成采集效果不好。根據(jù)統(tǒng)計,I型集中器采集成功率僅為13%左右,II型集中器為50%左右。低電壓數(shù)據(jù)不僅難以采集,而且通常由于設(shè)備老化落后等原因?qū)е略诓杉^程中伴隨著大量的數(shù)據(jù)丟失,使得電網(wǎng)企業(yè)難以對低電壓用戶數(shù)據(jù)進行有效的分析。想要獲取全面準(zhǔn)確的數(shù)據(jù),最經(jīng)濟有效的途徑是采用數(shù)據(jù)質(zhì)量治理方法,改善數(shù)據(jù)可用性,提升診斷的精度。文獻[2]通過對大數(shù)據(jù)時代下電力行業(yè)的分析,提出采用預(yù)防和治理,自動和手工相結(jié)合的方式來保證電網(wǎng)系統(tǒng)的數(shù)據(jù)質(zhì)量;文獻[3]指出了智能電網(wǎng)中數(shù)據(jù)質(zhì)量存在的多方面問題,系統(tǒng)分析了常用的數(shù)據(jù)質(zhì)量的相關(guān)控制方法,并總結(jié)了智能電網(wǎng)數(shù)據(jù)質(zhì)量的控制過程,同時展望了未來智能電網(wǎng)數(shù)據(jù)質(zhì)量控制的發(fā)展方向。文獻[4]從廣東電網(wǎng)數(shù)據(jù)質(zhì)量的現(xiàn)狀和實際需求出發(fā),提出了一種高效的數(shù)據(jù)質(zhì)量管理方法,并分析了該方法的數(shù)據(jù)質(zhì)量檢查、數(shù)據(jù)質(zhì)量問題控制和數(shù)據(jù)質(zhì)量問題預(yù)防等方面的實施情況。以上研究雖然對電力行業(yè)中的數(shù)據(jù)質(zhì)量進行了探討和展望,并取得了一定的成果,然而針對低壓用戶數(shù)據(jù)質(zhì)量的研究相對比較少。建立有效的電網(wǎng)低電壓數(shù)據(jù)質(zhì)量管控模型,是優(yōu)化低電壓電網(wǎng)投資方案、明確低電壓電網(wǎng)投資方向、提高電網(wǎng)低電壓治理的重要舉措。
為解決低電壓用戶數(shù)據(jù)質(zhì)量問題,本文對低壓用戶數(shù)據(jù)質(zhì)量管控技術(shù)進行了研究。低壓用戶數(shù)據(jù)質(zhì)量管控技術(shù)大致分為以下4個步驟:①進行正確性、唯一性校驗和完整性校驗,保證無重復(fù)錄入數(shù)據(jù)以及數(shù)據(jù)是完整正確的;②從準(zhǔn)確性校驗方面選擇合適方法評估數(shù)據(jù);③若數(shù)據(jù)未通過評估,則采用不同的修正方法來修正治理數(shù)據(jù);④若評估通過后則進行數(shù)據(jù)質(zhì)量管理效能分析。數(shù)據(jù)質(zhì)量管控技術(shù)流程圖如圖1所示。
圖1 數(shù)據(jù)質(zhì)量管控技術(shù)流程圖
1.1 數(shù)據(jù)質(zhì)量維度表
通常情況下,數(shù)據(jù)有三大固有屬性:自治性、真實性和完備性,即數(shù)據(jù)的絕對質(zhì)量。除此之外,在數(shù)據(jù)使用、存儲以及傳輸過程中產(chǎn)生的質(zhì)量為過程質(zhì)量。研究者和業(yè)內(nèi)人士采用若干組維度和屬性直觀的衡量數(shù)據(jù)質(zhì)量,以便進行更深入的分析和評估[5]。本文基于數(shù)據(jù)的業(yè)務(wù)屬性和固有屬性,多維度的定義電網(wǎng)業(yè)務(wù)指標(biāo)數(shù)據(jù),作出的數(shù)據(jù)質(zhì)量維度表如表1所示。
表1 數(shù)據(jù)質(zhì)量維度表
1.2 數(shù)據(jù)質(zhì)量管控技術(shù)
數(shù)據(jù)質(zhì)量和業(yè)務(wù)過程這兩者在很大程度上決定了電網(wǎng)企業(yè)信息系統(tǒng)處理信息的質(zhì)量。由于目前數(shù)據(jù)采集現(xiàn)狀是“進來的是垃圾,出去的也是垃圾”,所以加強數(shù)據(jù)采集的監(jiān)管刻不容緩,不然會嚴(yán)重影響整個系統(tǒng)的數(shù)據(jù)質(zhì)量。與此同時,由于數(shù)據(jù)在使用的過程中用戶能夠和其直接交互,極易造成二次污染。因此數(shù)據(jù)質(zhì)量管控人員應(yīng)該嚴(yán)格控制數(shù)據(jù)源頭,將控制貫穿于整個過程。電網(wǎng)企業(yè)一般從正確性、唯一性、完整性以及準(zhǔn)確性這4方面嚴(yán)格管控數(shù)據(jù)質(zhì)量。
1.2.1 數(shù)據(jù)的正確性校驗
(1)數(shù)據(jù)類型:根據(jù)數(shù)據(jù)的使用習(xí)慣以及業(yè)務(wù)類型,合理設(shè)定數(shù)據(jù)單位、精度、類型等,并且對數(shù)據(jù)進行合理的格式轉(zhuǎn)換。只有規(guī)范了數(shù)據(jù)類型,才可以區(qū)分出與所需類型不符合的數(shù)據(jù),進而判斷指標(biāo)數(shù)據(jù)是否正確。
(2)數(shù)據(jù)值域:根據(jù)指標(biāo)數(shù)據(jù)的業(yè)務(wù)屬性以及固有屬性,定義數(shù)據(jù)的取值范圍,系統(tǒng)可以根據(jù)定義判斷指標(biāo)數(shù)據(jù)是否正確。需要說明的是,數(shù)據(jù)值域和數(shù)據(jù)單位緊密關(guān)聯(lián),例如:在電流中A和kA之間相差1 000倍。
(3)數(shù)據(jù)變化率:指的是通過分析數(shù)據(jù)得出它的變化規(guī)律,然后根據(jù)得出的規(guī)律判斷數(shù)據(jù)是否正確。
(4)數(shù)據(jù)表達形式:指的是根據(jù)數(shù)據(jù)格式規(guī)范來判斷數(shù)據(jù)是否正確,例如:采集日期的格式應(yīng)該是“YYYY-MM-DD”。
1.2.2 數(shù)據(jù)的唯一性校驗
數(shù)據(jù)的唯一性指的是在同一個數(shù)據(jù)表中不能存在2個相同的帶有某種標(biāo)識型的數(shù)據(jù),即數(shù)據(jù)庫的相關(guān)操作要保證數(shù)據(jù)的唯一性。具體做法是在采集數(shù)據(jù)存于數(shù)據(jù)庫之前,可以針對數(shù)據(jù)庫的某些字段設(shè)置唯一約束,從而在數(shù)據(jù)庫層保證數(shù)據(jù)的唯一性。
1.2.3 數(shù)據(jù)的完整性校驗
采集到的數(shù)據(jù)極有可能存在數(shù)據(jù)項缺失或者人為造成的數(shù)據(jù)項漏填的現(xiàn)象,不完整的數(shù)據(jù)會造成后續(xù)數(shù)據(jù)傳輸和使用上的困難,因此需要從數(shù)據(jù)庫控制和人工補充2個方面來保證數(shù)據(jù)的完整性。
1.2.4 數(shù)據(jù)的準(zhǔn)確性校驗
數(shù)據(jù)的準(zhǔn)確性指的是保證數(shù)據(jù)的實際值和準(zhǔn)確值一致,具體的方法主要有4種。
(1)閾值標(biāo)定法。閾值也叫做臨界值,代表數(shù)據(jù)的有效取值范圍。這個方法首先應(yīng)該給出數(shù)據(jù)的取值范圍,然后判斷數(shù)據(jù)是否處于取值范圍之間,從而判斷數(shù)據(jù)是否準(zhǔn)確。一般情況下,有2種方法確定數(shù)據(jù)的閾值:第一種是通過技術(shù)人員和業(yè)內(nèi)研究人員的專業(yè)確定;第二種是分析歷史數(shù)據(jù)和相關(guān)聯(lián)數(shù)據(jù),分析和總結(jié)數(shù)據(jù)值的分布情況,最后得到數(shù)據(jù)的閾值。
(2)線性回歸填充法。這個方法的使用需要基于大量的觀察數(shù)據(jù),利用線性回歸方程式,也就是數(shù)理統(tǒng)計方法建立因變量與自變量之間的線性回歸關(guān)系,從而建立出一個函數(shù)表達式。它的基本理念是通過自變量的回歸關(guān)系來預(yù)測Y的缺失數(shù)據(jù),根據(jù)這個理念可以得出第k個缺失項的填充值為
如果每個變量之間有明顯的回歸關(guān)系,就可以說明利用回歸模型所得出的估計值和真實值很接近,但是搭建和分析一個回歸模型要花費很多的時間,需要填充很多重要變量的缺失值才能夠更好的評價此模型。
(3)歷史數(shù)據(jù)估算法。電網(wǎng)業(yè)務(wù)數(shù)據(jù)具有縱向關(guān)聯(lián)的特性,所以在對數(shù)據(jù)估算時可以采用歷史數(shù)據(jù)估算法。不同的指標(biāo)數(shù)據(jù)因子可能在一段時間內(nèi)出現(xiàn)不同的變化趨勢,例如:某個時間段電流值、某個時間段功率值等。然而這些指標(biāo)以幾天為測量時間單位則不會出現(xiàn)很大的波動,所以可以把某個時間段的平均值作為填充值。根據(jù)“本年本月止表底抄表電量”隨著時間的推移呈增加的趨勢,計算出它的平均增幅,然后用平均增幅和最近一個月的數(shù)據(jù)來估算問題數(shù)據(jù)。
(4)人工經(jīng)驗值法。相關(guān)領(lǐng)域的技術(shù)人員有著豐富的經(jīng)驗和專業(yè)的技術(shù)水平,他們很容易發(fā)現(xiàn)數(shù)據(jù)的問題,然后對錯誤數(shù)據(jù)進行校正,但是采用此方法需要很多的專業(yè)人員,并且工作量大,耗時多,僅適合于關(guān)鍵數(shù)據(jù)的準(zhǔn)確性校驗。
本文以居民用戶低電壓數(shù)據(jù)為例進行仿真,實驗數(shù)據(jù)來自智能電能表的實時采集,選取某地2016年5月16日到6月12日的數(shù)據(jù)作為低電壓分析的源數(shù)據(jù),結(jié)合前文中列舉的低電壓管控技術(shù),在采集回來的所有數(shù)據(jù)中選擇用戶的有功功率、A/B/C相電壓、A/B/C相電流,篩選得到當(dāng)日的低電壓數(shù)據(jù)。動態(tài)實時的電氣功率數(shù)據(jù)采樣間隔為1 h,采集時間從8:00~20:00,包括用戶側(cè)電壓、電流、功率因數(shù)等。
2.1 數(shù)據(jù)預(yù)處理
首先從正確性、唯一性、完整性3個方面對數(shù)據(jù)進行預(yù)處理使其符合相應(yīng)的業(yè)務(wù)需求。比如:對數(shù)據(jù)表中重復(fù)數(shù)據(jù)的處理、刪除不需要的影響因素、對科學(xué)計數(shù)法表示的數(shù)據(jù)轉(zhuǎn)換為文本表示等,以完成數(shù)據(jù)的初級處理。例如:5月份采集到的源數(shù)據(jù)中一共有134個用戶,總記錄是14 229條。經(jīng)過整理去重,有效數(shù)據(jù)是1 455條。6月份一共有179個用戶,總記錄是11 183條,整理去重后有效數(shù)據(jù)是2 529條。之后采用修正方法(閾值中值填充法、線性回歸填充法、歷史數(shù)據(jù)估算法)進一步修正已有數(shù)據(jù),并從準(zhǔn)確性校驗方面重新評估數(shù)據(jù)。最后對評估通過的數(shù)據(jù)做數(shù)據(jù)質(zhì)量管理效能分析,從而選擇最優(yōu)的數(shù)據(jù)修正方法。本文使用PL/SQL工具將查詢結(jié)果導(dǎo)出為CSV格式,使用Origin軟件作圖。
2.2 數(shù)據(jù)質(zhì)量管理效能分析
通過之前的分析可知,只是修正問題數(shù)據(jù)是遠遠不夠的,如果修正過后的數(shù)據(jù)有很多的偏差,那么會在一定程度上影響系統(tǒng)的精確度,因此同時也要保證修正方法的正確性。本文為了驗證每個修正方法(閾值中值填充法、線性回歸填充法、歷史數(shù)據(jù)估算法)是否正確,從數(shù)據(jù)庫中隨機選擇了一組數(shù)據(jù)來驗證。具體方法是:從數(shù)據(jù)庫中隨機找出一組確認為正確的數(shù)據(jù),然后利用修正方法對其修正,接著對比準(zhǔn)確值和修正值,計算數(shù)據(jù)的偏差率,用D1~Dn表示指標(biāo)數(shù)據(jù)線,那么數(shù)據(jù)偏差率的計算公式為
在隨機選取的這組數(shù)據(jù)中,因為數(shù)據(jù)量很大,不能全部展示出來,因此這里僅僅展示部分?jǐn)?shù)據(jù),以下是利用不同的修正方法計算偏差率的結(jié)果值。
2.2.1 閾值中值填充法
采用閾值中值填充法得出的計算結(jié)果如表2所示。
表2 閾值中值填充法結(jié)果
得出的所有偏差率,其分布如圖2所示。
圖2 閾值中值偏差分布圖
2.2.2 線性回歸填充法
采用線性回歸填充法得出的計算結(jié)果如表3所示。
得出的所有偏差率,其分布如圖3所示。
2.2.3 歷史數(shù)據(jù)估算法
采用歷史數(shù)據(jù)估算法得出的計算結(jié)果如表4。得出的所有偏差率,其分布如圖4所示。
表3 線性回歸填充法結(jié)果
圖3 線性回歸填充偏差分布圖
表4 歷史數(shù)據(jù)估算法結(jié)果
圖4 歷史數(shù)據(jù)估算偏差分布圖
通過圖2-圖4形可以知道,閾值中值填充法的誤差率達到50%,效果很差;線性回歸填充和歷史數(shù)據(jù)估算方法填充效果較為理想,數(shù)據(jù)偏差率穩(wěn)定在20%之內(nèi),并且相對集中,所以采用這2種方法得出的修正值來代替臨時值,對整體的計算效果沒有多大影響。對此原因進行深入分析,由于閾值是由技術(shù)人員和專業(yè)人士所制定,閾值范圍是所有合理數(shù)據(jù)的分布區(qū)間,所以在極端的情況下才適合采用閾值中值來替代計算,但這并不是最佳選擇。歷史數(shù)據(jù)估算法和線性回歸填充法這2種方法雖然有良好的問題數(shù)據(jù)修復(fù)能力,但它要求具有很高的計算數(shù)據(jù)準(zhǔn)確性,如果參與的計算數(shù)據(jù)準(zhǔn)確性不能保證,那么它們在很大程度上會影響計算結(jié)果的準(zhǔn)確性,同時即便這2種方法的準(zhǔn)確性很高,但是卻做不到完全精確。在短時間內(nèi)經(jīng)常填充數(shù)據(jù)不會造成有很大影響,但從長期來看,一旦被填充的數(shù)據(jù)越來越多,就會嚴(yán)重影響低電壓用戶數(shù)據(jù)質(zhì)量,因此應(yīng)將數(shù)據(jù)修正方法和及時的數(shù)據(jù)更新相結(jié)合,才能使得低壓用戶數(shù)據(jù)質(zhì)量得到保證。
本文分析和研究了低壓用戶數(shù)據(jù)質(zhì)量管控技術(shù),提出了一些完善有效的數(shù)據(jù)質(zhì)量評估和校驗的方法,同時設(shè)計和分析了數(shù)據(jù)質(zhì)量管控流程,最后通過案例仿真以及圖表展示,對閾值中值填充、線性回歸填充和歷史數(shù)據(jù)填充這3種方法下的數(shù)據(jù)質(zhì)量應(yīng)用效果進行了分析。其中閾值填充效果相對較差,只能作為極端情況下的權(quán)宜之計;歷史數(shù)據(jù)估算法和線性回歸填充法有較好的對問題數(shù)據(jù)的修復(fù)能力,能把誤差穩(wěn)定在20%左右,在短期內(nèi)可以作為丟失數(shù)據(jù)的臨時值。雖然使用歷史數(shù)據(jù)估算法和線性回歸填充法填充的數(shù)據(jù)可以在一定時間內(nèi)作為丟失數(shù)據(jù)的替代值,但只有將數(shù)據(jù)修正和數(shù)據(jù)的及時更新相結(jié)合,才能保證低壓用戶的數(shù)據(jù)質(zhì)量。經(jīng)過測試,本文所提數(shù)據(jù)質(zhì)量管控技術(shù)具有較高的可用性和良好的準(zhǔn)確率,可以滿足電力企業(yè)對于低電壓數(shù)據(jù)質(zhì)量管控的需求。D
[1]本刊編輯部.國家能源局發(fā)布配電網(wǎng)建設(shè)改造行動計劃[J].農(nóng)村電氣化,2015(11):11-13.
[2]江國富.基于Hadoop的電網(wǎng)資產(chǎn)系統(tǒng)數(shù)據(jù)質(zhì)量管理平臺的設(shè)計與實現(xiàn)[D].廣州:華南理工大學(xué),2014.
[3]黃慧,朱齊亮.智能電網(wǎng)數(shù)據(jù)質(zhì)量控制的發(fā)展分析與展望[J].科技信息,2012(7):92-93.
[4]江疆,黃劍文,楊秋勇.基于廣東電網(wǎng)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量管理方法[J].現(xiàn)代計算機(專業(yè)版),2016(7):88-91.
[5]黨芳芳.電網(wǎng)企業(yè)業(yè)務(wù)數(shù)據(jù)質(zhì)量管控技術(shù)的研究[D].北京:華北電力大學(xué),2014.
[6]宗群龍.低壓電力線窄帶載波通信路由設(shè)計[D].長沙:湖南大學(xué),2010.
[7]段成.電網(wǎng)投資效益后評價理論及決策支持系統(tǒng)的研究[D].北京:華北電力大學(xué),2012.
[8]林聽光.電信經(jīng)營分析系統(tǒng)中的數(shù)據(jù)質(zhì)量管理[D].北京:北京郵電大學(xué),2007.
[9]曾鳴.電力企業(yè)計劃管理及其技術(shù)支持系統(tǒng)[M].北京:中國電力出版社,2001.
[10]胡紅曉.缺失值處理方法比較研究[J].商場現(xiàn)代化, 2007(12):34-36.
[11]劉孚智.佛山電網(wǎng)發(fā)展戰(zhàn)略研究[D].廣州:華南理工大學(xué),2003.
Research on quality management and control technology of electricity data for residents
XIA Xiang1,WU Zhen2,FANG Jian?liang1,WANG Chun?yun2,ZHENG Jian?feng2
(1.State Grid Zhejiang Electric Power Company,Hangzhou 310007,China; 2.State Grid Quzhou Power Supply Company,Quzhou 324000,China)
為了滿足低壓用戶對電能質(zhì)量的要求,電網(wǎng)企業(yè)必須對采集的相關(guān)電能數(shù)據(jù)分析診斷并據(jù)此做出決策。鑒于數(shù)據(jù)質(zhì)量管控技術(shù)在低壓用戶治理中的重大作用,首先提出了一套針對于電網(wǎng)企業(yè)的數(shù)據(jù)質(zhì)量管控流程,采用多種校驗方法來保證數(shù)據(jù)的合理性,其中校驗方法包括正確性校驗、唯一性校驗、完整性校驗和準(zhǔn)確性校驗。為了保證數(shù)據(jù)分析結(jié)果無誤,對問題數(shù)據(jù)加以修正。最后,通過算例仿真驗證了數(shù)據(jù)質(zhì)量管控技術(shù)的應(yīng)用效果。
低電壓;數(shù)據(jù)質(zhì)量;管控技術(shù);校驗方法
In order to meet the requirements of low voltage users on the power quality,the grid enterprise must analyze and diagnose the relevant power data and make the decision accordingly.In view of the importance of techology for data quality control on low?voltage user management,this paper first proposes a set of data quality control pro?cedures for power grid enterprises,and uses several check?up algo?rithms to ensure rationality of data,including the correctness verifica?tion,uniqueness verification,integrity verification and accuracy verifi?cation.Problematic data has been amendeod in order to ensure the cor?rectness of data analysis results,.Finally,a simulated example is given toverifyapplicationeffectsofdataqualitycontroltechnology.
low voltage;data quality;control technique;veri?fication method
1009-1831(2017)02-0039-04
10.3969/j.issn.1009-1831.2017.02.010
F407.61;TP274
C
2017-01-15
夏翔(1974),男,河南永城人,碩士,高級工程師,研究方向為電網(wǎng)信息化研究和管理。