国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電力數(shù)據(jù)中的冪律分布特性

2013-09-29 04:48王冠男鄧春宇鄭亞芹
電信科學(xué) 2013年11期
關(guān)鍵詞:售電量冪律用電量

王冠男,鄧春宇,趙 悅,鄭亞芹

(北京國電通網(wǎng)絡(luò)技術(shù)有限公司大數(shù)據(jù)業(yè)務(wù)部 北京 100070)

1 引言

在自然界和社會生活中,經(jīng)常存在這樣的數(shù)據(jù),數(shù)值在某個特征附近變化,并且變化較小,這一類數(shù)據(jù)被稱為正態(tài)分布,具有很多優(yōu)秀的特性,如圖1(a)所示。比如人的身高、學(xué)生的考試成績、同質(zhì)群體的紅細胞數(shù)以及數(shù)理統(tǒng)計中隨機誤差等都符合正態(tài)分布。在傳統(tǒng)數(shù)據(jù)挖掘方法中,正態(tài)分布被譽為概率論里最重要的分布。

然而,隨著大數(shù)據(jù)時代的到來,人們有能力處理完全數(shù)據(jù)而不是樣本數(shù)據(jù),因此,現(xiàn)實中很多完全數(shù)據(jù)不再符合正態(tài)分布,比如個人收入的分布、變化尺度的范圍很寬,波動可以跨越很多數(shù)量級。根據(jù)這類數(shù)據(jù)可以畫出一條向右偏斜并且拖著長尾巴的累積分布曲線,顯然,它與正態(tài)分布曲線有顯著的不同,如圖1(b)所示。這種長尾分布表明,絕大多數(shù)個體的值很小,只有少數(shù)個體的值相當(dāng)大。這種現(xiàn)象被稱為長尾效應(yīng),或者重尾法則,本文研究的冪律分布是長尾分布中重要的一種[3,4]。

研究表明,90%的電力指標數(shù)據(jù)都不符合正態(tài)分布。確定數(shù)據(jù)是否為正態(tài)分布在數(shù)據(jù)的探索性分析中具有舉足輕重的作用,因為正態(tài)分布是很多統(tǒng)計方法和數(shù)據(jù)挖掘方法所必需的條件,比如線性和非線性回歸模型、因子分析、典型相關(guān)分析以及主成分分析等,甚至包括最基本的線性相關(guān)性系數(shù)的計算。若數(shù)據(jù)不符合正態(tài)分布,需要采取其他相應(yīng)的辦法,如數(shù)據(jù)轉(zhuǎn)換或者更換分析方法,否則輕者導(dǎo)致模型計算結(jié)果的不準確性,嚴重者更會影響針對算法結(jié)果所做的決策。本文主要針對電力數(shù)據(jù)中的指標進行分析,研究其真正的分布規(guī)律,主要從3個方面展開,首先介紹數(shù)據(jù)源和相關(guān)指標,然后闡述電力指標數(shù)據(jù)的冪律分布特性以及細分行業(yè)用電量的對數(shù)正態(tài)分布特性,最后結(jié)合業(yè)務(wù)背景解釋電力指標符合冪律分布的原因。

圖1 正態(tài)分布和冪律分布

2 數(shù)據(jù)描述

2.1 數(shù)據(jù)源

本文選擇全國發(fā)電量、國家電網(wǎng)公司售電量以及全社會用電量3個指標作為分析研究的目標,選擇原因如下。

·全社會用電量與國家經(jīng)濟密切相關(guān),研究表明,用電量的增長影響GDP的增長,而GDP的增長對用電量的增長影響不大,即用電量增長和GDP增長的關(guān)系是從用電量到GDP增長的單向因果關(guān)系。

·全國發(fā)電量是直接衡量一個國家經(jīng)濟狀況的重要指標。國家電網(wǎng)公司是關(guān)系國家能源安全和國民經(jīng)濟命脈的重要骨干企業(yè),公司的售電量能夠反映公司甚至國家的供電能力。3個電力指標具有較強的相關(guān)性。

表1闡述了所選3個電力指標的維度、時間和區(qū)域。本文所選取的時間為2011-2013年每年的2月和7月。

2.2 電力指標的非正態(tài)分布特性

本文采取密度函數(shù)曲線檢驗法和夏皮羅·威爾克提出的W統(tǒng)計量,將數(shù)據(jù)和圖形相結(jié)合,共同驗證全社會發(fā)電量、國家電網(wǎng)售電量和全國用電量的非正態(tài)分布特性。

圖2展示了3個指標的密度函數(shù)曲線,由于空間限制,時間維度是2012年2月、2012年7月、2013年2月、2013年7月。由圖2可知,3個電力指標大多集中在較小的數(shù)值上,只有少數(shù)分布在較大的數(shù)值上,在空間維度上不符合正態(tài)分布,并且都具有長尾分布的特征。

表2~表4分別展現(xiàn)了2008-2013年所有2月份和7月份中3個指標的W統(tǒng)計量檢驗結(jié)果,即P值。

由表2~表4可知,全國發(fā)電量、國家電網(wǎng)公司售電量和全社會用電量的W統(tǒng)計檢驗的結(jié)果都小于0.05,即有不到5%的信心認為3個電力指標符合正態(tài)分布,下文將進一步分析3個指標分別符合何種分布。

3 電力指標的冪律分布特征

3.1 冪律分布特征

長尾和冪律的區(qū)別是:冪律分布需要數(shù)據(jù)必須在統(tǒng)計意義上可以被冪律曲線擬合,而對于長尾分布而言,能否被冪律曲線精確地擬合并不重要,重要的是有一個長長的尾巴。已知全國用電量、國家電網(wǎng)公司售電量和全社會發(fā)電量屬于長尾分布,但是仍需要進一步證明其為冪律分布。

表1 全國發(fā)電量、國家電網(wǎng)公司售電量、全社會用電量的數(shù)據(jù)描述

圖2 全國發(fā)電量、國家電網(wǎng)售電量和全社會用電量3個指標的密度函數(shù)曲線

表2 全國發(fā)電量的正態(tài)分布W統(tǒng)計量檢驗結(jié)果

表3 國家電網(wǎng)公司售電量的正態(tài)分布W統(tǒng)計量檢驗結(jié)果

表4 全社會用電量的正態(tài)分布W統(tǒng)計量檢驗結(jié)果

冪律分布的分布特征如圖1(b)所示,通用計算式為y=cx-r,x和 y是正的隨機變量,c、r為常數(shù),且大于 0。冪律分布的特點是絕大多數(shù)事件的值很小,只有少數(shù)事件的值相當(dāng)大。將冪律分布公式的兩邊分別取對數(shù),則ln x與ln y存在以下的線性關(guān)系:1n y=1n c-r1n x,冪律分布在雙對數(shù)坐標下表現(xiàn)為一條斜率為冪指數(shù)的負數(shù)的直線,這一線性關(guān)系是判斷某個隨機變量是否滿足冪律的依據(jù),r為冪律指數(shù)。

圖3展示了3個電力指標的冪律分布特征,時間維度是2012-2013年每年的2月份和7月份。由圖3可知,除了特殊原因引起的較小數(shù)值外(西藏地區(qū)),其他數(shù)值基本符合線性關(guān)系,并且冪律指數(shù)為正數(shù),因此3個指標符合冪律分布的特征,屬于冪律分布。

表5~表7分別展示了3個電力指標在雙對數(shù)坐標下的參數(shù)擬合結(jié)果,其中,冪律指標r都大于-2,驗證了圖3的結(jié)論,全國發(fā)電量、國家電網(wǎng)公司售電量和全社會用電量符合冪律分布。

3.2 用電量的對數(shù)正態(tài)分布特征

圖3 全國發(fā)電量、國家電網(wǎng)公司售電量和全社會用電量的冪律分布特征

表5 全國發(fā)電量的冪律分布檢驗結(jié)果

表6 國家電網(wǎng)公司售電量的冪律分布檢驗結(jié)果

表7 全社會用電量的冪律分布檢驗結(jié)果

由上文可知,全國發(fā)電量、國家電網(wǎng)公司售電量和全國用電量符合冪律分布的特性,與其他兩個指標相比,用電量具有特殊的優(yōu)良特性。

已知兩個變量X和Y無論獨立與否,X+Y的和仍然服從正態(tài)分布。若X和Y服從對數(shù)正態(tài)分布,則仍然服從對數(shù)正態(tài)分布,而X+Y卻不符合這一規(guī)律。通過分析,本文發(fā)現(xiàn)大部分細分行業(yè)的用電量服從對數(shù)正態(tài)分布,而細分行業(yè)用電量之和卻不符合這一規(guī)律,比如全國用電量、第一產(chǎn)業(yè)用電量、第二產(chǎn)業(yè)用電量、第三產(chǎn)業(yè)用電量等。在第4節(jié)中,將詳細闡述細分行業(yè)用電量服從對數(shù)正態(tài)分布的根本原因。

本文選擇具有代表性的5個細分行業(yè)進行詳細分析,分別是農(nóng)業(yè)、輕工業(yè)、重工業(yè)、信息傳輸業(yè)、房地產(chǎn)、計算服務(wù)業(yè)。圖4展示了5個行業(yè)用電量的經(jīng)驗累積分布函數(shù)(ECDF),應(yīng)用極大似然估計的方法對分布參數(shù)進行擬合,并且將用電量與5個冪律分布進行對比,分別是指數(shù)分布、對數(shù)正態(tài)分布、逆高斯分布、帕累托分布和列維分布。由圖可知,對數(shù)正態(tài)分布是最合理的擬合分布。

對數(shù)正態(tài)分布的概率密度函數(shù)為:

其中:

對數(shù)正態(tài)分布具有優(yōu)秀的特性,當(dāng)隨機變量log X符合正態(tài)分布時,則X符合對數(shù)正態(tài)分布。即對用電量進行對數(shù)轉(zhuǎn)換,就可以得到正態(tài)分布的數(shù)據(jù),因此證明用電量符合對數(shù)正態(tài)分布不僅大大減少了數(shù)據(jù)分析的工作量,還解決了用電量不是正態(tài)分布的難題。表8展示了對數(shù)轉(zhuǎn)換后細分行業(yè)用電量的正態(tài)分布檢驗結(jié)果。

由表8可知,所有W統(tǒng)計量的檢驗結(jié)果大于0.05,即有95%的信心認為,細分行業(yè)的用電量經(jīng)過對數(shù)轉(zhuǎn)換后服從正態(tài)分布,可以直接應(yīng)用以正態(tài)分布為必要條件的數(shù)據(jù)分析和挖掘方法。

4 原因分析

由上文已知,全國發(fā)電量、國家電網(wǎng)公司售電量和全國用電量符合冪律分布的特性,并且細分行業(yè)的用電量服從對數(shù)正態(tài)分布,本節(jié)主要結(jié)合業(yè)務(wù)背景闡述3個電力指標符合冪律分布以及細分行業(yè)用電量服從對數(shù)正態(tài)分布的根本原因。

3個電力指標符合冪律分布特性的主要原因如下。

·由于政策、地理位置和自然環(huán)境等原因,全國經(jīng)濟發(fā)展嚴重不平衡,東部沿海地區(qū)較發(fā)達,西部等地區(qū)經(jīng)濟較為落后。電力和經(jīng)濟密不可分,是強正相關(guān)的關(guān)系,某地區(qū)的用電情況可以反映此地的經(jīng)濟狀況,因此電力指標數(shù)據(jù)在地域上也存在不平衡的現(xiàn)象。

圖4 細分行業(yè)用電量的ECDF

表8 細分行業(yè)用電量對數(shù)轉(zhuǎn)換后的正態(tài)分布W統(tǒng)計量檢驗結(jié)果

·自然資源分布不平衡。全國的煤炭資源和水源分布不平衡,只有少數(shù)地區(qū)具有豐富的煤炭資源和水資源,這導(dǎo)致電力指標數(shù)據(jù)的曲線向左傾斜,并且具有冪律分布的特征。

因為電力指標數(shù)據(jù)在地域上分布不平衡,所以隨著電力指標數(shù)值的增加,P(Q>q)逐漸降低,并且降低速度減緩,呈現(xiàn)冪函數(shù)的規(guī)律,這正是冪律分布的特征。

細分行業(yè)用電量服從對數(shù)正態(tài)分布,下面運用數(shù)學(xué)理論闡述產(chǎn)生此種現(xiàn)象的根本原因。

正態(tài)分布的變量和對數(shù)正態(tài)分布的變量存在著區(qū)別和聯(lián)系,就共同點來說,兩種變量都是獨立變量,即用戶每天的用電量是獨立的,符合正態(tài)分布。兩種分布最大的區(qū)別在于“加”和“乘”,這種細微的不同使得數(shù)據(jù)的分布規(guī)律也具有明顯差異。

首先以布朗運動為例來解釋正態(tài)分布。假設(shè)某個行業(yè)在某一天的用電量為Q1,在下一天的用電量為Q2,在單位時間Δt內(nèi),行業(yè)用電量的差值為ΔQ,增加或者減少。令Qn為n天以后某行業(yè)的累積用電量,則:

其中:

Q(i)相互獨立,且 P=1)=P=-1)=1/2。Xn服從二項分布,參數(shù)為n和p=0.5,由中心極限定理可知,當(dāng)n→+∞時,Qn近似服從正態(tài)分布。

但是在現(xiàn)實中,由于溫度變化、某個月的假期時間長短的變化以及政策變化等原因,行業(yè)用電量的增減不是隨機的,比如通過分析發(fā)現(xiàn)在2月和7月,細分行業(yè)的用電量更傾向于增加而不是減少,除非發(fā)生特殊情況。假設(shè)在單位時間Δt內(nèi),行業(yè)用電量以相同的概率增加ΔQ1,減少ΔQ2,ΔQ1和 ΔQ2為已知常數(shù),并且 ΔQ1>ΔQ2(在某些月份ΔQ1<ΔQ2,不影響最終結(jié)果)。

求解如下方程:

得到ΔQm=ΔQ1/ΔQ2。則n天以后,行業(yè)的累積用電量為:

其中,Q(i)的含義保持不變,且 P(Q(i)=1)=P(Q(i)=-1)=1/2,Q(i)相互獨立,即行業(yè)在某一天用電時不會考慮下一天的用電情況。正如布朗運動中的分析,Qn仍然服從二項分布。由于 ΔQ1>ΔQ2(或者 ΔQ1<ΔQ2),則分布曲線必定會向左偏。當(dāng)n→+∞時,Qn近似服從對數(shù)正態(tài)分布。這符合中心極限定理的多重乘法的規(guī)則,即多個獨立同分布變量的乘積符合對數(shù)正態(tài)分布。因此,在同一時間段內(nèi)(本文選取一個月),各個省的細分行業(yè)用電量服從對數(shù)正態(tài)分布,且如果將細分行業(yè)繼續(xù)劃分,仍然服從對數(shù)正態(tài)分布。

5 結(jié)束語

本文主要針對電力指標的分布性規(guī)律進行分析研究。經(jīng)過統(tǒng)計分析研究發(fā)現(xiàn),90%以上的電力指標不符合正態(tài)分布。經(jīng)驗證,全國發(fā)電量、國家電網(wǎng)公司售電量和全社會用電量3個電力核心指標具有冪律分布的特性,其中細分行業(yè)的用電量符合對數(shù)正態(tài)分布,并且具體闡述了產(chǎn)生這種現(xiàn)象的業(yè)務(wù)原因和數(shù)學(xué)原因。

本文對電力指標的分布規(guī)律進行了深入研究,為電力大數(shù)據(jù)的探索性分析做出了貢獻,并且為數(shù)據(jù)分析和挖掘方法的選擇提供了理論支撐。所得的研究成果能夠為電力數(shù)據(jù)分析同行提供更多的創(chuàng)新思路,方法和技術(shù)也可以應(yīng)用到其他電力方面的數(shù)據(jù),不僅豐富了電力數(shù)據(jù)分析領(lǐng)域的技術(shù),對很多業(yè)務(wù)問題也具有理論指導(dǎo)意義。不符合正態(tài)分布的電力指標數(shù)據(jù)看似毫無規(guī)律,冪律分布以簡潔優(yōu)雅的形式,將毫不相干的事物聯(lián)系在了一起。以后也將是電力數(shù)據(jù)分析中研究的熱點,未來也將對電力行業(yè)中冪律分布的產(chǎn)生機制進行深入研究。

1 Rhee I,Shin M,Hong S,et al.On the levy walk nature of human mobility.Networking,IEEE/ACM Transactions on,2011(3)

2 Yang B,Duan W Q,Chen Z.New method to estimate scaling of power-law degree distribution and hierarchical networks.Applied Mathematics and Mechanics,2006,27(11):1475~1479

3 葛玉偉,周戰(zhàn),陳萬田.洪澤地區(qū)配電網(wǎng)故障冪律分布特性.現(xiàn)代電子技術(shù),2011,34(6):172~174

4 Chris A.The Long Tail.CITIC Publishing House,2005

猜你喜歡
售電量冪律用電量
02 國家能源局:1~7月全社會用電量同比增長3.4%
01 國家能源局:3月份全社會用電量同比增長3.5%
國家能源局:3月份全社會用電量同比下降4.2%
大數(shù)據(jù)時代下冪律分布在醫(yī)學(xué)領(lǐng)域中的應(yīng)用價值
基于冪律分布的房地產(chǎn)泡沫破裂風(fēng)險預(yù)警研究
基于季節(jié)調(diào)整和回歸分析法的月售電量預(yù)測方法研究
結(jié)合X12乘法模型和ARIMA模型的月售電量預(yù)測方法
四川地區(qū)降水冪律指數(shù)研究
冪律流底泥的質(zhì)量輸移和流場
中衛(wèi)地區(qū)高耗能電力市場情況分析與預(yù)測