顧敏奕,杜海舟
(1.同濟(jì)大學(xué),上海 200092;2.上海電力學(xué)院,上海 200090)
隨著我國經(jīng)濟(jì)的迅速發(fā)展,對(duì)電力能源的需求也在以超乎想象的速度增加,從而刺激了電網(wǎng)企業(yè)的迅速發(fā)展,使得電力系統(tǒng)向高容量、超高壓和跨區(qū)域方向發(fā)展.隨著電網(wǎng)企業(yè)規(guī)模的不斷擴(kuò)大,海量數(shù)據(jù)得到存貯,如電網(wǎng)設(shè)備的狀態(tài)數(shù)據(jù)、使用壽命,以及各部分參數(shù)指標(biāo)等數(shù)據(jù);新增用戶、現(xiàn)有用戶、用戶位置、用戶用電量,以及國家的建設(shè)計(jì)劃等用戶數(shù)據(jù).這種現(xiàn)象也導(dǎo)致了“數(shù)據(jù)豐富,信息缺乏”的現(xiàn)狀,獲得的數(shù)據(jù)在經(jīng)過少量應(yīng)用后就被堆積起來,沒有用于信息抽取,許多有價(jià)值的信息還沒被發(fā)掘,這給電網(wǎng)企業(yè)帶來一定損失.
如何利用數(shù)據(jù)挖掘技術(shù)將蘊(yùn)藏在電網(wǎng)企業(yè)海量數(shù)據(jù)中有價(jià)值的信息挖掘出來,這是決定電網(wǎng)企業(yè)未來發(fā)展的關(guān)鍵.本文就數(shù)據(jù)挖掘技術(shù)在電網(wǎng)企業(yè)數(shù)據(jù)管理、信息采集等方面的應(yīng)用進(jìn)行分析.
數(shù)據(jù)挖掘(Data Mining)又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)[1],它是指從大量的、不完全的、有噪音的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中、事先不知道的,但又是可信的、潛在的、有價(jià)值的信息和知識(shí)的過程.數(shù)據(jù)挖掘是一門交叉學(xué)科,涵蓋了數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、信息檢索及高性能計(jì)算等[2],它讓數(shù)據(jù)應(yīng)用上升到了新的高度,是一種新興的數(shù)據(jù)處理技術(shù),也是目前熱門的研究領(lǐng)域.
數(shù)據(jù)挖掘技術(shù)的出現(xiàn)意味著數(shù)據(jù)庫不再局限于實(shí)現(xiàn)數(shù)據(jù)錄入、查詢和統(tǒng)計(jì)等低層次的功能,而是可以通過對(duì)數(shù)據(jù)深層次分析,探尋數(shù)據(jù)模式及特征,揭示事物間的聯(lián)系,預(yù)測(cè)未來趨勢(shì),為決策提供依據(jù).
數(shù)據(jù)挖掘主要由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘,以及對(duì)挖掘結(jié)果的評(píng)估與表示3個(gè)階段組成.
(1)數(shù)據(jù)準(zhǔn)備 從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成有利于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)集.這一階段可細(xì)分為數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理和數(shù)據(jù)變化.許多專家認(rèn)為,在整個(gè)數(shù)據(jù)挖掘的過程中,有80%的時(shí)間和精力是花費(fèi)在數(shù)據(jù)預(yù)處理階段.由此可見,在進(jìn)行數(shù)據(jù)分析前,有許多準(zhǔn)備工作要完成.
(2)數(shù)據(jù)挖掘 用某種方法將數(shù)據(jù)集所暗含的規(guī)律找出來.這一階段包括確定數(shù)據(jù)挖掘目標(biāo)、選擇算法、數(shù)據(jù)挖掘等.
(3)結(jié)果評(píng)估與表示 盡可能以用戶可理解的方式將找出的規(guī)律表示出來.數(shù)據(jù)挖掘得到的模式并不是真正的知識(shí),而是需要對(duì)其進(jìn)行解釋和評(píng)估后才能形成最終被用戶理解且能用于實(shí)際的知識(shí).
其具體流程如圖1所示.
圖1 數(shù)據(jù)挖掘流程
經(jīng)過20年對(duì)數(shù)據(jù)挖掘技術(shù)的研究,國內(nèi)外專家提出了不少算法,主要方法可以歸納如下.
(1)分類法 分類就是找出一個(gè)類別的內(nèi)涵描述,用這種描述來構(gòu)造模型的過程,可以用來預(yù)測(cè)未知信息,其常用的算法包括決策樹歸納、貝葉斯分類算法、神經(jīng)網(wǎng)絡(luò)分類等.
(2)時(shí)序分析法 時(shí)序分析是指通過時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式.它用已知的數(shù)據(jù)預(yù)測(cè)未來的趨勢(shì)、發(fā)生的周期或前后數(shù)據(jù)之間的遞進(jìn)關(guān)系,其常用算法包括灰色模型GM(1,N)和Arima模型等.
(3)聚類分析法 聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異.聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系等,其常用算法包括 K-均值算法、DBscan密度算法、EM最大期望算法等.
(4)關(guān)聯(lián)分析法 關(guān)聯(lián)是指兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性.關(guān)聯(lián)分析的目的就是要找出數(shù)據(jù)間隱藏的關(guān)聯(lián),其常用算法包括Apriori算法、基于劃分的算法、FP-樹頻集算法等.
(5)孤異點(diǎn)分析法 數(shù)據(jù)庫中經(jīng)常存在一些不同于其他的數(shù)據(jù)對(duì)象,稱之為“孤異點(diǎn)”,在實(shí)際問題中孤異點(diǎn)可反映一些特殊異常情況,具有一定的現(xiàn)實(shí)意義,其常用算法包括索引的算法、嵌套-循環(huán)算法、基于單元(cell-based)的算法等.
電網(wǎng)企業(yè)數(shù)據(jù)自身存在的特點(diǎn):一是由于電力生產(chǎn)傳輸變化迅速,所以電網(wǎng)設(shè)備在進(jìn)行數(shù)據(jù)監(jiān)控時(shí)的數(shù)據(jù)采樣頻率很高,大部分電網(wǎng)設(shè)備平均每秒采樣一次[3];二是電網(wǎng)企業(yè)是一個(gè)規(guī)模相當(dāng)龐大的企業(yè),電網(wǎng)企業(yè)產(chǎn)生的數(shù)據(jù)不僅多,而且維度高,數(shù)據(jù)列多,很難整理;三是在電力系統(tǒng)中,采集到的數(shù)據(jù)中包含著諸如噪音、數(shù)據(jù)缺失等不確定因素,導(dǎo)致數(shù)據(jù)質(zhì)量差[4];四是電力供應(yīng)涉及千家萬戶,社會(huì)影響巨大,當(dāng)設(shè)備處于緊急狀態(tài)時(shí),必須制定實(shí)時(shí)在線快速?zèng)Q策,使設(shè)備重新回到正常狀態(tài).
電網(wǎng)企業(yè)產(chǎn)生的數(shù)據(jù)量大、質(zhì)量不高,但又對(duì)數(shù)據(jù)要求較高,這就意味著電網(wǎng)企業(yè)迫切需要數(shù)據(jù)挖掘技術(shù)來處理海量數(shù)據(jù),并發(fā)現(xiàn)數(shù)據(jù)間的潛在聯(lián)系.
但目前絕大多數(shù)電網(wǎng)企業(yè)的數(shù)據(jù)管理模式比較單一,不同部門的數(shù)據(jù)信息由各個(gè)部門自行處理,只進(jìn)行簡(jiǎn)單的參考或統(tǒng)計(jì)工作,沒有匯總到一起進(jìn)行系統(tǒng)的、全面的分析挖掘,導(dǎo)致大量有價(jià)值的信息被埋沒.因此,電網(wǎng)企業(yè)迫切需要能夠充分合理地進(jìn)行數(shù)據(jù)處理的數(shù)據(jù)挖掘平臺(tái).
此外,在我國電網(wǎng)企業(yè)改革的大背景下,電網(wǎng)企業(yè)必須引入競(jìng)爭(zhēng)機(jī)制來打破電力系統(tǒng)的壟斷格局[5].為了能在未來的競(jìng)爭(zhēng)中勝出,電網(wǎng)企業(yè)需要降低生產(chǎn)成本,為客戶提供個(gè)性化服務(wù),及時(shí)預(yù)測(cè)未來可能發(fā)生的變化趨勢(shì).而數(shù)據(jù)挖掘技術(shù)的應(yīng)用將極大提高企業(yè)的核心競(jìng)爭(zhēng)力.
2.2.1 在電力調(diào)度決策支持中的應(yīng)用
隨著電力系統(tǒng)的發(fā)展和電力體制改革的深化,為保證電網(wǎng)安全、優(yōu)質(zhì)和經(jīng)濟(jì)的運(yùn)行,并為電力市場(chǎng)化運(yùn)作提供技術(shù)支持,電力調(diào)度中心可能同時(shí)運(yùn)行多個(gè)應(yīng)用系統(tǒng),每個(gè)系統(tǒng)中又可能同時(shí)包括多個(gè)應(yīng)用.隨著系統(tǒng)運(yùn)行時(shí)間的推移和電力市場(chǎng)等新系統(tǒng)的投入,這些系統(tǒng)所產(chǎn)生的數(shù)據(jù)量在不斷增長(zhǎng).同時(shí),隨著全球經(jīng)濟(jì)一體化的進(jìn)程以及信息技術(shù)的發(fā)展,電力企業(yè)比以往任何時(shí)候都面臨著更為復(fù)雜的生存環(huán)境.基于傳統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)管理系統(tǒng),由于未進(jìn)行存儲(chǔ)空間和檢索效率的優(yōu)化,未按主題進(jìn)行集成和關(guān)聯(lián),且未對(duì)大量原始數(shù)據(jù)進(jìn)行足夠的歸納和綜合,已無法滿足企業(yè)對(duì)輔助決策的需要.因此,有必要采用數(shù)據(jù)挖掘技術(shù)建立電力調(diào)度數(shù)據(jù)倉庫,為管理層的電力調(diào)度策略制定提供決策支持[5].
2.2.2 在電力生產(chǎn)決策支持中的應(yīng)用
現(xiàn)代電力企業(yè)的發(fā)展對(duì)信息系統(tǒng)的要求越來越高,在過去的十幾年中,我國電力企業(yè)都建立了自己的管理信息系統(tǒng)(如計(jì)劃管理、負(fù)荷管理系統(tǒng)、生產(chǎn)MIS和GIS等),但基本局限于業(yè)務(wù)處理層,管理者和決策者只能根據(jù)固定的、定時(shí)的報(bào)表系統(tǒng)獲得有限的業(yè)務(wù)信息,信息的準(zhǔn)確性、實(shí)時(shí)性無法保證,無法適應(yīng)管理尤其是決策的需要.
隨著數(shù)據(jù)挖掘和決策支持系統(tǒng)技術(shù)的不斷完善,可以通過建立電力生產(chǎn)智能分析及輔助決策系統(tǒng),為管理決策者提供各種參考價(jià)值的生產(chǎn)安全運(yùn)行方案.如將生產(chǎn)MIS和地理信息GIS系統(tǒng)中分散的大量數(shù)據(jù),以及外部環(huán)境數(shù)據(jù)(氣象信息)等資源進(jìn)行組合、聚類、排序、抽取等加工,提煉升華為有價(jià)值的、支持決策的電力生產(chǎn)智能大廈.可以通過變電站、線路、設(shè)備、高壓用戶、氣象等不同角度來分析關(guān)鍵業(yè)務(wù)和生產(chǎn)技術(shù)指標(biāo),掌握設(shè)備的運(yùn)行狀態(tài)和特性,了解設(shè)備的缺陷[6];對(duì)發(fā)生的事故、故障及停電進(jìn)行分析跟蹤,挖掘深層原因,從而控制電力生產(chǎn)的風(fēng)險(xiǎn);指導(dǎo)基層保證設(shè)備完好率,支持和輔助基層做好設(shè)備更新技術(shù),提高運(yùn)行水平,降低事故發(fā)生率,提高供電可靠率和無故障運(yùn)行時(shí)間;輔助支持負(fù)荷轉(zhuǎn)移決策、設(shè)備檢修或更新決策,讓業(yè)務(wù)專責(zé)、生產(chǎn)主管、企業(yè)決策者作出準(zhǔn)確的判斷,使得電力企業(yè)取得最佳的社會(huì)效益和經(jīng)濟(jì)效益.
2.2.3 在同業(yè)對(duì)標(biāo)決策支持中的應(yīng)用
同業(yè)對(duì)標(biāo)管理,即標(biāo)桿管理,是以優(yōu)秀企業(yè)或機(jī)構(gòu)作為學(xué)習(xí)榜樣或者標(biāo)桿,對(duì)照其經(jīng)營業(yè)績(jī)或管理程序,找出本單位管理的差距所在,并參考標(biāo)桿企業(yè)或機(jī)構(gòu)的成功經(jīng)驗(yàn),制定并實(shí)施改進(jìn)措施,從而提高本單位經(jīng)營管理水平的一種管理活動(dòng).標(biāo)桿管理有助于我國企業(yè)縮短與西方發(fā)達(dá)國家企業(yè)的差距,提升綜合競(jìng)爭(zhēng)力.
在電力改革發(fā)展的形勢(shì)下,國家電網(wǎng)公司開展同業(yè)對(duì)標(biāo)工作有利于企業(yè)學(xué)習(xí)和借鑒國內(nèi)外先進(jìn)管理理念和方法,為持續(xù)提高管理水平提供實(shí)現(xiàn)方法,更好地服務(wù)地方經(jīng)濟(jì).國家電網(wǎng)已從安全生產(chǎn)、資產(chǎn)經(jīng)營、電網(wǎng)運(yùn)行、市場(chǎng)營銷、供電質(zhì)量、設(shè)備管理、人力資源、信息系統(tǒng)和基建管理9類共79項(xiàng)指標(biāo)在區(qū)域公司、省公司和地市供電企業(yè)之間進(jìn)行了對(duì)標(biāo)[7],初步建立了對(duì)標(biāo)指標(biāo)體系.指標(biāo)體系數(shù)據(jù)量龐大,信息復(fù)雜,利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理和分析,可以充分發(fā)揮對(duì)標(biāo)工作在電網(wǎng)企業(yè)中的作用.
2.2.4 在安全穩(wěn)定性評(píng)估中的應(yīng)用
利用數(shù)據(jù)挖掘技術(shù)中的貝葉斯網(wǎng)絡(luò)算法,根據(jù)相應(yīng)的規(guī)則對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行自動(dòng)分析,判斷狀態(tài)的穩(wěn)定性概率.然后利用提取出來的安全評(píng)估知識(shí),在系統(tǒng)正常運(yùn)行時(shí)發(fā)現(xiàn)系統(tǒng)可能存在的隱患,以引起特別注意;還可利用可視化技術(shù)圖形化地進(jìn)行穩(wěn)定性分析,給出提高系統(tǒng)安全穩(wěn)定性的相應(yīng)決策.
2.2.5 在規(guī)劃設(shè)計(jì)中的應(yīng)用
若要取得有效的系統(tǒng)規(guī)劃結(jié)果,在進(jìn)行規(guī)劃設(shè)計(jì)時(shí)就必須考慮由于負(fù)荷模型不同而引起的系統(tǒng)多種結(jié)構(gòu)及在每種結(jié)構(gòu)下可能出現(xiàn)的故障,由此制定出保證系統(tǒng)安全穩(wěn)定運(yùn)行的規(guī)劃策略,如確定相應(yīng)的臨界運(yùn)行參數(shù)和穩(wěn)定域、確定保護(hù)和控制裝置的參數(shù)等.在此過程中,數(shù)據(jù)的處理量巨大,數(shù)據(jù)挖掘正是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這種模型和數(shù)據(jù)間的關(guān)系可被用來制定系統(tǒng)正常情況下的運(yùn)行法則和發(fā)生故障時(shí)的應(yīng)對(duì)策略.
2.2.6 在營銷部門中的應(yīng)用
在電力營銷環(huán)節(jié),針對(duì)“大營銷”體系建設(shè),抓住用戶就意味著抓住市場(chǎng).可以利用聚類分析法,根據(jù)不同客戶的不同特點(diǎn)分成不同的組別,決策人員通過分析各組間的差異來決定采取不同的營銷策略,以提高企業(yè)的經(jīng)濟(jì)效益[8].
電力市場(chǎng)化后,預(yù)測(cè)電價(jià)對(duì)于企業(yè)實(shí)現(xiàn)利益最大化有現(xiàn)實(shí)意義.可以通過時(shí)序分析法分析用電負(fù)荷需求、燃料價(jià)格、消費(fèi)水平、物價(jià)指數(shù)等相關(guān)因素,在歷史數(shù)據(jù)中對(duì)相似特性的特征元素追蹤相應(yīng)的電價(jià),從而得到電價(jià)預(yù)測(cè)值[9].
此外,數(shù)據(jù)挖掘技術(shù)還可以應(yīng)用于指導(dǎo)項(xiàng)目管理、安全管理、資源管理、投資組合管理,以及活動(dòng)分析、銷售預(yù)測(cè)、收入預(yù)測(cè)、需求預(yù)測(cè)、理賠分析等方面.
目前,數(shù)據(jù)挖掘技術(shù)理論已趨成熟,已在許多行業(yè)取得了巨大成效,但在電網(wǎng)企業(yè)中的應(yīng)用還屬初級(jí)階段.有些應(yīng)用已實(shí)現(xiàn),但挖掘方法還不完善,在分析決策時(shí)還需要考慮多方面的影響,有些應(yīng)用仍處于構(gòu)想中.因此,我們應(yīng)結(jié)合電網(wǎng)企業(yè)的特點(diǎn),開發(fā)適用的數(shù)據(jù)挖掘平臺(tái),將理論付諸于實(shí)際應(yīng)用,挖掘電力系統(tǒng)中有價(jià)值的數(shù)據(jù),為電網(wǎng)企業(yè)創(chuàng)造更大的收益.
[1]BRAEHRNAN R,ALLAN T.The process of knowledge discovery in databases:a human centered approach[M].AAAI Press.Calif.,1996:37-58.
[2]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào),2004,32(2):246-252.
[3]盧強(qiáng).數(shù)字電力系統(tǒng)[J].電力系統(tǒng)自動(dòng)化,2000,24(9):1-4.
[4]于之虹,郭志忠.數(shù)據(jù)挖掘與電力系統(tǒng)[J].電網(wǎng)技術(shù),2001,25(8):58-62.
[5]張海勤,鄒翔,洪流,等.電力調(diào)度數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].小型微型計(jì)算機(jī)系統(tǒng),2003,24(1):64-67.
[6]陳超金.基于數(shù)據(jù)挖掘的電力設(shè)備狀態(tài)檢修技術(shù)研究綜述[J].廣東電力,2009,22(9):21-24.
[7]毛新蕾.對(duì)于同業(yè)對(duì)標(biāo)工作的思考[J].華東電力,2008,36(3):111-113.
[8]馮璐,王成文.基于數(shù)據(jù)挖掘的供電企業(yè)客戶關(guān)系管理系統(tǒng)研究與設(shè)計(jì)[J].電力信息化,2007,30(7):85-88.
[9]林其友,陳星鶯,王之偉.數(shù)據(jù)挖掘技術(shù)在電價(jià)預(yù)測(cè)中的應(yīng)用[J].電網(wǎng)技術(shù),2006,23(12):83-87.