孟祥君 張偉昌 王宗光(國網(wǎng)山東電力公司,山東濟南 250000)
?
大數(shù)據(jù)在電力行業(yè)的應用與挑戰(zhàn)
孟祥君 張偉昌 王宗光
(國網(wǎng)山東電力公司,山東濟南 250000)
【摘 要】大數(shù)據(jù)(big data),是指數(shù)據(jù)規(guī)模特別巨大,以至于無法通過傳統(tǒng)的軟件工具和處理方式有效地對數(shù)據(jù)進行采集、存儲、分析、整合、控制,達到數(shù)據(jù)的深度價值挖掘和輔助決策的信息資料。大數(shù)據(jù)具有4V特點:Volume(數(shù)據(jù)量大)、Velocity(實時性強)、Variety(數(shù)據(jù)種類多樣)、value(價值大)。
【關鍵詞】大數(shù)據(jù) 電力大數(shù)據(jù) Hadoop 數(shù)據(jù)挖掘 分布式機器學習
【Abstract】Big data, refers to a huge amount of data, that it is unable to be collected, stored, analyzed, integrated and controlled by the conventional software tools and effective processing ways, in order to achieve the deep value mining and scientific decision-making.Big data has 4V features: Volume(massive data), Velocity(high real-time), Variety( various data types), Value(high value).
【Key words】big data; big data in electric power industry; Hadoop; data mining; distributed machine learning
2014年7月28日 國務院印發(fā)《關于加快發(fā)展生產(chǎn)性服務業(yè)促進產(chǎn)業(yè)結構調整升級的指導意見》,更加明確了大數(shù)據(jù)技術在產(chǎn)業(yè)結構升級中的核心基礎性地位。
能源產(chǎn)業(yè)的全面、協(xié)調和可持續(xù)發(fā)展,是我國經(jīng)濟實現(xiàn)平穩(wěn)快速增長和轉型升級的重要基礎性保證。電力作為最主要的二次能源,其高效利用和優(yōu)化配置,實現(xiàn)節(jié)能減排和服務轉型升級,對于順應低碳發(fā)展趨勢、構筑綠色能源產(chǎn)業(yè)體系、減少資源浪費、促進產(chǎn)業(yè)結構升級、創(chuàng)建可持續(xù)性發(fā)展的節(jié)約型社會具有重大意義。
近年來,隨著全球能源問題日益嚴峻,世界各國都開展了智能電網(wǎng)的研究工作。智能電網(wǎng)的最終目標是建設成為覆蓋電力系統(tǒng)整個生產(chǎn)過程,包括發(fā)電、輸電、變電、配電、用電及調度等多個環(huán)節(jié)的全景實時系統(tǒng)。而支撐智能電網(wǎng)安全、自愈、綠色、堅強及可靠運行的基礎是電網(wǎng)全景實時數(shù)據(jù)采集、傳輸和存儲,以及累積的海量多源數(shù)據(jù)快速分析。因而隨著智能電網(wǎng)建設的不斷深入和推進,電網(wǎng)運行和設備檢/監(jiān)測產(chǎn)生的數(shù)據(jù)量呈指數(shù)級增長,逐漸構成了當今信息學界所關注的大數(shù)據(jù),這需要相應的存儲和快速處理技術作為支撐。
電力行業(yè)的大數(shù)據(jù)在電力的生產(chǎn)和使用過程中,伴隨著發(fā)電、輸電、變電、配電、用電以及調度等環(huán)節(jié)產(chǎn)生。
3.1 數(shù)據(jù)挖掘
電力大數(shù)據(jù)的分析和挖掘主要面向結構化和非結構化數(shù)據(jù),能夠針對復雜數(shù)據(jù)結構、多類型的海量數(shù)據(jù)做有效的處理。
但目前電力行業(yè)的數(shù)據(jù)挖掘計算大多都是基于小數(shù)據(jù)集進行計算的,這是因為目前在大數(shù)據(jù)行業(yè)內(nèi)主流的大數(shù)據(jù)計算框架還沒有在電力大數(shù)據(jù)領域內(nèi)得以普遍應用,使用傳統(tǒng)方式做海量數(shù)據(jù)的挖掘計算往往需要數(shù)天甚至幾個月的時間,這是人們在實際業(yè)務場景中無法接受的。而是用小數(shù)據(jù)集進行的數(shù)據(jù)挖掘操作,其真實性、可靠性都遠不及基于海量數(shù)據(jù)的挖掘結果。這也是我們目前正在持續(xù)進行的研發(fā)重點。
基于Hadopp HDFS、HBASE的快速訪問,基于Spark的分布式訪問和分布式計算,基于R和Spark mllib的統(tǒng)計、計算、分析,基于Mahout的機器學習,共同構建了基于大數(shù)據(jù)的高性能流計算的數(shù)據(jù)挖掘、統(tǒng)計、分析技術框架。
3.2 實時計算
電力行業(yè)的實時計算在其大數(shù)據(jù)應用領域內(nèi)具有不可忽視的地位。電力行業(yè)的實時數(shù)據(jù)往往代表著設備運行參數(shù)、生產(chǎn)環(huán)境的各項指標、客戶的實時需求等等,這樣的數(shù)據(jù),其價值只有在其剛剛產(chǎn)生的時候,才是最大的。而且,在數(shù)據(jù)剛剛產(chǎn)生的時候,就對其進行移動、計算和使用才是最有意義的,這也符合數(shù)據(jù)應用的一般規(guī)律。因此,電力大數(shù)據(jù)一定要重視實時計算場景的應用。
現(xiàn)階段,基于傳統(tǒng)數(shù)據(jù)量實現(xiàn)的實時計算框架已經(jīng)比較能夠成熟的應用在電力行業(yè)。例如,在電廠中,以秒、分鐘為單位采集電廠電力設備的各項運行指標、參數(shù),數(shù)據(jù)采集完成之后,將被發(fā)送實時計算框架。在框架中,所采集到的參數(shù)指標將應用于數(shù)據(jù)挖掘建立的數(shù)據(jù)模型及電力專家長年積累的業(yè)務規(guī)則,實現(xiàn)設備故障檢測、故障預警、設備狀態(tài)評估等功能。實時計算完成后,計算結果及原始數(shù)據(jù)將被保存至數(shù)據(jù)庫,供后續(xù)數(shù)據(jù)挖掘使用,而挖掘出的規(guī)則、知識、數(shù)據(jù)模型,也將重新應用實時計算的過程中,形成一套近似于自我完善的完整體系。但是,由于其單節(jié)點計算的瓶頸,沒有分布式計算的概念,導致其能夠同時支撐的實時計算模型有限,無法適應電力行業(yè)發(fā)展的需求。因此,電力行業(yè)的實時計算急需通過分布式內(nèi)存計算的方式,解決數(shù)據(jù)量增大時計算性能受限的瓶頸。
充分利用Spark Streaming的分布式數(shù)據(jù)訪問能力,基于Spark分布式計算平臺和Spark分布式計算對R的整合,并結合Redis分布式內(nèi)存數(shù)據(jù)庫,完全可以解決海量數(shù)據(jù)下的電力大數(shù)據(jù)實時訪問和實時計算分析。
4.1 apache Hadoop
Hadoop是一個能夠對大量數(shù)據(jù)進行分布式處理的軟件框架。具有可靠性高、可擴展性高、訪問效率高、計算效率高、容錯性高、伸縮性強的特點,用戶可以基于hadoop平臺輕松架構和使用自己的分布式計算平臺,開發(fā)和運行處理海量數(shù)據(jù)的應用程序,是大數(shù)據(jù)行業(yè)內(nèi),最為主流的大數(shù)據(jù)平臺構建基礎(如圖1),其分布式存儲系統(tǒng)和作業(yè)調度系統(tǒng)已經(jīng)成為其他大數(shù)據(jù)框架的構建基礎,居于主導地位。以Hadoop技術架構為核心的大數(shù)據(jù)技術架構生態(tài)系統(tǒng)構成目前最主流的大數(shù)據(jù)技術生態(tài)系統(tǒng)。大數(shù)據(jù)技術目前正處于快速發(fā)展時期,業(yè)界普遍預期,大數(shù)據(jù)相關技術架構,將在未來1-2年趨于成熟。
4.2 apache spark(分布式計算)
Apache spark是一款開源的數(shù)據(jù)分析集群計算框架,由于他基于內(nèi)存的分布式計算設計,使得他的計算效率相比Hadoop自帶的Mapreduce計算框架要高20~100倍。由于這樣的性能優(yōu)勢,spark已經(jīng)成為大數(shù)據(jù)行業(yè)內(nèi)最為主流的分布式計算框架。
圖1
Spark開發(fā)團隊基于Spark計算框架,又相續(xù)研發(fā)出了分布式實時計算框架Spark Streaming和數(shù)據(jù)倉庫Hive in Spark,這兩款工具以其高計算性能、高容錯性、巨大的數(shù)據(jù)處理規(guī)模、低端的學習成本已經(jīng)逐漸在其相關領域內(nèi)占據(jù)了不可替代的位置。
4.3 apache kafka(分布式消息系統(tǒng))
Kafka是一款開源的基于隊列實現(xiàn)的分布式消息訂閱發(fā)布系統(tǒng),主要用于處理活躍的流式數(shù)據(jù),比較常見的是日志處理系統(tǒng),在電力行業(yè)內(nèi)通常作為實時數(shù)據(jù)與實時計算框架之間的緩沖區(qū)存在。他具有速度快、可擴展性好、可靠性好的優(yōu)點。
4.4 apache Mahout(機器學習)
Mahout起源于2008年,最初是Apache Lucent的子項目,它在極短的時間內(nèi)取得了長足的發(fā)展,現(xiàn)在是Apache的頂級項目。
Mahout的主要目標是創(chuàng)建一些可擴展的機器學習領域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應用程序。Mahout現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法,Mahout還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲系統(tǒng)(如數(shù)據(jù)庫、M o n g o D B或Cassandra)集成等數(shù)據(jù)挖掘支持架構。
電力大數(shù)據(jù)的價值在于挖掘海量數(shù)據(jù)隱藏的物與物之間的關系和規(guī)律,為企業(yè)電力生產(chǎn)、經(jīng)營管理和電力服務在質量、效益、效率方面提高提供有力的支撐,促進電力資源配置、服務的優(yōu)化。
電力生產(chǎn)過程中各個環(huán)節(jié)數(shù)據(jù)的融合、發(fā)掘,能夠幫助發(fā)現(xiàn)電力生產(chǎn)的薄弱環(huán)節(jié)、尋找改進措施。電力生產(chǎn)大數(shù)據(jù)的挖掘和分析處理技術可以指導發(fā)電企業(yè)更好地進行設備運行狀態(tài)評估及故障診斷、發(fā)電生產(chǎn)決策與控制等。
5.1 安全評估及故障診斷
基于數(shù)據(jù)挖掘技術的設備運行狀態(tài)監(jiān)視:基于DCS、PI等系統(tǒng)的實時數(shù)據(jù)和海量的歷史數(shù)據(jù),結合其他第三方系統(tǒng)數(shù)據(jù)(例如天氣狀況、電網(wǎng)調度歷史數(shù)據(jù)等),建立機組安全運行狀態(tài)模型,數(shù)據(jù)挖掘技術可以自動發(fā)現(xiàn)某些不正常的數(shù)據(jù)分布,從而暴露設備運行中的異常變化,分析潛在的不安全因素,協(xié)助運行和檢修人員預測機組運行狀態(tài),并迅速找出問題發(fā)生的范圍及時檢修和采取對策。
5.2 發(fā)電生產(chǎn)決策與控制
基于數(shù)據(jù)挖掘技術的決策支持和控制:決策支持方面,發(fā)電企業(yè)門戶系統(tǒng)的主要功能是統(tǒng)計和展示,并沒有提供決策信息(例如某電廠的月度發(fā)電量指標、年度經(jīng)營指標等如何制定);控制方面,當機組出現(xiàn)異常情況時.目前仍然是基于專家系統(tǒng)的控制方式,即依賴經(jīng)驗豐富的專家(值長),此時呈現(xiàn)在專家面前的數(shù)據(jù)量從幾十條/min瞬時上升為幾十條/s,數(shù)據(jù)量的激增使得專家在應對異常狀況時也有較大壓力,因此這種控制方式也已無法適應生產(chǎn)要求。數(shù)據(jù)挖掘技術具有定性分析能力。從大量數(shù)據(jù)中去除冗余信息,可將每一種狀態(tài)的故障特征提取出來.成為判斷機組狀態(tài)、如何快速處理故障、準確決策的依據(jù)。
5.3 設備檢修策略改進
基于數(shù)據(jù)挖掘技術的電力設備狀態(tài)檢修:首先收集設備的基礎信息、歷史運行數(shù)據(jù)、設備缺陷信息等,通過對歷史運行數(shù)據(jù)和缺陷信息進行數(shù)據(jù)挖掘,得到設備缺陷狀態(tài)下特征值及關聯(lián)參數(shù)值,將挖掘得到的信息與設備當前運行監(jiān)測值進行對比分析,即可以判斷設備當前運行狀態(tài)是否正常。例如,通過關聯(lián)規(guī)則分析,往往可以發(fā)現(xiàn)A設備振動報警后。B設備也會有較大概率出現(xiàn)振動報警,該關聯(lián)規(guī)則可以提供早期故障預測及原因分析。
在電力輸送領域內(nèi)進行電力的實時線損計算,通過智能電表采集到的海量能源數(shù)據(jù),實時計算分線、分壓、分區(qū)、分臺區(qū)等等各種范圍的線路損耗,從而為電網(wǎng)的調度、交易和檢修提供支撐,有利于實現(xiàn)更為經(jīng)濟、可靠的電網(wǎng)運行方式,增強電力資源的配置能力。
除了電力領域之內(nèi)在電力企業(yè)外部,電力大數(shù)據(jù)也為社會民生、經(jīng)濟發(fā)展的動向提供了有力的客觀依據(jù)。目前,作為一種高時效性、高準確性的數(shù)據(jù),電力數(shù)據(jù)已經(jīng)被廣泛的應用于分析經(jīng)濟發(fā)展水平、經(jīng)濟走勢、產(chǎn)業(yè)分布情況,甚至政策實施效果等等科學問題。我們通過分析各種產(chǎn)業(yè)用電量之間的關系,深入研究產(chǎn)業(yè)結構與經(jīng)濟體系的變化特點,能夠對未來幾年內(nèi)的電力需求情況有大致的預測,為社會經(jīng)濟發(fā)展提供了有力的支撐。
電力大數(shù)據(jù)作為大數(shù)據(jù)領域內(nèi)新興的技術和理念,已經(jīng)展露出其數(shù)據(jù)中蘊含的巨大價值和能量,其數(shù)據(jù)無論是與自身關聯(lián),還是與其他行業(yè)相關聯(lián),都是一筆巨大的待人挖掘的財富。
眼下,以數(shù)據(jù)為中心的信息化理念異軍突起,正在逐步變革傳統(tǒng)的信息化工作思路,促進信息化與工業(yè)化深度融合,給電力行業(yè)帶來全新的工作方式和商業(yè)模式。在不遠的將來,電力大數(shù)據(jù)一定能夠變革傳統(tǒng)的電力生產(chǎn)、營銷模式,使電力產(chǎn)業(yè)以嶄新的姿態(tài)出現(xiàn)在國民經(jīng)濟發(fā)展的大潮中!
作者簡介:孟祥君(1975—),男,山東濟寧人,本科,高級工程師,國網(wǎng)山東省電力公司,主要從事信息化管理工作;張偉昌(1971—),男,山東棗莊人,本科,高級工程師,國網(wǎng)山東省電力公司,主要從事信息化管理工作;王宗光(1971—),男,山東濟寧人,本科,高級工程師,山東魯能軟件技術有限公司,主要從事電力信息化系統(tǒng)開發(fā)與建設管理工作。