許海清 ,黃 敏
(1.江蘇省電力公司電力科學(xué)研究院,江蘇南京211103;2.無(wú)錫供電公司信通分公司,江蘇無(wú)錫214061)
近年來(lái),大數(shù)據(jù)被人們談?wù)摰脑絹?lái)越多,大數(shù)據(jù)甚至受到了包括美國(guó)政府在內(nèi)的諸多機(jī)構(gòu)組織的重大關(guān)注,大數(shù)據(jù)在互聯(lián)網(wǎng)、電信運(yùn)營(yíng)、金融投資等相關(guān)領(lǐng)域的率先應(yīng)用也已經(jīng)累積了相當(dāng)?shù)氖痉缎?yīng)[1,2],不論是傳統(tǒng)的 IBM,Oracle,SAP,Intel等 IT 廠家, 還是以Google,Amazon為代表的新興互聯(lián)網(wǎng)產(chǎn)品供應(yīng)商,都推出了各種各樣的解決方案和軟硬件產(chǎn)品。正是在大數(shù)據(jù)逐步推行到各行各業(yè)的背景下,電力行業(yè)也開(kāi)始謀求將大數(shù)據(jù)應(yīng)用于電力行業(yè)的生產(chǎn)管理,預(yù)期切實(shí)借助大數(shù)據(jù)提高電力企業(yè)的運(yùn)營(yíng)水平。可以預(yù)見(jiàn),在不久的將來(lái),大數(shù)據(jù)將會(huì)廣泛應(yīng)用于電力行業(yè),全方位的覆蓋輸電、配電、調(diào)度、營(yíng)銷等電網(wǎng)運(yùn)行的諸多環(huán)節(jié)[3],作為電力信息化企業(yè)支撐的信息運(yùn)行,無(wú)疑將在大數(shù)據(jù)這一廣泛性應(yīng)用中發(fā)揮基礎(chǔ)性的作用。
麥肯錫公司認(rèn)為大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合[4]。此外,Gartner公司也認(rèn)為:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)”[5]。簡(jiǎn)言之,大數(shù)據(jù)指的就是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的資訊。
IBM 公司認(rèn)為大數(shù)據(jù)具有 3個(gè) V(Volume,Variety,Velocity)的特征,隨著發(fā)展,業(yè)界又增加了一個(gè)Value特征,簡(jiǎn)稱4V特征。其中,Volume表示數(shù)據(jù)量巨大,當(dāng)前一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB數(shù)量級(jí);Variety是數(shù)據(jù)類型多,不僅包括結(jié)構(gòu)化數(shù)據(jù)還包括非結(jié)構(gòu)化的數(shù)據(jù);Velocity表示處理速度快,最后一個(gè)V即表示數(shù)據(jù)價(jià)值密度低,對(duì)于海量數(shù)據(jù)而言,相應(yīng)有價(jià)值的東西并不會(huì)多,因此對(duì)數(shù)據(jù)處理技術(shù)提出了更高的要求。
電力行業(yè)的信息時(shí)代正處于關(guān)鍵轉(zhuǎn)折點(diǎn),隨著智能變電站系統(tǒng)、現(xiàn)場(chǎng)移動(dòng)檢修系統(tǒng)、測(cè)控一體化系統(tǒng)、地理信息系統(tǒng)、智能表計(jì)等智能電網(wǎng)系統(tǒng)的建設(shè),以往數(shù)據(jù)類型較為單一、增長(zhǎng)較為緩慢的情況將發(fā)生轉(zhuǎn)變,逐漸步入到由復(fù)雜及異構(gòu)數(shù)據(jù)源廣泛存在和驅(qū)動(dòng)的時(shí)代,電力大數(shù)據(jù)將快速的向著異構(gòu)、多源、PB級(jí)規(guī)模發(fā)展[6]。電力大數(shù)據(jù)究竟該如何定義,目前行業(yè)內(nèi)普遍認(rèn)為電力大數(shù)據(jù)是指通過(guò)傳感器、智能設(shè)備、視頻監(jiān)控設(shè)備、音頻通信設(shè)備、移動(dòng)終端等各種數(shù)據(jù)采集渠道收集到的,結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量業(yè)務(wù)數(shù)據(jù)的集合[7]。
挖掘電力大數(shù)據(jù),形成真正適用的電力大數(shù)據(jù)應(yīng)用系統(tǒng),如電網(wǎng)安全大數(shù)據(jù)系統(tǒng)、全社會(huì)用電信息大數(shù)據(jù)系統(tǒng)等,這些系統(tǒng)將產(chǎn)生大量的應(yīng)用價(jià)值,有利于電力企業(yè)高效的生產(chǎn)運(yùn)行和精細(xì)化運(yùn)營(yíng)管理,是下一代智能化電力系統(tǒng)在大數(shù)據(jù)時(shí)代下價(jià)值形態(tài)的躍升。
基于大數(shù)據(jù)產(chǎn)業(yè)鏈的定義,電力大數(shù)據(jù)的關(guān)鍵技術(shù)既包括數(shù)據(jù)分析技術(shù)等核心技術(shù),也包括數(shù)據(jù)管理、數(shù)據(jù)處理、數(shù)據(jù)可視化等重要技術(shù)。
(1)數(shù)據(jù)分析技術(shù):包括數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等人工智能技術(shù),具體是指電網(wǎng)安全在線分析、間歇性電源發(fā)電預(yù)測(cè)、設(shè)施線路運(yùn)行狀態(tài)分析等技術(shù)[8]。由于電力系統(tǒng)安全穩(wěn)定運(yùn)行的重要性以及電力發(fā)輸變配用的瞬時(shí)性,相比其他行業(yè),電力大數(shù)據(jù)對(duì)分析結(jié)果的精度要求更高。
(2)數(shù)據(jù)管理技術(shù):包括關(guān)系型和非關(guān)系型數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)融合和集成技術(shù)、數(shù)據(jù)抽取技術(shù)、數(shù)據(jù)清洗和過(guò)濾技術(shù),具體是指電力數(shù)據(jù) ETL(Extract,Transfer和Load)、電力數(shù)據(jù)統(tǒng)一公共模型等技術(shù)。電力數(shù)據(jù)質(zhì)量本身不高,準(zhǔn)確性、及時(shí)性均有所欠缺,也對(duì)數(shù)據(jù)管理技術(shù)提出了更高的要求。
(3)數(shù)據(jù)處理技術(shù):包括分布式計(jì)算技術(shù)、內(nèi)存計(jì)算技術(shù)、流處理技術(shù)。具體是指電力云、電力數(shù)據(jù)中心軟硬件資源虛擬化等技術(shù)。近幾年電力數(shù)據(jù)的海量增長(zhǎng)使得電力企業(yè)需要通過(guò)新型數(shù)據(jù)處理技術(shù)來(lái)更有效的利用軟硬件資源,在降低IT投入、維護(hù)成本和物理能耗的同時(shí),為電力大數(shù)據(jù)的發(fā)展提供更為穩(wěn)定、強(qiáng)大的數(shù)據(jù)處理能力。
(4)數(shù)據(jù)展現(xiàn)技術(shù):包括可視化技術(shù)、歷史流展示技術(shù)、空間信息流展示技術(shù)等。具體是指電網(wǎng)狀態(tài)實(shí)時(shí)監(jiān)視、互動(dòng)屏幕與互動(dòng)地圖、變電站三維展示與虛擬現(xiàn)實(shí)等技術(shù)。電力數(shù)據(jù)種類繁雜,電力相關(guān)指標(biāo)復(fù)雜,加以未來(lái)的電力用戶雙向互動(dòng)需求,需要大力發(fā)展數(shù)據(jù)展現(xiàn)技術(shù),提高電力數(shù)據(jù)的直觀性和可視性,從而提升電力數(shù)據(jù)的可利用價(jià)值。
隨著大數(shù)據(jù)在電力領(lǐng)域的縱深推廣應(yīng)用,電力信息運(yùn)行必須要適應(yīng)這一變化而提前加強(qiáng)自身建設(shè)。
數(shù)據(jù)中心是企業(yè)數(shù)據(jù)物理承載的核心,數(shù)據(jù)量的數(shù)量級(jí)增長(zhǎng)無(wú)疑對(duì)數(shù)據(jù)中心的建設(shè)和運(yùn)維形成巨大影響,這些影響從目前來(lái)看主要是3個(gè)方面。
(1)首先在企業(yè)建設(shè)數(shù)據(jù)中心時(shí)應(yīng)充分考慮擴(kuò)展性和靈活性,要預(yù)留較大的機(jī)房空間,數(shù)據(jù)大幅地增加肯定需要大量的存儲(chǔ),要增加大量的硬件設(shè)備如服務(wù)器、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)交換機(jī),大量硬件設(shè)備的增減對(duì)機(jī)房基礎(chǔ)設(shè)施肯定帶來(lái)新的挑戰(zhàn),如機(jī)房散熱通風(fēng)、網(wǎng)絡(luò)帶寬等等因素;(2)大數(shù)據(jù)下的信息系統(tǒng)會(huì)更多地采用分布式的數(shù)據(jù)庫(kù)和文件系統(tǒng),因此集中化的數(shù)據(jù)中心、云計(jì)算中心和超級(jí)計(jì)算機(jī)中心將成為數(shù)據(jù)中心的新目標(biāo)。(3)就是運(yùn)行維護(hù)人員生產(chǎn)技能培訓(xùn)方面,大數(shù)據(jù)的存儲(chǔ)和計(jì)算更多建立在Hadoop多層次的技術(shù)生態(tài)圈中,因此運(yùn)行維護(hù)人員學(xué)習(xí)和掌握Hadoop體系的技能知識(shí),將成為未來(lái)數(shù)據(jù)中心的運(yùn)行維護(hù)基礎(chǔ)。
大數(shù)據(jù)的網(wǎng)絡(luò)特點(diǎn)決定了對(duì)信息網(wǎng)絡(luò)有著更高的要求。(1)高帶寬,典型的網(wǎng)絡(luò)重載業(yè)務(wù),持續(xù)大帶寬通信;(2)集群部署,降低成本,與其他業(yè)務(wù)混合部署,減少突發(fā)對(duì)其他業(yè)務(wù)影響;(3)TCP incast,傳輸性能優(yōu)化。因此信息網(wǎng)絡(luò)基礎(chǔ)設(shè)施也要逐步升級(jí),滿足大數(shù)據(jù)下的網(wǎng)絡(luò)要求。首先,網(wǎng)絡(luò)交換設(shè)備要選擇有合理緩存的設(shè)備;其二,主網(wǎng)絡(luò)帶寬要從1 G向10G發(fā)展,數(shù)據(jù)中心的網(wǎng)絡(luò)應(yīng)該是全光網(wǎng)絡(luò),建設(shè)新一代高性能光網(wǎng)絡(luò)。
在大數(shù)據(jù)給企業(yè)帶來(lái)的機(jī)遇同時(shí),大數(shù)據(jù)也給企業(yè)信息安全帶來(lái)了新的挑戰(zhàn)。由于企業(yè)的更多信息以海量數(shù)據(jù)的形式存在,數(shù)據(jù)更加全樣本,而且這些數(shù)據(jù)管理相比以往更為集中,訪問(wèn)的形式也更方便和多樣,便利的同時(shí)意味著風(fēng)險(xiǎn)更大,一旦出現(xiàn)信息安全事件,后果更為嚴(yán)重,因此必須要加強(qiáng)信息安全管理和應(yīng)為更為先進(jìn)的安全技術(shù),保護(hù)海量數(shù)據(jù)的安全,提升企業(yè)的整體信息安全治理水平[9]。
在電力信息運(yùn)行領(lǐng)域的各個(gè)環(huán)節(jié)也蘊(yùn)含著海量數(shù)據(jù),既然擁有海量數(shù)據(jù),就可以借助大數(shù)據(jù)的平臺(tái)和技術(shù)對(duì)這些海量數(shù)據(jù)進(jìn)行分析和處理,從而挖掘其中的價(jià)值。
構(gòu)成電力信息運(yùn)行主體主要有主機(jī)設(shè)備、網(wǎng)絡(luò)設(shè)備、PC桌面計(jì)算機(jī)、各類信息系統(tǒng),在長(zhǎng)期信息運(yùn)行過(guò)程中,各個(gè)環(huán)節(jié)已經(jīng)累積了巨量的日志信息數(shù)據(jù),而且每天還在不斷地產(chǎn)生新的日志信息數(shù)據(jù),這些數(shù)據(jù)按照來(lái)源可以分為2類數(shù)據(jù):
(1)信息設(shè)備和信息系統(tǒng)自身的運(yùn)行日志信息,可以細(xì)分為正常運(yùn)行、異常運(yùn)行、預(yù)警事件日志信息,通過(guò)這些運(yùn)行日志信息,就可以描畫出信息設(shè)備和信息系統(tǒng)的運(yùn)行狀況,甚至對(duì)未來(lái)的運(yùn)行狀況進(jìn)行預(yù)測(cè),由這些運(yùn)行狀況大的信息就可以來(lái)組織一些運(yùn)維工作,比如設(shè)備采購(gòu)、運(yùn)行檢修等等;
(2)信息設(shè)備和信息系統(tǒng)自身的訪問(wèn)日志的信息,通過(guò)這些訪問(wèn)日志的信息,就可以描畫用戶的行為,哪些信息系統(tǒng)用戶訪問(wèn)的最多,哪些用戶對(duì)信息系統(tǒng)的使用更多,通過(guò)這些數(shù)據(jù)的挖掘,就可以對(duì)整個(gè)電力公司的業(yè)務(wù)狀況等等信息進(jìn)行梳理和統(tǒng)計(jì),從而對(duì)公司信息化輔助決策。這些日志信息按照數(shù)據(jù)類型來(lái)分,應(yīng)該分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)主要是專業(yè)的監(jiān)控系統(tǒng)保存在數(shù)據(jù)庫(kù)中的數(shù)據(jù),非結(jié)構(gòu)化則是一些文本的數(shù)據(jù)信息,而且這類數(shù)據(jù)還占大多數(shù)。
顯然,這些日志信息無(wú)法憑借以前的平臺(tái)和技術(shù)進(jìn)行處理,首先是數(shù)據(jù)量巨大,其次還存在大量的非結(jié)構(gòu)化數(shù)據(jù),因此必須借助于大數(shù)據(jù)平臺(tái)和技術(shù)來(lái)進(jìn)行的數(shù)據(jù)的存儲(chǔ)、處理、挖掘和可視化展示。
以國(guó)網(wǎng)江蘇公司為例,江蘇公司目前在全省范圍內(nèi)開(kāi)通了信息客服熱線5186,任何有關(guān)信息方面的事宜都可以通過(guò)該熱線進(jìn)行反映,據(jù)統(tǒng)計(jì),每天語(yǔ)音電話受理量都在100起左右,而且還在不斷地增長(zhǎng)中。這些語(yǔ)音數(shù)據(jù)僅是存儲(chǔ)就是一個(gè)問(wèn)題,如果不借助于大數(shù)據(jù)的廉價(jià)存儲(chǔ),長(zhǎng)期保存這些數(shù)據(jù),企業(yè)將不堪重負(fù),如果沒(méi)有高性能的計(jì)算分析處理能力,這些語(yǔ)音數(shù)據(jù)也僅限于作為檔案資料進(jìn)行保存,而失去應(yīng)有的價(jià)值,使用大數(shù)據(jù)平臺(tái)強(qiáng)大的計(jì)算能力和一些語(yǔ)音分析模型就可以對(duì)這些語(yǔ)音數(shù)據(jù)進(jìn)行分析處理,比如分析錄音數(shù)據(jù)中的客戶投訴抱怨、咨詢建議、個(gè)性特征、服務(wù)偏好等等信息。
信息機(jī)房更是蘊(yùn)藏著海量數(shù)據(jù)。首先機(jī)房視頻監(jiān)控系統(tǒng)中的視頻數(shù)據(jù),也應(yīng)該像客服語(yǔ)音數(shù)據(jù)進(jìn)行相同處理;其次各類設(shè)備如門禁、UPS、空調(diào)、電源、溫濕度等機(jī)房動(dòng)力設(shè)備和環(huán)境監(jiān)控設(shè)備也將會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)也完全可以應(yīng)用大數(shù)據(jù)平臺(tái)和技術(shù)進(jìn)行處理。
面對(duì)大數(shù)據(jù)時(shí)代的發(fā)展趨勢(shì),應(yīng)對(duì)電力行業(yè)海量數(shù)據(jù)帶來(lái)的挑戰(zhàn),尤其是智能電網(wǎng)建設(shè)的快速發(fā)展,作為技術(shù)支撐的企業(yè)信息化,應(yīng)更為主動(dòng)的融入到這一趨勢(shì)中,不斷適應(yīng)新形勢(shì)下的變化,探索出更多路徑,努力創(chuàng)建出大數(shù)據(jù)下的電力信息運(yùn)行新模式。
[1]維克托·邁爾—舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2013:25-30.
[2]涂子沛.數(shù)據(jù)之巔[M].南寧:廣西師范大學(xué)出版社,2013:46-50.
[3]趙 剛.大數(shù)據(jù):技術(shù)與應(yīng)用實(shí)踐指南[M].北京:電子工業(yè)出版社,2013:120-124.
[4]道格拉斯·W·哈伯德.數(shù)據(jù)化決策[M].北京:中國(guó)出版集團(tuán),2013:52-56.
[5]趙國(guó)棟,易歡歡,糜萬(wàn)軍.大數(shù)據(jù)時(shí)代的歷史機(jī)遇[M].北京:清華大學(xué)出版社,2013:28-25.
[6]宋亞奇,周國(guó)亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,37(4):927-935.
[7]王春毅.電力行業(yè)的大數(shù)據(jù)發(fā)展解析[J].電力信息化,2013,11(2):8-9.
[8]衡星辰,周 力.分布式技術(shù)在電力大數(shù)據(jù)高性能處理中的應(yīng)用[J].電力信息化,2013,11(9):40-43.
[9]李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域[J].中國(guó)科學(xué)院院刊,2012,08(9):647-657.