曾愚
(國(guó)網(wǎng)四川省電力公司信息通信公司,四川成都 610041)
電力大數(shù)據(jù)中信息化工具的應(yīng)用與探索
曾愚
(國(guó)網(wǎng)四川省電力公司信息通信公司,四川成都 610041)
堅(jiān)強(qiáng)的智能電網(wǎng)能夠運(yùn)用先進(jìn)的通信、信息等技術(shù)來(lái)實(shí)現(xiàn)完全自動(dòng)化的電力傳輸,能夠監(jiān)控每個(gè)電網(wǎng)節(jié)點(diǎn)與用戶(hù)節(jié)點(diǎn),并且在電力傳輸?shù)恼麄€(gè)網(wǎng)絡(luò)中能夠保證信息和電能的雙向流動(dòng)。而我國(guó)的智能電網(wǎng)發(fā)展還處于起步階段,因此,選擇合適的信息化工具可以極大地加快智能電網(wǎng)信息化的建設(shè)進(jìn)程。
電力;大數(shù)據(jù);信息系統(tǒng);智能電網(wǎng)
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計(jì)算技術(shù)的應(yīng)用和普及,各類(lèi)數(shù)據(jù)的規(guī)模均呈現(xiàn)出爆發(fā)性增長(zhǎng)的態(tài)勢(shì),數(shù)據(jù)的存儲(chǔ)單位也從過(guò)去的GB、TB上升到PB、EB甚至是ZB級(jí)別。在動(dòng)輒數(shù)千PB的數(shù)據(jù)面前,過(guò)去常用的信息化工具和系統(tǒng)已無(wú)法滿(mǎn)足對(duì)這些數(shù)據(jù)進(jìn)行分析、處理的需求。另一方面,越來(lái)越多的政府、企業(yè)開(kāi)始關(guān)注、了解和接受大數(shù)據(jù)的概念,并嘗試運(yùn)用大數(shù)據(jù)技術(shù)來(lái)協(xié)助它們進(jìn)行決策層面的分析與預(yù)測(cè)[1]。
而在未來(lái)競(jìng)爭(zhēng)和機(jī)遇都倍增的大數(shù)據(jù)“互聯(lián)網(wǎng)+”時(shí)代,若要緊跟市場(chǎng)的步伐,甚至走在市場(chǎng)的前列,對(duì)電力企業(yè)而言,就必須根據(jù)適合自身行業(yè)特點(diǎn),選擇能夠最大限度地適合與滿(mǎn)足電力生產(chǎn)需求的各類(lèi)信息化工具和技術(shù)來(lái)解決在其發(fā)展中遇到的各類(lèi)問(wèn)題。
2.1 Hadoop工具
2.1.1 Hadoop工具的內(nèi)容
Hadoop是由Apache基金會(huì)開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。作為開(kāi)源系統(tǒng),Hadoop在當(dāng)今互聯(lián)網(wǎng)的大數(shù)據(jù)解決方案中應(yīng)用廣泛。通常,它部署在成千上萬(wàn)臺(tái)主機(jī)的集群中進(jìn)行大數(shù)據(jù)的存儲(chǔ)和分析,而用戶(hù)可以在不了解底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序并充分利用集群的運(yùn)算能力進(jìn)行大數(shù)據(jù)集的快速處理和存儲(chǔ)[2]。
2.1.2 Hadoop具有的特點(diǎn)
在Hadoop架構(gòu)中,其核心包括兩部分,分別是Hadoop Distribute File System(以下簡(jiǎn)稱(chēng)HDFS)和Map Reduce,其特點(diǎn)如下[3]:
(1)高容錯(cuò)性:文件的所有數(shù)據(jù)塊都會(huì)保留對(duì)應(yīng)的副本,并且每個(gè)文件的數(shù)據(jù)塊大小和副本系數(shù)都是可配置的。
(2)高數(shù)據(jù)一致性:所有文件都是一次性寫(xiě)入的,并且嚴(yán)格要求在任何時(shí)候只能有一個(gè)寫(xiě)入者。
(3)低成本性:Hadoop是開(kāi)源的并且可部署在普通的PC服務(wù)器上,企業(yè)可以通過(guò)購(gòu)買(mǎi)一定數(shù)量的PC服務(wù)器就可以建立起一個(gè)大數(shù)據(jù)集群,用于替代價(jià)格昂貴的小型機(jī)服務(wù)器。
(4)數(shù)據(jù)的高可靠性:,Hadoop會(huì)采取將同一個(gè)文件的塊副本同時(shí)分別存儲(chǔ)到已互聯(lián)的另幾臺(tái)設(shè)備上來(lái)防止某臺(tái)設(shè)備故障或網(wǎng)絡(luò)通信問(wèn)題而導(dǎo)致的無(wú)法讀取的問(wèn)題,從而有效地提升了系統(tǒng)數(shù)據(jù)的可靠性。
(5)高效性:Hadoop將大型數(shù)據(jù)集進(jìn)行分解至數(shù)個(gè)小型數(shù)據(jù)集并發(fā)送到多個(gè)節(jié)點(diǎn)(Data Node)上,再將這些小型數(shù)據(jù)集以單個(gè)的形式提取出來(lái)進(jìn)行加載匯總分析。其中每一步都可以通過(guò)簡(jiǎn)單的需求命令來(lái)實(shí)現(xiàn),從而大幅度提升了工作效率[4]。
2.2 SAP HANA工具
2.2.1 SAPHANA工具的內(nèi)容
SAPHANA是思愛(ài)普(以下簡(jiǎn)稱(chēng)為SAP)公司近年來(lái)推出的一項(xiàng)用于解決企業(yè)大數(shù)據(jù)管理的新型軟硬件結(jié)合體。
2.
2.2 SAPHANA工具具有的特點(diǎn)
SAP HANA數(shù)據(jù)庫(kù)是這套體系的核心,它實(shí)時(shí)地參與到數(shù)據(jù)查詢(xún)分析與數(shù)據(jù)密集型業(yè)務(wù)流程的分析當(dāng)中。與傳統(tǒng)數(shù)據(jù)庫(kù)相比,SAP HANA的特點(diǎn)可以歸納為以下三方面[5]:
一是數(shù)據(jù)快速訪問(wèn)。HANA支持對(duì)內(nèi)存數(shù)據(jù)進(jìn)行壓縮,最小化了傳輸數(shù)據(jù)量,并且將邏輯數(shù)據(jù)的處理轉(zhuǎn)移到數(shù)據(jù)庫(kù)層面完成,從而節(jié)約了應(yīng)用層到數(shù)據(jù)庫(kù)之間傳輸消耗的資源,也解決了傳輸速率和吞吐量的瓶頸問(wèn)題。
第二是數(shù)據(jù)支持多節(jié)點(diǎn)計(jì)算與大規(guī)模并行處理[6]。HANA可以將大量數(shù)據(jù)分發(fā)至不同的處理器進(jìn)行運(yùn)算,同時(shí)單組數(shù)據(jù)也可同時(shí)被同組的服務(wù)器所共享,由此而使整個(gè)系統(tǒng)的運(yùn)行安全得到了提升,即單一服務(wù)器宕機(jī)將不再影響到數(shù)據(jù)的運(yùn)算。
第三是SAP HANA數(shù)據(jù)庫(kù)在支持非結(jié)構(gòu)化數(shù)據(jù)的同時(shí)提供了三種內(nèi)存處理引擎:關(guān)系型引擎、圖形引擎和文本引擎[6]。除去關(guān)系型引擎,HANA數(shù)據(jù)庫(kù)的非結(jié)構(gòu)化搜索是SAP HANA的基礎(chǔ)。其文本引擎提供了單個(gè)詞組、段落以及具有容錯(cuò)性的模糊查詢(xún)等查詢(xún)方式,并且可對(duì)結(jié)果進(jìn)行操作,而HANA的圖形引擎則可用于海量獨(dú)立資源的計(jì)劃分配與應(yīng)用。
3.1 智能電網(wǎng)與信息系統(tǒng)
未來(lái)的電網(wǎng)需要適應(yīng)和整合所有新型可再生能源,而配套的能源管理系統(tǒng)也需要迅速滿(mǎn)足這些日益增長(zhǎng)的能源需求。在這種情況下,電網(wǎng)的發(fā)展就需要大步朝著智能電網(wǎng)的方向發(fā)展,隨之而來(lái)的是急需更可靠的通信、更先進(jìn)的信息化技術(shù)與設(shè)備去打造一個(gè)高度智能化的分布式能源自動(dòng)傳遞網(wǎng)絡(luò)[7]。
3.2 電力企業(yè)信息系統(tǒng)具有的特點(diǎn)
電力信息系統(tǒng)是一個(gè)覆蓋面極其廣泛的概念,涵蓋發(fā)電、輸電、變電、配電以及售電等環(huán)節(jié)。各個(gè)環(huán)節(jié)都涉及到與信息技術(shù)緊密相關(guān)的眾多智能設(shè)備和雙向通信系統(tǒng),這就導(dǎo)致其在進(jìn)行操作與監(jiān)控工作的同時(shí)為電力信息系統(tǒng)帶來(lái)相當(dāng)龐大的數(shù)據(jù)流,同時(shí),這些數(shù)據(jù)由于業(yè)務(wù)上的需求需要被妥善保存與管理。
3.3 電力企業(yè)信息系統(tǒng)的數(shù)據(jù)需求
處于不同環(huán)節(jié)的電力信息系統(tǒng)均對(duì)其數(shù)據(jù)的要求有著不同的苛刻要求,但它們具有的共同點(diǎn)均集中在加強(qiáng)對(duì)資源消耗的控制與預(yù)測(cè)的同時(shí),保持與數(shù)據(jù)源之間交互的連續(xù)性。因此,電力企業(yè)信息系統(tǒng)所遇到的這類(lèi)問(wèn)題需要用大數(shù)據(jù)的方案來(lái)解決。隨之而來(lái)的問(wèn)題便是如何將智能電網(wǎng)信息系統(tǒng)中的數(shù)據(jù)融入到分布式的云計(jì)算的架構(gòu)中來(lái)完成大數(shù)據(jù)的處理[8]。
筆者分別從實(shí)施部署成本、技術(shù)改造難度以及安全風(fēng)險(xiǎn)等方面分別比較以下兩種工具。
4.1 實(shí)施部署成本
在電力行業(yè)的信息化建設(shè)中,實(shí)施部署的成本是一個(gè)重要的衡量標(biāo)準(zhǔn)。高昂的部署成本如果無(wú)法帶來(lái)相應(yīng)的經(jīng)濟(jì)效益,對(duì)企業(yè)而言,其不僅是資源上的浪費(fèi),同時(shí)亦將成為企業(yè)的負(fù)擔(dān)。以國(guó)網(wǎng)四川電力公司為例,各類(lèi)業(yè)務(wù)信息系統(tǒng)的數(shù)據(jù)量一般為1~50 TB左右,尚未達(dá)到PB級(jí)別,在這種情況下:
(1)SAP HANA的實(shí)施成本中內(nèi)存數(shù)據(jù)庫(kù)硬件占有很大比例且價(jià)格昂貴。SAPHANA由于會(huì)對(duì)數(shù)據(jù)進(jìn)行壓縮后再進(jìn)行處理,所以,在其實(shí)施前會(huì)對(duì)目標(biāo)數(shù)據(jù)庫(kù)的大小進(jìn)行評(píng)估,從而估算出需要配備的內(nèi)存數(shù)據(jù)庫(kù)規(guī)模,通常,該比例保持在1∶7。從SAP公司公布的HANA硬件費(fèi)用看,如果按照單個(gè)系統(tǒng)平均數(shù)據(jù)量為5 TB計(jì)算,那么,平均每套硬件的實(shí)施費(fèi)用將高達(dá)上百萬(wàn)元人民幣,額外再加上人員實(shí)施費(fèi)用,故SAP HANA部署的成本十分高昂。
(2)反觀Hadoop,其可以部署在價(jià)格低廉的PC服務(wù)器上,并提供相當(dāng)可觀的計(jì)算處理資源。與相比動(dòng)輒上百萬(wàn)元的小型機(jī)服務(wù)器相比,同等費(fèi)用支出下運(yùn)用Hadoop部署在PC服務(wù)器上的服務(wù)器集群的運(yùn)算、數(shù)據(jù)存儲(chǔ)、管理、處理能力均遠(yuǎn)遠(yuǎn)高出小型機(jī)。
從上述比較中不難看出:Hadoop在實(shí)施部署成本上較SAPHANA具有較大的成本優(yōu)勢(shì)。
4.2 技術(shù)改造難度
電力行業(yè)作為高速發(fā)展的行業(yè),企業(yè)內(nèi)部的業(yè)務(wù)需求會(huì)隨著行業(yè)和企業(yè)的持續(xù)發(fā)展而不斷發(fā)生變化。因此,與之相關(guān)的信息系統(tǒng)的硬件資源、系統(tǒng)配置、業(yè)務(wù)流程、程序代碼、接口交互等方面都應(yīng)隨之不斷優(yōu)化和改造升級(jí)以滿(mǎn)足生產(chǎn)要求:
(1)SAP HANA針對(duì)業(yè)務(wù)流程變更的適應(yīng)性良好,它提供了一套完善的流程變更機(jī)制去配合生產(chǎn)中的業(yè)務(wù)需求。而在新增功能開(kāi)發(fā)上,由于SAPHANA采用的是獨(dú)有的程序語(yǔ)言,因此需要另行配備具有相關(guān)資質(zhì)的專(zhuān)業(yè)技術(shù)開(kāi)發(fā)人員而導(dǎo)致新增功能開(kāi)發(fā)的周期延長(zhǎng)和成本上升,具有一定的技術(shù)改造難度。
(2)Hadoop在技術(shù)改造方面的優(yōu)勢(shì)在于系統(tǒng)代碼透明化,企業(yè)可自行進(jìn)行優(yōu)化和更新改善以符合需求。其可拓展性較高,新增功能較為方便;但它所具有的缺點(diǎn)也是顯而易見(jiàn)的,在執(zhí)行技術(shù)改造期間,如果不支出費(fèi)用、聘請(qǐng)第三方公司作為技術(shù)支持與協(xié)助,技術(shù)改造的難度與風(fēng)險(xiǎn)會(huì)明顯升高。
4.3 安全風(fēng)險(xiǎn)
電力信息系統(tǒng)的安全性可以分別從物理層面、網(wǎng)絡(luò)層面、應(yīng)用層面和數(shù)據(jù)安全層面四個(gè)層面進(jìn)行衡量。由于SAP HANA與Hadoop均屬于數(shù)據(jù)庫(kù)層面的工具,所以,在網(wǎng)絡(luò)安全與應(yīng)用安全層面二者更易受外部因素影響,而且比較集中在物理安全與數(shù)據(jù)安全層面:
(1)物理層面安全:物理層通常是從信息系統(tǒng)的運(yùn)行硬件、介質(zhì)、基礎(chǔ)設(shè)施和外界環(huán)境等方面去評(píng)估其安全性。SAPHANA硬件的供應(yīng)與部署可由廠商完成,其后續(xù)的維護(hù)保養(yǎng)也可以得到廠商支持;而Hadoop的硬件設(shè)備則多數(shù)依靠企業(yè)自行采購(gòu)并部署,其維護(hù)保養(yǎng)則可由相應(yīng)的硬件廠商完成;不足之處在于企業(yè)需要提前對(duì)自行采購(gòu)的硬件是否滿(mǎn)足系統(tǒng)需求做出較為準(zhǔn)確的評(píng)估,而SAP HANA則可由廠商完成這一評(píng)估。
(2)數(shù)據(jù)安全方面:無(wú)論是SAP HANA或是Hadoop,它們都提供了較完善的數(shù)據(jù)安全機(jī)制: Hadoop的核心準(zhǔn)則是每一份數(shù)據(jù)都會(huì)拷貝成三份并分別存放在不同的服務(wù)器中,從而避免了某一臺(tái)服務(wù)器出現(xiàn)故障時(shí)引起的數(shù)據(jù)丟失;雖然SAPHANA會(huì)將內(nèi)存中的數(shù)據(jù)自動(dòng)地、持久化寫(xiě)入到硬盤(pán)之中,避免數(shù)據(jù)庫(kù)故障引起的數(shù)據(jù)丟失,但是,對(duì)于硬盤(pán)故障造成的數(shù)據(jù)丟失則只有通過(guò)自帶的軟件或第三方軟件進(jìn)行數(shù)據(jù)備份來(lái)避免。從企業(yè)角度看,Hadoop的安全機(jī)制適用性更佳。
4.4 信息化工具的應(yīng)用方案
4.4.1 高速數(shù)據(jù)訪問(wèn)平臺(tái)架構(gòu)
從上述各方面的比較中不難看出:無(wú)論是SAPHANA或是Hadoop,都無(wú)法獨(dú)立承擔(dān)起電力企業(yè)信息系統(tǒng)的全部需求,但二者的特點(diǎn)卻互為補(bǔ)充?;诖耍瑯?gòu)建一個(gè)以Hadoop與SAP HANA相結(jié)合的、實(shí)時(shí)高速數(shù)據(jù)查詢(xún)平臺(tái)去滿(mǎn)足當(dāng)前電力企業(yè)信息系統(tǒng)的各方面需求不失為當(dāng)前電力企業(yè)大數(shù)據(jù)一種可行的解決方案。
4.
4.2 高速數(shù)據(jù)訪問(wèn)平臺(tái)運(yùn)行機(jī)制
這個(gè)平臺(tái)運(yùn)用Hadoop的廉價(jià)硬件部署成本為企業(yè)建立起龐大的數(shù)據(jù)源,再利用SAP HANA的高速訪問(wèn)能力對(duì)這些數(shù)據(jù)進(jìn)行快速批處理更新以及載入,從而在整體上得到提升。但亟待解決的問(wèn)題是SAP HANA與Hadoop之間如何交互?由于兩者的差異性,應(yīng)當(dāng)首先需要考慮的是如何將Hadoop數(shù)據(jù)源中的數(shù)據(jù)合理地分類(lèi)與部署,建立”數(shù)據(jù)湖”模式的數(shù)據(jù)源,以便SAP HANA快速訪問(wèn)。數(shù)據(jù)湖(Data Lake)與云資源池相仿,但是其數(shù)據(jù)的儲(chǔ)存與分類(lèi)更具有可管理性,其還可以在數(shù)據(jù)不移動(dòng)的情況下進(jìn)行計(jì)算與分析各種來(lái)源、格式的企業(yè)級(jí)數(shù)據(jù)。因此,可以通過(guò)將各信息系統(tǒng)的歷史數(shù)據(jù)以原始格式遷移到Hadoop構(gòu)建的數(shù)據(jù)湖中用以降低保存數(shù)據(jù)的前端成本。
在Hadoop實(shí)現(xiàn)的數(shù)據(jù)湖層級(jí)之上是 SAP HANA構(gòu)成的數(shù)據(jù)分析環(huán)境。對(duì)于SAP HANA而言,Hadoop可以以單一數(shù)據(jù)庫(kù)和數(shù)據(jù)過(guò)濾器兩種形式與其進(jìn)行交互。當(dāng)Hadoop與SAP HANA完成數(shù)據(jù)交互后,SAP HANA將數(shù)據(jù)傳輸?shù)綉?yīng)用層,便可將這些數(shù)據(jù)展現(xiàn)給企業(yè),供其展示或進(jìn)行分析與預(yù)測(cè)。
4.4.3 高速數(shù)據(jù)訪問(wèn)平臺(tái)具有的優(yōu)勢(shì)
在二者相互訪問(wèn)的整個(gè)過(guò)程中,數(shù)據(jù)均處于實(shí)時(shí)高速交互狀態(tài),從而高效地契合了企業(yè)快速而多變的業(yè)務(wù)流程,緩解了海量歷史數(shù)據(jù)讀取帶來(lái)的信息系統(tǒng)壓力,不僅為電力企業(yè)節(jié)約了大量的資源與時(shí)間成本,還能夠提供準(zhǔn)確地實(shí)時(shí)統(tǒng)計(jì)與分析。不難看出,二者的結(jié)合運(yùn)用在電力企業(yè)發(fā)展的決策層支持方面具有單一工具所不具備的巨大優(yōu)勢(shì)。
隨著智能電網(wǎng)系統(tǒng)的進(jìn)一步發(fā)展,大數(shù)據(jù)分析預(yù)測(cè)這一先進(jìn)的數(shù)據(jù)技術(shù)為電力企業(yè)帶來(lái)的收益將被越來(lái)越多的人所認(rèn)同。但是,由于目前電力行業(yè)的大數(shù)據(jù)發(fā)展尚處于初期的數(shù)據(jù)治理階段,且因信息系統(tǒng)歷史數(shù)據(jù)種類(lèi)繁多,復(fù)雜程度大,對(duì)于有效數(shù)據(jù)的甄別還存在困難,故在當(dāng)前階段更應(yīng)注重對(duì)歷史數(shù)據(jù)的梳理和分析,繼而能夠準(zhǔn)確挖掘出企業(yè)所急需的數(shù)據(jù)。但在數(shù)據(jù)治理完成后,則應(yīng)逐漸轉(zhuǎn)向選擇合適的大數(shù)據(jù)信息化工具,對(duì)已有的數(shù)據(jù)進(jìn)行宏觀層面地分析和預(yù)測(cè),從而為智能電網(wǎng)的建設(shè)發(fā)展提供可靠的技術(shù)支撐。
[1] Benjelloun,F(xiàn).-Z.;Lahcen,A.A.;Belfkih,S.Intelligent Systems and Computer Vision(ISCV),“An overview of big data opportunities,applications and tools”,2015 Year:2015 Pages:1-6,DOI:10.1109/ISACV.2015.7105553.
[2] Apache Software Foundation,“Hadoop Wiki”,[EB/OL],http://wiki.a(chǎn)pache.org/hadoop/,2015-6-14.
[3] Azzedin,F(xiàn).,“Towards a scalable HDFS architecture”,Collaboration Technologies and Systems(CTS),2013 InternationalConference on Year:2013 Pages:155 - 161,DOI:10.1109/CTS.2013.6567222.
[4] Guanghui Xu;Feng Xu;Hongxu Ma,“Deploying and researching Hadoop in virtual machines”,Automation and Logistics (ICAL),2012 IEEE International Conference on Year:2012 Pages:395-399,DOI:10.1109/ICAL.2012.630824.
[5] J.Kr¨uger,M.Grund,C.Tinnefeld,H.Plattner,A.Zeier,and F.Faerber.,“Performance for Read Optimized Databases”,In DASFAA Conference,pages 291–305,2010.
[6] F?rber,F(xiàn).,Cha S.K.,Primsch,J.,Bornh?vd,C.,Sigg,S.,Lehner,W.,“SAPHANA database:datamanagement formodern business applications”,SIGMOD Rec on Year 2011 Vol.40,No.4.
[7] Bitzer,B.;Gebretsadik,E.S.,“Cloud computing framework for smart grid applications”,Power Engineering Conference (UPEC),2013 48th International Universities'Year:2013 Pages:1-5,DOI:10.1109/UPEC.2013.6714855.
[8] McHann,S.E.,“Grid analytics:How much data do you really need?”,Rural Electric Power Conference(REPC),2013 IEEE Year:2013 Pages:C3-1-C3-4,DOI:10.1109/ REPCon.,2013.6681858.
TM73;TP39;TN8;TM93
B
1001-2184(2015)05-0100-04
曾 愚(1986-),男,四川成都人,工程師,雙碩士,從事信息系統(tǒng)運(yùn)維技術(shù)與管理工作.
(責(zé)任編輯:李燕輝)
2015-05-05