吳飛
【摘要】 隨著智能電網(wǎng)和企業(yè)信息化的大規(guī)模建設(shè),電力企業(yè)積累了海量的大數(shù)據(jù),如何基于這些數(shù)據(jù)形成實(shí)時(shí)業(yè)務(wù)洞察和分析決策,是目前電力企業(yè)廣泛思考的問題?;诖?,本文主要介紹了基于內(nèi)存計(jì)算技術(shù)的實(shí)時(shí)數(shù)據(jù)管理和分析平臺(tái),進(jìn)行性能加速,全面提升系統(tǒng)運(yùn)行分析效率,讓企業(yè)根據(jù)不斷變化的海量數(shù)據(jù)進(jìn)行快速處理與分析,實(shí)時(shí)掌握企業(yè)運(yùn)營情況,提高企業(yè)整體效益和競(jìng)爭(zhēng)力。
【關(guān)鍵詞】 大數(shù)據(jù) 內(nèi)存計(jì)算 性能加速 數(shù)據(jù)分析 決策支持
眾所周知,我們正處于一個(gè)信息爆炸的時(shí)代,全球數(shù)據(jù)量的復(fù)合增長(zhǎng)率將達(dá)到59%,越來越多的企業(yè)利用大數(shù)據(jù)分析和挖掘技術(shù),來實(shí)現(xiàn)更大的業(yè)務(wù)價(jià)值。同樣,隨著智能電網(wǎng)的建設(shè)、自動(dòng)化和信息技術(shù)的應(yīng)用,電力企業(yè)數(shù)據(jù)量快速增長(zhǎng),但是,基于大數(shù)據(jù)實(shí)現(xiàn)實(shí)時(shí)業(yè)務(wù)洞察和分析決策,目前還存在很多問題和挑戰(zhàn):
1)數(shù)據(jù)量的急劇增加使得業(yè)務(wù)應(yīng)用系統(tǒng)響應(yīng)變慢,影響業(yè)務(wù)應(yīng)用系統(tǒng)生產(chǎn)效率。
2)海量數(shù)據(jù)統(tǒng)計(jì)分析性能低下,管理者無法及時(shí)了解業(yè)務(wù)生產(chǎn)總體狀況,動(dòng)態(tài)監(jiān)管滯后。
3)隨著總部、?。ㄊ校┕緝杉?jí)數(shù)據(jù)中心的建設(shè),實(shí)現(xiàn)了將不同來源的業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)和對(duì)外提供數(shù)據(jù)服務(wù),跨部門、跨專業(yè)的綜合性應(yīng)用分析需求日益增多,現(xiàn)有技術(shù)無法滿足決策層快速智能分析和輔助決策的要求。
基于此,本文介紹了基于內(nèi)存計(jì)算實(shí)時(shí)數(shù)據(jù)平臺(tái)的技術(shù)架構(gòu)和特點(diǎn),以及在電力行業(yè)的典型應(yīng)用,并介紹了相關(guān)的技術(shù)驗(yàn)證和實(shí)踐;利用基于內(nèi)存計(jì)算的實(shí)時(shí)數(shù)據(jù)平臺(tái),可以有效地支持電力行業(yè)實(shí)現(xiàn)實(shí)時(shí)業(yè)務(wù)洞察和分析決策,將大數(shù)據(jù)轉(zhuǎn)化為巨大的業(yè)務(wù)價(jià)值。
一、內(nèi)存計(jì)算技術(shù)簡(jiǎn)介
1.1內(nèi)存計(jì)算技術(shù)概述
內(nèi)存計(jì)算技術(shù)是指CPU直接從內(nèi)存而不是硬盤上讀取數(shù)據(jù),進(jìn)行計(jì)算、分析,是對(duì)傳統(tǒng)數(shù)據(jù)處理方式的一種加速。內(nèi)存計(jì)算技術(shù)利用計(jì)算機(jī)硬件(多核心CPU和超大內(nèi)存)方面的優(yōu)勢(shì),巧妙的將數(shù)據(jù)放在計(jì)算機(jī)內(nèi)存里進(jìn)行處理,并在內(nèi)存中進(jìn)行大量的數(shù)據(jù)分析和計(jì)算,以實(shí)現(xiàn)更快速的數(shù)據(jù)處理能力。因此,內(nèi)存計(jì)算非常適合處理海量的數(shù)據(jù),以及需要實(shí)時(shí)獲得結(jié)果的數(shù)據(jù),相對(duì)于傳統(tǒng)數(shù)據(jù)處理方式,內(nèi)存計(jì)算技術(shù)在商務(wù)智能分析、數(shù)據(jù)挖掘加速器、模擬分析預(yù)測(cè)、在線交易處理和在線分析處理等業(yè)務(wù)領(lǐng)域,更具有優(yōu)勢(shì)。當(dāng)前,內(nèi)存計(jì)算主要以下四種關(guān)鍵技術(shù):海量?jī)?nèi)存管理技術(shù) 、數(shù)據(jù)壓縮存儲(chǔ)技術(shù)、并行計(jì)算技術(shù)和高效計(jì)算模型。
1.2 SAP HANA
SAP HANA是SAP公司于2011年推出的基于內(nèi)存計(jì)算技術(shù),面向企業(yè)分析性應(yīng)用的產(chǎn)品。利用SAP數(shù)據(jù)同步復(fù)制技術(shù)將源系統(tǒng)數(shù)據(jù)同步到HANA內(nèi)存數(shù)據(jù)庫中,再利用SAP高效的內(nèi)存計(jì)算引擎對(duì)數(shù)據(jù)運(yùn)算分析后,提供給前臺(tái)進(jìn)行數(shù)據(jù)展現(xiàn)。SAP HANA內(nèi)存計(jì)算平臺(tái)具有以下特點(diǎn):
(1)高效的并行處理機(jī)制
SAP HANA內(nèi)存計(jì)算平臺(tái)整體的體系架構(gòu)基于Inter X處理器平臺(tái)支持多服務(wù)器、多處理器的高效并行處理。在底層開發(fā)中,Inter為SAP HANA提供專門的開發(fā)包,讓HANA的應(yīng)用能夠最高效、充分的利用多處理器的并發(fā)能力。
(2)基于內(nèi)存的高效數(shù)據(jù)讀取和處理
從硬盤中讀取數(shù)據(jù)的速度是毫米級(jí)的,而從內(nèi)存中讀取數(shù)據(jù)的速度是納秒級(jí)的。SAP HANA是將數(shù)據(jù)直接存儲(chǔ)在內(nèi)存中,比傳統(tǒng)的將數(shù)據(jù)從硬盤中讀取性能要快100萬倍,大量提高了數(shù)據(jù)的讀取和處理時(shí)間。
(3)高效的數(shù)據(jù)壓縮
SAP HANA采用基于智能數(shù)數(shù)據(jù)字典的高效數(shù)據(jù)壓縮機(jī)制,能夠?qū)?shù)據(jù)壓縮5~20倍,從而節(jié)省硬件投資。
(4)行存儲(chǔ)和列存儲(chǔ)混合模式
SAP HANA是行業(yè)中唯一能同時(shí)支持行存儲(chǔ)和列存儲(chǔ)的內(nèi)存數(shù)據(jù)庫,所以能夠?qū)LAP交易系統(tǒng)和OLTP分析系統(tǒng)同時(shí)提供高效的支持。
(5)在數(shù)據(jù)庫層面進(jìn)行數(shù)據(jù)運(yùn)算
SAP HANA除了提供完善的數(shù)據(jù)庫功能外,其內(nèi)置的內(nèi)存計(jì)算引擎可以將原本在應(yīng)用層進(jìn)行的運(yùn)算轉(zhuǎn)移到數(shù)據(jù)庫層進(jìn)行運(yùn)算處理,這樣能夠優(yōu)化應(yīng)用層和數(shù)據(jù)庫層之間的數(shù)據(jù)交互,從而從整體上提升系統(tǒng)的效率。
二、基于HANA內(nèi)存計(jì)算的大數(shù)據(jù)優(yōu)化
目前基于HANA內(nèi)存計(jì)算的大數(shù)據(jù)優(yōu)化方法主要有兩種:一是加速器架構(gòu)方式,二是ON HANA架構(gòu)方式,具體說明如下:
2.1 HANA加速器架構(gòu)
加速器架構(gòu)是指將HANA數(shù)據(jù)庫作為源系統(tǒng)的第二數(shù)據(jù)庫,利用SLT數(shù)據(jù)實(shí)時(shí)復(fù)制工具將ERP系統(tǒng)中的表實(shí)時(shí)增量復(fù)制到HANA中,再利用HANA高速的內(nèi)存計(jì)算特性對(duì)數(shù)據(jù)進(jìn)行加速處理,最終返回給源系統(tǒng)應(yīng)用層進(jìn)行展現(xiàn)。對(duì)于用戶而言,其操作界面仍在源系統(tǒng)中,操作方式未作任何形式改變,僅感到系統(tǒng)運(yùn)行速度變快。同時(shí),通過配置或程序控制,報(bào)表程序能自動(dòng)優(yōu)先選擇從HANA數(shù)據(jù)庫中查詢數(shù)據(jù),當(dāng)HANA服務(wù)器出現(xiàn)故障時(shí),報(bào)表程序會(huì)自動(dòng)切換到連接原系統(tǒng)數(shù)據(jù)庫(如源系統(tǒng)為Oracle)中,從而全面保證業(yè)務(wù)流程的正常執(zhí)行?;贖ANA加速器的技術(shù)架構(gòu)如圖2所示。
(1)SLT實(shí)時(shí)抽數(shù)工具:基于源系統(tǒng)數(shù)據(jù)庫觸發(fā)器的數(shù)據(jù)抽取策略。
(2)DS定時(shí)抽數(shù)工具:基于源系統(tǒng)數(shù)據(jù)庫時(shí)間戳的數(shù)據(jù)復(fù)制策略,同時(shí)具體數(shù)據(jù)轉(zhuǎn)換功能。
(3)RS實(shí)時(shí)抽數(shù)臣僚:基于源系統(tǒng)數(shù)據(jù)庫歸檔日志的數(shù)據(jù)實(shí)時(shí)策略。
2.1.1適用范圍
HANA加速器架構(gòu)主要適用范圍為僅需改善查詢統(tǒng)計(jì)分析效率的業(yè)務(wù)場(chǎng)景且不要求對(duì)數(shù)據(jù)寫入進(jìn)行優(yōu)化,項(xiàng)目投資成本有限,項(xiàng)目周期要求短、成果見效快等方面。
2.2 ON HANA架構(gòu)
ON HANA架構(gòu)是指將源系統(tǒng)數(shù)據(jù)庫(如源系統(tǒng)為Oracle)的數(shù)據(jù)全部遷移到HANA數(shù)據(jù)庫的過程。ON HANA的技術(shù)架構(gòu)如圖3。
2.2.1適用范圍
ON HANA架構(gòu)主要適用范圍為查詢統(tǒng)計(jì)分析和數(shù)據(jù)寫入需作一并優(yōu)化,對(duì)系統(tǒng)后期擴(kuò)展性要求高,與外圍系統(tǒng)交互頻繁等方面。
2.3關(guān)鍵技術(shù)
(1)數(shù)據(jù)建模
在SAP HANA中,數(shù)據(jù)建模有別于傳統(tǒng)數(shù)據(jù)倉庫。HANA中的數(shù)據(jù)模型都是虛擬的,系統(tǒng)只保存這些數(shù)據(jù)模型內(nèi)表的勾稽關(guān)系以及數(shù)據(jù)的運(yùn)算邏輯,但不會(huì)把數(shù)據(jù)另外進(jìn)行存儲(chǔ),只有當(dāng)前端提交分析請(qǐng)求時(shí),HANA才會(huì)根據(jù)虛擬數(shù)據(jù)模型進(jìn)行數(shù)據(jù)的計(jì)算并將結(jié)果提交給前端。這意味著HANA中不會(huì)存在冗余的數(shù)據(jù),從而大大節(jié)約的硬件的投資和維護(hù)成本。
SAP HANA包含了屬性視圖、分析視圖、計(jì)算視圖和存儲(chǔ)過程等4種分析建模方法。
(2)應(yīng)用層(代碼)改造
主要是對(duì)源系統(tǒng)的代碼進(jìn)行優(yōu)化,減少應(yīng)用層的運(yùn)行及訪問壓力。
例如,可以將復(fù)雜的運(yùn)算邏輯、多重循環(huán)、多次與數(shù)據(jù)庫交互等嚴(yán)重影響系統(tǒng)性能的語句移植HANA數(shù)據(jù)模型中,這樣子就可以大大減少應(yīng)用層運(yùn)算壓力及與數(shù)據(jù)庫交互的次數(shù),以全面提升系統(tǒng)的性能。
三、福建電力在HANA內(nèi)存計(jì)算的技術(shù)驗(yàn)證和實(shí)踐
3.1研究?jī)?nèi)容
基于內(nèi)存計(jì)算技術(shù)和大數(shù)據(jù)平臺(tái),福建電力主要開展的工作包括兩個(gè)層面,一是在大數(shù)據(jù)環(huán)境下提高現(xiàn)有系統(tǒng)的數(shù)據(jù)分析性能,二是基于內(nèi)存計(jì)算技術(shù)優(yōu)勢(shì),探索預(yù)測(cè)性分析技術(shù)在電力行業(yè)的應(yīng)用。主要研究?jī)?nèi)容如下:
1、ERP系統(tǒng)報(bào)表優(yōu)化:基于HANA加速器架構(gòu),采用ABAP展現(xiàn)技術(shù),不改變現(xiàn)有ERP報(bào)表操作界面,開展ERP系統(tǒng)報(bào)表性能優(yōu)化提升工作。這項(xiàng)工作是國網(wǎng)首例。
2、營銷系統(tǒng)報(bào)表加速驗(yàn)證:基于HANA加速營銷報(bào)表,采用Java為展現(xiàn)技術(shù),開展?fàn)I銷系統(tǒng)報(bào)表性能優(yōu)化的驗(yàn)證。
3、基于HANA構(gòu)建配變重過載風(fēng)險(xiǎn)中期預(yù)警模型驗(yàn)證:采用HANA 內(nèi)置的預(yù)測(cè)分析庫函數(shù)構(gòu)建配變重過載風(fēng)險(xiǎn)中期預(yù)警模型,驗(yàn)證HANA的預(yù)測(cè)分析能力。
3.2 研究成效和收益
通過研究和實(shí)際驗(yàn)證,基于內(nèi)存計(jì)算的大數(shù)據(jù)平臺(tái)技術(shù)能大大提升大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析能力,能夠有效地支撐業(yè)務(wù)部門對(duì)海量數(shù)據(jù)的應(yīng)用和分析需求;并且架構(gòu)簡(jiǎn)單,易于實(shí)施。具體表現(xiàn)在:
1)提升了ERP用戶的工作效率和滿意度,縮短財(cái)務(wù)結(jié)算時(shí)間
? 使用HANA后,ERP系統(tǒng)報(bào)表運(yùn)行速度平均提升63倍,且不改變用戶原有的操作習(xí)慣
? 縮短財(cái)務(wù)年結(jié)、月結(jié)時(shí)間:財(cái)務(wù)年結(jié)報(bào)表平均運(yùn)行時(shí)間由原來的291秒(1張報(bào)表運(yùn)行超時(shí))下降為9.9秒,為財(cái)務(wù)年結(jié)提供有力技術(shù)支撐。
? 架構(gòu)簡(jiǎn)單,易于實(shí)施,標(biāo)準(zhǔn)報(bào)表通過ERP升級(jí)補(bǔ)丁即可支持HANA加速器方式,實(shí)施周期短、風(fēng)險(xiǎn)低,見效快。
2)提升營銷數(shù)據(jù)實(shí)時(shí)處理能力和分析精益化程度,提高使用者的體驗(yàn),簡(jiǎn)化開發(fā)難度
? 將目前需要4-6天的報(bào)表處理時(shí)間縮短到1~2天,提升業(yè)務(wù)響應(yīng)時(shí)間。
? 實(shí)時(shí)處理數(shù)據(jù),數(shù)據(jù)使用部門可以及時(shí)得到數(shù)據(jù)并可以對(duì)數(shù)據(jù)進(jìn)行下一步的處理,提高使用部門的用戶滿意度。
? 為進(jìn)一步增加分析維度提供足夠空間,有助于進(jìn)一步提高營銷管理分析精細(xì)度。
3)建立重過載配變風(fēng)險(xiǎn)預(yù)警模型,支撐電網(wǎng)安全運(yùn)行,有效提升配網(wǎng)規(guī)劃建設(shè)水平
? 結(jié)合客戶信息、設(shè)備信息,針對(duì)重過載配變風(fēng)險(xiǎn)預(yù)警模型輸出結(jié)果,不僅支撐電網(wǎng)企業(yè)資產(chǎn)管理水平與客戶服務(wù)能力,最終有效提升配網(wǎng)規(guī)劃建設(shè)水平。
? 內(nèi)存計(jì)算技術(shù)大大提升當(dāng)前海量數(shù)據(jù)體積的處理速度,SAP HANA SQL/SQL Script支持直接在HANA數(shù)據(jù)庫端實(shí)現(xiàn)現(xiàn)有的預(yù)處理邏輯,從而避免網(wǎng)絡(luò)傳輸瓶頸,避免中間過程CSV文件的生成與存儲(chǔ),大大縮減計(jì)算時(shí)間和空間。
? 開發(fā)模式簡(jiǎn)單便利,SAP HANA的SQL/SQL Script可以非常靈活地實(shí)現(xiàn)非常復(fù)雜的計(jì)算邏輯,這樣既可以讓更多計(jì)算邏輯貼近數(shù)據(jù),進(jìn)而提高運(yùn)算速度,也可以讓開發(fā)人員用一門語言完成更多的業(yè)務(wù)邏輯,減輕開發(fā)人員的負(fù)擔(dān)。
四、結(jié)束語
充分利用和分析挖掘日益增加的海量數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)業(yè)務(wù)洞察和決策支持,優(yōu)化電網(wǎng)和企業(yè)運(yùn)營,提高效率,已經(jīng)越來越成為電力企業(yè)的共識(shí)和重要工作內(nèi)容。面對(duì)大數(shù)據(jù)管理和應(yīng)用的問題,利用內(nèi)存計(jì)算技術(shù),可有效解決海量數(shù)據(jù)信息系統(tǒng)的運(yùn)行分析效率,為全面提升公司管理決策提供信息化支撐。
目前,本研究成果已在國網(wǎng)福建省電力有限公司應(yīng)用,取得了預(yù)期效果,為國家電網(wǎng)公司海量數(shù)據(jù)分析項(xiàng)目提供借鑒依據(jù)。
參 考 文 獻(xiàn)
[1]徐子沛,大數(shù)據(jù):正在到來的數(shù)據(jù)革命,2013-4-1,廣西師范大學(xué)出版社
[2]付云,大數(shù)據(jù)時(shí)代 內(nèi)存計(jì)算先行,互聯(lián)網(wǎng)周刊,2012(2)
[3]趙衍,基于內(nèi)存計(jì)算的計(jì)算機(jī)快速自動(dòng)信息標(biāo)引技術(shù),圖書館學(xué)研究,2013(19)
[4]黃嵐 孫珂 陳曉竹 周敏奇,內(nèi)存集群計(jì)算:交互式數(shù)據(jù)分析,華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(5)
[5]江澤源 劉輝林 吳剛 王國仁,內(nèi)存數(shù)據(jù)庫的可用性綜述,華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(5)
[6]胡健,和軼,SAP內(nèi)存計(jì)算——HANA,2013-7-1,清華大學(xué)出版社