楊德勝,陳江江,張 明
(1.安徽南瑞繼遠(yuǎn)軟件有限公司,230088;2.江蘇瑞中數(shù)據(jù)股份有限公司,210000 3.國網(wǎng)電力科學(xué)研究院,211100)
電力企業(yè)的數(shù)據(jù)已告別以往數(shù)據(jù)類型較為單一、增長較為緩慢的時(shí)代,隨著SG-ERP和智能電網(wǎng)建設(shè)的開展和深入,數(shù)據(jù)量以幾何級(jí)增長的速度在增長(由TB級(jí)向PB級(jí)轉(zhuǎn)變),數(shù)據(jù)來源更加復(fù)雜和多樣(結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化),如何充分利用應(yīng)用這些巨量的多樣化數(shù)據(jù),對(duì)其進(jìn)行深入分析以便提供大量的高附加值服務(wù),需要應(yīng)用大數(shù)據(jù)的理念與技術(shù)。另外,大數(shù)據(jù)是能源變革中電力工業(yè)技術(shù)革新的必然過程,而不是簡單的技術(shù)范疇,大數(shù)據(jù)不僅僅是技術(shù)進(jìn)步,更是涉及整個(gè)電力系統(tǒng)在大數(shù)據(jù)時(shí)代下發(fā)展理念、管理體制和技術(shù)路線等方面的重大變革,是下一代智能化電力系統(tǒng)在大數(shù)據(jù)時(shí)代下價(jià)值形態(tài)的躍升。
本課題根據(jù)文獻(xiàn)研究成果,圍繞公司業(yè)務(wù)應(yīng)用中面臨的實(shí)際問題和迫切需求以及業(yè)務(wù)應(yīng)用中亟待提升的方向,研究面向電力大數(shù)據(jù)特征的高速存儲(chǔ)體系結(jié)構(gòu)、索引體系結(jié)構(gòu)以及流計(jì)算即時(shí)處理技術(shù),解決系統(tǒng)建設(shè)與運(yùn)行各環(huán)節(jié)所面臨的技術(shù)難題,探索各技術(shù)的應(yīng)用以期實(shí)現(xiàn)突破,為電力大數(shù)據(jù)技術(shù)在公司系統(tǒng)的應(yīng)用提供有效指導(dǎo)和切實(shí)支撐。
目前具有電力大數(shù)據(jù)特征的典型業(yè)務(wù)如用電信息采集系統(tǒng),電力用戶基數(shù)大,每天產(chǎn)生的數(shù)據(jù)量龐大,導(dǎo)致業(yè)務(wù)系統(tǒng)在統(tǒng)計(jì)分析業(yè)務(wù)上出現(xiàn)了響應(yīng)緩慢,用戶等待時(shí)間較長的問題。分析研究用電信息采集等業(yè)務(wù)系統(tǒng)的數(shù)據(jù)存儲(chǔ)、檢索、流計(jì)算所采用的技術(shù)架構(gòu);總結(jié)歸納結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)所采用的數(shù)據(jù)存儲(chǔ)與檢索技術(shù)架構(gòu)與性能;研究典型業(yè)務(wù)系統(tǒng)中對(duì)即時(shí)流處理技術(shù)的現(xiàn)狀與需求。
研究基于Hadoop分布式存儲(chǔ)系統(tǒng)的多元數(shù)據(jù)服務(wù)的副本管理機(jī)制,研究元數(shù)據(jù)服務(wù)器異常情況下的重定向和副本替換算法,避免單一元數(shù)據(jù)服務(wù)器故障導(dǎo)致的整個(gè)分布式文件系統(tǒng)的癱瘓問題。研究Hadoop分布式文件系統(tǒng)的動(dòng)態(tài)擴(kuò)展機(jī)制以及備份和恢復(fù)機(jī)制:研究分布式文件系統(tǒng)與原有SAN網(wǎng)絡(luò)等存儲(chǔ)設(shè)備文件系統(tǒng)的兼容策略,研究Hadoop分布式文件系統(tǒng)的增量式備份方法和異?;謴?fù)機(jī)制,實(shí)現(xiàn)突發(fā)情況下的文件快速恢復(fù)。
針對(duì)Hadoop分布式文件系統(tǒng)配置靈活多樣、性能隨配置參數(shù)變化波動(dòng)劇烈以及電力應(yīng)用數(shù)據(jù)形態(tài)豐富的特點(diǎn),深入分析并鑒別影響存儲(chǔ)性能的關(guān)鍵因素,設(shè)計(jì)自適應(yīng)動(dòng)態(tài)采樣算法,研究異構(gòu)分布式存儲(chǔ)跨層配置降維機(jī)制,究應(yīng)用感知的多節(jié)點(diǎn)協(xié)同配置優(yōu)化技術(shù)。研究大數(shù)據(jù)存儲(chǔ)系統(tǒng)性能評(píng)測數(shù)據(jù)集生成技術(shù),設(shè)計(jì)并實(shí)現(xiàn)面向電力大數(shù)據(jù)應(yīng)用的存儲(chǔ)系統(tǒng)性能基準(zhǔn)測試原型系統(tǒng)。
圍繞電力大數(shù)據(jù)采集頻率高、數(shù)據(jù)量異常龐大以及長期持久化存儲(chǔ)等典型特征,研究支持?jǐn)?shù)據(jù)節(jié)點(diǎn)副本數(shù)可調(diào)節(jié)的分布式存儲(chǔ)技術(shù)和架構(gòu),研究電力大數(shù)據(jù)高速存儲(chǔ)系統(tǒng)中數(shù)據(jù)副本動(dòng)態(tài)調(diào)節(jié)算法,實(shí)現(xiàn)新增數(shù)據(jù)節(jié)點(diǎn)的快速部署和自動(dòng)存儲(chǔ)均衡。研究基于副本的數(shù)據(jù)訪問加速技術(shù);設(shè)計(jì)基于激勵(lì)理論的數(shù)據(jù)副本優(yōu)化放置算法;研究多副本的數(shù)據(jù)一致性協(xié)議和同步機(jī)制,保證多節(jié)點(diǎn)間的狀態(tài)同步。研究網(wǎng)絡(luò)分區(qū)故障敏感的多副本數(shù)據(jù)容錯(cuò)機(jī)制以及自動(dòng)恢復(fù)技術(shù)。
在分析當(dāng)前大數(shù)據(jù)檢索體系結(jié)構(gòu)與查詢方法,以及電力大數(shù)據(jù)及檢索特征的基礎(chǔ)上,研究電力大數(shù)據(jù)對(duì)檢索系統(tǒng)體系結(jié)構(gòu)的特殊需求。對(duì)各類采集類電力大數(shù)據(jù)進(jìn)行采樣分析,對(duì)檔案類大表數(shù)據(jù)進(jìn)行分析,研究電網(wǎng)采集類大數(shù)據(jù)與檔案類數(shù)據(jù)的特征;對(duì)電網(wǎng)業(yè)務(wù)中涉及大數(shù)據(jù)檢索業(yè)務(wù)的檢索方法進(jìn)行分析歸類與總結(jié),研究電網(wǎng)業(yè)務(wù)檢索業(yè)務(wù)的類型分類與特征;基于上面的兩項(xiàng)總結(jié),研究電網(wǎng)大數(shù)據(jù)特征與各類檢索對(duì)查詢系統(tǒng)體系結(jié)構(gòu)邏輯結(jié)構(gòu)的需求。
針對(duì)目前沒有成熟的大數(shù)據(jù)多維索引的情況,研究電力大數(shù)據(jù)與檢索的特點(diǎn),設(shè)計(jì)電力系統(tǒng)專用的多維索引結(jié)構(gòu)。支持高效的多表連接與多維區(qū)間查詢功能;研究自適應(yīng)的、動(dòng)態(tài)可擴(kuò)展的分布式索引存儲(chǔ)方法、索引壓縮算法;研究高可用的分布式索引存儲(chǔ)方式與故障恢復(fù)方法;結(jié)合電力業(yè)務(wù)的需求,研究有效的負(fù)載均衡算法;針對(duì)電力數(shù)據(jù)量龐大的特點(diǎn),研究大數(shù)據(jù)環(huán)境下索引快速建立與快速存儲(chǔ)的方法;為了降低索引訪問對(duì)查詢速度的影響,研究高速的索引訪問方法;研究基于索引結(jié)構(gòu)的統(tǒng)計(jì)數(shù)據(jù)與數(shù)據(jù)元信息的預(yù)計(jì)算技術(shù)。
研究基于索引元數(shù)據(jù)的查詢?nèi)蝿?wù)解析、分解和查詢計(jì)劃生成算法;研究一定時(shí)間窗口內(nèi),多查詢間依賴關(guān)系與多查詢合并優(yōu)化算法;基于電力系統(tǒng)中單表查詢的特點(diǎn),設(shè)計(jì)基于索引的單表訪問方式的優(yōu)化方法;基于電力系統(tǒng)中多表關(guān)聯(lián)查詢的特點(diǎn),設(shè)計(jì)基于索引的多表關(guān)聯(lián)優(yōu)化查詢方法;研究基于索引元數(shù)據(jù)與預(yù)計(jì)算統(tǒng)計(jì)數(shù)據(jù)的查詢優(yōu)化方法。
針對(duì)大數(shù)據(jù)環(huán)境下的電力實(shí)時(shí)處理業(yè)務(wù)需求,結(jié)合處理規(guī)模、處理時(shí)延及容忍誤差范圍等要求,從編程模型、消息處理、可靠性、擴(kuò)展性等方面,分析目前主流流計(jì)算產(chǎn)品的技術(shù)特征、運(yùn)用領(lǐng)域及優(yōu)缺點(diǎn),研究各類流計(jì)算即時(shí)處理架構(gòu),結(jié)合容錯(cuò)、事務(wù)的特性,提煉設(shè)計(jì)適合國網(wǎng)大數(shù)據(jù)環(huán)境下健壯、高效、可擴(kuò)展的流計(jì)算即時(shí)處理框架。研究高并發(fā)模式下流計(jì)算框架的I/O模型與并發(fā)模型,分析數(shù)據(jù)流在節(jié)點(diǎn)內(nèi)部的處理流程,。研究流計(jì)算的任務(wù)調(diào)度算法和優(yōu)化,提升流計(jì)算即時(shí)處理平臺(tái)的處理能力。
針對(duì)電力大數(shù)據(jù)環(huán)境中系統(tǒng)規(guī)模大、節(jié)點(diǎn)異構(gòu)性高的特點(diǎn),研究分布式流處理系統(tǒng)的控制流與數(shù)據(jù)流傳輸機(jī)制,設(shè)計(jì)基于層疊網(wǎng)的數(shù)據(jù)路由算法,研究層疊網(wǎng)節(jié)點(diǎn)到物理網(wǎng)絡(luò)節(jié)點(diǎn)的高效映射算法;設(shè)計(jì)流處理節(jié)點(diǎn)同步及異步通信原語、接口;研究大并發(fā)場景下時(shí)間消息數(shù)據(jù)排隊(duì)緩沖策略,研究流處理網(wǎng)絡(luò)擁塞控制策略;研究異常情況下的數(shù)據(jù)重傳協(xié)議和系統(tǒng)恢復(fù)機(jī)制。
對(duì)電力應(yīng)用業(yè)務(wù)邏輯所設(shè)計(jì)到的各個(gè)環(huán)節(jié)的對(duì)象及其關(guān)系進(jìn)行分析和梳理,對(duì)整個(gè)復(fù)雜事件處理系統(tǒng)的各個(gè)模塊的功能進(jìn)行規(guī)約;研究智能用能服務(wù)應(yīng)用模式的軟件實(shí)現(xiàn),抽象、提煉并設(shè)計(jì)形成面向智能電網(wǎng)的事件模式(Pattern)集合;研究設(shè)計(jì)支持電網(wǎng)應(yīng)用模式的復(fù)雜事件處理語言;研究事件處理語言的執(zhí)行引擎,設(shè)計(jì)事件的高效率檢測算法,并根據(jù)電網(wǎng)應(yīng)用的特性進(jìn)行算法的性能優(yōu)化。
用電信息采集:針對(duì)要在短周期內(nèi)完成用電信息采集數(shù)據(jù)異常判斷的需求,引入流計(jì)算技術(shù),完成對(duì)實(shí)時(shí)采集的數(shù)據(jù)進(jìn)行預(yù)處理,包括:對(duì)異常數(shù)據(jù)的過濾、處理以及相關(guān)警報(bào);完成高效算法的設(shè)計(jì),實(shí)時(shí)監(jiān)測并處理異常數(shù)據(jù);完成對(duì)數(shù)據(jù)在存儲(chǔ)節(jié)點(diǎn)上分布的均勻化操作。
數(shù)據(jù)質(zhì)量監(jiān)測:針對(duì)業(yè)務(wù)數(shù)據(jù)質(zhì)量在線實(shí)時(shí)監(jiān)測的需求,引入流計(jì)算技術(shù),對(duì)數(shù)據(jù)傳輸環(huán)節(jié)上的數(shù)據(jù)質(zhì)量監(jiān)測對(duì)數(shù)據(jù)從單位、頻度、來源系統(tǒng)、所屬業(yè)務(wù)等維度進(jìn)行明細(xì)透視,對(duì)數(shù)據(jù)質(zhì)量監(jiān)測異常實(shí)現(xiàn)互動(dòng)預(yù)警及處理從及時(shí)、完整、一致、準(zhǔn)確四方面對(duì)數(shù)據(jù)質(zhì)量進(jìn)行通報(bào),持續(xù)改進(jìn)數(shù)據(jù)質(zhì)量。
視頻圖像處理:在視頻流計(jì)算應(yīng)用方面,通過對(duì)視頻監(jiān)控圖像的實(shí)時(shí)計(jì)算,結(jié)合目標(biāo)特征提取、運(yùn)動(dòng)目標(biāo)分割、背景光影變化等分析處理算法,獲取電力設(shè)備原始數(shù)據(jù),掌握電力設(shè)備的運(yùn)行狀態(tài),提高故障檢測的實(shí)時(shí)性,降低人工成本,提升管理效率和生產(chǎn)安全水平。
本課題重點(diǎn)研究電力大數(shù)據(jù)高速存儲(chǔ)體系結(jié)構(gòu)和關(guān)鍵技術(shù),研究電力大數(shù)據(jù)索引結(jié)構(gòu)、多維索引關(guān)鍵技術(shù)及多維索引的快速關(guān)鍵技術(shù);研究適應(yīng)于電力大數(shù)據(jù)特征的索引體系結(jié)構(gòu)與關(guān)鍵技術(shù);研究面向電力大數(shù)據(jù)特征的分布式流處理系統(tǒng)原理;研究驗(yàn)證流計(jì)算即時(shí)處理技術(shù)對(duì)于大數(shù)據(jù)典型應(yīng)用的有效性。完成符合電力大數(shù)據(jù)特征的高速存儲(chǔ)體系結(jié)構(gòu)研究與實(shí)現(xiàn)、索引體系結(jié)構(gòu)的研究與實(shí)現(xiàn)以及流計(jì)算即時(shí)處理技術(shù)的研究與實(shí)現(xiàn),在此基礎(chǔ)開發(fā)面向電力大數(shù)據(jù)處理的原型系統(tǒng)并進(jìn)行驗(yàn)證,進(jìn)而補(bǔ)充和完善技術(shù)研究成果,為提升公司業(yè)務(wù)系統(tǒng)性能提供統(tǒng)一技術(shù)支撐。
[1]李皎.大數(shù)據(jù)時(shí)代到來對(duì)電力行業(yè)發(fā)展提出新要求[J].華北電業(yè),2012(4):82-83.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-149.
[3]劉軍,呂俊峰.大數(shù)據(jù)時(shí)代及數(shù)據(jù)挖掘的應(yīng)用[J].國家電網(wǎng)報(bào),2012:1-2.
[4]宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,37(4):928-935.
[5]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013,36(6):1126~1136.