楊 懿,王 鑫,楊開(kāi)瓊,潘可佳
國(guó)網(wǎng)四川省電力公司信息通信公司信息通信調(diào)度監(jiān)控中心,四川成都 610041
大數(shù)據(jù)關(guān)鍵技術(shù)在用電信息采集系統(tǒng)架構(gòu)優(yōu)化中的應(yīng)用研究
楊 懿,王 鑫,楊開(kāi)瓊,潘可佳
國(guó)網(wǎng)四川省電力公司信息通信公司信息通信調(diào)度監(jiān)控中心,四川成都 610041
近幾年來(lái),用電信息采集系統(tǒng)的數(shù)據(jù)采集范圍、應(yīng)用范圍持續(xù)擴(kuò)大,伴隨著用戶量和業(yè)務(wù)需求的增長(zhǎng),系統(tǒng)的復(fù)雜度也大幅度增加。傳統(tǒng)數(shù)據(jù)采集處理技術(shù)和系統(tǒng)架構(gòu)已經(jīng)無(wú)法滿足當(dāng)前業(yè)務(wù)發(fā)展對(duì)系統(tǒng)數(shù)據(jù)處理分析的要求。而大數(shù)據(jù)技術(shù)隨著其從理論研究向?qū)嶋H應(yīng)用的發(fā)展,也為解決用電信息采集系統(tǒng)數(shù)據(jù)量快速增長(zhǎng)、數(shù)據(jù)關(guān)聯(lián)性越來(lái)越高的現(xiàn)狀需求提供了理論及應(yīng)用基礎(chǔ)。本文通過(guò)對(duì)大數(shù)據(jù)相關(guān)關(guān)鍵技術(shù)的研究,對(duì)大數(shù)據(jù)技術(shù)在用電信息采集系統(tǒng)架構(gòu)優(yōu)化方面的應(yīng)用進(jìn)行了設(shè)計(jì),并對(duì)后續(xù)系統(tǒng)架構(gòu)發(fā)展進(jìn)行了分析。
用電信息采集系統(tǒng);大數(shù)據(jù);分布式集群;架構(gòu)優(yōu)化
隨著智能電網(wǎng)建設(shè)帷幕的拉開(kāi),為實(shí)現(xiàn)電力營(yíng)銷(xiāo)精益化管理能力增強(qiáng),促進(jìn)營(yíng)銷(xiāo)業(yè)務(wù)模式集約化發(fā)展,推動(dòng)營(yíng)銷(xiāo)管理變革和突破,全面提升營(yíng)銷(xiāo)管理與服務(wù)的信息化、自動(dòng)化、智能化、互動(dòng)化水平,用電信息采集系統(tǒng)建設(shè)在電力行業(yè)內(nèi)持續(xù)推進(jìn),業(yè)務(wù)應(yīng)用不斷深入開(kāi)展。傳統(tǒng)數(shù)據(jù)采集處理技術(shù)和系統(tǒng)架構(gòu)已經(jīng)無(wú)法滿足當(dāng)前業(yè)務(wù)發(fā)展對(duì)用電信息采集系統(tǒng)數(shù)據(jù)處理、數(shù)據(jù)應(yīng)用的要求。因此,為滿足系統(tǒng)建設(shè)和發(fā)展要求,需根據(jù)業(yè)務(wù)應(yīng)用需求對(duì)用電信息采集系統(tǒng)架構(gòu)進(jìn)行優(yōu)化。
目前,利用新的信息技術(shù)解決當(dāng)前信息系統(tǒng)面臨的系統(tǒng)性能問(wèn)題,為系統(tǒng)性能優(yōu)化提供技術(shù)支撐方案,已成為被廣泛采用的方式。新一代信息技術(shù)的代表,大數(shù)據(jù)技術(shù)已從理論研究向?qū)嶋H應(yīng)用發(fā)展,有著豐富的理論基礎(chǔ)和應(yīng)用實(shí)例。作為大數(shù)據(jù)平臺(tái)中應(yīng)用率最高的技術(shù)Hadoop,已得到了多個(gè)領(lǐng)域的研究應(yīng)用,本文通過(guò)研究相關(guān)關(guān)鍵技術(shù),將大數(shù)據(jù)應(yīng)用到用電信息采集系統(tǒng)架構(gòu)優(yōu)化改造中,有針對(duì)性的解決當(dāng)前系統(tǒng)存在的問(wèn)題,為后續(xù)系統(tǒng)推廣應(yīng)用提供可擴(kuò)展可復(fù)用的架構(gòu)基礎(chǔ)。
圖1 基于Hadoop的考核單元電量計(jì)算
用電信息采集系統(tǒng)全覆蓋目標(biāo)實(shí)現(xiàn)后,采集數(shù)據(jù)量將呈線性增長(zhǎng),海量數(shù)據(jù)的計(jì)算成為一個(gè)重要的問(wèn)題,開(kāi)源分布式計(jì)算平臺(tái)Hadoop能夠面向海量數(shù)據(jù)提供高性能存儲(chǔ)、分布式并行處理與計(jì)算服務(wù),具有高容錯(cuò)性和強(qiáng)擴(kuò)展性,并在海量數(shù)據(jù)存儲(chǔ)及分布式并行處理方面已得到了廣泛應(yīng)用。為解決用電信息采集系統(tǒng)高并發(fā)大容量采集數(shù)據(jù)實(shí)時(shí)處理及存儲(chǔ)的問(wèn)題,基于Hadoop的平臺(tái)進(jìn)行了以下大數(shù)據(jù)關(guān)鍵技術(shù)的研究。
1)分布式計(jì)算。
基于Hadoop的海量用電信息分布式計(jì)算平臺(tái)的構(gòu)建,應(yīng)用于電信息采集系統(tǒng)線損計(jì)算服務(wù),傳統(tǒng)使用串行方式處理時(shí)需要數(shù)個(gè)小時(shí)才能夠完成,使用并行處理方式后可將計(jì)算時(shí)間大幅降低。除此之外,將計(jì)算過(guò)程中除數(shù)據(jù)讀取和回寫(xiě)外的其他環(huán)節(jié)脫離現(xiàn)有oracle數(shù)據(jù)庫(kù),降低頻繁讀寫(xiě)給現(xiàn)有oracle數(shù)據(jù)庫(kù)帶來(lái)的壓力。同時(shí),該技術(shù)的應(yīng)用可滿足不斷增長(zhǎng)的終端海量數(shù)據(jù)實(shí)時(shí)處理需求。圖1所示為基于Hadoop分布式框架下的用電信息采集系統(tǒng)考核單元電量計(jì)算過(guò)程。
2)分布式緩存。
基于分布式緩存技術(shù)可有效解決用電信息采集系統(tǒng)的擴(kuò)展瓶頸,同時(shí)減少對(duì)現(xiàn)有關(guān)系數(shù)據(jù)庫(kù)的讀寫(xiě)壓力。系統(tǒng)使用基于分布式文件存儲(chǔ)方法,可以實(shí)現(xiàn)每秒3萬(wàn)條記錄的讀寫(xiě),且可以實(shí)現(xiàn)并發(fā)處理,結(jié)合BATCH批處理技術(shù),相比傳統(tǒng)模式的逐條寫(xiě)入,該設(shè)計(jì)能有效解決入庫(kù)壓力,可以做到數(shù)據(jù)采集完成同時(shí)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)完成,架構(gòu)調(diào)整完成后數(shù)據(jù)采集入庫(kù)的時(shí)間可大大縮減,以3000萬(wàn)用戶規(guī)模為例測(cè)算,日凍結(jié)電能示值數(shù)據(jù)采集入庫(kù)時(shí)間僅需30分鐘。圖2所示為采用分布式緩存的用電信息采集系統(tǒng)數(shù)據(jù)入庫(kù)過(guò)程。
圖2 用電信息采集系統(tǒng)數(shù)據(jù)采集入庫(kù)示意圖
圖3 用電信息采集系統(tǒng)主站優(yōu)化架構(gòu)
用電信息采集系統(tǒng)架構(gòu)優(yōu)化是在現(xiàn)有系統(tǒng)所有功能的基礎(chǔ)上進(jìn)行的優(yōu)化及改造。用電信息采集系統(tǒng)總體架構(gòu)由采集對(duì)象、通信信道、系統(tǒng)主站等三部分組成,目前系統(tǒng)主站部分則是由傳統(tǒng)架構(gòu)構(gòu)成,系統(tǒng)的讀寫(xiě)集中,數(shù)據(jù)庫(kù)壓力大,許多報(bào)表分析以及準(zhǔn)實(shí)時(shí)分析無(wú)法在規(guī)定時(shí)間內(nèi)完成。在系統(tǒng)主站部分引入Hadoop分布式存儲(chǔ)和計(jì)算框架,且要保留原有的功能架構(gòu),按照上述關(guān)鍵技術(shù)研究中的分析,在用電信息采集系統(tǒng)中主站架構(gòu)中采用大數(shù)據(jù)分布式計(jì)算架構(gòu)和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)并存的模式,將Hadoop分布式計(jì)算框架作為現(xiàn)有主站系統(tǒng)的補(bǔ)充。通過(guò)對(duì)主站系統(tǒng)現(xiàn)有功能進(jìn)行重新規(guī)劃,以提升系統(tǒng)的整體性能。
優(yōu)化架構(gòu)將原有主站系統(tǒng)僅有生產(chǎn)數(shù)據(jù)庫(kù)的架構(gòu)擴(kuò)展為由生產(chǎn)數(shù)據(jù)庫(kù)、業(yè)務(wù)應(yīng)用庫(kù)、歷史數(shù)據(jù)庫(kù)、及大數(shù)據(jù)分布式集群構(gòu)成的新架構(gòu)。通過(guò)從業(yè)務(wù)層面對(duì)業(yè)務(wù)進(jìn)行切割,對(duì)現(xiàn)有業(yè)務(wù)和后期需要業(yè)務(wù)進(jìn)行統(tǒng)計(jì),切割出適合傳統(tǒng)數(shù)據(jù)庫(kù)架構(gòu)上運(yùn)行的事務(wù)處理業(yè)務(wù)和適合大數(shù)據(jù)技術(shù)架構(gòu)上的分析統(tǒng)計(jì)業(yè)務(wù),從而減輕生產(chǎn)數(shù)據(jù)庫(kù)的壓力。如圖3所示,前置采集服務(wù)器集群將采集到的用戶用電信息數(shù)據(jù)同時(shí)寫(xiě)入原有生產(chǎn)數(shù)據(jù)庫(kù)和分布式計(jì)算集群中。
1)生產(chǎn)數(shù)據(jù)庫(kù)。
保留主站原有生產(chǎn)數(shù)據(jù)庫(kù),將部分功能剝離出去,僅應(yīng)用于系統(tǒng)采集數(shù)據(jù)的入庫(kù)。生產(chǎn)數(shù)據(jù)庫(kù)側(cè)重于數(shù)據(jù)寫(xiě)入操作,以及與現(xiàn)場(chǎng)交互性較強(qiáng),對(duì)時(shí)效性要求高的數(shù)據(jù)查詢、業(yè)務(wù)操作類(lèi)應(yīng)用功能,如電價(jià)下發(fā)、電價(jià)巡檢、實(shí)時(shí)費(fèi)控等業(yè)務(wù)。作為數(shù)據(jù)采集唯一數(shù)據(jù)源,原則上,生產(chǎn)數(shù)據(jù)庫(kù)存儲(chǔ)最近3-6個(gè)月的數(shù)據(jù)。
2)業(yè)務(wù)應(yīng)用庫(kù)。
用于采集數(shù)據(jù)的應(yīng)用和統(tǒng)計(jì)分析,側(cè)重于數(shù)據(jù)的讀取以及上層的統(tǒng)計(jì)分析操作,為其他業(yè)務(wù)系統(tǒng)提供統(tǒng)一數(shù)據(jù)接口。原則上業(yè)務(wù)應(yīng)用庫(kù)存儲(chǔ)數(shù)據(jù)范圍包括從生產(chǎn)庫(kù)同步的原始采集數(shù)據(jù)、全部檔案數(shù)據(jù)以及通過(guò)統(tǒng)計(jì)分析計(jì)算出來(lái)的報(bào)表數(shù)據(jù)。通過(guò)數(shù)據(jù)庫(kù)復(fù)制軟件,實(shí)現(xiàn)生產(chǎn)數(shù)據(jù)庫(kù)和業(yè)務(wù)應(yīng)用庫(kù)的數(shù)據(jù)實(shí)時(shí)同步,統(tǒng)計(jì)分析數(shù)據(jù)則由業(yè)務(wù)應(yīng)用庫(kù)和分布式計(jì)算環(huán)境產(chǎn)生。
3)歷史數(shù)據(jù)庫(kù)。
歷史數(shù)據(jù)庫(kù)主要分擔(dān)生產(chǎn)庫(kù)、業(yè)務(wù)應(yīng)用庫(kù)數(shù)據(jù)存儲(chǔ)壓力,保證生產(chǎn)數(shù)據(jù)庫(kù)、應(yīng)用分析數(shù)據(jù)庫(kù)不因數(shù)據(jù)量過(guò)大而造成性能的下降。歷史數(shù)據(jù)庫(kù)原則上只保留業(yè)務(wù)應(yīng)用庫(kù)之前的原始采集數(shù)據(jù)(3年以前的數(shù)據(jù))。歷史庫(kù)數(shù)據(jù)與業(yè)務(wù)應(yīng)用庫(kù)數(shù)據(jù)同步可采用ETL數(shù)據(jù)抽取、存儲(chǔ)過(guò)程定時(shí)抽取等方式進(jìn)行定時(shí)同步。
4)大數(shù)據(jù)分布式集群。
大數(shù)據(jù)分布式集群負(fù)責(zé)對(duì)數(shù)據(jù)存儲(chǔ)層的基礎(chǔ)數(shù)據(jù)進(jìn)行分析計(jì)算,為上層業(yè)務(wù)應(yīng)用提供數(shù)據(jù)支撐。前置采集服務(wù)器集群采集到的用戶用電信息數(shù)據(jù)通過(guò)流計(jì)算的方式寫(xiě)入大數(shù)據(jù)分布式計(jì)算集群。通過(guò)實(shí)現(xiàn)海量數(shù)據(jù)實(shí)時(shí)處理及布式存儲(chǔ)架構(gòu),滿足不斷增長(zhǎng)的終端帶來(lái)的海量數(shù)據(jù)實(shí)時(shí)處理需求。
用電信息采集系統(tǒng)架構(gòu)優(yōu)化選擇分布式并行計(jì)算、分布式存儲(chǔ)等大數(shù)據(jù)關(guān)鍵技術(shù)對(duì)系統(tǒng)主站架構(gòu)進(jìn)行改造,提升了用電信息采集系統(tǒng)整體性能,使之具備接入大量用戶的能力,并具備了實(shí)現(xiàn)“全覆蓋、全采集、全費(fèi)控“目標(biāo)的數(shù)據(jù)處理能力。
1)讀寫(xiě)分離。
將大數(shù)據(jù)分布式集群加入用電信息采集系統(tǒng)主站架構(gòu)中,實(shí)現(xiàn)了系統(tǒng)的讀寫(xiě)分離。將對(duì)數(shù)據(jù)庫(kù)讀和寫(xiě)的操作分離開(kāi),分別對(duì)應(yīng)不同的數(shù)據(jù)庫(kù)服務(wù)器進(jìn)行操作,有效地減輕數(shù)據(jù)庫(kù)壓力及I/O壓力。生產(chǎn)數(shù)據(jù)庫(kù)主要進(jìn)行寫(xiě)操作,大數(shù)據(jù)分布式計(jì)算集群及業(yè)務(wù)應(yīng)用庫(kù)主要進(jìn)行讀操作。當(dāng)生產(chǎn)數(shù)據(jù)庫(kù)進(jìn)行寫(xiě)操作時(shí),數(shù)據(jù)同步至分布式計(jì)算集群及業(yè)務(wù)應(yīng)用庫(kù),有效保證數(shù)據(jù)完整性。通過(guò)大數(shù)據(jù)分布式集群的引入,將統(tǒng)計(jì)分析類(lèi)業(yè)務(wù)分割出去,實(shí)現(xiàn)采集平臺(tái)和應(yīng)用平臺(tái)的分離,有效的解決系統(tǒng)規(guī)模的不斷增長(zhǎng)導(dǎo)致的業(yè)務(wù)高峰時(shí)段的數(shù)據(jù)庫(kù)運(yùn)行效率緩慢問(wèn)題,提升了系統(tǒng)性能。
2)系統(tǒng)架構(gòu)可擴(kuò)展。
在用電信息采集系統(tǒng)架構(gòu)調(diào)整過(guò)程中,將大數(shù)據(jù)分布式計(jì)算集群作為系統(tǒng)的補(bǔ)充引入原有的架構(gòu),原有架構(gòu)功能保持不變,保證了用電信息采集系統(tǒng)在架構(gòu)調(diào)整期間不受影響正常使用,也使得系統(tǒng)架構(gòu)具有可擴(kuò)展性。大數(shù)據(jù)分布式計(jì)算集群具有物理設(shè)備靈活部署的特點(diǎn),作為架構(gòu)中可靈活擴(kuò)展的一部分,為后續(xù)系統(tǒng)面對(duì)不斷增長(zhǎng)擴(kuò)大的業(yè)務(wù)需求進(jìn)行架構(gòu)優(yōu)化提供了擴(kuò)展基礎(chǔ)。
3)提升數(shù)據(jù)分析能力。
結(jié)合用電信息采集系統(tǒng)海量數(shù)據(jù)環(huán)境、業(yè)務(wù)發(fā)展趨勢(shì)以及日益增長(zhǎng)的決策分析需求,通過(guò)引入Hadoop平臺(tái),在架構(gòu)中運(yùn)用分布式并行計(jì)算、分布式存儲(chǔ)等技術(shù),大幅提升了用電信息采集系統(tǒng)的計(jì)算效率,有效解決了系統(tǒng)中統(tǒng)計(jì)類(lèi)業(yè)務(wù)的計(jì)算及時(shí)性及數(shù)據(jù)完整性問(wèn)題,提升了系統(tǒng)的數(shù)據(jù)分析能力。
大數(shù)據(jù)技術(shù)的引入已經(jīng)成為解決用電信息采集系統(tǒng)瓶頸和業(yè)務(wù)高要求的重要手段。用電信息采集系統(tǒng)的數(shù)據(jù)量大、效率要求高的需求特點(diǎn)也迎合了大數(shù)據(jù)的技術(shù)特點(diǎn)。完善用電信息采集系統(tǒng)大數(shù)據(jù)平臺(tái)的建設(shè)將會(huì)給系統(tǒng)帶來(lái)更高的用戶體驗(yàn)度。用電信息采集系統(tǒng)也可作為試點(diǎn),為電力行業(yè)其他信息系統(tǒng)的發(fā)展指引方向,為電力大數(shù)據(jù)平臺(tái)的建設(shè)發(fā)展提供應(yīng)用基礎(chǔ)。
[1]宋亞奇,周?chē)?guó)亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013.
[2]程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014.
[3]任仁.Hadoop在大數(shù)據(jù)處理中的應(yīng)用優(yōu)勢(shì)分析[J].電子技術(shù)與軟件工程,2014.
[4]黃偉,龐琳,曹彬,等.基于數(shù)據(jù)級(jí)任務(wù)分解的配電網(wǎng)分布式并行計(jì)算平臺(tái)[J].電網(wǎng)技術(shù),2014.
[5]張迎.智能用電信息采集管理系統(tǒng)優(yōu)化研究[D].華北電力大學(xué),2013.
TP3
A
1674-6708(2015)149-0116-03
楊懿,工程師,從事?tīng)I(yíng)銷(xiāo)信息系統(tǒng)運(yùn)維工作