摘要:通過對云實(shí)時(shí)數(shù)據(jù)庫技術(shù)在用電信息采集系統(tǒng)中的應(yīng)用,解決了大量用電信息數(shù)據(jù)實(shí)時(shí)并發(fā)采集入庫的速率、歷史大數(shù)據(jù)的秒級查詢和計(jì)算,提高了系統(tǒng)數(shù)據(jù)的實(shí)時(shí)性和可用性,滿足了用電信息采集系統(tǒng)省級集中模式下的各市、縣級操作人員對實(shí)時(shí)采集數(shù)據(jù)的查詢、統(tǒng)計(jì)和分析工作,提高了工作效率。
關(guān)鍵詞:云計(jì)算;實(shí)時(shí)數(shù)據(jù)庫;用電信息采集;系統(tǒng)
作者簡介:宋振偉(1977-),男,山東招遠(yuǎn)人,國網(wǎng)山東省電力公司煙臺供電公司,助理工程師,山東大學(xué)(威海)機(jī)電與信息工程學(xué)院碩士研究生。(山東 煙臺 264000)
中圖分類號:TM76 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-0079(2014)09-0263-03
一、建設(shè)背景和目標(biāo)
1.建設(shè)背景
目前在用電信息采集系統(tǒng)中,普遍使用Oracle數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲和查詢。但是關(guān)系型數(shù)據(jù)庫的特點(diǎn)決定了其在大數(shù)據(jù)量的查詢和并發(fā)入庫方面有著天然的缺陷,在效率上遠(yuǎn)不能滿足人們的要求。在百萬級用戶并發(fā)采集入庫時(shí),系統(tǒng)不允許直接寫入數(shù)據(jù)庫,否則容易出現(xiàn)因數(shù)據(jù)量過大而出現(xiàn)數(shù)據(jù)庫服務(wù)死機(jī)的情況?,F(xiàn)在只能通過采取源碼數(shù)據(jù)預(yù)存到臨時(shí)文件中,后期再逐步分批的寫入庫中。這樣的處理方式,就造成了采集數(shù)據(jù)的入庫延遲,無法實(shí)現(xiàn)并滿足數(shù)據(jù)實(shí)時(shí)監(jiān)控的目的。
用電信息采集系統(tǒng)每天都會產(chǎn)生大量的采集數(shù)據(jù),當(dāng)時(shí)間積累到一定階段,數(shù)據(jù)量會非常龐大。此時(shí)從這個(gè)大數(shù)據(jù)中進(jìn)行查詢或計(jì)算時(shí),所耗費(fèi)的時(shí)間會達(dá)到幾十分鐘甚至幾個(gè)小時(shí)。實(shí)際上這種查詢過程已經(jīng)失去了應(yīng)用的價(jià)值,也阻礙了很多工作思路的實(shí)現(xiàn),失去了實(shí)時(shí)分析的意義,造成了工作效率低下。
2.建設(shè)目標(biāo)
通過研究云計(jì)算技術(shù)和實(shí)時(shí)數(shù)據(jù)庫相結(jié)合,優(yōu)化采集系統(tǒng)數(shù)據(jù)入庫的I/O效率,對用電信息采集系統(tǒng)中的大數(shù)據(jù)迅速并發(fā)采集入庫。搭建高可靠性、穩(wěn)定性并具有良好的線性擴(kuò)展能力的云計(jì)算平臺,全面而有力的支撐電力營銷業(yè)務(wù)的拓展和深入。全面分析系統(tǒng)針對不同數(shù)據(jù)存儲環(huán)境的需求,開發(fā)多數(shù)據(jù)源之間的多種交互接口,實(shí)現(xiàn)云存儲環(huán)境、實(shí)時(shí)數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)交換及共享。研究符合用電信息采集系統(tǒng)數(shù)據(jù)特征的流處理技術(shù),建立合理的流處理模型,加強(qiáng)系統(tǒng)平臺的流處理能力,提供增值的數(shù)據(jù)服務(wù)。
二、業(yè)務(wù)系統(tǒng)技術(shù)架構(gòu)實(shí)現(xiàn)
自國家電網(wǎng)公司推出“全覆蓋、全采集、全費(fèi)控”用電信息采集系統(tǒng)建設(shè)目標(biāo)以來,山東電力集團(tuán)公司均在市網(wǎng)統(tǒng)一部署了用電信息采集系統(tǒng)主站,并且進(jìn)入到全面建設(shè)階段。主站系統(tǒng)接入覆蓋面越來越廣、接入的終端數(shù)量和表計(jì)數(shù)量越來越多,系統(tǒng)運(yùn)行的壓力也越來越大,部分地市的用電信息采集系統(tǒng)開始出現(xiàn)終端即時(shí)操作慢、采集成功率不高、接入容量不足、系統(tǒng)響應(yīng)速度慢等問題。目前煙臺供電公司用電信息采集覆蓋率在38.4%,隨著用電信息采集覆蓋率的進(jìn)一步提高,對用電信息采集系統(tǒng)的容量、性能、壓力提出了更大的挑戰(zhàn)。為此,煙臺供電公司引進(jìn)了“云實(shí)時(shí)數(shù)據(jù)庫技術(shù)”,在現(xiàn)有用電采集系統(tǒng)上進(jìn)行改造完善,解決了現(xiàn)存問題及瓶頸,滿足了后期“全覆蓋、全采集、全費(fèi)控”的需要。
云實(shí)時(shí)數(shù)據(jù)庫硬件搭建采用云計(jì)算一體機(jī),包括主服務(wù)器、備用服務(wù)器及數(shù)據(jù)節(jié)點(diǎn)服務(wù)器,服務(wù)器間采用傳輸速度達(dá)56Gb/秒的萬兆交換機(jī)進(jìn)行連接。軟件方面采用集群架構(gòu)Hadoop,底層數(shù)據(jù)庫采用PI實(shí)時(shí)數(shù)據(jù)庫,運(yùn)用流技術(shù)數(shù)據(jù)入庫速度達(dá)到420M/秒,極大地提高了數(shù)據(jù)存儲的效率。
1.技術(shù)架構(gòu)
云實(shí)時(shí)數(shù)據(jù)庫的總體架構(gòu)如圖1所示。
將實(shí)時(shí)數(shù)據(jù)庫技術(shù)與云計(jì)算核心技術(shù)進(jìn)行深度融合,通過服務(wù)器集群實(shí)現(xiàn)具有規(guī)??蓴U(kuò)展、可伸縮、性能高可靠、易維護(hù)的云實(shí)時(shí)數(shù)據(jù)庫系統(tǒng)。
2.技術(shù)性能
(1)使用高性能云儲存技術(shù)。
1)優(yōu)化的I/O管理。傳統(tǒng)存儲系統(tǒng)修改數(shù)據(jù)是通過尋址的方式實(shí)現(xiàn),即通過尋址→更新→返回實(shí)現(xiàn)。優(yōu)化后的I/O機(jī)制,通過寫入新數(shù)據(jù)→返回。優(yōu)化后的I/O機(jī)制的優(yōu)勢是:大大加快了數(shù)據(jù)寫速度、實(shí)現(xiàn)了秒級瞬間數(shù)據(jù)恢復(fù)成為可能、額外空間占用低于20%;對于純寫入應(yīng)用情況,額外空間占用為0%。
2)數(shù)據(jù)物理保護(hù)。一是采用高性能的RAID6技術(shù)的優(yōu)勢在于:安全性是普通RAID的2000到40000倍;雙校驗(yàn)盤比鏡像方式更可靠、穩(wěn)定;真正動態(tài)擴(kuò)展;支持全局熱備。二是主-主雙控保護(hù)。采用雙機(jī)熱備方式,主機(jī)故障,備機(jī)自動接替其工作,對外服務(wù)不停止;存儲節(jié)點(diǎn)采用冗余備份機(jī)制,在多個(gè)存儲節(jié)點(diǎn)情況下,任意損失一個(gè)節(jié)點(diǎn),數(shù)據(jù)不丟失,服務(wù)不停止。
3)數(shù)據(jù)邏輯保護(hù)。采用NetApp存儲機(jī)制的SnapShot與SnapRestore技術(shù)。使用這些技術(shù)的優(yōu)勢在于:快速備份,秒級完成;不用拷貝數(shù)據(jù);不用預(yù)留空間;255份快照而不影響業(yè)務(wù)性能;基于恢復(fù)點(diǎn)的數(shù)據(jù)全備;支持卷、目錄、文件等模式;每份快照可以當(dāng)做一份數(shù)據(jù)使用。NetApp存儲結(jié)構(gòu)如圖2所示。
4)統(tǒng)一儲存管理能力。一是全局空間共享-FlexVol技術(shù);二是全局I/O性能共享-FlexShare技術(shù)。
5)綠色存儲。重復(fù)數(shù)據(jù)刪除-Dedup技術(shù)。
(2)運(yùn)用合理、高效的檢索技術(shù)。
1)數(shù)據(jù)庫檢索技術(shù)。一是順序檢索、倒序檢索;二是布爾邏輯檢索;三是字段限定檢索;四是聚類檢索。
2)全文檢索技術(shù)。一是截詞檢索;二是位置檢索;三是加權(quán)檢索。
3.數(shù)據(jù)安全
對于元數(shù)據(jù),通過操作日志來提供容錯(cuò)功能,當(dāng)Master發(fā)生故障時(shí),在磁盤數(shù)據(jù)保存完好的情況下,可以迅速恢復(fù)以上元數(shù)據(jù)。為了防止Master徹底死機(jī)的情況,還提供了Master遠(yuǎn)程的實(shí)時(shí)備份,這樣在當(dāng)前的Master出現(xiàn)故障無法工作時(shí),另外一臺備Master可以迅速接替其工作。對于節(jié)點(diǎn)服務(wù)器,采用副本的方式實(shí)現(xiàn)容錯(cuò)。每一塊有多個(gè)存儲副本(默認(rèn)為兩個(gè)),分布存儲在不同的節(jié)點(diǎn)服務(wù)器上。系統(tǒng)中的所有服務(wù)節(jié)點(diǎn)均通過網(wǎng)絡(luò)連接在一起,由于采用了高可靠的容錯(cuò)機(jī)制,系統(tǒng)增減節(jié)點(diǎn)不必停止服務(wù),可在線增減存儲節(jié)點(diǎn),存儲節(jié)點(diǎn)和元數(shù)據(jù)節(jié)點(diǎn)間通過注冊管理機(jī)制自適應(yīng)管理,實(shí)現(xiàn)自動伸縮。
三、系統(tǒng)建設(shè)的內(nèi)容與成效
系統(tǒng)建設(shè)概況。硬件搭建采用云計(jì)算一體機(jī),主服務(wù)器、備用服務(wù)器各1臺,數(shù)據(jù)節(jié)點(diǎn)服務(wù)器6臺,服務(wù)器間采用萬兆交換機(jī)連接,傳速速度達(dá)56Gb/秒,降低了服務(wù)器間的數(shù)據(jù)傳速瓶頸。集群架構(gòu)使用Hadoop架構(gòu),底層數(shù)據(jù)庫采用PI實(shí)時(shí)數(shù)據(jù)庫,運(yùn)用流技術(shù)數(shù)據(jù)入庫速度達(dá)到420M/秒,極大地提高了數(shù)據(jù)存儲的效率。采用將實(shí)時(shí)數(shù)據(jù)庫部署于云計(jì)算的分布式架構(gòu)上,通過云計(jì)算的并行分布式計(jì)算及多副本技術(shù),實(shí)現(xiàn)海量數(shù)據(jù)的實(shí)時(shí)入庫、準(zhǔn)確高效的檢索計(jì)算及保證了數(shù)據(jù)的安全性。實(shí)現(xiàn)了用電信息數(shù)據(jù)采集、存儲、檢索和處理分析模型設(shè)計(jì),對基于云計(jì)算技術(shù)的海量用電數(shù)據(jù)采集和整合架構(gòu)的開發(fā),以及可提升用電數(shù)據(jù)海量處理速度的云計(jì)算一體化平臺架構(gòu)的實(shí)際應(yīng)用。建設(shè)了基于海量數(shù)據(jù)處理的分析平臺工具,實(shí)現(xiàn)了用電數(shù)據(jù)智慧引擎和數(shù)據(jù)挖掘算法庫,為電力海量用電數(shù)據(jù)的統(tǒng)一研究和應(yīng)用提供了基礎(chǔ)支撐。
1.系統(tǒng)建設(shè)內(nèi)容
(1)生產(chǎn)庫和查詢庫實(shí)現(xiàn)分離。由于采集入庫和查詢應(yīng)用對數(shù)據(jù)庫的操作不盡相同,采集入庫是對數(shù)據(jù)的大量寫操作,而查詢應(yīng)用則是大量的讀操作和少量的寫操作,將兩者數(shù)據(jù)源分開,可以避免兩者的相互影響。同時(shí)由于作用不同,兩者存儲的數(shù)據(jù)量也可以進(jìn)行細(xì)分。因此,將主要用于采集數(shù)據(jù)入庫的采集系統(tǒng)的生產(chǎn)數(shù)據(jù)庫與應(yīng)用于查詢、統(tǒng)計(jì)分析、數(shù)據(jù)交互的分析歷史庫分開,保證了生產(chǎn)數(shù)據(jù)庫單一的數(shù)據(jù)采集入庫作用,不會與主站應(yīng)用的統(tǒng)計(jì)分析、數(shù)據(jù)查詢等操作爭奪系統(tǒng)資源。兩個(gè)數(shù)據(jù)庫間通過Golden Gate軟件進(jìn)行同步,保證了生產(chǎn)數(shù)據(jù)庫中的數(shù)據(jù)實(shí)時(shí)同步至歷史庫。綜上所述,采集系統(tǒng)數(shù)據(jù)架構(gòu)如圖3所示。
(2)表分離(當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)的合理劃分、存儲)。由于采集系統(tǒng)的主要查詢及應(yīng)用都是針對近期采集的數(shù)據(jù),而對歷史數(shù)據(jù)的查詢頻度很低,只是偶爾進(jìn)行查詢,如果兩者存放在同一張表則令數(shù)據(jù)量增加,數(shù)據(jù)管理和查詢的成本同步增加。為了使生產(chǎn)數(shù)據(jù)庫的數(shù)據(jù)量最少,減少數(shù)據(jù)入庫時(shí)變更索引消耗的資源,在生產(chǎn)數(shù)據(jù)庫中僅保存近期數(shù)據(jù)??紤]到采集設(shè)備中的數(shù)據(jù)保留時(shí)長和數(shù)據(jù)補(bǔ)召要求,在生產(chǎn)數(shù)據(jù)庫中對數(shù)據(jù)保存范圍做了規(guī)定:日數(shù)據(jù)保留最近15日數(shù)據(jù),月數(shù)據(jù)保留最近2月數(shù)據(jù)。由于該庫數(shù)據(jù)量保持穩(wěn)定,作用單一,在硬件配置上充分使用了利舊存儲設(shè)備,以節(jié)省設(shè)備投入。
在分析歷史數(shù)據(jù)庫時(shí),保留了所有的采集數(shù)據(jù),為了使數(shù)據(jù)統(tǒng)計(jì)分析查詢數(shù)據(jù)最快,根據(jù)數(shù)據(jù)量及使用頻度進(jìn)行了表結(jié)構(gòu)調(diào)整。同時(shí)考慮到該庫的負(fù)荷較大,在硬件設(shè)備的配置上向分析歷史庫傾斜,使用了中端存儲設(shè)備。在國家電網(wǎng)公司規(guī)約要求的基礎(chǔ)上可對庫表結(jié)構(gòu)進(jìn)行相應(yīng)調(diào)整,如圖4所示。
對于數(shù)據(jù)量大的表,在生產(chǎn)庫中可以考慮建立日數(shù)據(jù)表,每張表中僅保留1日的數(shù)據(jù),庫表索引是最小的,而數(shù)據(jù)插入產(chǎn)生的資源消耗也會被降低,保證了數(shù)據(jù)入庫的速度。通過數(shù)據(jù)復(fù)制軟件將數(shù)據(jù)傳輸至歷史分析庫后,通過ETL工具將日數(shù)據(jù)表進(jìn)行統(tǒng)計(jì)分析,此時(shí)由于是查詢單日數(shù)據(jù)表,分析速度快,占用資源少。同時(shí),通過ETL將日數(shù)據(jù)存入對應(yīng)日期的月表中。根據(jù)實(shí)際系統(tǒng)運(yùn)行情況分析統(tǒng)計(jì),采集主站使用最頻繁的數(shù)據(jù)是最近2個(gè)月的采集數(shù)據(jù),而之前的采集數(shù)據(jù)使用頻率極低,按月進(jìn)行分表后,查詢時(shí)的數(shù)據(jù)檢索范圍僅在查詢數(shù)據(jù)日期所在月份的庫表中,而不常用的歷史數(shù)據(jù)則不會增加庫表數(shù)據(jù)量而導(dǎo)致付出巨大的查詢與分析代價(jià)。
(3)曲線數(shù)據(jù)模型的優(yōu)化。按照時(shí)間對全部曲線數(shù)據(jù)進(jìn)行打包采集,配合開展相關(guān)曲線數(shù)據(jù)模型的調(diào)整,可以有效提高曲線數(shù)據(jù)的采集效率。尤其是曲線數(shù)據(jù)采集數(shù)據(jù)項(xiàng)較多時(shí),效率的提升尤為明顯。曲線數(shù)據(jù)模型的優(yōu)化,是將采集系統(tǒng)的曲線數(shù)據(jù)模型改為按時(shí)間列表存儲,加強(qiáng)了曲線數(shù)據(jù)實(shí)時(shí)采集業(yè)務(wù)的支持,極大地降低了數(shù)據(jù)庫I/O開銷。曲線數(shù)據(jù)實(shí)時(shí)采集數(shù)據(jù)模型設(shè)計(jì)如表1所示。
(4)構(gòu)建統(tǒng)一的對外數(shù)據(jù)共享平臺。隨著采集建設(shè)的不斷深入,采集覆蓋的規(guī)模效應(yīng)已初步顯現(xiàn)?,F(xiàn)已確定要實(shí)現(xiàn)的對外數(shù)據(jù)服務(wù)接口已有4個(gè),包括:電能質(zhì)量在線監(jiān)測系統(tǒng)、供電電壓自動采集系統(tǒng)、省級計(jì)量中心生產(chǎn)調(diào)度平臺和電能服務(wù)管理平臺。針對當(dāng)前采集接口“數(shù)據(jù)項(xiàng)多、實(shí)時(shí)性高”的特點(diǎn),改造現(xiàn)有接口協(xié)議,統(tǒng)一設(shè)計(jì)對外開放的數(shù)據(jù)共享平臺,解決不同系統(tǒng)開發(fā)多個(gè)接口的弊端,規(guī)避數(shù)據(jù)不同步的風(fēng)險(xiǎn),達(dá)到數(shù)據(jù)共享的實(shí)時(shí)性。
2.系統(tǒng)建設(shè)成效
云實(shí)時(shí)數(shù)據(jù)庫集群基于實(shí)時(shí)數(shù)據(jù)流處理技術(shù),對海量數(shù)據(jù)的采集入庫與關(guān)系型數(shù)據(jù)庫相比有較大提高。當(dāng)并發(fā)入庫數(shù)據(jù)量只有幾百條時(shí),效率變化不大,當(dāng)達(dá)到幾萬條或幾十萬條時(shí),效率變化會非常明顯。系統(tǒng)建設(shè)前后對比(見表2)。在數(shù)據(jù)查詢方面,同樣的硬件和網(wǎng)絡(luò)配置相比原來系統(tǒng)的查詢速率根據(jù)數(shù)據(jù)量的大小提升10~100倍不等。當(dāng)查詢數(shù)據(jù)在100萬條以下時(shí),是原有系統(tǒng)速率的10倍;當(dāng)查詢數(shù)據(jù)在1000萬條時(shí),達(dá)到原系統(tǒng)速率的100倍甚至更高。
四、結(jié)語
云實(shí)時(shí)數(shù)據(jù)庫系統(tǒng)于2013年3月份在煙臺供電公司開始試運(yùn)行,該系統(tǒng)的上線運(yùn)行先期滿足了供電質(zhì)量分析、配網(wǎng)實(shí)時(shí)線損應(yīng)用、實(shí)時(shí)電能數(shù)據(jù)分析等諸多應(yīng)用場景對用電數(shù)據(jù)計(jì)算和訪問高時(shí)效性的要求。對于用電信息采集系統(tǒng)全面采用云實(shí)時(shí)數(shù)據(jù)技術(shù)有著重要的意義,也為供電公司用電數(shù)據(jù)的分析和決策提供了有力的技術(shù)支持。
參考文獻(xiàn):
[1]劉鵬.云計(jì)算[M].北京:電子工業(yè)出版社,2012.
[2]張建坤.用電信息采集系統(tǒng)建設(shè)與運(yùn)行[M].北京:中國電力出版社,2012.
[3]匡楊.PI實(shí)時(shí)數(shù)據(jù)庫系統(tǒng)的結(jié)構(gòu)管理及其應(yīng)用[J].石化技術(shù),
2003,(10).
[4]陸會明,周釗,廖常斌.基于實(shí)時(shí)數(shù)據(jù)庫系統(tǒng)的歷史數(shù)據(jù)處理[J].電力自動化設(shè)備,2009,(2).
(責(zé)任編輯:孫晴)