高丹丹
摘 要:在大數(shù)據(jù)時(shí)代,針對(duì)大數(shù)據(jù)管理的需求,根據(jù)大數(shù)據(jù)的特點(diǎn)和支持大數(shù)據(jù)管理系統(tǒng)的特定性,電力系統(tǒng)也要在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)訪問、數(shù)據(jù)分析等方面進(jìn)行相適應(yīng)地管理,針對(duì)海量數(shù)據(jù),采用NoSQL存儲(chǔ)系統(tǒng)支持海量電力信息數(shù)據(jù)的存儲(chǔ)和柔性管理。其中,介紹相關(guān)前沿研究和研究挑戰(zhàn),支持電力信息數(shù)據(jù)的體系結(jié)構(gòu),基于NoSQL的大數(shù)據(jù)管理,進(jìn)而為電力系統(tǒng)未來發(fā)展趨勢(shì)提供分析與預(yù)測(cè)。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)管理 電力系統(tǒng) NoSQL
中圖分類號(hào):TP301 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)02(c)-0190-01
隨著電網(wǎng)建設(shè)投入力度的不斷加大,數(shù)字化電網(wǎng)、數(shù)字化變電站等研究應(yīng)用的不斷深入,電力系統(tǒng)面對(duì)的數(shù)據(jù)存儲(chǔ)規(guī)模從目前的GB級(jí)發(fā)展到TB級(jí)。隨著這種海量大數(shù)據(jù)(big data)成幾何級(jí)數(shù)集增長(zhǎng),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已無法滿足其存儲(chǔ)與分析處理的要求,如何高效獲取、存儲(chǔ)、分析、共享甚至于展示海量數(shù)據(jù)已是目前迫切需要解決的問題。
1 大數(shù)據(jù)概述
隨著云時(shí)代的來臨,針對(duì)用戶網(wǎng)絡(luò)數(shù)據(jù)急劇增長(zhǎng),提出大數(shù)據(jù)存儲(chǔ)系統(tǒng)的概念。云計(jì)算作為計(jì)算資源的底層,支撐著上層的大數(shù)據(jù)處理,實(shí)現(xiàn)海量數(shù)據(jù)實(shí)時(shí)交互式的查詢和分析。大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。據(jù)IDC公司統(tǒng)計(jì),2011年全球數(shù)據(jù)總量的75%來自于非結(jié)構(gòu)化數(shù)據(jù),至2012年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例超過75%。大數(shù)據(jù)具有類型復(fù)雜、海量、快速和價(jià)值的特點(diǎn)(“4V”),其中價(jià)值是其他3V服務(wù)的目標(biāo)。大數(shù)據(jù)的總體架構(gòu)分為三層:據(jù)存儲(chǔ),數(shù)據(jù)處理和數(shù)據(jù)分析,其中,數(shù)據(jù)存儲(chǔ)層解決類型復(fù)雜和海量,數(shù)據(jù)處理層解決快速和時(shí)效性要求,數(shù)據(jù)分析層解決價(jià)值,通過數(shù)據(jù)分析和挖掘?qū)崿F(xiàn)。三層相互配合,讓大數(shù)據(jù)最終產(chǎn)生價(jià)值。數(shù)據(jù)存儲(chǔ)層中,通過關(guān)系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫和hdfs分布式文件系統(tǒng)三種存儲(chǔ)方式實(shí)現(xiàn)。其中,NoSQL數(shù)據(jù)庫實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ),屬于非關(guān)系型、分布式數(shù)據(jù)存儲(chǔ)系統(tǒng),以Key-Value數(shù)據(jù)格式、面向文檔方式以及圖數(shù)據(jù)方式存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)極高的并發(fā)讀寫性能、良好的查詢性能、彈性的擴(kuò)展能力。
2 面向NoSQL的電力信息數(shù)據(jù)的海量存儲(chǔ)
電力系統(tǒng)為確保電網(wǎng)安全穩(wěn)定運(yùn)行與及時(shí)監(jiān)控管理,需要使用多種業(yè)務(wù)子系統(tǒng)提供足夠的數(shù)據(jù)支持,為此,各業(yè)務(wù)系統(tǒng)運(yùn)行期間均會(huì)產(chǎn)生大量能有效反映電網(wǎng)運(yùn)行狀況的監(jiān)控?cái)?shù)據(jù)與歷史數(shù)據(jù),同時(shí),各類業(yè)務(wù)子系統(tǒng)的二次應(yīng)用系統(tǒng)數(shù)量不斷增多,產(chǎn)生數(shù)據(jù)的種類與范圍也不斷擴(kuò)展,存儲(chǔ)數(shù)據(jù)從GB級(jí)轉(zhuǎn)向TB級(jí)。隨著PMU采集裝置的普及以及廣域動(dòng)態(tài)監(jiān)測(cè)系統(tǒng)WAMS的發(fā)展,帶來了更加突出的海量電力信息數(shù)據(jù)存儲(chǔ)問題。如此海量規(guī)模的電力信息,通過常規(guī)的關(guān)系型數(shù)據(jù)庫來存儲(chǔ),無論從寫入速度還是查詢效率上都將很難滿足應(yīng)用的需求,因此,NoSQL數(shù)據(jù)庫的特點(diǎn)滿足海量數(shù)據(jù)存儲(chǔ)管理。NoSQL數(shù)據(jù)庫通過集成分布式系統(tǒng)、集群、分區(qū)等技術(shù)實(shí)現(xiàn)分布式存儲(chǔ),能有效擴(kuò)展存儲(chǔ)規(guī)模,實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ)和檢索。由于,數(shù)據(jù)發(fā)展趨勢(shì)是半結(jié)構(gòu)化數(shù)據(jù)(電子郵件、XML等)和非結(jié)構(gòu)化數(shù)據(jù)(文檔、圖片、視頻等),針對(duì)每秒數(shù)萬次的讀寫請(qǐng)求,NoSQL數(shù)據(jù)庫能從容應(yīng)對(duì)。
NoSQL數(shù)據(jù)存儲(chǔ)系統(tǒng)總結(jié)起來有兩種架構(gòu):master-slave結(jié)構(gòu)和P2P環(huán)形結(jié)構(gòu)。Master-Slave結(jié)構(gòu)的系統(tǒng)設(shè)計(jì)簡(jiǎn)單,可控性好,通?;谒椒謪^(qū)實(shí)現(xiàn)數(shù)據(jù)分布,將master節(jié)點(diǎn)和slave節(jié)點(diǎn)的功能分開,減輕節(jié)點(diǎn)的功能負(fù)載,由master節(jié)點(diǎn)維護(hù)其管理的slave節(jié)點(diǎn),但master中心節(jié)點(diǎn)易成為瓶頸;P2P環(huán)形結(jié)構(gòu)的系統(tǒng)無中心節(jié)點(diǎn),各節(jié)點(diǎn)平等,自協(xié)調(diào)性好,擴(kuò)展方便,基于Hash分布數(shù)據(jù),負(fù)載均衡性好,但不利于支持范圍查詢,并且系統(tǒng)設(shè)計(jì)復(fù)雜,可控性較差。由于所述的兩種體系結(jié)構(gòu)有很大差別,它們所采用的支持技術(shù)也不同,導(dǎo)致了不同體系結(jié)構(gòu)的系統(tǒng)所支持功能的局限性,Cloudy為用戶提供了一個(gè)可配置采用master-slave或DHT體系結(jié)構(gòu)的Demo系統(tǒng)。在電力系統(tǒng)中,支持?jǐn)?shù)據(jù)存儲(chǔ)系統(tǒng)的體系結(jié)構(gòu)應(yīng)結(jié)合P2P分布式結(jié)構(gòu)和master-slave集中式結(jié)構(gòu)兩者的優(yōu)勢(shì),如Chord和master-slave的結(jié)合、CAN與master-slave的結(jié)合等,側(cè)重采用面向組件的靈活可配置的體系結(jié)構(gòu),結(jié)合兩者的優(yōu)勢(shì),綜合考慮數(shù)據(jù)存儲(chǔ)的全局性和局部性。
3 結(jié)語
大數(shù)據(jù)在2013年短短一年的時(shí)間里擴(kuò)展到經(jīng)濟(jì)社會(huì)的各個(gè)層面與領(lǐng)域,像雨后春筍般在各個(gè)行業(yè)涌現(xiàn)。NoSQL數(shù)據(jù)存儲(chǔ)系統(tǒng)基于大數(shù)據(jù)的各種應(yīng)用需求,提出了各具特色的產(chǎn)品。電力系統(tǒng)在大數(shù)據(jù)時(shí)代,遇到空前的機(jī)遇與挑戰(zhàn),將數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)驅(qū)動(dòng)等研究,應(yīng)用到電力系統(tǒng)中,今后還面臨更多新的問題需要研究者去探討研究。
參考文獻(xiàn)
[1] Big data.2011.http://en.wikipedia.org/wiki/Big_data.
[2] Li GJ.The scientific value of big data research. Communications of the China Computer Federation,2012,8(9):8-15(in Chinese).
[3] NoSQL.2011.http://zh.wikipedia.org/wiki/NoSQL.
[4] Tatemura J,Po O,Hsiung WP, Hacigümü H.Partiqle:An elastic SQL engine over key-value stores.In:Proc.of the SIGMOD.New York:ACM Press,2012.
[5] Rao J,Shekita EJ,Tata S. Using Paxos to build a scalable, consistent,and highly available datastore.In:Proc.of the VLDB. 2011.
[6] 互聯(lián)網(wǎng)分析沙龍.海量數(shù)據(jù)來了.2011. http://www.techxue.com/portal.php?mod=view&aid=55.
[7] 李國(guó)杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(9):8-15.
[8] Divyakant Agrawal,Philip Bernstein,Elisa Bertino et al. Challenges and Opportunities with Big Data,Cyber Center Technical Reports,F(xiàn)ebruary 2012.Available at:http://docs.lib.purdue.edu/cctech/1.endprint