林宇照
(廣東電網(wǎng)有限責任公司茂名供電局,廣東 茂名 525000)
隨著大數(shù)據(jù)時代的到來,各行各業(yè)在數(shù)據(jù)處理方面的需求越來越大,電力企業(yè)亦是如此。電力系統(tǒng)信息化水平的提高,使得數(shù)據(jù)處理量逐步增加,進而導致企業(yè)無法合理、高效地獲取信息。如此一來,既降低了業(yè)務(wù)應(yīng)用系統(tǒng)的工作效率,導致海量數(shù)據(jù)統(tǒng)計分析性能下降,同時不能實時掌握業(yè)務(wù)生產(chǎn)動態(tài),無法滿足決策層需求。鑒于此,當前應(yīng)重點做好大數(shù)據(jù)高效處理方法的深入研究,有效解決電力信息系統(tǒng)當前存在的各類問題。
總體而言,可以將電力信息系統(tǒng)的大數(shù)據(jù)處理分為兩種類型,即聯(lián)機事務(wù)處理與聯(lián)機分析處理。一方面,對于聯(lián)機事務(wù)處理而言,主要是針對交易的處理系統(tǒng)。具體應(yīng)用期間,需要把相關(guān)客戶的原始數(shù)據(jù)傳輸?shù)接嬎阒行?,?jīng)過計算后得到相應(yīng)結(jié)果,用戶大多是管理人員或者是操作人員,可根據(jù)需求快速存取歷史數(shù)據(jù)。高級管理人員或決策人員還可深入了解數(shù)據(jù)信息情況,便于管理、決策工作的開展。對于信息系統(tǒng)而言,其內(nèi)部有著各種類型的統(tǒng)計業(yè)務(wù)需求,屬混合應(yīng)用場所。對于企業(yè)管理系統(tǒng)而言,操作人員可利用財務(wù)信息平臺,開展實時查詢、統(tǒng)計等工作,并且可借助財務(wù)流程監(jiān)控系統(tǒng)實現(xiàn)對數(shù)據(jù)的監(jiān)控。另一方面,利用生產(chǎn)管理系統(tǒng)中的狀態(tài)檢修評價平臺,能夠根據(jù)設(shè)備運行數(shù)據(jù)對設(shè)備運行狀態(tài)做出評估,這屬于第二種類型的應(yīng)用場景。
信息系統(tǒng)大數(shù)據(jù)的高效處理遵循如下原則。
(1)業(yè)務(wù)使用效率高。在開展大數(shù)據(jù)算法更新工作期間,應(yīng)當滿足現(xiàn)階段電力系統(tǒng)業(yè)務(wù)發(fā)展需要,同時還應(yīng)盡可能改善數(shù)據(jù)統(tǒng)計分析的性能。
(2)減少改造工作量。加強對現(xiàn)有系統(tǒng)的利用,盡量減少現(xiàn)有系統(tǒng)改造期間的工作量,并制定性價比較高的處理方案[1]。
(3)橫向擴展能力強。隨著電力行業(yè)的快速發(fā)展,電力信息系統(tǒng)涉及到的數(shù)據(jù)越來越多,因而在數(shù)據(jù)計算處理方面的需求越來越復雜。鑒于此,在開展電力信息系統(tǒng)大數(shù)據(jù)處理工作期間,應(yīng)當考慮到用戶需求與數(shù)據(jù)量的實際情況,提高橫向擴展能力,并為系統(tǒng)的后期維護、升級提供幫助。
以某電力企業(yè)電能質(zhì)量在線監(jiān)測系統(tǒng)作為分析案例,對系統(tǒng)普遍存在的問題進行分析。
(1)系統(tǒng)運行相對較慢。當系統(tǒng)登陸之后,數(shù)據(jù)刷新速度較慢。同時,集成數(shù)據(jù)的確認、匯總明細查詢等操作速度緩慢。
(2)用戶體驗差。在計算請求提交之后,需要等待幾十分鐘。在進行歡迎頁面的刷新時,需要全頁面同步加載,進而拉低了用戶體驗。系統(tǒng)應(yīng)用期間,還經(jīng)常出現(xiàn)月度分析報表導出失敗等問題。
(3)應(yīng)用服務(wù)宕機頻繁。該系統(tǒng)的整體可靠性較差,并且數(shù)據(jù)庫內(nèi)存的使用率相對較高。其四,存在集成數(shù)據(jù)接入延遲等方面問題。
上文中提到,大數(shù)據(jù)問題總體可以分為兩種類型,即聯(lián)機事務(wù)處理(On-Line Transaction Processing,OLTP)以及聯(lián)機分析處理(On-Line Analytical Processing,OLAP)。首先,OLTP通常被稱為面向交易的處理系統(tǒng)。通過該系統(tǒng)的應(yīng)用,能夠處理大量、簡單并且規(guī)模小的相關(guān)日常事務(wù),例如在12306火車票訂購系統(tǒng)中就有相應(yīng)的應(yīng)用。該系統(tǒng)應(yīng)用期間,有著較快的響應(yīng)速度與較低的錯誤率。其次,OLAP可進行相對復雜的分析操作,查詢過程更加直觀、易懂[2]。此外,通過OLAP技術(shù)的合理使用,可以從不同的角度針對大量歷史數(shù)據(jù)開展快速、交互存取等工作,進而對數(shù)據(jù)信息開展深層次的應(yīng)用。對于電力信息系統(tǒng)而言,應(yīng)當結(jié)合實際的數(shù)據(jù)統(tǒng)計業(yè)務(wù)需求,做好OLTP以及OLAP的混合應(yīng)用OLTP與OLAP的關(guān)系如圖1所示。
圖1 OLTP與OLAP的關(guān)系
針對大數(shù)據(jù)處理工作的實際需求和特點,將某電力企業(yè)電能質(zhì)量在線監(jiān)測系統(tǒng)作為案例,在開展高性能處理工作期間,主要用到分布式技術(shù)等,下面結(jié)合實際情況做出分析。
為滿足分布式存儲等方面的要求,在開展數(shù)據(jù)資源處理工作期間,應(yīng)重點做好分布式文件系統(tǒng)的研究與應(yīng)用,并提供分布式以及擴容擴展文件系統(tǒng)。該系統(tǒng)的合理應(yīng)用既能有效處理好數(shù)據(jù)訪問等方面的問題,并且需要合理應(yīng)用分布式文件系統(tǒng),進而顯著提高大數(shù)據(jù)處理水平和效率。同時,還可滿足存儲方面的需求。系統(tǒng)主要由主設(shè)備、從設(shè)備構(gòu)成,其中主設(shè)備的功能是開展元數(shù)據(jù)信息的存儲,從設(shè)備的功能主要以存儲數(shù)據(jù)信息為主。利用主設(shè)備、從設(shè)備結(jié)構(gòu),可以實現(xiàn)對分布式文件系統(tǒng)的科學有效部署,使得系統(tǒng)功能得以改善,同時還能改善擴展系統(tǒng)的性能。當分布式文件系統(tǒng)發(fā)生故障時,應(yīng)當借助文件副本進行相關(guān)數(shù)據(jù)、信息的快速恢復。
(1)搭建分布式平臺的過程中,利用Map Reduce等一系列軟件,能夠以大并行的方式,實現(xiàn)數(shù)據(jù)的快速、科學梳理。通過Map Reduce軟件框架的合理使用,可以把任務(wù)發(fā)送到多個機器內(nèi),借助并行方式,同時開展大數(shù)據(jù)集的處理。(2)并行計算期間需要結(jié)合實際需求,簡化處理流程,進而有效縮短數(shù)據(jù)的處理與分析時間。(3)Map以及Reduce均屬獨立性計算節(jié)點,可以達到同時運算的目的,進而改善大數(shù)據(jù)運算與處理工作的效率。(4)將計算節(jié)點進一步轉(zhuǎn)化為存儲節(jié)點,能夠有效避免數(shù)據(jù)傳輸期間出現(xiàn)網(wǎng)絡(luò)堵塞等各類問題。(5)分布式技術(shù)系統(tǒng)主要利用計算機服務(wù)器,實現(xiàn)對各類任務(wù)的準確分解,并實現(xiàn)計算結(jié)果的匯總。(6)單臺計算機有著內(nèi)存優(yōu)先的特點,通過Hadoop思維方式的合理應(yīng)用,能夠?qū)⒍嗯_計算機組成集群,進而提高了任務(wù)完成過程中的效率。(7)采用分布式存儲和計算,還能滿足計算集群橫向擴展性方面的要求,并且減少系統(tǒng)的成本。該框架主要由對象管理服務(wù)器組成,同時還包括客戶端代理、對象服務(wù)器等相關(guān)設(shè)備??蛻舳舜砜梢詫崟r地接收到不同用戶的任務(wù),之后借助管理服務(wù)器,提高任務(wù)分配期間的科學性。就對象管理服務(wù)器而言,需要合理應(yīng)用任務(wù)服務(wù)器索引表,最終對各類任務(wù)進行合理的分配[3]。(8)在利用監(jiān)控對象服務(wù)器的過程中,當計算工作完成之后,可以及時接收相應(yīng)的計算結(jié)果,進而將計算結(jié)果提供給用戶。
基于大數(shù)據(jù)的多維索引,總體上囊括了以下幾個不同的方面。(1)合理利用Filter階段,可以對大數(shù)據(jù)候選集進行初步的過濾。(2)借助Refinement階段能夠確保相關(guān)的數(shù)據(jù)、信息得到更加詳細化、全面化收集。(3)能保證信息數(shù)據(jù)有著良好的完整性。(4)把所需要的數(shù)據(jù)信息傳輸出去。通過索引技術(shù)的使用,可顯著提升大數(shù)據(jù)信息查詢的效率,并且能夠改善分析工作的質(zhì)量。除此之外,加之分布式平臺轉(zhuǎn)變傳統(tǒng)Hadoop的合理應(yīng)用,可顯著提升信息查詢過程的效率。另外,為全面改善應(yīng)用支持效果,應(yīng)積極做好分布式平臺的建設(shè)工作,更好地支持二級索引和互補索引等,最終可以明顯地提升索引效果。
內(nèi)存優(yōu)化工作包括:(1)通過數(shù)據(jù)緩存技術(shù)的合理利用,既能夠提升索引和訪問效率,同時還能有效解決輸入輸出性能問題,并減少數(shù)據(jù)查詢的時間。(2)通過內(nèi)存計算技術(shù)的合理使用,可以在一定程度上提高數(shù)據(jù)讀取的速率,進而改善計算期間的效率。
設(shè)計期間,要著力提高數(shù)據(jù)檢索和存取的速度[4]。在檢索內(nèi)存數(shù)據(jù)的過程中,應(yīng)當對分布式查詢的描述進行簡化,并做好數(shù)據(jù)塊的定義。這一過程中,由于用戶的需求與業(yè)務(wù)應(yīng)用存在差異,用戶可能需要多次的調(diào)用、查詢結(jié)果。因此,應(yīng)當根據(jù)用戶的實際情況合理設(shè)置數(shù)據(jù)塊的數(shù)量。在開展分布式查詢工作時,結(jié)合本地數(shù)據(jù)查詢的相關(guān)數(shù)據(jù),通常將其稱之為基礎(chǔ)數(shù)據(jù)塊;對于反饋給用戶的相關(guān)數(shù)據(jù),可以將其稱之為結(jié)果數(shù)據(jù)塊。為了可以在短時間內(nèi)查找結(jié)果數(shù)據(jù)塊,需要對基本數(shù)據(jù)塊進行多次調(diào)用。為保證序列定位有著一定的準確性效果,設(shè)計人員應(yīng)當采用二分法搜索明確二進制位置。除此之外,還應(yīng)當在這一方法的支持下,插入位置能夠準確的定位。在進行數(shù)據(jù)處理期間,應(yīng)當結(jié)合具體情況,選用適宜的數(shù)據(jù)處理方法。對于本地查詢方法而言,可以根據(jù)用戶的查詢條件,把滿足要求的相關(guān)數(shù)據(jù)添加到BD,BD是有序序列,新添數(shù)據(jù)采用改進二分法排序。如此一來,便能顯著提升插入位置搜索的準確性效果。同時,還可以將其插入到BD中。需要注意的是,一旦BD數(shù)據(jù)大于N時,那么要及時地對首尾元素進行清除,以便獲得局部結(jié)果。在插入操作過程中,可以采用改進二分法,對相關(guān)位置進行準確的查找。
在進行分布式平臺的搭建時,應(yīng)當注重多種處理方法的應(yīng)用,進而提高電力信息系統(tǒng)的穩(wěn)定性效果,并滿足海量數(shù)據(jù)存儲要求。平臺搭建期間還要考慮到復雜計算以及高效查詢等方面的要求。圖3為分布式并行計算平臺應(yīng)用框架示意圖。
圖3 分布式并行計算平臺應(yīng)用框架示意
從圖3分布式平臺應(yīng)用框架示意圖可以看出,這一平臺的應(yīng)用,既能夠?qū)崿F(xiàn)終端信息的接收,同時還能實現(xiàn)檔案、關(guān)系、設(shè)備信息等數(shù)據(jù)的采集。首先,合理利用業(yè)務(wù)算法,能夠滿足大數(shù)據(jù)并行計算方面的要求[5]。借助業(yè)務(wù)應(yīng)用服務(wù)接口,還能對相關(guān)結(jié)果進行及時的反饋。除此之外,合理使用業(yè)務(wù)應(yīng)用系統(tǒng),可以及時進行標準化指令的傳輸。對于存儲環(huán)境來說,該系統(tǒng)能夠在Hadoop架構(gòu)上進行存儲。除此之外,利用關(guān)系型數(shù)據(jù)庫,及時獲取相關(guān)的檔案數(shù)據(jù)。此外,對開發(fā)工具集的合理使用,能夠提供多種不同的服務(wù)功能,該系統(tǒng)還能完成相應(yīng)的管理工作。借助Map Reduce開展相應(yīng)的并行計算工作,進而提升數(shù)據(jù)的處理效率,并進行數(shù)據(jù)的快速計算。另外,監(jiān)控工具的使用可實現(xiàn)對系統(tǒng)運行狀態(tài)的監(jiān)控,并為后期的檢修、養(yǎng)護工作提供幫助,使得系統(tǒng)運行期間的安全性、穩(wěn)定性大大提升。最后,運行調(diào)度工具利用Map Reduce任務(wù),能夠有效提升任務(wù)關(guān)聯(lián)性、依賴性水平,進而保證了任務(wù)執(zhí)行期間的準確效果。借助于業(yè)務(wù)應(yīng)用服務(wù)接口,可以提供完善的數(shù)據(jù)結(jié)構(gòu)。如此一來,既能夠提高外部服務(wù)系統(tǒng)日常運行的效率,同時還可以改善運行效果與水平。
通過對某地區(qū)電力企業(yè)開展調(diào)研等工作可以發(fā)現(xiàn),該企業(yè)生產(chǎn)運營數(shù)據(jù)量達到了7.28×108條。通過Oracle數(shù)據(jù)庫平臺的合理利用,實現(xiàn)終端通信流量的統(tǒng)計以及低壓數(shù)據(jù)表底電量計算等工作。通過對統(tǒng)計與計算結(jié)果的對比,發(fā)現(xiàn)該系統(tǒng)平臺的應(yīng)用,可以顯著改善大數(shù)據(jù)的處理性能,與系統(tǒng)原有性能相比,效率至少提高了7倍以上。
國內(nèi)經(jīng)濟社會的迅猛發(fā)展使得居民在生產(chǎn)、生活期間對于電力資源的需求量急劇增大,同時使得用電數(shù)據(jù)量不斷增加,進而增大了電力信息系統(tǒng)數(shù)據(jù)處理與分析工作的難度。在本文的研究中,開展電力信息系統(tǒng)平臺搭建工作期間,首先應(yīng)當合理利用分布式技術(shù),并借助構(gòu)建算法與模型的方式使得大數(shù)據(jù)存儲、計算、查詢等方面的難題得到了有效的解決。對于技術(shù)人員而言,日常工作中應(yīng)重點加強對大數(shù)據(jù)技術(shù)的研究與應(yīng)用,同時還要對其內(nèi)在價值信息做出全面和深度的挖掘,進而有效改善數(shù)據(jù)應(yīng)用水平,促進該行業(yè)的長遠穩(wěn)定發(fā)展。