李雅潔,明 濤,胡新苗
(國(guó)網(wǎng)新疆電力有限公司,新疆 烏魯木齊 830002)
隨著數(shù)據(jù)中臺(tái)建設(shè)的不斷深入,按照“一平臺(tái)、一系統(tǒng)、多場(chǎng)景、微應(yīng)用”的整體技術(shù)路線,已基本建成企業(yè)級(jí)統(tǒng)一云服務(wù)平臺(tái)和數(shù)據(jù)中臺(tái),初步實(shí)現(xiàn)平臺(tái)資源和跨專業(yè)數(shù)據(jù)共享,推進(jìn)源端業(yè)務(wù)融合,提升數(shù)據(jù)質(zhì)量、增強(qiáng)數(shù)據(jù)共享,為電網(wǎng)各類分析決策提供完備的數(shù)據(jù)資源、高效的分析計(jì)算能力及統(tǒng)一的運(yùn)行環(huán)境[1]。如何深入挖掘數(shù)據(jù)價(jià)值、實(shí)現(xiàn)跨專業(yè)的高效計(jì)算、智能分析,提升精益化管理水平顯得更為迫切。本文提出了一種基于數(shù)據(jù)中臺(tái)的智能視圖探索技術(shù)的解決方法,通過(guò)智能視圖可視化探索,建立起數(shù)據(jù)與業(yè)務(wù)中間的橋梁,支撐業(yè)務(wù)應(yīng)用創(chuàng)新涌現(xiàn),降低數(shù)據(jù)使用難度,充分挖掘數(shù)據(jù)有效價(jià)值信息,提升公司經(jīng)營(yíng)管理水平[2]。
智能視圖探索是以業(yè)務(wù)模型為基礎(chǔ),通過(guò)業(yè)務(wù)模型的智能發(fā)現(xiàn),建立企業(yè)全數(shù)據(jù)統(tǒng)一視圖,將數(shù)據(jù)關(guān)系轉(zhuǎn)化為業(yè)務(wù)關(guān)聯(lián)的發(fā)布功能,構(gòu)建企業(yè)全景式業(yè)務(wù)關(guān)系模型。為業(yè)務(wù)人員屏蔽底層復(fù)雜計(jì)算存儲(chǔ)資源的理解,從業(yè)務(wù)角度出發(fā),以業(yè)務(wù)關(guān)系為基礎(chǔ)進(jìn)行數(shù)據(jù)貫通,在業(yè)務(wù)模型探索結(jié)果的基礎(chǔ)上,允許用戶探索業(yè)務(wù)關(guān)系視圖,進(jìn)行面向業(yè)務(wù)的數(shù)據(jù)分析演練,挖掘數(shù)據(jù)有效價(jià)值信息,從而獲得對(duì)數(shù)據(jù)的深度認(rèn)識(shí)[3]。
(1)業(yè)務(wù)模型:以圖形方式描述企業(yè)管理和業(yè)務(wù)所涉及的對(duì)象和要素、以及它們的屬性、行為和彼此關(guān)系,是實(shí)現(xiàn)數(shù)據(jù)(模型)跨計(jì)算域、業(yè)務(wù)域管理的基礎(chǔ)。模型是由實(shí)體、關(guān)系和標(biāo)簽組成。
(2)實(shí)體:具有不同ID但卻代表真實(shí)的異構(gòu)數(shù)據(jù)源、信息源的業(yè)務(wù)模型中同一對(duì)象,并將這些對(duì)象歸并為一個(gè)具有全局唯一標(biāo)識(shí)的實(shí)體。
(3)關(guān)系:實(shí)體彼此之間相互連接的方式,描述多個(gè)實(shí)體之間發(fā)生的某種行為。
(4)標(biāo)簽:標(biāo)簽是業(yè)務(wù)人員最容易理解的一種數(shù)據(jù)形態(tài),是高度精煉的特征標(biāo)識(shí)。
實(shí)體用一個(gè)全局唯一確定的ID來(lái)標(biāo)識(shí),標(biāo)簽用來(lái)刻畫實(shí)體的內(nèi)在特性,而關(guān)系用來(lái)連接兩個(gè)實(shí)體,建立他們之間的關(guān)聯(lián)[4]。模型被看作一張巨大的圖,圖中的長(zhǎng)方形標(biāo)識(shí)實(shí)體,而圖中的菱形標(biāo)識(shí)關(guān)系,構(gòu)建成圍繞業(yè)務(wù)場(chǎng)景的業(yè)務(wù)視圖。
智能推薦加速構(gòu)建業(yè)務(wù)模型,通過(guò)深度學(xué)習(xí)方式,采用BP算法利用梯度下降法訓(xùn)練網(wǎng)絡(luò),直至收斂[5]。采用無(wú)監(jiān)督式的逐層訓(xùn)練方法,對(duì)業(yè)務(wù)庫(kù)日志挖掘,自動(dòng)地發(fā)現(xiàn)可能的實(shí)體和關(guān)系,并根據(jù)關(guān)系的強(qiáng)弱切割成不同的子圖,發(fā)現(xiàn)關(guān)鍵的業(yè)務(wù)模型。輔助業(yè)務(wù)開(kāi)發(fā)人員批量快速地生產(chǎn)實(shí)體關(guān)系圖,對(duì)物理層面數(shù)據(jù)和業(yè)務(wù)邏輯的關(guān)系進(jìn)行智能推薦,形成推薦業(yè)務(wù)模型。
通過(guò)關(guān)鍵詞探索,定位到實(shí)體、關(guān)系、屬性,進(jìn)行業(yè)務(wù)模型探索,發(fā)現(xiàn)實(shí)體與實(shí)體之間的關(guān)系,發(fā)現(xiàn)屬性與實(shí)體、關(guān)系的歸屬關(guān)系,完善推薦業(yè)務(wù)模型。不同業(yè)務(wù)域的實(shí)體關(guān)系模型,沉淀出不同業(yè)務(wù)域標(biāo)簽?zāi)P鸵约皹?biāo)簽分類體系,來(lái)形成各業(yè)務(wù)域的知識(shí)庫(kù)。同時(shí)它不僅僅是模型層的單個(gè)業(yè)務(wù)域模版,它會(huì)和上層業(yè)務(wù)模型聯(lián)動(dòng),形成從模型層到應(yīng)用層一整套業(yè)務(wù)模型。基于各個(gè)業(yè)務(wù)域的整套模型,可以沉淀出一套跨專業(yè)、多維交叉分析全景業(yè)務(wù)模型。在相同業(yè)務(wù)域輸出時(shí),可以基于這個(gè)業(yè)務(wù)模型快速的客戶數(shù)據(jù)需求和數(shù)據(jù)有效價(jià)值信息充分挖掘。
基于數(shù)據(jù)中臺(tái)的智能視圖探索目標(biāo)是為了構(gòu)建一個(gè)面向全計(jì)算域、業(yè)務(wù)域的數(shù)據(jù)和業(yè)務(wù)模型探索工具,挖掘數(shù)據(jù)有效信息價(jià)值,支撐業(yè)務(wù)應(yīng)用創(chuàng)新涌現(xiàn),降低數(shù)據(jù)使用難度,提升公司經(jīng)營(yíng)管理水平,放大協(xié)同效應(yīng)價(jià)值。
智能視圖探索是以業(yè)務(wù)模型[6]為基礎(chǔ),依據(jù)國(guó)網(wǎng)企業(yè)信息模型(SG-CIM4.0)[3]標(biāo)準(zhǔn),透過(guò)企業(yè)業(yè)務(wù)的視角,將數(shù)據(jù)進(jìn)行重新梳理和整合,建立企業(yè)數(shù)據(jù)統(tǒng)一視圖[7],將數(shù)據(jù)關(guān)系轉(zhuǎn)化為業(yè)務(wù)關(guān)聯(lián),構(gòu)建企業(yè)全景式業(yè)務(wù)關(guān)系模型和數(shù)據(jù)關(guān)聯(lián)模型,消除企業(yè)內(nèi)部的冗余信息,為業(yè)務(wù)人員實(shí)現(xiàn)數(shù)據(jù)探索屏蔽底層復(fù)雜計(jì)算存儲(chǔ)資源的理解,降低數(shù)據(jù)使用難度,為不同業(yè)務(wù)部門之間搭建數(shù)據(jù)溝通的橋梁,促進(jìn)業(yè)務(wù)融合提升,有序?qū)崿F(xiàn)數(shù)據(jù)共享,增強(qiáng)數(shù)據(jù)價(jià)值的挖掘水平,為電力行業(yè)發(fā)、輸、配、變、用電各環(huán)節(jié)建設(shè)和業(yè)務(wù)發(fā)展提供科學(xué)指導(dǎo),提高電網(wǎng)安全生產(chǎn)能力和供電優(yōu)質(zhì)服務(wù)水平。
各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)通過(guò)數(shù)據(jù)采集工具/數(shù)據(jù)同步工具進(jìn)行數(shù)據(jù)加工后批量集中存儲(chǔ)至大數(shù)據(jù)計(jì)算平臺(tái)[4,5]。智能視圖探索工具經(jīng)授權(quán)后獲取數(shù)據(jù)中臺(tái)的元數(shù)據(jù)信息,借助智能推薦及人工確認(rèn)、梳理的業(yè)務(wù)模型和標(biāo)簽中心提供的標(biāo)簽,把底層的物理存儲(chǔ)映射成業(yè)務(wù)邏輯模型,并基于工具提供的模型探索和數(shù)據(jù)探索功能,并在此基礎(chǔ)上衍生出其他功能,對(duì)外提供各類整合分析服務(wù)。其基礎(chǔ)架構(gòu)如圖1所示。
圖1 智能視圖探索工具技術(shù)架構(gòu)
大數(shù)據(jù)分析技術(shù)的根本是將數(shù)據(jù)轉(zhuǎn)化為信息,信息提煉為知識(shí),以知識(shí)促進(jìn)業(yè)務(wù)和智能決策能力的提升。借助于大數(shù)據(jù)的分析技術(shù),從數(shù)據(jù)中臺(tái)的海量數(shù)據(jù)中找出數(shù)據(jù)背后規(guī)律,為電力不同業(yè)務(wù)部門之間搭建數(shù)據(jù)溝通的橋梁,促進(jìn)業(yè)務(wù)融合提升,有序?qū)崿F(xiàn)數(shù)據(jù)共享,提高對(duì)相關(guān)業(yè)務(wù)應(yīng)用建設(shè)的支持效率,增強(qiáng)數(shù)據(jù)價(jià)值的挖掘水平[8]。
分析查詢引擎是智能視圖探索工具的核心技術(shù),基于Facebook使用的Presto[9]進(jìn)行交互式的查詢分析。分析查詢引擎采用定時(shí)刷新的機(jī)制讀取數(shù)據(jù)源的DBLog并解析以獲取技術(shù)元數(shù)據(jù)信息,并將其與業(yè)務(wù)元數(shù)據(jù)關(guān)聯(lián)和存儲(chǔ),任何基于“表、字段”的數(shù)據(jù)源都可以被OTM以解析DBLog的方式獲取物理元數(shù)據(jù)。Presto是一個(gè)分布式SQL查詢引擎, 它被設(shè)計(jì)為用來(lái)專門進(jìn)行高速、實(shí)時(shí)的數(shù)據(jù)分析。它支持標(biāo)準(zhǔn)的ANSI SQL,包括復(fù)雜查詢、聚合(aggregation)、連接(join)和窗口函數(shù)(window functions)。圖2展現(xiàn)了簡(jiǎn)化的Presto系統(tǒng)架構(gòu)??蛻舳耍╟lient)將SQL查詢發(fā)送到Presto的協(xié)調(diào)員 (coordinator)。協(xié)調(diào)員會(huì)進(jìn)行語(yǔ)法檢查、分析和規(guī)劃查詢計(jì)劃。計(jì)劃員(scheduler)將執(zhí)行的管道組合在一起,將任務(wù)分配給那些里數(shù)據(jù)最近的節(jié)點(diǎn),然后監(jiān)控執(zhí)行過(guò)程。客戶端從輸出段中將數(shù)據(jù)取出,這些數(shù)據(jù)是從更底層的處理段中依次取出的。
圖2 智能視圖探索工具可視化技術(shù)
數(shù)據(jù)可視化技術(shù)的基本思想,是將每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,增強(qiáng)數(shù)據(jù)的呈現(xiàn)效果,方便用戶以更加直觀的方式觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的探索和挖掘,發(fā)現(xiàn)數(shù)據(jù)中隱藏的信息。
智能視圖探索工具可視化展示結(jié)合FineBI、FR、Tableau等智能分析工具,實(shí)現(xiàn)漸進(jìn)式的智能交互、自助式智能分析高級(jí)應(yīng)用。支持多種類型的數(shù)據(jù)源,既可以連接DWS、RDS等云數(shù)據(jù)源,也支持連接Oracle、MySQL、PostgreSQL等關(guān)系型數(shù)據(jù)源。分析查詢引擎內(nèi)置了智能查詢加速引擎,從而實(shí)現(xiàn)了對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)在線分析,無(wú)需提前進(jìn)行大量的數(shù)據(jù)預(yù)處理,就能流暢地進(jìn)行海量數(shù)據(jù)分析,完成數(shù)據(jù)可視化展示。支持拖拽式操作和提供豐富的可視化圖表控件,輕松地完成數(shù)據(jù)透視分析、自助取數(shù)、業(yè)務(wù)數(shù)據(jù)探查等工作。
目前已基于數(shù)據(jù)中臺(tái)完成了設(shè)備資產(chǎn)精益管理系統(tǒng)[10]、營(yíng)銷業(yè)務(wù)系統(tǒng)、ERP、用電信息采集系統(tǒng)等多套核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)的全量接入,從業(yè)務(wù)域技術(shù)角度梳理業(yè)務(wù)數(shù)據(jù)模型,形成數(shù)據(jù)資源地圖,方便業(yè)務(wù)人員和技術(shù)人員隨時(shí)產(chǎn)尋和應(yīng)用數(shù)據(jù)分析域的數(shù)據(jù)資源,支撐統(tǒng)一數(shù)據(jù)服務(wù)的構(gòu)建。在大數(shù)據(jù)分析場(chǎng)景應(yīng)用方面,圍繞資產(chǎn)、物資、客戶、電網(wǎng)等多個(gè)業(yè)務(wù)領(lǐng)域,實(shí)現(xiàn)了多個(gè)分析場(chǎng)景的構(gòu)建工作,支撐業(yè)務(wù)部門不斷變化的業(yè)務(wù)需求,形成了一套大數(shù)據(jù)分析構(gòu)建方法論,從而支撐分析應(yīng)用的快速構(gòu)建。
隨著電網(wǎng)日益增加的復(fù)雜性和各專業(yè)業(yè)務(wù)的不斷發(fā)展[11],數(shù)據(jù)體量的不斷擴(kuò)大、數(shù)據(jù)類型的不斷豐富,亟需一個(gè)有效的數(shù)據(jù)探索工具,來(lái)幫助業(yè)務(wù)人員快速解新增業(yè)務(wù),以及與現(xiàn)有業(yè)務(wù)間的關(guān)聯(lián)關(guān)系。
數(shù)據(jù)智能探索工具是在現(xiàn)有業(yè)務(wù)及數(shù)據(jù)關(guān)聯(lián)基礎(chǔ)上,及時(shí)發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型的變化,實(shí)時(shí)同步,及時(shí)保持業(yè)務(wù)模型與數(shù)據(jù)模型的最新?tīng)顟B(tài)。同時(shí)能夠?yàn)樾略鰳I(yè)務(wù)和現(xiàn)有業(yè)務(wù)快速建立關(guān)聯(lián)關(guān)系,幫助業(yè)務(wù)人員快速理解業(yè)務(wù),為業(yè)務(wù)專業(yè)的輔助決策提供有力的支撐。
現(xiàn)有的數(shù)據(jù)分析工具及手段無(wú)法幫助業(yè)務(wù)人員快速開(kāi)展大數(shù)據(jù)場(chǎng)景分析工作,以電網(wǎng)運(yùn)檢智能分析決策系統(tǒng)為例:作為運(yùn)檢管理人員從事設(shè)備運(yùn)維檢修工作的支撐平臺(tái),集成了多個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),借助于運(yùn)檢定制化大數(shù)據(jù)分析工具模塊進(jìn)行了多維分析、統(tǒng)計(jì)分析、挖掘分析等工作。隨著運(yùn)檢專業(yè)數(shù)據(jù)體量的不斷增大以及運(yùn)檢專業(yè)對(duì)大數(shù)據(jù)分析業(yè)務(wù)的不斷加深,現(xiàn)有運(yùn)檢定制化大數(shù)據(jù)分析工具所提供的分析方法、分析手段等不足以支撐快速發(fā)展的運(yùn)檢大數(shù)據(jù)分析要求。
依托電網(wǎng)運(yùn)檢智能分析決策系統(tǒng)已有的成果[12],結(jié)合數(shù)據(jù)智能探索工具模型探索和智能發(fā)現(xiàn)的功能,對(duì)電網(wǎng)運(yùn)檢智能分析決策系統(tǒng)集成數(shù)據(jù)進(jìn)行整合分類,并通過(guò)工具生成運(yùn)行狀態(tài)分析評(píng)價(jià)模型,對(duì)設(shè)備運(yùn)行狀態(tài)進(jìn)行實(shí)時(shí)分析,及時(shí)發(fā)現(xiàn)設(shè)備潛在運(yùn)行風(fēng)險(xiǎn),為電網(wǎng)智能分析輔助決策提供有力的支撐[13]。
本文探討通過(guò)智能視圖探索技術(shù)構(gòu)建企業(yè)全景式業(yè)務(wù)關(guān)系模型和數(shù)據(jù)關(guān)聯(lián)模型,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)規(guī)律,實(shí)現(xiàn)跨專業(yè)的高效計(jì)算、智能分析,為電力數(shù)據(jù)的高效挖掘及在線分析決策提供了技術(shù)支撐,將推動(dòng)基于大數(shù)據(jù)的智能視圖探索技術(shù)在電力系統(tǒng)的應(yīng)用和發(fā)展。