余向前
(國網甘肅省電力公司,甘肅 蘭州 730030)
電力信息化發(fā)展推動了電力事業(yè)的蓬勃發(fā)展。在電力信息系統(tǒng)中包含大量的子系統(tǒng)。作為其主體部分的營銷業(yè)務子系統(tǒng)[1-2],擁有大量的電力用戶信息以及電力交易信息。營銷業(yè)務系統(tǒng)的信息種類較為復雜。因此,為保證其信息存儲的有效性與安全性,常采用電力營銷數(shù)據倉庫的形式提升信息存儲的可靠性。
電力營銷數(shù)據倉庫是集數(shù)據采集、信息發(fā)布、統(tǒng)計分析、預警和決策支持于一體的現(xiàn)代信息管理決策體系[3]。在電力營銷數(shù)據倉庫的使用過程中,電力營銷數(shù)據的抽取作為數(shù)據倉庫的入口,控制著數(shù)據倉庫的安全。在抽取的過程中,需要讀取與分解源數(shù)據,而后再復制所需的部分數(shù)據,以方便進一步處理。
在目前的電力營銷數(shù)據的提取過程中,常采用基于興趣點(point of interest,POI)優(yōu)化的數(shù)據抽取方法[4]或基于可變時間窗口的數(shù)據抽取方法[5]。但應用這兩種方法時會出現(xiàn)抽取數(shù)據召回率偏高的問題。
可擴展標記語言(extensible markup language,XML)是1種用于標記電子文件以使其具有結構性的標記語言,具有較強的數(shù)據轉換能力。因此,本研究采用XML技術,設計了1種新的電力營銷數(shù)據智能抽取方法,以彌補傳統(tǒng)數(shù)據抽取方法的不足,提升電力營銷數(shù)據抽取的精度與可靠性。
XML是1種網絡信息語言,具有相應的信息結構性。為將其更好地應用于電力營銷數(shù)據智能抽取過程,需對數(shù)據抽取流程展開優(yōu)化?;赬ML的電力營銷數(shù)據抽取流程如圖1所示。
圖1 基于XML的電力營銷數(shù)據抽取流程圖
將圖1所示流程作為電力營銷數(shù)據抽取方法的設計基礎,針對傳統(tǒng)數(shù)據抽取方法在使用中出現(xiàn)的問題,采用設定數(shù)據轉化算法的形式對其展開優(yōu)化。
在抽取電力營銷系統(tǒng)數(shù)據的過程中,獲取電力營銷數(shù)據源是數(shù)據抽取的第一個環(huán)節(jié)[6]。只有獲取可用、穩(wěn)定、可靠的數(shù)據源,才能使數(shù)據抽取工作變得簡單。
一般來說,電力營銷數(shù)據的穩(wěn)定性較差,時常出現(xiàn)結構變化的問題。因此,在數(shù)據源獲取的過程中,采用電力營銷系統(tǒng)數(shù)據庫作為數(shù)據來源。
此次設計在廣域數(shù)據獲取的基礎上,設定1種適用于小范圍電力營銷數(shù)據的獲取方法,并將其應用于數(shù)據提取。為保證電力營銷信息可展開小范圍獲取工作,將原有的數(shù)據獲取鏈接方式更改為小范圍數(shù)據鏈接。小范圍數(shù)據鏈接如圖2所示。
圖2 小范圍數(shù)據鏈接示意圖
圖2中:圓形為信息數(shù)據;箭頭表示信息之間的鏈接。將數(shù)據鏈接設定為小范圍數(shù)據鏈接的形式后,通常會使用超文本敏感標題搜索(hyperlink-induced topic search,HITS)算法完成數(shù)據鏈接。但該算法難以適用于小范圍數(shù)據鏈接,因而需對HITS算法展開優(yōu)化[7]。將電力營銷系統(tǒng)中的網頁視作有向圖G(A,B)。其中:A為電力營銷系統(tǒng)中的數(shù)據存儲有效頁面,A={ai|1≤i≤n};B為A中不同信息元素的有序對集合,將其視為存儲頁面之間的連接,則B={bj|1≤j≤n}。在使用小范圍數(shù)據鏈接后,對原有的有向圖展開加權,形成新的有向圖G′(A′,B′)。在A不變的條件下,B′采用原有的設定,包含信息存儲網頁的間接鏈接[8]。在此基礎上,采用HITS算法中的加權數(shù)據矩陣P對網頁中的信息展開處理。在初始化過程中設定B′的權值為0,則信息對應模式為(m,n),在信息中存在的鏈接為P(m,n)=sup(i,j);反之,P(m,n)=0。將信息數(shù)據權威向量設定為D、中心向量設定為O,更新后的權威向量可以表示為D=PG′O。將上述設定部分進行整合,則可獲得電力營銷數(shù)據源,為:
(1)
式中:r為特征干擾項。
上述過程對電力營銷系統(tǒng)中的數(shù)據進行處理,通過向量控制數(shù)據抽取的有效性。
對上述獲取到的電力營銷數(shù)據源進行數(shù)據轉換。在此次設計中,設計基于XML的轉換工具,完成數(shù)據轉換過程?,F(xiàn)將此模型設定為3層,分別為源數(shù)據層、數(shù)據庫層以及目標數(shù)據庫層。數(shù)據轉換工具模型如圖3所示。
圖3 數(shù)據轉換工具模型
電力營銷數(shù)據轉換的過程分為2個部分,分別為遷移式數(shù)據轉換與合并式數(shù)據轉換。采用上述方法設計的數(shù)據轉換工具將源數(shù)據庫內數(shù)據轉移至目標數(shù)據庫內,并根據源數(shù)據庫設定目標數(shù)據庫。
在數(shù)據轉換過程中,啟動數(shù)據轉換工具中的數(shù)據調用部分,再采用息屏顯示(always on display,AOD)技術[9]連接源數(shù)據并獲取數(shù)據來源信息,根據事先設定好的數(shù)據轉換需求完成數(shù)據轉換。在此部分中,采用C語言編程的形式,控制XML數(shù)據轉換工具對數(shù)據的轉換過程。部分編程如下所示。
if(this.dgvconfig.Rows.Count>1)
//采用一對多或多對一復雜條件轉換
if(this.dgvconfig.Rows[0].Cells[0].Value.ToString()
//采用一對一數(shù)據轉換
for(inti=1;i 采用上述編程控制數(shù)據轉換過程,并將轉換數(shù)據設定為數(shù)據庫形式進行存儲,以便后續(xù)數(shù)據處理。 在數(shù)據區(qū)域定位中,需要解決的核心問題是將XML定位描述符導入處理后的數(shù)據中,并通過此定位描述符確定需要抽取數(shù)據的位置。 在電力營銷數(shù)據轉換結果中,其數(shù)據多為文檔對象模型(document object model,DOM)樹結構。這是1種數(shù)據嵌套式結構。對此結構進行分析,可獲取數(shù)據轉換結果的分布特征。根據數(shù)據分布特征,將設定的XML定位描述符分為2個部分。具體內容如下。 ①信息數(shù)據布局標簽[10]用于劃分電力營銷數(shù)據存儲的區(qū)域,是1種容器標簽。 ②數(shù)據內容特征標簽用于描述數(shù)據信息特征。通過此標簽,可以完成數(shù)據抽取。 由于數(shù)據庫內的數(shù)據區(qū)域是所有電力營銷信息記錄中的最小區(qū)域,因而采用自上而下的方式對數(shù)據標簽展開檢測。范圍計算過程為: (2) 式中:L為布局標簽的最大直徑;y為子節(jié)點與中心點的距離;v為子節(jié)點擴展速度;t為完成信息數(shù)據布局所需的時間。 設定信息數(shù)據布局標簽為z,其子節(jié)點中最大面積為zi,則zi滿足式(3)。 (3) 式中:area(z)為節(jié)點中的數(shù)據規(guī)模;α為閾值。 當出現(xiàn)滿足上述條件的數(shù)據標簽時,采用特殊標志對此數(shù)據進行定位。 通過上述設計,完成電力營銷數(shù)據智能抽取方法的基礎設計部分,并在此基礎上實現(xiàn)對數(shù)據抽取過程的設計。為保證數(shù)據抽取過程的可控性,對抽取過程中出現(xiàn)的字段進行設定。數(shù)據抽取過程設定情況統(tǒng)計如表1所示。 表1 數(shù)據抽取過程設定情況統(tǒng)計表 通過表1的設定,對數(shù)據抽取過程進行控制,并設計相應的數(shù)據抽取規(guī)則。采用抽取規(guī)則產生器設定數(shù)據抽取規(guī)則。數(shù)據抽取規(guī)則生成流程如圖4所示。 圖4 數(shù)據抽取規(guī)則生成流程 將抽取規(guī)則與數(shù)據抽取過程設定相結合,引用至原有的數(shù)據抽取方法設定中,并在原有的數(shù)據抽取方法中增加相應的數(shù)據映射[11-12]部分,以實現(xiàn)數(shù)據抽取。至此,基于XML的電力營銷數(shù)據智能抽取方法設計完成。 為驗證基于XML的電力營銷數(shù)據智能抽取方法的有效性,設計以下仿真試驗加以檢驗。 為保證測試過程的有效性,設定測試中使用的設備與軟件的運行環(huán)境如下所示。 開發(fā)環(huán)境為Visual Basic.NET。 運行環(huán)境為Win 10.0系統(tǒng)。 近年來,電力營銷系統(tǒng)受到信息入侵的情況比比皆是。為了提升電力營銷系統(tǒng)的數(shù)據抽取安全性,在測試過程中,將測試環(huán)境分為平穩(wěn)運行環(huán)境與存在入侵數(shù)據環(huán)境這2種狀態(tài),以觀察在安全程度不同的環(huán)境下的電力營銷數(shù)據抽取有效性。 為進一步對比基于XML的電力營銷數(shù)據智能抽取方法的使用性能,將其與傳統(tǒng)的基于POI優(yōu)化的數(shù)據抽取方法、基于可變時間窗口的數(shù)據抽取方法作對比。 在測試的過程中,采用某地級市電力營銷系統(tǒng)中的數(shù)據作為測試數(shù)據來源。設定此次測試數(shù)據訓練集中共包含數(shù)據20 000條,采用上述3種方法對其中的電力交易數(shù)據進行抽取,并對比3種方法的抽取效果。 在此次測試中,將數(shù)據抽取結果的召回率以及數(shù)據抽取過程的耗時作為測試指標。其中,召回率是反映數(shù)據抽取效果的重要指標,可以反映數(shù)據抽取方法的抽取精度。召回率越低,說明抽取精度越高。根據數(shù)據抽取過程的耗時,可以判斷不同方法的運行效率。耗時越短,則表明數(shù)據抽取方法的效率越高。 平穩(wěn)運行狀態(tài)下召回率測試結果如圖5所示。 圖5 平穩(wěn)運行狀態(tài)下召回率測試結果 分析圖5可知,在平穩(wěn)運行狀態(tài)下,隨著待抽取數(shù)據總量的不斷增加,不同方法抽取結果的召回率也在不斷變化?;赬ML的數(shù)據抽取方法的召回率在4%上下?;赑OI優(yōu)化的數(shù)據抽取方法的召回率介于9%~13%之間?;诳勺儠r間窗口的數(shù)據抽取方法的召回率介于8%~11%之間。相比之下,本文設計的基于XML的數(shù)據抽取方法的召回率更低,說明該方法對電力營銷數(shù)據抽取的精度更高。 數(shù)據入侵狀態(tài)下召回率測試結果如圖6所示。 圖6 數(shù)據入侵狀態(tài)下召回率測試結果 由圖6可知,在數(shù)據入侵狀態(tài)下,隨著待抽取數(shù)據總量的不斷增加,不同方法抽取結果的召回率也在不斷變化。相比于平穩(wěn)運行狀態(tài),此時基于XML的數(shù)據抽取方法的召回率有所增加,但也始終保持在7%之下?;赑OI優(yōu)化的數(shù)據抽取方法的召回率基本在12%~15%之間?;诳勺儠r間窗口的數(shù)據抽取方法的召回率在8%~11%之間。相比之下,本文設計的基于XML的數(shù)據抽取方法的召回率依舊較低,說明該方法對電力營銷數(shù)據抽取的精度也更高。 在上述檢驗不同方法抽取結果召回率的基礎上,將數(shù)據抽取過程耗時作為檢驗指標進行測試。數(shù)據抽取過程耗時測試結果如圖7所示。 圖7 數(shù)據抽取過程耗時測試結果 由圖7可知,隨著待抽取數(shù)據總量的不斷增加,不同方法的抽取過程耗時也在不斷變化。基于XML的數(shù)據抽取方法的抽取過程耗時始終保持在800 ms以下?;赑OI優(yōu)化的數(shù)據抽取方法的抽取過程耗時先增加后下降,最大耗時達到1 200 ms?;诳勺儠r間窗口的數(shù)據抽取方法的抽取過程耗時呈不斷增加態(tài)勢,最大超過1 400 ms。相比之下,本文設計的基于XML的數(shù)據抽取方法的抽取過程耗時更少,說明該方法對電力營銷數(shù)據的抽取效率更高。 針對傳統(tǒng)的數(shù)據抽取方法在使用中存在的抽取結果召回率偏高的問題,本文引用XML技術優(yōu)化電力營銷數(shù)據抽取過程。在此次研究中,主要完成了以下工作:首先,對電力營銷源數(shù)據采用小規(guī)模鏈接的形式,并獲取數(shù)據源信息,從根本上提升數(shù)據抽取的精度;然后,通過XML技術,控制數(shù)據的區(qū)域定位;最后,通過測試確定了基于XML的電力營銷數(shù)據智能抽取方法的可靠性。1.3 數(shù)據區(qū)域定位
1.4 數(shù)據抽取
2 試驗測試與結果分析
2.1 測試環(huán)境與內容
2.2 測試指標設定
2.3 平穩(wěn)運行狀態(tài)下的測試結果
2.4 數(shù)據入侵狀態(tài)下召回率測試結果
2.5 數(shù)據抽取過程耗時測試結果
3 結論