国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電力系統(tǒng)中數(shù)據(jù)集成技術(shù)關(guān)鍵問(wèn)題研究

2016-12-28 06:44:18劉冬蘭劉新馬雷任俊杰楊鋒
山東電力技術(shù) 2016年11期
關(guān)鍵詞:高頻率頁(yè)面數(shù)據(jù)庫(kù)

劉冬蘭,劉新,馬雷,任俊杰,楊鋒

(1.國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院,濟(jì)南250003;2.山東中實(shí)易通集團(tuán)有限公司,濟(jì)南250003)

電力系統(tǒng)中數(shù)據(jù)集成技術(shù)關(guān)鍵問(wèn)題研究

劉冬蘭1,劉新1,馬雷1,任俊杰2,楊鋒2

(1.國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院,濟(jì)南250003;2.山東中實(shí)易通集團(tuán)有限公司,濟(jì)南250003)

國(guó)家電網(wǎng)公司多年來(lái)建設(shè)了很多業(yè)務(wù)系統(tǒng),如辦公自動(dòng)化(OA)系統(tǒng)、營(yíng)銷系統(tǒng)、管理信息系統(tǒng)等。然而,電力企業(yè)信息化建設(shè)的深入以及業(yè)務(wù)系統(tǒng)中數(shù)據(jù)量的急劇增長(zhǎng)給查找數(shù)據(jù)信息帶來(lái)極大不便和新的挑戰(zhàn)。為此,提出了一個(gè)面向電力領(lǐng)域的數(shù)據(jù)集成系統(tǒng)架構(gòu),并對(duì)其中的數(shù)據(jù)獲取、抽取、整合等關(guān)鍵技術(shù)問(wèn)題進(jìn)行研究;提出了基于高頻率查詢?cè)~采集率的數(shù)據(jù)獲取方法、自底向上方法構(gòu)建數(shù)據(jù)抽取包裝器的思想以及無(wú)監(jiān)督學(xué)習(xí)的自動(dòng)化重復(fù)記錄檢測(cè)模式。針對(duì)電力系統(tǒng)各個(gè)信息孤島進(jìn)行數(shù)據(jù)集成,對(duì)各業(yè)務(wù)系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)和管理,方便用戶檢索出所需的數(shù)據(jù),為電力企業(yè)員工提供便捷服務(wù)。

數(shù)據(jù)集成;數(shù)據(jù)抽??;包裝器;自底向上;非結(jié)構(gòu)化數(shù)據(jù)

0 引言

近年來(lái),信息技術(shù)已經(jīng)滲透到各個(gè)領(lǐng)域,而且能采集、處理、存儲(chǔ)和顯示的信息量在不斷增長(zhǎng)。在電力系統(tǒng)領(lǐng)域中數(shù)字化技術(shù)應(yīng)用廣泛,如數(shù)字化繼電保護(hù)系統(tǒng)和數(shù)字化控制系統(tǒng)。由于各類相互獨(dú)立的信息管理及監(jiān)控系統(tǒng)較多且規(guī)模龐大,使數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù)種類繁多,在電力系統(tǒng)中產(chǎn)生大量數(shù)據(jù)。面對(duì)電力系統(tǒng)中迅速膨脹的數(shù)據(jù)信息量,運(yùn)行人員和決策者不僅需要對(duì)本行業(yè)的數(shù)據(jù)庫(kù)了如指掌,還需要熟練地對(duì)大量數(shù)據(jù)進(jìn)行分析處理。由于各類信息系統(tǒng)中的數(shù)據(jù)具有大規(guī)模、異構(gòu)性、分布式等特點(diǎn),使數(shù)據(jù)的分析挖掘變得尤為困難[1]。

通過(guò)數(shù)據(jù)集成與應(yīng)用集成技術(shù),建立能相互共享數(shù)據(jù)、有效協(xié)同工作的企業(yè)綜合管理信息平臺(tái),利用各專業(yè)信息系統(tǒng)多年積累的數(shù)據(jù)將其轉(zhuǎn)換成能為企業(yè)創(chuàng)造價(jià)值的信息。針對(duì)電力系統(tǒng)龐大的數(shù)據(jù)信息進(jìn)行分析、加工、提煉以獲取用戶所需的數(shù)據(jù),把各個(gè)信息孤島相互匯集成為決策輔助信息系統(tǒng),構(gòu)建面向電力領(lǐng)域的數(shù)據(jù)集成系統(tǒng),將分布式非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集中式存儲(chǔ)、管理并提供統(tǒng)一的查詢接口,使企業(yè)相關(guān)人員能夠高效、便捷地檢索出所需的數(shù)據(jù)[2]。因此,對(duì)電力領(lǐng)域數(shù)據(jù)集成系統(tǒng)平臺(tái)進(jìn)行研究可以為電力企業(yè)用戶提供決策支持,更好地保證信息系統(tǒng)的經(jīng)濟(jì)、安全穩(wěn)定運(yùn)行,具有重要意義。

1 數(shù)據(jù)集成系統(tǒng)架構(gòu)

電力系統(tǒng)中數(shù)據(jù)集成技術(shù)關(guān)鍵問(wèn)題主要分為數(shù)據(jù)獲取、數(shù)據(jù)抽取、數(shù)據(jù)整合、數(shù)據(jù)分析等幾方面。技術(shù)關(guān)鍵在于如何解決電力系統(tǒng)領(lǐng)域數(shù)據(jù)模式的異構(gòu)問(wèn)題,使操作人員不必受限于數(shù)據(jù)模型的異構(gòu)性、數(shù)據(jù)獲取、抽取和整合等問(wèn)題[3]。為此,對(duì)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行系統(tǒng)集成,通過(guò)對(duì)眾多業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行分析,提出了面向電力領(lǐng)域的數(shù)據(jù)集成系統(tǒng)架構(gòu),如圖1所示。

圖1 數(shù)據(jù)集成系統(tǒng)架構(gòu)

數(shù)據(jù)集成主要包括數(shù)據(jù)獲取、抽取、整合及分析,其中涉及一個(gè)核心技術(shù)問(wèn)題是領(lǐng)域模型管理,領(lǐng)域模型管理組件包含領(lǐng)域模型的定制和演化。領(lǐng)域模型定制是負(fù)責(zé)實(shí)體模式和實(shí)體之間的關(guān)系,領(lǐng)域模型演化負(fù)責(zé)檢測(cè)并及時(shí)更新實(shí)體之間的關(guān)系[4-5]。數(shù)據(jù)集成系統(tǒng)操作過(guò)程如下。

1)數(shù)據(jù)獲取。數(shù)據(jù)獲取通過(guò)構(gòu)造爬蟲(chóng)程序來(lái)實(shí)現(xiàn),爬蟲(chóng)根據(jù)提交的查詢表單,發(fā)現(xiàn)并選擇優(yōu)質(zhì)的Web數(shù)據(jù)庫(kù),通過(guò)對(duì)接口進(jìn)行理解分析,從網(wǎng)站上爬取出盡可能多的Web頁(yè)面存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù)。

2)數(shù)據(jù)抽取。數(shù)據(jù)抽取通過(guò)構(gòu)造包裝器來(lái)實(shí)現(xiàn),包裝器抽取對(duì)用戶感興趣的數(shù)據(jù)進(jìn)行準(zhǔn)確定位,把非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)抽取出來(lái)并轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ);對(duì)頁(yè)面中的數(shù)據(jù)進(jìn)行標(biāo)注和抽取,實(shí)現(xiàn)對(duì)同領(lǐng)域內(nèi)不同站點(diǎn)中Web數(shù)據(jù)的模式統(tǒng)一。

3)數(shù)據(jù)整合。數(shù)據(jù)整合包括重復(fù)記錄檢測(cè)和數(shù)據(jù)融合,通過(guò)一些重復(fù)檢測(cè)技術(shù)對(duì)抽取到的Web數(shù)據(jù)進(jìn)行檢測(cè),并對(duì)同一實(shí)體相同信息進(jìn)行合并,獲得結(jié)構(gòu)化數(shù)據(jù)。

4)數(shù)據(jù)分析。數(shù)據(jù)分析采用適當(dāng)?shù)姆椒▽?duì)數(shù)據(jù)整合中得到的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,對(duì)數(shù)據(jù)信息的功能進(jìn)行最大化開(kāi)發(fā),充分發(fā)揮數(shù)據(jù)的作用,獲取有用信息并對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié),進(jìn)而采用一些圖表形式展現(xiàn)給用戶。

2 基于高頻率查詢?cè)~采集率的數(shù)據(jù)獲取

數(shù)據(jù)集成的基礎(chǔ)問(wèn)題是數(shù)據(jù)獲取。通常只有把網(wǎng)站上眾多的網(wǎng)頁(yè)數(shù)據(jù)爬取下來(lái)存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù),才能進(jìn)行后續(xù)的數(shù)據(jù)抽取、整合操作,為市場(chǎng)情報(bào)分析等應(yīng)用提供決策支持。目前,普通的網(wǎng)絡(luò)爬蟲(chóng)軟件是單一的爬蟲(chóng)程序,面對(duì)眾多的業(yè)務(wù)系統(tǒng)數(shù)據(jù)需要對(duì)各業(yè)務(wù)系統(tǒng)頁(yè)面的查詢接口進(jìn)行解析,提交合適的查詢?cè)~,在短時(shí)間內(nèi)爬取大量網(wǎng)頁(yè),提高數(shù)據(jù)獲取效率[6]。

為達(dá)到較高的數(shù)據(jù)獲取效率,提出了基于高頻率查詢?cè)~采集率模型的數(shù)據(jù)獲取方法。通過(guò)統(tǒng)計(jì)網(wǎng)頁(yè)中漢字出現(xiàn)頻率,獲取高頻率列表用于估算候選詞的新數(shù)據(jù)獲取率,同時(shí)對(duì)網(wǎng)站數(shù)據(jù)庫(kù)進(jìn)行采樣,得到某一文本屬性的采樣數(shù)據(jù)庫(kù),采用多個(gè)特征自動(dòng)構(gòu)造訓(xùn)練樣本,利用多元線性回歸方法不斷訓(xùn)練樣本,進(jìn)而構(gòu)造基于高頻率查詢?cè)~采集率模型。在每一次獲取數(shù)據(jù)過(guò)程中使用此模型不斷迭代選擇查詢?cè)~向該文本屬性進(jìn)行提交,實(shí)現(xiàn)對(duì)網(wǎng)站數(shù)據(jù)庫(kù)的爬取,該方法有較高的數(shù)據(jù)覆蓋率。

基于高頻率查詢?cè)~采集率模型的數(shù)據(jù)獲取過(guò)程主要包括查詢?cè)~采新率模型構(gòu)建和網(wǎng)站數(shù)據(jù)庫(kù)獲取,如圖2所示。

第一階段是基于高頻率查詢?cè)~采新率模型的構(gòu)建。通過(guò)統(tǒng)計(jì)網(wǎng)站頁(yè)面中漢字出現(xiàn)頻率,獲取高頻率列表用于估算候選詞的新數(shù)據(jù)獲取率;使用一些常用的采樣方法對(duì)網(wǎng)站數(shù)據(jù)庫(kù)中待抽取數(shù)據(jù)的文本屬性進(jìn)行采樣,得到文本屬性的采樣數(shù)據(jù)庫(kù),利用網(wǎng)頁(yè)結(jié)構(gòu)特征構(gòu)建訓(xùn)練集,使用線性回歸方法對(duì)樣本進(jìn)行訓(xùn)練,得到基于高頻率查詢?cè)~采集率模型。

圖2 基于高頻率查詢?cè)~采集率模型的數(shù)據(jù)獲取過(guò)程

第二階段是利用第一階段構(gòu)建的模型來(lái)獲取網(wǎng)站數(shù)據(jù)庫(kù)。從提交的查詢列表中選擇一個(gè)有效的新查詢?cè)~重新提交,查詢提交后從所有的網(wǎng)站W(wǎng)eb數(shù)據(jù)庫(kù)中查詢數(shù)據(jù),返回結(jié)果頁(yè)面后抽取所需記錄存儲(chǔ)在本地?cái)?shù)據(jù)庫(kù),將采集到的相應(yīng)網(wǎng)站頁(yè)面存儲(chǔ)到本地?cái)?shù)據(jù)庫(kù),其中從結(jié)果頁(yè)面提取的數(shù)據(jù)已經(jīng)是待抽取數(shù)據(jù),屬于結(jié)構(gòu)化數(shù)據(jù);通過(guò)不斷迭代選擇新查詢?cè)~提交,實(shí)現(xiàn)對(duì)網(wǎng)站數(shù)據(jù)庫(kù)的獲取,直至獲取數(shù)據(jù)盡可能多地覆蓋到整個(gè)網(wǎng)站。為了提高數(shù)據(jù)獲取效率,可將此過(guò)程采用Map/Reduce方式來(lái)并行操作,可以有效解決數(shù)據(jù)獲取過(guò)程中URL分配調(diào)度面臨的負(fù)載均衡問(wèn)題。

3 基于自底向上方法的數(shù)據(jù)抽取包裝器的構(gòu)建

數(shù)據(jù)抽取包括頁(yè)面提取和語(yǔ)義標(biāo)注,該組件可以準(zhǔn)確提取目標(biāo)網(wǎng)頁(yè)中的目標(biāo)數(shù)據(jù),并對(duì)數(shù)據(jù)元素進(jìn)行語(yǔ)義理解,進(jìn)而準(zhǔn)確地識(shí)別數(shù)據(jù)元素和屬性標(biāo)簽的采樣頁(yè)面,提高對(duì)目標(biāo)數(shù)據(jù)的抽取準(zhǔn)確度。領(lǐng)域模型演化組件從更新的數(shù)據(jù)中檢測(cè)新的實(shí)體模式和新的關(guān)系,進(jìn)而及時(shí)更新領(lǐng)域模型。實(shí)體模式關(guān)系的動(dòng)態(tài)更新可采用支持向量機(jī)(Support Vector Machine,SVM)方法[7],利用數(shù)據(jù)系統(tǒng)中存在的數(shù)據(jù)及目標(biāo)頁(yè)面的視覺(jué)信息有效地檢測(cè)和建立不同實(shí)體之間的關(guān)系。

3.1 數(shù)據(jù)抽取包裝器健壯性評(píng)估方法

數(shù)據(jù)抽取通過(guò)構(gòu)造包裝器來(lái)實(shí)現(xiàn),所謂包裝器是指使用一個(gè)程序把感興趣的數(shù)據(jù)從網(wǎng)站頁(yè)面提取出來(lái),并轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和管理[8]。

數(shù)據(jù)抽取的關(guān)鍵問(wèn)題在于網(wǎng)站頁(yè)面中如何定位數(shù)據(jù)的準(zhǔn)確位置,自動(dòng)化抽取中一般將網(wǎng)站頁(yè)面轉(zhuǎn)化成對(duì)應(yīng)的DOM樹(shù),利用網(wǎng)站DOM樹(shù)的頁(yè)面和結(jié)構(gòu)特征,構(gòu)造XPath路徑表達(dá)式來(lái)定位數(shù)據(jù),這種XPath路徑表達(dá)式就稱之為包裝器[9]。例如,某省電力公司招聘網(wǎng)站上信息安全工程師崗位招聘頁(yè)面對(duì)應(yīng)的DOM樹(shù)如圖3所示。

圖3 網(wǎng)站頁(yè)面對(duì)應(yīng)的DOM樹(shù)結(jié)構(gòu)

構(gòu)造XPath路徑表達(dá)式可通過(guò)遍歷HTMLDOM樹(shù)得到,即W1=//html/body/div[2]/table/td[4]/text()就是所構(gòu)造的包裝器,由此包裝器能準(zhǔn)確抽取到工作地點(diǎn)是濟(jì)南。此包裝器是采用自頂向下方式構(gòu)建的,包含了頁(yè)面DOM樹(shù)中從根節(jié)點(diǎn)到待抽取節(jié)點(diǎn)的所有謂詞。但是此網(wǎng)站頁(yè)面中如果刪除第一個(gè)div,或者在第二個(gè)div下面添加了新的謂詞td或table,那么上述包裝器就失效了。

例如,包裝器表達(dá)式W2=//div[@class=‘btname’]/*/td[4]/text(),顯然,包裝器W2性能優(yōu)于W1,因?yàn)楫?dāng)?shù)谝粋€(gè)div謂詞被刪除后,包裝器W2還能繼續(xù)抽取到正確的工作地點(diǎn)信息;包裝器表達(dá)式W3=//table[@width=‘95%’]/td[4]/text(),顯然,包裝器W3性能更優(yōu)于W2,因?yàn)楫?dāng)在第二個(gè)謂詞div下面添加了新的謂詞td或table后,包裝器W3能正確抽取到準(zhǔn)確的工作地點(diǎn)信息。從上述可以看出,數(shù)據(jù)抽取包裝器表達(dá)式XPath越少依賴于DOM樹(shù)結(jié)構(gòu),其包裝器的健壯性越好。

包裝器健壯性是表示當(dāng)網(wǎng)頁(yè)隨著時(shí)間變化時(shí),包裝器將繼續(xù)保持抽取數(shù)據(jù)節(jié)點(diǎn)的能力,是測(cè)量包裝器在變化后的新版本網(wǎng)頁(yè)中抽取數(shù)據(jù)的能力。衡量數(shù)據(jù)抽取包裝器的健壯性,通常根據(jù)數(shù)據(jù)抽取的查準(zhǔn)率和查全率來(lái)判斷。查準(zhǔn)率表示抽取數(shù)據(jù)的準(zhǔn)確度,查全率表示獲取正確數(shù)據(jù)的覆蓋程度。

3.2 數(shù)據(jù)抽取包裝器構(gòu)建方法

為提高數(shù)據(jù)抽取包裝器的健壯性,根據(jù)自底向上的邏輯歸納設(shè)計(jì)思想,提出了一種自底向上方法構(gòu)建數(shù)據(jù)抽取包裝器。先選擇一些普通的特定XPath路徑表達(dá)式,在此基礎(chǔ)上提出一個(gè)規(guī)則,匹配和特化每個(gè)節(jié)點(diǎn)直到數(shù)據(jù)抽取包裝器表達(dá)式和需要抽取的目標(biāo)數(shù)據(jù)節(jié)點(diǎn)信息完全匹配,同時(shí)盡可能地使其生成的數(shù)據(jù)抽取包裝器查全率和查準(zhǔn)率都等于1,即使抽取數(shù)據(jù)的準(zhǔn)確率盡量達(dá)到完全準(zhǔn)確,并且使抽取的數(shù)據(jù)覆蓋到網(wǎng)站上所有的結(jié)果數(shù)據(jù)。

假設(shè)D表示一系列有標(biāo)簽的XML文檔集合,包含了相應(yīng)的網(wǎng)頁(yè)中若干個(gè)感興趣的待抽取數(shù)據(jù)節(jié)點(diǎn)信息。對(duì)于任意一個(gè)待抽取節(jié)點(diǎn)d∈D,我們想要從有標(biāo)簽的文檔D中抽取目標(biāo)節(jié)點(diǎn),記為T(d)。對(duì)于任意給定的XPath路徑表達(dá)式x,我們想要生成一個(gè)XPath表達(dá)式x使其滿足如下規(guī)則。

對(duì)于任意的d,使x(d)=T(d),即使用包裝器XPath表達(dá)式抽取的結(jié)果正好等于待抽取的目標(biāo)節(jié)點(diǎn)。根據(jù)信息檢索中的評(píng)估方法定義評(píng)估標(biāo)準(zhǔn)

式中:P為查準(zhǔn)率,R為查全率。構(gòu)建健壯性的包裝器應(yīng)使其包裝器的查準(zhǔn)率和查全率都等于1。

4 重復(fù)記錄檢測(cè)

Web數(shù)據(jù)庫(kù)之間的同一實(shí)體存在重復(fù)記錄,即同一條信息可能存在于多個(gè)數(shù)據(jù)庫(kù)中。從網(wǎng)站上抽取的數(shù)據(jù)里有重復(fù)信息會(huì)造成數(shù)據(jù)冗余,冗余數(shù)據(jù)會(huì)增大所占空間導(dǎo)致數(shù)據(jù)查詢效率降低,對(duì)數(shù)據(jù)分析造成一定影響。從抽取的結(jié)果數(shù)據(jù)中識(shí)別出重復(fù)的數(shù)據(jù)記錄稱之為重復(fù)記錄檢測(cè),而數(shù)據(jù)整合主要包括重復(fù)記錄檢測(cè)和數(shù)據(jù)融合。數(shù)據(jù)整合的過(guò)程是利用一些重復(fù)記錄檢測(cè)技術(shù)對(duì)抽取到的數(shù)據(jù)信息進(jìn)行檢測(cè),并對(duì)同一實(shí)體相同信息進(jìn)行合并,提高數(shù)據(jù)的質(zhì)量,進(jìn)而提高數(shù)據(jù)檢索的速度。手工檢測(cè)重復(fù)記錄得到的數(shù)據(jù)準(zhǔn)確率高,但是工作量大并且靠人工檢測(cè)速度較慢。因此,研究自動(dòng)化的重復(fù)記錄檢測(cè)技術(shù)變得尤為重要。

重復(fù)記錄檢測(cè)的關(guān)鍵問(wèn)題在于識(shí)別出兩條數(shù)據(jù)記錄是否完全重復(fù)或相似,即兩條數(shù)據(jù)記錄表達(dá)的信息是否相同或相近。目前識(shí)別重復(fù)記錄的算法主要有編輯距離匹配、字段匹配、聚類等[10-11]。為此,提出一種無(wú)監(jiān)督學(xué)習(xí)的自動(dòng)化重復(fù)記錄檢測(cè)方法,通過(guò)采用聚類分析方法自動(dòng)選擇初始訓(xùn)練集,采用SVM的分類迭代方式,構(gòu)建數(shù)據(jù)記錄分類模型,達(dá)到重復(fù)記錄識(shí)別及檢測(cè)分類合并的目的。

無(wú)監(jiān)督學(xué)習(xí)的自動(dòng)化重復(fù)記錄檢測(cè)過(guò)程如下。

1)分塊/索引。兩個(gè)數(shù)據(jù)庫(kù)D1和D2之間的記錄對(duì)是D1和D2大小的乘積,為提高重復(fù)記錄檢測(cè)效率,可使用分塊或者索引技術(shù)先分類,將不可能重復(fù)的記錄對(duì)進(jìn)行過(guò)濾。

2)獲取比較向量。分析實(shí)體屬性類型,選擇相似度計(jì)算方法,對(duì)分塊索引后的記錄對(duì)計(jì)算記錄對(duì)中相同屬性值的相似度,進(jìn)一步獲取比較向量。

3)獲取訓(xùn)練樣本。自動(dòng)化的重復(fù)記錄檢測(cè)通常選擇聚類算法訓(xùn)練樣本集,為提高樣本集質(zhì)量,采用聚類集成方法結(jié)合多個(gè)聚類結(jié)果,獲取其一致結(jié)果作為訓(xùn)練樣本集。

4)比較向量分類。采用已獲取的訓(xùn)練樣本集訓(xùn)練一個(gè)SVM分類器,用該分類器對(duì)剩余未分類的比較向量進(jìn)行分類。分類包括匹配對(duì)和不匹配對(duì),并對(duì)分類結(jié)果按照可信度排序,選擇可信度大的比較向量更新訓(xùn)練樣本,重新訓(xùn)練SVM分類器,不斷迭代執(zhí)行,直到滿足某一條件結(jié)束。分類得到的匹配對(duì)比較向量集對(duì)應(yīng)的記錄就是重復(fù)記錄檢測(cè)的結(jié)果。

無(wú)監(jiān)督學(xué)習(xí)的自動(dòng)化重復(fù)記錄檢測(cè)采用聚類集成方法,結(jié)合多個(gè)聚類結(jié)果自動(dòng)選擇初始訓(xùn)練集,提高了樣本集的準(zhǔn)確度,采用SVM迭代分類方法構(gòu)建數(shù)據(jù)記錄分類模型,提高了數(shù)據(jù)記錄的分類準(zhǔn)確度,進(jìn)一步提高數(shù)據(jù)融合性能。

5 結(jié)語(yǔ)

針對(duì)電力領(lǐng)域眾多的業(yè)務(wù)系統(tǒng)數(shù)據(jù),為便于企業(yè)用戶快捷地檢索信息,對(duì)電力領(lǐng)域中各業(yè)務(wù)系統(tǒng)架構(gòu)等進(jìn)行了初步調(diào)查研究,研究基于高頻率查詢?cè)~采集率的數(shù)據(jù)獲取方法、采用自底向上方法構(gòu)建數(shù)據(jù)抽取包裝器思想以及無(wú)監(jiān)督學(xué)習(xí)的自動(dòng)化重復(fù)記錄檢測(cè)模式,并設(shè)計(jì)了電力系統(tǒng)數(shù)據(jù)集成系統(tǒng)架構(gòu)。針對(duì)電力系統(tǒng)領(lǐng)域龐大的數(shù)據(jù)信息進(jìn)行分析加工,進(jìn)一步提煉用戶所需的數(shù)據(jù),對(duì)各個(gè)信息孤島進(jìn)行數(shù)據(jù)集成,對(duì)各業(yè)務(wù)系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)和管理,并且提供統(tǒng)一的查詢接口,方便企業(yè)用戶快速檢索出所需數(shù)據(jù)。

[1]董永權(quán).Deep Web數(shù)據(jù)集成關(guān)鍵問(wèn)題研究[D].濟(jì)南:山東大學(xué),2010.

[2]羅學(xué)禮,徐樹(shù)振,王森,等.電力企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)檢索研究[J].計(jì)算機(jī)與數(shù)字工程,2014,42(4):729-733.

[3]馬玉梅.電力系統(tǒng)中數(shù)據(jù)集成技術(shù)的研究與應(yīng)用[D].保定:華北電力大學(xué),2006.

[4]DONG Yongquan,LI Qingzhong.A Robust Approach of Automat ic Web Data Record Extraction[J].Journal of Computational Information Systems,2009,6(6):1 757-1 766.

[5]XU Xiuxing,LI Qingzhong,DONG Yongquan et al.Dynamically Constructing a Global Schema for Web Entities.Web Information Systems&Applications Conference[C].Huhhot:IEEE,2010.

[6]劉偉.Deep Web數(shù)據(jù)集成中的關(guān)鍵技術(shù)研究[D].北京:中國(guó)人民大學(xué),2008.

[7]閆中敏,李慶忠,彭朝暉,等.DWDIS:面向分析的Deep Web數(shù)據(jù)集成系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2010,47(S1):479-483.

[8]RAHUL Gupta,SUNITA Sarawagi.Domain Adaptation of Information Extraction Models[J].SIGMOD Record,2008,37(4):35-40.

[9]NILESH Dalvi,RAVI Kumar,MOHAMED Soliman.Automatic Wrappers for Large Scale Web Extraction[J].In VLDB,2011,4(4):219-230.

[10]葉煥倬,吳迪.相似重復(fù)記錄清理方法研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(9):56-66.

[11]邱越峰,田增平,季文赟,等.一種高效的檢測(cè)相似重復(fù)記錄的方法[J].計(jì)算機(jī)學(xué)報(bào),2001,24(1):69-77.

Key Problems of Data Integration Technology in Electric Power System

LIU Donglan1,LIU Xin1,MA Lei1,REN Junjie2,YANG Feng2
(1.State Grid Shandong Electric Power Research Institute,Jinan 250003,China;2.Shandong Zhongshi Yitong Group Co.,Ltd.,Jinan 250003,China)

The State Grid has built amounts of business systems for many years,such as OA system,marketing system and management information system.However,with the deepening of power enterprise informatization construction and the sharp increase of data in business systems,it brings new challenges and inconvenience for data seekers.An architecture model of data integration in the power field is proposed,and key problems in this model such as data acquiring,extracting and integrating are investigated.A new date acquirement method based on high frequency words collecting rate is put forward,a concept to build data extraction wrapper through bottom-up approach and an automating repetitive record detection model for unsupervised learning are also proposed.Aiming at the information isolated island in the electric power system the data is integrated,and the unified storage and management of unstructured data in business systems are conducted,which can help users to obtain required data and to provide convenient services for staffs in the power enterprise.

data integration;data extraction;wrapper;bottom-up;unstructured data

TP311

A

1007-9904(2016)11-0023-05

2016-05-26

劉冬蘭(1987),女,工程師,從事電力系統(tǒng)信息安全技術(shù)督查工作。

猜你喜歡
高頻率頁(yè)面數(shù)據(jù)庫(kù)
大狗熊在睡覺(jué)
刷新生活的頁(yè)面
計(jì)算機(jī)與信息技術(shù)發(fā)展趨勢(shì)芻探
成才之路(2018年12期)2018-05-26 10:08:48
仨月胸透四次,“共享體檢”卡在哪
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
怎樣有效地記背英語(yǔ)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
高頻率使用芐嘧磺隆對(duì)固氮魚(yú)腥藻細(xì)胞生長(zhǎng)和抗氧化系統(tǒng)的影響
盐边县| 县级市| 富源县| 扶风县| 景泰县| 田阳县| 锡林浩特市| 嘉荫县| 温泉县| 和静县| 阳西县| 徐闻县| 荃湾区| 高要市| 安徽省| 松滋市| 甘孜| 土默特右旗| 邵阳市| 大名县| 长宁区| 石城县| 新巴尔虎右旗| 盱眙县| 珲春市| 皮山县| 大冶市| 邢台县| 澄江县| 辽阳市| 临夏市| 宜昌市| 德钦县| 全椒县| 惠东县| 白朗县| 虎林市| 广东省| 平果县| 江津市| 湖北省|