潘建宏,王磊,樊家樹,張俊茹,董愛迪
(1.國網(wǎng)吉林省電力有限公司,吉林 長春 130010;2.國網(wǎng)遼源供電公司,吉林 遼源 136200;3.國網(wǎng)吉林省電力有限公司信息通信公司,吉林 長春 130010;4.國網(wǎng)白城供電公司,吉林 白城 137000)
數(shù)據(jù)結(jié)構(gòu)逐漸變得多樣化,其數(shù)量和規(guī)模迅速增加,逐漸構(gòu)成了多源異構(gòu)數(shù)據(jù),對多源異構(gòu)數(shù)據(jù)進行融合、共享,即合理安排多源異構(gòu)數(shù)據(jù)的融合、共享順序,能夠保證相應(yīng)系統(tǒng)的可靠、穩(wěn)定運行,對此,相關(guān)學(xué)者們進行了研究。文獻[1]提出一種群智感知網(wǎng)絡(luò)中基于隱私保護的數(shù)據(jù)融合方法,用于抵抗來自云服務(wù)器和惡意用戶的差分攻擊,但是沒有確定共享順序。文獻[2]基于張量表示,提出一種新的域適配遷移學(xué)習(xí)中的特征表示方法,以縮小域間分布差異和保留樣本間流行一致性,但在該方法中,多源異構(gòu)數(shù)據(jù)融合、共享后,能耗較高,處理時間較長。
為了解決上述問題,文中提出了一種基于知識圖譜技術(shù)的多源異構(gòu)數(shù)據(jù)融合、共享方法。
在Internet 上的各種Web 頁面中,由于多源異構(gòu)數(shù)據(jù)源、數(shù)據(jù)調(diào)度系統(tǒng)、數(shù)據(jù)采集與管理中心的復(fù)雜性、多樣性等因素,在數(shù)據(jù)融合過程中,積累了大量的數(shù)據(jù)源參數(shù)。這些數(shù)據(jù)源參數(shù)的存儲方式、模型參數(shù)和編碼規(guī)則不同,部分?jǐn)?shù)據(jù)來自復(fù)雜的異構(gòu)數(shù)據(jù)庫。數(shù)據(jù)源參數(shù)的多源性和異構(gòu)性推動了多源異構(gòu)數(shù)據(jù)的融合過程[3-6]。
文中通過縱向數(shù)據(jù)融合和橫向數(shù)據(jù)融合來實現(xiàn)多源異構(gòu)數(shù)據(jù)的融合,這兩種融合方法可以有效縮短融合時間。異構(gòu)數(shù)據(jù)融合過程如圖1 所示。
圖1 多源異構(gòu)數(shù)據(jù)融合過程
縱向數(shù)據(jù)融合主要用來降低互聯(lián)網(wǎng)中多源異構(gòu)數(shù)據(jù)源、數(shù)據(jù)調(diào)度中心的數(shù)據(jù)差異性,多源異構(gòu)數(shù)據(jù)源和數(shù)據(jù)調(diào)度中心可通過縱向數(shù)據(jù)融合實現(xiàn)多源異構(gòu)數(shù)據(jù)的縱向統(tǒng)一。在進行縱向數(shù)據(jù)融合時,采集多源異構(gòu)數(shù)據(jù)參數(shù),采集的途徑為Web Service接口,通過該接口可采集各個來源的多源異構(gòu)數(shù)據(jù)參數(shù)[7-8]。
以多源異構(gòu)數(shù)據(jù)調(diào)度中心為例,通過采用知識圖譜技術(shù)獲得互聯(lián)網(wǎng)中不同網(wǎng)頁的多源異構(gòu)調(diào)度文件,并將其進行歸類和存儲,此時,采集多源異構(gòu)數(shù)據(jù)參數(shù)的過程就是對多源異構(gòu)數(shù)據(jù)中多源數(shù)據(jù)的融合過程[9-10]。
多源異構(gòu)數(shù)據(jù)參數(shù)采集完畢后,對不同種類的多源異構(gòu)數(shù)據(jù)參數(shù)進行匹配,并分析多源異構(gòu)數(shù)據(jù)參數(shù)間存在差異的原因。在匹配過程中,需要參照多源異構(gòu)數(shù)據(jù)源中的參數(shù)狀態(tài)進行匹配,以此實現(xiàn)不同多源異構(gòu)數(shù)據(jù)源與數(shù)據(jù)參數(shù)的融合。與此同時,在匹配過程中,設(shè)定縱向數(shù)據(jù)融合差異度對來源不同的異構(gòu)數(shù)據(jù)差異性進行分析。設(shè)定Dv,i為第i個多源異構(gòu)數(shù)據(jù)參數(shù)的融合度:
其中,Xt,i、Xb,i分別為第i個多源異構(gòu)數(shù)據(jù)參數(shù)的最小值和最大值;為多源異構(gòu)數(shù)據(jù)參數(shù)的均值。
在互聯(lián)網(wǎng)中,異構(gòu)數(shù)據(jù)的復(fù)雜性較高,在不同的異構(gòu)數(shù)據(jù)調(diào)度中心,異構(gòu)數(shù)據(jù)參數(shù)具有不同的融合形式,在進行縱向數(shù)據(jù)融合時,需要根據(jù)融合規(guī)則設(shè)定參數(shù)閾值,以降低異構(gòu)數(shù)據(jù)融合形式對數(shù)據(jù)融合結(jié)果的影響[11-12]。
橫向數(shù)據(jù)融合可以突破縱向數(shù)據(jù)融合的局限性,實現(xiàn)多源異構(gòu)數(shù)據(jù)源與數(shù)據(jù)調(diào)度中心的多源數(shù)據(jù)參數(shù)融合,即可以實現(xiàn)同一來源的異構(gòu)數(shù)據(jù)的融合,這與縱向數(shù)據(jù)融合有本質(zhì)的區(qū)別。橫向數(shù)據(jù)融合的多源異構(gòu)數(shù)據(jù)參數(shù)采集步驟與縱向數(shù)據(jù)參數(shù)采集步驟略有不同,在采集多源異構(gòu)數(shù)據(jù)參數(shù)時,采集的接口為SNMP 接口,這是因為橫向數(shù)據(jù)融合方式具有較高的差異性,Web Service 接口無法滿足橫向數(shù)據(jù)的采集需求,不能消除多源異構(gòu)數(shù)據(jù)源與數(shù)據(jù)調(diào)度中心的差異性。采集多源異構(gòu)數(shù)據(jù)參數(shù)后,對橫向數(shù)據(jù)參數(shù)進行匹配,并分析橫向數(shù)據(jù)參數(shù)間存在的差異[13-14]。
基于知識圖譜技術(shù)的多源異構(gòu)數(shù)據(jù)共享即將多源異構(gòu)數(shù)據(jù)分配至對應(yīng)的處理器中,與處理器中的數(shù)據(jù)共享優(yōu)先權(quán)值,多源異構(gòu)數(shù)據(jù)共享原理可用下式描述:
引入知識圖譜技術(shù),對多源異構(gòu)數(shù)據(jù)進行共享,知識圖譜拓?fù)浣Y(jié)構(gòu)如圖2 所示。
圖2 知識圖譜拓?fù)浣Y(jié)構(gòu)
事實上,數(shù)據(jù)庫中多源異構(gòu)數(shù)據(jù)的不同節(jié)點位置對應(yīng)不同的知識圖譜內(nèi)容,不同的多源異構(gòu)數(shù)據(jù)在Web 頁面中的分布不同。收集到一定數(shù)量的網(wǎng)頁知識圖譜后,建立異構(gòu)數(shù)據(jù)源差異中心,賦予其不同的多源數(shù)據(jù)結(jié)構(gòu)和多源異構(gòu)規(guī)則,采用相應(yīng)的數(shù)據(jù)處理手段處理差異最大的異構(gòu)數(shù)據(jù)節(jié)點,并顯示網(wǎng)頁中的數(shù)據(jù)結(jié)構(gòu)信息。
將異構(gòu)數(shù)據(jù)的中間節(jié)點加載到網(wǎng)絡(luò)異構(gòu)數(shù)據(jù)庫中,通過搜索多源異構(gòu)數(shù)據(jù)源的特征和屬性集關(guān)系,得到異構(gòu)數(shù)據(jù)的語義,利用數(shù)據(jù)源的特征數(shù)據(jù)和結(jié)構(gòu)信息建立多源異構(gòu)數(shù)據(jù)共享模型,模型的表達式為:
當(dāng)多源異構(gòu)數(shù)據(jù)節(jié)點的平均值為1 時,說明此數(shù)據(jù)節(jié)點上受到數(shù)據(jù)融合的干擾較為強烈,如果不能判斷干擾的來源,則需進行異構(gòu)數(shù)據(jù)差異處理,對多源異構(gòu)數(shù)據(jù)進行數(shù)據(jù)核查。
基于建立的多源異構(gòu)數(shù)據(jù)共享模型,實現(xiàn)對多源異構(gòu)數(shù)據(jù)的共享,在共享過程中,數(shù)據(jù)共享的優(yōu)先權(quán)值可作為共享的依據(jù)。當(dāng)共享順序固定時,設(shè)定共享的優(yōu)先權(quán)值為有名值和平均值的總和;確定異構(gòu)數(shù)據(jù)的開銷權(quán)值,開銷權(quán)值越大,證明多源異構(gòu)數(shù)據(jù)的異構(gòu)差異性越強,共享的效率越高,開銷權(quán)值越小,則多源異構(gòu)數(shù)據(jù)的異構(gòu)差異性越低。在確定共享順序的條件下,可采用提升多源異構(gòu)數(shù)據(jù)源優(yōu)先級的方式提升多源異構(gòu)數(shù)據(jù)的共享效率,實現(xiàn)多源異構(gòu)數(shù)據(jù)的共享。
為了驗證提出的基于知識圖譜技術(shù)的多源異構(gòu)數(shù)據(jù)融合、共享方法的實際工作效果,將其與文獻[1]方法進行對比實驗。在進行對比實驗前,需要搭建實驗平臺,實驗平臺的構(gòu)成包括兩臺PC 機,一臺PC機包括多源異構(gòu)數(shù)據(jù)源,一臺PC 機為數(shù)據(jù)調(diào)度中心,兩臺PC 機的工作主頻分別為1.8 GHz、3.5 GHz,可存儲4 GB 的多源異構(gòu)數(shù)據(jù),多源異構(gòu)數(shù)據(jù)節(jié)點的數(shù)量設(shè)定為50 個。
首先,測試不同方法在進行數(shù)據(jù)融合以及共享過程中的處理時間。實驗中,給出了某一多源異構(gòu)數(shù)據(jù)融合與共享實例如下:設(shè)多源異構(gòu)數(shù)據(jù)融合、共享過程中有三種多源異構(gòu)數(shù)據(jù)節(jié)點參與,其中數(shù)據(jù)節(jié)點1 的融合、共享周期為4,數(shù)據(jù)節(jié)點2 的融合軌跡符合泊松分布,其融合率為0.4,相當(dāng)于每三個融合、共享時間戳將達到一個多源異構(gòu)數(shù)據(jù)源節(jié)點,全部多源異構(gòu)數(shù)據(jù)節(jié)點發(fā)生融合和共享的時間均設(shè)定為2 ms,等待時間均設(shè)為1 ms。
其次,通過對數(shù)據(jù)融合、共享實例的分析可知,由于異構(gòu)數(shù)據(jù)優(yōu)先權(quán)值較高,數(shù)據(jù)節(jié)點1 首先進行融合、共享處理,其融合時間為3 ms,到達時間為4 ms,在時間點8 左右到達,共享時間為4 ms,所在的時間點位置為8;數(shù)據(jù)節(jié)點2 的異構(gòu)數(shù)據(jù)優(yōu)先權(quán)值在數(shù)據(jù)融合、共享過程中沒有發(fā)生變化,因此按照融合、共享順序進行處理,其融合時間為5 ms,所在的時間點位置為10,在時間點6 時到達,由于時間點位置靠后,因此融合時間為4 ms,共享時間為6 ms;數(shù)據(jù)節(jié)點3 的異構(gòu)數(shù)據(jù)優(yōu)先權(quán)值最小,最后一個被處理,其融合時間為3 ms,共享時間為4 ms,到達時間為2 ms。數(shù)據(jù)節(jié)點4 為共享節(jié)點,共享時間為4 ms,無等待時間。綜上,三種數(shù)據(jù)節(jié)點的融合時間為11 ms,共享時間為14 ms。
最后,采用文中方法和基于無線傳感器網(wǎng)絡(luò)擴展的多源異構(gòu)數(shù)據(jù)融合、共享方法進行數(shù)據(jù)融合和共享,統(tǒng)計兩種方法的綜合融合時間和共享時間,實驗結(jié)果如圖3 所示。
圖3 共享時間實驗結(jié)果
觀察圖3 可知,共有四個共享節(jié)點,文中方法的數(shù)據(jù)融合時間和共享時間在整體上少于文獻[1]方法消耗的時間,方法的魯棒性更好。
為了保證實驗不存在偶然性,對兩種方法的平均處理時間進行對比,處理時間為數(shù)據(jù)融合時間與共享時間的總和,平均處理時間的計算公式如下:
式中,μ=,Tservice表示數(shù)據(jù)融合時間和共享時間的平均值,ρ=表示異構(gòu)數(shù)據(jù)處理率。隨著多源異構(gòu)數(shù)據(jù)量的不斷增加,兩種方法的處理時間均有所上升,但文中方法的平均處理時間最短,文獻[1]方法的平均處理時間較長,則證明文中方法的數(shù)據(jù)融合、共享效率較高。
在多源異構(gòu)數(shù)據(jù)融合、共享過程中,會產(chǎn)生一定的能耗,能耗低則證明方法對數(shù)據(jù)融合與共享較為有效,兩種方法在進行數(shù)據(jù)融合、共享前后產(chǎn)生的能耗對比結(jié)果如圖4 所示。
圖4 能量消耗實驗結(jié)果
由圖4 能耗結(jié)果可知,與文獻[1]方法相比,采用文中方法進行數(shù)據(jù)融合、共享的處理時間更短,能耗更低。
為了解決多源異構(gòu)數(shù)據(jù)融合、共享方法出現(xiàn)的處理時間長、能耗高等問題,文中提出了一種基于知識圖譜技術(shù)的多源異構(gòu)數(shù)據(jù)融合、共享方法,該方法給出了多源異構(gòu)數(shù)據(jù)的融合、共享方式,通過采用知識圖譜技術(shù)獲得互聯(lián)網(wǎng)中不同網(wǎng)頁的多源異構(gòu)調(diào)度文件,搜索多源異構(gòu)數(shù)據(jù)源的特征和屬性集關(guān)系,通過數(shù)據(jù)融合、共享方式建立了數(shù)據(jù)共享模型,降低了數(shù)據(jù)融合過程中的能量消耗,處理時間短。