陳 超,胡才亮,崔 鈺,謝 芳,楊慧芳,王 健
(安徽明生恒卓科技有限公司,安徽合肥 230000)
數(shù)據(jù)集成是統(tǒng)計學(xué)的一個分支,現(xiàn)階段相關(guān)領(lǐng)域?qū)W者對于數(shù)據(jù)集成的研究已經(jīng)取得了一定進展,使得數(shù)據(jù)集成技術(shù)逐漸完善,然而,數(shù)據(jù)時空分布不均與數(shù)據(jù)混亂情況下的數(shù)據(jù)集成效果依然較差。尤其是工業(yè)信息、通信信息等各行各業(yè)所產(chǎn)生的龐大信息量通常都較為混亂,數(shù)據(jù)呈現(xiàn)無序性和多源性,因此,對多源異構(gòu)的數(shù)據(jù)集成便成為了該領(lǐng)域的研究重點之一。
針對此問題,一些學(xué)者進行了相關(guān)研究。文獻[1]提出了分布式數(shù)據(jù)集成方法,建立一種分布式環(huán)境下高性能數(shù)據(jù)工具,通過大數(shù)流式計算框架實現(xiàn)多源異構(gòu)數(shù)據(jù)的集成,但該方式太過依賴于數(shù)據(jù)工具,不適用于普及使用。文獻[2]提出了基于多目標優(yōu)化技術(shù)的多源異構(gòu)數(shù)據(jù)集成方法,通過建立多目標群交叉優(yōu)化算法處理不平衡數(shù)據(jù)集,過濾大部分多源異構(gòu)數(shù)據(jù),以此完成數(shù)據(jù)集成,但該方式過濾掉太多數(shù)據(jù),已無法滿足統(tǒng)計學(xué)中對多源異構(gòu)數(shù)據(jù)的集成要求。
多源異構(gòu)的數(shù)據(jù)集成通常以時間序列形式呈現(xiàn),數(shù)據(jù)量較大且集成難度增加,而利用傳統(tǒng)方法進行多源異構(gòu)時序數(shù)據(jù)集成出現(xiàn)執(zhí)行和抽取時間較長、篩選準確率較低的問題,因此該文提出了基于時空聚類的多源異構(gòu)時序數(shù)據(jù)集成方法。
在進行數(shù)據(jù)集成時,需要將時序不同步的混亂數(shù)據(jù)進行同步處理,該文通過三種方式匯集時序數(shù)據(jù),分別為濾除、插值以及混合式時序數(shù)據(jù)[3-4]。多源異構(gòu)時序數(shù)據(jù)匯集過程如圖1 所示。
圖1 數(shù)據(jù)匯集過程
在濾除處理過程中,選取最大的監(jiān)測數(shù)據(jù)間隔作為時序,如果時序數(shù)據(jù)出現(xiàn)遺漏,則選取離時間節(jié)點最近的時序數(shù)據(jù)來代替[5-6]。與濾除處理方式相反,插值過程中采用最小監(jiān)測數(shù)據(jù)作為時序數(shù)據(jù),通過采集最近點的多源異構(gòu)時序數(shù)據(jù)的平均值來填補缺失數(shù)據(jù)[7]。
混合時序數(shù)據(jù)匯集時間根據(jù)信息集匯聚的內(nèi)容而定,通常把信息集中的時序數(shù)據(jù)之一視為新的時間或重定義新的時序。各個時序數(shù)據(jù)之間以新的匯集順序為依據(jù),生成監(jiān)測時序數(shù)據(jù)[8-9]。
完成數(shù)據(jù)匯集后對多源異構(gòu)時序數(shù)據(jù)進行協(xié)同處理。在對時序數(shù)據(jù)源進行整理后,針對時序數(shù)據(jù)的字段增加三個基礎(chǔ)特性,包括時序數(shù)據(jù)標志、起始日期、時間間隔。同步處理后根據(jù)同步機制將時序數(shù)據(jù)錄入虛擬數(shù)據(jù)庫[10-11]。
通過分析數(shù)據(jù)匯聚層協(xié)調(diào)程度進行時序數(shù)據(jù)同步,時序數(shù)據(jù)的同步對于數(shù)據(jù)匯聚的協(xié)同程度影響很大,當(dāng)匯聚的數(shù)據(jù)都是時序數(shù)據(jù)時,時序數(shù)據(jù)同步機制便開始運行,從數(shù)據(jù)匯聚層開始收集時序數(shù)據(jù)中的所有時序數(shù)據(jù),如時序數(shù)據(jù)的名字、日期、大小、采樣間隔、時序數(shù)據(jù)的去向等及其同步方法,以此實現(xiàn)數(shù)據(jù)同步[12-13]。
實現(xiàn)多源異構(gòu)時序數(shù)據(jù)協(xié)同處理后對數(shù)據(jù)進行集成,集成流程如圖2 所示。
圖2 基于時空聚類的多源異構(gòu)時序數(shù)據(jù)集成流程
根據(jù)圖2 可知,多源異構(gòu)時序數(shù)據(jù)集成主要通過時空集合標定、建立時空聚類矩陣、建立數(shù)據(jù)集成函數(shù)、多源異構(gòu)時序數(shù)據(jù)集成來實現(xiàn)。
時空聚類以時空數(shù)據(jù)庫為基礎(chǔ),時空數(shù)據(jù)庫具備存儲大量信息的能力,能夠更好地對多源異構(gòu)時序數(shù)據(jù)進行整合與分析,在執(zhí)行數(shù)據(jù)儲存指令時,時空集合可提取現(xiàn)有多源異構(gòu)時序數(shù)據(jù)的處理條件信息,以此為基礎(chǔ),完善多源異構(gòu)時序數(shù)據(jù)[14-15]。時空集合P計算公式如式(1)所示:
式中,Wn表示多源異構(gòu)時序數(shù)據(jù)向量最小值;Wm表示最大多源異構(gòu)時序數(shù)據(jù)向量最大值。
在時空集合標定結(jié)果已知的情況下,建立時空聚類矩陣,在時空聚類矩陣中,多源異構(gòu)時序數(shù)據(jù)分為橫向與縱向兩種形式。在針對橫向多源異構(gòu)時序數(shù)據(jù)進行判定過程中,采用時空聚類算法中的最近鄰分析算法,其表達式為:
式中,R表示最近鄰分析結(jié)果;dobs表示在觀測過程中節(jié)點與最近鄰點之間的平均距離;dexp表示不同狀態(tài)下的節(jié)點期望值。
由于最近鄰算法只考慮到橫向數(shù)據(jù)中的點對點情況,因此,對縱向多源異構(gòu)時序數(shù)據(jù)進行分析時,需要引入時空聚類算法中的莫蘭指數(shù)E(·),通過計算莫蘭指數(shù)的期望值I實現(xiàn)對縱向多源異構(gòu)時序的判定:
式中,n為縱向排列數(shù)量。時空聚類矩陣可作為精準的信息判別條件,通過時空聚類矩陣描述時空數(shù)據(jù)庫中的存儲能力,當(dāng)時空數(shù)據(jù)庫的數(shù)據(jù)量達到目標值時,即可認為時空聚類矩陣進入飽和狀態(tài)。
數(shù)據(jù)集成函數(shù)是以時空聚類矩陣為基礎(chǔ)建立的多源異構(gòu)時序數(shù)據(jù)查詢限定條件,由于時空聚類算法的應(yīng)用性很強,隨著數(shù)據(jù)信息量的增加,集成函數(shù)的極限值覆蓋面積也會不斷增加,直到能夠滿足多源異構(gòu)時序數(shù)據(jù)的傳輸需求。數(shù)據(jù)集成函數(shù)D可表示為:
式中,Xn代表多源異構(gòu)時序數(shù)據(jù)最小參量,Xm代表多源異構(gòu)時序數(shù)據(jù)最大參量,且將信息參量混亂狀態(tài)的傳輸情況考慮在內(nèi),Xn與Xm的差值越大,數(shù)據(jù)集成函數(shù)性能越優(yōu)。
多源異構(gòu)時序數(shù)據(jù)集成就是利用時空聚類算法轉(zhuǎn)換所有數(shù)據(jù),數(shù)據(jù)集成主要分為兩個過程,分別是數(shù)據(jù)分離與數(shù)據(jù)集成。通過數(shù)據(jù)集成的層次結(jié)構(gòu)來選擇集成的方式[16]。將每一條多源異構(gòu)時序數(shù)據(jù)信息看作一個類,根據(jù)時空聚類算法規(guī)則集成越來越大的類,直到滿足預(yù)設(shè)條件。通過時空聚類算法中的統(tǒng)計量G來判斷多源異構(gòu)時序數(shù)據(jù)期望,表達式為:
式中,E(G)為G統(tǒng)計量的期望值;wi為多源異構(gòu)時序數(shù)據(jù)權(quán)重。
根據(jù)相似度的測量對時序聚類結(jié)果進行分組,比較數(shù)據(jù)庫中的時間序列相似度,在同一個簇中相似度高的數(shù)據(jù)列為一組而不同簇中的信息數(shù)據(jù)相差較大。多源異構(gòu)時序的集成是為了在不同時間域的同一個屬性時間序列數(shù)據(jù)庫中挖掘數(shù)據(jù)信息。無論是數(shù)據(jù)分離還是數(shù)據(jù)集成,用戶都可以根據(jù)自己的要求來設(shè)計多源異構(gòu)時序數(shù)據(jù)的分離和集成要求,從而更好地實現(xiàn)多源異構(gòu)時序數(shù)據(jù)集成。
為了研究該文提出的基于時空聚類的多源異構(gòu)時序數(shù)據(jù)集成方法的實際應(yīng)用效果,設(shè)計了相關(guān)實驗。選用傳統(tǒng)的基于多目標優(yōu)化的多源異構(gòu)數(shù)據(jù)集成方法和基于數(shù)據(jù)挖掘的多源異構(gòu)時序數(shù)據(jù)集成方法與該文的集成方法進行對比。實驗環(huán)境如圖3 所示。
圖3 實驗環(huán)境
系統(tǒng)接口與數(shù)據(jù)庫順利連接后就會讀取存儲空間內(nèi)的數(shù)據(jù),采用自動抽取方式提煉圖層要素,在后臺完成數(shù)據(jù)執(zhí)行和抽取,抽取過程不會顯示詳細的圖形數(shù)據(jù),抽取結(jié)果會直接輸入到數(shù)據(jù)庫內(nèi)部。三種方法的數(shù)據(jù)執(zhí)行時間和篩選時間實驗結(jié)果分別如表1 和表2 所示。
表1 執(zhí)行時間實驗結(jié)果
根據(jù)表1 與表2 可知,該文提出的基于時空聚類的多源異構(gòu)時序數(shù)據(jù)集成方法所用的數(shù)據(jù)執(zhí)行和抽取時間都低于傳統(tǒng)方法。由于用戶具有多樣性要求,因此需要抽取不同數(shù)據(jù),該文提出的集成方法在數(shù)據(jù)抽取過程中,只針對數(shù)據(jù)庫的部分數(shù)據(jù)進行提取,通過抽查分析解決這一問題,這樣既能很好地存儲相關(guān)數(shù)據(jù),又能提高執(zhí)行和抽取速度。
系統(tǒng)接口與數(shù)據(jù)庫順利連接后,需要重新獲取數(shù)據(jù)庫內(nèi)部的空間數(shù)據(jù),通過定義分析進行數(shù)據(jù)篩選,篩選準確率實驗結(jié)果如圖4 所示。
圖4 篩選準確率實驗結(jié)果
分析圖4 可知,隨著數(shù)據(jù)量的增加,篩選結(jié)果準確率開始呈現(xiàn)下降趨勢,但是該文提出的集成方法的準確率始終保持較高水平,原因是該文的集成方法在篩選過程中會將數(shù)據(jù)轉(zhuǎn)為shapefile 格式,采用時空聚類算法包含的時空數(shù)據(jù)庫存放多源異構(gòu)數(shù)據(jù),并對其進行數(shù)據(jù)集成處理,通過數(shù)據(jù)命名確保篩選結(jié)果的正確性,而傳統(tǒng)方法多采用盲目篩選的方式,篩選結(jié)果難以達到用戶要求。
順利完成篩選后對數(shù)據(jù)進行集成,實驗結(jié)果如圖5 所示。
圖5 數(shù)據(jù)集成實驗結(jié)果
觀察圖5 可知,該文提出的集成方法的集成效果更加好,原因是該文方法在對數(shù)據(jù)進行處理時,能夠很好地實現(xiàn)空間坐標轉(zhuǎn)換,提高了集成效率,確保集成效果更好,而傳統(tǒng)方法在集成過程中容易受到外界因素的影響,集成效果相對較差。
數(shù)據(jù)集成是解決大量數(shù)據(jù)信息存儲與分析的方法之一,對于多源異構(gòu)時序數(shù)據(jù)信息的集成需要加入具有針對性的算法來實現(xiàn)。該文通過時空聚類算法建立時空聚類矩陣,從而完成多源異構(gòu)時序數(shù)據(jù)的集成。實驗表明,所提出的基于時空聚類的多源異構(gòu)時序數(shù)據(jù)集成解決了傳統(tǒng)方式存在的不足,以此保障多源異構(gòu)時序數(shù)據(jù)集成的速度與質(zhì)量。